このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211216となっている論文です。

PDF登録状況(公開日: 20211216)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 障害物のある空間における経路探索戦略としての粒子群最適化 [全文訳有]

Using Particle Swarm Optimization as Pathfinding Strategy in a Space with Obstacles ( http://arxiv.org/abs/2201.07212v1 )

ライセンス: CC BY 4.0
David(参考訳) particle swarm optimization (pso) は確率的および集団的適応最適化に基づく探索アルゴリズムである。 本稿では,広い範囲のアプリケーションにおいてパスプランニングの効率を向上させるためのパスファインディング戦略を提案する。 本研究の目的は, PSOパラメータ(粒子数, 重み定数, 粒子定数, グローバル定数)が解経路を与えるアルゴリズム性能に及ぼす影響を検討することである。 PSOパラメータの増大により、Swarmは目標点まで速く移動するが、ランダムな動きが多すぎるために収束するのに長い時間がかかる。 様々なパラメータを持つ様々なシミュレーションから、psoアルゴリズムは障害物のある空間において解経路を提供できることが証明されている。

Particle swarm optimization (PSO) is a search algorithm based on stochastic and population-based adaptive optimization. In this paper, a pathfinding strategy is proposed to improve the efficiency of path planning for a broad range of applications. This study aims to investigate the effect of PSO parameters (numbers of particle, weight constant, particle constant, and global constant) on algorithm performance to give solution paths. Increasing the PSO parameters makes the swarm move faster to the target point but takes a long time to converge because of too many random movements, and vice versa. From a variety of simulations with different parameters, the PSO algorithm is proven to be able to provide a solution path in a space with obstacles.
翻訳日:2022-01-23 22:13:52 公開日:2021-12-16
# グラフ群を微分的に記述する

Differentially Describing Groups of Graphs ( http://arxiv.org/abs/2201.04064v1 )

ライセンス: Link先を確認
Corinna Coupette, Sebastian Dalleiger, and Jilles Vreeken(参考訳) 自閉症児の神経接続は、健常児や自閉症青年の神経接続とどのように異なるか? グローバルな貿易ネットワークのパターンは、商品のクラス間で共有され、これらのパターンは時間とともにどのように変化するのか? グラフの集合とこれらのグラフの分割をグループに与え、あるグループ内のグラフが共通しているもの、他のグループ内のグラフと体系的にどう異なるか、グラフの複数のグループがどのように関連しているかを発見する。 この課題をグラフ群解析と呼び、統計学的に有意な部分グラフを用いて、グラフ群間の類似点と相違点を記述する。 グラフ群分析を行うために,最大エントロピーモデリングを用いて,統計的に有意な関係を持つサブグラフの非冗長集合を同定するgragraを提案する。 幅広い合成および実世界のグラフ群に関する広範な実験を通して、Gragraが実際にうまく機能していることを確認する。

How does neural connectivity in autistic children differ from neural connectivity in healthy children or autistic youths? What patterns in global trade networks are shared across classes of goods, and how do these patterns change over time? Answering questions like these requires us to differentially describe groups of graphs: Given a set of graphs and a partition of these graphs into groups, discover what graphs in one group have in common, how they systematically differ from graphs in other groups, and how multiple groups of graphs are related. We refer to this task as graph group analysis, which seeks to describe similarities and differences between graph groups by means of statistically significant subgraphs. To perform graph group analysis, we introduce Gragra, which uses maximum entropy modeling to identify a non-redundant set of subgraphs with statistically significant associations to one or more graph groups. Through an extensive set of experiments on a wide range of synthetic and real-world graph groups, we confirm that Gragra works well in practice.
翻訳日:2022-01-16 16:32:13 公開日:2021-12-16
# (参考訳) 変圧器の木--木を表す変圧器の能力に関する理論的解析 [全文訳有]

Trees in transformers: a theoretical analysis of the Transformer's ability to represent trees ( http://arxiv.org/abs/2112.11913v1 )

ライセンス: CC BY 4.0
Qi He, Jo\~ao Sedoc, Jordan Rodu(参考訳) トランスフォーマーネットワークは自然言語処理におけるデファクトスタンダードアーキテクチャである。 現在、トランスフォーマーのツリー構造を捉える能力に関する理論的分析は行われていない。 我々はトランスフォーマーネットワークがツリーのトランスダクション問題に重要な木構造を学習する能力に焦点をあてる。 まず,可能なすべての木を列挙した木構造を学習するための標準トランスフォーマーアーキテクチャの理論的能力を解析し,ラベルのない木と定義する。 次に、ReLUアクティベーション関数を持つ2つの線形層が、2つの非ゼロ独立スタートバックボーンから任意の木のバックボーンを復元できることを証明する。 これは、トランスフォーマーが理論上ツリー構造をうまく学習できることを意味する。 合成データを用いて実験を行い,木の位置情報が明示的にエンコードされる変圧器と比較して,標準変圧器の精度が同等であることを確認した。 これは、Transformerがツリー構造を学習できることを実証的に確認する。

Transformer networks are the de facto standard architecture in natural language processing. To date, there are no theoretical analyses of the Transformer's ability to capture tree structures. We focus on the ability of Transformer networks to learn tree structures that are important for tree transduction problems. We first analyze the theoretical capability of the standard Transformer architecture to learn tree structures given enumeration of all possible tree backbones, which we define as trees without labels. We then prove that two linear layers with ReLU activation function can recover any tree backbone from any two nonzero, linearly independent starting backbones. This implies that a Transformer can learn tree structures well in theory. We conduct experiments with synthetic data and find that the standard Transformer achieves similar accuracy compared to a Transformer where tree position information is explicitly encoded, albeit with slower convergence. This confirms empirically that Transformers can learn tree structures.
翻訳日:2021-12-26 13:35:41 公開日:2021-12-16
# (参考訳) 活動ベースおよびエージェントベースのメルボルン輸送モデル(atom: a open multi-modal transport model for greater melbourne)

Activity-based and agent-based Transport model of Melbourne (AToM): an open multi-modal transport simulation model for Greater Melbourne ( http://arxiv.org/abs/2112.12071v1 )

ライセンス: CC BY 4.0
Afshin Jafari, Dhirendra Singh, Alan Both, Mahsa Abdollahyar, Lucy Gunn, Steve Pemberton, Billie Giles-Corti(参考訳) 近年, エージェントベース, アクティビティベースによる輸送システムのシミュレーションモデルが注目されている。 しかし、都市全体での歩行やサイクリングなどの交通の活発なモードの詳細な表現を含む研究はほとんどなく、電動化モードが主要な関心事であることが多い。 本稿では,メルボルン大都市圏に焦点を当てたマルチモーダルエージェントとアクティビティに基づく交通シミュレーションモデルを構築するためのオープンワークフローについて,運転,公共交通,サイクリング,歩行の4つの主要な移動モードに対するモード選択校正プロセスを含む。 シミュレーションモデルのインプットとして生成された合成人口は、2016年国勢調査に基づくメルボルンの人口であり、ビクトリア州の2016-18年旅行調査データに基づく日々の活動と旅行である。 シミュレーションモデルで使用される道路網は、含まれた旅行モードを介してアクセス可能なすべての公共道路を含んでいる。 シミュレーションモデルのアウトプットと実世界からの観測結果を, モードシェア, 道路体積, 走行時間, 走行距離の観点から比較した。 これらの比較を通じて,本モデルがトラベラーのモード選択と道路利用行動に適していることを示した。

Agent-based and activity-based models for simulating transportation systems have attracted significant attention in recent years. Few studies, however, include a detailed representation of active modes of transportation - such as walking and cycling - at a city-wide level, where dominating motorised modes are often of primary concern. This paper presents an open workflow for creating a multi-modal agent-based and activity-based transport simulation model, focusing on Greater Melbourne, and including the process of mode choice calibration for the four main travel modes of driving, public transport, cycling and walking. The synthetic population generated and used as an input for the simulation model represented Melbourne's population based on Census 2016, with daily activities and trips based on the Victoria's 2016-18 travel survey data. The road network used in the simulation model includes all public roads accessible via the included travel modes. We compared the output of the simulation model with observations from the real world in terms of mode share, road volume, travel time, and travel distance. Through these comparisons, we showed that our model is suitable for studying mode choice and road usage behaviour of travellers.
翻訳日:2021-12-26 13:24:03 公開日:2021-12-16
# レーザー粉末層融合における内部熱画像データと機械学習による欠陥予測

Predicting Defects in Laser Powder Bed Fusion using in-situ Thermal Imaging Data and Machine Learning ( http://arxiv.org/abs/2112.11212v1 )

ライセンス: Link先を確認
Sina Malakpour Estalaki, Cody S. Lough, Robert G. Landers, Edward C. Kinzel, Tengfei Luo(参考訳) レーザー粉末層融合(LPBF)プロセスにおける添加性製造(AM)における局所熱履歴の変化は微視的欠陥を引き起こす可能性がある。 in-situ sensingは欠陥を最小限に抑えるためにamプロセスを監視するために提案されているが、その成功にはセンシングデータとポロシティの間の定量的な関係を確立する必要がある。 本研究では,その場熱画像データを用いてlpbfステンレス鋼材料のミクロポーロシティを予測できる機械学習(ml)モデルを開発した。 本研究は熱履歴から明らかな2つの特徴を考察する: 見かけの融解閾値 (/tau) を超える時間と最大放射率 (t_{max}) である。 これらの特徴は計算され、構築された材料の各ボクセルに格納され、入力として使用される。 各voxelのバイナリ状態(欠陥または正常のいずれか)は出力である。 異なるMLモデルはバイナリ分類タスクのためにトレーニングされ、テストされる。 各ボクセルの熱的特徴を利用して独自の状態を予測することに加えて、隣接するボクセルの熱的特徴も入力として含まれる。 これにより予測精度が向上し、各ボクセル周辺の熱輸送物理が最終状態に寄与していることが示されている。 訓練されたモデルのうち、テストセットのF1スコアはランダムな森林で0.96以上に達する。 mlモデルに基づく特徴重要度分析により、t_{max} は /tau よりもボクセル状態にとって重要であることが示された。 この分析により、現在のボクセルより上のボクセルの熱履歴は、その下にあるものよりも影響が大きいことが判明した。

Variation in the local thermal history during the laser powder bed fusion (LPBF) process in additive manufacturing (AM) can cause microporosity defects. in-situ sensing has been proposed to monitor the AM process to minimize defects, but the success requires establishing a quantitative relationship between the sensing data and the porosity, which is especially challenging for a large number of variables and computationally costly. In this work, we develop machine learning (ML) models that can use in-situ thermographic data to predict the microporosity of LPBF stainless steel materials. This work considers two identified key features from the thermal histories: the time above the apparent melting threshold (/tau) and the maximum radiance (T_{max}). These features are computed, stored for each voxel in the built material, are used as inputs. The binary state of each voxel, either defective or normal, is the output. Different ML models are trained and tested for the binary classification task. In addition to using the thermal features of each voxel to predict its own state, the thermal features of neighboring voxels are also included as inputs. This is shown to improve the prediction accuracy, which is consistent with thermal transport physics around each voxel contributing to its final state. Among the models trained, the F1 scores on test sets reach above 0.96 for random forests. Feature importance analysis based on the ML models shows that T_{max}is more important to the voxel state than /tau. The analysis also finds that the thermal history of the voxels above the present voxel is more influential than those beneath it.
翻訳日:2021-12-26 13:22:05 公開日:2021-12-16
# テーブルテニスにおけるストローク検出のための2つのストリームネットワーク

Two Stream Network for Stroke Detection in Table Tennis ( http://arxiv.org/abs/2112.12073v1 )

ライセンス: Link先を確認
Anam Zahra (MPI-EVA), Pierre-Etienne Martin (LaBRI, MPI-EVA, UB)(参考訳) 本稿では,ビデオからテーブルテニスストロークを検出する手法を提案する。 この方法は、RGB Streamと計算された光の流れを並列に、2ストリームの畳み込みニューラルネットワーク処理に依存する。 この方法は、スポーツタスクのMediaEval 2021ベンチマークの一部として開発された。 提案手法は,テストセットのベースラインよりも優れていなかったが,mAP測定値に関して,他の参加者の中で最も優れていた。

This paper presents a table tennis stroke detection method from videos. The method relies on a two-stream Convolutional Neural Network processing in parallel the RGB Stream and its computed optical flow. The method has been developed as part of the MediaEval 2021 benchmark for the Sport task. Our contribution did not outperform the provided baseline on the test set but has performed the best among the other participants with regard to the mAP metric.
翻訳日:2021-12-26 12:45:01 公開日:2021-12-16
# 部屋に象がいます:バイオメトリックスにおけるフェアネスの使用に対する批判に向けて

There is an elephant in the room: Towards a critique on the use of fairness in biometrics ( http://arxiv.org/abs/2112.11193v1 )

ライセンス: Link先を確認
Ana Valdivia, J\'ulia Corbera-Serraj\`ordia, Aneta Swianiewicz(参考訳) 2019年、英国の上訴裁判所の移民・難民院は、生体認証システムの出力に関する決定とその他の不一致を根拠として、亡命申請を却下した。 亡命希望者の指紋は、鑑識者の証言と矛盾する生体データベースから発見された。 裁判所は、この証拠は明白でないと判断し、亡命の主張を否定した。 今日、生体認証システムの急増は、その政治的、社会的、倫理的意味合いに関する大衆の議論を形作っている。 しかし、このテクノロジーの移民管理への人種的利用に対する懸念が高まっている一方で、バイオメトリックス産業やイノベーションへの投資は大幅に増加している。 さらに、最近バイオメトリックスによって、バイオメトリックスのバイアスや差別を緩和するためにフェアネスが採用されている。 しかし、アルゴリズムの公正さは、境界に展開される生体認証のような差別を意図した、あるいは破られたシナリオにおいて正義を分配することはできない。 本稿では,バイオメトリックフェアネスに関する最近の議論を批判的に読むとともに,機械学習と限界境界研究におけるフェアネス研究の限界を示す。 これまでのフェアネスの実証に基づいて,生体計測のフェアネス基準が数学的に互いに排他的であることを証明した。 次に, 実験を再現することにより, 生体認証が不可能であることを実証的に示す。 最後に, バイオメトリックスにおける公平性の政治について, 国境での議論の場から論じる。 我々は、偏見とエラー率は、市民や亡命希望者に異なる影響を与えると主張している。 公正さは、これらのシステムが歴史的・政治的不正をいかに再現するかを調べるよりも、アルゴリズムの人口統計バイアスと倫理的言説に焦点を絞って、バイオメトリックスの部屋の象を覆している。

In 2019, the UK's Immigration and Asylum Chamber of the Upper Tribunal dismissed an asylum appeal basing the decision on the output of a biometric system, alongside other discrepancies. The fingerprints of the asylum seeker were found in a biometric database which contradicted the appellant's account. The Tribunal found this evidence unequivocal and denied the asylum claim. Nowadays, the proliferation of biometric systems is shaping public debates around its political, social and ethical implications. Yet whilst concerns towards the racialised use of this technology for migration control have been on the rise, investment in the biometrics industry and innovation is increasing considerably. Moreover, fairness has also been recently adopted by biometrics to mitigate bias and discrimination on biometrics. However, algorithmic fairness cannot distribute justice in scenarios which are broken or intended purpose is to discriminate, such as biometrics deployed at the border. In this paper, we offer a critical reading of recent debates about biometric fairness and show its limitations drawing on research in fairness in machine learning and critical border studies. Building on previous fairness demonstrations, we prove that biometric fairness criteria are mathematically mutually exclusive. Then, the paper moves on illustrating empirically that a fair biometric system is not possible by reproducing experiments from previous works. Finally, we discuss the politics of fairness in biometrics by situating the debate at the border. We claim that bias and error rates have different impact on citizens and asylum seekers. Fairness has overshadowed the elephant in the room of biometrics, focusing on the demographic biases and ethical discourses of algorithms rather than examine how these systems reproduce historical and political injustices.
翻訳日:2021-12-26 12:44:55 公開日:2021-12-16
# マルチモーダル要約のための階層型クロスモダリティ意味相関学習モデル

Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization ( http://arxiv.org/abs/2112.12072v1 )

ライセンス: Link先を確認
Litian Zhang, Xiaoming Zhang, Junshu Pan, Feiran Huang(参考訳) multimodal summarization with multimodal output (msmo) はテキストコンテンツとビジュアルコンテンツの両方で要約を生成する。 マルチモーダルニュースには異種コンテンツが含まれており、MSMOは非自明である。 さらに、ニュースレポートにおけるデータの異なるモーダル性が階層的に相関していることが観察された。 従来のMSMO法は、データ全体の表現を学習することで、データの異なるモダリティを区別不能に処理するが、これは不均一な内容や階層的相関に直接適応できない。 本稿では,マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。 HCSCLは、モーダル内相関を符号化するグラフネットワークを採用している。 次に,テキストと画像の階層的相関を学習するために階層的融合フレームワークを提案する。 さらに、関連する画像アノテーションと画像オブジェクトラベル情報を備えた新しいデータセットを構築し、学習手順の監督情報を提供する。 データセットに関する広範な実験は、hcsclが自動要約メトリクスと細粒度多様性テストでベースラインメソッドを著しく上回っていることを示している。

Multimodal summarization with multimodal output (MSMO) generates a summary with both textual and visual content. Multimodal news report contains heterogeneous contents, which makes MSMO nontrivial. Moreover, it is observed that different modalities of data in the news report correlate hierarchically. Traditional MSMO methods indistinguishably handle different modalities of data by learning a representation for the whole data, which is not directly adaptable to the heterogeneous contents and hierarchical correlation. In this paper, we propose a hierarchical cross-modality semantic correlation learning model (HCSCL) to learn the intra- and inter-modal correlation existing in the multimodal data. HCSCL adopts a graph network to encode the intra-modal correlation. Then, a hierarchical fusion framework is proposed to learn the hierarchical correlation between text and images. Furthermore, we construct a new dataset with relevant image annotation and image object label information to provide the supervision information for the learning procedure. Extensive experiments on the dataset show that HCSCL significantly outperforms the baseline methods in automatic summarization metrics and fine-grained diversity tests.
翻訳日:2021-12-26 12:28:05 公開日:2021-12-16
# ALP:Lexicalized PCFGsを用いたFew-Shotテキスト分類のためのデータ拡張

ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text Classification ( http://arxiv.org/abs/2112.11916v1 )

ライセンス: Link先を確認
Hazel Kim, Daecheol Woo, Seong Joon Oh, Jeong-Won Cha, Yo-Sub Han(参考訳) データ拡張は、学習モデルの性能を高める重要な要素である。 数少ないテキスト分類のための以前のデータ拡張手法は、大きなパフォーマンス向上につながった。 しかし、自然言語の複雑な構成構造を捉えようとは設計されていない。 その結果、有理で多様な文構造を持つサンプルの生成に失敗した。 そこで本研究では,Lexicalized Probabilistic context-free grammars (ALP) を用いて,多種多様な構文構造を持つ拡張サンプルを生成するデータ拡張について述べる。 辞書化されたPCFG構文解析木は、特定のドメインの専門家なしで、構文的に保存可能な方法で様々な単語選択を最大化する構文フレームを生成するために、構成と依存関係の両方を考慮する。 数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。 第2の貢献として,データ拡張手法が機能する時,列車間分割手法を考察する。 従来のトレーニング分割と検証セットの分割は,ラベル付きデータでトレーニング分割をさらに拡大する,新たな拡張ベースの分割戦略と比較して,サブ最適であると実証的に主張する。 データ拡張戦略に対する私たちのコントリビューションは、数ショットのテキスト分類タスクのための強力なトレーニングレシピを提供します。

Data augmentation has been an important ingredient for boosting performances of learned models. Prior data augmentation methods for few-shot text classification have led to great performance boosts. However, they have not been designed to capture the intricate compositional structure of natural language. As a result, they fail to generate samples with plausible and diverse sentence structures. Motivated by this, we present the data Augmentation using Lexicalized Probabilistic context-free grammars (ALP) that generates augmented samples with diverse syntactic structures with plausible grammar. The lexicalized PCFG parse trees consider both the constituents and dependencies to produce a syntactic frame that maximizes a variety of word choices in a syntactically preservable manner without specific domain experts. Experiments on few-shot text classification tasks demonstrate that ALP enhances many state-of-the-art classification methods. As a second contribution, we delve into the train-val splitting methodologies when a data augmentation method comes into play. We argue empirically that the traditional splitting of training and validation sets is sub-optimal compared to our novel augmentation-based splitting strategies that further expand the training split with the same number of labeled data. Taken together, our contributions on the data augmentation strategies yield a strong training recipe for few-shot text classification tasks.
翻訳日:2021-12-26 12:27:46 公開日:2021-12-16
# スポーツビデオ:memeval 2021のビデオからのテーブルテニスストロークの詳細な動作検出と分類

Sports Video: Fine-Grained Action Detection and Classification of Table Tennis Strokes from Videos for MediaEval 2021 ( http://arxiv.org/abs/2112.11384v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin (LaBRI, MPI-EVA, UB), Jordan Calandre (MIA), Boris Mansencal (LaBRI), Jenny Benois-Pineau (LaBRI), Renaud P\'eteri (MIA), Laurent Mascarilla (MIA), Julien Morlier (IMS)(参考訳) スポーツビデオ分析は,マルチメディア・インテリジェント・デバイスとユーザ対応のダイジェストから,アスリートのパフォーマンス分析まで,さまざまな応用分野において一般的な研究テーマである。 スポーツビデオタスクはMediaEval 2021ベンチマークの一部である。 このタスクは、ビデオからのきめ細かいアクション検出と分類に取り組む。 主に卓球の試合の記録に焦点が当てられている。 2019年以降、このタスクは、各ストロークの時間境界が既知の自然条件で記録された未編集ビデオから分類する課題を提示している。 今年はデータセットが拡張され、アノテーションのない未トリミングビデオによる検出課題も提供される。 本研究の目的は,スポーツのパフォーマンスを解析するために,スポーツコーチや選手のためのツールを作成することである。 運動分析と選手のプロファイリングは、アスリートのトレーニング経験を豊かにし、パフォーマンスを向上させるために構築される。

Sports video analysis is a prevalent research topic due to the variety of application areas, ranging from multimedia intelligent devices with user-tailored digests up to analysis of athletes' performance. The Sports Video task is part of the MediaEval 2021 benchmark. This task tackles fine-grained action detection and classification from videos. The focus is on recordings of table tennis games. Running since 2019, the task has offered a classification challenge from untrimmed video recorded in natural conditions with known temporal boundaries for each stroke. This year, the dataset is extended and offers, in addition, a detection challenge from untrimmed videos without annotations. This work aims at creating tools for sports coaches and players in order to analyze sports performance. Movement analysis and player profiling may be built upon such technology to enrich the training experience of athletes and improve their performance.
翻訳日:2021-12-26 12:27:26 公開日:2021-12-16
# MediaEval 2021ベンチマークにおけるスポーツビデオタスクの時空間CNNベースライン法

Spatio-Temporal CNN baseline method for the Sports Video Task of MediaEval 2021 benchmark ( http://arxiv.org/abs/2112.12074v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin (LaBRI, MPI-EVA, UB)(参考訳) 本稿では,MediaEval 2021ベンチマークのスポーツビデオタスク部に提案するベースライン手法を提案する。 このタスクは、ストローク検出とストローク分類サブタスクを提案する。 このベースラインは両方のサブタスクに対処します。 時空間CNNアーキテクチャとモデルのトレーニングプロセスは、アドレスサブタスクに従って調整される。 このメソッドは、参加者がタスクを解決するのを助けることを目的としており、最先端のパフォーマンスに到達することを意図していない。 それでも検出タスクでは、ベースラインが他の参加者よりも優れており、そのようなタスクの難しさを強調している。

This paper presents the baseline method proposed for the Sports Video task part of the MediaEval 2021 benchmark. This task proposes a stroke detection and a stroke classification subtasks. This baseline addresses both subtasks. The spatio-temporal CNN architecture and the training process of the model are tailored according to the addressed subtask. The method has the purpose of helping the participants to solve the task and is not meant to reach stateof-the-art performance. Still, for the detection task, the baseline is performing better than the other participants, which stresses the difficulty of such a task.
翻訳日:2021-12-26 12:27:09 公開日:2021-12-16
# (参考訳) 電子商取引勧告のためのインテリジェントオンライン販売ポイント抽出 [全文訳有]

Intelligent Online Selling Point Extraction for E-Commerce Recommendation ( http://arxiv.org/abs/2112.10613v1 )

ライセンス: CC BY 4.0
Xiaojie Guo, Shugen Wang, Hanqing Zhao, Shiliang Diao, Jiajia Chen, Zhuoye Ding, Zhen He, Yun Xiao, Bo Long, Han Yu, Lingfei Wu(参考訳) 過去10年間、eコマースの自動製品記述生成は大きな進歩を遂げてきた。 電子商取引プラットフォームが提供するサービスが多様化するにつれて、生成した記述のパターンを動的に適応させる必要がある。 製品のセールスポイントは、キー情報を伝達しながら可能な限り長さを短くする重要なタイプの製品記述である。 さらに、この種の製品の説明は読者に目を向けるべきである。 現在、製品販売ポイントは通常、人間の専門家によって書かれる。 したがって、これらのコンテンツの作成とメンテナンスは高いコストがかかる。 これらのコストは、機械によって自動的に製品販売ポイントを生成できれば大幅に削減できる。 本稿では,知的オンライン販売ポイント抽出システム(IOSPE)を開発した経験を報告し,JD.comのeコマースプラットフォームにおけるレコメンデーションシステムを提供する。 2020年7月以降、IOSPEは62の主要製品カテゴリー(400万以上の製品を含む)のコアサービスとなっている。 これまでのところ、売上ポイントは0.1億を超えており、営業ポイントの創出と人的労働力の削減に大きく貢献している。 これらのIOSPEが生成した販売ポイントは、クリックスルーレート(CTR)を1.89 %増加させ、顧客が製品に費やした平均期間を以前のプラクティスと比べて2.03 %以上短縮した。

In the past decade, automatic product description generation for e-commerce have witnessed significant advancement. As the services provided by e-commerce platforms become diverse, it is necessary to dynamically adapt the patterns of descriptions generated. The selling point of products is an important type of product description for which the length should be as short as possible while still conveying key information. In addition, this kind of product description should be eye-catching to the readers. Currently, product selling points are normally written by human experts. Thus, the creation and maintenance of these contents incur high costs. These costs can be significantly reduced if product selling points can be automatically generated by machines. In this paper, we report our experience developing and deploying the Intelligent Online Selling Point Extraction (IOSPE) system to serve the recommendation system in the JD.com e-commerce platform. Since July 2020, IOSPE has become a core service for 62 key categories of products (covering more than 4 million products). So far, it has generated more than 0.1 billion selling points, thereby significantly scaling up the selling point creation operation and saving human labour. These IOSPE generated selling points have increased the click-through rate (CTR) by 1.89\% and the average duration the customers spent on the products by more than 2.03\% compared to the previous practice, which are significant improvements for such a large-scale e-commerce platform.
翻訳日:2021-12-23 10:37:02 公開日:2021-12-16
# (参考訳) コンテキストベース音楽推薦アルゴリズムの評価 [全文訳有]

Context-Based Music Recommendation Algorithm Evaluation ( http://arxiv.org/abs/2112.10612v1 )

ライセンス: CC BY 4.0
Marissa Baxter, Lisa Ha, Kirill Perfiliev, and Natalie Sayre(参考訳) 人工知能(AI)は、自分のデータに基づいてオンラインユーザーのための音楽プレイリストを作成し、予測することに成功している。 Spotify、Pandoraなどの音楽プラットフォームオーナーとの競争により、AIの現在の技術進歩が数多く行われている。 本稿では,Weka,SKLearn,Orange の3つのプラットフォームにまたがって6つの機械学習アルゴリズムと,ユーザが曲を好むかどうかを予測するための個々の精度について検討する。 探索されたアルゴリズムには、ロジスティック回帰、ナイーブベイズ、シーケンシャル最小最適化(smo)、多層パーセプトロン(ニューラルネットワーク)、近接近傍、ランダムフォレストが含まれる。 Spotify API[1]で提供される各曲の特徴を分析することで、Random Forestはユーザーが84%の精度で曲を気に入るかどうかを予測する最も成功したアルゴリズムである。 これはムンゲカールがランダムフォレスト法を用いて発見した82.72%の精度よりも高く、曲 [2] の特徴が若干異なる。 Mungekars Random Forestアルゴリズムの特徴は、歌のソニックな特徴よりも、アーティストと人気に焦点を当てている。 人気を取り除き、純粋にソニック品質にフォーカスすることで、推奨の精度が向上する。 最後に,本論文では,楽曲予測が金銭的投資を伴わずに実現可能であることを示すとともに,全金融調査によってどのような素晴らしい結果が得られるのかを示唆する。

Artificial Intelligence (AI ) has been very successful in creating and predicting music playlists for online users based on their data; data received from users experience using the app such as searching the songs they like. There are lots of current technological advancements in AI due to the competition between music platform owners such as Spotify, Pandora, and more. In this paper, 6 machine learning algorithms and their individual accuracy for predicting whether a user will like a song are explored across 3 different platforms including Weka, SKLearn, and Orange. The algorithms explored include Logistic Regression, Naive Bayes, Sequential Minimal Optimization (SMO), Multilayer Perceptron (Neural Network), Nearest Neighbor, and Random Forest. With the analysis of the specific characteristics of each song provided by the Spotify API [1], Random Forest is the most successful algorithm for predicting whether a user will like a song with an accuracy of 84%. This is higher than the accuracy of 82.72% found by Mungekar using the Random Forest technique and slightly different characteristics of a song [2]. The characteristics in Mungekars Random Forest algorithm focus more on the artist and popularity rather than the sonic features of the songs. Removing the popularity aspect and focusing purely on the sonic qualities improve the accuracy of recommendations. Finally, this paper shows how song prediction can be accomplished without any monetary investments, and thus, inspires an idea of what amazing results can be accomplished with full financial research.
翻訳日:2021-12-23 10:25:00 公開日:2021-12-16
# (参考訳) machine-in-the-loopによる倫理的成果の改善 - データアノテーションの人間理解の拡大 [全文訳有]

Improving Ethical Outcomes with Machine-in-the-Loop: Broadening Human Understanding of Data Annotations ( http://arxiv.org/abs/2112.09738v1 )

ライセンス: CC BY 4.0
Ashis Kumer Biswas, Geeta Verma, Justin Otto Barber(参考訳) 学習領域における自然言語に基づく教師付き機械学習タスクにおける不要なバイアスの根本原因に対処することを目的とした,ループ内機械学習パイプラインを提案する。 学生の経験から学ぶことは、教育研究者や学術管理者にとって基礎となる。 経験から学んだ21世紀のスキルは、新しい知識経済における雇用プロセスだけでなく、大学やキャリアの準備ができている。 マイノリティー化した学生は日常生活でこれらのスキルを実演するが、これらのスキルの文書化、評価、検証は教育機関にとって大きな問題である。 エクイティにフォーカスしたオンラインプラットフォームとして、LivedXは、未成年の学生の生活経験を21世紀のスキルに翻訳し、マイクロクレジットを発行し、21世紀のスキルポートフォリオを作成する。 学生の論文から受け取った自然言語テキストからマイクロクレデンシャルマイニングを自動化するために,多出力分類器を構築するために,単語の袋モデルを用いた。 私たちの目標にもかかわらず、私たちのモデルは最初、マイノリティの学生に異なる影響を与えました。 我々は,ループ内モデル開発パイプラインを用いてこの問題に対処し,上記のモデルを洗練し,予測の公平性を確保する。

We introduce a machine-in-the-loop pipeline that aims to address root causes of unwanted bias in natural language based supervised machine learning tasks in the education domain. Learning from the experiences of students is foundational for education researchers, and academic administrators. 21st-century skills learned from experience are becoming a core part of college and career readiness as well as the hiring process in the new knowledge economy. Minoritized students demonstrate these skills in their daily lives, but documenting, assessing, and validating these skills is a huge problem for educational institutions. As an equity focused online platform, LivedX translates minoritized students' lived experiences into the 21st century skills, issues micro-credentials, and creates personal 21st century skills portfolio. To automate the micro credential mining from the natural language texts received from the students' submitted essays, we employed a bag-of-word model to construct a multi-output classifier. Despite our goal, our model initially exacerbated disparate impact on minoritized students. We used a machine-in-the-loop model development pipeline to address the problem and refine the aforementioned model to ensure fairness in its prediction.
翻訳日:2021-12-23 10:13:52 公開日:2021-12-16
# (参考訳) 自然なフィードバックのメモリによるスクリプトの改善 [全文訳有]

Improving scripts with a memory of natural feedback ( http://arxiv.org/abs/2112.09737v1 )

ライセンス: CC BY 4.0
Niket Tandon, Aman Madaan, Peter Clark, Yiming Yang(参考訳) デプロイされた構造化予測モデルが誤った出力を生成する場合、エンドユーザはどのようにフィードバックを提供できるか? 私たちの目標は、モデルのアウトプットにフィードバックを与えることで、リトレーニングすることなく、インタラクションを通じてエラーを直接修正できるようにすることです。 私たちは、出力中のエラーに関するフィードバックのメモリを増やして、動的メモリアーキテクチャを作成します。 新しい目に見えない入力があれば、我々のモデルは同じような過去の誤った状態からのフィードバックを使うことができる。 スクリプト生成タスクでは、モデルがフィードバックを効果的に適用すること(最大30ポイントの改善)を学習し、配置後の同じ過去のミス(見えないセットでは最大10ポイント改善)を回避できることを実証的に示す。 これはデプロイされたモデルを強化し、有用性を高めるための第一歩です。

How can an end-user provide feedback if a deployed structured prediction model generates incorrect output? Our goal is to allow users to correct errors directly through interaction, without retraining, by giving feedback on the model's output. We create a dynamic memory architecture with a growing memory of feedbacks about errors in the output. Given a new, unseen input, our model can use feedback from a similar, past erroneous state. On a script generation task, we show empirically that the model learns to apply feedback effectively (up to 30 points improvement), while avoiding similar past mistakes after deployment (up to 10 points improvement on an unseen set). This is a first step towards strengthening deployed models, potentially broadening their utility.
翻訳日:2021-12-23 10:07:35 公開日:2021-12-16
# (参考訳) 決定木アンサンブルの局所的およびモデル的説明のための厳密な共有値 [全文訳有]

Exact Shapley Values for Local and Model-True Explanations of Decision Tree Ensembles ( http://arxiv.org/abs/2112.10592v1 )

ライセンス: CC BY 4.0
Thomas W. Campbell, Heinrich Roder, Robert W. Georgantas III, Joanna Roder(参考訳) シェープリー値を用いた付加的特徴説明は、機械学習モデルの個々の予測に対して、各特徴の相対的重要性を透過的に示すために人気を集めている。 Shapley値は協調ゲーム理論においてユニークな付加的特徴属性を提供するが、単一の機械学習モデルでも生成できるShapley値は、結果の属性に影響を与える理論的および実装的決定とともに、決してユニークではない。 本稿では,決定木アンサンブルの説明にShapley値を適用し,ランダムな森林や決定木に適応可能なShapley値に基づく特徴属性に対する新しいアプローチを提案する。 この新しい手法は、モデル予測アルゴリズムの個々のインスタンスの詳細を正確に反映するアトリビューションを提供し、最も広く使われている方法の1つと計算的に競合する。 標準と新しいアプローチの理論的差異を説明し、それらの性能を合成データと実データで比較する。

Additive feature explanations using Shapley values have become popular for providing transparency into the relative importance of each feature to an individual prediction of a machine learning model. While Shapley values provide a unique additive feature attribution in cooperative game theory, the Shapley values that can be generated for even a single machine learning model are far from unique, with theoretical and implementational decisions affecting the resulting attributions. Here, we consider the application of Shapley values for explaining decision tree ensembles and present a novel approach to Shapley value-based feature attribution that can be applied to random forests and boosted decision trees. This new method provides attributions that accurately reflect details of the model prediction algorithm for individual instances, while being computationally competitive with one of the most widely used current methods. We explain the theoretical differences between the standard and novel approaches and compare their performance using synthetic and real data.
翻訳日:2021-12-23 09:58:12 公開日:2021-12-16
# 直接時間流体力学のためのディープサーロゲート

Deep Surrogate for Direct Time Fluid Dynamics ( http://arxiv.org/abs/2112.10296v1 )

ライセンス: Link先を確認
Lucas Meyer (UGA, LIG, EDF R&D, Grenoble INP, DATAMOVE ), Louen Pottier (ENS Paris Saclay, EDF R&D), Alejandro Ribes (EDF R&D), Bruno Raffin (Grenoble INP, LIG, DATAMOVE, UGA)(参考訳) 物理界における流体の普遍性は、科学や工学の多くの応用において、その動力学を正確にシミュレートする必要性を説明している。 伝統的に、確立されているがリソース集約型CFDソルバはそのようなシミュレーションを提供する。 近年、シミュレーションプロセスを緩和するためにこれらの解法を代用するディープラーニングサロゲートモデルが急増している。 データ駆動サロゲートを構築するいくつかのアプローチは、ソルバ反復プロセスを模倣する。 彼らは流体の次の状態を以前の状態から推測する。 時間入力から直接状態を推測するものもある。 空間情報の管理にもアプローチは異なっている。 グラフニューラルネットワーク(GNN)は、CFDシミュレーションで一般的に使用される不規則メッシュの特異性に対処することができる。 本稿では,不規則メッシュのための新しい直接時間GNNアーキテクチャの設計について述べる。 スプライン畳み込みによって連結される大きさが増大するグラフの連続からなる。 我々は、von k{\'a}rm{\'a}nのvortex streetベンチマークでアーキテクチャをテストする。 軌道に沿った誤差蓄積を緩和しながら、小さな一般化誤差を達成する。

The ubiquity of fluids in the physical world explains the need to accurately simulate their dynamics for many scientific and engineering applications. Traditionally, well established but resource intensive CFD solvers provide such simulations. The recent years have seen a surge of deep learning surrogate models substituting these solvers to alleviate the simulation process. Some approaches to build data-driven surrogates mimic the solver iterative process. They infer the next state of the fluid given its previous one. Others directly infer the state from time input. Approaches also differ in their management of the spatial information. Graph Neural Networks (GNN) can address the specificity of the irregular meshes commonly used in CFD simulations. In this article, we present our ongoing work to design a novel direct time GNN architecture for irregular meshes. It consists of a succession of graphs of increasing size connected by spline convolutions. We test our architecture on the Von K{\'a}rm{\'a}n's vortex street benchmark. It achieves small generalization errors while mitigating error accumulation along the trajectory.
翻訳日:2021-12-21 18:24:38 公開日:2021-12-16
# CGAN-EB:条件付き生成逆数ネットワークを用いたクラッシュホットスポット同定のための非パラメトリック実証ベイズ手法:実世界のクラッシュデータスタディ

CGAN-EB: A Non-parametric Empirical Bayes Method for Crash Hotspot Identification Using Conditional Generative Adversarial Networks: A Real-world Crash Data Study ( http://arxiv.org/abs/2112.10588v1 )

ライセンス: Link先を確認
Mohammad Zarei and Bruce Hellinga and Pedram Izadpanah(参考訳) 負二項法(NB)のようなパラメトリック統計モデルに基づく経験的ベイズ法(EB)法は,道路網の安全検定過程において広く利用されている。 本稿では,条件付き生成型adversarial network (cgan) に基づく衝突頻度データモデリングのための新しい非パラメトリックeb法を提案し,複数の模擬クラッシュデータセットについて評価を行った。 パラメトリックアプローチとは異なり、提案されているcgan-eb内の依存変数と独立変数の関係を事前に指定する必要はなく、任意の種類の分布をモデル化することができる。 提案手法は現在、ワシントン州で2012年から2017年まで道路セグメントで収集された実世界のデータセットに適用されている。 モデル適合性,予測性能,ネットワークスクリーニング結果におけるcgan-ebの性能を従来の手法(nb-eb)と比較した。 その結果,提案手法は予測能力やホットスポット識別試験においてNB-EBよりも優れていた。

The empirical Bayes (EB) method based on parametric statistical models such as the negative binomial (NB) has been widely used for ranking sites in road network safety screening process. This paper is the continuation of the authors previous research, where a novel non-parametric EB method for modelling crash frequency data data based on Conditional Generative Adversarial Networks (CGAN) was proposed and evaluated over several simulated crash data sets. Unlike parametric approaches, there is no need for a pre-specified underlying relationship between dependent and independent variables in the proposed CGAN-EB and they are able to model any types of distributions. The proposed methodology is now applied to a real-world data set collected for road segments from 2012 to 2017 in Washington State. The performance of CGAN-EB in terms of model fit, predictive performance and network screening outcomes is compared with the conventional approach (NB-EB) as a benchmark. The results indicate that the proposed CGAN-EB approach outperforms NB-EB in terms of prediction power and hotspot identification tests.
翻訳日:2021-12-21 17:33:03 公開日:2021-12-16
# 水生ナビゲーションにおける安全深層強化学習のベンチマーク

Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation ( http://arxiv.org/abs/2112.10593v1 )

ライセンス: Link先を確認
Enrico Marchesini, Davide Corsi, Alessandro Farinelli(参考訳) 水生ナビゲーションに着目した安全強化学習のための新しいベンチマーク環境を提案する。 水生ナビゲーションは、非定常環境とロボットプラットフォームの不確実性のため、非常に困難な課題であり、危険な状況(例えば衝突)を避けるために訓練されたネットワークの挙動を分析することにより、問題の安全性について検討することが重要である。 そこで本研究では,drl(value-based and policy-gradient deep reinforcement learning)を考察し,サンプル効率を向上させるために,勾配ベースと勾配フリーのdrlを組み合わせたクロスオーバー方式を提案する。 さらに,学習したモデルの振る舞いを所望の特性の集合上で検証する区間解析に基づく検証戦略を提案する。 以上の結果から,クロスオーバーベースのトレーニングは従来のDRLアプローチよりも優れており,検証により,プロパティによって記述される動作に違反する構成の数を定量化できることがわかった。 重要なのは、このドメインのアプリケーションにおける将来の研究のベンチマークとして機能することです。

We propose a novel benchmark environment for Safe Reinforcement Learning focusing on aquatic navigation. Aquatic navigation is an extremely challenging task due to the non-stationary environment and the uncertainties of the robotic platform, hence it is crucial to consider the safety aspect of the problem, by analyzing the behavior of the trained network to avoid dangerous situations (e.g., collisions). To this end, we consider a value-based and policy-gradient Deep Reinforcement Learning (DRL) and we propose a crossover-based strategy that combines gradient-based and gradient-free DRL to improve sample-efficiency. Moreover, we propose a verification strategy based on interval analysis that checks the behavior of the trained models over a set of desired properties. Our results show that the crossover-based training outperforms prior DRL approaches, while our verification allows us to quantify the number of configurations that violate the behaviors that are described by the properties. Crucially, this will serve as a benchmark for future research in this domain of applications.
翻訳日:2021-12-21 16:13:46 公開日:2021-12-16
# 保守モデルに基づくアクタ-クリティックによるサンプル効率強化学習

Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic ( http://arxiv.org/abs/2112.10504v1 )

ライセンス: Link先を確認
Zhihai Wang, Jie Wang, Qi Zhou, Bin Li, Houqiang Li(参考訳) モデルに基づく強化学習アルゴリズムは、決定を下す環境のモデルを学習することを目的としており、モデルフリーのアルゴリズムよりもサンプル効率が高い。 モデルに基づくアプローチのサンプル効率は、モデルが環境をうまく近似できるかどうかに依存する。 しかしながら、特に複雑で騒がしい環境では、正確なモデルを学ぶことは困難である。 この問題に対処するために, 正確な学習モデルに強く依存することなく, 高いサンプル効率を実現する新しいアプローチである, 保守的モデルベースアクタ批判(CMBAC)を提案する。 具体的には、CMBACは不正確なモデルの集合からQ値関数の複数の推定を学習し、ボトムkの推定値(保守的な推定値)の平均を使ってポリシーを最適化する。 CMBACの魅力的な特徴は、保守的な見積は、エージェントが信頼できない「プロミングアクション」を避けることを効果的に促すことである。 実験により, cmbacはいくつかの課題タスクにおいてサンプル効率の点で最先端の手法を著しく上回っており, 提案手法はうるさい環境では従来の手法よりも頑健であることが示された。

Model-based reinforcement learning algorithms, which aim to learn a model of the environment to make decisions, are more sample efficient than their model-free counterparts. The sample efficiency of model-based approaches relies on whether the model can well approximate the environment. However, learning an accurate model is challenging, especially in complex and noisy environments. To tackle this problem, we propose the conservative model-based actor-critic (CMBAC), a novel approach that achieves high sample efficiency without the strong reliance on accurate learned models. Specifically, CMBAC learns multiple estimates of the Q-value function from a set of inaccurate models and uses the average of the bottom-k estimates -- a conservative estimate -- to optimize the policy. An appealing feature of CMBAC is that the conservative estimates effectively encourage the agent to avoid unreliable "promising actions" -- whose values are high in only a small fraction of the models. Experiments demonstrate that CMBAC significantly outperforms state-of-the-art approaches in terms of sample efficiency on several challenging tasks, and the proposed method is more robust than previous methods in noisy environments.
翻訳日:2021-12-21 15:19:14 公開日:2021-12-16
# (参考訳) 生涯学習における事前学習の役割に関する実証的研究 [全文訳有]

An Empirical Investigation of the Role of Pre-training in Lifelong Learning ( http://arxiv.org/abs/2112.09153v1 )

ライセンス: CC BY 4.0
Sanket Vaibhav Mehta, Darshan Patil, Sarath Chandar, Emma Strubell(参考訳) 機械学習における生涯学習パラダイムは、生物学的学習に類似しているだけでなく、過度のモデル再訓練を回避してエネルギー無駄を減らす可能性から、より顕著な孤立学習スキームに代わる魅力的な選択肢である。 このパラダイムの重要な課題は、破滅的な忘れの現象である。 機械学習における事前学習モデルの人気と成功が高まり、私たちは疑問を呈する: 生涯学習において、特に破滅的な忘れ物に関して、事前学習はどのような役割を果たすのか? 15種類のNLPタスクからなる新しいデータセットを用いた大規模研究を含む,大規模で事前訓練されたモデルのコンテキストにおける既存手法の検討と,各種テキストおよび画像分類タスクの性能評価を行う。 すべての設定において、ランダムに初期化モデルと比較して、複数のタスクを逐次学習する場合、一般的な事前学習は破滅的忘れの影響を暗黙的に軽減する。 この設定で、事前学習が忘れることを緩和する理由をさらに調査する。 本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。 この知見に基づき, 逐次微調整中に広い流域を明示的に促進するために, 現行のタスク損失と損失盆地のシャープネスを共同で最適化する手法を提案する。 この最適化手法は,タスク数に応じてスケールするメモリを保持することなく,複数の設定をまたいだタスク系列連続学習の最先端技術に匹敵するパフォーマンスをもたらすことを示す。

The lifelong learning paradigm in machine learning is an attractive alternative to the more prominent isolated learning scheme not only due to its resemblance to biological learning, but also its potential to reduce energy waste by obviating excessive model re-training. A key challenge to this paradigm is the phenomenon of catastrophic forgetting. With the increasing popularity and success of pre-trained models in machine learning, we pose the question: What role does pre-training play in lifelong learning, specifically with respect to catastrophic forgetting? We investigate existing methods in the context of large, pre-trained models and evaluate their performance on a variety of text and image classification tasks, including a large-scale study using a novel dataset of 15 diverse NLP tasks. Across all settings, we observe that generic pre-training implicitly alleviates the effects of catastrophic forgetting when learning multiple tasks sequentially compared to randomly initialized models. We then further investigate why pre-training alleviates forgetting in this setting. We study this phenomenon by analyzing the loss landscape, finding that pre-trained weights appear to ease forgetting by leading to wider minima. Based on this insight, we propose jointly optimizing for current task loss and loss basin sharpness in order to explicitly encourage wider basins during sequential fine-tuning. We show that this optimization approach leads to performance comparable to the state-of-the-art in task-sequential continual learning across multiple settings, without retaining a memory that scales in size with the number of tasks.
翻訳日:2021-12-21 06:47:46 公開日:2021-12-16
# (参考訳) 制約に基づくグラフネットワークシミュレータ [全文訳有]

Constraint-based graph network simulator ( http://arxiv.org/abs/2112.09161v1 )

ライセンス: CC BY 4.0
Yulia Rubanova, Alvaro Sanchez-Gonzalez, Tobias Pfaff, Peter Battaglia(参考訳) 学習された物理シミュレータの急速に進歩する領域では、ほとんど全ての手法が入力状態から将来の状態を直接予測する前方モデルを訓練する。 しかし、多くの従来のシミュレーションエンジンは直接予測ではなく制約ベースのアプローチを用いる。 本稿では,ニューラルネットワークとしてスカラー制約関数を実装し,これらの制約下での最適化問題の解として今後の予測を計算した制約に基づく学習シミュレーションの枠組みを提案する。 本稿では,グラフニューラルネットワークを制約関数として,勾配降下を制約ソルバとして実装する。 アーキテクチャは標準的なバックプロパゲーションでトレーニングできる。 このモデルは,模擬ロープ,バウンディングボール,不規則形状の衝突,発散流体など,さまざまな挑戦的な物理的領域でテストする。 我々のモデルは、トップラーニングシミュレータよりも優れた、あるいは同等のパフォーマンスを達成する。 このモデルの主な利点は、テスト時により解くイテレーションに一般化し、シミュレーション精度を向上させる能力です。 また、事前のアプローチでは不可能であるトレーニングデータに存在しない目標を満たすために、テスト時に手作りの制約を追加する方法を示す。 我々の制約ベースのフレームワークは、フォワードラーニングシミュレータが使用される任意の環境に適用可能であり、学習シミュレータがさらに帰納バイアスを生かし、数値手法の分野からの手法を活用できることを示す。

In the rapidly advancing area of learned physical simulators, nearly all methods train forward models that directly predict future states from input states. However, many traditional simulation engines use a constraint-based approach instead of direct prediction. Here we present a framework for constraint-based learned simulation, where a scalar constraint function is implemented as a neural network, and future predictions are computed as the solutions to optimization problems under these learned constraints. We implement our method using a graph neural network as the constraint function and gradient descent as the constraint solver. The architecture can be trained by standard backpropagation. We test the model on a variety of challenging physical domains, including simulated ropes, bouncing balls, colliding irregular shapes and splashing fluids. Our model achieves better or comparable performance to top learned simulators. A key advantage of our model is the ability to generalize to more solver iterations at test time to improve the simulation accuracy. We also show how hand-designed constraints can be added at test time to satisfy objectives which were not present in the training data, which is not possible with forward approaches. Our constraint-based framework is applicable to any setting where forward learned simulators are used, and demonstrates how learned simulators can leverage additional inductive biases as well as the techniques from the field of numerical methods.
翻訳日:2021-12-21 05:53:11 公開日:2021-12-16
# (参考訳) 共有自律における干渉の最適化について [全文訳有]

On Optimizing Interventions in Shared Autonomy ( http://arxiv.org/abs/2112.09169v1 )

ライセンス: CC BY 4.0
Weihao Tan, David Koleczek, Siddhant Pradhan, Nicholas Perello, Vivek Chettiar, Vishal Rohra, Aaslesha Rajaram, Soundararajan Srinivasan, H M Sajjad Hossain, Yash Chandak(参考訳) 共有自律性(shared autonomy)とは、自律エージェントが人間と協力し、人間のパフォーマンスを改善するためのアプローチである。 しかし、パフォーマンスの向上に加えて、エージェントが同時にユーザの経験やコラボレーションの満足度を保っていることもしばしば有益である。 この追加目標に対処するために,自律エージェントによる介入回数を制限し,ユーザエクスペリエンスを改善するためのアプローチを検討する。 介入回数の厳密な制約とソフトな制約を考慮に入れたモデルフリー強化学習法を2つ提案する。 提案手法は,既存のベースラインよりも優れるだけでなく,補助レベルを制御するためにブラックボックスハイパーパラメータを手動でチューニングする必要がなくなることを示す。 また,システムの理解を深めるために,介入シナリオの詳細な分析を行う。

Shared autonomy refers to approaches for enabling an autonomous agent to collaborate with a human with the aim of improving human performance. However, besides improving performance, it may often also be beneficial that the agent concurrently accounts for preserving the user's experience or satisfaction of collaboration. In order to address this additional goal, we examine approaches for improving the user experience by constraining the number of interventions by the autonomous agent. We propose two model-free reinforcement learning methods that can account for both hard and soft constraints on the number of interventions. We show that not only does our method outperform the existing baseline, but also eliminates the need to manually tune a black-box hyperparameter for controlling the level of assistance. We also provide an in-depth analysis of intervention scenarios in order to further illuminate system understanding.
翻訳日:2021-12-21 05:25:27 公開日:2021-12-16
# (参考訳) keypoint-based pooling networkを用いた変形性膝関節症診断のためのコヒーレンス学習 [全文訳有]

Coherence Learning using Keypoint-based Pooling Network for Accurately Assessing Radiographic Knee Osteoarthritis ( http://arxiv.org/abs/2112.09177v1 )

ライセンス: CC BY 4.0
Kang Zheng, Yirui Wang, Chen-I Hsieh, Le Lu, Jing Xiao, Chang-Fu Kuo, Shun Miao(参考訳) 膝関節症(英語: Knee osteoarthritis, OA)は、世界中の高齢者に影響を及ぼす一般的な変性関節疾患である。 膝oa重症度の正確なx線学的評価は慢性患者の管理において重要な役割を担っている。 現在の臨床応用膝oa評価システムは観察者主観的であり、格間不一致に苦しむ。 そこで本研究では, 複合評価と細粒度評価を同時に行うことで, より正確かつ一貫した評価を行うための, コンピュータ支援診断手法を提案する。 ラベルのないデータから学習することで, 合成および微粒なOAグレードのコヒーレンスを生かした新しい半教師付き学習法を提案する。 事前学習したガウス混合モデルのログ確率を用いて、等級コヒーレンスを表現することにより、未ラベルデータをトレーニングに組み込む不整合損失を定式化する。 提案手法では, より整合性が高く, 病理学的に有意な特徴表現を提供するために, 膝関節に沿って抽出された) 疾患対象のキーポイントから深い画像特徴をプールし, 正確なOA評価を行うキーポイントベースプールネットワークについても述べる。 提案手法は,4,796名の被験者を対象とした多施設10年間の観察研究であるOAI(Publicarthritis Initiative)データに基づいて総合的に評価した。 実験の結果,本手法は,従来より強固な画像ベースの深層分類ネットワークベースライン(resnet-50など)に対して大きな改善をもたらすことがわかった。

Knee osteoarthritis (OA) is a common degenerate joint disorder that affects a large population of elderly people worldwide. Accurate radiographic assessment of knee OA severity plays a critical role in chronic patient management. Current clinically-adopted knee OA grading systems are observer subjective and suffer from inter-rater disagreements. In this work, we propose a computer-aided diagnosis approach to provide more accurate and consistent assessments of both composite and fine-grained OA grades simultaneously. A novel semi-supervised learning method is presented to exploit the underlying coherence in the composite and fine-grained OA grades by learning from unlabeled data. By representing the grade coherence using the log-probability of a pre-trained Gaussian Mixture Model, we formulate an incoherence loss to incorporate unlabeled data in training. The proposed method also describes a keypoint-based pooling network, where deep image features are pooled from the disease-targeted keypoints (extracted along the knee joint) to provide more aligned and pathologically informative feature representations, for accurate OA grade assessments. The proposed method is comprehensively evaluated on the public Osteoarthritis Initiative (OAI) data, a multi-center ten-year observational study on 4,796 subjects. Experimental results demonstrate that our method leads to significant improvements over previous strong whole image-based deep classification network baselines (like ResNet-50).
翻訳日:2021-12-21 05:06:35 公開日:2021-12-16
# (参考訳) 1ビットニューラルネットワークによる関数の近似

Approximation of functions with one-bit neural networks ( http://arxiv.org/abs/2112.09181v1 )

ライセンス: CC BY 4.0
C. Sinan G\"unt\"urk, Weilin Li(参考訳) 本稿では、粗い量子化されたニューラルネットワークの近似能力について検討する。 任意の滑らかな多変量関数は、適切な粗量子化ニューラルネットワークによって任意に近似することができ、定量的近似率が得られることを示す。 二次的なアクティベーションでは、これは1ビットのアルファベットだけで行うことができ、ReLUアクティベーションでは3ビットのアルファベットを使用する。 主な定理はベルンシュタイン多項式の重要な性質に依存する。 本稿では,ベルンシュタイン多項式を用いた関数近似,ベルンシュタイン基底による雑音形量子化,粗量子化ニューラルネットワークによるベルンシュタイン多項式の実装に関する新しい結果を示す。

This paper examines the approximation capabilities of coarsely quantized neural networks -- those whose parameters are selected from a small set of allowable values. We show that any smooth multivariate function can be arbitrarily well approximated by an appropriate coarsely quantized neural network and provide a quantitative approximation rate. For the quadratic activation, this can be done with only a one-bit alphabet; for the ReLU activation, we use a three-bit alphabet. The main theorems rely on important properties of Bernstein polynomials. We prove new results on approximation of functions with Bernstein polynomials, noise-shaping quantization on the Bernstein basis, and implementation of the Bernstein polynomials by coarsely quantized neural networks.
翻訳日:2021-12-21 05:00:55 公開日:2021-12-16
# (参考訳) コンピュータビジョンを用いた街頭画像を用いた作物表現のモニタリング [全文訳有]

Monitoring crop phenology with street-level imagery using computer vision ( http://arxiv.org/abs/2112.09190v1 )

ライセンス: CC BY 4.0
Rapha\"el d'Andrimont, Momchil Yordanov, Laura Martinez-Sanchez, Marijn van der Velde(参考訳) ストリートレベルの画像は、その場でのデータの収集をスケールアップする大きな可能性を秘めている。 これは、安価な高品質カメラと、関連するテーマ情報を引き出すディープラーニング計算ソリューションの最近の進歩を組み合わせることで実現されている。 本稿では,街頭画像から作物の種類と表現情報をコンピュータビジョンを用いて収集し抽出する枠組みを提案する。 2018年の成長期には、オランダのフレヴォラント州で横向きのアクションカメラで高解像度の写真が撮影された。 3月から10月までの毎月、固定された200kmのルートが1秒間に1枚の写真を集め、合計40万枚のジオタグが付けられた。 17種類の作物について, 斑点植物学の観察を詳述した220の特定の小包の位置を記録した。 さらに,この時期は,春や夏の農作物の異なる耕作原土壌や,グリーンマリングや捕鯨作物などの収穫後の栽培慣行など,特定の未熟期のパーセルステージを含んでいた。 分類は、畳み込みニューラルネットワーク(MobileNet)を用いた転送学習に基づいて、よく知られた画像認識モデルでTensorFlowを使用して行われた。 160モデル中最高のパフォーマンスモデルを得るためにハイパーチューニング手法が開発された。 この最良のモデルは、マクロF1スコア88.1%、主表現学的ステージ86.9%の農作物を識別する独立推論セットに適用された。 実装と改善に関する実践的考察とともに,アプローチの可能性と注意点について論じる。 提案フレームワークは高品質なデータ収集を高速化し,コンピュータビジョンを用いた自動分類による大規模データ収集への道筋を示唆する。

Street-level imagery holds a significant potential to scale-up in-situ data collection. This is enabled by combining the use of cheap high quality cameras with recent advances in deep learning compute solutions to derive relevant thematic information. We present a framework to collect and extract crop type and phenological information from street level imagery using computer vision. During the 2018 growing season, high definition pictures were captured with side-looking action cameras in the Flevoland province of the Netherlands. Each month from March to October, a fixed 200-km route was surveyed collecting one picture per second resulting in a total of 400,000 geo-tagged pictures. At 220 specific parcel locations detailed on the spot crop phenology observations were recorded for 17 crop types. Furthermore, the time span included specific pre-emergence parcel stages, such as differently cultivated bare soil for spring and summer crops as well as post-harvest cultivation practices, e.g. green manuring and catch crops. Classification was done using TensorFlow with a well-known image recognition model, based on transfer learning with convolutional neural networks (MobileNet). A hypertuning methodology was developed to obtain the best performing model among 160 models. This best model was applied on an independent inference set discriminating crop type with a Macro F1 score of 88.1% and main phenological stage at 86.9% at the parcel level. Potential and caveats of the approach along with practical considerations for implementation and improvement are discussed. The proposed framework speeds up high quality in-situ data collection and suggests avenues for massive data collection via automated classification using computer vision.
翻訳日:2021-12-21 04:59:59 公開日:2021-12-16
# (参考訳) 非滑らかな非凸統計学習のための一般化bregmansurrogateアルゴリズムの解析

Analysis of Generalized Bregman Surrogate Algorithms for Nonsmooth Nonconvex Statistical Learning ( http://arxiv.org/abs/2112.09191v1 )

ライセンス: CC BY 4.0
Yiyuan She, Zhifeng Wang, Jiuwu Jin(参考訳) 現代の統計応用は、しばしば非滑らかまたは非凸である対象関数の最小化を伴う。 本稿では,局所線形近似,ミラー降下,反復しきい値処理,DCプログラミングなど,幅広いBregman-surrogateアルゴリズムフレームワークについて述べる。 一般化されたブレグマン関数による再特徴づけにより、適切な誤差測度を構築し、高次元の非凸および非滑らかな対象に対する大域収束率を確立することができる。 複合目的のスパース学習問題に対して、ある種の規則性条件下では、得られる推定子は、必ずしも局所的な最小化ではなく、証明可能な統計的保証を享受し、反復の列は、所望の精度で統計的真実に近づくことができる。 また, 階段化・緩和パラメータを慎重に制御することにより, 凸性や滑らかさを仮定することなく適応運動量に基づく加速度の設計法について検討した。

Modern statistical applications often involve minimizing an objective function that may be nonsmooth and/or nonconvex. This paper focuses on a broad Bregman-surrogate algorithm framework including the local linear approximation, mirror descent, iterative thresholding, DC programming and many others as particular instances. The recharacterization via generalized Bregman functions enables us to construct suitable error measures and establish global convergence rates for nonconvex and nonsmooth objectives in possibly high dimensions. For sparse learning problems with a composite objective, under some regularity conditions, the obtained estimators as the surrogate's fixed points, though not necessarily local minimizers, enjoy provable statistical guarantees, and the sequence of iterates can be shown to approach the statistical truth within the desired accuracy geometrically fast. The paper also studies how to design adaptive momentum based accelerations without assuming convexity or smoothness by carefully controlling stepsize and relaxation parameters.
翻訳日:2021-12-21 04:31:23 公開日:2021-12-16
# (参考訳) 必要なのはrawだけ - カメライメージパイプラインによる敵の攻撃に対する防御 [全文訳有]

All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines ( http://arxiv.org/abs/2112.09219v1 )

ライセンス: CC BY 4.0
Yuxuan Zhang, Bo Dong, Felix Heide(参考訳) 入力画像に知覚不可能な摂動を加えることで、これらの手法を騙して、摂動なしで正確に予測された画像に対して誤った予測を行うことができる。 トレーニングプロセスにおけるこれらの摂動を含む画像と画像のマッピング手法の提案や,前処理によるデノナイジングステップの除去など,さまざまな防御手法が提案されている。 既存の方法では、今日のデータセットの自然なRGBイメージがキャプチャされないことを無視することが多いが、実際、RAWカラーフィルタアレイのキャプチャから回収され、キャプチャのさまざまな劣化を被る。 本研究では,このRAWデータ分布を敵防衛の実証的先行として活用する。 具体的には,入力された RGB 画像を Bayer RAW 空間にマッピングし,学習カメラ画像信号処理 (ISP) パイプラインを用いて出力 RGB に戻すことで,潜在的な対向パターンを排除できるモデル非依存の対向防御手法を提案する。 提案手法は市販のプリプロセッシングモジュールとして機能し, モデル固有の対向訓練法とは異なり, 対向画像を必要としない。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。 異なる視覚タスク(例えば分類、セマンティックセグメンテーション、オブジェクト検出)のための大規模なデータセット(例えば、ImageNet、COCO)の実験は、このメソッドがタスクドメイン全体で既存のメソッドよりも著しく優れていることを検証する。

Existing neural networks for computer vision tasks are vulnerable to adversarial attacks: adding imperceptible perturbations to the input images can fool these methods to make a false prediction on an image that was correctly predicted without the perturbation. Various defense methods have proposed image-to-image mapping methods, either including these perturbations in the training process or removing them in a preprocessing denoising step. In doing so, existing methods often ignore that the natural RGB images in today's datasets are not captured but, in fact, recovered from RAW color filter array captures that are subject to various degradations in the capture. In this work, we exploit this RAW data distribution as an empirical prior for adversarial defense. Specifically, we proposed a model-agnostic adversarial defensive method, which maps the input RGB images to Bayer RAW space and back to output RGB using a learned camera image signal processing (ISP) pipeline to eliminate potential adversarial patterns. The proposed method acts as an off-the-shelf preprocessing module and, unlike model-specific adversarial training methods, does not require adversarial images to train. As a result, the method generalizes to unseen tasks without additional retraining. Experiments on large-scale datasets (e.g., ImageNet, COCO) for different vision tasks (e.g., classification, semantic segmentation, object detection) validate that the method significantly outperforms existing methods across task domains.
翻訳日:2021-12-21 04:30:08 公開日:2021-12-16
# (参考訳) Sim2Real Docs:レイトレーシングによる自然場面の文書のドメインランダム化 [全文訳有]

Sim2Real Docs: Domain Randomization for Documents in Natural Scenes using Ray-traced Rendering ( http://arxiv.org/abs/2112.09220v1 )

ライセンス: CC BY 4.0
Nikhil Maddikunta, Huijun Zhao, Sumit Keswani, Alfy Samuel, Fu-Ming Guo, Nishan Srishankar, Vishwa Pardeshi, Austin Huang(参考訳) 過去には、デジタル化された文書のためのコンピュータビジョンシステムは、体系的にキャプチャされた高品質なスキャンに依存していた。 現在、デジタルドキュメントに関する取引は、プロでない人が撮った携帯電話の写真アップロードで始まる可能性が高い。 そのため、文書自動化のためのコンピュータビジョンは、自然の場面で捉えた文書を考慮に入れなければならない。 もう1つの課題は、ドキュメント処理のタスクの目的が非常にユースケースに特化できることだ。これにより、手作業によるデータラベリングもまたコストがかかり、ユースケース間での変換が不十分である。 sim2real docsは、データセットを合成し、自然なシーンでドキュメントのドメインランダム化を実行するためのフレームワークです。 sim2real docsは3dモデリングとレイトレースレンダリングのためのオープンソースツールであるblenderを使って文書のプログラム的な3dレンダリングを可能にする。 光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。 各レンダリングは、興味のある潜在特性を特定するユースケース固有の基底真理データとペアリングされ、無制限にタスクに適合するトレーニングデータを生成する。 機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。 このようなモデルは、微調整やドメインランダム化パラメータの調整によって、現実世界のデータでさらに反復することができる。

In the past, computer vision systems for digitized documents could rely on systematically captured, high-quality scans. Today, transactions involving digital documents are more likely to start as mobile phone photo uploads taken by non-professionals. As such, computer vision for document automation must now account for documents captured in natural scene contexts. An additional challenge is that task objectives for document processing can be highly use-case specific, which makes publicly-available datasets limited in their utility, while manual data labeling is also costly and poorly translates between use cases. To address these issues we created Sim2Real Docs - a framework for synthesizing datasets and performing domain randomization of documents in natural scenes. Sim2Real Docs enables programmatic 3D rendering of documents using Blender, an open source tool for 3D modeling and ray-traced rendering. By using rendering that simulates physical interactions of light, geometry, camera, and background, we synthesize datasets of documents in a natural scene context. Each render is paired with use-case specific ground truth data specifying latent characteristics of interest, producing unlimited fit-for-task training data. The role of machine learning models is then to solve the inverse problem posed by the rendering pipeline. Such models can be further iterated upon with real-world data by either fine tuning or making adjustments to domain randomization parameters.
翻訳日:2021-12-21 04:12:35 公開日:2021-12-16
# ALEBk: e-Learning に適用した Blink Detection による注意レベル推定の可能性の検討

ALEBk: Feasibility Study of Attention Level Estimation via Blink Detection applied to e-Learning ( http://arxiv.org/abs/2112.09165v1 )

ライセンス: Link先を確認
Roberto Daza, Daniel DeAlcala, Aythami Morales, Ruben Tolosana, Ruth Cobos, Julian Fierrez(参考訳) 本研究は,視線リンク周波数に基づく遠隔注意レベル推定の実現可能性について述べる。 本稿ではまず,CNN(Convolutional Neural Networks)に基づく瞬目検出システムを提案する。 この検出器を用いて,オンラインセッションにおける学生の視線点滅率と注意度との関係を実験的に評価した。 この実験フレームワークは,38名の学生と複数の取得センサから得られたデータ,特に目まばたき検出と注意レベル推定のための公開マルチモーダルデータベースであるmebalを用いて実施されている。 一 学生の認知情報から来る時間的信号を提供する脳波(eeg)バンド 二 生徒のジェスチャーを捉えるためのRGB及びNIRカメラ。 その結果,眼点滅頻度と注意レベルとの逆相関が示唆された。 この関係は,眼の瞬き周波数の逆転として注目度を推定するために提案手法であるALEBkで用いられる。 本研究は,今後のeラーニングプラットフォームにおける注意レベル推定技術として,顔分析に基づくこのような行動バイオメトリックスを応用するための新しい研究ラインを開設する。

This work presents a feasibility study of remote attention level estimation based on eye blink frequency. We first propose an eye blink detection system based on Convolutional Neural Networks (CNNs), very competitive with respect to related works. Using this detector, we experimentally evaluate the relationship between the eye blink rate and the attention level of students captured during online sessions. The experimental framework is carried out using a public multimodal database for eye blink detection and attention level estimation called mEBAL, which comprises data from 38 students and multiples acquisition sensors, in particular, i) an electroencephalogram (EEG) band which provides the time signals coming from the student's cognitive information, and ii) RGB and NIR cameras to capture the students face gestures. The results achieved suggest an inverse correlation between the eye blink frequency and the attention level. This relation is used in our proposed method called ALEBk for estimating the attention level as the inverse of the eye blink frequency. Our results open a new research line to introduce this technology for attention level estimation on future e-learning platforms, among other applications of this kind of behavioral biometrics based on face analysis.
翻訳日:2021-12-20 16:12:57 公開日:2021-12-16
# 混み合ったシーン分類のための視聴覚データセットとディープラーニングフレームワーク

An Audio-Visual Dataset and Deep Learning Frameworks for Crowded Scene Classification ( http://arxiv.org/abs/2112.09172v1 )

ライセンス: Link先を確認
Lam Pham, Dat Ngo, Phu X. Nguyen, Truong Hoang, Alexander Schindler(参考訳) 本稿では,入力映像を「riot」,「noise-street」,「firework-event」,「music-event」,「sport-atmosphere」の5つの実生活の混み合ったシーンの1つに分類する。 この目的のために,まず,この5つの混み合ったコンテキストの音声・視覚データセット(ビデオ)をYoutubeから収集する。 そして、音声と視覚の入力データを独立してデプロイするために、幅広いディープラーニングフレームワークが提案されている。 最後に、ハイパフォーマンスなディープラーニングフレームワークから得られた結果を融合して、最高の精度スコアを得る。 実験結果から,音声と視覚の入力要因はSCタスクのパフォーマンスに独立して寄与することが示唆された。 重要なことに、オーディオまたは視覚入力データのいずれかを探索するディープラーニングフレームワークの集合は、95.7%の精度を達成することができる。

This paper presents a task of audio-visual scene classification (SC) where input videos are classified into one of five real-life crowded scenes: 'Riot', 'Noise-Street', 'Firework-Event', 'Music-Event', and 'Sport-Atmosphere 7;. To this end, we firstly collect an audio-visual dataset (videos) of these five crowded contexts from Youtube (in-the-wild scenes). Then, a wide range of deep learning frameworks are proposed to deploy either audio or visual input data independently. Finally, results obtained from high-performed deep learning frameworks are fused to achieve the best accuracy score. Our experimental results indicate that audio and visual input factors independently contribute to the SC task's performance. Significantly, an ensemble of deep learning frameworks exploring either audio or visual input data can achieve the best accuracy of 95.7%.
翻訳日:2021-12-20 16:12:38 公開日:2021-12-16
# LSTMとトランスフォーマーによる境界自由文法の学習:差分と説明

Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Differen ce and Explanations ( http://arxiv.org/abs/2112.09174v1 )

ライセンス: Link先を確認
Hui Shi, Sicun Gao, Yuandong Tian, Xinyun Chen, Jishen Zhao(参考訳) Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。 理論的結果はどちらもチューリング完全であり、文脈自由言語(CFL)を表現可能であることを示している。 実際、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。 しかし、その理由はほとんど分かっていない。 本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。 この目的を達成するために,LSTMとトランスフォーマーの潜伏表現の分解を強制し,対応するCFLのプッシュダウンオートマトン(PDA)の遷移を監督するオラクルトレーニングパラダイムを導入する。 強制分解により、学習cflにおけるlstmとtransformerの性能上界が近いことが示される: どちらもスタックをシミュレートし、状態遷移と共にスタック操作を実行することができる。 しかし、強制的な分解がないため、LSTMモデルではスタックとスタックの操作をキャプチャできないが、Transformerモデルには限界がある。 最後に、プロトタイプPDAの実験を現実世界の構文解析タスクに接続し、結論を再検証する。

Long Short-Term Memory (LSTM) and Transformers are two popular neural architectures used for natural language processing tasks. Theoretical results show that both are Turing-complete and can represent any context-free language (CFL).In practice, it is often observed that Transformer models have better representation power than LSTM. But the reason is barely understood. We study such practical differences between LSTM and Transformer and propose an explanation based on their latent space decomposition patterns. To achieve this goal, we introduce an oracle training paradigm, which forces the decomposition of the latent representation of LSTM and the Transformer and supervises with the transitions of the Pushdown Automaton (PDA) of the corresponding CFL. With the forced decomposition, we show that the performance upper bounds of LSTM and Transformer in learning CFL are close: both of them can simulate a stack and perform stack operation along with state transitions. However, the absence of forced decomposition leads to the failure of LSTM models to capture the stack and stack operations, while having a marginal impact on the Transformer model. Lastly, we connect the experiment on the prototypical PDA to a real-world parsing task to re-verify the conclusions
翻訳日:2021-12-20 16:12:03 公開日:2021-12-16
# クラウドソース自然言語推論データセットにおける意味バイアスの自動同定

Automatically Identifying Semantic Bias in Crowdsourced Natural Language Inference Datasets ( http://arxiv.org/abs/2112.09237v1 )

ライセンス: Link先を確認
Michael Saxon, Xinyi Wang, William Yang Wang(参考訳) 自然言語推論(NLI)は、人間の言語に有用なモデルを作成するための重要なタスクである。 残念ながら、大規模なNLIデータセットの生成は、彼らが書いた文章にバイアスを導入する傾向にあるクラウドワーカーに依存している。 特に、品質管理がなければ、彼らはリレーショナルラベルを予測できる仮説を作り、前提なしでは、偶然よりも優れている。 nliデータセットにおける仮説の学習された埋め込み空間で「バイアスクラスター」を見つけるためのモデル駆動、教師なしの手法を導入し、データセットの仮説分布の意味バイアスを改善するための介入と追加のラベリングを行う。

Natural language inference (NLI) is an important task for producing useful models of human language. Unfortunately large-scale NLI dataset production relies on crowdworkers who are prone to introduce biases in the sentences they write. In particular, without quality control they produce hypotheses from which the relational label can be predicted, without the premise, better than chance. We introduce a model-driven, unsupervised technique to find "bias clusters" in a learned embedding space of the hypotheses in NLI datasets, from which interventions and additional rounds of labeling can be performed to ameliorate the semantic bias of the hypothesis distribution of a dataset.
翻訳日:2021-12-20 16:11:45 公開日:2021-12-16
# TAFIM:顔画像操作に対する敵対的攻撃を狙う

TAFIM: Targeted Adversarial Attacks against Facial Image Manipulations ( http://arxiv.org/abs/2112.09151v1 )

ライセンス: Link先を確認
Shivangi Aneja, Lev Markhasin, Matthias Niessner(参考訳) 顔画像操作法は、コンピュータグラフィックスに多くの有益な応用があるにもかかわらず、個人のプライバシーに影響を与え、偽情報を広めることによって懸念を引き起こすことがある。 本研究では,顔の操作がそもそも起こらないよう積極的に防御する手法を提案する。 そこで本研究では,原画像に埋め込まれた画像固有の摂動を生成する新しいデータ駆動手法を提案する。 鍵となる考え方は、これらの保護された画像は、実際の操作ではなく、事前に定義された操作対象(この場合、均一な色付き出力画像)を生成することにより、顔操作を防止することである。 画像毎のノイズパターンを個別に最適化する従来の敵攻撃と比較して、一般化されたモデルでは1つの前方通過しか必要とせず、桁違いに高速に実行でき、スマートフォンのようなリソース制約のあるデバイスでも簡単に画像処理スタックを統合できる。 さらに, 可変圧縮近似を応用し, 一般的な画像圧縮に頑健な摂動を実現することを提案する。 さらに,生成した摂動が複数の操作方法に対して同時に防止できることを示す。

Face image manipulation methods, despite having many beneficial applications in computer graphics, can also raise concerns by affecting an individual's privacy or spreading disinformation. In this work, we propose a proactive defense to prevent face manipulation from happening in the first place. To this end, we introduce a novel data-driven approach that produces image-specific perturbations which are embedded in the original images. The key idea is that these protected images prevent face manipulation by causing the manipulation model to produce a predefined manipulation target (uniformly colored output image in our case) instead of the actual manipulation. Compared to traditional adversarial attacks that optimize noise patterns for each image individually, our generalized model only needs a single forward pass, thus running orders of magnitude faster and allowing for easy integration in image processing stacks, even on resource-constrained devices like smartphones. In addition, we propose to leverage a differentiable compression approximation, hence making generated perturbations robust to common image compression. We further show that a generated perturbation can simultaneously prevent against multiple manipulation methods.
翻訳日:2021-12-20 16:09:07 公開日:2021-12-16
# AFDetV2: 点雲からの物体検出のための第2段階の必要性を再考する

AFDetV2: Rethinking the Necessity of the Second Stage for Object Detection from Point Clouds ( http://arxiv.org/abs/2112.09205v1 )

ライセンス: Link先を確認
Yihan Hu, Zhuangzhuang Ding, Runzhou Ge, Wenxin Shao, Li Huang, Kun Li, Qiang Liu(参考訳) ポイントクラウドからの3D検出には、シングルステージメソッドと2ステージメソッドの2つのストリームがある。 前者は計算効率が高いが、後者は検出精度が良くなる。 2段階のアプローチを慎重に検討することにより、適切に設計すれば、第1段階が正確なボックス回帰を生成できることがわかった。 このシナリオでは、第2ステージは主に、より良いローカライゼーションを持つボックスが選択されるように、ボックスを再スコアする。 この観察から,これらの要件を満たした単段アンカーフリーネットワークを考案した。 AFDetV2と名付けられたこのネットワークは、バックボーンに自己校正された畳み込みブロック、キーポイント補助監視、マルチタスクヘッドにIoU予測ブランチを組み込むことで、以前の作業を拡張する。 これにより、単一ステージにおいて検出精度が大幅に向上する。 提案手法を評価するため,Waymo Open DatasetとnuScenes Datasetについて広範な実験を行った。 当社のafdetv2は,これら2つのデータセットの最先端結果を達成しており,単一ステージと2ステージのse3d検出器を含む,すべての先行技術よりも優れています。 AFDetV2は、Waymo Open Dataset Challenge 2021のリアルタイム3D検出で1位を獲得した。 さらに、我々のモデルであるAFDetV2-Baseの変種は、チャレンジスポンサーによって「最も効率的なモデル」と題され、より優れた計算効率を示している。 本手法の汎用性を示すため,本手法を2段階ネットワークの第1段階に適用した。 例外なく, 後骨の強化と再装飾アプローチにより, 第2段階の改良はもはや不要であることが示唆された。

There have been two streams in the 3D detection from point clouds: single-stage methods and two-stage methods. While the former is more computationally efficient, the latter usually provides better detection accuracy. By carefully examining the two-stage approaches, we have found that if appropriately designed, the first stage can produce accurate box regression. In this scenario, the second stage mainly rescores the boxes such that the boxes with better localization get selected. From this observation, we have devised a single-stage anchor-free network that can fulfill these requirements. This network, named AFDetV2, extends the previous work by incorporating a self-calibrated convolution block in the backbone, a keypoint auxiliary supervision, and an IoU prediction branch in the multi-task head. As a result, the detection accuracy is drastically boosted in the single-stage. To evaluate our approach, we have conducted extensive experiments on the Waymo Open Dataset and the nuScenes Dataset. We have observed that our AFDetV2 achieves the state-of-the-art results on these two datasets, superior to all the prior arts, including both the single-stage and the two-stage se3D detectors. AFDetV2 won the 1st place in the Real-Time 3D Detection of the Waymo Open Dataset Challenge 2021. In addition, a variant of our model AFDetV2-Base was entitled the "Most Efficient Model" by the Challenge Sponsor, showing a superior computational efficiency. To demonstrate the generality of this single-stage method, we have also applied it to the first stage of the two-stage networks. Without exception, the results show that with the strengthened backbone and the rescoring approach, the second stage refinement is no longer needed.
翻訳日:2021-12-20 16:08:50 公開日:2021-12-16
# 3dシーンにおけるオデュッセウスの放浪

The Wanderings of Odysseus in 3D Scenes ( http://arxiv.org/abs/2112.09251v1 )

ライセンス: Link先を確認
Yan Zhang and Siyu Tang(参考訳) 我々のゴールは、デジタル人間は多様な身体形態を持ち、永久に動き、身体とシーンの接触をしやすくするデジタル環境を蓄積することである。 主な課題は、多様な3Dボディに対して現実的で制御可能で無限に長い動きを作り出すことである。 この目的のために,体表面マーカーによる生成運動プリミティブを提案し,ガンマとして短縮する。 そこで本研究では,長期動作を動作プリミティブの時系列に分解する。 身体表面マーカーと条件付き変分オートエンコーダを用いて各動作プリミティブをモデル化し、生成モデルを再帰的に実装して長期動作を生成する。 目標を達成するための動作を制御するために,モデル潜在空間の探索にポリシネットワークを適用し,木に基づく探索を用いて,テスト中の運動品質の維持を行う。 実験により,本手法は最先端のデータ駆動方式よりもリアルで制御可能な動作を生成できることを示した。 従来のパス探索アルゴリズムでは、生成した人体はシーン内で長時間、現実的に長い距離を移動することができる。 研究目的のコードは次の通りである。 \url{https://yz-cnsdqz.gi thub.io/eigenmotion/ GAMMA/}

Our goal is to populate digital environments, in which the digital humans have diverse body shapes, move perpetually, and have plausible body-scene contact. The core challenge is to generate realistic, controllable, and infinitely long motions for diverse 3D bodies. To this end, we propose generative motion primitives via body surface markers, shortened as GAMMA. In our solution, we decompose the long-term motion into a time sequence of motion primitives. We exploit body surface markers and conditional variational autoencoder to model each motion primitive, and generate long-term motion by implementing the generative model recursively. To control the motion to reach a goal, we apply a policy network to explore the model latent space, and use a tree-based search to preserve the motion quality during testing. Experiments show that our method can produce more realistic and controllable motion than state-of-the-art data-driven method. With conventional path-finding algorithms, the generated human bodies can realistically move long distances for a long period of time in the scene. Code will be released for research purposes at: \url{https://yz-cnsdqz.gi thub.io/eigenmotion/ GAMMA/}
翻訳日:2021-12-20 16:08:22 公開日:2021-12-16
# どのようにViTを増強するか? ランダムなスタイル転送拡張であるConsistency LosとStyleAug

How to augment your ViTs? Consistency loss and StyleAug, a random style transfer augmentation ( http://arxiv.org/abs/2112.09260v1 )

ライセンス: Link先を確認
Akash Umakantha, Joao D. Semedo, S. Alireza Golestaneh, Wan-Yi S. Lin(参考訳) Vision Transformer (ViT) アーキテクチャは、最近、様々なコンピュータビジョンタスクで競合する性能を達成した。 ViTsの背後にあるモチベーションの1つは、畳み込みニューラルネットワーク(CNN)と比較して誘導バイアスが弱いことである。 しかし、これによりViTsの訓練も困難になる。 それらは非常に大きなトレーニングデータセット、重い正規化、強いデータ拡張を必要とする。 ViTのトレーニングに使われるデータ拡張戦略は、2つのアーキテクチャ間で大きな違いがあるにも関わらず、CNNのトレーニングから受け継がれている。 本研究では,画像分類のためのcnn (resnet など) と vit アーキテクチャにおけるデータ拡張戦略の相違を実験的に評価した。 私たちは、スタイル転送データ拡張(StyleAug)という、ViTのトレーニングに最適なスタイル転送データ拡張を導入しましたが、RandAugmentとAugmixは典型的にはCNNのトレーニングに最適です。 また, 分類損失に加えて, 同一画像の複数強調画像間の整合性損失を用いることで, ViTsの訓練に特に有用であることがわかった。

The Vision Transformer (ViT) architecture has recently achieved competitive performance across a variety of computer vision tasks. One of the motivations behind ViTs is weaker inductive biases, when compared to convolutional neural networks (CNNs). However this also makes ViTs more difficult to train. They require very large training datasets, heavy regularization, and strong data augmentations. The data augmentation strategies used to train ViTs have largely been inherited from CNN training, despite the significant differences between the two architectures. In this work, we empirical evaluated how different data augmentation strategies performed on CNN (e.g., ResNet) versus ViT architectures for image classification. We introduced a style transfer data augmentation, termed StyleAug, which worked best for training ViTs, while RandAugment and Augmix typically worked best for training CNNs. We also found that, in addition to a classification loss, using a consistency loss between multiple augmentations of the same image was especially helpful when training ViTs.
翻訳日:2021-12-20 16:06:44 公開日:2021-12-16
# メモリレス連続型ディープニューラルネットワークにおける角距離としてのセマンティックドリフトの有効防止

Effective prevention of semantic drift as angular distance in memory-less continual deep neural networks ( http://arxiv.org/abs/2112.09175v1 )

ライセンス: Link先を確認
Khouloud Saadi, Muhammad Taimoor Khan(参考訳) 生涯機械学習または連続学習モデルは、一連のタスクにまたがる知識を蓄積することによって、漸進的に学習しようとする。 したがって、これらのモデルはより速く学習する。 それらは、人間や、チャットボットや自動運転車など、あらゆる動的環境と対話しなければならないさまざまなインテリジェントシステムで使用される。 メモリレスアプローチは、アーキテクチャ内のタスクからの入力情報に対応するディープニューラルネットワークでよく使用される。 これによって、すべてのタスクをうまく実行できます。 これらのモデルはセマンティックドリフトや可塑性安定性ジレンマに悩まされる。 既存のモデルはミンコフスキー距離測定を使用して、どのノードを凍結、更新、複製するかを決定する。 これらの距離測定は、高次元スパースベクトルの影響を受けるため、ノードのより良い分離を提供しない。 提案手法では,ノードの分離性が向上し,安定性と可塑性のバランスが向上する個々のノードの意味的ドリフトを評価するために角距離を用いる。 提案手法は,標準データセットの精度を維持することにより,最先端技術モデルよりも優れる。

Lifelong machine learning or continual learning models attempt to learn incrementally by accumulating knowledge across a sequence of tasks. Therefore, these models learn better and faster. They are used in various intelligent systems that have to interact with humans or any dynamic environment e.g., chatbots and self-driving cars. Memory-less approach is more often used with deep neural networks that accommodates incoming information from tasks within its architecture. It allows them to perform well on all the seen tasks. These models suffer from semantic drift or the plasticity-stability dilemma. The existing models use Minkowski distance measures to decide which nodes to freeze, update or duplicate. These distance metrics do not provide better separation of nodes as they are susceptible to high dimensional sparse vectors. In our proposed approach, we use angular distance to evaluate the semantic drift in individual nodes that provide better separation of nodes and thus better balancing between stability and plasticity. The proposed approach outperforms state-of-the art models by maintaining higher accuracy on standard datasets.
翻訳日:2021-12-20 15:58:52 公開日:2021-12-16
# データセットシフトによる生体信号分類課題の不確実性評価のベンチマーク

Benchmarking Uncertainty Qualification on Biosignal Classification Tasks under Dataset Shift ( http://arxiv.org/abs/2112.09196v1 )

ライセンス: Link先を確認
Tong Xia, Jing Han, Cecilia Mascolo(参考訳) バイオシグナー(biosignal)は、呼吸音、心臓活動(ECG)、脳波(EEG)などの人体から連続的に測定できる信号であり、それに基づいて、自動疾患検出および健康状態モニタリングのための非常に有望なパフォーマンスを持つ機械学習モデルが開発された。 しかし、データセットシフト、すなわち推論のデータ分布はトレーニングの分布によって異なり、実際の生体信号ベースのアプリケーションでは珍しくない。 このロバスト性を改善するために、不確実性を持つ確率モデルを適用して、予測の信頼性を捉える。 しかし、推定の不確実性の品質を評価することは依然として課題である。 本研究では,様々な種類の生体信号データセットのシフトを様々な度合いで捉える際の不確実性の推定能力を評価する枠組みを提案する。 特に、呼吸音と心電図信号に基づく3つの分類タスクを用いて、5つの代表的な不確実性判定方法のベンチマークを行う。 大規模な実験により、EnsembleとBayesianモデルはデータセットシフトの下で比較的優れた不確実性推定を提供するが、全ての試験されたモデルは信頼に値する予測とモデルのキャリブレーションの約束を満たさないことが示された。 本研究は,新たに開発された生体信号分類器の総合的な評価方法である。

A biosignal is a signal that can be continuously measured from human bodies, such as respiratory sounds, heart activity (ECG), brain waves (EEG), etc, based on which, machine learning models have been developed with very promising performance for automatic disease detection and health status monitoring. However, dataset shift, i.e., data distribution of inference varies from the distribution of the training, is not uncommon for real biosignal-based applications. To improve the robustness, probabilistic models with uncertainty qualification are adapted to capture how reliable a prediction is. Yet, assessing the quality of the estimated uncertainty remains a challenge. In this work, we propose a framework to evaluate the capability of the estimated uncertainty in capturing different types of biosignal dataset shifts with various degrees. In particular, we use three classification tasks based on respiratory sounds and electrocardiography signals to benchmark five representative uncertainty qualification methods. Extensive experiments show that, although Ensemble and Bayesian models could provide relatively better uncertainty estimations under dataset shifts, all tested models fail to meet the promise in trustworthy prediction and model calibration. Our work paves the way for a comprehensive evaluation for any newly developed biosignal classifiers.
翻訳日:2021-12-20 15:58:36 公開日:2021-12-16
# ディープラーニングの自動化 - ニューラルネットワークの検索は終わりではない

Automated Deep Learning: Neural Architecture Search Is Not the End ( http://arxiv.org/abs/2112.09245v1 )

ライセンス: Link先を確認
Xuanyi Dong, David Jacob Kedziora, Katarzyna Musial, Bogdan Gabrys(参考訳) ディープラーニング(DL)は、視覚認識、音声認識、機械翻訳など様々な文脈でモデルを開発する上で、非常に効果的なアプローチであることが証明されている。 しかし、dlを適用するエンドツーエンドのプロセスは自明ではない。 問題定式化やコンテキスト理解,データエンジニアリング,モデル開発,デプロイメント,継続的監視やメンテナンスなど,さまざまな作業が必要です。 さらに、これらのステップは知識と相互作用の両方の観点から人間に大きく依存しており、DLのさらなる進歩と民主化を妨げる。 その結果、これらの問題に対応するために、ここ数年で新たな分野としてautomated deep learning(autodl)が出現した。 この取り組みは、人間の関与を最小化することを目的としており、いくつかの調査の焦点となっているneural architecture search(nas)での成果で最もよく知られている。 とは言っても、NASはAutoDLのすべてと終わりではない。 したがって、本レビューでは、アーキティパルDLワークフロー全体にわたる自動化研究の取り組みを概観する。 そこで本研究では,個々の出版物とより広い研究領域における既存の作業を評価するための総合的な10項目の基準を提案する。 新規性、ソリューション品質、効率性、安定性、解釈性、再現性、エンジニアリング品質、スケーラビリティ、一般化性、エコフレンドリー性である。 最終的に、このレビューは、2020年代初頭にAutoDLの評価的な概要を提供し、将来の進歩の機会がどこにあるかを特定する。

Deep learning (DL) has proven to be a highly effective approach for developing models in diverse contexts, including visual perception, speech recognition, and machine translation. However, the end-to-end process for applying DL is not trivial. It requires grappling with problem formulation and context understanding, data engineering, model development, deployment, continuous monitoring and maintenance, and so on. Moreover, each of these steps typically relies heavily on humans, in terms of both knowledge and interactions, which impedes the further advancement and democratization of DL. Consequently, in response to these issues, a new field has emerged over the last few years: automated deep learning (AutoDL). This endeavor seeks to minimize the need for human involvement and is best known for its achievements in neural architecture search (NAS), a topic that has been the focus of several surveys. That stated, NAS is not the be-all and end-all of AutoDL. Accordingly, this review adopts an overarching perspective, examining research efforts into automation across the entirety of an archetypal DL workflow. In so doing, this work also proposes a comprehensive set of ten criteria by which to assess existing work in both individual publications and broader research areas. These criteria are: novelty, solution quality, efficiency, stability, interpretability, reproducibility, engineering quality, scalability, generalizability, and eco-friendliness. Thus, ultimately, this review provides an evaluative overview of AutoDL in the early 2020s, identifying where future opportunities for progress may exist.
翻訳日:2021-12-20 15:58:12 公開日:2021-12-16
# 無限変数を用いた因果モデリング

Causal Modeling With Infinitely Many Variables ( http://arxiv.org/abs/2112.09171v1 )

ライセンス: Link先を確認
Spencer Peters and Joseph Y. Halpern(参考訳) 構造方程式モデル(SEM)は、おそらく因果関係をモデル化するための最も一般的なフレームワークである。 しかし、我々が示すように、このフレームワークを無限に多くの変数に拡張することは、例えば力学系をモデル化するのに必要であり、いくつかの問題にぶつかる。 GSEM (Generalized SEMs) は,(1) 微分方程式の系を自然的かつ直感的に表現できる,(2) 全くSEMで表現できないある自然状況を簡単に表現できる,(3) SEM における実際の因果関係の定義は,基本的に変化を伴わない,という,SEM のフレキシブルな一般化である。

Structural-equations models (SEMs) are perhaps the most commonly used framework for modeling causality. However, as we show, naively extending this framework to infinitely many variables, which is necessary, for example, to model dynamical systems, runs into several problems. We introduce GSEMs (generalized SEMs), a flexible generalization of SEMs that directly specify the results of interventions, in which (1) systems of differential equations can be represented in a natural and intuitive manner, (2) certain natural situations, which cannot be represented by SEMs at all, can be represented easily, (3) the definition of actual causality in SEMs carries over essentially without change.
翻訳日:2021-12-20 15:54:00 公開日:2021-12-16
# 設計知識に基づく質問回答としての説明

Explanation as Question Answering based on Design Knowledge ( http://arxiv.org/abs/2112.09616v1 )

ライセンス: Link先を確認
Ashok Goel, Vrinda Nandan, Eric Gregori, Sungeun An and Spencer Rugaber(参考訳) AIエージェントの説明には、その設計と運用に関する知識が必要である。 オープンな疑問は、この設計知識をどのように識別し、アクセスし、利用して説明を生成するかである。 教育的文脈を専門とするインテリジェントな学習システムのような、実際に使われている多くのaiエージェントは、通常、エージェントが何をするか、どのように機能するか、エージェントの使い方を説明するユーザーガイドが付いている。 しかし、ユーザーガイドを詳細に読んだ人間はほとんどいない。 代わりに、ほとんどのユーザーは要求に応じて質問に答える。 本稿では,対話型学習環境(VERA)におけるユーザガイドを用いた質問応答エージェント(AskJill)について述べる。 VERAにおけるAskJillの予備評価を行った。

Explanation of an AI agent requires knowledge of its design and operation. An open question is how to identify, access and use this design knowledge for generating explanations. Many AI agents used in practice, such as intelligent tutoring systems fielded in educational contexts, typically come with a User Guide that explains what the agent does, how it works and how to use the agent. However, few humans actually read the User Guide in detail. Instead, most users seek answers to their questions on demand. In this paper, we describe a question answering agent (AskJill) that uses the User Guide for an interactive learning environment (VERA) to automatically answer questions and thereby explains the domain, functioning, and operation of VERA. We present a preliminary assessment of AskJill in VERA.
翻訳日:2021-12-20 15:53:35 公開日:2021-12-16
# 画像品質と診断精度向上のための深層学習フレームワーク

A Deep-Learning Framework for Improving COVID-19 CT Image Quality and Diagnostic Accuracy ( http://arxiv.org/abs/2112.09216v1 )

ライセンス: Link先を確認
Garvit Goel, Jingyuan Qi, Wu-chun Feng, Guohua Cao(参考訳) 本稿では,covid-19の迅速かつ正確なct(dl-fact)検査のためのディープラーニングベースのコンピューティングフレームワークを提案する。 我々は,CT画像の強調と分類のためのDLベースのアプローチにより,新型コロナウイルスの検査速度と精度を向上するために,CTベースのDLフレームワークを開発した。 画像強調ネットワークは、DenseNetとDeconvolutionベースのネットワークの略であるDDnetから適応されている。 その速度と精度を実証するため,いくつかの画像ソースでDL-FACTを評価した。 以上の結果から, DL-FACTはターンアラウンド時間を数日から数分に短縮し, 検査精度を91%向上できることがわかった。 DL-FACTは、新型コロナウイルスの診断とモニタリングを行う医療専門家のためのソフトウェアツールとして使用できる。

We present a deep-learning based computing framework for fast-and-accurate CT (DL-FACT) testing of COVID-19. Our CT-based DL framework was developed to improve the testing speed and accuracy of COVID-19 (plus its variants) via a DL-based approach for CT image enhancement and classification. The image enhancement network is adapted from DDnet, short for DenseNet and Deconvolution based network. To demonstrate its speed and accuracy, we evaluated DL-FACT across several sources of COVID-19 CT images. Our results show that DL-FACT can significantly shorten the turnaround time from days to minutes and improve the COVID-19 testing accuracy up to 91%. DL-FACT could be used as a software tool for medical professionals in diagnosing and monitoring COVID-19.
翻訳日:2021-12-20 15:53:21 公開日:2021-12-16
# 量子多体理論の概念を用いた新しい画像雑音化アルゴリズム

A Novel Image Denoising Algorithm Using Concepts of Quantum Many-Body Theory ( http://arxiv.org/abs/2112.09254v1 )

ライセンス: Link先を確認
Sayantan Dutta, Adrian Basarab, Bertrand Georgeot, and Denis Kouam\'e(参考訳) 実写画像のスパース表現は、デノナイジングのような画像応用において非常に効果的なアプローチである。 近年,コンピュータ能力の増大に伴い,複数の画像から抽出したパッチ内の冗長性を利用したデータ駆動戦略が注目されている。 本稿では,量子多体理論に触発された画像依存に基づく新しい画像認識アルゴリズムを提案する。 パッチ分析に基づき、局所画像近傍における類似度測度は、実画像の局所構造を効率的に保存できる量子力学における相互作用に似た用語で定式化される。 この適応基底の汎用性は、画像に依存しない、あるいは画像に依存しないノイズシナリオへの適用範囲を調整せずに拡張する。 本稿では,画像特性,雑音統計,強度に関わらず,提案アルゴリズムの雑音除去能力を示すため,従来の手法と厳密な比較を行った。 実験では,ハイパーパラメータの特性とノイズ除去性能への影響について説明し,基礎的真理が得られない実験では,その値が最適値に近いものを選択する自動ルールを提示する。 最後に, 医用超音波画像デスペックリングの応用など, 実用的な画像デノイジング問題に対処するための手法の有用性を示す。

Sparse representation of real-life images is a very effective approach in imaging applications, such as denoising. In recent years, with the growth of computing power, data-driven strategies exploiting the redundancy within patches extracted from one or several images to increase sparsity have become more prominent. This paper presents a novel image denoising algorithm exploiting such an image-dependent basis inspired by the quantum many-body theory. Based on patch analysis, the similarity measures in a local image neighborhood are formalized through a term akin to interaction in quantum mechanics that can efficiently preserve the local structures of real images. The versatile nature of this adaptive basis extends the scope of its application to image-independent or image-dependent noise scenarios without any adjustment. We carry out a rigorous comparison with contemporary methods to demonstrate the denoising capability of the proposed algorithm regardless of the image characteristics, noise statistics and intensity. We illustrate the properties of the hyperparameters and their respective effects on the denoising performance, together with automated rules of selecting their values close to the optimal one in experimental setups with ground truth not available. Finally, we show the ability of our approach to deal with practical images denoising problems such as medical ultrasound image despeckling applications.
翻訳日:2021-12-20 15:53:09 公開日:2021-12-16
# Taylor モデルとzonotope の統合によるニューラルネットワーク制御システムの検証

Verification of Neural-Network Control Systems by Integrating Taylor Models and Zonotopes ( http://arxiv.org/abs/2112.09197v1 )

ライセンス: Link先を確認
Christian Schilling, Marcelo Forets, Sebastian Guadalupe(参考訳) ニューラルネットワークコントローラ(NNCS)を用いた閉ループ力学系の検証問題について検討する。 この問題は通常、到達可能な状態の集合を計算することに還元される。 動的システムとニューラルネットワークを独立に考えると、Taylorモデルとzonotopeと呼ばれるセット表現に基づいて、そのタスクに対して正確なアプローチが存在する。 しかし、nncsへのこれらのアプローチの組み合わせは、集合表現の間で変換すると、各制御サイクルで依存情報が失われ、累積近似誤差がすぐに結果が役に立たなくなるため、自明ではない。 本稿では,Taylorモデルとzonotopesに基づくアプローチをチェーンするアルゴリズムを提案し,NNCSの精度の高い到達性アルゴリズムを提案する。 このアルゴリズムは孤立したアプローチのインターフェースでのみ機能するため、一般的な力学系やニューラルネットワークに適用でき、これらの領域における将来の進歩の恩恵を受けることができる。 我々の実装は最先端のパフォーマンスを提供し、NNCSの年次リーチビリティコンペティションにおける全てのベンチマーク問題を解析した最初のものである。

We study the verification problem for closed-loop dynamical systems with neural-network controllers (NNCS). This problem is commonly reduced to computing the set of reachable states. When considering dynamical systems and neural networks in isolation, there exist precise approaches for that task based on set representations respectively called Taylor models and zonotopes. However, the combination of these approaches to NNCS is non-trivial because, when converting between the set representations, dependency information gets lost in each control cycle and the accumulated approximation error quickly renders the result useless. We present an algorithm to chain approaches based on Taylor models and zonotopes, yielding a precise reachability algorithm for NNCS. Because the algorithm only acts at the interface of the isolated approaches, it is applicable to general dynamical systems and neural networks and can benefit from future advances in these areas. Our implementation delivers state-of-the-art performance and is the first to successfully analyze all benchmark problems of an annual reachability competition for NNCS.
翻訳日:2021-12-20 15:43:12 公開日:2021-12-16
# 伝達学習を用いたエコー状態ネットワークによる浅水の動態予測

Predicting Shallow Water Dynamics using Echo-State Networks with Transfer Learning ( http://arxiv.org/abs/2112.09182v1 )

ライセンス: Link先を確認
Xiaoqian Chen and Balasubramanya T. Nadiga and Ilya Timofeyev(参考訳) 本稿では,浅水方程式の動力学を学ぶために貯留層計算を応用できることを実証する。 特に, 従来の貯水池計算の応用では, その軌道のみに沿った進化を予測するために, 特定の軌道上での訓練が必要であったが, 訓練過程にない初期条件で浅海方程式の軌道を予測できる貯水池計算の能力を示す。 しかし, この環境では, トレーニングデータセットと異なる環境条件(総水位, 平均速度など)でネットワークの性能が低下することが判明した。 この不足を回避するために,我々は,関連する環境条件の小さな追加学習ステップを用いて予測を改善するトランスファー学習手法を提案する。

In this paper we demonstrate that reservoir computing can be used to learn the dynamics of the shallow-water equations. In particular, while most previous applications of reservoir computing have required training on a particular trajectory to further predict the evolution along that trajectory alone, we show the capability of reservoir computing to predict trajectories of the shallow-water equations with initial conditions not seen in the training process. However, in this setting, we find that the performance of the network deteriorates for initial conditions with ambient conditions (such as total water height and average velocity) that are different from those in the training dataset. To circumvent this deficiency, we introduce a transfer learning approach wherein a small additional training step with the relevant ambient conditions is used to improve the predictions.
翻訳日:2021-12-20 15:42:56 公開日:2021-12-16
# 磁気トンネル接合のパッシブアレイ上の二元ニューラルネットワークの実装

Implementation of a Binary Neural Network on a Passive Array of Magnetic Tunnel Junctions ( http://arxiv.org/abs/2112.09159v1 )

ライセンス: Link先を確認
Jonathan M. Goodwill, Nitin Prasad, Brian D. Hoskins, Matthew W. Daniels, Advait Madhavan, Lei Wan, Tiffany S. Santos, Michael Tran, Jordan A. Katine, Patrick M. Braganca, Mark D. Stiles, and Jabez J. McClelland(参考訳) ニューラルネットワークの大規模化とアプリケーション分野の拡大により、よりエネルギーとメモリ効率のよい人工知能に特化したハードウェア需要が高まっている。 主要な問題を緩和するアベニュー、フォン・ノイマンのボトルネックには、インメモリおよびニアメモリアーキテクチャ、アルゴリズムアプローチが含まれる。 ここでは、MTJの受動配列に基づくニューラルネットワークハードウェア推論を実証するために、MTJの低消費電力と本質的に二元的動作を利用する。 一般に、トレーニング済みのネットワークモデルをハードウェアに転送することは、デバイス間のばらつき、書き込みエラー、寄生抵抗、および基板の非理想性による性能低下に直面する。 これらのハードウェアの現実性の効果を定量化するために、2層パーセプトロンの300個の一意な重み行列解をベンチマークし、Wineデータセットを分類精度と書き込み忠実度の両方で分類する。 デバイス不完全にもかかわらず、15 x 15 MTJ配列におけるネットワークパラメータの適切なチューニングにより、最大95.3 %のソフトウェア等価精度を実現する。 このチューニングプロセスの成功は、混合信号ハードウェアで再生されるネットワークの性能と品質を特徴付けるために、新しいメトリクスが必要であることを示している。

The increasing scale of neural networks and their growing application space have produced demand for more energy- and memory-efficient artificial-intellige nce-specific hardware. Avenues to mitigate the main issue, the von Neumann bottleneck, include in-memory and near-memory architectures, as well as algorithmic approaches. Here we leverage the low-power and the inherently binary operation of magnetic tunnel junctions (MTJs) to demonstrate neural network hardware inference based on passive arrays of MTJs. In general, transferring a trained network model to hardware for inference is confronted by degradation in performance due to device-to-device variations, write errors, parasitic resistance, and nonidealities in the substrate. To quantify the effect of these hardware realities, we benchmark 300 unique weight matrix solutions of a 2-layer perceptron to classify the Wine dataset for both classification accuracy and write fidelity. Despite device imperfections, we achieve software-equivalent accuracy of up to 95.3 % with proper tuning of network parameters in 15 x 15 MTJ arrays having a range of device sizes. The success of this tuning process shows that new metrics are needed to characterize the performance and quality of networks reproduced in mixed signal hardware.
翻訳日:2021-12-20 15:40:14 公開日:2021-12-16
# 細粒度アスペクト抽出のための双曲異方性表現

Hyperbolic Disentangled Representation for Fine-Grained Aspect Extraction ( http://arxiv.org/abs/2112.09215v1 )

ライセンス: Link先を確認
Chang-You Tai, Ming-Yao Li, Lun-Wei Ku(参考訳) ユーザレビューからの健全な側面の自動識別は、特に意見分析に有用である。 弱教師付きアプローチの利用には大きな進歩があり、アスペクト分類器の訓練には少数のシードワードしか必要としない。 しかし、改善の余地は常にあります。 第一に、単語間の潜在階層を十分に活用する弱い教師付きアプローチは存在しない。 第二に、それぞれの種語の表現は異なる潜在意味を持ち、異なる側面を表すとき区別されるべきである。 本稿では,ハイパボリック・アンタングル型アスペクト抽出器であるHDAEを提案する。これは,ハイパボリック・アスペクト分類器が単語の潜在階層をキャプチャし,アスペクト・アンタングル型表現が各シード語の異なる潜在意味をモデル化する。 以前のベースラインと比較して、HDAEはAmazon製品レビューとレストランレビューデータセットでそれぞれ18.2%と24.1%のパフォーマンス向上を達成した。 さらに、埋め込みビジュアライゼーションエクスペリエンスは、HDAEがシード語を活用するためのより効果的なアプローチであることを示している。 アブレーション研究と事例研究 : 提案成分の有効性をさらに検証する

Automatic identification of salient aspects from user reviews is especially useful for opinion analysis. There has been significant progress in utilizing weakly supervised approaches, which require only a small set of seed words for training aspect classifiers. However, there is always room for improvement. First, no weakly supervised approaches fully utilize latent hierarchies between words. Second, each seed words representation should have different latent semantics and be distinct when it represents a different aspect. In this paper, we propose HDAE, a hyperbolic disentangled aspect extractor in which a hyperbolic aspect classifier captures words latent hierarchies, and aspect-disentangled representation models the distinct latent semantics of each seed word. Compared to previous baselines, HDAE achieves average F1 performance gains of 18.2% and 24.1% on Amazon product review and restaurant review datasets, respectively. In addition, the em-bedding visualization experience demonstrates that HDAE is a more effective approach to leveraging seed words. An ablation study and a case study further attest to the effectiveness of the proposed components
翻訳日:2021-12-20 14:09:30 公開日:2021-12-16
# 対話型心理計測テストによる意味論的少数ショット学習

Semantic-Based Few-Shot Learning by Interactive Psychometric Testing ( http://arxiv.org/abs/2112.09201v1 )

ライセンス: Link先を確認
Lu Yin, Vlado Menkovski, Yulong Pei, Mykola Pechenizkiy(参考訳) 少数ショット分類タスクは、サポートセットのラベル付き例のみに基づいて、クエリセット内のイメージを分類することを目的としている。 ほとんどの研究は、通常、タスクの各イメージは単一でユニークなクラスアソシエーションを持つと仮定する。 これらの仮定の下では、これらのアルゴリズムは、サポートクラスとクエリクラスの間に正確な一致がない場合、適切なクラス割り当てを識別できない可能性がある。 例えば、トラを分類するためにライオン、自転車、リンゴのイメージが数枚与えられた。 しかし、より一般的な設定では、大型肉食動物というより高レベルの概念を、タイガーとライオンを合わせた意味分類として考えることができる。 既存の研究では、複雑な概念関係とラベルベースの監督が相容れないため、この状況を考えることは稀である。 本研究では,この難易度の高いシナリオである,意味論に基づくマイ・ショット・ラーニングに向けて,マイ・ショット・ラーニングを進化させ,対話型心理計測学習を用いて内的意味関係を捉える手法を提案する。 この手法をcifar-100データセット上で評価する。 その結果,提案手法の利点が示された。

Few-shot classification tasks aim to classify images in query sets based on only a few labeled examples in support sets. Most studies usually assume that each image in a task has a single and unique class association. Under these assumptions, these algorithms may not be able to identify the proper class assignment when there is no exact matching between support and query classes. For example, given a few images of lions, bikes, and apples to classify a tiger. However, in a more general setting, we could consider the higher-level concept of large carnivores to match the tiger to the lion for semantic classification. Existing studies rarely considered this situation due to the incompatibility of label-based supervision with complex conception relationships. In this work, we advanced the few-shot learning towards this more challenging scenario, the semantic-based few-shot learning, and proposed a method to address the paradigm by capturing the inner semantic relationships using interactive psychometric learning. We evaluate our method on the CIFAR-100 dataset. The results show the merits of our proposed method.
翻訳日:2021-12-20 14:09:15 公開日:2021-12-16
# 自己監督表現が知っていることの高忠実度可視化

High Fidelity Visualization of What Your Self-Supervised Representation Knows About ( http://arxiv.org/abs/2112.09164v1 )

ライセンス: Link先を確認
Florian Bordes, Randall Balestriero, Pascal Vincent(参考訳) ニューラルネットワークによって何が学習されるかを発見することは、依然として課題である。 自己教師付き学習では、分類は表現の質を評価するのに最も一般的なタスクである。 しかし、そのような下流タスクのみに依存することは、与えられた入力の表現にどれだけ情報が保持されているかの理解を制限することができる。 本稿では,条件拡散に基づく生成モデル(rcdm)を用いて,自己教師付きモデルで学習した表現を可視化する。 さらに、このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルと同等であることを示す。 この新しいツールを使って自己教師付きモデルを分析することで i)SSL(バックボーン)表現は、トレーニングされた多くのデータ拡張と実際には不変ではありません。 ii)SSLプロジェクターの埋め込みは分類のようなタスクでは不変すぎる。 三 ssl表現は、入力の小さな敵対的摂動に対してより頑健である iv)SSLモデルで学習した固有の構造があり、画像操作に使用することができる。

Discovering what is learned by neural networks remains a challenge. In self-supervised learning, classification is the most common task used to evaluate how good a representation is. However, relying only on such downstream task can limit our understanding of how much information is retained in the representation of a given input. In this work, we showcase the use of a conditional diffusion based generative model (RCDM) to visualize representations learned with self-supervised models. We further demonstrate how this model's generation quality is on par with state-of-the-art generative models while being faithful to the representation used as conditioning. By using this new tool to analyze self-supervised models, we can show visually that i) SSL (backbone) representation are not really invariant to many data augmentation they were trained on. ii) SSL projector embedding appear too invariant for tasks like classifications. iii) SSL representations are more robust to small adversarial perturbation of their inputs iv) there is an inherent structure learned with SSL model that can be used for image manipulation.
翻訳日:2021-12-20 14:05:30 公開日:2021-12-16
# ベイズネットワークにおけるマージン化:完全および近似推論の統合

Marginalization in Bayesian Networks: Integrating Exact and Approximate Inference ( http://arxiv.org/abs/2112.09217v1 )

ライセンス: Link先を確認
Fritz M. Bayer, Giusi Moffa, Niko Beerenwinkel, Jack Kuipers(参考訳) Bayesian Networksは確率的グラフィカルモデルであり、ランダム変数間の依存関係をコンパクトに表現することができる。 欠落データと隠れ変数は、変数のサブセットの限界確率分布を計算する必要がある。 限界確率分布の知識は統計学や機械学習の様々な問題に欠かせないが、その正確な計算はこのタスクのNP硬さのために分類変数には不可能である。 本研究では,ベイジアンネットワークのグラフィカルな特性を利用して,限界確率分布の計算を低次元のサブ計算に分割し,全体的な計算複雑性を低減する。 この特性を探索し、分類変数の限界確率分布を推定する効率的でスケーラブルなアルゴリズムを提案する。 本手法は, ベンチマーク実験において, 最先端の近似推定手法と比較し, 優れた性能を示す。 即時的応用として,ベイジアンネットワークに対する不完全データの分類に限界確率分布を用いる方法を示し,本手法を用いて腎癌患者標本の癌サブタイプを同定する。

Bayesian Networks are probabilistic graphical models that can compactly represent dependencies among random variables. Missing data and hidden variables require calculating the marginal probability distribution of a subset of the variables. While knowledge of the marginal probability distribution is crucial for various problems in statistics and machine learning, its exact computation is generally not feasible for categorical variables due to the NP-hardness of this task. We develop a divide-and-conquer approach using the graphical properties of Bayesian networks to split the computation of the marginal probability distribution into sub-calculations of lower dimensionality, reducing the overall computational complexity. Exploiting this property, we present an efficient and scalable algorithm for estimating the marginal probability distribution for categorical variables. The novel method is compared against state-of-the-art approximate inference methods in a benchmarking study, where it displays superior performance. As an immediate application, we demonstrate how the marginal probability distribution can be used to classify incomplete data against Bayesian networks and use this approach for identifying the cancer subtype of kidney cancer patient samples.
翻訳日:2021-12-20 14:04:06 公開日:2021-12-16
# 論理的に、factify 2022: multimodal fact verification

Logically at the Factify 2022: Multimodal Fact Verification ( http://arxiv.org/abs/2112.09253v1 )

ライセンス: Link先を確認
Jie Gao, Hella-Franziska Hoffmann, Stylianos Oikonomou, David Kiskovski, Anil Bandhakavi(参考訳) 本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。 テキストベースの検証技術や大規模な事前学習されたマルチモーダルモデルが近年進歩しているにもかかわらず、事実チェックプロセスの自動化にマルチモーダル技術を適用する作業は非常に限定的であり、特にソーシャルメディア上の画像やビデオに関するクレームやフェイクニュースの増加を考慮している。 本研究では,課題をマルチモーダル・エンテーメント・タスクとして扱い,マルチクラス分類として扱う。 アンサンブルモデル(2つのユニモーダルモデルを組み合わせた)とマルチモーダルアテンションネットワーク(クレームとエビデンス文書から画像とテキストペア間の相互作用をモデル化する)を含む2つのベースラインアプローチを提案する。 本研究では,様々なSoTA事前学習トランスおよびビジョンモデルの調査とベンチマークを行う。 我々の最良のモデルは、検証とテストセットの両方で平均0.77の重み付け値を得るリーダーボードで第1位にランクされている。 データセットの探索分析もFactifyデータセット上で行われ、私たちの仮説を動機づける健全なパターンや問題(単語重なり、視覚的包含相関、ソースバイアスなど)を明らかにする。 最後に、今後の研究におけるタスクとマルチモーダルデータセットの課題を強調する。

This paper describes our participant system for the multi-modal fact verification (Factify) challenge at AAAI 2022. Despite the recent advance in text based verification techniques and large pre-trained multimodal models cross vision and language, very limited work has been done in applying multimodal techniques to automate fact checking process, particularly considering the increasing prevalence of claims and fake news about images and videos on social media. In our work, the challenge is treated as multimodal entailment task and framed as multi-class classification. Two baseline approaches are proposed and explored including an ensemble model (combining two uni-modal models) and a multi-modal attention network (modeling the interaction between image and text pair from claim and evidence document). We conduct several experiments investigating and benchmarking different SoTA pre-trained transformers and vision models in this work. Our best model is ranked first in leaderboard which obtains a weighted average F-measure of 0.77 on both validation and test set. Exploratory analysis of dataset is also carried out on the Factify data set and uncovers salient patterns and issues (e.g., word overlapping, visual entailment correlation, source bias) that motivates our hypothesis. Finally, we highlight challenges of the task and multimodal dataset for future research.
翻訳日:2021-12-20 14:02:11 公開日:2021-12-16
# 共通データセットにおける中心オブジェクトのバイアス緩和

Mitigating the Bias of Centered Objects in Common Datasets ( http://arxiv.org/abs/2112.09195v1 )

ライセンス: Link先を確認
Gergely Szabo, Andras Horvath(参考訳) 畳み込みネットワークはシフト不変と見なされるが、その応答は物体の正確な位置によって異なることが証明された。 本稿では、最もよく研究されているデータセットが、トレーニング中に画像の中心でオブジェクトが過剰に表現されるバイアスがあることを実証する。 このバイアスとこれらのネットワークの境界条件は、これらのアーキテクチャのパフォーマンスに大きな影響を与え、オブジェクトが境界に近づくにつれて、その精度は大幅に低下する。 また、この効果がデータ拡張技術によって緩和されることを示す。

Convolutional networks are considered shift invariant, but it was demonstrated that their response may vary according to the exact location of the objects. In this paper we will demonstrate that most commonly investigated datasets have a bias, where objects are over-represented at the center of the image during training. This bias and the boundary condition of these networks can have a significant effect on the performance of these architectures and their accuracy drops significantly as an object approaches the boundary. We will also demonstrate how this effect can be mitigated with data augmentation techniques.
翻訳日:2021-12-20 14:01:45 公開日:2021-12-16
# 可変正規化を用いたマルチ層デコーダによるスパース符号化

Sparse Coding with Multi-Layer Decoders using Variance Regularization ( http://arxiv.org/abs/2112.09214v1 )

ライセンス: Link先を確認
Katrina Evtimova, Yann LeCun(参考訳) l_1$ペナルティと学習線形辞書によるスパース符号化は、コードの$l_1$ノルムの崩壊を防ぐために辞書の正規化を必要とする。 典型的には、この正規化は辞書の要素のユークリッドノルムの境界を含む。 本研究では,デコーダの正規化を必要とせずに,符号の崩壊を防止する新しいスパース符号化プロトコルを提案する。 提案手法は、各潜在コードコンポーネントが所定の入力セットに対するスパース表現の集合に対して固定しきい値よりも大きな分散を持つように、コードを直接正規化する。 さらに,線形辞書よりも複雑な関係をモデル化できるため,多層デコーダを用いた疎結合符号化システムを効果的に学習する方法を検討する。 MNISTと自然画像パッチを用いた実験では, 線形および多層解析の両方において, デコーダが解釈可能であることを示した。 さらに,分散正規化法を用いて訓練した多層デコーダを用いたスパースオートエンコーダは,線形辞書を持つオートエンコーダと比較して,スパルサー表現を用いた高品質な再構成を実現する。 さらに,分散正規化手法により得られたスパース表現は,低データ環境下での分節化と分類の下流タスクに有用である。

Sparse coding with an $l_1$ penalty and a learned linear dictionary requires regularization of the dictionary to prevent a collapse in the $l_1$ norms of the codes. Typically, this regularization entails bounding the Euclidean norms of the dictionary's elements. In this work, we propose a novel sparse coding protocol which prevents a collapse in the codes without the need to regularize the decoder. Our method regularizes the codes directly so that each latent code component has variance greater than a fixed threshold over a set of sparse representations for a given set of inputs. Furthermore, we explore ways to effectively train sparse coding systems with multi-layer decoders since they can model more complex relationships than linear dictionaries. In our experiments with MNIST and natural image patches, we show that decoders learned with our approach have interpretable features both in the linear and multi-layer case. Moreover, we show that sparse autoencoders with multi-layer decoders trained using our variance regularization method produce higher quality reconstructions with sparser representations when compared to autoencoders with linear dictionaries. Additionally, sparse representations obtained with our variance regularization approach are useful in the downstream tasks of denoising and classification in the low-data regime.
翻訳日:2021-12-20 14:01:37 公開日:2021-12-16
# ASC-Net: 対向型選択切削ネットワークを用いた教師なし医療異常分類

ASC-Net: Unsupervised Medical Anomaly Segmentation Using an Adversarial-based Selective Cutting Network ( http://arxiv.org/abs/2112.09135v1 )

ライセンス: Link先を確認
Raunak Dey, Wenbo Sun, Haibo Xu, Yi Hong(参考訳) 本稿では,医用画像における教師なし異常分割の問題点について検討し,近年,専門家の高度なピクセルレベルのアノテーションや,大量の無記名正規画像および異常画像スキャンの存在などにより注目を集めている。 本稿では,画像の分割に逆学習を利用するセグメンテーションネットワークを導入し,その1つがユーザが提供する参照分布に陥る。 このadversarial-based selective cutting network(asc-net)は、クラスタベースのディープセグメンテーションと、adversarial-based anomaly/novelty detectionアルゴリズムの2つのドメインを橋渡しする。 asc-netは、正常および異常な医療スキャンから、監視のためのマスクなしで医療スキャンの異常をセグメント化する。 脳腫瘍セグメント化のためのBraTS 2019,肝病変セグメント化のためのLiTS,脳病変セグメント化のためのMS-SEG 2015,および脳腫瘍セグメント化のためのプライベートデータセットである。 既存の手法と比較すると,非教師付き異常分割タスクの性能向上は極めて大きい。 教師付き学習アルゴリズムと比較してさらにパフォーマンスを向上させる余地はあるものの、有望な実験結果と興味深い観察結果は、ユーザ定義の知識を用いた医学的異常識別のための教師なし学習アルゴリズムの構築に光を当てている。

In this paper we consider the problem of unsupervised anomaly segmentation in medical images, which has attracted increasing attention in recent years due to the expensive pixel-level annotations from experts and the existence of a large amount of unannotated normal and abnormal image scans. We introduce a segmentation network that utilizes adversarial learning to partition an image into two cuts, with one of them falling into a reference distribution provided by the user. This Adversarial-based Selective Cutting network (ASC-Net) bridges the two domains of cluster-based deep segmentation and adversarial-based anomaly/novelty detection algorithms. Our ASC-Net learns from normal and abnormal medical scans to segment anomalies in medical scans without any masks for supervision. We evaluate this unsupervised anomly segmentation model on three public datasets, i.e., BraTS 2019 for brain tumor segmentation, LiTS for liver lesion segmentation, and MS-SEG 2015 for brain lesion segmentation, and also on a private dataset for brain tumor segmentation. Compared to existing methods, our model demonstrates tremendous performance gains in unsupervised anomaly segmentation tasks. Although there is still room to further improve performance compared to supervised learning algorithms, the promising experimental results and interesting observations shed light on building an unsupervised learning algorithm for medical anomaly identification using user-defined knowledge.
翻訳日:2021-12-20 13:59:37 公開日:2021-12-16
# 知識グラフ補完のための2視点グラフニューラルネットワーク

Two-view Graph Neural Networks for Knowledge Graph Completion ( http://arxiv.org/abs/2112.09231v1 )

ライセンス: Link先を確認
Vinh Tong and Dai Quoc Nguyen and Dinh Phung and Dat Quoc Nguyen(参考訳) 本稿では,エンティティ中心のグラフ構造と関係中心のグラフ構造をキャプチャする,新しいGNNベースの知識グラフ埋め込みモデルWGEを紹介する。 特に知識グラフを考えると、WGEはエンティティをノードと見なす単一の非指向エンティティ中心のグラフを構築している。 さらに、WGEは関係に焦点を絞った制約から別の単一の非方向グラフを構築し、エンティティと関係をノードとして見る。 次に、WGEは2つのバニラGNNを2つの単一のグラフに直接利用して、エンティティとリレーションのベクトル表現をより良く更新するアーキテクチャを提案し、次いで重み付きスコア関数で3つのスコアを返す。 実験結果から,WGEは知識グラフ補完のための3つの新しい,挑戦的なベンチマークデータセットであるCoDExの最先端性能を得ることができた。

In this paper, we introduce a novel GNN-based knowledge graph embedding model, named WGE, to capture entity-focused graph structure and relation-focused graph structure. In particular, given the knowledge graph, WGE builds a single undirected entity-focused graph that views entities as nodes. In addition, WGE also constructs another single undirected graph from relation-focused constraints, which views entities and relations as nodes. WGE then proposes a new architecture of utilizing two vanilla GNNs directly on these two single graphs to better update vector representations of entities and relations, followed by a weighted score function to return the triple scores. Experimental results show that WGE obtains state-of-the-art performances on three new and challenging benchmark datasets CoDEx for knowledge graph completion.
翻訳日:2021-12-20 13:20:40 公開日:2021-12-16
# ブラックボックス最適化のための検索空間の有用性予測 : シンプルで予算対応のアプローチ

Predicting the utility of search spaces for black-box optimization: a simple, budget-aware approach ( http://arxiv.org/abs/2112.08250v2 )

ライセンス: Link先を確認
Setareh Ariafar, Justin Gilmer, Zachary Nado, Jasper Snoek, Rodolphe Jenatton, George E. Dahl(参考訳) ブラックボックス最適化は、d-次元コンパクト空間のような解を探索するための探索空間を特定する必要があり、この選択は妥当な予算で最良の結果を得るために重要である。 残念なことに、多くのアプリケーションで高品質な検索スペースを決定することは難しい。 例えば、予算が限られている新しい問題に対して、機械学習パイプラインのハイパーパラメータをチューニングする場合、潜在的に有望な領域を除外し、検索スペースをトラクタブルに抑えるためのバランスを取る必要がある。 この研究の目的は、例えばディープニューラルネットワークのチューニングの応用を通じて、予算で条件付けられた検索空間の品質を予測することの課題を動機付け、ベイズ最適化のような確率的応答曲面モデルに適用されたユーティリティ関数に基づいた単純なスコアリング方法を提供することである。 提案手法は,様々な状況において有意義な予算条件スコアを算出できることを示す。 また,正確なスコアが探索空間の構築と解析に有用であることを示す実験的な証拠を提供する。 最終的には、深層学習のための実験的なワークフローにおいて、探索空間のスコアリングが標準的実践となるべきだと考えています。

Black box optimization requires specifying a search space to explore for solutions, e.g. a d-dimensional compact space, and this choice is critical for getting the best results at a reasonable budget. Unfortunately, determining a high quality search space can be challenging in many applications. For example, when tuning hyperparameters for machine learning pipelines on a new problem given a limited budget, one must strike a balance between excluding potentially promising regions and keeping the search space small enough to be tractable. The goal of this work is to motivate -- through example applications in tuning deep neural networks -- the problem of predicting the quality of search spaces conditioned on budgets, as well as to provide a simple scoring method based on a utility function applied to a probabilistic response surface model, similar to Bayesian optimization. We show that the method we present can compute meaningful budget-conditional scores in a variety of situations. We also provide experimental evidence that accurate scores can be useful in constructing and pruning search spaces. Ultimately, we believe scoring search spaces should become standard practice in the experimental workflow for deep learning.
翻訳日:2021-12-20 10:07:05 公開日:2021-12-16
# (参考訳) 勝利した宝くじの風景を可視化する [全文訳有]

Visualizing the Loss Landscape of Winning Lottery Tickets ( http://arxiv.org/abs/2112.08538v1 )

ライセンス: CC BY 4.0
Robert Bain(参考訳) 深層ニューラルネットワークのロスランドスケープはトレーニングに大きな影響を与えるが、主に計算の制約により理論的に研究されている。 この研究は、こうした損失景観を計算するのに要する時間を大幅に削減し、反復的な等級プルーニングによる当選宝くじの研究に使用する。 また,ある損失ランドスケープ投影法とモデルトレーサビリティと一般化誤差との間には,従来主張されていた相関結果と矛盾する結果も共有した。

The underlying loss landscapes of deep neural networks have a great impact on their training, but they have mainly been studied theoretically due to computational constraints. This work vastly reduces the time required to compute such loss landscapes, and uses them to study winning lottery tickets found via iterative magnitude pruning. We also share results that contradict previously claimed correlations between certain loss landscape projection methods and model trainability and generalization error.
翻訳日:2021-12-18 08:26:14 公開日:2021-12-16
# (参考訳) 安定探査機を用いた月面着陸の総合的誘導制御 [全文訳有]

Integrated Guidance and Control for Lunar Landing using a Stabilized Seeker ( http://arxiv.org/abs/2112.08540v1 )

ライセンス: CC BY 4.0
Brian Gaudet, Roberto Furfaro(参考訳) 我々は,安定探索機と着陸地点検出ソフトウェアを併用して,精密かつ安全な惑星着陸を可能にする統合誘導制御システムを開発した。 希望者は、指定着陸地点をセンサフィールドに集中させるために、指定着陸地点の標高と方位角を調整して指定着陸地点を追跡する。 指定着陸地点における安全な着陸を達成するために、誘導制御システムによって使用される速度場を定式化するために、指定着陸地点への探索角度、閉鎖速度、距離を用いる。 誘導制御システムは、この速度場、姿勢、回転速度をランダーの4基のエンジンの指令された推力ベクトルに直接マップする。 指導制御システムは強化メタ学習を用いて最適化されたポリシーとして実装される。 誘導制御系は動力降下段階において複数の発振器と互換性があり, 燃料消費によって引き起こされるサーチラグ, アクチュエータラグ, 劣化, 質量変動の中心に対して堅牢であることを示す。 着陸ビーコンを用いたアプローチなど,いくつかの操作概念を概説する。

We develop an integrated guidance and control system that in conjunction with a stabilized seeker and landing site detection software can achieve precise and safe planetary landing. The seeker tracks the designated landing site by adjusting seeker elevation and azimuth angles to center the designated landing site in the sensor field of view. The seeker angles, closing speed, and range to the designated landing site are used to formulate a velocity field that is used by the guidance and control system to achieve a safe landing at the designated landing site. The guidance and control system maps this velocity field, attitude, and rotational velocity directly to a commanded thrust vector for the lander's four engines. The guidance and control system is implemented as a policy optimized using reinforcement meta learning. We demonstrate that the guidance and control system is compatible with multiple diverts during the powered descent phase, and is robust to seeker lag, actuator lag and degradation, and center of mass variation induced by fuel consumption. We outline several concepts of operations, including an approach using a preplaced landing beacon.
翻訳日:2021-12-18 08:19:10 公開日:2021-12-16
# (参考訳) NewsClaims: バックグラウンド知識を持つニュースからのクレーム検出のための新しいベンチマーク [全文訳有]

NewsClaims: A New Benchmark for Claim Detection from News with Background Knowledge ( http://arxiv.org/abs/2112.08544v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Sai Chinthakindi, Zhenhailong Wang, Yi R. Fung, Kathryn S. Conger, Ahmed S. Elsayed, Martha Palmer, Heng Ji(参考訳) クレーム検出と検証はニュース理解に不可欠であり、ニュースの誤情報を緩和するための有望な技術として登場した。 しかし、既存のほとんどの研究はクレーム文の分析に重点を置いており、クレームパー、クレームオブジェクト、その他のクレームに関連する知識といった重要な背景属性を見落としている。 本稿では,ニュース領域における知識認識型クレーム検出のための新しいベンチマークであるNewsClaimsを紹介する。 我々は,クレーム検出問題を再定義し,クレームに関連する背景属性を抽出し,103件以上のニュース記事に注釈を付けた529件のクレームをリリースする。 さらにNewsClaimsは,新たなシナリオにおけるクレーム検出システムのベンチマークを目標としている。 最後に,このベンチマークに対して,様々なゼロショットおよびプロンプトベースラインの総合評価を行う。

Claim detection and verification are crucial for news understanding and have emerged as promising technologies for mitigating misinformation in news. However, most existing work focus on analysis of claim sentences while overlooking crucial background attributes, such as the claimer, claim objects, and other knowledge connected to the claim. In this work, we present NewsClaims , a new benchmark for knowledge-aware claim detection in the news domain. We re-define the claim detection problem to include extraction of additional background attributes related to the claim and release 529 claims annotated over 103 news articles. In addition, NewsClaims aims to benchmark claim detection systems in emerging scenarios, comprising unseen topics with little or no training data. Finally, we provide a comprehensive evaluation of various zero-shot and prompt-based baselines for this new benchmark.
翻訳日:2021-12-18 08:00:41 公開日:2021-12-16
# (参考訳) テキストからキーフレーズの豊かな表現を学ぶ [全文訳有]

Learning Rich Representation of Keyphrases from Text ( http://arxiv.org/abs/2112.08547v1 )

ライセンス: CC BY 4.0
Mayank Kulkarni, Debanjan Mahata, Ravneet Arora, Rajarshi Bhowmik(参考訳) 本研究では,テキスト文書からキーフレーズの表現を豊かに学習することを目的としたタスク固有言語モデルの学習方法について検討する。 我々は,前訓練用トランスフォーマー言語モデル (lms) の識別的および生成的設定において,異なるマスキング戦略を実験する。 本稿では, KBIR を用いて事前学習した LM がキーフレーズ抽出のタスクのために微調整された場合, KBIR よりも高い性能 (F1 の 9.26 点まで) を示した。 生成設定では、bart - keybart の新たな事前学習設定を導入し、その初期入力の代わりに cateq 形式で入力テキストに関連するキーフレーズを再現する。 これにより、キーフレーズ生成のためのSOTAよりもパフォーマンス(F1@Mの4.33ポイントまで)が向上した。 さらに、名前付きエンティティ認識(NER)、質問応答(QA)、関係抽出(RE)、抽象的な要約、およびSOTAと同等の性能を持つ事前学習言語モデルを微調整し、キーフレーズの豊かな表現を学習することが、他の多くの基本的なNLPタスクにとって有益であることを示す。

In this work, we explore how to learn task-specific language models aimed towards learning rich representation of keyphrases from text documents. We experiment with different masking strategies for pre-training transformer language models (LMs) in discriminative as well as generative settings. In the discriminative setting, we introduce a new pre-training objective - Keyphrase Boundary Infilling with Replacement (KBIR), showing large gains in performance (upto 9.26 points in F1) over SOTA, when LM pre-trained using KBIR is fine-tuned for the task of keyphrase extraction. In the generative setting, we introduce a new pre-training setup for BART - KeyBART, that reproduces the keyphrases related to the input text in the CatSeq format, instead of the denoised original input. This also led to gains in performance (upto 4.33 points in F1@M) over SOTA for keyphrase generation. Additionally, we also fine-tune the pre-trained language models on named entity recognition (NER), question answering (QA), relation extraction (RE), abstractive summarization and achieve comparable performance with that of the SOTA, showing that learning rich representation of keyphrases is indeed beneficial for many other fundamental NLP tasks.
翻訳日:2021-12-18 07:55:32 公開日:2021-12-16
# (参考訳) ダビングのための韻律対応ニューラルマシン翻訳 [全文訳有]

Prosody-Aware Neural Machine Translation for Dubbing ( http://arxiv.org/abs/2112.08548v1 )

ライセンス: CC BY 4.0
Derek Tam, Surafel M. Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico(参考訳) ダビングに適した翻訳を生成することを目的とした韻律対応機械翻訳の課題を紹介する。 音声文のダビングには、タイミング情報を保持するために、ソースの韻律構造だけでなく、コンテンツも対象言語に転送する必要がある。 実際これは、ソースからターゲットへのポーズを正しく投影し、ターゲットの音声セグメントが対応するソースセグメントのほぼ同じ持続時間であることを保証することを意味する。 本研究では,韻律情報をニューラルマシン翻訳に組み込む暗黙的かつ明示的なモデリング手法を提案する。 自動メトリクスを用いた英語とドイツ語/フランス語の実験は、最も単純なアプローチが最適であることを示している。 結果は翻訳とビデオの人間による評価によって確認される。

We introduce the task of prosody-aware machine translation which aims at generating translations suitable for dubbing. Dubbing of a spoken sentence requires transferring the content as well as the prosodic structure of the source into the target language to preserve timing information. Practically, this implies correctly projecting pauses from the source to the target and ensuring that target speech segments have roughly the same duration of the corresponding source segments. In this work, we propose an implicit and explicit modeling approaches to integrate prosody information into neural machine translation. Experiments on English-German/Frenc h with automatic metrics show that the simplest of the considered approaches works best. Results are confirmed by human evaluations of translations and dubbed videos.
翻訳日:2021-12-18 07:31:21 公開日:2021-12-16
# (参考訳) 非構造化テキストからのオントロジー富化のための深層学習手法 [全文訳有]

A Deep Learning Approach for Ontology Enrichment from Unstructured Text ( http://arxiv.org/abs/2112.08554v1 )

ライセンス: CC BY 4.0
Lalit Mohan Sanagavarapu, Vivek Iyer and Raghu Reddy(参考訳) サイバー世界の情報セキュリティは、攻撃面の数を大幅に増加させ、懸念の主な原因となっている。 webで利用可能な脆弱性、攻撃、コントロール、アドバイザリに関する既存の情報は、知識を表現し、セキュリティ分析を行い、懸念を緩和する機会を提供する。 セキュリティ知識をオントロジーの形で表現することは、異常検出、脅威知性、推論とアタックの関連性、その他多くのことを促進する。 これにより、動的かつ自動的な情報セキュリティオントロジーの強化が必要となる。 しかし、自然言語処理とMLモデルに基づく既存のオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。 これにより、テキスト内の依存関係パスを横切り、埋め込まれた脆弱性、脅威、コントロール、製品、その他のセキュリティ関連の概念やインスタンスを学習パス表現から抽出する、シーケンシャルなディープラーニングアーキテクチャの必要性が高まる。 提案手法では,大規模なDBpediaデータセットと2.8GBのウィキペディアコーパスとUniversal Sentence Encoderでトレーニングされた双方向LSTMを,ISO 27001ベースの情報セキュリティオントロジーの強化のためにデプロイする。 このモデルは、Wikiテキストの次元を扱うために、ハイパフォーマンスコンピューティング(HPC)環境で訓練され、テストされる。 このアプローチは、オントロジーとWebページインスタンスのノックアウトコンセプトでテストし、ロバスト性を検証するときに80%以上のテスト精度を得た。

Information Security in the cyber world is a major cause for concern, with a significant increase in the number of attack surfaces. Existing information on vulnerabilities, attacks, controls, and advisories available on the web provides an opportunity to represent knowledge and perform security analytics to mitigate some of the concerns. Representing security knowledge in the form of ontology facilitates anomaly detection, threat intelligence, reasoning and relevance attribution of attacks, and many more. This necessitates dynamic and automated enrichment of information security ontologies. However, existing ontology enrichment algorithms based on natural language processing and ML models have issues with contextual extraction of concepts in words, phrases, and sentences. This motivates the need for sequential Deep Learning architectures that traverse through dependency paths in text and extract embedded vulnerabilities, threats, controls, products, and other security-related concepts and instances from learned path representations. In the proposed approach, Bidirectional LSTMs trained on a large DBpedia dataset and Wikipedia corpus of 2.8 GB along with Universal Sentence Encoder is deployed to enrich ISO 27001-based information security ontology. The model is trained and tested on a high-performance computing (HPC) environment to handle Wiki text dimensionality. The approach yielded a test accuracy of over 80% when tested with knocked-out concepts from ontology and web page instances to validate the robustness.
翻訳日:2021-12-18 07:17:29 公開日:2021-12-16
# (参考訳) 多言語性は非自己回帰機械翻訳に有効か? [全文訳有]

Can Multilinguality benefit Non-autoregressive Machine Translation? ( http://arxiv.org/abs/2112.08570v1 )

ライセンス: CC BY 4.0
Sweta Agrawal and Julia Kreutzer and Colin Cherry(参考訳) 最近、非自己回帰(NAR)機械翻訳は大幅に改善され、いくつかのベンチマークで自己回帰(AR)モデルを上回っ、AR推論の効率的な代替手段を提供する。 しかし、AR翻訳は言語間の転送とサービス効率の改善の恩恵を受ける多言語モデルを用いて実装されることが多いが、多言語NARモデルは比較的未探索のままである。 半NARモデルとしてコネクショニスト時間分類(CTC)、半NARモデルとしてImputerを用い,多言語NARの総合的研究を行った。 容量制約下で、関連する言語間の正の転送と負の転送に関して、その能力をテストする。 NARモデルは蒸留トレーニングセットを必要とするため、バイリンガルとマルチリンガルの教師の影響を慎重に研究する。 最後に、モデルスケールが大きくなるにつれて、ARモデルに対する性能を定量化する多言語NARのスケーリング法則に適合する。

Non-autoregressive (NAR) machine translation has recently achieved significant improvements, and now outperforms autoregressive (AR) models on some benchmarks, providing an efficient alternative to AR inference. However, while AR translation is often implemented using multilingual models that benefit from transfer between languages and from improved serving efficiency, multilingual NAR models remain relatively unexplored. Taking Connectionist Temporal Classification (CTC) as an example NAR model and Imputer as a semi-NAR model, we present a comprehensive empirical study of multilingual NAR. We test its capabilities with respect to positive transfer between related languages and negative transfer under capacity constraints. As NAR models require distilled training sets, we carefully study the impact of bilingual versus multilingual teachers. Finally, we fit a scaling law for multilingual NAR, which quantifies its performance relative to the AR model as model scale increases.
翻訳日:2021-12-18 07:00:39 公開日:2021-12-16
# (参考訳) CLICKER:教育資源のための計算言語分類法 [全文訳有]

CLICKER: A Computational LInguistics Classification Scheme for Educational Resources ( http://arxiv.org/abs/2112.08578v1 )

ライセンス: CC0 1.0
Swapnil Hingmire, Irene Li, Rena Kawamura, Benjamin Chen, Alexander Fabbri, Xiangru Tang, Yixin Liu, Thomas George, Tammy Liao, Wai Pan Wong, Vanessa Yan, Richard Zhou, Girish K. Palshikar, Dragomir Radev(参考訳) 科学的主題の分類スキームは、その知識の体系の概要を与える。 また、対象に関する研究論文やその他の資料へのアクセスを容易にするためにも使用できる。 例えば、ACM Computer Classification System (CCS) は、ACM Digital Libraryの検索インタフェースやコンピュータサイエンス論文のインデックス付けにも使われている。 計算言語学(cl)や自然言語処理(nlp)では,ccsや数学主題分類(msc)のような包括的分類システムは存在していない。 本稿では,77の大学におけるオンライン講義の分析から,CL/NLPのCLICKERの分類手法を提案する。 現在提案されている分類学には334のトピックが含まれており、CL/NLPの教育的側面に焦点を当てている。 このような分類は,学習プラットフォーム,資源検索,資源レコメンデーション,前提連鎖学習,調査生成など,現実世界の様々な応用にどのように役立つかについて議論する。

A classification scheme of a scientific subject gives an overview of its body of knowledge. It can also be used to facilitate access to research articles and other materials related to the subject. For example, the ACM Computing Classification System (CCS) is used in the ACM Digital Library search interface and also for indexing computer science papers. We observed that a comprehensive classification system like CCS or Mathematics Subject Classification (MSC) does not exist for Computational Linguistics (CL) and Natural Language Processing (NLP). We propose a classification scheme -- CLICKER for CL/NLP based on the analysis of online lectures from 77 university courses on this subject. The currently proposed taxonomy includes 334 topics and focuses on educational aspects of CL/NLP; it is based primarily, but not exclusively, on lecture notes from NLP courses. We discuss how such a taxonomy can help in various real-world applications, including tutoring platforms, resource retrieval, resource recommendation, prerequisite chain learning, and survey generation.
翻訳日:2021-12-18 06:45:13 公開日:2021-12-16
# (参考訳) sgeitl: visual commonsense 推論のためのシーングラフ強化画像テキスト学習 [全文訳有]

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning ( http://arxiv.org/abs/2112.08587v1 )

ライセンス: CC BY 4.0
Zhecan Wang, Haoxuan You, Liunian Harold Li, Alireza Zareian, Suji Park, Yiqing Liang, Kai-Wei Chang, Shih-Fu Chang(参考訳) 画像に関する複雑な質問に答えることは、機械学習の野心的な目標であり、画像、テキスト、常識の知識を共同理解し、強力な推論能力を必要とする。 近年,マルチモーダルトランスフォーマーは,視覚オブジェクトとテキストトークンを相互に理解することで,視覚コモンセンス推論(VCR)のタスクにおいて大きな進歩を遂げている。 しかし、これらのアプローチはシーンの豊かな構造や複雑なコモンセンスの質問に答える上で不可欠なオブジェクト間の相互作用を利用しない。 視覚的なシーングラフを常識推論に組み込むためのSGEITL(Scene Graph Enhanced Image-Text Learning)フレームワークを提案する。 シーングラフ構造をモデル構造レベルで活用するために,ホップ間の注意相互作用を規則化するマルチホップグラフ変換器を提案する。 事前学習については,シーングラフから抽出した構造知識を活用するために,シーングラフ対応事前学習法を提案する。 さらに,テキストアノテーションを用いたドメイン関連視覚シーングラフの学習と生成を,弱い教師付きで行う手法を提案する。 VCRや他のタスクに対する大規模な実験は、最先端の手法と比較して顕著な性能向上を示し、各コンポーネントの有効性を証明している。

Answering complex questions about images is an ambitious goal for machine intelligence, which requires a joint understanding of images, text, and commonsense knowledge, as well as a strong reasoning ability. Recently, multimodal Transformers have made great progress in the task of Visual Commonsense Reasoning (VCR), by jointly understanding visual objects and text tokens through layers of cross-modality attention. However, these approaches do not utilize the rich structure of the scene and the interactions between objects which are essential in answering complex commonsense questions. We propose a Scene Graph Enhanced Image-Text Learning (SGEITL) framework to incorporate visual scene graphs in commonsense reasoning. To exploit the scene graph structure, at the model structure level, we propose a multihop graph transformer for regularizing attention interaction among hops. As for pre-training, a scene-graph-aware pre-training method is proposed to leverage structure knowledge extracted in the visual scene graph. Moreover, we introduce a method to train and generate domain-relevant visual scene graphs using textual annotations in a weakly-supervised manner. Extensive experiments on VCR and other tasks show a significant performance boost compared with the state-of-the-art methods and prove the efficacy of each proposed component.
翻訳日:2021-12-18 06:34:34 公開日:2021-12-16
# (参考訳) 進化・可塑性・メタメタ学習による新しい認知タスクの習得 [全文訳有]

Learning to acquire novel cognitive tasks with evolution, plasticity and meta-meta-learning ( http://arxiv.org/abs/2112.08588v1 )

ライセンス: CC BY 4.0
Thomas Miconi(参考訳) メタラーニングでは、ネットワークは外部アルゴリズムでトレーニングされ、タスクの新しいインスタンスごとに予測不可能な情報を取得し、保存し、活用する必要があるタスクを学ぶ。 しかし、動物は進化した神経構造とシナプスの可塑性機構によって、そのような認知タスクを自動で受け取ることができる。 ここでは、神経科学モデリングフレームワークに基づく単純なメタ学習タスクのセットで、プラスティック接続を備えたニューラルネットワークを進化させます。 進化したネットワークは、進化した神経組織と塑性構造を自発的に操作することで、トレーニング中に見ることのない、新しい単純な認知タスクを自動的に取得することができる。 自然学習に関わるループの多元性への参加は、知的行動の出現に関する有用な洞察を与えるかもしれない。

In meta-learning, networks are trained with external algorithms to learn tasks that require acquiring, storing and exploiting unpredictable information for each new instance of the task. However, animals are able to pick up such cognitive tasks automatically, as a result of their evolved neural architecture and synaptic plasticity mechanisms. Here we evolve neural networks, endowed with plastic connections, over a sizable set of simple meta-learning tasks based on a neuroscience modelling framework. The resulting evolved network can automatically acquire a novel simple cognitive task, never seen during training, through the spontaneous operation of its evolved neural organization and plasticity structure. We suggest that attending to the multiplicity of loops involved in natural learning may provide useful insight into the emergence of intelligent behavior.
翻訳日:2021-12-18 06:14:57 公開日:2021-12-16
# (参考訳) マスキング計測予測:テキスト文脈から量と単位を共同で予測する学習 [全文訳有]

Masked Measurement Prediction: Learning to Jointly Predict Quantities and Units from Textual Context ( http://arxiv.org/abs/2112.08616v1 )

ライセンス: CC BY 4.0
Daniel Spokoyny, Ivan Lee, Zhao Jin, Taylor Berg-Kirkpatrick(参考訳) 物理測定は学術論文、エンジニアリングレポート、ウェブテーブルにおいて大きな数を占めている。 現在のベンチマークでは、事前訓練された言語モデルの数値性を測定上に適切に評価するに足りず、新しい手法の開発や数値処理への応用を妨げている。 そこで,本研究では,マスク付きテキストが与えられた単位とともに,モデルが数値を再構成することを学ぶ,新しいタスクであるMasked Measurement Prediction (MMP)を導入する。 mmpは、新しい数値情報モデルのトレーニングと既存のシステムの数量評価の両方に有用である。 そこで本研究では,この課題に対処するために,生成的マスキング計測(gemm)モデルを提案する。 本モデルと各種アブレーションおよびベースラインとの比較を行った。 我々は,従来の事前学習型トランスフォーマーモデル (RoBERTa) の線形探索を用いて,共同で訓練した数値ユニットモデルを著しく過小評価し,この課題の難しさと提案した事前学習手法の利点を明らかにする。 このフレームワークが今後,より堅牢な数値推論システムの構築を進めることを願っている。

Physical measurements constitute a large portion of numbers in academic papers, engineering reports, and web tables. Current benchmarks fall short of properly evaluating numeracy of pretrained language models on measurements, hindering research on developing new methods and applying them to numerical tasks. To that end, we introduce a novel task, Masked Measurement Prediction (MMP), where a model learns to reconstruct a number together with its associated unit given masked text. MMP is useful for both training new numerically informed models as well as evaluating numeracy of existing systems. In order to address this task, we introduce a new Generative Masked Measurement (GeMM) model that jointly learns to predict numbers along with their units. We perform fine-grained analyses comparing our model with various ablations and baselines. We use linear probing of traditional pretrained transformer models (RoBERTa) to show that they significantly underperform jointly trained number-unit models, highlighting the difficulty of this new task and the benefits of our proposed pretraining approach. We hope this framework accelerates the progress towards building more robust numerical reasoning systems in the future.
翻訳日:2021-12-18 06:03:52 公開日:2021-12-16
# (参考訳) 多変量時系列予測と死亡予測モデルのための統計とディープラーニングハイブリッド手法 [全文訳有]

A Statistics and Deep Learning Hybrid Method for Multivariate Time Series Forecasting and Mortality Modeling ( http://arxiv.org/abs/2112.08618v1 )

ライセンス: CC BY-SA 4.0
Thabang Mathonsi and Terence L. van Zyl(参考訳) ハイブリッド手法は,タスク予測において純粋統計的・純粋深層学習法より優れ,それらの予測と関連する不確実性(予測間隔)を定量化することが示されている。 例として、統計予測モデルとリカレントニューラルネットワークのハイブリッドであるExponential Smoothing Recurrent Neural Network (ES-RNN)がある。 ES-RNN は Makridakis-4 Forecasting Competition において絶対誤差を 9.4 % 改善した。 この改良と他のハイブリッドモデルによる同様の性能は、主に単変量データセットでのみ実証されている。 多変量データにハイブリッド予測手法を適用することの難しさには、控えめでないモデルのハイパーパラメータチューニングに関わる高い計算コスト(i$)、データに固有の自己相関に関連する課題(ii$)、およびキャプチャが難しい可能性のある共変量間の複雑な依存性(クロス相関)が含まれる。 本稿では,ES-RNNの多変量拡張であるMES-LSTM(Multivarate Exponential Smoothing Long Short Term Memory)を提案する。 MES-LSTMはベクトル化実装を利用する。 我々は、2019年(新型コロナウイルス)のいくつかの集計された新型コロナウイルスの致死率データセットでMES-LSTMを試験し、我々のハイブリッドアプローチは、予測精度と予測間隔構築における純粋統計的および深層学習法よりも一貫性があり、有意な改善を示した。

Hybrid methods have been shown to outperform pure statistical and pure deep learning methods at forecasting tasks and quantifying the associated uncertainty with those forecasts (prediction intervals). One example is Exponential Smoothing Recurrent Neural Network (ES-RNN), a hybrid between a statistical forecasting model and a recurrent neural network variant. ES-RNN achieves a 9.4\% improvement in absolute error in the Makridakis-4 Forecasting Competition. This improvement and similar outperformance from other hybrid models have primarily been demonstrated only on univariate datasets. Difficulties with applying hybrid forecast methods to multivariate data include ($i$) the high computational cost involved in hyperparameter tuning for models that are not parsimonious, ($ii$) challenges associated with auto-correlation inherent in the data, as well as ($iii$) complex dependency (cross-correlation) between the covariates that may be hard to capture. This paper presents Multivariate Exponential Smoothing Long Short Term Memory (MES-LSTM), a generalized multivariate extension to ES-RNN, that overcomes these challenges. MES-LSTM utilizes a vectorized implementation. We test MES-LSTM on several aggregated coronavirus disease of 2019 (COVID-19) morbidity datasets and find our hybrid approach shows consistent, significant improvement over pure statistical and deep learning methods at forecast accuracy and prediction interval construction.
翻訳日:2021-12-18 05:50:39 公開日:2021-12-16
# (参考訳) 会話のカスタマイズを呼び出す - 会話のパーソナライゼーションと知識のカスタマイズ [全文訳有]

Call for Customized Conversation: Customized Conversation Grounding Persona and Knowledge ( http://arxiv.org/abs/2112.08619v1 )

ライセンス: CC BY 4.0
Yoonna Jang, Jungwoo Lim, Yuna Hur, Dongsuk Oh, Suhyune Son, Yeonsoo Lee, Donghoon Shin, Seungryong Kim, and Heuiseok Lim(参考訳) 人間は通常、話題に関する事前の知識と、自分が話している人の背景情報を利用することで会話をする。 しかし、既存の会話エージェントやデータセットはそのような包括的情報を考慮していないため、知識とペルソナが適切に融合した発話の生成に限界がある。 この問題に対処するために、ユーザのペルソナとウィキペディアの知識によって、カスタマイズされた回答が構築されるFoCusデータセットの呼び出しを導入する。 事前訓練された言語モデルの情報的およびカスタマイズされた発話を評価する能力を評価するために,BARTとGPT-2およびトランスフォーマーベースモデルを利用する。 自動スコアで生成能力を評価し,定性的な結果を得るために人的評価を行う。 提案する2つのサブタスク,ペルソナグラウンド(PG)とナレッジグラウンド(KG)で,モデルが適切なペルソナと知識を反映しているかを検討する。 さらに,データの発話は,基礎的品質評価を通じて適切な知識とペルソナで構築されていることを示す。

Humans usually have conversations by making use of prior knowledge about a topic and background information of the people whom they are talking to. However, existing conversational agents and datasets do not consider such comprehensive information, and thus they have a limitation in generating the utterances where the knowledge and persona are fused properly. To address this issue, we introduce a call For Customized conversation (FoCus) dataset where the customized answers are built with the user's persona and Wikipedia knowledge. To evaluate the abilities to make informative and customized utterances of pre-trained language models, we utilize BART and GPT-2 as well as transformer-based models. We assess their generation abilities with automatic scores and conduct human evaluations for qualitative results. We examine whether the model reflects adequate persona and knowledge with our proposed two sub-tasks, persona grounding (PG) and knowledge grounding (KG). Moreover, we show that the utterances of our data are constructed with the proper knowledge and persona through grounding quality assessment.
翻訳日:2021-12-18 05:26:48 公開日:2021-12-16
# (参考訳) マトリックス製品状態を用いた説明可能な自然言語処理 [全文訳有]

Explainable Natural Language Processing with Matrix Product States ( http://arxiv.org/abs/2112.08628v1 )

ライセンス: CC BY 4.0
Jirawat Tangpanitanon, Chanatip Mangkang, Pradeep Bhadola, Yuichiro Minato, Dimitris Angelakis, Thiparat Chotibut(参考訳) 自然言語処理(NLP)におけるリカレントニューラルネットワーク(RNN)の実証的な成功にもかかわらず、RNNの理論的理解は、本質的に複雑な計算のため、依然として限られている。 我々は,再帰演算回路 (RAC) と行列積状態 (MPS) と呼ばれるRNNのクラス間のマッピングにより,ユビキタスNLPタスクにおけるRNNの動作の系統的解析,映画レビューの感情分析を行う。 情報伝達のプロキシとしてvon-Neumannエンタングルメントエントロピー(EE)を用いて,脳波の飽和を反映した単一層RACが最大情報伝達能力を有することを示す。 ee飽和しきい値を超えてmpsの結合次元を拡大しても予測精度は向上しないため、データ統計を最もよく見積もる最小限のモデルを構築することができる。 飽和EEはMPSの領域法則により達成できる最大EEよりも小さいが,本モデルは現実的な感情分析データセットにおいて約99%のトレーニング精度を達成する。 したがって、低EEだけでは、NLPに単一層RACを採用することは保証されない。 長距離情報伝達がRNNの表現力の主源であるという一般的な信念とは対照的に,単層RACは意味のある単語ベクトル埋め込みから高い表現力を持つ。 我々の研究は、RACにおける学習の現象学、より一般的には多体量子物理学のツールを用いて、NLPのためのRNNの説明可能性の側面に光を当てている。

Despite empirical successes of recurrent neural networks (RNNs) in natural language processing (NLP), theoretical understanding of RNNs is still limited due to intrinsically complex computations in RNNs. We perform a systematic analysis of RNNs' behaviors in a ubiquitous NLP task, the sentiment analysis of movie reviews, via the mapping between a class of RNNs called recurrent arithmetic circuits (RACs) and a matrix product state (MPS). Using the von-Neumann entanglement entropy (EE) as a proxy for information propagation, we show that single-layer RACs possess a maximum information propagation capacity, reflected by the saturation of the EE. Enlarging the bond dimension of an MPS beyond the EE saturation threshold does not increase the prediction accuracies, so a minimal model that best estimates the data statistics can be constructed. Although the saturated EE is smaller than the maximum EE achievable by the area law of an MPS, our model achieves ~99% training accuracies in realistic sentiment analysis data sets. Thus, low EE alone is not a warrant against the adoption of single-layer RACs for NLP. Contrary to a common belief that long-range information propagation is the main source of RNNs' expressiveness, we show that single-layer RACs also harness high expressiveness from meaningful word vector embeddings. Our work sheds light on the phenomenology of learning in RACs and more generally on the explainability aspects of RNNs for NLP, using tools from many-body quantum physics.
翻訳日:2021-12-18 05:10:53 公開日:2021-12-16
# (参考訳) 文脈内学習のためのプロンプト検索の学習 [全文訳有]

Learning To Retrieve Prompts for In-Context Learning ( http://arxiv.org/abs/2112.08633v1 )

ライセンス: CC BY 4.0
Ohad Rubin, Jonathan Herzig and Jonathan Berant(参考訳) インコンテキスト学習(In-context learning)は、自然言語理解における最近のパラダイムであり、大規模な事前学習言語モデル(LM)がその入力としてテストインスタンスといくつかのトレーニング例を観察し、パラメータを更新することなく直接出力を復号する。 しかし、パフォーマンスは選択したトレーニング例(プロンプト)に強く依存することが示されている。 本研究では,注釈付きデータとLMを用いたテキスト内学習のためのプロンプトを効率よく検索する手法を提案する。 入力出力対が与えられた場合、入力された出力の確率と候補訓練例をプロンプトとして推定し、この確率に基づいてラベル訓練例を正または負と推定する。 次に、このデータから効率的な高密度レトリバーをトレーニングし、テスト時にプロンプトとしてトレーニング例を検索する。 提案手法は,言語発話を意味表現にマッピングした3つのシーケンス・ツー・シーケンスタスクに対して評価し,先行作業や複数のベースラインよりも大幅に優れていることを示す。

In-context learning is a recent paradigm in natural language understanding, where a large pre-trained language model (LM) observes a test instance and a few training examples as its input, and directly decodes the output without any update to its parameters. However, performance has been shown to strongly depend on the selected training examples (termed prompt). In this work, we propose an efficient method for retrieving prompts for in-context learning using annotated data and a LM. Given an input-output pair, we estimate the probability of the output given the input and a candidate training example as the prompt, and label training examples as positive or negative based on this probability. We then train an efficient dense retriever from this data, which is used to retrieve training examples as prompts at test time. We evaluate our approach on three sequence-to-sequence tasks where language utterances are mapped to meaning representations, and find that it substantially outperforms prior work and multiple baselines across the board.
翻訳日:2021-12-18 04:43:26 公開日:2021-12-16
# (参考訳) FRUIT: 更新された情報をテキストで忠実に反映 [全文訳有]

FRUIT: Faithfully Reflecting Updated Information in Text ( http://arxiv.org/abs/2112.08634v1 )

ライセンス: CC BY 4.0
Robert L. Logan IV, Alexandre Passos, Sameer Singh and Ming-Wei Chang(参考訳) Wikipediaのようなテキストの知識基盤は、最新の状態と一貫性を維持するためにかなりの努力を必要とする。 自動筆記アシスタントは、この負担を軽減する可能性があるが、外部の知識に根ざした編集を提案する問題は過小評価されている。 本稿では,更新された情報をテキスト*(FRUIT)に忠実に反映する新規な生成タスクについて紹介する。 fruit-wikiデータセットをリリースした。wikipediaスナップショットのペアから生成された170万以上の遠隔監視データと、データ生成パイプラインと、証拠によって編集が保証された914インスタンスのゴールド評価セットのコレクションです。 私たちは、一般的な世代システムとEDIT5のベンチマーク結果を提供しています。 分析の結果、論文を忠実に更新できるモデルの開発にはニューラルジェネレーションモデルに新たな能力が必要であり、多くの新しいアプリケーションへの扉を開くことが判明した。

Textual knowledge bases such as Wikipedia require considerable effort to keep up to date and consistent. While automated writing assistants could potentially ease this burden, the problem of suggesting edits grounded in external knowledge has been under-explored. In this paper, we introduce the novel generation task of *faithfully reflecting updated information in text*(FRUIT) where the goal is to update an existing article given new evidence. We release the FRUIT-WIKI dataset, a collection of over 170K distantly supervised data produced from pairs of Wikipedia snapshots, along with our data generation pipeline and a gold evaluation set of 914 instances whose edits are guaranteed to be supported by the evidence. We provide benchmark results for popular generation systems as well as EDIT5 -- a T5-based approach tailored to editing we introduce that establishes the state of the art. Our analysis shows that developing models that can update articles faithfully requires new capabilities for neural generation models, and opens doors to many new applications.
翻訳日:2021-12-18 04:23:11 公開日:2021-12-16
# (参考訳) 多目的ニューラルアーキテクチャ探索による解釈可能なモデル学習 [全文訳有]

Learning Interpretable Models Through Multi-Objective Neural Architecture Search ( http://arxiv.org/abs/2112.08645v1 )

ライセンス: CC BY 4.0
Zachariah Carmichael, Tim Moon, Sam Ade Jacobs(参考訳) ディープラーニングの目覚ましい進歩は、多くの領域で前例のない成果をもたらした。 ディープニューラルネットワークのパフォーマンスは実行可能であるが、そのようなモデルのアーキテクチャ設計と解釈性は非自明である。 ニューラルネットワークアーキテクチャの設計を自動化するために、ニューラルネットワークサーチ(NAS)が導入された。 最近の進歩により、分散計算と新しい最適化アルゴリズムを活用することで、これらの手法はより実用的になった。 しかし、解釈可能性のためにアーキテクチャを最適化する作業はほとんどない。 この目的のために,タスク性能とイントロスペクションの両方を最適化する多目的分散NASフレームワークを提案する。 我々は、非支配的なソート遺伝的アルゴリズム(NSGA-II)と説明可能なAI(XAI)技術を活用し、人間によってより理解しやすいアーキテクチャに報いる。 このフレームワークは複数の画像分類データセットで評価される。 我々は、イントロスペクション能力とタスクエラーを協調的に最適化することで、許容可能なエラーの中でより不整合なアーキテクチャを実現することを実証する。

Monumental advances in deep learning have led to unprecedented achievements across a multitude of domains. While the performance of deep neural networks is indubitable, the architectural design and interpretability of such models are nontrivial. Research has been introduced to automate the design of neural network architectures through neural architecture search (NAS). Recent progress has made these methods more pragmatic by exploiting distributed computation and novel optimization algorithms. However, there is little work in optimizing architectures for interpretability. To this end, we propose a multi-objective distributed NAS framework that optimizes for both task performance and introspection. We leverage the non-dominated sorting genetic algorithm (NSGA-II) and explainable AI (XAI) techniques to reward architectures that can be better comprehended by humans. The framework is evaluated on several image classification datasets. We demonstrate that jointly optimizing for introspection ability and task error leads to more disentangled architectures that perform within tolerable error.
翻訳日:2021-12-18 03:47:26 公開日:2021-12-16
# (参考訳) QAHOI:人間と物体のインタラクション検出のためのクエリベースのアンカー [全文訳有]

QAHOI: Query-Based Anchors for Human-Object Interaction Detection ( http://arxiv.org/abs/2112.08647v1 )

ライセンス: CC BY 4.0
Junwen Chen and Keiji Yanai(参考訳) オブジェクト検出タスクの下流としてのヒューマン・オブジェクト・インタラクション(hoi)検出には、人間とオブジェクトのペアをローカライズし、画像から人間とオブジェクトの間のセマンティックな関係を抽出する必要がある。 近年, 高い効率性のため, ワンステージアプローチが新たなトレンドとなっている。 しかし、これらのアプローチは、可能なインタラクションポイントの検出や、人間とオブジェクトのペアをフィルタリングすることに焦点を当て、空間規模での異なるオブジェクトの位置やサイズの変化を無視する。 この問題を解決するために,マルチスケールアーキテクチャを活用し,異なる空間スケールから特徴を抽出し,クエリベースのアンカーを用いてHOIインスタンスのすべての要素を予測する,トランスフォーマーベースのQAHOI(Query-based Anchors for Human-Object Interaction Detection)を提案する。 さらに、強力なバックボーンはQAHOIの精度を大幅に向上させ、トランスフォーマーベースのバックボーンを用いたQAHOIはHICO-DETベンチマークにおいて、最新の最先端手法よりも高い性能を示した。 ソースコードは$\href{https://github.com/c jw2021/qahoi}{\text{this https url}}$で入手できる。

Human-object interaction (HOI) detection as a downstream of object detection tasks requires localizing pairs of humans and objects and extracting the semantic relationships between humans and objects from an image. Recently, one-stage approaches have become a new trend for this task due to their high efficiency. However, these approaches focus on detecting possible interaction points or filtering human-object pairs, ignoring the variability in the location and size of different objects at spatial scales. To address this problem, we propose a transformer-based method, QAHOI (Query-Based Anchors for Human-Object Interaction detection), which leverages a multi-scale architecture to extract features from different spatial scales and uses query-based anchors to predict all the elements of an HOI instance. We further investigate that a powerful backbone significantly increases accuracy for QAHOI, and QAHOI with a transformer-based backbone outperforms recent state-of-the-art methods by large margins on the HICO-DET benchmark. The source code is available at $\href{https://github.com/c jw2021/QAHOI}{\text{this https URL}}$.
翻訳日:2021-12-18 03:23:10 公開日:2021-12-16
# (参考訳) 極端テキスト分類のための極端ゼロショット学習 [全文訳有]

Extreme Zero-Shot Learning for Extreme Text Classification ( http://arxiv.org/abs/2112.08652v1 )

ライセンス: CC BY 4.0
Yuanhao Xiong, Wei-Cheng Chang, Cho-Jui Hsieh, Hsiang-Fu Yu, Inderjit Dhillon(参考訳) xmc (extreme multi-label text classification) 問題は、大きなラベルセットから入力テキストインスタンスの最も関連するラベルを見つけることである。 しかしながら、XMC のセットアップは、(1) 動的環境において見えないラベルを予測できないこと、(2) 多数の教師付き(インスタンス、ラベル)ペアを必要とすること、そして、新興ドメインでは取得が難しいこと、の2つの課題に直面している。 近年、一般化されたゼロショットXMC(GZ-XMC)のセットアップが検討され、未確認ラベルを扱うためにZestXMLが提案されている。 本稿では,EZ-XMC(Extreme Zero-Shot XMC)と呼ばれるより実践的なシナリオについて考察する。 EZ-XMCの拡張であるFew-Shot XMC(FS-XMC)についても検討した。 原文によるインスタンスとラベルの意味的埋め込みを学ぶために,自己教師付きコントラスト損失を伴うトランスフォーマベースのエンコーダの事前学習を提案する。 具体的には,Multi-scale Adaptive Clustering, Label Regularization, 擬陽性ペアによる自己学習など, 生テキストを徹底的に活用する事前学習手法MACLRを開発した。 4つの公開EZ-XMCデータセットによる実験結果から,MACLRは他の主要なベースライン手法と比較して優れた性能を示し,特に平均5~10%の精度向上とリコールを実現している。 また, FS-XMCでは, 事前学習したエンコーダは, トレーニング中に接点-接点-接点の数が限られている場合にさらに改善できることを示す。 このような少数ショットのサブセットでエンコーダを微調整することで、maclrは他の極端な分類器を大きく上回る。

The eXtreme Multi-label text Classification (XMC) problem concerns finding most relevant labels for an input text instance from a large label set. However, the XMC setup faces two challenges: (1) it is not generalizable to predict unseen labels in dynamic environments, and (2) it requires a large amount of supervised (instance, label) pairs, which can be difficult to obtain for emerging domains. Recently, the generalized zero-shot XMC (GZ-XMC) setup has been studied and ZestXML is proposed accordingly to handle the unseen labels, which still requires a large number of annotated (instance, label) pairs. In this paper, we consider a more practical scenario called Extreme Zero-Shot XMC (EZ-XMC), in which no supervision is needed and merely raw text of instances and labels are accessible. Few-Shot XMC (FS-XMC), an extension to EZ-XMC with limited supervision is also investigated. To learn the semantic embeddings of instances and labels with raw text, we propose to pre-train Transformer-based encoders with self-supervised contrastive losses. Specifically, we develop a pre-training method MACLR, which thoroughly leverages the raw text with techniques including Multi-scale Adaptive Clustering, Label Regularization, and self-training with pseudo positive pairs. Experimental results on four public EZ-XMC datasets demonstrate that MACLR achieves superior performance compared to all other leading baseline methods, in particular with approximately 5-10% improvement in precision and recall on average. Moreover, we also show that our pre-trained encoder can be further improved on FS-XMC when there are a limited number of ground-truth positive pairs in training. By fine-tuning the encoder on such a few-shot subset, MACLR still outperforms other extreme classifiers significantly.
翻訳日:2021-12-18 03:05:43 公開日:2021-12-16
# (参考訳) DREAM: 言語モデルの背後にあるメンタルモデルを明らかにする [全文訳有]

DREAM: Uncovering Mental Models behind Language Models ( http://arxiv.org/abs/2112.08656v1 )

ライセンス: CC BY 4.0
Yuling Gu, Bhavana Dalvi Mishra, Peter Clark(参考訳) 言語モデル(LM)は、ある場所にある質問(例えば、特定の倫理的ジレンマに関する質問)に答えるときに、シーンの「メンタルモデル」を構築することができるか? 認知科学は、精神モデルが人間の問題解決において基本的な役割を担っていることを示したが、既存のLMの高い質問応答性能が類似のモデル構築によって支えられているかどうかは不明である。 既存の T5 ベースの LM である Macaw では,調査では状況的質問に対して多少有用だが不十分な精神モデル(推定精度=43%,有用性=21%,一貫性=42%)が提供されている。 DREAMは、メンタルモデルのための追加のタスク固有のトレーニングデータなしで、状況を評価するメンタルモデルを作成するための入力として状況質問を受けるモデルである。 既存のNLP資源から遠ざかって、社会的常識を継承する。 分析の結果,ドリームはマカウと比較して有意に優れたメンタルモデル(推定精度=67%,有用性=37%,一貫性=71%)を生み出すことがわかった。 最後に、DREAMによって生成されたメンタルモデルは、状況的QAタスクのための追加のコンテキストとして使用できる。 この追加コンテキストは、3つの異なるデータセットにおいて、マッコーゼロショットモデルの回答精度を+1%から+4%(絶対)改善する。

To what extent do language models (LMs) build "mental models" of a scene when answering situated questions (e.g., questions about a specific ethical dilemma)? While cognitive science has shown that mental models play a fundamental role in human problem-solving, it is unclear whether the high question-answering performance of existing LMs is backed by similar model building - and if not, whether that can explain their well-known catastrophic failures. We observed that Macaw, an existing T5-based LM, when probed provides somewhat useful but inadequate mental models for situational questions (estimated accuracy=43%, usefulness=21%, consistency=42%). We propose DREAM, a model that takes a situational question as input to produce a mental model elaborating the situation, without any additional task specific training data for mental models. It inherits its social commonsense through distant supervision from existing NLP resources. Our analysis shows that DREAM can produce significantly better mental models (estimated accuracy=67%, usefulness=37%, consistency=71%) compared to Macaw. Finally, mental models generated by DREAM can be used as additional context for situational QA tasks. This additional context improves the answer accuracy of a Macaw zero-shot model by between +1% and +4% (absolute) on three different datasets.
翻訳日:2021-12-18 02:45:41 公開日:2021-12-16
# (参考訳) 対話生成におけるモデリング繰り返し [全文訳有]

Taming Repetition in Dialogue Generation ( http://arxiv.org/abs/2112.08657v1 )

ライセンス: CC BY 4.0
Yadong Xi, Jiashu Pu, Xiaoxi Mao(参考訳) 事前学習言語モデルの波は、機械が生成する会話の品質を継続的に改善してきたが、生成した応答のいくつかは依然として過度な反復、時には発話からの単語の繰り返し、時には自己生成した応答の中で単語を繰り返す、あるいはその両方に苦しんでいる。 不適切な単語の繰り返しは、生成されたテキストの品質を著しく低下させる。 ペナルタライズドサンプリングは一般的なソリューションのひとつであり、推論中の既存の単語のサンプリング確率を減少させるが、静的重み付けの不適切な設定に対して非常に脆弱である。 あまりに高く設定すると、奇妙で非現実的な文が得られ、低すぎると繰り返しを抑える作業が簡単になる。 上記の手法の欠点を補うために,繰り返しを許すタイミングとペナル化サンプリングを用いるタイミングを明確に決定する文脈認識分類器を設計する。 このような分類器は既存の復号法と容易に統合でき、テキストの多様性を保ちながら適切な繰り返しを減らすことができる。 実験の結果,本手法はより高品質で真正な対話を生成できることがわかった。

The wave of pre-training language models has been continuously improving the quality of the machine-generated conversations, however, some of the generated responses still suffer from excessive repetition, sometimes repeating words from utterance, sometimes repeating words within self-generated responses, or both. Inappropriate repetition of words can significantly degrade the quality of the generated texts. Penalized sampling is one popular solution, reducing the sampling probability of existing words during inference, however, it is highly vulnerable to the inappropriate setting of the static weight. Setting it too high can yield strange and unrealistic sentences while setting it too low makes the task of suppressing repetition trivial. To remedy the shortcomings of the above methods, we design a context-aware classifier to explicitly decide when to allow repetition and when to employ penalized sampling. Such a classifier can be easily integrated with existing decoding methods, reducing repetitions where appropriate while preserving the diversity of the text. Experimental results demonstrate that our method can generate higher quality and more authentic dialogues.
翻訳日:2021-12-18 02:32:07 公開日:2021-12-16
# (参考訳) 混合入力とハイブリッドCNN-MLPモデルを組み合わせたインテリジェントベアリング故障診断法 [全文訳有]

Intelligent Bearing Fault Diagnosis Method Combining Mixed Input and Hybrid CNN-MLP model ( http://arxiv.org/abs/2112.08673v1 )

ライセンス: CC BY 4.0
V. Sinitsin, O. Ibryaeva, V. Sakovskaya, V. Eremeeva(参考訳) 転がり軸受は産業機械で最も広く使われている軸受の1つである。 転がり軸受の状態の劣化は、回転機械の総故障につながる可能性がある。 AIベースの手法は転がり軸受の診断に広く応用されている。 NN-based method は診断に最適であることを示す。 通常、生データはマシンハウジングに搭載された加速度計から生成される。 しかし、各信号の診断ユーティリティは、対応する加速度計の位置に大きく依存する。 本稿では,混合入力と転がり軸受診断を組み合わせたハイブリッドCNN-MLPモデルに基づく診断手法を提案する。 軸載型無線加速度センサからの加速度データを用いて軸受欠陥の検出と局所化に成功している。 実験の結果, ハイブリッドモデルはcnnモデルとmlpモデルが別々に運用するモデルよりも優れており, 軸受障害の99,6%, cnnモデル98%, mlpモデル81%と高い検出精度が得られることがわかった。

Rolling bearings are one of the most widely used bearings in industrial machines. Deterioration in the condition of rolling bearings can result in the total failure of rotating machinery. AI-based methods are widely applied in the diagnosis of rolling bearings. Hybrid NN-based methods have been shown to achieve the best diagnosis results. Typically, raw data is generated from accelerometers mounted on the machine housing. However, the diagnostic utility of each signal is highly dependent on the location of the corresponding accelerometer. This paper proposes a novel hybrid CNN-MLP model-based diagnostic method which combines mixed input to perform rolling bearing diagnostics. The method successfully detects and localizes bearing defects using acceleration data from a shaft-mounted wireless acceleration sensor. The experimental results show that the hybrid model is superior to the CNN and MLP models operating separately, and can deliver a high detection accuracy of 99,6% for the bearing faults compared to 98% for CNN and 81% for MLP models.
翻訳日:2021-12-18 02:19:11 公開日:2021-12-16
# (参考訳) 機械学習による計算ソリッドメカニクスの線形弾性への応用 [全文訳有]

Machine Learning-Accelerated Computational Solid Mechanics: Application to Linear Elasticity ( http://arxiv.org/abs/2112.08676v1 )

ライセンス: CC BY 4.0
Rajat Arora(参考訳) 本研究は、粗いメッシュシミュレーションや実験から得られた低分解能変形場から高分解能変形場を再構成する物理インフォームド深層学習に基づく新しい超解像フレームワークを提案する。 物理系の制御方程式と境界条件を利用して高解像度ラベル付きデータを使わずにモデルを訓練する。 線形弾性変形を受ける物体の粗いメッシュ上での走行シミュレーションにより得られた低分解能応力および変位場から超解像変形場を得るため,提案手法を適用した。 超解場は,400倍の粗いメッシュ分解能を有する高度数値解法の精度に一致し,同時に法則を満足することを示した。 また,2つの深層学習に基づく超解像アーキテクチャの性能を比較検討した。

This work presents a novel physics-informed deep learning based super-resolution framework to reconstruct high-resolution deformation fields from low-resolution counterparts, obtained from coarse mesh simulations or experiments. We leverage the governing equations and boundary conditions of the physical system to train the model without using any high-resolution labeled data. The proposed approach is applied to obtain the super-resolved deformation fields from the low-resolution stress and displacement fields obtained by running simulations on a coarse mesh for a body undergoing linear elastic deformation. We demonstrate that the super-resolved fields match the accuracy of an advanced numerical solver running at 400 times the coarse mesh resolution, while simultaneously satisfying the governing laws. A brief evaluation study comparing the performance of two deep learning based super-resolution architectures is also presented.
翻訳日:2021-12-18 02:10:09 公開日:2021-12-16
# (参考訳) IsometricMT: 自動ダビングのためのニューラルネットワーク翻訳 [全文訳有]

IsometricMT: Neural Machine Translation for Automatic Dubbing ( http://arxiv.org/abs/2112.08682v1 )

ライセンス: CC BY 4.0
Surafel M. Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico(参考訳) 自動ダビング(AD)は、ソースとターゲットの音声の同期を実現するために、翻訳が所定の長さテンプレートに適合すべきユースケースの一つである。 ニューラルマシン翻訳(mt)の場合、品質を維持しながらソース長に近い長さの翻訳(例えば、文字数で+-10%以内)を生成することは難しい作業である。 NMT出力長の制御は、通常、n-best仮説の生成の2段階のアプローチで緩和され、長さと品質に基づいてそれらを再分類する翻訳品質にコストがかかる。 本研究は,トランスフォーマティブモデルがソース長と密接に一致する出力生成を,短時間等尺mtで直接学習できる自己学習手法を導入することを目的とする。特に,等尺mtに対するアプローチでは,複数の仮説や補助スコアリング関数を生成する必要がなくなる。 TED Talkデータに基づく,4つの言語ペア(英語,フランス語,イタリア語,ドイツ語,スペイン語)のベンチマーク結果について報告する。 自動評価と手動評価の両方で、我々の自己学習アプローチはより複雑な等尺的MTアプローチと同等に機能することが示された。

Automatic dubbing (AD) is among the use cases where translations should fit a given length template in order to achieve synchronicity between source and target speech. For neural machine translation (MT), generating translations of length close to the source length (e.g. within +-10% in character count), while preserving quality is a challenging task. Controlling NMT output length comes at a cost to translation quality which is usually mitigated with a two step approach of generation of n-best hypotheses and then re-ranking them based on length and quality. This work, introduces a self-learning approach that allows a transformer model to directly learn to generate outputs that closely match the source length, in short isometric MT. In particular, our approach for isometric MT does not require to generate multiple hypotheses nor any auxiliary scoring function. We report results on four language pairs (English - French, Italian, German, Spanish) with a publicly available benchmark based on TED Talk data. Both automatic and manual evaluations show that our self-learning approach to performs on par with more complex isometric MT approaches.
翻訳日:2021-12-18 02:01:25 公開日:2021-12-16
# (参考訳) 知識集約型nlpタスクのための実証性誘導生成 [全文訳有]

Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks ( http://arxiv.org/abs/2112.08688v1 )

ライセンス: CC BY 4.0
Akari Asai, Matt Gardner, Hannaneh Hajishirzi(参考訳) 検索型生成モデルでは,オープン質問応答や事実検証など,多くの知識集約型nlpタスクにおいて最先端のパフォーマンスを示す。 これらのモデルは、検索されたパッセージによって最終的な出力を生成するように訓練され、元のクエリとは無関係であり、スプリアスなヒントや暗記を学習する。 この研究は、通路が出力をサポートする正しい証拠を含んでいるかどうかを、発電機の訓練に組み込む方法を導入している。 本稿では,最終出力を共同で生成し,各パスの明細度を予測するマルチタスク学習フレームワークを提案する。 3つの知識集約型タスクを対象とした5つのデータセット実験により、新たな明細誘導型ジェネレータは、同サイズのモデルと直接的に比較し、FaVIQ-Ambig上での最先端の技術を向上することを示す。 これらの改善は、補助的なマルチタスク学習と銀の顕在性マイニング技術の両方に当てはまる。

Retrieval-augmented generation models have shown state-of-the-art performance across many knowledge-intensive NLP tasks such as open question answering and fact verification. These models are trained to generate the final output given the retrieved passages, which can be irrelevant to the original query, leading to learning spurious cues or answer memorization. This work introduces a method to incorporate evidentiality of passages -- whether a passage contains correct evidence to support the output -- into training the generator. We introduce a multi-task learning framework to jointly generate the final output and predict the evidentiality of each passage, leveraging a new task-agnostic method to obtain {\it silver} evidentiality labels for supervision. Our experiments on five datasets across three knowledge-intensive tasks show that our new evidentiality-guided generator significantly outperforms its direct counterpart with the same-size model and advances the state of the art on FaVIQ-Ambig. We attribute these improvements to both the auxiliary multi-task learning and silver evidentiality mining techniques.
翻訳日:2021-12-18 01:48:51 公開日:2021-12-16
# (参考訳) ロバストなニューラルイメージ圧縮に向けて:敵対的攻撃とモデルファインタニング [全文訳有]

Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning ( http://arxiv.org/abs/2112.08691v1 )

ライセンス: CC BY 4.0
Tong Chen and Zhan Ma(参考訳) ディープニューラルネットワークに基づく画像圧縮は広く研究されている。 モデルの堅牢性は概ね見過ごされているが、サービスの実現には不可欠である。 原画像に少量のノイズ摂動を注入して敵攻撃を行い、学習画像圧縮モデルを用いて敵の例を符号化する。 実験では, 従来の手法では, 圧縮モデル(ネットワークアーキテクチャ, 損失関数, 品質スケールなど) や摂動を注入する最適化戦略(ノイズ閾値, 信号距離測定など)によらず, 従来の手法の一般的な脆弱性を明らかにする。 その後、事前訓練されたモデルを洗練するために反復逆数微調整を適用する。 各イテレーションでは、ランダムなソースイメージと逆のサンプルが混合され、基礎となるモデルを更新する。 その結果,圧縮モデルの堅牢性を大幅に向上させることにより,提案手法の有効性を示した。 全体として、我々の手法は単純で効果的で一般化可能であり、堅牢な学習画像圧縮ソリューションを開発する上で魅力的である。 すべての資料が再現可能な研究のためにhttps://njuvision.gi thub.io/RobustNICで公開されている。

Deep neural network based image compression has been extensively studied. Model robustness is largely overlooked, though it is crucial to service enabling. We perform the adversarial attack by injecting a small amount of noise perturbation to original source images, and then encode these adversarial examples using prevailing learnt image compression models. Experiments report severe distortion in the reconstruction of adversarial examples, revealing the general vulnerability of existing methods, regardless of the settings used in underlying compression model (e.g., network architecture, loss function, quality scale) and optimization strategy used for injecting perturbation (e.g., noise threshold, signal distance measurement). Later, we apply the iterative adversarial finetuning to refine pretrained models. In each iteration, random source images and adversarial examples are mixed to update underlying model. Results show the effectiveness of the proposed finetuning strategy by substantially improving the compression model robustness. Overall, our methodology is simple, effective, and generalizable, making it attractive for developing robust learnt image compression solution. All materials have been made publicly accessible at https://njuvision.gi thub.io/RobustNIC for reproducible research.
翻訳日:2021-12-18 01:25:29 公開日:2021-12-16
# (参考訳) Lacunaコンストラクション:低リソース史料の自己教師型事前学習 [全文訳有]

Lacuna Reconstruction: Self-supervised Pre-training for Low-Resource Historical Document Transcription ( http://arxiv.org/abs/2112.08692v1 )

ライセンス: CC BY 4.0
Nikolai Vogler, Jonathan Parkes Allen, Matthew Thomas Miller, Taylor Berg-Kirkpatrick(参考訳) 本稿では,手書き文書と印刷文書の両方に対して,リッチな視覚表現を学習するための自己教師付き事前学習手法を提案する。 本研究は,(1)手書きイラシエート写本画像の異種集合と(2)現代英語の印刷文書の2つの言語における低リソース文字起こしのための事前学習エンコーダ表現の微調整を行った結果,スクラッチから訓練した同じ教師付きモデルに対して,30行の画像写しで認識精度が有意に向上したことを示す。 マスク付き言語モデルスタイルの事前学習戦略では、同一行内からサンプリングされた邪魔者から真のマスク付き視覚表現を識別できるように訓練し、文書に散在する書字スタイルに不変な頑健な文脈化言語表現と印刷ノイズの学習を奨励する。

We present a self-supervised pre-training approach for learning rich visual language representations for both handwritten and printed historical document transcription. After supervised fine-tuning of our pre-trained encoder representations for low-resource document transcription on two languages, (1) a heterogeneous set of handwritten Islamicate manuscript images and (2) early modern English printed documents, we show a meaningful improvement in recognition accuracy over the same supervised model trained from scratch with as few as 30 line image transcriptions for training. Our masked language model-style pre-training strategy, where the model is trained to be able to identify the true masked visual representation from distractors sampled from within the same line, encourages learning robust contextualized language representations invariant to scribal writing style and printing noise present across documents.
翻訳日:2021-12-18 01:00:37 公開日:2021-12-16
# (参考訳) CONFIT: 言語学的インフォームドコントラスト微調整による忠実な対話要約に向けて [全文訳有]

CONFIT: Toward Faithful Dialogue Summarization with Linguistically-Infor med Contrastive Fine-tuning ( http://arxiv.org/abs/2112.08713v1 )

ライセンス: CC BY 4.0
Xiangru Tang, Arjun Nair, Borui Wang, Bingyao Wang, Jai Desai, Aaron Wade, Haoran Li, Asli Celikyilmaz, Yashar Mehdad, Dragomir Radev(参考訳) 生成された要約における現実的な矛盾は抽象的な対話要約の実践的応用を著しく制限する。 事前学習したモデルを用いることで有意な進歩が得られたが、ヒトの評価中にかなりの量の幻覚内容が認められる。 事前学習されたモデルは、テキスト要約のためのクロスエントロピー損失で最もよく調整されるが、最適戦略ではないかもしれない。 本研究では,誤りの種類を強調し,事実性のバイナリ理解から遠ざけるために,アノテーションデータを用いた事実エラーの類型論を提供する。 さらに,ConFiTと呼ばれる新しいコントラスト微調整により,要約の事実整合性と全体的な品質を改善するためのトレーニング戦略を提案する。 言語的にインフォームドされたエラーの型をベースとして,特定のタイプを対象とする異なるモジュラー目的を設計する。 具体的には,誤りのある強陰性サンプルを用いて,事実矛盾の発生を減らす。 話者間の鍵となる情報をキャプチャするために,対話特有の損失も設計する。 人間の評価と自動忠実度測定値を用いて,対話要約におけるすべての事実誤り,SAMSum corpus を著しく低減することを示す。 さらに,本モデルは会議要約,AMIコーパスに一般化することができ,ワードオーバーラップメトリクスに関する両データセットのベースラインの大部分よりも有意に高いスコアを得られる。

Factual inconsistencies in generated summaries severely limit the practical applications of abstractive dialogue summarization. Although significant progress has been achieved by using pre-trained models, substantial amounts of hallucinated content are found during the human evaluation. Pre-trained models are most commonly fine-tuned with cross-entropy loss for text summarization, which may not be an optimal strategy. In this work, we provide a typology of factual errors with annotation data to highlight the types of errors and move away from a binary understanding of factuality. We further propose a training strategy that improves the factual consistency and overall quality of summaries via a novel contrastive fine-tuning, called ConFiT. Based on our linguistically-infor med typology of errors, we design different modular objectives that each target a specific type. Specifically, we utilize hard negative samples with errors to reduce the generation of factual inconsistency. In order to capture the key information between speakers, we also design a dialogue-specific loss. Using human evaluation and automatic faithfulness metrics, we show that our model significantly reduces all kinds of factual errors on the dialogue summarization, SAMSum corpus. Moreover, our model could be generalized to the meeting summarization, AMI corpus, and it produces significantly higher scores than most of the baselines on both datasets regarding word-overlap metrics.
翻訳日:2021-12-18 00:47:46 公開日:2021-12-16
# (参考訳) ドメインプロンプト:ASRシステムのメモリと計算効率のよいドメイン適応を目指して [全文訳有]

Domain Prompts: Towards memory and compute efficient domain adaptation of ASR systems ( http://arxiv.org/abs/2112.08718v1 )

ライセンス: CC BY 4.0
Saket Dingliwal, Ashish Shenoy, Sravan Bodapati, Ankur Gandhe, Ravi Teja Gadde, Katrin Kirchhoff(参考訳) 自動音声認識(ASR)システムは、非常に多様な分野の多くの産業用途で使われている。 ドメイン固有のシステムはドメイン内評価において一般的なシステムよりもパフォーマンスが良いので、メモリと計算効率の良いドメイン適応の必要性は明らかです。 特に、ASR仮説の再構成に使用されるパラメータ重変換言語モデルの適用は困難である。 本稿では,少数のドメイントークン埋め込みパラメータをトレーニングして,トランスフォーマーベースのLMを特定のドメインにプライマリ化する手法であるドメインプロンプトを紹介する。 ドメインあたりのパラメータをわずかに増やすことで、未適応のLMを使用するベースラインよりも7-14%のWERの改善を実現しています。 パラメータ効率は高いが、これらの改善は数億のパラメータを持つ完全な調整モデルに匹敵する。 プロンプトサイズ,データセットサイズ,初期化,ドメインの短縮により,ASRシステムにおけるドメインプロンプトの利用のメリットを示す。

Automatic Speech Recognition (ASR) systems have found their use in numerous industrial applications in very diverse domains. Since domain-specific systems perform better than their generic counterparts on in-domain evaluation, the need for memory and compute-efficient domain adaptation is obvious. Particularly, adapting parameter-heavy transformer-based language models used for rescoring ASR hypothesis is challenging. In this work, we introduce domain-prompts, a methodology that trains a small number of domain token embedding parameters to prime a transformer-based LM to a particular domain. With just a handful of extra parameters per domain, we achieve 7-14% WER improvement over the baseline of using an unadapted LM. Despite being parameter-efficient, these improvements are comparable to those of fully-fine-tuned models with hundreds of millions of parameters. With ablations on prompt-sizes, dataset sizes, initializations and domains, we provide evidence for the benefits of using domain-prompts in ASR systems.
翻訳日:2021-12-18 00:32:48 公開日:2021-12-16
# (参考訳) ニューロロジックA*esqueデコーディング:ルックアヘッドヒューリスティックスを用いた制約付きテキスト生成 [全文訳有]

NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead Heuristics ( http://arxiv.org/abs/2112.08726v1 )

ライセンス: CC BY 4.0
Ximing Lu, Sean Welleck, Peter West, Liwei Jiang, Jungo Kasai, Daniel Khashabi, Ronan Le Bras, Lianhui Qin, Youngjae Yu, Rowan Zellers, Noah A. Smith, Yejin Choi(参考訳) ニューラルテキスト生成の主要なパラダイムは、自己回帰言語モデルからの左から右への復号である。 しかし、複雑な語彙的制約の下での制約付きまたは制御可能な生成は、将来の経路を計画するために先見が必要である。 A*探索アルゴリズムからインスピレーションを得たNeuroLogic A*esqueは,将来のコストのヒューリスティックな推定を組み込んだ復号アルゴリズムである。 本研究では,大規模言語モデルにおいて効率のよいルックアヘッドヒューリスティックスを開発し,ビームサーチやトップクサンプリングなどの一般的な手法をドロップインで置き換える手法を提案する。 制約付き生成を可能にするために、神経学的デコード(lu et al., 2021)を基盤とし、論理的な制約と、将来の制約満足度に関する明確な推定を組み込む柔軟性を組み合わせる。 提案手法は,5世代のタスクにおける競争ベースラインを上回り,テーブル・ツー・テキスト生成,制約付き機械翻訳,キーワード制約付き生成において新たな最先端性能を実現する。 この改善は、複雑な制約満足度を必要とするタスクや、少数またはゼロショット設定を必要とするタスクで特に顕著である。 NeuroLogic A*esqueは、大規模な言語モデルの新機能の改善と実現のためのデコーディングのパワーを説明している。

The dominant paradigm for neural text generation is left-to-right decoding from autoregressive language models. Constrained or controllable generation under complex lexical constraints, however, requires foresight to plan ahead feasible future paths. Drawing inspiration from the A* search algorithm, we propose NeuroLogic A*esque, a decoding algorithm that incorporates heuristic estimates of future cost. We develop efficient lookahead heuristics that are efficient for large-scale language models, making our method a drop-in replacement for common techniques such as beam search and top-k sampling. To enable constrained generation, we build on NeuroLogic decoding (Lu et al., 2021), combining its flexibility in incorporating logical constraints with A*esque estimates of future constraint satisfaction. Our approach outperforms competitive baselines on five generation tasks, and achieves new state-of-the-art performance on table-to-text generation, constrained machine translation, and keyword-constrained generation. The improvements are particularly notable on tasks that require complex constraint satisfaction or in few-shot or zero-shot settings. NeuroLogic A*esque illustrates the power of decoding for improving and enabling new capabilities of large-scale language models.
翻訳日:2021-12-18 00:23:57 公開日:2021-12-16
# (参考訳) CoDER: Contextualized Document Embedding Re rankによる検索改善のための効率的なフレームワーク [全文訳有]

CODER: An efficient framework for improving retrieval through COntextualized Document Embedding Reranking ( http://arxiv.org/abs/2112.08766v1 )

ライセンス: CC BY 4.0
George Zerveas, Navid Rekabsaz, Daniel Cohen, Carsten Eickhoff(参考訳) 本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。 基礎密検索法で抽出された予め計算された文書表現を利用し、各クエリに対して検索された候補文書の大規模な集合を共同でスコア付けするモデルを訓練し、他の候補の文脈で各文書の表現を他のクエリ自身と共にフライで変換する。 クエリとの類似性に基づいてドキュメント表現をスコアリングする場合、モデルはその"peer"ドキュメントの表現を認識します。 本手法は,ペアトレーニング環境でのように,ベースメソッドよりも検索性能が大幅に向上し,候補文書を別々にスコアリングすることにつながることを示す。 bertライクなエンコーダに基づく項相互作用リランサーとは異なり、実行時に任意のファーストステージメソッド上に計算オーバーヘッドを負い、任意の最先端の密集した検索方法と簡単に組み合わせることができる。 最後に、与えられたクエリの候補ドキュメントセットを同時に考慮することで、スコアキャリブレーションやランキングにおける社会バイアスの緩和など、検索に付加的な価値を提供できる。

We present a framework for improving the performance of a wide class of retrieval models at minimal computational cost. It utilizes precomputed document representations extracted by a base dense retrieval method and involves training a model to jointly score a large set of retrieved candidate documents for each query, while potentially transforming on the fly the representation of each document in the context of the other candidates as well as the query itself. When scoring a document representation based on its similarity to a query, the model is thus aware of the representation of its "peer" documents. We show that our approach leads to substantial improvement in retrieval performance over the base method and over scoring candidate documents in isolation from one another, as in a pair-wise training setting. Crucially, unlike term-interaction rerankers based on BERT-like encoders, it incurs a negligible computational overhead on top of any first-stage method at run time, allowing it to be easily combined with any state-of-the-art dense retrieval method. Finally, concurrently considering a set of candidate documents for a given query enables additional valuable capabilities in retrieval, such as score calibration and mitigating societal biases in ranking.
翻訳日:2021-12-18 00:00:07 公開日:2021-12-16
# (参考訳) bograph:高次元パラメータ空間システムのためのログからの構造化ベイズ最適化 [全文訳有]

BoGraph: Structured Bayesian Optimization From Logs for Systems with High-dimensional Parameter Space ( http://arxiv.org/abs/2112.08774v1 )

ライセンス: CC BY 4.0
Sami Alabed, Eiko Yoneki(参考訳) 現在の自動チューニングフレームワークは、大きなパラメータ空間、複雑な相互依存性、高い評価コストのために、コンピュータシステム構成のチューニングに苦労している。 確率モデルを用いることで、Structured Bayesian Optimization (SBO)はこれらの困難を克服した。 sboは、高速収束につながるシステム専門家が提供するコンテキスト情報を利用することで、パラメータ空間を分解する。 しかし、確率モデルの構築の複雑さは、その普及を妨げている。 本稿では,システム構造をログから学習するSBOフレームワークBoAnonを提案する。 BoAnonは、専門家がパフォーマンスモデルやコンポーネント依存性としてシステムの知識をエンコードできるAPIを提供する。 BoAnonは学習した構造を取り込み、確率グラフモデルに変換する。 そして、専門家が提供する知識をグラフに適用して、システムの振る舞いをさらにコンテキスト化します。 BoAnon確率グラフは、最適化者が他の方法よりも高速に効率的な構成を見つけることを可能にする。 我々はboanonをハードウェアアーキテクチャ探索問題を通じて評価し,既定のアーキテクチャよりも5~7ドルのx-factors改善からエネルギー遅延目標の改善を実現した。 新たなコンテキスト構造学習パイプラインにより、BoAnonはSBOをデータベースやストリームプロセッサなど、さまざまなコンピュータシステムで利用できるようにした。

Current auto-tuning frameworks struggle with tuning computer systems configurations due to their large parameter space, complex interdependencies, and high evaluation cost. Utilizing probabilistic models, Structured Bayesian Optimization (SBO) has recently overcome these difficulties. SBO decomposes the parameter space by utilizing contextual information provided by system experts leading to fast convergence. However, the complexity of building probabilistic models has hindered its wider adoption. We propose BoAnon, a SBO framework that learns the system structure from its logs. BoAnon provides an API enabling experts to encode knowledge of the system as performance models or components dependency. BoAnon takes in the learned structure and transforms it into a probabilistic graph model. Then it applies the expert-provided knowledge to the graph to further contextualize the system behavior. BoAnon probabilistic graph allows the optimizer to find efficient configurations faster than other methods. We evaluate BoAnon via a hardware architecture search problem, achieving an improvement in energy-latency objectives ranging from $5-7$ x-factors improvement over the default architecture. With its novel contextual structure learning pipeline, BoAnon makes using SBO accessible for a wide range of other computer systems such as databases and stream processors.
翻訳日:2021-12-17 23:34:42 公開日:2021-12-16
# (参考訳) 時系列コントラスト学習によるエビデンススパンの長期質問応答への応用 [全文訳有]

Utilizing Evidence Spans via Sequence-Level Contrastive Learning for Long-Context Question Answering ( http://arxiv.org/abs/2112.08777v1 )

ライセンス: CC BY 4.0
Avi Caciularu, Ido Dagan, Jacob Goldberger, Arman Cohan(参考訳) 長距離トランスフォーマーモデルは、長期文脈質問応答(qa)タスクの結果を奨励している。 このようなタスクは長い文書に対する推論を必要とすることが多く、問題に対処するための証拠を提供する一連の証拠(例:文)を識別する利点がある。 そこで本研究では, 長距離変圧器に追加のシーケンスレベルの目的を持たせるための新しい手法を提案する。 そこで,本モデルでは,疑似証拠類似度を最大化することにより,支持する証拠文と否定的証拠文とを明確に識別することが奨励されている。 提案された損失は、HotpotQAとQAsperの2つの挑戦的な質問応答ベンチマークに対して、3つの強力な長コンテキストトランスフォーマーモデルに対して一貫した改善を示す。

Long-range transformer models have achieved encouraging results on long-context question answering (QA) tasks. Such tasks often require reasoning over a long document, and they benefit from identifying a set of evidence spans (e.g., sentences) that provide supporting evidence for addressing the question. In this work, we propose a novel method for equipping long-range transformers with an additional sequence-level objective for better identification of supporting evidence spans. We achieve this by proposing an additional contrastive supervision signal in finetuning, where the model is encouraged to explicitly discriminate supporting evidence sentences from negative ones by maximizing the question-evidence similarity. The proposed additional loss exhibits consistent improvements on three different strong long-context transformer models, across two challenging question answering benchmarks - HotpotQA and QAsper.
翻訳日:2021-12-17 23:13:39 公開日:2021-12-16
# (参考訳) ATM:ラベル効率の良いテキスト分類のための不確かさを意識したアクティブセルフトレーニングフレームワーク [全文訳有]

ATM: An Uncertainty-aware Active Self-training Framework for Label-efficient Text Classification ( http://arxiv.org/abs/2112.08787v1 )

ライセンス: CC BY 4.0
Yue Yu, Lingkai Kong, Jieyu Zhang, Rongzhi Zhang, Chao Zhang(参考訳) 多くの自然言語処理(NLP)タスクにおいて、事前訓練された言語モデル(LM)が大きな成功を収めたにもかかわらず、良好な性能を得るためには、微調整のために過剰なラベル付きデータが必要である。 ラベルの効率を高めるために、研究者はアクティブラーニング(AL)に頼ってきたが、ラベルなしデータのポテンシャルは以前の研究の大半で無視されている。 ラベルのないデータのパワーを解放し、ラベルの効率とモデルの性能を向上させるために、ATMを開発した。これは、ラベルのないデータを活用するための自己学習を利用する新しいフレームワークであり、既存のALメソッドを改善するプラグインモジュールとして機能する特定のALアルゴリズムに非依存である。 具体的には、不確実性の高いラベル付きデータはアノテーションのオラクルに露出し、不確実性の高いデータは自己学習に活用する。 自己学習におけるラベル雑音伝搬問題を軽減するため,全ラウンドからモデル予測を動的に集約する運動量ベースメモリバンクを設計した。 広範な実験により、ATMは最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを示した。

Despite the great success of pre-trained language models (LMs) in many natural language processing (NLP) tasks, they require excessive labeled data for fine-tuning to achieve satisfactory performance. To enhance the label efficiency, researchers have resorted to active learning (AL), while the potential of unlabeled data is ignored by most of prior work. To unleash the power of unlabeled data for better label efficiency and model performance, we develop ATM, a new framework that leverage self-training to exploit unlabeled data and is agnostic to the specific AL algorithm, serving as a plug-in module to improve existing AL methods. Specifically, the unlabeled data with high uncertainty is exposed to oracle for annotations while those with low uncertainty are leveraged for self-training. To alleviate the label noise propagation issue in self-training, we design a simple and effective momentum-based memory bank to dynamically aggregate the model predictions from all rounds. By extensive experiments, we demonstrate that ATM outperforms the strongest active learning and self-training baselines and improve the label efficiency by 51.9% on average.
翻訳日:2021-12-17 23:02:39 公開日:2021-12-16
# (参考訳) 低リソース言語のコグネイト検出を改善するための言語間特徴の活用 [全文訳有]

Harnessing Cross-lingual Features to Improve Cognate Detection for Low-resource Languages ( http://arxiv.org/abs/2112.08789v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Raj Dabre, Shubham Dewangan, Pushpak Bhattacharyya, Gholamreza Haffari, Malhar Kulkarni(参考訳) コニャートは異なる言語にまたがる同じ語彙形式の変種であり、例えばスペイン語の「フォネマ」や英語の「音素」はコニャートであり、どちらも「音の単位」を意味する。 2つの言語間のコグネートの自動検出のタスクは、言語間情報検索、計算系統学、機械翻訳などの下流のnlpタスクに役立つ。 本稿では,14のインド諸言語間における単語認識のための言語間埋め込みの活用について述べる。 提案手法では,コグネート検出のための特徴表現の改善のために,知識グラフからのコンテキストの利用を提案する。 そこで我々は,コグネート検出機構がニューラルネットワーク翻訳(NMT)に与える影響を下流タスクとして評価した。 サンスクリット語、ヒンディー語、アサメセ語、オリヤ語、カンナダ語、グジャラート語、タミル語、テルグ語、パンジャービ語、ベンガル語、マラヤラム語の12言語からなる挑戦的データセットを用いてコニャートを検出する方法を評価する。 さらに、コンカニ語とネパール語という2つのインドの言語の評価データセットを作成する。 我々は,コグネート検出のためのf-scoreの観点から,最大18%の改善を観察した。 さらに,NMTの品質を最大2.76BLEUで向上させる方法として,コニャート抽出法が有用であることを示す。 また、コード、新しく構築されたデータセット、言語横断モデルも公開しています。

Cognates are variants of the same lexical form across different languages; for example 'fonema' in Spanish and 'phoneme' in English are cognates, both of which mean 'a unit of sound'. The task of automatic detection of cognates among any two languages can help downstream NLP tasks such as Cross-lingual Information Retrieval, Computational Phylogenetics, and Machine Translation. In this paper, we demonstrate the use of cross-lingual word embeddings for detecting cognates among fourteen Indian Languages. Our approach introduces the use of context from a knowledge graph to generate improved feature representations for cognate detection. We, then, evaluate the impact of our cognate detection mechanism on neural machine translation (NMT), as a downstream task. We evaluate our methods to detect cognates on a challenging dataset of twelve Indian languages, namely, Sanskrit, Hindi, Assamese, Oriya, Kannada, Gujarati, Tamil, Telugu, Punjabi, Bengali, Marathi, and Malayalam. Additionally, we create evaluation datasets for two more Indian languages, Konkani and Nepali. We observe an improvement of up to 18% points, in terms of F-score, for cognate detection. Furthermore, we observe that cognates extracted using our method help improve NMT quality by up to 2.76 BLEU. We also release our code, newly constructed datasets and cross-lingual models publicly.
翻訳日:2021-12-17 22:44:10 公開日:2021-12-16
# (参考訳) 効率的な影響推定による最適化の観点からの記憶の理解 [全文訳有]

Understanding Memorization from the Perspective of Optimization via Efficient Influence Estimation ( http://arxiv.org/abs/2112.08798v1 )

ライセンス: CC BY 4.0
Futong Liu, Tao Lin, Martin Jaggi(参考訳) 過パラメータのディープニューラルネットワークは、小さな一般化エラーを維持しながら、優れたトレーニング精度を達成できる。 また、任意のラベルに収まることも確認されており、この挙動を記憶現象と呼ぶ。 本研究では,真のラベル(実データ)とランダムラベル(ランダムデータ)のデータに対する影響と記憶の効率的な推定手法であるturn-over dropoutを用いた記憶記憶現象について検討する。 私たちの主な発見は (i)実データと無作為データの両方について、簡単な例(実データ等)と難しい例(ランダムデータ等)の最適化をネットワークによって同時に行い、より高速で簡単な例とすることにより行う。 (ii)実データの場合、トレーニングデータセットの正しい難しい例は、簡単なデータよりも有益である。 ランダムデータと実データに暗記が存在することを示すことにより、最適化に関する一貫性を強調し、最適化中の暗記の影響を強調する。

Over-parameterized deep neural networks are able to achieve excellent training accuracy while maintaining a small generalization error. It has also been found that they are able to fit arbitrary labels, and this behaviour is referred to as the phenomenon of memorization. In this work, we study the phenomenon of memorization with turn-over dropout, an efficient method to estimate influence and memorization, for data with true labels (real data) and data with random labels (random data). Our main findings are: (i) For both real data and random data, the optimization of easy examples (e.g., real data) and difficult examples (e.g., random data) are conducted by the network simultaneously, with easy ones at a higher speed; (ii) For real data, a correct difficult example in the training dataset is more informative than an easy one. By showing the existence of memorization on random data and real data, we highlight the consistency between them regarding optimization and we emphasize the implication of memorization during optimization.
翻訳日:2021-12-17 22:27:46 公開日:2021-12-16
# (参考訳) 不十分なデータの回収に対する純雑音:ランダムノイズ画像の訓練による不均衡分類の改善 [全文訳有]

Pure Noise to the Rescue of Insufficient Data: Improving Imbalanced Classification by Training on Random Noise Images ( http://arxiv.org/abs/2112.08810v1 )

ライセンス: CC BY 4.0
Shiran Zada, Itay Benou and Michal Irani(参考訳) 視覚認識タスクの顕著な進歩にもかかわらず、トレーニングデータが不足したり、高度に不均衡な場合、ディープニューラルネットワークは依然として十分に一般化するのに苦労している。 本稿では,この制限を緩和するための驚くほど単純かつ高効率な手法を提案する。 データ拡張のための加算ノイズや逆ノイズの一般的な使用とは異なり、純粋なランダムノイズイメージを直接トレーニングすることで、全く異なる視点を提案する。 本稿では,同一ネットワーク内の自然画像に加えて,純ノイズ画像のトレーニングを可能にする分散認識ルーティングバッチ正規化レイヤ(dar-bn)を提案する。 これにより一般化が促進され、過剰フィッティングが抑制される。 提案手法は,多種多様な長期画像分類データセット(CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, Places-LT, CelebA-5)を用いて,非バランスな分類性能を著しく向上させる。 さらに,本手法は非常にシンプルで,汎用的な拡張ツールとして(既存の拡張に加えて)使用しやすく,任意のトレーニングスキームに組み込むことができる。 特別なデータ生成やトレーニング手順を必要としないため、トレーニングを迅速かつ効率的に行うことができる。

Despite remarkable progress on visual recognition tasks, deep neural-nets still struggle to generalize well when training data is scarce or highly imbalanced, rendering them extremely vulnerable to real-world examples. In this paper, we present a surprisingly simple yet highly effective method to mitigate this limitation: using pure noise images as additional training data. Unlike the common use of additive noise or adversarial noise for data augmentation, we propose an entirely different perspective by directly training on pure random noise images. We present a new Distribution-Aware Routing Batch Normalization layer (DAR-BN), which enables training on pure noise images in addition to natural images within the same network. This encourages generalization and suppresses overfitting. Our proposed method significantly improves imbalanced classification performance, obtaining state-of-the-art results on a large variety of long-tailed image classification datasets (CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, Places-LT, and CelebA-5). Furthermore, our method is extremely simple and easy to use as a general new augmentation tool (on top of existing augmentations), and can be incorporated in any training scheme. It does not require any specialized data generation or training procedures, thus keeping training fast and efficient
翻訳日:2021-12-17 22:18:57 公開日:2021-12-16
# (参考訳) 生成ニューラルネットワークにおける内部単位生成アーチファクトの理解方法 [全文訳有]

An Unsupervised Way to Understand Artifact Generating Internal Units in Generative Neural Networks ( http://arxiv.org/abs/2112.08814v1 )

ライセンス: CC BY-SA 4.0
Haedong Jeong, Jiyeon Han and Jaesik Choi(参考訳) GAN(Generative Adversarial Networks)の画像生成性能は大幅に改善されているが、視力の低い世代がまだ観察されている。 GANの広く使われている指標は、モデル全体のパフォーマンスに重点を置いているため、個々の世代の品質評価や欠陥世代の検出は困難である。 近年の研究では、アーチファクトの原因となる特徴マップを検知し、個々のサンプルを評価する試みが行われているが、実際のデータ多様体を近似するためには、外部ネットワークや多くのトレーニングデータといった追加のリソースが必要である。 本研究では,局所的活性化の概念を提案し,局所的活性化の指標を考案し,余分な監督なしにアーティファクト生成を検出する。 我々は、様々なデータセットを持つganから生成したアーティファクトを検知し、修正できることを実証的に検証する。 最後に,提案した概念と低視力の関係を部分的に明らかにする幾何学的解析について考察する。

Despite significant improvements on the image generation performance of Generative Adversarial Networks (GANs), generations with low visual fidelity still have been observed. As widely used metrics for GANs focus more on the overall performance of the model, evaluation on the quality of individual generations or detection of defective generations is challenging. While recent studies try to detect featuremap units that cause artifacts and evaluate individual samples, these approaches require additional resources such as external networks or a number of training data to approximate the real data manifold. In this work, we propose the concept of local activation, and devise a metric on the local activation to detect artifact generations without additional supervision. We empirically verify that our approach can detect and correct artifact generations from GANs with various datasets. Finally, we discuss a geometrical analysis to partially reveal the relation between the proposed concept and low visual fidelity.
翻訳日:2021-12-17 21:58:55 公開日:2021-12-16
# (参考訳) 深部画像検索のための自己蒸留ハッシュ [全文訳有]

Self-Distilled Hashing for Deep Image Retrieval ( http://arxiv.org/abs/2112.08816v1 )

ライセンス: CC BY 4.0
Young Kyun Jang, Geonmo Gu, Byungsoo Ko, and Nam Ik Cho(参考訳) ハッシュベースの画像検索システムでは、オリジナルからの変換入力は通常異なる符号を生成し、検索精度を低下させる。 この問題を軽減するために、トレーニング中にデータ拡張を適用することができる。 しかし、ある内容の増分されたサンプルが実空間で類似しているとしても、量子化はハミング空間で遠くに散らばることができる。 これにより、トレーニングを妨げ、パフォーマンスを低下させる表現の相違が生じます。 本研究では,拡張データのポテンシャルを生かしながら,不一致を最小限に抑えるための,新しい自己蒸留ハッシュ方式を提案する。 弱変換されたサンプルのハッシュ知識を強変換に変換することにより、ハッシュコードを様々な変換に不感にする。 また,ハッシュプロキシに基づく類似性学習とバイナリクロスエントロピーに基づく量子化損失を導入し,高品質なハッシュコードを提供する。 最終的に、差別的なハッシュコードを生成するディープハッシュフレームワークを構築します。 ベンチマークによる大規模な実験により,我々の自己蒸留が既存のディープハッシュ手法を改善することが確認された。 コードはまもなくリリースされる。

In hash-based image retrieval systems, the transformed input from the original usually generates different codes, deteriorating the retrieval accuracy. To mitigate this issue, data augmentation can be applied during training. However, even if the augmented samples of one content are similar in real space, the quantization can scatter them far away in Hamming space. This results in representation discrepancies that can impede training and degrade performance. In this work, we propose a novel self-distilled hashing scheme to minimize the discrepancy while exploiting the potential of augmented data. By transferring the hash knowledge of the weakly-transformed samples to the strong ones, we make the hash code insensitive to various transformations. We also introduce hash proxy-based similarity learning and binary cross entropy-based quantization loss to provide fine quality hash codes. Ultimately, we construct a deep hashing framework that generates discriminative hash codes. Extensive experiments on benchmarks verify that our self-distillation improves the existing deep hashing approaches, and our framework achieves state-of-the-art retrieval results. The code will be released soon.
翻訳日:2021-12-17 21:45:57 公開日:2021-12-16
# (参考訳) GANにおける潜伏発見の自己監督的促進 [全文訳有]

Self-supervised Enhancement of Latent Discovery in GANs ( http://arxiv.org/abs/2112.08835v1 )

ライセンス: CC BY 4.0
Silpa Vadakkeeveetil Sreelatha, Adarsh Kappiyath, S Sumitra(参考訳) 事前学習したGANの潜伏空間における解釈方向の探索法が提案されている。 非教師付きメソッドによって発見された潜在意味論は、事前訓練された属性分類器を使用しないため、教師付きメソッドよりも比較的非拘束である。 本稿では,自己監督を用いて学習したスケールランキング推定器(SRE)を提案する。 SREは、既存の教師なしのゆがみ技術によって得られる方向のゆがみを強化する。 これらの方向は、潜時空間の各方向における変動の順序を保つために更新される。 発見方向の定性的・定量的評価は,提案手法が各種データセットの絡み合いを著しく改善することを示す。 また,学習したSREを用いて,Attributeに基づく画像検索作業を行うことができることを示す。

Several methods for discovering interpretable directions in the latent space of pre-trained GANs have been proposed. Latent semantics discovered by unsupervised methods are relatively less disentangled than supervised methods since they do not use pre-trained attribute classifiers. We propose Scale Ranking Estimator (SRE), which is trained using self-supervision. SRE enhances the disentanglement in directions obtained by existing unsupervised disentanglement techniques. These directions are updated to preserve the ordering of variation within each direction in latent space. Qualitative and quantitative evaluation of the discovered directions demonstrates that our proposed method significantly improves disentanglement in various datasets. We also show that the learned SRE can be used to perform Attribute-based image retrieval task without further training.
翻訳日:2021-12-17 21:25:34 公開日:2021-12-16
# (参考訳) ボックスの外から見た3Dシーン [全文訳有]

Looking Outside the Box to Ground Language in 3D Scenes ( http://arxiv.org/abs/2112.08879v1 )

ライセンス: CC BY 4.0
Ayush Jain, Nikolaos Gkanatsios, Ishita Mediratta, Katerina Fragkiadaki(参考訳) 事前訓練された検出器がシーン内のオブジェクトを提案し、モデルは元のイメージや3Dポイントクラウドに出席することなく、これらのボックスの提案から回答を選択することを学習する。 オブジェクト検出器は通常、オブジェクトや属性の固定された語彙で訓練されるが、これはオープンドメインの言語接地には制約が多すぎるため、発話は椅子、椅子の脚、椅子の前脚の先端など、様々な抽象レベルでの視覚実体を指すことがある。 我々は,boxの提案ボトルネックを回避し,3次元シーンにおける言語接地モデルを提案する。 i) 言語ストリーム、ポイントクラウド機能ストリーム、および3dボックスの提案全体での反復的な注意。 二 オブジェクト及び部分参照のための3Dボックスをデコードする非パラメトリックエンティティクエリを持つトランスフォーマーデコーダ 三 対象物検出を候補分類ラベルの一覧から成る参照発話の根拠として扱うことにより、3Dオブジェクトアノテーション及び言語基盤アノテーションからの共同監督 これらの革新は、一般的な3D言語グラウンドベンチマークに対する以前のアプローチに比べて、大きな量的向上(SR3Dベンチマークのプラス9%の改善)をもたらす。 私たちは、それぞれのイノベーションを省略して、モデルのパフォーマンスへの貢献を示しています。 マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作する。 コードとチェックポイントはhttps://github.com/n ickgkan/beauty_detrで公開される。

Existing language grounding models often use object proposal bottlenecks: a pre-trained detector proposes objects in the scene and the model learns to select the answer from these box proposals, without attending to the original image or 3D point cloud. Object detectors are typically trained on a fixed vocabulary of objects and attributes that is often too restrictive for open-domain language grounding, where an utterance may refer to visual entities at various levels of abstraction, such as a chair, the leg of a chair, or the tip of the front leg of a chair. We propose a model for grounding language in 3D scenes that bypasses box proposal bottlenecks with three main innovations: i) Iterative attention across the language stream, the point cloud feature stream and 3D box proposals. ii) Transformer decoders with non-parametric entity queries that decode 3D boxes for object and part referentials. iii) Joint supervision from 3D object annotations and language grounding annotations, by treating object detection as grounding of referential utterances comprised of a list of candidate category labels. These innovations result in significant quantitative gains (up to +9% absolute improvement on the SR3D benchmark) over previous approaches on popular 3D language grounding benchmarks. We ablate each of our innovations to show its contribution to the performance of the model. When applied on language grounding on 2D images with minor changes, it performs on par with the state-of-the-art while converges in half of the GPU time. The code and checkpoints will be made available at https://github.com/n ickgkan/beauty_detr
翻訳日:2021-12-17 21:13:15 公開日:2021-12-16
# (参考訳) 内腔における不確定な単眼深度について [全文訳有]

On the Uncertain Single-View Depths in Endoscopies ( http://arxiv.org/abs/2112.08906v1 )

ライセンス: CC BY 4.0
Javier Rodr\'iguez-Puigvert, David Recasens, Javier Civera, Rub\'en Mart\'inez-Cant\'in(参考訳) 内視鏡画像から深度を推定することは、正確な局在化、腫瘍の測定、非検査領域の同定など、幅広いAI支援技術の前提条件である。 コロノスコピエのドメイン特異性 -- 流動性、照明条件の悪さ、そして突然のセンサーの動きを持つ変形可能な低テクスト環境 -- は、マルチビューアプローチに課題をもたらすため、シングルビューの奥行き学習は有望な研究分野として注目される。 本稿では,植民地における単一視点深度推定のためのベイズ深層ネットワークを初めて検討する。 不確かさの定量化は、このような重要な応用分野に対して大きな可能性をもたらす。 私たちの貢献は2つあります。 1)3つの異なるデータセットにおける奥行き推定のためのベイズ深層ネットワークの徹底的な解析、合成-実領域変化と教師付き対自己教師付き手法に関する課題と結論の強調、及び 2)教師の不確実性を考慮した深層学習への教師・教師の新たなアプローチ

Estimating depth from endoscopic images is a pre-requisite for a wide set of AI-assisted technologies, namely accurate localization, measurement of tumors, or identification of non-inspected areas. As the domain specificity of colonoscopies -- a deformable low-texture environment with fluids, poor lighting conditions and abrupt sensor motions -- pose challenges to multi-view approaches, single-view depth learning stands out as a promising line of research. In this paper, we explore for the first time Bayesian deep networks for single-view depth estimation in colonoscopies. Their uncertainty quantification offers great potential for such a critical application area. Our specific contribution is two-fold: 1) an exhaustive analysis of Bayesian deep networks for depth estimation in three different datasets, highlighting challenges and conclusions regarding synthetic-to-real domain changes and supervised vs. self-supervised methods; and 2) a novel teacher-student approach to deep depth learning that takes into account the teacher uncertainty.
翻訳日:2021-12-17 20:52:51 公開日:2021-12-16
# (参考訳) 雇用におけるジェンダー言語とそのアルゴリズムバイアスへの応用 [全文訳有]

Gendered Language in Resumes and its Implications for Algorithmic Bias in Hiring ( http://arxiv.org/abs/2112.08910v1 )

ライセンス: CC BY 4.0
Prasanna Parasurama, Jo\~ao Sedoc(参考訳) アルゴリズム採用で使用されるNLPモデルでは、性別バイアスに関する懸念が高まりつつあるが、履歴書における性別付き言語の範囲と性質を研究する経験的な研究はほとんどない。 我々は、IT企業の709kの履歴書を用いて、応募者の性別を分類する一連のモデルを訓練し、履歴書にエンコードされた性別情報の量を測定する。 また, ジェンダー識別子, 趣味, ジェンダーサブスペースなどを取り除き, 履歴書からジェンダーを難読化できるかどうかについても検討する。 難読化後も履歴書に有意な性別情報が存在することが判明した。 単純なTf-IdfモデルはAUROC=0.75で性別を分類し、より洗練されたトランスフォーマーベースのモデルはAUROC=0.8を達成する。 さらに、性別の予測値は、埋め込みの性別の方向と相関が低く、つまり、性別の予測は、男性/女性的な意味での「ジェンダー化」よりもずっと大きい。 雇用状況におけるこれらの発見のアルゴリズム的バイアスと公平性の影響について論じる。

Despite growing concerns around gender bias in NLP models used in algorithmic hiring, there is little empirical work studying the extent and nature of gendered language in resumes. Using a corpus of 709k resumes from IT firms, we train a series of models to classify the gender of the applicant, thereby measuring the extent of gendered information encoded in resumes. We also investigate whether it is possible to obfuscate gender from resumes by removing gender identifiers, hobbies, gender sub-space in embedding models, etc. We find that there is a significant amount of gendered information in resumes even after obfuscation. A simple Tf-Idf model can learn to classify gender with AUROC=0.75, and more sophisticated transformer-based models achieve AUROC=0.8. We further find that gender predictive values have low correlation with gender direction of embeddings -- meaning that, what is predictive of gender is much more than what is "gendered" in the masculine/feminine sense. We discuss the algorithmic bias and fairness implications of these findings in the hiring context.
翻訳日:2021-12-17 20:25:53 公開日:2021-12-16
# (参考訳) 神経自己回帰配列モデリングにおけるオーバースムーシングの問題の特徴と対処 [全文訳有]

Characterizing and addressing the issue of oversmoothing in neural autoregressive sequence modeling ( http://arxiv.org/abs/2112.08914v1 )

ライセンス: CC BY 4.0
Ilia Kulikov, Maksim Eremeev, Kyunghyun Cho(参考訳) ニューラル自己回帰シーケンスモデルは、空または反復配列などの退化配列を含む多くの可能なシーケンスの確率を推定する。 本研究では,モデルが不当に短いシーケンスに高い確率を割り当てる,ある特定のケースに取り組む。 我々はこの問題を定量化するための過度な緩和率を定義する。 ニューラルマシン翻訳における過密の度合いを確認した後、トレーニング中の過密の度合いを明確に抑えることを提案する。 提案する正規化がモデル分布と復号性能の両方に与える影響を調べるための一連の実験を行った。 ニューラルマシン翻訳タスクをテストベッドとして使用し,サイズの異なる3つの異なるデータセットを検討する。 我々の実験は3つの大きな発見を明らかにした。 まず,正規化の強度を調整することにより,モデルの平滑化率を制御できる。 第二に,過度な損失寄与を増大させることで,<eos>トークンの確率とランクは,その存在を想定しない位置において大幅に低下する。 第3に,提案手法は,特に大型ビームを用いた場合のビーム探索の結果に影響を及ぼす。 大ビームによる翻訳品質の劣化(BLEUで測定)は, 過スムージング速度の低下とともに著しく減少するが, ビームサイズが小さくなるほど劣化は小さい。 以上の結果から,神経自己回帰モデルにおける過度に予測可能な短周期の縮退例の背景には,高い過度な平滑化が主な原因であると結論づけた。

Neural autoregressive sequence models smear the probability among many possible sequences including degenerate ones, such as empty or repetitive sequences. In this work, we tackle one specific case where the model assigns a high probability to unreasonably short sequences. We define the oversmoothing rate to quantify this issue. After confirming the high degree of oversmoothing in neural machine translation, we propose to explicitly minimize the oversmoothing rate during training. We conduct a set of experiments to study the effect of the proposed regularization on both model distribution and decoding performance. We use a neural machine translation task as the testbed and consider three different datasets of varying size. Our experiments reveal three major findings. First, we can control the oversmoothing rate of the model by tuning the strength of the regularization. Second, by enhancing the oversmoothing loss contribution, the probability and the rank of <eos> token decrease heavily at positions where it is not supposed to be. Third, the proposed regularization impacts the outcome of beam search especially when a large beam is used. The degradation of translation quality (measured in BLEU) with a large beam significantly lessens with lower oversmoothing rate, but the degradation compared to smaller beam sizes remains to exist. From these observations, we conclude that the high degree of oversmoothing is the main reason behind the degenerate case of overly probable short sequences in a neural autoregressive model.
翻訳日:2021-12-17 20:15:53 公開日:2021-12-16
# (参考訳) GOSH:フォグコンピューティング環境におけるディープサロゲートモデルを用いたタスクスケジューリング [全文訳有]

GOSH: Task Scheduling Using Deep Surrogate Models in Fog Computing Environments ( http://arxiv.org/abs/2112.08916v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) 近年,不均一フォグ環境での揮発性タスクを効率的に割り当てるために,サロゲートモデルを用いたインテリジェントスケジューリング手法が提案されている。 決定論的サロゲートモデル、ディープニューラルネットワーク(DNN)、勾配に基づく最適化などの進歩により、低エネルギー消費と応答時間に到達することができる。 しかし、最適化の客観的値を見積もる決定論的代理モデルは、高いサービスレベル合意(SLA)違反率につながる可能性のあるQoS(Quality of Service)目標関数の分布の不確実性を考慮していない。 さらに、DNNトレーニングの脆さの性質は、そのようなモデルが最小エネルギーや応答時間に達するのを防ぐ。 これらの課題を克服するために,二階微分とヘテロシドスティック深層サロゲートモデルを用いた勾配に基づく最適化という新しいスケジューラを提案する。 GOSHは2階勾配に基づく最適化手法を用いてより優れたQoSを求め、スケジューリング決定に収束するイテレーション数を削減し、スケジューリング時間を短縮する。 バニラDNNの代わりに、GOSHはNatural Parameter Networkを使用して客観的スコアを近似する。 さらに、信頼度境界最適化手法により、GOSHは、平均遅延のグリーディ最小化とエラーベースの探索による不確実性低減のトレードオフを最適に見つけることができる。 したがって、goshとその共シミュレーションベースの拡張gosh*は、ベースラインメソッドよりも迅速に適応し、優れた客観的スコアに達することができる。 GOSH*はGOSHよりも客観的スコアがよいことを示すが、GOSHは限られたリソース設定に適応するのに対して、高可用性設定にのみ適している。 GOSH*とGOSH*の実際のシステム実験では,エネルギー消費,応答時間,SLA違反に関して,それぞれ18,27,82パーセントの大幅な改善が見られた。

Recently, intelligent scheduling approaches using surrogate models have been proposed to efficiently allocate volatile tasks in heterogeneous fog environments. Advances like deterministic surrogate models, deep neural networks (DNN) and gradient-based optimization allow low energy consumption and response times to be reached. However, deterministic surrogate models, which estimate objective values for optimization, do not consider the uncertainties in the distribution of the Quality of Service (QoS) objective function that can lead to high Service Level Agreement (SLA) violation rates. Moreover, the brittle nature of DNN training and prevent such models from reaching minimal energy or response times. To overcome these difficulties, we present a novel scheduler: GOSH i.e. Gradient Based Optimization using Second Order derivatives and Heteroscedastic Deep Surrogate Models. GOSH uses a second-order gradient based optimization approach to obtain better QoS and reduce the number of iterations to converge to a scheduling decision, subsequently lowering the scheduling time. Instead of a vanilla DNN, GOSH uses a Natural Parameter Network to approximate objective scores. Further, a Lower Confidence Bound optimization approach allows GOSH to find an optimal trade-off between greedy minimization of the mean latency and uncertainty reduction by employing error-based exploration. Thus, GOSH and its co-simulation based extension GOSH*, can adapt quickly and reach better objective scores than baseline methods. We show that GOSH* reaches better objective scores than GOSH, but it is suitable only for high resource availability settings, whereas GOSH is apt for limited resource settings. Real system experiments for both GOSH and GOSH* show significant improvements against the state-of-the-art in terms of energy consumption, response time and SLA violations by up to 18, 27 and 82 percent, respectively.
翻訳日:2021-12-17 20:01:25 公開日:2021-12-16
# (参考訳) Khmer Word Search:挑戦、解決、セマンティック・アウェア検索 [全文訳有]

Khmer Word Search: Challenges, Solutions, and Semantic-Aware Search ( http://arxiv.org/abs/2112.08918v1 )

ライセンス: CC BY 4.0
Rina Buoy and Nguonly Taing and Sovisal Chenda(参考訳) 検索は、電子辞書、検索エンジン、eコマースプラットフォームなどのデジタルプラットフォームやアプリケーションにおける重要な機能のひとつです。 いくつかの言語の検索関数は自明であるが、クメール語の検索は複雑な記述システムを考えると困難である。 複数の文字の順序と異なる単語のスペル認識は、クメール語検索機能に制約を課す。 加えて、スペルチェックは入力デバイスプラットフォームで一般的に利用できないため、スペルミスは一般的である。 これらの課題は、検索埋め込みアプリケーションにおけるkhmer言語の使用を妨げる。 さらに、クメール言語にはwordnetのような語彙データベースがないため、単語間の意味関係を確立することは不可能であり、意味検索を可能にする。 本稿では,上記のクメール語探索に関する課題に対するロバストな解決法を提案する。 提案手法は文字順正規化, 音素ベースのスペルチェッカー, Khmerワードセマンティックモデルなどである。 意味モデルは、3000万語コーパスで訓練された単語埋め込みモデルに基づいており、単語間の意味的類似性を捉えるために使用される。

Search is one of the key functionalities in digital platforms and applications such as an electronic dictionary, a search engine, and an e-commerce platform. While the search function in some languages is trivial, Khmer word search is challenging given its complex writing system. Multiple orders of characters and different spelling realizations of words impose a constraint on Khmer word search functionality. Additionally, spelling mistakes are common since robust spellcheckers are not commonly available across the input device platforms. These challenges hinder the use of Khmer language in search-embedded applications. Moreover, due to the absence of WordNet-like lexical databases for Khmer language, it is impossible to establish semantic relation between words, enabling semantic search. In this paper, we propose a set of robust solutions to the above challenges associated with Khmer word search. The proposed solutions include character order normalization, grapheme and phoneme-based spellcheckers, and Khmer word semantic model. The semantic model is based on the word embedding model that is trained on a 30-million-word corpus and is used to capture the semantic similarities between words.
翻訳日:2021-12-17 19:33:12 公開日:2021-12-16
# (参考訳) Slot-VPS:ビデオパノプティクスセグメンテーションのためのオブジェクト中心表現学習 [全文訳有]

Slot-VPS: Object-centric Representation Learning for Video Panoptic Segmentation ( http://arxiv.org/abs/2112.08949v1 )

ライセンス: CC BY 4.0
Yi Zhou, Hui Zhang, Hana Lee, Shuyang Sun, Pingjun Li, Yangguang Zhu, ByungIn Yoo, Xiaojuan Qi, Jae-Joon Han(参考訳) Video Panoptic Segmentation (VPS) は、各ピクセルにクラスラベルを割り当てることを目的としており、すべてのフレームで一貫してすべてのオブジェクトインスタンスをセグメンテーションし識別する。 古典的なソリューションは通常、VPSタスクをいくつかのサブタスクに分解し、複数のサロゲート(箱、マスク、センター、オフセットなど)を使ってオブジェクトを表現する。 しかし、この分割・分散戦略は、空間領域と時間領域の両方で複雑な後処理を必要とし、サロゲートタスクの障害に対して脆弱である。 本稿では、コンパクトでロバストなオブジェクト表現を学習するオブジェクト中心学習に触発されて、このタスクの最初のエンドツーエンドフレームワークであるSlot-VPSを提案する。 私たちは、前景インスタンスと背景セマンティクスの両方を含む、ビデオ内のすべてのpanopticエンティティを、panoptic slotsと呼ばれる統一表現でエンコードします。 コヒーレント時空間オブジェクトの情報を検索し、提案したビデオパノプティカルレトリバーによってパノプティカルスロットにエンコードし、統一された方法でオブジェクトのローカライズ、セグメンテーション、差別化、関連付けを可能にする。 最後に、出力されたパノプティカルスロットは、ビデオ内のパノプティカルオブジェクトのクラス、マスク、オブジェクトIDに直接変換することができる。 そこで我々は,Cityscapes-VPS (\textit{val}) と VIPER (\textit{val} set) の2つのベンチマークデータセットにアプローチの有効性を検証し,63.7, 63.3, 56.2 VPQの新たな最先端性能を実現する。

Video Panoptic Segmentation (VPS) aims at assigning a class label to each pixel, uniquely segmenting and identifying all object instances consistently across all frames. Classic solutions usually decompose the VPS task into several sub-tasks and utilize multiple surrogates (e.g. boxes and masks, centres and offsets) to represent objects. However, this divide-and-conquer strategy requires complex post-processing in both spatial and temporal domains and is vulnerable to failures from surrogate tasks. In this paper, inspired by object-centric learning which learns compact and robust object representations, we present Slot-VPS, the first end-to-end framework for this task. We encode all panoptic entities in a video, including both foreground instances and background semantics, with a unified representation called panoptic slots. The coherent spatio-temporal object's information is retrieved and encoded into the panoptic slots by the proposed Video Panoptic Retriever, enabling it to localize, segment, differentiate, and associate objects in a unified manner. Finally, the output panoptic slots can be directly converted into the class, mask, and object ID of panoptic objects in the video. We conduct extensive ablation studies and demonstrate the effectiveness of our approach on two benchmark datasets, Cityscapes-VPS (\textit{val} and test sets) and VIPER (\textit{val} set), achieving new state-of-the-art performance of 63.7, 63.3 and 56.2 VPQ, respectively.
翻訳日:2021-12-17 19:21:12 公開日:2021-12-16
# (参考訳) CTによる三次元体組成の自動分割 [全文訳有]

Automated segmentation of 3-D body composition on computed tomography ( http://arxiv.org/abs/2112.08968v1 )

ライセンス: CC BY 4.0
Lucy Pu, Syed F. Ashraf, Naciye S Gezer, Iclal Ocak, Rajeev Dhupar(参考訳) 目的: 内臓脂肪(VAT)、皮下脂肪(SAT)、間組織脂肪(IMAT)、骨格筋(SM)、骨などの組織に対して、CTスキャンで表される体組成の自動的かつ同時セグメンテーションのためのコンピュータツールを開発し、検証すること。 アプローチ: The Cancer Imaging Archive (TCIA) から取得した100個のCTのコホートを用いて,50個のPET-CT,25個の胸,25個の腹腔を採取した。 5つの異なる体組成(vat, sat, imat, sm, bone)を手動で注釈した。 訓練期間のアノテート戦略を効率性に用いた。 UNetモデルは、すでに注釈付きケースを使用してトレーニングされた。 そして、このモデルを用いて、残りのケースに対する半自動アノテーションを実現した。 10倍のクロスバリデーション法は、UNet、Recurrent Residual UNet(R2Unet)、UNet++など、いくつかの畳み込みニューラルネットワーク(CNN)の性能の開発と検証に使用された。 CNNモデルのトレーニングには3Dパッチサンプリング操作が使用された。 個別に訓練されたCNNモデルは、共同でセグメント化するよりも優れたパフォーマンスを達成できるかどうかを確認するためにテストされた。 Paired-samples t-test を用いて統計的意義を調べた。 結果: 3つのCNNモデルのうち, UNet は, VAT, SAT, IMAT, SM, 骨の5つの体組成を, 0.840+/-0.091, 0.908+/-0.067, 0.603+/-0.084, 0.889+/-0.027, 0.884+/-0.031, ジャカード指数 0.734+/-0.119, 0.837+/-0.096, 0.437+/-0.082, 0.800+/-0.042, 0.793+/-0.049 で分割した。 結論: cnnモデルでは分節体組成に有意な差は認められなかったが, 分節体組成は別々に分節するよりも良好な性能を得た。

Purpose: To develop and validate a computer tool for automatic and simultaneous segmentation of body composition depicted on computed tomography (CT) scans for the following tissues: visceral adipose (VAT), subcutaneous adipose (SAT), intermuscular adipose (IMAT), skeletal muscle (SM), and bone. Approach: A cohort of 100 CT scans acquired from The Cancer Imaging Archive (TCIA) was used - 50 whole-body positron emission tomography (PET)-CTs, 25 chest, and 25 abdominal. Five different body compositions were manually annotated (VAT, SAT, IMAT, SM, and bone). A training-while-annot ating strategy was used for efficiency. The UNet model was trained using the already annotated cases. Then, this model was used to enable semi-automatic annotation for the remaining cases. The 10-fold cross-validation method was used to develop and validate the performance of several convolutional neural networks (CNNs), including UNet, Recurrent Residual UNet (R2Unet), and UNet++. A 3-D patch sampling operation was used when training the CNN models. The separately trained CNN models were tested to see if they could achieve a better performance than segmenting them jointly. Paired-samples t-test was used to test for statistical significance. Results: Among the three CNN models, UNet demonstrated the best overall performance in jointly segmenting the five body compositions with a Dice coefficient of 0.840+/-0.091, 0.908+/-0.067, 0.603+/-0.084, 0.889+/-0.027, and 0.884+/-0.031, and a Jaccard index of 0.734+/-0.119, 0.837+/-0.096, 0.437+/-0.082, 0.800+/-0.042, 0.793+/-0.049, respectively for VAT, SAT, IMAT, SM, and bone. Conclusion: There were no significant differences among the CNN models in segmenting body composition, but jointly segmenting body compositions achieved a better performance than segmenting them separately.
翻訳日:2021-12-17 19:01:22 公開日:2021-12-16
# (参考訳) 深層学習を用いた干渉抑制 : 現状と課題 [全文訳有]

Interference Suppression Using Deep Learning: Current Approaches and Open Challenges ( http://arxiv.org/abs/2112.08988v1 )

ライセンス: CC BY 4.0
Taiwo Oyedare, Vijay K Shah, Daniel J Jakubisin, Jeff H Reed(参考訳) 無線スペクトルの有限の性質と、近年の無線通信の技術革新によるスペクトル需要の増加を踏まえ、干渉の問題は引き続き続いている。 近年の干渉問題解決の進歩にもかかわらず、干渉はスペクトルの有効利用に難題を呈している。 これは、Wi-Fiのライセンスなしおよび管理された共有バンドの使用の増加、長期進化(LTE-U)無認可(LTE-U)、LTEライセンス補助アクセス(LAA)、5G NR、その他の機会論的スペクトラムアクセスソリューションが原因である。 この結果、干渉に対して堅牢な効率的なスペクトル利用方式の必要性は、これまでになく重要であった。 これまで、干渉に対するほとんどのソリューションは、回避手法や非AI緩和手法(適応フィルタなど)を用いてこの問題に対処してきた。 非AI技術の主な欠点は、サイクロモタリティ、帯域幅、干渉信号の変調などの信号特徴の抽出や利用において、ドメインの専門知識が必要であることである。 最近では、AI/MLを有効にした物理層(PHY)技術、特に単に避けるのではなく、干渉信号の低減や補償を行う深層学習について研究が成功している。 MLベースのアプローチの根底にある考え方は、データから干渉または干渉特性を学ぶことである。 本稿では,深層学習を用いた干渉抑制技術について概説する。 干渉抑制における多種多様な深層学習手法の比較とガイドラインを提供する。 さらに,干渉抑制におけるディープラーニングの導入を成功させるための課題と今後の研究方向についても注目する。

In light of the finite nature of the wireless spectrum and the increasing demand for spectrum use arising from recent technological breakthroughs in wireless communication, the problem of interference continues to persist. Despite recent advancements in resolving interference issues, interference still presents a difficult challenge to effective usage of the spectrum. This is partly due to the rise in the use of license-free and managed shared bands for Wi-Fi, long term evolution (LTE) unlicensed (LTE-U), LTE licensed assisted access (LAA), 5G NR, and other opportunistic spectrum access solutions. As a result of this, the need for efficient spectrum usage schemes that are robust against interference has never been more important. In the past, most solutions to interference have addressed the problem by using avoidance techniques as well as non-AI mitigation approaches (for example, adaptive filters). The key downside to non-AI techniques is the need for domain expertise in the extraction or exploitation of signal features such as cyclostationarity, bandwidth and modulation of the interfering signals. More recently, researchers have successfully explored AI/ML enabled physical (PHY) layer techniques, especially deep learning which reduces or compensates for the interfering signal instead of simply avoiding it. The underlying idea of ML based approaches is to learn the interference or the interference characteristics from the data, thereby sidelining the need for domain expertise in suppressing the interference. In this paper, we review a wide range of techniques that have used deep learning to suppress interference. We provide comparison and guidelines for many different types of deep learning techniques in interference suppression. In addition, we highlight challenges and potential future research directions for the successful adoption of deep learning in interference suppression.
翻訳日:2021-12-17 18:48:37 公開日:2021-12-16
# (参考訳) x線自由電子レーザーによる単一粒子イメージング実験における畳み込みニューラルネットワークを用いた回折パターンの分類

Classification of diffraction patterns using a convolutional neural network in single particle imaging experiments performed at X-ray free-electron lasers ( http://arxiv.org/abs/2112.09020v1 )

ライセンス: CC BY 4.0
Dameli Assalauova, Alexandr Ignatenko, Fabian Isensee, Sergey Bobkov, Darya Trofimova, and Ivan A. Vartanyants(参考訳) X線自由電子レーザー(XFEL)における単一粒子イメージング(SPI)は、その自然環境における粒子の3次元構造を決定するのに特に適している。 再建を成功させるためには、単一のヒットに由来する回折パターンを多数の取得パターンから分離する必要がある。 本稿では,この課題を画像分類問題として定式化し,畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて解決することを提案する。 2つのCNN構成が開発され、1つはF1スコアを最大化し、もう1つはハイリコールを強調する。 また,CNNと予測最大化(EM)選択,およびサイズフィルタリングを組み合わせる。 我々は,これまでの研究で使用したem選択と比較して,cnn選択のパワースペクトル密度関数のコントラストが小さいことを見出した。 しかし、cnnに基づく選択の再構築も同様の結果をもたらす。 CNNをSPI実験に導入することで、再構築パイプラインの合理化、研究者によるハエのパターンの分類、その結果、実験期間の厳密な制御が可能になる。 我々は、非標準人工知能(AI)ベースのソリューションを十分に記述されたSPI分析ワークフローに導入することは、将来のSPI実験の発展に有益であると考えている。

Single particle imaging (SPI) at X-ray free electron lasers (XFELs) is particularly well suited to determine the 3D structure of particles in their native environment. For a successful reconstruction, diffraction patterns originating from a single hit must be isolated from a large number of acquired patterns. We propose to formulate this task as an image classification problem and solve it using convolutional neural network (CNN) architectures. Two CNN configurations are developed: one that maximises the F1-score and one that emphasises high recall. We also combine the CNNs with expectation maximization (EM) selection as well as size filtering. We observed that our CNN selections have lower contrast in power spectral density functions relative to the EM selection, used in our previous work. However, the reconstruction of our CNN-based selections gives similar results. Introducing CNNs into SPI experiments allows streamlining the reconstruction pipeline, enables researchers to classify patterns on the fly, and, as a consequence, enables them to tightly control the duration of their experiments. We think that bringing non-standard artificial intelligence (AI) based solutions in a well-described SPI analysis workflow may be beneficial for the future development of the SPI experiments.
翻訳日:2021-12-17 17:51:19 公開日:2021-12-16
# (参考訳) 深層ニューラルネットワークトレーニングコードにおけるテンソル形状誤り検出のための静的アナライザ [全文訳有]

A Static Analyzer for Detecting Tensor Shape Errors in Deep Neural Network Training Code ( http://arxiv.org/abs/2112.09037v1 )

ライセンス: CC BY-SA 4.0
Ho Young Jhoo, Sehoon Kim, Woosung Song, Kyuyeon Park, DongKwon Lee, Kwangkeun Yi(参考訳) PyTorch符号におけるテンソル形状誤差を検出する静的解析器PyTeaを提案する。 深部ニューラルネットコードではテンソル形状誤差が重要であり、トレーニングフェーズ中にテンソル形状ミスマッチが発生した場合、トレーニングコストと中間結果の大部分が失われる。 入力されたPyTorchソースが与えられた場合、PyTeaは任意の実行経路を静的にトレースし、パスのテンソル演算シーケンスで要求されるテンソル形状制約を収集し、制約が満足できないかどうかを判断する(形状エラーが発生する)。 PyTeaの保守的なプルーニング後の実行パスの数は滅多に爆発せず、ループは私たちの象徴的な抽象化によって回避できるほど単純である。 私たちはPyTeaを公式PyTorchリポジトリのプロジェクトやStackOverflowで疑問視されているテンソルエラーコードに対してテストしました。 PyTeaはコード中のテンソル形状の誤差を数秒で検出する。

We present an automatic static analyzer PyTea that detects tensor-shape errors in PyTorch code. The tensor-shape error is critical in the deep neural net code; much of the training cost and intermediate results are to be lost once a tensor shape mismatch occurs in the midst of the training phase. Given the input PyTorch source, PyTea statically traces every possible execution path, collects tensor shape constraints required by the tensor operation sequence of the path, and decides if the constraints are unsatisfiable (hence a shape error can occur). PyTea's scalability and precision hinges on the characteristics of real-world PyTorch applications: the number of execution paths after PyTea's conservative pruning rarely explodes and loops are simple enough to be circumscribed by our symbolic abstraction. We tested PyTea against the projects in the official PyTorch repository and some tensor-error code questioned in the StackOverflow. PyTea successfully detects tensor shape errors in these codes, each within a few seconds.
翻訳日:2021-12-17 17:50:05 公開日:2021-12-16
# (参考訳) 深層ニューラルネットワークを用いた宇宙気象指標の同時多変量予測 [全文訳有]

Simultaneous Multivariate Forecast of Space Weather Indices using Deep Neural Network Ensembles ( http://arxiv.org/abs/2112.09051v1 )

ライセンス: CC BY 4.0
Bernard Benson, Edward Brown, Stefano Bonasera, Giacomo Acciarini, Jorge A. P\'erez-Hern\'andez, Eric Sutton, Moriba K. Jah, Christopher Bridges, Meng Jin, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 太陽放射束と磁気指標は、太陽活動とその影響の重要な指標である。 フレアや地磁気嵐などの極端太陽現象は、低地球軌道の衛星を含む宇宙環境に悪影響を及ぼす可能性がある。 したがって、これらの宇宙天気指標の予測は、宇宙運用や科学において非常に重要である。 本研究では,時系列データと太陽画像データを用いて,宇宙天気指標の同時多変量27日間予測を行う能力を持つ時系列データの分布を学習するための,長期短期記憶型ニューラルネットワークに基づくモデルを提案する。 時系列データのみを用いた場合と比較して,太陽画像データと時系列データを含む場合,根平均2乗誤差は30~40倍改善される。 永続性や平均予測の実行といった単純なベースラインも、トレーニングされたディープニューラルネットワークモデルと比較される。 また,モデルアンサンブルを用いて予測の不確実性を定量化する。

Solar radio flux along with geomagnetic indices are important indicators of solar activity and its effects. Extreme solar events such as flares and geomagnetic storms can negatively affect the space environment including satellites in low-Earth orbit. Therefore, forecasting these space weather indices is of great importance in space operations and science. In this study, we propose a model based on long short-term memory neural networks to learn the distribution of time series data with the capability to provide a simultaneous multivariate 27-day forecast of the space weather indices using time series as well as solar image data. We show a 30-40\% improvement of the root mean-square error while including solar image data with time series data compared to using time series data alone. Simple baselines such as a persistence and running average forecasts are also compared with the trained deep neural network models. We also quantify the uncertainty in our prediction using a model ensemble.
翻訳日:2021-12-17 17:26:31 公開日:2021-12-16
# (参考訳) 自然言語満足度による変圧器の規則推論限界の押し上げ [全文訳有]

Pushing the Limits of Rule Reasoning in Transformers through Natural Language Satisfiability ( http://arxiv.org/abs/2112.09054v1 )

ライセンス: CC BY 4.0
Kyle Richardson and Ashish Sabharwal(参考訳) トランスフォーマーモデルの推論能力を調べ、それらのための新しい挑戦的なタスクを発見することは、非常に興味深いトピックです。 近年の研究では、これらのモデルが自然言語で表現された形式的論理理論よりも推論を行うのに驚くほど強いことが示されている。 しかし、これらの研究の欠点は、一意にランダムにサンプリングされた場合、必ずしもハードインスタンスに繋がらないという論理理論を考慮していないことである。 自然言語満足度(nlsat)問題に焦点を当てたアルゴリズム推論データセットを作成するための新しい手法を提案する。 重要なアイデアは、ハードプロポーザルsat問題の実証的なサンプリングと、言語の複雑性理論的な研究から洞察を引き出すことである。 この方法論により、ハードインスタンスと簡単に区別でき、 ruletakerのような既存の推論ベンチマークの複雑さを体系的に増やすことができます。 十分なトレーニングデータを得た現在のトランスフォーマーは、結果として生じるnlsat問題を解決するのに驚くほど頑健である。 それらはまた、ある程度のスケール不変性、すなわち、より大きなサイズとスコープの問題に一般化する能力を示す。 トレーニングデータの慎重なサンプリングは、より大きな問題に一般化するモデルを構築する上で不可欠であり、トランスフォーマーモデルの限定的なスケール不変性は、堅牢な推論推論アルゴリズムを学ぶには程遠いことを示唆している。

Investigating the reasoning abilities of transformer models, and discovering new challenging tasks for them, has been a topic of much interest. Recent studies have found these models to be surprisingly strong at performing deductive reasoning over formal logical theories expressed in natural language. A shortcoming of these studies, however, is that they do not take into account that logical theories, when sampled uniformly at random, do not necessarily lead to hard instances. We propose a new methodology for creating challenging algorithmic reasoning datasets that focus on natural language satisfiability (NLSat) problems. The key idea is to draw insights from empirical sampling of hard propositional SAT problems and from complexity-theoretic studies of language. This methodology allows us to distinguish easy from hard instances, and to systematically increase the complexity of existing reasoning benchmarks such as RuleTaker. We find that current transformers, given sufficient training data, are surprisingly robust at solving the resulting NLSat problems of substantially increased difficulty. They also exhibit some degree of scale-invariance - the ability to generalize to problems of larger size and scope. Our results, however, reveal important limitations too: a careful sampling of training data is crucial for building models that generalize to larger problems, and transformer models' limited scale-invariance suggests they are far from learning robust deductive reasoning algorithms.
翻訳日:2021-12-17 17:20:37 公開日:2021-12-16
# (参考訳) 階層クラスタリング:$O(1)$- Approximation for Well-Clustered Graphs

Hierarchical Clustering: $O(1)$-Approximation for Well-Clustered Graphs ( http://arxiv.org/abs/2112.09055v1 )

ライセンス: CC BY 4.0
Bogdan-Adrian Manghiuc and He Sun(参考訳) 階層的クラスタリングは、データセットを連続的に小さいサイズのクラスタに再帰的分割する研究であり、データ分析における根本的な問題である。 本研究では, dasgupta が導入した階層的クラスタリングのコスト関数を研究し, 2つの多項式時間近似アルゴリズムを提案する。 私たちの単純な構造は、文献で知られているスパースカットを見つける複雑な再帰ルーチンをバイパスします。 第2および第2の結果は、クラスタの明確に定義された構造を示す幅広いグラフ群に対する$O(1)$-approximation アルゴリズムである。 この結果は、確率モデルから生成されるグラフに対してのみ保持される前の最先端を一般化する。 本研究の意義は,提案アルゴリズムが以前に提案したクラスタ構造を持つグラフのアルゴリズムよりも優れていた合成データセットと実世界のデータセットの実証分析によって実証された。

Hierarchical clustering studies a recursive partition of a data set into clusters of successively smaller size, and is a fundamental problem in data analysis. In this work we study the cost function for hierarchical clustering introduced by Dasgupta, and present two polynomial-time approximation algorithms: Our first result is an $O(1)$-approximation algorithm for graphs of high conductance. Our simple construction bypasses complicated recursive routines of finding sparse cuts known in the literature. Our second and main result is an $O(1)$-approximation algorithm for a wide family of graphs that exhibit a well-defined structure of clusters. This result generalises the previous state-of-the-art, which holds only for graphs generated from stochastic models. The significance of our work is demonstrated by the empirical analysis on both synthetic and real-world data sets, on which our presented algorithm outperforms the previously proposed algorithm for graphs with a well-defined cluster structure.
翻訳日:2021-12-17 17:00:29 公開日:2021-12-16
# 自己スーパービジョンとメタラーニングによる教師なしステイン・ツー・ステイン翻訳の改良

Improving Unsupervised Stain-To-Stain Translation using Self-Supervision and Meta-Learning ( http://arxiv.org/abs/2112.08837v1 )

ライセンス: Link先を確認
Nassim Bouteldja, Barbara Mara Klinkhammer, Tarek Schlaich, Peter Boor, Dorit Merhof(参考訳) デジタル病理学では、画像領域における様々な変動源に対応するために、大規模かつ時間を要する手動データアノテーションを必要とするため、多くの画像解析タスクが課題となっている。 画像から画像への変換に基づく教師なしドメイン適応は、マニュアルのオーバーヘッドなしに可変性に対処することで、この分野において重要性を増している。 本稿では,非教師付きステンツーステイン翻訳による異なる組織染色の変動に対処し,深層学習セグメンテーションモデルの染色非依存適用性を実現する。 腎病理組織学における染色-安定翻訳にCycleGANを使用し, 翻訳効果を改善するための2つの新しいアプローチを提案する。 第1に,事前セグメンテーションネットワークをサイクルガンに統合し,意味的指導による翻訳の自己教師あり,アプリケーション指向の最適化を行い,第2に,翻訳出力に余分なチャネルを組み込むことにより,未決定の再構築に取り組むために符号化された暗黙的に分離された人工的メタ情報を得る。 後者は未修飾のCycleGANよりも部分的に優れた性能を示したが, 前者は糸球体, 尿細管, 静脈などのほとんどの腎臓構造において, インスタンスレベルのDiceスコアが78%から92%であった。 しかし、CycleGANは動脈などの他の構造の翻訳において限られた性能しか示さなかった。 また,元の染色のセグメンテーションと比較して,すべての染色の全ての構造に対して若干低い性能を示した。 我々の研究は、現在監視されていない技術では、一般的に適用可能な偽の染色を生成できないことを示唆している。

In digital pathology, many image analysis tasks are challenged by the need for large and time-consuming manual data annotations to cope with various sources of variability in the image domain. Unsupervised domain adaptation based on image-to-image translation is gaining importance in this field by addressing variabilities without the manual overhead. Here, we tackle the variation of different histological stains by unsupervised stain-to-stain translation to enable a stain-independent applicability of a deep learning segmentation model. We use CycleGANs for stain-to-stain translation in kidney histopathology, and propose two novel approaches to improve translational effectivity. First, we integrate a prior segmentation network into the CycleGAN for a self-supervised, application-oriented optimization of translation through semantic guidance, and second, we incorporate extra channels to the translation output to implicitly separate artificial meta-information otherwise encoded for tackling underdetermined reconstructions. The latter showed partially superior performances to the unmodified CycleGAN, but the former performed best in all stains providing instance-level Dice scores ranging between 78% and 92% for most kidney structures, such as glomeruli, tubules, and veins. However, CycleGANs showed only limited performance in the translation of other structures, e.g. arteries. Our study also found somewhat lower performance for all structures in all stains when compared to segmentation in the original stain. Our study suggests that with current unsupervised technologies, it seems unlikely to produce generally applicable fake stains.
翻訳日:2021-12-17 16:59:00 公開日:2021-12-16
# codedpaddedflとcodedsecagg:フェデレーション学習におけるストラグラー緩和とセキュアアグリゲーション

CodedPaddedFL and CodedSecAgg: Straggler Mitigation and Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2112.08909v1 )

ライセンス: Link先を確認
Reent Schlegel, Siddhartha Kumar, Eirik Rosnes, Alexandre Graell i Amat(参考訳) 本稿では,線形回帰のための2つの新しい符号化型フェデレート学習(fl)スキームを提案し,ストラグリングデバイスの効果を緩和する。 最初のスキームであるCodedPaddedFLは、従来のFLのプライバシレベルを維持しながら、ストラグリングデバイスの効果を緩和する。 特に、ユーザデータのプライバシのためのワンタイムパディングと勾配コードを組み合わせることで、ストラグリングデバイスに対するレジリエンスを得る。 実データにワンタイムパディングを適用するため,本方式ではデータの固定点算術表現を利用する。 25のデバイスを持つシナリオでは、CodedPaddedFLは従来のFLと比較して、MMISTデータセットとFashion-MNISTデータセットの95%と85の精度で6.6と9.2のスピードアップ係数を達成する。 さらに、Prakash \emph{et al.comが最近提案したスキームと比較すると、レイテンシに関して同様のパフォーマンスが得られる。 プライベートデータの漏えいを未然に防ぐことができる。 第2のスキームであるcodedsecaggは、モデル反転攻撃に対するストラグラーのレジリエンスと堅牢性を提供し、shamirの秘密共有に基づいている。 codedsecaggは、120台のデバイスからなるシナリオのmnistデータセットにおいて、codedpaddedflと比較してレイテンシが30%増加するという犠牲を犠牲にして、結束デバイス数に応じて、lightsecaggのような最先端のセキュアアグリゲーションスキームを6.6--14.6のスピードアップ係数で上回っている。

We present two novel coded federated learning (FL) schemes for linear regression that mitigate the effect of straggling devices. The first scheme, CodedPaddedFL, mitigates the effect of straggling devices while retaining the privacy level of conventional FL. Particularly, it combines one-time padding for user data privacy with gradient codes to yield resiliency against straggling devices. To apply one-time padding to real data, our scheme exploits a fixed-point arithmetic representation of the data. For a scenario with 25 devices, CodedPaddedFL achieves a speed-up factor of 6.6 and 9.2 for an accuracy of 95\% and 85\% on the MMIST and Fashion-MNIST datasets, respectively, compared to conventional FL. Furthermore, it yields similar performance in terms of latency compared to a recently proposed scheme by Prakash \emph{et al.} without the shortcoming of additional leakage of private data. The second scheme, CodedSecAgg, provides straggler resiliency and robustness against model inversion attacks and is based on Shamir's secret sharing. CodedSecAgg outperforms state-of-the-art secure aggregation schemes such as LightSecAgg by a speed-up factor of 6.6--14.6, depending on the number of colluding devices, on the MNIST dataset for a scenario with 120 devices, at the expense of a 30\% increase in latency compared to CodedPaddedFL.
翻訳日:2021-12-17 16:57:08 公開日:2021-12-16
# 教師付きおよび自己教師付きアプローチによる聴性脳幹反応測定による客観的聴覚閾値の同定

Objective hearing threshold identification from auditory brainstem response measurements using supervised and self-supervised approaches ( http://arxiv.org/abs/2112.08961v1 )

ライセンス: Link先を確認
Dominik Thalmeier, Gregor Miller, Elida Schneltzer, Anja Hurt, Martin Hrab\v{e} de Angelis, Lore Becker, Christian L. M\"uller, Holger Maier(参考訳) 聴覚障害は、人間の大きな健康問題と心理的負担である。 マウスモデルでは、聴覚障害の根底にある発達と病態のメカニズムに関わる遺伝子を解明することができる。 この目的のために、大規模マウス表現型プログラムは、単一遺伝子ノックアウトマウス系統の聴覚表現型化を含む。 聴覚脳幹反応 (ABR) 法を用いて、ジャーマンマウスクリニックおよび同様の施設は、ミュータントおよび野生型マウスの平均的なABR生データを均一に収集した。 標準abr分析の過程では、音圧レベルが増加する一連の信号曲線から訓練スタッフによって聴覚閾値が視覚的に評価される。 これは時間がかかり、読み手やグラフィカルなディスプレイの品質やスケールに偏っている傾向があります。 作業量を削減し、品質と再現性を向上させるために、平均的なABR生データから2つの自動聴力閾値同定法を開発した。これは、人為的なラベルに基づいて訓練された2つの組み合わせニューラルネットワークと、信号パワースペクトルを利用してランダムな森林音レベル推定と、しきい値探索のための片方向曲線適合アルゴリズムを組み合わせた自己教師付きアプローチである。 両モデルが正常に動作し、人間の閾値検出より優れ、高速で信頼性が高く、偏りのない聴力閾値検出と品質制御に適していることを示す。 高スループットマウスの表現型化環境では、どちらの方法も自動エンドツーエンドスクリーニングパイプラインの一部として機能し、聴覚への関与の候補遺伝子を検出する。 両方のモデル用のコードと、この作業に使用されるデータも無料で利用できる。

Hearing loss is a major health problem and psychological burden in humans. Mouse models offer a possibility to elucidate genes involved in the underlying developmental and pathophysiological mechanisms of hearing impairment. To this end, large-scale mouse phenotyping programs include auditory phenotyping of single-gene knockout mouse lines. Using the auditory brainstem response (ABR) procedure, the German Mouse Clinic and similar facilities worldwide have produced large, uniform data sets of averaged ABR raw data of mutant and wildtype mice. In the course of standard ABR analysis, hearing thresholds are assessed visually by trained staff from series of signal curves of increasing sound pressure level. This is time-consuming and prone to be biased by the reader as well as the graphical display quality and scale. In an attempt to reduce workload and improve quality and reproducibility, we developed and compared two methods for automated hearing threshold identification from averaged ABR raw data: a supervised approach involving two combined neural networks trained on human-generated labels and a self-supervised approach, which exploits the signal power spectrum and combines random forest sound level estimation with a piece-wise curve fitting algorithm for threshold finding. We show that both models work well, outperform human threshold detection, and are suitable for fast, reliable, and unbiased hearing threshold detection and quality control. In a high-throughput mouse phenotyping environment, both methods perform well as part of an automated end-to-end screening pipeline to detect candidate genes for hearing involvement. Code for both models as well as data used for this work are freely available.
翻訳日:2021-12-17 16:55:05 公開日:2021-12-16
# グラフニューラルネットワークによる多変量実現ボラティリティ予測

Multivariate Realized Volatility Forecasting with Graph Neural Network ( http://arxiv.org/abs/2112.09015v1 )

ライセンス: Link先を確認
Qinkai Chen, Christian-Yann Robert(参考訳) 既存の出版物は、制限順序の帳簿データは、株式市場の短期的変動を予測するのに有用であることを示している。 株式は独立ではないため、一方の株式の変更は他の関連株にも影響を及ぼす可能性がある。 本稿では,リレーショナルデータとリレーショナルデータに基づく多変量アプローチで,短期的に実現されたボラティリティを予測することに関心がある。 この目標を達成するために,ボラティリティ予測のためのグラフトランスフォーマネットワークを提案する。 このモデルでは、制限順序帳の特徴と、異なるソースからの時間的および横断的な関係を無制限に組み合わせることができる。 S&P500種株価指数の約500株に基づく実験の結果、他のベンチマークよりもモデルの性能が良いことが判明した。

The existing publications demonstrate that the limit order book data is useful in predicting short-term volatility in stock markets. Since stocks are not independent, changes on one stock can also impact other related stocks. In this paper, we are interested in forecasting short-term realized volatility in a multivariate approach based on limit order book data and relational data. To achieve this goal, we introduce Graph Transformer Network for Volatility Forecasting. The model allows to combine limit order book features and an unlimited number of temporal and cross-sectional relations from different sources. Through experiments based on about 500 stocks from S&P 500 index, we find a better performance for our model than for other benchmarks.
翻訳日:2021-12-17 16:54:38 公開日:2021-12-16
# 信頼度保証による分散ニューラルネットワーク制御:合成ポートハミルトニアンアプローチ

Distributed neural network control with dependability guarantees: a compositional port-Hamiltonian approach ( http://arxiv.org/abs/2112.09046v1 )

ライセンス: Link先を確認
Luca Furieri, Clara Luc\'ia Galimberti, Muhammad Zakwan, Giancarlo Ferrari-Trecate(参考訳) 大規模なサイバー物理システムは、制御ポリシーが分散されていること、すなわち、ローカルなリアルタイム測定と近隣エージェントとの通信にのみ依存することを要求する。 しかし、最適分散制御(ODC)問題は、一見単純な場合であっても非常に難解である。 これにより、ニューラルネットワーク(NN)分散コントローラのトレーニングが提案されている。 NNコントローラの主な課題は、トレーニング中と後、すなわちクローズドループシステムは不安定であり、勾配の消失と爆発によってトレーニングが失敗する可能性があることである。 本稿では, エネルギーシステムから非ホロノミック車両, 化学反応まで, モデル化能力を持つ非線形ポート・ハミルトン系(pH)のネットワークについて論じる。 具体的には、相互接続トポロジーと選択したnnパラメータに関係なく、深いハミルトニアン制御ポリシを内蔵した閉ループ安定性保証で特徴付けるため、phシステムの構成特性を取り入れた。 さらに、我々は、ニューラルネットワークの最近の結果を活用して、設計による勾配の消失現象を防止する。 数値実験は、一般的なニューラルネットワークポリシーのパフォーマンスにマッチしながら、提案されたアーキテクチャの依存性を補う。

Large-scale cyber-physical systems require that control policies are distributed, that is, that they only rely on local real-time measurements and communication with neighboring agents. Optimal Distributed Control (ODC) problems are, however, highly intractable even in seemingly simple cases. Recent work has thus proposed training Neural Network (NN) distributed controllers. A main challenge of NN controllers is that they are not dependable during and after training, that is, the closed-loop system may be unstable, and the training may fail due to vanishing and exploding gradients. In this paper, we address these issues for networks of nonlinear port-Hamiltonian (pH) systems, whose modeling power ranges from energy systems to non-holonomic vehicles and chemical reactions. Specifically, we embrace the compositional properties of pH systems to characterize deep Hamiltonian control policies with built-in closed-loop stability guarantees, irrespective of the interconnection topology and the chosen NN parameters. Furthermore, our setup enables leveraging recent results on well-behaved neural ODEs to prevent the phenomenon of vanishing gradients by design. Numerical experiments corroborate the dependability of the proposed architecture, while matching the performance of general neural network policies.
翻訳日:2021-12-17 16:54:26 公開日:2021-12-16
# 機械学習 Kreuzer-Skarke Calabi--Yau Threefolds

Machine Learning Kreuzer--Skarke Calabi--Yau Threefolds ( http://arxiv.org/abs/2112.09117v1 )

ライセンス: Link先を確認
Per Berglund, Ben Campbell, Vishnu Jejjala(参考訳) 完全連結フィードフォワードニューラルネットワークを用いて、Kreuzer-Skarkeデータベースから反射性ポリトープに関連付けられたトーリック多様体の超曲面として構築されたカラビ-ヤウ多様体の位相不変性を研究する。 特に、ポリトープとその双対から抽出された限られたデータの観点から学習できるオイラー数に対する単純な式が存在することが分かる。

Using a fully connected feedforward neural network we study topological invariants of a class of Calabi--Yau manifolds constructed as hypersurfaces in toric varieties associated with reflexive polytopes from the Kreuzer--Skarke database. In particular, we find the existence of a simple expression for the Euler number that can be learned in terms of limited data extracted from the polytope and its dual.
翻訳日:2021-12-17 16:53:47 公開日:2021-12-16
# (参考訳) ループ内のモデル:生成アノテーションアシスタントによるクラウドワーカー支援 [全文訳有]

Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants ( http://arxiv.org/abs/2112.09062v1 )

ライセンス: CC BY 4.0
Max Bartolo, Tristan Thrush, Sebastian Riedel, Pontus Stenetorp, Robin Jia, Douwe Kiela(参考訳) Dynamic Adversarial Data Collection (DADC)では、人間のアノテータがモデルが正しく予測するのに苦労する例を見つけることを任務としている。 DADCが収集したトレーニングデータに基づいてトレーニングされたモデルは、敵やドメイン外の設定でより堅牢であることが示されており、人間が騙すのは非常に難しい。 しかし、DADCは従来のデータ収集よりも時間がかかり、例ごとにコストがかかる。 本研究では,追加費用を負担することなく,DADCの利点を維持できるかどうかを検討する。 この目的を達成するために,生成アノテーションアシスタント(gaas)を導入する。これはループ内生成モデルであり,アノテーションの承認,修正,あるいは完全に拒否できるリアルタイムの提案を提供する。 学習データセットを20種類の実験環境で収集し,標準データ収集と逆データ収集の両方を対象とした抽出質問応答(QA)タスクについて,本手法の詳細な分析を行う。 我々は、gaasがアノテーションの速度という観点で大きな効率の利点を提供し、モデルの騙し率を改善することを実証する。 さらに,様々な質問応答タスクにおいて,gaa支援データにより下流モデルの性能が向上することを示す。

In Dynamic Adversarial Data Collection (DADC), human annotators are tasked with finding examples that models struggle to predict correctly. Models trained on DADC-collected training data have been shown to be more robust in adversarial and out-of-domain settings, and are considerably harder for humans to fool. However, DADC is more time-consuming than traditional data collection and thus more costly per example. In this work, we examine if we can maintain the advantages of DADC, without suffering the additional cost. To that end, we introduce Generative Annotation Assistants (GAAs), generator-in-the-loo p models that provide real-time suggestions that annotators can either approve, modify, or reject entirely. We collect training datasets in twenty experimental settings and perform a detailed analysis of this approach for the task of extractive question answering (QA) for both standard and adversarial data collection. We demonstrate that GAAs provide significant efficiency benefits in terms of annotation speed, while leading to improved model fooling rates. In addition, we show that GAA-assisted data leads to higher downstream model performance on a variety of question answering tasks.
翻訳日:2021-12-17 16:52:19 公開日:2021-12-16
# 非平衡サンプル生成とctganを用いた電力系統過渡安定度の評価

Imbalanced Sample Generation and Evaluation for Power System Transient Stability Using CTGAN ( http://arxiv.org/abs/2112.08836v1 )

ライセンス: Link先を確認
Gengshi Han, Shunyu Liu, Kaixuan Chen, Na Yu, Zunlei Feng, and Mingli Song(参考訳) 深層学習は電力システムの過渡的安定性評価において顕著な進歩を遂げてきたが、不十分で不均衡なサンプルは依然としてデータ駆動方式の訓練効果を阻害している。 本稿では,条件付き表型生成型adversarial network (ctgan) に基づく制御可能なサンプル生成フレームワークを提案する。 過渡安定サンプルの複雑な特徴分布に適合するため,提案手法はまずサンプルを表データとしてモデル化し,ガウス混合モデルを用いて表データの正規化を行う。 そして、複数の条件を単一の条件ベクトルに変換し、マルチ条件生成を可能にする。 さらに,提案手法に基づき,生成試料の品質を検証するための評価指標を3つ導入する。 ieee 39-busシステムにおける実験結果から,提案手法は過渡安定サンプルを効果的にバランスさせ,過渡安定評価モデルの性能を大幅に向上させることがわかった。

Although deep learning has achieved impressive advances in transient stability assessment of power systems, the insufficient and imbalanced samples still trap the training effect of the data-driven methods. This paper proposes a controllable sample generation framework based on Conditional Tabular Generative Adversarial Network (CTGAN) to generate specified transient stability samples. To fit the complex feature distribution of the transient stability samples, the proposed framework firstly models the samples as tabular data and uses Gaussian mixture models to normalize the tabular data. Then we transform multiple conditions into a single conditional vector to enable multi-conditional generation. Furthermore, this paper introduces three evaluation metrics to verify the quality of generated samples based on the proposed framework. Experimental results on the IEEE 39-bus system show that the proposed framework effectively balances the transient stability samples and significantly improves the performance of transient stability assessment models.
翻訳日:2021-12-17 16:34:43 公開日:2021-12-16
# 磁気共鳴分光データを用いた脳腫瘍検出のためのマルチインスタンス学習

Multiple Instance Learning for Brain Tumor Detection from Magnetic Resonance Spectroscopy Data ( http://arxiv.org/abs/2112.08845v1 )

ライセンス: Link先を確認
Diyuan Lu, Gerhard Kurz, Nenad Polomac, Iskra Gacheva, Elke Hattingen, Jochen Triesch(参考訳) 磁気共鳴分光法(MRS)データに深層学習(DL)を適用し,脳腫瘍検出の課題について検討した。 医療応用は、しばしばデータ不足とノイズによる腐敗に悩まされる。 これらの問題はどちらもデータセットで顕著です。 さらに、異なる患者に対して様々なスペクトルが利用可能である。 タスクをマルチインスタンス学習(MIL)問題として考えることで、これらの問題に対処する。 具体的には、同一患者から複数のスペクトルを分類のための「バッグ」に集約し、データ拡張技術を適用する。 袋詰め工程における変分不変性を実現するため,(1)各試料の特徴にmin-,max-, average-poolingを適用すること,(2)注意機構を適用すること,の2つの手法を提案した。 これら2つのアプローチを複数のニューラルネットワークアーキテクチャでテストした。 単一スペクトルではなく,複数インスタンスでのトレーニングにおいて,分類性能が著しく向上することが実証された。 本稿では,データ拡張の簡易なオーバーサンプリング手法を提案し,その性能をさらに向上できることを示す。 最後に,提案モデルが神経放射線学者による手動分類よりも優れた性能を示すことを示す。

We apply deep learning (DL) on Magnetic resonance spectroscopy (MRS) data for the task of brain tumor detection. Medical applications often suffer from data scarcity and corruption by noise. Both of these problems are prominent in our data set. Furthermore, a varying number of spectra are available for the different patients. We address these issues by considering the task as a multiple instance learning (MIL) problem. Specifically, we aggregate multiple spectra from the same patient into a "bag" for classification and apply data augmentation techniques. To achieve the permutation invariance during the process of bagging, we proposed two approaches: (1) to apply min-, max-, and average-pooling on the features of all samples in one bag and (2) to apply an attention mechanism. We tested these two approaches on multiple neural network architectures. We demonstrate that classification performance is significantly improved when training on multiple instances rather than single spectra. We propose a simple oversampling data augmentation method and show that it could further improve the performance. Finally, we demonstrate that our proposed model outperforms manual classification by neuroradiologists according to most performance metrics.
翻訳日:2021-12-17 16:34:25 公開日:2021-12-16
# 非支配的ソーティング遺伝的アルゴリズム(NSGA-II)の最初の数学的実行解析

A First Mathematical Runtime Analysis of the Non-Dominated Sorting Genetic Algorithm II (NSGA-II) ( http://arxiv.org/abs/2112.08581v1 )

ライセンス: Link先を確認
Weijie Zheng, Yufei Liu, Benjamin Doerr(参考訳) 非支配的ソート遺伝アルゴリズムII(NSGA-II)は、現実世界の応用において最も集中的に使用される多目的進化アルゴリズムである。 しかし、数学的な方法で解析されたいくつかの単純なMOEAとは対照的に、NSGA-IIにはそのような研究は存在しない。 本研究では,NSGA-IIにも数学的ランタイム解析が適用可能であることを示す。 特に,paretoフロントサイズより大きい個体群を定数係数で表すと,nsga-iiは2つの古典的変異演算子を持ち,親の選択方法が3つ異なることが,基本的なoneminmaxベンチマーク関数とlotzベンチマーク関数上のsemoとgsemoアルゴリズムと同じ漸近的実行保証を満たすことを証明した。 しかし、人口規模がパレートフロントのサイズに等しい場合、NSGA-IIはパレートフロント全体を効率的に計算することができない(指数的な回数の反復の場合、人口は常にパレートフロントの一定の割合を逃すことになる)。 我々の実験は上記の結果を確認した。

The non-dominated sorting genetic algorithm II (NSGA-II) is the most intensively used multi-objective evolutionary algorithm (MOEA) in real-world applications. However, in contrast to several simple MOEAs analyzed also via mathematical means, no such study exists for the NSGA-II so far. In this work, we show that mathematical runtime analyses are feasible also for the NSGA-II. As particular results, we prove that with a population size larger than the Pareto front size by a constant factor, the NSGA-II with two classic mutation operators and three different ways to select the parents satisfies the same asymptotic runtime guarantees as the SEMO and GSEMO algorithms on the basic OneMinMax and LOTZ benchmark functions. However, if the population size is only equal to the size of the Pareto front, then the NSGA-II cannot efficiently compute the full Pareto front (for an exponential number of iterations, the population will always miss a constant fraction of the Pareto front). Our experiments confirm the above findings.
翻訳日:2021-12-17 16:33:54 公開日:2021-12-16
# GIMIRec: シーケンスレコメンデーションのための多目的フレームワークを意識したグローバルインタラクション情報

GIMIRec: Global Interaction Information Aware Multi-Interest Framework for Sequential Recommendation ( http://arxiv.org/abs/2112.08717v1 )

ライセンス: Link先を確認
Jie Zhang, Ke-Jia Chen, Jingqiang Chen(参考訳) 多目的フレームワークに基づく逐次レコメンデーションは、ユーザの最近のインタラクションシーケンスを複数の異なる関心ベクトルにモデル化する。 しかし、既存のモデルのほとんどは、ユーザの最近のインタラクション行動をトレーニングデータとしてインターセプトするだけで、大量の履歴インタラクションシーケンスを破棄している。 これには2つの問題がある。 一方、ユーザの関心を反映したデータは欠落しており、また、歴史的ユーザ-イテムインタラクションにおける項目間の共起が完全には解明されていない。 本稿では,2つの課題に対処するため,"Global Interaction Aware Multi-Interest Framework for Sequential Recommendation (GIMIRec)"と呼ばれる新たなレコメンデーションモデルを提案する。 具体的には、まず、全ユーザの歴史的なインタラクションシーケンスから各アイテム対の制約付き共起数とその時間間隔に基づいて重み付き共起行列を算出し、簡易なグラフ畳み込みを用いて各アイテムのグローバルコンテキスト埋め込みを得る外部情報を導入することなく、グローバルコンテキスト抽出モジュールを提案する。 次に、ユーザの最近のインタラクションシーケンスにおける各アイテムペアの時間間隔をキャプチャし、グローバルコンテキストアイテム埋め込みと組み合わせて、パーソナライズされたアイテム埋め込みを得る。 最後に、自己注意に基づく多目的フレームワークを適用して、ユーザの多様な関心事からシーケンシャルなレコメンデーションを学習する。 Amazon-Books、Taobao-Buy、Amazon-Hybridの3つの実世界のデータセットに対する大規模な実験は、Recall、NDCG、Hit RateインジケータにおけるGIMIRecのパフォーマンスが最先端の方法よりも大幅に優れていることを示している。 さらに、提案するグローバルコンテキスト抽出モジュールは、ほとんどのシーケンシャルなレコメンデーションモデルに容易に移植できる。

Sequential recommendation based on multi-interest framework models the user's recent interaction sequence into multiple different interest vectors, since a single low-dimensional vector cannot fully represent the diversity of user interests. However, most existing models only intercept users' recent interaction behaviors as training data, discarding a large amount of historical interaction sequences. This may raise two issues. On the one hand, data reflecting multiple interests of users is missing; on the other hand, the co-occurrence between items in historical user-item interactions is not fully explored. To tackle the two issues, this paper proposes a novel sequential recommendation model called "Global Interaction Aware Multi-Interest Framework for Sequential Recommendation (GIMIRec)". Specifically, a global context extraction module is firstly proposed without introducing any external information, which calculates a weighted co-occurrence matrix based on the constrained co-occurrence number of each item pair and their time interval from the historical interaction sequences of all users and then obtains the global context embedding of each item by using a simplified graph convolution. Secondly, the time interval of each item pair in the recent interaction sequence of each user is captured and combined with the global context item embedding to get the personalized item embedding. Finally, a self-attention based multi-interest framework is applied to learn the diverse interests of users for sequential recommendation. Extensive experiments on the three real-world datasets of Amazon-Books, Taobao-Buy and Amazon-Hybrid show that the performance of GIMIRec on the Recall, NDCG and Hit Rate indicators is significantly superior to that of the state-of-the-art methods. Moreover, the proposed global context extraction module can be easily transplanted to most sequential recommendation models.
翻訳日:2021-12-17 16:33:33 公開日:2021-12-16
# データとテキストの教師なしマッチング

Unsupervised Matching of Data and Text ( http://arxiv.org/abs/2112.08776v1 )

ライセンス: Link先を確認
Naser Ahmadi, Hansjorg Sand, Paolo Papotti(参考訳) エンティティ解決は、関係にまたがるレコードにマッチするいくつかの提案で広く研究されている問題である。 テキストコンテンツのマッチングは、質問応答や検索など、多くのアプリケーションで広く使われているタスクである。 最近の手法ではこれら2つの課題に有望な結果が得られるが、テキストの内容と構造化データとのマッチングというより一般的な問題に対する明確な解決策はない。 我々は、この新たなタスクをサポートするフレームワークを、リレーショナルテーブルやテキストドキュメントであるコーパスの任意のペアに対して教師なし設定で導入する。 提案手法は,コーパスの内容に対して微細なグラフを構築し,低次元空間で一致する対象を表現するために単語埋め込みを導出する。 学習された表現は、関係的なタプルから文や段落まで、異なる粒度での効率的かつ効率的なマッチングを可能にする。 当社のフレキシブルなフレームワークはトレーニング済みのリソースを活用できますが、その存在には依存せず、語彙がドメイン固有である場合のコンテンツのマッチングにおける品質向上を実現しています。 また、グラフ作成プロセスにおいて、まず要素間の新しい有効な関係を特定し、マッチングを改善し、次にノードとエッジをプルし、グラフのサイズを小さくする「拡張および圧縮」アプローチによる最適化も導入する。 実使用事例と公開データセットの実験から、我々のフレームワークは、結果の品質と実行時間の両方において、単語埋め込みと微調整言語モデルより優れた埋め込みを生成する。

Entity resolution is a widely studied problem with several proposals to match records across relations. Matching textual content is a widespread task in many applications, such as question answering and search. While recent methods achieve promising results for these two tasks, there is no clear solution for the more general problem of matching textual content and structured data. We introduce a framework that supports this new task in an unsupervised setting for any pair of corpora, being relational tables or text documents. Our method builds a fine-grained graph over the content of the corpora and derives word embeddings to represent the objects to match in a low dimensional space. The learned representation enables effective and efficient matching at different granularity, from relational tuples to text sentences and paragraphs. Our flexible framework can exploit pre-trained resources, but it does not depends on their existence and achieves better quality performance in matching content when the vocabulary is domain specific. We also introduce optimizations in the graph creation process with an "expand and compress" approach that first identifies new valid relationships across elements, to improve matching, and then prunes nodes and edges, to reduce the graph size. Experiments on real use cases and public datasets show that our framework produces embeddings that outperform word embeddings and fine-tuned language models both in results' quality and in execution times.
翻訳日:2021-12-17 16:32:57 公開日:2021-12-16
# SAS画像の非畳み込みにおける暗黙的ニューラル表現

Implicit Neural Representations for Deconvolving SAS Images ( http://arxiv.org/abs/2112.08539v1 )

ライセンス: Link先を確認
Albert Reed, Thomas Blanford, Daniel C. Brown, Suren Jayasuriya(参考訳) 合成開口ソナー(SAS)画像解像度は波形帯域と配列幾何学によって制約される。 具体的には、波形帯域幅は、シーン内の点散乱器の位置をぼかす点拡散関数(PSF)を決定する。 理論的には、再構成されたSAS画像をシーンPSFで分解することで、散乱体の元の分布を復元し、よりシャープな再構成を行う。 しかし、デコンボリューションはノイズに非常に敏感な不正な操作である。 本研究では,自然画像空間に対して強い先行性を示す暗黙的ニューラル表現(inrs)を用いて,sas画像のデコンボリューションを行う。 重要なことは、自己教師付き方式で分析・合成最適化によってデコンボリューションを行うため、トレーニングデータを必要としないことである。 本手法は, 点散乱モデルと実データとを空気中円SASでキャプチャした実データを用いて, シミュレーションSASデータに対して検証する。 この研究は、SAS画像のデコンボリューションにニューラルネットワークを適用するための重要な第一歩である。

Synthetic aperture sonar (SAS) image resolution is constrained by waveform bandwidth and array geometry. Specifically, the waveform bandwidth determines a point spread function (PSF) that blurs the locations of point scatterers in the scene. In theory, deconvolving the reconstructed SAS image with the scene PSF restores the original distribution of scatterers and yields sharper reconstructions. However, deconvolution is an ill-posed operation that is highly sensitive to noise. In this work, we leverage implicit neural representations (INRs), shown to be strong priors for the natural image space, to deconvolve SAS images. Importantly, our method does not require training data, as we perform our deconvolution through an analysis-bysynthesis optimization in a self-supervised fashion. We validate our method on simulated SAS data created with a point scattering model and real data captured with an in-air circular SAS. This work is an important first step towards applying neural networks for SAS image deconvolution.
翻訳日:2021-12-17 16:31:16 公開日:2021-12-16
# 技術支援レビューの促進に画像クラスタリングを使う

Use Image Clustering to Facilitate Technology Assisted Review ( http://arxiv.org/abs/2112.08604v1 )

ライセンス: Link先を確認
Haozhen Zhao, Fusheng Wei, Hilary Quatinetz, Han Qin, Adam Dabrowski(参考訳) 過去10年間、GPUハードウェアとディープニューラルネットワーク技術のブレークスルーはコンピュータビジョンの分野に革命をもたらし、画像分析のポテンシャルをさまざまな現実世界のアプリケーションに利用できるようにした。 電子発見における技術支援レビュー(tar)は、伝統的にテキストコンテンツを扱うが、マルチメディアコンテンツをその範囲に組み込む必要性が高まっている。 我々は過去数年間,画像分類,画像クラスタリング,オブジェクト検出など,TARのための革新的な画像解析アプリケーションを開発してきた。 本稿では,クライアントサービスの経験に基づいて,画像クラスタリングによるTARの促進について論じる。 本稿では,タスク内の画像クラスタリングを活用するための一般的なワークフローを説明し,実際のプロジェクトからの統計情報を用いて,tarにおける画像クラスタリングの有効性を示す。 また,TARにおける画像クラスタリングに関する教訓とベストプラクティスをまとめた。

During the past decade breakthroughs in GPU hardware and deep neural networks technologies have revolutionized the field of computer vision, making image analytical potentials accessible to a range of real-world applications. Technology Assisted Review (TAR) in electronic discovery though traditionally has dominantly dealt with textual content, is witnessing a rising need to incorporate multimedia content in the scope. We have developed innovative image analytics applications for TAR in the past years, such as image classification, image clustering, and object detection, etc. In this paper, we discuss the use of image clustering applications to facilitate TAR based on our experiences in serving clients. We describe our general workflow on leveraging image clustering in tasks and use statistics from real projects to showcase the effectiveness of using image clustering in TAR. We also summarize lessons learned and best practices on using image clustering in TAR.
翻訳日:2021-12-17 16:30:59 公開日:2021-12-16
# デジタルロック画像解像度を物理的に高めるためのペア・アンペア深層学習法の比較研究

A comparative study of paired versus unpaired deep learning methods for physically enhancing digital rock image resolution ( http://arxiv.org/abs/2112.08644v1 )

ライセンス: Link先を確認
Yufu Niu, Samuel J. Jackson, Naif Alqahtani, Peyman Mostaghimi and Ryan T. Armstrong(参考訳) x線マイクロコンプテッドトモグラフィ (micro-ct) は地下多孔質岩の細孔径形状を特徴付けるために広く利用されている。 深層学習を用いた超解像(SR)手法の最近の進歩は、大規模な空間スケールでの低分解能(LR)画像のデジタル化を可能にし、高分解能(HR)基底真理に匹敵するSR画像を生成する。 これは従来の解決と視野のトレードオフを回避します。 優れた問題は、ペアリング(登録)LRとHRデータを使用することである。 本研究では,ペアデータと非ペアデータの両方を用いて,最先端のsr深層学習手法と類似の基底真理データとを厳密に比較した。 第1のアプローチでは、畳み込みニューラルネットワーク(cnn)をトレーニングするためにペアイメージを必要とする一方で、第2のアプローチでは、非ペアイメージを使用して生成型逆ネットワーク(gan)をトレーニングする。 2つのアプローチは, 複雑な微多孔質質を有する微小CT炭酸塩岩試料を用いて比較した。 両手法の物理的精度と感度を定量的に評価するために,様々な画像ベースおよび数値検証と実験的検証を行った。 定量的な結果から,ペアリングCNN法と同等のトレーニング時間とデータセット要求で,高解像度画像の再構成が可能であった。 これにより、未ペア深層学習法を用いたマイクロCT画像強調のための新しい応用が開かれ、データ処理の段階では画像登録は不要になった。 データストレージプラットフォームから分離した画像は、SRデジタルロックアプリケーションのトレーニングネットワークに、より効率的に利用することができる。 これは多孔質媒質中の多スケール流れシミュレーションの様々な応用のための新しい経路を開く。

X-ray micro-computed tomography (micro-CT) has been widely leveraged to characterise pore-scale geometry in subsurface porous rock. Recent developments in super resolution (SR) methods using deep learning allow the digital enhancement of low resolution (LR) images over large spatial scales, creating SR images comparable to the high resolution (HR) ground truth. This circumvents traditional resolution and field-of-view trade-offs. An outstanding issue is the use of paired (registered) LR and HR data, which is often required in the training step of such methods but is difficult to obtain. In this work, we rigorously compare two different state-of-the-art SR deep learning techniques, using both paired and unpaired data, with like-for-like ground truth data. The first approach requires paired images to train a convolutional neural network (CNN) while the second approach uses unpaired images to train a generative adversarial network (GAN). The two approaches are compared using a micro-CT carbonate rock sample with complicated micro-porous textures. We implemented various image based and numerical verifications and experimental validation to quantitatively evaluate the physical accuracy and sensitivities of the two methods. Our quantitative results show that unpaired GAN approach can reconstruct super-resolution images as precise as paired CNN method, with comparable training times and dataset requirement. This unlocks new applications for micro-CT image enhancement using unpaired deep learning methods; image registration is no longer needed during the data processing stage. Decoupled images from data storage platforms can be exploited more efficiently to train networks for SR digital rock applications. This opens up a new pathway for various applications of multi-scale flow simulation in heterogeneous porous media.
翻訳日:2021-12-17 16:30:44 公開日:2021-12-16
# 軽量画像超解像のための機能蒸留相互作用重み付けネットワーク

Feature Distillation Interaction Weighting Network for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2112.08655v1 )

ライセンス: Link先を確認
Guangwei Gao, Wenjie Li, Juncheng Li, Fei Wu, Huimin Lu, Yi Yu(参考訳) 畳み込みニューラルネットワークに基づく単一画像超解像(SISR)は近年大きな進歩を遂げている。 しかし,計算コストとメモリコストのため,これらの手法を現実のシナリオに適用することは困難である。 一方、限定されたパラメータと計算の制約の下で中間機能を最大限に活用する方法も大きな課題である。 これらの問題を緩和するため,我々は軽量かつ効率的な機能蒸留相互作用重み付きネットワーク (fdiwn) を提案する。 具体的には、FSWG(Feature Shuffle Weighted Groups)をバックボーンとして使用し、WDIB(Wide-Residual Distillation Interaction Blocks)はFSWGを形成する。 また、wdibに、wdibに、wdiwユニットおよびwcrwユニットを導入し、より優れた特徴蒸留を行う。 さらに,WRDCフレームワークと自己校正融合(SCF)ユニットを用いて,異なるスケールの機能を柔軟かつ効率的に相互作用させる手法を提案し,FDIWNは他のモデルよりも優れ,モデル性能と効率のバランスが良好であることを示した。 コードはhttps://github.com/I VIPLab/FDIWNで入手できる。

Convolutional neural networks based single-image super-resolution (SISR) has made great progress in recent years. However, it is difficult to apply these methods to real-world scenarios due to the computational and memory cost. Meanwhile, how to take full advantage of the intermediate features under the constraints of limited parameters and calculations is also a huge challenge. To alleviate these issues, we propose a lightweight yet efficient Feature Distillation Interaction Weighted Network (FDIWN). Specifically, FDIWN utilizes a series of specially designed Feature Shuffle Weighted Groups (FSWG) as the backbone, and several novel mutual Wide-residual Distillation Interaction Blocks (WDIB) form an FSWG. In addition, Wide Identical Residual Weighting (WIRW) units and Wide Convolutional Residual Weighting (WCRW) units are introduced into WDIB for better feature distillation. Moreover, a Wide-Residual Distillation Connection (WRDC) framework and a Self-Calibration Fusion (SCF) unit are proposed to interact features with different scales more flexibly and efficiently.Extensiv e experiments show that our FDIWN is superior to other models to strike a good balance between model performance and efficiency. The code is available at https://github.com/I VIPLab/FDIWN.
翻訳日:2021-12-17 16:30:10 公開日:2021-12-16
# 新しいカレッジデータセットへのマルチカメラLiDAR慣性拡張

Multi-Camera LiDAR Inertial Extension to the Newer College Dataset ( http://arxiv.org/abs/2112.08854v1 )

ライセンス: Link先を確認
Lintong Zhang, Marco Camurri and Maurice Fallon(参考訳) 本稿では,新しいカレッジデータセットの拡張として,4.5km歩行距離のマルチカメラLiDAR慣性データセットを提案する。 グローバルシャッターマルチカメラ装置は、IMUとLiDARと同期するハードウェアである。 このデータセットはまた、lidar周波数10hzの6自由度(dof)基底真理のポーズを提供する。 3つのデータコレクションを記述し,マルチカメラ視覚慣性オドメトリの例を示す。 この拡張データセットは、小規模で狭い通路、大規模オープンスペース、および、ローカライゼーションとマッピングシステムをテストするための植生領域を含む。 さらに、突然の照明変化、テクスチャのない表面、アグレッシブな動きといった困難な状況を示す配列もある。 データセットは以下の通りである。 https://ori-drs.gith ub.io/newer-college- dataset。

In this paper, we present a multi-camera LiDAR inertial dataset of 4.5km walking distance as an expansion to the Newer College Dataset. The global shutter multi-camera device is hardware synchronized with the IMU and the LiDAR. This dataset also provides six Degrees of Freedom (DoF) ground truth poses, at the LiDAR frequency of 10hz. Three data collections are described and example usage of multi-camera visual-inertial odometry is demonstrated. This expansion dataset contains small and narrow passages, large scale open spaces as well as vegetated areas to test localization and mapping systems. Furthermore, some sequences present challenging situations such as abrupt lighting change, textureless surfaces, and aggressive motion. The dataset is available at: https://ori-drs.gith ub.io/newer-college- dataset
翻訳日:2021-12-17 16:29:34 公開日:2021-12-16
# BGL: グラフデータI/Oと前処理の最適化によるGPU効率の良いGNNトレーニング

BGL: GPU-Efficient GNN Training by Optimizing Graph Data I/O and Preprocessing ( http://arxiv.org/abs/2112.08541v1 )

ライセンス: Link先を確認
Tianfeng Liu (1 and 3), Yangrui Chen (2 and 3), Dan Li (1), Chuan Wu (2), Yibo Zhu (3), Jun He (3), Yanghua Peng (3), Hongzheng Chen (3 and 4), Hongzhi Chen (3), Chuanxiong Guo (3) ((1) Tsinghua University, (2) The University of Hong Kong, (3) ByteDance, (4) Cornell University)(参考訳) グラフニューラルネットワーク(GNN)は、ディープニューラルネットワーク(DNN)を非ユークリッドグラフデータに拡張し、ノード分類やグラフ特性予測といったさまざまなタスクにおいて、画期的なパフォーマンスを実現している。 それでも、既存のシステムは、数十億のノードとエッジを持つ巨大なグラフをGPUでトレーニングする非効率である。 主なボトルネックは、GPUのデータ準備プロセスである、サブグラフサンプリングと機能検索である。 本稿では,ボトルネックに対処するための分散GNN学習システムであるBGLを提案する。 まず,機能検索トラフィックを最小限に抑える動的キャッシュエンジンを提案する。 キャッシュポリシとサンプリング順序の共設計により、オーバーヘッドが低く、キャッシュヒット率が高いスイートスポットが見つかる。 第2に,グラフ分割アルゴリズムを改善し,サブグラフサンプリング時のクロスパーティショニング通信を削減する。 最後に、注意深いリソース分離は、異なるデータ前処理ステージ間の競合を減らす。 様々なGNNモデルと大規模なグラフデータセットに関する大規模な実験により、BGLは既存のGNNトレーニングシステムよりも平均20.68倍高い性能を示している。

Graph neural networks (GNNs) have extended the success of deep neural networks (DNNs) to non-Euclidean graph data, achieving ground-breaking performance on various tasks such as node classification and graph property prediction. Nonetheless, existing systems are inefficient to train large graphs with billions of nodes and edges with GPUs. The main bottlenecks are the process of preparing data for GPUs - subgraph sampling and feature retrieving. This paper proposes BGL, a distributed GNN training system designed to address the bottlenecks with a few key ideas. First, we propose a dynamic cache engine to minimize feature retrieving traffic. By a co-design of caching policy and the order of sampling, we find a sweet spot of low overhead and high cache hit ratio. Second, we improve the graph partition algorithm to reduce cross-partition communication during subgraph sampling. Finally, careful resource isolation reduces contention between different data preprocessing stages. Extensive experiments on various GNN models and large graph datasets show that BGL significantly outperforms existing GNN training systems by 20.68x on average.
翻訳日:2021-12-17 16:25:18 公開日:2021-12-16
# サーバレスクエリ処理のための予測価格パフォーマンス最適化

Predictive Price-Performance Optimization for Serverless Query Processing ( http://arxiv.org/abs/2112.08572v1 )

ライセンス: Link先を確認
Rathijit Sen, Abhishek Roy, Alekh Jindal(参考訳) 本稿では、計算資源の量に着目し、サーバーレスクエリ処理設定におけるデータ分析のための様々な価格性能目標を最適化する、予測資源割り当てのための効率的なパラメトリックモデリングフレームワークを提案する。 当社のシステムであるAutoExecutorが,Azure Synapse上で動作するSpark SQLクエリに対して,ほぼ最適なエグゼキュータとコアカウントを自動的に選択する方法について,深く議論し,評価する。 クエリの実行中に割り当てられた総エグゼキュータとエグゼキュータの占有を実質的に削減し、他の並列クエリやクラスタのプロビジョニングニーズの削減が可能なエグゼキュータを解放することで、sparkのインビルト、リアクティブ、動的エグゼキュータ割り当て能力を向上します。 Sparklensのようなポストエグゼクティブ分析ツールとは対照的に、クエリの実行前にリソース割り当てを予測し、必要なアロケーションを予測するために入力データサイズの変更も説明できる。

We present an efficient, parametric modeling framework for predictive resource allocations, focusing on the amount of computational resources, that can optimize for a range of price-performance objectives for data analytics in serverless query processing settings. We discuss and evaluate in depth how our system, AutoExecutor, can use this framework to automatically select near-optimal executor and core counts for Spark SQL queries running on Azure Synapse. Our techniques improve upon Spark's in-built, reactive, dynamic executor allocation capabilities by substantially reducing the total executors allocated and executor occupancy while running queries, thereby freeing up executors that can potentially be used by other concurrent queries or in reducing the overall cluster provisioning needs. In contrast with post-execution analysis tools such as Sparklens, we predict resource allocations for queries before executing them and can also account for changes in input data sizes for predicting the desired allocations.
翻訳日:2021-12-17 16:24:59 公開日:2021-12-16
# マルチエージェント強化学習における共有学習

Learning to Share in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2112.08702v1 )

ライセンス: Link先を確認
Yuxuan Yi, Ge Li, Yaowei Wang, Zongqing Lu(参考訳) 本稿では,複数のエージェントが部分的に接続されたネットワークとして配置され,それぞれが近接エージェントとのみ相互作用するネットワーク型マルチエージェント強化学習(marl)の問題について検討する。 ネットワークMARLは、ネットワーク上の隣人との通信を制限することで、グローバルな目的を最適化するために、すべてのエージェントが分散的に決定する必要がある。 人類の協力学習において,「textit{ sharing}」が重要な役割を担っているという事実に触発されて,エージェントがグローバルな目的に協力するように,近隣者と報酬を動的に共有することのできる階層的な分散MARLフレームワークLToSを提案する。 各エージェントに対して、ハイレベルポリシーは、グローバル目標を分解するために隣人と報酬を共有する方法を学び、ローレベルポリシーは、近隣のハイレベルポリシーによって引き起こされるローカルな目標を最適化することを学ぶ。 2つのポリシーは二段階最適化を形成し、交互に学習する。 我々は、LToSが社会的ジレンマとネットワーク化されたMARLシナリオの両方において既存の手法より優れていることを実証的に実証した。

In this paper, we study the problem of networked multi-agent reinforcement learning (MARL), where a number of agents are deployed as a partially connected network and each interacts only with nearby agents. Networked MARL requires all agents make decision in a decentralized manner to optimize a global objective with restricted communication between neighbors over the network. Inspired by the fact that \textit{sharing} plays a key role in human's learning of cooperation, we propose LToS, a hierarchically decentralized MARL framework that enables agents to learn to dynamically share reward with neighbors so as to encourage agents to cooperate on the global objective. For each agent, the high-level policy learns how to share reward with neighbors to decompose the global objective, while the low-level policy learns to optimize local objective induced by the high-level policies in the neighborhood. The two policies form a bi-level optimization and learn alternately. We empirically demonstrate that LToS outperforms existing methods in both social dilemma and networked MARL scenario.
翻訳日:2021-12-17 16:24:10 公開日:2021-12-16
# 不足データの設定におけるプロセス設計パラメータの制約付き多目的最適化:接着接着への応用

Constrained multi-objective optimization of process design parameters in settings with scarce data: an application to adhesive bonding ( http://arxiv.org/abs/2112.08760v1 )

ライセンス: Link先を確認
Alejandro Morales-Hern\'andez, Sebastian Rojas Gonzalez, Inneke Van Nieuwenhuyse, Jeroen Jordens, Maarten Witters, and Bart Van Doninck(参考訳) 接着継手は, 強度と重量比, 設計の柔軟性, 応力集中度, 平面力伝達, 耐損傷性, 耐疲労性などの特徴から, 様々な用途において, 業界で広く利用されている。 最適化は本質的に多目的(コストを最小化しながら破壊強度を最大化する)であり、制約されている(プロセスは材料に視覚的な損傷を与えてはならないし、ストレステストは接着に関連した障害を生じさせるべきではない)。 従来の進化的アプローチ(遺伝的アルゴリズムなど)は、評価に必要な実験の量が制限されるため、問題を解決するのに不向きである。 本研究では,限られた実験データに基づいて目的関数と制約関数をエミュレートするために,特定の機械学習手法(ガウス過程回帰とロジスティック回帰)を適用した。 この手法はベイズ最適化アルゴリズムに組み込まれており、非常に効率的な方法でパレート最適化プロセスの設定を検出することに成功している(つまり、限られた数の余分な実験を必要とする)。

Adhesive joints are increasingly used in industry for a wide variety of applications because of their favorable characteristics such as high strength-to-weight ratio, design flexibility, limited stress concentrations, planar force transfer, good damage tolerance and fatigue resistance. Finding the optimal process parameters for an adhesive bonding process is challenging: the optimization is inherently multi-objective (aiming to maximize break strength while minimizing cost) and constrained (the process should not result in any visual damage to the materials, and stress tests should not result in failures that are adhesion-related). Real life physical experiments in the lab are expensive to perform; traditional evolutionary approaches (such as genetic algorithms) are then ill-suited to solve the problem, due to the prohibitive amount of experiments required for evaluation. In this research, we successfully applied specific machine learning techniques (Gaussian Process Regression and Logistic Regression) to emulate the objective and constraint functions based on a limited amount of experimental data. The techniques are embedded in a Bayesian optimization algorithm, which succeeds in detecting Pareto-optimal process settings in a highly efficient way (i.e., requiring a limited number of extra experiments).
翻訳日:2021-12-17 16:23:49 公開日:2021-12-16
# 機械学習モデルに対するデータセット相関推論攻撃

Dataset correlation inference attacks against machine learning models ( http://arxiv.org/abs/2112.08806v1 )

ライセンス: Link先を確認
Ana-Maria Cre\c{t}u, Florent Gu\'epin and Yves-Alexandre de Montjoye(参考訳) 機械学習モデルは、世界中の企業や組織がタスクや意思決定を自動化するためにますます利用されている。 潜在的にセンシティブなデータセットでトレーニングされた機械学習モデルは、データセット内の個人に関する情報だけでなく、グローバルデータセットの情報もリークすることが示されている。 ここでは,mlモデルに対する新たな攻撃を提案することによって,データセットプロパティ推論攻撃の研究をさらに一歩進めて,攻撃者の目標がモデルの入力変数間の相関関係を推測することにある。 まず,攻撃者が相関行列の球面パラメトリゼーションを活用し,情報に基づく推測を行うことを示す。 つまり、入力変数とターゲット変数の相関のみを使用することで、攻撃者は2つの入力変数間の相関をランダムな推測ベースラインよりもはるかに良く推測することができる。 本稿では、シャドウモデリングを用いて機械学習モデルへのアクセスを利用して推測を洗練する第2の攻撃を提案する。 我々の攻撃はガウスコプラに基づく生成モデルを用いて、相関推論タスクのためのメタモデルを訓練するために、様々な相関関係を持つ合成データセットを生成する。 我々は,ロジスティック回帰および多層パーセプトロンモデルに対する攻撃を評価し,モデルレス攻撃よりも優れることを示す。 その結果,第2の機械学習による攻撃の精度は変数数によって低下し,モデルレス攻撃の精度に向かって収束することがわかった。 しかし,対象変数と高い相関関係を持つ入力変数間の相関は,変数数に関係なくより脆弱である。 私たちの研究は、トレーニングデータセットに関するグローバルなリークと、個人レベルのリークとのギャップを埋めるものです。 限界リーク攻撃と組み合わせると、データセットの再構築への第一歩となるかもしれない。

Machine learning models are increasingly used by businesses and organizations around the world to automate tasks and decision-making. Trained on potentially sensitive datasets, machine learning models have been shown to leak information about individuals in the dataset as well as global dataset information. We here take research in dataset property inference attacks one step further by proposing a new attack against ML models: a dataset correlation inference attack, where an attacker's goal is to infer the correlation between input variables of a model. We first show that an attacker can exploit the spherical parametrization of correlation matrices, to make an informed guess. This means that using only the correlation between the input variables and the target variable, an attacker can infer the correlation between two input variables much better than a random guess baseline. We propose a second attack which exploits the access to a machine learning model using shadow modeling to refine the guess. Our attack uses Gaussian copula-based generative modeling to generate synthetic datasets with a wide variety of correlations in order to train a meta-model for the correlation inference task. We evaluate our attack against Logistic Regression and Multi-layer perceptron models and show it to outperform the model-less attack. Our results show that the accuracy of the second, machine learning-based attack decreases with the number of variables and converges towards the accuracy of the model-less attack. However, correlations between input variables which are highly correlated with the target variable are more vulnerable regardless of the number of variables. Our work bridges the gap between what can be considered a global leakage about the training dataset and individual-level leakages. When coupled with marginal leakage attacks,it might also constitute a first step towards dataset reconstruction.
翻訳日:2021-12-17 16:23:26 公開日:2021-12-16
# エンド・ツー・エンドマルチタスク深層学習とモデルベース自動走行制御アルゴリズム

End-to-End Multi-Task Deep Learning and Model Based Control Algorithm for Autonomous Driving ( http://arxiv.org/abs/2112.08967v1 )

ライセンス: Link先を確認
Der-Hau Lee and Jinn-Liang Liu(参考訳) ディープラーニングニューラルネットワーク(dnn)を用いたエンドツーエンド運転は、産業や学界における自動運転の急速に成長するパラダイムになりつつある。 しかし、安全対策と解釈性は依然としてこのパラダイムに課題をもたらしている。 本研究では,複数タスクのdnn,経路予測,制御モデルを統合したエンド・ツー・エンド駆動アルゴリズムを提案する。 エンド・ツー・エンドの運転システムの総合的、動的、リアルタイム性能を評価する定量的な尺度を提供し、その安全性と解釈可能性の定量化を可能にする。 DNNは、セマンティックセグメンテーションのよく知られたエンコーダデコーダニューラルネットワークであるUNetの修正版である。 1つのセグメンテーション、1つの回帰、レーンセグメンテーション、パス予測、車両制御の2つの分類タスクで構成される。 修正UNetアーキテクチャの3つの変種を異なる複雑度で比較し, 単一およびマルチタスク(MT)アーキテクチャの4つの静的測度で比較し, 実時間シミュレーションにおいて2つの動的測度で最良の測度を同定する。 また,モデル予測制御を用いた学習およびモデルベース縦方向制御を提案する。 その結果,mtunetは,実際の道路で走行する実車において,通常の速度で曲がりくねった道路の曲率と横オフセット推定の点で,前回修正したunetを上回っていることがわかった。

End-to-end driving with a deep learning neural network (DNN) has become a rapidly growing paradigm of autonomous driving in industry and academia. Yet safety measures and interpretability still pose challenges to this paradigm. We propose an end-to-end driving algorithm that integrates multi-task DNN, path prediction, and control models in a pipeline of data flow from sensory devices through these models to driving decisions. It provides quantitative measures to evaluate the holistic, dynamic, and real-time performance of end-to-end driving systems, and thus allows to quantify their safety and interpretability. The DNN is a modified UNet, a well known encoder-decoder neural network of semantic segmentation. It consists of one segmentation, one regression, and two classification tasks for lane segmentation, path prediction, and vehicle controls. We present three variants of the modified UNet architecture having different complexities, compare them on different tasks in four static measures for both single and multi-task (MT) architectures, and then identify the best one by two additional dynamic measures in real-time simulation. We also propose a learning- and model-based longitudinal controller using model predictive control method. With the Stanley lateral controller, our results show that MTUNet outperforms an earlier modified UNet in terms of curvature and lateral offset estimation on curvy roads at normal speed, which has been tested in a real car driving on real roads.
翻訳日:2021-12-17 16:22:36 公開日:2021-12-16
# サイバーアタック検出のための不均一グラフ学習モデル

A Heterogeneous Graph Learning Model for Cyber-Attack Detection ( http://arxiv.org/abs/2112.08986v1 )

ライセンス: Link先を確認
Mingqi Lv, Chengyu Dong, Tieming Chen, Tiantian Zhu, Qijie Song, Yuan Fan(参考訳) サイバー攻撃は、経験豊富なハッカーがターゲットの情報システムに侵入する悪意のある試みである。 通常、サイバー攻撃はハイブリッドTTP(戦術、技術、手順)と長期の敵行動として特徴付けられ、従来の侵入検知方法は効果がない。 既存のサイバー攻撃検知システムは、ドメイン知識(脅威モデル、脅威情報など)を参照して手動で設計されたルールに基づいて実装されている。 しかし、このプロセスには知性と一般化能力がない。 本稿では,この制限を前提として,証明データに基づく知的サイバー攻撃検出手法を提案する。 プロヴァンスデータ中の膨大な数のシステムイベントからサイバー攻撃を効果的かつ効率的に検出するために、まず、各システムエンティティ(例えば、プロセス、ファイル、ソケットなど)の豊富なコンテキスト情報をキャプチャするために、異種グラフを用いてプロヴァンスデータをモデル化し、各システムエンティティに対する意味ベクトル表現を学習する。 次に,異種グラフから小型でコンパクトな局所グラフをサンプリングし,キーシステムエンティティを悪意あるいは良性として分類することにより,オンラインサイバー攻撃検出を行う。 サイバー攻撃を含む2つのプロヴァンスデータセットについて,一連の実験を行った。 実験の結果,提案手法は他の学習ベース検出モデルよりも優れており,最先端のルールに基づくサイバー攻撃検出システムと競合する性能を有することがわかった。

A cyber-attack is a malicious attempt by experienced hackers to breach the target information system. Usually, the cyber-attacks are characterized as hybrid TTPs (Tactics, Techniques, and Procedures) and long-term adversarial behaviors, making the traditional intrusion detection methods ineffective. Most existing cyber-attack detection systems are implemented based on manually designed rules by referring to domain knowledge (e.g., threat models, threat intelligences). However, this process is lack of intelligence and generalization ability. Aiming at this limitation, this paper proposes an intelligent cyber-attack detection method based on provenance data. To effective and efficient detect cyber-attacks from a huge number of system events in the provenance data, we firstly model the provenance data by a heterogeneous graph to capture the rich context information of each system entities (e.g., process, file, socket, etc.), and learns a semantic vector representation for each system entity. Then, we perform online cyber-attack detection by sampling a small and compact local graph from the heterogeneous graph, and classifying the key system entities as malicious or benign. We conducted a series of experiments on two provenance datasets with real cyber-attacks. The experiment results show that the proposed method outperforms other learning based detection models, and has competitive performance against state-of-the-art rule based cyber-attack detection systems.
翻訳日:2021-12-17 16:22:13 公開日:2021-12-16
# (参考訳) RGB-Dに基づく動き認識のための時空間表現のデカップリングと再結合 [全文訳有]

Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition ( http://arxiv.org/abs/2112.09129v1 )

ライセンス: CC BY 4.0
Benjia Zhou and Pichao Wang and Jun Wan and Yanyan Liang and Fan Wang and Du Zhang and Zhen Lei and Hao Li and Rong Jin(参考訳) 時空間表現の分離は空間的特徴と時間的特徴を次元に依存しない要因に分解することを指す。 従来のRGB-Dに基づく動き認識法は、密結合型マルチモーダル時空間表現によって有望な性能を達成したが、それでもなお苦しめられている。 一 厳密な時空間交絡モデリングによる小データ設定時の最適化の難しさ (二 情報冗長性は通常、分類に関係の弱い余分な情報を多数含んでいること、及び (iii)遅れ融合による多モード時空間情報の相互作用の低さ。 これらの欠点を軽減するために,RGB-Dに基づく動き認識のための時空間表現の分離と再結合を提案する。 具体的には,時空間表現のタスクを3つのサブタスクに分割する:(1)空間的・時間的ネットワークを疎結合にすることで,高品質・次元的に独立した特徴を学習する。 2)より強い時空依存を確立するために疎結合表現を再結合する。 (3)RGB-Dデータから経時的クロスモーダル情報を取得するためのCross-modal Adaptive Posterior Fusion (CAPF) 機構の導入 これらの新しいデザインのシームレスな組み合わせは、頑健な時空間表現を形成し、4つの公開運動データセットの最先端手法よりも優れたパフォーマンスを達成する。 私たちのコードはhttps://github.com/d amo-cv/MotionRGBDで利用可能です。

Decoupling spatiotemporal representation refers to decomposing the spatial and temporal features into dimension-independen t factors. Although previous RGB-D-based motion recognition methods have achieved promising performance through the tightly coupled multi-modal spatiotemporal representation, they still suffer from (i) optimization difficulty under small data setting due to the tightly spatiotemporal-entan gled modeling;(ii) information redundancy as it usually contains lots of marginal information that is weakly relevant to classification; and (iii) low interaction between multi-modal spatiotemporal information caused by insufficient late fusion. To alleviate these drawbacks, we propose to decouple and recouple spatiotemporal representation for RGB-D-based motion recognition. Specifically, we disentangle the task of learning spatiotemporal representation into 3 sub-tasks: (1) Learning high-quality and dimension independent features through a decoupled spatial and temporal modeling network. (2) Recoupling the decoupled representation to establish stronger space-time dependency. (3) Introducing a Cross-modal Adaptive Posterior Fusion (CAPF) mechanism to capture cross-modal spatiotemporal information from RGB-D data. Seamless combination of these novel designs forms a robust spatialtemporal representation and achieves better performance than state-of-the-art methods on four public motion datasets. Our code is available at https://github.com/d amo-cv/MotionRGBD.
翻訳日:2021-12-17 16:20:15 公開日:2021-12-16
# 質: 長い入力テキストで質問に答える。

QuALITY: Question Answering with Long Input Texts, Yes! ( http://arxiv.org/abs/2112.08608v1 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He He, Samuel R. Bowman(参考訳) 長期文書理解に基づくモデルの構築とテストを可能にするために、品質、英語のコンテキストパセーションを備えたマルチチョースqaデータセット、平均約5,000トークンを持ち、通常のモデルよりもずっと長い品質を導入します。 文章を使った以前の作業とは異なり、私たちの質問は要約や抜粋に頼るのではなく、文章全体を読むコントリビュータによって書かれ、検証されます。 さらに、厳密な時間制約の下で作業しているアノテータによって答えられる質問は半数に過ぎず、スキミングと単純な検索が一貫して機能するには不十分であることを示している。 現在のモデルは、このタスク(55.4%)では性能が悪く、人間のパフォーマンス(93.5%)よりもかなり遅れている。

To enable building and testing models on long-document comprehension, we introduce QuALITY, a multiple-choice QA dataset with context passages in English that have an average length of about 5,000 tokens, much longer than typical current models can process. Unlike in prior work with passages, our questions are written and validated by contributors who have read the entire passage, rather than relying on summaries or excerpts. In addition, only half of the questions are answerable by annotators working under tight time constraints, indicating that skimming and simple search are not enough to consistently perform well. Current models perform poorly on this task (55.4%) and significantly lag behind human performance (93.5%).
翻訳日:2021-12-17 16:00:47 公開日:2021-12-16
# duqm: 質問マッチングモデルのロバスト性評価のための自然質問の中国語データセット

DuQM: A Chinese Dataset of Linguistically Perturbed Natural Questions for Evaluating the Robustness of Question Matching Models ( http://arxiv.org/abs/2112.08609v1 )

ライセンス: Link先を確認
Hongyu Zhu, Yan Chen, Jing Yan, Jing Liu, Yu Hong, Ying Chen, Hua Wu, Haifeng Wang(参考訳) 本稿では,中国における質問マッチングの堅牢性評価に焦点をあてる。 前回のロバスト性の分析に関する作業のほとんどは、一種の人工敵の例にのみ焦点が当てられていた。 代わりに、自然文におけるモデルの言語能力に関する包括的評価を定式化する必要があると論じる。 この目的のために,自然質問と言語摂動を含む中国語データセットduqmを作成し,質問マッチングモデルのロバスト性を評価する。 DuQMには3つのカテゴリと13のサブカテゴリがあり、32の言語摂動がある。 広範な実験により、DuQMは異なるモデルを区別するより優れた能力を持つことが示された。 重要なことは、DuQMにおける言語現象による評価の詳細な分解は、異なるモデルの強さと弱点を容易に診断するのに役立つ。 さらに, 実験結果から, 人工逆数例の効果が自然文に作用しないことが示唆された。

In this paper, we focus on studying robustness evaluation of Chinese question matching. Most of the previous work on analyzing robustness issue focus on just one or a few types of artificial adversarial examples. Instead, we argue that it is necessary to formulate a comprehensive evaluation about the linguistic capabilities of models on natural texts. For this purpose, we create a Chinese dataset namely DuQM which contains natural questions with linguistic perturbations to evaluate the robustness of question matching models. DuQM contains 3 categories and 13 subcategories with 32 linguistic perturbations. The extensive experiments demonstrate that DuQM has a better ability to distinguish different models. Importantly, the detailed breakdown of evaluation by linguistic phenomenon in DuQM helps us easily diagnose the strength and weakness of different models. Additionally, our experiment results show that the effect of artificial adversarial examples does not work on the natural texts.
翻訳日:2021-12-17 16:00:33 公開日:2021-12-16
# kat: 視覚言語のための知識拡張トランスフォーマー

KAT: A Knowledge Augmented Transformer for Vision-and-Language ( http://arxiv.org/abs/2112.08614v1 )

ライセンス: Link先を確認
Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk, Jianfeng Gao(参考訳) 最近の大規模変圧器の研究の主な焦点は、モデルのパラメータに詰め込まれた情報量を最適化することである。 マルチモーダルトランスフォーマーは、その推論において明示的な知識を活用できますか? 既存の手法は、知識検索のパラダイムの下で、解答予測に続くアプローチを研究してきたが、得られた知識の品質と関連性、そして暗黙的かつ明示的な知識を超える推論プロセスをどのように統合すべきかについて、オープンな疑問を残している。 これらの課題に対処するために、OK-VQAのオープンドメインマルチモーダルタスク上で、強力な最先端結果(+6ポイント絶対値)を実現する新しいモデルKAT(Knowledge Augmented Transformer)を提案する。 私たちのアプローチは、エンドツーエンドエンコーダ-デコーダアーキテクチャにおいて、暗黙的および明示的な知識を統合します。 分析におけるモデル予測の解釈性の向上には,明示的な知識統合の新たなメリットが期待できる。

The primary focus of recent work with largescale transformers has been on optimizing the amount of information packed into the model's parameters. In this work, we ask a different question: Can multimodal transformers leverage explicit knowledge in their reasoning? Existing, primarily unimodal, methods have explored approaches under the paradigm of knowledge retrieval followed by answer prediction, but leave open questions about the quality and relevance of the retrieved knowledge used, and how the reasoning processes over implicit and explicit knowledge should be integrated. To address these challenges, we propose a novel model - Knowledge Augmented Transformer (KAT) - which achieves a strong state-of-the-art result (+6 points absolute) on the open-domain multimodal task of OK-VQA. Our approach integrates implicit and explicit knowledge in an end to end encoder-decoder architecture, while still jointly reasoning over both knowledge sources during answer generation. An additional benefit of explicit knowledge integration is seen in improved interpretability of model predictions in our analysis.
翻訳日:2021-12-17 16:00:18 公開日:2021-12-16
# 因果推論分類のための常識知識強化事前学習言語モデル

Commonsense Knowledge-Augmented Pretrained Language Models for Causal Reasoning Classification ( http://arxiv.org/abs/2112.08615v1 )

ライセンス: Link先を確認
Pedram Hosseini, David A. Broniatowski, Mona Diab(参考訳) コモンセンス知識はテキスト中の因果関係を識別するために利用することができる。 本研究では,ATOMIC2020において,広範囲のコモンセンス推論知識グラフ(Commonsense reasoning knowledge graph)を自然言語テキストに適用し,BERT事前学習言語モデルを継続的に事前訓練する。 共感覚推論質問に対する回答モデルの評価を行った。 この結果から,コモンセンス推論知識を付加した事前学習型言語モデルは,ベースモデルの改良や品質向上データによる微調整を伴わずに,COPAとBCOPA-CEの2つのコモンセンス因果推論ベンチマークにおいて,ベースラインよりも優れていた。

Commonsense knowledge can be leveraged for identifying causal relations in text. In this work, we verbalize triples in ATOMIC2020, a wide coverage commonsense reasoning knowledge graph, to natural language text and continually pretrain a BERT pretrained language model. We evaluate the resulting model on answering commonsense reasoning questions. Our results show that a continually pretrained language model augmented with commonsense reasoning knowledge outperforms our baseline on two commonsense causal reasoning benchmarks, COPA and BCOPA-CE, without additional improvement on the base model or using quality-enhanced data for fine-tuning.
翻訳日:2021-12-17 15:59:57 公開日:2021-12-16
# 過去を再考する: 言語モデルにおける隠れ状態の最適化

Reconsidering the Past: Optimizing Hidden States in Language Models ( http://arxiv.org/abs/2112.08653v1 )

ライセンス: Link先を確認
Davis Yoshida and Kevin Gimpel(参考訳) 推論時間におけるトランスフォーマー言語モデルの性能向上のための勾配法であるHudden-State Optimization (HSO)を提案する。 動的評価(krause et al., 2018)と同様に、hsoは言語モデルが評価テキストに割り当てるログ確率の勾配を計算するが、モデルパラメータではなくキャッシュされた隠れ状態を更新するために使用する。 我々は,事前訓練した Transformer-XL と GPT-2 言語モデルを用いて HSO を検証し,WikiText103 と PG-19 のデータセットの改善点を,特にトレーニング分布外のモデルを評価する際に,難易度の観点から確認した。 また,最近開発されたプロンプトベースの少数ショット評価設定の成果を,追加パラメータやトレーニングデータなしで示すことで,下流への適用性を示す。

We present Hidden-State Optimization (HSO), a gradient-based method for improving the performance of transformer language models at inference time. Similar to dynamic evaluation (Krause et al., 2018), HSO computes the gradient of the log-probability the language model assigns to an evaluation text, but uses it to update the cached hidden states rather than the model parameters. We test HSO with pretrained Transformer-XL and GPT-2 language models, finding improvement on the WikiText103 and PG-19 datasets in terms of perplexity, especially when evaluating a model outside of its training distribution. We also demonstrate downstream applicability by showing gains in the recently developed prompt-based few-shot evaluation setting, again with no extra parameters or training data.
翻訳日:2021-12-17 15:59:42 公開日:2021-12-16
# 自由テキスト記述生成のためのヒューマンAIコラボレーションのフレーミング

Reframing Human-AI Collaboration for Generating Free-Text Explanations ( http://arxiv.org/abs/2112.08674v1 )

ライセンス: Link先を確認
Sarah Wiegreffe, Jack Hessel, Swabha Swayamdipta, Mark Riedl, Yejin Choi(参考訳) 大きな言語モデルは、タスク固有の監督を比較的少なくして、浮かび上がるテキストを生成する能力が増しています。 しかし、これらのモデルは分類決定を正確に説明できるだろうか? 少数の人間による記述例(例:数ショット)を用いて、自由テキストの説明を生成するタスクについて検討する。 その結果,(1)質の高い世代に結果を促すために質の高いサンプルを作成できること,(2)驚くほど,gpt-3で生成された説明を,既存のデータセットに含まれる説明をクラウドソースすることを好むことが多かった。 しかし、クラウドワーカーの評価は、モデルが現実的で文法的で十分な説明を生成する一方で、例えば、新しい情報の提供やラベルのサポートといった軸に沿って改善する余地があることも示している。 我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定によるループ内人間を含む。 受理性判定に本質的な主観性は高いが,本手法はヒトが許容すると考えられるGPT-3生成説明を一貫してフィルタリングすることができる。

Large language models are increasingly capable of generating fluent-appearing text with relatively little task-specific supervision. But can these models accurately explain classification decisions? We consider the task of generating free-text explanations using a small number of human-written examples (i.e., in a few-shot manner). We find that (1) authoring higher-quality examples for prompting results in higher quality generations; and (2) surprisingly, in a head-to-head comparison, crowdworkers often prefer explanations generated by GPT-3 to crowdsourced human-written explanations contained within existing datasets. Crowdworker ratings also show, however, that while models produce factual, grammatical, and sufficient explanations, they have room to improve, e.g., along axes such as providing novel information and supporting the label. We create a pipeline that combines GPT-3 with a supervised filter that incorporates humans-in-the-loop via binary acceptability judgments. Despite significant subjectivity intrinsic to judging acceptability, our approach is able to consistently filter GPT-3 generated explanations deemed acceptable by humans.
翻訳日:2021-12-17 15:59:25 公開日:2021-12-16
# コードで訓練された言語モデルを用いた意味解析

Few-Shot Semantic Parsing with Language Models Trained On Code ( http://arxiv.org/abs/2112.08696v1 )

ライセンス: Link先を確認
Richard Shin, Benjamin Van Durme(参考訳) インコンテキストの例でトリガされた大規模な言語モデルは、トレーニングデータが少なく、セマンティック解析を実行することができる。 標準発話へのパラフレーズ化として問題を定式化することで、基礎となる意味表現を制御された自然言語のような表現にする。 直感的には、そのようなモデルは事前学習に使用される自然言語に近いため、より容易に標準発話を出力することができる。 最近では、openai codexのようなコードで事前トレーニングされたモデルも注目を集めている。 コードの正確なモデリングには実行可能なセマンティクスの理解が必要です。 このようなモデルは意味解析に より適しています 本稿では,この仮説を検証し,等価なGPT-3モデルよりも意味解析が優れていることを示す。 GPT-3とは異なり、Codexは意味表現を直接ターゲットとする場合、おそらく意味解析で使われる意味表現がコードと似た構造になっているように、同じように機能する。

Large language models, prompted with in-context examples, can perform semantic parsing with little training data. They do better when we formulate the problem as paraphrasing into canonical utterances, which cast the underlying meaning representations into a controlled natural language-like representation. Intuitively, such models can more easily output canonical utterances as they are closer to the natural language used for pre-training. More recently, models also pre-trained on code, like OpenAI Codex, have risen in prominence. Since accurately modeling code requires understanding of executable semantics. such models may prove more adept at semantic parsing. In this paper, we test this hypothesis and find that Codex performs better at semantic parsing than equivalent GPT-3 models. We find that unlike GPT-3, Codex performs similarly when targeting meaning representations directly, perhaps as meaning representations used in semantic parsing are structured similar to code.
翻訳日:2021-12-17 15:59:04 公開日:2021-12-16
# DOCmT5:多言語言語モデルの文書レベル事前学習

DOCmT5: Document-Level Pretraining of Multilingual Language Models ( http://arxiv.org/abs/2112.08709v1 )

ライセンス: Link先を確認
Chia-Hsuan Lee, Aditya Siddhant, Viresh Ratnakar, Melvin Johnson(参考訳) 本稿では,大規模並列文書を事前学習した多言語系列間言語モデルであるdocmt5について述べる。 従来のアプローチは文レベルの並列データを活用することに重点を置いてきたが、私たちは長い文書を理解して生成できる汎用事前学習モデルを構築しようとしている。 本稿では,シャッフルやマスクを施した入力文書を翻訳する必要がある簡易かつ効果的な事前学習目標である文書再注文機械翻訳(drmt)を提案する。 DrMTは、様々な文書レベルのタスクに対して強力なベースラインよりも一貫した改善をもたらし、例えば、可読言語ペアの文書レベルMTのBLEUポイント以上、可読言語ペアの文書レベルMTのBLEUポイント7以上、可読言語ペアの言語間要約のROUGE-1ポイント3以上である。 wmt20 de-en と iwslt15 zh-en の文書変換タスクで最先端の sota (state-of-the-art) を実現する。 また,(1)前訓練データ品質の影響,(2)単言語間前訓練とクロスリンガル前訓練の併用効果など,文書前訓練の諸因子について広範な分析を行った。 モデルチェックポイントを一般公開する予定です。

In this paper, we introduce DOCmT5, a multilingual sequence-to-sequence language model pre-trained with large scale parallel documents. While previous approaches have focused on leveraging sentence-level parallel data, we try to build a general-purpose pre-trained model that can understand and generate long documents. We propose a simple and effective pre-training objective - Document Reordering Machine Translation (DrMT), in which the input documents that are shuffled and masked need to be translated. DrMT brings consistent improvements over strong baselines on a variety of document-level generation tasks, including over 12 BLEU points for seen-language-pair document-level MT, over 7 BLEU points for unseen-language-pair document-level MT and over 3 ROUGE-1 points for seen-language-pair cross-lingual summarization. We achieve state-of-the-art (SOTA) on WMT20 De-En and IWSLT15 Zh-En document translation tasks. We also conduct extensive analysis on various factors for document pre-training, including (1) the effects of pre-training data quality and (2) The effects of combining mono-lingual and cross-lingual pre-training. We plan to make our model checkpoints publicly available.
翻訳日:2021-12-17 15:57:53 公開日:2021-12-16
# 事前学習言語モデルに対する効率的な階層型ドメイン適応

Efficient Hierarchical Domain Adaptation for Pretrained Language Models ( http://arxiv.org/abs/2112.08786v1 )

ライセンス: Link先を確認
Alexandra Chronopoulou, Matthew E. Peters, Jesse Dodge(参考訳) 生成言語モデルは、多種多様な一般的なドメインコーパスで訓練される。 しかし、これにより適用範囲は狭くなり、以前の研究では、ドメイン内トレーニングの継続がさらなる利益をもたらすことが示されている。 本稿では,計算効率のよいアダプタアプローチを用いて,多種多様なドメインへのドメイン適応をスケールする手法を提案する。 本手法は,テキストドメインが部分的に重なり合っているという観測に基づいており,木の各ノードがアダプタ重みの集合に関連付けられている階層木構造としてドメインを表現する。 凍結された事前学習された言語モデルと組み合わせると、このアプローチは関連ドメイン間のパラメータ共有を可能にし、非関連ドメイン間の負の干渉を回避する。 dドメインのo(log(d))として効率的で計算コストがスケールする。 gpt-2による実験結果と、c4で最も代表される100のウェブサイトの大部分がドメイン内で改善されている。 さらに、保留領域に対する推論時間アルゴリズムを提供し、ツリーを経由する複数のパスの平均値が、推論に限界コストを付加しながら、一般化のさらなる向上を可能にすることを示した。

Generative language models are trained on diverse, general domain corpora. However, this limits their applicability to narrower domains, and prior work has shown that continued in-domain training can provide further gains. In this paper, we introduce a method to scale domain adaptation to many diverse domains using a computationally efficient adapter approach. Our method is based on the observation that textual domains are partially overlapping, and we represent domains as a hierarchical tree structure where each node in the tree is associated with a set of adapter weights. When combined with a frozen pretrained language model, this approach enables parameter sharing among related domains, while avoiding negative interference between unrelated ones. It is efficient and computational cost scales as O(log(D)) for D domains. Experimental results with GPT-2 and a large fraction of the 100 most represented websites in C4 show across-the-board improvements in-domain. We additionally provide an inference time algorithm for a held-out domain and show that averaging over multiple paths through the tree enables further gains in generalization, while adding only a marginal cost to inference.
翻訳日:2021-12-17 15:57:31 公開日:2021-12-16
# UniREx: 言語モデル推論抽出のための統一学習フレームワーク

UniREx: A Unified Learning Framework for Language Model Rationale Extraction ( http://arxiv.org/abs/2112.08802v1 )

ライセンス: Link先を確認
Aaron Chan, Maziar Sanjabi, Lambert Mathias, Liang Tan, Shaoliang Nie, Xiaochang Peng, Xiang Ren, Hamed Firooz(参考訳) 抽出論理は、出力に最も影響を与えたテキスト入力を強調することで、与えられたタスクインスタンスにおける言語モデルの(lm)予測を説明する。 理想的には、合理的抽出は、LMのタスクパフォーマンスを犠牲にすることなく、忠実(LMの振る舞いを反映)、可塑性(人間にとって意味のあること)、データ効率、高速であるべきである。 事前の論理的な抽出作業は、これらのデシデラタの様々な部分集合に対処するための専門的なアプローチで構成されています。 特定のデシデラタに限定して焦点を合わせることは、一般的に無視されるものであるため、既存の合理的な抽出器は現実世界のアプリケーションでは実用的でないことが多い。 この課題に取り組むために,ユニレックス(unirex)を提案する。ユニレックス(unirex)は,合理性抽出のための統一的で柔軟性の高い学習フレームワークであり,ユーザが5つの要素すべてを簡単に説明できる。 UniREx は,(1) ヒューリスティック/学習有理抽出機,(2) 忠実度と/または妥当性の組合せ,(3) ゴールド有理抽出訓練プロセスのエンドツーエンドのカスタマイズを可能にする。 3つのテキスト分類データセットのうち、我々の最高のUniREx構成は、強いベースラインに比べて5つのデシラタのバランスが優れている。 さらに、UniRExで訓練された有理抽出器は、目に見えないデータセットやタスクに一般化することもできる。

An extractive rationale explains a language model's (LM's) prediction on a given task instance by highlighting the text inputs that most influenced the output. Ideally, rationale extraction should be faithful (reflects LM's behavior), plausible (makes sense to humans), data-efficient, and fast, without sacrificing the LM's task performance. Prior rationale extraction works consist of specialized approaches for addressing various subsets of these desiderata -- but never all five. Narrowly focusing on certain desiderata typically comes at the expense of ignored ones, so existing rationale extractors are often impractical in real-world applications. To tackle this challenge, we propose UniREx, a unified and highly flexible learning framework for rationale extraction, which allows users to easily account for all five factors. UniREx enables end-to-end customization of the rationale extractor training process, supporting arbitrary: (1) heuristic/learned rationale extractors, (2) combinations of faithfulness and/or plausibility objectives, and (3) amounts of gold rationale supervision. Across three text classification datasets, our best UniREx configurations achieve a superior balance of the five desiderata, when compared to strong baselines. Furthermore, UniREx-trained rationale extractors can even generalize to unseen datasets and tasks.
翻訳日:2021-12-17 15:57:14 公開日:2021-12-16
# crosssum: 1500以上の言語ペアに対する英語中心のクロス言語抽象テキスト要約

CrossSum: Beyond English-Centric Cross-Lingual Abstractive Text Summarization for 1500+ Language Pairs ( http://arxiv.org/abs/2112.08804v1 )

ライセンス: Link先を確認
Tahmid Hasan, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yuan-Fang Li, Yong-Bin Kang, Rifat Shahriyar(参考訳) 現在,CrossSumは,45言語からなる1500以上の言語ペアにおいて,165万の言語横断記事要約サンプルからなる大規模データセットである。 我々は,多言語xl-sumデータセットを用いて,言語非依存表現モデルを用いた言語間検索により,異なる言語で書かれた同一記事の調整を行う。 本稿では,多段データサンプリングアルゴリズムと多言語事前学習モデルmt5を提案する。 提案手法により,CrossSumで微調整したモデルでは,ソースとターゲット言語ペアが言語的に離れている場合でも,要約+翻訳ベースラインが優れていた。 私たちの知る限りでは、クロスサムは最大の言語横断要約データセットであり、ピボット言語として英語に依存しない最初のデータでもある。 我々は,言語間抽象要約に関する今後の研究を促進するために,データセット,アライメント,トレーニングスクリプト,モデルをリリースする。 リソースは \url{https://github.com/c sebuetnlp/crosssum} にある。

We present CrossSum, a large-scale dataset comprising 1.65 million cross-lingual article-summary samples in 1500+ language-pairs constituting 45 languages. We use the multilingual XL-Sum dataset and align identical articles written in different languages via cross-lingual retrieval using a language-agnostic representation model. We propose a multi-stage data sampling algorithm and fine-tune mT5, a multilingual pretrained model, with explicit cross-lingual supervision with CrossSum and introduce a new metric for evaluating cross-lingual summarization. Results on established and our proposed metrics indicate that models fine-tuned on CrossSum outperforms summarization+translation baselines, even when the source and target language pairs are linguistically distant. To the best of our knowledge, CrossSum is the largest cross-lingual summarization dataset and also the first-ever that does not rely on English as the pivot language. We are releasing the dataset, alignment and training scripts, and the models to spur future research on cross-lingual abstractive summarization. The resources can be found at \url{https://github.com/c sebuetnlp/CrossSum}.
翻訳日:2021-12-17 15:56:46 公開日:2021-12-16
# 名前付きエンティティ認識データセットを生成する単純な質問

Simple Questions Generate Named Entity Recognition Datasets ( http://arxiv.org/abs/2112.08808v1 )

ライセンス: Link先を確認
Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jinhyuk Lee, Jaewoo Kang(参考訳) 名前付きエンティティ認識(NER)は、テキストから特定のタイプの名前付きエンティティを抽出するタスクである。 現在のNERモデルは、ターゲットドメインやエンティティに関する専門的知識の膨大な関与を必要とする、人間アノテーション付きデータセットに依存していることが多い。 この手法は、エンティティタイプ(例えば、どの病気?)のニーズを反映した単純な自然言語の質問を、オープンドメインの質問応答システムに自動的にNERデータセットを生成する。 ドメイン内のリソース(例えば、トレーニング文、ラベル、ドメイン内辞書)を使わずに、生成したデータセットでのみトレーニングしたモデルは、4つの異なるドメインにわたる6つのNERベンチマークの弱い教師付きモデルよりも大幅に優れています。 驚いたことに、NCBI-diseaseでは、我々のモデルは75.5 F1のスコアを達成し、ドメインの専門家によって提供される豊富なドメイン内辞書を利用する4.1 F1のスコアで、これまでで最も弱い教師付きモデルよりも優れています。 自然言語でNERのニーズを定式化することで、アワードのような粒度の細かいエンティティタイプのためのNERモデルを構築することができます。 3つの数ショットのNERベンチマークで、我々のモデルは新しい最先端のパフォーマンスを達成する。

Named entity recognition (NER) is a task of extracting named entities of specific types from text. Current NER models often rely on human-annotated datasets requiring the vast engagement of professional knowledge on the target domain and entities. This work introduces an ask-to-generate approach, which automatically generates NER datasets by asking simple natural language questions that reflect the needs for entity types (e.g., Which disease?) to an open-domain question answering system. Without using any in-domain resources (i.e., training sentences, labels, or in-domain dictionaries), our models solely trained on our generated datasets largely outperform previous weakly supervised models on six NER benchmarks across four different domains. Surprisingly, on NCBI-disease, our model achieves 75.5 F1 score and even outperforms the previous best weakly supervised model by 4.1 F1 score, which utilizes a rich in-domain dictionary provided by domain experts. Formulating the needs of NER with natural language also allows us to build NER models for fine-grained entity types such as Award, where our model even outperforms fully supervised models. On three few-shot NER benchmarks, our model achieves new state-of-the-art performance.
翻訳日:2021-12-17 15:56:28 公開日:2021-12-16
# 電子商取引アプリケーションにおける知識グラフの埋め込み:注意的推論、説明、転送可能なルール

Knowledge Graph Embedding in E-commerce Applications: Attentive Reasoning, Explanations, and Transferable Rules ( http://arxiv.org/abs/2112.08589v1 )

ライセンス: Link先を確認
Wen Zhang, Shumin Deng, Mingyang Chen, Liang Wang, Qiang Chen, Feiyu Xiong, Xiangwen Liu, Huajun Chen(参考訳) 事実をトリプルとして表現する知識グラフ(kgs)は、多くのアプリケーションで広く採用されている。 リンク予測やルール誘導といった推論タスクは、KGの開発において重要である。 知識グラフ埋め込み(kges)とkg の連続ベクトル空間への関係は、これらの推論タスクのために提案され、効率的かつ堅牢であることが証明されている。 しかし、KGEを実作業アプリケーションに適用し、デプロイする可能性や実現可能性については、十分に調査されていない。 本稿では,実際のドメインアプリケーションにKGEをデプロイした経験,すなわちeコマースについて論じ,報告する。 電子商取引KGシステムにおける3つの重要なデシラタを最初に同定する。 1) 注意深い推論であって,何よりも懸念事項の少数の目標関係を推論すること 2) ユーザと事業者の双方が予測を行う理由を理解するのに役立つ予測の説明を提供する説明 3) 再利用可能なルールを生成して,新しいシステムへのKGのデプロイを高速化する。 非既存のkgeはこれらのデシデラータをすべて満たすことができるが、我々は、単にヘッドエンティティ、リレーション、テールエンティティ埋め込みに頼るのではなく、トリプル間の相関をモデル化して予測する、説明可能な知識グラフアテンションネットワークを提案する。 予測のための注意深いトリプルを自動で選択し、それらを同時に記録し、そこから説明を容易に提供し、転送可能なルールを効率的に生成することができる。 eコマースアプリケーションにおける3つのデシデラタをすべて満たし、実際のドメインアプリケーションからのデータセットの典型的なベースラインを上回ることができることを実証的に示します。

Knowledge Graphs (KGs), representing facts as triples, have been widely adopted in many applications. Reasoning tasks such as link prediction and rule induction are important for the development of KGs. Knowledge Graph Embeddings (KGEs) embedding entities and relations of a KG into continuous vector spaces, have been proposed for these reasoning tasks and proven to be efficient and robust. But the plausibility and feasibility of applying and deploying KGEs in real-work applications has not been well-explored. In this paper, we discuss and report our experiences of deploying KGEs in a real domain application: e-commerce. We first identity three important desiderata for e-commerce KG systems: 1) attentive reasoning, reasoning over a few target relations of more concerns instead of all; 2) explanation, providing explanations for a prediction to help both users and business operators understand why the prediction is made; 3) transferable rules, generating reusable rules to accelerate the deployment of a KG to new systems. While non existing KGE could meet all these desiderata, we propose a novel one, an explainable knowledge graph attention network that make prediction through modeling correlations between triples rather than purely relying on its head entity, relation and tail entity embeddings. It could automatically selects attentive triples for prediction and records the contribution of them at the same time, from which explanations could be easily provided and transferable rules could be efficiently produced. We empirically show that our method is capable of meeting all three desiderata in our e-commerce application and outperform typical baselines on datasets from real domain applications.
翻訳日:2021-12-17 15:54:15 公開日:2021-12-16
# FIgLibとSmokeyNet:リアルタイム森林火災煙検知のためのデータセットとディープラーニングモデル

FIgLib & SmokeyNet: Dataset and Deep Learning Model for Real-Time Wildland Fire Smoke Detection ( http://arxiv.org/abs/2112.08598v1 )

ライセンス: Link先を確認
Anshuman Dewangan, Yash Pande, Hans-Werner Braun, Frank Vernon, Ismael Perez, Ilkay Atlintas, Gary Cottrell, Mai H. Nguyen(参考訳) アメリカ合衆国西部における森林火災の規模と頻度は近年劇的に増加している。 高火の日は、小さな火の点火が急速に増加し、制御不能になる。 初期煙からの発火の早期検出は、管理が困難になる前に、このような火災に対する応答を助けることができる。 過去のワイルドファイアスモーク検出のディープラーニングアプローチでは、小さな、あるいは信頼性の低いデータセットに苦しめられ、パフォーマンスを現実世界のシナリオに推定することが困難になっている。 本研究では,南カリフォルニアに設置した固定ビューカメラから25,000枚近いラベル付ワイルドファイア煙画像のデータセットであるfiglib(fire ignite library)を提案する。 また,カメラ画像からの時空間情報を利用した,新しいディープラーニングアーキテクチャであるsmokeynetも紹介する。 FIgLibデータセットでトレーニングすると、SmokeyNetは同等のベースラインを上回り、人間のパフォーマンスに匹敵する。 figlibデータセットとsmokeynetアーキテクチャが利用可能になれば、wildfireスモーク検出のためのディープラーニング方法に関するさらなる研究が促進され、wildfire応答の時間を短縮する自動通知システムが実現することを期待しています。

The size and frequency of wildland fires in the western United States have dramatically increased in recent years. On high fire-risk days, a small fire ignition can rapidly grow and get out of control. Early detection of fire ignitions from initial smoke can assist the response to such fires before they become difficult to manage. Past deep learning approaches for wildfire smoke detection have suffered from small or unreliable datasets that make it difficult to extrapolate performance to real-world scenarios. In this work, we present the Fire Ignition Library (FIgLib), a publicly-available dataset of nearly 25,000 labeled wildfire smoke images as seen from fixed-view cameras deployed in Southern California. We also introduce SmokeyNet, a novel deep learning architecture using spatio-temporal information from camera imagery for real-time wildfire smoke detection. When trained on the FIgLib dataset, SmokeyNet outperforms comparable baselines and rivals human performance. We hope that the availability of the FIgLib dataset and the SmokeyNet architecture will inspire further research into deep learning methods for wildfire smoke detection, leading to automated notification systems that reduce the time to wildfire response.
翻訳日:2021-12-17 15:53:03 公開日:2021-12-16
# Kinectを用いた行動認識アルゴリズムの解析と評価

Analysis and Evaluation of Kinect-based Action Recognition Algorithms ( http://arxiv.org/abs/2112.08626v1 )

ライセンス: Link先を確認
Lei Wang(参考訳) 人間の行動認識は、様々な視点、咬合、照明条件、人体サイズ、行動実行速度といった多くの困難な問題が存在するが、様々な領域で広く使われている。 これらの課題に対処するため、Kinect深度センサーは、人間の衣服の色や照明条件に敏感なリアルタイム深度シーケンスを記録するために開発された。 HON4D, HOPC, RBD, HDGなどの文献では, 4次元表面の正規分布, 点雲, 骨格モデル, 深度勾配を用いて, 深度ビデオや骨格データから識別情報を抽出する手法が報告されている。 本研究では,上記の4つのアルゴリズムの性能を,雑音,視点の変化,背景クラッタ,オクルージョンなどの課題をカバーする5つのベンチマークデータセットを用いて解析・評価する。 また,HDGアルゴリズムの実装と改良を行い,UWA3D Multiview Activity データセットを用いたクロスビュー動作認識に適用した。 また,HDGの個々の特徴ベクトルの組み合わせを用いて性能評価を行った。 実験の結果,hdgの改善は他の3つの最先端アルゴリズムよりも優れていることがわかった。

Human action recognition still exists many challenging problems such as different viewpoints, occlusion, lighting conditions, human body size and the speed of action execution, although it has been widely used in different areas. To tackle these challenges, the Kinect depth sensor has been developed to record real time depth sequences, which are insensitive to the color of human clothes and illumination conditions. Many methods on recognizing human action have been reported in the literature such as HON4D, HOPC, RBD and HDG, which use the 4D surface normals, pointclouds, skeleton-based model and depth gradients respectively to capture discriminative information from depth videos or skeleton data. In this research project, the performance of four aforementioned algorithms will be analyzed and evaluated using five benchmark datasets, which cover challenging issues such as noise, change of viewpoints, background clutters and occlusions. We also implemented and improved the HDG algorithm, and applied it in cross-view action recognition using the UWA3D Multiview Activity dataset. Moreover, we used different combinations of individual feature vectors in HDG for performance evaluation. The experimental results show that our improvement of HDG outperforms other three state-of-the-art algorithms for cross-view action recognition.
翻訳日:2021-12-17 15:52:44 公開日:2021-12-16
# 運動とホモグラフィ推定による道路対応単眼構造

Road-aware Monocular Structure from Motion and Homography Estimation ( http://arxiv.org/abs/2112.08635v1 )

ライセンス: Link先を確認
Wei Sui, Teng Chen, Jiaxin Zhang, Jiao Lu, Qian Zhang(参考訳) structure from motion (sfm) とグランドプレーンのホモグラフィ推定は、自動運転や他のロボット応用に不可欠である。 近年、SFMとホモグラフィー推定にディープニューラルネットワークを用いることで、多くの進歩がなされている。 しかし,地平面のホモグラフィー推定に既存の手法を直接適用することは,道路がシーンの小さな部分であることが多いため失敗する可能性がある。 さらに、深いSFM手法の性能は従来の手法よりも劣っている。 本稿では,両課題をエンドツーエンドで解決し,両者の性能を向上させる手法を提案する。 提案ネットワークはDepth-CNN, Pose-CNN, Ground-CNNで構成されている。 深度CNNとPose-CNNはそれぞれ深度マップとエゴモーメントを推定し、Pose-CNNとGarth-CNNはホモグラフィー層によって地上平面推定問題を解く。 SFMとホモグラフィー推定結果のコヒーレンシーを強制することにより、オフザシェルフセグメンタによって提供される道路セグメンテーション以外の基盤構造なしに、全ネットワークを測光損失とホモグラフィー損失を用いてエンドツーエンドにトレーニングすることができる。 KITTIベンチマークを用いて、様々な最先端手法と比較して有望な結果を示す総合的な実験を行った。

Structure from motion (SFM) and ground plane homography estimation are critical to autonomous driving and other robotics applications. Recently, much progress has been made in using deep neural networks for SFM and homography estimation respectively. However, directly applying existing methods for ground plane homography estimation may fail because the road is often a small part of the scene. Besides, the performances of deep SFM approaches are still inferior to traditional methods. In this paper, we propose a method that learns to solve both problems in an end-to-end manner, improving performance on both. The proposed networks consist of a Depth-CNN, a Pose-CNN and a Ground-CNN. The Depth-CNN and Pose-CNN estimate dense depth map and ego-motion respectively, solving SFM, while the Pose-CNN and Ground-CNN followed by a homography layer solve the ground plane estimation problem. By enforcing coherency between SFM and homography estimation results, the whole network can be trained end to end using photometric loss and homography loss without any groundtruth except the road segmentation provided by an off-the-shelf segmenter. Comprehensive experiments are conducted on KITTI benchmark to demonstrate promising results compared with various state-of-the-art approaches.
翻訳日:2021-12-17 15:52:23 公開日:2021-12-16
# 人物再同定のための特徴消去と拡散ネットワーク

Feature Erasing and Diffusion Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2112.08740v1 )

ライセンス: Link先を確認
Zhikang Wang, Feng Zhu, Shixiang Tang, Rui Zhao, Lihuo He, Jiangning Song(参考訳) occluded person re-identification (reid) は、異なるカメラビューの全体像と、occluded personイメージをマッチングすることを目的としている。 目標歩行者(tp)は通常、非ペレスタル閉塞(npo)と非目標歩行者(ntp)によって妨害される。 従来の手法は主に、NTPの特徴汚染を無視しながら、NPOに対するモデルの堅牢性を高めることに焦点を当てていた。 本稿では,NPO と NTP を同時に扱う新しい特徴消去拡散ネットワーク (FED) を提案する。 具体的には,本提案したOcclusion Erasing Module (OEM) によってNPOの特徴を排除し,NPOを総合的な歩行者画像上でシミュレートし,正確な閉塞マスクを生成するNPO拡張戦略によって支援する。 その後,新しい特徴拡散モジュール (FDM) によって達成される特徴空間のNTP特性を学習可能なクロスアテンション機構によって合成するために,歩行者表現を他の記憶特徴と拡散させる。 OEMからのオクルージョンスコアの誘導により, 合成したNTP特性の品質を保証するために, 主に可視体部に特徴拡散処理を行う。 提案するFEDネットワークにおけるOEMとFDMの協調最適化により,TPに対する認識能力を大幅に向上し,NPOとNTPの影響を軽減することができる。 さらに、提案するFDMは、トレーニング用の補助モジュールとしてのみ機能し、推論フェーズで破棄されるため、推論計算オーバーヘッドが少なくなる。 包括的かつ包括的なReIDベンチマークの実験は、FEDがOccluded-REID上で86.3%のランク-1の精度を達成し、少なくとも4.7%の差でFEDの優位性を示した。

Occluded person re-identification (ReID) aims at matching occluded person images to holistic ones across different camera views. Target Pedestrians (TP) are usually disturbed by Non-Pedestrian Occlusions (NPO) and NonTarget Pedestrians (NTP). Previous methods mainly focus on increasing model's robustness against NPO while ignoring feature contamination from NTP. In this paper, we propose a novel Feature Erasing and Diffusion Network (FED) to simultaneously handle NPO and NTP. Specifically, NPO features are eliminated by our proposed Occlusion Erasing Module (OEM), aided by the NPO augmentation strategy which simulates NPO on holistic pedestrian images and generates precise occlusion masks. Subsequently, we Subsequently, we diffuse the pedestrian representations with other memorized features to synthesize NTP characteristics in the feature space which is achieved by a novel Feature Diffusion Module (FDM) through a learnable cross attention mechanism. With the guidance of the occlusion scores from OEM, the feature diffusion process is mainly conducted on visible body parts, which guarantees the quality of the synthesized NTP characteristics. By jointly optimizing OEM and FDM in our proposed FED network, we can greatly improve the model's perception ability towards TP and alleviate the influence of NPO and NTP. Furthermore, the proposed FDM only works as an auxiliary module for training and will be discarded in the inference phase, thus introducing little inference computational overhead. Experiments on occluded and holistic person ReID benchmarks demonstrate the superiority of FED over state-of-the-arts, where FED achieves 86.3% Rank-1 accuracy on Occluded-REID, surpassing others by at least 4.7%.
翻訳日:2021-12-17 15:52:02 公開日:2021-12-16
# 無線支援人間検出

Radio-Assisted Human Detection ( http://arxiv.org/abs/2112.08743v1 )

ライセンス: Link先を確認
Chengrun Qiu, Dongheng Zhang, Yang Hu, Houqiang Li, Qibin Sun, Yan Chen(参考訳) 本稿では,アンカーベース1段検出器と2段検出器を含む最先端検出手法に,無線情報を取り入れた無線支援人体検知フレームワークを提案する。 無線信号から無線の局部化と識別情報を抽出して人検出を支援するため, 偽陽性や偽陰性の問題を大幅に軽減できる。 両検出器において,無線位置化に基づく信頼度スコアリビジョンを用いて検出性能を向上する。 2段階検出法では,地域提案ネットワーク(RPN)に頼るのではなく,無線の局部化から発生する領域提案を利用する。 さらに, 無線識別情報を用いて, 誤り検出をさらに抑制し, 誤り検出を減らすために, 無線位置制約付き非最大抑制法も提案されている。 シミュレーション可能なMicrosoft COCOデータセットとCaltechの歩行者データセットの実験では、平均平均精度(mAP)と最先端検出手法のミスレートが、無線情報を用いて改善できることが示されている。 最後に,実世界のシナリオで実験を行い,提案手法の有効性を実証する。

In this paper, we propose a radio-assisted human detection framework by incorporating radio information into the state-of-the-art detection methods, including anchor-based onestage detectors and two-stage detectors. We extract the radio localization and identifer information from the radio signals to assist the human detection, due to which the problem of false positives and false negatives can be greatly alleviated. For both detectors, we use the confidence score revision based on the radio localization to improve the detection performance. For two-stage detection methods, we propose to utilize the region proposals generated from radio localization rather than relying on region proposal network (RPN). Moreover, with the radio identifier information, a non-max suppression method with the radio localization constraint has also been proposed to further suppress the false detections and reduce miss detections. Experiments on the simulative Microsoft COCO dataset and Caltech pedestrian datasets show that the mean average precision (mAP) and the miss rate of the state-of-the-art detection methods can be improved with the aid of radio information. Finally, we conduct experiments in real-world scenarios to demonstrate the feasibility of our proposed method in practice.
翻訳日:2021-12-17 15:50:22 公開日:2021-12-16
# DProST:空間彫刻と動的射影空間変換器を用いた6自由度物体位置推定

DProST: 6-DoF Object Pose Estimation Using Space Carving and Dynamic Projective Spatial Transformer ( http://arxiv.org/abs/2112.08775v1 )

ライセンス: Link先を確認
Jaewoo Park, Nam Ik Cho(参考訳) オブジェクトのポーズを予測することは、コアコンピュータビジョンタスクである。 深層学習に基づくポーズ推定手法はCADデータに3D中間表現やプロジェクト2Dの外観を利用する必要がある。 しかし、興味のあるオブジェクトのcadデータが利用できない場合、これらの手法は使用できない。 さらに,既存の手法は視点歪みを学習過程に正確に反映しなかった。 また, 自己閉塞による情報損失は十分に研究されていない。 本稿では,CADデータを置き換えるために,参照3次元特徴を再構成する空間彫刻モジュールからなる新しいポーズ推定システムを提案する。 さらに,新しい変換モジュールであるdynamic projective spatial transformer (dprost) は,視点歪みを考慮した姿勢を反映する参照3次元特徴を変換する。 また,2方向Zバッファリング(BiZバッファ)法により,物体の正面視と自己閉塞バックビューの両方を抽出し,自己閉塞問題を克服する。 最後に、CADデータなしでポーズ推定器を安定的に学習できるパースペクティブグリッド距離損失(PGDL)を提案する。 実験の結果,本手法は,ネットワークトレーニングにおいてCADデータを必要とする手法と比較して,LINEMODデータセットの最先端手法とLINEMOD-OCCLUSIONデータセットの同等性能に優れていた。

Predicting the pose of an object is a core computer vision task. Most deep learning-based pose estimation methods require CAD data to use 3D intermediate representations or project 2D appearance. However, these methods cannot be used when CAD data for objects of interest are unavailable. Besides, the existing methods did not precisely reflect the perspective distortion to the learning process. In addition, information loss due to self-occlusion has not been studied well. In this regard, we propose a new pose estimation system consisting of a space carving module that reconstructs a reference 3D feature to replace the CAD data. Moreover, Our new transformation module, Dynamic Projective Spatial Transformer (DProST), transforms a reference 3D feature to reflect the pose while considering perspective distortion. Also, we overcome the self-occlusion problem by a new Bidirectional Z-buffering (BiZ-buffer) method, which extracts both the front view and the self-occluded back view of the object. Lastly, we suggest a Perspective Grid Distance Loss (PGDL), enabling stable learning of the pose estimator without CAD data. Experimental results show that our method outperforms the state-of-the-art method on the LINEMOD dataset and comparable performance on LINEMOD-OCCLUSION dataset even compared to the methods that require CAD data in network training.
翻訳日:2021-12-17 15:50:02 公開日:2021-12-16
# GRAM:3次元画像生成のための生成放射マニフォールド

GRAM: Generative Radiance Manifolds for 3D-Aware Image Generation ( http://arxiv.org/abs/2112.08867v1 )

ライセンス: Link先を確認
Yu Deng, Jiaolong Yang, Jianfeng Xiang, Xin Tong(参考訳) 3D対応画像生成モデリングは、カメラポーズを明示的に制御可能な3D一貫性画像を生成することを目的としている。 ニューラル・ラジアンス・フィールド (nerf) ジェネレータを非構造化2d画像に訓練することで、近年の研究では有望な結果が得られたが、細部まで詳細な画像を生成することはできない。 重要な理由は、ボリューム表現学習の高記憶量と計算コストが、トレーニング中の放射積分のための点サンプル数を大幅に制限しているためである。 欠損サンプリングは、ジェネレータの表現力を制限するだけでなく、不安定なモンテカルロサンプリングによるノイズによる効果的なGANトレーニングを阻害する。 本稿では,3次元体積の暗黙曲面の集合として具体化された2次元多様体上の点サンプリングと放射場学習を規制する新しい手法を提案する。 それぞれの視線に対して、線面の交点を計算し、ネットワークによって生成された放射率を蓄積する。 このような放射率多様体の訓練とレンダリングにより、われわれのジェネレータは、現実的な細部と強力な視覚的3D整合性を持つ高品質な画像を生成することができる。

3D-aware image generative modeling aims to generate 3D-consistent images with explicitly controllable camera poses. Recent works have shown promising results by training neural radiance field (NeRF) generators on unstructured 2D images, but still can not generate highly-realistic images with fine details. A critical reason is that the high memory and computation cost of volumetric representation learning greatly restricts the number of point samples for radiance integration during training. Deficient sampling not only limits the expressive power of the generator to handle fine details but also impedes effective GAN training due to the noise caused by unstable Monte Carlo sampling. We propose a novel approach that regulates point sampling and radiance field learning on 2D manifolds, embodied as a set of learned implicit surfaces in the 3D volume. For each viewing ray, we calculate ray-surface intersections and accumulate their radiance generated by the network. By training and rendering such radiance manifolds, our generator can produce high quality images with realistic fine details and strong visual 3D consistency.
翻訳日:2021-12-17 15:49:39 公開日:2021-12-16
# ワンステージ・アンカーフリー物体検出における最小コストのミスアライメントに向けて

Toward Minimal Misalignment at Minimal Cost in One-Stage and Anchor-Free Object Detection ( http://arxiv.org/abs/2112.08902v1 )

ライセンス: Link先を確認
Shuaizheng Hao, Hongzhe Liu, Ningwei Wang and Cheng Xu(参考訳) 一般的なオブジェクト検出モデルは分類と回帰枝で構成され、タスクドライバによって異なるため、これら2つの枝は同じスケールレベルと同じ空間位置から特徴に対する感受性が異なる。 高い分類信頼点が高い回帰品質を持つという仮定に基づく点ベース予測法は,誤認識問題を引き起こす。 分析の結果,この問題は特にスケールミスと空間ミスアライメントで構成されていることがわかった。 我々は,ヘッドネットワークの微調整と,新しいラベル割り当て方式により,最小限のコストでこの現象を解消することを目指している。 実験の結果,一段階およびアンカーフリーの物体検出モデルであるfcosと比較して,異なるバックボーンを持つ3つのap改善が一貫して得られ,単純さと効率性が実証された。

Common object detection models consist of classification and regression branches, due to different task drivers, these two branches have different sensibility to the features from the same scale level and the same spatial location. The point-based prediction method, which is based on the assumption that the high classification confidence point has the high regression quality, leads to the misalignment problem. Our analysis shows, the problem is further composed of scale misalignment and spatial misalignment specifically. We aim to resolve the phenomenon at minimal cost: a minor adjustment of the head network and a new label assignment method replacing the rigid one. Our experiments show that, compared to the baseline FCOS, a one-stage and anchor-free object detection model, our model consistently get around 3 AP improvement with different backbones, demonstrating both simplicity and efficiency of our method.
翻訳日:2021-12-17 15:49:21 公開日:2021-12-16
# 自己教師付き映像表現のための時空間前文学習

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation ( http://arxiv.org/abs/2112.08913v1 )

ライセンス: Link先を確認
Yujia Zhang, Lai-Man Po, Xuyuan Xu, Mengyang Liu, Yexin Wang, Weifeng Ou, Yuzhi Zhao, Wing-Yin Yu(参考訳) 時空間表現学習はビデオ自己教師あり表現に不可欠である。 最近のアプローチでは、主に対比学習と前文タスクを使用する。 しかし、これらの手法は、学習された表現の中間状態を無視しながら、潜在空間における特徴的類似性を通じてサンプルインスタンスを識別することで表現を学ぶ。 本研究では,サンプルインスタンスの類似度を中間状態として考慮し,新しいプレテキスト・タスク比時間重なり率(STOR)予測を提案する。 それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。 このタスクはモデルが2つの生成されたサンプルのSTORを識別して表現を学ぶことを奨励する。 さらに,前文課題と対比学習を組み合わせた協調最適化を行い,時空間表現学習をさらに強化する。 また,提案手法における各成分の相互影響についても検討した。 我々の提案するSTORタスクは、コントラスト学習とプレテキストタスクの両方に有利であることを示す。 協調最適化手法は映像理解における時空間表現を著しく改善することができる。 コードはhttps://github.com/K atou2/CSTPで公開されている。

Spatio-temporal representation learning is critical for video self-supervised representation. Recent approaches mainly use contrastive learning and pretext tasks. However, these approaches learn representation by discriminating sampled instances via feature similarity in the latent space while ignoring the intermediate state of the learned representations, which limits the overall performance. In this work, taking into account the degree of similarity of sampled instances as the intermediate state, we propose a novel pretext task - spatio-temporal overlap rate (STOR) prediction. It stems from the observation that humans are capable of discriminating the overlap rates of videos in space and time. This task encourages the model to discriminate the STOR of two generated samples to learn the representations. Moreover, we employ a joint optimization combining pretext tasks with contrastive learning to further enhance the spatio-temporal representation learning. We also study the mutual influence of each component in the proposed scheme. Extensive experiments demonstrate that our proposed STOR task can favor both contrastive learning and pretext tasks. The joint optimization scheme can significantly improve the spatio-temporal representation in video understanding. The code is available at https://github.com/K atou2/CSTP.
翻訳日:2021-12-17 15:49:04 公開日:2021-12-16
# 弱教師付きセマンティックセグメンテーションにおけるアクティベーション変調とリカレーション方式

Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.08996v1 )

ライセンス: Link先を確認
Jie Qin, Jie Wu, Xuefeng Xiao, Lujun Li, Xingang Wang(参考訳) 画像レベルの弱い教師付きセマンティックセグメンテーション(WSSS)は、シーン理解と自動運転を容易にする基本的なコンピュータビジョンタスクである。 既存のほとんどの手法では、分類に基づくクラスアクティベーションマップ (CAM) を用いて初期擬似ラベルとして機能し、識別画像領域に集中し、セグメンテーションタスクのカスタマイズされた特徴を欠いている。 この問題を軽減するために、スポットライトブランチと補償ブランチを活用して、リカレーション監視とタスク固有の概念を提供する重み付きCAMを得る新しいアクティベーション変調・リカレーション(AMR)方式を提案する。 具体的には、アテンション変調モジュール(AMM)を用いて、チャネル空間の逐次的な視点から特徴量の分布を再構成し、チャネルの相互依存性と空間エンコーディングを明確にモデル化し、セグメンテーション指向のアクティベーション応答を適応的に変調する。 さらに,2つの枝を相互に洗練する意味的類似の正規化として捉えることができる,二重枝の相互疑似監督を導入する。 大規模な実験により、AMRはPASCAL VOC 2012データセット上で新しい最先端のパフォーマンスを確立し、画像レベルの監督で訓練された現在の方法だけでなく、唾液ラベルのようなより強力な監督に依存する方法も超えている。 実験の結果,本手法はプラグアンドプレイであり,他の手法と組み合わせて性能を向上できることがわかった。

Image-level weakly supervised semantic segmentation (WSSS) is a fundamental yet challenging computer vision task facilitating scene understanding and automatic driving. Most existing methods resort to classification-based Class Activation Maps (CAMs) to play as the initial pseudo labels, which tend to focus on the discriminative image regions and lack customized characteristics for the segmentation task. To alleviate this issue, we propose a novel activation modulation and recalibration (AMR) scheme, which leverages a spotlight branch and a compensation branch to obtain weighted CAMs that can provide recalibration supervision and task-specific concepts. Specifically, an attention modulation module (AMM) is employed to rearrange the distribution of feature importance from the channel-spatial sequential perspective, which helps to explicitly model channel-wise interdependencies and spatial encodings to adaptively modulate segmentation-oriente d activation responses. Furthermore, we introduce a cross pseudo supervision for dual branches, which can be regarded as a semantic similar regularization to mutually refine two branches. Extensive experiments show that AMR establishes a new state-of-the-art performance on the PASCAL VOC 2012 dataset, surpassing not only current methods trained with the image-level of supervision but also some methods relying on stronger supervision, such as saliency label. Experiments also reveal that our scheme is plug-and-play and can be incorporated with other approaches to boost their performance.
翻訳日:2021-12-17 15:48:45 公開日:2021-12-16
# MVTec 3D-ADデータセットによる教師なし3次元異常検出と位置推定

The MVTec 3D-AD Dataset for Unsupervised 3D Anomaly Detection and Localization ( http://arxiv.org/abs/2112.09045v1 )

ライセンス: Link先を確認
Paul Bergmann, Xin Jin, David Sattlegger, Carsten Steger(参考訳) 教師なし異常検出と局所化のための,最初の包括的3Dデータセットを提案する。 たとえ異常のないデータだけをトレーニングしても、モデルが製造製品の様々なタイプの欠陥を検知しなければならない、実世界のビジュアルインスペクションシナリオに触発されたものだ。 物体の幾何学的構造に異常として現れる欠陥がある。 これはデータの3次元表現に重大な偏りを引き起こす。 我々は高分解能な工業用3Dセンサを用いて10種類の物体の深度スキャンを行った。 すべての対象カテゴリに対して、トレーニングと検証セットを提示し、それぞれが異常のないサンプルのスキャンのみからなる。 対応するテストセットには、傷、歯列、穴、汚染、変形などの様々な欠陥を示すサンプルが含まれている。 異常なテストサンプル毎に正確な地上アノテーションが提供されている。 データセット上の3次元異常検出手法の最初のベンチマークは、改善の余地がかなりあることを示している。

We introduce the first comprehensive 3D dataset for the task of unsupervised anomaly detection and localization. It is inspired by real-world visual inspection scenarios in which a model has to detect various types of defects on manufactured products, even if it is trained only on anomaly-free data. There are defects that manifest themselves as anomalies in the geometric structure of an object. These cause significant deviations in a 3D representation of the data. We employed a high-resolution industrial 3D sensor to acquire depth scans of 10 different object categories. For all object categories, we present a training and validation set, each of which solely consists of scans of anomaly-free samples. The corresponding test sets contain samples showing various defects such as scratches, dents, holes, contaminations, or deformations. Precise ground-truth annotations are provided for every anomalous test sample. An initial benchmark of 3D anomaly detection methods on our dataset indicates a considerable room for improvement.
翻訳日:2021-12-17 15:48:16 公開日:2021-12-16
# MAVE:マルチソース属性値抽出のための製品データセット

MAVE: A Product Dataset for Multi-source Attribute Value Extraction ( http://arxiv.org/abs/2112.08663v1 )

ライセンス: Link先を確認
Li Yang, Qifan Wang, Zac Yu, Anand Kulkarni, Sumit Sanghai, Bin Shu, Jon Elsas, Bhargav Kanagal(参考訳) 属性値抽出(英: attribute value extraction)は、製品情報から興味のある属性の値を識別するタスクである。 製品属性の価値は、カスタマサービスロボット、製品ランキング、検索、レコメンデーションなど、多くのeコマースシナリオにおいて不可欠です。 現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。 本稿では,製品属性値の抽出をより容易にするための新しいデータセットであるmaveを紹介する。 MAVEはAmazonページから220万の商品をキュレートしたもので、1257のユニークなカテゴリに300万の属性値アノテーションがある。 まず、MAVEは属性値の例の数で最大の製品属性値抽出データセットである。 第二に、MAVEは製品からのマルチソース表現を含み、高い属性カバレッジで製品の全情報をキャプチャします。 第3に、MAVEは、以前のデータセットがカバーするものと比較して、より多様な属性と値のセットを表す。 最後に、MAVEは実験で実証的に説明したように、非常に難しいゼロショットテストセットを提供します。 さらに,マルチソース製品情報から属性値を効果的に抽出する手法を提案する。 いくつかのベースラインで広範な実験を行い、MAVEが属性値抽出タスクに有効なデータセットであることを示す。 また、ゼロショット属性抽出の非常に難しいタスクでもある。 データは {\it \url{https://github.com/g oogle-research-datas ets/MAVE}}で入手できる。

Attribute value extraction refers to the task of identifying values of an attribute of interest from product information. Product attribute values are essential in many e-commerce scenarios, such as customer service robots, product ranking, retrieval and recommendations. While in the real world, the attribute values of a product are usually incomplete and vary over time, which greatly hinders the practical applications. In this paper, we introduce MAVE, a new dataset to better facilitate research on product attribute value extraction. MAVE is composed of a curated set of 2.2 million products from Amazon pages, with 3 million attribute-value annotations across 1257 unique categories. MAVE has four main and unique advantages: First, MAVE is the largest product attribute value extraction dataset by the number of attribute-value examples. Second, MAVE includes multi-source representations from the product, which captures the full product information with high attribute coverage. Third, MAVE represents a more diverse set of attributes and values relative to what previous datasets cover. Lastly, MAVE provides a very challenging zero-shot test set, as we empirically illustrate in the experiments. We further propose a novel approach that effectively extracts the attribute value from the multi-source product information. We conduct extensive experiments with several baselines and show that MAVE is an effective dataset for attribute value extraction task. It is also a very challenging task on zero-shot attribute extraction. Data is available at {\it \url{https://github.com/g oogle-research-datas ets/MAVE}}.
翻訳日:2021-12-17 15:46:59 公開日:2021-12-16
# 中間層監視による音声認識のための自己教師付き学習

Self-Supervised Learning for speech recognition with Intermediate layer supervision ( http://arxiv.org/abs/2112.08778v1 )

ライセンス: Link先を確認
Chengyi Wang, Yu Wu, Sanyuan Chen, Shujie Liu, Jinyu Li, Yao Qian and Zhenglu Yang(参考訳) 近年,話者関連情報と上位層を学習し,コンテンツ関連情報をエンコードする手法としてボトム層を利用するため,事前学習した音声モデルによる音声処理課題の解法が提案されている。 ネットワーク容量は限られているため,モデルが音声コンテンツ情報学習に特化すれば,音声認識性能はさらに向上すると考えられる。 そこで本研究では,中間層にssl損失を付加することにより,モデルを可能な限りコンテンツ情報に集中させる自己教師付き学習(ils-ssl)のための中間層監視を提案する。 LibriSpeech の他のテストセットの実験から,提案手法は HuBERT よりも優れており,基本/大規模モデルのw/o言語モデル設定において,単語誤り率を 23.5%/11.6% 削減できることがわかった。 詳細な分析によって,モデルの下位層が音素単位とよりよく相関していることが分かり,我々の直観と一致し,asr法の成功を説明している。

Recently, pioneer work finds that speech pre-trained models can solve full-stack speech processing tasks, because the model utilizes bottom layers to learn speaker-related information and top layers to encode content-related information. Since the network capacity is limited, we believe the speech recognition performance could be further improved if the model is dedicated to audio content information learning. To this end, we propose Intermediate Layer Supervision for Self-Supervised Learning (ILS-SSL), which forces the model to concentrate on content information as much as possible by adding an additional SSL loss on the intermediate layers. Experiments on LibriSpeech test-other set show that our method outperforms HuBERT significantly, which achieves a 23.5%/11.6% relative word error rate reduction in the w/o language model setting for base/large models. Detailed analysis shows the bottom layers of our model have a better correlation with phonetic units, which is consistent with our intuition and explains the success of our method for ASR.
翻訳日:2021-12-17 15:46:35 公開日:2021-12-16
# ベイズネットワークによる販売予測--プロモーションの場におけるスーパーマーケットの事例-

Forecasting sales with Bayesian networks: a case study of a supermarket product in the presence of promotions ( http://arxiv.org/abs/2112.08706v1 )

ライセンス: Link先を確認
Muhammad Hamza, Mahdi Abolghasemi, Abraham Oshni Alvandi(参考訳) 販売予測は、サプライチェーンにおける生産計画、物質資源計画、予算計画など、多くの管理上の決定の前提条件である。 プロモーションは、販売を促進するためによく使われる最も重要なビジネス戦略の1つです。 プロモーションは需要を生み出す上で魅力的だが、その存在下での需要を予測することはしばしば困難である。 過去数十年間、統計モデルや機械学習モデルを含む数種類の定量的モデルが開発されてきた。 しかし、これらの方法が販売に影響を与える可能性のあるすべての内外的要因を考慮に入れるには不十分かもしれない。 その結果,定量的手法とともに質的モデルが採用され,コンテクスト情報の提供による予測精度の向上が実証されている。 このようなモデルは、プロモーション中に販売が急速に変化する要因を考慮に入れるために広く使われている。 本稿では,価格,種類のプロモーション,製品位置といった要因が売上に影響を与えるようなプロモーション販売の予測にベイジアンネットワークを利用することを目標とする。 我々はbnモデルを開発することを選んだ。bnモデルには本質的に様々な質的・量的要因と因果形を組み合わせる能力があり、プロモーション中に販売予測を行う魅力的なツールとなる。 これは、このケーススタディの文脈で企業のプロモーション戦略を調整するために使用できます。 オーストラリアで製品を販売している小売業者から、特定の製品の販売データを収集する。 この製品のためのベイズネットワークを開発し、実証分析によりその結果を検証する。 本稿では,特にプロモーションにおいて,BNが販売予測に有効であることを確認した。 最終的に、販売予測にBNを使用するための研究方法をいくつか提示する。

Sales forecasting is the prerequisite for a lot of managerial decisions such as production planning, material resource planning and budgeting in the supply chain. Promotions are one of the most important business strategies that are often used to boost sales. While promotions are attractive for generating demand, it is often difficult to forecast demand in their presence. In the past few decades, several quantitative models have been developed to forecast sales including statistical and machine learning models. However, these methods may not be adequate to account for all the internal and external factors that may impact sales. As a result, qualitative models have been adopted along with quantitative methods as consulting experts has been proven to improve forecast accuracy by providing contextual information. Such models are being used extensively to account for factors that can lead to a rapid change in sales, such as during promotions. In this paper, we aim to use Bayesian Networks to forecast promotional sales where a combination of factors such as price, type of promotions, and product location impacts sales. We choose to develop a BN model because BN models essentially have the capability to combine various qualitative and quantitative factors with causal forms, making it an attractive tool for sales forecasting during promotions. This can be used to adjust a company's promotional strategy in the context of this case study. We gather sales data for a particular product from a retailer that sells products in Australia. We develop a Bayesian Network for this product and validate our results by empirical analysis. This paper confirms that BNs can be effectively used to forecast sales, especially during promotions. In the end, we provide some research avenues for using BNs in forecasting sales.
翻訳日:2021-12-17 15:45:59 公開日:2021-12-16
# 複数の環境における教師なし強化学習

Unsupervised Reinforcement Learning in Multiple Environments ( http://arxiv.org/abs/2112.08746v1 )

ライセンス: Link先を確認
Mirco Mutti, Mattia Mancassola, Marcello Restelli(参考訳) いくつかの最近の研究は、教師なし強化学習に特化しており、まずは教師なしの相互作用で事前訓練され、その後、同じ環境上で定義された複数の下流教師付きタスクに対する最適なポリシーに向けて微調整される。 この線に沿って、複数の環境のクラスにおける教師なし強化学習の問題に対処し、クラス全体のインタラクションによってポリシーを事前訓練し、クラス内の任意の環境においていくつかのタスクを微調整する。 特に、問題は本質的に多目的であり、多くの方法で環境間で事前訓練対象をトレードオフできる。 本研究では,クラス内の最も有害な事例に敏感な探索戦略を育成する。 そこで我々は,調査問題を,環境のクラスにわたる探索戦略によって引き起こされる国家訪問エントロピーの臨界パーセンタイルの平均値の最大化とみなした。 そこで本研究では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$\alpha$MEPOLを提案する。 最後に, 学習におけるアルゴリズムの学習能力を実証的に実証し, 学習をスクラッチから学習する事前訓練された探索戦略から, 強化学習が大きな恩恵を受けることを示す。

Several recent works have been dedicated to unsupervised reinforcement learning in a single environment, in which a policy is first pre-trained with unsupervised interactions, and then fine-tuned towards the optimal policy for several downstream supervised tasks defined over the same environment. Along this line, we address the problem of unsupervised reinforcement learning in a class of multiple environments, in which the policy is pre-trained with interactions from the whole class, and then fine-tuned for several tasks in any environment of the class. Notably, the problem is inherently multi-objective as we can trade off the pre-training objective between environments in many ways. In this work, we foster an exploration strategy that is sensitive to the most adverse cases within the class. Hence, we cast the exploration problem as the maximization of the mean of a critical percentile of the state visitation entropy induced by the exploration strategy over the class of environments. Then, we present a policy gradient algorithm, $\alpha$MEPOL, to optimize the introduced objective through mediated interactions with the class. Finally, we empirically demonstrate the ability of the algorithm in learning to explore challenging classes of continuous environments and we show that reinforcement learning greatly benefits from the pre-trained exploration strategy w.r.t. learning from scratch.
翻訳日:2021-12-17 15:45:36 公開日:2021-12-16
# DISTREAL:異種システムにおける分散リソース認識学習

DISTREAL: Distributed Resource-Aware Learning in Heterogeneous Systems ( http://arxiv.org/abs/2112.08761v1 )

ライセンス: Link先を確認
Martin Rapp, Ramin Khalili, Kilian Pfeiffer, J\"org Henkel(参考訳) 計算資源の不均一性,制限,時間変化のあるデバイス上でのニューラルネットワーク(NN)の分散トレーニングの問題について検討する。 本稿では,デバイス上で利用可能なリソースを分散的に効果的に活用し,収束速度を向上できる適応型,リソース対応型,オンデバイス学習機構であるdistrealを提案する。 これは、モデルの畳み込み層のフィルタをランダムに落として、nnのトレーニングの計算複雑性を動的に調整するドロップアウト機構によって達成される。 私たちの主な貢献は、リソース要求とトレーニングの収束速度に関してpareto-optimal per-layer dropout vectorを見つけるデザインスペース探索(dse)技術の導入です。 このテクニックを適用することで、各デバイスは、サーバからの助けを必要とせずに、利用可能なリソースに適合するドロップアウトベクトルを動的に選択できる。 我々は、デバイスと時間の両方で計算資源の可用性が変化するフェデレートラーニング(FL)システムにソリューションを実装し、最終的な精度を損なうことなく、最先端のコンバージェンス速度を大幅に向上できることを示す。

We study the problem of distributed training of neural networks (NNs) on devices with heterogeneous, limited, and time-varying availability of computational resources. We present an adaptive, resource-aware, on-device learning mechanism, DISTREAL, which is able to fully and efficiently utilize the available resources on devices in a distributed manner, increasing the convergence speed. This is achieved with a dropout mechanism that dynamically adjusts the computational complexity of training an NN by randomly dropping filters of convolutional layers of the model. Our main contribution is the introduction of a design space exploration (DSE) technique, which finds Pareto-optimal per-layer dropout vectors with respect to resource requirements and convergence speed of the training. Applying this technique, each device is able to dynamically select the dropout vector that fits its available resource without requiring any assistance from the server. We implement our solution in a federated learning (FL) system, where the availability of computational resources varies both between devices and over time, and show through extensive evaluation that we are able to significantly increase the convergence speed over the state of the art without compromising on the final accuracy.
翻訳日:2021-12-17 15:45:15 公開日:2021-12-16
# 部分グラフ同型数とマッチングのためのデュアルメッセージパス付きグラフ畳み込みネットワーク

Graph Convolutional Networks with Dual Message Passing for Subgraph Isomorphism Counting and Matching ( http://arxiv.org/abs/2112.08764v1 )

ライセンス: Link先を確認
Xin Liu, Yangqiu Song(参考訳) グラフニューラルネットワーク(gnns)とメッセージパッシングニューラルネットワーク(mpnn)は多くのアプリケーションでサブグラフ構造に表現力があることが証明されている。 ヘテロジニアスグラフのいくつかの応用は、部分グラフ同型の数え上げやマッチングのような明示的なエッジモデリングを必要とする。 しかし、既存のメッセージパッシング機構は理論上はうまく設計されていない。 本稿では,辺対頂点変換から始め,辺対頂点双対グラフの同型性を利用する。 元のグラフ上の探索同型は、その双対グラフ上の探索と同値であることを示す。 本研究は,2つのメッセージパッシングニューラルネットワーク(DMPNN)を用いて,非教師なしノード分類だけでなく,サブグラフアイソモーフィズムのカウントとマッチングを非同期に行うことによって,サブストラクチャ表現学習を強化する手法を提案する。 大規模な実験は、合成グラフと実異種グラフのノード表現学習とエッジ表現学習を組み合わせることで、DMPNNのロバストな性能を示す。 コードはhttps://github.com/H KUST-KnowComp/DualMe ssagePassingで入手できる。

Graph neural networks (GNNs) and message passing neural networks (MPNNs) have been proven to be expressive for subgraph structures in many applications. Some applications in heterogeneous graphs require explicit edge modeling, such as subgraph isomorphism counting and matching. However, existing message passing mechanisms are not designed well in theory. In this paper, we start from a particular edge-to-vertex transform and exploit the isomorphism property in the edge-to-vertex dual graphs. We prove that searching isomorphisms on the original graph is equivalent to searching on its dual graph. Based on this observation, we propose dual message passing neural networks (DMPNNs) to enhance the substructure representation learning in an asynchronous way for subgraph isomorphism counting and matching as well as unsupervised node classification. Extensive experiments demonstrate the robust performance of DMPNNs by combining both node and edge representation learning in synthetic and real heterogeneous graphs. Code is available at https://github.com/H KUST-KnowComp/DualMe ssagePassing.
翻訳日:2021-12-17 15:44:53 公開日:2021-12-16
# (参考訳) GANトレーニングのためのオフザシェルフモデルの構築 [全文訳有]

Ensembling Off-the-shelf Models for GAN Training ( http://arxiv.org/abs/2112.09130v1 )

ライセンス: CC BY 4.0
Nupur Kumari, Richard Zhang, Eli Shechtman, Jun-Yan Zhu(参考訳) 大規模トレーニングの出現は、強力な視覚認識モデルのコルヌコピアを生み出した。 しかし、GANのような生成モデルは、伝統的に教師なしの方法でゼロから訓練されてきた。 ganトレーニングを改善するために、事前訓練されたビジョンモデルの大きなバンクからの「知識」を活用できるか? もしそうなら、選択すべきモデルがあまりにも多いので、どのモデルを選ぶべきか、最も効果的な方法は何でしょう? 事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。 特に、選択されたモデルの特定のサブセットは、パフォーマンスに大きく影響します。 本稿では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を探索し,最も正確なモデルを選択し,識別器アンサンブルに徐々に付加することにより,効果的な選択機構を提案する。 興味深いことに,本手法は限られたデータと大規模設定の両方におけるGANトレーニングを改善することができる。 LSUN Cat上のFIDは、わずか10kのトレーニングサンプルから、1.6Mの画像でトレーニングされたStyleGAN2と一致します。 フルデータセットでは,LSUNの猫,教会,馬のカテゴリーでFIDを1.5倍から2倍に改善する。

The advent of large-scale training has produced a cornucopia of powerful visual recognition models. However, generative models, such as GANs, have traditionally been trained from scratch in an unsupervised manner. Can the collective "knowledge" from a large bank of pretrained vision models be leveraged to improve GAN training? If so, with so many models to choose from, which one(s) should be selected, and in what manner are they most effective? We find that pretrained computer vision models can significantly improve performance when used in an ensemble of discriminators. Notably, the particular subset of selected models greatly affects performance. We propose an effective selection mechanism, by probing the linear separability between real and fake samples in pretrained model embeddings, choosing the most accurate model, and progressively adding it to the discriminator ensemble. Interestingly, our method can improve GAN training in both limited data and large-scale settings. Given only 10k training samples, our FID on LSUN Cat matches the StyleGAN2 trained on 1.6M images. On the full dataset, our method improves FID by 1.5x to 2x on cat, church, and horse categories of LSUN.
翻訳日:2021-12-17 15:43:47 公開日:2021-12-16
# スフェロイドセグメンテーションにおける領域シフト問題に対処するためのニューラルスタイル転送と画像対画像変換

Neural Style Transfer and Unpaired Image-to-Image Translation to deal with the Domain Shift Problem on Spheroid Segmentation ( http://arxiv.org/abs/2112.09043v1 )

ライセンス: Link先を確認
Manuel Garc\'ia-Dom\'inguez and C\'esar Dom\'inguez and J\'onathan Heras and Eloy Mata and Vico Pascual(参考訳) 背景と目的。 ドメインシフト(Domain shift)は、機械学習モデルの一般化問題であり、トレーニングセットのデータ分散が、デプロイ時にモデルが直面するデータ分散とは異なるときに発生する。 これは、実験条件、機器、撮影設定のばらつきによる生体画像のセグメンテーションの文脈で一般的である。 本研究では, 腫瘍球状化のセグメンテーションの文脈において, ニューラルスタイルのトランスファーアルゴリズムと画像間変換の両手法を併用してこの問題に対処する。 メソッド。 IoUを97%以上達成した4つのディープラーニングセグメンテーションモデルによる球面分割の文脈における領域シフト問題について,トレーニング分布に追従した画像を用いて検証した結果,異なる条件下で撮影された画像に適用した場合,85%まで性能が低下した。 この問題に対処するため,NST,ディープイメージ類似,STROTSSの3つのスタイル転送アルゴリズムと,CycleGAN,DualGAN,Fo rkGAN,GANILLA,CUT,Fa stCUTの6つの未ペアイメージ変換アルゴリズムについて検討した。 これらのアルゴリズムは高レベルのAPIに統合され、ドメインシフト問題が発生する他のコンテキストへのアプリケーション導入を容易にする。 結果だ スタイル変換と画像間変換の両アルゴリズムを用いて、異なる条件下で撮影された画像に適用した場合の4分割モデルの性能を大幅に改善した。 特に、0.24から76.07の範囲でモデルのIoUを改善する2つのスタイル転送アルゴリズム(NSTとDeep Image analogy)と1つの未ペア画像画像変換アルゴリズム(CycleGAN)がある。 したがって、トレーニング分布の後の画像に対して、モデルで得られたものと同様の性能に達する。

Background and objectives. Domain shift is a generalisation problem of machine learning models that occurs when the data distribution of the training set is different to the data distribution encountered by the model when it is deployed. This is common in the context of biomedical image segmentation due to the variance of experimental conditions, equipment, and capturing settings. In this work, we address this challenge by studying both neural style transfer algorithms and unpaired image-to-image translation methods in the context of the segmentation of tumour spheroids. Methods. We have illustrated the domain shift problem in the context of spheroid segmentation with 4 deep learning segmentation models that achieved an IoU over 97% when tested with images following the training distribution, but whose performance decreased up to an 84\% when applied to images captured under different conditions. In order to deal with this problem, we have explored 3 style transfer algorithms (NST, deep image analogy, and STROTSS), and 6 unpaired image-to-image translations algorithms (CycleGAN, DualGAN, ForkGAN, GANILLA, CUT, and FastCUT). These algorithms have been integrated into a high-level API that facilitates their application to other contexts where the domain-shift problem occurs. Results. We have considerably improved the performance of the 4 segmentation models when applied to images captured under different conditions by using both style transfer and image-to-image translation algorithms. In particular, there are 2 style transfer algorithms (NST and deep image analogy) and 1 unpaired image-to-image translations algorithm (CycleGAN) that improve the IoU of the models in a range from 0.24 to 76.07. Therefore, reaching a similar performance to the one obtained with the models are applied to images following the training distribution.
翻訳日:2021-12-17 15:15:26 公開日:2021-12-16
# 頑健なリアルタイム音声強調に向けて

Towards Robust Real-time Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2112.09060v1 )

ライセンス: Link先を確認
Mandar Gogate, Kia Dashtipour, Amir Hussain(参考訳) 人間の脳は、異種感覚情報を利用して視覚や聴覚などの認知タスクを効率的に行う。 例えば、カクテルパーティーの状況では、人間の聴覚野は音声視覚(AV)の手がかりを文脈的に統合し、音声をより知覚する。 近年の研究では、音声のみのSEモデルと比較して、非常に低信号/雑音比(SNR)環境での音声品質と可聴性を大幅に向上することが示されている。 しかしながら、av seの分野における重要な研究にもかかわらず、低レイテンシのリアルタイム処理モデルの開発は、いまだに驚くべき技術的課題である。 本稿では,様々な視覚・音響ノイズを一般化できる低レイテンシな話者非依存型avseのための新しい枠組みを提案する。 特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。 さらに、より堅牢なSEを提供するために、GANからのクリーンな視覚音声出力を考慮したディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。 提案手法は,主観的音声品質と知性指標と主観的リスティングテストを用いて,合成および実雑音型AVコーパスを用いて評価する。 比較シミュレーションの結果、リアルタイムav seフレームワークは最新のdnnベースのseモデルを含む最先端のseアプローチよりも優れています。

The human brain contextually exploits heterogeneous sensory information to efficiently perform cognitive tasks including vision and hearing. For example, during the cocktail party situation, the human auditory cortex contextually integrates audio-visual (AV) cues in order to better perceive speech. Recent studies have shown that AV speech enhancement (SE) models can significantly improve speech quality and intelligibility in very low signal to noise ratio (SNR) environments as compared to audio-only SE models. However, despite significant research in the area of AV SE, development of real-time processing models with low latency remains a formidable technical challenge. In this paper, we present a novel framework for low latency speaker-independent AV SE that can generalise on a range of visual and acoustic noises. In particular, a generative adversarial networks (GAN) is proposed to address the practical issue of visual imperfections in AV SE. In addition, we propose a deep neural network based real-time AV SE model that takes into account the cleaned visual speech output from GAN to deliver more robust SE. The proposed framework is evaluated on synthetic and real noisy AV corpora using objective speech quality and intelligibility metrics and subjective listing tests. Comparative simulation results show that our real time AV SE framework outperforms state-of-the-art SE approaches, including recent DNN based SE models.
翻訳日:2021-12-17 15:14:49 公開日:2021-12-16
# 格子基底還元による非ガウス成分分析

Non-Gaussian Component Analysis via Lattice Basis Reduction ( http://arxiv.org/abs/2112.09104v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) 非ガウス成分分析(英: non-gaussian component analysis、ngca)とは、非ガウス成分分析(英: non-gaussian component analysis、非ガウス成分分析、英: non-gaussian component analysis、ngca)とは次の分布学習問題である。 以前の研究 "cite{DKS17-sq}" は、単変量非ガウス分布$A$の適切なモーメントマッチング条件下でのNGCAの情報計算トレードオフの存在に関する公式な証拠を提供した。 後者の結果は、$a$ の分布が離散的であれば適用されない。 自然な質問は、この設定で情報計算のトレードオフが継続するかどうかである。 本稿では, NGCA に対して, A$ が離散的あるいはほぼ離散的であるという条件下でのサンプルと計算効率のよいアルゴリズムを得ることにより, 負の質問に答える。 我々のアルゴリズムで活用される重要なツールは格子基底還元のための LLL メソッド \cite{LLL82} である。

Non-Gaussian Component Analysis (NGCA) is the following distribution learning problem: Given i.i.d. samples from a distribution on $\mathbb{R}^d$ that is non-gaussian in a hidden direction $v$ and an independent standard Gaussian in the orthogonal directions, the goal is to approximate the hidden direction $v$. Prior work \cite{DKS17-sq} provided formal evidence for the existence of an information-computat ion tradeoff for NGCA under appropriate moment-matching conditions on the univariate non-gaussian distribution $A$. The latter result does not apply when the distribution $A$ is discrete. A natural question is whether information-computat ion tradeoffs persist in this setting. In this paper, we answer this question in the negative by obtaining a sample and computationally efficient algorithm for NGCA in the regime that $A$ is discrete or nearly discrete, in a well-defined technical sense. The key tool leveraged in our algorithm is the LLL method \cite{LLL82} for lattice basis reduction.
翻訳日:2021-12-17 15:14:29 公開日:2021-12-16
# QAFactEval: 要約のためのQAに基づくFactual Consistency Evaluationの改善

QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization ( http://arxiv.org/abs/2112.08542v1 )

ライセンス: Link先を確認
Alexander R. Fabbri, Chien-Sheng Wu, Wenhao Liu, Caiming Xiong(参考訳) ファクト一貫性は、実践的な設定におけるテキスト要約モデルの本質的な品質である。 この次元を評価するための既存の作業は、エンテーメントベースのメトリクスと質問応答(QA)ベースのメトリクスの2つのラインに大別することができる。 しかし、最近の研究で示された実験的な設定の違いは、どのパラダイムが最善を尽くすかについての結論の対比につながる。 本研究は,QAに基づくメトリクスの包括的比較を行い,QAに基づくメトリクスの構成要素を慎重に選択することが性能に重要なことを実証する。 これらの知見に基づいて、我々はQAFactEvalと呼ばれる最適化されたメトリクスを提案し、これはSummaCの事実整合性ベンチマークにおける以前のQAベースのメトリクスよりも15%平均的な改善をもたらす。 提案手法は,ベストパフォーマンスのエンテーメント基準を改良し,このベンチマークの最先端性能を実現する。 さらに,QAベースとエンテーメントベースのメトリクスが相補的な信号を提供し,これら2つを1つの学習されたメトリクスに組み合わせることで,さらなるパフォーマンス向上が期待できる。 質的および定量的な分析を通じて、QAベースのメトリクスの今後の研究において、質問生成と回答可能性の分類を2つの重要な要素として挙げる。

Factual consistency is an essential quality of text summarization models in practical settings. Existing work in evaluating this dimension can be broadly categorized into two lines of research, entailment-based metrics and question answering (QA)-based metrics. However, differing experimental setups presented in recent work lead to contrasting conclusions as to which paradigm performs best. In this work, we conduct an extensive comparison of entailment and QA-based metrics, demonstrating that carefully choosing the components of a QA-based metric is critical to performance. Building on those insights, we propose an optimized metric, which we call QAFactEval, that leads to a 15% average improvement over previous QA-based metrics on the SummaC factual consistency benchmark. Our solution improves upon the best-performing entailment-based metric and achieves state-of-the-art performance on this benchmark. Furthermore, we find that QA-based and entailment-based metrics offer complementary signals and combine the two into a single, learned metric for further performance boost. Through qualitative and quantitative analyses, we point to question generation and answerability classification as two critical components for future work in QA-based metrics.
翻訳日:2021-12-17 15:13:32 公開日:2021-12-16
# 科学論文のポスター生成のためのニューラルコンテンツ抽出

Neural Content Extraction for Poster Generation of Scientific Papers ( http://arxiv.org/abs/2112.08550v1 )

ライセンス: Link先を確認
Sheng Xu, Xiaojun Wan(参考訳) 科学論文のポスター生成の問題は未解明である。 投稿者は文書の最も重要な情報をしばしば提示し、そのタスクは文書要約の特別な形態と見なすことができる。 これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。 さらに、データセットは公開されておらず、さらなる研究を妨げる。 本稿では,この課題に対するベンチマークデータセットをスクラッチから構築する。 そこで本研究では,この課題に取り組むための3段階フレームワークを提案し,コンテンツ抽出ステップに着目した。 ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。 データセットの実験を行い、アブレーション研究も行います。 その結果,提案モデルの有効性が示された。 データセットとコードがリリースされる。

The problem of poster generation for scientific papers is under-investigated. Posters often present the most important information of papers, and the task can be considered as a special form of document summarization. Previous studies focus mainly on poster layout and panel composition, while neglecting the importance of content extraction. Besides, their datasets are not publicly available, which hinders further research. In this paper, we construct a benchmark dataset from scratch for this task. Then we propose a three-step framework to tackle this task and focus on the content extraction step in this study. To get both textual and visual elements of a poster panel, a neural extractive model is proposed to extract text, figures and tables of a paper section simultaneously. We conduct experiments on the dataset and also perform ablation study. Results demonstrate the efficacy of our proposed model. The dataset and code will be released.
翻訳日:2021-12-17 15:11:52 公開日:2021-12-16
# CONQRR: 強化学習による検索のための会話型クエリ書き換え

CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement Learning ( http://arxiv.org/abs/2112.08558v1 )

ライセンス: Link先を確認
Zeqiu Wu, Yi Luan, Hannah Rashkin, David Reitter, Gaurav Singh Tomar(参考訳) オープンドメインの会話型質問応答(CQA)では,質問に答えるために最も関連性の高い文を検索することが重要であるが,単一の問合せではなく,完全な会話コンテキストを理解する必要があるため,標準的な文節検索に比べて難しい。 さらに、非会話クエリ用に開発された検索エンジンのような、確立されたレトリバーを再訓練するコストも高くつく。 それらの使用を容易にするために,会話型質問をスタンドアローンの質問に書き換えるクエリ書き換えモデル CONQRR を開発した。 検索に向けて直接最適化するための新しい報酬関数をトレーニングし、強化学習を用いて任意の固定ブラックボックスレトリバーに適応することができる。 CONQRRは、最近のオープンドメインCQAデータセットにおいて、3つの異なるソースからの会話を組み合わせることで、最先端の結果が得られることを示す。 また,任意の固定レトリバーに対する CONQRR の有効性を示す広範な実験を行った。

For open-domain conversational question answering (CQA), it is important to retrieve the most relevant passages to answer a question, but this is challenging compared with standard passage retrieval because it requires understanding the full dialogue context rather than a single query. Moreover, it can be expensive to re-train well-established retrievers such as search engines that are originally developed for non-conversational queries. To facilitate their use, we develop a query rewriting model CONQRR that rewrites a conversational question in context into a standalone question. It is trained with a novel reward function to directly optimize towards retrieval and can be adapted to any fixed blackbox retriever using reinforcement learning. We show that CONQRR achieves state-of-the-art results on a recent open-domain CQA dataset, a combination of conversations from three different sources. We also conduct extensive experiments to show the effectiveness of CONQRR for any given fixed retriever.
翻訳日:2021-12-17 15:11:40 公開日:2021-12-16
# block-skim: トランスフォーマーの効率的な質問応答

Block-Skim: Efficient Question Answering for Transformer ( http://arxiv.org/abs/2112.08560v1 )

ライセンス: Link先を確認
Yue Guan, Zhengyi Li, Jingwen Leng, Zhouhan Lin, Minyi Guo, Yuhao Zhu(参考訳) トランスフォーマーモデルは自然言語処理(NLP)タスクにおいて,抽出質問応答(QA)を含む有望な結果を得た。 NLPタスクで使用される共通トランスフォーマーエンコーダは、すべてのレイヤにわたってコンテキスト段落内のすべての入力トークンの隠れ状態を処理する。 しかし、シーケンス分類のような他のタスクとは異なり、隆起した質問に答えるにはコンテキスト段落のすべてのトークンが必ずしも必要ではない。 そこで本研究では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-skimを提案する。 Block-Skimのキーとなる考え方は、さらなる処理が必要なコンテキストと、推論の早い段階で安全に破棄できるコンテキストを識別することだ。 批判的に、これらの情報はトランスフォーマーモデル内の自己注意重みから十分に導出できる。 我々はさらに,低層の初期における不要な位置に対応する隠れた状態を推理し,大幅な推論時間短縮を実現する。 驚いたことに、このやり方でモデルが、フルサイズのモデルに勝っているのが観察された。 Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。

Transformer models have achieved promising results on natural language processing (NLP) tasks including extractive question answering (QA). Common Transformer encoders used in NLP tasks process the hidden states of all input tokens in the context paragraph throughout all layers. However, different from other tasks such as sequence classification, answering the raised question does not necessarily need all the tokens in the context paragraph. Following this motivation, we propose Block-skim, which learns to skim unnecessary context in higher hidden layers to improve and accelerate the Transformer performance. The key idea of Block-Skim is to identify the context that must be further processed and those that could be safely discarded early on during inference. Critically, we find that such information could be sufficiently derived from the self-attention weights inside the Transformer model. We further prune the hidden states corresponding to the unnecessary positions early in lower layers, achieving significant inference-time speedup. To our surprise, we observe that models pruned in this way outperform their full-size counterparts. Block-Skim improves QA models' accuracy on different datasets and achieves 3 times speedup on BERT-base model.
翻訳日:2021-12-17 15:11:24 公開日:2021-12-16
# 事前学習はシステム推論を引き起こすか? マスク言語モデルが常識知識を取得する方法

Does Pre-training Induce Systematic Inference? How Masked Language Models Acquire Commonsense Knowledge ( http://arxiv.org/abs/2112.08583v1 )

ライセンス: Link先を確認
Ian Porada, Alessandro Sordoni, Jackie Chi Kit Cheung(参考訳) マスキング言語モデリング目的(例えばbert)で事前学習されたトランスフォーマーモデルは、行動プローブによって証明された常識知識をエンコードするが、事前学習されたコーパスの意味論に関する体系的推論によって、この知識が獲得される範囲は、オープン問題である。 この疑問に答えるために, BERTモデルの事前学習中に, 単語化された知識を最小限のバッチに選択的に注入し, モデルがサポート対象の推論にどの程度の精度で一般化するかを評価する。 一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。

Transformer models pre-trained with a masked-language-mode ling objective (e.g., BERT) encode commonsense knowledge as evidenced by behavioral probes; however, the extent to which this knowledge is acquired by systematic inference over the semantics of the pre-training corpora is an open question. To answer this question, we selectively inject verbalized knowledge into the minibatches of a BERT model during pre-training and evaluate how well the model generalizes to supported inferences. We find generalization does not improve over the course of pre-training, suggesting that commonsense knowledge is acquired from surface-level, co-occurrence patterns rather than induced, systematic reasoning.
翻訳日:2021-12-17 15:11:04 公開日:2021-12-16
# 強いスーパービジョンを伴わない慣用的表現表現

Idiomatic Expression Paraphrasing without Strong Supervision ( http://arxiv.org/abs/2112.08592v1 )

ライセンス: Link先を確認
Jianing Zhou, Ziheng Zeng, Hongyu Gong, Suma Bhat(参考訳) 慣用表現(IE)は自然言語において重要な役割を果たす。 本稿では,IEをリテラルパラフレーズに置き換えることにより,IEで文をパラフレーズ化することを目的とした,慣用文パラフレーズ化(ISP)の課題について検討する。 慣用-文字並列文による大規模コーパスの欠如は、この課題の第一の課題であり、ここでは2つの異なる解を考える。 まず,IEの文脈情報と定義を活用し,並列文学習セットを必要としないISPに対する教師なしアプローチを提案する。 第2に,下位翻訳による文の表現と生成をIEと共同で行い,小規模な並列文学習データセットを拡大する弱い教師付きアプローチを提案する。 この研究の他の重要なデリバティブには、文中のリテラルフレーズをIEに置き換えて慣用的な表現を生成するモデルと、慣用/文のペアによる大規模並列データセットが含まれる。 提案手法の有効性は, BLEUの5.16点以上, METEORの8.75点以上, SARIの19.57点以上において, 自動的および手動的評価を用いて, パラレルデータセット上で生成した文が実証的に検証された場合に, 比較した。 本稿では,En-De機械翻訳における前処理ステップとして,ISPの実用性を実証する。

Idiomatic expressions (IEs) play an essential role in natural language. In this paper, we study the task of idiomatic sentence paraphrasing (ISP), which aims to paraphrase a sentence with an IE by replacing the IE with its literal paraphrase. The lack of large-scale corpora with idiomatic-literal parallel sentences is a primary challenge for this task, for which we consider two separate solutions. First, we propose an unsupervised approach to ISP, which leverages an IE's contextual information and definition and does not require a parallel sentence training set. Second, we propose a weakly supervised approach using back-translation to jointly perform paraphrasing and generation of sentences with IEs to enlarge the small-scale parallel sentence training dataset. Other significant derivatives of the study include a model that replaces a literal phrase in a sentence with an IE to generate an idiomatic expression and a large scale parallel dataset with idiomatic/literal sentence pairs. The effectiveness of the proposed solutions compared to competitive baselines is seen in the relative gains of over 5.16 points in BLEU, over 8.75 points in METEOR, and over 19.57 points in SARI when the generated sentences are empirically validated on a parallel dataset using automatic and manual evaluations. We demonstrate the practical utility of ISP as a preprocessing step in En-De machine translation.
翻訳日:2021-12-17 15:10:48 公開日:2021-12-16
# 読者モデルによるニューラルストーリー生成の誘導

Guiding Neural Story Generation with Reader Models ( http://arxiv.org/abs/2112.08596v1 )

ライセンス: Link先を確認
Xiangyu Peng, Kaige Xie, Amal Alabdulkarim, Harshith Kayam, Samihan Dani, Mark O. Riedl(参考訳) 自動ストーリーテリングは、日常生活における物語の普遍性について研究者の注意を引き付けてきた。 しかし、ニューラルネットワークモデルでナラティブを生成する場合、一貫性を維持し、特定の結末に向かってトピックを維持し続けることは困難である。 本稿では,読者モデルを用いてストーリーの進行を判断するフレームワークである読者モデル(storm)を用いたストーリー生成について紹介する。 読者モデルは、人間読者が架空の物語の世界の概念、実体、関係について何を信じるかを推測する。 知識グラフとして表される明示的な読者モデルが,ストーリーコヒーレンスを実現し,与えられたストーリーワールドステートの目標を達成するための制御性を提供することを示す。 実験により、我々のモデルはよりコヒーレントでオントピックなストーリーを生み出し、プロットの信頼性やトピックの継続といった次元でベースラインを上回っています。 また,提案システムでは,発注なしに与えられた概念を組み立てる際に,アウトラインガイドによるストーリー生成ベースラインを上回っている。

Automated storytelling has long captured the attention of researchers for the ubiquity of narratives in everyday life. However, it is challenging to maintain coherence and stay on-topic toward a specific ending when generating narratives with neural language models. In this paper, we introduce Story generation with Reader Models (StoRM), a framework in which a reader model is used to reason about the story should progress. A reader model infers what a human reader believes about the concepts, entities, and relations about the fictional story world. We show how an explicit reader model represented as a knowledge graph affords story coherence and provides controllability in the form of achieving a given story world state goal. Experiments show that our model produces significantly more coherent and on-topic stories, outperforming baselines in dimensions including plot plausibility and staying on topic. Our system also outperforms outline-guided story generation baselines in composing given concepts without ordering.
翻訳日:2021-12-17 15:10:21 公開日:2021-12-16
# (参考訳) federated covid-19 lesion segmentation の品質モニタリング [全文訳有]

Quality monitoring of federated Covid-19 lesion segmentation ( http://arxiv.org/abs/2112.08974v1 )

ライセンス: CC BY 4.0
Camila Gonzalez, Christian Harder, Amin Ranem, Ricarda Fischbach, Isabel Kaltenborn, Armin Dadras, Andreas Bucher, Anirban Mukhopadhyay(参考訳) フェデレーテッド・ラーニングは、胸部CTにおけるCovid-19関連所見のセグメンテーションのために、堅牢なディープラーニングモデルをトレーニングする最も有望な方法である。 分散的な方法で学習することで、患者プライバシを確保しながら、さまざまなソースや取得プロトコルから異種データを活用できる。 しかし、モデルの性能を継続的に監視することは重要である。 しかし, びまん性肺病変の分画に関しては, 迅速視診が品質評価に足りず, 専門放射線科医による全ネットワークアウトプットの徹底的な監視は不可能である。 本研究では,各病院で局所的に計算し,統合システムの集中的なモニタリングを行うための軽量なメトリクスの配列を提示する。 線形モデルは,分散型データセット上で品質の低いセグメンテーションの70%以上を検出し,モデル性能の低下を確実に知らせる。

Federated Learning is the most promising way to train robust Deep Learning models for the segmentation of Covid-19-related findings in chest CTs. By learning in a decentralized fashion, heterogeneous data can be leveraged from a variety of sources and acquisition protocols whilst ensuring patient privacy. It is, however, crucial to continuously monitor the performance of the model. Yet when it comes to the segmentation of diffuse lung lesions, a quick visual inspection is not enough to assess the quality, and thorough monitoring of all network outputs by expert radiologists is not feasible. In this work, we present an array of lightweight metrics that can be calculated locally in each hospital and then aggregated for central monitoring of a federated system. Our linear model detects over 70% of low-quality segmentations on an out-of-distribution dataset and thus reliably signals a decline in model performance.
翻訳日:2021-12-17 15:08:28 公開日:2021-12-16
# 継続的学習を促すための学習

Learning to Prompt for Continual Learning ( http://arxiv.org/abs/2112.08654v1 )

ライセンス: Link先を確認
Zifeng Wang, Zizhao Zhang, Chen-Yu Lee, Han Zhang, Ruoxi Sun, Xiaoqi Ren, Guolong Su, Vincent Perot, Jennifer Dy, Tomas Pfister(参考訳) 継続的学習の背後にある主流のパラダイムは、モデルパラメータを非定常データ分布に適応させることだった。 典型的な手法は、テスト時のリハーサルバッファや既知のタスクアイデンティティに頼り、学習した知識とアドレスの忘れを検索する一方で、テスト時にタスクIDにアクセスせずにより簡潔なメモリシステムをトレーニングすることを目的とした、継続学習のための新しいパラダイムを提示する。 本手法は,タスク遷移の異なるタスクを逐次学習するための事前学習モデル(L2P)を動的に学習する。 提案するフレームワークでは、プロンプトは小さな学習可能なパラメータであり、メモリ空間で保持される。 目的は、モデル予測を指示するプロンプトを最適化し、モデル可塑性を維持しながら、タスク不変およびタスク固有知識を明示的に管理することである。 我々は,l2pが先行する最先端手法を一貫して上回る,難易度の高い連続学習環境下で,一般的な画像分類ベンチマークを用いて総合的な実験を行う。 驚くべきことに、L2Pはリハーサルバッファなしでもリハーサルベースの手法に対する競合的な結果を得ることができ、課題に依存しない連続学習に直接適用できる。 ソースコードはhttps://github.com/g oogle-research/l2pで入手できる。

The mainstream paradigm behind continual learning has been to adapt the model parameters to non-stationary data distributions, where catastrophic forgetting is the central challenge. Typical methods rely on a rehearsal buffer or known task identity at test time to retrieve learned knowledge and address forgetting, while this work presents a new paradigm for continual learning that aims to train a more succinct memory system without accessing task identity at test time. Our method learns to dynamically prompt (L2P) a pre-trained model to learn tasks sequentially under different task transitions. In our proposed framework, prompts are small learnable parameters, which are maintained in a memory space. The objective is to optimize prompts to instruct the model prediction and explicitly manage task-invariant and task-specific knowledge while maintaining model plasticity. We conduct comprehensive experiments under popular image classification benchmarks with different challenging continual learning settings, where L2P consistently outperforms prior state-of-the-art methods. Surprisingly, L2P achieves competitive results against rehearsal-based methods even without a rehearsal buffer and is directly applicable to challenging task-agnostic continual learning. Source code is available at https://github.com/g oogle-research/l2p.
翻訳日:2021-12-17 15:00:54 公開日:2021-12-16
# リアルタイムマルチスケール信号検出のためのYOLOv5ネットワークの改良

Improved YOLOv5 network for real-time multi-scale traffic sign detection ( http://arxiv.org/abs/2112.08782v1 )

ライセンス: Link先を確認
Junfan Wang, Yi Chen, Mingyu Gao, and Zhekang Dong(参考訳) 交通標識検出は、無人運転システムにおいて、特にマルチスケール目標の検出とリアルタイム検出問題において、困難な課題である。 信号機検出プロセスでは、目標の規模が大きく変化し、検出精度に一定の影響を及ぼす。 フィーチャーピラミッドはこの問題を解決するために広く使われているが、さまざまなトラフィックサインのスケールで機能一貫性を損なう可能性がある。 さらに,実運用では,実時間検出を確実にしながら,マルチスケール交通信号の検出精度を向上させる方法が一般的である。 本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を用いて,特徴マップ生成の過程での情報損失を低減し,特徴ピラミッドの表現能力を向上する機能ピラミッドモデル AF-FPN を提案する。 我々は、yolov5の本来の機能ピラミッドネットワークをaf-fpnに置き換え、リアルタイム検出の前提下で、yolov5ネットワークのマルチスケールターゲットの検出性能を改善した。 さらに,データセットを充実させ,モデルのロバスト性を改善し,実用的なシナリオに適合させる新しい学習データ拡張手法を提案する。 Tsinghua-Tencent 100K(TT100K)データセットの大規模な実験結果から,提案手法の有効性と優位性を示した。

Traffic sign detection is a challenging task for the unmanned driving system, especially for the detection of multi-scale targets and the real-time problem of detection. In the traffic sign detection process, the scale of the targets changes greatly, which will have a certain impact on the detection accuracy. Feature pyramid is widely used to solve this problem but it might break the feature consistency across different scales of traffic signs. Moreover, in practical application, it is difficult for common methods to improve the detection accuracy of multi-scale traffic signs while ensuring real-time detection. In this paper, we propose an improved feature pyramid model, named AF-FPN, which utilizes the adaptive attention module (AAM) and feature enhancement module (FEM) to reduce the information loss in the process of feature map generation and enhance the representation ability of the feature pyramid. We replaced the original feature pyramid network in YOLOv5 with AF-FPN, which improves the detection performance for multi-scale targets of the YOLOv5 network under the premise of ensuring real-time detection. Furthermore, a new automatic learning data augmentation method is proposed to enrich the dataset and improve the robustness of the model to make it more suitable for practical scenarios. Extensive experimental results on the Tsinghua-Tencent 100K (TT100K) dataset demonstrate the effectiveness and superiority of the proposed method when compared with several state-of-the-art methods.
翻訳日:2021-12-17 15:00:32 公開日:2021-12-16
# Landsat-5 TMとResourcesat-1 LISS-IV画像を用いたCNNによるサブピクセル都市土地被覆分類

A CNN based method for Sub-pixel Urban Land Cover Classification using Landsat-5 TM and Resourcesat-1 LISS-IV Imagery ( http://arxiv.org/abs/2112.08841v1 )

ライセンス: Link先を確認
Krishna Kumar Perikamana, Krishnachandran Balakrishnan, Pratyush Tripathy(参考訳) 都市土地被覆の時系列データは, 都市成長パターンの分析, 表面および植生の分布の変化, 都市ミクロ気候への影響において, 非常に有用である。 ランドサットのデータは、長期にわたるフリーイメージのためにこのような分析に最適であるが、従来のピクセル単位のハードな分類ではランドサットデータの完全なポテンシャルは得られない。 本稿では,Landsat-5 TMとResourcesat-1 LISS-IVの時間重なりを利用したサブピクセル分類法を提案する。 畳み込みニューラルネットワークを用いて30m Landsat-5 TMデータから土地被覆マップを推定する。 2011年のベンガルの5.8m LISS-IV画像から基準土地被覆率を推定した。 さらに,2009年からのムンバイのデータを用いて,提案モデルの一般化可能性と優れた性能を示し,ランダム林分分類器を用いて得られた結果と比較した。 bengaluru (2011) と mumbai (2009) のデータでは、我々のcnnモデルの絶対パーセンテージ誤差は、30mのセルレベルでのビルトアップと植生分画の予測の両方において7.2から11.3の範囲である。 限られた空間範囲のデータを用いて検証を行う最近の研究と異なり、2つの大都市の完全な空間範囲を2つの異なる期間にわたってデータを用いて訓練し検証してきた。 これにより、ランドサット-5tm時系列データから、30m組込みおよび植生分画マップを確実に生成し、長期都市成長パターンを分析することができる。

Time series data of urban land cover is of great utility in analyzing urban growth patterns, changes in distribution of impervious surface and vegetation and resulting impacts on urban micro climate. While Landsat data is ideal for such analysis due to the long time series of free imagery, traditional per-pixel hard classification fails to yield full potential of the Landsat data. This paper proposes a sub-pixel classification method that leverages the temporal overlap of Landsat-5 TM and Resourcesat-1 LISS-IV sensors. We train a convolutional neural network to predict fractional land cover maps from 30m Landsat-5 TM data. The reference land cover fractions are estimated from a hard-classified 5.8m LISS-IV image for Bengaluru from 2011. Further, we demonstrate the generalizability and superior performance of the proposed model using data for Mumbai from 2009 and comparing it to the results obtained using a Random Forest classifier. For both Bengaluru (2011) and Mumbai (2009) data, Mean Absolute Percentage Error of our CNN model is in the range of 7.2 to 11.3 for both built-up and vegetation fraction prediction at the 30m cell level. Unlike most recent studies where validation is conducted using data for a limited spatial extent, our model has been trained and validated using data for the complete spatial extent of two mega cities for two different time periods. Hence it can reliably generate 30m built-up and vegetation fraction maps from Landsat-5 TM time series data to analyze long term urban growth patterns.
翻訳日:2021-12-17 15:00:08 公開日:2021-12-16
# IS-COUNT:衛星画像からの大規模オブジェクトカウント

IS-COUNT: Large-scale Object Counting from Satellite Images with Covariate-based Importance Sampling ( http://arxiv.org/abs/2112.09126v1 )

ライセンス: Link先を確認
Chenlin Meng, Enci Liu, Willie Neiswanger, Jiaming Song, Marshall Burke, David Lobell and Stefano Ermon(参考訳) 高解像度衛星画像における物体検出は、多くの環境・社会経済モニタリングアプリケーションにおける地上調査データ収集に代わるスケーラブルな代替手段として現れつつある。 しかし,画像の購入や計算にコストがかかるため,大規模地形上での物体検出は依然として高価である。 従来の調査データ収集戦略に着想を得て,大規模地形における対象数統計量の推定手法を提案する。 コスト予算が与えられた場合,学習可能な提案分布からサンプリングして,少数の代表領域を選択する。 重要サンプリングを用いて,画像のごく一部しか処理しないオブジェクト数を,徹底的なアプローチと比較して正確に推定することができる。 提案手法は,米国およびアフリカにおける建物数,ケニアの車,バングラデシュのれんがキルン,米国内のスイミングプールの推算において,サテライト画像の0.01%程度を排他的アプローチと比較し,強力な性能を発揮することを実証的に示した。

Object detection in high-resolution satellite imagery is emerging as a scalable alternative to on-the-ground survey data collection in many environmental and socioeconomic monitoring applications. However, performing object detection over large geographies can still be prohibitively expensive due to the high cost of purchasing imagery and compute. Inspired by traditional survey data collection strategies, we propose an approach to estimate object count statistics over large geographies through sampling. Given a cost budget, our method selects a small number of representative areas by sampling from a learnable proposal distribution. Using importance sampling, we are able to accurately estimate object counts after processing only a small fraction of the images compared to an exhaustive approach. We show empirically that the proposed framework achieves strong performance on estimating the number of buildings in the United States and Africa, cars in Kenya, brick kilns in Bangladesh, and swimming pools in the U.S., while requiring as few as 0.01% of satellite images compared to an exhaustive approach.
翻訳日:2021-12-17 14:59:39 公開日:2021-12-16
# 自己教師付き視覚前訓練のためのマスク特徴予測

Masked Feature Prediction for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2112.09133v1 )

ライセンス: Link先を確認
Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer(参考訳) ビデオモデルの自己教師付き事前学習のためのマスク特徴予測(maskfeat)を提案する。 提案手法では,まず入力シーケンスの一部をランダムにマスキングし,その後,マスキング領域の特徴を予測する。 我々は5種類の特徴を研究し、手作りの特徴記述子である向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)を見つけ、特に性能と効率の両面でうまく機能する。 hogの局所的コントラスト正規化は,視覚認識にhogを用いた初期の研究と一致し,良好な結果を得るためには不可欠である。 我々のアプローチは、豊富な視覚知識を学習し、大規模トランスフォーマーベースのモデルを駆動することができる。 追加のモデル重量や監督を使わずに、未ラベルのビデオで事前訓練されたMaskFeatは、Kineetics-400でMViT-Lが86.7%、Kineetics-600で88.3%、Kineetics-700で80.4%、AVAで38.8mAP、SSv2で75.0%という前例のない結果を達成した。 MaskFeatはさらにイメージ入力を一般化し、単一のフレームでビデオとして解釈でき、ImageNet上での競合結果を得ることができる。

We present Masked Feature Prediction (MaskFeat) for self-supervised pre-training of video models. Our approach first randomly masks out a portion of the input sequence and then predicts the feature of the masked regions. We study five different types of features and find Histograms of Oriented Gradients (HOG), a hand-crafted feature descriptor, works particularly well in terms of both performance and efficiency. We observe that the local contrast normalization in HOG is essential for good results, which is in line with earlier work using HOG for visual recognition. Our approach can learn abundant visual knowledge and drive large-scale Transformer-based models. Without using extra model weights or supervision, MaskFeat pre-trained on unlabeled videos achieves unprecedented results of 86.7% with MViT-L on Kinetics-400, 88.3% on Kinetics-600, 80.4% on Kinetics-700, 38.8 mAP on AVA, and 75.0% on SSv2. MaskFeat further generalizes to image input, which can be interpreted as a video with a single frame and obtains competitive results on ImageNet.
翻訳日:2021-12-17 14:59:21 公開日:2021-12-16
# CrossLoc: マルチモーダル合成データによるスケーラブルな航空局地化

CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic Data ( http://arxiv.org/abs/2112.09081v1 )

ライセンス: Link先を確認
Qi Yan, Jianhao Zheng, Simon Reding, Shanci Li, Iordan Doytchinov(参考訳) 本稿では,合成データを用いて実世界におけるカメラポーズの推定を学習する視覚定位システムを提案する。 近年の進歩にもかかわらず、ほとんどの学習ベースのアプローチは、単一のドメインでの視覚的ローカライゼーションをターゲットとし、ジオタグ付き画像の高密度なデータベースが必要である。 データ不足を軽減し、ニューラルネットワークの局所化モデルのスケーラビリティを向上させるため、地理カメラの視点で、実世界と仮想世界をスムーズに横断する多目的合成データ生成ツールTOPO-DataGenを紹介した。 この合成データの有用性を実証し評価するために,新しい大規模sim-to-realベンチマークデータセットを提案する。 実験の結果,合成データにより実データ上でのニューラルネットワークの性能が向上することが判明した。 さらに,横断的視覚表現学習手法であるcrosslocを導入し,自己スーパービジョンによるシーン座標基底真理をフル活用したポーズ推定手法を提案する。 余分なデータなしでは、CrossLocは最先端のメソッドを著しく上回り、リアルタイムサンプル効率を大幅に向上させる。 私たちのコードはhttps://github.com/T OPO-EPFL/CrossLoc.co mで公開されています。

We present a visual localization system that learns to estimate camera poses in the real world with the help of synthetic data. Despite significant progress in recent years, most learning-based approaches to visual localization target at a single domain and require a dense database of geo-tagged images to function well. To mitigate the data scarcity issue and improve the scalability of the neural localization models, we introduce TOPO-DataGen, a versatile synthetic data generation tool that traverses smoothly between the real and virtual world, hinged on the geographic camera viewpoint. New large-scale sim-to-real benchmark datasets are proposed to showcase and evaluate the utility of the said synthetic data. Our experiments reveal that synthetic data generically enhances the neural network performance on real data. Furthermore, we introduce CrossLoc, a cross-modal visual representation learning approach to pose estimation that makes full use of the scene coordinate ground truth via self-supervision. Without any extra data, CrossLoc significantly outperforms the state-of-the-art methods and achieves substantially higher real-data sample efficiency. Our code is available at https://github.com/T OPO-EPFL/CrossLoc.
翻訳日:2021-12-17 14:58:52 公開日:2021-12-16
# ICON:普通の人から服を盗まれる

ICON: Implicit Clothed humans Obtained from Normals ( http://arxiv.org/abs/2112.09127v1 )

ライセンス: Link先を確認
Yuliang Xiu, Jinlong Yang, Dimitrios Tzionas and Michael J. Black(参考訳) リアルで写実的な3d服を着たアバターを学習するには、3dスキャンや2d画像が必要となる。 対照的に、我々のゴールは、制約のないポーズの人の2D画像のみからアバターを学習することである。 画像のセットが与えられると、各画像から詳細な3d表面を推定し、それらをアニメーション可能なアバターに合成する。 暗黙的な機能は最初のタスクに適しており、髪や服などの詳細をキャプチャできる。 しかし、現在の手法は人間のポーズに頑丈ではなく、しばしば手足の骨折や脱落、詳細の欠如、人体以外の形状の3D表面を生成する。 問題は、これらの手法がグローバルなポーズに敏感なグローバルな特徴エンコーダを使用することだ。 そこで我々は,局所的特徴を用いたICON(Implicit Clothed Human Obtained from Normals)を提案する。 ICONには2つの主要なモジュールがあり、どちらもSMPL(-X)ボディモデルを利用している。 第一に、ICONはSMPL(-X)の正常を条件に、詳細な布地と人間の正常(前/後ろ)を推測する。 第2に、視認可能な暗黙の表面回帰器は、ヒトの占有領域のアイソサーフェスを生成する。 重要なことは、推論時に、フィードバックループは、推論された布の正規度を使用してSMPL(-X)メッシュを精製し、正常度を精製する。 ポーズの異なる被写体の複数の再構成フレームが与えられた場合、SCANimateを用いてアニマタブルなアバターを生成する。 AGORAデータセットとCAPEデータセットの評価から、ICONは、非常に限られたトレーニングデータであっても、再構築時の芸術の状態を上回ります。 さらに、例えば、野生のポーズ/イメージや枠外の収穫など、流通外のサンプルに対してより堅牢である。 ICONは、Wild画像から頑丈な3D服を復元する。 これにより、パーソナライズされた自然なポーズ依存の布の変形でビデオから直接アバターを作成することができる。

Current methods for learning realistic and animatable 3D clothed avatars need either posed 3D scans or 2D images with carefully controlled user poses. In contrast, our goal is to learn the avatar from only 2D images of people in unconstrained poses. Given a set of images, our method estimates a detailed 3D surface from each image and then combines these into an animatable avatar. Implicit functions are well suited to the first task, as they can capture details like hair or clothes. Current methods, however, are not robust to varied human poses and often produce 3D surfaces with broken or disembodied limbs, missing details, or non-human shapes. The problem is that these methods use global feature encoders that are sensitive to global pose. To address this, we propose ICON ("Implicit Clothed humans Obtained from Normals"), which uses local features, instead. ICON has two main modules, both of which exploit the SMPL(-X) body model. First, ICON infers detailed clothed-human normals (front/back) conditioned on the SMPL(-X) normals. Second, a visibility-aware implicit surface regressor produces an iso-surface of a human occupancy field. Importantly, at inference time, a feedback loop alternates between refining the SMPL(-X) mesh using the inferred clothed normals and then refining the normals. Given multiple reconstructed frames of a subject in varied poses, we use SCANimate to produce an animatable avatar from them. Evaluation on the AGORA and CAPE datasets shows that ICON outperforms the state of the art in reconstruction, even with heavily limited training data. Additionally, it is much more robust to out-of-distribution samples, e.g., in-the-wild poses/images and out-of-frame cropping. ICON takes a step towards robust 3D clothed human reconstruction from in-the-wild images. This enables creating avatars directly from video with personalized and natural pose-dependent cloth deformation.
翻訳日:2021-12-17 14:58:30 公開日:2021-12-16
# 薬物-標的相互作用予測のための異種グラフ自動メタパス学習法HampDTI

HampDTI: a heterogeneous graph automatic meta-path learning method for drug-target interaction prediction ( http://arxiv.org/abs/2112.08567v1 )

ライセンス: Link先を確認
Hongzhun Wang, Feng Huang, Wen Zhang(参考訳) 動機づけ:薬物-標的相互作用(DTI)の同定は薬物再配置の重要なステップである。 近年,多くのゲノミクスや薬理学データの蓄積が大量薬物や標的とするヘテロジニアスネットワーク (HN) を形成しており,DTIを正確に予測するHNベースの計算モデルを開発する新たな機会となっている。 HNはDTIに関する有用な情報が多いが、無関係なデータも含んでいる。 結果:本論文では,異種グラフの自動メタパス学習に基づくDTI予測法(HampDTI)を提案する。 HampDTIは、薬物と標的の間の重要なメタパスを自動的に学習し、メタパスグラフを生成する。 各メタパスグラフでは、薬物分子グラフと標的タンパク質配列から得られた特徴がノード属性となり、ノード型特異グラフ畳み込みネットワーク(nsgcn)は、ノード型情報(ドラッグやターゲット)を効率的に考慮し、薬物や標的の埋め込みを学ぶように設計されている。 最後に、複数のメタパスグラフからの埋め込みを組み合わせて新しいDTIを予測する。 ベンチマークデータセットを用いた実験により,提案したHampDTIは最先端DTI予測法と比較して優れた性能を示すことが示された。 さらに重要なのは、HampDTIがDTI予測の重要なメタパスを特定することだ。

Motivation: Identifying drug-target interactions (DTIs) is a key step in drug repositioning. In recent years, the accumulation of a large number of genomics and pharmacology data has formed mass drug and target related heterogeneous networks (HNs), which provides new opportunities of developing HN-based computational models to accurately predict DTIs. The HN implies lots of useful information about DTIs but also contains irrelevant data, and how to make the best of heterogeneous networks remains a challenge. Results: In this paper, we propose a heterogeneous graph automatic meta-path learning based DTI prediction method (HampDTI). HampDTI automatically learns the important meta-paths between drugs and targets from the HN, and generates meta-path graphs. For each meta-path graph, the features learned from drug molecule graphs and target protein sequences serve as the node attributes, and then a node-type specific graph convolutional network (NSGCN) which efficiently considers node type information (drugs or targets) is designed to learn embeddings of drugs and targets. Finally, the embeddings from multiple meta-path graphs are combined to predict novel DTIs. The experiments on benchmark datasets show that our proposed HampDTI achieves superior performance compared with state-of-the-art DTI prediction methods. More importantly, HampDTI identifies the important meta-paths for DTI prediction, which could explain how drugs connect with targets in HNs.
翻訳日:2021-12-17 14:56:22 公開日:2021-12-16
# 自己教師型話者検証のためのブートストラップ平衡と確率的話者表現学習

Bootstrap Equilibrium and Probabilistic Speaker Representation Learning for Self-supervised Speaker Verification ( http://arxiv.org/abs/2112.08929v1 )

ライセンス: Link先を確認
Sung Hwan Mun, Min Hyun Han, Dongjune Lee, Jihwan Kim, and Nam Soo Kim(参考訳) 本稿では、フロントエンドにおけるブートストラップ平衡話者表現学習と、バックエンドにおける不確実性を考慮した確率的話者埋め込み訓練からなる自己教師型話者表現学習戦略を提案する。 フロントエンドステージでは、一様正規化項を持つブートストラップトレーニングスキームを通じて話者表現を学ぶ。 バックエンド段階では、同一話者に属する音声サンプル間における確率的確率スコアを最大化し、話者表現だけでなくデータ不確実性も提供する確率的話者埋め込みを推定する。 実験の結果, 提案するブートストラップ平衡学習戦略は, 話者表現を効果的に学習し, コントラスト学習に基づく従来の方法よりも優れていた。 また、統合された2段階フレームワークにより、EERおよびMinDCFの観点からVoxCeleb1テストセットにおける話者検証性能がさらに向上することを示した。

In this paper, we propose self-supervised speaker representation learning strategies, which comprise of a bootstrap equilibrium speaker representation learning in the front-end and an uncertainty-aware probabilistic speaker embedding training in the back-end. In the front-end stage, we learn the speaker representations via the bootstrap training scheme with the uniformity regularization term. In the back-end stage, the probabilistic speaker embeddings are estimated by maximizing the mutual likelihood score between the speech samples belonging to the same speaker, which provide not only speaker representations but also data uncertainty. Experimental results show that the proposed bootstrap equilibrium training strategy can effectively help learn the speaker representations and outperforms the conventional methods based on contrastive learning. Also, we demonstrate that the integrated two-stage framework further improves the speaker verification performance on the VoxCeleb1 test set in terms of EER and MinDCF.
翻訳日:2021-12-17 14:55:55 公開日:2021-12-16
# 指導的遊びから学ぶ: 敵対的模倣学習における探索改善のためのスケジューリングされた階層的アプローチ

Learning from Guided Play: A Scheduled Hierarchical Approach for Improving Exploration in Adversarial Imitation Learning ( http://arxiv.org/abs/2112.08932v1 )

ライセンス: Link先を確認
Trevor Ablett, Bryan Chan, Jonathan Kelly(参考訳) 効果的な探索は、多くの物理システムに対する強化学習の展開を妨げる重要な課題であり続けている。 これはロボットマニピュレータのような連続的かつ高次元の状態と行動空間を持つシステムに特に当てはまる。 この課題は、濃密な報酬の設計に必要な低レベルの状態情報が利用できないスパース報酬設定で強調される。 AIL(Adversarial mimicion Learning)は、最適な振る舞いのエキスパート生成デモを活用し、本質的には、高密度な報酬情報の代替を提供することによって、この障壁を部分的に克服することができる。 残念なことに、専門家によるデモンストレーションの可用性は、効果的に探索するエージェントの能力を改善するものではない。 本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。 その後、階層モデルを用いて、異なるタスクを構成するスケジューラを介して全てのタスクを探索する修正されたAIL手順を通じて、各タスク報酬とポリシーを学習する。 ボトルネック移行が困難なメインタスクでは学習効率が向上し、タスク間で専門家データが再利用可能なようになり、学習補助タスクモデルの再利用による転送学習が可能になる。 実験の結果,マルチタスクロボット操作領域において,教師付き模倣学習と最先端のail法との比較が好適であった。 コードはhttps://github.com/u tiasstars/lfgpで入手できる。

Effective exploration continues to be a significant challenge that prevents the deployment of reinforcement learning for many physical systems. This is particularly true for systems with continuous and high-dimensional state and action spaces, such as robotic manipulators. The challenge is accentuated in the sparse rewards setting, where the low-level state information required for the design of dense rewards is unavailable. Adversarial imitation learning (AIL) can partially overcome this barrier by leveraging expert-generated demonstrations of optimal behaviour and providing, essentially, a replacement for dense reward information. Unfortunately, the availability of expert demonstrations does not necessarily improve an agent's capability to explore effectively and, as we empirically show, can lead to inefficient or stagnated learning. We present Learning from Guided Play (LfGP), a framework in which we leverage expert demonstrations of, in addition to a main task, multiple auxiliary tasks. Subsequently, a hierarchical model is used to learn each task reward and policy through a modified AIL procedure, in which exploration of all tasks is enforced via a scheduler composing different tasks together. This affords many benefits: learning efficiency is improved for main tasks with challenging bottleneck transitions, expert data becomes reusable between tasks, and transfer learning through the reuse of learned auxiliary task models becomes possible. Our experimental results in a challenging multitask robotic manipulation domain indicate that our method compares favourably to supervised imitation learning and to a state-of-the-art AIL method. Code is available at https://github.com/u tiasSTARS/lfgp.
翻訳日:2021-12-17 14:55:18 公開日:2021-12-16
# マルチロボット強化学習マップレスナビゲーションのためのデュエルネットワークにおける状態値の集中化

Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation ( http://arxiv.org/abs/2112.09012v1 )

ライセンス: Link先を確認
Enrico Marchesini, Alessandro Farinelli(参考訳) 本稿では,CTDE(Centralized Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題について検討する。 この問題は、各ロボットがその経路を他のロボットと明示的に共有することなく考慮し、深層強化学習(drl)の非定常問題につながる場合、難しい。 典型的なCTDEアルゴリズムは、共同動作値関数を個別に分解し、協調を好んで分散実行を実現する。 このような因子化には制約(例えば単調性)があり、個々のエージェントが共同行動-値から始めるように訓練されるため、個人における新しい行動の発生を制限する。 対照的に,ctdeでは,エージェントの値ベースの更新にグローバル状態情報を注入する統合状態値を計算するために,集中型状態値ネットワークを用いた新しいアーキテクチャを提案する。 その結果、各モデルは環境全体の状態を考慮して、重量の勾配更新を計算する。 提案手法は,共同状態価値を別々に推定することとしてのデュエルネットワークの考察に従い,サンプル効率を向上させるとともに,各ロボットにグローバル状態が有益かどうか(そうでないか)に関する情報を提供する。 ロボットナビゲーションタスクにおいて,従来のCTDE法(VDN,QMIXなど)に比較して,提案手法の優れた性能を確認した。

We study the problem of multi-robot mapless navigation in the popular Centralized Training and Decentralized Execution (CTDE) paradigm. This problem is challenging when each robot considers its path without explicitly sharing observations with other robots and can lead to non-stationary issues in Deep Reinforcement Learning (DRL). The typical CTDE algorithm factorizes the joint action-value function into individual ones, to favor cooperation and achieve decentralized execution. Such factorization involves constraints (e.g., monotonicity) that limit the emergence of novel behaviors in an individual as each agent is trained starting from a joint action-value. In contrast, we propose a novel architecture for CTDE that uses a centralized state-value network to compute a joint state-value, which is used to inject global state information in the value-based updates of the agents. Consequently, each model computes its gradient update for the weights, considering the overall state of the environment. Our idea follows the insights of Dueling Networks as a separate estimation of the joint state-value has both the advantage of improving sample efficiency, while providing each robot information whether the global state is (or is not) valuable. Experiments in a robotic navigation task with 2 4, and 8 robots, confirm the superior performance of our approach over prior CTDE methods (e.g., VDN, QMIX).
翻訳日:2021-12-17 14:54:51 公開日:2021-12-16
# Momentum Transformerによる取引 - インテリジェントで解釈可能なアーキテクチャ

Trading with the Momentum Transformer: An Intelligent and Interpretable Architecture ( http://arxiv.org/abs/2112.08534v1 )

ライセンス: Link先を確認
Kieran Wood, Sven Giegerich, Stephen Roberts, Stefan Zohren(参考訳) ディープラーニングアーキテクチャ、特にDeep Momentum Networks (DMNs) [1904.04912]は、運動量と平均回帰取引に対する効果的なアプローチであることがわかった。 しかし、近年の主な課題は、長期依存の学習、取引コストのリターンを考える際のパフォーマンスの低下、特にsars-cov-2危機における新しい市場体制への適応などである。 アテンションメカニズム、あるいはトランスフォーマーベースのアーキテクチャは、ネットワークが過去と長期的なパターンにおいて重要な時間ステップに集中できるため、このような課題の解決策となります。 私たちは、ベンチマークを上回り、本質的に解釈可能な注意に基づくアーキテクチャであるmomentum transformerを導入し、ディープラーニングのトレーディング戦略に関する深い洞察を提供します。 我々のモデルはLSTMに基づくDMNの拡張であり、シャープ比のようなリスク調整された性能指標に基づいてネットワークを最適化することで位置サイズを直接出力する。 注意-LSTMハイブリッドDecoder-Only Temporal Fusion Transformer (TFT)スタイルのアーキテクチャが最高のパフォーマンスモデルである。 解釈可能性の観点からは、モーメント・ターンポイントにおいて重要なピークを持つ注意パターンの顕著な構造を観察する。 したがって、時系列はレジームに区分され、モデルは同じレジームで以前の時間ステップにフォーカスする傾向がある。 変化点検出(CPD) [2105.13727] は、体制変更に対応する別の手法であり、特に複数の時間スケールでCDDを実行する場合、多面的な注意を補うことができる。 解釈可能な可変選択ネットワークの追加を通じて、cpdが私たちのモデルが日々のリターンデータに主に依存する取引から離れるのをいかに助けるかを観察します。 モデルは、データ内のパターンに基づいて、古典的な戦略をインテリジェントに切り替え、組み合わせることができることに留意する。

Deep learning architectures, specifically Deep Momentum Networks (DMNs) [1904.04912], have been found to be an effective approach to momentum and mean-reversion trading. However, some of the key challenges in recent years involve learning long-term dependencies, degradation of performance when considering returns net of transaction costs and adapting to new market regimes, notably during the SARS-CoV-2 crisis. Attention mechanisms, or Transformer-based architectures, are a solution to such challenges because they allow the network to focus on significant time steps in the past and longer-term patterns. We introduce the Momentum Transformer, an attention-based architecture which outperforms the benchmarks, and is inherently interpretable, providing us with greater insights into our deep learning trading strategy. Our model is an extension to the LSTM-based DMN, which directly outputs position sizing by optimising the network on a risk-adjusted performance metric, such as Sharpe ratio. We find an attention-LSTM hybrid Decoder-Only Temporal Fusion Transformer (TFT) style architecture is the best performing model. In terms of interpretability, we observe remarkable structure in the attention patterns, with significant peaks of importance at momentum turning points. The time series is thus segmented into regimes and the model tends to focus on previous time-steps in alike regimes. We find changepoint detection (CPD) [2105.13727], another technique for responding to regime change, can complement multi-headed attention, especially when we run CPD at multiple timescales. Through the addition of an interpretable variable selection network, we observe how CPD helps our model to move away from trading predominantly on daily returns data. We note that the model can intelligently switch between, and blend, classical strategies - basing its decision on patterns in the data.
翻訳日:2021-12-17 14:53:05 公開日:2021-12-16
# Amortized Bayesian Inferenceにおけるモデルミス特定と後誤差を確実に検出できるBayesFlow

BayesFlow can reliably detect Model Misspecification and Posterior Errors in Amortized Bayesian Inference ( http://arxiv.org/abs/2112.08866v1 )

ライセンス: Link先を確認
Marvin Schmitt and Paul-Christian B\"urkner and Ullrich K\"othe and Stefan T. Radev(参考訳) 神経密度推定器は、様々な研究領域において効率的なシミュレーションに基づくベイズ推論の実行において非常に強力であることが証明されている。 特に、ベイズフローフレームワークは、2段階のアプローチを用いて、確率関数がシミュレーションプログラムによって暗黙的に定義される設定において、償却パラメータ推定を可能にする。 しかし、シミュレーションが現実の貧弱な表現である場合、そのような推論はどれほど忠実か? 本稿では,シミュレーションに基づく推論で生じるモデル誤特定の種類を概念化し,これらの誤特定下でのベイズフローフレームワークの性能を体系的に検討する。 本稿では,潜在データ空間に確率的構造を課し,最大平均偏差(mmd)を活用し,得られた結果の有効性を損なう推論中に潜在的に破滅的な誤特定を検知する拡張最適化目標を提案する。 おもちゃの共役モデルから意思決定の複雑なモデル、実際のデータに適用される病気の発生ダイナミクスまで、多くの人工的で現実的な誤特定に関する検出基準を検証する。 さらに,実際のデータ生成分布と潜在サマリー空間における典型的シミュレーションとの距離関数として後方推定誤差が増加することを示した。 そこで我々は,MDDの二重効用をモデル不特定性の検出方法として,また,償却ベイズ推論の忠実性を検証するプロキシとして示す。

Neural density estimators have proven remarkably powerful in performing efficient simulation-based Bayesian inference in various research domains. In particular, the BayesFlow framework uses a two-step approach to enable amortized parameter estimation in settings where the likelihood function is implicitly defined by a simulation program. But how faithful is such inference when simulations are poor representations of reality? In this paper, we conceptualize the types of model misspecification arising in simulation-based inference and systematically investigate the performance of the BayesFlow framework under these misspecifications. We propose an augmented optimization objective which imposes a probabilistic structure on the latent data space and utilize maximum mean discrepancy (MMD) to detect potentially catastrophic misspecifications during inference undermining the validity of the obtained results. We verify our detection criterion on a number of artificial and realistic misspecifications, ranging from toy conjugate models to complex models of decision making and disease outbreak dynamics applied to real data. Further, we show that posterior inference errors increase as a function of the distance between the true data-generating distribution and the typical set of simulations in the latent summary space. Thus, we demonstrate the dual utility of MMD as a method for detecting model misspecification and as a proxy for verifying the faithfulness of amortized Bayesian inference.
翻訳日:2021-12-17 14:52:29 公開日:2021-12-16
# ヘッセン固有写像に照らしての新しい局所線形埋め込みスキーム

A new locally linear embedding scheme in light of Hessian eigenmap ( http://arxiv.org/abs/2112.09086v1 )

ライセンス: Link先を確認
Liren Lin and Chih-Wei Chen(参考訳) 我々はヘッセン系局所線型埋め込み(HLLE)の新たな解釈を提案し、これは本質的には局所線型埋め込み(LLE)と同じ考え方を実装するための変種方法であることを示した。 新しい解釈に基づいて、「ヘシアン」という概念はむしろ任意の重みに置き換えられるような、実質的な単純化が可能となる。 さらに, HLLEは, 対象空間の次元がデータ多様体の次元よりも大きい場合, 射影的な結果が得られることを数値例で示し, 多様体次元に関するさらなる修正が提案される。 すべての観測結果を組み合わせることで,LLE(Tangential LLE)と呼ばれる新しいLLE方式が実現された。 HLLEよりシンプルで頑丈である。

We provide a new interpretation of Hessian locally linear embedding (HLLE), revealing that it is essentially a variant way to implement the same idea of locally linear embedding (LLE). Based on the new interpretation, a substantial simplification can be made, in which the idea of "Hessian" is replaced by rather arbitrary weights. Moreover, we show by numerical examples that HLLE may produce projection-like results when the dimension of the target space is larger than that of the data manifold, and hence one further modification concerning the manifold dimension is suggested. Combining all the observations, we finally achieve a new LLE-type method, which is called tangential LLE (TLLE). It is simpler and more robust than HLLE.
翻訳日:2021-12-17 14:52:05 公開日:2021-12-16
# ニューラルビデオ符号化の適応と注意

Adaptation and Attention for Neural Video Coding ( http://arxiv.org/abs/2112.08767v1 )

ライセンス: Link先を確認
Nannan Zou, Honglei Zhang, Francesco Cricri, Ramin G. Youvalari, Hamed R. Tavakoli, Jani Lainema, Emre Aksu, Miska Hannuksela, Esa Rahtu(参考訳) ニューラル画像符号化は、現在最先端の画像圧縮アプローチを表している。 しかし、ビデオ分野ではまだ多くの作業が続けられている。 本稿では,いくつかのアーキテクチャ的ノベルティを紹介するとともに,ノベルティを訓練し,適応と注意の概念を中心に展開する,エンド・ツー・エンドの学習ビデオコーデックを提案する。 私たちのコーデックはフレーム内コーデックとフレーム間コーデックを組み合わせることで構成されます。 そこで,本稿では,フレーム間コーデックモデルを学習し,入力映像の解像度に基づいて動作推定プロセスを適応させる手法を提案する。 第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。 最後に、推論時間におけるデコーダ側の乗算パラメータセットのオーバーフィットを提案する。 アブレーション研究と先行技術との比較を通じて,提案手法の利点をコーディングゲインの観点から示す。 我々のコーデックを,最先端の伝統とエンドツーエンドの学習コーデックを表すVVC/H.266とRLVCと,2021年のCLICコンペティションであるE2E_T_OLで最高のエンドツーエンド学習アプローチと比較した。 我々のコーデックは明らかにE2E_T_OLより優れており、一部の設定ではVVCやRLVCと良好に比較できる。

Neural image coding represents now the state-of-the-art image compression approach. However, a lot of work is still to be done in the video domain. In this work, we propose an end-to-end learned video codec that introduces several architectural novelties as well as training novelties, revolving around the concepts of adaptation and attention. Our codec is organized as an intra-frame codec paired with an inter-frame codec. As one architectural novelty, we propose to train the inter-frame codec model to adapt the motion estimation process based on the resolution of the input video. A second architectural novelty is a new neural block that combines concepts from split-attention based neural networks and from DenseNets. Finally, we propose to overfit a set of decoder-side multiplicative parameters at inference time. Through ablation studies and comparisons to prior art, we show the benefits of our proposed techniques in terms of coding gains. We compare our codec to VVC/H.266 and RLVC, which represent the state-of-the-art traditional and end-to-end learned codecs, respectively, and to the top performing end-to-end learned approach in 2021 CLIC competition, E2E_T_OL. Our codec clearly outperforms E2E_T_OL, and compare favorably to VVC and RLVC in some settings.
翻訳日:2021-12-17 14:51:50 公開日:2021-12-16
# 位相コントラスト顕微鏡ビデオにおける時間的細胞分画ロバストネスの探索

Search for temporal cell segmentation robustness in phase-contrast microscopy videos ( http://arxiv.org/abs/2112.08817v1 )

ライセンス: Link先を確認
Estibaliz G\'omez-de-Mariscal, Hasini Jayatilaka, \"Ozg\"un \c{C}i\c{c}ek, Thomas Brox, Denis Wirtz, Arrate Mu\~noz-Barrutia(参考訳) 経時的細胞形態変化の研究は、細胞移動機構を理解する上で重要である。 本研究では,3次元コラーゲンマトリックスに埋め込んだ癌細胞を位相コントラスト顕微鏡で観察する深層学習ワークフローを提案する。 提案手法は,過去からの時間情報を活用し,一貫したセグメンテーション結果を提供するために,転送学習と繰り返し畳み込み型長期記憶単位を用いる。 最後に,癌細胞の形態を研究するための幾何学的特徴付け手法を提案する。 我々の手法は時間内に安定した結果をもたらし、異なる重量の初期化やトレーニングデータサンプリングに対して堅牢である。 2次元セルセグメンテーションと追跡のための新しいアノテーション付きデータセットと、実験を再現したり、新しい画像処理問題に適応するためのオープンソース実装を導入する。

Studying cell morphology changes in time is critical to understanding cell migration mechanisms. In this work, we present a deep learning-based workflow to segment cancer cells embedded in 3D collagen matrices and imaged with phase-contrast microscopy. Our approach uses transfer learning and recurrent convolutional long-short term memory units to exploit the temporal information from the past and provide a consistent segmentation result. Lastly, we propose a geometrical-characte rization approach to studying cancer cell morphology. Our approach provides stable results in time, and it is robust to the different weight initialization or training data sampling. We introduce a new annotated dataset for 2D cell segmentation and tracking, and an open-source implementation to replicate the experiments or adapt them to new image processing problems.
翻訳日:2021-12-17 14:51:27 公開日:2021-12-16
# 安定した長時間連続ビデオスーパーリゾリューション

Stable Long-Term Recurrent Video Super-Resolution ( http://arxiv.org/abs/2112.08950v1 )

ライセンス: Link先を確認
Benjamin Naoto Chiche, Arnaud Woiselle, Joana Frontera-Pons, Jean-Luc Starck(参考訳) リカレントモデルが深層学習(DL)ベースのビデオ超解像(VSR)で人気を集めているのは、スライディングウインドウモデルと比較して、計算効率、時間的受容場、時間的一貫性が増しているからである。 しかし、低動作(シーンの一部がほとんど動かない)を示す長いビデオシーケンスを推測すると、繰り返し処理によって繰り返しモデルが分岐し、高周波のアーティファクトが生成される。 我々の知る限りでは、VSRに関する研究では、この不安定性問題が指摘されていない。 ビデオ監視は、カメラとシーンの両方が長時間静止しているため、そのようなアーティファクトが発生する典型的な例である。 本研究では,既存のvsrネットワークの不安定性を低動きの長い系列に露呈する。 我々はこれを、作成した新しい長いシーケンスデータセットであるQuasi-Static Video Setで実演する。 最後に,リプシッツ安定理論に基づき,安定かつ競争力のある再帰型vsrネットワークの新たなフレームワークを提案する。 本稿では,この枠組みに基づいて,MRVSR(Middle Recurrent Video Super-Resolution)と呼ばれる新たなリカレントVSRネットワークを提案する。 低動きの長いシーケンスで、その競争力を実証的に示します。

Recurrent models have gained popularity in deep learning (DL) based video super-resolution (VSR), due to their increased computational efficiency, temporal receptive field and temporal consistency compared to sliding-window based models. However, when inferring on long video sequences presenting low motion (i.e. in which some parts of the scene barely move), recurrent models diverge through recurrent processing, generating high frequency artifacts. To the best of our knowledge, no study about VSR pointed out this instability problem, which can be critical for some real-world applications. Video surveillance is a typical example where such artifacts would occur, as both the camera and the scene stay static for a long time. In this work, we expose instabilities of existing recurrent VSR networks on long sequences with low motion. We demonstrate it on a new long sequence dataset Quasi-Static Video Set, that we have created. Finally, we introduce a new framework of recurrent VSR networks that is both stable and competitive, based on Lipschitz stability theory. We propose a new recurrent VSR network, coined Middle Recurrent Video Super-Resolution (MRVSR), based on this framework. We empirically show its competitive performance on long sequences with low motion.
翻訳日:2021-12-17 14:51:14 公開日:2021-12-16
# (参考訳) コントラスト学習による教師なし情報検索に向けて [全文訳有]

Towards Unsupervised Dense Information Retrieval with Contrastive Learning ( http://arxiv.org/abs/2112.09118v1 )

ライセンス: CC BY 4.0
Gautier Izacard and Mathilde Caron and Lucas Hosseini and Sebastian Riedel and Piotr Bojanowski and Armand Joulin and Edouard Grave(参考訳) 情報検索は自然言語処理において,質問応答や事実チェックといった知識集約的なタスクにおいて重要な要素である。 近年,用語周波数に基づく古典的スパース手法の代替として,ニューラルネットワークに基づく高密度検索器が出現している。 これらのモデルは、大規模なトレーニングセットが利用可能なデータセットやタスクに関する最先端の結果を得た。 しかし、これらはトレーニングデータを持たない新しいドメインやアプリケーションにうまく移行せず、管理されていないBM25のような項周波数法では性能が良くない。 したがって、自然の疑問は、密集したレトリバーを監督なしで訓練できるかどうかである。 本研究では,教師なしの密集したレトリバーを訓練する方法として,コントラスト学習の限界を探求し,強力な検索性能をもたらすことを示す。 より正確には、BEIRベンチマークで、私たちのモデルは15のデータセットのうち11でBM25より優れています。 さらに、数千のサンプルが利用可能になると、これらのモデルに微調整を行うことで、bm25よりも強力な改善が得られます。 最後に,MS-MARCOデータセットの微調整に先立って事前学習を行うと,BEIRベンチマークで最先端の結果が得られた。

Information retrieval is an important component in natural language processing, for knowledge intensive tasks such as question answering and fact checking. Recently, information retrieval has seen the emergence of dense retrievers, based on neural networks, as an alternative to classical sparse methods based on term-frequency. These models have obtained state-of-the-art results on datasets and tasks where large training sets are available. However, they do not transfer well to new domains or applications with no training data, and are often outperformed by term-frequency methods such as BM25 which are not supervised. Thus, a natural question is whether it is possible to train dense retrievers without supervision. In this work, we explore the limits of contrastive learning as a way to train unsupervised dense retrievers, and show that it leads to strong retrieval performance. More precisely, we show on the BEIR benchmark that our model outperforms BM25 on 11 out of 15 datasets. Furthermore, when a few thousands examples are available, we show that fine-tuning our model on these leads to strong improvements compared to BM25. Finally, when used as pre-training before fine-tuning on the MS-MARCO dataset, our technique obtains state-of-the-art results on the BEIR benchmark.
翻訳日:2021-12-17 14:49:03 公開日:2021-12-16
# 言語バイアス処理における自己スーパービジョンの限界解析

Analyzing the Limits of Self-Supervision in Handling Bias in Language ( http://arxiv.org/abs/2112.08637v1 )

ライセンス: Link先を確認
Lisa Bauer, Karthik Gopalakrishnan, Spandana Gella, Yang Liu, Mohit Bansal, Dilek Hakkani-Tur(参考訳) 自然言語のタスク記述による入力のプロンプティングは、コンテキスト内管理がほとんどないし全くない大規模生成言語モデルから、合理的に正確な出力を引き出すための一般的なメカニズムとして登場した。 これはまた、言語モデルが大量のラベルなしテキストのコーパス上での自己教師付き事前トレーニングから純粋に幅広い下流タスクのセマンティクスをいかにうまく捉えているかを理解するのに役立つ。 このようなモデルは、人種差別やセクシスト言語のような好ましくないコンテンツにも自然にさらされており、これらの次元に沿ったモデルの認識に関する作業は限られている。 本稿では,これらの言語モデルが,認識,識別,抽出,言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを定義し,包括的に評価する。 タスク記述の3つの幅広いクラスを定義する: 文、質問、完了、各クラスに多数の語彙変種がある。 これらのクラスを用いて各タスクにプロンプトを施すことの有効性について検討し,いくつかのデコード手法と少数例を用いてヌルタスク記述を行う。 分析の結果, 言語モデルは, 性別や政治的関係など, さまざまなバイアス次元にわたって, 幅広い程度でタスクを遂行できることがわかった。 我々の研究は、社会学的に困難なタスクを達成するための現在の自己スーパービジョン目標の限界を定量化することで、バイアスのない言語モデルへの重要なステップであると考えています。

Prompting inputs with natural language task descriptions has emerged as a popular mechanism to elicit reasonably accurate outputs from large-scale generative language models with little to no in-context supervision. This also helps gain insight into how well language models capture the semantics of a wide range of downstream tasks purely from self-supervised pre-training on massive corpora of unlabeled text. Such models have naturally also been exposed to a lot of undesirable content like racist and sexist language and there is limited work on awareness of models along these dimensions. In this paper, we define and comprehensively evaluate how well such language models capture the semantics of four tasks for bias: diagnosis, identification, extraction and rephrasing. We define three broad classes of task descriptions for these tasks: statement, question, and completion, with numerous lexical variants within each class. We study the efficacy of prompting for each task using these classes and the null task description across several decoding methods and few-shot examples. Our analyses indicate that language models are capable of performing these tasks to widely varying degrees across different bias dimensions, such as gender and political affiliation. We believe our work is an important step towards unbiased language models by quantifying the limits of current self-supervision objectives at accomplishing such sociologically challenging tasks.
翻訳日:2021-12-17 14:32:37 公開日:2021-12-16
# 歴史にもっと注意を払う: 対話型テキストからSQLへのコンテキストモデリング戦略

Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL ( http://arxiv.org/abs/2112.08735v1 )

ライセンス: Link先を確認
Yuntao Li, Hanchu Zhang, Yutian Li, Sirui Wang, Wei Wu, Yan Zhang(参考訳) Conversational Text-to-SQLは、マルチターン自然言語クエリを対応するSQL表現に変換することを目的としている。 対話型テキストからSQLへの最も難解な問題の1つは、マルチターンクエリのセマンティクスをモデル化し、現在のクエリに必要な適切な情報を集めることである。 本稿では,各ターンの追加とコンテキスト全体の要約によって意味的変化を明示的にモデル化することで,対話型クエリをsqlに変換する際のパフォーマンスが向上することを示す。 特に,会話粒度と会話粒度の両方において2つの会話モデリングタスクを提案する。 これら2つのタスクは、マルチターン会話セマンティック解析を支援するための補助的なトレーニングタスクとして機能する。 本研究では,大規模オープンドメイン対話型テキスト・ツー・sqlデータセットの実証実験を行い,最新の結果を得た。 その結果,提案手法はマルチターンセマンティック解析の性能を著しく向上させることがわかった。

Conversational text-to-SQL aims at converting multi-turn natural language queries into their corresponding SQL representations. One of the most intractable problem of conversational text-to-SQL is modeling the semantics of multi-turn queries and gathering proper information required for the current query. This paper shows that explicit modeling the semantic changes by adding each turn and the summarization of the whole context can bring better performance on converting conversational queries into SQLs. In particular, we propose two conversational modeling tasks in both turn grain and conversation grain. These two tasks simply work as auxiliary training tasks to help with multi-turn conversational semantic parsing. We conducted empirical studies and achieve new state-of-the-art results on large-scale open-domain conversational text-to-SQL dataset. The results demonstrate that the proposed mechanism significantly improves the performance of multi-turn semantic parsing.
翻訳日:2021-12-17 14:32:13 公開日:2021-12-16
# 統一的注意ネットワークによる認知処理信号と言語特徴の橋渡し

Bridging between Cognitive Processing Signals and Linguistic Features via a Unified Attentional Network ( http://arxiv.org/abs/2112.08831v1 )

ライセンス: Link先を確認
Yuqi Ren, Deyi Xiong(参考訳) 認知処理信号は自然言語処理(NLP)タスクを改善するために使用できる。 しかし、これらの信号が言語情報とどのように関連しているかは明らかでない。 人間の言語処理と言語的特徴のブリッジは神経言語学において広く研究されており、通常は高度に制御された刺激を持つ単変量制御実験によって研究されている。 このような方法は自然読解の真正性を損なうだけでなく、時間と費用もかかる。 本稿では,認知処理信号と言語的特徴の関係を調べるためのデータ駆動手法を提案する。 具体的には,認知処理信号を言語的特徴に選択的にマッピングするために,埋め込み・注意・エンコーディング・予測層からなる統一的注意フレームワークを提案する。 マッピング手順をブリッジタスクとして定義し,語彙的,構文的,意味的特徴のブリッジタスク12を開発した。 提案手法は,自然読解時に記録された認知処理信号を入力としてのみ必要とし,単一の認知データセットを用いて幅広い言語特徴を検出できる。 実験結果からの観察は、これまでの神経科学の知見と共鳴する。 これに加えて, 文脈的視線追跡特徴と文のテンスの関係など, 興味深い発見が多数報告された。

Cognitive processing signals can be used to improve natural language processing (NLP) tasks. However, it is not clear how these signals correlate with linguistic information. Bridging between human language processing and linguistic features has been widely studied in neurolinguistics, usually via single-variable controlled experiments with highly-controlled stimuli. Such methods not only compromises the authenticity of natural reading, but also are time-consuming and expensive. In this paper, we propose a data-driven method to investigate the relationship between cognitive processing signals and linguistic features. Specifically, we present a unified attentional framework that is composed of embedding, attention, encoding and predicting layers to selectively map cognitive processing signals to linguistic features. We define the mapping procedure as a bridging task and develop 12 bridging tasks for lexical, syntactic and semantic features. The proposed framework only requires cognitive processing signals recorded under natural reading as inputs, and can be used to detect a wide range of linguistic features with a single cognitive dataset. Observations from experiment results resonate with previous neuroscience findings. In addition to this, our experiments also reveal a number of interesting findings, such as the correlation between contextual eye-tracking features and tense of sentence.
翻訳日:2021-12-17 14:31:59 公開日:2021-12-16
# twitter-comms: 気候、新型コロナウイルス、軍用マルチモーダル情報の検知

Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal Misinformation ( http://arxiv.org/abs/2112.08594v1 )

ライセンス: Link先を確認
Giscard Biamby, Grace Luo, Trevor Darrell, Anna Rohrbach(参考訳) Twitterで「ミスキャプション」画像などの文脈外メディアを検出するには、2つのモダリティ間の矛盾を検出する必要があることが多い。 本稿では,darpa semantic forensics (semafor) プログラムにおける画像テキスト不整合検出への取り組みについて述べる。 まず、気候変動、COVID-19、軍用車両のトピックに関連する884万のツイートを含む大規模なマルチモーダルデータセットであるTwitter-COMMsを収集します。 私たちは、最先端のクリップモデルに基づいて、自動生成したランダムとハードのネガティブを活用して、このアプローチをトレーニングします。 提案手法は, 隠れた人間生成評価セット上でテストされる。 ゼロショットCLIPベースラインよりも高精度なシステムで11%の精度で検出精度が向上し,プログラムリーダボード上で最高の結果が得られた。

Detecting out-of-context media, such as "miscaptioned" images on Twitter, often requires detecting inconsistencies between the two modalities. This paper describes our approach to the Image-Text Inconsistency Detection challenge of the DARPA Semantic Forensics (SemaFor) Program. First, we collect Twitter-COMMs, a large-scale multimodal dataset with 884k tweets relevant to the topics of Climate Change, COVID-19, and Military Vehicles. We train our approach, based on the state-of-the-art CLIP model, leveraging automatically generated random and hard negatives. Our method is then tested on a hidden human-generated evaluation set. We achieve the best result on the program leaderboard, with 11% detection improvement in a high precision regime over a zero-shot CLIP baseline.
翻訳日:2021-12-17 14:31:19 公開日:2021-12-16
# 視覚言語理解のための蒸留デュアルエンコーダモデル

Distilled Dual-Encoder Model for Vision-Language Understanding ( http://arxiv.org/abs/2112.08723v1 )

ライセンス: Link先を確認
Zekun Wang, Wenhui Wang, Haichao Zhu, Ming Liu, Bing Qin, Furu Wei(参考訳) 視覚言語理解タスク(視覚推論や視覚質問応答など)のためのデュアルエンコーダモデルを訓練するためのクロスモーダル注意蒸留フレームワークを提案する。 デュアルエンコーダモデルはfusion-encoderモデルよりも高速な推論速度を持ち、推論中に画像とテキストの事前計算を可能にする。 しかし、デュアルエンコーダモデルで使われる浅い相互作用モジュールは、複雑な視覚言語理解タスクを扱うには不十分である。 画像とテキストの深い相互作用を学ぶために,融合エンコーダモデルの画像からテキストへの注意分布とテキストから画像への注意分布を用いて,デュアルエンコーダモデルのトレーニングを指導するクロスモーダルアテンション蒸留法を提案する。 また,前訓練段階と微調整段階の両方にクロスモーダル注意蒸留を適用することにより,さらなる改善が得られた。 実験の結果, 蒸留二重エンコーダモデルは, fusion-encoderモデルよりもはるかに高速な推論速度を享受しながら, 視覚的推論, ビジュアルエンテーメント, 視覚的質問応答タスクにおいて, 競合性能が得られることがわかった。 私たちのコードとモデルはhttps://github.com/k ugwzk/Distilled-Dual Encoder.comで公開されます。

We propose a cross-modal attention distillation framework to train a dual-encoder model for vision-language understanding tasks, such as visual reasoning and visual question answering. Dual-encoder models have a faster inference speed than fusion-encoder models and enable the pre-computation of images and text during inference. However, the shallow interaction module used in dual-encoder models is insufficient to handle complex vision-language understanding tasks. In order to learn deep interactions of images and text, we introduce cross-modal attention distillation, which uses the image-to-text and text-to-image attention distributions of a fusion-encoder model to guide the training of our dual-encoder model. In addition, we show that applying the cross-modal attention distillation for both pre-training and fine-tuning stages achieves further improvements. Experimental results demonstrate that the distilled dual-encoder model achieves competitive performance for visual reasoning, visual entailment and visual question answering tasks while enjoying a much faster inference speed than fusion-encoder models. Our code and models will be publicly available at https://github.com/k ugwzk/Distilled-Dual Encoder.
翻訳日:2021-12-17 14:31:05 公開日:2021-12-16
# 領域適応オブジェクト検出のための周波数スペクトル増大一貫性

Frequency Spectrum Augmentation Consistency for Domain Adaptive Object Detection ( http://arxiv.org/abs/2112.08605v1 )

ライセンス: Link先を確認
Rui Liu and Yahong Han and Yaowei Wang and Qi Tian(参考訳) ドメイン適応オブジェクト検出(DAOD)は、異なるドメインからトレーニングやテストデータを取得する際に、検出器の一般化能力を向上することを目的としている。 重要なドメインギャップを考慮すると、例えばCycleGANベースのメソッドのような典型的なメソッドは、ソースとターゲットドメインを徐々にブリッジするために中間ドメインを採用する。 しかし、CycleGANベースの中間ドメインは、オブジェクト検出のためのピクセルレベルまたはインスタンスレベルの監督を欠いているため、セマンティックな違いが生じる。 本稿では、4つの異なる低周波フィルタ演算を持つ周波数スペクトル拡張一貫性(fsac)フレームワークを提案する。 このようにして、中間領域として一連の拡張データを得ることができる。 具体的には,2段階最適化フレームワークを提案する。 第1段階では、すべてのオリジナルおよび拡張ソースデータを使用して、オブジェクト検出器をトレーニングします。 第2段階では、擬似ラベル付き拡張ソースとターゲットデータを採用して、予測一貫性のための自己学習を行う。 また、平均教師を最適化した教師モデルを用いて、擬似ラベルをさらに修正する。 実験では,単目的と複目的のDAODを別々に評価し,本手法の有効性を実証した。

Domain adaptive object detection (DAOD) aims to improve the generalization ability of detectors when the training and test data are from different domains. Considering the significant domain gap, some typical methods, e.g., CycleGAN-based methods, adopt the intermediate domain to bridge the source and target domains progressively. However, the CycleGAN-based intermediate domain lacks the pix- or instance-level supervision for object detection, which leads to semantic differences. To address this problem, in this paper, we introduce a Frequency Spectrum Augmentation Consistency (FSAC) framework with four different low-frequency filter operations. In this way, we can obtain a series of augmented data as the intermediate domain. Concretely, we propose a two-stage optimization framework. In the first stage, we utilize all the original and augmented source data to train an object detector. In the second stage, augmented source and target data with pseudo labels are adopted to perform the self-training for prediction consistency. And a teacher model optimized using Mean Teacher is used to further revise the pseudo labels. In the experiment, we evaluate our method on the single- and compound- target DAOD separately, which demonstrate the effectiveness of our method.
翻訳日:2021-12-17 14:30:41 公開日:2021-12-16
# transzero++:ゼロショット学習のためのクロス属性誘導トランスフォーマー

TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning ( http://arxiv.org/abs/2112.08643v1 )

ライセンス: Link先を確認
Shiming Chen, Ziming Hong, Guo-Sen Xie, Jian Zhao, Xinge You, Shuicheng Yan, and Ling Shao(参考訳) ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。 既存の注意に基づくモデルは、視覚特徴の伝達可能性や識別属性のローカライズを無視する一方向注意のみを用いて、単一の画像で劣る領域の特徴を学ぶのに苦労している。 本稿では,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案し,視覚的特徴を洗練し,ZSLにおける意味拡張型視覚埋め込み表現の正確な属性ローカライゼーションを学習する。 TransZero++は属性$\rightarrow$visual Transformer sub-net (AVT)とビジュアル$\rightarrow$attribu te Transformer sub-net (VAT)で構成される。 具体的には、AVTはまず、クロスデータセット問題を軽減するために機能拡張エンコーダを採用し、領域特徴間の絡み合った相対幾何学関係を小さくすることで、視覚特徴の伝達性を向上させる。 次に属性$\rightarrow$visualデコーダを使用して、属性ベースの視覚的特徴表現のための所定の画像内の各属性に最も関連する画像領域をローカライズする。 同様に、vatは類似の機能拡張エンコーダを使用してビジュアル機能を洗練し、visual$\rightarrow$a ttributeデコーダでさらにビジュアルベースの属性機能を学ぶ。 意味的協調的損失の導入により、2つの属性誘導トランスフォーマーは相互に、意味的協調学習を通じて意味論的視覚埋め込みを学ぶことを教える。 広範な実験により、transzero++は3つの挑戦的なzslベンチマークで新たな最先端結果を達成していることが示された。 コードは \url{https://github.com/s himing-chen/transzer o_pp} で入手できる。

Zero-shot learning (ZSL) tackles the novel class recognition problem by transferring semantic knowledge from seen classes to unseen ones. Existing attention-based models have struggled to learn inferior region features in a single image by solely using unidirectional attention, which ignore the transferability and discriminative attribute localization of visual features. In this paper, we propose a cross attribute-guided Transformer network, termed TransZero++, to refine visual features and learn accurate attribute localization for semantic-augmented visual embedding representations in ZSL. TransZero++ consists of an attribute$\rightarro w$visual Transformer sub-net (AVT) and a visual$\rightarrow$a ttribute Transformer sub-net (VAT). Specifically, AVT first takes a feature augmentation encoder to alleviate the cross-dataset problem, and improves the transferability of visual features by reducing the entangled relative geometry relationships among region features. Then, an attribute$\rightarro w$visual decoder is employed to localize the image regions most relevant to each attribute in a given image for attribute-based visual feature representations. Analogously, VAT uses the similar feature augmentation encoder to refine the visual features, which are further applied in visual$\rightarrow$a ttribute decoder to learn visual-based attribute features. By further introducing semantical collaborative losses, the two attribute-guided transformers teach each other to learn semantic-augmented visual embeddings via semantical collaborative learning. Extensive experiments show that TransZero++ achieves the new state-of-the-art results on three challenging ZSL benchmarks. The codes are available at: \url{https://github.com/s himing-chen/TransZer o_pp}.
翻訳日:2021-12-17 14:29:18 公開日:2021-12-16
# meta: 一般化された人物再同定のための他者のアグリゲーションによる埋め込みを模倣する

META: Mimicking Embedding via oThers' Aggregation for Generalizable Person Re-identification ( http://arxiv.org/abs/2112.08684v1 )

ライセンス: Link先を確認
Boqiang Xu, Jian Liang, Lingxiao He, Zhenan Sun(参考訳) Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。 異なるドメインに対して同一のモデルを仮定する手法とは対照的に、Mixture of Experts (MoE)はドメイン間の補完的な情報を活用するために複数のドメイン固有のネットワークを利用している。 しかし、以前のMoEベースのDG ReID法は、ソースドメインの数の増加とともに大きなモデルサイズに悩まされ、ほとんどはドメイン不変特性の活用を見落としている。 上記の2つの問題に対処するために、DG ReIDのためのoThers' Aggregation (META)を介して、Mimicking Embeddingと呼ばれる新しいアプローチを提案する。 大きなモデルサイズを避けるため、METAの専門家は各ソースドメインにブランチネットワークを追加するのではなく、バッチ正規化レイヤを除くすべてのパラメータを共有する。 複数の専門家の他に、metaはインスタンス正規化(in)を利用してグローバルブランチに導入し、ドメイン間の不変機能を追い求める。 一方、METAは正規化統計を用いて、未確認のターゲットドメインとソースドメインの関係を考察し、未確認のターゲットドメインを模倣するための複数の専門家を適応的に統合する集約ネットワークを開発する。 提案した整合性損失とエピソードトレーニングアルゴリズムにより、METAは真に見えないターゲット領域への埋め込みを模倣することを期待できる。 大規模な実験により、METAが最先端のDG ReID法をはるかに上回っていることが確認された。

Domain generalizable (DG) person re-identification (ReID) aims to test across unseen domains without access to the target domain data at training time, which is a realistic but challenging problem. In contrast to methods assuming an identical model for different domains, Mixture of Experts (MoE) exploits multiple domain-specific networks for leveraging complementary information between domains, obtaining impressive results. However, prior MoE-based DG ReID methods suffer from a large model size with the increase of the number of source domains, and most of them overlook the exploitation of domain-invariant characteristics. To handle the two issues above, this paper presents a new approach called Mimicking Embedding via oThers' Aggregation (META) for DG ReID. To avoid the large model size, experts in META do not add a branch network for each source domain but share all the parameters except for the batch normalization layers. Besides multiple experts, META leverages Instance Normalization (IN) and introduces it into a global branch to pursue invariant features across domains. Meanwhile, META considers the relevance of an unseen target sample and source domains via normalization statistics and develops an aggregation network to adaptively integrate multiple experts for mimicking unseen target domain. Benefiting from a proposed consistency loss and an episodic training algorithm, we can expect META to mimic embedding for a truly unseen target domain. Extensive experiments verify that META surpasses state-of-the-art DG ReID methods by a large margin.
翻訳日:2021-12-17 14:28:47 公開日:2021-12-16
# 合成科学画像の法医学的解析

Forensic Analysis of Synthetically Generated Scientific Images ( http://arxiv.org/abs/2112.08739v1 )

ライセンス: Link先を確認
Sara Mandelli, Davide Cozzolino, Joao P. Cardenuto, Daniel Moreira, Paolo Bestagini, Walter Scheirer, Anderson Rocha, Luisa Verdoliva, Stefano Tubaro, Edward J. Delp(参考訳) 合成生成コンテンツの広範な拡散は緊急対策を必要とする深刻な脅威である。 合成コンテンツの生成は、ビデオ、写真、オーディオシーケンスのようなマルチメディアデータに制限されないが、西洋ブロックや顕微鏡画像のような生物学的画像も含む、非常に広い領域をカバーする。 本稿では,人工的に生成した西ブロット画像の検出に焦点をあてる。 西洋の血まみれの画像は、主に生物医学文献で研究されており、視覚検査や標準的な鑑識検査による操作をほとんど望みなく、これらの画像が容易に偽造できることが既に示されている。 公開データセットの欠如を克服するために,3つの異なる最先端生成手法によって生成された14K以上の西洋ブロック画像と18K以上の合成西洋ブロック画像からなる新しいデータセットを作成する。 そこで我々は,西洋の合成芽を検知し,二項分類法と一階検出法について検討した。 どちらのシナリオでも、訓練段階で合成西洋風画像を利用することはない。 その結果, 画像の合成版に最適化されていないにもかかわらず, 合成したウエスタンブロット画像は高精度に検出できることがわかった。

The widespread diffusion of synthetically generated content is a serious threat that needs urgent countermeasures. The generation of synthetic content is not restricted to multimedia data like videos, photographs, or audio sequences, but covers a significantly vast area that can include biological images as well, such as western-blot and microscopic images. In this paper, we focus on the detection of synthetically generated western-blot images. Western-blot images are largely explored in the biomedical literature and it has been already shown how these images can be easily counterfeited with few hope to spot manipulations by visual inspection or by standard forensics detectors. To overcome the absence of a publicly available dataset, we create a new dataset comprising more than 14K original western-blot images and 18K synthetic western-blot images, generated by three different state-of-the-art generation methods. Then, we investigate different strategies to detect synthetic western blots, exploring binary classification methods as well as one-class detectors. In both scenarios, we never exploit synthetic western-blot images at training stage. The achieved results show that synthetically generated western-blot images can be spot with good accuracy, even though the exploited detectors are not optimized over synthetic versions of these scientific images.
翻訳日:2021-12-17 14:28:15 公開日:2021-12-16
# MVSS-Net:画像操作検出のためのマルチビューマルチスケール監視ネットワーク

MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection ( http://arxiv.org/abs/2112.08935v1 )

ライセンス: Link先を確認
Chengbo Dong, Xinru Chen, Ruohan Hu, Juan Cao, Xirong Li(参考訳) 画像操作検出における重要な研究課題は、新しいデータの操作に敏感な一般化された特徴を学習する方法である。 現在の研究は感度を強調しており、特異性はほとんど無視されている。 本稿では,多視点特徴学習とマルチスケール監視による両面の考察を行う。 前者は,音の分布や境界アーチファクトを利用して,意味に依存しない,より一般化可能な特徴を学習することを目的としている。 後者は、意味的セグメンテーションの損失に依存する先行技術によって考慮される、非自明な真正なイメージから学ぶことができる。 我々の考えはMVSS-Netと拡張バージョンMVSS-Net++と呼ばれる新しいネットワークによって実現されている。 6つの公開ベンチマークデータセットに関する総合的な実験は、MVSS-Netシリーズがピクセルレベルと画像レベルの操作検出の両方に有効であることを正当化する。

The key research question for image manipulation detection is how to learn generalizable features that are sensitive to manipulations in novel data, whilst specific to prevent false alarms on authentic images. Current research emphasizes the sensitivity, with the specificity mostly ignored. In this paper we address both aspects by multi-view feature learning and multi-scale supervision. By exploiting noise distribution and boundary artifacts surrounding tampered regions, the former aims to learn semantic-agnostic and thus more generalizable features. The latter allows us to learn from authentic images which are nontrivial to be taken into account by the prior art that relies on a semantic segmentation loss. Our thoughts are realized by a new network which we term MVSS-Net and its enhanced version MVSS-Net++. Comprehensive experiments on six public benchmark datasets justify the viability of the MVSS-Net series for both pixel-level and image-level manipulation detection.
翻訳日:2021-12-17 14:27:56 公開日:2021-12-16
# HODOR:静的画像から学習したビデオにおけるオブジェクト再分割のための高レベルオブジェクト記述子

HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images ( http://arxiv.org/abs/2112.09131v1 )

ライセンス: Link先を確認
Ali Athar, Jonathon Luiten, Alexander Hermans, Deva Ramanan, Bastian Leibe(参考訳) 既存のビデオオブジェクトセグメンテーション(VOS)は、フレーム間の低レベルのピクセル間対応を学習し、ビデオ間でオブジェクトマスクを伝搬する。 これは、動画内のフレームが高い相関関係にあるため、注釈を付けるのにコストがかかり、非常に冗長な、大量の密集した注釈付きビデオデータを必要とする。 そこで本研究では,オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用し,VOSに取り組む新しい手法であるHODORを提案する。 画像フレームからオブジェクトインスタンスとシーン情報をロバストなハイレベルなディスクリプタにエンコードし、それらのオブジェクトを異なるフレームで再セグメント化します。 その結果、HODORはビデオアノテーションなしでトレーニングされた既存の方法と比較して、DAVISとYouTube-VOSのベンチマークで最先端のパフォーマンスを達成した。 アーキテクチャの変更がなければ、HODORはサイクリック一貫性を利用して単一のアノテーション付きビデオフレームに関するビデオコンテキストから学ぶこともできるが、他の手法は密で時間的に一貫したアノテーションに依存している。

Existing state-of-the-art methods for Video Object Segmentation (VOS) learn low-level pixel-to-pixel correspondences between frames to propagate object masks across video. This requires a large amount of densely annotated video data, which is costly to annotate, and largely redundant since frames within a video are highly correlated. In light of this, we propose HODOR: a novel method that tackles VOS by effectively leveraging annotated static images for understanding object appearance and scene context. We encode object instances and scene information from an image frame into robust high-level descriptors which can then be used to re-segment those objects in different frames. As a result, HODOR achieves state-of-the-art performance on the DAVIS and YouTube-VOS benchmarks compared to existing methods trained without video annotations. Without any architectural modification, HODOR can also learn from video context around single annotated video frames by utilizing cyclic consistency, whereas other methods rely on dense, temporally consistent annotations.
翻訳日:2021-12-17 14:27:41 公開日:2021-12-16
# amortized noise channel neural machine translation"に完全一致する

Amortized Noisy Channel Neural Machine Translation ( http://arxiv.org/abs/2112.08670v1 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, He He, Kyunghyun Cho(参考訳) ノイズチャネルモデルは神経機械翻訳(NMT)に特に有効である。 しかし、最近のBSR (beam search and rerank) のような手法は、推論中にかなりの計算オーバーヘッドを発生させ、現実世界のアプリケーションを実現する。 我々は,BSRで生成された翻訳と同じ報酬を最大化する翻訳を生成するような,アモータイズされたノイズチャネルNMTモデルの構築を目指している。 我々は,知識蒸留,1段階の模倣学習,Q学習の3つのアプローチを試行する。 最初のアプローチは擬似コーパスからノイズチャネル信号を取得し,後者の2つのアプローチはノイズチャネルMT報酬を直接最適化することを目的としている。 3つのアプローチはいずれも1-2桁の推論を高速化する。 すべての3つのアプローチにおいて、生成された翻訳はBSRに匹敵する報酬を達成できないが、BLEUによって近似された翻訳品質はBSRが生成する翻訳の品質と似ている。

Noisy channel models have been especially effective in neural machine translation (NMT). However, recent approaches like "beam search and rerank" (BSR) incur significant computation overhead during inference, making real-world application infeasible. We aim to build an amortized noisy channel NMT model such that greedily decoding from it would generate translations that maximize the same reward as translations generated using BSR. We attempt three approaches: knowledge distillation, 1-step-deviation imitation learning, and Q learning. The first approach obtains the noisy channel signal from a pseudo-corpus, and the latter two approaches aim to optimize toward a noisy-channel MT reward directly. All three approaches speed up inference by 1-2 orders of magnitude. For all three approaches, the generated translations fail to achieve rewards comparable to BSR, but the translation quality approximated by BLEU is similar to the quality of BSR-produced translations.
翻訳日:2021-12-17 14:27:22 公開日:2021-12-16
# CLIN-X:事前訓練言語モデルと臨床領域における概念抽出のためのクロスタスク転送に関する研究

CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain ( http://arxiv.org/abs/2112.08754v1 )

ライセンス: Link先を確認
Lukas Lange, Heike Adel, Jannik Str\"otgen, Dietrich Klakow(参考訳) 自然言語処理(NLP)の分野は最近、ほとんどあらゆるタスクを解くために事前訓練された言語モデルを使用することに大きく変化している。 様々なタスクでベンチマークデータセットが大幅に改善されているにもかかわらず、これらのモデルは、事前トレーニングされたドキュメントとターゲットドキュメントの間の大きなギャップが観察される臨床ドメインのような非標準ドメインで副最適化を実行することが多い。 本稿では,言語モデルのドメイン特化トレーニングでこのギャップを解消することを目的として,下流タスクと設定の多種多様な集合にその影響について検討する。 プレトレーニングされたCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが2つの言語から臨床概念抽出タスクを10回行う場合、他のトレーニング済みトランスフォーマーモデルよりも優れていることを示す。 さらに,ランダムスプリットとクロスセンテンスコンテキストを用いたアンサンブルに基づくタスク非依存モデルアーキテクチャにより,トランスフォーマティブモデルをさらに改善できることを実証する。 本研究は,250文のラベル付き文が利用可能である場合に,47F1pointsの改善を伴う注釈付きデータがないにもかかわらず,安定したモデル性能を示すものである。 この結果から,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性が強調されるとともに,タスクに依存しないモデルアーキテクチャがテスト対象のタスクや言語間で堅牢であるため,ドメインやタスク固有の適応が不要であることを示す。 clin-xlanguageモデルとモデルを微調整および転送するためのソースコードは、https://github.com/b oschresearch/clin\_x /とhughingface model hubで公開されている。

The field of natural language processing (NLP) has recently seen a large change towards using pre-trained language models for solving almost any task. Despite showing great improvements in benchmark datasets for various tasks, these models often perform sub-optimal in non-standard domains like the clinical domain where a large gap between pre-training documents and target documents is observed. In this paper, we aim at closing this gap with domain-specific training of the language model and we investigate its effect on a diverse set of downstream tasks and settings. We introduce the pre-trained CLIN-X (Clinical XLM-R) language models and show how CLIN-X outperforms other pre-trained transformer models by a large margin for ten clinical concept extraction tasks from two languages. In addition, we demonstrate how the transformer model can be further improved with our proposed task- and language-agnostic model architecture based on ensembles over random splits and cross-sentence context. Our studies in low-resource and transfer settings reveal stable model performance despite a lack of annotated data with improvements of up to 47 F1points when only 250 labeled sentences are available. Our results highlight the importance of specialized language models as CLIN-X for concept extraction in non-standard domains, but also show that our task-agnostic model architecture is robust across the tested tasks and languages so that domain- or task-specific adaptations are not required. The CLIN-Xlanguage models and source code for fine-tuning and transferring the model are publicly available at https://github.com/b oschresearch/clin\_x / and the huggingface model hub.
翻訳日:2021-12-17 14:25:38 公開日:2021-12-16
# 多文書要約のための提案レベルクラスタリング手法

A Proposition-Level Clustering Approach for Multi-Document Summarization ( http://arxiv.org/abs/2112.08770v1 )

ライセンス: Link先を確認
Ori Ernst, Avi Caciularu, Ori Shapira, Ramakanth Pasunuru, Mohit Bansal, Jacob Goldberger and Ido Dagan(参考訳) テキストクラスタリング手法は従来,情報繰り返しに対処する手段として,多文書要約(MDS)に取り入れられていた。 クラスタは情報満足度を示し、冗長性を避けるために利用されました。 これらの手法は文をクラスタリングすることに重点を置いているが、密接に関連する文は、通常、非アライン情報も含んでいる。 本研究では,クラスタリング手法を再検討し,より正確な情報アライメントを提案する。 具体的には,提案文を抽出してパラフラスティッククラスタに集合し,提案文を融合して各クラスタに代表文を生成する。 DUC 2004 とTAC 2011 のデータセットでは,自動ROUGE スコアと人間の嗜好の両方において,従来の最先端のMDS 手法よりも精度が向上する。

Text clustering methods were traditionally incorporated into multi-document summarization (MDS) as a means for coping with considerable information repetition. Clusters were leveraged to indicate information saliency and to avoid redundancy. These methods focused on clustering sentences, even though closely related sentences also usually contain non-aligning information. In this work, we revisit the clustering approach, grouping together propositions for more precise information alignment. Specifically, our method detects salient propositions, clusters them into paraphrastic clusters, and generates a representative sentence for each cluster by fusing its propositions. Our summarization method improves over the previous state-of-the-art MDS method in the DUC 2004 and TAC 2011 datasets, both in automatic ROUGE scores and human preference.
翻訳日:2021-12-17 14:25:09 公開日:2021-12-16
# {\delta}-SAM:動的再加重によるシャープネス認識最小化

{\delta}-SAM: Sharpness-Aware Minimization with Dynamic Reweighting ( http://arxiv.org/abs/2112.08772v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Muhao Chen(参考訳) ディープニューラルネットワークはしばしば過剰パラメータ化され、モデル一般化は容易に達成できない。 対人訓練は、敵に選択された摂動の上に損失の変化を規則化し、一般化を改善する効果を示した。 最近提案されたシャープネス対応最小化(SAM)アルゴリズムは、逆方向の重みの摂動を採用し、平らなミニマへの収束を促す。 残念ながら、計算コストの増大により、逆数重みの摂動は、インスタンス単位ではなくバッチ単位で効率よく近似できるだけで、性能が劣化する。 本稿では,無防備なインスタンスが重み付けされた各バッチ内の動的に重み付けされた摂動を,インスタンス毎の摂動に対するより良い近似として利用することを提案する。 本稿では,動的再重み付け({\delta}-SAM)によるシャープネス認識の最小化を提案する。 GLUEベンチマークの実験では, Δ-SAMの有効性が示された。

Deep neural networks are often overparameterized and may not easily achieve model generalization. Adversarial training has shown effectiveness in improving generalization by regularizing the change of loss on top of adversarially chosen perturbations. The recently proposed sharpness-aware minimization (SAM) algorithm adopts adversarial weight perturbation, encouraging the model to converging to a flat minima. Unfortunately, due to increased computational cost, adversarial weight perturbation can only be efficiently approximated per-batch instead of per-instance, leading to degraded performance. In this paper, we propose that dynamically reweighted perturbation within each batch, where unguarded instances are up-weighted, can serve as a better approximation to per-instance perturbation. We propose sharpness-aware minimization with dynamic reweighting ({\delta}-SAM), which realizes the idea with efficient guardedness estimation. Experiments on the GLUE benchmark demonstrate the effectiveness of {\delta}-SAM.
翻訳日:2021-12-17 14:24:55 公開日:2021-12-16
# 金本位制廃止:会話型質問応答の再評価

Ditch the Gold Standard: Re-evaluating Conversational Question Answering ( http://arxiv.org/abs/2112.08812v1 )

ライセンス: Link先を確認
Huihan Li, Tianyu Gao, Manan Goenka, Danqi Chen(参考訳) 会話型質問応答システム(CQA)は、情報検索会話において、ユーザに自然言語による回答を提供することを目的としている。 既存のCQAベンチマークは、会話の歴史で提供される地味な答えを用いて、事前コンパイルされた人間と人間の会話と比較する。 モデル開発にこの静的評価を頼りにできるのか、現在のシステムが現実世界の人間と機械の会話をうまく一般化できるのかは不明だ。 本研究では,人間の評価者がモデルと対話し,回答の正しさを判断する,最先端CQAシステムの大規模評価を行う。 ヒトと機械の会話の分布は人間と人間の会話とは大きく異なり、モデルランキングでは人間と金の歴史的評価に相違があることが判明した。 さらに,自動評価の改善方法について検討し,予測履歴に基づく質問書き直し機構を提案する。 最後に,対話型質問応答システムに対する様々なモデリング戦略と今後の方向性について論じる。

Conversational question answering (CQA) systems aim to provide natural-language answers to users in information-seeking conversations. Existing CQA benchmarks compare models with pre-collected human-human conversations, using ground-truth answers provided in conversational history. It remains unclear whether we can rely on this static evaluation for model development and whether current systems can well generalize to real-world human-machine conversations. In this work, we conduct the first large-scale human evaluation of state-of-the-art CQA systems, where human evaluators converse with models and judge the correctness of their answers. We find that the distribution of human-machine conversations differs drastically from that of human-human conversations, and there is a disagreement between human and gold-history evaluation in terms of model ranking. We further investigate how to improve automatic evaluations, and propose a question rewriting mechanism based on predicted history, which better correlates with human judgments. Finally, we discuss the impact of various modeling strategies and future directions towards better conversational question answering systems.
翻訳日:2021-12-17 14:24:37 公開日:2021-12-16
# 自然言語による説明可能な強化学習

Inherently Explainable Reinforcement Learning in Natural Language ( http://arxiv.org/abs/2112.08907v1 )

ライセンス: Link先を確認
Xiangyu Peng, Mark O. Riedl, Prithviraj Ammanabrolu(参考訳) 我々は,本質的に説明可能な強化学習エージェントの作成という課題に注目し,タスクを実行中に大声で考えることで,即時に局所的な説明を生成できるとともに,後発の軌跡全体を解析し,因果的説明を生成できる。 The Hierarchically Explainable Reinforcement Learning agent (HEX-RL)は、対話型フィクション、テキストベースのゲーム環境において、エージェントがテキスト自然言語を用いて世界を知覚し、行動する。 これらのゲームは通常、エージェントが成功するための一連のアクションを完了しなければならない長期的な依存関係を持つパズルやクエストとして構成され、エージェントのアクションを説明する能力をテストする理想的な環境を提供する。 我々のエージェントは、抽出された記号的知識グラフに基づく状態表現と階層的なグラフアテンション機構を組み合わせることで、第一級市民としての説明可能性を扱うように設計されている。 実験の結果,このエージェントは強いベースラインに対する説明を著しく改善し,一般に環境に不慣れな人によって評価されると同時に,最先端のタスク性能に適合することがわかった。

We focus on the task of creating a reinforcement learning agent that is inherently explainable -- with the ability to produce immediate local explanations by thinking out loud while performing a task and analyzing entire trajectories post-hoc to produce causal explanations. This Hierarchically Explainable Reinforcement Learning agent (HEX-RL), operates in Interactive Fictions, text-based game environments in which an agent perceives and acts upon the world using textual natural language. These games are usually structured as puzzles or quests with long-term dependencies in which an agent must complete a sequence of actions to succeed -- providing ideal environments in which to test an agent's ability to explain its actions. Our agent is designed to treat explainability as a first-class citizen, using an extracted symbolic knowledge graph-based state representation coupled with a Hierarchical Graph Attention mechanism that points to the facts in the internal graph representation that most influenced the choice of actions. Experiments show that this agent provides significantly improved explanations over strong baselines, as rated by human participants generally unfamiliar with the environment, while also matching state-of-the-art task performance.
翻訳日:2021-12-17 14:24:21 公開日:2021-12-16
# オンライン動的放射線治療スケジューリングのための予測に基づくアプローチ

A prediction-based approach for online dynamic radiotherapy scheduling ( http://arxiv.org/abs/2112.08549v1 )

ライセンス: Link先を確認
Tu-San Pham, Antoine Legrain, Patrick De Causmaecker, Louis-Martin Rousseau(参考訳) 患者の未知の到着フローなどの確率的要因を扱うため、患者のスケジューリングは難しい作業である。 がん患者に対する放射線治療のスケジューリングも同様の問題に直面している。 入院1日から3日以内に緊急治療を要する緩和患者の治療能力を維持しつつ、入院14日から28日後の推奨期限内に治療を開始する必要がある。 ほとんどのがんセンターは、緊急患者のために一定の数の治療スロットを予約することで問題を解決している。 しかし、この保存的アプローチは理想的ではなく、数日の緊急患者に対する過剰な治療を生じる可能性があるが、他の日は治療能力を完全に活用していない。 この問題は大規模で混雑している病院では特に深刻である。 本稿では,オンライン動的放射線治療スケジューリングにおける予測に基づくアプローチを提案する。 Integer Programmingを使って、すべての患者が事前に到着することを知るオフラインの問題を最適に解決する。 回帰モデルは、患者の到着パターンと理想的な待ち時間の間の関係を認識するように訓練される。 トレーニングされた回帰モデルは、その特性とカレンダーの状態に基づいて患者をスケジュールする予測ベースのアプローチに埋め込まれる。 その結果, 予測に基づくアプローチは, フラット保存方針に基づいた他のスケジューリング手法と比較して, 待機時間を良好に保ちながら, 緊急患者に対する過剰治療を効果的に防止できることがわかった。

Patient scheduling is a difficult task as it involves dealing with stochastic factors such as an unknown arrival flow of patients. Scheduling radiotherapy treatments for cancer patients faces a similar problem. Curative patients need to start their treatment within the recommended deadlines, i.e., 14 or 28 days after their admission while reserving treatment capacity for palliative patients who require urgent treatments within 1 to 3 days after their admission. Most cancer centers solve the problem by reserving a fixed number of treatment slots for emergency patients. However, this flat-reservation approach is not ideal and can cause overdue treatments for emergency patients on some days while not fully exploiting treatment capacity on some other days, which also leads to delaying treatment for curative patients. This problem is especially severe in large and crowded hospitals. In this paper, we propose a prediction-based approach for online dynamic radiotherapy scheduling. An offline problem where all future patient arrivals are known in advance is solved to optimality using Integer Programming. A regression model is then trained to recognize the links between patients' arrival patterns and their ideal waiting time. The trained regression model is then embedded in a prediction-based approach that schedules a patient based on their characteristics and the present state of the calendar. The numerical results show that our prediction-based approach efficiently prevents overdue treatments for emergency patients while maintaining a good waiting time compared to other scheduling approaches based on a flat-reservation policy.
翻訳日:2021-12-17 14:21:18 公開日:2021-12-16
# 時間的部分グラフコントラストを用いた動的グラフ表現学習

Self-Supervised Dynamic Graph Representation Learning via Temporal Subgraph Contrast ( http://arxiv.org/abs/2112.08733v1 )

ライセンス: Link先を確認
Linpu Jiang, Ke-Jia Chen, Jingqiang Chen(参考訳) グラフに関する自己教師型学習は、最近、ラベルからの独立性と表現の堅牢性により、多くの注目を集めている。 この話題に関する最近の研究では、主にグラフ構造のような静的情報を用いるが、エッジのタイムスタンプのような動的情報を取り込むことはできない。 現実グラフはしばしば動的であり、ノード間の相互作用は特定のタイミングで発生する。 本稿では,動的グラフの構造的特徴と進化的特徴を同時に学習する時間的部分グラフコントラスト学習タスクを定義する,自己教師付き動的グラフ表現学習フレームワーク(dysubc)を提案する。 具体的には、動的グラフの各ノードを中央ノードとし、周辺構造とエッジタイムスタンプの両方を用いて対応する時間部分グラフをサンプリングする新しい時間部分グラフサンプリング戦略を提案する。 サブグラフ表現関数は、各サブグラフのノードを符号化した後、中央ノードに対する近傍ノードの影響に応じて設計される。 最後に、ノード表現と時間部分グラフ表現の相互情報を最大化するために、構造的および時間的コントラスト損失を定義する。 実世界の5つのデータセットの実験では、(1)DySubCは、下流リンク予測タスクにおいて、2つのグラフコントラスト学習モデルと4つの動的グラフ表現学習モデルを含む関連するベースラインよりも優れた性能を示し、(2)時間的情報を使用することは、より効果的なサブグラフをサンプリングするだけでなく、時間的コントラスト損失によるより良い表現を学習する。

Self-supervised learning on graphs has recently drawn a lot of attention due to its independence from labels and its robustness in representation. Current studies on this topic mainly use static information such as graph structures but cannot well capture dynamic information such as timestamps of edges. Realistic graphs are often dynamic, which means the interaction between nodes occurs at a specific time. This paper proposes a self-supervised dynamic graph representation learning framework (DySubC), which defines a temporal subgraph contrastive learning task to simultaneously learn the structural and evolutional features of a dynamic graph. Specifically, a novel temporal subgraph sampling strategy is firstly proposed, which takes each node of the dynamic graph as the central node and uses both neighborhood structures and edge timestamps to sample the corresponding temporal subgraph. The subgraph representation function is then designed according to the influence of neighborhood nodes on the central node after encoding the nodes in each subgraph. Finally, the structural and temporal contrastive loss are defined to maximize the mutual information between node representation and temporal subgraph representation. Experiments on five real-world datasets demonstrate that (1) DySubC performs better than the related baselines including two graph contrastive learning models and four dynamic graph representation learning models in the downstream link prediction task, and (2) the use of temporal information can not only sample more effective subgraphs, but also learn better representation by temporal contrastive loss.
翻訳日:2021-12-17 14:20:56 公開日:2021-12-16
# 電子商取引における多ノード多製品注文受注の費用対効果最小化のための学習

Learning to Minimize Cost-to-Serve for Multi-Node Multi-Product Order Fulfilment in Electronic Commerce ( http://arxiv.org/abs/2112.08736v1 )

ライセンス: Link先を確認
Pranavi Pathakota, Kunwar Zaid, Anulekha Dhara, Hardik Meisheri, Shaun D Souza, Dheeraj Shah, Harshad Khadilkar(参考訳) 本稿では,小売電子商取引(eコマース)の需要に対応する新たな意思決定問題について述べる。 物流や小売業の協力者たちと協働しながら、サプライチェーンの最も急激なノード(コスト・トゥ・サーブ(CTS)と呼ばれる量)から製品を届けることのコストが重要な課題であることに気づきました。 eコマースサプライチェーンの大規模で、高い確率性、そして大きな地理的普及は、注意深く設計されたデータ駆動意思決定アルゴリズムにこの設定を理想化する。 この予備的な作業では、各期間に倉庫から複数の顧客へ任意の量で複数の製品を届ける、特定のサブプロブレムに焦点を当てる。 ヒューリスティックスや混合整数線形計画など,複数のベースラインの相対性能と計算効率を比較した。 強化学習に基づくアルゴリズムは,これらのポリシーと競合し,実世界の効率的なスケールアップの可能性を示す。

We describe a novel decision-making problem developed in response to the demands of retail electronic commerce (e-commerce). While working with logistics and retail industry business collaborators, we found that the cost of delivery of products from the most opportune node in the supply chain (a quantity called the cost-to-serve or CTS) is a key challenge. The large scale, high stochasticity, and large geographical spread of e-commerce supply chains make this setting ideal for a carefully designed data-driven decision-making algorithm. In this preliminary work, we focus on the specific subproblem of delivering multiple products in arbitrary quantities from any warehouse to multiple customers in each time period. We compare the relative performance and computational efficiency of several baselines, including heuristics and mixed-integer linear programming. We show that a reinforcement learning based algorithm is competitive with these policies, with the potential of efficient scale-up in the real world.
翻訳日:2021-12-17 14:20:29 公開日:2021-12-16
# KnAC:背景知識と説明を用いたクラスタ分析の強化手法

KnAC: an approach for enhancing cluster analysis with background knowledge and explanations ( http://arxiv.org/abs/2112.08759v1 )

ライセンス: Link先を確認
Szymon Bobek, Micha{\l} Kuk, Jakub Brzegowski, Edyta Brzychczy, Grzegorz J. Nalepa(参考訳) 多次元データセットにおけるパターン発見は、数十年前から研究の対象となっている。 クラスタリングアルゴリズムには、その目的のために使用できる幅広いスペクトルが存在する。 しかし、それらの実践的応用は、専門家による結果の解釈と分析に関するポストクラスタリングフェーズと共通している。 我々は、特にクラスタリングの前にドメイン知識が存在する場合において、これはプロセスのボトルネックになり得ると論じます。 このような状況では、自動検出されたクラスタの適切な分析だけでなく、既存の知識との適合性チェックも必要となる。 この研究では、知識強化クラスタリング(KnAC)を紹介します。 私たちのソリューションは、準備の整ったクラスタリングアルゴリズムに依存していません。 代わりにKnACは任意のクラスタリングアルゴリズムの拡張として機能し、アプローチを堅牢でモデルに依存しないものにすることができる。 本手法は, 人工的, 再現可能な例, 実生活のユースケースシナリオにおいて実現可能性を示す。

Pattern discovery in multidimensional data sets has been a subject of research since decades. There exists a wide spectrum of clustering algorithms that can be used for that purpose. However, their practical applications share in common the post-clustering phase, which concerns expert-based interpretation and analysis of the obtained results. We argue that this can be a bottleneck of the process, especially in the cases where domain knowledge exists prior to clustering. Such a situation requires not only a proper analysis of automatically discovered clusters, but also a conformance checking with existing knowledge. In this work, we present Knowledge Augmented Clustering (KnAC), which main goal is to confront expert-based labelling with automated clustering for the sake of updating and refining the former. Our solution does not depend on any ready clustering algorithm, nor introduce one. Instead KnAC can serve as an augmentation of an arbitrary clustering algorithm, making the approach robust and model-agnostic. We demonstrate the feasibility of our method on artificially, reproducible examples and on a real life use case scenario.
翻訳日:2021-12-17 14:20:12 公開日:2021-12-16
# 変動情報を用いたグラフ構造学習

Graph Structure Learning with Variational Information Bottleneck ( http://arxiv.org/abs/2112.08903v1 )

ライセンス: Link先を確認
Qingyun Sun, Jianxin Li, Hao Peng, Jia Wu, Xingcheng Fu, Cheng Ji, Philip S. Yu(参考訳) グラフニューラルネットワーク(GNN)は幅広いアプリケーションに対して有望な結果を示している。 gnnのほとんどの実証研究は観測されたグラフを直接入力として取り、観測された構造がノード間の正確かつ完全な関係を完全に描写していると仮定している。 しかし、実世界のグラフは必然的にノイズや不完全であり、グラフ表現の質を悪化させるかもしれない。 本研究では,情報理論の観点から,新しい変分情報ボトルネック型グラフ構造学習フレームワーク,すなわちVIB-GSLを提案する。 VIB-GSLは、グラフ構造学習のためのInformation Bottleneck(IB)原則を進化させ、基礎となるタスク関連関係をマイニングするためのよりエレガントで普遍的なフレームワークを提供する。 VIB-GSLは情報的かつ圧縮的なグラフ構造を学習し、特定の下流タスクに対して実行可能な情報を蒸留する。 VIB-GSLは不規則グラフデータの変分近似を導出し、トラクタブルなIB目的関数を形成し、トレーニングの安定性を促進する。 実験結果より, VIB-GSLの有効性とロバスト性は良好であった。

Graph Neural Networks (GNNs) have shown promising results on a broad spectrum of applications. Most empirical studies of GNNs directly take the observed graph as input, assuming the observed structure perfectly depicts the accurate and complete relations between nodes. However, graphs in the real world are inevitably noisy or incomplete, which could even exacerbate the quality of graph representations. In this work, we propose a novel Variational Information Bottleneck guided Graph Structure Learning framework, namely VIB-GSL, in the perspective of information theory. VIB-GSL advances the Information Bottleneck (IB) principle for graph structure learning, providing a more elegant and universal framework for mining underlying task-relevant relations. VIB-GSL learns an informative and compressive graph structure to distill the actionable information for specific downstream tasks. VIB-GSL deduces a variational approximation for irregular graph data to form a tractable IB objective function, which facilitates training stability. Extensive experimental results demonstrate that the superior effectiveness and robustness of VIB-GSL.
翻訳日:2021-12-17 14:19:54 公開日:2021-12-16
# 遺伝的アルゴリズムを用いた分子生成モデルと癌サンプルの探索

A molecular generative model with genetic algorithm and tree search for cancer samples ( http://arxiv.org/abs/2112.08959v1 )

ライセンス: Link先を確認
Sejin Park and Hyunju Lee(参考訳) パーソナライズドメディカルは、目的とする薬物効果を最大化し、遺伝子プロファイルに基づいて患者を治療することで副作用を最小限にすることが期待されている。 したがって、特に抗がん剤の発見において、疾患の遺伝的プロファイルに基づいて薬物を生成することが重要である。 しかし、これは大きな化学空間とがん特性の変化が適切な分子を探すのに膨大な時間を要するため、難しい。 したがって、抗がん剤のデノボ分子設計には、遺伝子プロファイルを考慮した効率的かつ迅速な探索法が必要である。 本稿では,遺伝的アルゴリズムを用いたより高速な分子生成モデルと,がんサンプルの探索(FasterGTS)を提案する。 FasterGTSは、遺伝的アルゴリズムとモンテカルロ木で構築され、3つの深いニューラルネットワーク(教師付き学習、自己学習、価値ネットワーク)で探索され、がんサンプルの遺伝的プロファイルに基づいて抗がん分子を生成する。 他の方法と比較すると、fastergtsは限定的なサンプリング数でがん薬に必要な一般的な化学的性質を持つがんサンプル特異的分子を産生した。 FasterGTSが抗がん剤の産生に寄与することを期待している。

Personalized medicine is expected to maximize the intended drug effects and minimize side effects by treating patients based on their genetic profiles. Thus, it is important to generate drugs based on the genetic profiles of diseases, especially in anticancer drug discovery. However, this is challenging because the vast chemical space and variations in cancer properties require a huge time resource to search for proper molecules. Therefore, an efficient and fast search method considering genetic profiles is required for de novo molecular design of anticancer drugs. Here, we propose a faster molecular generative model with genetic algorithm and tree search for cancer samples (FasterGTS). FasterGTS is constructed with a genetic algorithm and a Monte Carlo tree search with three deep neural networks: supervised learning, self-trained, and value networks, and it generates anticancer molecules based on the genetic profiles of a cancer sample. When compared to other methods, FasterGTS generated cancer sample-specific molecules with general chemical properties required for cancer drugs within the limited numbers of samplings. We expect that FasterGTS contributes to the anticancer drug generation.
翻訳日:2021-12-17 14:19:01 公開日:2021-12-16
# 構造学習のためのデュアルPCアルゴリズム

The Dual PC Algorithm for Structure Learning ( http://arxiv.org/abs/2112.09036v1 )

ライセンス: Link先を確認
Enrico Giudice, Jack Kuipers and Giusi Moffa(参考訳) 観測データからベイズネットワークのグラフィカルな構造を学ぶことは、複雑なアプリケーションにおけるデータ生成プロセスの記述と理解の助けとなるが、このタスクは計算の複雑さのためにかなりの困難をもたらす。 ベイジアンネットワークモデルを表す有向非巡回グラフ(DAG)は一般に観測データから識別できず、同値クラスを推定するために様々な方法が存在する。 ある仮定の下では、人気のあるPCアルゴリズムは、条件付き独立性(CI)のテストによって、境界的独立性から始まり、条件付き集合を徐々に拡張することによって、常に正しい等価性クラスを回復することができる。 本稿では,共分散行列と精度行列の逆関係を利用して,pcアルゴリズム内でciテストを行うための新しい手法であるdual pcアルゴリズムを提案する。 特に、精度行列の要素はガウスデータの部分相関と一致する。 このアルゴリズムは共分散および精度行列のブロック行列反転を利用して相補的(または双対)条件付き集合の部分相関テストを同時に行う。 したがって、デュアルPCアルゴリズムの複数のCIテストは、まず辺境と全階のCI関係を考慮し、徐々に中央のCIに移行していく。 シミュレーション研究によれば、デュアルpcアルゴリズムは、実行時間と基盤となるネットワーク構造の両方において、古典的なpcアルゴリズムよりも優れている。

While learning the graphical structure of Bayesian networks from observational data is key to describing and helping understand data generating processes in complex applications, the task poses considerable challenges due to its computational complexity. The directed acyclic graph (DAG) representing a Bayesian network model is generally not identifiable from observational data, and a variety of methods exist to estimate its equivalence class instead. Under certain assumptions, the popular PC algorithm can consistently recover the correct equivalence class by testing for conditional independence (CI), starting from marginal independence relationships and progressively expanding the conditioning set. Here, we propose the dual PC algorithm, a novel scheme to carry out the CI tests within the PC algorithm by leveraging the inverse relationship between covariance and precision matrices. Notably, the elements of the precision matrix coincide with partial correlations for Gaussian data. Our algorithm then exploits block matrix inversions on the covariance and precision matrices to simultaneously perform tests on partial correlations of complementary (or dual) conditioning sets. The multiple CI tests of the dual PC algorithm, therefore, proceed by first considering marginal and full-order CI relationships and progressively moving to central-order ones. Simulation studies indicate that the dual PC algorithm outperforms the classical PC algorithm both in terms of run time and in recovering the underlying network structure.
翻訳日:2021-12-17 14:18:44 公開日:2021-12-16
# 視覚的知識伝達による並列データのない音声とテキスト間のドット接続

Connecting the Dots between Audio and Text without Parallel Data through Visual Knowledge Transfer ( http://arxiv.org/abs/2112.08995v1 )

ライセンス: Link先を確認
Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers, Yejin Choi(参考訳) 環境音環境を表現・記述できる機械は、例えば音声タグやキャプションシステムなど、実用的な可能性を秘めている。 一般的な学習パラダイムは、並列音声テキストデータに依存しており、Web上ではほとんど利用できない。 並列音声テキストデータを用いずに, \textbf{a}udio-\textbf{t}extアライメントを誘導するvip-antを提案する。 我々のキーとなる考え方は、バイモーダルな画像-テキスト表現とバイモーダルな画像-オーディオ表現との間の画像モダリティを共有することである。 対の音声テキストデータを持たない難易度ゼロショット設定では,esc50およびus8k音声分類タスクで最先端のゼロショット性能を実証し,クロスキャプション検索(オーディオクエリ付き)の教師あり状態を2.2\%r@1で上回った。 さらに、最小限の音声テキスト管理の場合、例えば、わずか数百の教師付き音声テキストペアが、ゼロショット音声分類の精度をUS8Kで8\%向上することを調べる。 しかしながら、ゼロショットタスクにおける人間のパリティを一致させるためには、実験的なスケーリング実験により、約2M(約2M)のオーディオカプセルペアが必要であることが示唆された。 本研究は,音声テキストデータの並列化をほとんど行わずに音声テキスト接続を学習するための新たな道を開く。

Machines that can represent and describe environmental soundscapes have practical potential, e.g., for audio tagging and captioning systems. Prevailing learning paradigms have been relying on parallel audio-text data, which is, however, scarcely available on the web. We propose VIP-ANT that induces \textbf{A}udio-\textbf{T}ext alignment without using any parallel audio-text data. Our key idea is to share the image modality between bi-modal image-text representations and bi-modal image-audio representations; the image modality functions as a pivot and connects audio and text in a tri-modal embedding space implicitly. In a difficult zero-shot setting with no paired audio-text data, our model demonstrates state-of-the-art zero-shot performance on the ESC50 and US8K audio classification tasks, and even surpasses the supervised state of the art for Clotho caption retrieval (with audio queries) by 2.2\% R@1. We further investigate cases of minimal audio-text supervision, finding that, e.g., just a few hundred supervised audio-text pairs increase the zero-shot audio classification accuracy by 8\% on US8K. However, to match human parity on some zero-shot tasks, our empirical scaling experiments suggest that we would need about $2^{21} \approx 2M$ supervised audio-caption pairs. Our work opens up new avenues for learning audio-text connections with little to no parallel audio-text data.
翻訳日:2021-12-17 14:18:21 公開日:2021-12-16
# UMAD: ドメインとカテゴリシフトによるユニバーサルモデル適応

UMAD: Universal Model Adaptation under Domain and Category Shift ( http://arxiv.org/abs/2112.08553v1 )

ライセンス: Link先を確認
Jian Liang and Dapeng Hu and Jiashi Feng and Ran He(参考訳) 対象ドメイン内の未知のサンプル(ソースクラスには存在しない)を拒否する学習は、教師なしドメイン適応(uda)にとって極めて重要である。 オープンセット(open-set)とオープンパーティルセット(open-partial-set)の2つの典型的な UDA シナリオがあり、後者は全てのソースクラスがターゲットドメインに現れるわけではないと仮定する。 しかしながら、ほとんどの先行するメソッドは、1つのUDAシナリオのために設計されており、常に他のUDAシナリオでひどいパフォーマンスを保っています。 さらに、適応中にラベル付きソースデータを必要とするため、データプライバシに敏感なアプリケーションでのユーザビリティが制限される。 これらの課題に対処するため,本論文では,ソースデータへのアクセスやドメイン間のカテゴリシフトに関する事前の知識を必要とせずに,UDAシナリオの両方を処理するユニバーサルモデル適応(UMAD)フレームワークを提案する。 具体的には、エレガントに設計された二頭分類器でソースモデルを学習し、ターゲットドメインに提供することを目的としています。 適応中,未知のサンプルと既知のサンプルを区別するための情報的一貫性スコアを開発した。 対象領域における二国間適応を実現するために, 既知のサンプルをソース分類器と整合させる局所的な相互情報をさらに最大化し, 未知のサンプルをソース分類境界から遠ざけるためにエントロピー損失を用いる。 オープンセットとオープンパーティルセットのUDAシナリオの実験では、UMADはソースデータにアクセスせずに統一されたアプローチとして、最先端のデータ依存手法と同等のパフォーマンスを示す。

Learning to reject unknown samples (not present in the source classes) in the target domain is fairly important for unsupervised domain adaptation (UDA). There exist two typical UDA scenarios, i.e., open-set, and open-partial-set, and the latter assumes that not all source classes appear in the target domain. However, most prior methods are designed for one UDA scenario and always perform badly on the other UDA scenario. Moreover, they also require the labeled source data during adaptation, limiting their usability in data privacy-sensitive applications. To address these issues, this paper proposes a Universal Model ADaptation (UMAD) framework which handles both UDA scenarios without access to the source data nor prior knowledge about the category shift between domains. Specifically, we aim to learn a source model with an elegantly designed two-head classifier and provide it to the target domain. During adaptation, we develop an informative consistency score to help distinguish unknown samples from known samples. To achieve bilateral adaptation in the target domain, we further maximize localized mutual information to align known samples with the source classifier and employ an entropic loss to push unknown samples far away from the source classification boundary, respectively. Experiments on open-set and open-partial-set UDA scenarios demonstrate that UMAD, as a unified approach without access to source data, exhibits comparable, if not superior, performance to state-of-the-art data-dependent methods.
翻訳日:2021-12-17 14:17:04 公開日:2021-12-16
# (参考訳) Intelli-Paint: 人間のようなペイントエージェントの開発を目指して [全文訳有]

Intelli-Paint: Towards Developing Human-like Painting Agents ( http://arxiv.org/abs/2112.08930v1 )

ライセンス: CC BY 4.0
Jaskirat Singh, Cameron Smith, Jose Echevarria, Liang Zheng(参考訳) 良く設計されたアートワークの生成は、しばしば非常に時間がかかり、人間の画家の一部に高い習熟度を仮定する。 人間の絵を描く過程を促進するため、機械に「人間のように塗る」方法を教え、その訓練されたエージェントを人間の絵の補助具として利用するなど、かなりの研究努力がなされている。 しかし、この方向の現在の研究はプログレッシブグリッドベースの分割戦略に依存しており、エージェントは全体像を連続的に細いグリッドに分割し、それらを平行に塗る。 これは必然的に、人には分かりにくい人工的な絵のシーケンスをもたらす。 そこで本研究では,より人間的な絵画スタイルを示しながら,出力キャンバスの生成を学習する新しい絵画手法を提案する。 提案する絵画パイプラインintelli-paintは 1) プログレッシブ階層化戦略により、エージェントは、前景の各オブジェクトにプログレッシブな方法で追加する前に、まず自然背景のシーン表現を描画することができる。 2) 絵画エージェントが異なる画像領域に注意を移すのを支援する, 新たな逐次的ブラシストローク指導戦略も導入する。 3) 最後に, 生成したキャンバスの品質にばらつきなく, 必要なブラシストロークの総数を約60~80%削減できるブラシストローク正則化戦略を提案する。 定量的および定性的な結果から,得られたエージェントは,出力キャンバス生成の効率性の向上だけでなく,デジタルアートワークを通じてユーザによるアイデア表現を支援する自然な絵画スタイルも示している。

The generation of well-designed artwork is often quite time-consuming and assumes a high degree of proficiency on part of the human painter. In order to facilitate the human painting process, substantial research efforts have been made on teaching machines how to "paint like a human", and then using the trained agent as a painting assistant tool for human users. However, current research in this direction is often reliant on a progressive grid-based division strategy wherein the agent divides the overall image into successively finer grids, and then proceeds to paint each of them in parallel. This inevitably leads to artificial painting sequences which are not easily intelligible to human users. To address this, we propose a novel painting approach which learns to generate output canvases while exhibiting a more human-like painting style. The proposed painting pipeline Intelli-Paint consists of 1) a progressive layering strategy which allows the agent to first paint a natural background scene representation before adding in each of the foreground objects in a progressive fashion. 2) We also introduce a novel sequential brushstroke guidance strategy which helps the painting agent to shift its attention between different image regions in a semantic-aware manner. 3) Finally, we propose a brushstroke regularization strategy which allows for ~60-80% reduction in the total number of required brushstrokes without any perceivable differences in the quality of the generated canvases. Through both quantitative and qualitative results, we show that the resulting agents not only show enhanced efficiency in output canvas generation but also exhibit a more natural-looking painting style which would better assist human users express their ideas through digital artwork.
翻訳日:2021-12-17 14:15:58 公開日:2021-12-16
# データ拡張とノイズチャネルモデルを用いた音声対話への文書接地対話システムの適用

Adapting Document-Grounded Dialog Systems to Spoken Conversations using Data Augmentation and a Noisy Channel Model ( http://arxiv.org/abs/2112.08844v1 )

ライセンス: Link先を確認
David Thulke, Nico Daheim, Christian Dugast, Hermann Ney(参考訳) 本稿では,第10回ダイアログ・システム・テクノロジー・チャレンジ(DSTC10)第2弾第2章「音声対話における知識ベースタスク指向対話モデリング」の課題2を要約する。 前年のイテレーションと同様、タスクは3つのサブタスクから成り、ターンが知識を求めるかどうかを検出し、関連する知識ドキュメントを選択し、最終的に接地応答を生成する。 今年は、ASRの書き起こしを騒がせるようシステムを適応させることに焦点が当てられている。 このタイプの入力に対してモデルをより堅牢にし、生成した応答を話し言葉のスタイルに適応させるために、さまざまなアプローチを探求する。 後者の場合、ノイズの多いチャネルモデルで最良の結果を得ることができ、ショートレスポンスとジェネリックレスポンスの数を減らします。 我々の最善のシステムは、挑戦の人間評価において、自動で1位、第三位を達成した。

This paper summarizes our submission to Task 2 of the second track of the 10th Dialog System Technology Challenge (DSTC10) "Knowledge-grounded Task-oriented Dialogue Modeling on Spoken Conversations". Similar to the previous year's iteration, the task consists of three subtasks: detecting whether a turn is knowledge seeking, selecting the relevant knowledge document and finally generating a grounded response. This year, the focus lies on adapting the system to noisy ASR transcripts. We explore different approaches to make the models more robust to this type of input and to adapt the generated responses to the style of spoken conversations. For the latter, we get the best results with a noisy channel model that additionally reduces the number of short and generic responses. Our best system achieved the 1st rank in the automatic and the 3rd rank in the human evaluation of the challenge.
翻訳日:2021-12-17 13:48:10 公開日:2021-12-16
# 非指向列モデルの生成順序の学習と解析

Learning and Analyzing Generation Order for Undirected Sequence Models ( http://arxiv.org/abs/2112.09097v1 )

ライセンス: Link先を確認
Yichen Jiang, Mohit Bansal(参考訳) 非指向型ニューラルシーケンスモデルは、機械翻訳タスクにおいて左から右へ単調に生成する最先端の指向配列モデルと性能を競い合っている。 本研究では、強化学習を通じて、事前学習された非指向翻訳モデルの生成順序を学習する政策を訓練する。 我々は,WMT'14ドイツ語翻訳タスクにおけるマンシモフら (2019) の学習結果より,学習順序で復号された翻訳が,左から右へ復号された出力よりも高いBLEUスコアを達成することを示す。 例えば、De-En, WMT'16 English-Romanian, WMT'21 English- Chinese translation task から最大30のソースとターゲット長を持つ場合、学習順序は6つのタスクのうち4つのヒューリスティックな生成順序よりも優れている。 次に、定性的および定量的分析により、学習順序パターンを慎重に分析する。 我々の政策は概して外対外秩序に従っており、まず左端と右端の位置を予測し、それから中央に向かって移動し、最初にあまり重要でない単語をスキップする。 さらに、ポリシーは通常、連続したステップで単一の構文構成構造の位置を予測する。 当社の調査結果は、無向世代モデルのメカニズムに関するさらなる洞察を提供し、この方向のさらなる研究を促進することができると考えています。 私たちのコードはhttps://github.com/j iangycTarheel/undire cted-generationで公開されています。

Undirected neural sequence models have achieved performance competitive with the state-of-the-art directed sequence models that generate monotonically from left to right in machine translation tasks. In this work, we train a policy that learns the generation order for a pre-trained, undirected translation model via reinforcement learning. We show that the translations decoded by our learned orders achieve higher BLEU scores than the outputs decoded from left to right or decoded by the learned order from Mansimov et al. (2019) on the WMT'14 German-English translation task. On examples with a maximum source and target length of 30 from De-En, WMT'16 English-Romanian, and WMT'21 English-Chinese translation tasks, our learned order outperforms all heuristic generation orders on four out of six tasks. We next carefully analyze the learned order patterns via qualitative and quantitative analysis. We show that our policy generally follows an outer-to-inner order, predicting the left-most and right-most positions first, and then moving toward the middle while skipping less important words at the beginning. Furthermore, the policy usually predicts positions for a single syntactic constituent structure in consecutive steps. We believe our findings could provide more insights on the mechanism of undirected generation models and encourage further research in this direction. Our code is publicly available at https://github.com/j iangycTarheel/undire cted-generation
翻訳日:2021-12-17 13:47:57 公開日:2021-12-16
# 教師なしグラフ表現学習のためのグラフワイズ共通潜在因子抽出

Graph-wise Common Latent Factor Extraction for Unsupervised Graph Representation Learning ( http://arxiv.org/abs/2112.08830v1 )

ライセンス: Link先を確認
Thilini Cooray and Ngai-Man Cheung(参考訳) 教師なしグラフレベルの表現学習は、特にデータアノテーションが高価である場合、分子特性予測やコミュニティ分析といった様々なタスクにおいて重要な役割を果たす。 現在、最も優れたグラフ埋め込み法のほとんどはInfomax原則に基づいている。 これらの手法の性能は, サンプルが慎重に選択されていない場合, 負のサンプルの選択に大きく依存し, 性能を損なう。 グラフ間の相似性に基づく手法は、相似性マッチングのための選択されたグラフの集合が品質が低い場合にも苦しむ。 これに対処するために,現在の入力グラフを組込み学習にのみ活用することに注力する。 我々は、グラフのすべての要素(例えば、議論スレッドのトピック、分子の溶解度レベル)に共通する1つ以上の大域的因子に基づいてグラフが形成される実世界のグラフ生成プロセスからの観察によって動機づけられる。 これらの共通因子の抽出は極めて有益であると考えられる。 そこで本研究では,教師なしグラフ表現学習の新たな原則として,グラフワイド共通潜在因子抽出(GCFX)を提案する。 さらに、入力グラフから共通潜時因子を明示的に抽出し、下流タスクにおける改善された結果から現在の状態へ変換できる、上述のグラフ生成プロセスの逆転に基づく、GCFXのディープモデル、ディープGCFXを提案する。 広範にわたる実験と分析により、グラフレベルのタスクを抽出することで、個々のノードや周辺地域の局所的な変動による障害を軽減することができる一方で、特に非競合グラフにおいて、長距離ノード依存性を有効にすることでノードレベルのタスクにもメリットがあることを示した。

Unsupervised graph-level representation learning plays a crucial role in a variety of tasks such as molecular property prediction and community analysis, especially when data annotation is expensive. Currently, most of the best-performing graph embedding methods are based on Infomax principle. The performance of these methods highly depends on the selection of negative samples and hurt the performance, if the samples were not carefully selected. Inter-graph similarity-based methods also suffer if the selected set of graphs for similarity matching is low in quality. To address this, we focus only on utilizing the current input graph for embedding learning. We are motivated by an observation from real-world graph generation processes where the graphs are formed based on one or more global factors which are common to all elements of the graph (e.g., topic of a discussion thread, solubility level of a molecule). We hypothesize extracting these common factors could be highly beneficial. Hence, this work proposes a new principle for unsupervised graph representation learning: Graph-wise Common latent Factor EXtraction (GCFX). We further propose a deep model for GCFX, deepGCFX, based on the idea of reversing the above-mentioned graph generation process which could explicitly extract common latent factors from an input graph and achieve improved results on downstream tasks to the current state-of-the-art. Through extensive experiments and analysis, we demonstrate that, while extracting common latent factors is beneficial for graph-level tasks to alleviate distractions caused by local variations of individual nodes or local neighbourhoods, it also benefits node-level tasks by enabling long-range node dependencies, especially for disassortative graphs.
翻訳日:2021-12-17 13:47:15 公開日:2021-12-16
# 深層強化学習ポリシーはmdp間での相反的特徴の共有を学習する

Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs ( http://arxiv.org/abs/2112.09025v1 )

ライセンス: Link先を確認
Ezgi Korkmaz(参考訳) 関数近似器としてのディープニューラルネットワークの利用は、強化学習アルゴリズムと応用において大きな進歩をもたらした。 しかし、決定境界幾何学とニューラルポリシーの損失景観に関する知識は、いまだに限られている。 本稿では,mdp間での意思決定境界と損失景観の類似性を検討する枠組みを提案する。 アーケード学習環境から様々なゲームで実験を行い,神経政策の高感度方向がmdp間で相関していることを見出した。 これらの高感度方向は、強化学習エージェントの訓練環境間で非ロバスト特徴が共有されるという仮説を支持している。 我々は,深層強化学習における環境の基本特性を明らかにするとともに,強固で信頼性の高い深層強化学習エージェントの構築に向けた具体的なステップを示す。

The use of deep neural networks as function approximators has led to striking progress for reinforcement learning algorithms and applications. Yet the knowledge we have on decision boundary geometry and the loss landscape of neural policies is still quite limited. In this paper we propose a framework to investigate the decision boundary and loss landscape similarities across states and across MDPs. We conduct experiments in various games from Arcade Learning Environment, and discover that high sensitivity directions for neural policies are correlated across MDPs. We argue that these high sensitivity directions support the hypothesis that non-robust features are shared across training environments of reinforcement learning agents. We believe our results reveal fundamental properties of the environments used in deep reinforcement learning training, and represent a tangible step towards building robust and reliable deep reinforcement learning agents.
翻訳日:2021-12-17 13:46:46 公開日:2021-12-16
# 塩分グラフト:無害な帰属誘導混合と校正ラベル混合

Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated Label Mixing ( http://arxiv.org/abs/2112.08796v1 )

ライセンス: Link先を確認
Joonhyung Park, June Yong Yang, Jinwoo Shin, Sung Ju Hwang, Eunho Yang(参考訳) Mixupスキームは、2組のサンプルを混合して強化トレーニングサンプルを作成することを提案しており、最近、ニューラルネットワークの一般化性を改善するためにかなりの注目を集めている。 Mixupの単純で広く使用されている拡張は、サンプルからランダムなパッチを取り除き、別のサンプルの機能に置き換えるという、地域的なドロップアウトのような方法と組み合わせることである。 単純さと有効性にもかかわらず、これらの手法はランダム性のために有害なサンプルを作成する傾向がある。 この問題に対処するため,このような現象を防止するため,最も情報に富む特徴のみを選別する「最大限のサリエンシ」戦略が最近提案された。 しかし、現在、サンプルの多様化の欠如に悩まされており、最大値の領域を決定論的に選択し、拡張データにバイアスを注入している。 本稿では,両世界の最善を捉えた,新しい,かつ単純なミックスアップ不変量を提案する。 私たちの考えは二つある。 統計的に特徴をサンプリングし、別のサンプルに'グラフト'することで、この手法は効果的に多様な有意義なサンプルを生成する。 第2の成分は、無作為サンプリング手順によって導入された監督ミスガイダンスを正当性校正された方法でラベルを混合することにより、移植標本のラベルを製造することである。 CIFAR, Tiny-ImageNet, ImageNet のデータセットによる実験により,本手法は分類精度だけでなく,データ破損やオブジェクトの隠蔽といったストレス条件下での対処にも優れていることがわかった。

The Mixup scheme suggests mixing a pair of samples to create an augmented training sample and has gained considerable attention recently for improving the generalizability of neural networks. A straightforward and widely used extension of Mixup is to combine with regional dropout-like methods: removing random patches from a sample and replacing it with the features from another sample. Albeit their simplicity and effectiveness, these methods are prone to create harmful samples due to their randomness. To address this issue, 'maximum saliency' strategies were recently proposed: they select only the most informative features to prevent such a phenomenon. However, they now suffer from lack of sample diversification as they always deterministically select regions with maximum saliency, injecting bias into the augmented data. In this paper, we present, a novel, yet simple Mixup-variant that captures the best of both worlds. Our idea is two-fold. By stochastically sampling the features and 'grafting' them onto another sample, our method effectively generates diverse yet meaningful samples. Its second ingredient is to produce the label of the grafted sample by mixing the labels in a saliency-calibrated fashion, which rectifies supervision misguidance introduced by the random sampling procedure. Our experiments under CIFAR, Tiny-ImageNet, and ImageNet datasets show that our scheme outperforms the current state-of-the-art augmentation strategies not only in terms of classification accuracy, but is also superior in coping under stress conditions such as data corruption and object occlusion.
翻訳日:2021-12-17 13:46:34 公開日:2021-12-16
# NerfGANによる逆問題の解法

Solving Inverse Problems with NerfGANs ( http://arxiv.org/abs/2112.09061v1 )

ライセンス: Link先を確認
Giannis Daras, Wen-Sheng Chu, Abhishek Kumar, Dmitry Lagun, Alexandros G. Dimakis(参考訳) 本稿では,nerf型生成モデルを用いて逆問題を解くための新しい枠組みを提案する。 1枚の2次元画像と既知のカメラパラメータが与えられた3次元シーンの再構成問題に興味を持っている。 潜在空間をナイーブに最適化すると、アーティファクトや新しいビューのレンダリングが貧弱になる。 この問題を3次元幾何学において明らかで、新しいビューのレンダリングで見えるようなボリューム障害に分類する。 本研究では,より優れた3次元表面を得るための新しい放射場正規化手法を提案する。 本手法は, 部分的な1つのビューのみを観察するインペインティングを含む一般的な逆問題に自然に拡張する。 提案手法を実験的に評価し,幅広いタスクにおけるベースラインに対する視覚的改善と性能向上を実現した。 本手法は, LPIPS損失を従来の技術と比較して30~40 %のMSE削減および15~25 %のLPIPS損失削減を実現する。

We introduce a novel framework for solving inverse problems using NeRF-style generative models. We are interested in the problem of 3-D scene reconstruction given a single 2-D image and known camera parameters. We show that naively optimizing the latent space leads to artifacts and poor novel view rendering. We attribute this problem to volume obstructions that are clear in the 3-D geometry and become visible in the renderings of novel views. We propose a novel radiance field regularization method to obtain better 3-D surfaces and improved novel views given single view observations. Our method naturally extends to general inverse problems including inpainting where one observes only partially a single view. We experimentally evaluate our method, achieving visual improvements and performance boosts over the baselines in a wide range of tasks. Our method achieves $30-40\%$ MSE reduction and $15-25\%$ reduction in LPIPS loss compared to the previous state of the art.
翻訳日:2021-12-17 13:44:13 公開日:2021-12-16
# regionclip: リージョンベースの言語イメージ事前トレーニング

RegionCLIP: Region-based Language-Image Pretraining ( http://arxiv.org/abs/2112.09106v1 )

ライセンス: Link先を確認
Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao(参考訳) 画像テキストペアを用いたCLIP(Contrastive Language-image Pretraining)は、ゼロショットおよびトランスファー学習設定の両方において、画像分類において印象的な結果を得た。 CLIPは、画像領域とテキストスパンの微妙なアライメントを捉えることなく、画像全体をテキスト記述に合わせるように訓練された。 そこで本研究では,CLIPを拡張して領域レベルの視覚表現を学習することで,画像領域とテキスト概念の微妙なアライメントを実現する領域CLIPを提案する。 提案手法では,CLIPモデルを用いてテンプレートキャプションと画像領域をマッチングし,これらの領域とテキストのペアを特徴空間内で整列させる。 事前学習したモデルをオープン語彙オブジェクト検出タスクに転送すると,COCOデータセットとLVISデータセットの新たなカテゴリに対して,それぞれ3.8 AP50と2.2 APの精度が大幅に向上する。 さらに、学習した領域表現はオブジェクト検出のためのゼロショット推論をサポートし、COCOとLVISデータセットの両方で有望な結果を示す。 私たちのコードはhttps://github.com/m icrosoft/RegionCLIPで利用可能です。

Contrastive language-image pretraining (CLIP) using image-text pairs has achieved impressive results on image classification in both zero-shot and transfer learning settings. However, we show that directly applying such models to recognize image regions for object detection leads to poor performance due to a domain shift: CLIP was trained to match an image as a whole to a text description, without capturing the fine-grained alignment between image regions and text spans. To mitigate this issue, we propose a new method called RegionCLIP that significantly extends CLIP to learn region-level visual representations, thus enabling fine-grained alignment between image regions and textual concepts. Our method leverages a CLIP model to match image regions with template captions and then pretrains our model to align these region-text pairs in the feature space. When transferring our pretrained model to the open-vocabulary object detection tasks, our method significantly outperforms the state of the art by 3.8 AP50 and 2.2 AP for novel categories on COCO and LVIS datasets, respectively. Moreoever, the learned region representations support zero-shot inference for object detection, showing promising results on both COCO and LVIS datasets. Our code is available at https://github.com/m icrosoft/RegionCLIP.
翻訳日:2021-12-17 13:43:59 公開日:2021-12-16
# 対話的物体理解のためのプローブとしての人間手

Human Hands as Probes for Interactive Object Understanding ( http://arxiv.org/abs/2112.09120v1 )

ライセンス: Link先を確認
Mohit Goyal and Sahil Modi and Rishabh Goyal and Saurabh Gupta(参考訳) インタラクティブなオブジェクト理解、あるいはオブジェクトに何ができるか、そしてコンピュータビジョンの長年の目標がどうあるのか。 そこで本研究では,人間の手の動きを観察することでこの問題に対処する。 人間の手の動きと、関連するデータと必要な監視の両方を提供する方法の観察を実証する。 手に触れると、アクティブなオブジェクトをローカライズし、安定化して学習し、オブジェクトとのインタラクションが発生する場所を明らかにする。 手を分析すれば、オブジェクトに何ができるか、どのようにできるのかがわかる。 我々はこれらの基本原則をepic-kitchensデータセットに適用し、状態に敏感な特徴とオブジェクトアフォーアンス(インタラクションとアフォーメントの領域)を学習することに成功しました。

Interactive object understanding, or what we can do to objects and how is a long-standing goal of computer vision. In this paper, we tackle this problem through observation of human hands in in-the-wild egocentric videos. We demonstrate that observation of what human hands interact with and how can provide both the relevant data and the necessary supervision. Attending to hands, readily localizes and stabilizes active objects for learning and reveals places where interactions with objects occur. Analyzing the hands shows what we can do to objects and how. We apply these basic principles on the EPIC-KITCHENS dataset, and successfully learn state-sensitive features, and object affordances (regions of interaction and afforded grasps), purely by observing hands in egocentric videos.
翻訳日:2021-12-17 13:43:38 公開日:2021-12-16
# 曖昧さの下の分類:平均KはトップKよりいつ良いか?

Classification Under Ambiguity: When Is Average-K Better Than Top-K? ( http://arxiv.org/abs/2112.08851v1 )

ライセンス: Link先を確認
Titouan Lorieul, Alexis Joly and Dennis Shasha(参考訳) 多くのラベルが可能であれば、単一のラベルを選択することで精度が低下する可能性がある。 一般的な選択肢として、トップ$K$分類(top-$K$ classification)があり、ある番号(通常5ドル前後)を選択し、最高スコアの$K$ラベルを返す。 残念ながら、あいまいなケースでは、$k>1$は多すぎ、非常にあいまいなケースでは、$k \leq 5$(例えば)は小さすぎる可能性がある。 もう一つの合理的な戦略は、計算されたあいまいさの関数として返されるラベルの数が異なる適応的なアプローチを使用することであるが、平均は全てのサンプルに対して特定の$K$にしなければならない。 我々はこの別の平均-$k$分類を示す。 本稿では,平均$K$分類が固定上位$K$分類よりも低い誤差率が得られる場合の曖昧性プロファイルを公式に特徴付ける。 さらに、固定サイズと適応分類器の両方に対する自然な推定手順を提供し、それらの一貫性を証明する。 最後に、実世界の画像データセットに関する実験を報告し、実際トップ$k$よりも平均$k$の分類の利点を明らかにした。 全体として、あいまいさが正確に知られている場合、平均$k$はトップ$k$よりも悪くはない。

When many labels are possible, choosing a single one can lead to low precision. A common alternative, referred to as top-$K$ classification, is to choose some number $K$ (commonly around 5) and to return the $K$ labels with the highest scores. Unfortunately, for unambiguous cases, $K>1$ is too many and, for very ambiguous cases, $K \leq 5$ (for example) can be too small. An alternative sensible strategy is to use an adaptive approach in which the number of labels returned varies as a function of the computed ambiguity, but must average to some particular $K$ over all the samples. We denote this alternative average-$K$ classification. This paper formally characterizes the ambiguity profile when average-$K$ classification can achieve a lower error rate than a fixed top-$K$ classification. Moreover, it provides natural estimation procedures for both the fixed-size and the adaptive classifier and proves their consistency. Finally, it reports experiments on real-world image data sets revealing the benefit of average-$K$ classification over top-$K$ in practice. Overall, when the ambiguity is known precisely, average-$K$ is never worse than top-$K$, and, in our experiments, when it is estimated, this also holds.
翻訳日:2021-12-17 13:43:03 公開日:2021-12-16
# ゴール指向ストーリー生成:強化学習による生成言語モデルの拡張

Goal-Directed Story Generation: Augmenting Generative Language Models with Reinforcement Learning ( http://arxiv.org/abs/2112.08593v1 )

ライセンス: Link先を確認
Amal Alabdulkarim, Winston Li, Lara J. Martin, Mark O. Riedl(参考訳) 大規模な事前学習された生成言語モデルの出現により、aiストーリー生成のための共通のフレームワークが提供され、モデルをサンプリングしてストーリーを継続するシーケンスを作成する。 しかし、サンプリングだけではストーリー生成には不十分です。 特に、特定のゴールイベントに到達するためにストーリーを作成するために言語モデルを指示することは困難です。 本稿では,コンピュータ生成ストーリーのプロットを制御するために,深層強化学習と報酬形成を基礎とした2つの自動手法を提案する。 1つ目は、近似ポリシー最適化を利用して、既存のトランスフォーマーベースの言語モデルを微調整してテキスト継続を生成するが、目標探索も行う。 第2は、グラフを考慮したポリシーネットワークが使用する展開ストーリーから知識グラフを抽出し、言語モデルによって生成された候補継続を選択する。 我々は,与えられた目標イベントの達成頻度や,ベースラインやアブレーションと比較して,コヒーレンスや全体のストーリー品質の人間的ランキングに関する自動メトリクスについて報告する。

The advent of large pre-trained generative language models has provided a common framework for AI story generation via sampling the model to create sequences that continue the story. However, sampling alone is insufficient for story generation. In particular, it is hard to direct a language model to create stories to reach a specific goal event. We present two automated techniques grounded in deep reinforcement learning and reward shaping to control the plot of computer-generated stories. The first utilizes proximal policy optimization to fine-tune an existing transformer-based language model to generate text continuations but also be goal-seeking. The second extracts a knowledge graph from the unfolding story, which is used by a policy network with graph attention to select a candidate continuation generated by a language model. We report on automated metrics pertaining to how often stories achieve a given goal event as well as human participant rankings of coherence and overall story quality compared to baselines and ablations.
翻訳日:2021-12-17 13:42:11 公開日:2021-12-16
# (参考訳) クラスタリングのよい説明を見つけるには? [全文訳有]

How to Find a Good Explanation for Clustering? ( http://arxiv.org/abs/2112.06580v2 )

ライセンス: CC BY 4.0
Sayan Bandyapadhyay, Fedor V. Fomin, Petr A. Golovach, William Lochet, Nidhi Purohit, Kirill Simonov(参考訳) k$-meansと$k$-medianクラスタリングは、教師なしの強力な機械学習技術である。 しかしながら、すべての機能に複雑な依存があるため、結果のクラスタ割り当てを解釈することは困難である。 Moshkovitz氏、Dasgupta氏、Rashtchian氏、Frost氏(ICML 2020)は、説明可能な$k$-meansと$k$-medianクラスタリングのエレガントなモデルを提案した。 このモデルでは、$k$の葉を持つ決定木は、クラスタにセットされたデータの簡単なキャラクタリゼーションを提供する。 説明可能なクラスタリングに関する2つの自然アルゴリズム質問について検討した。 1) 所定のクラスタリングについて、$k$の葉を持つ決定木を用いて「最良の説明」を見つけるには、どうすればよいか? (2) 与えられた点集合に対して、説明可能なクラスタリングの目標である$k$-means/medianを最小化する、$k$の葉を持つ決定木をどうやって見つけるか? 最初の問題に対処するために、説明可能なクラスタリングの新しいモデルを導入する。 我々のモデルは、ロバスト統計における外れ値の概念に着想を得たものである。 私たちは、既存のクラスタリングをうまく説明できる少数のポイント(外れ値)を求めています。 2つ目の疑問に対処するために、多変量複雑性の観点から、モシュコヴィッツらのモデルの研究を開始する。 厳密なアルゴリズム分析では、入力サイズ、データの寸法、外乱数、クラスタ数、近似比といったパラメータが、説明可能なクラスタリングの計算複雑性に与える影響について光を当てています。

$k$-means and $k$-median clustering are powerful unsupervised machine learning techniques. However, due to complicated dependences on all the features, it is challenging to interpret the resulting cluster assignments. Moshkovitz, Dasgupta, Rashtchian, and Frost [ICML 2020] proposed an elegant model of explainable $k$-means and $k$-median clustering. In this model, a decision tree with $k$ leaves provides a straightforward characterization of the data set into clusters. We study two natural algorithmic questions about explainable clustering. (1) For a given clustering, how to find the "best explanation" by using a decision tree with $k$ leaves? (2) For a given set of points, how to find a decision tree with $k$ leaves minimizing the $k$-means/median objective of the resulting explainable clustering? To address the first question, we introduce a new model of explainable clustering. Our model, inspired by the notion of outliers in robust statistics, is the following. We are seeking a small number of points (outliers) whose removal makes the existing clustering well-explainable. For addressing the second question, we initiate the study of the model of Moshkovitz et al. from the perspective of multivariate complexity. Our rigorous algorithmic analysis sheds some light on the influence of parameters like the input size, dimension of the data, the number of outliers, the number of clusters, and the approximation ratio, on the computational complexity of explainable clustering.
翻訳日:2021-12-17 13:40:29 公開日:2021-12-16
# (参考訳) 非凸最適化のための適応手法の確率的一階Oracle複雑性の最小化 [全文訳有]

Minimization of Stochastic First-order Oracle Complexity of Adaptive Methods for Nonconvex Optimization ( http://arxiv.org/abs/2112.07163v2 )

ライセンス: CC BY 4.0
Hideaki Iiduka(参考訳) 数値的な評価は、確率勾配降下、運動量、適応法などのディープラーニング最適化において、バッチサイズを2倍にするごとにディープニューラルネットワークを訓練するために必要なステップの数と、臨界バッチサイズを超えるリターンが減少する領域があることを確実に示している。 本稿では,オプティマイザの確率的一階oracle (sfo) 複雑性のグローバル最小化器を用いて,実際の臨界バッチサイズを決定する。 実臨界バッチサイズの存在を証明するため、SFOの複雑さの下限と上限を設定し、下限と上限を最小化するという意味で臨界バッチサイズが存在することを証明した。 この証明は、SFO複雑性が下界と上界に適合するならば、これらの臨界バッチサイズの存在は、実際の臨界バッチサイズの存在を証明していることを示している。 また,sfo複雑性が下界と上界に適合するために必要な条件を議論し,理論結果を支える数値結果を提供する。

Numerical evaluations have definitively shown that, for deep learning optimizers such as stochastic gradient descent, momentum, and adaptive methods, the number of steps needed to train a deep neural network halves for each doubling of the batch size and that there is a region of diminishing returns beyond the critical batch size. In this paper, we determine the actual critical batch size by using the global minimizer of the stochastic first-order oracle (SFO) complexity of the optimizer. To prove the existence of the actual critical batch size, we set the lower and upper bounds of the SFO complexity and prove that there exist critical batch sizes in the sense of minimizing the lower and upper bounds. This proof implies that, if the SFO complexity fits the lower and upper bounds, then the existence of these critical batch sizes demonstrates the existence of the actual critical batch size. We also discuss the conditions needed for the SFO complexity to fit the lower and upper bounds and provide numerical results that support our theoretical results.
翻訳日:2021-12-17 13:00:39 公開日:2021-12-16
# (参考訳) 確率ゲームにおける分散q-learningの有限サンプル解析

Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games ( http://arxiv.org/abs/2112.07859v2 )

ライセンス: CC BY 4.0
Zuguang Gao, Qianqian Ma, Tamer Ba\c{s}ar, John R. Birge(参考訳) 確率ゲームでの学習はマルチエージェント強化学習 (marl) において最も一般的かつ基本的な設定である。 本稿では,非漸近的体制における確率ゲームにおける分散マルルについて考察する。 特に,完全分散型q-ラーニングアルゴリズムの有限サンプル複雑性を,一般サム確率ゲーム (sgs) の重要なクラスにおいて確立する。 我々は,各エージェントが報酬や他のエージェントの行動を観察できない完全分散型MARLの実践的かつ挑戦的な設定に焦点を当てる。 実際、各エージェントは、他の意思決定者の存在に完全に従わない。 表型および線形関数近似の場合も検討されている。 表形式では,分散q-learningアルゴリズムのサンプル複雑性を分析し,マルコフ完全平衡(nash平衡)に収束する。 線形関数近似を用いて、結果は線形近似平衡(私たちが提案する新しい平衡の概念)への収束であり、これは各エージェントのポリシーが線型空間内の(他のエージェントへの)最良の応答であることを示すものである。 両方の設定で結果を示す数値実験も提供されている。

Learning in stochastic games is arguably the most standard and fundamental setting in multi-agent reinforcement learning (MARL). In this paper, we consider decentralized MARL in stochastic games in the non-asymptotic regime. In particular, we establish the finite-sample complexity of fully decentralized Q-learning algorithms in a significant class of general-sum stochastic games (SGs) - weakly acyclic SGs, which includes the common cooperative MARL setting with an identical reward to all agents (a Markov team problem) as a special case. We focus on the practical while challenging setting of fully decentralized MARL, where neither the rewards nor the actions of other agents can be observed by each agent. In fact, each agent is completely oblivious to the presence of other decision makers. Both the tabular and the linear function approximation cases have been considered. In the tabular setting, we analyze the sample complexity for the decentralized Q-learning algorithm to converge to a Markov perfect equilibrium (Nash equilibrium). With linear function approximation, the results are for convergence to a linear approximated equilibrium - a new notion of equilibrium that we propose - which describes that each agent's policy is a best reply (to other agents) within a linear space. Numerical experiments are also provided for both settings to demonstrate the results.
翻訳日:2021-12-17 12:22:18 公開日:2021-12-16
# (参考訳) Interscript: エラーフィードバックによるスクリプトのインタラクティブ学習のためのデータセット [全文訳有]

Interscript: A dataset for interactive learning of scripts through error feedback ( http://arxiv.org/abs/2112.07867v2 )

ライセンス: CC BY 4.0
Niket Tandon, Aman Madaan, Peter Clark, Keisuke Sakaguchi, Yiming Yang(参考訳) エンドユーザは、人間の言語の構造的複雑さを無視して、デプロイされた構造化予測モデルが一貫性のない出力を生成する場合、どのようにフィードバックを提供できるか? これは、最近、合成または制約された設定が進歩し、新しいトピックであり、次の大きな飛躍は、実世界の設定におけるモデルのテストとチューニングである。 我々は、複雑な日常的なタスクを生成するデプロイモデルのユーザフィードバックを含む新しいデータセット、Interscriptを提案する。 Interscriptには8,466のデータポイント -- 入力はおそらく誤ったスクリプトであり、ユーザのフィードバックであり、出力は修正されたスクリプトである。 対話型学習の最先端を飛躍的に前進させる2つのユースケースを仮定する。 データセットは、https://github.com/a llenai/interscript.c om/で入手できる。

How can an end-user provide feedback if a deployed structured prediction model generates inconsistent output, ignoring the structural complexity of human language? This is an emerging topic with recent progress in synthetic or constrained settings, and the next big leap would require testing and tuning models in real-world settings. We present a new dataset, Interscript, containing user feedback on a deployed model that generates complex everyday tasks. Interscript contains 8,466 data points -- the input is a possibly erroneous script and a user feedback, and the output is a modified script. We posit two use-cases of \ours that might significantly advance the state-of-the-art in interactive learning. The dataset is available at: https://github.com/a llenai/interscript.
翻訳日:2021-12-17 12:20:34 公開日:2021-12-16
# (参考訳) 弱ラベルデータからの問合せ学習によるゼロショット音源分離 [全文訳有]

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data ( http://arxiv.org/abs/2112.07891v2 )

ライセンス: CC BY 4.0
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-kirkpatrick, Shlomo Dubnov(参考訳) 音源を異なる音源に分離する深層学習技術はいくつかの課題に直面している。 標準アーキテクチャでは、異なるタイプのオーディオソースに対して別々のモデルをトレーニングする必要がある。 一部のユニバーサルセパレータは、複数のソースを対象とする単一のモデルを採用しているが、見えないソースへの一般化は困難である。 本稿では,汎用オーディオソースセパレータを,大きくて弱いラベルのデータセットであるaudiosetからトレーニングするための3成分パイプラインを提案する。 まず,弱ラベル学習データを処理するためのトランスベース音響イベント検出システムを提案する。 第2に,モデルトレーニングにこのデータを活用するクエリベースの音声分離モデルを考案する。 第3に,分離のための音声ターゲットを指定するクエリをエンコードする潜在組み込みプロセッサを設計し,ゼロショット一般化を可能にした。 提案手法では,複数の音源の分離に単一モデルを用い,学習のための弱ラベルデータのみに依存する。 さらに、提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。 分離性能を評価するため,不随意オーディオセットのトレーニング中,MUSDB18上でモデルを検証した。 さらに、トレーニングから遠ざかる音源タイプについて、別の実験を行うことで、ゼロショット性能を検証する。 このモデルは、両方のケースで現在の教師付きモデルに匹敵するソース・ツー・ディストーション比(SDR)性能を達成する。

Deep learning techniques for separating audio into different sound sources face several challenges. Standard architectures require training separate models for different types of audio sources. Although some universal separators employ a single model to target multiple sources, they have difficulty generalizing to unseen sources. In this paper, we propose a three-component pipeline to train a universal audio source separator from a large, but weakly-labeled dataset: AudioSet. First, we propose a transformer-based sound event detection system for processing weakly-labeled training data. Second, we devise a query-based audio separation model that leverages this data for model training. Third, we design a latent embedding processor to encode queries that specify audio targets for separation, allowing for zero-shot generalization. Our approach uses a single model for source separation of multiple sound types, and relies solely on weakly-labeled data for training. In addition, the proposed audio separator can be used in a zero-shot setting, learning to separate types of audio sources that were never seen in training. To evaluate the separation performance, we test our model on MUSDB18, while training on the disjoint AudioSet. We further verify the zero-shot performance by conducting another experiment on audio source types that are held-out from training. The model achieves comparable Source-to-Distortion Ratio (SDR) performance to current supervised models in both cases.
翻訳日:2021-12-17 12:11:40 公開日:2021-12-16
# GMスコア:クラス間およびクラス内ジェネレータの多様性、アンタングル表現の識別性、GANの評価のためのサンプル忠実度

GM Score: Incorporating inter-class and intra-class generator diversity, discriminability of disentangled representation, and sample fidelity for evaluating GANs ( http://arxiv.org/abs/2112.06431v2 )

ライセンス: Link先を確認
Harshvardhan GM (1), Aanchal Sahu (1), Mahendra Kumar Gourisaria (1) ((1) School of Computer Engineering, KIIT Deemed to be University, Bhubaneswar, India)(参考訳) 生成敵ネットワーク(gan)は、変分オートエンコーダ(vae)やボルツマン(boltzmann)といった他の生成モデルと異なり、高いサンプル品質で人気があるが、生成したサンプルの評価が困難である。 生成したサンプルの品質、クラス(クラスとクラス間)の多様性、非絡み合った潜在空間の使用、上記の評価基準と人間の知覚との一致など、さまざまな側面を念頭に置いておく必要がある。 本稿では,サンプル品質,異種間表現,クラス内およびクラス間多様性などの様々な要因を考慮したgmスコアと,深層信念ネットワーク (dbn) と制限ボルツマンマシン (rbm) の潜在空間の識別性について,精度,リコール,f1スコアなどの指標を用いた新しいスコアを提案する。 この評価は、ベンチマークMNISTデータセットでトレーニングされた異なるGAN(GAN, DCGAN, BiGAN, CGAN, CoupledGAN, LSGAN, SGAN, WGAN, WGAN Improved)に対して行われる。

While generative adversarial networks (GAN) are popular for their higher sample quality as opposed to other generative models like the variational autoencoders (VAE) and Boltzmann machines, they suffer from the same difficulty of the evaluation of generated samples. Various aspects must be kept in mind, such as the quality of generated samples, the diversity of classes (within a class and among classes), the use of disentangled latent spaces, agreement of said evaluation metric with human perception, etc. In this paper, we propose a new score, namely, GM Score, which takes into various factors such as sample quality, disentangled representation, intra-class and inter-class diversity, and other metrics such as precision, recall, and F1 score are employed for discriminability of latent space of deep belief network (DBN) and restricted Boltzmann machine (RBM). The evaluation is done for different GANs (GAN, DCGAN, BiGAN, CGAN, CoupledGAN, LSGAN, SGAN, WGAN, and WGAN Improved) trained on the benchmark MNIST dataset.
翻訳日:2021-12-17 11:55:45 公開日:2021-12-16
# RA V-Net: 肝自動セグメンテーションのためのディープラーニングネットワーク

RA V-Net: Deep learning network for automated liver segmentation ( http://arxiv.org/abs/2112.08232v2 )

ライセンス: Link先を確認
Zhiqi Lee, Sumin Qi, Chongchong Fan, Ziwei Xie(参考訳) 肝の正確な分画は疾患の診断の前提条件である。 自動セグメンテーションは、コンピュータ支援による肝疾患の検出と診断の重要な応用である。 近年,医療画像の自動処理は画期的な進歩を遂げている。 しかし,腹部CT画像の低コントラストと肝形態の複雑さは,正確な自動分割を困難にしている。 本稿では,U-Netに基づく医用画像の自動セグメンテーションモデルであるRA V-Netを提案する。 主なイノベーションは次の3つだ。 CofResモジュール(Composite Original Feature Residual Module)が提案されている。 より複雑な畳み込み層とスキップ接続により、より高いレベルの画像特徴抽出能力を獲得し、勾配の消失や爆発を防止する。 ARモジュール (Attention Recovery Module) はモデルの計算労力を削減するために提案されている。 また、符号化モジュールのデータ画素と復号モジュールとの間の空間的特徴は、チャネルとLSTM畳み込みを調整することで知覚される。 最後に、画像特徴を効果的に保持する。 caモジュール(channel attention module)が導入され、依存関係のある関連チャネルを抽出し、マトリックスドット製品によって強化すると同時に、依存関係のない無関係チャネルを弱める。 チャネルアテンションの目的は達成される。 LSTM畳み込みとCAモジュールによって提供される注意機構は、ニューラルネットワークの性能を強く保証する。 U-Netネットワークの精度: 0.9862、精度: 0.9118、DSC: 0.8547、SC: 0.82。 RA V-Netの評価基準は、精度: 0.9968、精度: 0.9597、DSC: 0.9654、JSC: 0.9414 である。 セグメンテーション効果の最も代表的な指標はDSCであり、これはU-Netよりも0.1107、JSCは0.1214である。

Accurate segmentation of the liver is a prerequisite for the diagnosis of disease. Automated segmentation is an important application of computer-aided detection and diagnosis of liver disease. In recent years, automated processing of medical images has gained breakthroughs. However, the low contrast of abdominal scan CT images and the complexity of liver morphology make accurate automatic segmentation challenging. In this paper, we propose RA V-Net, which is an improved medical image automatic segmentation model based on U-Net. It has the following three main innovations. CofRes Module (Composite Original Feature Residual Module) is proposed. With more complex convolution layers and skip connections to make it obtain a higher level of image feature extraction capability and prevent gradient disappearance or explosion. AR Module (Attention Recovery Module) is proposed to reduce the computational effort of the model. In addition, the spatial features between the data pixels of the encoding and decoding modules are sensed by adjusting the channels and LSTM convolution. Finally, the image features are effectively retained. CA Module (Channel Attention Module) is introduced, which used to extract relevant channels with dependencies and strengthen them by matrix dot product, while weakening irrelevant channels without dependencies. The purpose of channel attention is achieved. The attention mechanism provided by LSTM convolution and CA Module are strong guarantees for the performance of the neural network. The accuracy of U-Net network: 0.9862, precision: 0.9118, DSC: 0.8547, JSC: 0.82. The evaluation metrics of RA V-Net, accuracy: 0.9968, precision: 0.9597, DSC: 0.9654, JSC: 0.9414. The most representative metric for the segmentation effect is DSC, which improves 0.1107 over U-Net, and JSC improves 0.1214.
翻訳日:2021-12-17 11:55:19 公開日:2021-12-16
# ゼロショットスケッチ画像検索のためのモダリティ対応トリプルトハードマイニング

Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2112.07966v2 )

ライセンス: Link先を確認
Zongheng Huang, YiFan Sun, Chuchu Han, Changxin Gao, Nong Sang(参考訳) 本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。 このタスクには2つの特徴があります 1)ゼロショット設定は、クラス内コンパクト性と、新規クラスを認識するためのクラス間の相違性を有する計量空間を必要とする。 2)スケッチクエリとフォトギャラリーは異なるモードである。 計量学習の観点は、2つの側面からZS-SBIRの恩恵を受ける。 第一に、ディープメトリックラーニング(DML)における最近の良い実践を通じて改善を促進する。 DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。 ベルとホイッスルがなければ、このベースラインは競合する検索精度を達成する。 第二に、モダリティギャップを適切に抑制することが重要であるという洞察を与える。 そこで我々は, Modality-Aware Triplet Hard Mining (MATHM) という新しい手法を設計した。 MATHMは、3種類のペアワイズ学習(例えば、クロスモダリティサンプルペア、イントラモダリティサンプルペア、およびそれらの組み合わせ)でベースラインを強化する。 また,これらの3成分を動的にバランスさせる適応重み付け法も設計した。 実験結果から,MATHMは強いベースラインに基づいて新たな大幅な改良を行い,新たな最先端性能が確立された。 例えば、TU-Berlinデータセットでは、47.88+2.94% mAP@allと58.28+2.34% Prec@100を達成する。 コードは、https://github.com/h uangzongheng/MATHM.c omで公開される。

This paper tackles the Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) problem from the viewpoint of cross-modality metric learning. This task has two characteristics: 1) the zero-shot setting requires a metric space with good within-class compactness and the between-class discrepancy for recognizing the novel classes and 2) the sketch query and the photo gallery are in different modalities. The metric learning viewpoint benefits ZS-SBIR from two aspects. First, it facilitates improvement through recent good practices in deep metric learning (DML). By combining two fundamental learning approaches in DML, e.g., classification training and pairwise training, we set up a strong baseline for ZS-SBIR. Without bells and whistles, this baseline achieves competitive retrieval accuracy. Second, it provides an insight that properly suppressing the modality gap is critical. To this end, we design a novel method named Modality-Aware Triplet Hard Mining (MATHM). MATHM enhances the baseline with three types of pairwise learning, e.g., a cross-modality sample pair, a within-modality sample pair, and their combination.\We also design an adaptive weighting method to balance these three components during training dynamically. Experimental results confirm that MATHM brings another round of significant improvement based on the strong baseline and sets up new state-of-the-art performance. For example, on the TU-Berlin dataset, we achieve 47.88+2.94% mAP@all and 58.28+2.34% Prec@100. Code will be publicly available at: https://github.com/h uangzongheng/MATHM.
翻訳日:2021-12-17 11:54:35 公開日:2021-12-16
# 生体ニューロンとシナプスによる計画

Planning with Biological Neurons and Synapses ( http://arxiv.org/abs/2112.08186v2 )

ライセンス: Link先を確認
Francesco d'Amore, Daniel Mitropolsky, Pierluigi Crescenzi, Emanuele Natale, Christos H. Papadimitriou(参考訳) 我々はブロック世界の計画問題を再考し、この課題に対して既知のヒューリスティックを実装した。 重要なことに、我々の実装は、ニューロンのスパイクによってのみ実行されるという意味で、生物学的に妥当である。 過去50年にわたってブロック世界で多くのことが達成されてきたが、この種のアルゴリズムはこれが最初のものであると信じている。 入力はブロックスタックの初期セットとターゲットセットを符号化したシンボルのシーケンスであり、出力は"テーブル上のスタック1の上位ブロックを出力する"などの動作コマンドのシーケンスである。 これは、最近提案された計算フレームワークで、神経活動と認知機能の間のギャップを埋めることで脳内の計算をモデル化することを目的としている。 その基本的な対象はニューロンのアセンブリ(被験者がオブジェクト、概念、単語などについて考えていることを示す同時発火の安定的なニューロンの集合)であり、そのコマンドにはプロジェクトとマージが含まれ、実行モデルは広く受け入れられた神経科学のテネットに基づいている。 この枠組みのプログラムは基本的にニューロンとシナプスの力学系を構築し、最終的には高い確率でタスクを達成する。 この研究の目的は、アセンブリ計算における合理的に大きなプログラムが正しく確実に実行できることを実証的に確立することであり、ブロック世界の計画のような高度な認知機能(理想化されていれば)は、そのようなプログラムによってうまく実装できる。

We revisit the planning problem in the blocks world, and we implement a known heuristic for this task. Importantly, our implementation is biologically plausible, in the sense that it is carried out exclusively through the spiking of neurons. Even though much has been accomplished in the blocks world over the past five decades, we believe that this is the first algorithm of its kind. The input is a sequence of symbols encoding an initial set of block stacks as well as a target set, and the output is a sequence of motion commands such as "put the top block in stack 1 on the table". The program is written in the Assembly Calculus, a recently proposed computational framework meant to model computation in the brain by bridging the gap between neural activity and cognitive function. Its elementary objects are assemblies of neurons (stable sets of neurons whose simultaneous firing signifies that the subject is thinking of an object, concept, word, etc.), its commands include project and merge, and its execution model is based on widely accepted tenets of neuroscience. A program in this framework essentially sets up a dynamical system of neurons and synapses that eventually, with high probability, accomplishes the task. The purpose of this work is to establish empirically that reasonably large programs in the Assembly Calculus can execute correctly and reliably; and that rather realistic -- if idealized -- higher cognitive functions, such as planning in the blocks world, can be implemented successfully by such programs.
翻訳日:2021-12-17 11:54:12 公開日:2021-12-16
# 多要素ガウス過程分類を用いた心房細動モデルの誘導可能領域の高速評価

Fast characterization of inducible regions of atrial fibrillation models with multi-fidelity Gaussian process classification ( http://arxiv.org/abs/2112.08075v2 )

ライセンス: Link先を確認
Lia Gander, Simone Pezzuto, Ali Gharaviri, Rolf Krause, Paris Perdikaris, Francisco Sahli Costabal(参考訳) 心房細動の計算モデルは最適なアブレーション部位の予測に成功している。 アブレーションパターンの効果を評価するための重要なステップは、異なる、潜在的にランダムな場所からモデルをペーストし、不整脈をatriaで誘発できるかどうかを決定することである。 本研究では、リーマン多様体上の多元的ガウス過程分類を用いて、不整脈が引き起こされるアトリアの領域を効率的に決定することを提案する。 心房表面上で直接動作する確率的分類器を構築する。 我々は,低分解能モデルを利用して心房表面を探索し,高分解能モデルとシームレスに結合して誘導性領域を同定する。 40個のサンプルで訓練すると,心房細動モデルとして使用される近隣の分類器より10%高く,アブレーションを伴う心房細動の有無で9%高いバランスのバランスの取れた精度を示す。 この新しい技術により、心房細動に対する計算モデルのより高速で正確な臨床応用が可能になることを願っている。

Computational models of atrial fibrillation have successfully been used to predict optimal ablation sites. A critical step to assess the effect of an ablation pattern is to pace the model from different, potentially random, locations to determine whether arrhythmias can be induced in the atria. In this work, we propose to use multi-fidelity Gaussian process classification on Riemannian manifolds to efficiently determine the regions in the atria where arrhythmias are inducible. We build a probabilistic classifier that operates directly on the atrial surface. We take advantage of lower resolution models to explore the atrial surface and combine seamlessly with high-resolution models to identify regions of inducibility. When trained with 40 samples, our multi-fidelity classifier shows a balanced accuracy that is 10% higher than a nearest neighbor classifier used as a baseline atrial fibrillation model, and 9% higher in presence of atrial fibrillation with ablations. We hope that this new technique will allow faster and more precise clinical applications of computational models for atrial fibrillation.
翻訳日:2021-12-17 11:53:46 公開日:2021-12-16