このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211206となっている論文です。

PDF登録状況(公開日: 20211206)

TitleAuthorsAbstract論文公表日・翻訳日
# 組合せ探索による診断評価生成

Diagnostic Assessment Generation via Combinatorial Search ( http://arxiv.org/abs/2112.11188v1 )

ライセンス: Link先を確認
Daehan Kim, Hyeonseong Choi, Guik Jung(参考訳) 最初のアセスメントテストは、学習者の知識状態を一貫した方法で捉えるのに不可欠である。 質問そのものを作るだけでなく、関連する問題を組み立てて質問シートを作るのも、時間のかかる作業だ。 本稿では,質問集合の汎用的定式化と,生の問題解決履歴から評価テストを生成する遺伝的アルゴリズムに基づく手法を提案する。 まず,学習者問合せ知識行列(snapshot)を推定する。 各行列要素は、学習者が特定の質問に正しく答える確率を表す。 このスナップショットに対する組合せ探索としてタスクを定式化する。 代表的・差別的な診断テストを保証するため,(1)質問プール全体に対するルート平均二乗誤差が低く,(2)学習者のパフォーマンスの標準偏差が高い質問が選択される。 実験の結果,提案手法は1つのプライベートデータセットと4つのパブリックデータセットにおいて,グリーディとランダムなベースラインを大きなマージンで上回っていることがわかった。 また,第9学年における評価結果の質的分析を行い,第9学年全体の散発性や難易度分布が良好であることを示した。

Initial assessment tests are crucial in capturing learner knowledge states in a consistent manner. Aside from crafting questions itself, putting together relevant problems to form a question sheet is also a time-consuming process. In this work, we present a generic formulation of question assembly and a genetic algorithm based method that can generate assessment tests from raw problem-solving history. First, we estimate the learner-question knowledge matrix (snapshot). Each matrix element stands for the probability that a learner correctly answers a specific question. We formulate the task as a combinatorial search over this snapshot. To ensure representative and discriminative diagnostic tests, questions are selected (1) that has a low root mean squared error against the whole question pool and (2) high standard deviation among learner performances. Experimental results show that the proposed method outperforms greedy and random baseline by a large margin in one private dataset and four public datasets. We also performed qualitative analysis on the generated assessment test for 9th graders, which enjoys good problem scatterness across the whole 9th grader curriculum and decent difficulty level distribution.
翻訳日:2021-12-26 13:18:24 公開日:2021-12-06
# 骨格グラフの自己愛:骨格誘導バイアスを手話生成に埋め込む

Skeletal Graph Self-Attention: Embedding a Skeleton Inductive Bias into Sign Language Production ( http://arxiv.org/abs/2112.05277v1 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 近年の手話生成(SLP)では,手話言語ニューラル機械翻訳(NMT)アーキテクチャが採用されている。 さらに、これらの作品は手話を骨格のポーズベクトルの列として表現し、固有の骨格構造を持たない抽象表現に投影する。 本稿では,手話列を骨格グラフ構造として表現し,関節をノードとして,空間的および時間的接続をエッジとして表現する。 このグラフィカルな構造を操作するために,骨格グラフセルフアテンション (sgsa) を提案する。slpモデルにスケルトン誘導バイアスを組み込む新しいグラフィカルなアテンション層である。 骨格的特徴表現を至る所に保持し, 自覚的定式化に時空間的隣接行列を直接適用する。 これは、非図形抽象表現を使用する場合に不可能な各骨格関節の構造とコンテキストを提供し、流体および表現型手話の生成を可能にする。 rwth-phoenix-weather -2014t(phoenix14t)データセット上での骨格グラフの自己アテンションアーキテクチャを評価し,開発およびテストセットの競合方法に対して8%と7%の改善を加えて,最先端のバック変換性能を実現する。

Recent approaches to Sign Language Production (SLP) have adopted spoken language Neural Machine Translation (NMT) architectures, applied without sign-specific modifications. In addition, these works represent sign language as a sequence of skeleton pose vectors, projected to an abstract representation with no inherent skeletal structure. In this paper, we represent sign language sequences as a skeletal graph structure, with joints as nodes and both spatial and temporal connections as edges. To operate on this graphical structure, we propose Skeletal Graph Self-Attention (SGSA), a novel graphical attention layer that embeds a skeleton inductive bias into the SLP model. Retaining the skeletal feature representation throughout, we directly apply a spatio-temporal adjacency matrix into the self-attention formulation. This provides structure and context to each skeletal joint that is not possible when using a non-graphical abstract representation, enabling fluid and expressive sign language production. We evaluate our Skeletal Graph Self-Attention architecture on the challenging RWTH-PHOENIX-Weather -2014T(PHOENIX14T) dataset, achieving state-of-the-art back translation performance with an 8% and 7% improvement over competing methods for the dev and test sets.
翻訳日:2021-12-19 12:27:02 公開日:2021-12-06
# 図書館における人工知能と機械学習の応用:システムレビュー

Application of Artificial Intelligence and Machine Learning in Libraries: A Systematic Review ( http://arxiv.org/abs/2112.04573v1 )

ライセンス: Link先を確認
Rajesh Kumar Das and Mohammad Sharif Ul Islam(参考訳) 人工知能や機械学習といった最先端技術の概念と実装が重要になってきており、学術、研究者、情報専門家がこの分野の研究に関与している。 この体系的な文献レビューの目的は、図書館における人工知能と機械学習の応用を探求する実証研究の合成を提供することである。 本研究の目的を達成するため,Kitchenham et al. (2009) が提案したガイドラインに基づいて,系統的な文献レビューを行った。 データはWeb of Science, Scopus, LISA, LISTAデータベースから収集された。 厳密で確立された選択プロセスに従って、最終的に32の論文が選択され、レビューされ、aiとmlドメインの応用と、ライブラリでよく使われるテクニックを要約した。 LIS領域に関連するAIとML研究の現在の状況は、主に理論的な研究に焦点が当てられていることを示している。 しかし、一部の研究者は実装プロジェクトやケーススタディも重視している。 この研究は、研究者、実践家、教育者のための図書館におけるAIとMLのパノラマなビューを提供し、より技術指向のアプローチをさらに進め、将来のイノベーションの道筋を予想する。

As the concept and implementation of cutting-edge technologies like artificial intelligence and machine learning has become relevant, academics, researchers and information professionals involve research in this area. The objective of this systematic literature review is to provide a synthesis of empirical studies exploring application of artificial intelligence and machine learning in libraries. To achieve the objectives of the study, a systematic literature review was conducted based on the original guidelines proposed by Kitchenham et al. (2009). Data was collected from Web of Science, Scopus, LISA and LISTA databases. Following the rigorous/ established selection process, a total of thirty-two articles were finally selected, reviewed and analyzed to summarize on the application of AI and ML domain and techniques which are most often used in libraries. Findings show that the current state of the AI and ML research that is relevant with the LIS domain mainly focuses on theoretical works. However, some researchers also emphasized on implementation projects or case studies. This study will provide a panoramic view of AI and ML in libraries for researchers, practitioners and educators for furthering the more technology-oriented approaches, and anticipating future innovation pathways.
翻訳日:2021-12-10 14:14:02 公開日:2021-12-06
# 神経フィードバック性能を予測するfMRIによる個人表現の学習

Learning Personal Representations from fMRIby Predicting Neurofeedback Performance ( http://arxiv.org/abs/2112.04902v1 )

ライセンス: Link先を確認
Jhonathan Osin, Lior Wolf, Guy Gurevitch, Jackob Nimrod Keynan, Tom Fruchtman-Steinbok, Ayelet Or-Borichev, Shira Reznik Balter and Talma Hendler(参考訳) 機能的MRI(fMRI)によって導かれる自己神経変調タスクを行う個人に対する個人表現を学習するためのディープニューラルネットワーク手法を提案する。 このニューロフィードバックタスク(ウォッチ対レギュレーション)は、被験者にアミグダラ信号のダウン制御に関する継続的なフィードバックを与え、学習アルゴリズムはこの地域の活動の時間軸に焦点を当てる。 この表現は、直近のfMRIフレームが与えられた次のfMRIフレームにおける扁桃体活動を予測する自己教師型リカレントニューラルネットワークによって学習され、学習された個々の表現に条件付けされる。 個人の表現は、次のフレームの予測を大幅に改善する。 さらに、fMRI画像のみから学習したこの個人表現は、臨床データや人格検査に基づく予測よりも優れた、精神医学的特徴の線形予測において優れた性能が得られる。 私たちのコードは補足として添付され、データは倫理的な承認を受けて共有されます。

We present a deep neural network method for learning a personal representation for individuals that are performing a self neuromodulation task, guided by functional MRI (fMRI). This neurofeedback task (watch vs. regulate) provides the subjects with a continuous feedback contingent on down regulation of their Amygdala signal and the learning algorithm focuses on this region's time-course of activity. The representation is learned by a self-supervised recurrent neural network, that predicts the Amygdala activity in the next fMRI frame given recent fMRI frames and is conditioned on the learned individual representation. It is shown that the individuals' representation improves the next-frame prediction considerably. Moreover, this personal representation, learned solely from fMRI images, yields good performance in linear prediction of psychiatric traits, which is better than performing such a prediction based on clinical data and personality tests. Our code is attached as supplementary and the data would be shared subject to ethical approvals.
翻訳日:2021-12-10 14:11:06 公開日:2021-12-06
# 予測できないこと、理解できないこと:説明可能性手法のための人間中心評価フレームワーク

What I Cannot Predict, I Do Not Understand: A Human-Centered Evaluation Framework for Explainability Methods ( http://arxiv.org/abs/2112.04417v1 )

ライセンス: Link先を確認
Thomas Fel, Julien Colin, Remi Cadene, Thomas Serre(参考訳) 多くの説明可能性法と理論的評価スコアが提案されている。 しかし,(1)現実のシナリオにおいて,これらの手法がいかに有用か,(2)人間による実践的利用において,これらの手法がいかに有効かを理論的に予測するかは,まだ分かっていない。 このギャップを埋めるために,被験者(n=1,150)が代表帰属法を利用して異なる画像分類器の決定を予測できる能力を評価するために,人間の心理物理学実験を大規模に実施した。 本研究は,実世界シナリオにおける個別帰属法の実用的有用性を反映しない説明可能性評価法を示す。 さらに、個々の帰属方法が、人間参加者が分類器の決定を予測するのに役立つ程度は、分類タスクやデータセットによって大きく異なる。 全体として、本研究は、より良い説明可能性手法を開発し、人間中心評価アプローチを展開するための重要な必要性を示唆する。 我々は、新しい説明可能性メソッドの体系的評価を容易にするために、フレームワークのコードを利用可能にする。

A multitude of explainability methods and theoretical evaluation scores have been proposed. However, it is not yet known: (1) how useful these methods are in real-world scenarios and (2) how well theoretical measures predict the usefulness of these methods for practical use by a human. To fill this gap, we conducted human psychophysics experiments at scale to evaluate the ability of human participants (n=1,150) to leverage representative attribution methods to learn to predict the decision of different image classifiers. Our results demonstrate that theoretical measures used to score explainability methods poorly reflect the practical usefulness of individual attribution methods in real-world scenarios. Furthermore, the degree to which individual attribution methods helped human participants predict classifiers' decisions varied widely across categorization tasks and datasets. Overall, our results highlight fundamental challenges for the field -- suggesting a critical need to develop better explainability methods and to deploy human-centered evaluation approaches. We will make the code of our framework available to ease the systematic evaluation of novel explainability methods.
翻訳日:2021-12-09 14:27:10 公開日:2021-12-06
# (参考訳) Aspect Sentiment Classification Tasks の連続学習におけるBERTの適用 [全文訳有]

Adapting BERT for Continual Learning of a Sequence of Aspect Sentiment Classification Tasks ( http://arxiv.org/abs/2112.03271v1 )

ライセンス: CC0 1.0
Zixuan Ke, Hu Xu, Bing Liu(参考訳) 本稿では,アスペクト感情分類(ASC)タスクの連続学習(CL)について検討する。 文書の感情分類にはいくつかのcl手法が提案されているが、我々はascに関するcl作業に気付いていない。 一連のASCタスクを漸進的に学習するCLシステムは,(1) 従来のタスクから学んだ知識を新しいタスクに移行して,より良いモデル学習を支援する,(2) 過去のタスクのモデルの性能を忘れないように維持する,という2つの課題に対処する必要がある。 本稿では,B-CLと呼ばれる新しいカプセルネットワークモデルを提案する。 b-clは新しいタスクと古いタスクの両方において、前方および後方の知識転送によるasc性能を著しく改善する。 B-CLの有効性は広範な実験によって実証された。

This paper studies continual learning (CL) of a sequence of aspect sentiment classification (ASC) tasks. Although some CL techniques have been proposed for document sentiment classification, we are not aware of any CL work on ASC. A CL system that incrementally learns a sequence of ASC tasks should address the following two issues: (1) transfer knowledge learned from previous tasks to the new task to help it learn a better model, and (2) maintain the performance of the models for previous tasks so that they are not forgotten. This paper proposes a novel capsule network based model called B-CL to address these issues. B-CL markedly improves the ASC performance on both the new task and the old tasks via forward and backward knowledge transfer. The effectiveness of B-CL is demonstrated through extensive experiments.
翻訳日:2021-12-09 08:15:01 公開日:2021-12-06
# (参考訳) プロプライエタリソフトウェアは、マシンラーニング時代の知的財産権保護をまだ提供しているか? --デュアルエネルギーCTデータを用いたケーススタディ [全文訳有]

Does Proprietary Software Still Offer Protection of Intellectual Property in the Age of Machine Learning? -- A Case Study using Dual Energy CT Data ( http://arxiv.org/abs/2112.03678v1 )

ライセンス: CC BY 4.0
Andreas Maier, Seung Hee Yang, Farhad Maleki, Nikesh Muthukrishnan, Reza Forghani(参考訳) 医療画像処理の分野では、医療機器メーカーは、コンパイル済みのソフトウェア、すなわち実行可能であるが潜在的な攻撃者によって理解できないバイナリコードのみを出荷することで、多くの場合、知的財産を保護している。 本稿では,このプロシージャが画像処理アルゴリズムをどの程度有効に保護できるかを検討する。 特に,デュアルエネルギーCTデータからの単エネルギー画像とヨウ素マップの計算が,機械学習によって逆エンジニアリング可能かどうかを検討する。 以上の結果から,1枚の1枚のスライス画像のみを非常に高精度なトレーニングデータとして用いた場合,構造的類似度は0.98以上であった。

In the domain of medical image processing, medical device manufacturers protect their intellectual property in many cases by shipping only compiled software, i.e. binary code which can be executed but is difficult to be understood by a potential attacker. In this paper, we investigate how well this procedure is able to protect image processing algorithms. In particular, we investigate whether the computation of mono-energetic images and iodine maps from dual energy CT data can be reverse-engineered by machine learning methods. Our results indicate that both can be approximated using only one single slice image as training data at a very high accuracy with structural similarity greater than 0.98 in all investigated cases.
翻訳日:2021-12-09 08:01:02 公開日:2021-12-06
# (参考訳) 機械学習を用いたトランジット外惑星検出・識別・居住性評価の自動化 [全文訳有]

Automation Of Transiting Exoplanet Detection, Identification and Habitability Assessment Using Machine Learning Approaches ( http://arxiv.org/abs/2112.03298v1 )

ライセンス: CC BY 4.0
Pawel Pratyush, Akshata Gangrade(参考訳) 私たちは人類の進化の歴史の中で、地球のような惑星を太陽系の外の星の周りに見つけ、そこでは生命を支えたり、その惑星上で生命の証拠を見つけることができる。 近年、NASA、ESA、その他の主要宇宙機関による人工衛星の打ち上げにより、太陽系外惑星検出やその識別、居住性決定といった困難なタスクを自動化する機械学習モデルのトレーニングに利用できる膨大なデータセットが処分されている。 これらのタスクの自動化は、かなりの時間を節約し、手動による介入によるヒューマンエラーを最小限にする。 この目的を達成するために、まずケプラー望遠鏡が捉えた恒星からの光強度曲線を分析し、惑星系の存在の特徴を示すポテンシャル曲線を検出する。 この検出のために、従来のモデルのトレーニングとともに、光信号の複数の表現を同時に訓練できるスタック型gbdtモデルを提案する。 その後、いくつかの最先端機械学習とアンサンブルアプローチを活用して、外惑星識別と居住可能性判定の自動化に取り組む。 太陽系外惑星の同定は、外惑星の実際のインスタンスと偽陽性のインスタンスを区別することを目的としているが、居住性評価は、外惑星のインスタンスを居住可能な特性に基づいて異なるクラスターに分類する。 さらに,Adequate Thermal Adequacy (ATA) スコアと呼ばれる新しい指標を提案し,居住可能インスタンスと非居住可能インスタンスの線形関係を確立する。 実験結果から,提案した積み重ねGBDTモデルは,通過系外惑星の検出において従来のモデルよりも優れていたことが示唆された。 さらに,居住性分類におけるATAスコアの導入により,モデルの性能が向上した。

We are at a unique timeline in the history of human evolution where we may be able to discover earth-like planets around stars outside our solar system where conditions can support life or even find evidence of life on those planets. With the launch of several satellites in recent years by NASA, ESA, and other major space agencies, an ample amount of datasets are at our disposal which can be utilized to train machine learning models that can automate the arduous tasks of exoplanet detection, its identification, and habitability determination. Automating these tasks can save a considerable amount of time and minimize human errors due to manual intervention. To achieve this aim, we first analyze the light intensity curves from stars captured by the Kepler telescope to detect the potential curves that exhibit the characteristics of an existence of a possible planetary system. For this detection, along with training conventional models, we propose a stacked GBDT model that can be trained on multiple representations of the light signals simultaneously. Subsequently, we address the automation of exoplanet identification and habitability determination by leveraging several state-of-art machine learning and ensemble approaches. The identification of exoplanets aims to distinguish false positive instances from the actual instances of exoplanets whereas the habitability assessment groups the exoplanet instances into different clusters based on their habitable characteristics. Additionally, we propose a new metric called Adequate Thermal Adequacy (ATA) score to establish a potential linear relationship between habitable and non-habitable instances. Experimental results suggest that the proposed stacked GBDT model outperformed the conventional models in detecting transiting exoplanets. Furthermore, the incorporation of ATA scores in habitability classification enhanced the performance of models.
翻訳日:2021-12-09 07:57:04 公開日:2021-12-06
# (参考訳) ネットワーク侵入検出領域における敵対的機械学習 : 体系的考察 [全文訳有]

Adversarial Machine Learning In Network Intrusion Detection Domain: A Systematic Review ( http://arxiv.org/abs/2112.03315v1 )

ライセンス: CC0 1.0
Huda Ali Alatwi, Charles Morisset(参考訳) さまざまな領域で大きな成功を収めているため、ネットワーク侵入検出ソリューションの設計には、精度の高い検出率と最小限の機能エンジニアリングで未知の既知の攻撃を検出し軽減する、ディープラーニング技術がますます使われている。 しかし、深層学習モデルはデータインスタンスに対して脆弱であり、そのモデルに誤った分類判断を下す可能性があることが判明した(逆例)。 このような脆弱性により、攻撃者は悪意のあるトラフィックに小さな巧妙な摂動を加えてNIDSを標的にすることができ、検出を回避し、システムの重要な機能を破壊することができる。 深層対人学習の問題はコンピュータビジョン領域で広く研究されているが、ネットワークセキュリティアプリケーションにおけるオープンな研究の領域である。 そこで本研究では,ネットワーク侵入検出の分野において,潜在的な解の方向性を示すために,逆機械学習の異なる側面を用いた研究を考察する。 まず, 敵例の生成, 敵例に対するMLベースのNIDの堅牢性の評価, そして, これらのモデルに対する攻撃に対する防御について検討した。 第2に,調査研究で特定された特徴を強調する。 さらに、nidsドメインにおける既存の汎用的な敵攻撃の適用可能性、実世界のシナリオで提案された攻撃を起動する可能性、および既存の緩和ソリューションの制限について論じる。

Due to their massive success in various domains, deep learning techniques are increasingly used to design network intrusion detection solutions that detect and mitigate unknown and known attacks with high accuracy detection rates and minimal feature engineering. However, it has been found that deep learning models are vulnerable to data instances that can mislead the model to make incorrect classification decisions so-called (adversarial examples). Such vulnerability allows attackers to target NIDSs by adding small crafty perturbations to the malicious traffic to evade detection and disrupt the system's critical functionalities. The problem of deep adversarial learning has been extensively studied in the computer vision domain; however, it is still an area of open research in network security applications. Therefore, this survey explores the researches that employ different aspects of adversarial machine learning in the area of network intrusion detection in order to provide directions for potential solutions. First, the surveyed studies are categorized based on their contribution to generating adversarial examples, evaluating the robustness of ML-based NIDs towards adversarial examples, and defending these models against such attacks. Second, we highlight the characteristics identified in the surveyed research. Furthermore, we discuss the applicability of the existing generic adversarial attacks for the NIDS domain, the feasibility of launching the proposed attacks in real-world scenarios, and the limitations of the existing mitigation solutions.
翻訳日:2021-12-09 07:39:13 公開日:2021-12-06
# (参考訳) 多部分解能の多次元アサインメント問題

Multidimensional Assignment Problem for multipartite entity resolution ( http://arxiv.org/abs/2112.03346v1 )

ライセンス: CC BY 4.0
Alla Kammerdiner and Alexander Semenov and Eduardo Pasiliao(参考訳) multipartite entity resolutionは、複数のデータセットからのレコードを1つのエンティティに統合することを目的としている。 多次元割当問題(multidimensional assignment problem)として知られる組合せ最適化問題として、多くのデータセットをまたいだ多元エンティティ解決におけるレコード連鎖問題の一般クラスに対する数学的定式化を導出する。 このアプローチのモチベーションとして,シーケンシャルな2部マッチングよりも多部的なエンティティ解決の利点を示す。 最適化問題はNPハードであるため、グリーディアルゴリズムと非常に大規模な近傍探索という2つのヒューリスティックな手順を適用し、複数のデータセットからのレコードの最も起こりそうなマッチングを1つのエンティティに求める。 我々は,これらのアルゴリズムの性能と,それらの修正を合成生成データ上で評価・比較する。 我々は,近年の大規模近傍探索であるヒューリスティックとMAPのもう一つのヒューリスティックであるグリーディアルゴリズムと,一般メタヒューリスティックである遺伝的アルゴリズムの2つのバージョンを比較するために,計算実験を行った。 重要となるのは,前者のヒューリスティックな検索,特にランダムサンプリングによるマルチスタートと決定論的設計に基づくマルチスタートの2つの方法を比較する実験である。 データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。 さらに,大規模検索,特にマルチスタートバージョンは,単純なグレディヒューリスティックよりも優れていることを示す。 大規模近傍探索によるグレディ探索のハイブリッド化により性能が向上する。 最大3回の追加実行によるマルチスタートを使用すると、非常に大規模な検索手順のパフォーマンスが改善される。 最後に,大規模近傍探索の複雑性を評価する手法を提案する。

Multipartite entity resolution aims at integrating records from multiple datasets into one entity. We derive a mathematical formulation for a general class of record linkage problems in multipartite entity resolution across many datasets as a combinatorial optimization problem known as the multidimensional assignment problem. As a motivation for our approach, we illustrate the advantage of multipartite entity resolution over sequential bipartite matching. Because the optimization problem is NP-hard, we apply two heuristic procedures, a Greedy algorithm and very large scale neighborhood search, to solve the assignment problem and find the most likely matching of records from multiple datasets into a single entity. We evaluate and compare the performance of these algorithms and their modifications on synthetically generated data. We perform computational experiments to compare performance of recent heuristic, the very large-scale neighborhood search, with a Greedy algorithm, another heuristic for the MAP, as well as with two versions of genetic algorithm, a general metaheuristic. Importantly, we perform experiments to compare two alternative methods of re-starting the search for the former heuristic, specifically a random-sampling multi-start and a deterministic design-based multi-start. We find evidence that design-based multi-start can be more efficient as the size of databases grow large. In addition, we show that very large scale search, especially its multi-start version, outperforms simple Greedy heuristic. Hybridization of Greedy search with very large scale neighborhood search improves the performance. Using multi-start with as few as three additional runs of very large scale search offers some improvement in the performance of the very large scale search procedure. Last, we propose an approach to evaluating complexity of the very large-scale neighborhood search.
翻訳日:2021-12-09 06:56:12 公開日:2021-12-06
# (参考訳) Cadence: ラベルのないIoTセンサストリームのための実用的な時系列分割アルゴリズム [全文訳有]

Cadence: A Practical Time-series Partitioning Algorithm for Unlabeled IoT Sensor Streams ( http://arxiv.org/abs/2112.03360v1 )

ライセンス: CC BY 4.0
Tahiya Chowdhury, Murtadha Aldeer, Shantanu Laghate, Jorge Ortiz(参考訳) タイムリパーティショニングは、ほとんどの機械学習駆動のセンサベースのIoTアプリケーションにおいて、重要なステップである。 本稿では,サンプル効率,堅牢な時系列分割モデルとアルゴリズムを提案する。 本研究では,最大平均偏差(mmd)に基づくセグメント化目的の表現を学習することで,異なるアプリケーション間での時系列イベントをロバストに検出できることを示す。 我々の損失関数は、サンプルの連続したシーケンスが同じ分布から引き出されるかどうかを推測し(ヌル仮説)、ヌル仮説を拒絶するペア(すなわち異なる分布から来る)間の変化点を決定することができる。 環境検知に基づくアクティビティ認識のための実世界のIoTデプロイメントにおいて、その適用性を実証する。 さらに,本論文では,変化点検出に関する研究が多数存在するが,本モデルは非常に単純であり,最先端の手法に適合あるいは優れる。 異なるアプリケーションにまたがるデータに対するハイパーパラメータの変化が少なく、平均9~93秒でモデルを完全にトレーニングできます。

Timeseries partitioning is an essential step in most machine-learning driven, sensor-based IoT applications. This paper introduces a sample-efficient, robust, time-series segmentation model and algorithm. We show that by learning a representation specifically with the segmentation objective based on maximum mean discrepancy (MMD), our algorithm can robustly detect time-series events across different applications. Our loss function allows us to infer whether consecutive sequences of samples are drawn from the same distribution (null hypothesis) and determines the change-point between pairs that reject the null hypothesis (i.e., come from different distributions). We demonstrate its applicability in a real-world IoT deployment for ambient-sensing based activity recognition. Moreover, while many works on change-point detection exist in the literature, our model is significantly simpler and matches or outperforms state-of-the-art methods. We can fully train our model in 9-93 seconds on average with little variation in hyperparameters for data across different applications.
翻訳日:2021-12-09 06:55:04 公開日:2021-12-06
# (参考訳) 文脈独立性を考慮した図形モデルと知覚的グループ化への応用 [全文訳有]

Graphical Models with Attention for Context-Specific Independence and an Application to Perceptual Grouping ( http://arxiv.org/abs/2112.03371v1 )

ライセンス: CC BY 4.0
Guangyao Zhou, Wolfgang Lehrach, Antoine Dedieu, Miguel L\'azaro-Gredilla, Dileep George(参考訳) 離散的無向グラフィカルモデルはマルコフ確率場(英語版)(mrfs)としても知られ、多変数の確率的相互作用を柔軟にエンコードすることができ、幅広い問題に応用できる。 しかし、離散的MRFの制限についてよく知られた研究はほとんど研究されていないのは、文脈特異的独立性(CSI)を捉えることができないことである。 既存の手法には慎重に開発された理論と目的を持った推論法が必要であり、その応用は小規模な問題に限られる。 本稿では,注意機構を組み込んだ個別MRF群であるMarkov Attention Model (MAM)を提案する。 注意機構は、変数が他の変数を無視しながら動的に他の変数に出席することを可能にし、MDFにおけるCSIのキャプチャを可能にする。 MAM は MRF として定式化されており、既存の MRF 推論手法の豊富なセットの恩恵を受け、大規模モデルやデータセットにスケールすることができる。 大規模にCSIを捕捉するMAMの能力を実証するために,知覚的グループ化における再帰的計算のシンボリックアプローチにおいて重要なCSIを捕捉するために,MAMを適用した。 最近提案された2つの合成知覚的グループ化タスクと現実画像による実験は、強力なリカレントニューラルネットワークベースラインと比較して、サンプル効率、解釈可能性、一般化性におけるMAMの利点を示し、大規模なCSIを効率的に捕捉するMAMの機能を検証する。

Discrete undirected graphical models, also known as Markov Random Fields (MRFs), can flexibly encode probabilistic interactions of multiple variables, and have enjoyed successful applications to a wide range of problems. However, a well-known yet little studied limitation of discrete MRFs is that they cannot capture context-specific independence (CSI). Existing methods require carefully developed theories and purpose-built inference methods, which limit their applications to only small-scale problems. In this paper, we propose the Markov Attention Model (MAM), a family of discrete MRFs that incorporates an attention mechanism. The attention mechanism allows variables to dynamically attend to some other variables while ignoring the rest, and enables capturing of CSIs in MRFs. A MAM is formulated as an MRF, allowing it to benefit from the rich set of existing MRF inference methods and scale to large models and datasets. To demonstrate MAM's capabilities to capture CSIs at scale, we apply MAMs to capture an important type of CSI that is present in a symbolic approach to recurrent computations in perceptual grouping. Experiments on two recently proposed synthetic perceptual grouping tasks and on realistic images demonstrate the advantages of MAMs in sample-efficiency, interpretability and generalizability when compared with strong recurrent neural network baselines, and validate MAM's capabilities to efficiently capture CSIs at scale.
翻訳日:2021-12-09 06:29:50 公開日:2021-12-06
# (参考訳) 運動補償スムース規則化によるマンホールド(MoCo-SToRM)のダイナミックイメージング [全文訳有]

Dynamic imaging using Motion-Compensated SmooThness Regularization on Manifolds (MoCo-SToRM) ( http://arxiv.org/abs/2112.03380v1 )

ライセンス: CC BY 4.0
Qing Zou, Luis A. Torres, Sean B. Fain, Nara S. Higano, Alister J. Bates, Mathews Jacob(参考訳) 高分解能自由呼吸性肺MRIのための教師なし運動補償再建法を提案する。 時系列の画像フレームを3dテンプレート画像ボリュームの変形バージョンとしてモデル化する。 変形写像は高次元空間の滑らかな多様体上の点であると仮定する。 具体的には、低次元潜在ベクトルによって駆動される全ての時間フレームに対して同じ重みを持つCNNベースのジェネレータの出力として、瞬時に変形マップをモデル化する。 潜伏ベクトルの時系列は、呼吸運動やバルク運動を含むデータセットのダイナミクスを説明する。 テンプレート画像ボリューム、ジェネレータのパラメータ、潜在ベクトルは教師なしの方法でk-t空間データから直接学習される。 実験の結果, スキャン中のバルク運動の文脈において, 最先端法と比較して, 復元性が向上した。

We introduce an unsupervised motion-compensated reconstruction scheme for high-resolution free-breathing pulmonary MRI. We model the image frames in the time series as the deformed version of the 3D template image volume. We assume the deformation maps to be points on a smooth manifold in high-dimensional space. Specifically, we model the deformation map at each time instant as the output of a CNN-based generator that has the same weight for all time-frames, driven by a low-dimensional latent vector. The time series of latent vectors account for the dynamics in the dataset, including respiratory motion and bulk motion. The template image volume, the parameters of the generator, and the latent vectors are learned directly from the k-t space data in an unsupervised fashion. Our experimental results show improved reconstructions compared to state-of-the-art methods, especially in the context of bulk motion during the scans.
翻訳日:2021-12-09 05:51:21 公開日:2021-12-06
# (参考訳) グラフニューラルネットワークによる分子動力学の加速 [全文訳有]

Graph Neural Networks Accelerated Molecular Dynamics ( http://arxiv.org/abs/2112.03383v1 )

ライセンス: CC BY 4.0
Zijie Li, Kazem Meidani, Prakarsh Yadav, Amir Barati Farimani(参考訳) 分子動力学(MD)シミュレーションは物質の力学と構造を理解する強力なツールである。 mdの分解能は原子スケールであるため、フェムト秒積分による長い時間スケールのシミュレーションは高価である。 各MDステップでは、学習や回避が可能な多数の冗長計算が実行される。 これらの冗長な計算は、グラフニューラルネットワーク(gnn)のようなディープラーニングモデルによって推測され、モデル化される。 本研究では, GNN Accelerated Molecular Dynamics (GAMD) モデルを構築し, 高速かつ高精度な力予測を行い, 従来の MD シミュレーションと整合した軌道を生成する。 その結果,GAMDはレナード・ジョーンズ(LJ)粒子と水(LJ+静電気)という2つの典型的な分子系の力学を正確に予測できることがわかった。 GAMDの学習と推論はスケールに非依存であり、テスト時にはるかに大きなシステムにスケールできる。 また,GAMDの実装と実運用レベルのMDソフトウェアを比較し,大規模シミュレーションにおいてGAMDと競合することを示した。

Molecular Dynamics (MD) simulation is a powerful tool for understanding the dynamics and structure of matter. Since the resolution of MD is atomic-scale, achieving long time-scale simulations with femtosecond integration is very expensive. In each MD step, numerous redundant computations are performed which can be learnt and avoided. These redundant computations can be surrogated and modeled by a deep learning model like a Graph Neural Network (GNN). In this work, we developed a GNN Accelerated Molecular Dynamics (GAMD) model that achieves fast and accurate force predictions and generates trajectories consistent with the classical MD simulations. Our results show that GAMD can accurately predict the dynamics of two typical molecular systems, Lennard-Jones (LJ) particles and Water (LJ+Electrostatics). GAMD's learning and inference are agnostic to the scale, where it can scale to much larger systems at test time. We also performed a comprehensive benchmark test comparing our implementation of GAMD to production-level MD softwares, where we showed GAMD is competitive with them on the large-scale simulation.
翻訳日:2021-12-09 05:32:33 公開日:2021-12-06
# (参考訳) マルチジェネレータGANを用いたトップダウン深層クラスタリング [全文訳有]

Top-Down Deep Clustering with Multi-generator GANs ( http://arxiv.org/abs/2112.03398v1 )

ライセンス: CC BY 4.0
Daniel de Mello, Renato Assun\c{c}\~ao, Fabricio Murai(参考訳) deep clustering(dc)は、クラスタ分析に最適な埋め込み空間を学ぶために、ディープアーキテクチャの表現力を利用する。 このアプローチはクラスタリングとは無関係な低レベル情報をフィルタリングし、高次元のデータ空間において顕著に成功した。 いくつかのDC手法はGAN(Generative Adversarial Networks)を採用しており、これらのモデルが暗黙的に学習できる強力な潜在表現によって動機付けられている。 本研究では,複数のジェネレータ(MGAN)を用いたGANに基づく新しい手法であるHC-MGANを提案する。 本手法は,MGANの各生成元が実データ分布のサブリージョンと相関するデータを生成する傾向にあることを示す。 このクラスタ化生成を使用して,与えられた画像の生成元を推論する分類器を訓練することにより,実分布に対して意味的に有意義なクラスタリングを実現する。 さらに,本手法をトップダウン階層のクラスタリング木で行うように設計し,本手法の知識を最大限活用するために,第1階層のDC法を提案する。 提案手法を最近のDC法に対して評価し,競争力のある結果を得た。 最後に,階層的クラスタリングツリーの探索分析を行い,意味的コヒーレントパターンの階層構造におけるデータの整理精度を強調する。

Deep clustering (DC) leverages the representation power of deep architectures to learn embedding spaces that are optimal for cluster analysis. This approach filters out low-level information irrelevant for clustering and has proven remarkably successful for high dimensional data spaces. Some DC methods employ Generative Adversarial Networks (GANs), motivated by the powerful latent representations these models are able to learn implicitly. In this work, we propose HC-MGAN, a new technique based on GANs with multiple generators (MGANs), which have not been explored for clustering. Our method is inspired by the observation that each generator of a MGAN tends to generate data that correlates with a sub-region of the real data distribution. We use this clustered generation to train a classifier for inferring from which generator a given image came from, thus providing a semantically meaningful clustering for the real distribution. Additionally, we design our method so that it is performed in a top-down hierarchical clustering tree, thus proposing the first hierarchical DC method, to the best of our knowledge. We conduct several experiments to evaluate the proposed method against recent DC methods, obtaining competitive results. Last, we perform an exploratory analysis of the hierarchical clustering tree that highlights how accurately it organizes the data in a hierarchy of semantically coherent patterns.
翻訳日:2021-12-09 05:21:28 公開日:2021-12-06
# (参考訳) JUSTICE: 最高裁判所の判断予測のためのベンチマークデータセット [全文訳有]

JUSTICE: A Benchmark Dataset for Supreme Court's Judgment Prediction ( http://arxiv.org/abs/2112.03414v1 )

ライセンス: CC BY 4.0
Mohammad Alali, Shaayan Syed, Mohammed Alsayed, Smit Patel, Hemanth Bodala(参考訳) 人工知能は、最近多くの領域で利用されているが、法制度も例外ではない。 しかし、現時点では、アメリカ合衆国最高裁判所(スコトゥス)の法的文書に関する注釈付きデータセットの数は、公的な使用には極めて限られている。 最高裁判所の判断はパブリックドメインの知識だが、そのデータのスクラッチから手作業で収集し処理する必要があるため、意味のある作業を試みることは、はるかに大きな課題となる。 したがって、私たちの目標は、自然言語処理(NLP)研究やその他のデータ駆動アプリケーションで容易に使用できるように、SCOTUS裁判所の高品質なデータセットを作成することです。 さらに、NLPの最近の進歩は、裁判所決定に影響を与えるパターンを明らかにするために使用できる予測モデルを構築するためのツールを提供する。 高度なnlpアルゴリズムを用いて過去の裁判を解析することにより、訓練されたモデルは原告と被告の事実をテキスト形式で判断し、裁判所の判断を予測し分類することができる。

Artificial intelligence is being utilized in many domains as of late, and the legal system is no exception. However, as it stands now, the number of well-annotated datasets pertaining to legal documents from the Supreme Court of the United States (SCOTUS) is very limited for public use. Even though the Supreme Court rulings are public domain knowledge, trying to do meaningful work with them becomes a much greater task due to the need to manually gather and process that data from scratch each time. Hence, our goal is to create a high-quality dataset of SCOTUS court cases so that they may be readily used in natural language processing (NLP) research and other data-driven applications. Additionally, recent advances in NLP provide us with the tools to build predictive models that can be used to reveal patterns that influence court decisions. By using advanced NLP algorithms to analyze previous court cases, the trained models are able to predict and classify a court's judgment given the case's facts from the plaintiff and the defendant in textual format; in other words, the model is emulating a human jury by generating a final verdict.
翻訳日:2021-12-09 04:55:32 公開日:2021-12-06
# (参考訳) ハイブリッドSNN-ANN:イベントベースビジョンのためのエネルギー効率の良い分類と物体検出 [全文訳有]

Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for Event-Based Vision ( http://arxiv.org/abs/2112.03423v1 )

ライセンス: CC BY-SA 4.0
Alexander Kugele, Thomas Pfeil, Michael Pfeiffer, Elisabetta Chicca(参考訳) イベントベースのビジョンセンサは、画像フレームではなく、イベントストリームのピクセル単位での輝度変化をエンコードし、低レイテンシ、高ダイナミックレンジ、モーションボケの欠如に加えて、シーンの省エネでエネルギー効率のよいエンコーディングを実現する。 イベントベースのセンサによるオブジェクト認識の最近の進歩は、バックプロパゲーションでトレーニングされたディープニューラルネットワークの変換によるものだ。 しかし、これらのアプローチをイベントストリームに使用するには、計算効率を失うだけでなく、時空間の特徴を抽出する機会を逃す同期パラダイムへの変換が必要となる。 本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案し、効率的なイベントベースの特徴抽出のためのスパイキングニューラルネットワーク(SNN)バックボーンと、同期分類と検出タスクを解決するための後続のアナログニューラルネットワーク(ANN)ヘッドを組み合わせる。 これは、標準バックプロパゲーションと代理勾配トレーニングを組み合わせることで、SNNを通して勾配を伝搬する。 ハイブリッドSNN-ANNは変換なしで訓練でき、その結果、ANNよりも計算効率がかなり高い高精度なネットワークが得られる。 本稿では,annヘッドのアーキテクチャのみをタスクに適用し,イベントベース入力の変換を必要とせず,イベントベースの分類とオブジェクト検出データセットに関する結果を示す。 ANNとSNNは、その効率を最大化するために異なるハードウェアパラダイムを必要とするため、SNNバックボーンとANNヘッドは異なる処理ユニット上で実行可能であることを想定し、2つの部分間の通信に必要な帯域幅を解析する。 ハイブリッドネットワークは、効率を損なうことなく、イベントベースのビジョンのための機械学習アプローチをさらに前進させるアーキテクチャを約束している。

Event-based vision sensors encode local pixel-wise brightness changes in streams of events rather than image frames and yield sparse, energy-efficient encodings of scenes, in addition to low latency, high dynamic range, and lack of motion blur. Recent progress in object recognition from event-based sensors has come from conversions of deep neural networks, trained with backpropagation. However, using these approaches for event streams requires a transformation to a synchronous paradigm, which not only loses computational efficiency, but also misses opportunities to extract spatio-temporal features. In this article we propose a hybrid architecture for end-to-end training of deep neural networks for event-based pattern recognition and object detection, combining a spiking neural network (SNN) backbone for efficient event-based feature extraction, and a subsequent analog neural network (ANN) head to solve synchronous classification and detection tasks. This is achieved by combining standard backpropagation with surrogate gradient training to propagate gradients through the SNN. Hybrid SNN-ANNs can be trained without conversion, and result in highly accurate networks that are substantially more computationally efficient than their ANN counterparts. We demonstrate results on event-based classification and object detection datasets, in which only the architecture of the ANN heads need to be adapted to the tasks, and no conversion of the event-based input is necessary. Since ANNs and SNNs require different hardware paradigms to maximize their efficiency, we envision that SNN backbone and ANN head can be executed on different processing units, and thus analyze the necessary bandwidth to communicate between the two parts. Hybrid networks are promising architectures to further advance machine learning approaches for event-based vision, without having to compromise on efficiency.
翻訳日:2021-12-09 04:48:43 公開日:2021-12-06
# (参考訳) 難解な最小問題を解くための学習 [全文訳有]

Learning to Solve Hard Minimal Problems ( http://arxiv.org/abs/2112.03424v1 )

ライセンス: CC BY 4.0
Petr Hruby, Timothy Duff, Anton Leykin, Tomas Pajdla(参考訳) 本稿では,RANSACフレームワークにおける厳密な幾何最適化問題の解法を提案する。 難解な最小の問題は、元の幾何最適化問題を多くの急激な解を持つ最小の問題に緩和することから生じる。 我々のアプローチは、多数の突発解の計算を避ける。 我々は,問題の解法と解法を数値的に継続できる開始問題解決ペアを選択するための学習戦略を設計する。 RANSACソルバを3つのキャリブレーションされたカメラの相対的なポーズを各ビューの4点を用いて最小限の緩和により計算する手法を提案する。 平均して、1つの問題を 70$\mu s 以下で解くことができる。 さらに私たちは、2つのキャリブレーションされたカメラの相対的なポーズを、2つのビューで5ポイントの最小限のケースで計算することで、エンジニアリングの選択をベンチマークし、調査しています。

We present an approach to solving hard geometric optimization problems in the RANSAC framework. The hard minimal problems arise from relaxing the original geometric optimization problem into a minimal problem with many spurious solutions. Our approach avoids computing large numbers of spurious solutions. We design a learning strategy for selecting a starting problem-solution pair that can be numerically continued to the problem and the solution of interest. We demonstrate our approach by developing a RANSAC solver for the problem of computing the relative pose of three calibrated cameras, via a minimal relaxation using four points in each view. On average, we can solve a single problem in under 70 $\mu s.$ We also benchmark and study our engineering choices on the very familiar problem of computing the relative pose of two calibrated cameras, via the minimal case of five points in two views.
翻訳日:2021-12-09 04:18:58 公開日:2021-12-06
# 方位に基づく反復自己組織化データ解析による原子シミュレーションにおける粒界分節化

Grain segmentation in atomistic simulations using orientation-based iterative self-organizing data analysis ( http://arxiv.org/abs/2112.03348v1 )

ライセンス: Link先を確認
M. Vimal and S. Sandfeld and A. Prakash(参考訳) 原子論的シミュレーションは、原子スケールでの材料の変形機構を理解する上で欠かせない道具として確立されている。 ナノスケールでの多結晶材料の挙動を研究するために、大規模シミュレーションが定期的に用いられる。 本研究では,非教師付き機械学習アルゴリズムを用いて,原子を個々の粒に群集し,その配向に基づいて粒状構造を粒状分節化する手法を提案する。 提案手法はOrisodataアルゴリズムと呼ばれ,反復的な自己組織化データ解析手法に基づいて,向き空間で動作するように修正されている。 アルゴリズムの動作は、未変形および変形状態の122の結晶ナノ結晶薄膜試料上で実証される。 Orisodataアルゴリズムは、オープンソースビジュアライゼーションツールOvitoで利用可能な他の2つのグレーンセグメンテーションアルゴリズムと比較される。 その結果,Orisodataアルゴリズムは変形双対と低角粒界で分離された領域を正確に同定できることがわかった。 モデルパラメータは直感的な物理的意味を持ち、実験で使われる類似のしきい値と関連しており、最適な値を得るのに役立つだけでなく、結果の解釈や検証を容易にする。

Atomistic simulations have now established themselves as an indispensable tool in understanding deformation mechanisms of materials at the atomic scale. Large scale simulations are regularly used to study the behavior of polycrystalline materials at the nanoscale. In this work, we propose a method for grain segmentation of an atomistic configuration using an unsupervised machine learning algorithm that clusters atoms into individual grains based on their orientation. The proposed method, called the Orisodata algorithm, is based on the iterative self-organizing data analysis technique and is modified to work in the orientation space. The working of the algorithm is demonstrated on a 122 grain nanocrystalline thin film sample in both undeformed and deformed states. The Orisodata algorithm is also compared with two other grain segmentation algorithms available in the open-source visualization tool Ovito. The results show that the Orisodata algorithm is able to correctly identify deformation twins as well as regions separated by low angle grain boundaries. The model parameters have intuitive physical meaning and relate to similar thresholds used in experiments, which not only helps obtain optimal values but also facilitates easy interpretation and validation of results.
翻訳日:2021-12-08 16:05:51 公開日:2021-12-06
# 有毒深層ニューラルネットワークのためのバックドアトリガーの試験時間検出

Test-Time Detection of Backdoor Triggers for Poisoned Deep Neural Networks ( http://arxiv.org/abs/2112.03350v1 )

ライセンス: Link先を確認
Xi Li and Zhen Xiang and David J. Miller and George Kesidis(参考訳) バックドア(トロイの木馬)攻撃はディープニューラルネットワーク(dnn)に対する新たな脅威だ。 攻撃対象のdnnは、任意のソースクラスのテストサンプルにバックドアパターンが埋め込まれるたびに、攻撃対象のターゲットクラスに予測される。 既存のバックドアディフェンスは、dnnが攻撃されているかどうかを検知し、「後訓練」方式でバックドアパターンをリバースエンジニアリングすることに成功した:ディフェンダーは検査対象のdnnにアクセスでき、小さなクリーンなデータセットは独立して収集されるが、dnnの(おそらくは有毒な)トレーニングセットにアクセスできない。 しかし、これらの防御はバックドアマッピングを起動する行為の犯人を捕まえることも、テスト時にバックドア攻撃を緩和することもない。 本稿では,画像分類におけるバックドア攻撃に対する「機内防御」を提案する。 1) テスト時にバックドアトリガーの使用を検出する。 2) 検出されたトリガー例のオリジンクラス(ソースクラス)を推測する。 バックドア攻撃に対する防御効果を実験的に実証した。

Backdoor (Trojan) attacks are emerging threats against deep neural networks (DNN). A DNN being attacked will predict to an attacker-desired target class whenever a test sample from any source class is embedded with a backdoor pattern; while correctly classifying clean (attack-free) test samples. Existing backdoor defenses have shown success in detecting whether a DNN is attacked and in reverse-engineering the backdoor pattern in a "post-training" regime: the defender has access to the DNN to be inspected and a small, clean dataset collected independently, but has no access to the (possibly poisoned) training set of the DNN. However, these defenses neither catch culprits in the act of triggering the backdoor mapping, nor mitigate the backdoor attack at test-time. In this paper, we propose an "in-flight" defense against backdoor attacks on image classification that 1) detects use of a backdoor trigger at test-time; and 2) infers the class of origin (source class) for a detected trigger example. The effectiveness of our defense is demonstrated experimentally against different strong backdoor attacks.
翻訳日:2021-12-08 16:05:33 公開日:2021-12-06
# manas: automlを支援するソフトウェアリポジトリのマイニング

Manas: Mining Software Repositories to Assist AutoML ( http://arxiv.org/abs/2112.03395v1 )

ライセンス: Link先を確認
Giang Nguyen, Johir Islam, Rangeet Pan, and Hridesh Rajan(参考訳) 現在、ディープラーニングはソフトウェア構築に広く使われている。 ディープラーニングにおけるソフトウェアエンジニアリングの問題は、タスクに適切な畳み込みニューラルネットワーク(CNN)モデルを見つけることが開発者にとって難しいことだ。 Auto-Kerasのようなツールによって具現化されたAutoMLに関する最近の研究は、基本的には、開始点がデフォルトのCNNモデルである検索問題として見なすことによって、この問題を解決することを目的としており、このCNNモデルの変異により、CNNモデルの空間を探索して、問題に最適なCNNモデルを見つけることができる。 これらの作品は高い精度のcnnモデルの生産で大きな成功を収めている。 しかし、2つの問題がある。 まず、NASは非常にコストがかかり、完成までに数時間かかることが多い。 第二に、NASが生成するCNNモデルは非常に複雑であり、それらを理解するのが難しく、トレーニングにコストがかかる。 我々は、nasの新しいアプローチを提案し、デフォルトのcnnモデルから始める代わりに、最初のモデルはgithubから抽出されたモデルのリポジトリから選択される。 直観的には、同様の問題を解決する開発者は、デフォルトモデルよりも優れた出発点を開発したかもしれない。 また、CNNモデルの共通レイヤパターンを分析し、開発者がモデルを改善するために行う変化を理解します。 我々のアプローチではNASの突然変異演算子として一般的に発生する変化を用いる。 アプローチを実装するためにAuto-Kerasを拡張しました。 画像分類や画像回帰などのタスクに対して、Kaggleの8つの上位投票問題を用いた評価では、精度を損なわずに同じ検索時間で、ManasはAuto-Kerasのモデルよりも42.9%から99.6%少ないパラメータのモデルを生成する。 GPUをベンチマークして、ManasのモデルはAuto-Kerasのモデルよりも30.3%から641.6%速くトレーニングする。

Today deep learning is widely used for building software. A software engineering problem with deep learning is that finding an appropriate convolutional neural network (CNN) model for the task can be a challenge for developers. Recent work on AutoML, more precisely neural architecture search (NAS), embodied by tools like Auto-Keras aims to solve this problem by essentially viewing it as a search problem where the starting point is a default CNN model, and mutation of this CNN model allows exploration of the space of CNN models to find a CNN model that will work best for the problem. These works have had significant success in producing high-accuracy CNN models. There are two problems, however. First, NAS can be very costly, often taking several hours to complete. Second, CNN models produced by NAS can be very complex that makes it harder to understand them and costlier to train them. We propose a novel approach for NAS, where instead of starting from a default CNN model, the initial model is selected from a repository of models extracted from GitHub. The intuition being that developers solving a similar problem may have developed a better starting point compared to the default model. We also analyze common layer patterns of CNN models in the wild to understand changes that the developers make to improve their models. Our approach uses commonly occurring changes as mutation operators in NAS. We have extended Auto-Keras to implement our approach. Our evaluation using 8 top voted problems from Kaggle for tasks including image classification and image regression shows that given the same search time, without loss of accuracy, Manas produces models with 42.9% to 99.6% fewer number of parameters than Auto-Keras' models. Benchmarked on GPU, Manas' models train 30.3% to 641.6% faster than Auto-Keras' models.
翻訳日:2021-12-08 16:04:46 公開日:2021-12-06
# 双方向LSTMオートエンコーダによる異常検出が可能なスマート計測システム

Smart Metering System Capable of Anomaly Detection by Bi-directional LSTM Autoencoder ( http://arxiv.org/abs/2112.03275v1 )

ライセンス: Link先を確認
Sangkeum Lee, Hojun Jin, Sarvar Hussain Nengroo, Yoonmee Doh, Chungho Lee, Taewook Heo, Dongsoo Har(参考訳) 異常検出は、障害検出、システム監視、イベント検出といった幅広い応用に関係している。 スマートメータシステムから得られた測定データから異常を識別することは,電力システムの信頼性,安定性,効率を高める上で重要な課題である。 本稿では,スマート計測システムで観測された異常な異常検出手法を提案する。 提案手法では、双方向長短期メモリ(BiLSTM)ベースのオートエンコーダを用い、異常なデータ点を検出する。 非アノマラスデータを用いたオートエンコーダによる再構成誤差を算出し、非アノマラスデータから異常に分類される外れ値を予め定義された閾値で分離する。 985世帯から収集した4種類のエネルギー源電気・水・熱・熱水に対応する測定データを用いて、bilstmオートエンコーダに基づく異常検出方法をテストする。

Anomaly detection is concerned with a wide range of applications such as fault detection, system monitoring, and event detection. Identifying anomalies from metering data obtained from smart metering system is a critical task to enhance reliability, stability, and efficiency of the power system. This paper presents an anomaly detection process to find outliers observed in the smart metering system. In the proposed approach, bi-directional long short-term memory (BiLSTM) based autoencoder is used and finds the anomalous data point. It calculates the reconstruction error through autoencoder with the non-anomalous data, and the outliers to be classified as anomalies are separated from the non-anomalous data by predefined threshold. Anomaly detection method based on the BiLSTM autoencoder is tested with the metering data corresponding to 4 types of energy sources electricity/water/he ating/hot water collected from 985 households.
翻訳日:2021-12-08 16:00:08 公開日:2021-12-06
# 分子グラフによるスケーラブルな幾何学的深層学習

Scalable Geometric Deep Learning on Molecular Graphs ( http://arxiv.org/abs/2112.03364v1 )

ライセンス: Link先を確認
Nathan C. Frey, Siddharth Samsi, Joseph McDonald, Lin Li, Connor W. Coley, Vijay Gadepally(参考訳) 分子・材料科学におけるディープラーニングは、応用科学、人工知能、高性能コンピューティングの統合の欠如によって制限される。 トレーニングデータの量、モデルアーキテクチャのサイズと複雑さ、計算インフラの規模などについては、すべて、分子や物質のディープラーニングのスケーリングを制限する重要な要素である。 ここでは分子深層学習手法をスケーリングするための軽量フレームワークである$\textit{LitMatter}$を示す。 400以上のgpu上で4つのグラフニューラルネットワークアーキテクチャをトレーニングし、これらの手法のスケーリング挙動を調査した。 モデルアーキテクチャによっては、60\times$までのトレーニング時間のスピードアップが見られる。 経験的ニューラルスケーリング関係は、モデル依存のスケーリングを定量化し、最適な計算資源割り当てとスケーラブルな分子幾何学的深層学習モデル実装の同定を可能にする。

Deep learning in molecular and materials sciences is limited by the lack of integration between applied science, artificial intelligence, and high-performance computing. Bottlenecks with respect to the amount of training data, the size and complexity of model architectures, and the scale of the compute infrastructure are all key factors limiting the scaling of deep learning for molecules and materials. Here, we present $\textit{LitMatter}$, a lightweight framework for scaling molecular deep learning methods. We train four graph neural network architectures on over 400 GPUs and investigate the scaling behavior of these methods. Depending on the model architecture, training time speedups up to $60\times$ are seen. Empirical neural scaling relations quantify the model-dependent scaling and enable optimal compute resource allocation and the identification of scalable molecular geometric deep learning model implementations.
翻訳日:2021-12-08 15:59:55 公開日:2021-12-06
# スピントルク振動子アレイに基づく複素値ホップフィールドネットワークを用いた連想記憶

Associative Memories Using Complex-Valued Hopfield Networks Based on Spin-Torque Oscillator Arrays ( http://arxiv.org/abs/2112.03358v1 )

ライセンス: Link先を確認
Nitin Prasad, Prashansa Mukim, Advait Madhavan, and Mark D. Stiles(参考訳) スピントーク振動子に基づく複素値ホップフィールドネットワークのシミュレーションは位相符号化画像の復元を可能にする。 振動子の振動出力を位相シフトさせることにより複雑な重みを具備する調整可能な遅延要素を提供する。 擬似逆トレーニングは、少なくとも12枚の画像を192個の発振器に格納するのに十分であり、16$\times$12ピクセルの画像を表す。 画像の復元に必要なエネルギーは、所望の誤差レベルに依存する。 ここで考慮された振動子や回路では、理想像からの5%の平均平方偏差はおよそ5$\mu$sを必要とし、約130nJを消費する。 シミュレーションにより、振動子の共振周波数がフィードバックの強さに応じて10^{-3}$未満に分散するように調整できる場合、ネットワークはよく機能することが示された。

Simulations of complex-valued Hopfield networks based on spin-torque oscillators can recover phase-encoded images. Sequences of memristor-augmented inverters provide tunable delay elements that implement complex weights by phase shifting the oscillatory output of the oscillators. Pseudo-inverse training suffices to store at least 12 images in a set of 192 oscillators, representing 16$\times$12 pixel images. The energy required to recover an image depends on the desired error level. For the oscillators and circuitry considered here, 5 % root mean square deviations from the ideal image require approximately 5 $\mu$s and consume roughly 130 nJ. Simulations show that the network functions well when the resonant frequency of the oscillators can be tuned to have a fractional spread less than $10^{-3}$, depending on the strength of the feedback.
翻訳日:2021-12-08 15:57:20 公開日:2021-12-06
# ビデオによる自己監視カメラの自己校正

Self-Supervised Camera Self-Calibration from Video ( http://arxiv.org/abs/2112.03325v1 )

ライセンス: Link先を確認
Jiading Fang, Igor Vasiljevic, Vitor Guizilini, Rares Ambrus, Greg Shakhnarovich, Adrien Gaidon, Matthew R.Walter(参考訳) カメラキャリブレーションは、視覚入力ストリームからシーンの幾何学的性質を推測するロボット工学やコンピュータビジョンアルゴリズムに不可欠なものである。 実際には、キャリブレーションは特別なデータ収集と注意深いチューニングを必要とする面倒な手順である。 このプロセスは、カメラのパラメータが変わるたびに繰り返されなければならない。 対照的に、自己監督深度とエゴモーション推定アプローチは、ビュー合成の目的を最適化するフレームごとの投影モデルを推定することにより、明示的なキャリブレーションを回避できる。 本稿では,野生の生ビデオから広い範囲のカメラを明示的に校正するために,このアプローチを拡張した。 汎用カメラモデルの効率的なファミリーを用いてシーケンスごとのキャリブレーションパラメータを回帰する学習アルゴリズムを提案する。 提案手法は,サブピクセル再投射誤差による自己校正を行い,他の学習手法よりも優れる。 我々は、遠近法、魚眼法、カタディオプトリなど、様々なカメラ測地に対するアプローチを検証する。 最後に, 提案手法は, 従来手法よりも計算効率が高いEuRoCデータセット上で, 深度推定の下流課題の改善につながることを示す。

Camera calibration is integral to robotics and computer vision algorithms that seek to infer geometric properties of the scene from visual input streams. In practice, calibration is a laborious procedure requiring specialized data collection and careful tuning. This process must be repeated whenever the parameters of the camera change, which can be a frequent occurrence for mobile robots and autonomous vehicles. In contrast, self-supervised depth and ego-motion estimation approaches can bypass explicit calibration by inferring per-frame projection models that optimize a view synthesis objective. In this paper, we extend this approach to explicitly calibrate a wide range of cameras from raw videos in the wild. We propose a learning algorithm to regress per-sequence calibration parameters using an efficient family of general camera models. Our procedure achieves self-calibration results with sub-pixel reprojection error, outperforming other learning-based methods. We validate our approach on a wide variety of camera geometries, including perspective, fisheye, and catadioptric. Finally, we show that our approach leads to improvements in the downstream task of depth estimation, achieving state-of-the-art results on the EuRoC dataset with greater computational efficiency than contemporary methods.
翻訳日:2021-12-08 15:24:03 公開日:2021-12-06
# 大学進学人口における音声のディープフェイク知覚

Audio Deepfake Perceptions in College Going Populations ( http://arxiv.org/abs/2112.03351v1 )

ライセンス: Link先を確認
Gabrielle Watson, Zahra Khanjani, Vandana P. Janeja(参考訳) deepfakeは、aiメソッドを使用して生成または操作されたコンテンツまたは素材で、現実として渡す。 ディープフェイクにはオーディオ、ビデオ、画像、テキストの4種類がある。 本研究では,音声のディープフェイクと,その認識方法に着目した。 オーディオディープフェイク生成フレームワークはいくつかありますが,非自己回帰的で高速なオーディオディープフェイク生成フレームワークであるMelGANを選択しました。 本研究は,異なる専攻の大学生の聴覚深度知覚を評価することを目的とする。 この研究はまた、彼らのバックグラウンドとメジャーがAI生成したディープフェイクに対する認識にどのように影響するかという疑問にも答える。 また, 評価レベル, 音声クリップにおける文法の複雑さ, 音声クリップの長さ, ディープフェイクという言葉を知っている人, そうでない人, 政治的角度など, さまざまな側面から分析を行った。 音声クリップが政治的意味を持つ場合、たとえ内容がよく似ているとしても、それが本物であるか偽物なのかについて人々がどう考えるかに影響を与えることは興味深い。 この研究はまた、背景とメジャーがディープフェイクに対する知覚にどのように影響するかという疑問を探っている。

Deepfake is content or material that is generated or manipulated using AI methods, to pass off as real. There are four different deepfake types: audio, video, image and text. In this research we focus on audio deepfakes and how people perceive it. There are several audio deepfake generation frameworks, but we chose MelGAN which is a non-autoregressive and fast audio deepfake generating framework, requiring fewer parameters. This study tries to assess audio deepfake perceptions among college students from different majors. This study also answers the question of how their background and major can affect their perception towards AI generated deepfakes. We also analyzed the results based on different aspects of: grade level, complexity of the grammar used in the audio clips, length of the audio clips, those who knew the term deepfakes and those who did not, as well as the political angle. It is interesting that the results show when an audio clip has a political connotation, it can affect what people think about whether it is real or fake, even if the content is fairly similar. This study also explores the question of how background and major can affect perception towards deepfakes.
翻訳日:2021-12-08 15:20:02 公開日:2021-12-06
# 仮想リプレイキャッシュ

Virtual Replay Cache ( http://arxiv.org/abs/2112.03421v1 )

ライセンス: Link先を確認
Brett Daley and Christopher Amato(参考訳) 戻りキャッシングは、強化学習のためのマルチステップ推定器(例えば、return-return)による効率的なミニバッチトレーニングを可能にする最近の戦略である。 逐次バッチでリターン推定をプリ計算し、後続サンプリングのための補助データ構造に保存することにより、推定当たりの平均計算量を大幅に削減することができる。 それでも、特に大きなメモリ使用量と繰り返しデータコピーに関しては、戻りキャッシュの効率が向上する可能性がある。 本稿では,これらの欠点に対処する新たなデータ構造であるVirtual Replay Cache(VRC)を提案する。 Atari 2600のゲームを学ぼうとすると、VRCはDQN({\lambda})のキャッシュメモリフットプリントをほとんどなくし、ハードウェアのトレーニング時間をわずかに短縮する。

Return caching is a recent strategy that enables efficient minibatch training with multistep estimators (e.g. the {\lambda}-return) for deep reinforcement learning. By precomputing return estimates in sequential batches and then storing the results in an auxiliary data structure for later sampling, the average computation spent per estimate can be greatly reduced. Still, the efficiency of return caching could be improved, particularly with regard to its large memory usage and repetitive data copies. We propose a new data structure, the Virtual Replay Cache (VRC), to address these shortcomings. When learning to play Atari 2600 games, the VRC nearly eliminates DQN({\lambda})'s cache memory footprint and slightly reduces the total training time on our hardware.
翻訳日:2021-12-08 15:01:10 公開日:2021-12-06
# 論理ニューラルネットワークを用いたニューロシンボリックインダクティブ論理プログラミング

Neuro-Symbolic Inductive Logic Programming with Logical Neural Networks ( http://arxiv.org/abs/2112.03324v1 )

ライセンス: Link先を確認
Prithviraj Sen, Breno W. S. R. de Carvalho, Ryan Riegel, Alexander Gray(参考訳) 最近のニューロシンボリック帰納的論理プログラミングの研究は、ノイズの多い現実世界のデータから説明規則を学ぶ有望なアプローチにつながった。 いくつかの提案では、パラメータフリーなファジィあるいは実数値論理から微分可能な演算子を持つ論理演算子を近似するが、他のアプローチは、学習された「ルール」を解釈するのが困難になるロジックのみに基づいている。 本稿では,最近提案された論理ニューラルネットワーク(LNN)を用いた学習規則を提案する。 他のものと比較すると、LNNは古典的なブール論理と強く結びついているので、学習規則の正確な解釈を可能とし、データを効果的に適合させるために勾配ベースの最適化で訓練できるパラメータを保持できる。 我々はLNNを拡張して一階述語論理の規則を導出する。 標準ベンチマークタスクの実験により,LNN規則は高い解釈が可能であり,フレキシブルパラメータ化により同等あるいは高い精度が得られることを確認した。

Recent work on neuro-symbolic inductive logic programming has led to promising approaches that can learn explanatory rules from noisy, real-world data. While some proposals approximate logical operators with differentiable operators from fuzzy or real-valued logic that are parameter-free thus diminishing their capacity to fit the data, other approaches are only loosely based on logic making it difficult to interpret the learned "rules". In this paper, we propose learning rules with the recently proposed logical neural networks (LNN). Compared to others, LNNs offer strong connection to classical Boolean logic thus allowing for precise interpretation of learned rules while harboring parameters that can be trained with gradient-based optimization to effectively fit the data. We extend LNNs to induce rules in first-order logic. Our experiments on standard benchmarking tasks confirm that LNN rules are highly interpretable and can achieve comparable or higher accuracy due to their flexible parameterization.
翻訳日:2021-12-08 14:32:06 公開日:2021-12-06
# 課題と行動計画の指導的模倣

Guided Imitation of Task and Motion Planning ( http://arxiv.org/abs/2112.03386v1 )

ライセンス: Link先を確認
Michael James McDonald and Dylan Hadfield-Menell(参考訳) 現代のポリシー最適化手法は知覚データから複雑な操作をすることができるが、時間軸の延長や複数のサブゴールの問題に苦しむ。 一方、タスク・アンド・モーション・プランニング(TAMP)手法は長い地平線にスケールするが、計算コストが高く、正確に世界状態を追跡する必要がある。 我々は,tampソルバの出力を模倣するポリシをトレーニングする手法を提案する。 これは、感覚データから多段階のタスクを達成できるフィードフォワードポリシーを生成する。 まず、非同期分散TAMPソルバを構築し、模倣学習に十分な速度で監視データを生成する。 そこで我々は,TAMPソルバを高速化するために部分的に訓練された制御ポリシを使用できる階層型ポリシーアーキテクチャを提案する。 7自由度制御のロボット操作タスクでは、部分的に訓練されたポリシーは計画に要する時間を最大2.6パーセント削減する。 これらのタスクのうち、robosuite 4-object pick-placeタスクを解決するポリシーをオブジェクトポーズ観察から88%、robodesk 9-goalベンチマークを79%、rgbイメージ(平均9つのタスク)から解決するポリシーを学習することができる。

While modern policy optimization methods can do complex manipulation from sensory data, they struggle on problems with extended time horizons and multiple sub-goals. On the other hand, task and motion planning (TAMP) methods scale to long horizons but they are computationally expensive and need to precisely track world state. We propose a method that draws on the strength of both methods: we train a policy to imitate a TAMP solver's output. This produces a feed-forward policy that can accomplish multi-step tasks from sensory data. First, we build an asynchronous distributed TAMP solver that can produce supervision data fast enough for imitation learning. Then, we propose a hierarchical policy architecture that lets us use partially trained control policies to speed up the TAMP solver. In robotic manipulation tasks with 7-DoF joint control, the partially trained policies reduce the time needed for planning by a factor of up to 2.6. Among these tasks, we can learn a policy that solves the RoboSuite 4-object pick-place task 88% of the time from object pose observations and a policy that solves the RoboDesk 9-goal benchmark 79% of the time from RGB images (averaged across the 9 disparate tasks).
翻訳日:2021-12-08 14:31:47 公開日:2021-12-06
# 画像変換を使ってネットワーク構造を学ぶ

Using Image Transformations to Learn Network Structure ( http://arxiv.org/abs/2112.03419v1 )

ライセンス: Link先を確認
Brayan Ortiz and Amitabh Sinha(参考訳) 多くの学習タスクでは、一連の画像を観察し、意思決定する必要がある。 ノード間の配送ボックスを設計・計画する輸送問題において、ノード間のネットワークとそれらの間のフローを画像として扱う方法を示す。 これらの画像は統計的に要約できる有用な構造情報を持っている。 画像圧縮技術を用いて、地理的シグネチャと呼ばれる解釈可能な地理的情報を含む数値の集合まで画像を縮小する。 地理的シグネチャを用いて,将来的なネットワーク接続を推奨できるネットワーク構造を学習する。 本研究では,ネットワーク情報を事前情報として統計的に要約し,エージェントの確率的決定を補強するベイズ強化アルゴリズムを開発した。

Many learning tasks require observing a sequence of images and making a decision. In a transportation problem of designing and planning for shipping boxes between nodes, we show how to treat the network of nodes and the flows between them as images. These images have useful structural information that can be statistically summarized. Using image compression techniques, we reduce an image down to a set of numbers that contain interpretable geographic information that we call geographic signatures. Using geographic signatures, we learn network structure that can be utilized to recommend future network connectivity. We develop a Bayesian reinforcement algorithm that takes advantage of statistically summarized network information as priors and user-decisions to reinforce an agent's probabilistic decision.
翻訳日:2021-12-08 14:29:23 公開日:2021-12-06
# 強化学習と模倣学習を組み合わせた教師付きおよび半教師付きアプローチによる臓器局在

Organ localisation using supervised and semi supervised approaches combining reinforcement learning with imitation learning ( http://arxiv.org/abs/2112.03276v1 )

ライセンス: Link先を確認
Sankaran Iyer, Alan Blair, Laughlin Dawes, Daniel Moses, Christopher White and Arcot Sowmya(参考訳) コンピュータ支援診断は、しばしば放射線検査における関心領域(ROI)の分析を必要とし、ROIは臓器またはサブオーガニゼーションである。 ディープラーニングアルゴリズムは、他の手法よりも優れているが、大量の注釈付きデータの可用性に依存している。 この制限に対処する必要性から、教師付きおよび半教師付き学習に基づく複数の臓器の局所化と検出へのアプローチが提示される。 これは、CT画像における胸椎と腰椎の領域のローカライズに関する著者による以前の研究に基づいている。 この方法では、6つの臓器のバウンディングボックスを生成し、それを1つのバウンディングボックスに融合する。 教師付きおよび半教師付き学習(SSL)を用いたCT画像における脾・左・右腎臓の局所化実験の結果、他の最先端手法と比較して、はるかに小さなデータセットと少ないアノテーションでデータ制限に対処できることが示されている。 SSL性能は, 腰椎, 脾, 右腎の3種類のラベル付きデータ(例:30:70,35:65,40:60)を用いて評価した。 その結果、SSLは特に注釈付きデータを得るのが難しい医療画像において、有効な代替手段であることがわかった。

Computer aided diagnostics often requires analysis of a region of interest (ROI) within a radiology scan, and the ROI may be an organ or a suborgan. Although deep learning algorithms have the ability to outperform other methods, they rely on the availability of a large amount of annotated data. Motivated by the need to address this limitation, an approach to localisation and detection of multiple organs based on supervised and semi-supervised learning is presented here. It draws upon previous work by the authors on localising the thoracic and lumbar spine region in CT images. The method generates six bounding boxes of organs of interest, which are then fused to a single bounding box. The results of experiments on localisation of the Spleen, Left and Right Kidneys in CT Images using supervised and semi supervised learning (SSL) demonstrate the ability to address data limitations with a much smaller data set and fewer annotations, compared to other state-of-the-art methods. The SSL performance was evaluated using three different mixes of labelled and unlabelled data (i.e.30:70,35:65,40: 60) for each of lumbar spine, spleen left and right kidneys respectively. The results indicate that SSL provides a workable alternative especially in medical imaging where it is difficult to obtain annotated data.
翻訳日:2021-12-08 14:28:59 公開日:2021-12-06
# スパース入力からのニューラル・ラミアンス・フィールドの深い深さの事前推定

Dense Depth Priors for Neural Radiance Fields from Sparse Input Views ( http://arxiv.org/abs/2112.03288v1 )

ライセンス: Link先を確認
Barbara Roessle, Jonathan T. Barron, Ben Mildenhall, Pratul P. Srinivasan, Matthias Nie{\ss}ner(参考訳) ニューラルレイディアンスフィールド(NeRF)は、シーンをニューラル表現に符号化し、新しいビューのフォトリアリスティックレンダリングを可能にする。 しかし、RGB画像からの再構成に成功した場合、静的な条件下で撮影された多数の入力ビューが要求される。 本手法は,部屋全体の新しい視点を,桁違いに少ない画像から合成することを目的としている。 この目的のために、我々は、NeRF最適化を制約するために、深い深さの先行値を利用する。 まず、カメラのポーズを推定するために使用される動き(SfM)前処理ステップから自由に利用できるスパース深度データを利用する。 第二に、これらのスパース点を深度マップや不確実性推定に変換して、NeRF最適化の導出に使用する。 提案手法は,18枚以上の映像をシーン全体に適用して,挑戦的な屋内シーンにおけるデータ効率の高い新規ビュー合成を可能にする。

Neural radiance fields (NeRF) encode a scene into a neural representation that enables photo-realistic rendering of novel views. However, a successful reconstruction from RGB images requires a large number of input views taken under static conditions - typically up to a few hundred images for room-size scenes. Our method aims to synthesize novel views of whole rooms from an order of magnitude fewer images. To this end, we leverage dense depth priors in order to constrain the NeRF optimization. First, we take advantage of the sparse depth data that is freely available from the structure from motion (SfM) preprocessing step used to estimate camera poses. Second, we use depth completion to convert these sparse points into dense depth maps and uncertainty estimates, which are used to guide NeRF optimization. Our method enables data-efficient novel view synthesis on challenging indoor scenes, using as few as 18 images for an entire scene.
翻訳日:2021-12-08 14:23:34 公開日:2021-12-06
# スケルトンに基づく行動認識のためのグラフ畳み込みネットワークを用いた学習接続

Learning Connectivity with Graph Convolutional Networks for Skeleton-based Action Recognition ( http://arxiv.org/abs/2112.03328v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) グラフ畳み込みネットワーク(GCN)は、任意の非正規領域への畳み込み操作の一般化を目的とした新興分野である。 特に、空間領域で動作するGCNはスペクトルよりも優れた性能を示すが、その成功は入力グラフのトポロジーの定義方法に大きく依存する。 本稿では,グラフの位相的性質を学習するグラフ畳み込みネットワークのための新しい枠組みを提案する。 本手法の設計原理は,GCNにおける通常の畳み込みパラメータだけでなく,これらのグラフにおける最も関連するトポロジ的関係を伝達する変換基底も学習する制約対象関数の最適化に基づいている。 骨格に基づく行動認識の課題に対して行われた実験は,手作りのグラフ設計や関連する作業と比較して,提案手法の優位性を示している。

Learning graph convolutional networks (GCNs) is an emerging field which aims at generalizing convolutional operations to arbitrary non-regular domains. In particular, GCNs operating on spatial domains show superior performances compared to spectral ones, however their success is highly dependent on how the topology of input graphs is defined. In this paper, we introduce a novel framework for graph convolutional networks that learns the topological properties of graphs. The design principle of our method is based on the optimization of a constrained objective function which learns not only the usual convolutional parameters in GCNs but also a transformation basis that conveys the most relevant topological relationships in these graphs. Experiments conducted on the challenging task of skeleton-based action recognition shows the superiority of the proposed method compared to handcrafted graph design as well as the related work.
翻訳日:2021-12-08 14:23:19 公開日:2021-12-06
# 画像分類モデル研究に適した認知心理学における外挿枠組み

Extrapolation Frameworks in Cognitive Psychology Suitable for Study of Image Classification Models ( http://arxiv.org/abs/2112.03411v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh, Jessica A. Mollick(参考訳) 深層学習画像分類モデルの機能課題について検討し,画像分類に外挿機能が必要であることを示す。 これは、モデルが単に補間していると仮定する現在の理論から、深層学習を理解するために新しい理論が開発されなければならないことを示唆している。 トレーニングされたモデルにより画像から抽出された画素空間と特徴空間(トレーニング済み残留ニューラルネットワークの最後の隠蔽層における64次元特徴空間を含む)、およびウェーブレット/シャーレットによって抽出された特徴空間についても検討する。 これらすべての領域において、テストサンプルはトレーニングセットの凸殻の外側にかなり減少し、画像分類には外挿が必要となる。 深層学習文学とは対照的に、認知科学、心理学、神経科学では、外挿と学習はタンデムでしばしば研究される。 さらに、人間の視覚認知と行動の多くの側面が外挿を含むと報告されている。 本稿では,深層学習モデルの数学的研究のための新しい外挿フレームワークを提案する。 本フレームワークでは, トレーニングセットの凸内外挿(画素空間や特徴空間内)において外挿という用語を用いるが, トレーニングデータによって定義された特定の範囲内では, 認知科学における多くの研究で外挿が定義されているのと同様である。 我々は,外挿フレームワークが,その過剰パラメータ化やトレーニングレジーム,分散検出など,ディープラーニングに関するオープンリサーチ問題に対する新たな回答を提供することができることを述べる。 また、深層学習が単純なモデルよりも有利であると報告された学習タスクにおいて、外挿の程度は無視できる。

We study the functional task of deep learning image classification models and show that image classification requires extrapolation capabilities. This suggests that new theories have to be developed for the understanding of deep learning as the current theory assumes models are solely interpolating, leaving many questions about them unanswered. We investigate the pixel space and also the feature spaces extracted from images by trained models (in their hidden layers, including the 64-dimensional feature space in the last hidden layer of pre-trained residual neural networks), and also the feature space extracted by wavelets/shearlets. In all these domains, testing samples considerably fall outside the convex hull of training sets, and image classification requires extrapolation. In contrast to the deep learning literature, in cognitive science, psychology, and neuroscience, extrapolation and learning are often studied in tandem. Moreover, many aspects of human visual cognition and behavior are reported to involve extrapolation. We propose a novel extrapolation framework for the mathematical study of deep learning models. In our framework, we use the term extrapolation in this specific way of extrapolating outside the convex hull of training set (in the pixel space or feature space) but within the specific scope defined by the training data, the same way extrapolation is defined in many studies in cognitive science. We explain that our extrapolation framework can provide novel answers to open research problems about deep learning including their over-parameterizatio n, their training regime, out-of-distribution detection, etc. We also see that the extent of extrapolation is negligible in learning tasks where deep learning is reported to have no advantage over simple models.
翻訳日:2021-12-08 13:55:05 公開日:2021-12-06
# Noether Networks: メタラーニングで有用な保存量

Noether Networks: Meta-Learning Useful Conserved Quantities ( http://arxiv.org/abs/2112.03321v1 )

ライセンス: Link先を確認
Ferran Alet, Dylan Doblar, Allan Zhou, Joshua Tenenbaum, Kenji Kawaguchi, Chelsea Finn(参考訳) 機械学習(ML)の進歩は、データの可用性、計算資源、帰納バイアスの適切なエンコーディングの組み合わせに由来する。 有用なバイアスはしばしば、翻訳の等価性に依存する畳み込みネットワークのような予測問題における対称性を利用する。 これらの有用な対称性を自動的に発見することは、MLシステムの性能を大幅に向上させる可能性があるが、依然として課題である。 本研究では,逐次予測問題に着目し,ネーターの定理から着想を得て,帰納的バイアスを求める問題をメタラーニングに有用な量に削減する。 メタ学習型保存損失を予測関数内で最適化する新しいタイプのアーキテクチャであるNoether Networksを提案する。 理論的および実験的に、ネーターネットワークは予測品質を改善し、逐次問題における帰納バイアスを発見するための一般的な枠組みを提供する。

Progress in machine learning (ML) stems from a combination of data availability, computational resources, and an appropriate encoding of inductive biases. Useful biases often exploit symmetries in the prediction problem, such as convolutional networks relying on translation equivariance. Automatically discovering these useful symmetries holds the potential to greatly improve the performance of ML systems, but still remains a challenge. In this work, we focus on sequential prediction problems and take inspiration from Noether's theorem to reduce the problem of finding inductive biases to meta-learning useful conserved quantities. We propose Noether Networks: a new type of architecture where a meta-learned conservation loss is optimized inside the prediction function. We show, theoretically and experimentally, that Noether Networks improve prediction quality, providing a general framework for discovering inductive biases in sequential problems.
翻訳日:2021-12-08 13:50:05 公開日:2021-12-06
# Few-Shot分類のためのラベル幻覚

Label Hallucination for Few-Shot Classification ( http://arxiv.org/abs/2112.03340v1 )

ライセンス: Link先を確認
Yiren Jian, Lorenzo Torresani(参考訳) 少数のショット分類では、大きな注釈付きベースデータセットから学んだ知識を適応させ、新しい未知のクラスを認識する必要がある。 このようなシナリオでは、大きなデータセット上で高いキャパシティを持つネットワークを事前トレーニングし、いくつかの例でそれを微調整すると、過度なオーバーフィッティングが発生する。 同時に、大規模ラベル付きデータセットから学んだ"凍結"機能の上に単純な線形分類器をトレーニングしても、新しいクラスの特性にモデルを適応させることができず、効果的に不適合を引き起こす。 本稿では,これら2つの戦略の代替手法を提案する。 まず,新しいクラスでトレーニングされた線形分類器を用いて,大規模データセット全体を擬似ラベルする。 これは、ベースデータベースに新しいカテゴリが存在していないにもかかわらず、大規模なデータセットにおける新しいクラスを効果的に「幻滅する」。 そして、新しいデータセットの標準的なクロスエントロピー損失に加えて、疑似ラベル付きベースサンプルの蒸留損失でモデル全体を微調整する。 このステップは、新しいカテゴリ認識に有用な文脈的および外観的手がかりを認識するために効果的にネットワークを訓練するが、大規模なベースデータセット全体を使用すれば、数発の学習において固有のデータ共有問題を克服できる。 アプローチの単純さにもかかわらず、我々の手法は4つの確立された数ショット分類ベンチマークにおいて最先端の手法よりも優れていることを示す。

Few-shot classification requires adapting knowledge learned from a large annotated base dataset to recognize novel unseen classes, each represented by few labeled examples. In such a scenario, pretraining a network with high capacity on the large dataset and then finetuning it on the few examples causes severe overfitting. At the same time, training a simple linear classifier on top of "frozen" features learned from the large labeled dataset fails to adapt the model to the properties of the novel classes, effectively inducing underfitting. In this paper we propose an alternative approach to both of these two popular strategies. First, our method pseudo-labels the entire large dataset using the linear classifier trained on the novel classes. This effectively "hallucinates" the novel classes in the large dataset, despite the novel categories not being present in the base database (novel and base classes are disjoint). Then, it finetunes the entire model with a distillation loss on the pseudo-labeled base examples, in addition to the standard cross-entropy loss on the novel dataset. This step effectively trains the network to recognize contextual and appearance cues that are useful for the novel-category recognition but using the entire large-scale base dataset and thus overcoming the inherent data-scarcity problem of few-shot learning. Despite the simplicity of the approach, we show that that our method outperforms the state-of-the-art on four well-established few-shot classification benchmarks.
翻訳日:2021-12-08 13:49:51 公開日:2021-12-06
# 実生活画像からの拡張不変埋め込みの生成

Producing augmentation-invaria nt embeddings from real-life imagery ( http://arxiv.org/abs/2112.03415v1 )

ライセンス: Link先を確認
Sergio Manuel Papadakis and Sanjay Addicam(参考訳) 本稿では,実物画像から機能豊富な高次元埋め込み空間を作成するための効率的な方法を提案する。 生成された機能は、ソーシャルメディアに現れる現実のケースで使用される拡張とは独立して設計されている。 我々の手法は畳み込みニューラルネットワーク(CNN)を用いて埋め込み空間を生成する。 ArcFaceヘッドは、自動生成された拡張を使用してモデルをトレーニングするために使用された。 さらに、同じ意味情報を含む異なる組込みからアンサンブルを作成する方法、外部データセットを用いて結果の組込みを正規化する方法、arcfaceヘッドに多数のクラスを持つこれらのモデルの素早いトレーニングを実行する新しい方法を提案する。 このアプローチを使用することで、2021年のFacebook AI Image similarity Challenge: Descriptor Trackで2位を獲得しました。

This article presents an efficient way to produce feature-rich, high-dimensionality embedding spaces from real-life images. The features produced are designed to be independent from augmentations used in real-life cases which appear on social media. Our approach uses convolutional neural networks (CNN) to produce an embedding space. An ArcFace head was used to train the model by employing automatically produced augmentations. Additionally, we present a way to make an ensemble out of different embeddings containing the same semantic information, a way to normalize the resulting embedding using an external dataset, and a novel way to perform quick training of these models with a high number of classes in the ArcFace head. Using this approach we achieved the 2nd place in the 2021 Facebook AI Image Similarity Challenge: Descriptor Track.
翻訳日:2021-12-08 13:32:25 公開日:2021-12-06
# 多変量時系列モデリングのための動的グラフ学習ニューラルネットワーク

Dynamic Graph Learning-Neural Network for Multivariate Time Series Modeling ( http://arxiv.org/abs/2112.03273v1 )

ライセンス: Link先を確認
Zhuoling Li, Gaowei Zhang, Lingyu Xu and Jie Yu(参考訳) 多変量時系列予測は、データが長期パターンと短期パターンの混合と変数間の動的時空間依存性を含むため、難しい課題である。 既存のグラフニューラルネットワーク(gnn)は通常、予め定義された空間グラフや学習された固定隣接グラフと多変量関係をモデル化する。 これはGNNの適用を制限し、上記の課題に対処できない。 本稿では,静的および動的グラフ学習ニューラルネットワーク(SDGL)という新しいフレームワークを提案する。 モデルは、それぞれデータから静的および動的グラフ行列を取得し、長期パターンおよび短期パターンをモデル化する。 静的マトリクスはノード埋め込みによって固定された長期関連パターンをキャプチャするために開発され、学習した静的グラフの品質を制御するためにグラフ規則性を利用する。 変数間の動的依存を捉えるために,ノードの特徴や静的なノード埋め込みに基づいて時間変化行列を生成する動的グラフ学習法を提案する。 提案手法では,学習した静的グラフ情報を帰納バイアスとして統合し,動的グラフと局所時空間パターンをよりよく構築する。 2つの交通データに付加的な構造情報と4つの時系列データセットを用いて大規模な実験を行い、我々の手法がほぼ全てのデータセットで最先端のパフォーマンスを達成することを示す。 論文が受け入れられたら、github.comでソースコードを公開します。

Multivariate time series forecasting is a challenging task because the data involves a mixture of long- and short-term patterns, with dynamic spatio-temporal dependencies among variables. Existing graph neural networks (GNN) typically model multivariate relationships with a pre-defined spatial graph or learned fixed adjacency graph. It limits the application of GNN and fails to handle the above challenges. In this paper, we propose a novel framework, namely static- and dynamic-graph learning-neural network (SDGL). The model acquires static and dynamic graph matrices from data to model long- and short-term patterns respectively. Static matric is developed to capture the fixed long-term association pattern via node embeddings, and we leverage graph regularity for controlling the quality of the learned static graph. To capture dynamic dependencies among variables, we propose dynamic graphs learning method to generate time-varying matrices based on changing node features and static node embeddings. And in the method, we integrate the learned static graph information as inductive bias to construct dynamic graphs and local spatio-temporal patterns better. Extensive experiments are conducted on two traffic datasets with extra structural information and four time series datasets, which show that our approach achieves state-of-the-art performance on almost all datasets. If the paper is accepted, I will open the source code on github.
翻訳日:2021-12-08 13:31:24 公開日:2021-12-06
# 深層学習に基づく画像分割と医療ワークフローのより信頼性の高い統合のための品質管理

Quality control for more reliable integration of deep learning-based image segmentation into medical workflows ( http://arxiv.org/abs/2112.03277v1 )

ライセンス: Link先を確認
Elena Williams, Sebastian Niehaus, Janis Reinelt, Alberto Merola, Paul Glad Mihai, Ingo Roeder, Nico Scherf, Maria del C. Vald\'es Hern\'andez(参考訳) 機械学習アルゴリズムは、特に放射線学において臨床的に有用であることが証明された現代の診断支援ソフトウェアを支える。 しかし、主に、これらのアルゴリズムを訓練するための臨床サンプルが不足しているため、その適用性、受容性、および臨床医の認識を妨げている。 本稿では,これらのアルゴリズムに実装可能な最先端自動品質制御(qc)手法の解析を行い,出力の確実性を評価する。 磁気共鳴画像データにおいて,脳画像分割タスクにおいて最も有望なホワイトマターハイパーインテンシティ(wmh)同定手法を検証した。 WMHは、中期から後期の成人に共通する小血管疾患の相関であり、サイズや分布パターンが多様であることから、特にセグメント化が困難である。 その結果,不確かさとサイコロ予測の集約は,このタスクの故障検出に最も有効であった。 どちらの方法も平均Diceを0.82から0.84に改善した。 本研究は,qc法が故障した分節症例の検出にどのように役立つかを明らかにし,臨床に適合する自動分節法をより信頼性の高いものにした。

Machine learning algorithms underpin modern diagnostic-aiding software, which has proved valuable in clinical practice, particularly in radiology. However, inaccuracies, mainly due to the limited availability of clinical samples for training these algorithms, hamper their wider applicability, acceptance, and recognition amongst clinicians. We present an analysis of state-of-the-art automatic quality control (QC) approaches that can be implemented within these algorithms to estimate the certainty of their outputs. We validated the most promising approaches on a brain image segmentation task identifying white matter hyperintensities (WMH) in magnetic resonance imaging data. WMH are a correlate of small vessel disease common in mid-to-late adulthood and are particularly challenging to segment due to their varied size, and distributional patterns. Our results show that the aggregation of uncertainty and Dice prediction were most effective in failure detection for this task. Both methods independently improved mean Dice from 0.82 to 0.84. Our work reveals how QC methods can help to detect failed segmentation cases and therefore make automatic segmentation more reliable and suitable for clinical practice.
翻訳日:2021-12-08 13:15:04 公開日:2021-12-06
# (参考訳) フーリエ変換と機械学習を用いた顔表情の特徴と検出 [全文訳有]

Facial Emotion Characterization and Detection using Fourier Transform and Machine Learning ( http://arxiv.org/abs/2112.02729v1 )

ライセンス: CC BY 4.0
Aishwarya Gouru, Shan Suthaharan(参考訳) 本稿では,顔の感情を特徴付ける機械学習手法を提案する。 顔の感情を分類する機械学習(ml)モデルの開発における主な課題は、トレーニングサンプルのセットから正確な感情的特徴の検出と、有意義な特徴空間の構築とmlモデルの構築のための特徴ベクトルの生成である。 本稿では,周波数領域に感情的特徴が隠されていると仮定するので,周波数領域とマスキング技術を活用して捉えることができる。 また、顔の感情が通常の顔特徴や他の感情的特徴と畳み合わさっているという予想も用いているが、線形に分離可能な空間的周波数(計算的感情的周波数と呼ぶ)を持つ。 そこで本研究では,高速フーリエ変換 (fft) と矩形狭帯域周波数カーネル,およびyale-faces画像データセットを用いた手法を提案する。 本研究では, ランダムフォレスト (RF) と人工ニューラルネットワーク (ANN) 分類器のパフォーマンススコアを用いて, 捕獲した感情周波数の有効性を検証する手法として仮説を検証した。 提案手法によって得られた計算的感情周波数は, rf と ann が平均93%以上の高精度スコアを得るのに役立つ有意義な感情的特徴を与える。

We present a Fourier-based machine learning technique that characterizes and detects facial emotions. The main challenging task in the development of machine learning (ML) models for classifying facial emotions is the detection of accurate emotional features from a set of training samples, and the generation of feature vectors for constructing a meaningful feature space and building ML models. In this paper, we hypothesis that the emotional features are hidden in the frequency domain; hence, they can be captured by leveraging the frequency domain and masking techniques. We also make use of the conjecture that a facial emotions are convoluted with the normal facial features and the other emotional features; however, they carry linearly separable spatial frequencies (we call computational emotional frequencies). Hence, we propose a technique by leveraging fast Fourier transform (FFT) and rectangular narrow-band frequency kernels, and the widely used Yale-Faces image dataset. We test the hypothesis using the performance scores of the random forest (RF) and the artificial neural network (ANN) classifiers as the measures to validate the effectiveness of the captured emotional frequencies. Our finding is that the computational emotional frequencies discovered by the proposed approach provides meaningful emotional features that help RF and ANN achieve a high precision scores above 93%, on average.
翻訳日:2021-12-08 08:10:29 公開日:2021-12-06
# (参考訳) 視覚感覚・回避のための衝突コースにおける固定翼航空機のデータセット [全文訳有]

A Dataset of Stationary, Fixed-wing Aircraft on a Collision Course for Vision-Based Sense and Avoid ( http://arxiv.org/abs/2112.02735v1 )

ライセンス: CC BY 4.0
Jasmin Martin, Jenna Riseley and Jason J. Ford(参考訳) 無人航空機(UAV)の新興グローバル市場は、2026年までに584億米ドルに達すると予想され、既存の安全レベルを損なわないように、定期的なUAVの運用を国家の空域に安全に統合するための重要な取り組みを引き起こした。 UAVの商業的利用は、潜在的な空中衝突の脅威を検知し回避する能力によって強化されるが、この分野での研究は、高価で技術的に複雑であるため、利用可能なデータセットの不足によって妨げられる。 本稿では,視覚に基づく航空機検出のためのデータセットを提案する。 このデータセットは、静止した地上カメラに近づく固定翼機の55,521枚の画像を含む15の画像シーケンスで構成されている。 ground truthラベルとパフォーマンスベンチマークも提供されている。 我々の知る限り、これは観測者との衝突コースで中型固定翼機を研究するための最初の公開データセットである。 データセットと地上の真実ラベルはhttps://qcr.github.i o/dataset/aircraft-c ollision-course/で公開されている。

The emerging global market for unmanned aerial vehicle (UAV) services is anticipated to reach USD 58.4 billion by 2026, spurring significant efforts to safely integrate routine UAV operations into the national airspace in a manner that they do not compromise the existing safety levels. The commercial use of UAVs would be enhanced by an ability to sense and avoid potential mid-air collision threats however research in this field is hindered by the lack of available datasets as they are expensive and technically complex to capture. In this paper we present a dataset for vision based aircraft detection. The dataset consists of 15 image sequences containing 55,521 images of a fixed-wing aircraft approaching a stationary, grounded camera. Ground truth labels and a performance benchmark are also provided. To our knowledge, this is the first public dataset for studying medium sized, fixed-wing aircraft on a collision course with the observer. The full dataset and ground truth labels are publicly available at https://qcr.github.i o/dataset/aircraft-c ollision-course/.
翻訳日:2021-12-08 08:01:58 公開日:2021-12-06
# (参考訳) 意識不自由:戦略エージェントを用いたグループフェア分類

Unfairness Despite Awareness: Group-Fair Classification with Strategic Agents ( http://arxiv.org/abs/2112.02746v1 )

ライセンス: CC BY 4.0
Andrew Estornell, Sanmay Das, Yang Liu, Yevgeniy Vorobeychik(参考訳) 人々の経済的、社会的、政治的幸福に影響を与える領域におけるアルゴリズムによる意思決定システムの使用は、この決定システムは、一部の受け入れられた株式概念の下で「公正」であるように要求する。 この需要は、従来の学習アルゴリズムの代わりに使われる公正学習アルゴリズムの開発に焦点をあてた多くの作業にインスピレーションを与えている。 このような公平なアルゴリズムのほとんどの分析は、アルゴリズム決定によって影響を受ける人々は不変な特徴ベクトルとして表現されるという仮定から進行する。 しかし、戦略エージェントは、より好ましい結果を得るために、観測された特徴ベクトルを操作する能力とインセンティブの両方を持っているかもしれない。 戦略エージェントの振る舞いが公平な分類者や導出条件に与える影響について検討し、公正な分類者が公平さを考慮に入れているのと同じ公平さの尺度の下で、公正な分類者の方が従来のものよりも公平ではないことを示す。 これらの条件は、公正分類器が元の非操作データに対して不公平を是正する方法と関係している: 公正分類器は、従来の分類器よりも選択的になり不公平さを是正する。 さらに,従来の分類器の判断境界付近(及び有益側)において,有利な集団が過剰に表現されている領域に対して公平な学習を行うと,フェア分類器の選択性が増大し,その結果フェアネスの喪失が生じることを実証する。 最後に,いくつかのデータセットと学習法を用いて,このフェアネス反転が一般的であること,また,フェアネス反転条件の理論的特徴付けが,そのほとんどにおいて有効であることを実験的に観察した。

The use of algorithmic decision making systems in domains which impact the financial, social, and political well-being of people has created a demand for these decision making systems to be "fair" under some accepted notion of equity. This demand has in turn inspired a large body of work focused on the development of fair learning algorithms which are then used in lieu of their conventional counterparts. Most analysis of such fair algorithms proceeds from the assumption that the people affected by the algorithmic decisions are represented as immutable feature vectors. However, strategic agents may possess both the ability and the incentive to manipulate this observed feature vector in order to attain a more favorable outcome. We explore the impact that strategic agent behavior could have on fair classifiers and derive conditions under which this behavior leads to fair classifiers becoming less fair than their conventional counterparts under the same measure of fairness that the fair classifier takes into account. These conditions are related to the the way in which the fair classifier remedies unfairness on the original unmanipulated data: fair classifiers which remedy unfairness by becoming more selective than their conventional counterparts are the ones that become less fair than their counterparts when agents are strategic. We further demonstrate that both the increased selectiveness of the fair classifier, and consequently the loss of fairness, arises when performing fair learning on domains in which the advantaged group is overrepresented in the region near (and on the beneficial side of) the decision boundary of conventional classifiers. Finally, we observe experimentally, using several datasets and learning methods, that this fairness reversal is common, and that our theoretical characterization of the fairness reversal conditions indeed holds in most such cases.
翻訳日:2021-12-08 07:52:39 公開日:2021-12-06
# (参考訳) 鳥のAI専門家があなたと私のために働くようにする [全文訳有]

Making a Bird AI Expert Work for You and Me ( http://arxiv.org/abs/2112.02747v1 )

ライセンス: CC BY 4.0
Dongliang Chang, Kaiyue Pang, Ruoyi Du, Zhanyu Ma, Yi-Zhe Song, Jun Guo(参考訳) きめ細かい視覚分類(FGVC)と同じくらい強力で、"Whip-poor-will"や"Mallard"といった鳥の名前のクエリに応答しても、おそらくあまり意味がないでしょう。 これは文献で一般的に受け入れられているが、AIと人間の対面する根本的な疑問が根底にある。 本稿では,FGVCをテストベッドとして利用して,この疑問に答える。 具体的には、トレーニングされたFGVCモデル(AI専門家)が、平均的な人々(あなたと私)がより優れたドメインエキスパートになることを可能にするための、知識提供者として機能するシナリオ、すなわち、"Whip-poor-will"と"Mallard"を区別する能力を持つことを考えます。 第1図 この問題に対する我々のアプローチを概説する。 専門家のラベルを使って訓練されたAI専門家に聞く (i)AIから抽出できる最良の伝達可能な知識とは何か、 (二)その知識を踏まえて専門知識の利得を測る最も実践的な手段は何か。 前者では,知識を高度に識別可能な視覚領域として表現することを提案する。 そこで我々は,ドメインエキスパートと初心者の視覚的注意をモデル化し,その違いを識別的に蒸留して専門的な専門知識を取得するための多段階学習フレームワークを考案した。 後者については,評価過程を書籍ガイドとしてシミュレートし,人間が慣れ親しんだことの学習実践を最善に適応させる。 1万5千回に及ぶ総合的な人間実験の結果,渡り鳥の専門知識を一貫して向上させ,一度しか認識できない鳥を識別できることが判明した。 また,本手法は,抽出した知識を識別的局所化を実現する手段として利用することにより,従来のFGVCの性能を向上させる。 https://github.com/P RIS-CV/Making-a-Bird -AI-Expert-Work-for- You-and-Me

As powerful as fine-grained visual classification (FGVC) is, responding your query with a bird name of "Whip-poor-will" or "Mallard" probably does not make much sense. This however commonly accepted in the literature, underlines a fundamental question interfacing AI and human -- what constitutes transferable knowledge for human to learn from AI? This paper sets out to answer this very question using FGVC as a test bed. Specifically, we envisage a scenario where a trained FGVC model (the AI expert) functions as a knowledge provider in enabling average people (you and me) to become better domain experts ourselves, i.e. those capable in distinguishing between "Whip-poor-will" and "Mallard". Fig. 1 lays out our approach in answering this question. Assuming an AI expert trained using expert human labels, we ask (i) what is the best transferable knowledge we can extract from AI, and (ii) what is the most practical means to measure the gains in expertise given that knowledge? On the former, we propose to represent knowledge as highly discriminative visual regions that are expert-exclusive. For that, we devise a multi-stage learning framework, which starts with modelling visual attention of domain experts and novices before discriminatively distilling their differences to acquire the expert exclusive knowledge. For the latter, we simulate the evaluation process as book guide to best accommodate the learning practice of what is accustomed to humans. A comprehensive human study of 15,000 trials shows our method is able to consistently improve people of divergent bird expertise to recognise once unrecognisable birds. Interestingly, our approach also leads to improved conventional FGVC performance when the extracted knowledge defined is utilised as means to achieve discriminative localisation. Codes are available at: https://github.com/P RIS-CV/Making-a-Bird -AI-Expert-Work-for- You-and-Me
翻訳日:2021-12-08 07:51:24 公開日:2021-12-06
# (参考訳) bcd nets: ベイズ因果発見のためのスケーラブルな変分法 [全文訳有]

BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery ( http://arxiv.org/abs/2112.02761v1 )

ライセンス: CC BY-SA 4.0
Chris Cundy and Aditya Grover and Stefano Ermon(参考訳) 構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。 近年の進歩により、観測データからDAGの有効最大線量推定が可能となった。 しかし、点推定は、実際のシナリオにおいて基礎となるグラフを推測する際の不確実性を正確に把握することができない。 線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分推論フレームワークであるベイズ因果探索ネット (BCD Nets) を提案する。 DAG 上の完全なベイズ的後部の開発は、グラフの離散的かつ組合せ的性質のために困難である。 私たちはDAGよりもスケーラブルなVIの主要な設計選択を分析します。 1)表現的変動族によるDAGのパラメトリゼーション 2)低分散確率最適化を可能にする連続緩和、及び 3) 潜在変数に対する適切な事前設定。 我々は,BCDネットが低データレシエーションにおける構造ハミング距離などの標準的な因果発見指標において,最大ライクな手法より優れていることを示す実データおよび合成データに関する一連の実験を行った。

A structural equation model (SEM) is an effective framework to reason over causal relationships represented via a directed acyclic graph (DAG). Recent advances have enabled effective maximum-likelihood point estimation of DAGs from observational data. However, a point estimate may not accurately capture the uncertainty in inferring the underlying graph in practical scenarios, wherein the true DAG is non-identifiable and/or the observed dataset is limited. We propose Bayesian Causal Discovery Nets (BCD Nets), a variational inference framework for estimating a distribution over DAGs characterizing a linear-Gaussian SEM. Developing a full Bayesian posterior over DAGs is challenging due to the the discrete and combinatorial nature of graphs. We analyse key design choices for scalable VI over DAGs, such as 1) the parametrization of DAGs via an expressive variational family, 2) a continuous relaxation that enables low-variance stochastic optimization, and 3) suitable priors over the latent variables. We provide a series of experiments on real and synthetic data showing that BCD Nets outperform maximum-likelihood methods on standard causal discovery metrics such as structural Hamming distance in low data regimes.
翻訳日:2021-12-08 07:34:53 公開日:2021-12-06
# (参考訳) テクスチャリニューアル : 高速かつユニバーサルなインタラクティブテクスチャ転送を目指して [全文訳有]

Texture Reformer: Towards Fast and Universal Interactive Texture Transfer ( http://arxiv.org/abs/2112.02788v1 )

ライセンス: CC BY 4.0
Zhizhong Wang, Lei Zhao, Haibo Chen, Ailin Li, Zhiwen Zuo, Wei Xing, Dongming Lu(参考訳) 本稿では,対話型テクスチャ転送のための高速で普遍的なニューラルネットワークフレームワークであるテクスチャリフォームについて述べる。 課題は3つの側面にあります 1)タスクの多様性。 2)案内地図の単純さ,および 3) 実行効率。 これらの課題に対処するために,我々は,i)グローバルビュー構造アライメントステージ,ii)ローカルビューテクスチャリファインメントステージ,iii)コヒーレントな構造と微細なテクスチャディテールで高品質な結果を合成する全体論的効果強化ステージからなる,新しいフィードフォワード・マルチビュー・マルチステージ合成手法を提案する。 さらに、より正確な意味誘導と構造保存のテクスチャ転送を実現するために、新しいセマンティックマップガイダンス戦略を備えた学習不要なビュー固有テクスチャ修正(VSTR)操作を導入する。 様々なアプリケーションシナリオの実験結果は、我々のフレームワークの有効性と優位性を示している。 そして、最先端のインタラクティブテクスチャ転送アルゴリズムと比較すると、高品質な結果を得るだけでなく、2~5桁の高速化を実現している。 コードはhttps://github.com/E ndyWon/Texture-Refor merで入手できる。

In this paper, we present the texture reformer, a fast and universal neural-based framework for interactive texture transfer with user-specified guidance. The challenges lie in three aspects: 1) the diversity of tasks, 2) the simplicity of guidance maps, and 3) the execution efficiency. To address these challenges, our key idea is to use a novel feed-forward multi-view and multi-stage synthesis procedure consisting of I) a global view structure alignment stage, II) a local view texture refinement stage, and III) a holistic effect enhancement stage to synthesize high-quality results with coherent structures and fine texture details in a coarse-to-fine fashion. In addition, we also introduce a novel learning-free view-specific texture reformation (VSTR) operation with a new semantic map guidance strategy to achieve more accurate semantic-guided and structure-preserved texture transfer. The experimental results on a variety of application scenarios demonstrate the effectiveness and superiority of our framework. And compared with the state-of-the-art interactive texture transfer algorithms, it not only achieves higher quality results but, more remarkably, also is 2-5 orders of magnitude faster. Code is available at https://github.com/E ndyWon/Texture-Refor mer.
翻訳日:2021-12-08 07:07:57 公開日:2021-12-06
# (参考訳) 表現学習のための前方互換学習 [全文訳有]

Forward Compatible Training for Representation Learning ( http://arxiv.org/abs/2112.02805v1 )

ライセンス: CC BY 4.0
Vivek Ramanujan, Pavan Kumar Anasosalu Vasu, Ali Farhadi, Oncel Tuzel, Hadi Pouransari(参考訳) ビジュアル検索システムでは、埋め込みモデルを更新するには、各データに対する再計算が必要である。 この高価なプロセスはバックフィルと呼ばれる。 近年,後方互換性トレーニング(BCT)の概念が提案されている。 バックフィルのコストを避けるため、bctは新しいモデルのトレーニングを修正し、その表現を古いモデルと互換性を持たせる。 しかし、BCTは新しいモデルの性能を著しく損なう可能性がある。 本研究では,表現学習のための新しい学習パラダイムとして,前方互換学習(FCT)を提案する。 fctでは、古いモデルをトレーニングするとき、モデルの将来的な未知のバージョンの準備も行います。 モデルの今後の更新を容易にするサンプル毎の補助機能である学習側情報を提案する。 モデル互換性のための強力で柔軟なフレームワークを開発するために、サイド情報と古い組込みから新しい組込みへの前方変換を組み合わせる。 新しいモデルのトレーニングは変更されないため、その精度は劣化しない。 検索精度は,imagenet-1k (+18.1%), places-365 (+5.4%), vgg-face2 (+8.3%) など,様々なデータセットにおいてbctと比較して有意に向上した。 FCTは、新しいモデルと古いモデルが異なるデータセット、損失、アーキテクチャでトレーニングされたときにモデル互換性を得る。

In visual retrieval systems, updating the embedding model requires recomputing features for every piece of data. This expensive process is referred to as backfilling. Recently, the idea of backward compatible training (BCT) was proposed. To avoid the cost of backfilling, BCT modifies training of the new model to make its representations compatible with those of the old model. However, BCT can significantly hinder the performance of the new model. In this work, we propose a new learning paradigm for representation learning: forward compatible training (FCT). In FCT, when the old model is trained, we also prepare for a future unknown version of the model. We propose learning side-information, an auxiliary feature for each sample which facilitates future updates of the model. To develop a powerful and flexible framework for model compatibility, we combine side-information with a forward transformation from old to new embeddings. Training of the new model is not modified, hence, its accuracy is not degraded. We demonstrate significant retrieval accuracy improvement compared to BCT for various datasets: ImageNet-1k (+18.1%), Places-365 (+5.4%), and VGG-Face2 (+8.3%). FCT obtains model compatibility when the new and old models are trained across different datasets, losses, and architectures.
翻訳日:2021-12-08 06:47:32 公開日:2021-12-06
# (参考訳) mdpfuzzer: マルコフ決定過程を解決するモデルにおけるクラッシュトリガー状態シーケンスの発見 [全文訳有]

MDPFuzzer: Finding Crash-Triggering State Sequences in Models Solving the Markov Decision Process ( http://arxiv.org/abs/2112.02807v1 )

ライセンス: CC BY 4.0
Qi Pang, Yuanyuan Yuan, Shuai Wang(参考訳) マルコフ決定プロセス(markov decision process, mdp)は、逐次的な意思決定問題をモデル化するための数学的枠組みを提供する。 人工知能研究の急速な発展は、ディープニューラルネットワーク(DNN)、強化学習(RL)、模倣学習(IL)などのMDPを解決する効率的な方法を生み出している。 しかし、これらのMDPを解くための一般的なモデルは、徹底的にテストしたり、厳格に信頼できるものではない。 MDPを解くモデルのための最初のブラックボックスファジテストフレームワークであるMDPFuzzerを紹介する。 MDPFuzzerは、ターゲットモデルが異常かつ危険な状態に入るかどうかを確認することで、オークルをテストする。 ファジング中、MDPFuzzerは、累積報酬を減らしたり、新しい状態列を形成することができるかどうかを測定することで、どの変異状態を保持するかを決定する。 ガウス混合モデル(GMM)と動的期待最大化(DynEM)を用いて状態列の「フレッシュネス」を定量化する効率的な手法を設計する。 また,対象モデルの局所的感度を状態よりも推定することにより,クラッシュを顕在化する可能性の高い状態を優先する。 MDPFuzzerは、教師付きDNN、RL、IL、マルチエージェントRLを含む5つの最先端モデルで評価される。 我々の評価には、自律走行のシナリオ、航空機衝突回避、RLのベンチマークによく使用される2つのゲームが含まれる。 12時間実行中に、各モデルに80以上のクラッシュトリガ状態シーケンスが見られます。 クラッシュトリガー状態は正常に見えるものの、正常な状態と比較して異なるニューロンの活性化パターンを誘導する。 さらに,すべての評価モデルを強化し,mdpfuzzerの発見で修復し,精度を犠牲にすることなくロバスト性を大幅に向上させる異常動作検出器を開発した。

The Markov decision process (MDP) provides a mathematical framework for modeling sequential decision-making problems, many of which are crucial to security and safety, such as autonomous driving and robot control. The rapid development of artificial intelligence research has created efficient methods for solving MDPs, such as deep neural networks (DNNs), reinforcement learning (RL), and imitation learning (IL). However, these popular models for solving MDPs are neither thoroughly tested nor rigorously reliable. We present MDPFuzzer, the first blackbox fuzz testing framework for models solving MDPs. MDPFuzzer forms testing oracles by checking whether the target model enters abnormal and dangerous states. During fuzzing, MDPFuzzer decides which mutated state to retain by measuring if it can reduce cumulative rewards or form a new state sequence. We design efficient techniques to quantify the "freshness" of a state sequence using Gaussian mixture models (GMMs) and dynamic expectation-maximiza tion (DynEM). We also prioritize states with high potential of revealing crashes by estimating the local sensitivity of target models over states. MDPFuzzer is evaluated on five state-of-the-art models for solving MDPs, including supervised DNN, RL, IL, and multi-agent RL. Our evaluation includes scenarios of autonomous driving, aircraft collision avoidance, and two games that are often used to benchmark RL. During a 12-hour run, we find over 80 crash-triggering state sequences on each model. We show inspiring findings that crash-triggering states, though look normal, induce distinct neuron activation patterns compared with normal states. We further develop an abnormal behavior detector to harden all the evaluated models and repair them with the findings of MDPFuzzer to significantly enhance their robustness without sacrificing accuracy.
翻訳日:2021-12-08 06:27:59 公開日:2021-12-06
# (参考訳) タンパク質機能予測のためのGCNに基づく階層型多ラベル分類 [全文訳有]

An Effective GCN-based Hierarchical Multi-label classification for Protein Function Prediction ( http://arxiv.org/abs/2112.02810v1 )

ライセンス: CC BY 4.0
Kyudam Choi, Yurim Lee, Cheongwon Kim, Minsung Yoon(参考訳) 遺伝子オントロジー(GO)用語の階層的特徴を利用したタンパク質機能予測(PFP)の改善手法を提案する。 本手法は,タンパク質配列を符号化する言語モデルとGO項を表すグラフ畳み込みネットワーク(GCN)から構成される。 GOの階層構造をGCNに反映するために、階層情報全体を含むノード(GO項)ワイズ表現を用いる。 本アルゴリズムは,goグラフを従来モデルと比較して拡張することにより,大規模グラフの有効性を示す。 実験の結果,本手法は最先端のPFP手法よりも優れていた。

We propose an effective method to improve Protein Function Prediction (PFP) utilizing hierarchical features of Gene Ontology (GO) terms. Our method consists of a language model for encoding the protein sequence and a Graph Convolutional Network (GCN) for representing GO terms. To reflect the hierarchical structure of GO to GCN, we employ node(GO term)-wise representations containing the whole hierarchical information. Our algorithm shows effectiveness in a large-scale graph by expanding the GO graph compared to previous models. Experimental results show that our method outperformed state-of-the-art PFP approaches.
翻訳日:2021-12-08 06:02:05 公開日:2021-12-06
# (参考訳) mdpgt:運動量に基づく分散政策勾配追跡

MDPGT: Momentum-based Decentralized Policy Gradient Tracking ( http://arxiv.org/abs/2112.02813v1 )

ライセンス: CC BY 4.0
Zhanhong Jiang, Xian Yeow Lee, Sin Yong Tan, Kai Liang Tan, Aditya Balu, Young M. Lee, Chinmay Hegde, Soumik Sarkar(参考訳) 本稿では,2つの異なる分散還元手法を活用するマルチエージェント強化学習のためのポリシー勾配法を提案する。 具体的には, 局所的政策勾配を重要サンプリングで近似するために, 新たな運動量に基づく分散低減手法を用いた運動量ベースの分散政策勾配追跡 (mdpgt) を提案し, 中間パラメータを用いて2つの連続した政策勾配を追跡する。 さらに、mdpgtは、グローバル平均n$ローカルパフォーマンス関数(おそらく非コンケーブ)の$\epsilon$静止点に収束するための$\mathcal{o}(n^{-1}\epsilon^{-3})$の最適なサンプル複雑性を達成することができる。 これにより、分散モデルフリーの強化学習における最先端のサンプル複雑性を上回り、単一の軌道で初期化すると、サンプル複雑性は既存の分散ポリシー勾配法によって得られたものと一致する。 さらにガウス政策関数の理論的主張についても検証する。 必要となるエラートレランス$\epsilon$が十分小さい場合、MDPGTは線形スピードアップにつながる。 最後に,マルチエージェント強化学習ベンチマーク環境において実験結果を提供し,理論的な知見を裏付ける。

We propose a novel policy gradient method for multi-agent reinforcement learning, which leverages two different variance-reduction techniques and does not require large batches over iterations. Specifically, we propose a momentum-based decentralized policy gradient tracking (MDPGT) where a new momentum-based variance reduction technique is used to approximate the local policy gradient surrogate with importance sampling, and an intermediate parameter is adopted to track two consecutive policy gradient surrogates. Moreover, MDPGT provably achieves the best available sample complexity of $\mathcal{O}(N^{-1}\epsilon^{-3})$ for converging to an $\epsilon$-stationar y point of the global average of $N$ local performance functions (possibly nonconcave). This outperforms the state-of-the-art sample complexity in decentralized model-free reinforcement learning, and when initialized with a single trajectory, the sample complexity matches those obtained by the existing decentralized policy gradient methods. We further validate the theoretical claim for the Gaussian policy function. When the required error tolerance $\epsilon$ is small enough, MDPGT leads to a linear speed up, which has been previously established in decentralized stochastic optimization, but not for reinforcement learning. Lastly, we provide empirical results on a multi-agent reinforcement learning benchmark environment to support our theoretical findings.
翻訳日:2021-12-08 05:53:30 公開日:2021-12-06
# (参考訳) 低ショット物体検出のためのディープラーニングの検討 [全文訳有]

A Survey of Deep Learning for Low-Shot Object Detection ( http://arxiv.org/abs/2112.02814v1 )

ライセンス: CC BY 4.0
Qihan Huang, Haofei Zhang, Jie Song, Mingli Song(参考訳) 物体検出はコンピュータビジョンと画像処理の基本的な課題である。 現在のディープラーニングに基づくオブジェクト検出器は、豊富なラベル付きデータで非常に成功している。 しかし、実生活では、各オブジェクトカテゴリがトレーニングのために十分なラベル付きサンプルを持つことは保証されていない。 これらの大きな物体検出器は、トレーニングデータに制限がある場合、オーバーフィットしやすい。 したがって、低ショット物体検出と併せて命名できるオブジェクト検出に、少数ショット学習とゼロショット学習を導入する必要がある。 Low-Shot Object Detection (LSOD) は、少数のまたはゼロのラベル付きデータからオブジェクトを検出することを目的としており、これはそれぞれ、小ショットオブジェクト検出 (FSOD) とゼロショットオブジェクト検出 (ZSD) に分類できる。 本稿では,深層学習に基づくFSODとZSDの総合的な調査を行う。 まず、FSODとZSDの手法を異なるカテゴリに分類し、それらの長所と短所について考察する。 第2に, fsod と zsd のデータセットの設定と評価指標をレビューし, これらのベンチマークで異なる手法の性能を分析する。 最後に,FSODとZSDの今後の課題と今後の方向性について述べる。

Object detection is a fundamental task in computer vision and image processing. Current deep learning based object detectors have been highly successful with abundant labeled data. But in real life, it is not guaranteed that each object category has enough labeled samples for training. These large object detectors are easy to overfit when the training data is limited. Therefore, it is necessary to introduce few-shot learning and zero-shot learning into object detection, which can be named low-shot object detection together. Low-Shot Object Detection (LSOD) aims to detect objects from a few or even zero labeled data, which can be categorized into few-shot object detection (FSOD) and zero-shot object detection (ZSD), respectively. This paper conducts a comprehensive survey for deep learning based FSOD and ZSD. First, this survey classifies methods for FSOD and ZSD into different categories and discusses the pros and cons of them. Second, this survey reviews dataset settings and evaluation metrics for FSOD and ZSD, then analyzes the performance of different methods on these benchmarks. Finally, this survey discusses future challenges and promising directions for FSOD and ZSD.
翻訳日:2021-12-08 05:52:07 公開日:2021-12-06
# (参考訳) Clue Me In: アウト・オブ・ディストリビューションデータを備えた半スーパービジョンFGVC [全文訳有]

Clue Me In: Semi-Supervised FGVC with Out-of-Distribution Data ( http://arxiv.org/abs/2112.02825v1 )

ライセンス: CC BY 4.0
Ruoyi Du, Dongliang Chang, Zhanyu Ma, Yi-Zhe Song, Jun Guo(参考訳) 細粒度視覚分類(FGVC)に大きな進歩があるにもかかわらず、現在の手法は、多くの専門家のラベルが呼ばれる完全に教師されたパラダイムに大きく依存している。 ラベルのないデータから知識を得る半教師付き学習(SSL)技術は、かなり先進的な手段を提供し、粗大な問題に対する大きな期待を示している。 しかし、SSLパラダイムの離脱は、主に、FGVC上で再提案された際の有効性を阻害する非ラベル付きデータ(すなわち、カテゴリ整列データ)を前提としている。 本稿では, 半教師付きFGVCのための配電データ処理, すなわち「入出力」を目的とした新しい設計を提案する。 我々は、すべてのきめ細かい分類が自然に階層構造に従うという重要な仮定(例えば、全ての鳥類種をカバーする「Aves」の系統樹)に取り組む。 個々のサンプルを操作する代わりに、SSLの最適化目標として、このツリー構造内のサンプル関係を予測することができる。 さらに、これらの木構造によってもたらされる2つの戦略を導入し、サンプル間の一貫性の正則化と疑似関係の信頼性を実現する。 実験結果から明らかになりました 一 提案手法は、配当外データに対して良好な堅牢性を与え、 (ii)先行技術を備え、その性能を高めて最先端の成果が得られる。 コードはhttps://github.com/P RIS-CV/RelMatch.comで入手できる。

Despite great strides made on fine-grained visual classification (FGVC), current methods are still heavily reliant on fully-supervised paradigms where ample expert labels are called for. Semi-supervised learning (SSL) techniques, acquiring knowledge from unlabeled data, provide a considerable means forward and have shown great promise for coarse-grained problems. However, exiting SSL paradigms mostly assume in-distribution (i.e., category-aligned) unlabeled data, which hinders their effectiveness when re-proposed on FGVC. In this paper, we put forward a novel design specifically aimed at making out-of-distribution data work for semi-supervised FGVC, i.e., to "clue them in". We work off an important assumption that all fine-grained categories naturally follow a hierarchical structure (e.g., the phylogenetic tree of "Aves" that covers all bird species). It follows that, instead of operating on individual samples, we can instead predict sample relations within this tree structure as the optimization goal of SSL. Beyond this, we further introduced two strategies uniquely brought by these tree structures to achieve inter-sample consistency regularization and reliable pseudo-relation. Our experimental results reveal that (i) the proposed method yields good robustness against out-of-distribution data, and (ii) it can be equipped with prior arts, boosting their performance thus yielding state-of-the-art results. Code is available at https://github.com/P RIS-CV/RelMatch.
翻訳日:2021-12-08 05:16:16 公開日:2021-12-06
# (参考訳) 識別フィルタとシャムネットワークを用いた視覚物体追跡:調査と展望 [全文訳有]

Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook ( http://arxiv.org/abs/2112.02838v1 )

ライセンス: CC BY-SA 4.0
Sajid Javed, Martin Danelljan, Fahad Shahbaz Khan, Muhammad Haris Khan, Michael Felsberg, and Jiri Matas(参考訳) 正確で堅牢な視覚オブジェクト追跡は、最も困難で基本的なコンピュータビジョン問題の一つである。 それは、その初期位置とセグメンテーション、または境界ボックスの形での粗い近似のみを与えられた画像シーケンスにおける目標の軌跡の推定を伴う。 識別相関フィルタ (DCFs) とディープシームズネットワーク (SNs) が支配的な追跡パラダイムとして出現し, 顕著な進歩をもたらした。 過去10年間のビジュアルオブジェクト追跡の急速な進化に続いて、この調査は9つのトラッキングベンチマークの結果に基づいて、90以上のDCFとシームズトラッカーの体系的かつ徹底的なレビューを行う。 まず,dcf および siamese tracking core formula の背景理論について述べる。 そして,これら2つの追跡パラダイムにおいて,共有と具体的なオープンリサーチの課題を区別し,総合的にレビューする。 さらに,dcf と siamese トラッカーの性能を9つのベンチマークで徹底的に解析し,ビジュアルトラッキングの実験的な側面(データセット,評価指標,パフォーマンス,速度比較)をカバーした。 我々は,分析に基づいて,優れたオープン課題に対する推奨事項と提案を提示し,調査を終了する。

Accurate and robust visual object tracking is one of the most challenging and fundamental computer vision problems. It entails estimating the trajectory of the target in an image sequence, given only its initial location, and segmentation, or its rough approximation in the form of a bounding box. Discriminative Correlation Filters (DCFs) and deep Siamese Networks (SNs) have emerged as dominating tracking paradigms, which have led to significant progress. Following the rapid evolution of visual object tracking in the last decade, this survey presents a systematic and thorough review of more than 90 DCFs and Siamese trackers, based on results in nine tracking benchmarks. First, we present the background theory of both the DCF and Siamese tracking core formulations. Then, we distinguish and comprehensively review the shared as well as specific open research challenges in both these tracking paradigms. Furthermore, we thoroughly analyze the performance of DCF and Siamese trackers on nine benchmarks, covering different experimental aspects of visual tracking: datasets, evaluation metrics, performance, and speed comparisons. We finish the survey by presenting recommendations and suggestions for distinguished open challenges based on our analysis.
翻訳日:2021-12-08 05:01:01 公開日:2021-12-06
# (参考訳) getam:弱教師付きセマンティクスセグメンテーションのための勾配重み付け要素方向トランスフォーマーアテンションマップ [全文訳有]

GETAM: Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation ( http://arxiv.org/abs/2112.02841v1 )

ライセンス: CC BY 4.0
Weixuan Sun, Jing Zhang, Zheyuan Liu, Yiran Zhong, Nick Barnes(参考訳) 特に画像レベルのラベルを用いてピクセルレベルの予測を監督する場合、WSSS(Weakly Supervised Semantic Segmentation)は困難である。 ギャップを埋めるために、クラスアクティベーションマップ(CAM)は通常、ピクセルレベルの擬似ラベルを提供するために生成される。 畳み込みニューラルネットワークのCAMは部分活性化に悩まされ、最も識別性の高い領域のみが活性化される。 一方、トランスフォーマティブベースのメソッドは、長距離依存性モデリングによるグローバルコンテキストの探索に非常に効果的であり、"部分的アクティベーション"の問題を軽減する可能性がある。 本稿では、最初の変換器に基づくWSSSアプローチを提案し、グラディエント重み付き要素ワイドトランスフォーマー注意マップ(GETAM)を提案する。 GETAMはすべてのフィーチャーマップ要素に対して微細なアクティベーションを示し、トランスフォーマー層にまたがるオブジェクトの異なる部分を明らかにする。 さらに,高品質な擬似ラベルを生成するためのアクティベーション認識ラベル補完モジュールを提案する。 最後に、二重後方伝播を用いたwsssのエンド・ツー・エンドのフレームワークにメソッドを組み込む。 PASCAL VOCとCOCOの大規模な実験により、我々の研究結果は最先端のエンドツーエンドアプローチをかなり上回り、ほとんどのマルチステージ手法よりも優れています。

Weakly Supervised Semantic Segmentation (WSSS) is challenging, particularly when image-level labels are used to supervise pixel level prediction. To bridge their gap, a Class Activation Map (CAM) is usually generated to provide pixel level pseudo labels. CAMs in Convolutional Neural Networks suffer from partial activation ie, only the most discriminative regions are activated. Transformer based methods, on the other hand, are highly effective at exploring global context with long range dependency modeling, potentially alleviating the "partial activation" issue. In this paper, we propose the first transformer based WSSS approach, and introduce the Gradient weighted Element wise Transformer Attention Map (GETAM). GETAM shows fine scale activation for all feature map elements, revealing different parts of the object across transformer layers. Further, we propose an activation aware label completion module to generate high quality pseudo labels. Finally, we incorporate our methods into an end to end framework for WSSS using double backward propagation. Extensive experiments on PASCAL VOC and COCO demonstrate that our results beat the state-of-the-art end-to-end approaches by a significant margin, and outperform most multi-stage methods.m most multi-stage methods.
翻訳日:2021-12-08 04:05:21 公開日:2021-12-06
# (参考訳) 疎結合な協調的位置決めのための学習に基づく計測スケジューリング [全文訳有]

Learning-based Measurement Scheduling for Loosely-Coupled Cooperative Localization ( http://arxiv.org/abs/2112.02843v1 )

ライセンス: CC BY 4.0
Jianan Zhu and Solmaz S. Kia(参考訳) 協調的ローカライゼーションにおいて、コミュニケーションモバイルエージェントは、デッドレコニングに基づくグローバルローカライゼーションを改善するために、エージェント間相対測定を使用する。 測定スケジューリングにより、エージェントは利用可能なエージェント間相対測定のどのサブセットを、計算リソースが制限されたときに処理すべきかを決定できる。 最適測定スケジューリングはNPハード組合せ最適化問題である。 いわゆるシーケンシャルグリーディ(SG)アルゴリズムは、この問題に対する最適な多項式時間解法として人気がある。 しかしながら、sgアルゴリズムのメリット関数の評価には、すべてのランドマークエージェント(エージェントが測定を行うことのできるチーム)の状態推定ベクトルとエラー共分散行列へのアクセスが必要である。 本稿では、SGアルゴリズムのメリット関数のプロキシとしてニューラルネットワークに基づく代理モデルを用いて、SGアプローチに従ってCLの測定スケジューリングを行うが、通信コストと計算コストを低減させる。 このモデルの重要さは、ローカル情報によって駆動され、ランドマークエージェントからのスカラーメタデータのみである。 このソリューションは、SGアルゴリズムを実行する際の時間とメモリの複雑さを3つの方法で解決する。 (a)エージェント間通信メッセージサイズを縮小すること。 b) より単純なサロゲート(プロキシ)関数を用いて関数評価の複雑さを減少させる。 (c) 必要なメモリサイズを削減し、シミュレーションにより結果が示される。

In cooperative localization, communicating mobile agents use inter-agent relative measurements to improve their dead-reckoning-based global localization. Measurement scheduling enables an agent to decide which subset of available inter-agent relative measurements it should process when its computational resources are limited. Optimal measurement scheduling is an NP-hard combinatorial optimization problem. The so-called sequential greedy (SG) algorithm is a popular suboptimal polynomial-time solution for this problem. However, the merit function evaluation for the SG algorithms requires access to the state estimate vector and error covariance matrix of all the landmark agents (teammates that an agent can take measurements from). This paper proposes a measurement scheduling for CL that follows the SG approach but reduces the communication and computation cost by using a neural network-based surrogate model as a proxy for the SG algorithm's merit function. The significance of this model is that it is driven by local information and only a scalar metadata from the landmark agents. This solution addresses the time and memory complexity issues of running the SG algorithm in three ways: (a) reducing the inter-agent communication message size, (b) decreasing the complexity of function evaluations by using a simpler surrogate (proxy) function, (c) reducing the required memory size.Simulations demonstrate our results.
翻訳日:2021-12-08 03:44:14 公開日:2021-12-06
# (参考訳) 映像オブジェクトセグメンテーションのための信頼性伝搬補正 [全文訳有]

Reliable Propagation-Correcti on Modulation for Video Object Segmentation ( http://arxiv.org/abs/2112.02853v1 )

ライセンス: CC0 1.0
Xiaohao Xu, Jinglu Wang, Xiao Li, Yan Lu(参考訳) エラー伝搬は、オンラインの半教師付きビデオオブジェクトセグメンテーションにおいて一般的なが重要な問題である。 信頼性の高い補正機構により誤りの伝播を抑制することを目的とする。 鍵となる洞察は、従来のマスク伝播プロセスから、信頼できる手がかりで補正を外すことである。 本稿では,2つの変調器,伝搬変調器と補正変調器を導入し,それぞれに局所時間相関と信頼基準に基づいて,対象フレームの埋め込みに対してチャネルワイズ再校正を行う。 具体的には、変調器をカスケードした伝搬補正方式で組み立てる。 これにより、伝搬変調器による信頼できる補正変調器の影響を克服する。 ground truthラベル付き参照フレームは信頼できる手がかりを提供するが、ターゲットフレームとは大きく異なり、不確かまたは不完全な相関をもたらす可能性がある。 我々は、信頼できる特徴パッチを保守プールに補足することで参照キューを強化し、より包括的で表現力のあるオブジェクト表現をモジュレータに提供します。 さらに、信頼性フィルタは信頼できるパッチを取得し、それに続くフレームに渡すように設計されている。 本モデルでは,YouTube-VOS18/19およびDAVIS17-Val/Testベンチマークを用いて,最先端のパフォーマンスを実現する。 広範な実験により、この補正機構は信頼性の高いガイダンスを十分に活用することでかなりの性能向上をもたらすことが示されている。 コードはhttps://github.com/j erryx1110/rpcmvos。

Error propagation is a general but crucial problem in online semi-supervised video object segmentation. We aim to suppress error propagation through a correction mechanism with high reliability. The key insight is to disentangle the correction from the conventional mask propagation process with reliable cues. We introduce two modulators, propagation and correction modulators, to separately perform channel-wise re-calibration on the target frame embeddings according to local temporal correlations and reliable references respectively. Specifically, we assemble the modulators with a cascaded propagation-correcti on scheme. This avoids overriding the effects of the reliable correction modulator by the propagation modulator. Although the reference frame with the ground truth label provides reliable cues, it could be very different from the target frame and introduce uncertain or incomplete correlations. We augment the reference cues by supplementing reliable feature patches to a maintained pool, thus offering more comprehensive and expressive object representations to the modulators. In addition, a reliability filter is designed to retrieve reliable patches and pass them in subsequent frames. Our model achieves state-of-the-art performance on YouTube-VOS18/19 and DAVIS17-Val/Test benchmarks. Extensive experiments demonstrate that the correction mechanism provides considerable performance gain by fully utilizing reliable guidance. Code is available at: https://github.com/J erryX1110/RPCMVOS.
翻訳日:2021-12-08 03:30:17 公開日:2021-12-06
# (参考訳) PRNU抽出におけるCNN denoisersの比較研究 [全文訳有]

A comparison study of CNN denoisers on PRNU extraction ( http://arxiv.org/abs/2112.02858v1 )

ライセンス: CC BY 4.0
Hui Zeng, Morteza Darvish Morshedi Hosseini, Kang Deng, Anjie Peng, Miroslav Goljan(参考訳) センサベースカメラ識別(SCI)法の性能は,光応答非均一性(PRNU)の推定におけるデノナイジングフィルタに大きく依存している。 抽出したPRNUの品質向上のための様々な試みを考えると、低解像度画像における不満足な性能と高い計算要求に悩まされている。 PRNU推定と画像復調の類似性を生かして,畳み込みニューラルネットワーク(CNN)を用いたPRNU抽出の最新の成果を活用する。 本稿では,一般の「ドレスデン画像データベース」上で,これらのCNNによるSCI性能の比較評価を行った。 私たちの発見は2倍です。 1つの側面から、PRNU抽出と画像復調の両方で、画像内容からノイズを分離する。 したがって、SCIは慎重に訓練すれば、最近のCNNのデノイザーの恩恵を受けることができる。 別の側面では、ノイズの品質を最適化し、一方が画質を最適化するため、PRNU抽出と画像デノイングの目標とシナリオが異なる。 PRNU推定にCNN denoiserを使用する場合には、慎重に調整されたトレーニングが必要である。 学習データ作成と損失関数設計の代替戦略を理論的に分析し,実験的に評価した。 我々は,CNNをイメージ-PRNUペアで供給し,相関に基づく損失関数でトレーニングすることで,PRNU推定性能が最高のことを指摘した。 SCIのさらなる研究を容易にするために,PNG形式で指紋を画像ファイルとして保存する最小損失カメラ指紋量子化方式を提案する。 さらに,"Dresden Image Database"から,カメラの定量化指紋を公開する。

Performance of the sensor-based camera identification (SCI) method heavily relies on the denoising filter in estimating Photo-Response Non-Uniformity (PRNU). Given various attempts on enhancing the quality of the extracted PRNU, it still suffers from unsatisfactory performance in low-resolution images and high computational demand. Leveraging the similarity of PRNU estimation and image denoising, we take advantage of the latest achievements of Convolutional Neural Network (CNN)-based denoisers for PRNU extraction. In this paper, a comparative evaluation of such CNN denoisers on SCI performance is carried out on the public "Dresden Image Database". Our findings are two-fold. From one aspect, both the PRNU extraction and image denoising separate noise from the image content. Hence, SCI can benefit from the recent CNN denoisers if carefully trained. From another aspect, the goals and the scenarios of PRNU extraction and image denoising are different since one optimizes the quality of noise and the other optimizes the image quality. A carefully tailored training is needed when CNN denoisers are used for PRNU estimation. Alternative strategies of training data preparation and loss function design are analyzed theoretically and evaluated experimentally. We point out that feeding the CNNs with image-PRNU pairs and training them with correlation-based loss function result in the best PRNU estimation performance. To facilitate further studies of SCI, we also propose a minimum-loss camera fingerprint quantization scheme using which we save the fingerprints as image files in PNG format. Furthermore, we make the quantized fingerprints of the cameras from the "Dresden Image Database" publicly available.
翻訳日:2021-12-08 03:09:46 公開日:2021-12-06
# (参考訳) 半可視噴流検出用オートエンコーダ [全文訳有]

Autoencoders for Semivisible Jet Detection ( http://arxiv.org/abs/2112.02864v1 )

ライセンス: CC BY 4.0
Florencia Canelli, Annapaola de Cosa, Luc Le Pottier, Jeremi Niedziela, Kevin Pedro, Maurizio Pierini(参考訳) 閉じ込めるダークセクターからのダークマター粒子の生成は、多くの新しい実験的署名をもたらす可能性がある。 理論の詳細によっては、陽子-陽子衝突におけるダーククォークの生成は、半可視的な粒子の噴流をもたらす可能性がある: ダークハドロンのコリメーテッドスプレーは、粒子衝突実験によって検出できるものはごく一部である。 実験的なシグネチャは、ジェットの可視成分と再構成された運動量コリナーの存在によって特徴づけられる。 この複雑なトポロジーは、人工的欠落運動量を生成する検出器の非効率性と誤再構成に敏感である。 本研究では,通常のジェットを拒絶し,異常検出技術を用いて半可視ジェットを識別する信号認識戦略を提案する。 入力としてジェットサブ構造変数を持つディープニューラルオートエンコーダネットワークは異常ジェットの解析に非常に有用である。 この研究は半可視ジェットシグネチャに焦点を当てているが、この手法は非SM粒子からのジェットとのシグネチャを予測する新しい物理モデルに適用できる。

The production of dark matter particles from confining dark sectors may lead to many novel experimental signatures. Depending on the details of the theory, dark quark production in proton-proton collisions could result in semivisible jets of particles: collimated sprays of dark hadrons of which only some are detectable by particle collider experiments. The experimental signature is characterised by the presence of reconstructed missing momentum collinear with the visible components of the jets. This complex topology is sensitive to detector inefficiencies and mis-reconstruction that generate artificial missing momentum. With this work, we propose a signal-agnostic strategy to reject ordinary jets and identify semivisible jets via anomaly detection techniques. A deep neural autoencoder network with jet substructure variables as input proves highly useful for analyzing anomalous jets. The study focuses on the semivisible jet signature; however, the technique can apply to any new physics model that predicts signatures with jets from non-SM particles.
翻訳日:2021-12-08 02:55:43 公開日:2021-12-06
# (参考訳) 複合匿名フィードバックをもつ非確率帯域 [全文訳有]

Nonstochastic Bandits with Composite Anonymous Feedback ( http://arxiv.org/abs/2112.02866v1 )

ライセンス: CC BY 4.0
Nicol\`o Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, Claudio Gentile, Yishay Mansour(参考訳) そこで本研究では,行動の損失がただちにプレイヤーに課金されるのではなく,それに続くラウンドを敵対的に広める非定型的バンディット設定について検討する。 各ラウンドの終了時にプレイヤーが観察した瞬間的損失は、以前にプレイされたアクションの多くの損失要素の合計となる。 この設定は、遅延した損失をプレイヤーが個別に観察するよく研究されたフレームワークである遅延したフィードバックを伴うバンディットの容易なタスクを特別なケースとして包含する。 我々の最初の貢献は、標準的なバンディットアルゴリズムをより難しい設定で操作できる1つに変換する一般的な還元である: 元のアルゴリズムの安定性と後悔の観点から、変換されたアルゴリズムの後悔を限定する。 すると、Tsallis entropy で適切に調整された FTRL の変換は、$d$ が最大遅延、$K$ がアームの数、$T$ がタイムホライズンであるような、オーダー $\sqrt{(d+1)KT}$ の後悔を持つことを示す。 最後に、この設定で動作しているアルゴリズムの後悔に基づいて(ログファクタまで)低いバウンドの一致を示すことにより、結果が一般に改善されないことを示す。

We investigate a nonstochastic bandit setting in which the loss of an action is not immediately charged to the player, but rather spread over the subsequent rounds in an adversarial way. The instantaneous loss observed by the player at the end of each round is then a sum of many loss components of previously played actions. This setting encompasses as a special case the easier task of bandits with delayed feedback, a well-studied framework where the player observes the delayed losses individually. Our first contribution is a general reduction transforming a standard bandit algorithm into one that can operate in the harder setting: We bound the regret of the transformed algorithm in terms of the stability and regret of the original algorithm. Then, we show that the transformation of a suitably tuned FTRL with Tsallis entropy has a regret of order $\sqrt{(d+1)KT}$, where $d$ is the maximum delay, $K$ is the number of arms, and $T$ is the time horizon. Finally, we show that our results cannot be improved in general by exhibiting a matching (up to a log factor) lower bound on the regret of any algorithm operating in this setting.
翻訳日:2021-12-08 02:43:41 公開日:2021-12-06
# (参考訳) 拡張グラフ注意ネットワークを符号化する距離とホップワイド構造 [全文訳有]

Distance and Hop-wise Structures Encoding Enhanced Graph Attention Networks ( http://arxiv.org/abs/2112.02868v1 )

ライセンス: CC BY 4.0
Zhiguo Huang, Xiaowei Chen, Bojuan Wang(参考訳) 既存のグラフニューラルネットワークは構造的特徴を効率的にキャッチできないことが証明されており、構造、距離、位置、空間的特徴の注入はGNNの性能を著しく向上させることができるが、全体の構造と距離をGNNに注入することは直感的であるが、未修正のアイデアである。 この作業では、方向を光を当てました。 まず,ホップ方向の構造情報を抽出して距離分布情報を計算し,ノード固有の特徴を収集し,同じベクトル空間に埋め込み,それを付加する。 導出された埋め込みベクトルは、GAT(GAT、AGDN)に供給され、それからCorrectとSmoothの実験により、DHSEGATが競合する結果を得ることを示した。 コードはhttps://github.com/h zg0601/DHSEGATsで入手できる。

Numerous works have proven that existing neighbor-averaging Graph Neural Networks cannot efficiently catch structure features, and many works show that injecting structure, distance, position or spatial features can significantly improve performance of GNNs, however, injecting overall structure and distance into GNNs is an intuitive but remaining untouched idea. In this work, we shed light on the direction. We first extracting hop-wise structure information and compute distance distributional information, gathering with node's intrinsic features, embedding them into same vector space and then adding them up. The derived embedding vectors are then fed into GATs(like GAT, AGDN) and then Correct and Smooth, experiments show that the DHSEGATs achieve competitive result. The code is available at https://github.com/h zg0601/DHSEGATs.
翻訳日:2021-12-08 01:58:54 公開日:2021-12-06
# (参考訳) ブロックチェーンとiotデータのインセンティブに基づくaiモデルを取引するマーケットプレース [全文訳有]

A Marketplace for Trading AI Models based on Blockchain and Incentives for IoT Data ( http://arxiv.org/abs/2112.02870v1 )

ライセンス: CC BY 4.0
Lam Duc Nguyen, Shashi Raj Pandey, Soret Beatriz, Arne Broering, and Petar Popovski(参考訳) 機械学習(ML)モデルがますます複雑になりつつある中、企業や組織がAI(Artificial Intelligence)を通じて価値を創造できるような、大規模なデプロイメントが主な課題のひとつだ。 mlの新たなパラダイムは、学習モデルを部分的に異種エージェントのグループに提供し、エージェントが自身のデータでモデルをローカルにトレーニング可能にする、連合型アプローチである。 しかし、モデルの評価の問題や、データ/モデルの共同トレーニングやトレーディングに対するインセンティブの問題は、文献上では限定的な扱いを受けている。 本稿では、信頼できるブロックチェーンベースのネットワーク上でのMLモデル取引の新しいエコシステムを提案する。 買い手はmlマーケットから興味のモデルを取得し、興味のある売り手はそのモデルの品質を高めるためにデータに局所的な計算を費やす。 その際、現地データとトレーニングモデルの質との比例関係を考慮し、モデルのトレーニングにおける販売者のデータの評価を分散データシャプリー値(dsv)を用いて推定する。 同時に、取引プロセス全体の信頼性は分散台帳技術(distributed ledger technology, dlt)によって提供される。 提案手法の大規模な実験的評価は,実行コストの15倍の低下,参加者のインセンティブの公平さなど,競争力のある実行時のパフォーマンスを示す。

As Machine Learning (ML) models are becoming increasingly complex, one of the central challenges is their deployment at scale, such that companies and organizations can create value through Artificial Intelligence (AI). An emerging paradigm in ML is a federated approach where the learning model is delivered to a group of heterogeneous agents partially, allowing agents to train the model locally with their own data. However, the problem of valuation of models, as well the questions of incentives for collaborative training and trading of data/models, have received limited treatment in the literature. In this paper, a new ecosystem of ML model trading over a trusted Blockchain-based network is proposed. The buyer can acquire the model of interest from the ML market, and interested sellers spend local computations on their data to enhance that model's quality. In doing so, the proportional relation between the local data and the quality of trained models is considered, and the valuations of seller's data in training the models are estimated through the distributed Data Shapley Value (DSV). At the same time, the trustworthiness of the entire trading process is provided by the distributed Ledger Technology (DLT). Extensive experimental evaluation of the proposed approach shows a competitive run-time performance, with a 15\% drop in the cost of execution, and fairness in terms of incentives for the participants.
翻訳日:2021-12-08 01:46:03 公開日:2021-12-06
# (参考訳) BDD100Kの暗視:連続的なフーリエコントラスト学習による一段階夜間物体検出 [全文訳有]

Seeing BDD100K in dark: Single-Stage Night-time Object Detection via Continual Fourier Contrastive Learning ( http://arxiv.org/abs/2112.02891v1 )

ライセンス: CC0 1.0
Ujjal Kr Dutta(参考訳) 最先端の物体検出装置の大幅な改善にもかかわらず、夜間の物体検出への取り組みは、限られた論文の中で一様でない評価プロトコルを通じて、あまり研究されていない。 この問題に対処する手法の欠如に加えて、夜間オブジェクト検出を研究するための十分な大規模なベンチマークデータセットも不足していた。 最近、この領域での研究を始めるために、ベンチマークとして選択すべきである、大規模なbdd100kが導入されました。 現在、現在の手法では、既存のアプローチ(数に制限される)は、主に生成的画像翻訳ベースか、あるいは画像強調/照明ベースであり、どちらも自然ではなく、(物体の輪郭に焦点を合わせることによって)人間が夜間に物体を見る方法に準拠している。 本稿では,この3つのギャップを橋渡しする。 1.一様評価プロトコルの欠如(その有効性、効率性による単段検出器の使用) 2.夜間物体検出ベンチマークのためのデータセットの選択及び 3. 現行の代替案の限界に対処する新しい方法 本手法は,コントラスト学習に基づく特徴抽出器を用いて,フーリエ変換を通じて周波数領域から情報を借用し,連続学習に基づく学習を行う。 オブジェクト検出(分類層と回帰層を微調整した後)に使用する学習機能は、新しい最先端の実証的なパフォーマンスを達成するのに役立つ。

Despite tremendous improvements in state-of-the-art object detectors, addressing object detection in the night-time has been studied only sparsely, that too, via non-uniform evaluation protocols among the limited available papers. In addition to the lack of methods to address this problem, there was also a lack of an adequately large benchmark dataset to study night-time object detection. Recently, the large scale BDD100K was introduced, which, in our opinion, should be chosen as the benchmark, to kickstart research in this area. Now, coming to the methods, existing approaches (limited in number), are mainly either generative image translation based, or image enhancement/ illumination based, neither of which is natural, conforming to how humans see objects in the night time (by focusing on object contours). In this paper, we bridge these 3 gaps: 1. Lack of an uniform evaluation protocol (using a single-stage detector, due to its efficacy, and efficiency), 2. Choice of dataset for benchmarking night-time object detection, and 3. A novel method to address the limitations of current alternatives. Our method leverages a Contrastive Learning based feature extractor, borrowing information from the frequency domain via Fourier transformation, and trained in a continual learning based fashion. The learned features when used for object detection (after fine-tuning the classification and regression layers), help achieve a new state-of-the-art empirical performance, comfortably outperforming an extensive number of competitors.
翻訳日:2021-12-08 01:12:16 公開日:2021-12-06
# (参考訳) 微分可能なプロトタイプによる解釈可能な画像分類 [全文訳有]

Interpretable Image Classification with Differentiable Prototypes Assignment ( http://arxiv.org/abs/2112.02902v1 )

ライセンス: CC BY 4.0
Dawid Rymarczyk, {\L}ukasz Struski, Micha{\l} G\'orszczak, Koryna Lewandowska, Jacek Tabor, Bartosz Zieli\'nski(参考訳) クラスが共有するプロトタイプのプールを備えた解釈可能な画像分類モデルであるProtoPoolを紹介する。 プランニングステージを必要としないため、トレーニングは既存の方法よりも簡単である。 プロトタイプを特定のクラスに完全に微分可能な割り当てを導入することで得られる。 さらに,前景の稀な特徴に焦点を合わせるために,新しい焦点類似性関数を導入する。 我々は,CUB-200-2011とStanford Carsのデータセットにおいて,ProtoPoolが最先端の精度を得ることを示す。 提案手法の理論的解析とユーザ調査を行い,本プロトタイプが競合手法で得られたものよりも識別性が高いことを示した。

We introduce ProtoPool, an interpretable image classification model with a pool of prototypes shared by the classes. The training is more straightforward than in the existing methods because it does not require the pruning stage. It is obtained by introducing a fully differentiable assignment of prototypes to particular classes. Moreover, we introduce a novel focal similarity function to focus the model on the rare foreground features. We show that ProtoPool obtains state-of-the-art accuracy on the CUB-200-2011 and the Stanford Cars datasets, substantially reducing the number of prototypes. We provide a theoretical analysis of the method and a user study to show that our prototypes are more distinctive than those obtained with competitive methods.
翻訳日:2021-12-08 00:53:04 公開日:2021-12-06
# (参考訳) パラメータ高効率深部確率予測 [全文訳有]

Parameter Efficient Deep Probabilistic Forecasting ( http://arxiv.org/abs/2112.02905v1 )

ライセンス: CC BY 4.0
Olivier Sprangers Sebastian Schelter Maarten de Rijke(参考訳) 確率的時系列予測は、小売、eコマース、金融、生物学といった多くのアプリケーションドメインにおいて不可欠である。 大量のデータが利用可能になるにつれて、この問題に対して多くのニューラルアーキテクチャが提案されている。 特にTransformerベースの手法は、実世界のベンチマークで最先端のパフォーマンスを実現する。 しかし、これらの手法は学習すべきパラメータを大量に必要とし、そのようなモデルをトレーニングするために計算資源に高いメモリ要件を課している。 そこで本研究では, 一般的なトランスフォーマー方式よりも1桁小さいパラメータを必要とする双方向時相畳み込みネットワーク(bitcn)を提案する。 第1のネットワークは時系列の将来のコ変数を符号化し,第2のネットワークは過去の観測とコ変数を符号化する。 これら2つのネットワークによる出力分布のパラメータを共同で推定する。 実世界の4つのデータセットで実験した結果,TransformerベースのアプローチとWaveNetを含む4つの最先端確率予測手法と,2点のメトリクス(sMAPE, NRMSE)と,ほとんどの場合における範囲のメトリクス(量子損失パーセンタイル)のセットで同等に動作することがわかった。 第2に,本手法はトランスフォーマティブ方式に比べてパラメータが大幅に少ないこと,すなわち,メモリ要求を大幅に削減してモデルを高速にトレーニングできること,その結果,これらのモデルのデプロイに要するインフラストラクチャコストが低減できることを実証する。

Probabilistic time series forecasting is crucial in many application domains such as retail, ecommerce, finance, or biology. With the increasing availability of large volumes of data, a number of neural architectures have been proposed for this problem. In particular, Transformer-based methods achieve state-of-the-art performance on real-world benchmarks. However, these methods require a large number of parameters to be learned, which imposes high memory requirements on the computational resources for training such models. To address this problem, we introduce a novel Bidirectional Temporal Convolutional Network (BiTCN), which requires an order of magnitude less parameters than a common Transformer-based approach. Our model combines two Temporal Convolutional Networks (TCNs): the first network encodes future covariates of the time series, whereas the second network encodes past observations and covariates. We jointly estimate the parameters of an output distribution via these two networks. Experiments on four real-world datasets show that our method performs on par with four state-of-the-art probabilistic forecasting methods, including a Transformer-based approach and WaveNet, on two point metrics (sMAPE, NRMSE) as well as on a set of range metrics (quantile loss percentiles) in the majority of cases. Secondly, we demonstrate that our method requires significantly less parameters than Transformer-based methods, which means the model can be trained faster with significantly lower memory requirements, which as a consequence reduces the infrastructure cost for deploying these models.
翻訳日:2021-12-08 00:32:43 公開日:2021-12-06
# (参考訳) 教師付きコントラスト学習を用いたPVモジュールのIR画像の異常検出 [全文訳有]

Anomaly Detection in IR Images of PV Modules using Supervised Contrastive Learning ( http://arxiv.org/abs/2112.02922v1 )

ライセンス: CC BY-SA 4.0
Lukas Bommes, Mathis Hoffmann, Claudia Buerhop-Lutz, Tobias Pickel, Jens Hauch, Christoph Brabec, Andreas Maier, Ian Marius Peters(参考訳) 太陽光発電(PV)プラントの展開の増加には、赤外線(IR)画像などのモダリティで欠陥のあるPVモジュールを自動的に検出する手法が必要である。 近年、深層学習が普及している。 しかしながら、関連する研究は通常、異なるPVプラントのデータ間のドメインシフトの存在を無視して、同じ分布からのトレインとテストデータをサンプリングする。 むしろ、障害検出は、あるソースPVプラントのラベル付きデータをトレーニングし、別のターゲットプラントで予測する、より現実的なドメイン適応問題である。 resnet-34畳み込みニューラルネットワークを教師付きコントラスト損失で訓練し,その上にk-nearest近傍分類器を用いて異常を検出する。 本手法は、4つのソースとターゲットデータセットの9つの組み合わせに対して、受信動作特性(AUROC)の73.3 %から96.6 %の満足な領域を実現する。 バイナリのクロスエントロピー分類器よりも優れる場合もある。 一定の判定閾値では、それぞれ79.4 %と77.1 %が正常画像と異常画像に分類される。 ほとんどの誤分類異常は、ホットダイオードや小さなホットスポットなど、重大度が低い。 提案手法はハイパーパラメータ設定に敏感で,未知の種類の異常を迅速かつ確実に検出し,実践に適している。 可能な用途は、自動pvプラント検査システム、または通常の画像をフィルタリングしてirデータセットの手動ラベリングを合理化することである。 さらに,本研究は,非教師付きドメイン適応を用いたpvモジュールのフォールト検出をより現実的な視点でコミュニティに提供し,より優れた一般化機能を備えた高性能な手法を開発する。

Increasing deployment of photovoltaic (PV) plants requires methods for automatic detection of faulty PV modules in modalities, such as infrared (IR) images. Recently, deep learning has become popular for this. However, related works typically sample train and test data from the same distribution ignoring the presence of domain shift between data of different PV plants. Instead, we frame fault detection as more realistic unsupervised domain adaptation problem where we train on labelled data of one source PV plant and make predictions on another target plant. We train a ResNet-34 convolutional neural network with a supervised contrastive loss, on top of which we employ a k-nearest neighbor classifier to detect anomalies. Our method achieves a satisfactory area under the receiver operating characteristic (AUROC) of 73.3 % to 96.6 % on nine combinations of four source and target datasets with 2.92 million IR images of which 8.5 % are anomalous. It even outperforms a binary cross-entropy classifier in some cases. With a fixed decision threshold this results in 79.4 % and 77.1 % correctly classified normal and anomalous images, respectively. Most misclassified anomalies are of low severity, such as hot diodes and small hot spots. Our method is insensitive to hyperparameter settings, converges quickly and reliably detects unknown types of anomalies making it well suited for practice. Possible uses are in automatic PV plant inspection systems or to streamline manual labelling of IR datasets by filtering out normal images. Furthermore, our work serves the community with a more realistic view on PV module fault detection using unsupervised domain adaptation to develop more performant methods with favorable generalization capabilities.
翻訳日:2021-12-08 00:08:18 公開日:2021-12-06
# (参考訳) ニューラルネットワーク予測のためのペアワイズ学習 [全文訳有]

Pairwise Learning for Neural Link Prediction ( http://arxiv.org/abs/2112.02936v1 )

ライセンス: CC BY 4.0
Zhitao Wang, Yong Zhou, Litao Hong, Yuanhang Zou and Hanjing Su(参考訳) 本稿では,効果的なペアワイズ学習ニューラルネットワーク予測(plnlp)フレームワークを提供することを目的としている。 このフレームワークは、リンク予測を問題をランク付けするためのペアワイズ学習として扱い、近隣エンコーダ、リンク予測器、負のサンプリング器、客観的関数の4つの主要コンポーネントから構成される。 このフレームワークは、任意の汎用グラフニューラル畳み込みやリンク予測固有のニューラルアーキテクチャを近隣エンコーダとして使用することができる。 リンク予測のために、異なる種類のグラフに基づいて選択できる異なるスコアリング関数を設計した。 負のサンプラーでは、問題固有のいくつかのサンプリング戦略を提供する。 目的関数については,標準ランキング基準AUCをほぼ最大化する効果的なランキング損失を用いることを提案する。 提案するplnlpフレームワークをopen graphベンチマークの4つのリンク特性予測データセット上で評価し, \texttt{ogbl-ddi}, \texttt{ogbl-collab}, \texttt{ogbl-ppa}, \texttt{ogbl-ciation2}を含む。 plnlp は \textt{ogbl-ddi} で top 1 のパフォーマンスを達成し、基本ニューラルネットワークアーキテクチャのみで \texttt{ogbl-collab} と \texttt{ogbl-ciation2} で top 2 のパフォーマンスを達成している。 この性能はplnlpの有効性を示す。

In this paper, we aim at providing an effective Pairwise Learning Neural Link Prediction (PLNLP) framework. The framework treats link prediction as a pairwise learning to rank problem and consists of four main components, i.e., neighborhood encoder, link predictor, negative sampler and objective function. The framework is flexible that any generic graph neural convolution or link prediction specific neural architecture could be employed as neighborhood encoder. For link predictor, we design different scoring functions, which could be selected based on different types of graphs. In negative sampler, we provide several sampling strategies, which are problem specific. As for objective function, we propose to use an effective ranking loss, which approximately maximizes the standard ranking metric AUC. We evaluate the proposed PLNLP framework on 4 link property prediction datasets of Open Graph Benchmark, including \texttt{ogbl-ddi}, \texttt{ogbl-collab}, \texttt{ogbl-ppa} and \texttt{ogbl-ciation2}. PLNLP achieves Top 1 performance on \texttt{ogbl-ddi}, and Top 2 performance on \texttt{ogbl-collab} and \texttt{ogbl-ciation2} only with basic neural architecture. The performance demonstrates the effectiveness of PLNLP.
翻訳日:2021-12-07 23:42:53 公開日:2021-12-06
# (参考訳) automap:mlモデルの人間工学的自動並列化に向けて [全文訳有]

Automap: Towards Ergonomic Automated Parallelism for ML Models ( http://arxiv.org/abs/2112.02958v1 )

ライセンス: CC BY 4.0
Michael Schaarschmidt and Dominik Grewe and Dimitrios Vytiniotis and Adam Paszke and Georg Stefan Schmid and Tamara Norman and James Molloy and Jonathan Godwin and Norman Alexander Rink and Vinod Nair and Dan Belov(参考訳) 大規模ニューラルネットワークアーキテクチャのトレーニングに対する需要が急速に高まり、データ、モデル、パイプライン並列性などによるパーティショニング戦略の必要性が注目されるようになった。 これらのメソッドの実装は、プログラムプリミティブを通じてますますサポートされていますが、効率的な分割戦略を特定するには、高価な実験と専門知識が必要です。 既存のコンパイラや既存のユーザワークフローにシームレスに統合する自動パーティショナのプロトタイプを提示する。 我々のパーティショナは、データ並列性とパラメータ/アクティベーションシャーディングを含むSPMDスタイルの並列処理を可能にする。 帰納的戦術とプラットフォーム非依存のパーティショニングIRでの検索を組み合わせることで、Automapはトランスフォーマー層に対するMegatronシャーディングのような専門的なパーティショニング戦略を回復することができる。

The rapid rise in demand for training large neural network architectures has brought into focus the need for partitioning strategies, for example by using data, model, or pipeline parallelism. Implementing these methods is increasingly supported through program primitives, but identifying efficient partitioning strategies requires expensive experimentation and expertise. We present the prototype of an automated partitioner that seamlessly integrates into existing compilers and existing user workflows. Our partitioner enables SPMD-style parallelism that encompasses data parallelism and parameter/activation sharding. Through a combination of inductive tactics and search in a platform-independent partitioning IR, automap can recover expert partitioning strategies such as Megatron sharding for transformer layers.
翻訳日:2021-12-07 23:36:28 公開日:2021-12-06
# (参考訳) ロボット軌跡の特徴的絡み合い [全文訳有]

Feature Disentanglement of Robot Trajectories ( http://arxiv.org/abs/2112.03164v1 )

ライセンス: CC0 1.0
Matias Valdenegro-Toro, Daniel Harnack, Hendrik W\"ohrle(参考訳) ロボット関節によって生成された軌道のモデル化は複雑で、軌道生成、クラスタリング、分類などの高レベルな活動に必要である。 分散表現学習は教師なし学習の進歩を約束するが、ロボット生成軌道では評価されていない。 本稿では,3自由度ロボットアームから生成する1mロボット軌跡のデータセット上で,3つの不一致vae (\beta$-vae, decorr vae, and new $\beta$-decorr vae) を評価する。 このデコリレーションに基づく定式化は,測度,軌道品質,地中真理潜時特徴との相関において最良であることがわかった。 これらの結果から,ロボット制御における教師なし学習の活用が期待できる。

Modeling trajectories generated by robot joints is complex and required for high level activities like trajectory generation, clustering, and classification. Disentagled representation learning promises advances in unsupervised learning, but they have not been evaluated in robot-generated trajectories. In this paper we evaluate three disentangling VAEs ($\beta$-VAE, Decorr VAE, and a new $\beta$-Decorr VAE) on a dataset of 1M robot trajectories generated from a 3 DoF robot arm. We find that the decorrelation-based formulations perform the best in terms of disentangling metrics, trajectory quality, and correlation with ground truth latent features. We expect that these results increase the use of unsupervised learning in robot control.
翻訳日:2021-12-07 23:15:26 公開日:2021-12-06
# (参考訳) 人工合成:可変オートエンコーダを用いた画像メロディ変換 [全文訳有]

The artificial synesthete: Image-melody translations with variational autoencoders ( http://arxiv.org/abs/2112.02953v1 )

ライセンス: CC BY-SA 4.0
Karl Wienand, Wolfgang M. Heckl(参考訳) 抽象 このプロジェクトは、画像とメロディを翻訳するニューラルネットワークシステムを提供する。 オートエンコーダは、サンプル内の情報を抽象表現に圧縮する。 翻訳ネットワークは、繰り返しの関節露光から音楽的概念と視覚的概念の対応集合を学習する。 結果として生じる「人工合成」は、イメージや音楽からのイメージにインスパイアされた単純な旋律を生成する。 これらは、機械の認識と理解を表現する新しい解釈(転置データではない)である。 作業を観察すると、機械の知覚を探索し、対照的に自分自身を探索する。

Abstract This project presents a system of neural networks to translate between images and melodies. Autoencoders compress the information in samples to abstract representation. A translation network learns a set of correspondences between musical and visual concepts from repeated joint exposure. The resulting "artificial synesthete" generates simple melodies inspired by images, and images from music. These are novel interpretation (not transposed data), expressing the machine' perception and understanding. Observing the work, one explores the machine's perception and thus, by contrast, one's own.
翻訳日:2021-12-07 23:06:36 公開日:2021-12-06
# (参考訳) 部分的に知られたMDPの講義ノート [全文訳有]

Lecture Notes on Partially Known MDPs ( http://arxiv.org/abs/2112.02976v1 )

ライセンス: CC BY 4.0
Guillermo A. Perez(参考訳) これらのノートでは、マルコフ決定プロセス(MDP)の最適ポリシーを見つけるという課題に対処する。 私たちの意図は、オフライン設定からオンライン(学習)設定へゆっくりと移行することにあります。 すなわち、強化学習に向かっています。

In these notes we will tackle the problem of finding optimal policies for Markov decision processes (MDPs) which are not fully known to us. Our intention is to slowly transition from an offline setting to an online (learning) setting. Namely, we are moving towards reinforcement learning.
翻訳日:2021-12-07 22:57:39 公開日:2021-12-06
# (参考訳) マルチスペクトルリモートセンシング画像における物体検出のためのクロスモーダル・アテンテーティブ・フィーチャーフュージョン [全文訳有]

Cross-Modality Attentive Feature Fusion for Object Detection in Multispectral Remote Sensing Imagery ( http://arxiv.org/abs/2112.02991v1 )

ライセンス: CC BY 4.0
Qingyun Fang, Zhaokui Wang(参考訳) マルチスペクトルリモートセンシング画像ペアの相補的な情報を融合するクロスモダリティは、検出アルゴリズムの知覚能力を向上し、夜間検出など幅広いアプリケーションに対してより堅牢で信頼性の高いものにすることができる。 従来の手法と比較して、異なる特徴を具体的に処理し、モダリティ特異的な特徴を維持・強化し、一方、モダリティ共有特徴をRGBおよび熱赤外モードからチェリーピックするべきである。 この考え方に従い、共通モダリティと微分モダリティを併用した新しい軽量マルチスペクトル特徴融合アプローチが提案され、クロスモダリティ注意特徴融合 (cmaff) と命名された。 rgb画像とir画像の中間特徴マップを考えると、モジュール並列は2つの異なるモダリティ(共通モダリティと微分モダリティ)からアテンションマップを推論し、アテンションマップをそれぞれ入力特徴マップに乗じて適応特徴強調や選択を行う。 広範な実験により,提案手法が低計算コストで最先端の性能を実現することを実証した。

Cross-modality fusing complementary information of multispectral remote sensing image pairs can improve the perception ability of detection algorithms, making them more robust and reliable for a wider range of applications, such as nighttime detection. Compared with prior methods, we think different features should be processed specifically, the modality-specific features should be retained and enhanced, while the modality-shared features should be cherry-picked from the RGB and thermal IR modalities. Following this idea, a novel and lightweight multispectral feature fusion approach with joint common-modality and differential-modalit y attentions are proposed, named Cross-Modality Attentive Feature Fusion (CMAFF). Given the intermediate feature maps of RGB and IR images, our module parallel infers attention maps from two separate modalities, common- and differential-modalit y, then the attention maps are multiplied to the input feature map respectively for adaptive feature enhancement or selection. Extensive experiments demonstrate that our proposed approach can achieve the state-of-the-art performance at a low computation cost.
翻訳日:2021-12-07 22:23:33 公開日:2021-12-06
# (参考訳) 距離デカイIoUと重み付きデンプスターシャファーエビデンス理論による核融合検出 [全文訳有]

Fusion Detection via Distance-Decay IoU and weighted Dempster-Shafer Evidence Theory ( http://arxiv.org/abs/2112.03044v1 )

ライセンス: CC BY 4.0
Fang Qingyun and Wang Zhaokui(参考訳) 近年,リモートセンシング画像における物体検出に注目が集まっている。 しかし、従来の光学検出は照明や気象異常の影響を受けやすい。 マルチソースリモートセンシング画像、特に光学・合成開口レーダ画像からのクロスモダリティ情報を効果的に活用し、高精度・高速で全天候検出を実現することが課題である。 そこで本論文では,高速なマルチソース核融合検出フレームワークを提案する。 結合上の新しい距離デカイ交叉を用いて、スケール不変性を持つターゲットの形状特性を符号化する。 したがって、マルチソース画像における同じターゲットを正確にペアリングすることができる。 さらに、重み付きデンプスター・シェーファーエビデンス理論は、大量のペアデータを必要とする特徴レベルの融合の欠点を克服する光学的および合成開口レーダー検出を結合するために用いられる。 さらに,スエズ運河で座礁したコンテナ船の光学的および合成的開口レーダ画像を用いて,核融合アルゴリズムの実証を行った。 提案手法の有効性を検証するため,自己構築データセットを用いて,提案手法の核融合検出フレームワークの平均精度を20.13%向上させた。

In recent years, increasing attentions are paid on object detection in remote sensing imagery. However, traditional optical detection is highly susceptible to illumination and weather anomaly. It is a challenge to effectively utilize the cross-modality information from multi-source remote sensing images, especially from optical and synthetic aperture radar images, to achieve all-day and all-weather detection with high accuracy and speed. Towards this end, a fast multi-source fusion detection framework is proposed in current paper. A novel distance-decay intersection over union is employed to encode the shape properties of the targets with scale invariance. Therefore, the same target in multi-source images can be paired accurately. Furthermore, the weighted Dempster-Shafer evidence theory is utilized to combine the optical and synthetic aperture radar detection, which overcomes the drawback in feature-level fusion that requires a large amount of paired data. In addition, the paired optical and synthetic aperture radar images for container ship Ever Given which ran aground in the Suez Canal are taken to demonstrate our fusion algorithm. To test the effectiveness of the proposed method, on self-built data set, the average precision of the proposed fusion detection framework outperform the optical detection by 20.13%.
翻訳日:2021-12-07 21:49:53 公開日:2021-12-06
# (参考訳) Learn2Reg 2021における正確な最適化と学習の少ない高速3次元登録 [全文訳有]

Fast 3D registration with accurate optimisation and little learning for Learn2Reg 2021 ( http://arxiv.org/abs/2112.03053v1 )

ライセンス: CC BY 4.0
Hanna Siebert, Lasse Hansen, Mattias P. Heinrich(参考訳) 変形可能な医用画像登録の現在のアプローチは、多用途適用性、小さな計算やトレーニング時間、大きな変形を見積もることができることなど、すべての基準を満たすのに苦労することが多い。 さらに、登録を監督するエンド・ツー・エンドのネットワークはしばしば複雑になり、訓練が困難になる。 Learn2Reg2021チャレンジでは,特徴学習と幾何学的アライメントを分離することで,これらの課題に対処する。 まず, 高速かつ高精度な最適化手法を提案する。 離散変位と凸最適化を併用することにより,大きな変形に頑健に対処できる。 我々はAdamベースのインスタンス最適化の助けを借りて、非常に正確な登録性能を実現し、正規化を用いて滑らかで可塑性な変形場を得る。 第2に、異なる登録タスクに汎用性を持たせるために、モータリティとコントラスト不変性を持つ手作り特徴を抽出し、タスク固有のセグメンテーションU-Netから意味的特徴を補完する。 その結果、Learner2Reg2021チャレンジの2位を獲得し、タスク1で勝利し、他の2つのタスクで2位と3位になった。

Current approaches for deformable medical image registration often struggle to fulfill all of the following criteria: versatile applicability, small computation or training times, and the being able to estimate large deformations. Furthermore, end-to-end networks for supervised training of registration often become overly complex and difficult to train. For the Learn2Reg2021 challenge, we aim to address these issues by decoupling feature learning and geometric alignment. First, we introduce a new very fast and accurate optimisation method. By using discretised displacements and a coupled convex optimisation procedure, we are able to robustly cope with large deformations. With the help of an Adam-based instance optimisation, we achieve very accurate registration performances and by using regularisation, we obtain smooth and plausible deformation fields. Second, to be versatile for different registration tasks, we extract hand-crafted features that are modality and contrast invariant and complement them with semantic features from a task-specific segmentation U-Net. With our results we were able to achieve the overall Learn2Reg2021 challenge's second place, winning Task 1 and being second and third in the other two tasks.
翻訳日:2021-12-07 21:38:33 公開日:2021-12-06
# (参考訳) オンライン高速化のための新しい予測セット [全文訳有]

A Novel Prediction Setup for Online Speed-Scaling ( http://arxiv.org/abs/2112.03082v1 )

ライセンス: CC BY 4.0
Antonios Antoniadis, Peyman Jabbarzade Ganje, Golnoosh Shahkarami(参考訳) データセンターやコンピュータシステム全体のエネルギー需要の急増を考えると、(スケジュール)アルゴリズムを設計する際にエネルギーを考慮に入れることが基本である。 機械学習は、例えば過去のデータに基づいてシステムの将来の負荷を予測することによって、実際に有用なアプローチとなり得る。 しかし、そのような手法の有効性は予測の質に大きく依存しており、予測がサブパーである場合には最適とは程遠い。 一方、最悪の場合の保証を提供する一方で、古典的なオンラインアルゴリズムは、実際に発生する大量の入力クラスに対して悲観的である。 本稿では,機械学習拡張アルゴリズムの新しい領域の精神の中で,古典的,期限ベース,オンラインのスピードスケーリング問題において,両者のベストを最大限に得ることを試みる。 (i)適切な予測の有無で、確実に低いエネルギー消費を得る、及び (ii)不適切な予測に対して頑健であり、 (iii) は滑らかであり、予測誤差が増加するにつれて性能が徐々に低下する。

Given the rapid rise in energy demand by data centers and computing systems in general, it is fundamental to incorporate energy considerations when designing (scheduling) algorithms. Machine learning can be a useful approach in practice by predicting the future load of the system based on, for example, historical data. However, the effectiveness of such an approach highly depends on the quality of the predictions and can be quite far from optimal when predictions are sub-par. On the other hand, while providing a worst-case guarantee, classical online algorithms can be pessimistic for large classes of inputs arising in practice. This paper, in the spirit of the new area of machine learning augmented algorithms, attempts to obtain the best of both worlds for the classical, deadline based, online speed-scaling problem: Based on the introduction of a novel prediction setup, we develop algorithms that (i) obtain provably low energy-consumption in the presence of adequate predictions, and (ii) are robust against inadequate predictions, and (iii) are smooth, i.e., their performance gradually degrades as the prediction error increases.
翻訳日:2021-12-07 21:34:04 公開日:2021-12-06
# (参考訳) 時系列における一般化因果構造学習 [全文訳有]

Learning Generalized Causal Structure in Time-series ( http://arxiv.org/abs/2112.03085v1 )

ライセンス: CC BY 4.0
Aditi Kathpalia, Keerti P. Charantimath, Nithin Nagaraj(参考訳) 因果関係の科学は、その目的のために数学的ツールを提供することによって、システムの実体間の「因果関係」を説明/決定する。 機械学習(ML)アルゴリズムの成功と幅広い応用にもかかわらず、これらのアルゴリズムは統計的学習のみに基づいている。 現在、彼らは重要な「なぜ」質問に基づいて答えたり学習したりできないため、人間のような知性に近づきません。 そのため、研究者はMLと因果関係の科学を統合しようとしている。 MLが直面する多くの因果学習問題の1つは、これらのアルゴリズムがデータの時間的順序や構造に不利であることである。 本研究では、最近提案された「ニューロカオス」特徴学習技術(ChaosFEX特徴抽出器)に基づく機械学習パイプラインを開発し、与えられた時系列データから一般化因果構造を学習するのに役立つ。

The science of causality explains/determines 'cause-effect' relationship between the entities of a system by providing mathematical tools for the purpose. In spite of all the success and widespread applications of machine-learning (ML) algorithms, these algorithms are based on statistical learning alone. Currently, they are nowhere close to 'human-like' intelligence as they fail to answer and learn based on the important "Why?" questions. Hence, researchers are attempting to integrate ML with the science of causality. Among the many causal learning issues encountered by ML, one is that these algorithms are dumb to the temporal order or structure in data. In this work we develop a machine learning pipeline based on a recently proposed 'neurochaos' feature learning technique (ChaosFEX feature extractor), that helps us to learn generalized causal-structure in given time-series data.
翻訳日:2021-12-07 21:10:33 公開日:2021-12-06
# (参考訳) データスパース領域における流れ予測改善のための伝達学習 [全文訳有]

Transfer learning to improve streamflow forecasts in data sparse regions ( http://arxiv.org/abs/2112.03088v1 )

ライセンス: CC BY 4.0
Roland Oruche, Lisa Egede, Tracy Baker, Fearghal O'Donncha(参考訳) 効果的な水資源管理には、品質と量の両方において、空間的および時間的に水可用性に関する情報が必要である。 本稿では,データスパース領域におけるストリームフロー予測の一般化性能向上を目的とした,微調整とパラメータ転送による伝達学習(TL)の方法論について検討する。 本稿では,十分に大きなソースドメインデータセットに適合し,学習重みをかなり小さく,かつ類似したターゲットドメインデータセットに再利用するための,lstm(long short-term memory)という形式での標準リカレントニューラルネットワークを提案する。 本稿では,空間的および時間的要素を分離し,空間的変動を表すカテゴリー的データセットに基づいてモデルを一般化するよう訓練することにより,時空間応用のための伝達学習手法を提案する。 このフレームワークは米国のリッチなベンチマークデータセットで開発され、ケニアのnature conservancyが収集したより小さなデータセットで評価される。 LSTMモデルは我々のTL技術による一般化性能を示す。 本実験の結果から,データスパース領域における水文モデル一般化を改善するために,知識伝達と静的ディスクリプタを用いた場合のストリームフロー応答予測の効果的な予測技術が得られた。

Effective water resource management requires information on water availability, both in terms of quality and quantity, spatially and temporally. In this paper, we study the methodology behind Transfer Learning (TL) through fine-tuning and parameter transferring for better generalization performance of streamflow prediction in data-sparse regions. We propose a standard recurrent neural network in the form of Long Short-Term Memory (LSTM) to fit on a sufficiently large source domain dataset and repurpose the learned weights to a significantly smaller, yet similar target domain datasets. We present a methodology to implement transfer learning approaches for spatiotemporal applications by separating the spatial and temporal components of the model and training the model to generalize based on categorical datasets representing spatial variability. The framework is developed on a rich benchmark dataset from the US and evaluated on a smaller dataset collected by The Nature Conservancy in Kenya. The LSTM model exhibits generalization performance through our TL technique. Results from this current experiment demonstrate the effective predictive skill of forecasting streamflow responses when knowledge transferring and static descriptors are used to improve hydrologic model generalization in data-sparse regions.
翻訳日:2021-12-07 21:00:38 公開日:2021-12-06
# (参考訳) 柔軟なオプション学習 [全文訳有]

Flexible Option Learning ( http://arxiv.org/abs/2112.03097v1 )

ライセンス: CC BY 4.0
Martin Klissarov and Doina Precup(参考訳) 強化学習(rl)の時間的抽象化は、時間とともに情報をより効率的に伝播することにより、複雑な環境における一般化と知識伝達を改善することを約束する。 オプション学習は当初、多くのオプションを同時に更新できる方法で定式化されていたが(Sutton, Precup & Singh, 1999)、最近の階層的強化学習アプローチの多くは、現在実行中のオプションを一度に1つのオプションだけ更新している。 我々は,既存の原始的行動選択と整合した全てのオプションを,追加の見積もりを導入することなく更新できるようにするため,深層強化学習の文脈において,オプション内学習を再考し拡張する。 したがって、我々の手法は、ほとんどの階層的なRLフレームワークで自然に適用することができる。 このアプローチとオプション発見のためのoption-criticアルゴリズムを組み合わせることで、さまざまなドメインのパフォーマンスとデータ効率が大幅に向上します。

Temporal abstraction in reinforcement learning (RL), offers the promise of improving generalization and knowledge transfer in complex environments, by propagating information more efficiently over time. Although option learning was initially formulated in a way that allows updating many options simultaneously, using off-policy, intra-option learning (Sutton, Precup & Singh, 1999), many of the recent hierarchical reinforcement learning approaches only update a single option at a time: the option currently executing. We revisit and extend intra-option learning in the context of deep reinforcement learning, in order to enable updating all options consistent with current primitive action choices, without introducing any additional estimates. Our method can therefore be naturally adopted in most hierarchical RL frameworks. When we combine our approach with the option-critic algorithm for option discovery, we obtain significant improvements in performance and data-efficiency across a wide variety of domains.
翻訳日:2021-12-07 20:47:00 公開日:2021-12-06
# (参考訳) 洪水流入予測のための画像解析による海洋特徴量のL2-ノルムアンサンブル回帰 [全文訳有]

L2-norm Ensemble Regression with Ocean Feature Weights by Analyzed Images for Flood Inflow Forecast ( http://arxiv.org/abs/2112.03108v1 )

ライセンス: CC BY 4.0
Takato Yasuno, Masazumi Amakata, Junichiro Fujii, Masahiro Okano, Riku Ogata(参考訳) 洪水被害軽減のためのダム流入予測が重要である。 ハイドログラフは開始時間、ピークレベル、ボリュームなどの重要な情報を提供する。 特にダム管理には,将来の水路図に基づくダム流入予測の6時間リード時間が必要である。 著者らは,海面の画像から抽出した海の特徴ベクトルを生成するために,新たな目標流入量を提案する。 プレトレーニングVGG16ネットワークのfc6層における次元ベクトルの4,096要素を抽出した。 その後, t-SNEの3次元に縮小した。 さらに,PCAを用いて海温重量の主成分を作成した。 これらの重みは,数値実験による予測的重要性の安定性に寄与することがわかった。 ベース回帰モデルとして,最小二乗数をカーネル展開,質的ランダムフォレストがバッグ外誤差を最小化し,多項式カーネルを用いたサポートベクトル回帰を校正した。 予測器の重要度を計算すると,提案した重みによる各変数重要度の安定性を,重みのない他の結果と比較して可視化する。 本手法を関東地方のダムに適用し,2007年から2018年6月から10月までの洪水期間を限定した訓練期間に着目した。 私たちは2019年の洪水期間の精度をテストします。 最後に、未知の洪水予測に対する適用結果とさらなる統計的学習について述べる。

It is important to forecast dam inflow for flood damage mitigation. The hydrograph provides critical information such as the start time, peak level, and volume. Particularly, dam management requires a 6-h lead time of the dam inflow forecast based on a future hydrograph. The authors propose novel target inflow weights to create an ocean feature vector extracted from the analyzed images of the sea surface. We extracted 4,096 elements of the dimension vector in the fc6 layer of the pre-trained VGG16 network. Subsequently, we reduced it to three dimensions of t-SNE. Furthermore, we created the principal component of the sea temperature weights using PCA. We found that these weights contribute to the stability of predictor importance by numerical experiments. As base regression models, we calibrate the least squares with kernel expansion, the quantile random forest minimized out-of bag error, and the support vector regression with a polynomial kernel. When we compute the predictor importance, we visualize the stability of each variable importance introduced by our proposed weights, compared with other results without weights. We apply our method to a dam at Kanto region in Japan and focus on the trained term from 2007 to 2018, with a limited flood term from June to October. We test the accuracy over the 2019 flood term. Finally, we present the applied results and further statistical learning for unknown flood forecast.
翻訳日:2021-12-07 20:23:35 公開日:2021-12-06
# (参考訳) オープンな政治情報の要求 - オープンデータを越えた透明性 [全文訳有]

Requirements for Open Political Information: Transparency Beyond Open Data ( http://arxiv.org/abs/2112.03119v1 )

ライセンス: CC BY 4.0
Andong Luis Li Zhao, Andrew Paley, Rachel Adler, Harper Pack, Sergio Servantez, Alexander Einarsson, Cameron Barrie, Marko Sterbentz, Kristian Hammond(参考訳) 政治的にインフォームドされた市民は、発達した民主主義に不可欠である。 米国政府はオープンデータに関する政策を追求しているが、技術とドメインの知識を持つ人だけがデータ情報にアクセスできるため、オープンデータを実現するには不十分である。 本研究では,利害関係者の要望とニーズを特定するために,ユーザインタビューを実施している。 さらに,この情報を用いて,機能的政治情報技術システムの基本要件を概観する。

A politically informed citizenry is imperative for a welldeveloped democracy. While the US government has pursued policies for open data, these efforts have been insufficient in achieving an open government because only people with technical and domain knowledge can access information in the data. In this work, we conduct user interviews to identify wants and needs among stakeholders. We further use this information to sketch out the foundational requirements for a functional political information technical system.
翻訳日:2021-12-07 20:11:14 公開日:2021-12-06
# (参考訳) 拡散モデルを用いたラベル効率の良いセマンティックセグメンテーション [全文訳有]

Label-Efficient Semantic Segmentation with Diffusion Models ( http://arxiv.org/abs/2112.03126v1 )

ライセンス: CC BY 4.0
Dmitry Baranchuk, Ivan Rubachev, Andrey Voynov, Valentin Khrulkov, Artem Babenko(参考訳) ノイズ拡散確率モデルは最近、gansのような代替アプローチよりも優れており、現在最先端の生成性能を提供しているため、多くの研究の注目を集めている。 拡散モデルの優れた性能は、インペインティング、スーパーレゾリューション、セマンティクス編集など、いくつかのアプリケーションで魅力的なツールとなっている。 本稿では,拡散モデルがセマンティクスのセグメンテーションの手段として,特にラベル付きデータが不足している場合のセグメンテーションにおいて有効であることを示す。 特に,いくつかの事前学習された拡散モデルについて,逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。 これらのアクティベーションは、入力画像から意味情報を効果的に捉え、セグメンテーション問題に対する優れた画素レベル表現であることを示す。 これらの観測に基づいて,少数のトレーニング画像が提供されても動作可能な,単純なセグメンテーション手法について述べる。 私たちのアプローチは、同じ量の人間の監督のために、複数のデータセットで既存の代替案を大幅に上回っています。

Denoising diffusion probabilistic models have recently received much research attention since they outperform alternative approaches, such as GANs, and currently provide state-of-the-art generative performance. The superior performance of diffusion models has made them an appealing tool in several applications, including inpainting, super-resolution, and semantic editing. In this paper, we demonstrate that diffusion models can also serve as an instrument for semantic segmentation, especially in the setup when labeled data is scarce. In particular, for several pretrained diffusion models, we investigate the intermediate activations from the networks that perform the Markov step of the reverse diffusion process. We show that these activations effectively capture the semantic information from an input image and appear to be excellent pixel-level representations for the segmentation problem. Based on these observations, we describe a simple segmentation method, which can work even if only a few training images are provided. Our approach significantly outperforms the existing alternatives on several datasets for the same amount of human supervision.
翻訳日:2021-12-07 20:04:56 公開日:2021-12-06
# (参考訳) カップリングを伴うバウンディングワッサースタイン距離

Bounding Wasserstein distance with couplings ( http://arxiv.org/abs/2112.03152v1 )

ライセンス: CC BY 4.0
Niloy Biswas and Lester Mackey(参考訳) マルコフ連鎖モンテカルロ (mcmc) は、反復数が無限になりがちであるため、難解な後方期待の漸近的に一貫した推定を提供する。 しかし、大規模なデータアプリケーションでは、MCMCは反復ごとに計算コストがかかる。 これは、計算速度の向上のために漸近的整合性をトレードオフする近似MCMCのようなサンプリング手法への関心を喚起した。 本稿では,マルコフ連鎖のカップリングに基づく推定器を提案する。 推定器は, 漸近偏差サンプリング法の限界分布と, 関心の本来の目標分布との間に, ワッサーテイン距離の実験的上限を与える。 我々は,上界の理論的保証を確立し,高次元における推定値の有効性を示す。 我々は,高次データに対する確率的勾配mcmc,変分ベイズ,ラプラス近似,および4500次元のベイズロジスティック回帰と50000次元のベイズ線形回帰に対する近似mcmcに対して品質尺度を適用する。

Markov chain Monte Carlo (MCMC) provides asymptotically consistent estimates of intractable posterior expectations as the number of iterations tends to infinity. However, in large data applications, MCMC can be computationally expensive per iteration. This has catalyzed interest in sampling methods such as approximate MCMC, which trade off asymptotic consistency for improved computational speed. In this article, we propose estimators based on couplings of Markov chains to assess the quality of such asymptotically biased sampling methods. The estimators give empirical upper bounds of the Wassertein distance between the limiting distribution of the asymptotically biased sampling method and the original target distribution of interest. We establish theoretical guarantees for our upper bounds and show that our estimators can remain effective in high dimensions. We apply our quality measures to stochastic gradient MCMC, variational Bayes, and Laplace approximations for tall data and to approximate MCMC for Bayesian logistic regression in 4500 dimensions and Bayesian linear regression in 50000 dimensions.
翻訳日:2021-12-07 19:50:56 公開日:2021-12-06
# (参考訳) UniLog: 1つのモデルをデプロイして、すべてのログ分析タスクに特化 [全文訳有]

UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks ( http://arxiv.org/abs/2112.03159v1 )

ライセンス: CC BY 4.0
Yichen Zhu and Weibin Meng and Ying Liu and Shenglin Zhang and Tao Han and Shimin Tao and Dan Pei(参考訳) UniLog: 1つのモデルをデプロイして、すべてのログ分析タスクに特化

UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks
翻訳日:2021-12-07 19:49:22 公開日:2021-12-06
# (参考訳) HIVE:視覚説明の人間の解釈可能性の評価 [全文訳有]

HIVE: Evaluating the Human Interpretability of Visual Explanations ( http://arxiv.org/abs/2112.03184v1 )

ライセンス: CC BY 4.0
Sunnie S. Y. Kim and Nicole Meister and Vikram V. Ramaswamy and Ruth Fong and Olga Russakovsky(参考訳) 機械学習がハイインパクトでハイリスクなドメインにますます適用されるにつれて、AIモデルをより人間的に解釈可能なものにするための新しい方法がいくつかある。 近年の解釈可能性研究の進展にもかかわらず,提案手法の体系的評価が不足している。 本研究では,コンピュータビジョンにおける多種多様な解釈可能性のためのヒューマン・アセスメント・フレームワークHIVE(Human Interpretability of Visual Explanations)を提案する。 我々は,人的学習が,その方法がユーザにとっていかに解釈可能かを適切に評価する上で,金の標準であるべきだと論じる。 コスト,研究設計,クロスメソッド比較に関連する課題から,人間の研究は避けられがちだが,我々のフレームワークは,これらの問題を緩和し,解釈可能性の多様性を表す4つの方法(GradCAM, BagNet, ProtoPNet, ProtoTree)をIRBが承認した研究を行っている。 以上の結果から,(実際に正しいかどうかは別として)人的信頼を保ちつつも,正確な予測と誤予測を区別するには十分でないことが示唆された。 最後に、我々のフレームワークをオープンソース化し、将来の研究を可能にし、解釈可能性に対するより人間中心のアプローチを奨励します。

As machine learning is increasingly applied to high-impact, high-risk domains, there have been a number of new methods aimed at making AI models more human interpretable. Despite the recent growth of interpretability work, there is a lack of systematic evaluation of proposed techniques. In this work, we propose a novel human evaluation framework HIVE (Human Interpretability of Visual Explanations) for diverse interpretability methods in computer vision; to the best of our knowledge, this is the first work of its kind. We argue that human studies should be the gold standard in properly evaluating how interpretable a method is to human users. While human studies are often avoided due to challenges associated with cost, study design, and cross-method comparison, we describe how our framework mitigates these issues and conduct IRB-approved studies of four methods that represent the diversity of interpretability works: GradCAM, BagNet, ProtoPNet, and ProtoTree. Our results suggest that explanations (regardless of if they are actually correct) engender human trust, yet are not distinct enough for users to distinguish between correct and incorrect predictions. Lastly, we also open-source our framework to enable future studies and to encourage more human-centered approaches to interpretability.
翻訳日:2021-12-07 19:31:07 公開日:2021-12-06
# (参考訳) 機械学習時代の集団変数発見:現実、誇大宣伝、そしてその間にあるすべて

Collective variable discovery in the age of machine learning: reality, hype and everything in between ( http://arxiv.org/abs/2112.03202v1 )

ライセンス: CC BY 4.0
Soumendranath Bhakat(参考訳) 生体分子の運動学と熱力学のプロファイルを理解することは、その機能的役割を理解するために必要である。 分子動力学シミュレーションは、生体分子のコンフォメーションダイナミクスと分子認識を理解するために日常的に用いられている。 分子動力学シミュレーションから生成される高次元時空間データの統計的解析は、情報を失うことなくシステムの本質的なダイナミクスを記述できる少数の低次元変数の同定を必要とする。 物理化学では、これらの低次元変数はしばしば集合変数と呼ばれる。 集団変数を用いて自由エネルギー表面の還元表現を生成し、異なる準安定盆地間の遷移確率を計算する。 しかし、集合変数の選択は複素系では自明ではない。 集合変数は、距離、二面角などの幾何学的基準から、複数の幾何学的変数の重み付け線形結合のような抽象的な基準まで様々である。 機械学習アルゴリズムの出現は、生体分子のダイナミクスを表現するために抽象的集団変数の使用の増加につながった。 本稿では,幾何変数から抽象変数まで,多種多様な集合変数のニュアンスについて概説する。 さらに、原則として幾何学的な記述が可能であった単純なシステムを記述するために、機械学習ベースの集団変数が使われたケースもいくつか挙げる。 最後に、分子動力学シミュレーションによって生成された時空間データから集団変数を発見し、予測する方法について、人工知能に関する私の考えを述べる。

Understanding kinetics and thermodynamics profile of biomolecules is necessary to understand their functional roles which has a major impact in mechanism driven drug discovery. Molecular dynamics simulation has been routinely used to understand conformational dynamics and molecular recognition in biomolecules. Statistical analysis of high-dimensional spatiotemporal data generated from molecular dynamics simulation requires identification of few low-dimensional variables which can describe essential dynamics of a system without significant loss of informations. In physical chemistry, these low-dimensional variables often called collective variables. Collective variables are used to generated reduced representation of free energy surface and calculate transition probabilities between different metastable basins. However the choice of collective variables is not trivial for complex systems. Collective variables ranges from geometric criteria's such as distances, dihedral angles to abstract ones such as weighted linear combinations of multiple geometric variables. Advent of machine learning algorithms led to increasing use of abstract collective variables to represent biomolecular dynamics. In this review, I will highlight several nuances of commonly used collective variables ranging from geometric to abstract ones. Further, I will put forward some cases where machine learning based collective variables were used to describe simple systems which in principle could have been described by geometric ones. Finally, I will put forward my thoughts on artificial general intelligence and how it can be used to discover and predict collective variables from spatiotemporal data generated by molecular dynamics simulations.
翻訳日:2021-12-07 19:10:37 公開日:2021-12-06
# (参考訳) 各種計量における1中心の複雑さについて [全文訳有]

On Complexity of 1-Center in Various Metrics ( http://arxiv.org/abs/2112.03222v1 )

ライセンス: CC BY 4.0
Amir Abboud, MohammadHossein Bateni, Vincent Cohen-Addad, Karthik C. S., and Saeed Seddighin(参考訳) 古典的な1中心問題を考える: 計量空間の n 個の点の集合 P が与えられたとき、P の他の点への最大距離を最小化する点を求める。 この1-center問題の結果は,d に基づいて次のように分類できる。 $\bullet$ small d: 固定次元 $\ell_1$ メトリックにおける 1 中心問題に対する最初の線形時間アルゴリズムを提供する。 一方、hicking set conjecture (hsc) を仮定すると、$d=\omega(\log n)$ の場合、$\ell_p$-metrics のいずれか、あるいは編集や ulam メトリクスにおいて、1-center 問題を解くアルゴリズムは存在しない。 $\bullet$ Large d. d=\Omega(n)$ の場合、条件付き下限を拡張して1中心問題に対する準準アルゴリズムを(量子化SETHを仮定して)編集する。 一方、実行時間は$\tilde{o_{\epsilon}}(nd+n^2\sqrt{d})$である。 また、上記の下限のいくつかを近似や次元 d の縮小によって強化するが、すべての必要解をリストアップするより弱いアルゴリズムのクラスに対してのみ適用する。 さらに,n個の文字列のセットが与えられた場合,編集距離の和をセット内の他の文字列の和に最小化する文字列を見つけることを目標とする,編集メートル法でよく検討された1-median問題に対する下位4次アルゴリズムを除外するために,難易度を1つ拡張した。

We consider the classic 1-center problem: Given a set P of n points in a metric space find the point in P that minimizes the maximum distance to the other points of P. We study the complexity of this problem in d-dimensional $\ell_p$-metrics and in edit and Ulam metrics over strings of length d. Our results for the 1-center problem may be classified based on d as follows. $\bullet$ Small d: We provide the first linear-time algorithm for 1-center problem in fixed-dimensional $\ell_1$ metrics. On the other hand, assuming the hitting set conjecture (HSC), we show that when $d=\omega(\log n)$, no subquadratic algorithm can solve 1-center problem in any of the $\ell_p$-metrics, or in edit or Ulam metrics. $\bullet$ Large d. When $d=\Omega(n)$, we extend our conditional lower bound to rule out sub quartic algorithms for 1-center problem in edit metric (assuming Quantified SETH). On the other hand, we give a $(1+\epsilon)$-approxima tion for 1-center in Ulam metric with running time $\tilde{O_{\epsilon}}(nd+n^2\sqrt{d})$. We also strengthen some of the above lower bounds by allowing approximations or by reducing the dimension d, but only against a weaker class of algorithms which list all requisite solutions. Moreover, we extend one of our hardness results to rule out subquartic algorithms for the well-studied 1-median problem in the edit metric, where given a set of n strings each of length n, the goal is to find a string in the set that minimizes the sum of the edit distances to the rest of the strings in the set.
翻訳日:2021-12-07 19:09:18 公開日:2021-12-06
# 高速ゲートリカレントアプローチによる自動運転車用インテリジェント音響モジュール

Intelligent Acoustic Module for Autonomous Vehicles using Fast Gated Recurrent approach ( http://arxiv.org/abs/2112.03174v1 )

ライセンス: Link先を確認
Raghav Rawat, Shreyash Gupta, Shreyas Mohapatra, Sujata Priyambada Mishra, Sreesankar Rajagopal(参考訳) 本稿では,資源制約エッジデバイスにおける音響シングル・マルチトーン分類のモデルを明らかにする。 提案したモデルは、最先端の高速安定Tiny Gated Recurrent Neural Networkである。 このモデルでは,より効率のよいパラメータとノイズ低減アルゴリズムを用いることで,従来の仮定手法と比較して性能指標の改善と小型化を実現している。 このモデルはアコースティックAIモジュールとして実装されており、自動走行車のようなAIシステムへのサウンド識別、ローカライゼーション、デプロイメントの適用に重点を置いている。 さらに、ローカライゼーション技術の導入は、将来都市や発展途上国の需要が増加するにつれて、自動運転車に存在するマルチトン分類器に新たな次元を追加する可能性をもたらす。

This paper elucidates a model for acoustic single and multi-tone classification in resource constrained edge devices. The proposed model is of State-of-the-art Fast Accurate Stable Tiny Gated Recurrent Neural Network. This model has resulted in improved performance metrics and lower size compared to previous hypothesized methods by using lesser parameters with higher efficiency and employment of a noise reduction algorithm. The model is implemented as an acoustic AI module, focused for the application of sound identification, localization, and deployment on AI systems like that of an autonomous car. Further, the inclusion of localization techniques carries the potential of adding a new dimension to the multi-tone classifiers present in autonomous vehicles, as its demand increases in urban cities and developing countries in the future.
翻訳日:2021-12-07 18:36:00 公開日:2021-12-06
# (参考訳) 変化点回帰のためのクロスバリデーション:落とし穴と解決策

Cross-validation for change-point regression: pitfalls and solutions ( http://arxiv.org/abs/2112.03220v1 )

ライセンス: CC BY 4.0
Florian Pein and Rajen D. Shah(参考訳) クロスバリデーションは、多くの非パラメトリック回帰問題においてパラメータ選択をチューニングするための標準的なアプローチである。 しかし、その使用は変化点回帰においてあまり一般的ではなく、おそらくその予測誤差に基づく基準は小さな急激な変化を許容し、したがって変化点の数と位置を推定するのに適さないと考えられる。 実際、二乗誤差損失を伴うクロスバリデーションの問題はより厳格であり、変更点数を体系的に過小評価し、変更が容易に検出できる単純な設定で平均関数を高最適に推定する可能性がある。 本稿では,2つの簡単な方法を提案する。まず,2乗誤差損失よりも絶対誤差を用いること,そして2つは,使用したホールドアウトセットを変更することである。 後者の場合、一般的な変更点推定手順に対して、変更点数の一貫した推定を可能にする条件を提供する。 これらの条件は,不正確な変更点数を付与した場合,その性能に関する新たな結果を用いて,最適分割に満足することを示す。 数値実験により、特に絶対誤差法は、誤差分布が適切に特定されている場合の古典的チューニングパラメータ選択を用いた共通変化点法と競合するが、これらを不特定モデルで大幅に上回ることを示す。 提案手法の実装は,CRAN上のRパッケージクロスバリデーションCPで利用可能である。

Cross-validation is the standard approach for tuning parameter selection in many non-parametric regression problems. However its use is less common in change-point regression, perhaps as its prediction error-based criterion may appear to permit small spurious changes and hence be less well-suited to estimation of the number and location of change-points. We show that in fact the problems of cross-validation with squared error loss are more severe and can lead to systematic under- or over-estimation of the number of change-points, and highly suboptimal estimation of the mean function in simple settings where changes are easily detectable. We propose two simple approaches to remedy these issues, the first involving the use of absolute error rather than squared error loss, and the second involving modifying the holdout sets used. For the latter, we provide conditions that permit consistent estimation of the number of change-points for a general change-point estimation procedure. We show these conditions are satisfied for optimal partitioning using new results on its performance when supplied with the incorrect number of change-points. Numerical experiments show that the absolute error approach in particular is competitive with common change-point methods using classical tuning parameter choices when error distributions are well-specified, but can substantially outperform these in misspecified models. An implementation of our methodology is available in the R package crossvalidationCP on CRAN.
翻訳日:2021-12-07 18:34:55 公開日:2021-12-06
# ml攻撃モデル: 敵対的攻撃とデータ中毒攻撃

ML Attack Models: Adversarial Attacks and Data Poisoning Attacks ( http://arxiv.org/abs/2112.02797v1 )

ライセンス: Link先を確認
Jing Lin, Long Dang, Mohamed Rahouti, and Kaiqi Xiong(参考訳) 多くの最先端MLモデルは、画像分類などの様々なタスクにおいて人間よりも優れています。 このような卓越した性能で、MLモデルは今日では広く使われている。 しかし、敵攻撃やデータ中毒攻撃の存在は、MLモデルの堅牢性に疑問を呈している。 例えばengstromらは、最先端の画像分類器が任意の画像上の小さな回転によって容易に騙されることを示した。 mlシステムは安全性とセキュリティに敏感なアプリケーションに統合されつつあるため、逆襲やデータ中毒攻撃は大きな脅威となる。 この章は、MLセキュリティの2つの広く重要な領域、すなわち、敵対的攻撃とデータ中毒攻撃に焦点を当てている。

Many state-of-the-art ML models have outperformed humans in various tasks such as image classification. With such outstanding performance, ML models are widely used today. However, the existence of adversarial attacks and data poisoning attacks really questions the robustness of ML models. For instance, Engstrom et al. demonstrated that state-of-the-art image classifiers could be easily fooled by a small rotation on an arbitrary image. As ML systems are being increasingly integrated into safety and security-sensitive applications, adversarial attacks and data poisoning attacks pose a considerable threat. This chapter focuses on the two broad and important areas of ML security: adversarial attacks and data poisoning attacks.
翻訳日:2021-12-07 18:30:55 公開日:2021-12-06
# 蒸留ドメインランダム化

Distilled Domain Randomization ( http://arxiv.org/abs/2112.03149v1 )

ライセンス: Link先を確認
Julien Brosseit, Benedikt Hahner, Fabio Muratore, Michael Gienger, Jan Peters(参考訳) 深層強化学習は、ロボットの制御ポリシーをスクラッチから学習する効果的なツールである。 しかし、これらの手法は、実際のロボットで収集するのが違法に高価である大量の訓練データで悪名高い。 非常に人気のある代替手段はシミュレーションから学び、より高速で安全で安価にデータを生成できるようにすることである。 全てのシミュレータは単なる現実のモデルであるため、シミュレーションと実際のデータの間には必然的な違いがあり、しばしば「現実ギャップ」と呼ばれる。 このギャップを埋めるために、多くのアプローチはシミュレータ上の分布から一つのポリシーを学ぶ。 本稿では,ランダム化物理シミュレーションによる強化学習と政策蒸留を組み合わせることを提案する。 我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、最初にサンプリングされたドメインの専門家であるいわゆる教師ポリシーを、後に展開された学生ポリシーに蒸留する。 このようにして、DiDoRは、シミュレーションから現実へ直接転送するコントローラ、すなわち、ターゲットドメインからのデータを必要とせずに学習する。 didorを3つのsim-to-simおよび2つのsim-to-real実験で3つのベースラインと比較した。 以上の結果から,DiDoRでトレーニングしたポリシのターゲットドメイン性能は,ベースラインよりも同等かそれ以上であることがわかった。 さらに,本手法では,必要なメモリ容量や処理時間も向上せず,学習したコントローラのデプロイに失敗する可能性がある。

Deep reinforcement learning is an effective tool to learn robot control policies from scratch. However, these methods are notorious for the enormous amount of required training data which is prohibitively expensive to collect on real robots. A highly popular alternative is to learn from simulations, allowing to generate the data much faster, safer, and cheaper. Since all simulators are mere models of reality, there are inevitable differences between the simulated and the real data, often referenced as the 'reality gap'. To bridge this gap, many approaches learn one policy from a distribution over simulators. In this paper, we propose to combine reinforcement learning from randomized physics simulations with policy distillation. Our algorithm, called Distilled Domain Randomization (DiDoR), distills so-called teacher policies, which are experts on domains that have been sampled initially, into a student policy that is later deployed. This way, DiDoR learns controllers which transfer directly from simulation to reality, i.e., without requiring data from the target domain. We compare DiDoR against three baselines in three sim-to-sim as well as two sim-to-real experiments. Our results show that the target domain performance of policies trained with DiDoR is en par or better than the baselines'. Moreover, our approach neither increases the required memory capacity nor the time to compute an action, which may well be a point of failure for successfully deploying the learned controller.
翻訳日:2021-12-07 18:30:47 公開日:2021-12-06
# 修正フェールクラスタ編集

Modification-Fair Cluster Editing ( http://arxiv.org/abs/2112.03183v1 )

ライセンス: Link先を確認
Vincent Froese, Leon Kellerhals, and Rolf Niedermeier(参考訳) 古典的なクラスタ編集問題(相関クラスタリング(英語版)とも呼ばれる)は、少数のエッジ修正により、与えられたグラフをクランプ(クラスタ)の解離結合に変換するよう要求する。 頂点色グラフ(サブグループを表す色)に適用した場合、NPハードクラスタ編集問題の標準的なアルゴリズムは、データのサブグループ(例えば、人口統計群)に偏った解を導き、サブグループのメンバーに発生する修正数で測定する。 本稿では,各サブグループに対する編集回数がそのサイズに比例することを保証する修正公平性制約を提案する。 まず,2つの頂点色を持つグラフの修正・フェアクラスタ編集について検討する。 古典的な「非フェア」設定では、このケースは自明に多項式時間で解くことができる。 しかし、より一般的な編集形式では、修正・フェア変種はエッジの編集数に対して固定パラメータの扱いが可能だ。 これらを補完し、実世界のソーシャルネットワーク上でのモデルに関する実証的な分析を行い、修正対フェアネスの価格が驚くほど低いこと、すなわち最適な修正対フェアのコストが最適の「非フェア」ソリューションのコストとわずかに異なることを発見した。

The classic Cluster Editing problem (also known as Correlation Clustering) asks to transform a given graph into a disjoint union of cliques (clusters) by a small number of edge modifications. When applied to vertex-colored graphs (the colors representing subgroups), standard algorithms for the NP-hard Cluster Editing problem may yield solutions that are biased towards subgroups of data (e.g., demographic groups), measured in the number of modifications incident to the members of the subgroups. We propose a modification fairness constraint which ensures that the number of edits incident to each subgroup is proportional to its size. To start with, we study Modification-Fair Cluster Editing for graphs with two vertex colors. We show that the problem is NP-hard even if one may only insert edges within a subgroup; note that in the classic "non-fair" setting, this case is trivially polynomial-time solvable. However, in the more general editing form, the modification-fair variant remains fixed-parameter tractable with respect to the number of edge edits. We complement these and further theoretical results with an empirical analysis of our model on real-world social networks where we find that the price of modification-fairnes s is surprisingly low, that is, the cost of optimal modification-fair differs from the cost of optimal "non-fair" solutions only by a small percentage.
翻訳日:2021-12-07 18:29:15 公開日:2021-12-06
# 音声変換のための条件付き深層可変オートエンコーダ

Conditional Deep Hierarchical Variational Autoencoder for Voice Conversion ( http://arxiv.org/abs/2112.02796v1 )

ライセンス: Link先を確認
Kei Akuzawa, Kotaro Onishi, Keisuke Takiguchi, Kohki Mametani, Koichiro Mori(参考訳) 変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。 補助的損失の活用や潜伏変数の離散化に着目したVAE-VCの研究と異なり, モデル表現の増大がVAE-VCに与える影響について検討する。 具体的には、VAE-VCを周波数歪みの観点から分析し、変換された音声の類似性と自然性を反映するため、VAE-VCにはモデル表現性が重要であることを指摘する。 そこで本研究では,非自己回帰デコーダによる高速変換速度に加えて,高いモデル表現性を有する深い階層型vaeを用いた新しいvc法を提案する。 また,vaesの潜在変数が冗長な情報を持つ場合,類似性が低下する問題も解析により明らかにする。 この問題は、$\beta$-VAEの目的を用いて潜伏変数に含まれる情報を制御することで解決する。 VCTKコーパスを用いた実験では,従来の自己エンコーダを用いたVC法よりも高いジェンダー間設定における自然性および類似性において,平均スコアが3.5以上の結果を得た。

Variational autoencoder-based voice conversion (VAE-VC) has the advantage of requiring only pairs of speeches and speaker labels for training. Unlike the majority of the research in VAE-VC which focuses on utilizing auxiliary losses or discretizing latent variables, this paper investigates how an increasing model expressiveness has benefits and impacts on the VAE-VC. Specifically, we first analyze VAE-VC from a rate-distortion perspective, and point out that model expressiveness is significant for VAE-VC because rate and distortion reflect similarity and naturalness of converted speeches. Based on the analysis, we propose a novel VC method using a deep hierarchical VAE, which has high model expressiveness as well as having fast conversion speed thanks to its non-autoregressive decoder. Also, our analysis reveals another problem that similarity can be degraded when the latent variable of VAEs has redundant information. We address the problem by controlling the information contained in the latent variable using $\beta$-VAE objective. In the experiment using VCTK corpus, the proposed method achieved mean opinion scores higher than 3.5 on both naturalness and similarity in inter-gender settings, which are higher than the scores of existing autoencoder-based VC methods.
翻訳日:2021-12-07 18:25:41 公開日:2021-12-06
# バンドフィードバックを持つ強いモノトーンゲームにおける最適非線形学習

Optimal No-Regret Learning in Strongly Monotone Games with Bandit Feedback ( http://arxiv.org/abs/2112.02856v1 )

ライセンス: Link先を確認
Tianyi Lin, Zhengyuan Zhou, Wenjia Ba, Jiawei Zhang(参考訳) 各エージェントは、その勾配ではなく、すべてのプレイヤーの現在の共同アクションによって決定される、各時点における報酬のみを観察する。 我々は,滑らかで強いモノトーンゲームのクラスに注目し,そこでの最適ノンリグレット学習を考察する。 自己一致バリア関数を活用することで,オンラインバンディット凸最適化アルゴリズムをまず構築し,平滑かつ強コンケーブなペイオフ関数の下で$\tilde{\theta}(\sqrt{t})$の単一エージェント最適後悔を達成することを示す。 すると、各エージェントがこの非回帰学習アルゴリズムを強い単調ゲームに適用すると、結合作用は、$\tilde{\Theta}(1/\sqrt{T})$の速度で、一意なナッシュ平衡に収束する。 我々の研究に先立ち、同じゲームのクラスにおける最良の知識収束率は$O(1/T^{1/3})$(異なるアルゴリズムによって達成される)であり、したがって最適な非回帰学習アルゴリズムの問題を解き放つ(既知の下界は$\Omega(1/\sqrt{T})$)。 そこで本研究では,この開放的課題を解決し,第1次バンディット最適学習アルゴリズムを同定することで,バンディットゲーム理論的学習の広い景観に寄与し,単一エージェント学習における最適後悔とマルチエージェント学習における最適ラストイテレート収束率の両方を(ログファクターまで)達成する。 また,提案アルゴリズムの有効性を実証するため,いくつかのシミュレーション研究 (Cournot competition, Kelly auctions, distributed regularized logistic regression) の結果も提示した。

We consider online no-regret learning in unknown games with bandit feedback, where each agent only observes its reward at each time -- determined by all players' current joint action -- rather than its gradient. We focus on the class of smooth and strongly monotone games and study optimal no-regret learning therein. Leveraging self-concordant barrier functions, we first construct an online bandit convex optimization algorithm and show that it achieves the single-agent optimal regret of $\tilde{\Theta}(\sqrt{T})$ under smooth and strongly-concave payoff functions. We then show that if each agent applies this no-regret learning algorithm in strongly monotone games, the joint action converges in \textit{last iterate} to the unique Nash equilibrium at a rate of $\tilde{\Theta}(1/\sqrt{T})$. Prior to our work, the best-know convergence rate in the same class of games is $O(1/T^{1/3})$ (achieved by a different algorithm), thus leaving open the problem of optimal no-regret learning algorithms (since the known lower bound is $\Omega(1/\sqrt{T})$). Our results thus settle this open problem and contribute to the broad landscape of bandit game-theoretical learning by identifying the first doubly optimal bandit learning algorithm, in that it achieves (up to log factors) both optimal regret in the single-agent learning and optimal last-iterate convergence rate in the multi-agent learning. We also present results on several simulation studies -- Cournot competition, Kelly auctions, and distributed regularized logistic regression -- to demonstrate the efficacy of our algorithm.
翻訳日:2021-12-07 18:25:18 公開日:2021-12-06
# 興味ある人が正直を断念する: 連合学習はプライベートではない

When the Curious Abandon Honesty: Federated Learning Is Not Private ( http://arxiv.org/abs/2112.02918v1 )

ライセンス: Link先を確認
Franziska Boenisch, Adam Dziedzic, Roei Schuster, Ali Shahin Shamsabadi, Ilia Shumailov, Nicolas Papernot(参考訳) フェデレートラーニング(FL)では、データは機械学習モデルを共同でトレーニングしているときに個人デバイスを離れない。 代わりに、これらのデバイスは中央のパーティ(例えば会社)と勾配を共有する。 データがパーソナルデバイスを“残す”ことはないため、flはプライバシ保護として提示される。 しかし近年,この保護は薄いファサードに過ぎず,着地勾配を観察するパッシブアタッカーでも個々のユーザーのデータを再構築できることが明らかとなった。 本稿では,先行研究がいまだflの脆弱性を過小評価していると論じる。 これは、それまでの努力が、正直だが正確である受動的攻撃者のみを考慮していたためである。 代わりに、ユーザがモデル勾配を計算する前に共有モデルの重みを変更できる中央党として行動するアクティブで不正な攻撃者を紹介します。 我々は修正重量を「トラップ重量」と呼ぶ。 私たちのアクティブアタッカーは、ユーザーデータを完璧に、ほぼゼロのコストで復元することができます。 代わりに、モデル勾配から固有のデータ漏洩を利用して、共有モデルの重みを悪意を持って変更することで、この効果を増幅する。 これらの特異性により、当社の攻撃は、大規模なミニバッチでトレーニングされたモデルにスケールすることができる。 先行研究のアタッカーが1つのデータポイントを回復するのに何時間もかかる場合,本手法では,完全接続型と畳み込み型の両方の深層ニューラルネットワークからデータの完全なミニバッチをキャプチャするためにミリ秒を要する。 最後に、緩和について考察する。 FLにおける差分プライバシー(DP)の現在の実装は、DPノイズを付加する重要なタスクを中央党に明示的に信頼しており、悪意のある中央党に対する保護を提供していないため、欠陥があることを観察する。 また、他の防衛策も検討し、それらが同様に不十分である理由を説明します。 ユーザに対して有意義なデータプライバシを提供するためには,FLの大幅な再設計が必要である。

In federated learning (FL), data does not leave personal devices when they are jointly training a machine learning model. Instead, these devices share gradients with a central party (e.g., a company). Because data never "leaves" personal devices, FL is presented as privacy-preserving. Yet, recently it was shown that this protection is but a thin facade, as even a passive attacker observing gradients can reconstruct data of individual users. In this paper, we argue that prior work still largely underestimates the vulnerability of FL. This is because prior efforts exclusively consider passive attackers that are honest-but-curious. Instead, we introduce an active and dishonest attacker acting as the central party, who is able to modify the shared model's weights before users compute model gradients. We call the modified weights "trap weights". Our active attacker is able to recover user data perfectly and at near zero costs: the attack requires no complex optimization objectives. Instead, it exploits inherent data leakage from model gradients and amplifies this effect by maliciously altering the weights of the shared model. These specificities enable our attack to scale to models trained with large mini-batches of data. Where attackers from prior work require hours to recover a single data point, our method needs milliseconds to capture the full mini-batch of data from both fully-connected and convolutional deep neural networks. Finally, we consider mitigations. We observe that current implementations of differential privacy (DP) in FL are flawed, as they explicitly trust the central party with the crucial task of adding DP noise, and thus provide no protection against a malicious central party. We also consider other defenses and explain why they are similarly inadequate. A significant redesign of FL is required for it to provide any meaningful form of data privacy to users.
翻訳日:2021-12-07 18:24:42 公開日:2021-12-06
# (参考訳) doodleformer:トランスフォーマーを使ったクリエイティブなスケッチ [全文訳有]

DoodleFormer: Creative Sketch Drawing with Transformers ( http://arxiv.org/abs/2112.03258v1 )

ライセンス: CC BY 4.0
Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan, Jorma Laaksonen, Michael Felsberg(参考訳) 創造的なスケッチやドーリングは表現力に富んだ活動であり、想像力に富み、以前は目に見えない日常の視覚物体の描写が描かれる。 クリエイティビティスケッチ画像生成は、ビジュアルワールドオブジェクトの目に見えない構成を持つ多様な、しかし現実的なクリエイティビティスケッチを生成するというタスクにおいて、困難なビジョン問題である。 そこで本稿では,創造的スケッチ生成問題を粗いスケッチ構成に分解し,さらに細部を組み込んだ,新しい粗面から細部までの2段階の枠組みであるdoodleformerを提案する。 グラフ対応トランスフォーマーエンコーダを導入し,グローバルな動的および局所的な静的な構造的関係を効果的に捉える。 生成した創作スケッチの多様性を確保するため,各スケッチ本体部の変動を明示的にモデル化する確率論的粗いスケッチデコーダを導入する。 実験はCreative BirdsとCreative Creaturesの2つのクリエイティブスケッチデータセットで実施されている。 質的、定量的、人間に基づく評価では、DoodleFormerは両方のデータセットで最先端のパフォーマンスを示し、現実的で多様なクリエイティブスケッチを生み出します。 Creative Creaturesでは、DoodleFormerは最先端のFr`echet開始距離(FID)で25という絶対的なゲインを達成した。 また,テキストの創造的スケッチ生成とスケッチ補完への応用について,DoodleFormerの有効性を示す。

Creative sketching or doodling is an expressive activity, where imaginative and previously unseen depictions of everyday visual objects are drawn. Creative sketch image generation is a challenging vision problem, where the task is to generate diverse, yet realistic creative sketches possessing the unseen composition of the visual-world objects. Here, we propose a novel coarse-to-fine two-stage framework, DoodleFormer, that decomposes the creative sketch generation problem into the creation of coarse sketch composition followed by the incorporation of fine-details in the sketch. We introduce graph-aware transformer encoders that effectively capture global dynamic as well as local static structural relations among different body parts. To ensure diversity of the generated creative sketches, we introduce a probabilistic coarse sketch decoder that explicitly models the variations of each sketch body part to be drawn. Experiments are performed on two creative sketch datasets: Creative Birds and Creative Creatures. Our qualitative, quantitative and human-based evaluations show that DoodleFormer outperforms the state-of-the-art on both datasets, yielding realistic and diverse creative sketches. On Creative Creatures, DoodleFormer achieves an absolute gain of 25 in terms of Fr`echet inception distance (FID) over the state-of-the-art. We also demonstrate the effectiveness of DoodleFormer for related applications of text to creative sketch generation and sketch completion.
翻訳日:2021-12-07 18:22:22 公開日:2021-12-06
# 円筒LiDAR画像によるリアルタイム登録と再構成

Real-time Registration and Reconstruction with Cylindrical LiDAR Images ( http://arxiv.org/abs/2112.02779v1 )

ライセンス: Link先を確認
Wei Dong, Kwonyoung Ryu, Michael Kaess, Jaesik Park(参考訳) LiDARデータのスピン化は3次元知覚タスクに多いが、円筒形状の研究は少ない。 従来の方法ではスキャンを点雲とみなし、ユークリッドの高額な3D近傍でデータアソシエーションを探索するか、さらなる処理のために投影された範囲画像に依存する。 我々はLiDARスキャンの生成を再検討し、効率的なキャリブレーション球面射影モデルを備えた生スキャンデータに対する円筒レンジ画像表現を提案する。 私たちの定式化によって 1) 擬似的真理ポーズを伴う屋内及び屋外両方のシーケンスからなるLiDARデータの大規模なデータセットを収集する。 2) 合成及び実世界の変換によるシーケンスの投影的及び従来的な登録手法の評価 3)最先端のrgb-dアルゴリズムをlidarに転送し、登録には180hz、高密度復元には150hzを動作させる。 データセットとツールがリリースされる。

Spinning LiDAR data are prevalent for 3D perception tasks, yet its cylindrical image form is less studied. Conventional approaches regard scans as point clouds, and they either rely on expensive Euclidean 3D nearest neighbor search for data association or depend on projected range images for further processing. We revisit the LiDAR scan formation and present a cylindrical range image representation for data from raw scans, equipped with an efficient calibrated spherical projective model. With our formulation, we 1) collect a large dataset of LiDAR data consisting of both indoor and outdoor sequences accompanied with pseudo-ground truth poses; 2) evaluate the projective and conventional registration approaches on the sequences with both synthetic and real-world transformations; 3) transfer state-of-the-art RGB-D algorithms to LiDAR that runs up to 180 Hz for registration and 150 Hz for dense reconstruction. The dataset and tools will be released.
翻訳日:2021-12-07 18:02:40 公開日:2021-12-06
# HumanNeRF:スパース入力からの一般化可能なニューラルネットワーク

HumanNeRF: Generalizable Neural Human Radiance Field from Sparse Inputs ( http://arxiv.org/abs/2112.02789v1 )

ライセンス: Link先を確認
Fuqiang Zhao, Wei Yang, Jiakai Zhang, Pei Lin, Yingliang Zhang, Jingyi Yu, Lan Xu(参考訳) 最近のニューラルヒューマン表現は高品質なマルチビューレンダリングを生成できるが、密集したマルチビュー入力と高価なトレーニングを必要とする。 そのため、各フレームのトレーニングが不可能であるため、静的モデルに大きく制限される。 我々は、動的人間の高忠実度自由視点合成のための一般化可能なニューラル表現であるHumanNeRFを提案する。 IBRNetは、シーンごとのトレーニングを回避してNeRFを補助するのと同様に、HumanNeRFでは、複数のビュー入力にまたがる集約されたピクセルアライメント機能と、動的モーションに対処するためのポーズ埋め込み非剛性変形フィールドを採用している。 生のHumanNeRFは、未確認の被写体とカメラ設定のスパースビデオ入力を合理的にレンダリングすることができる。 レンダリング品質をさらに向上するため,我々は,ニューラルボリュームレンダリングとニューラルテクスチャブレンディングの両方の利点を組み合わせた外観ブレンディングモジュールにより,ソリューションを増強した。 様々な多視点動的ヒトデータセットに関する広範囲な実験は、フォトリアリスティックなフリービュー人間を挑戦的な動きで合成し、非常に疎らなカメラビュー入力で合成する手法の一般化可能性と有効性を示している。

Recent neural human representations can produce high-quality multi-view rendering but require using dense multi-view inputs and costly training. They are hence largely limited to static models as training each frame is infeasible. We present HumanNeRF - a generalizable neural representation - for high-fidelity free-view synthesis of dynamic humans. Analogous to how IBRNet assists NeRF by avoiding per-scene training, HumanNeRF employs an aggregated pixel-alignment feature across multi-view inputs along with a pose embedded non-rigid deformation field for tackling dynamic motions. The raw HumanNeRF can already produce reasonable rendering on sparse video inputs of unseen subjects and camera settings. To further improve the rendering quality, we augment our solution with an appearance blending module for combining the benefits of both neural volumetric rendering and neural texture blending. Extensive experiments on various multi-view dynamic human datasets demonstrate the generalizability and effectiveness of our approach in synthesizing photo-realistic free-view humans under challenging motions and with very sparse camera view inputs.
翻訳日:2021-12-07 18:02:24 公開日:2021-12-06
# DemoGrasp: 人間のデモによるロボットグラスピングのためのFew-Shot Learning

DemoGrasp: Few-Shot Learning for Robotic Grasping with Human Demonstration ( http://arxiv.org/abs/2112.02849v1 )

ライセンス: Link先を確認
Pengyuan Wang, Fabian Manhardt, Luca Minciullo, Lorenzo Garattoni, Sven Meie, Nassir Navab and Benjamin Busam(参考訳) オブジェクトをうまく把握する能力は、いくつかのインタラクティブな下流アプリケーションを可能にするため、ロボット工学において不可欠である。 この目的のために、ほとんどのアプローチは、興味の対象に対する完全な6Dポーズを計算するか、あるいは把握点の集合を予測することを学ぶ。 以前のアプローチは、複数のオブジェクトインスタンスやクラスにはまだうまくスケールしていないが、後者は大きなアノテーション付きデータセットを必要とし、新しいジオメトリへの一般化能力の不足によって妨げられている。 これらの欠点を克服するために,簡単な人間によるデモンストレーションで物体の把握方法をロボットに教えることを提案する。 したがって、我々のアプローチは多くの注釈付き画像を必要としないし、特定の幾何学に制限されない。 まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを示す。 このシーケンスを使用して、表現されたインタラクションを表す手とオブジェクトメッシュを構築する。 その後,復元された物体形状の欠落部分を完成させ,再現とシーン内の可視物体との相対的変化を推定する。 最後に、現場における現在の対象ポーズの推定をロボットに必要な把持指示にすることで、対象と人の相対的なポーズからa-priori知識を伝達する。 実環境および合成環境におけるToyotaのヒューマンサポートロボット(HSR)による被ばく評価は,提案手法の適用性と,従来手法と比較して優位性を示す。

The ability to successfully grasp objects is crucial in robotics, as it enables several interactive downstream applications. To this end, most approaches either compute the full 6D pose for the object of interest or learn to predict a set of grasping points. While the former approaches do not scale well to multiple object instances or classes yet, the latter require large annotated datasets and are hampered by their poor generalization capabilities to new geometries. To overcome these shortcomings, we propose to teach a robot how to grasp an object with a simple and short human demonstration. Hence, our approach neither requires many annotated images nor is it restricted to a specific geometry. We first present a small sequence of RGB-D images displaying a human-object interaction. This sequence is then leveraged to build associated hand and object meshes that represent the depicted interaction. Subsequently, we complete missing parts of the reconstructed object shape and estimate the relative transformation between the reconstruction and the visible object in the scene. Finally, we transfer the a-priori knowledge from the relative pose between object and human hand with the estimate of the current object pose in the scene into necessary grasping instructions for the robot. Exhaustive evaluations with Toyota's Human Support Robot (HSR) in real and synthetic environments demonstrate the applicability of our proposed methodology and its advantage in comparison to previous approaches.
翻訳日:2021-12-07 18:02:01 公開日:2021-12-06
# ドメイン適応による非参照ポイントクラウド品質評価

No-Reference Point Cloud Quality Assessment via Domain Adaptation ( http://arxiv.org/abs/2112.02851v1 )

ライセンス: Link先を確認
Qi Yang, Yipeng Liu, Siheng Chen, Yiling Xu, Jun Sun(参考訳) 本稿では,3次元点雲に対する画像伝達点雲品質評価(IT-PCQA)の新たな非参照品質評価指標を提案する。 品質評価のために、ディープニューラルネットワーク(DNN)は、ノン参照メトリック設計において魅力的なパフォーマンスを示している。 しかし、非参照PCQAの最も難しい問題は、ロバストネットワークを駆動する大規模主観データベースがないことである。 我々のモチベーションは、人間の視覚システム(HVS)が質評価のためのメディアの種類に関係なく意思決定者であることです。 自然画像の豊かな主観的スコアを活用して,dnnによる人間の知覚の評価基準を探索し,予測能力を3次元点雲に移すことができる。 特に,自然イメージをソースドメインとして,ポイントクラウドをターゲットドメインとして扱い,教師なしの逆領域適応によってポイントクラウドの品質を推測する。 有効な潜在特徴を抽出し,領域差を最小限に抑えるために,階層型特徴エンコーダと条件付き識別ネットワークを提案する。 最終目的が客観的スコアの後退であると考え,条件付き判別ネットワークにおける新しい条件付きクロスエントロピー損失を導入し,品質回帰ネットワークの収束を妨げる負のサンプルをペナライズする。 実験結果から,提案手法は従来のノン参照指標よりも高い性能が得られることが示された。 提案手法は, 高価で煩雑な主観評価をすることなく, 特定のメディアコンテンツの品質を評価できる可能性も示唆する。

We present a novel no-reference quality assessment metric, the image transferred point cloud quality assessment (IT-PCQA), for 3D point clouds. For quality assessment, deep neural network (DNN) has shown compelling performance on no-reference metric design. However, the most challenging issue for no-reference PCQA is that we lack large-scale subjective databases to drive robust networks. Our motivation is that the human visual system (HVS) is the decision-maker regardless of the type of media for quality assessment. Leveraging the rich subjective scores of the natural images, we can quest the evaluation criteria of human perception via DNN and transfer the capability of prediction to 3D point clouds. In particular, we treat natural images as the source domain and point clouds as the target domain, and infer point cloud quality via unsupervised adversarial domain adaptation. To extract effective latent features and minimize the domain discrepancy, we propose a hierarchical feature encoder and a conditional-discrimi native network. Considering that the ultimate purpose is regressing objective score, we introduce a novel conditional cross entropy loss in the conditional-discrimi native network to penalize the negative samples which hinder the convergence of the quality regression network. Experimental results show that the proposed method can achieve higher performance than traditional no-reference metrics, even comparable results with full-reference metrics. The proposed method also suggests the feasibility of assessing the quality of specific media content without the expensive and cumbersome subjective evaluations.
翻訳日:2021-12-07 18:01:39 公開日:2021-12-06
# 適応的赤外・可視画像超解像融合のためのデータセットなし自己教師付き遠絡学習法

A Dataset-free Self-supervised Disentangled Learning Method for Adaptive Infrared and Visible Images Super-resolution Fusion ( http://arxiv.org/abs/2112.02869v1 )

ライセンス: Link先を確認
Yuanjie Gu, Zhibo Xiao, Hailun Wang, Cheng Liu, and Shouyu Wang(参考訳) 本研究では,新しい汎用データセットフリー自己教師付き学習フレームワークであるself-supervised disentangled learning (sdl) を提案し,赤外線および可視画像の超解像融合において,sdlフレームワークと生成ネットワークとretinex理論を適用したdeep retinex fusion (drf) という新しい手法を提案する。 一方, 生成型デュアルパス核融合ネットワークzippernetと適応核融合損失関数retinex lossは, 効果的に高品質核融合のために設計されている。 drf (based-on sdl) の核となる考え方は、生成ネットワークを用いて物理モデルから切り離されたコンポーネントを生成することと、物理関係に基づいて設計された損失関数と、トレーニングフェーズにおける損失関数によって生成されたコンポーネントを組み合わせることである。 さらに,提案するdrfの有効性を検証するために,3種類の異なる赤外線データと可視データを用いて,6つの最先端法との比較を行った。 私たちのコードは近々https://github.com/G uYuanjie/Deep-Retine x-fusion.comで公開されます。

This study proposes a novel general dataset-free self-supervised learning framework based-on physical model named self-supervised disentangled learning (SDL), and proposes a novel method named Deep Retinex fusion (DRF) which applies SDL framework with generative networks and Retinex theory in infrared and visible images super-resolution fusion. Meanwhile, a generative dual-path fusion network ZipperNet and adaptive fusion loss function Retinex loss are designed for effectively high-quality fusion. The core idea of DRF (based-on SDL) consists of two parts: one is generating components which are disentangled from physical model using generative networks; the other is loss functions which are designed based-on physical relation, and generated components are combined by loss functions in training phase. Furthermore, in order to verify the effectiveness of our proposed DRF, qualitative and quantitative comparisons compared with six state-of-the-art methods are performed on three different infrared and visible datasets. Our code will be open source available soon at https://github.com/G uYuanjie/Deep-Retine x-fusion.
翻訳日:2021-12-07 18:01:14 公開日:2021-12-06
# クラウドソーシングコンテストの招待

Invitation in Crowdsourcing Contests ( http://arxiv.org/abs/2112.02884v1 )

ライセンス: Link先を確認
Qi Shi, Dong Hao(参考訳) クラウドソーシングコンテストでは、タスクを保持している要求者がそれを群衆に投稿します。 群衆の人々は、報酬を獲得するために互いに競います。 実生活では、集団は通常ネットワーク化され、人々は社会的結びつきを通じて影響を及ぼすが、既存のクラウドソーシングコンテスト理論は、対人関係が人々のインセンティブや行動にどのように影響するかを問わないため、クラウドソーシングのパフォーマンスに影響を及ぼす。 本研究では,クラウドソーシングコンテストにおけるエージェントのインセンティブをモデル化し,設計する上で,人々の社会的つながりを重要な要素として捉えた。 次に,要求者が近隣住民を招待してタスクに貢献させる,新たなコンテスト機構を確立する。 このメカニズムは単純なルールであり、エージェントのプレイが非常に簡単です。 我々の平衡分析によれば、ベイズ・ナッシュの均衡エージェントの行動は、内在的な能力に加えて、エージェント間の社会的つながりも意思決定の中心的な役割を担っているという。 その後、招待者クラウドソーシングコンテストのベイズナッシュ均衡を自動的に計算し、さらに大きなグラフに適用する効果的なアルゴリズムを設計する。 理論的および実証的な結果から、招待クラウドソーシングコンテストは、コントリビュータの数を大幅に増やし、大きな広告費を使わずに、より優れたソリューションを得ることができることを示す。

In a crowdsourcing contest, a requester holding a task posts it to a crowd. People in the crowd then compete with each other to win the rewards. Although in real life, a crowd is usually networked and people influence each other via social ties, existing crowdsourcing contest theories do not aim to answer how interpersonal relationships influence peoples' incentives and behaviors, and thereby affect the crowdsourcing performance. In this work, we novelly take peoples' social ties as a key factor in the modeling and designing of agents' incentives for crowdsourcing contests. We then establish a new contest mechanism by which the requester can impel agents to invite their neighbours to contribute to the task. The mechanism has a simple rule and is very easy for agents to play. According to our equilibrium analysis, in the Bayesian Nash equilibrium agents' behaviors show a vast diversity, capturing that besides the intrinsic ability, the social ties among agents also play a central role for decision-making. After that, we design an effective algorithm to automatically compute the Bayesian Nash equilibrium of the invitation crowdsourcing contest and further adapt it to large graphs. Both theoretical and empirical results show that, the invitation crowdsourcing contest can substantially enlarge the number of contributors, whereby the requester can obtain significantly better solutions without a large advertisement expenditure.
翻訳日:2021-12-07 18:00:54 公開日:2021-12-06
# (参考訳) 混合培養細胞の培養訓練のためのexemplarへのアンカー [全文訳有]

Anchoring to Exemplars for Training Mixture-of-Expert Cell Embeddings ( http://arxiv.org/abs/2112.03208v1 )

ライセンス: CC BY 4.0
Siqi Wang, Manyuan Lu, Nikita Moshkov, Juan C. Caicedo, Bryan A. Plummer(参考訳) 顕微鏡画像における細胞の形態解析は、化合物の機構や遺伝子の機能に関する洞察を与えることができる。 この課題に対処するには、画像から生物学的情報を取り出すだけでなく、技術的なバリエーション、実験手順の変更、顕微鏡画像の収集に使われる機器の違いを無視する手法が必要である。 訓練セットの技術的なバリエーションを捉え、テスト時に専門家の予測を集約する専門家のセットを学ぶ、組込み学習アプローチであるmixed-of-experts (teams) による治療例を提案する。 したがってTEAMは、専門家全員のノイズを最小限に抑えることで、技術的偏差の少ない強力な埋め込みを学習することができる。 モデルのトレーニングには、GPUメモリに収まることなく、ミニバッチ毎にデータセット全体の分布をキャプチャするアプローチを可能にする、Process Exemplarsを活用しています。 我々は,薬物発見,細胞治療の真の作用機序の同定における性能の向上など,3つの課題に対するアプローチを5.5-11%の精度で評価した。

Analyzing the morphology of cells in microscopy images can provide insights into the mechanism of compounds or the function of genes. Addressing this task requires methods that can not only extract biological information from the images, but also ignore technical variations, ie, changes in experimental procedure or differences between equipments used to collect microscopy images. We propose Treatment ExemplArs with Mixture-of-experts (TEAMs), an embedding learning approach that learns a set of experts that are specialized in capturing technical variations in our training set and then aggregates specialist's predictions at test time. Thus, TEAMs can learn powerful embeddings with less technical variation bias by minimizing the noise from every expert. To train our model, we leverage Treatment Exemplars that enable our approach to capture the distribution of the entire dataset in every minibatch while still fitting into GPU memory. We evaluate our approach on three datasets for tasks like drug discovery, boosting performance on identifying the true mechanism of action of cell treatments by 5.5-11% over the state-of-the-art.
翻訳日:2021-12-07 17:54:54 公開日:2021-12-06
# timed subgoalsを用いた階層型強化学習

Hierarchical Reinforcement Learning with Timed Subgoals ( http://arxiv.org/abs/2112.03100v1 )

ライセンス: Link先を確認
Nico G\"urtler, Dieter B\"uchler, Georg Martius(参考訳) 階層的強化学習(HRL)は、長期的課題に対するサンプル効率の学習に大きな可能性を秘めている。 特に、より高いレベルのサブゴールを低いレベルに割り当てることによって、難しい問題に対する迅速な学習が可能になることが示されている。 しかし、このようなサブゴールベースの手法は静的強化学習環境を念頭に設計されており、現実の課題に至らず、エージェントの即時制御を超えた動的要素に悩まされている。 本稿では,hplアルゴリズムであるtimed subgoals(hits)を用いた階層的強化学習について紹介する。 このような時間的サブゴールの観点から、低レベルとのコミュニケーションが、より高いレベルのより安定した学習問題をもたらすかについて議論する。 各種標準ベンチマークと3つの新しい動的強化学習環境に関する実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合に,本手法がサンプル効率のよい学習が可能なことを示す。

Hierarchical reinforcement learning (HRL) holds great potential for sample-efficient learning on challenging long-horizon tasks. In particular, letting a higher level assign subgoals to a lower level has been shown to enable fast learning on difficult problems. However, such subgoal-based methods have been designed with static reinforcement learning environments in mind and consequently struggle with dynamic elements beyond the immediate control of the agent even though they are ubiquitous in real-world problems. In this paper, we introduce Hierarchical reinforcement learning with Timed Subgoals (HiTS), an HRL algorithm that enables the agent to adapt its timing to a dynamic environment by not only specifying what goal state is to be reached but also when. We discuss how communicating with a lower level in terms of such timed subgoals results in a more stable learning problem for the higher level. Our experiments on a range of standard benchmarks and three new challenging dynamic reinforcement learning environments show that our method is capable of sample-efficient learning where an existing state-of-the-art subgoal-based HRL method fails to learn stable solutions.
翻訳日:2021-12-07 17:38:52 公開日:2021-12-06
# エントロピー最小化の特性

Properties of Minimizing Entropy ( http://arxiv.org/abs/2112.03143v1 )

ライセンス: Link先を確認
Xu Ji, Lena Nehale-Ezzine, Maksym Korablyov(参考訳) コンパクトデータ表現は、学習関数の一般化を改善するための1つのアプローチである。 エントロピーと濃度の関係を明確に説明し、両尺度のコンパクト性、前者の勾配降下が後者を減少させる方法を含む。 エントロピーは分布に敏感であるが、濃度はそうではない。 期待濃度(英語版)または任意の有限数の引き数における一意な状態の期待数(英語版)は、無視可能な確率質量を持つ状態を割引するので、標準濃度よりも有意義である。 エントロピーの最小化は、期待濃度を最小化する。

Compact data representations are one approach for improving generalization of learned functions. We explicitly illustrate the relationship between entropy and cardinality, both measures of compactness, including how gradient descent on the former reduces the latter. Whereas entropy is distribution sensitive, cardinality is not. We propose a third compactness measure that is a compromise between the two: expected cardinality, or the expected number of unique states in any finite number of draws, which is more meaningful than standard cardinality as it discounts states with negligible probability mass. We show that minimizing entropy also minimizes expected cardinality.
翻訳日:2021-12-07 17:38:35 公開日:2021-12-06
# 顧客サポートボットにおけるコンテキスト帯域アプリケーション

Contextual Bandit Applications in Customer Support Bot ( http://arxiv.org/abs/2112.03210v1 )

ライセンス: Link先を確認
Sandra Sajeev, Jade Huang, Nikos Karampatziakis, Matthew Hall, Sebastian Kochman, and Weizhu Chen(参考訳) 仮想サポートエージェントは、ビジネスがより良く、よりアクセスしやすいカスタマサービスを提供する手段として人気を高めています。 この領域の課題には、あいまいなユーザクエリ、サポートトピックの変更、ユーザ動作(非定常性)などがある。 しかし、ユーザから提供される部分的なフィードバック(クリック、サーベイ、その他のイベント)へのアクセスは、ユーザエクスペリエンスを改善するために利用できます。 文脈的包帯のような適応型学習技術は、この問題設定に自然に適合する。 本稿では,Microsoft 仮想エージェントのコンテキスト的帯域幅 (CB) の現実的実装について論じる。 神経リニア・バンディット(NLB)に基づく意図の曖昧さや、マルチアーム・バンディット(MAB)のコレクションに基づくコンテキストレコメンデーションが含まれる。 私たちのソリューションは本番環境にデプロイされ、A/B実験で確認されたように、Microsoft仮想エージェントの重要なビジネスメトリクスが改善されました。 その結果,問題解決率の12%以上の相対的な増加と,操作者に対するエスカレーションの4%以上の相対的な減少が得られた。 現在のユースケースは、サポートボットに対する意図の曖昧さとコンテキスト的推奨に重点を置いていますが、私たちのメソッドは他のドメインにも拡張できると考えています。

Virtual support agents have grown in popularity as a way for businesses to provide better and more accessible customer service. Some challenges in this domain include ambiguous user queries as well as changing support topics and user behavior (non-stationarity). We do, however, have access to partial feedback provided by the user (clicks, surveys, and other events) which can be leveraged to improve the user experience. Adaptable learning techniques, like contextual bandits, are a natural fit for this problem setting. In this paper, we discuss real-world implementations of contextual bandits (CB) for the Microsoft virtual agent. It includes intent disambiguation based on neural-linear bandits (NLB) and contextual recommendations based on a collection of multi-armed bandits (MAB). Our solutions have been deployed to production and have improved key business metrics of the Microsoft virtual agent, as confirmed by A/B experiments. Results include a relative increase of over 12% in problem resolution rate and relative decrease of over 4% in escalations to a human operator. While our current use cases focus on intent disambiguation and contextual recommendation for support bots, we believe our methods can be extended to other domains.
翻訳日:2021-12-07 17:38:25 公開日:2021-12-06
# CTR予測におけるデバイアスの一般的な枠組み

A General Framework for Debiasing in CTR Prediction ( http://arxiv.org/abs/2112.02767v1 )

ライセンス: Link先を確認
Wenjie Chu, Shen Li, Chao Chen, Longfei Xu, Hengbin Cui, Kaikui Liu(参考訳) 既存のクリックスルー率(CTR)予測のデバレッジ手法のほとんどは、過剰に単純化された仮定、すなわち、クリック確率は観測確率と関連性確率の積である。 しかし、これらの2つの確率の間には複雑な相互作用があるため、クエリオートコンプリート(QAC)やルートレコメンデーションといった他のシナリオには適用できない。 我々は,変数間の関係を単純化することなく,ctr予測におけるすべてのシナリオを処理できる汎用デバイアスフレームワークを提案する。 シミュレーション実験により、最も単純なシナリオでは、我々の手法は最先端の手法と類似したAUCを維持しており、他のシナリオでは既存の手法と比較してかなり改善されていることがわかった。 一方、オンライン実験では、フレームワークは一貫して大幅に改善されている。

Most of the existing methods for debaising in click-through rate (CTR) prediction depend on an oversimplified assumption, i.e., the click probability is the product of observation probability and relevance probability. However, since there is a complicated interplay between these two probabilities, these methods cannot be applied to other scenarios, e.g. query auto completion (QAC) and route recommendation. We propose a general debiasing framework without simplifying the relationships between variables, which can handle all scenarios in CTR prediction. Simulation experiments show that: under the simplest scenario, our method maintains a similar AUC with the state-of-the-art methods; in other scenarios, our method achieves considerable improvements compared with existing methods. Meanwhile, in online experiments, the framework also gains significant improvements consistently.
翻訳日:2021-12-07 17:34:55 公開日:2021-12-06
# 圧縮深層ニューラルネットワークにおける逸脱行動検出のための高速テスト入力生成

Fast Test Input Generation for Finding Deviated Behaviors in Compressed Deep Neural Network ( http://arxiv.org/abs/2112.02819v1 )

ライセンス: Link先を確認
Yongqiang Tian, Wuqi Zhang, Ming Wen, Shing-Chi Cheung, Chengnian Sun, Shiqing Ma, Yu Jiang(参考訳) モデル圧縮はディープニューラルネットワーク(DNN)モデルのサイズを大幅に削減し、リソース制限されたモバイルおよびIoTデバイスに圧縮後の大規模で洗練されたモデルをデプロイできるようにする。 しかし、モデル圧縮はしばしば圧縮されたモデルに分散した振る舞いを導入する:オリジナルモデルと圧縮モデルは同じ入力に対して異なる予測結果を出力する。 したがって、開発者に警告し、配置前にそのような振る舞いの結果を包括的に評価するのを助けることが重要です。 そこで本研究では,圧縮モデルにおいて入力を自動的に識別し,分散した振る舞いをトリガーする手法であるトリガーファインダーを提案する。 インプット i がシードとして与えられたとき、TriggerFinder は一連の突然変異操作を反復的に適用して i を変更する。 しかし、圧縮されたモデルは通常、アーキテクチャや勾配情報を隠すが、ガイダンスのような内部情報がなければ、効果的かつ効率的に逸脱行動を起こすことが困難になる。 この課題に取り組むために,我々は,変化した予測をトリガーする入力に近い変化した入力を決定するための新しい適合関数を提案する。 さらに、TriggerFinderはこの探索問題をマルコフ連鎖プロセスとしてモデル化し、メトロポリス・ハスティングアルゴリズムを利用して突然変異作用素の選択を導く。 2つのデータセットを持つ18の圧縮モデル上でTriggerFinderを評価した。 実験の結果、TriggerFinderは、特定のケースでベースラインが失敗しながら、すべてのシードインプットに対してトリガー入力を見つけることに成功した。 効率に関しては、TriggerFinderはベースラインの5.2x-115.8倍高速である。 さらに、トリガーファインダーが1つのトリガー入力を見つけるのに必要なクエリは、ベースラインの51.8x-535.6xである。

Model compression can significantly reduce sizes of deep neural network (DNN) models so that large, sophisticated models after compression can be deployed on resource-limited mobile and IoT devices. However, model compression often introduces deviated behaviors into a compressed model: the original and compressed models output different prediction results for the same input. Hence, it is critical to warn developers and help them comprehensively evaluate possible consequences of such behaviors before deployment. To this end, we propose TriggerFinder, a novel, effective and efficient testing approach to automatically identifying inputs to trigger deviated behaviors in compressed models. Given an input i as a seed, TriggerFinder iteratively applies a series of mutation operations to change i until the resulting input triggers a deviated behavior. However, compressed models usually hide their architecture and gradient information; without such internal information as guidance, it becomes difficult to effectively and efficiently trigger deviated behaviors. To tackle this challenge, we propose a novel fitness function to determine the mutated input that is closer to the inputs that can trigger the deviated predictions. Furthermore, TriggerFinder models this search problem as a Markov Chain process and leverages the Metropolis-Hasting algorithm to guide the selection of mutation operators. We evaluated TriggerFinder on 18 compressed models with two datasets. The experiment results demonstrate that TriggerFinder can successfully find triggering inputs for all seed inputs while the baseline fails in certain cases. As for efficiency, TriggerFinder is 5.2x-115.8x as fast as the baselines. Furthermore, the queries required by TriggerFinder to find one triggering input is only 51.8x-535.6x as small as the baseline.
翻訳日:2021-12-07 17:34:34 公開日:2021-12-06
# moca: テキスト質問応答のための多段階事前学習とクロスガイド型マルチモーダル注意の導入

MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided Multimodal Attention for Textbook Question Answering ( http://arxiv.org/abs/2112.02839v1 )

ライセンス: Link先を確認
Fangzhi Xu, Qika Lin, Jun Liu, Lingling Zhang, Tianzhe Zhao, Qi Chai, Yudai Pan(参考訳) Textbook Question Answering (TQA) は、大きなコンテキスト記述と豊富なダイアグラムの回答を推測する複雑なマルチモーダルタスクである。 Visual Question Answering (VQA)と比較すると、TQAは多くの一般的な用語と様々な図入力を含んでいる。 ドメイン固有のスパンに対する言語モデルの表現能力に新たな課題をもたらす。 そしてそれはまた、マルチモーダル融合をより複雑なレベルに押し上げる。 上記の課題に対処するため,TQAタスクに対して,マルチステージ領域事前学習とマルチモーダルクロスアテンションを組み込んだMoCAという新しいモデルを提案する。 まず,スパンマスク戦略で教師なしの事前訓練を行うマルチステージドメイン事前学習モジュールと,教師なし事前学習モジュールを提案する。 特にドメイン事前学習において,用語コーパスを利用するヒューリスティック生成アルゴリズムを提案する。 次に,コンテキストとダイアグラムのリッチな入力を十分に検討するために,テキスト,質問図,授業図の特徴をプログレッシブ・ストラテジーに基づいて更新するクロスガイド付きマルチモーダル・アテンションを提案する。 さらに、モデルアンサンブルを改善するために二重ゲーティング機構を採用する。 実験の結果,提案手法の精度は2.21%, 2.43%, 検証精度は2.21%, 評価精度は2.43%に向上した。

Textbook Question Answering (TQA) is a complex multimodal task to infer answers given large context descriptions and abundant diagrams. Compared with Visual Question Answering (VQA), TQA contains a large number of uncommon terminologies and various diagram inputs. It brings new challenges to the representation capability of language model for domain-specific spans. And it also pushes the multimodal fusion to a more complex level. To tackle the above issues, we propose a novel model named MoCA, which incorporates multi-stage domain pretraining and multimodal cross attention for the TQA task. Firstly, we introduce a multi-stage domain pretraining module to conduct unsupervised post-pretraining with the span mask strategy and supervised pre-finetune. Especially for domain post-pretraining, we propose a heuristic generation algorithm to employ the terminology corpus. Secondly, to fully consider the rich inputs of context and diagrams, we propose cross-guided multimodal attention to update the features of text, question diagram and instructional diagram based on a progressive strategy. Further, a dual gating mechanism is adopted to improve the model ensemble. The experimental results show the superiority of our model, which outperforms the state-of-the-art methods by 2.21% and 2.43% for validation and test split respectively.
翻訳日:2021-12-07 17:34:04 公開日:2021-12-06
# vocbench: 音声合成のためのニューラルネットワークvocoderベンチマーク

VocBench: A Neural Vocoder Benchmark for Speech Synthesis ( http://arxiv.org/abs/2112.03099v1 )

ライセンス: Link先を確認
Ehab A. AlBadawy, Andrew Gibiansky, Qing He, Jilong Wu, Ming-Ching Chang, Siwei Lyu(参考訳) 音声信号のスペクトル表現を波形に変換するために使用されるニューラルボコーダは、音声合成パイプラインにおいて一般的に用いられるコンポーネントである。 メルスペクトログラムのような低次元表現から波形を合成することに焦点を当てている。 近年,このようなボコーダの開発に様々なアプローチが導入された。 しかし、これらの新しいvocoderを評価し、そのパフォーマンスを以前のものと比較することがより困難になる。 この問題に対処するため,我々は,最先端のニューラルネットワークボコーダのパフォーマンスをベンチマークするフレームワークであるvocbenchを提案する。 VocBenchは、共有環境で異なる神経ボコーダを評価するために、体系的な研究を使用している。 実験では、データセット、トレーニングパイプライン、すべてのニューラルボコーダの評価メトリクスに同じ設定を使用しました。 各vocoderの性能を異なる軸に沿って比較するために主観的・客観的評価を行う。 その結果, このフレームワークは, 各ボコーダの合成試料の競争効率と品質を示すことができることがわかった。 vocbench frameworkはhttps://github.com/f acebookresearch/voco der-benchmarkで入手できる。

Neural vocoders, used for converting the spectral representations of an audio signal to the waveforms, are a commonly used component in speech synthesis pipelines. It focuses on synthesizing waveforms from low-dimensional representation, such as Mel-Spectrograms. In recent years, different approaches have been introduced to develop such vocoders. However, it becomes more challenging to assess these new vocoders and compare their performance to previous ones. To address this problem, we present VocBench, a framework that benchmark the performance of state-of-the art neural vocoders. VocBench uses a systematic study to evaluate different neural vocoders in a shared environment that enables a fair comparison between them. In our experiments, we use the same setup for datasets, training pipeline, and evaluation metrics for all neural vocoders. We perform a subjective and objective evaluation to compare the performance of each vocoder along a different axis. Our results demonstrate that the framework is capable of showing the competitive efficacy and the quality of the synthesized samples for each vocoder. VocBench framework is available at https://github.com/f acebookresearch/voco der-benchmark.
翻訳日:2021-12-07 17:31:44 公開日:2021-12-06
# (参考訳) 識別的フレーズ検出のための一般概念から微粒化トークンへの推論の学習 [全文訳有]

Learning to Reason from General Concepts to Fine-grained Tokens for Discriminative Phrase Detection ( http://arxiv.org/abs/2112.03237v1 )

ライセンス: CC BY 4.0
Maan Qraitem, Bryan A. Plummer(参考訳) フレーズ検出は、あるフレーズが画像に関連しているかどうかを識別し、適用すればローカライズする手法を必要とする。 より識別的なフレーズ検出モデルのトレーニングにおける重要な課題は、ハード負のサンプリングである。 これは、適用可能なほぼ無限のバリエーションについて注釈を付けるフレーズがほとんどないからである。 この問題に対処するために,2つの新しい手法を用いてフレーズを区別するフレーズ検出器であるPFP-Netを導入する。 まず,関連対象のフレーズを,視覚的にコヒーレントな概念(動物対自動車)の粗いグループにグループ化し,pfp-netにその概念のメンバシップに応じて区別するように訓練する。 第2に、きめ細かい相互排他トークン(例えば色)を含むフレーズに対しては、各領域に適用される1つのフレーズのみを選択するようにモデルを強制する。 Flickr30K EntitiesとRefCOCO+データセットに対する我々のアプローチを評価し、この課題に関するすべてのフレーズに対して、最先端のmAPを1~1.5ポイント改善する。 きめ細かい推論モジュールの影響を受けるフレーズのみを考慮すると、両方のデータセットで1-4ポイント改善します。

Phrase detection requires methods to identify if a phrase is relevant to an image and then localize it if applicable. A key challenge in training more discriminative phrase detection models is sampling hard-negatives. This is because few phrases are annotated of the nearly infinite variations that may be applicable. To address this problem, we introduce PFP-Net, a phrase detector that differentiates between phrases through two novel methods. First, we group together phrases of related objects into coarse groups of visually coherent concepts (eg animals vs automobiles), and then train our PFP-Net to discriminate between them according to their concept membership. Second, for phrases containing fine grained mutually-exclusive tokens (eg colors), we force the model into selecting only one applicable phrase for each region. We evaluate our approach on the Flickr30K Entities and RefCOCO+ datasets, where we improve mAP over the state-of-the-art by 1-1.5 points over all phrases on this challenging task. When considering only the phrases affected by our fine-grained reasoning module, we improve by 1-4 points on both datasets.
翻訳日:2021-12-07 17:29:15 公開日:2021-12-06
# 視覚に基づく強化学習のための時間空間因果解釈

Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning ( http://arxiv.org/abs/2112.03020v1 )

ライセンス: Link先を確認
Wenjie Shi, Gao Huang, Shiji Song, Cheng Wu(参考訳) 深層強化学習(RL)エージェントは、様々な複雑な制御タスクにおいて、ますます熟練している。 しかし,ブラックボックス機能の導入によりエージェントの動作を解釈することは困難であり,ユーザの信頼を得ることは困難である。 視覚に基づくRLには興味深い解釈方法がいくつかあるが、その多くは時間的因果情報を明らかにすることができず、信頼性に関する疑問が提起されている。 そこで本研究では,エージェントの長期行動を理解するための時間空間因果解釈(tsci)モデルを提案する。 TSCIモデルは、シーケンシャルな観察とRLエージェントの決定の間の時間的因果関係を反映した時間的因果関係の定式化に基づいている。 次に、時間的因果性を満たすために制約される時間的空間的因果特徴を特定するために、別の因果発見ネットワークが使用される。 TSCIモデルはリカレントエージェントに適用可能であり、訓練後、高い効率で因果的特徴を発見できる。 実験結果から,TSCIモデルは高分解能かつ鋭い注意マスクを生成でき,視覚に基づくRLエージェントのシーケンシャルな決定方法に関するほとんどの証拠を構成するタスク関連時間空間情報を強調することができることがわかった。 さらに,本手法は時間的視点から,視覚ベースのrlエージェントに対して有用な因果解釈を提供できることを示す。

Deep reinforcement learning (RL) agents are becoming increasingly proficient in a range of complex control tasks. However, the agent's behavior is usually difficult to interpret due to the introduction of black-box function, making it difficult to acquire the trust of users. Although there have been some interesting interpretation methods for vision-based RL, most of them cannot uncover temporal causal information, raising questions about their reliability. To address this problem, we present a temporal-spatial causal interpretation (TSCI) model to understand the agent's long-term behavior, which is essential for sequential decision-making. TSCI model builds on the formulation of temporal causality, which reflects the temporal causal relations between sequential observations and decisions of RL agent. Then a separate causal discovery network is employed to identify temporal-spatial causal features, which are constrained to satisfy the temporal causality. TSCI model is applicable to recurrent agents and can be used to discover causal features with high efficiency once trained. The empirical results show that TSCI model can produce high-resolution and sharp attention masks to highlight task-relevant temporal-spatial information that constitutes most evidence about how vision-based RL agents make sequential decisions. In addition, we further demonstrate that our method is able to provide valuable causal interpretations for vision-based RL agents from the temporal perspective.
翻訳日:2021-12-07 17:12:49 公開日:2021-12-06
# 単眼映像からの深度・詩の教師なし学習のための3次元階層化と拡張

3D Hierarchical Refinement and Augmentation for Unsupervised Learning of Depth and Pose from Monocular Video ( http://arxiv.org/abs/2112.03045v1 )

ライセンス: Link先を確認
Guangming Wang, Jiquan Zhong, Shijie Zhao, Wenhua Wu, Zhe Liu, Hesheng Wang(参考訳) 深度とエゴ運動の推定は、自律ロボットと自律運転のローカライズとナビゲーションに不可欠である。 最近の研究では、ラベルなしモノクロビデオからピクセルごとの深度とエゴモーションを学習することが可能である。 明示的な3次元幾何学を用いた3次元階層化と拡張による教師なしトレーニングフレームワークを提案する。 このフレームワークでは、深度とポーズの推定は階層的に相互に結合され、推定されたポーズ層を層ごとに洗練する。 画像中の画素を推定深度と粗いポーズでワープすることにより、中間ビュー画像を提案し合成する。 そして、新たなビュー画像と隣接フレームの画像とから残留ポーズ変換を推定して粗ポーズを洗練することができる。 本論文では,反復的改良を異なる方法で実施し,フレームワーク全体を一様に最適化する。 また、3次元空間におけるポーズを創造的に増強するが、新しい2次元画像を得る新しいビューイメージを合成することにより、ポーズ推定のための新しい画像拡張手法を提案する。 KITTIの実験は、我々の深さ推定が最先端の性能を達成し、他の補助的タスクを利用する最近のアプローチを超越していることを示している。 私たちの視覚オドメトリは,教師なし単眼学習に基づく手法を全て上回っており,バックエンド最適化による幾何ベース手法であるorb-slam2との競合性能を達成している。

Depth and ego-motion estimations are essential for the localization and navigation of autonomous robots and autonomous driving. Recent studies make it possible to learn the per-pixel depth and ego-motion from the unlabeled monocular video. A novel unsupervised training framework is proposed with 3D hierarchical refinement and augmentation using explicit 3D geometry. In this framework, the depth and pose estimations are hierarchically and mutually coupled to refine the estimated pose layer by layer. The intermediate view image is proposed and synthesized by warping the pixels in an image with the estimated depth and coarse pose. Then, the residual pose transformation can be estimated from the new view image and the image of the adjacent frame to refine the coarse pose. The iterative refinement is implemented in a differentiable manner in this paper, making the whole framework optimized uniformly. Meanwhile, a new image augmentation method is proposed for the pose estimation by synthesizing a new view image, which creatively augments the pose in 3D space but gets a new augmented 2D image. The experiments on KITTI demonstrate that our depth estimation achieves state-of-the-art performance and even surpasses recent approaches that utilize other auxiliary tasks. Our visual odometry outperforms all recent unsupervised monocular learning-based methods and achieves competitive performance to the geometry-based method, ORB-SLAM2 with back-end optimization.
翻訳日:2021-12-07 17:12:25 公開日:2021-12-06
# 静止画像における流体要素の制御可能なアニメーション

Controllable Animation of Fluid Elements in Still Images ( http://arxiv.org/abs/2112.03051v1 )

ライセンス: Link先を確認
Aniruddha Mahapatra and Kuldeep Kulkarni(参考訳) 静止画中の流体要素のアニメーションをインタラクティブに制御し,シネマグラフを生成する手法を提案する。 具体的には,繰り返し発生するテクスチャと連続する流体運動の特性を有する水,煙,火などの流体要素のアニメーションに焦点を当てる。 先行研究からインスピレーションを得て、画像中のそのような流体要素の運動を、一定の2次元光フローマップの形で表現する。 この目的のために、ユーザは、ユーザがアニメーションしたい領域のマスクとともに、任意の矢印方向とその関連速度を提供することができる。 ユーザが入力した矢印方向、対応する速度値、マスクは、一定の光学フローマップ(fd)を表す密集したフローマップに変換される。 単純な指数演算を用いて得られるFDは、画像中の要素の可視運動を近似することができる。 さらに,計算された高密度光フローマップfdを生成-逆ネットワーク(gan)を用いて洗練し,より現実的なフローマップを得る。 我々は,新しいunetベースのアーキテクチャを考案し,入力画像の特徴を異なる解像度で前方に反動させることにより,改良された光フローマップを用いて,将来のフレームを自己回帰的に生成する。 我々は,公開データセット上で広範囲に実験を行い,定性的,定量的な指標から,本手法がベースラインよりも優れていることを示す。 また、トレーニングセットに存在しない方向の物体の質的アニメーションを示し、それ以外の現実世界に存在しない映像を合成する方法を提供する。

We propose a method to interactively control the animation of fluid elements in still images to generate cinemagraphs. Specifically, we focus on the animation of fluid elements like water, smoke, fire, which have the properties of repeating textures and continuous fluid motion. Taking inspiration from prior works, we represent the motion of such fluid elements in the image in the form of a constant 2D optical flow map. To this end, we allow the user to provide any number of arrow directions and their associated speeds along with a mask of the regions the user wants to animate. The user-provided input arrow directions, their corresponding speed values, and the mask are then converted into a dense flow map representing a constant optical flow map (FD). We observe that FD, obtained using simple exponential operations can closely approximate the plausible motion of elements in the image. We further refine computed dense optical flow map FD using a generative-adversari al network (GAN) to obtain a more realistic flow map. We devise a novel UNet based architecture to autoregressively generate future frames using the refined optical flow map by forward-warping the input image features at different resolutions. We conduct extensive experiments on a publicly available dataset and show that our method is superior to the baselines in terms of qualitative and quantitative metrics. In addition, we show the qualitative animations of the objects in directions that did not exist in the training set and provide a way to synthesize videos that otherwise would not exist in the real world.
翻訳日:2021-12-07 17:12:01 公開日:2021-12-06
# 暗黙的画像分割アンサンブルのための拡散モデル

Diffusion Models for Implicit Image Segmentation Ensembles ( http://arxiv.org/abs/2112.03145v1 )

ライセンス: Link先を確認
Julia Wolleb, Robin Sandk\"uhler, Florentin Bieder, Philippe Valmaggia, Philippe C. Cattin(参考訳) 拡散モデルは画像の生成的モデリングに顕著な性能を示した。 本稿では拡散モデルに基づく新しい意味セグメンテーション手法を提案する。 トレーニングとサンプリングのスキームを変更することで,拡散モデルが医用画像の病変分割を行えることを示す。 画像特定セグメンテーションを生成するために,地上の真理セグメンテーションに基づいてモデルをトレーニングし,トレーニング中およびサンプリングプロセス中の各ステップで事前画像を使用する。 与えられた確率的サンプリングプロセスにより、セグメンテーションマスクの分布を生成することができる。 この特性により、セグメンテーションの画素単位の不確実性マップを計算でき、セグメンテーション性能を増大させるセグメンテーションの暗黙的なアンサンブルを実現できる。 脳腫瘍セグメント化のためのBRATS2020データセットについて検討した。 最先端のセグメンテーションモデルと比較して,提案手法は良好なセグメンテーション結果と有意義な不確実性マップをもたらす。

Diffusion models have shown impressive performance for generative modelling of images. In this paper, we present a novel semantic segmentation method based on diffusion models. By modifying the training and sampling scheme, we show that diffusion models can perform lesion segmentation of medical images. To generate an image specific segmentation, we train the model on the ground truth segmentation, and use the image as a prior during training and in every step during the sampling process. With the given stochastic sampling process, we can generate a distribution of segmentation masks. This property allows us to compute pixel-wise uncertainty maps of the segmentation, and allows an implicit ensemble of segmentations that increases the segmentation performance. We evaluate our method on the BRATS2020 dataset for brain tumor segmentation. Compared to state-of-the-art segmentation models, our approach yields good segmentation results and, additionally, meaningful uncertainty maps.
翻訳日:2021-12-07 17:11:38 公開日:2021-12-06
# 制御可能な補間正規化による遠方および凸表現の促進

Encouraging Disentangled and Convex Representation with Controllable Interpolation Regularization ( http://arxiv.org/abs/2112.03163v1 )

ライセンス: Link先を確認
Yunhao Ge, Zhi Xu, Yao Xiao, Gan Xin, Yunkui Pang, and Laurent Itti(参考訳) 制御可能な非絡み付き表現学習(C-Dis-RL)に焦点を当て、ユーザは非絡み付き潜在空間の分割を制御し、下流タスクのデータセット属性(概念)を分解できる。 1) 包括的乱れの制約が欠如しており、特に潜在領域と観測領域の異なる属性間の相互情報の最小化が欠如している。 2) 下流タスクの特定の属性を有意に操作する上で重要な非交叉空間における凸性制約を欠いている。 包括的c-dis-rlと凸性を同時に促進するため,制御可能な補間正則化 (cir) という簡易かつ効率的な手法を提案する。 具体的には、トレーニング中の潜在空間における制御補間とエンコーダの「再利用」を行い、「完全非絡み合い」正規化を支援する。 この場合は (a)絡み合い損失は、潜在的「理解不能」な分布を暗黙的に拡大し、凸性を促進する。 b)凸性は、強靭で正確な絡み合いを改善することができる。 CIRは汎用モジュールであり、ELEGANT、I2I-Dis、GZS-Netの3つの異なるアルゴリズムとCIRを統合し、互換性と有効性を示す。 CIRによるC-Dis-RLと潜在凸性の改善を示す定性的および定量的実験を行った。 これにより、制御可能な画像合成、クロスモダリティ画像変換、ゼロショット合成といった下流タスクがさらに改善される。 さらなる実験では、新しい属性値マイニング、データ拡張、公平性のバイアスの排除など、CIRが他の下流タスクを改善することも実証されている。

We focus on controllable disentangled representation learning (C-Dis-RL), where users can control the partition of the disentangled latent space to factorize dataset attributes (concepts) for downstream tasks. Two general problems remain under-explored in current methods: (1) They lack comprehensive disentanglement constraints, especially missing the minimization of mutual information between different attributes across latent and observation domains. (2) They lack convexity constraints in disentangled latent space, which is important for meaningfully manipulating specific attributes for downstream tasks. To encourage both comprehensive C-Dis-RL and convexity simultaneously, we propose a simple yet efficient method: Controllable Interpolation Regularization (CIR), which creates a positive loop where the disentanglement and convexity can help each other. Specifically, we conduct controlled interpolation in latent space during training and 'reuse' the encoder to help form a 'perfect disentanglement' ; regularization. In that case, (a) disentanglement loss implicitly enlarges the potential 'understandable' distribution to encourage convexity; (b) convexity can in turn improve robust and precise disentanglement. CIR is a general module and we merge CIR with three different algorithms: ELEGANT, I2I-Dis, and GZS-Net to show the compatibility and effectiveness. Qualitative and quantitative experiments show improvement in C-Dis-RL and latent convexity by CIR. This further improves downstream tasks: controllable image synthesis, cross-modality image translation and zero-shot synthesis. More experiments demonstrate CIR can also improve other downstream tasks, such as new attribute value mining, data augmentation, and eliminating bias for fairness.
翻訳日:2021-12-07 17:11:23 公開日:2021-12-06
# セグメンテーションの例をまったく見ない意味的セグメンテーション

Semantic Segmentation In-the-Wild Without Seeing Any Segmentation Examples ( http://arxiv.org/abs/2112.03185v1 )

ライセンス: Link先を確認
Nir Zabari, Yedid Hoshen(参考訳) セマンティックセグメンテーションは、数十年にわたって活発に研究されてきた重要なコンピュータビジョンタスクである。 近年、教師付きメソッドは前例のない精度に達しているが、新しいクラスカテゴリごとに多くのピクセルレベルのアノテーションを必要とする。 さらに、現在のセマンティックセグメンテーションネットワークが多数のカテゴリを扱う能力は限られている。 つまり、希少なクラス分類を含む画像は、現在の方法では十分にセグメント化されない。 本稿では,セグメンテーションネットワークのトレーニングやセグメンテーションマスクの閲覧を必要とせず,各対象に対して意味的セグメンテーションマスクを作成する新しい手法を提案する。 本手法は,画像に含まれるクラスカテゴリのイメージレベルラベルを入力として,自動または手動で取得できる。 視覚言語埋め込みモデル(特にクリップ)を用いて,モデル解釈手法を用いて各クラスに対するラフセグメンテーションマップを作成する。 テスト時間拡張手法を用いて地図を精査する。 このステージの出力は、教師付きメソッドが要求する手動のピクセルレベルラベルの代わりに、ピクセルレベルの擬似ラベルを提供する。 擬似ラベルを考慮に入れ,高品質な出力セグメンテーションマスクを得るために単一画像セグメンテーション技術を利用する。 本手法は, 同様の量の監視を行う方法に対して, 定量的かつ質的に示す。 その結果,稀なカテゴリを含む画像では特に顕著である。

Semantic segmentation is a key computer vision task that has been actively researched for decades. In recent years, supervised methods have reached unprecedented accuracy, however they require many pixel-level annotations for every new class category which is very time-consuming and expensive. Additionally, the ability of current semantic segmentation networks to handle a large number of categories is limited. That means that images containing rare class categories are unlikely to be well segmented by current methods. In this paper we propose a novel approach for creating semantic segmentation masks for every object, without the need for training segmentation networks or seeing any segmentation masks. Our method takes as input the image-level labels of the class categories present in the image; they can be obtained automatically or manually. We utilize a vision-language embedding model (specifically CLIP) to create a rough segmentation map for each class, using model interpretability methods. We refine the maps using a test-time augmentation technique. The output of this stage provides pixel-level pseudo-labels, instead of the manual pixel-level labels required by supervised methods. Given the pseudo-labels, we utilize single-image segmentation techniques to obtain high-quality output segmentation masks. Our method is shown quantitatively and qualitatively to outperform methods that use a similar amount of supervision. Our results are particularly remarkable for images containing rare categories.
翻訳日:2021-12-07 17:10:55 公開日:2021-12-06
# 変形可能なcnn回帰による複数センサからの植物形質の同時予測

Simultaneously Predicting Multiple Plant Traits from Multiple Sensors via Deformable CNN Regression ( http://arxiv.org/abs/2112.03205v1 )

ライセンス: Link先を確認
Pranav Raja, Alex Olenskyj, Hamid Kamangir, Mason Earles(参考訳) 形質測定は植物の育種と農業生産のパイプラインにとって重要である。 通常、一連の植物形質は手作業で測定され、より高いスループット特性の推定手法を訓練および/または検証するために使用される。 本稿では、複数のセンサ入力を受け入れ、複数の連続特性出力を予測する比較的単純な畳み込みニューラルネットワーク(CNN)モデル(MIMO-CNN)を提案する。 さらに、このネットワークアーキテクチャ(MIMO-DCNN)に変形可能な畳み込み層を導入し、モデルがその受容場を適応的に調整し、データ内の複雑な変数の幾何変換をモデル化し、連続的な特性出力を微調整する。 筆者らは,2021年の自律温室チャレンジにおいて,MIMO-CNNとMIMO-DCNNモデルがマルチインプット(RGBと深度画像),マルチトランジット出力レタスデータセット上でどのように機能するかを検討する。 アブレーション研究は, 単入出力と複数入出力, 単入出力と複数入出力の併用効果を検討した。 mimo-dcnnモデルは正規化平均二乗誤差(nmse)を0.068とし、トップ2021のスコア0.081を大きく上回った。 オープンソースコードが提供されている。

Trait measurement is critical for the plant breeding and agricultural production pipeline. Typically, a suite of plant traits is measured using laborious manual measurements and then used to train and/or validate higher throughput trait estimation techniques. Here, we introduce a relatively simple convolutional neural network (CNN) model that accepts multiple sensor inputs and predicts multiple continuous trait outputs - i.e. a multi-input, multi-output CNN (MIMO-CNN). Further, we introduce deformable convolutional layers into this network architecture (MIMO-DCNN) to enable the model to adaptively adjust its receptive field, model complex variable geometric transformations in the data, and fine-tune the continuous trait outputs. We examine how the MIMO-CNN and MIMO-DCNN models perform on a multi-input (i.e. RGB and depth images), multi-trait output lettuce dataset from the 2021 Autonomous Greenhouse Challenge. Ablation studies were conducted to examine the effect of using single versus multiple inputs, and single versus multiple outputs. The MIMO-DCNN model resulted in a normalized mean squared error (NMSE) of 0.068 - a substantial improvement over the top 2021 leaderboard score of 0.081. Open-source code is provided.
翻訳日:2021-12-07 17:10:35 公開日:2021-12-06
# 3次元再構成のための入力レベルインダクティブバイアス

Input-level Inductive Biases for 3D Reconstruction ( http://arxiv.org/abs/2112.03243v1 )

ライセンス: Link先を確認
Wang Yifan, Carl Doersch, Relja Arandjelovi\'c, Jo\~ao Carreira, Andrew Zisserman(参考訳) 一般認識モデルであるPerceiver IOを用いて3次元再構成を探索し,非順序入力と平坦入力の行列(ピクセルなど)を取り込みます。 このモデルはクエリ行列を用いて問合せされ、クエリ毎に出力を生成する。この論文では、出力は入力画像対のすべてのピクセルの深さ値である。 複数のビュー幾何学に有用な帰納的バイアスを、アーキテクチャに触れることなく、直接入力としてエンコードすることで、この一般化モデルに組み込む。

We explore 3D reconstruction using a generalist perception model, the recent Perceiver IO which ingests a matrix of unordered and flattened inputs (e.g. pixels). The model is interrogated using a query matrix and generates an output for every query -- in this paper the outputs are depth values for all pixels of the input image pair. We incorporate inductive biases useful for multiple view geometry into this generalist model without having to touch its architecture, by instead encoding them directly as additional inputs.
翻訳日:2021-12-07 17:09:10 公開日:2021-12-06
# CSG0:ゼロフォーミングによる連続都市景観生成

CSG0: Continual Urban Scene Generation with Zero Forgetting ( http://arxiv.org/abs/2112.03252v1 )

ライセンス: Link先を確認
Himalaya Jain, Tuan-Hung Vu, Patrick P\'erez and Matthieu Cord(参考訳) gans(generative adversarial network)の急速な進歩により、自動化運転への応用を含む複雑な都市シーンなど、合成シーンの視覚的品質が向上している。 この作業では、GANが異なるドメインのストリームでトレーニングされる連続的なシーン生成のセットアップに対処します。 この設定は、異なる場所でデータが連続的に取得される現実のシナリオを反映している。 このような連続的な設定において、我々は、ゼロ忘れ、すなわち、壊滅的な忘れによって、以前の領域よりも合成品質が低下しない学習を目標としている。 この目的のために、我々は単に新しいフレームワークを導入する。 i) 連続訓練におけるシームレスな知識伝達を可能にするだけでなく (ii) オーバーヘッドコストの少ないゼロ忘れを保証します。 連続学習のおかげでメモリ効率は向上するが、各ドメインに対して1つのフルモデルをトレーニングするブルートフォースソリューションと比較して、より優れた合成品質が得られる。 特に、極端な低データ体制下では、我々のアプローチはブルートフォースよりも大きなマージンで優れています。

With the rapid advances in generative adversarial networks (GANs), the visual quality of synthesised scenes keeps improving, including for complex urban scenes with applications to automated driving. We address in this work a continual scene generation setup in which GANs are trained on a stream of distinct domains; ideally, the learned models should eventually be able to generate new scenes in all seen domains. This setup reflects the real-life scenario where data are continuously acquired in different places at different times. In such a continual setup, we aim for learning with zero forgetting, i.e., with no degradation in synthesis quality over earlier domains due to catastrophic forgetting. To this end, we introduce a novel framework that not only (i) enables seamless knowledge transfer in continual training but also (ii) guarantees zero forgetting with a small overhead cost. While being more memory efficient, thanks to continual learning, our model obtains better synthesis quality as compared against the brute-force solution that trains one full model for each domain. Especially, under extreme low-data regimes, our approach significantly outperforms the brute-force one by a large margin.
翻訳日:2021-12-07 17:09:00 公開日:2021-12-06
# ランダム森林分類によるトークンスマートコントラクトコードからのデフィ証券違反の検出

Detecting DeFi Securities Violations from Token Smart Contract Code with Random Forest Classification ( http://arxiv.org/abs/2112.02731v1 )

ライセンス: Link先を確認
Arianna Trozze, Bennett Kleinberg, and Toby Davies(参考訳) DeFi(Decentralized Finance)は、さまざまなブロックチェーン上のスマートコントラクトを通じて構築および配信される金融製品とサービスのシステムである。 ここ数年、DeFiの人気と市場資本化が続いている。 しかし、暗号通貨関連の犯罪、特に様々な種類の証券違反の重心ともなっている。 defiにおける顧客の要求を知ることの欠如により、政府はこの分野における攻撃の規模をどう扱うべきかを把握できなくなっている。 本研究は,トークンのスマートコントラクトコードに基づいて,有価証券違反に関与する可能性のあるDeFiプロジェクトを特定するための機械学習アプローチを用いて,この問題に対処することを目的とする。 DeFiプロジェクトのトークンのスマートコントラクトコードから抽出された特徴に基づいて、ランダムな森林分類器を構築することで、Ethereum全体で特定の種類の証券違反を検出するための事前作業に適応する。 最終分類器は99.1%のF1スコアを達成する。 このような高い性能は、どの分類問題にも驚くが、機能レベルがさらに高くなると、単一の特徴が極めて検出可能な問題となる。 私たちの研究のもうひとつの貢献は、新しいデータセットです。 (a)有価証券違反に係るトークンの検証済み真理データセット b) defiアグリゲータからの有効なトークンのセットで、リストにあるプロジェクトに対してデューデリジェンスを実行する。 本稿では,検事による法執行活動におけるモデルの利用についてさらに検討し,その利用可能性とより広い法的文脈との関連性について考察する。

Decentralized Finance (DeFi) is a system of financial products and services built and delivered through smart contracts on various blockchains. In the past year, DeFi has gained popularity and market capitalization. However, it has also become an epicenter of cryptocurrency-relat ed crime, in particular, various types of securities violations. The lack of Know Your Customer requirements in DeFi has left governments unsure of how to handle the magnitude of offending in this space. This study aims to address this problem with a machine learning approach to identify DeFi projects potentially engaging in securities violations based on their tokens' smart contract code. We adapt prior work on detecting specific types of securities violations across Ethereum more broadly, building a random forest classifier based on features extracted from DeFi projects' tokens' smart contract code. The final classifier achieves a 99.1% F1-score. Such high performance is surprising for any classification problem, however, from further feature-level, we find a single feature makes this a highly detectable problem. Another contribution of our study is a new dataset, comprised of (a) a verified ground truth dataset for tokens involved in securities violations and (b) a set of valid tokens from a DeFi aggregator which conducts due diligence on the projects it lists. This paper further discusses the use of our model by prosecutors in enforcement efforts and connects its potential use to the wider legal context.
翻訳日:2021-12-07 17:02:05 公開日:2021-12-06
# cdgnet:トラフィック予測のためのクロスタイム動的グラフベースのディープラーニングモデル

CDGNet: A Cross-Time Dynamic Graph-based Deep Learning Model for Traffic Forecasting ( http://arxiv.org/abs/2112.02736v1 )

ライセンス: Link先を確認
Yuchen Fang, Yanjun Qin, Haiyong Luo, Fang Zhao, Liang Zeng, Bo Hui, Chenxing Wang(参考訳) 交通予測は、webのインテリジェントな輸送システムにおいて重要であり、交通安全に有益であるが、現実世界の交通システムにおける複雑でダイナミックな時空間依存のため、非常に困難である。 以前の手法では、事前に定義された静的グラフや学習可能な静的グラフを使って空間相関を抽出する。 しかし、静的グラフベースの手法は、トラフィックネットワークの進化をマイニングすることができない。 その後、研究者は空間相関の変化を反映するためにスライスごとに動的グラフを生成するが、空間的影響を無視して時空間依存を独立にモデル化するパラダイムに従う。 本稿では,トラヒック予測のための新しいクロスタイム動的グラフベースディープラーニングモデルcdgnetを提案する。 このモデルは,時間的動的グラフを用いて,時間的スライスと時間的スライス間の時間的空間依存性を効果的に捉えることができる。 一方,実世界の空間的相関関係に適合するクロスタイムな動的グラフをスパースするゲーティング機構を設計する。 さらに,マルチステップトラフィック予測のためのクロスタイム動的グラフベースGCNを組み込むエンコーダデコーダアーキテクチャを提案する。 実世界の3つの公開トラフィックデータセットの実験結果は、cdgnetが最先端のベースラインを上回ることを示している。 さらに、アーキテクチャの有効性を分析するための質的研究も行います。

Traffic forecasting is important in intelligent transportation systems of webs and beneficial to traffic safety, yet is very challenging because of the complex and dynamic spatio-temporal dependencies in real-world traffic systems. Prior methods use the pre-defined or learnable static graph to extract spatial correlations. However, the static graph-based methods fail to mine the evolution of the traffic network. Researchers subsequently generate the dynamic graph for each time slice to reflect the changes of spatial correlations, but they follow the paradigm of independently modeling spatio-temporal dependencies, ignoring the cross-time spatial influence. In this paper, we propose a novel cross-time dynamic graph-based deep learning model, named CDGNet, for traffic forecasting. The model is able to effectively capture the cross-time spatial dependence between each time slice and its historical time slices by utilizing the cross-time dynamic graph. Meanwhile, we design a gating mechanism to sparse the cross-time dynamic graph, which conforms to the sparse spatial correlations in the real world. Besides, we propose a novel encoder-decoder architecture to incorporate the cross-time dynamic graph-based GCN for multi-step traffic forecasting. Experimental results on three real-world public traffic datasets demonstrate that CDGNet outperforms the state-of-the-art baselines. We additionally provide a qualitative study to analyze the effectiveness of our architecture.
翻訳日:2021-12-07 17:01:44 公開日:2021-12-06
# STformer:トラフィック予測のための高効率時空間変換器アーキテクチャ

STformer: A Noise-Aware Efficient Spatio-Temporal Transformer Architecture for Traffic Forecasting ( http://arxiv.org/abs/2112.02740v1 )

ライセンス: Link先を確認
Yanjun Qin, Yuchen Fang, Haiyong Luo, Liang Zeng, Fang Zhao, Chenxing Wang(参考訳) 交通予報はインテリジェント交通システムにおいて欠かせない役割を担っており、日々の交通をより便利かつ安全にしている。 しかしながら、時空間相関の動的発展は、正確な交通予測を非常に困難にする。 既存の研究は主にグラフニューラルネットルーク(gnns)とディープ時系列モデル(例:リカレントニューラルネットワーク)を使用して、動的交通システムにおける複雑な時空間パターンを捉えている。 空間パターンについては,gnnが道路網におけるリモートセンサ情報などグローバル空間情報を抽出することは困難である。 この自己意識を利用して,前回のようなグローバル空間情報を抽出することができるが,資源消費の増大も伴っている。 時間的パターンについては、交通データは日々や毎週の傾向を容易に認識できるだけでなく、事故(自動車事故や雷雨など)による短期的な騒音も認識しにくい。 事前の交通モデルは時系列の複雑な時間的パターンを識別することが困難であり、正確な時間的依存を得ることは困難である。 上記の問題に対処するために,STformer という,交通予測の精度向上を目的とした新しいノイズ対応型時空間トランスフォーマアーキテクチャを提案する。 STformerはノイズ対応時空間自己注意(NATSA)とグラフベーススパース空間自己注意(GBS3A)の2つのコンポーネントから構成される。 NATSAは、高周波成分と低周波成分とを時系列から分離し、ノイズを除去し、学習可能なフィルタと時間的自己注意によって安定した時間的依存を捕捉する。 gbs3aは、バニラセルフアテンションのフルクエリをグラフベースのスパースクエリに置き換え、時間とメモリ使用量を削減する。 実世界の4つのトラヒックデータセットの実験は、stformerが計算コストの低い最先端のベースラインよりも優れていることを示している。

Traffic forecasting plays an indispensable role in the intelligent transportation system, which makes daily travel more convenient and safer. However, the dynamic evolution of spatio-temporal correlations makes accurate traffic forecasting very difficult. Existing work mainly employs graph neural netwroks (GNNs) and deep time series models (e.g., recurrent neural networks) to capture complex spatio-temporal patterns in the dynamic traffic system. For the spatial patterns, it is difficult for GNNs to extract the global spatial information, i.e., remote sensors information in road networks. Although we can use the self-attention to extract global spatial information as in the previous work, it is also accompanied by huge resource consumption. For the temporal patterns, traffic data have not only easy-to-recognize daily and weekly trends but also difficult-to-recogni ze short-term noise caused by accidents (e.g., car accidents and thunderstorms). Prior traffic models are difficult to distinguish intricate temporal patterns in time series and thus hard to get accurate temporal dependence. To address above issues, we propose a novel noise-aware efficient spatio-temporal Transformer architecture for accurate traffic forecasting, named STformer. STformer consists of two components, which are the noise-aware temporal self-attention (NATSA) and the graph-based sparse spatial self-attention (GBS3A). NATSA separates the high-frequency component and the low-frequency component from the time series to remove noise and capture stable temporal dependence by the learnable filter and the temporal self-attention, respectively. GBS3A replaces the full query in vanilla self-attention with the graph-based sparse query to decrease the time and memory usage. Experiments on four real-world traffic datasets show that STformer outperforms state-of-the-art baselines with lower computational cost.
翻訳日:2021-12-07 17:01:23 公開日:2021-12-06
# ファウショット分類のためのカリキュラムメタラーニング

Curriculum Meta-Learning for Few-shot Classification ( http://arxiv.org/abs/2112.02913v1 )

ライセンス: Link先を確認
Emmanouil Stergiadis, Priyanka Agrawal, Oliver Squire(参考訳) 本稿では,最新のメタ学習技術に適用可能なカリキュラム学習フレームワークの適応性を提案する。 カリキュラムベースのトレーニングは、インクリメンタルなコンセプト学習を可能にするために、トレーニングの複雑さを徐々に増やすことで、人間の学習を模倣しようとする。 メタラーナーのゴールは、できるだけ少数のサンプルから学習する方法を学ぶことであり、これらのサンプルの正確な数(すなわち、サポートセットのサイズ)は、与えられたタスクの難しさの自然なプロキシとして生じる。 私たちは、より広いサポートサイズから始まり、トレーニングを通じて徐々に削減し、最終的に望ましいテスト設定のショットサイズに合わせる、シンプルで新しいカリキュラムのスケジュールを定義します。 提案手法は,学習効率と一般化能力を高める。 数発の画像分類タスクにおけるMAMLアルゴリズムによる実験は,カリキュラムの学習フレームワークにおいて有意な効果を示した。 アブレーション研究は,メタラーニングハイパーパラメータと同様にモデルアーキテクチャから提案手法の独立性を補う

We propose an adaptation of the curriculum training framework, applicable to state-of-the-art meta learning techniques for few-shot classification. Curriculum-based training popularly attempts to mimic human learning by progressively increasing the training complexity to enable incremental concept learning. As the meta-learner's goal is learning how to learn from as few samples as possible, the exact number of those samples (i.e. the size of the support set) arises as a natural proxy of a given task's difficulty. We define a simple yet novel curriculum schedule that begins with a larger support size and progressively reduces it throughout training to eventually match the desired shot-size of the test setup. This proposed method boosts the learning efficiency as well as the generalization capability. Our experiments with the MAML algorithm on two few-shot image classification tasks show significant gains with the curriculum training framework. Ablation studies corroborate the independence of our proposed method from the model architecture as well as the meta-learning hyperparameters
翻訳日:2021-12-07 17:00:47 公開日:2021-12-06
# 2つの誤りは正しいものではない - ラベルノイズによる学習における確認バイアスと戦う

Two Wrongs Don't Make a Right: Combating Confirmation Bias in Learning with Label Noise ( http://arxiv.org/abs/2112.02960v1 )

ライセンス: Link先を確認
Mingcai Chen, Hao Cheng, Yuntao Du, Ming Xu, Wenyu Jiang, Chongjun Wang(参考訳) ノイズラベルはディープネットワークの性能を損なう。 ロバストな学習では、2段階のパイプラインが不正確なラベルを排除することと、半教師付きトレーニングを交互に行う。 しかし、観察されたラベルの廃棄は、特に腐敗が完全にランダムでない場合、例えばクラス依存やインスタンス依存など、情報の喪失につながる可能性がある。 さらに、代表的な2段階法であるDivideMixの訓練力学から、確認バイアスの優位性を同定する:擬似ラベルは、かなりのノイズラベルを補正できず、結果としてエラーが蓄積される。 観測されたラベルからの情報を十分に活用し、誤り訂正を緩和するために、疑似ラベルと信頼度推定を組み込んだ新しいハイブリッド手法であるRobust Label Refurbishment (Robust LR)を提案する。 本手法はラベルノイズと確認バイアスの両方の損傷を軽減できることを示す。 その結果、データセットとノイズタイプ間で最先端の結果が得られる。 例えば、Robust LRは、実世界のノイズデータセットであるWebVisionにおいて、以前の最高値よりも最大4.5%の絶対的トップ1精度の向上を実現している。

Noisy labels damage the performance of deep networks. For robust learning, a prominent two-stage pipeline alternates between eliminating possible incorrect labels and semi-supervised training. However, discarding part of observed labels could result in a loss of information, especially when the corruption is not completely random, e.g., class-dependent or instance-dependent. Moreover, from the training dynamics of a representative two-stage method DivideMix, we identify the domination of confirmation bias: Pseudo-labels fail to correct a considerable amount of noisy labels and consequently, the errors accumulate. To sufficiently exploit information from observed labels and mitigate wrong corrections, we propose Robust Label Refurbishment (Robust LR)-a new hybrid method that integrates pseudo-labeling and confidence estimation techniques to refurbish noisy labels. We show that our method successfully alleviates the damage of both label noise and confirmation bias. As a result, it achieves state-of-the-art results across datasets and noise types. For example, Robust LR achieves up to 4.5% absolute top-1 accuracy improvement over the previous best on the real-world noisy dataset WebVision.
翻訳日:2021-12-07 17:00:32 公開日:2021-12-06
# (参考訳) 目的語と文脈が終端音韻検出に及ぼす影響 [全文訳有]

Impact of Target Word and Context on End-to-End Metonymy Detection ( http://arxiv.org/abs/2112.03256v1 )

ライセンス: CC BY 4.0
Kevin Alex Mathews and Michael Strube(参考訳) メトニミー(Metonymy)は、ある実体が別の関連エンティティによって参照される言語である。 メトニム検出の課題は、メトニムトークンとリテラルトークンを区別することである。 これまで、メトニミー検出手法は、文中の1つの名詞句のみを曖昧にしようとする試みであり、通常は地名や組織名である。 本稿では,文中のすべての単語を,シーケンスラベリングタスクとしてメトニミー検出を書き換えることで曖昧にする。 また,目的語と文脈がメトニミー検出に与える影響についても検討した。 目的語はデータセットのメトニミーの検出にはあまり役に立たないことを示す。 一方、コンテキスト内のドメイン固有の単語に関連付けられたエンティティタイプは、簡単に解決できます。 これは、文脈語がメトニムの検出にずっと関係していることを示している。

Metonymy is a figure of speech in which an entity is referred to by another related entity. The task of metonymy detection aims to distinguish metonymic tokens from literal ones. Until now, metonymy detection methods attempt to disambiguate only a single noun phrase in a sentence, typically location names or organization names. In this paper, we disambiguate every word in a sentence by reformulating metonymy detection as a sequence labeling task. We also investigate the impact of target word and context on metonymy detection. We show that the target word is less useful for detecting metonymy in our dataset. On the other hand, the entity types that are associated with domain-specific words in their context are easier to solve. This shows that the context words are much more relevant for detecting metonymy.
翻訳日:2021-12-07 16:58:11 公開日:2021-12-06
# 暗黒中国のチェスの複雑さについて

On the complexity of Dark Chinese Chess ( http://arxiv.org/abs/2112.02989v1 )

ライセンス: Link先を確認
Cong Wang, Tongwei Lu(参考訳) 本稿では,中国のチェスの変種である暗中国チェスのゲーム(別名「ジーチ」)の複雑性分析を行う。 ダークチャイナチェスは、長期的な戦略や計画、大きな国家空間、確率的、不完全な情報といった、ボードゲームとカードゲームの最も複雑な側面を組み合わせることで、現実の意思決定問題に近づき、ゲームAIに大きな課題をもたらす。 そこで本研究では,ゲームツリーの複雑性と平均情報集合の大きさを計算できるセルフプレイプログラムを設計し,情報集合数を計算するアルゴリズムを提案する。

This paper provides a complexity analysis for the game of dark Chinese chess (a.k.a. "JieQi"), a variation of Chinese chess. Dark Chinese chess combines some of the most complicated aspects of board and card games, such as long-term strategy or planning, large state space, stochastic, and imperfect-informatio n, which make it closer to the real world decision-making problem and pose great challenges to game AI. Here we design a self-play program to calculate the game tree complexity and average information set size of the game, and propose an algorithm to calculate the number of information sets.
翻訳日:2021-12-07 16:44:24 公開日:2021-12-06
# Tele-EvalNet:マルチスケールCNN-LSTMアーキテクチャを用いた家庭型ストローク生存者リハビリテーションのための低コストテレコンサルテーションシステム

Tele-EvalNet: A Low-cost, Teleconsultation System for Home based Rehabilitation of Stroke Survivors using Multiscale CNN-LSTM Architecture ( http://arxiv.org/abs/2112.03168v1 )

ライセンス: Link先を確認
Aditya Kanade and Mansi Sharma and M. Manivannan(参考訳) テクノロジーはリハビリテーション、患者の成果の改善、医療費の削減といった分野で重要な役割を担っている。 しかし、既存のアプローチは臨床検証、堅牢性、使いやすさに欠ける。 本稿では,ライブフィードバックモデルと全体的なパフォーマンス評価モデルという,2つのコンポーネントからなる新しいシステムであるTele-EvalNetを提案する。 ライブフィードバックモデルは、カラーマーカーを使用してハイライトされた指示を簡単に理解し、運動の正確性に関するフィードバックを示す。 総合的パフォーマンス評価モデルは, 臨床医によるパフォーマンスに対して与えられたスコアに対する共同データのマッピングを学習する。 このモデルは、関節データから臨床に承認された特徴を抽出することでこれを行う。 さらに、これらの特徴をオートエンコーダで低次元空間に符号化する。 マルチスケールCNN-LSTMネットワークは,複数のスケールで抽出した特徴を活用して,パフォーマンスデータのスコアへのマッピングを学習するために提案される。 提案システムでは, スコア予測の精度が向上し, 最新リハビリテーションモデルよりも優れていた。

Technology has an important role to play in the field of Rehabilitation, improving patient outcomes and reducing healthcare costs. However, existing approaches lack clinical validation, robustness and ease of use. We propose Tele-EvalNet, a novel system consisting of two components: a live feedback model and an overall performance evaluation model. The live feedback model demonstrates feedback on exercise correctness with easy to understand instructions highlighted using color markers. The overall performance evaluation model learns a mapping of joint data to scores, given to the performance by clinicians. The model does this by extracting clinically approved features from joint data. Further, these features are encoded to a lower dimensional space with an autoencoder. A novel multi-scale CNN-LSTM network is proposed to learn a mapping of performance data to the scores by leveraging features extracted at multiple scales. The proposed system shows a high degree of improvement in score predictions and outperforms the state-of-the-art rehabilitation models.
翻訳日:2021-12-07 16:44:10 公開日:2021-12-06
# 空中画像における枯木分割のためのハイブリッド畳み込みニューラルネットワーク/能動輪郭アプローチ

A hybrid convolutional neural network/active contour approach to segmenting dead trees in aerial imagery ( http://arxiv.org/abs/2112.02725v1 )

ライセンス: Link先を確認
Jacquelyn A. Shelton, Przemyslaw Polewski, Wei Yao and Marco Heurich(参考訳) 生態系が気候変動に耐える安定性と能力は、その生物多様性に直接関係している。 枯木は森林全体の健康の指標であり、森林生態系の3分の1の生物多様性を収容し、世界の炭素在庫の8%を占めている。 気候、昆虫、菌類などいくつかの自然要因によって分解される。 森林生態, 炭素循環, 分解物質を理解するためには, 枯死木材の正確な検出とモデル化が重要である。 本稿では,既存の畳み込みニューラルネットワークと新しいアクティブな輪郭モデルを組み合わせたエネルギー最小化フレームワークを用いて,空中写真から死んだ木の正確な形状輪郭を構築する手法を提案する。 本手法は,検出された枯木の集合体上での精度,リコール,交点の観点から,最先端よりも優れた性能向上をもたらす。 この改良された性能は、気候変動(およびこれらシステムに対する他の人為的な摂動)による新たな課題に対処するために不可欠であり、特に炭素ストックの崩壊率の監視と推定、森林の健康と生物多様性の監視、および気候変動に対する死んだ木材の全体的影響に欠かせない。

The stability and ability of an ecosystem to withstand climate change is directly linked to its biodiversity. Dead trees are a key indicator of overall forest health, housing one-third of forest ecosystem biodiversity, and constitute 8%of the global carbon stocks. They are decomposed by several natural factors, e.g. climate, insects and fungi. Accurate detection and modeling of dead wood mass is paramount to understanding forest ecology, the carbon cycle and decomposers. We present a novel method to construct precise shape contours of dead trees from aerial photographs by combining established convolutional neural networks with a novel active contour model in an energy minimization framework. Our approach yields superior performance accuracy over state-of-the-art in terms of precision, recall, and intersection over union of detected dead trees. This improved performance is essential to meet emerging challenges caused by climate change (and other man-made perturbations to the systems), particularly to monitor and estimate carbon stock decay rates, monitor forest health and biodiversity, and the overall effects of dead wood on and from climate change.
翻訳日:2021-12-07 16:31:43 公開日:2021-12-06
# 単一話者音声-視覚相関学習による一発対話顔生成

One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning ( http://arxiv.org/abs/2112.02749v1 )

ライセンス: Link先を確認
Suzhen Wang, Lincheng Li, Yu Ding, Xin Yu(参考訳) 音声によるワンショット音声生成法は通常、様々な人のビデオリソースに基づいて訓練される。 しかし、彼らの作ったビデオは、異なる話者から一貫した音声スタイルを学ぶのに苦労するため、不自然な口の形や非同期の唇に悩まされることが多い。 特定の話者から一貫した話し方を学ぶのがずっと簡単であり、それが実際の口の動きにつながることを観察する。 そこで本研究では,特定の話者からの音声と視覚動作の一貫した相関関係を探索し,音声駆動の運動場を基準画像に転送する,新しい一発対話型顔生成フレームワークを提案する。 具体的には,入力音声からキーポイントに基づく高密度動き場に代表される発声動作を推定することを目的としたAVCT(Audio-Visual correlation Transformer)を開発した。 特に、音声は配置の異なるアイデンティティから来る可能性があるので、音声信号を表すために音素を組み込む。 このように、当社のAVCTは本質的に他の個人によって話される音声に一般化することができる。 さらに, 顔のキーポイントが話者を表現するために使用されるため, AVCTはトレーニング話者の外観に無知であり, 異なるアイデンティティの顔画像を容易に操作することができる。 異なる顔形状を考えると、運動場転送モジュールを使用して、トレーニングidとワンショット参照との間の音声駆動の密集した動き場ギャップを低減する。 参照画像の高密度な動き場が得られた後、音声クリップから話し顔のビデオを生成するために画像レンダラーを用いた。 学習した一貫した話し方により,本手法は真正な口の形と鮮やかな動きを生成する。 広範な実験により,映像品質とリップシンクの点で,映像合成が最先端を上回っていることが示された。

Audio-driven one-shot talking face generation methods are usually trained on video resources of various persons. However, their created videos often suffer unnatural mouth shapes and asynchronous lips because those methods struggle to learn a consistent speech style from different speakers. We observe that it would be much easier to learn a consistent speech style from a specific speaker, which leads to authentic mouth movements. Hence, we propose a novel one-shot talking face generation framework by exploring consistent correlations between audio and visual motions from a specific speaker and then transferring audio-driven motion fields to a reference image. Specifically, we develop an Audio-Visual Correlation Transformer (AVCT) that aims to infer talking motions represented by keypoint based dense motion fields from an input audio. In particular, considering audio may come from different identities in deployment, we incorporate phonemes to represent audio signals. In this manner, our AVCT can inherently generalize to audio spoken by other identities. Moreover, as face keypoints are used to represent speakers, AVCT is agnostic against appearances of the training speaker, and thus allows us to manipulate face images of different identities readily. Considering different face shapes lead to different motions, a motion field transfer module is exploited to reduce the audio-driven dense motion field gap between the training identity and the one-shot reference. Once we obtained the dense motion field of the reference image, we employ an image renderer to generate its talking face videos from an audio clip. Thanks to our learned consistent speaking style, our method generates authentic mouth shapes and vivid movements. Extensive experiments demonstrate that our synthesized videos outperform the state-of-the-art in terms of visual quality and lip-sync.
翻訳日:2021-12-07 16:31:22 公開日:2021-12-06
# MobRecon:モノクロ画像からのモバイルフレンドリーな手メッシュ再構築

MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image ( http://arxiv.org/abs/2112.02753v1 )

ライセンス: Link先を確認
Xingyu Chen, Yufeng Liu, Yajiao Dong, Xiong Zhang, Chongyang Ma, Yanmin Xiong, Yuan Zhang, and Xiaoyan Guo(参考訳) 本研究では,高い再構成精度,高速な推定速度,時間的コヒーレンスを同時に達成できる,単視点ハンドメッシュ再構成のためのフレームワークを提案する。 具体的には,2次元符号化において,軽量で効果的な積層構造を提案する。 3次元デコーディングでは、深度分離可能なスパイラル畳み込みという効率的なグラフ演算子を提供する。 さらに, 2d 表現と 3d 表現のギャップを橋渡しするための新しい機能昇降モジュールを提案する。 このモジュールはmap-based position regression (mapreg)ブロックから始まり、2次元精度と時間的コヒーレンスを改善するためにヒートマップエンコーディングと位置回帰パラダイムの両方の利点を統合する。 さらにMapRegは、ポーズプーリングとポーズから頂点へのリフトアプローチによって、2Dのポーズエンコーディングを3D頂点のセマンティックな特徴に変換する。 全体として、MobReconと呼ばれる手作りのフレームワークは、安価な計算コストとミニチュアモデルサイズからなり、Apple A14 CPU上で83FPSの高速な推論速度に達する。 FreiHAND, RHD, HO3Dv2などの一般的なデータセットに対する大規模な実験は、我々のMobReconが復元精度と時間的コヒーレンスにおいて優れた性能を発揮することを示した。 私たちのコードはhttps://github.com/s eanchenxy/handmeshで公開されています。

In this work, we propose a framework for single-view hand mesh reconstruction, which can simultaneously achieve high reconstruction accuracy, fast inference speed, and temporal coherence. Specifically, for 2D encoding, we propose lightweight yet effective stacked structures. Regarding 3D decoding, we provide an efficient graph operator, namely depth-separable spiral convolution. Moreover, we present a novel feature lifting module for bridging the gap between 2D and 3D representations. This module starts with a map-based position regression (MapReg) block to integrate the merits of both heatmap encoding and position regression paradigms to improve 2D accuracy and temporal coherence. Furthermore, MapReg is followed by pose pooling and pose-to-vertex lifting approaches, which transform 2D pose encodings to semantic features of 3D vertices. Overall, our hand reconstruction framework, called MobRecon, comprises affordable computational costs and miniature model size, which reaches a high inference speed of 83FPS on Apple A14 CPU. Extensive experiments on popular datasets such as FreiHAND, RHD, and HO3Dv2 demonstrate that our MobRecon achieves superior performance on reconstruction accuracy and temporal coherence. Our code is publicly available at https://github.com/S eanChenxy/HandMesh.
翻訳日:2021-12-07 16:30:53 公開日:2021-12-06
# MetaCloth: 少数のサンプルから豪華なファッションランドマーク検出の未確認タスクを学習する

MetaCloth: Learning Unseen Tasks of Dense Fashion Landmark Detection from a Few Samples ( http://arxiv.org/abs/2112.02763v1 )

ライセンス: Link先を確認
Yuying Ge, Ruimao Zhang, Ping Luo(参考訳) ファッションランドマーク検出の最近の高度な手法は、主に多数の注釈付きランドマークを持つ大規模ファッションデータセット上の畳み込みニューラルネットワークのトレーニングによって実現されている。 しかし、このような大規模なアノテーションは現実世界のアプリケーションでは入手が困難でコストがかかるため、少量のラベル付きデータからうまく一般化できるモデルが望まれる。 本稿では,いくつかのラベル付きサンプルのみを目に見えないタスクに使用可能な,数発のファッションランドマーク検出の問題について検討する。 この研究はメタラーニングを通じてメタクロースと呼ばれる新しいフレームワークを提案し、いくつかの注釈付きサンプルだけで、密集したファッションランドマーク検出の未熟なタスクを学習することができる。 従来の"N-way K-shot"タスクの解決に重点を置いたメタラーニング作業とは異なり、各タスクは各クラスに対してKアノテーション付きサンプルでトレーニングすることでN個のクラスを予測し(Nはすべての目に見えるタスクと見えないタスクで固定されている)、MetaClothのタスクはKサンプルを使用して異なる衣服カテゴリのN個のランドマークを検出する。 そのため、パラメータの数はMetaClothの見知らぬタスクごとに様々である。 MetaClothは、タスクごとに異なるパラメータを動的に生成し、優れた初期化パラメータのセットでいくつかの注釈付きサンプルから一般化可能な特徴抽出ネットワークを学習するように設計されている。 大規模な実験により、MetaClothは大きなマージンで相手を上回ります。

Recent advanced methods for fashion landmark detection are mainly driven by training convolutional neural networks on large-scale fashion datasets, which has a large number of annotated landmarks. However, such large-scale annotations are difficult and expensive to obtain in real-world applications, thus models that can generalize well from a small amount of labelled data are desired. We investigate this problem of few-shot fashion landmark detection, where only a few labelled samples are available for an unseen task. This work proposes a novel framework named MetaCloth via meta-learning, which is able to learn unseen tasks of dense fashion landmark detection with only a few annotated samples. Unlike previous meta-learning work that focus on solving "N-way K-shot" tasks, where each task predicts N number of classes by training with K annotated samples for each class (N is fixed for all seen and unseen tasks), a task in MetaCloth detects N different landmarks for different clothing categories using K samples, where N varies across tasks, because different clothing categories usually have various number of landmarks. Therefore, numbers of parameters are various for different seen and unseen tasks in MetaCloth. MetaCloth is carefully designed to dynamically generate different numbers of parameters for different tasks, and learn a generalizable feature extraction network from a few annotated samples with a set of good initialization parameters. Extensive experiments show that MetaCloth outperforms its counterparts by a large margin.
翻訳日:2021-12-07 16:30:31 公開日:2021-12-06
# ActiveZero: ゼロアノテーションによるアクティブステレオビジョンのための混合ドメイン学習

ActiveZero: Mixed Domain Learning for Active Stereovision with Zero Annotation ( http://arxiv.org/abs/2112.02772v1 )

ライセンス: Link先を確認
Isabella Liu, Edward Yang, Jianyu Tao, Rui Chen, Xiaoshuai Zhang, Qing Ran, Zhu Liu, Hao Su(参考訳) 従来の深度センサは、シミュレーションドメインのみで訓練された最も高度な学習アプローチでさえも、正確な現実世界の深度推定を生成する。 基底真理の深さはシミュレーション領域では容易に得られるが、実領域では取得が極めて困難であるため、両世界の最善を生かした手法を提案する。 本稿では,実世界の奥行きアノテーションを必要としないアクティブステレオビジョンシステムのための混合ドメイン学習ソリューションであるactivezeroを提案する。 まず,混合ドメイン学習戦略を用いて,本手法の分散外実データへの転送可能性を示す。 シミュレーション領域では、形状プリミティブデータセット上で、教師付き不均一損失と自己監督型損失の組み合わせを用いる。 対照的に、実際のドメインでは、シミュレーションデータのトレーニングや実際のデータのテストから外れたデータセットに対してのみ、自己管理的な損失を使用する。 第2に, 時間的赤外再投射と呼ばれる新たな自己監督的損失を導入し, 知覚困難領域における再投射の堅牢性と精度を高める。 最後に、メソッドをエンドツーエンドにトレーニングする方法と、各モジュールが最終結果を達成する上で重要であることを示す。 実データに対する広範囲な質的、定量的評価は、商業的な深度センサーに勝る技術結果の状態を実証している。

Traditional depth sensors generate accurate real world depth estimates that surpass even the most advanced learning approaches trained only on simulation domains. Since ground truth depth is readily available in the simulation domain but quite difficult to obtain in the real domain, we propose a method that leverages the best of both worlds. In this paper we present a new framework, ActiveZero, which is a mixed domain learning solution for active stereovision systems that requires no real world depth annotation. First, we demonstrate the transferability of our method to out-of-distribution real data by using a mixed domain learning strategy. In the simulation domain, we use a combination of supervised disparity loss and self-supervised losses on a shape primitives dataset. By contrast, in the real domain, we only use self-supervised losses on a dataset that is out-of-distribution from either training simulation data or test real data. Second, our method introduces a novel self-supervised loss called temporal IR reprojection to increase the robustness and accuracy of our reprojections in hard-to-perceive regions. Finally, we show how the method can be trained end-to-end and that each module is important for attaining the end result. Extensive qualitative and quantitative evaluations on real data demonstrate state of the art results that can even beat a commercial depth sensor.
翻訳日:2021-12-07 16:30:03 公開日:2021-12-06
# 接続性に基づく学習のための接地真実アノテーションの調整

Adjusting the Ground Truth Annotations for Connectivity-Based Learning to Delineate ( http://arxiv.org/abs/2112.02781v1 )

ライセンス: Link先を確認
Doruk Oner, Leonardo Citraro, Mateusz Kozi\'nski, Pascal Fua(参考訳) ディープラーニングに基づく3d構造記述のアプローチは、ネットワークをトレーニングするための正確なアノテーションに依存する。 しかし、実際には、どんなに良心的でも、データを視覚的に解釈することが難しいことや、3dインターフェースが使いづらいことなどから、人々は3dと大規模で正確に境界を定めるのに苦労している。 本稿では,アノテーションの不正確性を明示的に考慮する手法を提案する。 この目的のために、我々はアノテーションを、トポロジーを維持しながら自身を変形できるアクティブな輪郭モデルとして扱う。 これにより、ネットワークを共同でトレーニングし、元のアノテーションの潜在的なエラーを修正することができます。 その結果、潜在的に不正確なアノテーションでトレーニングされたディープネットワークのパフォーマンスが向上する。

Deep learning-based approaches to delineating 3D structure depend on accurate annotations to train the networks. Yet, in practice, people, no matter how conscientious, have trouble precisely delineating in 3D and on a large scale, in part because the data is often hard to interpret visually and in part because the 3D interfaces are awkward to use. In this paper, we introduce a method that explicitly accounts for annotation inaccuracies. To this end, we treat the annotations as active contour models that can deform themselves while preserving their topology. This enables us to jointly train the network and correct potential errors in the original annotations. The result is an approach that boosts performance of deep networks trained with potentially inaccurate annotations.
翻訳日:2021-12-07 16:29:44 公開日:2021-12-06
# 文字レベルオンライン作者識別

Letter-level Online Writer Identification ( http://arxiv.org/abs/2112.02824v1 )

ライセンス: Link先を確認
Zelin Chen, Hong-Xing Yu, Ancong Wu and Wei-Shi Zheng(参考訳) バイオメトリックスにおける重要な分野であるライター識別(ライターID)は,手書きによる作者の識別を目的としている。 既存の writer-id 研究における識別には完全なドキュメントやテキストが必要であり、現実的なアプリケーションでは writer-id のスケーラビリティと柔軟性が制限される。 writer-idをより実用的なものにするために(例えばモバイルデバイス上で)、文字レベルのオンライン writer-id という新しい問題に焦点を当てている。 文書ベースのライタIDは、識別のためのリッチなコンテキストを持つが、わずか数文字で著者を識別する手掛かりははるかに少ない。 主な課題は、人が時々異なるスタイルで手紙を書くことである。 この問題をオンラインライティングスタイル(var-oスタイル)の分散と呼ぶ。 本稿では,Var-O-Stylesをキャプチャ・正規化・集約方式で扱う。 まず,慎重に設計されたマルチブランチエンコーダを用いて,異なるオンライン書き込みスタイルをキャプチャするために,文字軌跡の異なる特徴を抽出する。 そして、これら全てのスタイル特徴を新しい正規化層によって参照スタイル特徴領域に変換する。 最後に、正規化された特徴を階層型アテンションプーリング(HAP)により集約し、入力文字を複数の書き込みスタイルで融合してコンパクトな特徴ベクトルとする。 さらに,評価のために,大規模なLEtterレベルのオンラインwRiter識別データセット(LERID)も提供します。 広範な比較実験により,提案手法の有効性が示された。

Writer identification (writer-id), an important field in biometrics, aims to identify a writer by their handwriting. Identification in existing writer-id studies requires a complete document or text, limiting the scalability and flexibility of writer-id in realistic applications. To make the application of writer-id more practical (e.g., on mobile devices), we focus on a novel problem, letter-level online writer-id, which requires only a few trajectories of written letters as identification cues. Unlike text-\ document-based writer-id which has rich context for identification, there are much fewer clues to recognize an author from only a few single letters. A main challenge is that a person often writes a letter in different styles from time to time. We refer to this problem as the variance of online writing styles (Var-O-Styles). We address the Var-O-Styles in a capture-normalize-ag gregate fashion: Firstly, we extract different features of a letter trajectory by a carefully designed multi-branch encoder, in an attempt to capture different online writing styles. Then we convert all these style features to a reference style feature domain by a novel normalization layer. Finally, we aggregate the normalized features by a hierarchical attention pooling (HAP), which fuses all the input letters with multiple writing styles into a compact feature vector. In addition, we also contribute a large-scale LEtter-level online wRiter IDentification dataset (LERID) for evaluation. Extensive comparative experiments demonstrate the effectiveness of the proposed framework.
翻訳日:2021-12-07 16:29:34 公開日:2021-12-06
# PP-MSVSR:マルチステージビデオスーパーリゾリューション

PP-MSVSR: Multi-Stage Video Super-Resolution ( http://arxiv.org/abs/2112.02828v1 )

ライセンス: Link先を確認
Lielin Jiang and Na Wang and Qingqing Dang and Rui Liu and Baohua Lai(参考訳) SISR(Single Image Super-Resolution)タスクとは異なり、VSR(Video Super-Resolution)タスクの鍵は、フレーム間の補完情報をフル活用して高解像度シーケンスを再構築することである。 さまざまな動きとシーンを持つ異なるフレームからのイメージは、複数のフレームを正確に調整し、異なるフレームを効果的に活用することが、vsrタスクの重要な研究作業である。 本稿では, 隣接するフレームの豊富な補完情報を活用するために, PP-MSVSRと呼ばれる多段VSR深層アーキテクチャを提案する。 具体的には、特徴伝播においてフレーム間の特徴の融合を強化するために、局所的融合モジュールがステージ1で設計され、特徴伝播の前に局所的特徴融合を行う。 さらに,伝搬モジュールにより得られた特徴をHR空間に関連付けられたより関連性の高い情報にするために,ステージ2の補助的損失を導入し,ステージ3に再調整モジュールを導入して,前のステージの特徴情報をフル活用する。 PP-MSVSRはVid4データセットの有望な性能を達成し、PSNRは28.13dBで、パラメータはわずか1.45Mである。 また,PP-MSVSR-LはREDS4データセット上でのアート手法のすべての状態を超え,パラメータがかなり大きい。 コードとモデルはPaddleGAN\footnote{https://github.com/P addlePaddle/PaddleGA Nでリリースされる。 }.

Different from the Single Image Super-Resolution(SIS R) task, the key for Video Super-Resolution(VSR ) task is to make full use of complementary information across frames to reconstruct the high-resolution sequence. Since images from different frames with diverse motion and scene, accurately aligning multiple frames and effectively fusing different frames has always been the key research work of VSR tasks. To utilize rich complementary information of neighboring frames, in this paper, we propose a multi-stage VSR deep architecture, dubbed as PP-MSVSR, with local fusion module, auxiliary loss and re-align module to refine the enhanced result progressively. Specifically, in order to strengthen the fusion of features across frames in feature propagation, a local fusion module is designed in stage-1 to perform local feature fusion before feature propagation. Moreover, we introduce an auxiliary loss in stage-2 to make the features obtained by the propagation module reserve more correlated information connected to the HR space, and introduce a re-align module in stage-3 to make full use of the feature information of the previous stage. Extensive experiments substantiate that PP-MSVSR achieves a promising performance of Vid4 datasets, which achieves a PSNR of 28.13dB with only 1.45M parameters. And the PP-MSVSR-L exceeds all state of the art method on REDS4 datasets with considerable parameters. Code and models will be released in PaddleGAN\footnote{https://github.com/P addlePaddle/PaddleGA N.}.
翻訳日:2021-12-07 16:28:14 公開日:2021-12-06
# PTTR:Transformerを用いたリレーショナル3Dポイントクラウドオブジェクト追跡

PTTR: Relational 3D Point Cloud Object Tracking with Transformer ( http://arxiv.org/abs/2112.02857v1 )

ライセンス: Link先を確認
Changqing Zhou, Zhipeng Luo, Yueru Luo, Tianrui Liu, Liang Pan, Zhongang Cai, Haiyu Zhao, Shijian Lu(参考訳) ポイントクラウドシーケンスでは、3dオブジェクト追跡はテンプレートポイントクラウドによって現在の検索ポイントクラウド内のオブジェクトの位置と方向を予測することを目的としている。 変圧器の成功に動機づけられた点追尾変圧器(pttr)は,変圧器操作の助けを借りて,高品質な3d追尾結果を高精度に予測する。 PTTRは3つの新しいデザインで構成されている。 1) ランダムサンプリングの代わりに, サブサンプリング中のテンプレートに関連点を保持するリレーアウェアサンプリングを設計する。 2) 自己着脱加群と交差着脱加群からなる点関係変換器(prt)を提案する。 global self-attention operationは、検索エリアとテンプレートのエンコードされたポイント特徴を強化するために、長距離依存関係をキャプチャする。 次に,2組の点特徴をクロスアテンションによってマッチングすることにより,粗い追跡結果を生成する。 3) 粗い追跡結果に基づいて, 最終改良予測を得るために, 新規な予測リファインメントモジュールを用いる。 さらに、waymo open datasetをベースに、大規模なポイントクラウドシングルオブジェクトトラッキングベンチマークを作成します。 広範囲にわたる実験により、PTTRは精度と効率の両方で優れた点雲追跡を実現することが示された。

In a point cloud sequence, 3D object tracking aims to predict the location and orientation of an object in the current search point cloud given a template point cloud. Motivated by the success of transformers, we propose Point Tracking TRansformer (PTTR), which efficiently predicts high-quality 3D tracking results in a coarse-to-fine manner with the help of transformer operations. PTTR consists of three novel designs. 1) Instead of random sampling, we design Relation-Aware Sampling to preserve relevant points to given templates during subsampling. 2) Furthermore, we propose a Point Relation Transformer (PRT) consisting of a self-attention and a cross-attention module. The global self-attention operation captures long-range dependencies to enhance encoded point features for the search area and the template, respectively. Subsequently, we generate the coarse tracking results by matching the two sets of point features via cross-attention. 3) Based on the coarse tracking results, we employ a novel Prediction Refinement Module to obtain the final refined prediction. In addition, we create a large-scale point cloud single object tracking benchmark based on the Waymo Open Dataset. Extensive experiments show that PTTR achieves superior point cloud tracking in both accuracy and efficiency.
翻訳日:2021-12-07 16:27:48 公開日:2021-12-06
# SelectAugment: データ拡張のための階層的決定論的サンプル選択

SelectAugment: Hierarchical Deterministic Sample Selection for Data Augmentation ( http://arxiv.org/abs/2112.02862v1 )

ライセンス: Link先を確認
Shiqi Lin, Zhizheng Zhang, Xin Li, Wenjun Zeng, Zhibo Chen(参考訳) データ拡張(DA)は多くのタスクにおいてモデル最適化を容易にするために広く研究されている。 しかし、ほとんどの場合、トレーニングサンプルごとにランダムにデータ拡張が行われ、コンテンツの破壊と視覚的な曖昧さを引き起こす可能性がある。 これを排除するために,本論文では,サンプル内容とネットワークトレーニング状況に基づいて,提案するサンプルを決定的かつオンライン的に選択する,SelectAugmentと呼ばれる効果的なアプローチを提案する。 具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。 我々はこの過程を2段階のマルコフ決定プロセスとしてモデル化し,階層的強化学習(hrl)を用いて強化方針を学習する。 このようにして、増強するサンプル選択におけるランダム性の悪影響を効果的に軽減し、daの有効性を向上させることができる。 広範な実験により,提案手法は,ミックスアップ,カットミックス,オートオーグメントなど,多数の一般的なda手法に適応でき,画像分類や細粒度画像認識などのベンチマークデータセットの性能が向上することを示した。

Data augmentation (DA) has been widely investigated to facilitate model optimization in many tasks. However, in most cases, data augmentation is randomly performed for each training sample with a certain probability, which might incur content destruction and visual ambiguities. To eliminate this, in this paper, we propose an effective approach, dubbed SelectAugment, to select samples to be augmented in a deterministic and online manner based on the sample contents and the network training status. Specifically, in each batch, we first determine the augmentation ratio, and then decide whether to augment each training sample under this ratio. We model this process as a two-step Markov decision process and adopt Hierarchical Reinforcement Learning (HRL) to learn the augmentation policy. In this way, the negative effects of the randomness in selecting samples to augment can be effectively alleviated and the effectiveness of DA is improved. Extensive experiments demonstrate that our proposed SelectAugment can be adapted upon numerous commonly used DA methods, e.g., Mixup, Cutmix, AutoAugment, etc, and improve their performance on multiple benchmark datasets of image classification and fine-grained image recognition.
翻訳日:2021-12-07 16:27:28 公開日:2021-12-06
# ALIKE: 高精度で軽量なキーポイント検出と記述子抽出

ALIKE: Accurate and Lightweight Keypoint Detection and Descriptor Extraction ( http://arxiv.org/abs/2112.02906v1 )

ライセンス: Link先を確認
Xiaoming Zhao, Xingming Wu, Jinyu Miao, Weihai Chen, Peter C. Y. Chen, and Zhengguo Li(参考訳) 既存の方法はキーポイントを非微分可能な方法で検出するため、バックプロパゲーションによってキーポイントの位置を直接最適化することはできない。 この問題に対処するため、正確なサブピクセルキーポイントを出力する可変キーポイント検出モジュールを提案する。 次に、これらのサブピクセルキーポイントを直接最適化するために再投影損失を提案し、分散ピーク損失を正確なキーポイント正規化のために提示する。 また,そのデリプタをサブピクセルの方法で抽出し,安定な神経再投射エラー損失で学習する。 さらに、軽量ネットワークはキーポイント検出とディスクリプタ抽出のために設計されており、商用GPU上の640x480イメージに対して毎秒95フレームで動作する。 ホモグラフィ推定,カメラポーズ推定,視覚(再)ローカライズタスクにおいて,提案手法は最先端手法で同等の性能を実現するとともに,推定時間を大幅に削減する。

Existing methods detect the keypoints in a non-differentiable way, therefore they can not directly optimize the position of keypoints through back-propagation. To address this issue, we present a differentiable keypoint detection module, which outputs accurate sub-pixel keypoints. The reprojection loss is then proposed to directly optimize these sub-pixel keypoints, and the dispersity peak loss is presented for accurate keypoints regularization. We also extract the descriptors in a sub-pixel way, and they are trained with the stable neural reprojection error loss. Moreover, a lightweight network is designed for keypoint detection and descriptor extraction, which can run at 95 frames per second for 640x480 images on a commercial GPU. On homography estimation, camera pose estimation, and visual (re-)localization tasks, the proposed method achieves equivalent performance with the state-of-the-art approaches, while greatly reduces the inference time.
翻訳日:2021-12-07 16:27:07 公開日:2021-12-06
# 4dcontrast:3次元シーン理解のための動的対応によるコントラスト学習

4DContrast: Contrastive Learning with Dynamic Correspondences for 3D Scene Understanding ( http://arxiv.org/abs/2112.02990v1 )

ライセンス: Link先を確認
Yujin Chen, Matthias Nie{\ss}ner, Angela Dai(参考訳) 教師なし事前学習により学習した3次元表現に4次元動的対象を組み込む新しい手法を提案する。 そこで我々は, 物体の動的移動が, その対象性に関する重要な手がかりとなることを観察し, 学習された3次元表現を動的に理解することで, 下流3次元セマンティックシーン理解タスクの性能向上に効果的に移行できることを示す。 本研究では, 静的3次元環境における合成3次元形状を利用した新しいデータ拡張手法を提案し, 学習した3次元表現に4次元不変性をエンコードする3d-4次元制約下でのコントラスト学習を行う。 教師なし表現学習の結果,下流3次元意味セグメンテーション,オブジェクト検出,インスタンスセグメンテーションタスクが改善し,さらにデータキャリアシナリオのパフォーマンスも向上した。

We present a new approach to instill 4D dynamic object priors into learned 3D representations by unsupervised pre-training. We observe that dynamic movement of an object through an environment provides important cues about its objectness, and thus propose to imbue learned 3D representations with such dynamic understanding, that can then be effectively transferred to improved performance in downstream 3D semantic scene understanding tasks. We propose a new data augmentation scheme leveraging synthetic 3D shapes moving in static 3D environments, and employ contrastive learning under 3D-4D constraints that encode 4D invariances into the learned 3D representations. Experiments demonstrate that our unsupervised representation learning results in improvement in downstream 3D semantic segmentation, object detection, and instance segmentation tasks, and moreover, notably improves performance in data-scarce scenarios.
翻訳日:2021-12-07 16:26:51 公開日:2021-12-06
# (参考訳) 熱モデル構築のための物理的に一貫性のあるニューラルネットワーク:理論と解析 [全文訳有]

Physically Consistent Neural Networks for building thermal modeling: theory and analysis ( http://arxiv.org/abs/2112.03212v1 )

ライセンス: CC BY 4.0
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones(参考訳) 高いエネルギー強度のため、建物は現在の世界のエネルギー移動において重要な役割を果たしている。 建築モデルは、建築のライフサイクルの各段階、すなわち設計、改造、制御操作において必要とされるため、ユビキタスである。 物理方程式に基づく古典的なホワイトボックスモデルは物理学の法則に従わなければならないが、その基礎となる構造の設計は表現性を妨げ、したがって精度を損なう可能性がある。 一方で、ブラックボックスモデルは、非線形なビルディングダイナミクスをキャプチャするのに適しているため、精度が向上することが多いが、多くのデータを必要とし、特にニューラルネットワーク(nn)モデルでよく見られる問題である物理学の法則に従わない可能性がある。 この既知の一般化問題に対抗するために、近年、研究者はnnの構造に関する事前の知識を導入し、既知の物理法則を基礎にし、古典的nn一般化問題を回避する。 本研究では,従来の NN と平行に動作する線形モジュールの事前知識を含む,過去の運用データと工学的オーバーヘッドを伴わない物理不変NN (PCNN) アーキテクチャを提案する。 このようなネットワークは、外部や近隣のゾーンで異なる制御入力や温度に対して、設計や目に見えないデータに対して、物理的に一貫性があることを正式に証明します。 ケーススタディでは,PCNNが3日間の予測地平線上での古典的な物理ベースの抵抗容量モデルよりも50\%の精度で性能を向上することを示した。 さらに,その制約された構造にもかかわらず,PCNNは検証データ上での古典的NNと同じような性能を達成し,トレーニングデータを過度に適合させ,一般化問題に対処するために高い表現性を維持する。

Due to their high energy intensity, buildings play a major role in the current worldwide energy transition. Building models are ubiquitous since they are needed at each stage of the life of buildings, i.e. for design, retrofitting, and control operations. Classical white-box models, based on physical equations, are bound to follow the laws of physics but the specific design of their underlying structure might hinder their expressiveness and hence their accuracy. On the other hand, black-box models are better suited to capture nonlinear building dynamics and thus can often achieve better accuracy, but they require a lot of data and might not follow the laws of physics, a problem that is particularly common for neural network (NN) models. To counter this known generalization issue, physics-informed NNs have recently been introduced, where researchers introduce prior knowledge in the structure of NNs to ground them in known underlying physical laws and avoid classical NN generalization issues. In this work, we present a novel physics-informed NN architecture, dubbed Physically Consistent NN (PCNN), which only requires past operational data and no engineering overhead, including prior knowledge in a linear module running in parallel to a classical NN. We formally prove that such networks are physically consistent -- by design and even on unseen data -- with respect to different control inputs and temperatures outside and in neighboring zones. We demonstrate their performance on a case study, where the PCNN attains an accuracy up to $50\%$ better than a classical physics-based resistance-capacitan ce model on $3$-day long prediction horizons. Furthermore, despite their constrained structure, PCNNs attain similar performance to classical NNs on the validation data, overfitting the training data less and retaining high expressiveness to tackle the generalization issue.
翻訳日:2021-12-07 16:23:55 公開日:2021-12-06
# パドルパドルにおけるエンドツーエンド適応型分散トレーニング

End-to-end Adaptive Distributed Training on PaddlePaddle ( http://arxiv.org/abs/2112.02752v1 )

ライセンス: Link先を確認
Yulong Ao, Zhihua Wu, Dianhai Yu, Weibao Gong, Zhiqing Kui, Minxu Zhang, Zilingfeng Ye, Liang Shen, Yanjun Ma, Tian Wu, Haifeng Wang, Wei Zeng, Chao Yang(参考訳) 分散トレーニングは、大規模データを処理する大規模ニューラルネットワーク(NN)モデルをトレーニングするための、広く効果的なアプローチとなっている。 しかしながら、様々なnnモデル、多様なコンピューティングリソース、およびトレーニングジョブ中の動的変化からの要求を満たすことは非常に困難である。 本研究では,資源割当,モデル分割,タスク配置,分散実行を十分に考慮し,さまざまなシナリオ,特に産業用アプリケーションや実運用環境に対して,組込み可能な適応能力を提供するために,システム的なエンドツーエンド視点で分散トレーニングフレームワークを設計した。 統一分散グラフと統一クラスタオブジェクトに基づいて,我々の適応フレームワークは,任意の並列性,リソース認識配置,マルチモード実行,フォールトトレラント,弾性分散トレーニングを可能にするグローバルコストモデルとグローバルプランナを備えている。 実験により,我々のフレームワークは,アプリケーションの多様性や資源の多様性から,高い競合性能で様々な要求を満たせることを実証した。 260億のパラメータを持つERNIE言語モデルは、91.7%のスケーラビリティを持つ数千のAIプロセッサで効率的に訓練されている。 ヘテロジニアスパイプライン非同期実行によるレコメンダシステムからのモデルのスループットは、それぞれGPUのみのトレーニングとCPUのみのトレーニングの2.1倍と3.3倍に向上することができる。 さらに, オンライン産業応用において, 耐障害性および弾力性のある分散トレーニングが適用され, 長期研修業務の失敗数を34.49%, 生産環境におけるスケジューリング効率を33.91%向上させた。

Distributed training has become a pervasive and effective approach for training a large neural network (NN) model with processing massive data. However, it is very challenging to satisfy requirements from various NN models, diverse computing resources, and their dynamic changes during a training job. In this study, we design our distributed training framework in a systematic end-to-end view to provide the built-in adaptive ability for different scenarios, especially for industrial applications and production environments, by fully considering resource allocation, model partition, task placement, and distributed execution. Based on the unified distributed graph and the unified cluster object, our adaptive framework is equipped with a global cost model and a global planner, which can enable arbitrary parallelism, resource-aware placement, multi-mode execution, fault-tolerant, and elastic distributed training. The experiments demonstrate that our framework can satisfy various requirements from the diversity of applications and the heterogeneity of resources with highly competitive performance. The ERNIE language model with 260 billion parameters is efficiently trained on thousands of AI processors with 91.7% weak scalability. The throughput of the model from the recommender system by employing the heterogeneous pipeline asynchronous execution can be increased up to 2.1 times and 3.3 times that of the GPU-only and CPU-only training respectively. Moreover, the fault-tolerant and elastic distributed training have been successfully applied to the online industrial applications, which give a reduction of 34.49% in the number of failed long-term training jobs and an increase of 33.91% for the global scheduling efficiency in the production environment.
翻訳日:2021-12-07 15:39:53 公開日:2021-12-06
# オフライン学習型マルチエージェント決定変換器:StarCraftIIタスクの1つの大きなシーケンスモデル

Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Conquers All StarCraftII Tasks ( http://arxiv.org/abs/2112.02845v1 )

ライセンス: Link先を確認
Linghui Meng, Muning Wen, Yaodong Yang, Chenyang Le, Xiyun Li, Weinan Zhang, Ying Wen, Haifeng Zhang, Jun Wang, Bo Xu(参考訳) オフライン強化学習は、静的データセットを利用して、環境にアクセスする必要なく最適なポリシーを学ぶ。 この手法は,エージェントのオンラインインタラクションの高価さや,トレーニング中のサンプル数の増加から,マルチエージェント学習タスクに好適である。 しかし、マルチエージェント強化学習(MARL)では、オンライン微調整によるオフライン事前トレーニングのパラダイムは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。 本稿では,marlにおけるオフライン事前トレーニングが,複数のダウンストリームタスクのパフォーマンス向上に役立つ汎用的なポリシ表現を学習できるのか,という疑問に答える。 まず,starcraftii環境に基づいた多様な品質レベルを持つ最初のオフラインmarlデータセットを導入し,効果的なオフライン学習のためのマルチエージェント決定トランスフォーマー(madt)の新たなアーキテクチャを提案する。 MADTはTransformerの時間表現のモデリング機能を活用し、オフラインおよびオンラインのMARLタスクと統合する。 MADTの重要な利点は、異なるタスクシナリオの下で異なるタイプのエージェント間で転送できる一般的なポリシーを学ぶことである。 StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。 オンラインタスクに適用すると、事前訓練されたmadtはサンプル効率を大幅に改善し、ゼロショットケースでも強力なパフォーマンスを享受できる。 私たちの知る限りでは,marlのサンプル効率と汎用性向上の観点から,オフライン事前トレーニングモデルの有効性を研究し,実証する最初の作業です。

Offline reinforcement learning leverages static datasets to learn optimal policies with no necessity to access the environment. This technique is desirable for multi-agent learning tasks due to the expensiveness of agents' online interactions and the demanding number of samples during training. Yet, in multi-agent reinforcement learning (MARL), the paradigm of offline pre-training with online fine-tuning has never been studied, nor datasets or benchmarks for offline MARL research are available. In this paper, we try to answer the question of whether offline pre-training in MARL is able to learn generalisable policy representations that can help improve the performance of multiple downstream tasks. We start by introducing the first offline MARL dataset with diverse quality levels based on the StarCraftII environment, and then propose the novel architecture of multi-agent decision transformer (MADT) for effective offline learning. MADT leverages Transformer's modelling ability of temporal representations and integrates it with both offline and online MARL tasks. A crucial benefit of MADT is that it learns generalisable policies that can transfer between different types of agents under different task scenarios. When evaluated on StarCraft II offline dataset, MADT demonstrates superior performance than state-of-the-art offline RL baselines. When applied to online tasks, the pre-trained MADT significantly improves sample efficiency, and enjoys strong performance even in zero-shot cases. To our best knowledge, this is the first work that studies and demonstrates the effectiveness of offline pre-trained models in terms of sample efficiency and generalisability enhancements in MARL.
翻訳日:2021-12-07 15:39:24 公開日:2021-12-06
# シンプルに保つ: 言語モデルは複雑な分子分布を学習できる

Keeping it Simple: Language Models can learn Complex Molecular Distributions ( http://arxiv.org/abs/2112.03041v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd, Kevin Zhu and Al\'an Aspuru-Guzik(参考訳) 分子の深い生成モデルの人気が高まっており、関連するデータセットに基づいて訓練され、これらのモデルは化学空間を探索するために使用される。 新規機能性化合物の逆設計のための生成モデルの下流の有用性は、分子の訓練分布を学ぶ能力に依存する。 最も単純な例は、繰り返しニューラルネットワークの形をとり、文字列表現を使って分子を生成する言語モデルである。 より洗練されたグラフ生成モデルでは、分子グラフを順次構築し、典型的には最先端の成果を得る。 しかし、最近の研究により、言語モデルは、特に低データ構造において、かつて考えられていたよりも有能であることが示されている。 本研究では,分子の分布を学習するための単純な言語モデルの能力について検討する。 そこで本研究では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。 それぞれのタスクにおいて,2つのグラフ生成モデルと比較して,言語モデルの能力を評価する。 その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習し、グラフモデルよりも優れた性能が得られることを示した。 言語モデルは正確に生成できる:亜鉛15における最高得点のペナル化logp分子の分布、多モード分子分布、およびプブシェム最大の分子。

Deep generative models of molecules have grown immensely in popularity, trained on relevant datasets, these models are used to search through chemical space. The downstream utility of generative models for the inverse design of novel functional compounds depends on their ability to learn a training distribution of molecules. The most simple example is a language model that takes the form of a recurrent neural network and generates molecules using a string representation. More sophisticated are graph generative models, which sequentially construct molecular graphs and typically achieve state of the art results. However, recent work has shown that language models are more capable than once thought, particularly in the low data regime. In this work, we investigate the capacity of simple language models to learn distributions of molecules. For this purpose, we introduce several challenging generative modeling tasks by compiling especially complex distributions of molecules. On each task, we evaluate the ability of language models as compared with two widely used graph generative models. The results demonstrate that language models are powerful generative models, capable of adeptly learning complex molecular distributions -- and yield better performance than the graph models. Language models can accurately generate: distributions of the highest scoring penalized LogP molecules in ZINC15, multi-modal molecular distributions as well as the largest molecules in PubChem.
翻訳日:2021-12-07 15:38:57 公開日:2021-12-06
# 機械学習モデルテストにおける分布を超えた思考

Thinking Beyond Distributions in Testing Machine Learned Models ( http://arxiv.org/abs/2112.03057v1 )

ライセンス: Link先を確認
Negar Rostamzadeh, Ben Hutchinson, Christina Greer, Vinodkumar Prabhakaran(参考訳) マシンラーニング(ML)コミュニティ内のテストプラクティスは、トレーニングデータセットと同じ分布から引き出されるテストデータセットに対して、学習したモデルの予測パフォーマンスを評価することに集中している。 MLコミュニティにおけるロバストネスと公平性テストに関する最近の研究は、分散シフトに対するテストの重要性を指摘しているが、これらの取り組みは、参照データセット/配信に対してエラーを発生させるモデルの可能性の推定にも焦点を当てている。 このテストの考え方は、研究者や開発者が他のロバストネス障害の原因を調べることを積極的に妨げている、と私たちは主張しています。 私たちは、ソフトウェアエンジニアリングテストにおける数十年の作業と並行して、ソフトウェアシステムのさまざまなストレス条件に対する評価に重点を置いています。 最後に、機械学習テストの視点を厳格な実践に広げるための一連の推奨事項を提示した。

Testing practices within the machine learning (ML) community have centered around assessing a learned model's predictive performance measured against a test dataset, often drawn from the same distribution as the training dataset. While recent work on robustness and fairness testing within the ML community has pointed to the importance of testing against distributional shifts, these efforts also focus on estimating the likelihood of the model making an error against a reference dataset/distribution . We argue that this view of testing actively discourages researchers and developers from looking into other sources of robustness failures, for instance corner cases which may have severe undesirable impacts. We draw parallels with decades of work within software engineering testing focused on assessing a software system against various stress conditions, including corner cases, as opposed to solely focusing on average-case behaviour. Finally, we put forth a set of recommendations to broaden the view of machine learning testing to a rigorous practice.
翻訳日:2021-12-07 15:38:37 公開日:2021-12-06
# ゲームのプレーヤー

Player of Games ( http://arxiv.org/abs/2112.03178v1 )

ライセンス: Link先を確認
Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, Zach Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling(参考訳) ゲームは人工知能の進歩のベンチマークとして長い歴史を持つ。 近年,探索学習を用いた手法は,完全情報ゲームの集合において高い性能を示し,ゲーム理論推論と学習を用いた手法は,特定の不完全情報ポーカーの変種に対して強い性能を示した。 ゲームプレイヤ(Player of Games)は,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた,従来のアプローチを統一した汎用アルゴリズムである。 Player of Gamesは、大規模な完全かつ不完全な情報ゲームにおいて、強力な経験的パフォーマンスを達成した最初のアルゴリズムである。 プレイヤ・オブ・ゲームは,計算時間と近似能力が増大するにつれて,完全プレイに収束する。 プレイヤー・オブ・ゲームズはチェスと囲碁で強いパフォーマンスを達成し、無期限のテキサスホールディングス・ポーカー(スラムボット)で最強の公開エージェントを破り、スコットランドヤードの最先端エージェントを破り、ガイド付き検索、学習、ゲーム理論の推論の価値を示す不完全な情報ゲームとなる。

Games have a long history of serving as a benchmark for progress in artificial intelligence. Recently, approaches using search and learning have shown strong performance across a set of perfect information games, and approaches using game-theoretic reasoning and learning have shown strong performance for specific imperfect information poker variants. We introduce Player of Games, a general-purpose algorithm that unifies previous approaches, combining guided search, self-play learning, and game-theoretic reasoning. Player of Games is the first algorithm to achieve strong empirical performance in large perfect and imperfect information games -- an important step towards truly general algorithms for arbitrary environments. We prove that Player of Games is sound, converging to perfect play as available computation time and approximation capacity increases. Player of Games reaches strong performance in chess and Go, beats the strongest openly available agent in heads-up no-limit Texas hold'em poker (Slumbot), and defeats the state-of-the-art agent in Scotland Yard, an imperfect information game that illustrates the value of guided search, learning, and game-theoretic reasoning.
翻訳日:2021-12-07 15:37:26 公開日:2021-12-06
# シミュレーション知性:新しい世代の科学的手法に向けて

Simulation Intelligence: Towards a New Generation of Scientific Methods ( http://arxiv.org/abs/2112.03235v1 )

ライセンス: Link先を確認
Alexander Lavin, Hector Zenil, Brooks Paige, David Krakauer, Justin Gottschlich, Tim Mattson, Anima Anandkumar, Sanjay Choudry, Kamil Rocki, At{\i}l{\i}m G\"une\c{s} Baydin, Carina Prunkl, Brooks Paige, Olexandr Isayev, Erik Peterson, Peter L. McMahon, Jakob Macke, Kyle Cranmer, Jiaxin Zhang, Haruko Wainwright, Adi Hanuka, Manuela Veloso, Samuel Assefa, Stephan Zheng, Avi Pfeffer(参考訳) オリジナルの"7つのモチーフ"は、計算とデータ移動のパターンを捉えるアルゴリズムの手法である、科学計算の分野において不可欠な手法のロードマップを定めている。 本稿では,科学計算,科学シミュレーション,人工知能の融合に必要な必須アルゴリズムの開発と統合のためのロードマップである「シミュレーション知能の9つのモチーフ」を提案する。 これを統合シミュレーションインテリジェンス(si)と呼んでいます。 シミュレーションインテリジェンスのモチーフは、オペレーティングシステムのレイヤ内のコンポーネントのように、相互に相互依存的であり、相互依存的であると主張する。 このメタファーを用いて,シミュレーションインテリジェンスオペレーティングシステムスタック (si-stack) の各レイヤの性質とモチーフについて検討する。(1)マルチフィジカルとマルチスケールモデリング,(2)サロゲートモデリングとエミュレーション,(3)シミュレーションベース推論,(4)因果モデリングと推論,(5)エージェントベースモデリング,(6)確率プログラミング,(7)微分可能プログラミング,(8)オープンエンド最適化,(9)マシンプログラミング。 我々は、モチーフ間の協調的な努力が、合成生物学と気候科学の逆問題解決から核エネルギー実験の誘導、社会経済設定における創発的行動予測まで、科学的発見を加速する大きな機会を提供すると考えている。 SIスタックの各レイヤについて詳述し、最先端の手法を詳述し、課題と機会を強調するサンプルを提示し、それらの組み合わせからモチーフとシナジーを前進させる具体的な方法を提案する。 これらの技術の進歩と統合により、ロバストで効率的な仮説シミュレーション分析型の科学的手法が可能になる。

The original "Seven Motifs" set forth a roadmap of essential methods for the field of scientific computing, where a motif is an algorithmic method that captures a pattern of computation and data movement. We present the "Nine Motifs of Simulation Intelligence", a roadmap for the development and integration of the essential algorithms necessary for a merger of scientific computing, scientific simulation, and artificial intelligence. We call this merger simulation intelligence (SI), for short. We argue the motifs of simulation intelligence are interconnected and interdependent, much like the components within the layers of an operating system. Using this metaphor, we explore the nature of each layer of the simulation intelligence operating system stack (SI-stack) and the motifs therein: (1) Multi-physics and multi-scale modeling; (2) Surrogate modeling and emulation; (3) Simulation-based inference; (4) Causal modeling and inference; (5) Agent-based modeling; (6) Probabilistic programming; (7) Differentiable programming; (8) Open-ended optimization; (9) Machine programming. We believe coordinated efforts between motifs offers immense opportunity to accelerate scientific discovery, from solving inverse problems in synthetic biology and climate science, to directing nuclear energy experiments and predicting emergent behavior in socioeconomic settings. We elaborate on each layer of the SI-stack, detailing the state-of-art methods, presenting examples to highlight challenges and opportunities, and advocating for specific ways to advance the motifs and the synergies from their combinations. Advancing and integrating these technologies can enable a robust and efficient hypothesis-simulatio n-analysis type of scientific method, which we introduce with several use-cases for human-machine teaming and automated science.
翻訳日:2021-12-07 15:37:06 公開日:2021-12-06
# gam changer:インタラクティブな可視化による一般化加法モデルの編集

GAM Changer: Editing Generalized Additive Models with Interactive Visualization ( http://arxiv.org/abs/2112.03245v1 )

ライセンス: Link先を確認
Zijie J. Wang, Alex Kale, Harsha Nori, Peter Stella, Mark Nunnally, Duen Horng Chau, Mihaela Vorvoreanu, Jennifer Wortman Vaughan, Rich Caruana(参考訳) 解釈可能な機械学習(ml)研究の最近の進歩は、モデルがデータ内の望ましくないパターンを利用して予測していることを示している。 しかし、これらのモデルをどのように修正できるかは不明だ。 GAM Changerは、データサイエンティストやドメインエキスパートが、GAM(Generalized Additive Models)を簡単かつ責任を持って編集するのに役立つオープンソースのインタラクティブシステムです。 新たな可視化技術により,人間ユーザに対して,モデルの振る舞いを知識や価値観に分析,検証,整合させるような,解釈可能性を行動に導入する。 最新のWeb技術を使って構築された当社のツールは,計算リソースを余分に必要とせずに,ユーザの計算ノートブックやWebブラウザ上でローカルに動作します。 GAM Changerはhttps://interpret.ml /gam-changer.comで入手できる。

Recent strides in interpretable machine learning (ML) research reveal that models exploit undesirable patterns in the data to make predictions, which potentially causes harms in deployment. However, it is unclear how we can fix these models. We present our ongoing work, GAM Changer, an open-source interactive system to help data scientists and domain experts easily and responsibly edit their Generalized Additive Models (GAMs). With novel visualization techniques, our tool puts interpretability into action -- empowering human users to analyze, validate, and align model behaviors with their knowledge and values. Built using modern web technologies, our tool runs locally in users' computational notebooks or web browsers without requiring extra compute resources, lowering the barrier to creating more responsible ML models. GAM Changer is available at https://interpret.ml /gam-changer.
翻訳日:2021-12-07 15:36:24 公開日:2021-12-06
# マルチソース大規模グラフに対するインセンティブ対応型パレートアライメント

Incentive Compatible Pareto Alignment for Multi-Source Large Graphs ( http://arxiv.org/abs/2112.02792v1 )

ライセンス: Link先を確認
Jian Liang, Fangrui Lv, Di Liu, Zehui Dai, Xu Tian, Shuang Li, Fei Wang, Han Li(参考訳) 本稿では,マルチソース大規模データを用いた効果的なエンティティマッチングモデルについて述べる。 実アプリケーションでは、データ分散や空間、エンティティIDがソース間で共有されるという典型的な仮定を緩和し、Relaxed Multi-source Large-scale Entity-matching (RMLE)問題を提案する。 問題の課題は 1)情報共有のための情報源間の大規模実体の調整方法 2)多元共同学習データから負の伝達を緩和する方法 さらに悪いことに、現実的な問題のひとつは、両方の課題の絡み合いです。 特に、不正確なアライメントは負の転送を増加させ、一方のソースに対する負の転送を緩和する一方で、他のソースに対する学習不足な表現を生じさせ、アライメント精度を低下させる可能性がある。 この課題に対処するために,まず情報共有の最適化をParetoのフロント最適化に基づいて行うことが重要であり,情報共有が負の転送の下位境界を表すParetoのフロントに大きく影響を与えることを示す。 そこで本研究では,まずパレートフロント最適化に基づくクロスソースアライメントを最適化し,最適化アライメントに制約された負転送を緩和するインセンティブ互換パレートアライメント(icpa)法を提案する。 このメカニズムにより、各ソースは、他のソースの表現の劣化を心配することなく、真の好みに基づいて学習することができる。 具体的には、paretoのフロント最適化は負の転送の限界を最小化することを奨励している。 ICPAの有効性と優位性を示すため,4つの大規模データセットに対する総合的実証評価結果を提供した。 検索広告プラットフォームにおけるオンラインA/Bテストの結果は、生産環境におけるICPAの有効性を示す。

In this paper, we focus on learning effective entity matching models over multi-source large-scale data. For real applications, we relax typical assumptions that data distributions/spaces , or entity identities are shared between sources, and propose a Relaxed Multi-source Large-scale Entity-matching (RMLE) problem. Challenges of the problem include 1) how to align large-scale entities between sources to share information and 2) how to mitigate negative transfer from joint learning multi-source data. What's worse, one practical issue is the entanglement between both challenges. Specifically, incorrect alignments may increase negative transfer; while mitigating negative transfer for one source may result in poorly learned representations for other sources and then decrease alignment accuracy. To handle the entangled challenges, we point out that the key is to optimize information sharing first based on Pareto front optimization, by showing that information sharing significantly influences the Pareto front which depicts lower bounds of negative transfer. Consequently, we proposed an Incentive Compatible Pareto Alignment (ICPA) method to first optimize cross-source alignments based on Pareto front optimization, then mitigate negative transfer constrained on the optimized alignments. This mechanism renders each source can learn based on its true preference without worrying about deteriorating representations of other sources. Specifically, the Pareto front optimization encourages minimizing lower bounds of negative transfer, which optimizes whether and which to align. Comprehensive empirical evaluation results on four large-scale datasets are provided to demonstrate the effectiveness and superiority of ICPA. Online A/B test results at a search advertising platform also demonstrate the effectiveness of ICPA in production environments.
翻訳日:2021-12-07 15:36:09 公開日:2021-12-06
# 時系列異常検出のためのオンライン偽発見率制御

Online false discovery rate control for anomaly detection in time series ( http://arxiv.org/abs/2112.03196v1 )

ライセンス: Link先を確認
Quentin Rebjock, Bar{\i}\c{s} Kurt, Tim Januschowski, Laurent Callot(参考訳) 本稿では,時系列におけるオンライン異常検出を目的とした偽発見率制御(FDRC)の新しいルールを提案する。 オンラインFDRCルールは、一連の統計テストの特性を制御することができる。 異常検出の文脈では、ヌル仮説(null hypothesis)は観測が正常であり、また別の仮説は異常であるということである。 FDRCルールでは、教師なしの設定で精度の低い境界を目標にすることができる。 本稿では, 従来のFDRC規則の欠点を, 異常検出の文脈で克服し, 特に, 異常検出が極めて稀な場合(異常検出では典型的に) , テスト統計が逐次依存している場合(時系列では典型的に) においても, 電力が高いままであることを保証する。 理論と実験の両方においてこれらの規則の健全性を示す。

This article proposes novel rules for false discovery rate control (FDRC) geared towards online anomaly detection in time series. Online FDRC rules allow to control the properties of a sequence of statistical tests. In the context of anomaly detection, the null hypothesis is that an observation is normal and the alternative is that it is anomalous. FDRC rules allow users to target a lower bound on precision in unsupervised settings. The methods proposed in this article overcome short-comings of previous FDRC rules in the context of anomaly detection, in particular ensuring that power remains high even when the alternative is exceedingly rare (typical in anomaly detection) and the test statistics are serially dependent (typical in time series). We show the soundness of these rules in both theory and experiments.
翻訳日:2021-12-07 15:35:42 公開日:2021-12-06
# 限定アノテーションによるオルガン・アット・リスクとグロス・トゥモーム・ボリューム・セグメンテーションの相互比較学習

Separated Contrastive Learning for Organ-at-Risk and Gross-Tumor-Volume Segmentation with Limited Annotation ( http://arxiv.org/abs/2112.02743v1 )

ライセンス: Link先を確認
Jiacheng Wang, Xiaomeng Li, Yiming Han, Jing Qin, Liansheng Wang, Qichao Zhou(参考訳) organ-at-risk (oar) と gross-tumor volume (gtv) の自動除線は放射線治療計画において非常に重要である。 しかし、限定された画素(voxel)のアノテーションの下で正確なデライン化のための強力な表現を学ぶことは難しい課題である。 ピクセルレベルでの対比学習は、ラベルのないデータから密接な表現を学習することでアノテーションへの依存を軽減することができる。 この方向の最近の研究は、特徴写像における様々な対照的な損失を設計し、地図の各ピクセルに識別的特徴を与える。 しかし、同じ地図のピクセルは、必然的に、実際よりも近い意味を共有し、同じ地図のピクセルの識別に影響を与え、他の地図のピクセルとの不公平な比較につながる可能性がある。 そこで本研究では,各画像を領域に分割し,各領域を別々にエンコードするseparegという,領域レベルのコントラスト学習方式を提案する。 特に、separegは2つのコンポーネントから成り立っている: structure-aware image separation (sis)モジュールとintra- and inter-organ distillation (iid)モジュールである。 SISは、構造情報のガイダンスに基づいて設定された領域を再構築するイメージセットを操作することが提案されている。 組織間表現はこの集合から典型的な対照的な損失領域を通じて学習される。 一方、IIDは、小器官がより少ない領域を生成する可能性があるとして設定された領域の量不均衡に取り組むために、臓器内表現を利用して提案されている。 公開データセットと2つのプライベートデータセットで提案モデルを評価するために,広範な実験を行った。 実験の結果,提案モデルの有効性を実証し,最新手法よりも一貫して性能を向上した。 コードはhttps://github.com/j cwang123/separate_cl で入手できる。

Automatic delineation of organ-at-risk (OAR) and gross-tumor-volume (GTV) is of great significance for radiotherapy planning. However, it is a challenging task to learn powerful representations for accurate delineation under limited pixel (voxel)-wise annotations. Contrastive learning at pixel-level can alleviate the dependency on annotations by learning dense representations from unlabeled data. Recent studies in this direction design various contrastive losses on the feature maps, to yield discriminative features for each pixel in the map. However, pixels in the same map inevitably share semantics to be closer than they actually are, which may affect the discrimination of pixels in the same map and lead to the unfair comparison to pixels in other maps. To address these issues, we propose a separated region-level contrastive learning scheme, namely SepaReg, the core of which is to separate each image into regions and encode each region separately. Specifically, SepaReg comprises two components: a structure-aware image separation (SIS) module and an intra- and inter-organ distillation (IID) module. The SIS is proposed to operate on the image set to rebuild a region set under the guidance of structural information. The inter-organ representation will be learned from this set via typical contrastive losses cross regions. On the other hand, the IID is proposed to tackle the quantity imbalance in the region set as tiny organs may produce fewer regions, by exploiting intra-organ representations. We conducted extensive experiments to evaluate the proposed model on a public dataset and two private datasets. The experimental results demonstrate the effectiveness of the proposed model, consistently achieving better performance than state-of-the-art approaches. Code is available at https://github.com/j cwang123/Separate_CL .
翻訳日:2021-12-07 15:33:02 公開日:2021-12-06
# 切替型サイクロンを用いた3次元超音波の可変画質制御

Tunable Image Quality Control of 3-D Ultrasound using Switchable CycleGAN ( http://arxiv.org/abs/2112.02896v1 )

ライセンス: Link先を確認
Jaeyoung Huh, Shujaat Khan, Sungjin Choi, Dongkuk Shin, Eun Sun Lee, Jong Chul Ye(参考訳) 一軸面イメージングのための2次元超音波(US)とは異なり、3次元USイメージングシステムは3つの軸面に沿った体積を可視化することができる。 これは婦人科(GYN)と産婦人科(OB)の応用に有用である。 残念ながら、3D USは2D USに比べて解像度に固有の制限がある。 例えば3次元メカニカルプローブを用いた3次元USの場合、画像品質はビーム方向と同等であるが、他の2つの軸方向画像面では画像品質の著しい劣化がしばしば見られる。 そこで本研究では,3次元画像品質向上のための教師なしディープラーニング手法を提案する。 特に,高画質の2次元USイメージを基準として,最近提案された交換可能なCycleGANアーキテクチャをトレーニングし,3次元USのすべてのマッピングプレーンが2次元USイメージの画質を学習できるようにした。 切り替え可能なアーキテクチャにより,ユーザの好みに基づいた画像強調レベルをリアルタイムに制御することが可能となり,ユーザ中心のスキャナー設定に最適である。 臨床評価による広範囲な実験により,本手法は画像品質とユーザフレンドリな柔軟性を著しく向上することを確認した。

In contrast to 2-D ultrasound (US) for uniaxial plane imaging, a 3-D US imaging system can visualize a volume along three axial planes. This allows for a full view of the anatomy, which is useful for gynecological (GYN) and obstetrical (OB) applications. Unfortunately, the 3-D US has an inherent limitation in resolution compared to the 2-D US. In the case of 3-D US with a 3-D mechanical probe, for example, the image quality is comparable along the beam direction, but significant deterioration in image quality is often observed in the other two axial image planes. To address this, here we propose a novel unsupervised deep learning approach to improve 3-D US image quality. In particular, using {\em unmatched} high-quality 2-D US images as a reference, we trained a recently proposed switchable CycleGAN architecture so that every mapping plane in 3-D US can learn the image quality of 2-D US images. Thanks to the switchable architecture, our network can also provide real-time control of image enhancement level based on user preference, which is ideal for a user-centric scanner setup. Extensive experiments with clinical evaluation confirm that our method offers significantly improved image quality as well user-friendly flexibility.
翻訳日:2021-12-07 15:32:31 公開日:2021-12-06
# コンピュータビジョンにおける倫理と創造性

Ethics and Creativity in Computer Vision ( http://arxiv.org/abs/2112.03111v1 )

ライセンス: Link先を確認
Negar Rostamzadeh, Emily Denton, Linda Petrini(参考訳) CVPR 2021カンファレンスでは、コンピュータビジョンの創造的応用に関する倫理的考察*と、それ以前には、ECCV 2018、ICCV 2019、CVPR 2020で、コンピュータビジョンのファッション、アート、デザインのためのコンピュータビジョンに関する一連のワークショップを開催しました。 このリフレクションによって、アーティストや機械学習研究者が、コンピュータビジョンの創造的応用の倫理的、社会的側面に関する会話をすることができることを願っている。

This paper offers a retrospective of what we learnt from organizing the workshop *Ethical Considerations in Creative applications of Computer Vision* at CVPR 2021 conference and, prior to that, a series of workshops on *Computer Vision for Fashion, Art and Design* at ECCV 2018, ICCV 2019, and CVPR 2020. We hope this reflection will bring artists and machine learning researchers into conversation around the ethical and social dimensions of creative applications of computer vision.
翻訳日:2021-12-07 15:32:10 公開日:2021-12-06
# 検索と学習:データ-テキスト生成のための意味的カバレッジの改善

Search and Learn: Improving Semantic Coverage for Data-to-Text Generation ( http://arxiv.org/abs/2112.02770v1 )

ライセンス: Link先を確認
Shailza Jolly, Zi Xuan Zhang, Andreas Dengel, Lili Mou(参考訳) データ-テキスト生成システムは、入力データ(しばしば表形式で表される)に基づいてテキスト記述を生成することを目的としている。 典型的なシステムは、テーブルとテキストの対応を学ぶために巨大なトレーニングサンプルを使用する。 しかし、大規模なトレーニングセットは入手するのに高価であり、現実のシナリオにおけるこれらのアプローチの適用性を制限する。 本研究では,データ対テキスト生成に焦点をあてる。 我々は、微調整された事前学習言語モデルが可読な文を生成するのに対して、数ショット設定では意味的カバレッジの低い問題に悩まされていることを観察した。 言い換えれば、重要な入力スロットは生成されたテキストに欠落する傾向がある。 そこで本研究では,事前学習された言語モデルを活用した検索学習手法を提案する。 さらに,検索ノイズを円滑に除去し,良質なテキストを生成し,推論効率を大幅に向上させるため,検索結果に基づいてシステムを微調整する。 実験の結果,E2E と WikiBio のデータセットで高い性能が得られた。 特に、E2Eの入力スロットの98.35%をカバーし、低カバレッジ問題を緩和しています。

Data-to-text generation systems aim to generate text descriptions based on input data (often represented in the tabular form). A typical system uses huge training samples for learning the correspondence between tables and texts. However, large training sets are expensive to obtain, limiting the applicability of these approaches in real-world scenarios. In this work, we focus on few-shot data-to-text generation. We observe that, while fine-tuned pretrained language models may generate plausible sentences, they suffer from the low semantic coverage problem in the few-shot setting. In other words, important input slots tend to be missing in the generated text. To this end, we propose a search-and-learning approach that leverages pretrained language models but inserts the missing slots to improve the semantic coverage. We further fine-tune our system based on the search results to smooth out the search noise, yielding better-quality text and improving inference efficiency to a large extent. Experiments show that our model achieves high performance on E2E and WikiBio datasets. Especially, we cover 98.35% of input slots on E2E, largely alleviating the low coverage problem.
翻訳日:2021-12-07 15:28:59 公開日:2021-12-06
# グラフ解析としての高速かつ高精度なスパン型セマンティックロールラベル

Fast and Accurate Span-based Semantic Role Labeling as Graph Parsing ( http://arxiv.org/abs/2112.02970v1 )

ライセンス: Link先を確認
Shilin Zhou, Qingrong Xia, Zhenghua Li, Yu Zhang, Min Zhang(参考訳) 現在、バイオベースとタプルベースのアプローチは、span-based semantic role labeling (srl)タスクで非常にうまく機能します。 しかし、BIOベースのアプローチは、通常、引数を予測する際に各述語に対して一度だけ文をエンコードし、タプルベースのアプローチは、巨大な検索スペースであるO(n^3)$に対処し、トレーニングと推論効率を大幅に削減する必要がある。 解析速度は毎秒50文未満である。 さらに、BIOベースのアプローチとタプルベースのアプローチは、通常、予測を行う際にローカルな構造情報のみを考慮する。 本稿では,グラフ解析タスクとしてエンドツーエンドのスパンベースSRLを提案する。 新たなグラフ表現スキーマに基づいて,高階意味依存グラフ解析に関する最近の研究の肩に,高速かつ正確なSRLパーサを提示する。 さらに,出力グラフの合法性を保証するための制約付きビタビ手順を提案する。 英語 conll05 と conll12 のデータセットを用いた実験では,学習済みの言語モデルと学習済み言語モデルの両方において,新たな最先端結果を達成し,毎秒600文以上の文を解析できることが示されている。

Currently, BIO-based and tuple-based approaches perform quite well on the span-based semantic role labeling (SRL) task. However, the BIO-based approach usually needs to encode a sentence once for each predicate when predicting its arguments, and the tuple-based approach has to deal with a huge search space of $O(n^3)$, greatly reducing the training and inference efficiency. The parsing speed is less than 50 sentences per second. Moreover, both BIO-based and tuple-based approaches usually consider only local structural information when making predictions. This paper proposes to cast end-to-end span-based SRL as a graph parsing task. Based on a novel graph representation schema, we present a fast and accurate SRL parser on the shoulder of recent works on high-order semantic dependency graph parsing. Moreover, we propose a constrained Viterbi procedure to ensure the legality of the output graph. Experiments on English CoNLL05 and CoNLL12 datasets show that our model achieves new state-of-the-art results under both settings of without and with pre-trained language models, and can parse over 600 sentences per second.
翻訳日:2021-12-07 15:28:41 公開日:2021-12-06
# ピボット単語強調学習を用いたvaeに基づくテキストスタイル転送

VAE based Text Style Transfer with Pivot Words Enhancement Learning ( http://arxiv.org/abs/2112.03154v1 )

ライセンス: Link先を確認
Haoran Xu, Sixing Lu, Zhongkai Sun, Chengyuan Ma, Chenlei Guo(参考訳) Text Style Transfer (TST)は、ソーステキストの基本的なスタイルを、同じコンテンツを保持しながら、別の特定のスタイルに変更することを目的としている。 高品質な並列トレーニングデータの不足により、教師なし学習はTSTタスクのトレンドとなっている。 本稿では、変分オートエンコーダ(VAE)と外部スタイル埋め込みを併用し、セマンティクスとスタイル分布を併用して学習する、PivOt Words Enhancement leaRning(VT-STOWER)法による新しいVAEベースのテキストスタイル転送を提案する。 さらに,特定のスタイルで決定的な単語を学習するために用いられるピボット語学習を導入し,スタイル伝達の全体的な性能をさらに向上させる。 提案するvt-stowerは,新しいフレキシブルスタイル強度制御機構を用いた非並列訓練データにより,異なるtstシナリオにスケールすることができる。 実験により、VT-STOWERは感情、形式、コードスイッチングTSTタスクにおいて最先端のタスクより優れていることが示された。

Text Style Transfer (TST) aims to alter the underlying style of the source text to another specific style while keeping the same content. Due to the scarcity of high-quality parallel training data, unsupervised learning has become a trending direction for TST tasks. In this paper, we propose a novel VAE based Text Style Transfer with pivOt Words Enhancement leaRning (VT-STOWER) method which utilizes Variational AutoEncoder (VAE) and external style embeddings to learn semantics and style distribution jointly. Additionally, we introduce pivot words learning, which is applied to learn decisive words for a specific style and thereby further improve the overall performance of the style transfer. The proposed VT-STOWER can be scaled to different TST scenarios given very limited and non-parallel training data with a novel and flexible style strength control mechanism. Experiments demonstrate that the VT-STOWER outperforms the state-of-the-art on sentiment, formality, and code-switching TST tasks.
翻訳日:2021-12-07 15:28:21 公開日:2021-12-06
# 多言語感情分析のためのゼロショットハッシュタグセグメンテーション

Zero-shot hashtag segmentation for multilingual sentiment analysis ( http://arxiv.org/abs/2112.03213v1 )

ライセンス: Link先を確認
Ruan Chaves Rodrigues, Marcelo Akira Inuzuka, Juliana Resplande Sant'Anna Gomes, Acquila Santos Rocha, Iacer Calixto, Hugo Alexandre Dantas do Nascimento(参考訳) Hashtag segmentation(ハッシュタグ分割)は、ソーシャルメディアデータセットのパイプライン前処理における一般的なステップである。 通常、感情分析やヘイトスピーチ検出などのタスクに先行する。 中間言語から低リソース言語への感情分析では、機械翻訳を利用する多言語アプローチが、タスクに対する従来のアプローチよりも競合的あるいは優れていることが実証されている。 ゼロショットのハッシュタグセグメンテーションフレームワークを開発し,多言語感情分析パイプラインの精度向上に利用できることを示す。 私たちのゼロショットフレームワークは、ハッシュタグセグメンテーションデータセットの新しい最先端を確立し、ドメイン内データでトレーニングされた機能工学と言語モデルに依存する、以前のアプローチを上回っています。

Hashtag segmentation, also known as hashtag decomposition, is a common step in preprocessing pipelines for social media datasets. It usually precedes tasks such as sentiment analysis and hate speech detection. For sentiment analysis in medium to low-resourced languages, previous research has demonstrated that a multilingual approach that resorts to machine translation can be competitive or superior to previous approaches to the task. We develop a zero-shot hashtag segmentation framework and demonstrate how it can be used to improve the accuracy of multilingual sentiment analysis pipelines. Our zero-shot framework establishes a new state-of-the-art for hashtag segmentation datasets, surpassing even previous approaches that relied on feature engineering and language models trained on in-domain data.
翻訳日:2021-12-07 15:28:02 公開日:2021-12-06
# (参考訳) text2mesh: メッシュのためのテキスト駆動ニューラルスタイライゼーション [全文訳有]

Text2Mesh: Text-Driven Neural Stylization for Meshes ( http://arxiv.org/abs/2112.03221v1 )

ライセンス: CC BY 4.0
Oscar Michel, Roi Bar-On, Richard Liu, Sagie Benaim, Rana Hanocka(参考訳) 本研究では3次元オブジェクトのスタイルを編集するための直感的な制御を開発する。 筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。 本研究では,固定メッシュ入力(コンテンツ)と学習ニューラルネットワークを組み合わせた3次元オブジェクトの異方性表現について検討する。 スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。 text2meshは事前学習された生成モデルや特殊な3dメッシュデータセットを必要としない。 低品質メッシュ(非多様体、境界など)を任意の属で扱うことができ、UVパラメータ化を必要としない。 我々は,多種多様な3dメッシュ上で無数のスタイルを合成する手法の能力を実証する。

In this work, we develop intuitive controls for editing the style of 3D objects. Our framework, Text2Mesh, stylizes a 3D mesh by predicting color and local geometric details which conform to a target text prompt. We consider a disentangled representation of a 3D object using a fixed mesh input (content) coupled with a learned neural network, which we term neural style field network. In order to modify style, we obtain a similarity score between a text prompt (describing style) and a stylized mesh by harnessing the representational power of CLIP. Text2Mesh requires neither a pre-trained generative model nor a specialized 3D mesh dataset. It can handle low-quality meshes (non-manifold, boundaries, etc.) with arbitrary genus, and does not require UV parameterization. We demonstrate the ability of our technique to synthesize a myriad of styles over a wide variety of 3D meshes.
翻訳日:2021-12-07 15:27:01 公開日:2021-12-06
# ED2:世界モデル構築のための環境ダイナミクス分解フレームワーク

ED2: An Environment Dynamics Decomposition Framework for World Model Construction ( http://arxiv.org/abs/2112.02817v1 )

ライセンス: Link先を確認
Cong Wang, Tianpei Yang, Jianye Hao, Yan Zheng, Hongyao Tang, Fazl Barez, Jinyi Liu, Jiajie Peng, Haiyin Piao, Zhixiao Sun(参考訳) モデルベース強化学習法は,多くのタスクにおいて有意なサンプル効率を達成するが,その性能はモデル誤差の存在によって制限されることが多い。 モデルエラーを減らすために、以前の作業では、環境のダイナミクス全体をブラックボックスとして扱うために、1つのよく設計されたネットワークを使用する。 しかし, これらの手法は, 動的に複数のサブダイナミクスを含む環境分解特性を考慮せず, 個別にモデル化できるため, より正確に世界モデルを構築することができる。 本稿では,環境を分解的にモデル化する新しい世界モデル構築フレームワークであるEnvironmental Dynamics Decomposition (ED2)を提案する。 ED2には、サブダイナミックス発見(SD2)と動的分解予測(D2P)の2つの重要なコンポーネントが含まれている。 SD2は環境のサブダイナミックスを発見し、D2Pはサブダイナミックスに従って分解された世界モデルを構築する。 ED2は既存のMBRLアルゴリズムと簡単に組み合わせることができ、実験の結果、ED2はモデルエラーを著しく低減し、様々なタスクにおける最先端のMBRLアルゴリズムの性能を高めることが示されている。

Model-based reinforcement learning methods achieve significant sample efficiency in many tasks, but their performance is often limited by the existence of the model error. To reduce the model error, previous works use a single well-designed network to fit the entire environment dynamics, which treats the environment dynamics as a black box. However, these methods lack to consider the environmental decomposed property that the dynamics may contain multiple sub-dynamics, which can be modeled separately, allowing us to construct the world model more accurately. In this paper, we propose the Environment Dynamics Decomposition (ED2), a novel world model construction framework that models the environment in a decomposing manner. ED2 contains two key components: sub-dynamics discovery (SD2) and dynamics decomposition prediction (D2P). SD2 discovers the sub-dynamics in an environment and then D2P constructs the decomposed world model following the sub-dynamics. ED2 can be easily combined with existing MBRL algorithms and empirical results show that ED2 significantly reduces the model error and boosts the performance of the state-of-the-art MBRL algorithms on various tasks.
翻訳日:2021-12-07 15:05:51 公開日:2021-12-06
# 離散型ソフトアクタ-クリティックのためのターゲットエントロピーアニーリング

Target Entropy Annealing for Discrete Soft Actor-Critic ( http://arxiv.org/abs/2112.02852v1 )

ライセンス: Link先を確認
Yaosheng Xu and Dailin Hu and Litian Liang and Stephen McAleer and Pieter Abbeel and Roy Fox(参考訳) SAC(Soft Actor-Critic)は、連続的なアクション空間設定における最先端のアルゴリズムである。 効率と安定性のために最大エントロピーフレームワークを使用し、ヒューリスティックな温度ラグランジュ項を適用して温度$\alpha$をチューニングし、ポリシーがいかに「ソフト」であるべきかを決定する。 SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。 本稿では,この現象の可能性を考察し,SACに適用したターゲットエントロピーパラメータのアニーリング法であるTarget Entropy Scheduled SAC(TES-SAC)を提案する。 ターゲットエントロピーは温度ラグランジュ項における定数であり、離散SACにおけるターゲットポリシーエントロピーを表す。 我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。

Soft Actor-Critic (SAC) is considered the state-of-the-art algorithm in continuous action space settings. It uses the maximum entropy framework for efficiency and stability, and applies a heuristic temperature Lagrange term to tune the temperature $\alpha$, which determines how "soft" the policy should be. It is counter-intuitive that empirical evidence shows SAC does not perform well in discrete domains. In this paper we investigate the possible explanations for this phenomenon and propose Target Entropy Scheduled SAC (TES-SAC), an annealing method for the target entropy parameter applied on SAC. Target entropy is a constant in the temperature Lagrange term and represents the target policy entropy in discrete SAC. We compare our method on Atari 2600 games with different constant target entropy SAC, and analyze on how our scheduling affects SAC.
翻訳日:2021-12-07 15:05:32 公開日:2021-12-06
# クラスインクリメンタルは継続的学習に十分か?

Is Class-Incremental Enough for Continual Learning? ( http://arxiv.org/abs/2112.02925v1 )

ライセンス: Link先を確認
Andrea Cossu, Gabriele Graffieti, Lorenzo Pellegrini, Davide Maltoni, Davide Bacciu, Antonio Carta, Vincenzo Lomonaco(参考訳) モデルが継続的に学習する能力は、異なる連続学習シナリオで経験的に評価することができる。 それぞれのシナリオは、学習環境の制約と機会を定義します。 ここでは、継続学習文学における現在の傾向に挑戦し、主に1つの経験に現れるクラスを再考しないクラス増進シナリオを実験する。 この設定への過度な注力は、転送や計算効率といった他の重要な目的を犠牲にして、クラス増分シナリオが破滅的な忘れを人工的に悪化させるため、将来の継続的な学習研究に限定する可能性があると仮定する。 多くの現実の環境では、実際に遭遇した概念の繰り返しは自然に起こり、以前の知識の破壊を和らげるのに寄与する。 我々は、繰り返しが入力情報の流れの中で設計によって統合される代替連続学習シナリオのより深い研究を提唱する。 既存の提案から、反復シナリオによるクラス増分が、継続学習モデルのより包括的な評価に役立てることができるという利点を述べる。

The ability of a model to learn continually can be empirically assessed in different continual learning scenarios. Each scenario defines the constraints and the opportunities of the learning environment. Here, we challenge the current trend in the continual learning literature to experiment mainly on class-incremental scenarios, where classes present in one experience are never revisited. We posit that an excessive focus on this setting may be limiting for future research on continual learning, since class-incremental scenarios artificially exacerbate catastrophic forgetting, at the expense of other important objectives like forward transfer and computational efficiency. In many real-world environments, in fact, repetition of previously encountered concepts occurs naturally and contributes to softening the disruption of previous knowledge. We advocate for a more in-depth study of alternative continual learning scenarios, in which repetition is integrated by design in the stream of incoming information. Starting from already existing proposals, we describe the advantages such class-incremental with repetition scenarios could offer for a more comprehensive assessment of continual learning models.
翻訳日:2021-12-07 15:05:15 公開日:2021-12-06
# danets: 表データ分類と回帰のための深い抽象ネットワーク

DANets: Deep Abstract Networks for Tabular Data Classification and Regression ( http://arxiv.org/abs/2112.02962v1 )

ライセンス: Link先を確認
Jintai Chen, Kuanlun Liao, Yao Wan, Danny Z. Chen, Jian Wu(参考訳) 表データは現実世界のアプリケーションにおいてユビキタスである。 多くのよく使われるニューラルネットワークコンポーネント(畳み込みなど)と拡張可能なニューラルネットワーク(resnetなど)は、機械学習コミュニティによって開発されてきたが、表データに効果のあるものは少なく、表データ構造に合わせた設計は少ない。 本稿では,抽象層(AbstLay)と呼ばれる,表層データに対する新しいフレキシブルなニューラルコンポーネントを提案する。 また,abstlayを圧縮する構造再パラメータ化法を設計すれば,参照位相の明瞭なマージンによる計算複雑性を低減できる。 本稿では,AbstLaysを用いて特別な基本ブロックを構築し,それらのブロックを積み重ねて表層データ分類と回帰を行うためのDANet(Deep Abstract Networks)のファミリを構築する。 danetsでは、生の表機能から情報を取得するための特別なショートカットパスが導入され、さまざまなレベルにわたる機能インタラクションを支援している。 7つの実世界の表型データセットに関する包括的な実験は、abstlayとdanetsが表型データ分類と回帰に有効であり、計算複雑性は競合手法よりも優れていることを示している。 さらに,danetの性能向上度の評価を行い,その拡張性を検証する。 私たちのコードはhttps://github.com/w hatashot/danetで利用可能です。

Tabular data are ubiquitous in real world applications. Although many commonly-used neural components (e.g., convolution) and extensible neural networks (e.g., ResNet) have been developed by the machine learning community, few of them were effective for tabular data and few designs were adequately tailored for tabular data structures. In this paper, we propose a novel and flexible neural component for tabular data, called Abstract Layer (AbstLay), which learns to explicitly group correlative input features and generate higher-level features for semantics abstraction. Also, we design a structure re-parameterization method to compress AbstLay, thus reducing the computational complexity by a clear margin in the reference phase. A special basic block is built using AbstLays, and we construct a family of Deep Abstract Networks (DANets) for tabular data classification and regression by stacking such blocks. In DANets, a special shortcut path is introduced to fetch information from raw tabular features, assisting feature interactions across different levels. Comprehensive experiments on seven real-world tabular datasets show that our AbstLay and DANets are effective for tabular data classification and regression, and the computational complexity is superior to competitive methods. Besides, we evaluate the performance gains of DANet as it goes deep, verifying the extendibility of our method. Our code is available at https://github.com/W hatAShot/DANet.
翻訳日:2021-12-07 15:04:57 公開日:2021-12-06
# Deconfounding Temporal Autoencoder:ノイズプロキシを用いた時間的処理効果の推定

Deconfounding Temporal Autoencoder: Estimating Treatment Effects over Time Using Noisy Proxies ( http://arxiv.org/abs/2112.03013v1 )

ライセンス: Link先を確認
Milan Kuzmanovic, Tobias Hatt, Stefan Feuerriegel(参考訳) 観察データから個別治療効果(ites)を推定することは意思決定に不可欠である。 偏りのない ite 推定を得るためには、すべての共同設立者が観察されるという仮定が一般的である。 しかし実際には、これらの共同創設者を直接観察することはありそうにない。 代わりに私たちは、正しいプロキシとして機能する真の共同創設者のノイズ測定をしばしば観察します。 本稿では,実際の共同創設者ではなく,ノイズの多いプロキシを観測する縦方向設定において,iteを推定する問題に対処する。 この目的のために我々は,観測されたノイズプロキシを活用して,真の隠れた共同創設者を反映する隠れた埋め込みを学習する新しい手法である,デコンファウンディング・テンポラリ・オートエンコーダを開発した。 特に、dtaは長期の短期記憶オートエンコーダと因果正規化ペナルティを組み合わせることで、学習された隠れた埋め込みによって潜在的な結果と治療割り当てを条件付きで独立にすることができる。 隠された埋め込みをDTAで学習すると、最先端の結果モデルを使用して制御し、不偏のITE推定値を得ることができる。 人工的および実世界の医療データを用いて、最先端のベンチマークを実質的なマージンで改善することで、DTAの有効性を実証する。

Estimating individualized treatment effects (ITEs) from observational data is crucial for decision-making. In order to obtain unbiased ITE estimates, a common assumption is that all confounders are observed. However, in practice, it is unlikely that we observe these confounders directly. Instead, we often observe noisy measurements of true confounders, which can serve as valid proxies. In this paper, we address the problem of estimating ITE in the longitudinal setting where we observe noisy proxies instead of true confounders. To this end, we develop the Deconfounding Temporal Autoencoder, a novel method that leverages observed noisy proxies to learn a hidden embedding that reflects the true hidden confounders. In particular, the DTA combines a long short-term memory autoencoder with a causal regularization penalty that renders the potential outcomes and treatment assignment conditionally independent given the learned hidden embedding. Once the hidden embedding is learned via DTA, state-of-the-art outcome models can be used to control for it and obtain unbiased estimates of ITE. Using synthetic and real-world medical data, we demonstrate the effectiveness of our DTA by improving over state-of-the-art benchmarks by a substantial margin.
翻訳日:2021-12-07 15:02:35 公開日:2021-12-06
# 多解ガウス過程状態空間モデルによるトラバース時間

Traversing Time with Multi-Resolution Gaussian Process State-Space Models ( http://arxiv.org/abs/2112.03230v1 )

ライセンス: Link先を確認
Krista Longi, Jakob Lindinger, Olaf Duennbier, Melih Kandemir, Arto Klami, Barbara Rakitsch(参考訳) ガウス過程状態空間モデルは、遷移関数の前にガウス過程を配置することで、原理的に複雑な時間依存を捉える。 これらのモデルは離散化確率微分方程式として自然な解釈を持つが、高速かつ遅い遷移を持つ長い列に対する推論は困難である。 高速遷移は厳密な離散化を必要とするが、遅い遷移は長い軌道上の勾配をバックプロパゲーションする必要がある。 本稿では,複数のコンポーネントで構成され,それぞれ異なる解像度で学習し,異なる時間スケールへの影響をモデル化する新しいガウス過程状態空間アーキテクチャを提案する。 この結合モデルは適応スケールでの時間のトラバースを可能にし、複雑なダイナミクスを持つ任意に長いシーケンスの効率的な推論を提供する。 半合成データとエンジンモデリングタスクに新しい手法をベンチマークする。 どちらの実験でも、このアプローチは単一のタイムスケールでのみ動作する最先端の代替品と比較できる。

Gaussian Process state-space models capture complex temporal dependencies in a principled manner by placing a Gaussian Process prior on the transition function. These models have a natural interpretation as discretized stochastic differential equations, but inference for long sequences with fast and slow transitions is difficult. Fast transitions need tight discretizations whereas slow transitions require backpropagating the gradients over long subtrajectories. We propose a novel Gaussian process state-space architecture composed of multiple components, each trained on a different resolution, to model effects on different timescales. The combined model allows traversing time on adaptive scales, providing efficient inference for arbitrarily long sequences with complex dynamics. We benchmark our novel method on semi-synthetic data and on an engine modeling task. In both experiments, our approach compares favorably against its state-of-the-art alternatives that operate on a single time-scale only.
翻訳日:2021-12-07 15:02:14 公開日:2021-12-06
# 深層学習に基づく文書画像強調に関する調査研究

A Survey on Deep learning based Document Image Enhancement ( http://arxiv.org/abs/2112.02719v1 )

ライセンス: Link先を確認
Zahra Anvari, Vassilis Athitsos(参考訳) 現在では、科学記事、租税形態、請求書、契約書、歴史文書などのデジタル化文書が広く使われている。 これらの画像は、撮影時の照明条件の悪さ、スキャン中の影、ノイズやぼやけなどの歪み、老朽化、インクの染み、透かし、切手など、様々な理由で劣化または損傷する可能性がある。 オプティカル文字認識(OCR)を用いたコンテンツ抽出など、多くの自動文書解析および認識タスクにおいて、文書画像の強調と復元が重要な役割を担っている。 近年のディープラーニングの進歩により,これらの文書画像の品質向上のための手法が数多く提案されている。 本稿では,異なる文書画像強調問題に対するディープラーニングに基づく手法,データセット,メトリクスについて検討する。 本稿では,バイナライゼーション,デブリ,デノイング,デファージング,透かし除去,シャドウ除去など,6つの異なる文書画像強調作業のための深層学習に基づく手法の概要について述べる。 我々は各タスクにおける最先端の成果を要約し,その特徴,課題,限界について論じる。 我々は,被曝補正や出血スルー除去など,ほとんど注意を払わなかった複数の文書画像強調タスクを導入し,他の有望な研究の方向性と今後の研究の機会を明らかにした。

Digitized documents such as scientific articles, tax forms, invoices, contract papers, and historic texts, are widely used nowadays. These images could be degraded or damaged due to various reasons including poor lighting conditions when capturing the image, shadow while scanning them, distortion like noise and blur, aging, ink stain, bleed through, watermark, stamp, etc. Document image enhancement and restoration play a crucial role in many automated document analysis and recognition tasks, such as content extraction using optical character recognition (OCR). With recent advances in deep learning, many methods are proposed to enhance the quality of these document images. In this paper, we review deep learning-based methods, datasets, and metrics for different document image enhancement problems. We provide a comprehensive overview of deep learning-based methods for six different document image enhancement tasks, including binarization, debluring, denoising, defading, watermark removal, and shadow removal. We summarize the main state-of-the-art works for each task and discuss their features, challenges, and limitations. We introduce multiple document image enhancement tasks that have received no to little attention, including over and under exposure correction and bleed-through removal, and identify several other promising research directions and opportunities for future research.
翻訳日:2021-12-07 14:59:46 公開日:2021-12-06
# 学習重み統計を用いた深層畳み込みニューラルネットワークの一般化ゼロショット量子化

A Generalized Zero-Shot Quantization of Deep Convolutional Neural Networks via Learned Weights Statistics ( http://arxiv.org/abs/2112.02834v1 )

ライセンス: Link先を確認
Prasen Kumar Sharma, Arun Abraham, Vikram Nelvoy Rajendiran(参考訳) 深部畳み込みニューラルネットワークの浮動小数点重みと活性化を固定点表現に量子化すると、メモリフットプリントと推論時間が減少する。 近年、与えられたタスクのラベルなしのトレーニングサンプルを必要としないゼロショット量子化への取り組みが進んでいる。 これらの最良出版物は、量子化のアクティベーションの範囲を推測するために、学習されたバッチ正規化(bn)パラメータに大きく依存している。 特に、これらの手法は、活性化の範囲を計算するための経験的推定フレームワークまたはデータ蒸留アプローチに基づいて構築される。 しかし、BN層に対応できないネットワークを提示すると、そのようなスキームの性能は著しく低下する。 本稿では,オリジナルデータやBN層統計に依存しない一般化ゼロショット量子化(GZSQ)フレームワークを提案する。 我々は,データ蒸留手法を応用し,モデルの事前学習重量のみを利用して,活性化のレンジキャリブレーションのためのリッチなデータを推定した。 我々の知る限りでは、ゼロショット量子化のプロセスを支援するために事前訓練された重みの分布を利用する最初の研究である。 提案手法は既存のゼロショット処理、例えばMobileNetV2の分類精度が約33%向上し、様々なタスクにおいてw&w/o BN層である他のモデルよりも大幅に向上した。 また,提案手法の有効性を複数のオープンソース量子化フレームワークで実証した。 重要なのは、未来的な非正規化ディープニューラルネットワークのゼロショット量子化を後付けする最初の試みである。

Quantizing the floating-point weights and activations of deep convolutional neural networks to fixed-point representation yields reduced memory footprints and inference time. Recently, efforts have been afoot towards zero-shot quantization that does not require original unlabelled training samples of a given task. These best-published works heavily rely on the learned batch normalization (BN) parameters to infer the range of the activations for quantization. In particular, these methods are built upon either empirical estimation framework or the data distillation approach, for computing the range of the activations. However, the performance of such schemes severely degrades when presented with a network that does not accommodate BN layers. In this line of thought, we propose a generalized zero-shot quantization (GZSQ) framework that neither requires original data nor relies on BN layer statistics. We have utilized the data distillation approach and leveraged only the pre-trained weights of the model to estimate enriched data for range calibration of the activations. To the best of our knowledge, this is the first work that utilizes the distribution of the pretrained weights to assist the process of zero-shot quantization. The proposed scheme has significantly outperformed the existing zero-shot works, e.g., an improvement of ~ 33% in classification accuracy for MobileNetV2 and several other models that are w & w/o BN layers, for a variety of tasks. We have also demonstrated the efficacy of the proposed work across multiple open-source quantization frameworks. Importantly, our work is the first attempt towards the post-training zero-shot quantization of futuristic unnormalized deep neural networks.
翻訳日:2021-12-07 14:59:23 公開日:2021-12-06
# AdaSTE: バイナリニューラルネットワークをトレーニングするための適応的ストレートスルー推定器

AdaSTE: An Adaptive Straight-Through Estimator to Train Binary Neural Networks ( http://arxiv.org/abs/2112.02880v1 )

ライセンス: Link先を確認
Huu Le, Rasmus Kj{\ae}r H{\o}ier, Che-Tsung Lin, Christopher Zach(参考訳) 重み付きディープニューラルネットワーク(DNN)を学習するための新しいアルゴリズムを提案する。 特に,バイナリニューラルネットワーク(binns)を2レベル最適化インスタンスとしてトレーニングし,その2レベルプログラムのフレキシブルリラクゼーションを構築するという課題を最初に提起した。 結果として得られたトレーニング手法は、アルゴリズムの単純さを、BinaryConnectなどの手法でうまく採用されているストレートスルー勾配推定器と、いくつかの既存のBiNNのトレーニング手法と共通している。 実際,提案手法は,誤差伝搬の後方通過における線形写像のように条件付き(常にではない)作用する,元のストレートスルー推定器の適応的変種と解釈できる。 実験により,本アルゴリズムは既存手法と比較して良好な性能を示した。

We propose a new algorithm for training deep neural networks (DNNs) with binary weights. In particular, we first cast the problem of training binary neural networks (BiNNs) as a bilevel optimization instance and subsequently construct flexible relaxations of this bilevel program. The resulting training method shares its algorithmic simplicity with several existing approaches to train BiNNs, in particular with the straight-through gradient estimator successfully employed in BinaryConnect and subsequent methods. In fact, our proposed method can be interpreted as an adaptive variant of the original straight-through estimator that conditionally (but not always) acts like a linear mapping in the backward pass of error propagation. Experimental results demonstrate that our new algorithm offers favorable performance compared to existing approaches.
翻訳日:2021-12-07 14:58:57 公開日:2021-12-06
# 汎用ゼロショット学習のための新しい情報理論損失関数を持つ原型モデル

Prototypical Model with Novel Information-theoreti c Loss Function for Generalized Zero Shot Learning ( http://arxiv.org/abs/2112.03134v1 )

ライセンス: Link先を確認
Chunlin Ji, Hanchu Shen, Zhan Xiong, Feng Chen, Meiying Zhang, Huiwen Yang(参考訳) 汎用ゼロショット学習(GZSL)は、ターゲットクラスからのデータなしに、ソースクラスとターゲットクラスの両方を認識する必要があるため、ディープラーニングの技術的な課題である。 ソースクラスからのデータのみを訓練する場合、ソースクラスとターゲットクラスの意味関係を保つため、情報理論的な観点から、知識伝達と意味関係の定量化について論じる。 この目的のために、私たちは原型モデルに従い、関心の変数を確率ベクトルとしてフォーマットする。 提案した確率ベクトル表現を利用して、相互情報やエントロピーなどの情報測定を簡単な閉形式で効果的に評価することができる。 原型モデルを用いた場合,共通埋め込み空間と距離関数の選択について検討する。 次に,決定論的gzslモデルのための3つの情報理論的損失関数を提案する。橋渡しデータと対象クラスとの相互情報損失,参照データを用いた対象クラスの埋め込み学習時の過剰フィッティングを防止する不確実性認識エントロピー制約損失,意味表現を共通空間にマッピングする際に意味関係を保存するための意味保存クロスエントロピー損失である。 シミュレーションにより, 決定論的モデルとして, 提案手法がgzslベンチマークデータセット上での技術結果を得ることを示す。 ベースラインモデルよりも21%-64%の改善 – ディープキャリブレーションネットワーク(DCN) – を実現し,決定論的モデルが生成モデルと同等に機能できることを初めて実証した。 さらに,提案モデルは生成モデルと互換性がある。 シミュレーション研究により、f-CLSWGANを組み込むことで、先進的な生成モデルと比較した結果が得られることが示された。

Generalized zero shot learning (GZSL) is still a technical challenge of deep learning as it has to recognize both source and target classes without data from target classes. To preserve the semantic relation between source and target classes when only trained with data from source classes, we address the quantification of the knowledge transfer and semantic relation from an information-theoreti c viewpoint. To this end, we follow the prototypical model and format the variables of concern as a probability vector. Leveraging on the proposed probability vector representation, the information measurement such as mutual information and entropy, can be effectively evaluated with simple closed forms. We discuss the choice of common embedding space and distance function when using the prototypical model. Then We propose three information-theoreti c loss functions for deterministic GZSL model: a mutual information loss to bridge seen data and target classes; an uncertainty-aware entropy constraint loss to prevent overfitting when using seen data to learn the embedding of target classes; a semantic preserving cross entropy loss to preserve the semantic relation when mapping the semantic representations to the common space. Simulation shows that, as a deterministic model, our proposed method obtains state of the art results on GZSL benchmark datasets. We achieve 21%-64% improvements over the baseline model -- deep calibration network (DCN) and for the first time demonstrate a deterministic model can perform as well as generative ones. Moreover, our proposed model is compatible with generative models. Simulation studies show that by incorporating with f-CLSWGAN, we obtain comparable results compared with advanced generative models.
翻訳日:2021-12-07 14:58:43 公開日:2021-12-06
# SyntEO: 深層学習による地球観測のための合成データセット生成 オフショア風力発電検出のための実証

SyntEO: Synthetic Dataset Generation for Earth Observation with Deep Learning -- Demonstrated for Offshore Wind Farm Detection ( http://arxiv.org/abs/2112.02829v1 )

ライセンス: Link先を確認
Thorsten Hoeser and Claudia Kuenzer(参考訳) 近年の深層学習の出現により、地球観測研究に新たな機会が生まれた。 それにもかかわらず、彼らは新たな挑戦をももたらした。 ディープラーニングモデルのデータハングリートレーニングプロセスは、大規模でリソースコストが高く、注釈付きデータセットを必要とし、知識駆動型アプローチの一部を置き換えることで、モデルの振る舞いと最終的な予測プロセスがブラックボックスになる。 提案されたSyntEOアプローチにより、地球観測研究者は大規模な深層学習可能なデータセットを自動的に生成し、それ以外のリソースを解放することができる。 synteoは、データ生成プロセスに専門家の知識を高度に構造化することでこれを実現している。 このように、完全に制御可能な実験環境が設定され、モデルトレーニングの洞察を支援する。 したがって、synteoは学習プロセスをアプローチ可能にし、モデルの振る舞いを解釈可能にします。 我々は,世界最大規模の沖合風力発電所のセンチネル1号画像から沖合風力発電所を予測し,SyntEOの手法を実証した。 最大のデータセットには、90000のトレーニング例がある。 オブジェクト検出のための基本的な畳み込みニューラルネットワークは、この合成データに基づいてのみ訓練され、挑戦的な環境で偽検出を最小限にすることで、オフショア風力発電所を確実に検出する。 さらに、4つのシーケンシャルデータセットが生成され、SyntEOアプローチがデータセット構造を正確に定義し、トレーニングプロセスに影響を与える方法を示す。 それゆえ、SyntEOは専門家の知識とデータ駆動型画像分析のインターフェースを作成するハイブリッドアプローチである。

With the emergence of deep learning in the last years, new opportunities arose in Earth observation research. Nevertheless, they also brought with them new challenges. The data-hungry training processes of deep learning models demand large, resource expensive, annotated datasets and partly replaced knowledge-driven approaches, so that model behaviour and the final prediction process became a black box. The proposed SyntEO approach enables Earth observation researchers to automatically generate large deep learning ready datasets and thus free up otherwise occupied resources. SyntEO does this by including expert knowledge in the data generation process in a highly structured manner. In this way, fully controllable experiment environments are set up, which support insights in the model training. Thus, SyntEO makes the learning process approachable and model behaviour interpretable, an important cornerstone for explainable machine learning. We demonstrate the SyntEO approach by predicting offshore wind farms in Sentinel-1 images on two of the worlds largest offshore wind energy production sites. The largest generated dataset has 90,000 training examples. A basic convolutional neural network for object detection, that is only trained on this synthetic data, confidently detects offshore wind farms by minimising false detections in challenging environments. In addition, four sequential datasets are generated, demonstrating how the SyntEO approach can precisely define the dataset structure and influence the training process. SyntEO is thus a hybrid approach that creates an interface between expert knowledge and data-driven image analysis.
翻訳日:2021-12-07 14:57:45 公開日:2021-12-06
# (参考訳) 視覚言語的手法による一般顔表現学習 [全文訳有]

General Facial Representation Learning in a Visual-Linguistic Manner ( http://arxiv.org/abs/2112.03109v1 )

ライセンス: CC BY 4.0
Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen(参考訳) すべての顔分析タスクを促進する普遍的な顔表現の学習方法 この論文はこの目標に向かって一歩前進する。 本稿では,顔分析タスクにおける事前学習モデルの伝達性能について検討し,顔の表情表現学習を視覚言語的に行うためのFaRLというフレームワークを提案する。 一方、このフレームワークは、画像とテキストのペアから高レベルの意味を学ぶために、対照的な損失を伴う。 一方,マスク付き画像モデリングを付加することにより,顔表現をさらに強化するために,低レベル情報を同時に探索することを提案する。 大量の顔画像とテキストのペアを含むデータセットであるLAION-FACEで事前学習を行い、複数の下流タスクにおける表現能力を評価する。 従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。 また、低データ体制におけるその優位性を検証する。 さらに重要なことは、顔解析や顔アライメントを含む顔分析タスクにおける最先端の手法を超越したモデルである。

How to learn a universal facial representation that boosts all face analysis tasks? This paper takes one step toward this goal. In this paper, we study the transfer performance of pre-trained models on face analysis tasks and introduce a framework, called FaRL, for general Facial Representation Learning in a visual-linguistic manner. On one hand, the framework involves a contrastive loss to learn high-level semantic meaning from image-text pairs. On the other hand, we propose exploring low-level information simultaneously to further enhance the face representation, by adding a masked image modeling. We perform pre-training on LAION-FACE, a dataset containing large amount of face image-text pairs, and evaluate the representation capability on multiple downstream tasks. We show that FaRL achieves better transfer performance compared with previous pre-trained models. We also verify its superiority in the low-data regime. More importantly, our model surpasses the state-of-the-art methods on face analysis tasks including face parsing and face alignment.
翻訳日:2021-12-07 14:55:41 公開日:2021-12-06
# 不等式制約付き二段階ルックアヘッドベイズ最適化

Two-step Lookahead Bayesian Optimization with Inequality Constraints ( http://arxiv.org/abs/2112.02833v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Xiangyu Zhang, Peter I. Frazier(参考訳) 計算効率のよい非ミオピックベイズ最適化(BO)の最近の進歩は、期待される改善のような従来のミオピック手法よりもクエリ効率を向上し、計算コストはわずかに増加している。 しかし、これらの進歩は制約のない最適化に大きく制限されている。 制約付き最適化では、既存の非ミオピック bo 法は重い計算を必要とする。 例えば、既存の非神秘的制約付きBO法(Lam and Willcox, 2017)は、モンテカルロロールアウト獲得関数の計算コストのかかる非信頼なブルート力微分自由最適化に依存している。 サンプル平均近似や無限小摂動解析のような非制限条件下での非明視的獲得関数のより効率的な微分に基づく最適化に再パラメータ化手法を用いる手法は、拡張されない: 制約は、その最適化を妨げるサンプル取得関数曲面に不連続を導入する。 さらに,非ミオピックであることは,制約違反の恐れから,望ましくない領域と不可能な領域の境界を抽出し,厳密な制約を伴う最適解の発見を遅らせるため,制約付き問題においてさらに重要であると論じる。 本稿では,逐次およびバッチ設定をサポートする2段階制約付きベイズ最適化獲得関数(2-OPT-C)を提案する。 高速な取得関数最適化を実現するために,再パラメータ化トリックを使用しない2段階最適取得関数の勾配の確率比に基づく非バイアス推定器を開発した。 数値実験では、2-OPT-Cはクエリ効率を2倍以上改善し、場合によっては10倍以上改善する。

Recent advances in computationally efficient non-myopic Bayesian optimization (BO) improve query efficiency over traditional myopic methods like expected improvement while only modestly increasing computational cost. These advances have been largely limited, however, to unconstrained optimization. For constrained optimization, the few existing non-myopic BO methods require heavy computation. For instance, one existing non-myopic constrained BO method [Lam and Willcox, 2017] relies on computationally expensive unreliable brute-force derivative-free optimization of a Monte Carlo rollout acquisition function. Methods that use the reparameterization trick for more efficient derivative-based optimization of non-myopic acquisition functions in the unconstrained setting, like sample average approximation and infinitesimal perturbation analysis, do not extend: constraints introduce discontinuities in the sampled acquisition function surface that hinder its optimization. Moreover, we argue here that being non-myopic is even more important in constrained problems because fear of violating constraints pushes myopic methods away from sampling the boundary between feasible and infeasible regions, slowing the discovery of optimal solutions with tight constraints. In this paper, we propose a computationally efficient two-step lookahead constrained Bayesian optimization acquisition function (2-OPT-C) supporting both sequential and batch settings. To enable fast acquisition function optimization, we develop a novel likelihood-ratio-bas ed unbiased estimator of the gradient of the two-step optimal acquisition function that does not use the reparameterization trick. In numerical experiments, 2-OPT-C typically improves query efficiency by 2x or more over previous methods, and in some cases by 10x or more.
翻訳日:2021-12-07 14:29:07 公開日:2021-12-06
# マルチスケール機能学習ダイナミクス:二重降下に対する洞察

Multi-scale Feature Learning Dynamics: Insights for Double Descent ( http://arxiv.org/abs/2112.03215v1 )

ライセンス: Link先を確認
Mohammad Pezeshki, Amartya Mitra, Yoshua Bengio, Guillaume Lajoie(参考訳) ディープラーニングの理論的基盤を構築する上で重要な課題は、多数のネットワークパラメータ間の高次元相互作用から生じる、ニューラルネットワークの複雑な最適化ダイナミクスである。 そのような非自明な力学は一般化誤差の「二重降下」現象のような興味深い挙動を引き起こす。 この現象のよりよく研究される側面は、古典的なU字型誤差曲線を超えて、テスト誤差がモデル複雑性を増大させる2番目の降下を示すモデルワイド二重降下に対応する。 本研究では, 試験誤差が2つの非単調な遷移, あるいはトレーニング時間の増加に伴う降下を経験する, 未研究のエポジカルな二重降下の起源について検討する。 統計物理学からのツールを活用することにより、深層ニューラルネットワークと同様のエポックな二重降下を示す線形教師学生設定について検討する。 この設定では、トレーニングによる一般化誤差の進化に対する閉形式解析式を導出する。 高速学習の機能が過度に適合するにつれて、遅い学習の機能が適合し始め、結果としてテストエラーの第2の降下が発生します。 実験では,実験結果を正確に予測し,深層ニューラルネットワークの観測結果と一致し,実験結果の検証を行った。

A key challenge in building theoretical foundations for deep learning is the complex optimization dynamics of neural networks, resulting from the high-dimensional interactions between the large number of network parameters. Such non-trivial dynamics lead to intriguing behaviors such as the phenomenon of "double descent" of the generalization error. The more commonly studied aspect of this phenomenon corresponds to model-wise double descent where the test error exhibits a second descent with increasing model complexity, beyond the classical U-shaped error curve. In this work, we investigate the origins of the less studied epoch-wise double descent in which the test error undergoes two non-monotonous transitions, or descents as the training time increases. By leveraging tools from statistical physics, we study a linear teacher-student setup exhibiting epoch-wise double descent similar to that in deep neural networks. In this setting, we derive closed-form analytical expressions for the evolution of generalization error over training. We find that double descent can be attributed to distinct features being learned at different scales: as fast-learning features overfit, slower-learning features start to fit, resulting in a second descent in test error. We validate our findings through numerical experiments where our theory accurately predicts empirical findings and remains consistent with observations in deep neural networks.
翻訳日:2021-12-07 14:28:41 公開日:2021-12-06
# カラーバリアントの物語:ファッションEコマースにおける表現と自己指導型学習

A Tale of Color Variants: Representation and Self-Supervised Learning in Fashion E-Commerce ( http://arxiv.org/abs/2112.02910v1 )

ライセンス: Link先を確認
Ujjal Kr Dutta, Sandeep Repakula, Maulik Parmar, Abhinav Ravi(参考訳) 本稿では、ファッションeコマースにおける重要な問題(顧客体験と収益に関して)について論じる。 カラーバリエーションの識別、すなわち、デザイン(またはスタイル)にぴったり一致するが、色にしか違いがないファッション製品を特定する。 当社のファッション電子商取引プラットフォームにおけるこの問題に対処するため、深層視覚表現学習をその中心に活用する汎用フレームワークを提案する。 我々のフレームワークは、手動で得られる三重項の形で監視信号で訓練することができる。 しかしながら、私たちのようなファッションeコマースプラットフォームで一般的に見られる膨大なデータコレクション全体に対して、手作業でアノテーションを取得することは不可能です。 しかし、興味深いことに、私たちはファッションeコマースにおけるこの重要な問題は、手作業のラベルを使わずに視覚的表現を学習しようとする対照的な自己教師付き学習(ssl)文学で最近広く普及したシンプルなカラージッタベースの画像拡張によっても解決できると観察した。 私たちのユースケースではsslを活用できますし、監視されたフレームワークに匹敵するパフォーマンスを得ることができますか? その答えはイエスだ!なぜなら、カラーバリエーションのファッションオブジェクトは、スタイルをあらわすだけでなく、異なる色で表現し、色に不変であるように訓練されたモデル(または監督なしで)は、これを認識できるはずだからである。 この論文は、質的にも定量的にも、いくつかの最先端SSL技術を評価しながら、新しい手法を提案しながら、さらにこれを実証している。

In this paper, we address a crucial problem in fashion e-commerce (with respect to customer experience, as well as revenue): color variants identification, i.e., identifying fashion products that match exactly in their design (or style), but only to differ in their color. We propose a generic framework, that leverages deep visual Representation Learning at its heart, to address this problem for our fashion e-commerce platform. Our framework could be trained with supervisory signals in the form of triplets, that are obtained manually. However, it is infeasible to obtain manual annotations for the entire huge collection of data usually present in fashion e-commerce platforms, such as ours, while capturing all the difficult corner cases. But, to our rescue, interestingly we observed that this crucial problem in fashion e-commerce could also be solved by simple color jitter based image augmentation, that recently became widely popular in the contrastive Self-Supervised Learning (SSL) literature, that seeks to learn visual representations without using manual labels. This naturally led to a question in our mind: Could we leverage SSL in our use-case, and still obtain comparable performance to our supervised framework? The answer is, Yes! because, color variant fashion objects are nothing but manifestations of a style, in different colors, and a model trained to be invariant to the color (with, or without supervision), should be able to recognize this! This is what the paper further demonstrates, both qualitatively, and quantitatively, while evaluating a couple of state-of-the-art SSL techniques, and also proposing a novel method.
翻訳日:2021-12-07 14:27:50 公開日:2021-12-06
# オブジェクト検出のためのコンテキストアウェア転送攻撃

Context-Aware Transfer Attacks for Object Detection ( http://arxiv.org/abs/2112.03223v1 )

ライセンス: Link先を確認
Zikui Cai, Xinxin Xie, Shasha Li, Mingjun Yin, Chengyu Song, Srikanth V. Krishnamurthy, Amit K. Roy-Chowdhury, M. Salman Asif(参考訳) 画像分類器に対するブラックボックス転送攻撃は近年広く研究されている。 対照的に、物体検出器の移動攻撃についてはほとんど進展がない。 オブジェクト検出器は画像の全体像を取り、あるオブジェクト(またはその欠如)の検出は、しばしばシーン内の他のオブジェクトに依存する。 これにより、このような検出器は本質的にコンテキスト認識であり、この空間における敵の攻撃は、画像分類器をターゲットとするものよりも難しい。 本稿では,オブジェクト検出のためのコンテキスト認識攻撃を生成する新しい手法を提案する。 我々は,オブジェクトとその相対的な位置とサイズをコンテキスト情報として共起することにより,ブラックボックスオブジェクト検出器の転送成功率を最先端よりも高める目標的誤分類攻撃を効果的に生成できることを示す。 我々は,PASCAL VOCおよびMS COCOデータセットの画像を用いた多種多様な物体検出器に対するアプローチを検証し,他の最先端手法と比較して最大20ドル程度の性能向上を示す。

Blackbox transfer attacks for image classifiers have been extensively studied in recent years. In contrast, little progress has been made on transfer attacks for object detectors. Object detectors take a holistic view of the image and the detection of one object (or lack thereof) often depends on other objects in the scene. This makes such detectors inherently context-aware and adversarial attacks in this space are more challenging than those targeting image classifiers. In this paper, we present a new approach to generate context-aware attacks for object detectors. We show that by using co-occurrence of objects and their relative locations and sizes as context information, we can successfully generate targeted mis-categorization attacks that achieve higher transfer success rates on blackbox object detectors than the state-of-the-art. We test our approach on a variety of object detectors with images from PASCAL VOC and MS COCO datasets and demonstrate up to $20$ percentage points improvement in performance compared to the other state-of-the-art methods.
翻訳日:2021-12-07 14:27:21 公開日:2021-12-06
# フーリエ学習による強化学習のための機能正規化

Functional Regularization for Reinforcement Learning via Learned Fourier Features ( http://arxiv.org/abs/2112.03257v1 )

ライセンス: Link先を確認
Alexander C. Li, Deepak Pathak(参考訳) 本稿では,入力を学習されたフーリエベースに埋め込むことにより,深層強化学習のための簡単なアーキテクチャを提案し,状態ベースと画像ベースの両方のRLのサンプル効率を向上させることを示す。 我々はニューラルタンジェントカーネルを用いてアーキテクチャの無限幅解析を行い、フーリエ基底の初期分散をチューニングすることは学習した深層ネットワークの機能正規化と等価であることを示す。 つまり、これらの学習されたフーリエ機能は、トレーニングデータの異なる周波数に適合するネットワークの程度を調整できるため、rl最適化の安定性と性能を向上させるための制御メカニズムを提供する。 経験的に、ベルマン更新などの最適化プロセスにおいて、ネットワークのノイズ感受性を低減し、低周波関数の学習を優先し、学習を高速化することができる。 標準状態ベースおよび画像ベースRLベンチマークの実験は、ベースラインよりもアーキテクチャの明確なメリットを示している。 website at https://alexanderli. com/learned-fourier- features

We propose a simple architecture for deep reinforcement learning by embedding inputs into a learned Fourier basis and show that it improves the sample efficiency of both state-based and image-based RL. We perform infinite-width analysis of our architecture using the Neural Tangent Kernel and theoretically show that tuning the initial variance of the Fourier basis is equivalent to functional regularization of the learned deep network. That is, these learned Fourier features allow for adjusting the degree to which networks underfit or overfit different frequencies in the training data, and hence provide a controlled mechanism to improve the stability and performance of RL optimization. Empirically, this allows us to prioritize learning low-frequency functions and speed up learning by reducing networks' susceptibility to noise in the optimization process, such as during Bellman updates. Experiments on standard state-based and image-based RL benchmarks show clear benefits of our architecture over the baselines. Website at https://alexanderli. com/learned-fourier- features
翻訳日:2021-12-07 14:27:03 公開日:2021-12-06
# JointLK:Commonsense Question Answeringのための言語モデルと知識グラフの統合推論

JointLK: Joint Reasoning with Language Models and Knowledge Graphs for Commonsense Question Answering ( http://arxiv.org/abs/2112.02732v1 )

ライセンス: Link先を確認
Yueqing Sun, Qi Shi, Le Qi, Yu Zhang(参考訳) 質問応答のための既存のKG拡張モデルは、主に知識グラフ(KG)をモデル化するための精巧なグラフニューラルネットワーク(GNN)の設計に焦点を当てている。 しかし彼らは無視する 一 質問文脈表現及びKG表現を効果的に融合し、推論すること。 (ii)推論中にノイズkgsから関連ノードを自動的に選択する。 本稿では,LMとGNNの結合推論と動的KGsプルーニング機構により,上記の制約を解決する新しいモデルであるJointLKを提案する。 具体的には、jointlkはlmsとgnnの合同推論を行い、各質問トークンがkgノードに、各kgノードが質問トークンに、そして2つのモーダル表現がマルチステップインタラクションによって相互に融合し、更新する、新しい密集した双方向注意モジュールを介する。 そして、動的プルーニングモジュールは、ジョイント推論によって生成された注意重みを用いて、無関係なkgノードを再帰的にプルーニングする。 CommonsenseQA と OpenBookQA のデータセットで得られた結果は,我々のモーダルフュージョンとナレッジ・プルーニングの手法が,関連知識の推論に有効であることを示す。

Existing KG-augmented models for question answering primarily focus on designing elaborate Graph Neural Networks (GNNs) to model knowledge graphs (KGs). However, they ignore (i) the effectively fusing and reasoning over question context representations and the KG representations, and (ii) automatically selecting relevant nodes from the noisy KGs during reasoning. In this paper, we propose a novel model, JointLK, which solves the above limitations through the joint reasoning of LMs and GNNs and the dynamic KGs pruning mechanism. Specifically, JointLK performs joint reasoning between the LMs and the GNNs through a novel dense bidirectional attention module, in which each question token attends on KG nodes and each KG node attends on question tokens, and the two modal representations fuse and update mutually by multi-step interactions. Then, the dynamic pruning module uses the attention weights generated by joint reasoning to recursively prune irrelevant KG nodes. Our results on the CommonsenseQA and OpenBookQA datasets demonstrate that our modal fusion and knowledge pruning methods can make better use of relevant knowledge for reasoning.
翻訳日:2021-12-07 14:25:12 公開日:2021-12-06
# マルチラウンド計算に基づく教師なし抽出要約法

An unsupervised extractive summarization method based on multi-round computation ( http://arxiv.org/abs/2112.03203v1 )

ライセンス: Link先を確認
Dehao Tao, Yingzhu Xiong, Jin He, Skevin and Yongfeng Huang(参考訳) テキスト要約手法は常に注目を集めている。 近年,テキスト要約にディープラーニングが適用されており,その効果は極めて高いことが判明した。 しかし、ディープラーニングに基づく現在のテキスト要約手法のほとんどが大規模なデータセットを必要としており、実用化は困難である。 本稿では,マルチラウンド計算に基づく教師なし抽出テキスト要約手法を提案する。 有向グラフアルゴリズムに基づき、従来の文ランキングの計算方法を多ラウンド計算に変更し、各ラウンドの計算後に要約文を動的に最適化し、テキストの特性に合致させる。 本稿では,中国語,英語,長文,短文の4つのデータセットについて実験を行った。 実験の結果,本手法はベースライン法および他の教師なし手法よりも優れた性能を示し,異なるデータセット上で堅牢であることがわかった。

Text summarization methods have attracted much attention all the time. In recent years, deep learning has been applied to text summarization, and it turned out to be pretty effective. However, most of the current text summarization methods based on deep learning need large-scale datasets, which is difficult to achieve in practical applications. In this paper, an unsupervised extractive text summarization method based on multi-round calculation is proposed. Based on the directed graph algorithm, we change the traditional method of calculating the sentence ranking at one time to multi-round calculation, and the summary sentences are dynamically optimized after each round of calculation to better match the characteristics of the text. In this paper, experiments are carried out on four data sets, each separately containing Chinese, English, long and short texts. The experiment results show that our method has better performance than both baseline methods and other unsupervised methods and is robust on different datasets.
翻訳日:2021-12-07 14:24:49 公開日:2021-12-06
# テキスト記述で動画を再生できる「Make It Move」

Make It Move: Controllable Image-to-Video Generation with Text Descriptions ( http://arxiv.org/abs/2112.02815v1 )

ライセンス: Link先を確認
Yaosi Hu, Chong Luo, Zhenzhong Chen(参考訳) ユーザの意図に応じたコントロール可能なビデオを生成することは、コンピュータビジョンにおいて魅力的だが難しいトピックである。 ユーザの意図に応じて操作可能な制御を可能にするために,テキスト画像・ビデオ生成(TI2V)と呼ばれる新しいビデオ生成タスクを提案する。 制御可能な外観と動きの両方で、TI2Vは静的画像とテキスト記述からビデオを生成することを目指している。 TI2Vタスクの主な課題は、異なるモダリティからの外観と動きの整列と、テキスト記述の不確実性を扱うことである。 これらの課題に対処するため,我々は,外観と動作の整合表現を格納する革新的なモーションアンカー構造を持つモーションアンカー型ビデオジェネレータ(mage)を提案する。 不確実性をモデル化し、多様性を高めるため、明示的な条件と暗黙的なランダム性の注入も可能となる。 3次元軸変換器を介して、MAは所定の画像と相互作用し、制御性と多様性を満足する次のフレームを再帰的に生成する。 新しいタスクに対応して、MNISTとCATERに基づく2つのビデオテキストペアデータセットを構築し、評価を行う。 これらのデータセットを用いて実験を行い、MAGEの有効性を確認し、TI2Vタスクの魅力を示す。 モデルとデータセットのソースコードが近く提供される。

Generating controllable videos conforming to user intentions is an appealing yet challenging topic in computer vision. To enable maneuverable control in line with user intentions, a novel video generation task, named Text-Image-to-Video generation (TI2V), is proposed. With both controllable appearance and motion, TI2V aims at generating videos from a static image and a text description. The key challenges of TI2V task lie both in aligning appearance and motion from different modalities, and in handling uncertainty in text descriptions. To address these challenges, we propose a Motion Anchor-based video GEnerator (MAGE) with an innovative motion anchor (MA) structure to store appearance-motion aligned representation. To model the uncertainty and increase the diversity, it further allows the injection of explicit condition and implicit randomness. Through three-dimensional axial transformers, MA is interacted with given image to generate next frames recursively with satisfying controllability and diversity. Accompanying the new task, we build two new video-text paired datasets based on MNIST and CATER for evaluation. Experiments conducted on these datasets verify the effectiveness of MAGE and show appealing potentials of TI2V task. Source code for model and datasets will be available soon.
翻訳日:2021-12-07 14:24:35 公開日:2021-12-06
# テキスト駆動画像変換のための埋め込み算術

Embedding Arithmetic for Text-driven Image Transformation ( http://arxiv.org/abs/2112.03162v1 )

ライセンス: Link先を確認
Guillaume Couairon, Matthieu Cord, Matthijs Douze, Holger Schwenk(参考訳) 潜伏したテキスト表現は、有名なアナロジー:クイーンは王であり、女性は人間である。 このような構造的意味関係は画像表現では示されなかった。 画像とテキストをマルチモーダル空間に埋め込み、テキストで定義された変換を画像モダリティに転送可能にする、このセマンティックギャップの橋渡しを目的とした最近の研究。 SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。 simatには6kイメージと18kの"トランスフォーメーションクエリ"が含まれており、シーン要素の置き換えやペア関係の変更を目標としている。 目標は、(ソースイメージ、変換)クエリと整合したイメージを取得することだ。 我々は、画像変換が成功したかどうかを評価するために、画像/テキストマッチングオラクル(OSCAR)を使用する。 SIMATデータセットが公開される。 我々はSIMATを用いて、バニラCLIPのマルチモーダル埋め込みがテキスト駆動型画像変換にはあまり適していないことを示すが、COCOデータセットの簡単な微調整は劇的な改善をもたらす可能性がある。 また、事前訓練された普遍文エンコーダ(FastText, LASER, LaBSE)の幾何学的特性を活用することが有用かどうかについても検討した。

Latent text representations exhibit geometric regularities, such as the famous analogy: queen is to king what woman is to man. Such structured semantic relations were not demonstrated on image representations. Recent works aiming at bridging this semantic gap embed images and text into a multimodal space, enabling the transfer of text-defined transformations to the image modality. We introduce the SIMAT dataset to evaluate the task of text-driven image transformation. SIMAT contains 6k images and 18k "transformation queries" that aim at either replacing scene elements or changing their pairwise relationships. The goal is to retrieve an image consistent with the (source image, transformation) query. We use an image/text matching oracle (OSCAR) to assess whether the image transformation is successful. The SIMAT dataset will be publicly available. We use SIMAT to show that vanilla CLIP multimodal embeddings are not very well suited for text-driven image transformation, but that a simple finetuning on the COCO dataset can bring dramatic improvements. We also study whether it is beneficial to leverage the geometric properties of pretrained universal sentence encoders (FastText, LASER and LaBSE).
翻訳日:2021-12-07 14:24:13 公開日:2021-12-06
# 意味画像セグメンテーションのための教師なし領域適応:包括的調査

Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey ( http://arxiv.org/abs/2112.03241v1 )

ライセンス: Link先を確認
Gabriela Csurka, Riccardo Volpi and Boris Chidlovskii(参考訳) セマンティックセグメンテーションは様々なコンピュータビジョンアプリケーションにおいて基本的な役割を担い、画像のグローバルな理解のための重要な情報を提供する。 しかし、最先端のモデルは大量の注釈付きサンプルに依存しており、画像分類のようなタスクよりも入手するコストが高い。 乱れのないデータを得るのは非常に安価であるため、セマンティックセグメンテーションコミュニティでUnsupervised Domain Adaptationが広く成功したことは驚くにあたらない。 この調査は、セマンティックセグメンテーション自体の重要性と、セグメンテーションモデルを新しい環境に適用する重要な必要性を取り入れた、信じられないほど急速に成長するこの分野の5年間を要約する試みである。 我々は、セマンティックセグメンテーションのためのドメイン適応技術に関する総合的な調査を行い、マルチドメイン学習、ドメイン一般化、テスト時間適応、ソースフリードメイン適応といった新しいトレンドを明らかにし、セマンティックセグメンテーション研究で最も広く使われているデータセットとベンチマークを記述することで、この調査を結論付ける。 この調査は、学界や業界にまたがる研究者に包括的な参考ガイドを提供し、この分野における新たな研究の方向性の育成に役立てることを願っている。

Semantic segmentation plays a fundamental role in a broad variety of computer vision applications, providing key information for the global understanding of an image. Yet, the state-of-the-art models rely on large amount of annotated samples, which are more expensive to obtain than in tasks such as image classification. Since unlabelled data is instead significantly cheaper to obtain, it is not surprising that Unsupervised Domain Adaptation reached a broad success within the semantic segmentation community. This survey is an effort to summarize five years of this incredibly rapidly growing field, which embraces the importance of semantic segmentation itself and a critical need of adapting segmentation models to new environments. We present the most important semantic segmentation methods; we provide a comprehensive survey on domain adaptation techniques for semantic segmentation; we unveil newer trends such as multi-domain learning, domain generalization, test-time adaptation or source-free domain adaptation; we conclude this survey by describing datasets and benchmarks most widely used in semantic segmentation research. We hope that this survey will provide researchers across academia and industry with a comprehensive reference guide and will help them in fostering new research directions in the field.
翻訳日:2021-12-07 14:21:53 公開日:2021-12-06
# 500タスクの事前学習言語モデルにおける適応性の定量化

Quantifying Adaptability in Pre-trained Language Models with 500 Tasks ( http://arxiv.org/abs/2112.03204v1 )

ライセンス: Link先を確認
Belinda Z. Li, Jane Yu, Madian Khabsa, Luke Zettlemoyer, Alon Halevy, Jacob Andreas(参考訳) ニューラル言語モデル(LM)が新しいタスクを実行するように適応された場合、タスクのどの側面がモデルの最終的なパフォーマンスを予測するのか? NLPでは、個々の例に対するLM一般化の体系的特徴はよく特徴づけられるが、新しいタスクに対するLM適応性の体系的側面はほとんど理解されていない。 我々は,500個の手続き生成シーケンスモデリングタスクから構築した新しいベンチマークtaskbench500を用いて,lm適応性の特徴と限界に関する大規模実証研究を行った。 これらのタスクは、語彙意味論、シーケンス処理、記憶、論理的推論、世界知識を含む言語処理の中核的な側面を組み合わせる。 taskbench500を用いて適応性の3つの面を評価し,(1)小さなデータセットを記憶する能力において適応手順が劇的に異なること,(2)タスクのサブセット内では複雑なタスクに構成的適応性を示すこと,(3)ラベル分布の訓練に適合しないことは,個々のラベルを予測できない本質的な難しさのミスマッチによって説明できることを明らかにした。 実験の結果,新しい課題への適応性,例えば新しい例への一般化などについて体系的に記述し,理解し,新しいベンチマークを用いて検討できる適応性の追加的な側面について考察した。

When a neural language model (LM) is adapted to perform a new task, what aspects of the task predict the eventual performance of the model? In NLP, systematic features of LM generalization to individual examples are well characterized, but systematic aspects of LM adaptability to new tasks are not nearly as well understood. We present a large-scale empirical study of the features and limits of LM adaptability using a new benchmark, TaskBench500, built from 500 procedurally generated sequence modeling tasks. These tasks combine core aspects of language processing, including lexical semantics, sequence processing, memorization, logical reasoning, and world knowledge. Using TaskBench500, we evaluate three facets of adaptability, finding that: (1) adaptation procedures differ dramatically in their ability to memorize small datasets; (2) within a subset of task types, adaptation procedures exhibit compositional adaptability to complex tasks; and (3) failure to match training label distributions is explained by mismatches in the intrinsic difficulty of predicting individual labels. Our experiments show that adaptability to new tasks, like generalization to new examples, can be systematically described and understood, and we conclude with a discussion of additional aspects of adaptability that could be studied using the new benchmark.
翻訳日:2021-12-07 14:21:14 公開日:2021-12-06
# (参考訳) 影響関数のスケールアップ [全文訳有]

Scaling Up Influence Functions ( http://arxiv.org/abs/2112.03052v1 )

ライセンス: CC BY 4.0
Andrea Schioppa, Polina Zablotskaia, David Vilar, Artem Sokolov(参考訳) トレーニングデータに対する予測の追跡に有効な影響関数の計算に対処する。 我々はアルノルニ反復に基づく逆ヘッセン計算の高速化のための新しい手法を提案し,解析する。 この改良により、私たちの知る限りでは、数億のパラメータを持つフルサイズの(言語と視覚)トランスフォーマーモデルにスケールする影響関数の最初の実装が成功しました。 画像分類とシーケンシャル・ツー・シーケンスタスクのアプローチを,何千から1億のトレーニング例で評価した。 私たちのコードはhttps://github.com/g oogle-research/jax-i nfluenceで利用可能です。

We address efficient calculation of influence functions for tracking predictions back to the training data. We propose and analyze a new approach to speeding up the inverse Hessian calculation based on Arnoldi iteration. With this improvement, we achieve, to the best of our knowledge, the first successful implementation of influence functions that scales to full-size (language and vision) Transformer models with several hundreds of millions of parameters. We evaluate our approach on image classification and sequence-to-sequence tasks with tens to a hundred of millions of training examples. Our code will be available at https://github.com/g oogle-research/jax-i nfluence.
翻訳日:2021-12-07 14:18:46 公開日:2021-12-06
# (参考訳) NL-Augmenter:タスク感性自然言語拡張フレームワーク

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation ( http://arxiv.org/abs/2112.02721v1 )

ライセンス: CC BY 4.0
Kaustubh D. Dhole, Varun Gangal, Sebastian Gehrmann, Aadesh Gupta, Zhenhao Li, Saad Mahamood, Abinaya Mahendiran, Simon Mille, Ashish Srivastava, Samson Tan, Tongshuang Wu, Jascha Sohl-Dickstein, Jinho D. Choi, Eduard Hovy, Ondrej Dusek, Sebastian Ruder, Sajant Anand, Nagender Aneja, Rabin Banjade, Lisa Barthe, Hanna Behnke, Ian Berlot-Attwell, Connor Boyle, Caroline Brun, Marco Antonio Sobrevilla Cabezudo, Samuel Cahyawijaya, Emile Chapuis, Wanxiang Che, Mukund Choudhary, Christian Clauss, Pierre Colombo, Filip Cornell, Gautier Dagan, Mayukh Das, Tanay Dixit, Thomas Dopierre, Paul-Alexis Dray, Suchitra Dubey, Tatiana Ekeinhor, Marco Di Giovanni, Rishabh Gupta, Rishabh Gupta, Louanes Hamla, Sang Han, Fabrice Harel-Canada, Antoine Honore, Ishan Jindal, Przemyslaw K. Joniak, Denis Kleyko, Venelin Kovatchev, Kalpesh Krishna, Ashutosh Kumar, Stefan Langer, Seungjae Ryan Lee, Corey James Levinson, Hualou Liang, Kaizhao Liang, Zhexiong Liu, Andrey Lukyanenko, Vukosi Marivate, Gerard de Melo, Simon Meoni, Maxime Meyer, Afnan Mir, Nafise Sadat Moosavi, Niklas Muennighoff, Timothy Sum Hon Mun, Kenton Murray, Marcin Namysl, Maria Obedkova, Priti Oli, Nivranshu Pasricha, Jan Pfister, Richard Plant, Vinay Prabhu, Vasile Pais, Libo Qin, Shahab Raji, Pawan Kumar Rajpoot, Vikas Raunak, Roy Rinberg, Nicolas Roberts, Juan Diego Rodriguez, Claude Roux, Vasconcellos P. H. S., Ananya B. Sai, Robin M. Schmidt, Thomas Scialom, Tshephisho Sefara, Saqib N. Shamsi, Xudong Shen, Haoyue Shi, Yiwen Shi, Anna Shvets, Nick Siegel, Damien Sileo, Jamie Simon, Chandan Singh, Roman Sitelew, Priyank Soni, Taylor Sorensen, William Soto, Aman Srivastava, KV Aditya Srivatsa, Tony Sun, Mukund Varma T, A Tabassum, Fiona Anting Tan, Ryan Teehan, Mo Tiwari, Marie Tolkiehn, Athena Wang, Zijian Wang, Gloria Wang, Zijie J. Wang, Fuxuan Wei, Bryan Wilie, Genta Indra Winata, Xinyi Wu, Witold Wydma\'nski, Tianbao Xie, Usama Yaseen, M. Yee, Jing Zhang, Yue Zhang(参考訳) データ拡張は、自然言語処理(NLP)におけるモデルの堅牢性評価と、訓練されたデータの多様性向上において重要な要素である。 本稿では,NL-Augmenterを提案する。NL-AugmenterはPythonベースの新しい自然言語拡張フレームワークで,変換(データへの修正)とフィルタ(特定の特徴に応じてデータ分割)の両方の作成をサポートする。 本稿では、このフレームワークと、さまざまな自然言語タスクのための117変換と23フィルタの初期セットについて述べる。 人気のある自然言語モデルのロバスト性を分析するために,いくつかの変換を用いてnl-augmenterの有効性を示す。 インフラストラクチャ、データカード、ロバストネス分析結果は、NL-Augmenterリポジトリ(\url{https://github.com/G EM-benchmark/NL-Augm enter})で公開されている。

Data augmentation is an important component in the robustness evaluation of models in natural language processing (NLP) and in enhancing the diversity of the data they are trained on. In this paper, we present NL-Augmenter, a new participatory Python-based natural language augmentation framework which supports the creation of both transformations (modifications to the data) and filters (data splits according to specific features). We describe the framework and an initial set of 117 transformations and 23 filters for a variety of natural language tasks. We demonstrate the efficacy of NL-Augmenter by using several of its transformations to analyze the robustness of popular natural language models. The infrastructure, datacards and robustness analysis results are available publicly on the NL-Augmenter repository (\url{https://github.com/G EM-benchmark/NL-Augm enter}).
翻訳日:2021-12-07 13:53:00 公開日:2021-12-06
# CALVIN:長軸ロボット操作タスクのための言語条件ポリシー学習のベンチマーク

CALVIN: A Benchmark for Language-conditioned Policy Learning for Long-horizon Robot Manipulation Tasks ( http://arxiv.org/abs/2112.03227v1 )

ライセンス: Link先を確認
Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard(参考訳) 人間と環境に共存する汎用ロボットは、人間の言語と人間の認識や行動との関係を学習し、日々の作業に役立てる必要がある。 さらに、制約のない言語指示に従うことで、長期タスクを構成できる汎用スキルの多様なレパートリーを取得する必要がある。 本稿では,CALVIN(Composing Actions from Language and Vision)を提案する。 我々の目標は、ロボット操作のタスクを長時間にわたって、オンボードセンサーから、人間の言語でのみ特定できるエージェントの開発を可能にすることにある。 CALVINタスクは、既存の視覚・言語タスクデータセットよりもシーケンスの長さ、アクションスペース、言語が複雑であり、センサースイートの柔軟な仕様をサポートする。 我々は、ゼロショットのエージェントを、新しい言語命令や、新しい環境やオブジェクトに対して評価する。 マルチコンテキスト模倣学習に基づくベースラインモデルでは,calvinではパフォーマンスが悪く,このベンチマークで人間の言語と世界モデルとの関係を学習する革新的なエージェントを開発する余地があることが示唆された。

General-purpose robots coexisting with humans in their environment must learn to relate human language to their perceptions and actions to be useful in a range of daily tasks. Moreover, they need to acquire a diverse repertoire of general-purpose skills that allow composing long-horizon tasks by following unconstrained language instructions. In this paper, we present CALVIN (Composing Actions from Language and Vision), an open-source simulated benchmark to learn long-horizon language-conditioned tasks. Our aim is to make it possible to develop agents that can solve many robotic manipulation tasks over a long horizon, from onboard sensors, and specified only via human language. CALVIN tasks are more complex in terms of sequence length, action space, and language than existing vision-and-language task datasets and supports flexible specification of sensor suites. We evaluate the agents in zero-shot to novel language instructions and to novel environments and objects. We show that a baseline model based on multi-context imitation learning performs poorly on CALVIN, suggesting that there is significant room for developing innovative agents that learn to relate human language to their world models with this benchmark.
翻訳日:2021-12-07 13:51:03 公開日:2021-12-06
# team hitachi @ automin 2021: トピックベースの要約による引数構造構築による参照フリーな自動minutingパイプライン

Team Hitachi @ AutoMin 2021: Reference-free Automatic Minuting Pipeline with Argument Structure Construction over Topic-based Summarization ( http://arxiv.org/abs/2112.02741v1 )

ライセンス: Link先を確認
Atsuki Yamaguchi, Gaku Morio, Hiroaki Ozaki, Ken-ichi Yokote and Kenji Nagamatsu(参考訳) 本稿では,第1共有タスク自動マイニング(AutoMin-2021)のための日立チームの自動マイニングシステムを提案する。 会話の要約コーパスに微調整された事前学習されたbartモデルを用いて,まず書き起こしをトピックに基づいてブロックに分割し,その後にそれらのブロックを要約するタスクa(タスクa)に対して,参照フリーアプローチ(トレーニング分を使わずに)を用いる。 さらに,生成した分量に対して引数マイニングの手法を適用し,構造的かつコヒーレントな方法で再編成する。 我々は、複数の関連スコアを用いて、1分が同じミーティングから、書き起こしまたは別の分が与えられたときに得られるかどうかを判定する(タスクB、C)。 これらのスコアに加えて、従来の機械学習モデルをトレーニングしてそれらを結合し、最終的な決定をします。 その結果,タスクAに対するアプローチは,全ての提案の中から最高の精度のスコアを獲得し,文法的正確性や流布度の観点から,最高のシステムに密接な性能を達成できた。 タスクBとCでは、提案されたモデルは多数決ベースラインを上回った。

This paper introduces the proposed automatic minuting system of the Hitachi team for the First Shared Task on Automatic Minuting (AutoMin-2021). We utilize a reference-free approach (i.e., without using training minutes) for automatic minuting (Task A), which first splits a transcript into blocks on the basis of topics and subsequently summarizes those blocks with a pre-trained BART model fine-tuned on a summarization corpus of chat dialogue. In addition, we apply a technique of argument mining to the generated minutes, reorganizing them in a well-structured and coherent way. We utilize multiple relevance scores to determine whether or not a minute is derived from the same meeting when either a transcript or another minute is given (Task B and C). On top of those scores, we train a conventional machine learning model to bind them and to make final decisions. Consequently, our approach for Task A achieve the best adequacy score among all submissions and close performance to the best system in terms of grammatical correctness and fluency. For Task B and C, the proposed model successfully outperformed a majority vote baseline.
翻訳日:2021-12-07 13:50:25 公開日:2021-12-06
# CommonsenseQAにおける人間親 : 外部意識による自己意識の増強

Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention ( http://arxiv.org/abs/2112.03254v1 )

ライセンス: Link先を確認
Yichong Xu, Chenguang Zhu, Shuohang Wang, Siqi Sun, Hao Cheng, Xiaodong Liu, Jianfeng Gao, Pengcheng He, Michael Zeng, Xuedong Huang(参考訳) 今日のaiシステムのほとんどは、多数の多様なデータに自己着脱機構とトランスフォーマーアーキテクチャを使用することに重点を置いている。 本稿では,外部の知識や状況に配慮した外部アテンション機構を備えたトランスフォーマーアーキテクチャの強化を提案する。 外部情報を予測プロセスに統合することで、より大規模なモデルの必要性を減らし、AIシステムの民主化を促進したいと考えています。 提案する外部注意機構は,既存のaiシステムの性能を著しく向上させ,さまざまな下流アプリケーションに対して,基礎となるaiモデルを容易にカスタマイズできる。 特に,提案する外部注意機構が既存のトランスフォーマーモデルを強化し,モデルの推論能力を大幅に向上できることを実証し,常識推論の課題に焦点を当てた。 提案システムであるknowledge external attention for reasoning (kear) は,open commonsenseqa research benchmark において89.4\%の精度で人間のパリティに達した。

Most of today's AI systems focus on using self-attention mechanisms and transformer architectures on large amounts of diverse data to achieve impressive performance gains. In this paper, we propose to augment the transformer architecture with an external attention mechanism to bring external knowledge and context to bear. By integrating external information into the prediction process, we hope to reduce the need for ever-larger models and increase the democratization of AI systems. We find that the proposed external attention mechanism can significantly improve the performance of existing AI systems, allowing practitioners to easily customize foundation AI models to many diverse downstream applications. In particular, we focus on the task of Commonsense Reasoning, demonstrating that the proposed external attention mechanism can augment existing transformer models and significantly improve the model's reasoning capabilities. The proposed system, Knowledge External Attention for Reasoning (KEAR), reaches human parity on the open CommonsenseQA research benchmark with an accuracy of 89.4\% in comparison to the human accuracy of 88.9\%.
翻訳日:2021-12-07 13:50:07 公開日:2021-12-06
# 医用画像からの局所表現の同時学習と報告

Joint Learning of Localized Representations from Medical Images and Reports ( http://arxiv.org/abs/2112.02889v1 )

ライセンス: Link先を確認
Philip M\"uller (1), Georgios Kaissis (1 and 2), Congyu Zou (1), Daniel R\"uckert (1 and 2) ((1) Technical University of Munich, (2) Imperial College London)(参考訳) コントラスト学習は、医用画像分類などの課題に対して有望な結果を伴うラベル付きデータに基づく画像モデルの事前学習に有効であることが証明されている。 事前トレーニング中にペアのテキストと画像(放射線レポートや画像など)を使用することで、さらに結果が向上した。 それでも、既存のほとんどのメソッドはダウンストリームタスクとしてイメージ分類をターゲットにしており、セマンティックセグメンテーションやオブジェクト検出のようなローカライズタスクには最適ではないかもしれない。 そこで,我々は視覚とテキスト(lovt)からの局所化表現学習を,局所化医療画像タスクを対象とする最初のテキスト教師付き事前学習手法である最善知識に提案する。 本手法は,画像領域の局所的コントラスト学習とインスタンスレベルのコントラスト学習を組み合わせ,文表現を報告する。 5つの公開データセットから,胸部X線上の18の局所化タスクからなる新しい評価フレームワーク上で,LoVTおよび一般的な事前学習手法を評価する。 最高の方法はないが、LoVTは18の課題のうち11のタスクで最善を尽くし、ローカライズされたタスクを選ぶ方法として好まれる。

Contrastive learning has proven effective for pre-training image models on unlabeled data with promising results for tasks such as medical image classification. Using paired text and images (such as radiological reports and images) during pre-training improved the results even further. Still, most existing methods target image classification as downstream tasks and may not be optimal for localized tasks like semantic segmentation or object detection. We therefore propose Localized representation learning from Vision and Text (LoVT), to our best knowledge, the first text-supervised pre-training method that targets localized medical imaging tasks. Our method combines instance-level image-report contrastive learning with local contrastive learning on image region and report sentence representations. We evaluate LoVT and commonly used pre-training methods on a novel evaluation framework consisting of 18 localized tasks on chest X-rays from five public datasets. While there is no single best method, LoVT performs best on 11 out of the 18 studied tasks making it the preferred method of choice for localized tasks.
翻訳日:2021-12-07 13:49:48 公開日:2021-12-06
# (参考訳) CloudWalker: 形状解析のためのランダムウォークによる3Dポイントクラウド学習 [全文訳有]

CloudWalker: 3D Point Cloud Learning by Random Walks for Shape Analysis ( http://arxiv.org/abs/2112.01050v2 )

ライセンス: CC BY 4.0
Adi Mesika, Yizhak Ben-Shabat and Ayellet Tal(参考訳) 点雲は3次元形状を表す方法として注目されているが、その不規則な構造は深層学習法に挑戦している。 本稿では,ランダムウォークを用いた3次元形状学習手法であるCloudWalkerを提案する。 以前の作業では、畳み込みニューラルネットワーク(CNNS)を適応させたり、グリッドやメッシュ構造を3Dポイントクラウドに配置する試みがあった。 この研究は、与えられた点集合から形状を表現および学習するための異なるアプローチを示す。 鍵となるアイデアは、3Dオブジェクトの異なる領域を探索するために、複数のランダムウォークによって設定された点に構造を加えることである。 そして、各点とウォークの表現を学習し、推論時に複数のウォーク予測を集約する。 本手法は,2つの3次元形状解析タスク,分類と検索において最先端の結果を得る。 さらに,横断歩道と横断歩道の分散度を用いて形状空間を分割する形状複雑性指標関数を提案する。

Point clouds are gaining prominence as a method for representing 3D shapes, but its irregular structure poses a challenge for deep learning methods. In this paper we propose CloudWalker, a novel method for learning 3D shapes using random walks. Previous works attempt to adapt Convolutional Neural Networks (CNNS) or impose a grid or mesh structure to 3D point clouds. This work presents a different approach to represent and learn the shape from a given point set. The key idea is to impose structure on the point set by multiple random walks through the cloud for exploring different regions of the 3D object. Then we learn a per-point and per-walk representation and aggregate multiple walk predictions at inference. Our approach achieves state-of-the-art results for two 3D shape analysis tasks: classification and retrieval. Furthermore, we propose a shape complexity indicator function that uses cross-walk and inter-walk variance measures to subdivide the shape space.
翻訳日:2021-12-07 13:13:24 公開日:2021-12-06
# (参考訳) レイスペース埋め込みネットワークを用いたニューラルネットワークの学習 [全文訳有]

Learning Neural Light Fields with Ray-Space Embedding Networks ( http://arxiv.org/abs/2112.01523v2 )

ライセンス: CC BY 4.0
Benjamin Attal, Jia-Bin Huang, Michael Zollhoefer, Johannes Kopf, Changil Kim(参考訳) neural radiance fields (nerfs) は最先端のビュー合成結果を生成する。 しかしレンダリングは遅く、ボリュームレンダリングの積分を近似するために1ピクセルあたり数百のネットワーク評価が必要となる。 NeRFを明示的なデータ構造にバッキングすることで、効率的なレンダリングが可能になるが、メモリフットプリントが大幅に増加し、多くの場合、品質が低下する。 そこで本研究では,光線に沿う放射光を直接予測し,よりコンパクトなニューラル光場表現を提案する。 本手法は,小さなベースライン光フィールドデータセットに対して,1ピクセル当たりの1つのネットワーク評価によるレンダリングをサポートし,また,より大規模なベースラインにも適用可能である。 我々のアプローチの核心は、4次元のレイ空間多様体を中間の補間可能な潜在空間にマッピングするレイ空間埋め込みネットワークである。 本手法は,stanford light field datasetなどの高密度前方データセットにおいて,最先端の品質を実現する。 さらに、スペーサー入力を備えた前方のシーンでは、品質の観点からNeRFベースのアプローチと競合する結果を得ると同時に、ネットワーク評価をはるかに少なくして、より高速/品質/メモリトレードオフを提供する。

Neural radiance fields (NeRFs) produce state-of-the-art view synthesis results. However, they are slow to render, requiring hundreds of network evaluations per pixel to approximate a volume rendering integral. Baking NeRFs into explicit data structures enables efficient rendering, but results in a large increase in memory footprint and, in many cases, a quality reduction. In this paper, we propose a novel neural light field representation that, in contrast, is compact and directly predicts integrated radiance along rays. Our method supports rendering with a single network evaluation per pixel for small baseline light field datasets and can also be applied to larger baselines with only a few evaluations per pixel. At the core of our approach is a ray-space embedding network that maps the 4D ray-space manifold into an intermediate, interpolable latent space. Our method achieves state-of-the-art quality on dense forward-facing datasets such as the Stanford Light Field dataset. In addition, for forward-facing scenes with sparser inputs we achieve results that are competitive with NeRF-based approaches in terms of quality while providing a better speed/quality/memory trade-off with far fewer network evaluations.
翻訳日:2021-12-07 13:01:29 公開日:2021-12-06
# (参考訳) 長めの画像:視覚変換器の適応的トーケン長 [全文訳有]

Make A Long Image Short: Adaptive Token Length for Vision Transformers ( http://arxiv.org/abs/2112.01686v2 )

ライセンス: CC BY 4.0
Yichen Zhu, Yuqin Zhu, Jie Du, Yi Wang, Zhicai Ou, Feifei Feng and Jian Tang(参考訳) 視覚変換器は、各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。 トークンが増えるとパフォーマンスは向上するが、計算コストは大幅に増加する。 画像は千語に値する」という証明に動機づけられた私たちは、長い画像を短くすることで、ViTモデルを加速することを目指している。 そこで本研究では,推論中にトークン長を適応的に割り当てる手法を提案する。 具体的には、まずResizable-ViT(ReViT) と呼ばれるViTモデルをトレーニングします。 次に、revitから“token-length label”を取得して、軽量なトークン長アサイン(tla)のトレーニングに使用します。 トークン長ラベルは、ReViTが正しい予測を行うことができる画像を分割するトークンの最小数であり、TLAはこれらのラベルに基づいて最適なトークン長を割り当てることを学ぶ。 TLAにより、ReViTは推論中に最小限のトークン数で画像を処理できる。 これにより、vitモデルのトークン数を減らすことにより、推論速度が向上する。 我々のアプローチは、現代の視覚変換器アーキテクチャと汎用的で互換性があり、計算膨張を大幅に減らすことができる。 提案手法の有効性を2つの課題(画像分類と行動認識)にまたがる複数の代表的ViTモデル(DeiT,LV-ViT,TimesFo rmer)で検証した。

The vision transformer splits each image into a sequence of tokens with fixed length and processes the tokens in the same way as words in natural language processing. More tokens normally lead to better performance but considerably increased computational cost. Motivated by the proverb "A picture is worth a thousand words" we aim to accelerate the ViT model by making a long image short. To this end, we propose a novel approach to assign token length adaptively during inference. Specifically, we first train a ViT model, called Resizable-ViT (ReViT), that can process any given input with diverse token lengths. Then, we retrieve the "token-length label" from ReViT and use it to train a lightweight Token-Length Assigner (TLA). The token-length labels are the smallest number of tokens to split an image that the ReViT can make the correct prediction, and TLA is learned to allocate the optimal token length based on these labels. The TLA enables the ReViT to process the image with the minimum sufficient number of tokens during inference. Thus, the inference speed is boosted by reducing the token numbers in the ViT model. Our approach is general and compatible with modern vision transformer architectures and can significantly reduce computational expanse. We verified the effectiveness of our methods on multiple representative ViT models (DeiT, LV-ViT, and TimesFormer) across two tasks (image classification and action recognition).
翻訳日:2021-12-07 12:40:57 公開日:2021-12-06
# 学習領域を用いたビデオテキスト事前学習

Video-Text Pre-training with Learned Regions ( http://arxiv.org/abs/2112.01194v2 )

ライセンス: Link先を確認
Rui Yan, Mike Zheng Shou, Yixiao Ge, Alex Jinpeng Wang, Xudong Lin, Guanyu Cai, Jinhui Tang(参考訳) ビデオテキスト事前学習は、視覚情報とテキスト情報のセマンティクスを整合させることにより、大規模なビデオテキストペアから転送可能な表現を学習することを目的としている。 最先端のアプローチは、エンドツーエンドで生のピクセルから視覚的特徴を抽出する。 しかし、これらの手法はフレームレベルで直接動作し、ビデオ内のオブジェクトの時空間構造を見落としている。 本研究では,大規模ビデオテキストペアの事前学習において,オブジェクトの構造を考慮に入れた,ビデオテキスト表現学習のための簡易かつ効果的なモジュールを提案する。 ビデオでは,(1)視覚的特徴をセマンティッククラスタに量子化し,(2)学習可能なマスクを生成し,それらを用いて同じセマンティック領域に属する特徴を集約し,(3)異なる集約領域間の相互作用をモデル化する。 市販の物体検出器を使うのとは対照的に、提案するモジュールは明示的な監督を必要としないし、計算効率もはるかに高い。 提案手法をWebVid2MおよびCC3Mデータセット上で事前学習する。 4つのダウンストリームビデオテキスト検索ベンチマークにおける広範囲な評価結果から,本手法の有効性が明らかとなった。 コードはhttps://github.com/r uiyan1995/region_lea rnerで入手できる。

Video-Text pre-training aims at learning transferable representations from large-scale video-text pairs via aligning the semantics between visual and textual information. State-of-the-art approaches extract visual features from raw pixels in an end-to-end fashion. However, these methods operate at frame-level directly and thus overlook the spatio-temporal structure of objects in video, which yet has a strong synergy with nouns in textual descriptions. In this work, we propose a simple yet effective module for video-text representation learning, namely RegionLearner, which can take into account the structure of objects during pre-training on large-scale video-text pairs. Given a video, our module (1) first quantizes visual features into semantic clusters, then (2) generates learnable masks and uses them to aggregate the features belonging to the same semantic region, and finally (3) models the interactions between different aggregated regions. In contrast to using off-the-shelf object detectors, our proposed module does not require explicit supervision and is much more computationally efficient. We pre-train the proposed approach on the public WebVid2M and CC3M datasets. Extensive evaluations on four downstream video-text retrieval benchmarks clearly demonstrate the effectiveness of our RegionLearner. The code will be available at https://github.com/r uiyan1995/Region_Lea rner.
翻訳日:2021-12-07 12:25:43 公開日:2021-12-06
# CoNeRF:制御可能な神経放射場

CoNeRF: Controllable Neural Radiance Fields ( http://arxiv.org/abs/2112.01983v2 )

ライセンス: Link先を確認
Kacper Kania, Kwang Moo Yi, Marek Kowalski, Tomasz Trzci\'nski, Andrea Tagliasacchi(参考訳) ニューラル3d表現を拡張し,新たなビューレンダリング(すなわちカメラ制御)を超えて,直感的かつ解釈可能なユーザ制御を可能にする。 訓練画像において,マスクアノテーションを少数で使用することで,シーンのどの部分を制御したいかをアノテートすることができる。 私たちの重要なアイデアは、シーンエンコーディングによってニューラルネットワークによってレグレッションされる潜在変数として属性を扱うことです。 アノテーションが提供されていない場合、属性がフレームワークによって自動的に検出される。 本研究では,異なる種類の制御可能な属性(例えばヒトの顔の表情制御,無生物の移動における状態制御)を持つシーンに適用する。 全体として、私たちの知る限り、初めて新しいビューと新しい属性が1つのビデオからシーンを再レンダリングしたことを実証する。

We extend neural 3D representations to allow for intuitive and interpretable user control beyond novel view rendering (i.e. camera control). We allow the user to annotate which part of the scene one wishes to control with just a small number of mask annotations in the training images. Our key idea is to treat the attributes as latent variables that are regressed by the neural network given the scene encoding. This leads to a few-shot learning framework, where attributes are discovered automatically by the framework, when annotations are not provided. We apply our method to various scenes with different types of controllable attributes (e.g. expression control on human faces, or state control in movement of inanimate objects). Overall, we demonstrate, to the best of our knowledge, for the first time novel view and novel attribute re-rendering of scenes from a single video.
翻訳日:2021-12-07 12:25:23 公開日:2021-12-06
# ソフトウェア工学のための多言語学習

Multilingual training for Software Engineering ( http://arxiv.org/abs/2112.02043v2 )

ライセンス: Link先を確認
Toufique Ahmed and Premkumar Devanbu(参考訳) 大量のオープンソースソフトウェアデータを活用する機械学習モデルは、今や多くのソフトウェアエンジニアリングタスクを自動化する興味深いアプローチになっている。 いくつかのSEタスクはいずれもこのアプローチの対象であり、パフォーマンスはここ数年で徐々に改善され、より良いモデルとトレーニングメソッドが提供されている。 より多種多様な、よりクリーンなラベル付きデータはトレーニングに適していますが、高品質なデータセットの構築には時間がかかり、困難です。 クリーンなラベル付きデータのボリュームと多様性を増強する方法は、一般的に幅広い適用性を持っている。 一部の言語(Rubyなど)では、ラベル付きデータは豊富ではなく、他の言語(JavaScriptなど)では、利用可能なデータは、いくつかのアプリケーションドメインにもっと集中しているため、多様性が低い。 このようなデータのボトルネックを回避する方法として、異なる言語(同じ機能を実行する)で記述されたコードが、かなり類似しており、特に識別子の命名パターンを保存していることを示す証拠を示すとともに、識別子がソフトウェアエンジニアリングタスクのトレーニングデータの非常に重要な要素であることを示す証拠を示す。 この現象を利用して、利用可能な多言語学習データ(異なる言語にわたって)が性能を増幅するために利用できることを示す。 本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。 このデータ拡張アプローチは、さまざまなタスク、言語、機械学習モデルと広く互換性がある。

Well-trained machine-learning models, which leverage large amounts of open-source software data, have now become an interesting approach to automating many software engineering tasks. Several SE tasks have all been subject to this approach, with performance gradually improving over the past several years with better models and training methods. More, and more diverse, clean, labeled data is better for training; but constructing good-quality datasets is time-consuming and challenging. Ways of augmenting the volume and diversity of clean, labeled data generally have wide applicability. For some languages (e.g., Ruby) labeled data is less abundant; in others (e.g., JavaScript) the available data maybe more focused on some application domains, and thus less diverse. As a way around such data bottlenecks, we present evidence suggesting that human-written code in different languages (which performs the same function), is rather similar, and particularly preserving of identifier naming patterns; we further present evidence suggesting that identifiers are a very important element of training data for software engineering tasks. We leverage this rather fortuitous phenomenon to find evidence that available multilingual training data (across different languages) can be used to amplify performance. We study this for 3 different tasks: code summarization, code retrieval, and function naming. We note that this data-augmenting approach is broadly compatible with different tasks, languages, and machine-learning models.
翻訳日:2021-12-07 12:25:08 公開日:2021-12-06
# (参考訳) 視覚模倣における表現学習の驚くべき効果 [全文訳有]

The Surprising Effectiveness of Representation Learning for Visual Imitation ( http://arxiv.org/abs/2112.01511v2 )

ライセンス: CC BY 4.0
Jyothish Pari, Nur Muhammad Shafiullah, Sridhar Pandian Arunachalam, Lerrel Pinto(参考訳) 視覚的模倣学習は、視覚的なデモンストレーションから学ぶ最も効果的な方法の1つであるが、それらから一般化するには、何百もの多様なデモンストレーション、タスク固有の事前、あるいは大規模で訓練が難しいパラメトリックモデルが必要である。 このような複雑さの1つの理由は、標準的な視覚模倣フレームワークが、簡潔だが多様な視覚データから良い表現を学ぶと同時に、実証された行動とそのような表現を同時に関連付けるという、2つの結合した問題を一度に解決しようとするためである。 このような共同学習は、これらの2つの問題の間に相互依存を引き起こし、しばしば学習のために大量の実演を必要とする。 この課題に対処するために、視覚模倣のための行動学習から表現学習を分離することを提案する。 まず,標準教師あり,自己教師あり学習法を用いてオフラインデータから視覚表現エンコーダを学習する。 表現がトレーニングされると、非パラメトリックな局所重み付き回帰を使ってアクションを予測します。 我々は,この簡単な分離により,視覚模倣における先行作業と比較して,オフラインデモデータセットと実ロボットドアオープンの両方における視覚模倣モデルの性能が向上することを示す。 生成されたデータ、コード、ロボットビデオはすべてhttps://jyopari.gith ub.io/VINN/で公開されています。

While visual imitation learning offers one of the most effective ways of learning from visual demonstrations, generalizing from them requires either hundreds of diverse demonstrations, task specific priors, or large, hard-to-train parametric models. One reason such complexities arise is because standard visual imitation frameworks try to solve two coupled problems at once: learning a succinct but good representation from the diverse visual data, while simultaneously learning to associate the demonstrated actions with such representations. Such joint learning causes an interdependence between these two problems, which often results in needing large amounts of demonstrations for learning. To address this challenge, we instead propose to decouple representation learning from behavior learning for visual imitation. First, we learn a visual representation encoder from offline data using standard supervised and self-supervised learning methods. Once the representations are trained, we use non-parametric Locally Weighted Regression to predict the actions. We experimentally show that this simple decoupling improves the performance of visual imitation models on both offline demonstration datasets and real-robot door opening compared to prior work in visual imitation. All of our generated data, code, and robot videos are publicly available at https://jyopari.gith ub.io/VINN/.
翻訳日:2021-12-07 12:24:17 公開日:2021-12-06
# 教員養成における数学的質問の改善

Improving mathematical questioning in teacher training ( http://arxiv.org/abs/2112.01537v2 )

ライセンス: Link先を確認
Debajyoti Datta, Maria Phillips, James P Bywater, Jennifer Chiu, Ginger S. Watson, Laura E. Barnes, Donald E Brown(参考訳) 高忠実でAIに基づくシミュレーション教室システムにより、教師は効果的な教育戦略をリハーサルすることができる。 しかし,学生にスケールファクターを教えるなど,対話指向のオープンエンド会話はモデル化が困難である。 本稿では,教師が数学的質問スキルを実践するためのテキストベースの対話型対話型対話型エージェントを提案する。 我々は、深層学習、不確実性定量化、自然言語処理の進歩に頼りながら、特定の教育ニーズに対する会話エージェントの制限を認めながら、システム設計に人間中心のアプローチを取る。 シミュレーション中に専門家のインプットを直接利用して,会話の成功率とユーザ満足度の向上を実証する。

High-fidelity, AI-based simulated classroom systems enable teachers to rehearse effective teaching strategies. However, dialogue-oriented open-ended conversations such as teaching a student about scale factors can be difficult to model. This paper builds a text-based interactive conversational agent to help teachers practice mathematical questioning skills based on the well-known Instructional Quality Assessment. We take a human-centered approach to designing our system, relying on advances in deep learning, uncertainty quantification, and natural language processing while acknowledging the limitations of conversational agents for specific pedagogical needs. Using experts' input directly during the simulation, we demonstrate how conversation success rate and high user satisfaction can be achieved.
翻訳日:2021-12-07 12:06:46 公開日:2021-12-06
# 学習深度誘導サンプリングによる高能率神経放射場

Efficient Neural Radiance Fields with Learned Depth-Guided Sampling ( http://arxiv.org/abs/2112.01517v2 )

ライセンス: Link先を確認
Haotong Lin, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,汎用ラミアンスフィールドのレンダリング時間を短縮することを目的とする。 最近の研究では、画像エンコーダとニューラルネットワークのラミアンスフィールドを実装し、シーンをまたいで一般化することができるため、シーン毎の最適化は避けられている。 しかし、そのレンダリングプロセスは一般的に非常に遅い。 主な要因は、放射場を推定する際に空空間の多くの点をサンプリングすることである。 本稿では,暗黙の輝度場と明示的な奥行きマップを組み合わせ,効率的なレンダリングを実現するハイブリッドシーン表現を提案する。 具体的には,シーンの粗い形状を効率的に予測するために,まずカスケードコストボリュームを構築する。 粗い幾何学により,シーン表面近傍の点数点をサンプリングし,レンダリング速度を大幅に向上させることができる。 このプロセスは完全に微分可能であり、RGB画像のみから深度予測と放射界ネットワークを共同で学習することができる。 実験の結果,提案手法はDTU, Real Forward- facing および NeRF Synthetic データセットに対して,従来の一般化可能な放射場法よりも50倍高速であることがわかった。 また,動的な演奏者の自由視点映像をリアルタイムに合成する手法の有用性を示す。 コードはhttps://zju3dv.githu b.io/enerf/で入手できる。

This paper aims to reduce the rendering time of generalizable radiance fields. Some recent works equip neural radiance fields with image encoders and are able to generalize across scenes, which avoids the per-scene optimization. However, their rendering process is generally very slow. A major factor is that they sample lots of points in empty space when inferring radiance fields. In this paper, we present a hybrid scene representation which combines the best of implicit radiance fields and explicit depth maps for efficient rendering. Specifically, we first build the cascade cost volume to efficiently predict the coarse geometry of the scene. The coarse geometry allows us to sample few points near the scene surface and significantly improves the rendering speed. This process is fully differentiable, enabling us to jointly learn the depth prediction and radiance field networks from only RGB images. Experiments show that the proposed approach exhibits state-of-the-art performance on the DTU, Real Forward-facing and NeRF Synthetic datasets, while being at least 50 times faster than previous generalizable radiance field methods. We also demonstrate the capability of our method to synthesize free-viewpoint videos of dynamic human performers in real-time. The code will be available at https://zju3dv.githu b.io/enerf/.
翻訳日:2021-12-07 12:05:41 公開日:2021-12-06