このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211012となっている論文です。

PDF登録状況(公開日: 20211012)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) トーナメント表現の理論 [全文訳有]

A Theory of Tournament Representations ( http://arxiv.org/abs/2110.05188v2 )

ライセンス: CC BY 4.0
Arun Rajkumar, Vishnu Veerathu and Abdul Bakey Mir(参考訳) 現実世界のトーナメントはほとんど常に非定型である。 最近の研究によると、d$ 次元のノード表現を仮定したパラメトリックモデルは、非推移的なトーナメントを効果的にモデル化できる。 しかし、固定された$d$次元表現から生じるトーナメントのクラスの構造については何も分かっていない。 本研究では,パラメトリックトーナメント表現を理解するための新しい理論を開発する。 私たちの最初の貢献は、$d$次元表現から生じるトーナメントのクラスを構造的に特徴づけることです。 これらのトーナメントクラスは、必ずしもフリップクラスの統一でなければならない構成を禁止しており、これはすべてのトーナメントのセットを分割する新しい方法である。 さらに、関連する禁制のフリップクラスがわずか2ドルのトーナメントを含んでいることを示すことで、2ドルのトーナメントを完全に特徴づける。 具体的には、ランキング2ドルのトーナメントは、地域横断トーナメントと同等であることを示す。 この知見は,このトーナメントクラスにおける最小フィードバック節集合問題を,標準Quicksortプロシージャを用いて解くことができることを示す。 一般的な階数$d$トーナメントクラスの場合、サイズ$\mathcal{O}(\sqrt{d})$の2倍正規トーナメントに関連するフリップクラスは禁制の構成でなければならないことを示す。 二重質問に答えるためには、 \cite{forster} の有名な結果を用いて、$n$ ノード上のすべてのトーナメントを表すのに必要な最小次元に対して、$\mathcal{o}(\sqrt{n})$ の下限を示す。 任意のトーナメントにおいて、トーナメントに関連するフリップクラスのフィードバックアーク集合における一意ノードの数の最小サイズに依存する最小の表現次元上の新しい上限を示す。 我々の結果は、行列の符号ランクの上限にも光を当てている。

Real world tournaments are almost always intransitive. Recent works have noted that parametric models which assume $d$ dimensional node representations can effectively model intransitive tournaments. However, nothing is known about the structure of the class of tournaments that arise out of any fixed $d$ dimensional representations. In this work, we develop a novel theory for understanding parametric tournament representations. Our first contribution is to structurally characterize the class of tournaments that arise out of $d$ dimensional representations. We do this by showing that these tournament classes have forbidden configurations which must necessarily be union of flip classes, a novel way to partition the set of all tournaments. We further characterise rank $2$ tournaments completely by showing that the associated forbidden flip class contains just $2$ tournaments. Specifically, we show that the rank $2$ tournaments are equivalent to locally-transitive tournaments. This insight allows us to show that the minimum feedback arc set problem on this tournament class can be solved using the standard Quicksort procedure. For a general rank $d$ tournament class, we show that the flip class associated with a coned-doubly regular tournament of size $\mathcal{O}(\sqrt{d})$ must be a forbidden configuration. To answer a dual question, using a celebrated result of \cite{forster}, we show a lower bound of $\mathcal{O}(\sqrt{n})$ on the minimum dimension needed to represent all tournaments on $n$ nodes. For any given tournament, we show a novel upper bound on the smallest representation dimension that depends on the least size of the number of unique nodes in any feedback arc set of the flip class associated with a tournament. We show how our results also shed light on upper bound of sign-rank of matrices.
翻訳日:2021-10-17 13:16:39 公開日:2021-10-12
# (参考訳) TiKick: シングルエージェントによるマルチエージェントフットボールフルゲームを目指して [全文訳有]

TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations ( http://arxiv.org/abs/2110.04507v2 )

ライセンス: CC BY 4.0
Shiyu Huang, Wenze Chen, Longfei Zhang, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen, Jun Zhu(参考訳) 深層強化学習(DRL)は複雑なビデオゲーム(StarCraft IIやDota IIなど)で超人的なパフォーマンスを達成した。 しかし、現在のDRLシステムは、マルチエージェント調整、スパース報酬、確率的環境などの課題に悩まされている。 これらの課題に対処するために、テストベッドとしてGoogle Research Football(GRF)などのフットボールビデオゲームを採用し、この課題を完了するために、エンドツーエンドの学習ベースのAIシステム(TiKickと表記される)を開発しています。 本研究では,リーグトレーニングから得られた単一エージェントの専門家の自己演奏から,まず大規模なリプレイデータセットを生成した。 そして、固定された単一エージェントデータセットから強力なマルチエージェントAIを学ぶために、分散学習システムと新しいオフラインアルゴリズムを開発した。 われわれの知る限りでは、TikickはGoogle Research Footballのマルチエージェントゲームを完全に引き継ぐことができる初めての学習ベースのAIシステムだ。 さらに, 事前学習モデルにより, 最新のマルチエージェントアルゴリズムの学習プロセスが促進され, 各種学術シナリオにおける最先端性能が達成されることを示す。

Deep reinforcement learning (DRL) has achieved super-human performance on complex video games (e.g., StarCraft II and Dota II). However, current DRL systems still suffer from challenges of multi-agent coordination, sparse rewards, stochastic environments, etc. In seeking to address these challenges, we employ a football video game, e.g., Google Research Football (GRF), as our testbed and develop an end-to-end learning-based AI system (denoted as TiKick) to complete this challenging task. In this work, we first generated a large replay dataset from the self-playing of single-agent experts, which are obtained from league training. We then developed a distributed learning system and new offline algorithms to learn a powerful multi-agent AI from the fixed single-agent dataset. To the best of our knowledge, Tikick is the first learning-based AI system that can take over the multi-agent Google Research Football full game, while previous work could either control a single agent or experiment on toy academic scenarios. Extensive experiments further show that our pre-trained model can accelerate the training process of the modern multi-agent algorithm and our method achieves state-of-the-art performances on various academic scenarios.
翻訳日:2021-10-17 01:35:47 公開日:2021-10-12
# (参考訳) 適応放射線治療のための cyclegan-based cbct enhancement の制約の検討

Exploring constraints on CycleGAN-based CBCT enhancement for adaptive radiotherapy ( http://arxiv.org/abs/2110.04659v2 )

ライセンス: CC BY 4.0
Suraj Pai(参考訳) サイクガンベースの合成画像生成を探求する研究は、最近医療コミュニティで加速され、ペアリングされていないデータセットを効果的に活用できるようになった。 しかし,これらの合成画像の臨床的受容は,厳密な評価プロトコルの対象となるため,大きな課題となる。 一般的に確立されたCycleGANの欠点として、生成された画像にアーティファクトを導入することは、医療画像では許せない。 この欠点を軽減するため,CycleGANの異なる制約を探索し,これらの制約の適応制御について検討する。 損失を保持する構造という形で、サイクルガンに付加的な制約を課すことの利点も検討されている。 arxiv:2012.12821に触発された、ソースとターゲットの間の周波数領域の内容を保存する一般化された周波数損失を調査し、マインドロスarxiv:1809.04536のような既存の損失と比較する。 ganslateフレームワークのcyclegan実装(https://github.com/ ganslate-team/gansla te)は、この論文の実験に使われている。 提案手法から生成された合成画像は,ベースラインのCycleGANおよび他のアプローチよりも定量的に,質的に優れている。 さらに、観察可能なアーティファクトや画像品質の損失は見られず、これらの合成画像の受容に不可欠である。 このように生成された合成医用画像は、臨床ワークフローへの適用性を明確に強調するために、ドメイン固有の評価とセグメンテーションを下流タスクとして用いることにより評価される。

Research exploring CycleGAN-based synthetic image generation has recently accelerated in the medical community, as it is able to leverage unpaired datasets effectively. However, clinical acceptance of these synthetic images pose a significant challenge as they are subject to strict evaluation protocols. A commonly established drawback of the CycleGAN, the introduction of artifacts in generated images is unforgivable in the case of medical images. In an attempt to alleviate this drawback, we explore different constraints of the CycleGAN along with investigation of adaptive control of these constraints. The benefits of imposing additional constraints on the CycleGAN, in the form of structure retaining losses is also explored. A generalized frequency loss inspired by arxiv:2012.12821 that preserves content in the frequency domain between source and target is investigated and compared with existing losses such as the MIND loss arXiv:1809.04536. CycleGAN implementations from the ganslate framework (https://github.com/ ganslate-team/gansla te) are used for experimentation in this thesis. Synthetic images generated from our methods are quantitatively and qualitatively investigated and outperform the baseline CycleGAN and other approaches. Furthermore, no observable artifacts or loss in image quality is found, which is critical for acceptance of these synthetic images. The synthetic medical images thus generated are also evaluated using domain-specific evaluation and using segmentation as a downstream task, in order to clearly highlight their applicability to clinical workflows.
翻訳日:2021-10-16 20:33:32 公開日:2021-10-12
# (参考訳) 顔再現のための細粒度アイデンティティ保存ランドマーク合成 [全文訳有]

Fine-grained Identity Preserving Landmark Synthesis for Face Reenactment ( http://arxiv.org/abs/2110.04708v2 )

ライセンス: CC BY 4.0
Haichao Zhang, Youcheng Ben, Weixi Zhang, Tao Chen, Gang Yu, Bin Fu(参考訳) 最近の顔再現作業は粗い参照ランドマークによって制限されており、操作されたランドマークと実人から採取されたランドマークとの分配ギャップのため、アイデンティティ保存性能が不十分である。 この問題に対処するため, 粒度保存型ランドマーク誘導顔再現法を提案する。 提案手法には2つの新しい特徴がある。 まず、より詳細な細かなランドマークを生成できるように設計されたランドマーク合成ネットワーク。 ネットワークは操作されたランドマークを洗練し、良好なアイデンティティ保存能力を持つ滑らかで徐々に変化する顔ランドマークシーケンスを生成する。 第二に、鮮明でシャープな高品質な顔の合成を目的とした、合成顔識別保護損失、前景/裏面マスク損失、境界損失などの新規な損失関数を設計する。 自作の BeautySelfie と公開の VoxCeleb1 データセットで実験を行った。 得られた定性的および定量的な結果から,本手法は高精細な高精細な顔の再現が可能であることを示す。 コードは再生のためにリリースされます。

Recent face reenactment works are limited by the coarse reference landmarks, leading to unsatisfactory identity preserving performance due to the distribution gap between the manipulated landmarks and those sampled from a real person. To address this issue, we propose a fine-grained identity-preserving landmark-guided face reenactment approach. The proposed method has two novelties. First, a landmark synthesis network which is designed to generate fine-grained landmark faces with more details. The network refines the manipulated landmarks and generates a smooth and gradually changing face landmark sequence with good identity preserving ability. Second, several novel loss functions including synthesized face identity preserving loss, foreground/backgroun d mask loss as well as boundary loss are designed, which aims at synthesizing clear and sharp high-quality faces. Experiments are conducted on our self-collected BeautySelfie and the public VoxCeleb1 datasets. The presented qualitative and quantitative results show that our method can reenact fine-grained higher quality faces with good ID-preserved appearance details, fewer artifacts and clearer boundaries than state-of-the-art works. Code will be released for reproduction.
翻訳日:2021-10-16 17:42:14 公開日:2021-10-12
# (参考訳) AIR-Net: 行列補完のための適応型および命令型正規化ニューラルネットワーク [全文訳有]

AIR-Net: Adaptive and Implicit Regularization Neural Network for Matrix Completion ( http://arxiv.org/abs/2110.07557v1 )

ライセンス: CC BY 4.0
Zhemin Li, Hongxia Wang(参考訳) 従来、行列完備化(MC)モデルは、部分的に観察された要素から行列を復元することを目的としていた。 正確なリカバリは、必ずしも未知の行列/信号の事前を適切に符号化する正規化を必要とする。 しかし、複雑な自然信号のプリエントを正確に符号化することは困難であり、それでも、モデルは特定の行列型以外ではうまく一般化できないかもしれない。 この作業は適応性と暗黙の低ランク正規化を組み合わせることで、現在の回復行列に従って前者を動的にキャプチャする。 さらに、適応正則化は暗黙の正則化にどのように影響するのか? ニューラルネットワークを用いて適応的および暗黙的正規化を表現し,提案モデル \textit{air-net} を命名した。 理論的解析により、AIR-Netの適応部分が暗黙の正規化を促進することが示されている。 さらに、適応正則化器は最後に消滅し、飽和問題を回避することができる。 様々なデータに対する数値実験はAIR-Netの有効性を示し、特に欠落した要素の位置がランダムに選択されない場合である。 行列表現のためのニューラルネットワークを選択するための完全な柔軟性により、AIR-Netはより一般的な逆問題を解決するために拡張できる。

Conventionally, the matrix completion (MC) model aims to recover a matrix from partially observed elements. Accurate recovery necessarily requires a regularization encoding priors of the unknown matrix/signal properly. However, encoding the priors accurately for the complex natural signal is difficult, and even then, the model might not generalize well outside the particular matrix type. This work combines adaptive and implicit low-rank regularization that captures the prior dynamically according to the current recovered matrix. Furthermore, we aim to answer the question: how does adaptive regularization affect implicit regularization? We utilize neural networks to represent Adaptive and Implicit Regularization and named the proposed model \textit{AIR-Net}. Theoretical analyses show that the adaptive part of the AIR-Net enhances implicit regularization. In addition, the adaptive regularizer vanishes at the end, thus can avoid saturation issues. Numerical experiments for various data demonstrate the effectiveness of AIR-Net, especially when the locations of missing elements are not randomly chosen. With complete flexibility to select neural networks for matrix representation, AIR-Net can be extended to solve more general inverse problems.
翻訳日:2021-10-16 13:14:07 公開日:2021-10-12
# (参考訳) FILM: モジュール型メソッドによる言語命令に従う [全文訳有]

FILM: Following Instructions in Language with Modular Methods ( http://arxiv.org/abs/2110.07342v1 )

ライセンス: CC BY 4.0
So Yeon Min, Devendra Singh Chaplot, Pradeep Ravikumar, Yonatan Bisk, Ruslan Salakhutdinov(参考訳) 最近のインボディード・インストラクションの手法は、一般的に模倣学習を用いてエンドツーエンドに訓練されている。 これは専門家の軌跡と低レベルの言語命令を使う必要がある。 このようなアプローチは、学習された隠れた状態が言語とビジョンからのセマンティクスを同時に統合し、状態追跡、空間記憶、探索、長期計画を実行すると仮定する。 これとは対照的に,(1)シーンのセマンティックマップを構築し,(2)自然言語の目的を達成するためにセマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。 提案手法は,従来手法と同等な(8.17 %)ギャップを持つsota性能 (24.46%) を実現するとともに,熟練した軌跡と低レベルの命令の両方をエスキューすることで少ないデータを使用する。 しかし、低レベル言語を活用することで、パフォーマンスがさらに向上します(26.49%)。 本研究は, 空間記憶と意味探索によって, 専門家の軌跡や低レベルの指示がなくても, より強く, より汎用的な状態追跡とガイダンスの表現が可能であることを示唆する。

Recent methods for embodied instruction following are typically trained end-to-end using imitation learning. This requires the use of expert trajectories and low-level language instructions. Such approaches assume learned hidden states will simultaneously integrate semantics from the language and vision to perform state tracking, spatial memory, exploration, and long-term planning. In contrast, we propose a modular method with structured representations that (1) builds a semantic map of the scene, and (2) performs exploration with a semantic search policy, to achieve the natural language goal. Our modular method achieves SOTA performance (24.46%) with a substantial (8.17 % absolute) gap from previous work while using less data by eschewing both expert trajectories and low-level instructions. Leveraging low-level language, however, can further increase our performance (26.49%). Our findings suggest that an explicit spatial memory and a semantic search policy can provide a stronger and more general representation for state-tracking and guidance, even in the absence of expert trajectories or low-level instructions.
翻訳日:2021-10-16 12:32:10 公開日:2021-10-12
# ループ内話題検出・追跡のための話題時間ヒートマップ

Topic-time Heatmaps for Human-in-the-loop Topic Detection and Tracking ( http://arxiv.org/abs/2110.07337v1 )

ライセンス: Link先を確認
Doug Beeferman, Hang Jiang(参考訳) Topic Detection and Tracking (TDT) の重要な課題は、ニュースメディアの集合を、同じ現実世界のイベントに関連するストーリーの集合にまとめることである。 検索エンジンや発見ツールなどの実用的なアプリケーションにtdtモデルを適用するには、興味のあるコーパスの"イベント"の範囲をピンダウンするには、人間によるガイダンスが必要である。 本稿では,ユーザがtdtアルゴリズムを反復的に微調整し,そのアルゴリズムとユーザ自身がイベントの性質をよりよく理解できるように,ループ内ヒューマン・イン・ザ・ループ法を提案する。 コーパス全体の視覚的概要を生成し、ユーザーは概要から興味のある領域を選択し、選択した文書が同じイベントに属することを確認(または拒否)するために一連の質問をすることができる。 これらの質問に対する回答は、システムの基盤となるイベント類似性モデルのトレーニングデータを補完する。

The essential task of Topic Detection and Tracking (TDT) is to organize a collection of news media into clusters of stories that pertain to the same real-world event. To apply TDT models to practical applications such as search engines and discovery tools, human guidance is needed to pin down the scope of an "event" for the corpus of interest. In this work in progress, we explore a human-in-the-loop method that helps users iteratively fine-tune TDT algorithms so that both the algorithms and the users themselves better understand the nature of the events. We generate a visual overview of the entire corpus, allowing the user to select regions of interest from the overview, and then ask a series of questions to affirm (or reject) that the selected documents belong to the same event. The answers to these questions supplement the training data for the event similarity model that underlies the system.
翻訳日:2021-10-15 15:11:41 公開日:2021-10-12
# 法的質問応答システムに関する調査研究

A Survey on Legal Question Answering Systems ( http://arxiv.org/abs/2110.07333v1 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 多くの法律専門家は、地域、地域、国家、国際法に関する情報の爆発により、彼らの行為はよりコストがかかり、時間もかかり、エラーを起こしてしまうと考えている。 この2つの主な理由は、ほとんどの法律は非構造化であり、法が公表される膨大な量とペースが日々の業務に情報過負荷を引き起こすためである。 法的領域の場合、研究コミュニティは、法的問題に対する自動応答を生成するシステムが日々の業務における多くの実践的影響に大きく影響することに同意している。 有用性の度合いは、半自動的なソリューションでさえ、直面するワークロードを減らすのに大いに役立つ。 これは主に、質問応答システムが大量の法的リソースを自動的に処理して、質問や疑念に数秒で答えることができるためであり、つまり、法的な分野の多くの専門家にとって、労力、お金、時間という形でリソースを節約することができる。 本研究では,この課題に対応するために現在存在する解決策を定量的かつ質的に調査する。

Many legal professionals think that the explosion of information about local, regional, national, and international legislation makes their practice more costly, time-consuming, and even error-prone. The two main reasons for this are that most legislation is usually unstructured, and the tremendous amount and pace with which laws are released causes information overload in their daily tasks. In the case of the legal domain, the research community agrees that a system allowing to generate automatic responses to legal questions could substantially impact many practical implications in daily activities. The degree of usefulness is such that even a semi-automatic solution could significantly help to reduce the workload to be faced. This is mainly because a Question Answering system could be able to automatically process a massive amount of legal resources to answer a question or doubt in seconds, which means that it could save resources in the form of effort, money, and time to many professionals in the legal sector. In this work, we quantitatively and qualitatively survey the solutions that currently exist to meet this challenge.
翻訳日:2021-10-15 12:51:40 公開日:2021-10-12
# (参考訳) ファウショットNLIのアウト・オブ・ディストリビューション一般化における自然言語説明の効果の検討 [全文訳有]

Investigating the Effect of Natural Language Explanations on Out-of-Distribution Generalization in Few-shot NLI ( http://arxiv.org/abs/2110.06223v1 )

ライセンス: CC BY 4.0
Yangqiaoyu Zhou, Chenhao Tan(参考訳) SNLIのようなデータセットでは、ニューラルモデルは強力なパフォーマンスを示しているが、アウト・オブ・ディストリビューション(OOD)を一般化する能力は欠如している。 そこで本研究では,OODの一般化に対する自然言語説明の効果について,数発の学習設定を定式化して検討する。 テンプレートをhansデータセットで活用し,テンプレート毎にテンプレート化された自然言語説明を構築する。 生成された説明は、基礎的な説明と競合するbleuスコアを示すが、予測性能は向上しない。 さらに,生成した説明はラベルを示す情報やミスキー要素をしばしば暗示することを示した。

Although neural models have shown strong performance in datasets such as SNLI, they lack the ability to generalize out-of-distribution (OOD). In this work, we formulate a few-shot learning setup and examine the effects of natural language explanations on OOD generalization. We leverage the templates in the HANS dataset and construct templated natural language explanations for each template. Although generated explanations show competitive BLEU scores against groundtruth explanations, they fail to improve prediction performance. We further show that generated explanations often hallucinate information and miss key elements that indicate the label.
翻訳日:2021-10-15 10:30:10 公開日:2021-10-12
# (参考訳) 幾何散乱による分子グラフ生成 [全文訳有]

Molecular Graph Generation via Geometric Scattering ( http://arxiv.org/abs/2110.06241v1 )

ライセンス: CC BY 4.0
Dhananjay Bhaskar, Jackson D. Grady, Michael A. Perlmutter, Smita Krishnaswamy(参考訳) グラフニューラルネットワーク(GNN)は、薬物の設計と発見の問題を解決するために広く使われている。 リガンド分子とターゲット分子は、それぞれ原子要素と結合に関する情報をエンコードするノードとエッジを持つグラフとして表される。 既存の深層学習モデルは物理化学的特性と結合親和性を予測するのに優れているが、最適化された性質を持つ新しい分子の生成は依然として困難である。 代わって、ほとんどのGNNはメッセージパッシングパラダイムの限界のため、グラフ全体の表現が不十分である。 さらに、強化学習やその他のシーケンシャルな処理を用いるステップバイステップグラフ生成フレームワークは遅くなり、分析の原理を満たすために、かなりの後処理を必要とする無効な分子の割合が高くなる。 これらの問題に対処するため,我々は分子グラフ生成のための表現優先アプローチを提案する。 グラフ構造情報を幾何学的散乱変換で捉えることにより、自己エンコーダの潜在表現を導出し、その表現を分子特性によっても構成するペナルティを適用する。 この高度に構造化された潜在空間は、GANを用いて直接分子グラフ生成に利用できることを示す。 我々のアーキテクチャは、薬物データセットの有意義な表現を学習し、目標指向の薬物合成のプラットフォームを提供する。

Graph neural networks (GNNs) have been used extensively for addressing problems in drug design and discovery. Both ligand and target molecules are represented as graphs with node and edge features encoding information about atomic elements and bonds respectively. Although existing deep learning models perform remarkably well at predicting physicochemical properties and binding affinities, the generation of new molecules with optimized properties remains challenging. Inherently, most GNNs perform poorly in whole-graph representation due to the limitations of the message-passing paradigm. Furthermore, step-by-step graph generation frameworks that use reinforcement learning or other sequential processing can be slow and result in a high proportion of invalid molecules with substantial post-processing needed in order to satisfy the principles of stoichiometry. To address these issues, we propose a representation-first approach to molecular graph generation. We guide the latent representation of an autoencoder by capturing graph structure information with the geometric scattering transform and apply penalties that structure the representation also by molecular properties. We show that this highly structured latent space can be directly used for molecular graph generation by the use of a GAN. We demonstrate that our architecture learns meaningful representations of drug datasets and provides a platform for goal-directed drug synthesis.
翻訳日:2021-10-15 10:20:58 公開日:2021-10-12
# (参考訳) 条件付き定常時間系列からの因果発見 [全文訳有]

Causal discovery from conditionally stationary time-series ( http://arxiv.org/abs/2110.06257v1 )

ライセンス: CC BY 4.0
Carles Balsells Rodas, Ruibo Tu, Hedvig Kjellstrom(参考訳) 因果発見(Causal discovery)、すなわち、シーンやシステムの観察から根底にある因果関係を推定することは、人間の認知に固有のメカニズムであるが、自動化は非常に困難であることが示されている。 このタスクを目指す文学におけるアプローチの大部分は、定常時系列から完全に観測された変数やデータを持つ制約付きシナリオを検討する。 本研究では,より一般的なシナリオ,時間とともに非定常的な振る舞いを伴うシーンの因果発見を目指す。 私たちの目的のために、私たちはシーンを時間をかけて相互に相互作用する合成オブジェクトと見なしています。 非定常性(non-stationarity)は、基礎となる変数、すなわちさまざまな次元の状態、あるいはシーンの観察によって隠れている状態の定常性としてモデル化される。 条件付き定常時系列データにおける因果発見のための状態依存因果推論(sdci)と呼ばれる確率論的深層学習手法を提案する。 2つの異なる合成シナリオにおいて,本手法は隠れ状態であっても高い精度で因果関係を復元できることを示す。

Causal discovery, i.e., inferring underlying cause-effect relationships from observations of a scene or system, is an inherent mechanism in human cognition, but has been shown to be highly challenging to automate. The majority of approaches in the literature aiming for this task consider constrained scenarios with fully observed variables or data from stationary time-series. In this work we aim for causal discovery in a more general class of scenarios, scenes with non-stationary behavior over time. For our purposes we here regard a scene as a composition objects interacting with each other over time. Non-stationarity is modeled as stationarity conditioned on an underlying variable, a state, which can be of varying dimension, more or less hidden given observations of the scene, and also depend more or less directly on these observations. We propose a probabilistic deep learning approach called State-Dependent Causal Inference (SDCI) for causal discovery in such conditionally stationary time-series data. Results in two different synthetic scenarios show that this method is able to recover the underlying causal dependencies with high accuracy even in cases with hidden states.
翻訳日:2021-10-15 10:08:34 公開日:2021-10-12
# (参考訳) 2次正規化MDPとロバストネスと正則化の等価性 [全文訳有]

Twice regularized MDPs and the equivalence between robustness and regularization ( http://arxiv.org/abs/2110.06267v1 )

ライセンス: CC BY 4.0
Esther Derman, Matthieu Geist, Shie Mannor(参考訳) ロバストマルコフ決定プロセス(MDPs)は、システムダイナミクスの変更や部分的に知られている処理の処理を目的としている。 それらを解決するために、一般的には堅牢な最適化手法を用いる。 しかし、これは計算の複雑さを著しく増加させ、学習と計画の両方におけるスケーラビリティを制限します。 一方、正規化されたmdpは、時間の複雑さを損なうことなく、ポリシー学習においてより安定性を示す。 しかし、一般にモデル力学における不確実性は含まない。 本研究では,正規化を用いた堅牢なMDPの学習を目指す。 まず、正規化されたMDPは、不確実な報酬を持つ堅牢なMDPの特殊な例であることを示す。 したがって、報酬を損なうMDPのポリシーイテレーションは、正規化されたMDPと同じ時間複雑性を持つ。 我々はさらにこの関係を不確定な遷移を伴うmdpにも拡張する: これは値関数にさらに依存する正規化項をもたらす。 最終的に正規化 MDP を2倍の正規化 MDP (R${}^2$ MDPs)、すなわち$\textit{both}$値を持つ MDP とポリシー正規化に一般化する。 対応するベルマン演算子は、収束性とロバスト性を保証するポリシー反復スキームの開発を可能にする。 また、堅牢なMDPの計画と学習を正規化されたMDPに還元する。

Robust Markov decision processes (MDPs) aim to handle changing or partially known system dynamics. To solve them, one typically resorts to robust optimization methods. However, this significantly increases computational complexity and limits scalability in both learning and planning. On the other hand, regularized MDPs show more stability in policy learning without impairing time complexity. Yet, they generally do not encompass uncertainty in the model dynamics. In this work, we aim to learn robust MDPs using regularization. We first show that regularized MDPs are a particular instance of robust MDPs with uncertain reward. We thus establish that policy iteration on reward-robust MDPs can have the same time complexity as on regularized MDPs. We further extend this relationship to MDPs with uncertain transitions: this leads to a regularization term with an additional dependence on the value function. We finally generalize regularized MDPs to twice regularized MDPs (R${}^2$ MDPs), i.e., MDPs with $\textit{both}$ value and policy regularization. The corresponding Bellman operators enable developing policy iteration schemes with convergence and robustness guarantees. It also reduces planning and learning in robust MDPs to regularized MDPs.
翻訳日:2021-10-15 09:53:23 公開日:2021-10-12
# (参考訳) セグメントによる実画像インバージョン [全文訳有]

Real Image Inversion via Segments ( http://arxiv.org/abs/2110.06269v1 )

ライセンス: CC BY 4.0
David Futschik, Michal Luk\'a\v{c}, Eli Shechtman, Daniel S\'ykora(参考訳) 本稿では,GAN(Generative Adversarial Network)を用いて,実画像の編集をシンプルかつ効果的に行う手法を提案する。 従来の手法とは異なり、すべての編集タスクを、我々のアプローチでは画像全体のピクセル値に影響を与える操作として扱うことで、画像を小さなセグメントに分割する。 生成ネットワークの潜在符号に対応するセグメントについては、制約の少ないため、高い精度で推定することができる。 ユーザがコードを変更すると、画像内のコンテンツはローカルに操作され、残りの部分は影響を受けない。 この特性により、最終的な編集された画像は元の構造をよりよく保持し、自然の外観を維持するのに役立つ。

In this short report, we present a simple, yet effective approach to editing real images via generative adversarial networks (GAN). Unlike previous techniques, that treat all editing tasks as an operation that affects pixel values in the entire image in our approach we cut up the image into a set of smaller segments. For those segments corresponding latent codes of a generative network can be estimated with greater accuracy due to the lower number of constraints. When codes are altered by the user the content in the image is manipulated locally while the rest of it remains unaffected. Thanks to this property the final edited image better retains the original structures and thus helps to preserve natural look.
翻訳日:2021-10-15 08:55:29 公開日:2021-10-12
# (参考訳) sm{\aa}prat:転送学習によるスウェーデン語対話の自然言語生成のためのダイアログ [全文訳有]

Sm{\aa}prat: DialoGPT for Natural Language Generation of Swedish Dialogue by Transfer Learning ( http://arxiv.org/abs/2110.06273v1 )

ライセンス: CC BY 4.0
Tosin Adewumi, Nosheen Abid, Maryam Pahlavan, Rickard Br\"annvall, Sana Sabah Sabry, Foteini Liwicki and Marcus Liwicki(参考訳) 説得力のある応答を生成するオープンドメインの会話システム(あるいはチャットボット)を構築することは、認識される課題である。 最近の自然言語対話生成のためのsota(state-of-the-ar t)トランスフォーマーモデルでは、英語で人間のような単ターン会話をシミュレートする素晴らしい性能を示している。 本研究は,実験的な研究により,そのようなモデルのスウェーデン語への転用学習の可能性について検討する。 英語の事前学習モデルであるDiloGPTは、公開されているソースから得られる3つの異なるスウェーデン語会話データセットのトレーニングによって適応される。 パープレキシティスコア(自動内在的言語モデルメトリクス)と人間評価によるサーベイは、微調整されたモデルのパフォーマンスを評価するために用いられ、トランスファー学習の能力は相当な成功で活用できることを示した。 人間の評価者は、最大(スウェーデン)データセットでトレーニングされたモデルに対して、チャットボットの反応の57%以上が人間に近いと判断されたシミュレーション対話のスコアを要求された。 私たちはHuggingFaceプラットフォーム上で、英語とスウェーデン語のチャットボットのデモとモデルチェックポイントを提供しています。

Building open-domain conversational systems (or chatbots) that produce convincing responses is a recognized challenge. Recent state-of-the-art (SoTA) transformer-based models for the generation of natural language dialogue have demonstrated impressive performance in simulating human-like, single-turn conversations in English. This work investigates, by an empirical study, the potential for transfer learning of such models to Swedish language. DialoGPT, an English language pre-trained model, is adapted by training on three different Swedish language conversational datasets obtained from publicly available sources. Perplexity score (an automated intrinsic language model metric) and surveys by human evaluation were used to assess the performances of the fine-tuned models, with results that indicate that the capacity for transfer learning can be exploited with considerable success. Human evaluators asked to score the simulated dialogue judged over 57% of the chatbot responses to be human-like for the model trained on the largest (Swedish) dataset. We provide the demos and model checkpoints of our English and Swedish chatbots on the HuggingFace platform for public use.
翻訳日:2021-10-15 08:49:11 公開日:2021-10-12
# (参考訳) LiST:Lite Self-trainingは、学習者が効果的に学習できるツール [全文訳有]

LiST: Lite Self-training Makes Efficient Few-shot Learners ( http://arxiv.org/abs/2110.06274v1 )

ライセンス: CC BY 4.0
Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) 本稿では,事前学習による大規模言語モデル(plm)の高精度な微調整を行うための新しい手法リストを提案する。 LiSTは、2つの重要な技術を用いた迅速な微調整を採用する最近の手法よりも大幅に改善されている。 ひとつは、プロンプトチューニングに大量のラベルのないデータを活用するために、セルフトレーニングを使用することで、数ショット設定でモデルパフォーマンスを大幅に向上する。 自己学習とメタラーニングを併用して,ノイズの多い疑似プロンプトラベルの重み付けを行う。 しかし、モデルパラメータを繰り返し更新する必要があるため、従来のセルフトレーニングは高価である。 そこで我々は,plmエンコーダを凍結させながら,自己学習中に微調整されるタスク固有のアダプタパラメータを少数導入する,軽量化のための第2の手法を用いる。 これはまた、推論のバックボーンとして共通のplmエンコーダを共有することができるいくつかのタスク全体のモデルフットプリントを大幅に削減する。 上記の手法を組み合わせることで、LiSTはターゲットドメインでの数ショット学習のモデル性能を向上するだけでなく、モデルメモリフットプリントを削減できる。 本稿では,6つのNLUタスクについて総合的研究を行い,LiSTの有効性を検証した。 その結果,従来の微調整法より35%,プロンプトチューニングより6%改善し,各対象領域からラベル付きサンプルが30個未満で微調整した場合,トレーニング可能なパラメータの数を96%削減した。

We present a new method LiST for efficient fine-tuning of large pre-trained language models (PLMs) in few-shot learning settings. LiST significantly improves over recent methods that adopt prompt fine-tuning using two key techniques. The first one is the use of self-training to leverage large amounts of unlabeled data for prompt-tuning to significantly boost the model performance in few-shot settings. We use self-training in conjunction with meta-learning for re-weighting noisy pseudo-prompt labels. However, traditional self-training is expensive as it requires updating all the model parameters repetitively. Therefore, we use a second technique for light-weight fine-tuning where we introduce a small number of task-specific adapter parameters that are fine-tuned during self-training while keeping the PLM encoder frozen. This also significantly reduces the overall model footprint across several tasks that can now share a common PLM encoder as backbone for inference. Combining the above techniques, LiST not only improves the model performance for few-shot learning on target domains but also reduces the model memory footprint. We present a comprehensive study on six NLU tasks to validate the effectiveness of LiST. The results show that LiST improves by 35% over classic fine-tuning methods and 6% over prompt-tuning with 96% reduction in number of trainable parameters when fine-tuned with no more than 30 labeled examples from each target domain.
翻訳日:2021-10-15 08:35:47 公開日:2021-10-12
# (参考訳) S3PRL-VC:自己教師型音声表現を用いたオープンソースの音声変換フレームワーク [全文訳有]

S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations ( http://arxiv.org/abs/2110.06280v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Shu-Wen Yang, Tomoki Hayashi, Hung-Yi Lee, Shinji Watanabe, Tomoki Toda(参考訳) 本稿では,S3PRLツールキットに基づくオープンソースの音声変換(VC)フレームワークであるS3PRL-VCを紹介する。 認識合成VCの文脈では、自己教師付き音声表現(S3R)は最先端のVCシステムで採用される高価な教師付き表現に取って代わる可能性がある。 さらに、VCはS3R分析の優れた探索タスクであると主張する。 本稿では,VCC2020における2つのタスク,すなわち,A2OVC内/言語間ノンツーワンVCのベンチマークと,A2A設定の詳細な分析を行う。 また、異なるS3Rだけでなく、VCC2020の上位システムと教師付き表現との比較も提供する。 本稿では,S3RをベースとしたA2AVCにおいて,S3Rは類似性の観点からVCC2020トップシステムと同等であり,最先端のA2AVCを実現していることを示す。 私たちは、この広範な分析とツールキット自体が、S3RコミュニティだけでなくVCコミュニティにも貢献していると信じています。 コードベースは現在オープンソース化されている。

This paper introduces S3PRL-VC, an open-source voice conversion (VC) framework based on the S3PRL toolkit. In the context of recognition-synthesi s VC, self-supervised speech representation (S3R) is valuable in its potential to replace the expensive supervised representation adopted by state-of-the-art VC systems. Moreover, we claim that VC is a good probing task for S3R analysis. In this work, we provide a series of in-depth analyses by benchmarking on the two tasks in VCC2020, namely intra-/cross-lingual any-to-one (A2O) VC, as well as an any-to-any (A2A) setting. We also provide comparisons between not only different S3Rs but also top systems in VCC2020 with supervised representations. Systematic objective and subjective evaluation were conducted, and we show that S3R is comparable with VCC2020 top systems in the A2O setting in terms of similarity, and achieves state-of-the-art in S3R-based A2A VC. We believe the extensive analysis, as well as the toolkit itself, contribute to not only the S3R community but also the VC community. The codebase is now open-sourced.
翻訳日:2021-10-15 08:15:19 公開日:2021-10-12
# (参考訳) 辺縁距離確率分布を考慮した深部推薦システムのエキスパートによるリアルタイム学習 [全文訳有]

Real-Time Learning from An Expert in Deep Recommendation Systems with Marginal Distance Probability Distribution ( http://arxiv.org/abs/2110.06287v1 )

ライセンス: CC BY 4.0
Arash Mahyari, Peter Pirolli, Jacqueline A. LeBlanc(参考訳) 今日のデジタル世界ではレコメンデーションシステムが重要な役割を果たす。 彼らは、例えばspotifyのような音楽プラットフォームや、netflixのような映画ストリーミングサービスといった様々なアプリケーションでアプリケーションを見つけました。 身体運動レコメンデーションシステムにはほとんど研究努力が注がれていない。 sedentary lifestylesは、医療費だけでなく、いくつかの病気の主要な原因となっている。 本稿では,その履歴,プロファイル,および類似ユーザに基づいて,日々の運動活動を支援するレコメンデーションシステムの開発を行う。 開発したレコメンデーションシステムは,ユーザの注目と時間的注意機構を備えたディープリカレントニューラルネットワークを用いる。 さらに,運動レコメンデーションシステムの参加者からのクリックフィードバックを収集できない点において,運動レコメンデーションシステムはストリーミングレコメンデーションシステムと大きく異なる。 そこで本研究では,リアルタイムなループ内能動的学習手法を提案する。 アクティブ学習者は、各ユーザの時間ステップ毎の推薦者の不確かさを算出し、確信度が低い場合に専門家に推薦を求める。 本稿では,限界距離の確率分布関数を導出し,それを専門家にフィードバックを求めるタイミングを決定する。 mHealthデータセットを用いた実験の結果,リアルタイム能動学習システムとレコメンデーションシステムを組み合わせた結果,精度が向上した。

Recommendation systems play an important role in today's digital world. They have found applications in various applications such as music platforms, e.g., Spotify, and movie streaming services, e.g., Netflix. Less research effort has been devoted to physical exercise recommendation systems. Sedentary lifestyles have become the major driver of several diseases as well as healthcare costs. In this paper, we develop a recommendation system for daily exercise activities to users based on their history, profile and similar users. The developed recommendation system uses a deep recurrent neural network with user-profile attention and temporal attention mechanisms. Moreover, exercise recommendation systems are significantly different from streaming recommendation systems in that we are not able to collect click feedback from the participants in exercise recommendation systems. Thus, we propose a real-time, expert-in-the-loop active learning procedure. The active learners calculate the uncertainty of the recommender at each time step for each user and ask an expert for a recommendation when the certainty is low. In this paper, we derive the probability distribution function of marginal distance, and use it to determine when to ask experts for feedback. Our experimental results on a mHealth dataset show improved accuracy after incorporating the real-time active learner with the recommendation system.
翻訳日:2021-10-15 08:04:49 公開日:2021-10-12
# (参考訳) 分散動的グラフにおけるインクリメンタルコミュニティ検出 [全文訳有]

Incremental Community Detection in Distributed Dynamic Graph ( http://arxiv.org/abs/2110.06311v1 )

ライセンス: CC BY 4.0
Tariq Abughofa, Ahmed A.Harby, Haruna Isah, Farhana Zulkernine(参考訳) コミュニティ検出は、広範囲のアプリケーションを持つグラフ分析において重要な研究トピックである。 様々な静的コミュニティ検出アルゴリズムと品質指標がここ数年の間に開発された。 しかし、ほとんどの現実世界のグラフは静的ではなく、時間とともに変化する。 ストリーミングデータの場合、関連するグラフ内のコミュニティを継続的に更新するか、あるいは新しいデータストリームがグラフに追加されるたびに更新する必要がある。 本稿では,ストリーミングデータ上で動的グラフを維持するためのインクリメンタルコミュニティ検出アルゴリズムを提案する。 この研究の貢献には (a)分散重み付きコミュニティクラスタリング(DWCC)アルゴリズムの実装 (b)新規分散重み付きコミュニティクラスタリング(IDWCC)アルゴリズムの設計と実装、及び c)idwccアルゴリズムの性能をdwccアルゴリズムと比較するための実験的検討。 ストリーミングデータの処理や大規模なインメモリ分散動的グラフ解析におけるフレームワークの機能と効率性を検証する。 その結果,IDWCCアルゴリズムはDWCCアルゴリズムよりも最大3倍高速に動作し,精度が向上した。

Community detection is an important research topic in graph analytics that has a wide range of applications. A variety of static community detection algorithms and quality metrics were developed in the past few years. However, most real-world graphs are not static and often change over time. In the case of streaming data, communities in the associated graph need to be updated either continuously or whenever new data streams are added to the graph, which poses a much greater challenge in devising good community detection algorithms for maintaining dynamic graphs over streaming data. In this paper, we propose an incremental community detection algorithm for maintaining a dynamic graph over streaming data. The contributions of this study include (a) the implementation of a Distributed Weighted Community Clustering (DWCC) algorithm, (b) the design and implementation of a novel Incremental Distributed Weighted Community Clustering (IDWCC) algorithm, and (c) an experimental study to compare the performance of our IDWCC algorithm with the DWCC algorithm. We validate the functionality and efficiency of our framework in processing streaming data and performing large in-memory distributed dynamic graph analytics. The results demonstrate that our IDWCC algorithm performs up to three times faster than the DWCC algorithm for a similar accuracy.
翻訳日:2021-10-15 07:48:59 公開日:2021-10-12
# (参考訳) ABCと同じくらい簡単: 一様性テストのための適応的バインディング共入テスト

As Easy as ABC: Adaptive Binning Coincidence Test for Uniformity Testing ( http://arxiv.org/abs/2110.06325v1 )

ライセンス: CC BY 4.0
Sudeep Salgia, Qing Zhao, Lang Tong(参考訳) 有界な支持を持つリプシッツ連続分布の一様性テストの問題を考える。 代替仮説は、一様分布から少なくとも$\varepsilon$が$\ell_1$の距離にあるリプシッツ連続分布の合成集合である。 代替仮説の下で未知の分布に適応するシーケンシャルテストを提案する。 アダプティブ・ビンニング・アソシエーション(abc)テストと呼ばれ、提案された戦略は2つの方法で適応する。 まず、一様分布への距離に基づいて、代替分布の集合を層に分割する。 その後、一様への距離を減らした層によって代替分布層を順次除去し、その後、早期に離脱することで、遠方代替の好ましい状況を利用する。 第二に、別の分布の層にまたがって、偶然の統計を計算するための離散化の解像度レベルに適応する。 層が均一から遠く離れるほど、この層を除去/排出するためには、離散化が必要とされる。 したがって、検出プロセスの早い段階でも、より低い解像度で、好適な代替分布を生かして、迅速に退避する。 abcテストは、独立した関心を持つ離散分布に対する新しい逐次一致テストに基づいている。 提案するテストのサンプルの複雑さと,より低いバウンダリを確立する。

We consider the problem of uniformity testing of Lipschitz continuous distributions with bounded support. The alternative hypothesis is a composite set of Lipschitz continuous distributions that are at least $\varepsilon$ away in $\ell_1$ distance from the uniform distribution. We propose a sequential test that adapts to the unknown distribution under the alternative hypothesis. Referred to as the Adaptive Binning Coincidence (ABC) test, the proposed strategy adapts in two ways. First, it partitions the set of alternative distributions into layers based on their distances to the uniform distribution. It then sequentially eliminates the alternative distributions layer by layer in decreasing distance to the uniform, and subsequently takes advantage of favorable situations of a distant alternative by exiting early. Second, it adapts, across layers of the alternative distributions, the resolution level of the discretization for computing the coincidence statistic. The farther away the layer is from the uniform, the coarser the discretization is needed for eliminating/exiting this layer. It thus exits both early in the detection process and quickly by using a lower resolution to take advantage of favorable alternative distributions. The ABC test builds on a novel sequential coincidence test for discrete distributions, which is of independent interest. We establish the sample complexity of the proposed tests as well as a lower bound.
翻訳日:2021-10-15 07:30:05 公開日:2021-10-12
# (参考訳) ガウスの不確かさ下における運動計画のための実測・境界衝突確率 [全文訳有]

Exact and Bounded Collision Probability for Motion Planning under Gaussian Uncertainty ( http://arxiv.org/abs/2110.06348v1 )

ライセンス: CC BY 4.0
Antony Thomas, Fulvio Mastrogiovanni, Marco Baglietto(参考訳) 衝突のない軌道の計算は安全な航法において重要である。 本稿では,ガウス分散運動下での衝突確率を計算し,ロボットとの不確かさや楕円形近似した静的障害物形状を検知する手法を提案する。 衝突条件は楕円体間の距離として定式化され、従来の手法とは異なり正確な衝突確率を計算する方法を提供する。 さらに,オンライン計画においてより高速に計算できる強固な上界を提供する。 他の最先端の方法との比較も提供される。 提案手法は,様々な構成と障害物数でシミュレーションにより評価される。

Computing collision-free trajectories is of prime importance for safe navigation. We present an approach for computing the collision probability under Gaussian distributed motion and sensing uncertainty with the robot and static obstacle shapes approximated as ellipsoids. The collision condition is formulated as the distance between ellipsoids and unlike previous approaches we provide a method for computing the exact collision probability. Furthermore, we provide a tight upper bound that can be computed much faster during online planning. Comparison to other state-of-the-art methods is also provided. The proposed method is evaluated in simulation under varying configuration and number of obstacles.
翻訳日:2021-10-15 07:28:51 公開日:2021-10-12
# (参考訳) 調査の仕方を教えてください - 自動読み取りパス生成による文献レビューのシンプル化 [全文訳有]

Tell Me How to Survey: Literature Review Made Simple with Automatic Reading Path Generation ( http://arxiv.org/abs/2110.06354v1 )

ライセンス: CC BY-SA 4.0
Jiayuan Ding, Tong Xiang, Zijing Ou, Wangyang Zuo, Ruihui Zhao, Chenghua Lin, Yefeng Zheng, Bang Liu(参考訳) 近年、特にコンピュータ科学の分野では、多くの新しい研究論文が毎日発行されている。 論文を大量の文献から読めば、簡単な調査をしたり、特定の研究トピックに関する最新の進歩に遅れないようにする方法が課題になっている。 google scholarのような既存の学術検索エンジンは、各論文とクエリの関係を個別に計算して関連論文を返す。 しかしながら、そのようなシステムは通常、研究トピックの必須鎖を省略し、意味のある読解経路を形成することはできない。 本稿では,与えられたクエリに対して読み出す論文のパスを自動的に生成することを目的とした,読み出しパス生成(rpg)という新しいタスクを提案する。 調査ベンチマークとして,計算機科学の分野における大量の調査論文と引用関係からなるデータセットであるSurveyBankを提案する。 各調査論文にはタイトルから抽出されたキーフレーズと、その参考文献から推測される多レベル読み上げリストが含まれている。 さらに,論文間の関係を考慮した読み経路生成のためのグラフ最適化手法を提案する。 広範な評価は、我々のアプローチが他のベースラインよりも優れていることを示している。 RePaGer(Real-time Reading Path Generation System)も設計したモデルで実装されている。 我々の知る限りでは、我々はこの重要な研究課題を最初に標的にしている。 RePaGerシステムとSurveyBankのデータセットのソースコードはここにある。

Recent years have witnessed the dramatic growth of paper volumes with plenty of new research papers published every day, especially in the area of computer science. How to glean papers worth reading from the massive literature to do a quick survey or keep up with the latest advancement about a specific research topic has become a challenging task. Existing academic search engines such as Google Scholar return relevant papers by individually calculating the relevance between each paper and query. However, such systems usually omit the prerequisite chains of a research topic and cannot form a meaningful reading path. In this paper, we introduce a new task named Reading Path Generation (RPG) which aims at automatically producing a path of papers to read for a given query. To serve as a research benchmark, we further propose SurveyBank, a dataset consisting of large quantities of survey papers in the field of computer science as well as their citation relationships. Each survey paper contains key phrases extracted from its title and multi-level reading lists inferred from its references. Furthermore, we propose a graph-optimization-b ased approach for reading path generation which takes the relationship between papers into account. Extensive evaluations demonstrate that our approach outperforms other baselines. A Real-time Reading Path Generation System (RePaGer) has been also implemented with our designed model. To the best of our knowledge, we are the first to target this important research problem. Our source code of RePaGer system and SurveyBank dataset can be found on here.
翻訳日:2021-10-15 07:07:42 公開日:2021-10-12
# (参考訳) 時相言語モデルのための時間マスキング [全文訳有]

Time Masking for Temporal Language Models ( http://arxiv.org/abs/2110.06366v1 )

ライセンス: CC BY 4.0
Guy D. Rosin, Ido Guy, Kira Radinsky(参考訳) 私たちの世界は常に進化し続けており、web上のコンテンツもそうである。 それゆえ、我々の言語は、しばしば世界を反映していると言われるが、自然界では動的である。 しかし、現在のコンテキスト言語モデルは静的であり、時間とともに変更に適応できない。 本研究では,テキストの追加文脈として時間を用いるテンポバーストという時間的文脈言語モデルを提案する。 本手法は,時相情報によるテキストの修正と時間マスキング(補足時間情報に対する特定のマスキング)に基づく。 我々は,意味変化の検出と文時間予測のタスクにアプローチを活用し,時間,サイズ,ジャンル,言語といったさまざまなデータセットを実験する。 広範な評価の結果,両タスクとも時間マスキングのメリットが示された。

Our world is constantly evolving, and so is the content on the web. Consequently, our languages, often said to mirror the world, are dynamic in nature. However, most current contextual language models are static and cannot adapt to changes over time. In this work, we propose a temporal contextual language model called TempoBERT, which uses time as an additional context of texts. Our technique is based on modifying texts with temporal information and performing time masking - specific masking for the supplementary time information. We leverage our approach for the tasks of semantic change detection and sentence time prediction, experimenting on diverse datasets in terms of time, size, genre, and language. Our extensive evaluation shows that both tasks benefit from exploiting time masking.
翻訳日:2021-10-15 06:46:53 公開日:2021-10-12
# (参考訳) ニューラルネットワークを用いた超音波内視鏡分類のための音声支援画像ラベリング [全文訳有]

Voice-assisted Image Labelling for Endoscopic Ultrasound Classification using Neural Networks ( http://arxiv.org/abs/2110.06367v1 )

ライセンス: CC BY 4.0
Ester Bonmati, Yipeng Hu, Alexander Grimwood, Gavin J. Johnson, George Goodchild, Margaret G. Keane, Kurinchi Gurusamy, Brian Davidson, Matthew J. Clarkson, Stephen P. Pereira, Dean C. Barratt(参考訳) 超音波イメージングは、診断および治療中の患者解剖をリアルタイムで可視化するための一般的に用いられる技術である。 高いオペレータ依存性と低い再現性は、急な学習曲線で超音波画像と解釈に挑戦する。 深層学習による自動画像分類は, 初心者の超音波訓練支援や, 複雑な病理疾患を有する患者の超音波画像解釈支援などにより, 課題を克服する可能性が示唆されている。 しかし、正確な結果を得るためには、ディープラーニング手法を使用するには大量のデータが必要である。 大規模な超音波データセットのラベル付けは、インビボで利用可能な3d空間コンテキストのない2d画像にラベルを遡及的に割り当てることや、手術中にフレーム間を視覚的に追跡しながら推測されるため、難しい課題である。 そこで本研究では,臨床医が提示した生の言語コメントから内視鏡的超音波画像(eus)をラベル付けするマルチモーダル畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。 我々は,音声データと画像データに2つの枝からなるCNNを用いて,解剖学的ランドマークの音声名から画像ラベルを予測する。 ネットワークは専門家による音声によるコメントを用いて訓練された。 その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。 音声によるコメントの追加は,超音波画像分類の性能を高め,深層学習に必要な大規模なEUSデータセットを手作業でラベル付けする作業の負担を軽減することができる。

Ultrasound imaging is a commonly used technology for visualising patient anatomy in real-time during diagnostic and therapeutic procedures. High operator dependency and low reproducibility make ultrasound imaging and interpretation challenging with a steep learning curve. Automatic image classification using deep learning has the potential to overcome some of these challenges by supporting ultrasound training in novices, as well as aiding ultrasound image interpretation in patient with complex pathology for more experienced practitioners. However, the use of deep learning methods requires a large amount of data in order to provide accurate results. Labelling large ultrasound datasets is a challenging task because labels are retrospectively assigned to 2D images without the 3D spatial context available in vivo or that would be inferred while visually tracking structures between frames during the procedure. In this work, we propose a multi-modal convolutional neural network (CNN) architecture that labels endoscopic ultrasound (EUS) images from raw verbal comments provided by a clinician during the procedure. We use a CNN composed of two branches, one for voice data and another for image data, which are joined to predict image labels from the spoken names of anatomical landmarks. The network was trained using recorded verbal comments from expert operators. Our results show a prediction accuracy of 76% at image level on a dataset with 5 different labels. We conclude that the addition of spoken commentaries can increase the performance of ultrasound image classification, and eliminate the burden of manually labelling large EUS datasets necessary for deep learning applications.
翻訳日:2021-10-15 06:29:40 公開日:2021-10-12
# (参考訳) 1kオフザシェルフカードによるレベル4自動運転の実現 [全文訳有]

Enabling Level-4 Autonomous Driving on a Single $1k Off-the-Shelf Card ( http://arxiv.org/abs/2110.06373v1 )

ライセンス: CC BY 4.0
Hsin-Hsuan Sung, Yuanchao Xu, Jiexiong Guan, Wei Niu, Shaoshan Liu, Bin Ren, Yanzhi Wang, Xipeng Shen(参考訳) 自動運転は研究と産業の両方に大きな関心を持っている。 高いコストは、実際に自動運転の開発と導入を遅らせる主要な障害の1つです。 本論文は,1k未満でレベル4(すなわち完全自律運転)のソフトウェアを1枚のオフ・ザ・シェルフ・カード(jetson agx xavier)上で1k未満で実行することが可能であることを示す。 この成功は、一連の措置と革新を通じて、既存のプラクティスによって共有される重要な問題の解決から来ています。 この研究は、レベル4自動運転に必要なコンピューティングリソースの一般的な認識を覆し、業界がコストを下げる有望な経路を指摘し、アーキテクチャ、ソフトウェア設計、自動運転の最適化を再考する多くの研究機会を示唆している。

Autonomous driving is of great interest in both research and industry. The high cost has been one of the major roadblocks that slow down the development and adoption of autonomous driving in practice. This paper, for the first-time, shows that it is possible to run level-4 (i.e., fully autonomous driving) software on a single off-the-shelf card (Jetson AGX Xavier) for less than $1k, an order of magnitude less than the state-of-the-art systems, while meeting all the requirements of latency. The success comes from the resolution of some important issues shared by existing practices through a series of measures and innovations. The study overturns the common perceptions of the computing resources required by level-4 autonomous driving, points out a promising path for the industry to lower the cost, and suggests a number of research opportunities for rethinking the architecture, software design, and optimizations of autonomous driving.
翻訳日:2021-10-15 06:14:27 公開日:2021-10-12
# (参考訳) 複合型・非結合型動的モード分解と疫学的・付加的製造問題への応用 [全文訳有]

Coupled and Uncoupled Dynamic Mode Decomposition in Multi-Compartmental Systems with Applications to Epidemiological and Additive Manufacturing Problems ( http://arxiv.org/abs/2110.06375v1 )

ライセンス: CC0 1.0
Alex Viguerie, Gabriel F. Barros, Mal\'u Grave, Alessandro Reali, Alvaro L.G.A. Coutinho(参考訳) 動的モード分解(Dynamic Mode Decomposition、DMD)は、方程式のない構造、データのコヒーレントな時空間構造を容易に識別する能力、特定の問題に対して合理的に正確な予測を提供することにより、近年注目されている教師なし機械学習手法である。 これらの成功にもかかわらず、高非線形過渡ダイナミクスを特徴とする特定の問題へのMDDの適用は依然として困難である。 そのような場合、dmdは許容できる予測を提供しないだけでなく、実際に訓練されたデータの再作成に失敗し、診断目的への応用を制限する可能性がある。 生物学や物理科学における多くの問題に対して、系の構造は、系内の質量の移動が状態内を移動する区画的枠組みに従う。 このような場合、システム内の1つの量にMDDを適用することでシステムの振る舞いを正確に再現することはできないが、システムダイナミクスの適切な知識は、単一のコンパートメントであっても、他のコンパートメントの挙動を考慮に入れなければならない。 本研究では, コンパートメント構造を持つ完全結合型pdeシステム上でdmdを行う場合, dmdがコンパートメント単位で振る舞う場合においても, 有用な予測挙動を回復できることを理論的および数値的に示す。 また,保存量として重要な物理量が結合DMD外挿で維持されていることも確認した。 数学的および数値解析の結果、dmdはこの共通問題に適用すると強力なツールになる可能性が示唆された。 特に,Covid-19の連続遅延SIRDモデルへの興味深い数値的応用と,非線型温度場を考慮した添加性製造の問題,粉末,液体,固体状態からの物質相の変化について述べる。

Dynamic Mode Decomposition (DMD) is an unsupervised machine learning method that has attracted considerable attention in recent years owing to its equation-free structure, ability to easily identify coherent spatio-temporal structures in data, and effectiveness in providing reasonably accurate predictions for certain problems. Despite these successes, the application of DMD to certain problems featuring highly nonlinear transient dynamics remains challenging. In such cases, DMD may not only fail to provide acceptable predictions but may indeed fail to recreate the data in which it was trained, restricting its application to diagnostic purposes. For many problems in the biological and physical sciences, the structure of the system obeys a compartmental framework, in which the transfer of mass within the system moves within states. In these cases, the behavior of the system may not be accurately recreated by applying DMD to a single quantity within the system, as proper knowledge of the system dynamics, even for a single compartment, requires that the behavior of other compartments is taken into account in the DMD process. In this work, we demonstrate, theoretically and numerically, that, when performing DMD on a fully coupled PDE system with compartmental structure, one may recover useful predictive behavior, even when DMD performs poorly when acting compartment-wise. We also establish that important physical quantities, as mass conservation, are maintained in the coupled-DMD extrapolation. The mathematical and numerical analysis suggests that DMD may be a powerful tool when applied to this common class of problems. In particular, we show interesting numerical applications to a continuous delayed-SIRD model for Covid-19, and to a problem from additive manufacturing considering a nonlinear temperature field and the resulting change of material phase from powder, liquid, and solid states.
翻訳日:2021-10-15 05:50:34 公開日:2021-10-12
# (参考訳) エネルギーに基づく決定論的不確かさに対するメタラーニング低ランク共分散因子 [全文訳有]

Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic Uncertainty ( http://arxiv.org/abs/2110.06381v1 )

ライセンス: CC BY 4.0
Jeffrey Ryan Willette, Hae Beom Lee, Juho Lee, Sung Ju Hwang(参考訳) 最近の多くの研究は、ニューラルネットワーク層のバイリプシッツ正規化を利用して、各層の特徴空間におけるデータインスタンス間の相対距離を保存する。 この距離感度は、不確実性キャリブレーションやout-of-distribution (ood) 検出などのタスクにおけるデータ支援に役立つ。 従来の研究では, 距離感度モデルを用いて抽出した特徴を用いて, 決定論的不確実性推定やOOD検出に使用される特徴共分散行列を構築した。 しかしながら、タスクが分散している場合、これらのメソッドはタスク間で共有できる全てのメタ情報を活用できないため、サブ最適である共分散をもたらす。 注意セットエンコーダを用いて, 対角的あるいは対角的および低ランクな因子をメタ学習し, タスク固有共分散行列を効率的に構築することを提案する。 さらに,oodデータの分離が容易な最終予測分布を実現するために,スケールド・エネルギを用いた推定手法を提案する。

Numerous recent works utilize bi-Lipschitz regularization of neural network layers to preserve relative distances between data instances in the feature spaces of each layer. This distance sensitivity with respect to the data aids in tasks such as uncertainty calibration and out-of-distribution (OOD) detection. In previous works, features extracted with a distance sensitive model are used to construct feature covariance matrices which are used in deterministic uncertainty estimation or OOD detection. However, in cases where there is a distribution over tasks, these methods result in covariances which are sub-optimal, as they may not leverage all of the meta information which can be shared among tasks. With the use of an attentive set encoder, we propose to meta learn either diagonal or diagonal plus low-rank factors to efficiently construct task specific covariance matrices. Additionally, we propose an inference procedure which utilizes scaled energy to achieve a final predictive distribution which can better separate OOD data, and is well calibrated under a distributional dataset shift.
翻訳日:2021-10-15 05:30:06 公開日:2021-10-12
# (参考訳) 時系列データによるリアルタイムドリフト検出 [全文訳有]

Real-time Drift Detection on Time-series Data ( http://arxiv.org/abs/2110.06383v1 )

ライセンス: CC BY 4.0
Nandini Ramanan, Rasool Tahmasbi, Marjorie Sayer, Deokwoo Jung, Shalini Hemachandran, Claudionor Nunes Coelho Jr(参考訳) ファイヤーウォールログ分析のような、異常な振る舞いを積極的に検出する時系列データを含む実用的な機械学習アプリケーションは、ストリーミングデータのリアルタイム分析に関係している。 したがって、このようなデータの統計的特性が時間とともに頻繁に変化する可能性があるため、MLモデルを更新する必要がある。 文献で検討された1つの代替案は、モデルの精度が低下するたびに更新されたデータでモデルを再訓練することである。 しかし、これらの手法は、ほぼリアルタイムに真実の真理が得られ、実現されることはほとんどない。 さらに、季節データを用いたアプリケーションでは、季節変動によって時間概念ドリフトが組み合わされる。 本研究では,非教師付き時間ドリフト検出器 (unsupervised Temporal Drift Detector, UTDD) と呼ばれる手法を提案する。

Practical machine learning applications involving time series data, such as firewall log analysis to proactively detect anomalous behavior, are concerned with real time analysis of streaming data. Consequently, we need to update the ML models as the statistical characteristics of such data may shift frequently with time. One alternative explored in the literature is to retrain models with updated data whenever the models accuracy is observed to degrade. However, these methods rely on near real time availability of ground truth, which is rarely fulfilled. Further, in applications with seasonal data, temporal concept drift is confounded by seasonal variation. In this work, we propose an approach called Unsupervised Temporal Drift Detector or UTDD to flexibly account for seasonal variation, efficiently detect temporal concept drift in time series data in the absence of ground truth, and subsequently adapt our ML models to concept drift for better generalization.
翻訳日:2021-10-15 05:08:50 公開日:2021-10-12
# (参考訳) AutoNLU: NLUモデルエラーの検出、ルートキャスティング、修正 [全文訳有]

AutoNLU: Detecting, root-causing, and fixing NLU model errors ( http://arxiv.org/abs/2110.06384v1 )

ライセンス: CC BY 4.0
Pooja Sethi, Denis Savenkov, Forough Arabshahi, Jack Goetz, Micaela Tolliver, Nicolas Scheffer, Ilknur Kabul, Yue Liu, Ahmed Aly(参考訳) 自然言語理解(NLU)モデルの品質、より具体的には、本番環境でのタスク指向のセマンティックパーシングモデルの改善は、面倒な作業です。 本研究では,NLUの品質改善プロセスのスケールアップを目的としたAutoNLUシステムを提案する。 検出、帰属、モデルエラーの修正、すなわちバグの3つの重要なステップに自動化を追加する。 ランダムサンプリングよりも4倍のタスクが検出された結果,非校正モデル上での単純な能動的学習サンプリング手法でさえ,驚くほど効果的であることが判明した。 AutoNLUツールにより、言語学者は、以前の手作業のプロセスよりも10倍のセマンティック解析バグを修正でき、すべての特定バグの65%を自動修正できる。

Improving the quality of Natural Language Understanding (NLU) models, and more specifically, task-oriented semantic parsing models, in production is a cumbersome task. In this work, we present a system called AutoNLU, which we designed to scale the NLU quality improvement process. It adds automation to three key steps: detection, attribution, and correction of model errors, i.e., bugs. We detected four times more failed tasks than with random sampling, finding that even a simple active learning sampling method on an uncalibrated model is surprisingly effective for this purpose. The AutoNLU tool empowered linguists to fix ten times more semantic parsing bugs than with prior manual processes, auto-correcting 65% of all identified bugs.
翻訳日:2021-10-15 05:03:21 公開日:2021-10-12
# (参考訳) ボトムアップ合成計画と合成可能な分子設計のための償却木生成 [全文訳有]

Amortized Tree Generation for Bottom-up Synthesis Planning and Synthesizable Molecular Design ( http://arxiv.org/abs/2110.06389v1 )

ライセンス: CC BY 4.0
Wenhao Gao, Roc\'io Mercado and Connor W. Coley(参考訳) 分子設計と合成計画は、条件付き合成経路生成の単一の共有タスクとして定式化する分子発見のプロセスにおいて2つの重要なステップである。 ターゲット分子の埋め込みを条件としたマルコフ決定過程として合成経路を生成するための償却アプローチを報告する。 提案手法により,最適化された条件付き符号から復号化することで,ボトムアップ方式で合成計画を実行し,合成可能な分子を設計することができる。 この手法はニューラルネットワークを利用して合成木を確率論的にモデル化し、反応テンプレートの離散的なアクション空間に符号化された反応規則に従って1回に1回反応する。 私たちはこれらのネットワークを、購入可能な化合物のプールと専門家によるテンプレートのリストから生成された数十万の人工経路でトレーニングします。 私たちは手法を検証します (a)条件付き生成による分子の回復 b) 合成可能な構造的類似物の同定及び c) 薬物発見に関連するオラクルの機能を与えられた分子構造の最適化。

Molecular design and synthesis planning are two critical steps in the process of molecular discovery that we propose to formulate as a single shared task of conditional synthetic pathway generation. We report an amortized approach to generate synthetic pathways as a Markov decision process conditioned on a target molecular embedding. This approach allows us to conduct synthesis planning in a bottom-up manner and design synthesizable molecules by decoding from optimized conditional codes, demonstrating the potential to solve both problems of design and synthesis simultaneously. The approach leverages neural networks to probabilistically model the synthetic trees, one reaction step at a time, according to reactivity rules encoded in a discrete action space of reaction templates. We train these networks on hundreds of thousands of artificial pathways generated from a pool of purchasable compounds and a list of expert-curated templates. We validate our method with (a) the recovery of molecules using conditional generation, (b) the identification of synthesizable structural analogs, and (c) the optimization of molecular structures given oracle functions relevant to drug discovery.
翻訳日:2021-10-15 04:44:36 公開日:2021-10-12
# (参考訳) GridLearn:グリッド対応建築エネルギー管理のためのマルチエージェント強化学習 [全文訳有]

GridLearn: Multiagent Reinforcement Learning for Grid-Aware Building Energy Management ( http://arxiv.org/abs/2110.06396v1 )

ライセンス: CC BY 4.0
Aisling Pigott, Constance Crozier, Kyri Baker, Zoltan Nagy(参考訳) 分散ネットワークにおける分散生成の増大は、ネットワーク全体にわたる電圧規制の課題と機会を提供する。 スマートインバータやその他のスマートビルディングエネルギ管理システムのインテリジェントな制御は、これらの問題を緩和するために活用できる。 gridlearnは、エネルギーモデルの構築とグリッドレベルの目標を達成するために電力フローモデルの両方を組み込んだマルチエージェント強化学習プラットフォームである。 本研究では,マルチエージェント強化学習が,グリッドレベルの目標を追求しながら,建築所有者のプライバシーと快適性を維持する方法を示す。 ビルレベルの目標のためにRLを検討するCityLearnフレームワークに基づいて、この作業は、グリッドレベルの目標が考慮されるネットワーク設定までフレームワークを拡張します。 本研究では,制御可能なビル負荷,エネルギー貯蔵,スマートインバータを用いたIEEE-33バスネットワークの電圧制御について考察する。 その結果、RLエージェントは名目上、過電圧のインスタンスを34%減らし、過電圧のインスタンスを34%減らした。

Increasing amounts of distributed generation in distribution networks can provide both challenges and opportunities for voltage regulation across the network. Intelligent control of smart inverters and other smart building energy management systems can be leveraged to alleviate these issues. GridLearn is a multiagent reinforcement learning platform that incorporates both building energy models and power flow models to achieve grid level goals, by controlling behind-the-meter resources. This study demonstrates how multi-agent reinforcement learning can preserve building owner privacy and comfort while pursuing grid-level objectives. Building upon the CityLearn framework which considers RL for building-level goals, this work expands the framework to a network setting where grid-level goals are additionally considered. As a case study, we consider voltage regulation on the IEEE-33 bus network using controllable building loads, energy storage, and smart inverters. The results show that the RL agents nominally reduce instances of undervoltages and reduce instances of overvoltages by 34%.
翻訳日:2021-10-15 04:24:13 公開日:2021-10-12
# (参考訳) COVID-19アナリティクスのオントロジーとツールサポートの概要 [全文訳有]

An Overview of Ontologies and Tool Support for COVID-19 Analytics ( http://arxiv.org/abs/2110.06397v1 )

ライセンス: CC BY 4.0
Aakash Ahmad, Madhushi Bandara, Mahdi Fahmideh, Henderik A. Proper, Giancarlo Guizzardi, Jeffrey Soar(参考訳) 新型コロナウイルス感染症(COVID-19)のSARS-CoV-2流行は、既存の医療、経済、社会緊急バックエンドシステムにデータ分析機能を持たせることを要求する。 これらのシステムでデータ分析の利点を利用する上で障害となるのは、統一されたフレームワークや参照モデルがないことだ。 オントロジーは、症状、感染率、接触追跡、薬物モデリングといった新型コロナウイルスの概念を形式的に表現することで、このギャップを埋める有望な解決策として強調されている。 オントロジーベースのソリューションにより、パンデミックデータの理解を深める多様なデータソースの統合、パンデミックホットスポットを特定するスマートロックダウンの管理、知識駆動推論、推論、周辺問題に取り組むための推奨などが可能になる。

The outbreak of the SARS-CoV-2 pandemic of the new COVID-19 disease (COVID-19 for short) demands empowering existing medical, economic, and social emergency backend systems with data analytics capabilities. An impediment in taking advantages of data analytics in these systems is the lack of a unified framework or reference model. Ontologies are highlighted as a promising solution to bridge this gap by providing a formal representation of COVID-19 concepts such as symptoms, infections rate, contact tracing, and drug modelling. Ontology-based solutions enable the integration of diverse data sources that leads to a better understanding of pandemic data, management of smart lockdowns by identifying pandemic hotspots, and knowledge-driven inference, reasoning, and recommendations to tackle surrounding issues.
翻訳日:2021-10-15 04:10:59 公開日:2021-10-12
# (参考訳) CovXR: 機械学習による胸部X線におけるCOVID-19肺炎の自動検出 [全文訳有]

CovXR: Automated Detection of COVID-19 Pneumonia in Chest X-Rays through Machine Learning ( http://arxiv.org/abs/2110.06398v1 )

ライセンス: CC BY 4.0
Vishal Shenoy, Sachin B. Malik(参考訳) コロナウイルス病2019(COVID-19)は、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)による伝染性疾患である。 新型コロナウイルスの標準的な診断方法として、リアルタイムポリメラーゼ連鎖反応(PCR)を用いてSARS-CoV-2核酸の鼻咽頭スワブを検査し、診断に数日を要する。 もう一つの検査形態は迅速抗原検査であり、PCRに比べて感度が低いが、診断時間は通常15分から30分である。 新型コロナウイルス(COVID-19)陽性の患者は87%の患者でびまん性肺胞損傷を示した。 機械学習は放射線学における画像分類問題に利点があることが証明されている。 本研究では,covxrを胸部x線(cxr)におけるcovxr肺炎の検出を目的とした機械学習モデルとして紹介する。 CovXRは4,300個の胸部X線で訓練された畳み込みニューラルネットワーク(CNN)である。 モデルの性能は、精度、F1スコア、感度、特異性によって測定される。 このモデルは95.5%の精度でF1スコアは0.954である。 感度は93.5%、特異性は97.5%である。 95%以上の精度と0.95以上のF1スコアを持つCovXRは、CXR上でのCOVID-19肺炎の予測に非常に正確である。 このモデルは以前の作業よりも精度が高く、独自のアプローチで新型コロナウイルスの肺炎を識別する。 CovXRはPCR陽性と診断された患者のCXR上での新型コロナウイルスの同定に極めて正確であり、PCR検査よりはるかに速い結果をもたらす。

Coronavirus disease 2019 (COVID-19) is the highly contagious illness caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). The standard diagnostic testing procedure for COVID-19 is testing a nasopharyngeal swab for SARS-CoV-2 nucleic acid using a real-time polymerase chain reaction (PCR), which can take multiple days to provide a diagnosis. Another widespread form of testing is rapid antigen testing, which has a low sensitivity compared to PCR, but is favored for its quick diagnosis time of usually 15-30 minutes. Patients who test positive for COVID-19 demonstrate diffuse alveolar damage in 87% of cases. Machine learning has proven to have advantages in image classification problems with radiology. In this work, we introduce CovXR as a machine learning model designed to detect COVID-19 pneumonia in chest X-rays (CXR). CovXR is a convolutional neural network (CNN) trained on over 4,300 chest X-rays. The performance of the model is measured through accuracy, F1 score, sensitivity, and specificity. The model achieves an accuracy of 95.5% and an F1 score of 0.954. The sensitivity is 93.5% and specificity is 97.5%. With accuracy above 95% and F1 score above 0.95, CovXR is highly accurate in predicting COVID-19 pneumonia on CXRs. The model achieves better accuracy than prior work and uses a unique approach to identify COVID-19 pneumonia. CovXR is highly accurate in identifying COVID-19 on CXRs of patients with a PCR confirmed positive diagnosis and provides much faster results than PCR tests.
翻訳日:2021-10-15 03:57:17 公開日:2021-10-12
# (参考訳) 神経インタプリタによる動的推論 [全文訳有]

Dynamic Inference with Neural Interpreters ( http://arxiv.org/abs/2110.06399v1 )

ライセンス: CC BY 4.0
Nasim Rahaman, Muhammad Waleed Gondal, Shruti Joshi, Peter Gehler, Yoshua Bengio, Francesco Locatello, Bernhard Sch\"olkopf(参考訳) 現代のニューラルネットワークアーキテクチャは、トレーニング分布内でうまく一般化するために大量のデータを活用することができる。 しかし、それらは、知識の構成的推論と再利用を必要とすると仮定される、見当たらないが関連する分布から引き出されたデータに対する体系的な一般化にはほど遠い。 本稿では,モジュールのシステムとして自己アテンションネットワーク内の推論を分解するアーキテクチャであるNeural Interpretersを紹介し,これを「emph{functions}」と呼ぶ。 モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。 提案アーキテクチャは、幅と深さに沿って柔軟に計算を構成でき、訓練後の容量拡張に適している。 ニューラルインタプリタの汎用性を示すために,画像分類とラヴェンプログレッシブ行列の視覚的抽象推論という2つの異なる設定で評価する。 前者では、ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。 後者では、神経インタプリタが体系的一般化の観点から最先端技術に関して競争力があることが分かる。

Modern neural network architectures can leverage large amounts of data to generalize well within the training distribution. However, they are less capable of systematic generalization to data drawn from unseen but related distributions, a feat that is hypothesized to require compositional reasoning and reuse of knowledge. In this work, we present Neural Interpreters, an architecture that factorizes inference in a self-attention network as a system of modules, which we call \emph{functions}. Inputs to the model are routed through a sequence of functions in a way that is end-to-end learned. The proposed architecture can flexibly compose computation along width and depth, and lends itself well to capacity extension after training. To demonstrate the versatility of Neural Interpreters, we evaluate it in two distinct settings: image classification and visual abstract reasoning on Raven Progressive Matrices. In the former, we show that Neural Interpreters perform on par with the vision transformer using fewer parameters, while being transferrable to a new task in a sample efficient manner. In the latter, we find that Neural Interpreters are competitive with respect to the state-of-the-art in terms of systematic generalization
翻訳日:2021-10-15 03:48:43 公開日:2021-10-12
# ワッサーシュタイン距離を用いたタンジェント空間と次元推定

Tangent Space and Dimension Estimation with the Wasserstein Distance ( http://arxiv.org/abs/2110.06357v1 )

ライセンス: Link先を確認
Uzu Lim, Vidit Nanda, Harald Oberhauser(参考訳) 局所主成分分析により(滑らかでコンパクトな)ユークリッド部分多様体の接空間と内在次元を推定するのに必要なサンプル点の数に明示的な境界を与える。 本手法は局所的に共分散行列を推定し, 接空間と多様体の固有次元の両方を同時に推定する。 鍵となる議論は、行列濃度の不等式、多様体を平坦化するためのワッサーシュタイン境界、およびワッサーシュタイン距離に関する共分散行列に対するリプシッツ関係を含む。

We provide explicit bounds on the number of sample points required to estimate tangent spaces and intrinsic dimensions of (smooth, compact) Euclidean submanifolds via local principal component analysis. Our approach directly estimates covariance matrices locally, which simultaneously allows estimating both the tangent spaces and the intrinsic dimension of a manifold. The key arguments involve a matrix concentration inequality, a Wasserstein bound for flattening a manifold, and a Lipschitz relation for the covariance matrix with respect to the Wasserstein distance.
翻訳日:2021-10-14 15:48:33 公開日:2021-10-12
# 辞書学習とグラフに基づく補間による水流ネットワークにおけるデータ駆動型漏洩位置推定

Data-driven Leak Localization in Water Distribution Networks via Dictionary Learning and Graph-based Interpolation ( http://arxiv.org/abs/2110.06372v1 )

ライセンス: Link先を確認
Paul Irofti and Luis Romero-Ben and Florin Stoican and Vicen\c{c} Puig(参考訳) 本稿では,グラフに基づく補間と辞書分類の2つの補完的アプローチを組み合わせた水流ネットワーク(wdns)のためのデータ駆動型漏洩局所化手法を提案する。 前者は、あるノードとネットワークグラフにおける実測値から完全なWDN油圧状態(すなわち油圧ヘッド)を推定する。 次に、これらの実測値は、価値ある推定状態のサブセットとともに、辞書学習スキームの供給と訓練に使用される。 したがって、これらの2つの手法のメッシュ化は、その性能がどちらのアプローチよりも優れていることを示し、古典的な問題(例えば、次元性、補間誤差など)に対するレジリエンスを高めるための異なるメカニズムを導出した。 この手法は、BattLeDIM2020で提案されたL-TOWNベンチマークを用いて検証されている。

In this paper, we propose a data-driven leak localization method for water distribution networks (WDNs) which combines two complementary approaches: graph-based interpolation and dictionary classification. The former estimates the complete WDN hydraulic state (i.e., hydraulic heads) from real measurements at certain nodes and the network graph. Then, these actual measurements, together with a subset of valuable estimated states, are used to feed and train the dictionary learning scheme. Thus, the meshing of these two methods is explored, showing that its performance is superior to either approach alone, even deriving different mechanisms to increase its resilience to classical problems (e.g., dimensionality, interpolation errors, etc.). The approach is validated using the L-TOWN benchmark proposed at BattLeDIM2020.
翻訳日:2021-10-14 15:48:23 公開日:2021-10-12
# グラフネットワークを用いた量子ハミルトンの基底状態の学習

Learning ground states of quantum Hamiltonians with graph networks ( http://arxiv.org/abs/2110.06390v1 )

ライセンス: Link先を確認
Dmitrii Kochkov and Tobias Pfaff and Alvaro Sanchez-Gonzalez and Peter Battaglia and Bryan K. Clark(参考訳) 多体シュロディンガー方程式の最低エネルギー固有状態を解くことは、様々な量子現象の理解を妨げる基礎的な問題である。 この難しさは、支配方程式を指数関数的に大きく構成された行列の固有値問題としてキャストするヒルベルト空間の指数的性質から生じる。 変分法は、低次元変分多様体内の最良近似を探すことによってこの問題にアプローチする。 この研究では、グラフニューラルネットワークを用いて構造化変分多様体を定義し、そのパラメータを最適化し、ハイゼンベルクハミルトニアンの多様な集合上の最低エネルギー解の高品質な近似を求める。 グラフネットワークを用いて、構成によって問題の物理対称性を尊重し、より大きなサイズの問題に一般化する分散表現を学習する。 提案手法は、量子多体ベンチマークの一連の問題に対して最先端の結果を達成し、正定値でない問題にうまく取り組む。 議論された手法は、量子多体システムの研究に有用なツールであり、指数関数サイズのオブジェクトの最適化と暗黙的なモデリングに関する洞察を提供する。

Solving for the lowest energy eigenstate of the many-body Schrodinger equation is a cornerstone problem that hinders understanding of a variety of quantum phenomena. The difficulty arises from the exponential nature of the Hilbert space which casts the governing equations as an eigenvalue problem of exponentially large, structured matrices. Variational methods approach this problem by searching for the best approximation within a lower-dimensional variational manifold. In this work we use graph neural networks to define a structured variational manifold and optimize its parameters to find high quality approximations of the lowest energy solutions on a diverse set of Heisenberg Hamiltonians. Using graph networks we learn distributed representations that by construction respect underlying physical symmetries of the problem and generalize to problems of larger size. Our approach achieves state-of-the-art results on a set of quantum many-body benchmark problems and works well on problems whose solutions are not positive-definite. The discussed techniques hold promise of being a useful tool for studying quantum many-body systems and providing insights into optimization and implicit modeling of exponentially-sized objects.
翻訳日:2021-10-14 15:48:08 公開日:2021-10-12
# すべてのノイズが等しく説明されるわけではない: 大きなサンプリングレートによる個人学習のメリット

Not all noise is accounted equally: How differentially private learning benefits from large sampling rates ( http://arxiv.org/abs/2110.06255v1 )

ライセンス: Link先を確認
Friedrich D\"ormann, Osvald Frisk, Lars N{\o}rvang Andersen, Christian Fischer Pedersen(参考訳) 学習はしばしば機密データを伴うため、SGD(Stochastic Gradient Descent)や他の機械学習アルゴリズムに対するプライバシー保護拡張は、差分プライバシー(DP)の定義を用いて開発されている。 差分的にプライベートなSGDでは、各トレーニングイテレーションで計算された勾配は2種類のノイズを受ける。 第一に、ミニバッチの使用による固有のサンプリングノイズ。 第二に、プライバシーを導入するメカニズムの付加的なガウスノイズ。 本研究では、これらの2種類のノイズが、プライベートニューラルネットワークの有用性に等価であることを示すが、プライバシ予算において等しく考慮されていない。 本研究は, プライバシー予算において, ノイズの比率をより小さく, 付加的な雑音にシフトさせる訓練パラダイムを提案する。 このパラダイムにより、プライベートなエンドツーエンドCNNのプライバシ/ユーティリティトレードオフにおける最先端の改善が可能になります。

Learning often involves sensitive data and as such, privacy preserving extensions to Stochastic Gradient Descent (SGD) and other machine learning algorithms have been developed using the definitions of Differential Privacy (DP). In differentially private SGD, the gradients computed at each training iteration are subject to two different types of noise. Firstly, inherent sampling noise arising from the use of minibatches. Secondly, additive Gaussian noise from the underlying mechanisms that introduce privacy. In this study, we show that these two types of noise are equivalent in their effect on the utility of private neural networks, however they are not accounted for equally in the privacy budget. Given this observation, we propose a training paradigm that shifts the proportions of noise towards less inherent and more additive noise, such that more of the overall noise can be accounted for in the privacy budget. With this paradigm, we are able to improve on the state-of-the-art in the privacy/utility tradeoff of private end-to-end CNNs.
翻訳日:2021-10-14 15:39:57 公開日:2021-10-12
# ノイズラベルを検知する良い表現法

A Good Representation Detects Noisy Labels ( http://arxiv.org/abs/2110.06283v1 )

ライセンス: Link先を確認
Zhaowei Zhu, Zihao Dong, Hao Cheng, Yang Liu(参考訳) ラベルノイズは、誤った相関パターンを符号化し、ディープニューラルネットワーク(dnn)の一般化を損なう現実世界のデータセットに広まります。 腐敗したパターンを検出する効率的な方法を見つけることが重要です。 現在の手法は主に、DNNが破損したパターンを記憶しないよう、堅牢なトレーニング技術を設計することに焦点を当てている。 このアプローチには2つの特筆すべき点がある。 1) 各データセットにこのアプローチを適用するには、しばしばカスタマイズされたトレーニングプロセスが必要です。 2) モデルがノイズの多い監視の下でトレーニングされている限り,破損したパターンへの過剰適合を避けることがしばしば困難であり,検出性能が低下する。 本稿では,良質な表現を前提として,ノイズのあるラベルを検知する汎用かつトレーニング不要なソリューションを提案する。 直感的には、優れた表現は各トレーニングインスタンスの‘neighbors’を定義するのに役立つ。 まず,近傍情報に基づいて,近傍表現のノイズラベルのコンセンサスをチェックすることで,``ローカル投票' を用いる方法を提案する。 もうひとつは、各インスタンスをスコア付けして、腐敗する可能性のあるインスタンス数をフィルタする、ランキングベースのアプローチだ。 実際に利用できる良い(しかしおそらく不完全な)表現が与えられた場合、局所投票がどのように影響するかを理論的に分析し、近隣の規模を調整するためのガイドラインを提供する。 また、ランキングベース手法の最悪のエラーも証明する。 合成および実世界のラベルノイズを用いた実験は、トレーニングフリーなソリューションが、トレーニングベースのベースラインの大部分に対して一貫して、大幅に改善されていることを示している。 コードはgithub.com/UCSC-REAL /SimiRepで入手できる。

Label noise is pervasive in real-world datasets, which encodes wrong correlation patterns and impairs the generalization of deep neural networks (DNNs). It is critical to find efficient ways to detect the corrupted patterns. Current methods primarily focus on designing robust training techniques to prevent DNNs from memorizing corrupted patterns. This approach has two outstanding caveats: 1) applying this approach to each individual dataset would often require customized training processes; 2) as long as the model is trained with noisy supervisions, overfitting to corrupted patterns is often hard to avoid, leading to performance drop in detection. In this paper, given good representations, we propose a universally applicable and training-free solution to detect noisy labels. Intuitively, good representations help define ``neighbors'' of each training instance, and closer instances are more likely to share the same clean label. Based on the neighborhood information, we propose two methods: the first one uses ``local voting" via checking the noisy label consensuses of nearby representations. The second one is a ranking-based approach that scores each instance and filters out a guaranteed number of instances that are likely to be corrupted, again using only representations. Given good (but possibly imperfect) representations that are commonly available in practice, we theoretically analyze how they affect the local voting and provide guidelines for tuning neighborhood size. We also prove the worst-case error bound for the ranking-based method. Experiments with both synthetic and real-world label noise demonstrate our training-free solutions are consistently and significantly improving over most of the training-based baselines. Code is available at github.com/UCSC-REAL /SimiRep.
翻訳日:2021-10-14 15:27:23 公開日:2021-10-12
# 自己センブル自己蒸留によるグラフニューラルネットワークのスケーラブルな一貫性トレーニング

Scalable Consistency Training for Graph Neural Networks via Self-Ensemble Self-Distillation ( http://arxiv.org/abs/2110.06290v1 )

ライセンス: Link先を確認
Cole Hawkins, Vassilis N. Ioannidis, Soji Adeshina, George Karypis(参考訳) 一貫性トレーニングは、コンピュータビジョンと自然言語処理におけるディープラーニングモデルを改善する一般的な方法である。 グラフニューラルネットワーク(gnns)は,様々なネットワーク科学学習タスクにおいて顕著な性能を発揮するが,大規模グラフ問題に対する一貫性トレーニングの効果は,これまで研究されていない。 GNNは、高次ノードを扱うために、ミニバッチトレーニングとサブサンプルノード隣人によって大きなグラフにスケールする。 本稿では,隣人のサブサンプリングに内在するランダム性を利用し,精度を向上させるための新しい一貫性トレーニング手法を提案する。 対象ノードに対して、異なる近傍展開を生成し、予測平均の知識をGNNに蒸留する。 本手法は, 近傍試料の予測値に近似し, 少数の試料しか必要としない。 トレーニング手法は,いくつかの異なる設定で標準GNNトレーニングより優れており,ラベルレートが低い場合には最大利得が得られることを示す。

Consistency training is a popular method to improve deep learning models in computer vision and natural language processing. Graph neural networks (GNNs) have achieved remarkable performance in a variety of network science learning tasks, but to date no work has studied the effect of consistency training on large-scale graph problems. GNNs scale to large graphs by minibatch training and subsample node neighbors to deal with high degree nodes. We utilize the randomness inherent in the subsampling of neighbors and introduce a novel consistency training method to improve accuracy. For a target node we generate different neighborhood expansions, and distill the knowledge of the average of the predictions to the GNN. Our method approximates the expected prediction of the possible neighborhood samples and practically only requires a few samples. We demonstrate that our training method outperforms standard GNN training in several different settings, and yields the largest gains when label rates are low.
翻訳日:2021-10-14 15:26:59 公開日:2021-10-12
# ニューラルネットワークの線形モード接続における置換不変性の役割

The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks ( http://arxiv.org/abs/2110.06296v1 )

ライセンス: Link先を確認
Rahim Entezari, Hanie Sedghi, Olga Saukh, Behnam Neyshabur(参考訳) 本稿では、ニューラルネットワークの置換不変性を考慮に入れれば、SGD解はそれらの間の線形補間において障壁を持たないであろうと推測する。 大胆な予想であるが、実験的な試みがいかに広範囲に及ばないかを示す。 さらに,予想を裏付ける予備的な理論結果も提示する。 我々の予想は、宝くじの仮説、分散トレーニング、アンサンブル手法に影響を及ぼす。

In this paper, we conjecture that if the permutation invariance of neural networks is taken into account, SGD solutions will likely have no barrier in the linear interpolation between them. Although it is a bold conjecture, we show how extensive empirical attempts fall short of refuting it. We further provide a preliminary theoretical result to support our conjecture. Our conjecture has implications for lottery ticket hypothesis, distributed training, and ensemble methods.
翻訳日:2021-10-14 15:26:44 公開日:2021-10-12
# PSML: 脱炭エネルギーグリッドにおける機械学習のためのマルチスケール時系列データセット

PSML: A Multi-scale Time-series Dataset for Machine Learning in Decarbonized Energy Grids ( http://arxiv.org/abs/2110.06324v1 )

ライセンス: Link先を確認
Xiangtian Zheng, Nan Xu, Loc Trinh, Dongqi Wu, Tong Huang, S. Sivaranjani, Yan Liu, Le Xie(参考訳) 気候変動に対処するため、電力網は炭素中立への野心的な移行のためのインフラとなる。 再生可能エネルギー資源の浸透と電気輸送の深化に伴い、電力網の信頼性と安全性の確保がますます困難になっている。 本稿では,データ駆動機械学習(ML)に基づく今後の電力網の信頼性向上に向けたアプローチの開発を支援する,オープンアクセス型マルチスケール時系列データセットPSMLを提案する。 データセットは、電力負荷、再生可能エネルギー、天気、電圧、電流測定を複数の時空間スケールで含む、グリッドダイナミクスのますます重要な相互作用と不確実性を記録するために設計された新しいtransmission + distribution (t+d) 共シミュレーションによって生成される。 PSMLを用いて、重要な3つのユースケースに挑戦する3つの課題に対して、最先端のMLベースラインを提供する。 (i)動的外乱事象の早期検出、正確な分類及び局在 (ii)不確実性及び極端な事象の有無による負荷及び再生可能エネルギーのロバストな階層的予測 (iii)物理則拘束測定時系列の現実的な合成生成 このデータセットは、動的システムにおけるMLの進歩を可能にすると同時に、ML研究者がカーボンニュートラル電気と移動性に貢献できることを期待している。

The electric grid is a key enabling infrastructure for the ambitious transition towards carbon neutrality as we grapple with climate change. With deepening penetration of renewable energy resources and electrified transportation, the reliable and secure operation of the electric grid becomes increasingly challenging. In this paper, we present PSML, a first-of-its-kind open-access multi-scale time-series dataset, to aid in the development of data-driven machine learning (ML) based approaches towards reliable operation of future electric grids. The dataset is generated through a novel transmission + distribution (T+D) co-simulation designed to capture the increasingly important interactions and uncertainties of the grid dynamics, containing electric load, renewable generation, weather, voltage and current measurements at multiple spatio-temporal scales. Using PSML, we provide state-of-the-art ML baselines on three challenging use cases of critical importance to achieve: (i) early detection, accurate classification and localization of dynamic disturbance events; (ii) robust hierarchical forecasting of load and renewable energy with the presence of uncertainties and extreme events; and (iii) realistic synthetic generation of physical-law-constra ined measurement time series. We envision that this dataset will enable advances for ML in dynamic systems, while simultaneously allowing ML researchers to contribute towards carbon-neutral electricity and mobility.
翻訳日:2021-10-14 15:26:37 公開日:2021-10-12
# オープンソースのユーザアクティビティトレースとユーザモビリティ評価・モデリングへの応用に関する研究

A Survey of Open Source User Activity Traces with Applications to User Mobility Characterization and Modeling ( http://arxiv.org/abs/2110.06382v1 )

ライセンス: Link先を確認
Sinjoni Mukhopadhyay King, Faisal Nawab, Katia Obraczka(参考訳) ユーザモビリティ研究における現在の最先端技術は、ユーザーがコネクテッドヘルスケア、ローカライゼーション、ソーシャルメディア、eコマースなど幅広いアプリケーションに従事しているため、歩行者や車内活動から捉えたオープンソースのモビリティトレースに大きく依存している。 これらのトレースのほとんどは機能豊富で多様であり、提供する情報だけでなく、利用や活用方法にも影響します。 この多様性は、利用可能なモビリティデータセットを利用したい研究者と実践者に2つの大きな課題をもたらす。 第一に、十分な時間をかけることなく、利用可能な痕跡を鳥の目線で見ることは極めて困難である。 第二に、ひとたびトレースを見つけたら、そのトレースが彼らのニーズに相応しいかどうかを見極める必要がある。 この調査の目的は3つある。 モビリティモード、データソース、収集技術を含むオープンソースのモビリティトレースを分類する分類法を提案する。 そして、提案されている分類法を使って既存のオープンソースのモビリティトレースを分類し、最後に、人気のある公開データセットを使った3つのケーススタディを強調し、我々の分類法が特定のユースケースに適用性を決定するのに役立つトレースのフィーチャセットをどのようにティーズするかを示す。

The current state-of-the-art in user mobility research has extensively relied on open-source mobility traces captured from pedestrian and vehicular activity through a variety of communication technologies as users engage in a wide-range of applications, including connected healthcare, localization, social media, e-commerce, etc. Most of these traces are feature-rich and diverse, not only in the information they provide, but also in how they can be used and leveraged. This diversity poses two main challenges for researchers and practitioners who wish to make use of available mobility datasets. First, it is quite difficult to get a bird's eye view of the available traces without spending considerable time looking them up. Second, once they have found the traces, they still need to figure out whether the traces are adequate to their needs. The purpose of this survey is three-fold. It proposes a taxonomy to classify open-source mobility traces including their mobility mode, data source and collection technology. It then uses the proposed taxonomy to classify existing open-source mobility traces and finally, highlights three case studies using popular publicly available datasets to showcase how our taxonomy can tease out feature sets in traces to help determine their applicability to specific use-cases.
翻訳日:2021-10-14 15:18:52 公開日:2021-10-12
# より効果的な深層学習のための局所的永続的ホモロジー

Localized Persistent Homologies for more Effective Deep Learning ( http://arxiv.org/abs/2110.06295v1 )

ライセンス: Link先を確認
Doruk Oner, Ad\'elie Garin, Mateusz Kozi\'nski, Kathryn Hess, Pascal Fua(参考訳) 永続ホモロジーは、キュビリニア構造の検出と結果のトポロジ的品質向上のために訓練されたディープネットワークの性能向上に成功している。 しかし、既存の手法は非常にグローバルであり、位相的特徴の場所を無視する。 本稿では,ネットワークトレーニング中の位置を考慮に入れた新しいフィルタ機能を利用するアプローチを提案する。 この方法で訓練されたネットワークが抽出した曲線構造のトポロジを回復するのに役立つ道路の2次元画像と神経過程の3次元画像スタックを実験的に実証した。

Persistent Homologies have been successfully used to increase the performance of deep networks trained to detect curvilinear structures and to improve the topological quality of the results. However, existing methods are very global and ignore the location of topological features. In this paper, we introduce an approach that relies on a new filtration function to account for location during network training. We demonstrate experimentally on 2D images of roads and 3D image stacks of neuronal processes that networks trained in this manner are better at recovering the topology of the curvilinear structures they extract.
翻訳日:2021-10-14 15:00:30 公開日:2021-10-12
# スタイル転送・意味画像分割・アンサンブル学習を用いた高バランスメラノーマデータのためのコンテンツベース画像検索の検討

Exploring Content Based Image Retrieval for Highly Imbalanced Melanoma Data using Style Transfer, Semantic Image Segmentation and Ensemble Learning ( http://arxiv.org/abs/2110.06331v1 )

ライセンス: Link先を確認
Priyam Mehta(参考訳) 病変画像は、しばしばオープンセット設定で撮影される。 このため、生成した画像データは本質的に非常に多様であり、畳み込みニューラルネットワークが適切な特徴を見つけ、一般化することは困難であり、その結果、病変画像に対するCBIR(コンテンツベース画像検索)システムの構築は困難である。 本稿では,この領域を探究し,i1-scoreと呼ばれる新しい類似度尺度を用いて,スタイルロスとサイス係数を用いた多重類似度尺度を提案する。 提案したCBIR類似度尺度のうち、純粋なスタイル損失アプローチはユークリッド距離やコサイン類似度といった従来の手法よりも顕著な精度の向上を達成する。 スタイル損失を用いたI1-Scoresは従来の手法よりも小さなマージンで優れていたが、ダイス係数を持つI1-Scoresは非常に貧弱であった。 使用するモデルは、より一般化するためにアンサンブル学習を用いて訓練される。

Lesion images are frequently taken in open-set settings. Because of this, the image data generated is extremely varied in nature.It is difficult for a convolutional neural network to find proper features and generalise well, as a result content based image retrieval (CBIR) system for lesion images are difficult to build. This paper explores this domain and proposes multiple similarity measures which uses Style Loss and Dice Coefficient via a novel similarity measure called I1-Score. Out of the CBIR similarity measures proposed, pure style loss approach achieves a remarkable accuracy increase over traditional approaches like Euclidean Distance and Cosine Similarity. The I1-Scores using style loss performed better than traditional approaches by a small margin, whereas, I1-Scores with dice-coefficient faired very poorly. The model used is trained using ensemble learning for better generalization.
翻訳日:2021-10-14 15:00:19 公開日:2021-10-12
# 抽出質問応答のための注意誘導生成モデル

Attention-guided Generative Models for Extractive Question Answering ( http://arxiv.org/abs/2110.06393v1 )

ライセンス: Link先を確認
Peng Xu, Davis Liang, Zhiheng Huang, Bing Xiang(参考訳) 本稿では,質問応答(qa)タスクの抽出にトランスフォーマティブモデルを適用する新しい手法を提案する。 近年,事前学習型生成系列列列モデル (seq2seq) は質問応答において大きな成功を収めている。 これらのモデルの成功への貢献は、横断的注意のような内部的な注意機構である。 本稿では,デコーダのクロスアテンションパターンを利用して,生成モデルから抽出された回答を抽出する簡単な手法を提案する。 アーキテクチャ上の前提としてクロスアテンションを考慮し,QAパフォーマンスをさらに向上させるために共同トレーニングを適用した。 実験の結果,NaturalQuestions や TriviaQA などのオープンドメイン質問応答データセットでは,生成的および抽出的推論の両方において,パラメータをはるかに少なくしながら,最先端の性能にアプローチしていることがわかった。 さらに,本手法は,モデルが関連する経路を再現する能力を大幅に改善しつつ,幻覚のない推論を行うことを可能にする。

We propose a novel method for applying Transformer models to extractive question answering (QA) tasks. Recently, pretrained generative sequence-to-sequence (seq2seq) models have achieved great success in question answering. Contributing to the success of these models are internal attention mechanisms such as cross-attention. We propose a simple strategy to obtain an extractive answer span from the generative model by leveraging the decoder cross-attention patterns. Viewing cross-attention as an architectural prior, we apply joint training to further improve QA performance. Empirical results show that on open-domain question answering datasets like NaturalQuestions and TriviaQA, our method approaches state-of-the-art performance on both generative and extractive inference, all while using much fewer parameters. Furthermore, this strategy allows us to perform hallucination-free inference while conferring significant improvements to the model's ability to rerank relevant passages.
翻訳日:2021-10-14 14:52:44 公開日:2021-10-12
# 定点のない訓練損失の収束性について

On Convergence of Training Loss Without Reaching Stationary Points ( http://arxiv.org/abs/2110.06256v1 )

ライセンス: Link先を確認
Jingzhao Zhang, Haochuan Li, Suvrit Sra, Ali Jadbabaie(参考訳) 非凸最適化が最悪の場合には計算上難解であることはよく知られている。 その結果、勾配降下のような最適化アルゴリズムの理論解析は、勾配ノルムがゼロあるいは無視できる定常点への局所収束に焦点を当てることが多い。 本研究では,グラデーションベースアルゴリズムの既存の理論的解析と実際の実践との解離について検討する。 具体的には、imagenet、resnet、wt103 + transformerxlモデルのような大規模ニューラルネットワークトレーニングにおいて、ニューラルネットワークの重み変数が損失関数の勾配が消滅する定常点に収束しないことを示す数値的証拠を提供する。 しかし、注目すべきことに、重みは定常点に収束しないが、損失関数の値は収束する。 この観測から着想を得て,力学系のエルゴード理論に基づく新たな視点を提案する。 この現象を説明する近似不変測度への重み値分布の収束を(滑らかさを仮定せずに)証明する。 我々はさらに、この視点が理論と経験的観察をよりよく一致させる方法について論じる。

It is a well-known fact that nonconvex optimization is computationally intractable in the worst case. As a result, theoretical analysis of optimization algorithms such as gradient descent often focuses on local convergence to stationary points where the gradient norm is zero or negligible. In this work, we examine the disconnect between the existing theoretical analysis of gradient-based algorithms and actual practice. Specifically, we provide numerical evidence that in large-scale neural network training, such as in ImageNet, ResNet, and WT103 + TransformerXL models, the Neural Network weight variables do not converge to stationary points where the gradient of the loss function vanishes. Remarkably, however, we observe that while weights do not converge to stationary points, the value of the loss function converges. Inspired by this observation, we propose a new perspective based on ergodic theory of dynamical systems. We prove convergence of the distribution of weight values to an approximate invariant measure (without smoothness assumptions) that explains this phenomenon. We further discuss how this perspective can better align the theory with empirical observations.
翻訳日:2021-10-14 14:38:01 公開日:2021-10-12
# CyTran: ノンコントラストCT変換のためのサイクル一貫性変換器

CyTran: Cycle-Consistent Transformers for Non-Contrast to Contrast CT Translation ( http://arxiv.org/abs/2110.06400v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Andreea-Iuliana Miron, Olivian Savencu, Mariana-Iuliana Georgescu, Nicolae Verga, Fahad Shahbaz Khan, Radu Tudor Ionescu(参考訳) コントラストct(unpaired contrast ct)スキャンを非コントラストctスキャンに変換する方法を提案する。 このタスクの解決には2つの重要な応用がある。 (i)造影剤を投与しない患者に対して、造影ctスキャンを自動的に生成すること、及び (ii)登録前のコントラスト物質による差を低減し、コントラストctと非コントラストctとのアライメントを高める。 提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。 我々のニューラルモデルは、サイクル一貫性損失の統合のため、未ペア画像でトレーニングすることができる。 高解像度画像を扱うために,畳み込み層と多面的アテンション層に基づくハイブリッドアーキテクチャを設計する。 また,100名の女性患者から収集した3次元肺CT(計37,290画像)を含む新しいデータセットColtea-Lung-CT-100Wを導入する。 各スキャンには3つの位相(非コントラスト、早期門脈、後期動脈)が含まれており、新しいアプローチと最新の画像スタイル転送法を比較する実験を行うことができる。 実験の結果、CyTranは競合するすべての手法より優れています。 また,最新の医用画像アライメント法を改善するための予備的なステップとして,CyTranを使用できることを示す。 私たちは、新しいモデルとデータセットをオープンソースとしてリリースします。

We propose a novel approach to translate unpaired contrast computed tomography (CT) scans to non-contrast CT scans and the other way around. Solving this task has two important applications: (i) to automatically generate contrast CT scans for patients for whom injecting contrast substance is not an option, and (ii) to enhance alignment between contrast and non-contrast CT by reducing the differences induced by the contrast substance before registration. Our approach is based on cycle-consistent generative adversarial convolutional transformers, for short, CyTran. Our neural model can be trained on unpaired images, due to the integration of a cycle-consistency loss. To deal with high-resolution images, we design a hybrid architecture based on convolutional and multi-head attention layers. In addition, we introduce a novel data set, Coltea-Lung-CT-100W, containing 3D triphasic lung CT scans (with a total of 37,290 images) collected from 100 female patients. Each scan contains three phases (non-contrast, early portal venous, and late arterial), allowing us to perform experiments to compare our novel approach with state-of-the-art methods for image style transfer. Our empirical results show that CyTran outperforms all competing methods. Moreover, we show that CyTran can be employed as a preliminary step to improve a state-of-the-art medical image alignment method. We release our novel model and data set as open source at: https://github.com/r istea/cycle-transfor mer.
翻訳日:2021-10-14 14:37:44 公開日:2021-10-12
# 推定基準分解のための決定論的質問生成:実証的研究と計算モデル

Decision-Theoretic Question Generation for Situated Reference Resolution: An Empirical Study and Computational Model ( http://arxiv.org/abs/2110.06288v1 )

ライセンス: Link先を確認
Felix Gervits, Gordon Briggs, Antonio Roque, Genki A. Kadomatsu, Dean Thurston, Matthias Scheutz, Matthew Marge(参考訳) 位置する環境で人間と対話する対話エージェントは、複数のモードにわたる参照曖昧さを管理し、必要に応じて助けを求める必要がある。 しかし、そのようなエージェントが問うべき質問の種類や、そのような質問に対する答えが曖昧さの解消にどのように役立つかは明らかではない。 そこで我々は,遠隔実験者との対話をしながら,ツールセットの編成を行う仮想ロボットを参加者が制御する対話型研究から対話データを分析した。 その結果,あいまいさ解消のための質問型分布や,対話レベルの要因が参照解決プロセスに与える影響など,多くの新しい結果が得られた。 これらの経験的知見に基づいて,(1)エントロピーに基づくユーティリティ割り当て手法を用いた意思決定ネットワークを用いた要求の明確化のための計算モデルを開発し,(2)アンビグニティの異なる環境において,スロット満載ベースラインよりも優れていることを示すとともに,(3)エージェントが参照解決を容易にするための質問方法に関する洞察を提供するために,結果の解釈を行った。

Dialogue agents that interact with humans in situated environments need to manage referential ambiguity across multiple modalities and ask for help as needed. However, it is not clear what kinds of questions such agents should ask nor how the answers to such questions can be used to resolve ambiguity. To address this, we analyzed dialogue data from an interactive study in which participants controlled a virtual robot tasked with organizing a set of tools while engaging in dialogue with a live, remote experimenter. We discovered a number of novel results, including the distribution of question types used to resolve ambiguity and the influence of dialogue-level factors on the reference resolution process. Based on these empirical findings we: (1) developed a computational model for clarification requests using a decision network with an entropy-based utility assignment method that operates across modalities, (2) evaluated the model, showing that it outperforms a slot-filling baseline in environments of varying ambiguity, and (3) interpreted the results to offer insight into the ways that agents can ask questions to facilitate situated reference resolution.
翻訳日:2021-10-14 14:34:51 公開日:2021-10-12
# MTのためのコンパクトメトリックの学習

Learning Compact Metrics for MT ( http://arxiv.org/abs/2110.06341v1 )

ライセンス: Link先を確認
Amy Pu, Hyung Won Chung, Ankur P. Parikh, Sebastian Gehrmann, Thibault Sellam(参考訳) 機械翻訳と多言語テキスト生成の最近の進歩により、COMETやBLEURTのような訓練されたメトリクスが採用され、回帰問題としての評価を扱い、XLM-RoBERTaやmBERTのような多言語事前学習モデルの表現を使用するようになった。 しかし、関連するタスクの研究は、これらのモデルが大きければ最も効率的であり、評価には費用がかかり実用的でないことを示唆している。 WMT Metrics Shared Taskのデータを用いて、最先端多言語モデルRemBERTによる多言語性とモデル容量のトレードオフについて検討する。 本研究では, モデルサイズが実際に言語間移動のボトルネックとなることを示す一連の実験を行い, 人工データ生成を活用し, 関連する言語で訓練された複数の生徒に知識を伝達することによって, 蒸留がいかにこのボトルネックに対処できるかを実証する。 提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。

Recent developments in machine translation and multilingual text generation have led researchers to adopt trained metrics such as COMET or BLEURT, which treat evaluation as a regression problem and use representations from multilingual pre-trained models such as XLM-RoBERTa or mBERT. Yet studies on related tasks suggest that these models are most efficient when they are large, which is costly and impractical for evaluation. We investigate the trade-off between multilinguality and model capacity with RemBERT, a state-of-the-art multilingual language model, using data from the WMT Metrics Shared Task. We present a series of experiments which show that model size is indeed a bottleneck for cross-lingual transfer, then demonstrate how distillation can help addressing this bottleneck, by leveraging synthetic data generation and transferring knowledge from one teacher to multiple students trained on related languages. Our method yields up to 10.5% improvement over vanilla fine-tuning and reaches 92.6% of RemBERT's performance using only a third of its parameters.
翻訳日:2021-10-14 14:34:30 公開日:2021-10-12
# all Dolphins are Intelligent and SOME are Friendly: Probing BERT for Nouns' Semantic Properties and their Prototypeality

ALL Dolphins Are Intelligent and SOME Are Friendly: Probing BERT for Nouns' Semantic Properties and their Prototypicality ( http://arxiv.org/abs/2110.06376v1 )

ライセンス: Link先を確認
Marianna Apidianaki and Aina Gar\'i Soler(参考訳) 大規模言語モデルは、事前学習中に大量のデータに曝露することで得られた豊富なコモンセンス知識を符号化するが、エンティティとその意味的特性に対する理解は不明確である。 我々は、修飾する名詞の参照範囲を制限しない形容詞によって表現される英語の名詞の性質についてbert(devlin et al., 2019)を調べ、代わりにいくつかの固有の側面(「赤いイチゴ」)を強調した。 本研究は,名詞間の関係強さと意味的特徴を捉える心理言語学的データセットに基づく。 本研究は,閉鎖タスクと分類設定を用いてBERTを探索し,これらの特徴とそれらの有意な有意な有意な有意な有意性を示す。 評価を困難にし、モデルの名詞特性に関する知識に関する一般的な結論を引き出す要因について議論する。 最後に, BERT では, 従来の手法よりも優れた形容詞構成の意味を推論する上で必要な情報を活用することができた。

Large scale language models encode rich commonsense knowledge acquired through exposure to massive data during pre-training, but their understanding of entities and their semantic properties is unclear. We probe BERT (Devlin et al., 2019) for the properties of English nouns as expressed by adjectives that do not restrict the reference scope of the noun they modify (as in "red car"), but instead emphasise some inherent aspect ("red strawberry"). We base our study on psycholinguistics datasets that capture the association strength between nouns and their semantic features. We probe BERT using cloze tasks and in a classification setting, and show that the model has marginal knowledge of these features and their prevalence as expressed in these datasets. We discuss factors that make evaluation challenging and impede drawing general conclusions about the models' knowledge of noun properties. Finally, we show that when tested in a fine-tuning setting addressing entailment, BERT successfully leverages the information needed for reasoning about the meaning of adjective-noun constructions outperforming previous methods.
翻訳日:2021-10-14 14:34:10 公開日:2021-10-12
# 機械学習のための自動微分入門

An Introduction to Automatic Differentiation forMachine Learning ( http://arxiv.org/abs/2110.06209v1 )

ライセンス: Link先を確認
Davan Harrison(参考訳) 特に機械学習とニューラルネットワークモデルは、多くの人工知能関連のタスクにおけるアートパフォーマンスの状態を改善している。 ニューラルネットワークモデルは一般的に、モデルにデータセットを適合させるために勾配に基づく最適化手法を実行するフレームワークを使用して実装される。 これらのフレームワークは自動微分 (automatic differentiation, aad) と呼ばれる微分を計算し、モデル設計者からの微分計算の負担をなくす手法を使っている。 本稿では,ADとそのモチベーション,実装の異なるアプローチについて述べる。 我々は、ADに関連するデータフロープログラミングを簡潔に記述する。 最後に、一般的に使われている2つのADフレームワークであるTensorflowとPyTorchで実装した例を示す。

Machine learning and neural network models in particular have been improving the state of the art performance on many artificial intelligence related tasks. Neural network models are typically implemented using frameworks that perform gradient based optimization methods to fit a model to a dataset. These frameworks use a technique of calculating derivatives called automatic differentiation (AD) which removes the burden of performing derivative calculations from the model designer. In this report we describe AD, its motivations, and different implementation approaches. We briefly describe dataflow programming as it relates to AD. Lastly, we present example programs that are implemented with Tensorflow and PyTorch, which are two commonly used AD frameworks.
翻訳日:2021-10-14 14:06:00 公開日:2021-10-12
# トランスベーステキスト音声合成における細粒度スタイル制御

Fine-grained style control in Transformer-based Text-to-speech Synthesis ( http://arxiv.org/abs/2110.06306v1 )

ライセンス: Link先を確認
Li-Wei Chen and Alexander Rudnicky(参考訳) 本稿では,トランスフォーマティブ・テキストから音声への合成(transformertts)の細粒度制御を実現するための新しいアーキテクチャを提案する。 具体的には、参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。 TransformerTTSの既存のコンテントエンコーダは、コンテントとスタイルの融合とアライメントのために設計したクロスアテンションブロックに置き換えられます。 スキップ接続と共に融合が行われると、我々のクロスアテンションブロックは、音素表現を所定のスタイルで徐々に融合させる優れた帰納的バイアスを与える。 また,学習中のlstをランダムに切断し,wav2vec 2.0機能を用いて,言語コンテンツのエンコードを防止する。 実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。 私たちのコードとサンプルは公開されています。

In this paper, we present a novel architecture to realize fine-grained style control on the transformer-based text-to-speech synthesis (TransformerTTS). Specifically, we model the speaking style by extracting a time sequence of local style tokens (LST) from the reference speech. The existing content encoder in TransformerTTS is then replaced by our designed cross-attention blocks for fusion and alignment between content and style. As the fusion is performed along with the skip connection, our cross-attention block provides a good inductive bias to gradually infuse the phoneme representation with a given style. Additionally, we prevent the style embedding from encoding linguistic content by randomly truncating LST during training and using wav2vec 2.0 features. Experiments show that with fine-grained style control, our system performs better in terms of naturalness, intelligibility, and style transferability. Our code and samples are publicly available.
翻訳日:2021-10-14 14:04:48 公開日:2021-10-12
# 音声認識改善のためのWav2vec 2.0微調整の検討

Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition ( http://arxiv.org/abs/2110.06309v1 )

ライセンス: Link先を確認
Li-Wei Chen and Alexander Rudnicky(参考訳) wav2vec 2.0は音声認識(ASR)のために提案されているが、音声認識(SER)にも使用できる。 バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。 V-FTはIEMOCAPデータセットの最先端モデルより優れていることを示す。 既存のNLPファインチューニング戦略であるTAPTは、SERの性能をさらに向上させる。 P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。 実験の結果,P-TAPTは低リソース環境下ではTAPTよりも優れていた。 この文献の先行研究と比較すると、トップラインシステムはIEMOCAPの最先端性能よりも7.4%の精度(UA)が絶対的に向上した。 私たちのコードは公開されています。

While wav2vec 2.0 has been proposed for speech recognition (ASR), it can also be used for speech emotion recognition (SER); its performance can be significantly improved using different fine-tuning strategies. Two baseline methods, vanilla fine-tuning (V-FT) and task adaptive pretraining (TAPT) are first presented. We show that V-FT is able to outperform state-of-the-art models on the IEMOCAP dataset. TAPT, an existing NLP fine-tuning strategy, further improves the performance on SER. We also introduce a novel fine-tuning method termed P-TAPT, which modifies the TAPT objective to learn contextualized emotion representations. Experiments show that P-TAPT performs better than TAPT especially under low-resource settings. Compared to prior works in this literature, our top-line system achieved a 7.4% absolute improvement on unweighted accuracy (UA) over the state-of-the-art performance on IEMOCAP. Our code is publicly available.
翻訳日:2021-10-14 14:04:33 公開日:2021-10-12
# 制限付き自己照合を用いた音声要約

Speech Summarization using Restricted Self-Attention ( http://arxiv.org/abs/2110.06263v1 )

ライセンス: Link先を確認
Roshan Sharma, Shruti Palaskar, Alan W Black and Florian Metze(参考訳) 音声要約は通常、音声認識とテキスト要約モデルのカスケードを用いて行われる。 音声要約モデルのエンドツーエンドモデリングは、長い入力音声シーケンスから生じるメモリと計算制約のために困難である。 文書要約における最近の研究は、トランスフォーマーモデルで長いシーケンスを処理できる自己意図の複雑さを減らす方法にインスピレーションを与えている。 本稿では,音声要約に最適化された単一モデルを提案する。 本稿では,テキストベースモデルから音声モデルへの制約付き自己認識手法を適用し,メモリと計算制約に対処する。 提案モデルでは,ハウツーコーパスによる音声の要約を学習できることを実証する。 提案したエンドツーエンドモデルは,ROUGEで提案したカスケードモデルよりも3点絶対的に優れている。 さらに,音声入力から概念を推定する音声言語理解タスクについて検討し,提案手法がカスケードモデルよりも4点絶対値f-1の方が優れていることを示す。

Speech summarization is typically performed by using a cascade of speech recognition and text summarization models. End-to-end modeling of speech summarization models is challenging due to memory and compute constraints arising from long input audio sequences. Recent work in document summarization has inspired methods to reduce the complexity of self-attentions, which enables transformer models to handle long sequences. In this work, we introduce a single model optimized end-to-end for speech summarization. We apply the restricted self-attention technique from text-based models to speech models to address the memory and compute constraints. We demonstrate that the proposed model learns to directly summarize speech for the How-2 corpus of instructional videos. The proposed end-to-end model outperforms the previously proposed cascaded model by 3 points absolute on ROUGE. Further, we consider the spoken language understanding task of predicting concepts from speech inputs and show that the proposed end-to-end model outperforms the cascade model by 4 points absolute F-1.
翻訳日:2021-10-14 13:39:49 公開日:2021-10-12
# ジョブショップスケジューリングのための高速近似:ラグランジアン二重ディープラーニング法

Fast Approximations for Job Shop Scheduling: A Lagrangian Dual Deep Learning Method ( http://arxiv.org/abs/2110.06365v1 )

ライセンス: Link先を確認
James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) ジョブスショップスケジューリング問題(Jobs shop Scheduling Problem、JSP)は、様々な産業目的のために日常的に解決される標準組合せ最適化問題である。 特定の処理時間に対して、個々のタスクが所定のリソースへの排他的アクセスを必要とする固定順序の操作の下で、複数のタスクシーケンスの最適スケジューリングをモデル化する。 問題はnpハードで、中規模のインスタンスでも計算が難しい。 本稿では,生産チェーンの確率性の向上を動機として,JSPに効率的かつ正確な近似を提供するためのディープラーニングアプローチを提案する。 特に,問題構造を利用するディープニューラルネットワークアーキテクチャの設計,問題制約を捉えるためのラグランジアン双対性の統合,および解の実現性を保証するための後処理最適化を提案する。JSPLIBベンチマークライブラリのハードJSPインスタンス上でJSP-DNNと呼ばれる手法が評価されている。 計算結果から、JSP-DNNは無視可能な計算コストで高い品質のJSP近似を生成できることが示された。

The Jobs shop Scheduling Problem (JSP) is a canonical combinatorial optimization problem that is routinely solved for a variety of industrial purposes. It models the optimal scheduling of multiple sequences of tasks, each under a fixed order of operations, in which individual tasks require exclusive access to a predetermined resource for a specified processing time. The problem is NP-hard and computationally challenging even for medium-sized instances. Motivated by the increased stochasticity in production chains, this paper explores a deep learning approach to deliver efficient and accurate approximations to the JSP. In particular, this paper proposes the design of a deep neural network architecture to exploit the problem structure, its integration with Lagrangian duality to capture the problem constraints, and a post-processing optimization to guarantee solution feasibility.The resulting method, called JSP-DNN, is evaluated on hard JSP instances from the JSPLIB benchmark library. Computational results show that JSP-DNN can produce JSP approximations of high quality at negligible computational costs.
翻訳日:2021-10-14 13:39:05 公開日:2021-10-12
# 富がより豊かになる - 半監督学習の影響の相違

The Rich Get Richer: Disparate Impact of Semi-Supervised Learning ( http://arxiv.org/abs/2110.06282v1 )

ライセンス: Link先を確認
Zhaowei Zhu, Tianyi Luo, Yang Liu(参考訳) 半教師付き学習(SSL)は、高品質な教師付きデータが著しく制限された場合に、様々な学習タスクのモデル精度を向上させる可能性を実証している。 データ全体の平均精度が向上することがしばしば確認されているが、SSLがどのように異なるサブ人口と一致しているかは不明である。 以上の疑問を理解することは、これらの異なるサブ集団が、我々が公平に扱おうとする人口集団によって定義されるときに、かなりの公平性をもたらす。 本稿では,SSLの展開による異なる影響を明らかにする。SSLを使わずに高いベースライン精度を持つサブポピュレーションは,SSLの恩恵を受ける傾向にあるが,低ベースライン精度に悩まされるサブポピュレーション("poor"サブポピュレーション)は,SSLモジュールの追加後にパフォーマンス低下を観測することもある。 我々は、SSLアルゴリズムの幅広いファミリに対して、理論上かつ実証的に、補助的な ``pseudo-label' を明示的に、または暗黙的に使用することを証明した。 画像およびテキスト分類タスクのセットに関する実験は、我々の主張を裏付けるものである。 我々は、この異なる影響を緩和する方法について議論し、われわれの論文がSSLの使用の潜在的な落とし穴を警告し、将来のSSLアルゴリズムの多面的評価を促進することを期待する。 コードはgithub.com/UCSC-REAL /Disparate-SSLで入手できる。

Semi-supervised learning (SSL) has demonstrated its potential to improve the model accuracy for a variety of learning tasks when the high-quality supervised data is severely limited. Although it is often established that the average accuracy for the entire population of data is improved, it is unclear how SSL fares with different sub-populations. Understanding the above question has substantial fairness implications when these different sub-populations are defined by the demographic groups we aim to treat fairly. In this paper, we reveal the disparate impacts of deploying SSL: the sub-population who has a higher baseline accuracy without using SSL (the ``rich" sub-population) tends to benefit more from SSL; while the sub-population who suffers from a low baseline accuracy (the ``poor" sub-population) might even observe a performance drop after adding the SSL module. We theoretically and empirically establish the above observation for a broad family of SSL algorithms, which either explicitly or implicitly use an auxiliary ``pseudo-label". Our experiments on a set of image and text classification tasks confirm our claims. We discuss how this disparate impact can be mitigated and hope that our paper will alarm the potential pitfall of using SSL and encourage a multifaceted evaluation of future SSL algorithms. Code is available at github.com/UCSC-REAL /Disparate-SSL.
翻訳日:2021-10-14 13:37:15 公開日:2021-10-12
# ドメインベース共分散最小化による領域一般化

Domain Generalization via Domain-based Covariance Minimization ( http://arxiv.org/abs/2110.06298v1 )

ライセンス: Link先を確認
Anqi Wu(参考訳) 研究者は、データ生成メカニズムが、非常に異なる分布のトレーニングデータやテストデータにつながる内部的または外部的な要因に影響される可能性があるという困難な問題に直面しており、その結果、伝統的な分類やトレーニングセットからの回帰は、テストデータで満足のいく結果を達成することができない。 本稿では, この非自明な領域一般化問題に対して, 関数関係を最大保存しつつ, 領域ベース共分散を最小化する中心部分空間を求める。 本研究では,複数の領域における条件分布の差を最小限に抑えるための新しい分散測定法を提案し,その一方で,与えられた条件分布の分散を最大化して機能的関係を保っている。 さらに,大規模行列演算において計算量が少なく,メモリも小さく,ドメインの一般化だけでなく,カーネルベースの固有値分解にも適する高速な実装も提供する。 提案手法の実用性を示すため,合成データと実世界の双方でよく知られた次元縮小法と領域一般化法を比較した。 小規模データセットでは,未取得のテストデータセットよりも一般化性能が向上することを示す定量的な結果が得られている。 大規模問題に対して提案した高速実装は定量的性能を維持するが、計算コストはかなり低い。

Researchers have been facing a difficult problem that data generation mechanisms could be influenced by internal or external factors leading to the training and test data with quite different distributions, consequently traditional classification or regression from the training set is unable to achieve satisfying results on test data. In this paper, we address this nontrivial domain generalization problem by finding a central subspace in which domain-based covariance is minimized while the functional relationship is simultaneously maximally preserved. We propose a novel variance measurement for multiple domains so as to minimize the difference between conditional distributions across domains with solid theoretical demonstration and supports, meanwhile, the algorithm preserves the functional relationship via maximizing the variance of conditional expectations given output. Furthermore, we also provide a fast implementation that requires much less computation and smaller memory for large-scale matrix operations, suitable for not only domain generalization but also other kernel-based eigenvalue decompositions. To show the practicality of the proposed method, we compare our methods against some well-known dimension reduction and domain generalization techniques on both synthetic data and real-world applications. We show that for small-scale datasets, we are able to achieve better quantitative results indicating better generalization performance over unseen test datasets. For large-scale problems, the proposed fast implementation maintains the quantitative performance but at a substantially lower computational cost.
翻訳日:2021-10-14 13:36:50 公開日:2021-10-12
# 不確実性学習によるロバストな神経回帰

Robust Neural Regression via Uncertainty Learning ( http://arxiv.org/abs/2110.06395v1 )

ライセンス: Link先を確認
Akib Mashrur and Wei Luo and Nayyar A. Zaidi and Antonio Robles-Kelly(参考訳) ディープニューラルネットワークは不確実性を過小評価し、自信過剰な予測を生み出す傾向がある。 mc dropoutやsdenetのような最近提案されたソリューションは、複雑なトレーニングと/または補助的な分散データを必要とする。 一般化線形回帰法において、時間的反復重み付き最小二乗(IRLS)を拡張して簡単な解を提案する。 2つのサブネットワークを用いて予測と不確実性推定を行い,複雑な入力や非線形応答の処理を容易にする。 2つのサブネットワークは共通の表現を持ち、予測と不確実性推定のための2つの相補的損失関数によって訓練される。 mc-dropout や sde-net のようなより複雑なモデルと比較すると,提案するネットワークは実装が簡単で,より堅牢である。

Deep neural networks tend to underestimate uncertainty and produce overly confident predictions. Recently proposed solutions, such as MC Dropout and SDENet, require complex training and/or auxiliary out-of-distribution data. We propose a simple solution by extending the time-tested iterative reweighted least square (IRLS) in generalised linear regression. We use two sub-networks to parametrise the prediction and uncertainty estimation, enabling easy handling of complex inputs and nonlinear response. The two sub-networks have shared representations and are trained via two complementary loss functions for the prediction and the uncertainty estimates, with interleaving steps as in a cooperative game. Compared with more complex models such as MC-Dropout or SDE-Net, our proposed network is simpler to implement and more robust (insensitive to varying aleatoric and epistemic uncertainty).
翻訳日:2021-10-14 13:04:17 公開日:2021-10-12
# HETFORMER:長文抽出要約のためのスパースアテンションを有する異種変圧器

HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization ( http://arxiv.org/abs/2110.06388v1 )

ライセンス: Link先を確認
Ye Liu, Jian-Guo Zhang, Yao Wan, Congying Xia, Lifang He, Philip S. Yu(参考訳) 生テキストから意味グラフ構造を捉えるため,既存の要約手法は事前学習モデルを用いてGNN上に構築されている。 しかし、これらの手法は長文文書に対する煩雑な手続きと非効率的な計算に苦しむ。 この問題を軽減するため,本論文では,長文抽出要約のための多粒度スパース注意を持つ変圧器型事前学習モデルhetformerを提案する。 具体的には,生文中の異なる意味ノードを潜在的に異質なグラフとしてモデル化し,トランスフォーマによってノード間の異種関係(エッジ)を直接学習する。 単一文書と複数文書の要約タスクの広範な実験により、HETFORMERはより少ないメモリと少ないパラメータを使用しながら、ルージュF1における最先端のパフォーマンスを達成することが示された。

To capture the semantic graph structure from raw text, most existing summarization approaches are built on GNNs with a pre-trained model. However, these methods suffer from cumbersome procedures and inefficient computations for long-text documents. To mitigate these issues, this paper proposes HETFORMER, a Transformer-based pre-trained model with multi-granularity sparse attentions for long-text extractive summarization. Specifically, we model different types of semantic nodes in raw text as a potential heterogeneous graph and directly learn heterogeneous relationships (edges) among nodes by Transformer. Extensive experiments on both single- and multi-document summarization tasks show that HETFORMER achieves state-of-the-art performance in Rouge F1 while using less memory and fewer parameters.
翻訳日:2021-10-14 12:55:36 公開日:2021-10-12
# リニア関数近似を用いたリワードフリーモデルベース強化学習

Reward-Free Model-Based Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2110.06394v1 )

ライセンス: Link先を確認
Weitong Zhang and Dongruo Zhou and Quanquan Gu(参考訳) エピソディックマルコフ決定過程(mdps)に対する線形関数近似を用いたモデルベース無報酬強化学習について検討した。 この設定では、エージェントは2つのフェーズで動作する。 探索フェーズでは、エージェントは環境と相互作用し、報酬なしでサンプルを収集する。 計画段階では、エージェントは特定の報酬関数を与えられ、調査フェーズから収集されたサンプルを使用して適切なポリシーを学ぶ。 本稿では, 線形混合MDP仮定の下で, 状態, 動作, 次の状態の3重項上に定義された特徴写像に対して, MDP の遷移確率カーネルを線形関数でパラメータ化できる, 証明可能な新しいアルゴリズム UCRL-RFE を提案する。 任意の報酬関数に対して$\epsilon$-optimal policyを得るには、探索段階で最大$\tilde o(h^5d^2\epsilon^{-2})$のエピソードをサンプリングする必要がある。 ここで、$H$はエピソードの長さであり、$d$はフィーチャーマッピングの次元である。 ベルンシュタイン型ボーナスを用いたUCRL-RFEの変種も提案し、最大$\tilde O(H^4d(H + d)\epsilon^{-2})$でサンプリングし、$\epsilon$-optimal Policyを達成する必要があることを示す。 線形混合 MDP の特別なクラスを構築することで、どんな報酬のないアルゴリズムに対しても、$\epsilon$-optimal policy を得るために少なくとも$\tilde \Omega(H^2d\epsilon^{-2})$ episodes をサンプリングする必要があることも証明できる。 我々の上限は、$\epsilon$への依存と$h \ge d$ に対する$d$への依存という観点で下限に一致する。

We study the model-based reward-free reinforcement learning with linear function approximation for episodic Markov decision processes (MDPs). In this setting, the agent works in two phases. In the exploration phase, the agent interacts with the environment and collects samples without the reward. In the planning phase, the agent is given a specific reward function and uses samples collected from the exploration phase to learn a good policy. We propose a new provably efficient algorithm, called UCRL-RFE under the Linear Mixture MDP assumption, where the transition probability kernel of the MDP can be parameterized by a linear function over certain feature mappings defined on the triplet of state, action, and next state. We show that to obtain an $\epsilon$-optimal policy for arbitrary reward function, UCRL-RFE needs to sample at most $\tilde O(H^5d^2\epsilon^{-2})$ episodes during the exploration phase. Here, $H$ is the length of the episode, $d$ is the dimension of the feature mapping. We also propose a variant of UCRL-RFE using Bernstein-type bonus and show that it needs to sample at most $\tilde O(H^4d(H + d)\epsilon^{-2})$ to achieve an $\epsilon$-optimal policy. By constructing a special class of linear Mixture MDPs, we also prove that for any reward-free algorithm, it needs to sample at least $\tilde \Omega(H^2d\epsilon^{-2})$ episodes to obtain an $\epsilon$-optimal policy. Our upper bound matches the lower bound in terms of the dependence on $\epsilon$ and the dependence on $d$ if $H \ge d$.
翻訳日:2021-10-14 12:54:09 公開日:2021-10-12
# (参考訳) 生物医学領域における事前学習言語モデル:体系的調査

Pre-trained Language Models in Biomedical Domain: A Systematic Survey ( http://arxiv.org/abs/2110.05006v2 )

ライセンス: CC BY 4.0
Benyou Wang, Qianqian Xie, Jiahuan Pei, Prayag Tiwari, Zhao Li, and Jie fu(参考訳) 事前学習された言語モデル(plms)は、ほとんどの自然言語処理(nlp)タスクのデファクトパラダイムである。 情報学、医学、コンピュータサイエンス(CS)コミュニティの研究者は、バイオメディカルテキスト、電子健康記録、タンパク質、および様々なバイオメディカルタスクのためのDNA配列など、バイオメディカルデータセットに基づいて訓練された様々なPLMを提案する。 しかし、生物医学的plmの学際的特徴はコミュニティ間の拡散を阻害し、既存の作品のいくつかは包括的に比較・議論することなく互いに分離されている。 バイオメディカルplmの最近の進歩とその応用を体系的にレビューするだけでなく、用語やベンチマークを標準化する調査が期待されている。 本稿では,生物医学領域における事前学習言語モデルの最近の進歩と,その生物医学下流課題への応用について概説する。 特に,その動機を議論し,既存の生物医学plmの分類法を提案する。 バイオメディカルダウンストリームタスクにおけるそれらの応用を概観する。 最後に,研究コミュニティの今後の研究にインスピレーションを与えてくれるような,さまざまな制限と今後のトレンドについて紹介する。

Pre-trained language models (PLMs) have been the de facto paradigm for most natural language processing (NLP) tasks. This also benefits biomedical domain: researchers from informatics, medicine, and computer science (CS) communities propose various PLMs trained on biomedical datasets, e.g., biomedical text, electronic health records, protein, and DNA sequences for various biomedical tasks. However, the cross-discipline characteristics of biomedical PLMs hinder their spreading among communities; some existing works are isolated from each other without comprehensive comparison and discussions. It expects a survey that not only systematically reviews recent advances of biomedical PLMs and their applications but also standardizes terminology and benchmarks. In this paper, we summarize the recent progress of pre-trained language models in the biomedical domain and their applications in biomedical downstream tasks. Particularly, we discuss the motivations and propose a taxonomy of existing biomedical PLMs. Their applications in biomedical downstream tasks are exhaustively discussed. At last, we illustrate various limitations and future trends, which we hope can provide inspiration for the future research of the research community.
翻訳日:2021-10-14 10:31:51 公開日:2021-10-12
# (参考訳) DANIEL:高出力比のポイントクラウド登録のための高速かつロバストな合意最大化手法 [全文訳有]

DANIEL: A Fast and Robust Consensus Maximization Method for Point Cloud Registration with High Outlier Ratios ( http://arxiv.org/abs/2110.05075v2 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 対応ベースの点雲登録は、幾何学的コンピュータビジョン、ロボット認識、フォトグラム、リモートセンシングの基盤であり、3Dキーポイント上に確立された対応から、2点雲間の最良の剛性変換を推定することを目指している。 しかし、ロバスト性や正確性が限られているため、現在の3dキーポイントマッチング技術は、おそらく非常に大きな数であっても、外れ値を生み出す可能性が非常に高いため、ポイントクラウド登録の堅牢な推定が非常に重要である。 残念ながら、既存のロバストな手法は高い計算コストや、高い(あるいは極端な)アウトリーチ比に遭遇する際には不十分なロバスト性に悩まされる可能性がある。 本稿では, DANIEL (Double-layered sAmpliNg with consensus maximization based on stratIfied Element-wise compatibiLity) と呼ばれる新しい時間効率RANSAC型コンセンサス最大化法を提案する。 DANIELは、2つのランダムサンプリング層で設計されており、最小の計算コストで不適切なサブセットを見つける。 具体的には (i)一点サンプリングの第1層の生の異常値に剛性制約を適用する。 (II)二点サンプリングの第2層におけるより効率的なコンセンサス最大化を実現するため、最小限のモデル間の迅速な互換性チェックを行うための一連の階層化要素整合性試験を導入し、 (iii)最終イリアー集合のタイムリーな復帰を保証するために確率的終了条件が用いられる。 複数の実データセットに対する様々な実験に基づいて、DANIELは99%以上の外れ値に対して堅牢であり、既存の最先端の堅牢な解法(RANSAC、FGR、GOREなど)よりもはるかに高速であることを示す。

Correspondence-based point cloud registration is a cornerstone in geometric computer vision, robotics perception, photogrammetry and remote sensing, which seeks to estimate the best rigid transformation between two point clouds from the correspondences established over 3D keypoints. However, due to limited robustness and accuracy, current 3D keypoint matching techniques are very prone to yield outliers, probably even in very large numbers, making robust estimation for point cloud registration of great importance. Unfortunately, existing robust methods may suffer from high computational cost or insufficient robustness when encountering high (or even extreme) outlier ratios, hardly ideal enough for practical use. In this paper, we present a novel time-efficient RANSAC-type consensus maximization solver, named DANIEL (Double-layered sAmpliNg with consensus maximization based on stratIfied Element-wise compatibiLity), for robust registration. DANIEL is designed with two layers of random sampling, in order to find inlier subsets with the lowest computational cost possible. Specifically, we: (i) apply the rigidity constraint to prune raw outliers in the first layer of one-point sampling, (ii) introduce a series of stratified element-wise compatibility tests to conduct rapid compatibility checking between minimal models so as to realize more efficient consensus maximization in the second layer of two-point sampling, and (iii) probabilistic termination conditions are employed to ensure the timely return of the final inlier set. Based on a variety of experiments over multiple real datasets, we show that DANIEL is robust against over 99% outliers and also significantly faster than existing state-of-the-art robust solvers (e.g. RANSAC, FGR, GORE).
翻訳日:2021-10-14 10:30:45 公開日:2021-10-12
# (参考訳) ソーシャルメディア上のBotNet検出 [全文訳有]

BotNet Detection On Social Media ( http://arxiv.org/abs/2110.05661v1 )

ライセンス: CC BY-SA 4.0
Aniket Chandrakant Devle, Julia Ann Jose, Abhay Shrinivas Saraswathula, Shubham Mehta, Siddhant Srivastava, Sirisha Kona, Sudheera Daggumalli(参考訳) ソーシャルメディアの人気と、それが言論の自由を促進するプラットフォームであるという考えから、これらのプラットフォームを使って他のユーザーを操作しようとするユーザー(ボット)アカウントのオープンプレイグラウンドとなっている。 ソーシャルボットは人間の会話、作法、存在を学習するだけでなく、世論の操作、詐欺行為、株式市場の操作なども行う。 ボットが選挙結果を操作している証拠は、全国、つまり世界にとって大きな脅威となる可能性がある。 そのため、ボットを放出または生成するキャンペーンの識別と防止は、その起源に対処するために重要になっている。 私たちの目標は、セマンティックウェブマイニング技術を活用して、これらの活動に関わる偽のボットやアカウントを特定することです。

Given the popularity of social media and the notion of it being a platform encouraging free speech, it has become an open playground for user (bot) accounts trying to manipulate other users using these platforms. Social bots not only learn human conversations, manners, and presence but also manipulate public opinion, act as scammers, manipulate stock markets, etc. There has been evidence of bots manipulating the election results which can be a great threat to the whole nation and hence the whole world. So identification and prevention of such campaigns that release or create the bots have become critical to tackling it at its source of origin. Our goal is to leverage semantic web mining techniques to identify fake bots or accounts involved in these activities.
翻訳日:2021-10-14 05:17:02 公開日:2021-10-12
# (参考訳) 学習した構文文法が公開度を高めたレジスタに収束 [全文訳有]

Learned Construction Grammars Converge Across Registers Given Increased Exposure ( http://arxiv.org/abs/2110.05663v1 )

ライセンス: CC BY-SA 4.0
Jonathan Dunn and Harish Tayyar Madabushi(参考訳) 本稿では,学習した構文文法が,異なるレジスタのデータに基づいて学習された場合の共有表現に収束するか否かに対する露出の増加の影響を計測する。 登録は建設の頻度に影響し、いくつかの構造は形式的には一般的だが非公式には使われない。 異なるレジスタに露呈する文法帰納アルゴリズムは、異なる構成を得られると期待する。 エクスポージャーの増加はレジスタ固有文法の収束にどの程度つながるのか? 本稿では,12言語(半分はゲルマン語,半分はロマンス語)の言語学習をシミュレートし,コーパスは3つのレジスタ(Twitter,Wikipedia,W eb)を表す。 これらのシミュレーションは、文法の収束に対する露出の影響を測定するために、1万語から200万語への露出の増加とともに繰り返される。 その結果,全言語にまたがる文法の収束につながることが明らかとなった。 さらに、レジスタ・ユニバーサル構成の共有コアは、露出の増加とともに一定である。

This paper measures the impact of increased exposure on whether learned construction grammars converge onto shared representations when trained on data from different registers. Register influences the frequency of constructions, with some structures common in formal but not informal usage. We expect that a grammar induction algorithm exposed to different registers will acquire different constructions. To what degree does increased exposure lead to the convergence of register-specific grammars? The experiments in this paper simulate language learning in 12 languages (half Germanic and half Romance) with corpora representing three registers (Twitter, Wikipedia, Web). These simulations are repeated with increasing amounts of exposure, from 100k to 2 million words, to measure the impact of exposure on the convergence of grammars. The results show that increased exposure does lead to converging grammars across all languages. In addition, a shared core of register-universal constructions remains constant across increasing amounts of exposure.
翻訳日:2021-10-14 05:09:33 公開日:2021-10-12
# (参考訳) スケーラブル深層学習による超音波画像からの肝ステアトーシスの精度と定量評価

Accurate and Generalizable Quantitative Scoring of Liver Steatosis from Ultrasound Images via Scalable Deep Learning ( http://arxiv.org/abs/2110.05664v1 )

ライセンス: CC BY 4.0
Bowen Li, Dar-In Tai, Ke Yan, Yi-Cheng Chen, Shiu-Feng Huang, Tse-Hwa Hsu, Wan-Ting Yu, Jing Xiao, Le Lu, Adam P. Harrison(参考訳) 背景と目的:肝ステアトーシスは慢性肝疾患の主要な原因である。 2D超音波はスクリーニングとモニタリングにおいて最も広く用いられている非侵襲的ツールであるが、関連する診断は非常に主観的である。 2次元超音波画像から肝脂肪症の定量的評価のための拡張型ディープラーニング(DL)アルゴリズムを開発した。 アプローチ&結果:3,310例,19,513例,画像228,075例の多視点超音波データを用いて,超音波診断からステアトーシスステージ(健康,軽度,中等度,重度)を診断するdlアルゴリズムを訓練した。 病理組織学的脂肪細胞パーセンテージの診断と線維スカン診断の1つのサブセットを伴う2つの非盲検・盲検例(147例,112例)で成績が検証された。 我々はまた、スキャナーと視点の信頼性を定量化した。 Bland-Altman and receiver operating characteristic (ROC) を用いて評価した。 DLアルゴリズムは、3つのプレミアム超音波スキャナー間で、適度な数の画像(各視点)と高一致で繰り返し測定を行う。 roc曲線下の領域では>mild,>=moderate,=severe steatosis gradesはそれぞれ0.85, 0.90, 0.93であった。 dlアルゴリズムはフィブロスカンに比較して有意な改善がみられ,非盲検組織学-プロフェンコホート,<severe steatosis on the blinded histology-proven cohortに対して統計的に有意な改善がみられた。 結論: DLアルゴリズムは2つのマルチスキャナーコホートにおけるビューおよびスキャナー間の信頼性の高い定量的ステアトーシス評価を提供する。 診断性能はフィブロスカンと同等かそれ以上であった。

Background & Aims: Hepatic steatosis is a major cause of chronic liver disease. 2D ultrasound is the most widely used non-invasive tool for screening and monitoring, but associated diagnoses are highly subjective. We developed a scalable deep learning (DL) algorithm for quantitative scoring of liver steatosis from 2D ultrasound images. Approach & Results: Using retrospectively collected multi-view ultrasound data from 3,310 patients, 19,513 studies, and 228,075 images, we trained a DL algorithm to diagnose steatosis stages (healthy, mild, moderate, or severe) from ultrasound diagnoses. Performance was validated on two multi-scanner unblinded and blinded (initially to DL developer) histology-proven cohorts (147 and 112 patients) with histopathology fatty cell percentage diagnoses, and a subset with FibroScan diagnoses. We also quantified reliability across scanners and viewpoints. Results were evaluated using Bland-Altman and receiver operating characteristic (ROC) analysis. The DL algorithm demonstrates repeatable measurements with a moderate number of images (3 for each viewpoint) and high agreement across 3 premium ultrasound scanners. High diagnostic performance was observed across all viewpoints: area under the curves of the ROC to classify >=mild, >=moderate, =severe steatosis grades were 0.85, 0.90, and 0.93, respectively. The DL algorithm outperformed or performed at least comparably to FibroScan with statistically significant improvements for all levels on the unblinded histology-proven cohort, and for =severe steatosis on the blinded histology-proven cohort. Conclusions: The DL algorithm provides a reliable quantitative steatosis assessment across view and scanners on two multi-scanner cohorts. Diagnostic performance was high with comparable or better performance than FibroScan.
翻訳日:2021-10-14 04:58:42 公開日:2021-10-12
# (参考訳) 私の言う通りにしてるの? ALFREDにおけるモダリティアライメントについて [全文訳有]

Are you doing what I say? On modalities alignment in ALFRED ( http://arxiv.org/abs/2110.05665v1 )

ライセンス: CC BY-SA 4.0
Ting-Rui Chiang, Yi-Ting Yeh, Ta-Chung Chi, Yau-Shian Wang(参考訳) ALFREDは最近提案されたベンチマークで、自然言語の命令によって指定されたシミュレーションされた住宅環境でタスクを完了させるモデルを必要とする。 成功への鍵は、テキストのモダリティを視覚的な入力と正確に一致させることであると仮定する。 提案する本質的指標である境界遵守スコア(bas)を用いて,既存のモデルがこれらのモダリティをどのように整列できるかを検証した。 結果は、以前のモデルが適切なアライメントを実行できないことを示している。 この問題に対処するために、モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンスの向上を実証する。

ALFRED is a recently proposed benchmark that requires a model to complete tasks in simulated house environments specified by instructions in natural language. We hypothesize that key to success is accurately aligning the text modality with visual inputs. Motivated by this, we inspect how well existing models can align these modalities using our proposed intrinsic metric, boundary adherence score (BAS). The results show the previous models are indeed failing to perform proper alignment. To address this issue, we introduce approaches aimed at improving model alignment and demonstrate how improved alignment, improves end task performance.
翻訳日:2021-10-14 04:57:10 公開日:2021-10-12
# (参考訳) NAS-Bench-360: ニューラルネットワーク探索のためのタスクのベンチマーク [全文訳有]

NAS-Bench-360: Benchmarking Diverse Tasks for Neural Architecture Search ( http://arxiv.org/abs/2110.05668v1 )

ライセンス: CC BY 4.0
Renbo Tu, Mikhail Khodak, Nicholas Roberts, Ameet Talwalkar(参考訳) 既存のニューラルネットワークサーチ(NAS)ベンチマークとアルゴリズムは、よく研究されたタスク、例えばCIFARとImageNetの画像分類のパフォーマンスを優先している。 これにより、より多様な領域におけるNASアプローチの適用性が不十分になる。 本稿では,畳み込みニューラルネットワーク(CNN)の最先端NAS手法を評価するベンチマークスイートであるNAS-Bench-360を提案する。 これを構築するために、さまざまなアプリケーションドメイン、データセットのサイズ、問題次元、学習目標からなる10のタスクのコレクションをキュレーションします。 従来のCNNベースの検索手法と相互運用できるタスクを慎重に選択することで、NAS-Bench-360は、従来のNASメソッドが様々なタスクでうまく機能しているかという、次の中心的な疑問に答えることができる。 画像分類のための現代的なNASプロシージャは、他の次元や学習目的を持つタスクに対して優れたアーキテクチャを見出すことができるが、同じ手法はよりタスク固有の手法に抗し、非視覚領域の分類において破滅的に貧弱な処理を行う。 リソース制約のある環境では、NASロバストネスのケースは、より単純なベースラインよりも、最近のNASメソッドでは、ほとんど恩恵を受けない。 これらの結果は、NAS-Bench-360のようなベンチマークが、真に堅牢で自動化されたパイプラインの重要なコンポーネントである様々なタスクでうまく機能するNASアプローチの開発を支援する必要性を示している。 最後に、一連のタスクが実現するであろう将来の研究のデモで締めくくります。 すべてのデータとコードは公開されています。

Most existing neural architecture search (NAS) benchmarks and algorithms prioritize performance on well-studied tasks, e.g., image classification on CIFAR and ImageNet. This makes the applicability of NAS approaches in more diverse areas inadequately understood. In this paper, we present NAS-Bench-360, a benchmark suite for evaluating state-of-the-art NAS methods for convolutional neural networks (CNNs). To construct it, we curate a collection of ten tasks spanning a diverse array of application domains, dataset sizes, problem dimensionalities, and learning objectives. By carefully selecting tasks that can both interoperate with modern CNN-based search methods but that are also far-afield from their original development domain, we can use NAS-Bench-360 to investigate the following central question: do existing state-of-the-art NAS methods perform well on diverse tasks? Our experiments show that a modern NAS procedure designed for image classification can indeed find good architectures for tasks with other dimensionalities and learning objectives; however, the same method struggles against more task-specific methods and performs catastrophically poorly on classification in non-vision domains. The case for NAS robustness becomes even more dire in a resource-constrained setting, where a recent NAS method provides little-to-no benefit over much simpler baselines. These results demonstrate the need for a benchmark such as NAS-Bench-360 to help develop NAS approaches that work well on a variety of tasks, a crucial component of a truly robust and automated pipeline. We conclude with a demonstration of the kind of future research our suite of tasks will enable. All data and code is made publicly available.
翻訳日:2021-10-14 04:45:56 公開日:2021-10-12
# (参考訳) 大規模言語モデルは強力な個人学習者になれる [全文訳有]

Large Language Models Can Be Strong Differentially Private Learners ( http://arxiv.org/abs/2110.05679v1 )

ライセンス: CC BY 4.0
Xuechen Li, Florian Tram\`er, Percy Liang, Tatsunori Hashimoto(参考訳) Differentially Private (DP) 学習はテキストの大規模深層学習モデルの構築に限定的に成功しており、NLPタスクに微分プライベート確率勾配(DP-SGD)を直接適用しようとする試みは、大きなパフォーマンス低下と高い計算オーバーヘッドをもたらしている。 この性能低下は,(1)大規模事前学習モデルの利用,(2)dp最適化に適したハイパーパラメータ,(3)事前学習手順に適合した微調整目標によって軽減できることを示す。 これらの要因を適切に設定することで、中規模コーパス上でdp最適化を施した事前学習モデルを直接調整することで、最先端のプライベートトレーニングアプローチや強力な非プライベートベースラインを上回るプライベートnlpモデルを得る。 大規模トランスフォーマーを用いたdp-sgdの計算課題に対処するために,dp-sgdのクリップングをモデル内の任意の層に対して,サンプル毎の勾配をインスタンス化することなく実行できるメモリ節約手法を提案する。 この技術は、最小限のランタイムオーバーヘッドでプライベートトレーニングとほぼ同じメモリコストで、トランスフォーマーをプライベートにトレーニングすることを可能にする。 DP最適化は高次元モデル(次元に合わせてスケールするノイズのため)の学習に失敗するという従来の知恵とは対照的に、事前学習されたモデルによる私的な学習は次元に依存した性能劣化に悩まされない傾向にある。

Differentially Private (DP) learning has seen limited success for building large deep learning models of text, and attempts at straightforwardly applying Differentially Private Stochastic Gradient Descent (DP-SGD) to NLP tasks have resulted in large performance drops and high computational overhead. We show that this performance drop can be mitigated with (1) the use of large pretrained models; (2) hyperparameters that suit DP optimization; and (3) fine-tuning objectives aligned with the pretraining procedure. With these factors set right, we obtain private NLP models that outperform state-of-the-art private training approaches and strong non-private baselines -- by directly fine-tuning pretrained models with DP optimization on moderately-sized corpora. To address the computational challenge of running DP-SGD with large Transformers, we propose a memory saving technique that allows clipping in DP-SGD to run without instantiating per-example gradients for any layer in the model. The technique enables privately training Transformers with almost the same memory cost as non-private training at a modest run-time overhead. Contrary to conventional wisdom that DP optimization fails at learning high-dimensional models (due to noise that scales with dimension) empirical results reveal that private learning with pretrained models tends to not suffer from dimension-dependent performance degradation.
翻訳日:2021-10-14 04:25:22 公開日:2021-10-12
# (参考訳) 収穫の方法がない:堅固な画像作物のローカライゼーションについて [全文訳有]

No way to crop: On robust image crop localization ( http://arxiv.org/abs/2110.05687v1 )

ライセンス: CC BY 4.0
Qichao Ying, Xiaoxiao Hu, Hang Zhou, Xiangyu Zhang, Zhengxin You and Zhenxing Qian(参考訳) 作物検出のための従来の画像鑑識は、画像が切り取られたかどうかの予測にのみ制限されている。 本稿では,ロバストな透かしを用いた画像作物定位手法を提案する。 さらに,攻撃画像に対する改ざん攻撃を検知する手法をさらに拡張する。 本手法は,高精度かつロバストな画像作物定位を提供する最初の手法であることを示す。 さらに、タンパー検出の精度は多くの最先端手法に匹敵する。

Previous image forensics schemes for crop detection are only limited on predicting whether an image has been cropped. This paper presents a novel scheme for image crop localization using robust watermarking. We further extend our scheme to detect tampering attack on the attacked image. We demonstrate that our scheme is the first to provide high-accuracy and robust image crop localization. Besides, the accuracy of tamper detection is comparable to many state-of-the-art methods.
翻訳日:2021-10-14 03:43:51 公開日:2021-10-12
# (参考訳) 包括的デザイン:認知障害者のアクセシビリティ設定 [全文訳有]

Inclusive Design: Accessibility Settings for People with Cognitive Disabilities ( http://arxiv.org/abs/2110.05688v1 )

ライセンス: CC BY-SA 4.0
Trae Waggoner, Julia Ann Jose, Ashwin Nair, Sudarsan Manikandan(参考訳) 技術の進歩は世界のどの分野よりも急速に進展しており、これらの新技術の発展に伴い、これらのツールが障害者を含むすべての人が確実に利用できるようにすることが重要である。 コンピュータ機器のアクセシビリティオプションは、誰もが高度な技術に同じアクセスを確実にするのに役立つ。 残念ながら、筋萎縮性側索硬化症(ALS)のような、よりユニークで時折困難な宿泊施設を必要とする人々にとって、最も一般的に使用されるアクセシビリティー機能は、単に不十分である。 ALSの補助技術は存在するが、複数の周辺機器が必要であり、一括して非常に高価になる。 本研究の目的は,スマートフォンやタブレットに実装可能なALSアシスト技術に対して,より安価で手頃な選択肢を提案することである。

The advancement of technology has progressed faster than any other field in the world and with the development of these new technologies, it is important to make sure that these tools can be used by everyone, including people with disabilities. Accessibility options in computing devices help ensure that everyone has the same access to advanced technologies. Unfortunately, for those who require more unique and sometimes challenging accommodations, such as people with Amyotrophic lateral sclerosis ( ALS), the most commonly used accessibility features are simply not enough. While assistive technology for those with ALS does exist, it requires multiple peripheral devices that can become quite expensive collectively. The purpose of this paper is to suggest a more affordable and readily available option for ALS assistive technology that can be implemented on a smartphone or tablet.
翻訳日:2021-10-14 03:27:12 公開日:2021-10-12
# (参考訳) 実世界ロバストな画像に画像を入れる [全文訳有]

Hiding Images into Images with Real-world Robustness ( http://arxiv.org/abs/2110.05689v1 )

ライセンス: CC BY 4.0
Qichao Ying, Hang Zhou, Xianhan Zeng, Haisheng Xu, Zhenxing Qian and Xinpeng Zhang(参考訳) 既存の画像埋め込みネットワークは、JPEG圧縮やノイズ付加のような悪意のある攻撃に対して本質的に脆弱であり、現実世界の著作権保護タスクには適用できない。 そこで本研究では,合成画像から高品質な抽出を行いながら画像に画像を隠す,生成的深層ネットワークに基づく手法を提案する。 埋め込みネットワークは、攻撃層、疎結合ネットワーク、画像抽出ネットワークと順次連結される。 分離ネットワークの追加により、攻撃された画像から埋め込み透かしを抽出する。 また,先行研究におけるロバスト性に対する敵意トレーニングの弱点を指摘し,改良した実世界アタックシミュレータを構築した。 実験結果から,提案手法が一般的なディジタル攻撃に対して大きなマージンで勝ることを示すとともに,プログレッシブ・リカバリ戦略の助けを借りて,回復画像の性能向上を図った。 さらに、我々は3つの秘密画像をロバストに隠した最初の人物です。

The existing image embedding networks are basically vulnerable to malicious attacks such as JPEG compression and noise adding, not applicable for real-world copyright protection tasks. To solve this problem, we introduce a generative deep network based method for hiding images into images while assuring high-quality extraction from the destructive synthesized images. An embedding network is sequentially concatenated with an attack layer, a decoupling network and an image extraction network. The addition of decoupling network learns to extract the embedded watermark from the attacked image. We also pinpoint the weaknesses of the adversarial training for robustness in previous works and build our improved real-world attack simulator. Experimental results demonstrate the superiority of the proposed method against typical digital attacks by a large margin, as well as the performance boost of the recovered images with the aid of progressive recovery strategy. Besides, we are the first to robustly hide three secret images.
翻訳日:2021-10-14 03:20:32 公開日:2021-10-12
# (参考訳) 観測・実験データからの部分的対物同定 [全文訳有]

Partial Counterfactual Identification from Observational and Experimental Data ( http://arxiv.org/abs/2110.05690v1 )

ライセンス: CC BY-SA 4.0
Junzhe Zhang, Jin Tian, Elias Bareinboim(参考訳) 本稿では,観測分布および実験分布の任意の集合からの反事実クエリのバウンディング問題と,因果図形式で表される基礎となるデータ生成モデルに関する質的知識について検討する。 任意の構造因果モデル(SCM)におけるすべての反事実分布は、観測されていない(外在的な)変数が有限領域で離散的な同じ因果図を持つSCMの正準族によって生成できることを示す。 正準scmを用いて,反事実クエリに対して解が最適境界を与える多項式プログラミングの問題に反事実のバウンディング問題を翻訳する。 このような多項式プログラムの解法は通常計算コストが高い。 そこで我々は,観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。 私たちのアルゴリズムは、合成および実世界のデータセット上で広く検証されています。

This paper investigates the problem of bounding counterfactual queries from an arbitrary collection of observational and experimental distributions and qualitative knowledge about the underlying data-generating model represented in the form of a causal diagram. We show that all counterfactual distributions in an arbitrary structural causal model (SCM) could be generated by a canonical family of SCMs with the same causal diagram where unobserved (exogenous) variables are discrete with a finite domain. Utilizing the canonical SCMs, we translate the problem of bounding counterfactuals into that of polynomial programming whose solution provides optimal bounds for the counterfactual query. Solving such polynomial programs is in general computationally expensive. We therefore develop effective Monte Carlo algorithms to approximate the optimal bounds from an arbitrary combination of observational and experimental data. Our algorithms are validated extensively on synthetic and real-world datasets.
翻訳日:2021-10-14 03:08:08 公開日:2021-10-12
# (参考訳) 弱ラベル映像におけるタスク認識とアクションセグメンテーションのための階層的モデリング [全文訳有]

Hierarchical Modeling for Task Recognition and Action Segmentation in Weakly-Labeled Instructional Videos ( http://arxiv.org/abs/2110.05697v1 )

ライセンス: CC BY 4.0
Reza Ghoddoosian, Saif Sayed, Vassilis Athitsos(参考訳) 本稿では,訓練中のビデオレベルアクションの順序列のみを使用可能な,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。 本稿では,意味的階層と時間的階層を利用して指導ビデオの上位タスクを認識する2ストリームフレームワークを提案する。 さらに,提案手法では,微粒なアクションシーケンスの推論を制約するために,予測タスクが使用される。 人気のBreakfast and Cooking 2データセットの実験結果から、私たちの2ストリームの階層的なタスクモデリングは、すべてのデータセットとメトリクスの上位レベルのタスク認識において、既存のメソッドよりも大幅に優れています。 さらに,提案するトップダウンアクションセグメンテーション手法におけるタスク認識フレームワークの利用により,技術状況は一貫して改善され,セグメンテーションの時間も80~90%短縮される。

This paper focuses on task recognition and action segmentation in weakly-labeled instructional videos, where only the ordered sequence of video-level actions is available during training. We propose a two-stream framework, which exploits semantic and temporal hierarchies to recognize top-level tasks in instructional videos. Further, we present a novel top-down weakly-supervised action segmentation approach, where the predicted task is used to constrain the inference of fine-grained action sequences. Experimental results on the popular Breakfast and Cooking 2 datasets show that our two-stream hierarchical task modeling significantly outperforms existing methods in top-level task recognition for all datasets and metrics. Additionally, using our task recognition framework in the proposed top-down action segmentation approach consistently improves the state of the art, while also reducing segmentation inference time by 80-90 percent.
翻訳日:2021-10-14 02:11:16 公開日:2021-10-12
# (参考訳) データセットにおけるアノテータレベルラベルと情報のリリースについて [全文訳有]

On Releasing Annotator-Level Labels and Information in Datasets ( http://arxiv.org/abs/2110.05699v1 )

ライセンス: CC BY 4.0
Vinodkumar Prabhakaran, Aida Mostafazadeh Davani, Mark D\'iaz(参考訳) NLPデータセットの構築における一般的なプラクティスは、特にクラウドソースのアノテーションを使用して、同じデータインスタンス上で複数のアノテータ判断を取得し、多数決、平均化、あるいは偏見を通じて、単一の"地上真実"ラベルまたはスコアを生成するようにフラット化される。 これらのアプローチは特定のアノテーションタスクに適しているが、そのような集約は、より主観的なタスクに対するアノテーションがキャプチャーすることを意図した、社会的に構築された人間の知覚の性質を見落としている。 特に、社会文化的背景や生活経験による注釈者間の系統的不一致は、しばしばそのような集約によって無視される。 本稿では,ラベルアグリゲーションが個人およびグループ視点の表現バイアスをもたらすことを実証的に示す。 この発見に基づいて、下流のユースケースに対するデータセットの有用性と透明性を高めるための一連の勧告を提案する。

A common practice in building NLP datasets, especially using crowd-sourced annotations, involves obtaining multiple annotator judgements on the same data instances, which are then flattened to produce a single "ground truth" label or score, through majority voting, averaging, or adjudication. While these approaches may be appropriate in certain annotation tasks, such aggregations overlook the socially constructed nature of human perceptions that annotations for relatively more subjective tasks are meant to capture. In particular, systematic disagreements between annotators owing to their socio-cultural backgrounds and/or lived experiences are often obfuscated through such aggregations. In this paper, we empirically demonstrate that label aggregation may introduce representational biases of individual and group perspectives. Based on this finding, we propose a set of recommendations for increased utility and transparency of datasets for downstream use cases.
翻訳日:2021-10-14 01:51:19 公開日:2021-10-12
# (参考訳) デプロイ中の安全・コンプライアンスのためのロボット学習 [全文訳有]

Auditing Robot Learning for Safety and Compliance during Deployment ( http://arxiv.org/abs/2110.05702v1 )

ライセンス: CC BY 4.0
Homanga Bharadhwaj(参考訳) 未来のロボットは、さまざまなタスクで人間らしく超人間的な知性を発揮するようになるだろう。 彼らはまた、失敗し、より微妙な方法で人間の好みに従わない可能性が高い。 自律型ロボットの実現という目標に向けて、ロボット学習コミュニティは、データとインタラクションを通じてロボットを訓練するための機械学習技術の適用を、急速に進めてきた。 これにより、これらのアルゴリズムが人間との互換性、関係性、緊急性をチェックするのに最適な方法が研究される。 本稿では,aiの安全性とアライメントのコミュニティからインスピレーションを得て,ロボット学習アルゴリズムを最もよく監査し,障害モードをチェックし,自律的に運用する場合,人間のアルゴリズム設計者が意図する方法で行動することを保証する方法について,緊急に検討する必要があることを述べる。 これはロボット学習コミュニティ全体の努力を必要とする課題であり、監査のための具体的なフレームワークを提供しようとはしていません。 その代わり、ロボット学習の文脈で監査を考える上で有用な出発点として、我々は、高レベルのガイダンスと、このフレームワークの定式化への可能なアプローチを概説する。

Robots of the future are going to exhibit increasingly human-like and super-human intelligence in a myriad of different tasks. They are also likely going to fail and be incompliant with human preferences in increasingly subtle ways. Towards the goal of achieving autonomous robots, the robot learning community has made rapid strides in applying machine learning techniques to train robots through data and interaction. This makes the study of how best to audit these algorithms for checking their compatibility with humans, pertinent and urgent. In this paper, we draw inspiration from the AI Safety and Alignment communities and make the case that we need to urgently consider ways in which we can best audit our robot learning algorithms to check for failure modes, and ensure that when operating autonomously, they are indeed behaving in ways that the human algorithm designers intend them to. We believe that this is a challenging problem that will require efforts from the entire robot learning community, and do not attempt to provide a concrete framework for auditing. Instead, we outline high-level guidance and a possible approach towards formulating this framework which we hope will serve as a useful starting point for thinking about auditing in the context of robot learning.
翻訳日:2021-10-14 01:42:28 公開日:2021-10-12
# (参考訳) 不一致に対処する - 主観的アノテーションの多数決を超えて見る [全文訳有]

Dealing with Disagreements: Looking Beyond the Majority Vote in Subjective Annotations ( http://arxiv.org/abs/2110.05719v1 )

ライセンス: CC BY 4.0
Aida Mostafazadeh Davani, Mark D\'iaz, Vinodkumar Prabhakaran(参考訳) 多数決と平均化は、アノテータの不一致を解消し、複数のアノテーションから単一基底真理ラベルを導出するための一般的なアプローチである。 しかし、アノテーターは体系的に互いに意見の相違があり、特に感情、攻撃性、ヘイトスピーチなどの主観的タスクの場合、個々のバイアスや価値観を反映することが多い。 アノテーションの不一致は、しばしば無視されるようなタスクにおいて重要なニュアンスを捉え、アノテーションを一つの根拠の真実に集約する。 そこで本研究では,マルチアノテータモデルの有効性について検討する。 特に、マルチタスクに基づくアプローチでは、各アノテータの判断を個別のサブタスクとして予測し、タスクの共通の学習表現を共有する。 このアプローチは、7つの異なるバイナリ分類タスクにまたがるトレーニングの前にデータラベルを集約するよりも、同等または優れたパフォーマンスをもたらす。 提案手法は予測の不確かさを推定する手段も提供し,従来の手法よりもアノテーションの不一致との相関が良好であることを示す。 不確実性をモデル化できることは、予測を行うべきでないことを知るデプロイメントシナリオにおいて特に有用である。

Majority voting and averaging are common approaches employed to resolve annotator disagreements and derive single ground truth labels from multiple annotations. However, annotators may systematically disagree with one another, often reflecting their individual biases and values, especially in the case of subjective tasks such as detecting affect, aggression, and hate speech. Annotator disagreements may capture important nuances in such tasks that are often ignored while aggregating annotations to a single ground truth. In order to address this, we investigate the efficacy of multi-annotator models. In particular, our multi-task based approach treats predicting each annotators' judgements as separate subtasks, while sharing a common learned representation of the task. We show that this approach yields same or better performance than aggregating labels in the data prior to training across seven different binary classification tasks. Our approach also provides a way to estimate uncertainty in predictions, which we demonstrate better correlate with annotation disagreements than traditional methods. Being able to model uncertainty is especially useful in deployment scenarios where knowing when not to make a prediction is important.
翻訳日:2021-10-14 01:34:00 公開日:2021-10-12
# (参考訳) LightSeq: GPU上のトランスフォーマーベースのモデルの高速化トレーニング [全文訳有]

LightSeq: Accelerated Training for Transformer-based Models on GPUs ( http://arxiv.org/abs/2110.05722v1 )

ライセンス: CC BY 4.0
Xiaohui Wang, Ying Xiong, Xian Qian, Yang Wei, Lei Li, Mingxuan Wang(参考訳) トランスフォーマーベースのモデルは、多くの自然言語、コンピュータビジョン、音声認識アプリケーションで強力であることが証明されている。 これらのモデルのトレーニングは、未修正の入力長、複雑な計算、そして大量のパラメータのために高価である。 既存のシステムは効率的な推論のみにフォーカスするか、bertライクなエンコーダモデルのみを最適化する。 本稿では,GPU上でのTransformerベースのモデルの効率的なトレーニングシステムであるLightSeqを提案する。 本稿では,トランスフォーマーにおけるニューラルネットワークの計算フローとメモリアクセスパターンに適したgpu最適化手法を提案する。 LightSeqはBERT(エンコーダのみ)、GPT(デコーダのみ)、Transformer(エンコーダのみ)など、さまざまなネットワークアーキテクチャをサポートしている。 各種モデルとデータセットを用いたGPU実験の結果,LightSeqは従来のシステムに比べて1.4-3.5倍高速であることがわかった。 特に、大規模な公開機械翻訳ベンチマーク(WMT14英語-ドイツ語)の既存のシステムと比較して、トレーニング速度が308%向上している。

Transformer-based models have proven to be powerful in many natural language, computer vision, and speech recognition applications. It is expensive to train these types of models due to unfixed input length, complex computation, and large numbers of parameters. Existing systems either only focus on efficient inference or optimize only BERT-like encoder models. In this paper, we present LightSeq, a system for efficient training of Transformer-based models on GPUs. We propose a series of GPU optimization techniques tailored to computation flow and memory access patterns of neural layers in Transformers. LightSeq supports a variety of network architectures, including BERT (encoder-only), GPT (decoder-only), and Transformer (encoder-decoder). Our experiments on GPUs with varying models and datasets show that LightSeq is 1.4-3.5x faster than previous systems. In particular, it gains 308% training speedup compared with existing systems on a large public machine translation benchmark (WMT14 English-German).
翻訳日:2021-10-14 01:12:05 公開日:2021-10-12
# (参考訳) SOTA照合アルゴリズムのロバスト性評価のためのオントノートにGUMを適応させるオントガムの解剖 [全文訳有]

Anatomy of OntoGUM--Adapting GUM to the OntoNotes Scheme to Evaluate Robustness of SOTA Coreference Algorithms ( http://arxiv.org/abs/2110.05727v1 )

ライセンス: CC BY 4.0
Yilun Zhu, Sameer Pradhan, Amir Zeldes(参考訳) SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。 しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。 Zhu et al. (2021)は、最新のニューラルLMベースのエンドツーエンドシステムの発芽性を評価するためのOntoGUMコーパスの作成を導入した。 本稿では,GUMコーパスで手動で注釈付けされたリッチな構文および談話アノテーションに適用される決定論的ルールの集合であるマッピングプロセスの詳細について述べる。 12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。

SOTA coreference resolution produces increasingly impressive scores on the OntoNotes benchmark. However lack of comparable data following the same scheme for more genres makes it difficult to evaluate generalizability to open domain data. Zhu et al. (2021) introduced the creation of the OntoGUM corpus for evaluating geralizability of the latest neural LM-based end-to-end systems. This paper covers details of the mapping process which is a set of deterministic rules applied to the rich syntactic and discourse annotations manually annotated in the GUM corpus. Out-of-domain evaluation across 12 genres shows nearly 15-20% degradation for both deterministic and deep learning systems, indicating a lack of generalizability or covert overfitting in existing coreference resolution models.
翻訳日:2021-10-14 00:51:05 公開日:2021-10-12
# (参考訳) マルチエージェント協調視覚探索の学習 [全文訳有]

Learning Efficient Multi-Agent Cooperative Visual Exploration ( http://arxiv.org/abs/2110.05734v1 )

ライセンス: CC BY 4.0
Chao Yu, Xinyi Yang, Jiaxuan Gao, Huazhong Yang, Yu Wang, Yi Wu(参考訳) 本稿では,複数のエージェントによる視覚的室内探索の課題について検討し,エージェントは可能な限り少ないステップで屋内領域全体を協調的に探索する必要がある。 古典的な計画に基づく手法は、推論ステップごとに特に高価な計算に悩まされ、協調戦略の限定的な表現性に悩まされることが多い。 対照的に、強化学習(RL)は、任意の複雑な戦略のモデリング能力と最小の推論オーバーヘッドのため、この課題に取り組むためのトレンドパラダイムとなっている。 本稿では,各エージェントの空間情報をエンドツーエンドで活用し,探索効率の高い異なる空間目標に向けて,エージェントを効果的に誘導する新しいrlベースのグローバルゴールプランナーである空間協調プランナー(scp)を導入することにより,最先端のシングルエージェントrlソリューションであるアクティブニューラルスラム(ans)をマルチエージェント設定に拡張する。 SCPは、エージェント内相互作用をキャプチャするトランスフォーマーベースのリレーションエンコーダと、正確な目標を生成する空間行動デコーダから構成される。 さらに,各エージェントからの局所情報を処理するマルチエージェント拡張も実装し,協調した空間表現とより正確な計画を行う。 最後のソリューションであるMulti-Agent Active Neural SLAM (MAANS) は、これらの技術を組み合わせて、4つの異なるプランニングベース手法と、写真リアルな物理テストベッドHabitatにおける様々なRLベースラインを大幅に上回る。

We consider the task of visual indoor exploration with multiple agents, where the agents need to cooperatively explore the entire indoor region using as few steps as possible. Classical planning-based methods often suffer from particularly expensive computation at each inference step and a limited expressiveness of cooperation strategy. By contrast, reinforcement learning (RL) has become a trending paradigm for tackling this challenge due to its modeling capability of arbitrarily complex strategies and minimal inference overhead. We extend the state-of-the-art single-agent RL solution, Active Neural SLAM (ANS), to the multi-agent setting by introducing a novel RL-based global-goal planner, Spatial Coordination Planner (SCP), which leverages spatial information from each individual agent in an end-to-end manner and effectively guides the agents to navigate towards different spatial goals with high exploration efficiency. SCP consists of a transformer-based relation encoder to capture intra-agent interactions and a spatial action decoder to produce accurate goals. In addition, we also implement a few multi-agent enhancements to process local information from each agent for an aligned spatial representation and more precise planning. Our final solution, Multi-Agent Active Neural SLAM (MAANS), combines all these techniques and substantially outperforms 4 different planning-based methods and various RL baselines in the photo-realistic physical testbed, Habitat.
翻訳日:2021-10-14 00:39:37 公開日:2021-10-12
# (参考訳) 後継表現を用いた強化学習における時間的抽象化

Temporal Abstraction in Reinforcement Learning with the Successor Representation ( http://arxiv.org/abs/2110.05740v1 )

ライセンス: CC BY 4.0
Marlos C. Machado and Andre Barreto and Doina Precup(参考訳) 時間的抽象化の複数のレベルでの推論は、インテリジェンスの重要な特性の1つである。 強化学習では、オプションと呼ばれる時間的に拡張されたアクションのコースを通じてモデル化されることが多い。 オプションによってエージェントは予測を行い、環境内のさまざまなレベルの抽象化で操作できる。 それでも、option frameworkに基づくアプローチは、合理的なオプションセットが事前に知られているという仮定から始めることが多い。 もしそうでなければ、どの選択肢を検討するべきか決定的な答えはありません。 本稿では,国家訪問のパターンに基づいて状態を符号化した後継表現 (SR) を,時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。 我々の主張を支持するために、我々は最近の成果を概観し、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示した。 我々はこれらの結果を,エージェントの表現を用いて有用なオプションを識別し,その表現をさらに改善する,オプション発見のための一般的なフレームワークのインスタンス化として用いた。 この結果、表現とオプションの両方が互いに基づいて常に洗練される、厳密で絶え間ないサイクルがもたらされる。 オプション発見そのもの以外にも、SRによって、追加の学習なしに、組合せ的に大きな選択肢にオプションセットを拡張できる方法について論じる。 これは、以前に学習したオプションを組み合わせることで実現される。 我々の経験的評価は、時間的拡張探索のための選択肢と、それらを組み合わせるためのSRの使用に焦点を当てている。 実験の結果,オプションの定義に関わる設計上の決定に光を当て,固有オプションやオプションキーボードなど,SRに基づく異なる手法の相乗効果を実証した。

Reasoning at multiple levels of temporal abstraction is one of the key attributes of intelligence. In reinforcement learning, this is often modeled through temporally extended courses of actions called options. Options allow agents to make predictions and to operate at different levels of abstraction within an environment. Nevertheless, approaches based on the options framework often start with the assumption that a reasonable set of options is known beforehand. When this is not the case, there are no definitive answers for which options one should consider. In this paper, we argue that the successor representation (SR), which encodes states based on the pattern of state visitation that follows them, can be seen as a natural substrate for the discovery and use of temporal abstractions. To support our claim, we take a big picture view of recent results, showing how the SR can be used to discover options that facilitate either temporally-extended exploration or planning. We cast these results as instantiations of a general framework for option discovery in which the agent's representation is used to identify useful options, which are then used to further improve its representation. This results in a virtuous, never-ending, cycle in which both the representation and the options are constantly refined based on each other. Beyond option discovery itself, we discuss how the SR allows us to augment a set of options into a combinatorially large counterpart without additional learning. This is achieved through the combination of previously learned options. Our empirical evaluation focuses on options discovered for temporally-extended exploration and on the use of the SR to combine them. The results of our experiments shed light on design decisions involved in the definition of options and demonstrate the synergy of different methods based on the SR, such as eigenoptions and the option keyboard.
翻訳日:2021-10-14 00:17:15 公開日:2021-10-12
# (参考訳) SEPP: 逆文の保存・検出のための予測確率の類似性推定 [全文訳有]

SEPP: Similarity Estimation of Predicted Probabilities for Defending and Detecting Adversarial Text ( http://arxiv.org/abs/2110.05748v1 )

ライセンス: CC BY 4.0
Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku Kiyomoto(参考訳) 分類器が入力テキストをどのように処理するか、すなわち誤分類と正しい分類の2つのケースがある。 誤分類されたテキストの観点では、分類器は不正な予測と敵対的なテキストの両方でテキストを扱い、分類器を騙すために生成される。 どちらのタイプも被害者によって誤解されているが、他の分類器でも認識できる。 これにより、被害者と他の分類器の間の予測確率に大きなギャップが生じる。 対照的に、被害者によって正しく分類されたテキストは、しばしば他人によって予測され、小さなギャップを生じさせる。 本稿では,予測確率の類似度推定(sepp)に基づくアンサンブルモデルを提案する。 SEPPは、誤分類されたテキストの誤った予測を修正する。 各種の被害者分類器、分類タスク、敵攻撃による敵対的テキストの保護・検出におけるSEPPのレジリエンスを実証する。

There are two cases describing how a classifier processes input text, namely, misclassification and correct classification. In terms of misclassified texts, a classifier handles the texts with both incorrect predictions and adversarial texts, which are generated to fool the classifier, which is called a victim. Both types are misunderstood by the victim, but they can still be recognized by other classifiers. This induces large gaps in predicted probabilities between the victim and the other classifiers. In contrast, text correctly classified by the victim is often successfully predicted by the others and induces small gaps. In this paper, we propose an ensemble model based on similarity estimation of predicted probabilities (SEPP) to exploit the large gaps in the misclassified predictions in contrast to small gaps in the correct classification. SEPP then corrects the incorrect predictions of the misclassified texts. We demonstrate the resilience of SEPP in defending and detecting adversarial texts through different types of victim classifiers, classification tasks, and adversarial attacks.
翻訳日:2021-10-14 00:16:00 公開日:2021-10-12
# (参考訳) 構造・電子特性の機械学習解析による金属組織によるCO$_2$の回収効率の予測 [全文訳有]

Predicting the Efficiency of CO$_2$ Sequestering by Metal Organic Frameworks Through Machine Learning Analysis of Structural and Electronic Properties ( http://arxiv.org/abs/2110.05753v1 )

ライセンス: CC BY 4.0
Mahati Manda(参考訳) 気候変動の深刻化により、効率的なco$_2$キャプチャの実装が重要になっている。 このプロジェクトの目的は、機械学習を用いて、CO$2$の金属有機フレームワーク(MOF)の取り込みを予測するアルゴリズムを作成することである。 これらの値は、これらのMOFの効率を測り、MOFが合成に値するかどうかを最大化する方法を探している科学者に提供します。 このアルゴリズムは、科学者が仮説MOFを低効率で無視できるため、時間や機器などの資源を節約する。 さらに,本稿では,データセット内の最も重要な機能についても強調する。 この研究は、MOFを吸着するCO$2$の迅速な合成に寄与する。

Due the alarming rate of climate change, the implementation of efficient CO$_2$ capture has become crucial. This project aims to create an algorithm that predicts the uptake of CO$_2$ adsorbing Metal-Organic Frameworks (MOFs) by using Machine Learning. These values will in turn gauge the efficiency of these MOFs and provide scientists who are looking to maximize the uptake a way to know whether or not the MOF is worth synthesizing. This algorithm will save resources such as time and equipment as scientists will be able to disregard hypothetical MOFs with low efficiencies. In addition, this paper will also highlight the most important features within the data set. This research will contribute to enable the rapid synthesis of CO$_2$ adsorbing MOFs.
翻訳日:2021-10-14 00:04:36 公開日:2021-10-12
# (参考訳) 不均質体型エージェントにおける創発的コミュニケーションの解釈

Interpretation of Emergent Communication in Heterogeneous Collaborative Embodied Agents ( http://arxiv.org/abs/2110.05769v1 )

ライセンス: CC BY 4.0
Shivansh Patel, Saim Wani, Unnat Jain, Alexander Schwing, Svetlana Lazebnik, Manolis Savva, Angel X. Chang(参考訳) エンボディドAIエージェント間のコミュニケーションは近年注目を集めている。 その使用にもかかわらず、学習されたコミュニケーションが解釈可能で、知覚に基礎があるかどうかはまだ不明である。 まず,創発的なコミュニケーション形態の接地を研究するため,協調型多目的ナビゲーションタスクcomonを導入する。 この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。 視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。 タスクを成功させるためには、効果的なコミュニケーションが不可欠である。 したがって、コモンは異種エージェント、すなわち異なる機能と役割を持つエージェント間の異なるコミュニケーション機構を研究する基礎となる。 2つの共通通信機構を調査し,エゴセントリックレンズと空間レンズを用いて通信パターンを分析した。 創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。 ビデオ要約: https://youtu.be/kLv 2rxO9t0g

Communication between embodied AI agents has received increasing attention in recent years. Despite its use, it is still unclear whether the learned communication is interpretable and grounded in perception. To study the grounding of emergent forms of communication, we first introduce the collaborative multi-object navigation task CoMON. In this task, an oracle agent has detailed environment information in the form of a map. It communicates with a navigator agent that perceives the environment visually and is tasked to find a sequence of goals. To succeed at the task, effective communication is essential. CoMON hence serves as a basis to study different communication mechanisms between heterogeneous agents, that is, agents with different capabilities and roles. We study two common communication mechanisms and analyze their communication patterns through an egocentric and spatial lens. We show that the emergent communication can be grounded to the agent observations and the spatial structure of the 3D environment. Video summary: https://youtu.be/kLv 2rxO9t0g
翻訳日:2021-10-13 23:56:50 公開日:2021-10-12
# (参考訳) 語彙減少における認知的要因の定量化 [全文訳有]

Quantifying Cognitive Factors in Lexical Decline ( http://arxiv.org/abs/2110.05775v1 )

ライセンス: CC BY 4.0
David Francis, Ella Rabinovich, Farhan Samir, David Mortensen, Suzanne Stevenson(参考訳) 我々は,認知的要因(社会的要因に加えて)が言語エコシステムにおける単語の適合性とその成功に影響を及ぼす言語変化に関する進化的視点を採用する。 具体的には、単語が時間とともに大幅に頻度を減少させる語彙の減少を予測できる様々な心理言語学的要因(意味、分布、音韻論的)を提案する。 3つの言語(英語、フランス語、ドイツ語)にまたがる歴史的データを用いて、提案された要因のほとんどが、それぞれの縮小した単語群と一致した安定な単語の予測方向に有意な差があることが判明した。 さらに,ロジスティック回帰分析により,意味的および分布的要因が単語減少を予測する上で重要であることが示された。 さらにダイアクロニック分析により、単語の減少は時間とともに語彙的文脈の多様性を減少させ、徐々に「生態的ニッチ」を狭める傾向があることが明らかになった。

We adopt an evolutionary view on language change in which cognitive factors (in addition to social ones) affect the fitness of words and their success in the linguistic ecosystem. Specifically, we propose a variety of psycholinguistic factors -- semantic, distributional, and phonological -- that we hypothesize are predictive of lexical decline, in which words greatly decrease in frequency over time. Using historical data across three languages (English, French, and German), we find that most of our proposed factors show a significant difference in the expected direction between each curated set of declining words and their matched stable words. Moreover, logistic regression analyses show that semantic and distributional factors are significant in predicting declining words. Further diachronic analysis reveals that declining words tend to decrease in the diversity of their lexical contexts over time, gradually narrowing their 'ecological niches'.
翻訳日:2021-10-13 23:55:35 公開日:2021-10-12
# (参考訳) ダイアログの類似性を測定するための新しいアプローチ [全文訳有]

We've had this conversation before: A Novel Approach to Measuring Dialog Similarity ( http://arxiv.org/abs/2110.05780v1 )

ライセンス: CC BY 4.0
Ofer Lavi, Ella Rabinovich, Segev Shlomov, David Boaz, Inbal Ronen, Ateret Anaby-Tavor(参考訳) ダイアログは人間の自然言語相互作用の中核的な構成要素である。 動的かつ進化的な方法で、ある当事者から別の当事者に情報を伝えるために使用される多人数発話を含む。 ダイアログを比較する機能は、コンタクトセンター呼び出しの会話分析や仮想エージェント設計など、現実世界の多くのユースケースで有用である。 ダイアログ類似性のシナリオに対する編集距離距離の新たな適応法を提案する。 提案手法は発話意味論,会話フロー,参加者など,会話のさまざまな側面を考慮に入れる。 この新しいアプローチを評価し、2つの公開データセット上の既存の文書類似度尺度と比較する。 その結果,提案手法は対話フローをキャプチャする他の手法よりも優れており,会話の類似性に対する人間の認識に合致する可能性が示唆された。

Dialog is a core building block of human natural language interactions. It contains multi-party utterances used to convey information from one party to another in a dynamic and evolving manner. The ability to compare dialogs is beneficial in many real world use cases, such as conversation analytics for contact center calls and virtual agent design. We propose a novel adaptation of the edit distance metric to the scenario of dialog similarity. Our approach takes into account various conversation aspects such as utterance semantics, conversation flow, and the participants. We evaluate this new approach and compare it to existing document similarity measures on two publicly available datasets. The results demonstrate that our method outperforms the other approaches in capturing dialog flow, and is better aligned with the human perception of conversation similarity.
翻訳日:2021-10-13 23:35:19 公開日:2021-10-12
# (参考訳) オープンプレイヤーモデリング: データ透明性によるプレイヤーの強化 [全文訳有]

Open Player Modeling: Empowering Players through Data Transparency ( http://arxiv.org/abs/2110.05810v1 )

ライセンス: CC BY 4.0
Jichen Zhu, Magy Seif El-Nasr(参考訳) データは、ほとんどのソフトウェアの設計決定において重要なポイントになりつつある。 ゲーム開発は例外ではない。 データ駆動の手法やシステムがこれらの環境に浸透し始めたとき、よい疑問は、このデータから開発されたモデルをユーザに透過的に提供することができるか、ということです。 本稿では,知的ユーザインタフェースと学習科学研究コミュニティの既存の成果を合成し,これらのデータとモデルをユーザに提供する可能性について検討した。 次に,新たな研究分野としてオープンプレイヤモデリング(open player modeling)という,この問題を探求する新たな領域を提案する。 我々は、オープンプレイヤーモデルの設計空間を定義し、ゲーム研究コミュニティが探求できるエキサイティングなオープン問題を提示します。 本稿はケーススタディで締めくくり、このアプローチの潜在的価値について論じる。

Data is becoming an important central point for making design decisions for most software. Game development is not an exception. As data-driven methods and systems start to populate these environments, a good question is: can we make models developed from this data transparent to users? In this paper, we synthesize existing work from the Intelligent User Interface and Learning Science research communities, where they started to investigate the potential of making such data and models available to users. We then present a new area exploring this question, which we call Open Player Modeling, as an emerging research area. We define the design space of Open Player Models and present exciting open problems that the games research community can explore. We conclude the paper with a case study and discuss the potential value of this approach.
翻訳日:2021-10-13 23:24:42 公開日:2021-10-12
# (参考訳) 衛星画像のセマンティックセグメンテーション [全文訳有]

Satellite Image Semantic Segmentation ( http://arxiv.org/abs/2110.05812v1 )

ライセンス: CC BY-SA 4.0
Eric Gu\'erin, Killian Oechslin, Christian Wolf, Beno\^it Martinez(参考訳) 本稿では,衛星画像の自動セマンティクスセグメンテーションを6つのクラス(疎林,密林,湿原,草本形成,建築,道路)に分類する手法を提案する。 Swin Transformerアーキテクチャに頼り、IGNのオープンデータからデータセットを構築します。 本稿では,このデータセットの定量および定性的セグメンテーション結果について報告し,強度と限界について考察する。 データセットとトレーニングされたモデルは公開されています。

In this paper, we propose a method for the automatic semantic segmentation of satellite images into six classes (sparse forest, dense forest, moor, herbaceous formation, building, and road). We rely on Swin Transformer architecture and build the dataset from IGN open data. We report quantitative and qualitative segmentation results on this dataset and discuss strengths and limitations. The dataset and the trained model are made publicly available.
翻訳日:2021-10-13 23:12:00 公開日:2021-10-12
# (参考訳) CoarSAS2hvec: バランスの取れたネットワークサンプリングを組み込んだ異種情報ネットワーク [全文訳有]

CoarSAS2hvec: Heterogeneous Information Network Embedding with Balanced Network Sampling ( http://arxiv.org/abs/2110.05820v1 )

ライセンス: CC BY 4.0
Ling Zhan, Tao Jia(参考訳) ヘテロジニアス情報ネットワーク(hin)埋め込みは、異なる性質のエンティティ間の近接を保つノードの表現を見つけることを目的としている。 広く採用されている一連のアプローチはランダムウォークを適用して異種コンテキストのシーケンスを生成し、そこから埋め込みが学習される。 しかし、HINの多部グラフ構造のため、ハブノードはサンプルシーケンスで過剰に表現される傾向にあり、ネットワークの不均衡なサンプルが発生する。 本稿では,新しい埋め込み手法であるCoarSAS2hvecを提案する。 hin粗粒化手順(coarsas)を用いた自己不要な短配列サンプリングを用いて、hinの豊富な情報をよりよく収集する。 hin構造埋め込みの性能を改善するために最適化された損失関数が使用される。 CoarSAS2hvecは他の9つのメソッドを2つの異なるタスクで4つの実世界のデータセットでパフォーマンスする。 アブレーション研究では、CoarSASが収集したサンプルが、他の方法と比較してネットワークのリッチな情報を含んでおり、高い情報エントロピーが特徴であることを確認した。 したがって、CoarSASによる従来の損失関数も改善された結果が得られる。 本研究は,これまで強調されなかったランダムウォークベースのhin埋め込みの限界に対処し,hin解析における様々な問題に光を当てる。

Heterogeneous information network (HIN) embedding aims to find the representations of nodes that preserve the proximity between entities of different nature. A family of approaches that are wildly adopted applies random walk to generate a sequence of heterogeneous context, from which the embedding is learned. However, due to the multipartite graph structure of HIN, hub nodes tend to be over-represented in the sampled sequence, giving rise to imbalanced samples of the network. Here we propose a new embedding method CoarSAS2hvec. The self-avoid short sequence sampling with the HIN coarsening procedure (CoarSAS) is utilized to better collect the rich information in HIN. An optimized loss function is used to improve the performance of the HIN structure embedding. CoarSAS2hvec outperforms nine other methods in two different tasks on four real-world data sets. The ablation study confirms that the samples collected by CoarSAS contain richer information of the network compared with those by other methods, which is characterized by a higher information entropy. Hence, the traditional loss function applied to samples by CoarSAS can also yield improved results. Our work addresses a limitation of the random-walk-based HIN embedding that has not been emphasized before, which can shed light on a range of problems in HIN analyses.
翻訳日:2021-10-13 23:08:55 公開日:2021-10-12
# (参考訳) 動的系統シミュレーションのためのQラーニングスケジューリングを用いた高速ブロック線形系解法 [全文訳有]

Fast Block Linear System Solver Using Q-Learning Schduling for Unified Dynamic Power System Simulations ( http://arxiv.org/abs/2110.05843v1 )

ライセンス: CC BY 4.0
Yingshi Chen and Xinli Song and HanYang Dai and Tao Liu and Wuzhi Zhong and Guoyang Wu(参考訳) 本稿では,電力系統の統一動的シミュレーションのための高速ブロック直接解法を提案する。 タスクスケジューリングにQ-ラーニングに基づく新しい手法を用いる。 電力系統の統一動的シミュレーションは、電気機械的な過渡現象、中長期の動的現象を有機的に結合する手法である。 解法における高い階数と多数の数のため、これらの方程式の高速解がシミュレーションを高速化する鍵となる。 シミュレーションのスパースシステムは複雑なネストブロック構造を含み、この構造はソルバによって高速に使用することができる。 解法におけるブロックとフロントのスケジューリングには,マルコフ決定プロセスのフレームワークにおいて,学習に基づくタスクツリースケジューリング手法を用いる。 つまり、多くのサンプル行列のオフライントレーニングによって最適なスケジューリング戦略を学べる。 そして、どんなシステムでも、学習したモデル上で最適なタスク分割とスケジューリングが得られる。 学習に基づくアルゴリズムは,いくつかの数値実験で検証されたスパースソルバの性能向上に役立つ。 大規模電力系統のシミュレーションにより,回路シミュレーション問題に対する最先端の分散解法であるkluより2~6倍高速であることが判明した。

We present a fast block direct solver for the unified dynamic simulations of power systems. This solver uses a novel Q-learning based method for task scheduling. Unified dynamic simulations of power systems represent a method in which the electric-mechanical transient, medium-term and long-term dynamic phenomena are organically united. Due to the high rank and large numbers in solving, fast solution of these equations is the key to speeding up the simulation. The sparse systems of simulation contain complex nested block structure, which could be used by the solver to speed up. For the scheduling of blocks and frontals in the solver, we use a learning based task-tree scheduling technique in the framework of Markov Decision Process. That is, we could learn optimal scheduling strategies by offline training on many sample matrices. Then for any systems, the solver would get optimal task partition and scheduling on the learned model. Our learning-based algorithm could help improve the performance of sparse solver, which has been verified in some numerical experiments. The simulation on some large power systems shows that our solver is 2-6 times faster than KLU, which is the state-of-the-art sparse solver for circuit simulation problems.
翻訳日:2021-10-13 22:53:19 公開日:2021-10-12
# (参考訳) 表面コードのためのスケーラブルで高速な人工ニューラルネットワーク症候群デコーダ [全文訳有]

A scalable and fast artificial neural network syndrome decoder for surface codes ( http://arxiv.org/abs/2110.05854v1 )

ライセンス: CC BY 4.0
Spiro Gicev, Lloyd C. L. Hollenberg, Muhammad Usman(参考訳) surface code error correctionは、スケーラブルなフォールトトレラント量子コンピューティングを実現する、非常に有望な経路を提供する。 安定化器符号として動作する場合、表面符号計算は、物理量子ビットにおける誤差の適切な修正を決定するために測定された安定化器演算子を使用するシンドローム復号ステップからなる。 復号アルゴリズムは、機械学習(ML)技術を取り入れた最近の研究によって、かなり発展してきた。 MLベースのシンドロームデコーダは、有望な初期結果にもかかわらず、低レイテンシで小さなデモに制限されており、境界条件や格子の手術や編曲に必要な様々な形状で表面コードを扱うことができない。 本稿では,任意の形状と大きさの表面符号をデポーラライズ誤差モデルに苦しむデータキュービットでデコードできる,スケーラブルで高速なニューラルネットワーク(ann)ベースのデコーダの開発について報告する。 ANNデコーダは、5000万以上のランダムな量子エラーインスタンスの厳格なトレーニングに基づいて、これまでで最大のMLベースのデコーダデモである1000以上のコード距離(400万以上の物理量子ビット)で動作することを示した。 確立されたANNデコーダは、基本的にコード距離に依存しない実行時間を示しており、専用ハードウェアに実装することでO($\mu$sec)の表面コードデコードが可能であり、実験的に実現可能なキュービットコヒーレンス時間と相容れないことを示唆している。 今後10年以内に量子プロセッサのスケールアップが期待される中、本研究で開発された高速でスケーラブルなシンドロームデコーダによる拡張は、フォールトトレラント量子情報処理の実験的実装に決定的な役割を果たすことが期待される。

Surface code error correction offers a highly promising pathway to achieve scalable fault-tolerant quantum computing. When operated as stabilizer codes, surface code computations consist of a syndrome decoding step where measured stabilizer operators are used to determine appropriate corrections for errors in physical qubits. Decoding algorithms have undergone substantial development, with recent work incorporating machine learning (ML) techniques. Despite promising initial results, the ML-based syndrome decoders are still limited to small scale demonstrations with low latency and are incapable of handling surface codes with boundary conditions and various shapes needed for lattice surgery and braiding. Here, we report the development of an artificial neural network (ANN) based scalable and fast syndrome decoder capable of decoding surface codes of arbitrary shape and size with data qubits suffering from the depolarizing error model. Based on rigorous training over 50 million random quantum error instances, our ANN decoder is shown to work with code distances exceeding 1000 (more than 4 million physical qubits), which is the largest ML-based decoder demonstration to-date. The established ANN decoder demonstrates an execution time in principle independent of code distance, implying that its implementation on dedicated hardware could potentially offer surface code decoding times of O($\mu$sec), commensurate with the experimentally realisable qubit coherence times. With the anticipated scale-up of quantum processors within the next decade, their augmentation with a fast and scalable syndrome decoder such as developed in our work is expected to play a decisive role towards experimental implementation of fault-tolerant quantum information processing.
翻訳日:2021-10-13 22:45:31 公開日:2021-10-12
# (参考訳) text2sdg:テキストから持続可能な開発目標を監視するオープンソースソリューション [全文訳有]

text2sdg: An open-source solution to monitoring sustainable development goals from text ( http://arxiv.org/abs/2110.05856v1 )

ライセンス: CC BY-SA 4.0
Dirk U. Wulff, Rui Mata, Dominik S. Meier(参考訳) 国連持続可能な開発目標(sdgs)の監視は学術組織と非学術組織の両方にとって重要である。 sdgを監視する既存のアプローチは、特定のデータタイプ、すなわちプロプライエタリな研究データベースにリストされた出版物に焦点を当てている。 ユーザフレンドリーなオープンソースパッケージであるtext2sdg R パッケージを,テキストソースから複数の異なるクエリシステムを用いて,任意のテキストデータ中のSDGを検出する。 text2sdgパッケージは、幅広いテキストソースに対するSDGの監視を容易にし、テキストからSDGを検出する既存のメソッドを検証および改善するための、待望の基盤を提供する。

Monitoring progress on the United Nations Sustainable Development Goals (SDGs) is important for both academic and non-academic organizations. Existing approaches to monitoring SDGs have focused on specific data types, namely, publications listed in proprietary research databases. We present the text2sdg R package, a user-friendly, open-source package that detects SDGs in any kind of text data using several different query systems from any text source. The text2sdg package thereby facilitates the monitoring of SDGs for a wide array of text sources and provides a much-needed basis for validating and improving extant methods to detect SDGs from text.
翻訳日:2021-10-13 22:24:00 公開日:2021-10-12
# (参考訳) 畳み込みニューラルネットワークは翻訳に不変ではないが、学習できる [全文訳有]

Convolutional Neural Networks Are Not Invariant to Translation, but They Can Learn to Be ( http://arxiv.org/abs/2110.05861v1 )

ライセンス: CC BY-SA 4.0
Valerio Biscione, Jeffrey S. Bowers(参考訳) 新しい物体を見るとき、人間はそれを異なる網膜の位置ですぐに認識することができる: 内部オブジェクトの表現は翻訳に不変である。 畳み込みニューラルネットワーク(CNN)は、それらが持つ畳み込みやプール操作のおかげで、アーキテクチャ上、翻訳に不変であると一般的に信じられている。 実際、いくつかの研究では、これらのネットワークが訓練されていない場所で新しい物体を認識できないことが分かっている。 本研究では,多種多様な cnns アーキテクチャをテストし,drknet-121 を除けば,どのモデルもアーキテクチャ的に変換に不変であることを示す。 しかし、それらすべてが翻訳に不変であることを学ぶことができた。 imagenetで事前トレーニングすることで、これを実現する方法を示し、入力キャンバスをまたいですべてのアイテムが完全に変換された場合に、ずっと単純なデータセットでも可能とします。 同時に、この不変性は壊滅的な忘れ/干渉によるさらなる訓練によって破壊することができる。 これらの実験は、適切な「ラテント」特性(より自然主義的な環境)を持つ環境におけるネットワークの事前学習が、その後の一般化を劇的に改善する深い知覚規則を学習する結果をもたらすことを示す。

When seeing a new object, humans can immediately recognize it across different retinal locations: the internal object representation is invariant to translation. It is commonly believed that Convolutional Neural Networks (CNNs) are architecturally invariant to translation thanks to the convolution and/or pooling operations they are endowed with. In fact, several studies have found that these networks systematically fail to recognise new objects on untrained locations. In this work, we test a wide variety of CNNs architectures showing how, apart from DenseNet-121, none of the models tested was architecturally invariant to translation. Nevertheless, all of them could learn to be invariant to translation. We show how this can be achieved by pretraining on ImageNet, and it is sometimes possible with much simpler data sets when all the items are fully translated across the input canvas. At the same time, this invariance can be disrupted by further training due to catastrophic forgetting/interfere nce. These experiments show how pretraining a network on an environment with the right `latent' characteristics (a more naturalistic environment) can result in the network learning deep perceptual rules which would dramatically improve subsequent generalization.
翻訳日:2021-10-13 22:19:39 公開日:2021-10-12
# (参考訳) 個人特性を推測するグループを観察する [全文訳有]

Observing a group to infer individual characteristics ( http://arxiv.org/abs/2110.05864v1 )

ライセンス: CC BY 4.0
Arshed Nabeel and Danny Raj M(参考訳) 集団運動の研究において、個々のエージェントとその相互作用の特徴を推測するために、グループのレベルにおける移動情報を集めることが一般的である。 しかし、集団の動きデータから個々人の特徴を常に正しく推測できるかどうかは定かではない。 本研究では,2つのエージェント群からなる複合群集の文脈において,それぞれが所望の動作方向でこの問題を考察する。 単純なオブザーバは、エージェントをその移動情報に基づいてそのグループに分類しようとする。 しかし、衝突、エージェントの拘束、車線やクラスターの形成などの集団効果は、分類問題を非自明なものにし、誤分類につながる。 これらの効果の理解に基づいて,観測された動き情報のみに基づいて,地域がエージェントの動きを助長したり妨げたりする方法を推定する新しいオブザーバアルゴリズムを提案する。 従来の教師付き学習アプローチとは異なり、このアルゴリズムは物理的洞察とスケーリング引数に基づいており、トレーニングデータに依存しない。 この新たなオブザーバは、分類性能を改善し、動作が同一であっても異なるグループに属するエージェントを区別することができる。 このようなデータ非依存のアプローチは、クリーンでラベル付きデータの取得が難しい、現実世界の大規模な問題と関連性があり、データとドメインの知識を統合するハイブリッドアプローチへの一歩です。

In the study of collective motion, it is common practice to collect movement information at the level of the group to infer the characteristics of the individual agents and their interactions. However, it is not clear whether one can always correctly infer individual characteristics from movement data of the collective. We investigate this question in the context of a composite crowd with two groups of agents, each with its own desired direction of motion. A simple observer attempts to classify an agent into its group based on its movement information. However, collective effects such as collisions, entrainment of agents, formation of lanes and clusters, etc. render the classification problem non-trivial, and lead to misclassifications. Based on our understanding of these effects, we propose a new observer algorithm that infers, based only on observed movement information, how the local neighborhood aids or hinders agent movement. Unlike a traditional supervised learning approach, this algorithm is based on physical insights and scaling arguments, and does not rely on training-data. This new observer improves classification performance and is able to differentiate agents belonging to different groups even when their motion is identical. Data-agnostic approaches like this have relevance to a large class of real-world problems where clean, labeled data is difficult to obtain, and is a step towards hybrid approaches that integrate both data and domain knowledge.
翻訳日:2021-10-13 21:57:10 公開日:2021-10-12
# (参考訳) MetricGAN-U: 雑音/残響音声のみに基づく教師なし音声強調/残響 [全文訳有]

MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only on noisy/ reverberated speech ( http://arxiv.org/abs/2110.05866v1 )

ライセンス: CC BY 4.0
Szu-Wei Fu, Cheng Yu, Kuo-Hsuan Hung, Mirco Ravanelli, Yu Tsao(参考訳) 深層学習に基づく音声強調モデルのほとんどが教師ありの方法で学習されるため、トレーニングではノイズとクリーンな音声のペアが必要となる。 そのため、日常生活で録音されたいくつかの騒がしいスピーチは、モデルのトレーニングに使用できない。 ペア制約を解決するための教師なし学習フレームワークも提案されているが、トレーニングにはクリーンなスピーチやノイズが必要である。 そこで本稿では,従来の教師なし学習からさらに制約を解放するために,教師なしメトリクスの指標であるmetricgan-uを提案する。 metricgan-uでは、非インタラクティブな音声品質指標を最適化することにより、モデルのトレーニングにノイズの多い音声のみを必要とする。 その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。

Most of the deep learning-based speech enhancement models are learned in a supervised manner, which implies that pairs of noisy and clean speech are required during training. Consequently, several noisy speeches recorded in daily life cannot be used to train the model. Although certain unsupervised learning frameworks have also been proposed to solve the pair constraint, they still require clean speech or noise for training. Therefore, in this paper, we propose MetricGAN-U, which stands for MetricGAN-unsupervis ed, to further release the constraint from conventional unsupervised learning. In MetricGAN-U, only noisy speech is required to train the model by optimizing non-intrusive speech quality metrics. The experimental results verified that MetricGAN-U outperforms baselines in both objective and subjective metrics.
翻訳日:2021-10-13 21:34:09 公開日:2021-10-12
# (参考訳) 自動車内レーダを用いたロバストな人物のラベル付きランク付き損失 [全文訳有]

Label-Aware Ranked Loss for robust People Counting using Automotive in-cabin Radar ( http://arxiv.org/abs/2110.05876v1 )

ライセンス: CC BY 4.0
Lorenzo Servadei, Huawei Sun, Julius Ott, Michael Stephan, Souvik Hazra, Thomas Stadelmayer, Daniela Sanchez Lopera, Robert Wille, Avik Santra(参考訳) 本稿では,新しいメトリクス損失関数であるラベル認識ランク付き損失について紹介する。 最先端のDeep Metric Learning損失と比較して、この関数は回帰問題におけるラベルのランク付けを生かしている。 そこで,本研究では,ラベルの異なるデータポイントを組込み空間において,互いに一様な角度でランク付けして配置する場合,損失が最小となることを示す。 そして,その性能を計測するために,近距離レーダを用いた回帰作業,すなわち車両キャビンにおける回帰作業において,提案する損失を応用する。 提案されたアプローチでは精度が向上し、近隣のラベルの精度は83.0%と99.9%に向上した。

In this paper, we introduce the Label-Aware Ranked loss, a novel metric loss function. Compared to the state-of-the-art Deep Metric Learning losses, this function takes advantage of the ranked ordering of the labels in regression problems. To this end, we first show that the loss minimises when datapoints of different labels are ranked and laid at uniform angles between each other in the embedding space. Then, to measure its performance, we apply the proposed loss on a regression task of people counting with a short-range radar in a challenging scenario, namely a vehicle cabin. The introduced approach improves the accuracy as well as the neighboring labels accuracy up to 83.0% and 99.9%: An increase of 6.7%and 2.1% on state-of-the-art methods, respectively.
翻訳日:2021-10-13 21:24:49 公開日:2021-10-12
# (参考訳) openhands: ポーズベースの事前学習モデルで手話認識を可能にする [全文訳有]

OpenHands: Making Sign Language Recognition Accessible with Pose-based Pretrained Models across Languages ( http://arxiv.org/abs/2110.05877v1 )

ライセンス: CC BY 4.0
Prem Selvaraj, Gokul NC, Pratyush Kumar, Mitesh Khapra(参考訳) 自然言語のためのAI技術は、最近大きく進歩しました。 しかし、手話、特に記号を個々の単語または完全文として認識する過程において、複合的な進歩は行われていない。 OpenHandsは低リソース言語のためのNLPコミュニティから4つの重要なアイデアを取り入れ、それらを単語レベルの認識のための手話言語に適用するライブラリです。 まず,事前学習したモデルから抽出したポーズを,トレーニング時間を短縮し,効率的な推論を可能にするための標準モデルとして利用し,アメリカ,アルゼンチン,中国,ギリシャ,インド,トルコの6つの手話言語に対して,標準化されたポーズデータセットをリリースする。 第2に,6言語すべてにまたがって,ポーズベースで分離された4つの手話認識モデルのチェックポイントをトレーニングし,リリースする。 第3に,ラベル付きデータの欠如に対処するため,ラベル付きデータに基づく自己教師付き事前学習を提案する。 インド手話(Indian-SL)で最大のポーズベースの事前学習データセットをキュレートし、リリースする。 第4に,様々な事前学習戦略を比較し,手話認識に事前学習が有効であることを初めて証明した。 (a)特に低リソース環境での微調整性能の向上、 b)インド-SLから他の手話への高い言語間移動 OpenHandsのすべてのモデルとデータセットをオープンソースとして公開し、手話言語の研究をよりアクセスしやすいものにしたいと考えています。

AI technologies for Natural Languages have made tremendous progress recently. However, commensurate progress has not been made on Sign Languages, in particular, in recognizing signs as individual words or as complete sentences. We introduce OpenHands, a library where we take four key ideas from the NLP community for low-resource languages and apply them to sign languages for word-level recognition. First, we propose using pose extracted through pretrained models as the standard modality of data to reduce training time and enable efficient inference, and we release standardized pose datasets for 6 different sign languages - American, Argentinian, Chinese, Greek, Indian, and Turkish. Second, we train and release checkpoints of 4 pose-based isolated sign language recognition models across all 6 languages, providing baselines and ready checkpoints for deployment. Third, to address the lack of labelled data, we propose self-supervised pretraining on unlabelled data. We curate and release the largest pose-based pretraining dataset on Indian Sign Language (Indian-SL). Fourth, we compare different pretraining strategies and for the first time establish that pretraining is effective for sign language recognition by demonstrating (a) improved fine-tuning performance especially in low-resource settings, and (b) high crosslingual transfer from Indian-SL to few other sign languages. We open-source all models and datasets in OpenHands with a hope that it makes research in sign languages more accessible, available here at https://github.com/A I4Bharat/OpenHands .
翻訳日:2021-10-13 21:15:01 公開日:2021-10-12
# (参考訳) シャープ境界を用いた単眼深度推定 [全文訳有]

Monocular Depth Estimation with Sharp Boundary ( http://arxiv.org/abs/2110.05885v1 )

ライセンス: CC BY 4.0
Xin Yang, Qingling Chang, Xinlin Liu, and Yan Cui(参考訳) 単眼深度推定はコンピュータビジョンにおける基本課題である。 ディープラーニングの開発によって、この10年間で大きな発展を遂げています。 しかし、深度マップの境界線はいまだに深刻な問題である。 まず、境界情報と構造情報を含む低レベル特徴は、畳み込みの過程でより深いネットワークで失われる可能性がある。 第二に、モデルでは、バックプロパゲーション中の領域全体の境界のわずかな部分のため、境界領域によってもたらされる誤差を無視する。 境界ぼけ問題を緩和するために,上記の2つの影響因子に着目した。 まず,低レベル・高レベルの特徴を持つグローバル情報を学習するためのシーン理解モジュールを設計し,デコーダの異なるフェーズに応じて,提案したスケール変換モジュールを用いてグローバル情報を異なるスケールに変換する。 次に,境界を認識できる深さ損失関数を提案し,境界の深さ値の影響に注意する。 広範に実験した結果,より明確な境界を持つ深度マップの予測が可能であり,NYU-deepth v2およびSUN RGB-Dにおける深度精度ベースの性能は競争力が高いことがわかった。

Monocular depth estimation is the base task in computer vision. It has a tremendous development in the decade with the development of deep learning. But the boundary blur of the depth map is still a serious problem. Research finds the boundary blur problem is mainly caused by two factors, first, the low-level features containing boundary and structure information may loss in deeper networks during the convolution process., second, the model ignores the errors introduced by the boundary area due to the few portions of the boundary in the whole areas during the backpropagation. In order to mitigate the boundary blur problem, we focus on the above two impact factors. Firstly, we design a scene understanding module to learn the global information with low- and high-level features, and then to transform the global information to different scales with our proposed scale transform module according to the different phases in the decoder. Secondly, we propose a boundary-aware depth loss function to pay attention to the effects of the boundary's depth value. The extensive experiments show that our method can predict the depth maps with clearer boundaries, and the performance of the depth accuracy base on NYU-depth v2 and SUN RGB-D is competitive.
翻訳日:2021-10-13 20:56:00 公開日:2021-10-12
# (参考訳) CTC-Prefixesを用いたテキスト行認識のための系列列列モデル [全文訳有]

Rescoring Sequence-to-Sequence Models for Text Line Recognition with CTC-Prefixes ( http://arxiv.org/abs/2110.05909v1 )

ライセンス: CC BY 4.0
Christoph Wick and Jochen Z\"ollner and Tobias Gr\"uning(参考訳) 接続主義時相分類(ctc)のアプローチとは対照的に、手書きテキスト認識(htr)のためのsequence-to-sequence (s2s)モデルは、シーケンスの最後にしばしば発生するスキップや繰り返しといったエラーに苦しむ。 本稿では,S2S復号時にCTC-Prefix-Scoreを用いることを提案する。 これにより、ビーム探索中に、CTC信頼行列に従って無効となるパスがペナルティ化される。 我々のネットワークアーキテクチャは、視覚バックボーンとしての畳み込みニューラルネットワーク(CNN)、エンコーダとしての双方向長短メモリセル(LSTM)、相互注意層を挿入したトランスフォーマーであるデコーダで構成される。 CTC信頼度はエンコーダ上で計算され、トランスフォーマーは文字単位のS2Sデコードにのみ使用される。 IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。 IAMでは、合成データに基づく事前学習を行い、現代英語の文字ベース言語モデルを含む場合、2.95%の競合的文字誤り率(CER)を達成する。 他の最先端手法と比較して、我々のモデルはパラメーターを10~20倍少なくする必要がある。 GitHubへのこのリンクを通じて、共有実装にアクセスしてください。

In contrast to Connectionist Temporal Classification (CTC) approaches, Sequence-To-Sequence (S2S) models for Handwritten Text Recognition (HTR) suffer from errors such as skipped or repeated words which often occur at the end of a sequence. In this paper, to combine the best of both approaches, we propose to use the CTC-Prefix-Score during S2S decoding. Hereby, during beam search, paths that are invalid according to the CTC confidence matrix are penalised. Our network architecture is composed of a Convolutional Neural Network (CNN) as visual backbone, bidirectional Long-Short-Term-Memo ry-Cells (LSTMs) as encoder, and a decoder which is a Transformer with inserted mutual attention layers. The CTC confidences are computed on the encoder while the Transformer is only used for character-wise S2S decoding. We evaluate this setup on three HTR data sets: IAM, Rimes, and StAZH. On IAM, we achieve a competitive Character Error Rate (CER) of 2.95% when pretraining our model on synthetic data and including a character-based language model for contemporary English. Compared to other state-of-the-art approaches, our model requires about 10-20 times less parameters. Access our shared implementations via this link to GitHub: https://github.com/P lanet-AI-GmbH/tfaip- hybrid-ctc-s2s.
翻訳日:2021-10-13 20:29:37 公開日:2021-10-12
# (参考訳) 概念空間におけるファジィ概念のカテゴリー意味論 [全文訳有]

A Categorical Semantics of Fuzzy Concepts in Conceptual Spaces ( http://arxiv.org/abs/2110.05985v1 )

ライセンス: CC BY 4.0
Sean Tull(参考訳) ファジィ概念とファジィ概念推論をモデル化する対称モノイド圏を g\"ardenfors' framework of concept (convex) 空間で定義する。 ファジィ概念のモデルとしてlog-concave関数を提案し、g\"ardenfors による基準を満たす最も一般的な選択であり、構成的にも良好であることを示す。 次にこれらを一般化して、凸空間間の対数凹凸確率チャネルの圏を定義し、ノイズのある入力でファジィ推論をモデル化し、マルコフ圏の新たな例を提供する。

We define a symmetric monoidal category modelling fuzzy concepts and fuzzy conceptual reasoning within G\"ardenfors' framework of conceptual (convex) spaces. We propose log-concave functions as models of fuzzy concepts, showing that these are the most general choice satisfying a criterion due to G\"ardenfors and which are well-behaved compositionally. We then generalise these to define the category of log-concave probabilistic channels between convex spaces, which allows one to model fuzzy reasoning with noisy inputs, and provides a novel example of a Markov category.
翻訳日:2021-10-13 20:17:23 公開日:2021-10-12
# (参考訳) 心的制約と数量演算子を持つFO2の重み付きモデルカウント:閉じた形式式 [全文訳有]

Weighted Model Counting in FO2 with Cardinality Constraints and Counting Quantifiers: A Closed Form Formula ( http://arxiv.org/abs/2110.05992v1 )

ライセンス: CC BY 4.0
Sagar Malhotra and Luciano Serafini(参考訳) 重み付き一階モデルカウント(WFOMC)は、与えられた有限領域上の一階論理理論のモデルの重み付き和を計算する。 多項式時間 WFOMC w.r.t 領域の濃度を許容する一階論理理論は、領域リフトと呼ばれる。 WFOMCの閉形式を定式化するためのツールとして,リフト解釈の概念を導入する。 解法解釈を用いて多項式時間fomcの閉形式式を,beameらにより以前に提唱されたfo2の普遍的定量化断片で再構成した。 次に、この閉形式を拡張して、濃度制約、存在量化器、および量化器(C2)をドメインリフト性を失うことなく数える。 最後に、得られた閉形式は、対称重み関数よりも厳密に大きい重み関数族の自然な定義を動機付けていることを示す。

Weighted First-Order Model Counting (WFOMC) computes the weighted sum of the models of a first-order logic theory on a given finite domain. First-Order Logic theories that admit polynomial-time WFOMC w.r.t domain cardinality are called domain liftable. We introduce the concept of lifted interpretations as a tool for formulating closed-forms for WFOMC. Using lifted interpretations, we reconstruct the closed-form formula for polynomial-time FOMC in the universally quantified fragment of FO2, earlier proposed by Beame et al. We then expand this closed-form to incorporate cardinality constraints, existential quantifiers, and counting quantifiers (a.k.a C2) without losing domain-liftability. Finally, we show that the obtained closed-form motivates a natural definition of a family of weight functions strictly larger than symmetric weight functions.
翻訳日:2021-10-13 19:59:05 公開日:2021-10-12
# (参考訳) DiscoDVT:Discourse-A ware Discrete Variational Transformerによる長文生成 [全文訳有]

DiscoDVT: Generating Long Text with Discourse-Aware Discrete Variational Transformer ( http://arxiv.org/abs/2110.05999v1 )

ライセンス: CC BY 4.0
Haozhe Ji, Minlie Huang(参考訳) 高品質テキストを生成するために、事前学習された言語モデルを適用する最近の進歩にもかかわらず、長距離コヒーレンスを維持する長いパスを生成することは、これらのモデルにとって依然として困難である。 本稿では,不整合問題に対処する談話対応離散変分変換器DiscoDVTを提案する。 discodvtは、テキストの全体構造を要約した離散変数列を学習し、各復号ステップで生成プロセスをガイドするためにそれを適用する。 さらに, 離散的潜在表現に談話認識情報を埋め込むため, テキスト内の談話関係をモデル化するための補助目的を提案する。 2つのオープンストーリー生成データセットに関する広範囲な実験を行い、より長距離のコヒーレンスを持つ長文を生成するモデルを導く談話構造に対して、潜在コードは有意義な対応を学習できることを実証する。

Despite the recent advances in applying pre-trained language models to generate high-quality texts, generating long passages that maintain long-range coherence is yet challenging for these models. In this paper, we propose DiscoDVT, a discourse-aware discrete variational Transformer to tackle the incoherence issue. DiscoDVT learns a discrete variable sequence that summarizes the global structure of the text and then applies it to guide the generation process at each decoding step. To further embed discourse-aware information into the discrete latent representations, we introduce an auxiliary objective to model the discourse relations within the text. We conduct extensive experiments on two open story generation datasets and demonstrate that the latent codes learn meaningful correspondence to the discourse structures that guide the model to generate long texts with better long-range coherence.
翻訳日:2021-10-13 19:40:16 公開日:2021-10-12
# (参考訳) 埋め込みモデルフロー:モデルなしディープラーニングの帰納バイアスと明示的確率的モデリングを組み合わせる [全文訳有]

Embedded-model flows: Combining the inductive biases of model-free deep learning and explicit probabilistic modeling ( http://arxiv.org/abs/2110.06021v1 )

ライセンス: CC BY 4.0
Gianluigi Silvestri, Emily Fertig, Dave Moore, Luca Ambrogioni(参考訳) 正規化フローは汎用密度推定器として大きな成功を収めている。 しかし、現実世界のアプリケーションの多くは、フローの正規化が容易に組み込めないドメイン固有の知識を必要とする。 ドメイン固有の帰納的バイアスを埋め込んだ構造層と汎用変換を交互に行う組込みモデルフロー(emf)を提案する。 これらの層は、ユーザの特定した微分可能確率モデルを等価な単射変換に変換することで自動的に構築される。 また、データ統計を捉えるのに失敗するモデルのパーツをバイパスできるゲート構造層も導入しています。 マルチモダリティ,階層結合,連続性といった望ましい特性を誘導するためにemfが使用できることを示す。 さらに、EMFは、前モデルの構造が変動アーキテクチャに埋め込まれているような、変動推論の高性能な形式を可能にすることを示す。 本研究では,本手法が共通構造推論問題において,最先端手法よりも優れていることを示す。

Normalizing flows have shown great success as general-purpose density estimators. However, many real world applications require the use of domain-specific knowledge, which normalizing flows cannot readily incorporate. We propose embedded-model flows(EMF), which alternate general-purpose transformations with structured layers that embed domain-specific inductive biases. These layers are automatically constructed by converting user-specified differentiable probabilistic models into equivalent bijective transformations. We also introduce gated structured layers, which allow bypassing the parts of the models that fail to capture the statistics of the data. We demonstrate that EMFs can be used to induce desirable properties such as multimodality, hierarchical coupling and continuity. Furthermore, we show that EMFs enable a high performance form of variational inference where the structure of the prior model is embedded in the variational architecture. In our experiments, we show that this approach outperforms state-of-the-art methods in common structured inference problems.
翻訳日:2021-10-13 19:17:17 公開日:2021-10-12
# (参考訳) フェデレートラーニングとLSTMに基づくプライバシ保護型フィッシングメール検出 [全文訳有]

Privacy-Preserving Phishing Email Detection Based on Federated Learning and LSTM ( http://arxiv.org/abs/2110.06025v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Ng Chong, and Hideya Ochiai(参考訳) フィッシングメールは、悪意のあるリンクや文書をクリックするよう人々を誘惑するものだ。 近年、より洗練されたフィッシングキャンペーンは、従来のシグネチャベースの方法以外のより適応的な検出システムを必要としている。 この点において、ディープニューラルネットワーク(DNN)を用いた自然言語処理(NLP)が、多数の電子メールからの知識取得に採用されている。 しかし,プライバシの懸念が高まるため,個人情報を含むセンシティブな日常コミュニケーションは,実生活における集中学習のためのサーバでは収集が困難である。 そこで本研究では,連合学習と長期短期記憶(lstm)を活用したフェデレーションファシッシュボウル(fpb)と呼ばれる分散型フィッシングメール検出手法を提案する。 FPBは、メールのセキュリティとプライバシを保護するためにトレーニングされたモデルの集約を通じて、さまざまなクライアント間で共通の知識表現と共有を可能にする。 最近のフィッシングメールデータセットが政府間組織から収集され、モデルをトレーニングした。 さらに,クライアントの総数とデータ不均一度に関する様々な仮定に基づいて,モデルの性能を評価した。 総合的な実験結果から,FPBはクライアント数やデータの不均一性レベルを継続的に増加させ,検出精度0.83を維持し,機密メール通信のプライバシーを保護することが示唆された。

Phishing emails that appear legitimate lure people into clicking on the attached malicious links or documents. Increasingly more sophisticated phishing campaigns in recent years necessitate a more adaptive detection system other than traditional signature-based methods. In this regard, natural language processing (NLP) with deep neural networks (DNNs) is adopted for knowledge acquisition from a large number of emails. However, such sensitive daily communications containing personal information are difficult to collect on a server for centralized learning in real life due to escalating privacy concerns. To this end, we propose a decentralized phishing email detection method called the Federated Phish Bowl (FPB) leveraging federated learning and long short-term memory (LSTM). FPB allows common knowledge representation and sharing among different clients through the aggregation of trained models to safeguard the email security and privacy. A recent phishing email dataset was collected from an intergovernmental organization to train the model. Moreover, we evaluated the model performance based on various assumptions regarding the total client number and the level of data heterogeneity. The comprehensive experimental results suggest that FPB is robust to a continually increasing client number and various data heterogeneity levels, retaining a detection accuracy of 0.83 and protecting the privacy of sensitive email communications.
翻訳日:2021-10-13 18:56:13 公開日:2021-10-12
# (参考訳) SoftNeuro: マルチプラットフォーム最適化を用いた高速深層推論 [全文訳有]

SoftNeuro: Fast Deep Inference using Multi-platform Optimization ( http://arxiv.org/abs/2110.06037v1 )

ライセンス: CC BY 4.0
Masaki Hilaga, Yasuhiro Kuroda, Hitoshi Matsuo, Tatsuya Kawaguchi, Gabriel Ogawa, Hiroshi Miyake and Yusuke Kozawa(参考訳) ディープラーニングモデルのより高速な推論は、金融と環境の両方の理由から、エッジデバイスやサーバにも非常に要求される。 この問題に対処するために,効率的なパフォーマンスチューニングを行う新しい高性能推論フレームワークであるSoftNeuroを提案する。 鍵となるアイデアは、ネットワーク層からアルゴリズムルーチンを分離することだ。 本フレームワークは,各レイヤの各種ルーチンをプロファイリングし,最速経路を選択することにより,推論性能を最大化する。 最適な経路を効率よく見つけるために,動的プログラミングに基づくルーチン選択アルゴリズムを提案する。 実験の結果,提案するフレームワークは高速な推論と効率的なチューニングを実現することがわかった。

Faster inference of deep learning models is highly demanded on edge devices and even servers, for both financial and environmental reasons. To address this issue, we propose SoftNeuro, a novel, high-performance inference framework with efficient performance tuning. The key idea is to separate algorithmic routines from network layers. Our framework maximizes the inference performance by profiling various routines for each layer and selecting the fastest path. To efficiently find the best path, we propose a routine-selection algorithm based on dynamic programming. Experiments show that the proposed framework achieves both fast inference and efficient tuning.
翻訳日:2021-10-13 18:45:35 公開日:2021-10-12
# (参考訳) 地図理解によるトピックモデルの構築 [全文訳有]

Topic Model Supervised by Understanding Map ( http://arxiv.org/abs/2110.06043v1 )

ライセンス: CC BY 4.0
Gangli Liu(参考訳) 物理学における質量中心の概念に触発されて、SCOM(Semantic Center of Mass)と呼ばれる拡張が提案され、文書の抽象的な「トピック」を発見するために使用される。 この概念は、理解マップ監視トピックモデル(UM-S-TM)と呼ばれるフレームワークモデルに基づいている。 UM-S-TMの目標は、ドキュメントの内容とセマンティックネットワーク(具体的には、地図を理解する)の両方が、ドキュメントの意味を解釈する役割を果たすことである。 異なる正当化に基づいて、文書のSCOMを発見するために3つの方法が考案された。 人工文書と理解マップに関するいくつかの実験を行い、その結果を検証した。 さらに,文書のベクトル化とシーケンシャルな情報の取得能力についても検証した。 また,UM-S-TMをLDA(Latent Dirichlet Allocation)やpLSA(Latent Semantic Analysis)といった確率論的トピックモデルと比較した。

Inspired by the notion of Center of Mass in physics, an extension called Semantic Center of Mass (SCOM) is proposed, and used to discover the abstract "topic" of a document. The notion is under a framework model called Understanding Map Supervised Topic Model (UM-S-TM). The devise aim of UM-S-TM is to let both the document content and a semantic network -- specifically, Understanding Map -- play a role, in interpreting the meaning of a document. Based on different justifications, three possible methods are devised to discover the SCOM of a document. Some experiments on artificial documents and Understanding Maps are conducted to test their outcomes. In addition, its ability of vectorization of documents and capturing sequential information are tested. We also compared UM-S-TM with probabilistic topic models like Latent Dirichlet Allocation (LDA) and probabilistic Latent Semantic Analysis (pLSA).
翻訳日:2021-10-13 18:27:49 公開日:2021-10-12
# (参考訳) 油井の過渡生産の長期予測のための深層変圧器モデルの開発 [全文訳有]

Development of Deep Transformer-Based Models for Long-Term Prediction of Transient Production of Oil Wells ( http://arxiv.org/abs/2110.06059v1 )

ライセンス: CC BY 4.0
Ildar Abdrakhmanov, Evgenii Kanin, Sergei Boronin, Evgeny Burnaev, Andrei Osiptsov(参考訳) 本稿では,油井の過渡生産に関するデータ駆動型モデリング手法を提案する。 本研究では,様々な油井のパラメータからなる多変量時系列で学習したトランスベースニューラルネットワークを適用した。 オープンソースフィールドデータセット上で1つの井戸(隣接する井戸の影響を無視する)に対する機械学習モデルをチューニングすることにより、ボトムホール圧力ダイナミクスの予測において、トランスフォーマーがLSTM/GRUセルとの繰り返しニューラルネットワークよりも優れていることを示す。 本研究では,変圧器を用いたサロゲートモデルに適用し,特定の井戸からのデータセットの初期訓練とターゲット井戸からのデータセットの重み付けの追加チューニングを含む。 トランスファーラーニングアプローチは、モデルの予測能力を改善するのに役立つ。 次に,複数井戸の変圧器構造に基づく単一ウェルモデルを一般化し,複雑な過渡油田レベルパターンをシミュレートする。 言い換えると、我々は、複数の井戸から生産履歴で構成されたデータセットを扱うグローバルモデルを作成し、井戸の干渉を捉え、それぞれの井戸の底穴圧力や流量の進化をより正確に予測することができる。 単孔油田スケールモデリングのための開発した機器は、炭化水素の回収を増加させるために運転体制と潜水装置を選択して製造プロセスを最適化するために使用できる。 さらに、モデルはコストのかかるシャットイン操作を避けるために、十分にテストするのに役立つ。

We propose a novel approach to data-driven modeling of a transient production of oil wells. We apply the transformer-based neural networks trained on the multivariate time series composed of various parameters of oil wells measured during their exploitation. By tuning the machine learning models for a single well (ignoring the effect of neighboring wells) on the open-source field datasets, we demonstrate that transformer outperforms recurrent neural networks with LSTM/GRU cells in the forecasting of the bottomhole pressure dynamics. We apply the transfer learning procedure to the transformer-based surrogate model, which includes the initial training on the dataset from a certain well and additional tuning of the model's weights on the dataset from a target well. Transfer learning approach helps to improve the prediction capability of the model. Next, we generalize the single-well model based on the transformer architecture for multiple wells to simulate complex transient oilfield-level patterns. In other words, we create the global model which deals with the dataset, comprised of the production history from multiple wells, and allows for capturing the well interference resulting in more accurate prediction of the bottomhole pressure or flow rate evolutions for each well under consideration. The developed instruments for a single-well and oilfield-scale modelling can be used to optimize the production process by selecting the operating regime and submersible equipment to increase the hydrocarbon recovery. In addition, the models can be helpful to perform well-testing avoiding costly shut-in operations.
翻訳日:2021-10-13 18:11:01 公開日:2021-10-12
# (参考訳) モデルに基づく脳活動分析による305名の言語階層の解明 [全文訳有]

Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects ( http://arxiv.org/abs/2110.06078v1 )

ライセンス: CC BY 4.0
Charlotte Caucheteux, Alexandre Gramfort, Jean-R\'emi King(参考訳) 言語の神経基盤を分解する一般的なアプローチは、個人間で、異なる刺激に対する脳反応(例えば、スクランブルされた単語、文、段落)を関連付けるものである。 成功したが、この「モデルフリー」アプローチは、大規模でコストのかかる神経画像データを取得する必要がある。 本稿では,モデルに基づくアプローチが,自然刺激に曝された被験者の同等の結果に到達できることを示す。 我々は、最近発見された深層言語モデルと人間の脳の類似性を利用して、マッピングの計算を行う。 一 通常の言論に対する脳の反応及び 二 修正刺激(例えば、スクランブル語、文又は段落)により引き起こされる深層言語モデルの活性化 モデルに基づくアプローチはLerner et al. (2011) の初歩的な研究を成功させ, 通常の物語とスクランブルされた物語の7分を聴く7人の機能的磁気共鳴画像(fMRI)を比較して言語領域の階層性を明らかにした。 さらに、これらの結果を4.1時間のナレーションを聴く305人の脳信号に拡張し、精密化する。 全体として、この研究は言語の脳基盤の効率的で柔軟な分析への道を開くものだ。

A popular approach to decompose the neural bases of language consists in correlating, across individuals, the brain responses to different stimuli (e.g. regular speech versus scrambled words, sentences, or paragraphs). Although successful, this `model-free' approach necessitates the acquisition of a large and costly set of neuroimaging data. Here, we show that a model-based approach can reach equivalent results within subjects exposed to natural stimuli. We capitalize on the recently-discovered similarities between deep language models and the human brain to compute the mapping between i) the brain responses to regular speech and ii) the activations of deep language models elicited by modified stimuli (e.g. scrambled words, sentences, or paragraphs). Our model-based approach successfully replicates the seminal study of Lerner et al. (2011), which revealed the hierarchy of language areas by comparing the functional-magnetic resonance imaging (fMRI) of seven subjects listening to 7min of both regular and scrambled narratives. We further extend and precise these results to the brain signals of 305 individuals listening to 4.1 hours of narrated stories. Overall, this study paves the way for efficient and flexible analyses of the brain bases of language.
翻訳日:2021-10-13 17:56:37 公開日:2021-10-12
# (参考訳) 二次ネットワークの表現性とトレーサビリティ [全文訳有]

Expressivity and Trainability of Quadratic Networks ( http://arxiv.org/abs/2110.06081v1 )

ライセンス: CC BY 4.0
Feng-Lei Fan, Mengzhou Li, Fei Wang, Rongjie Lai, Ge Wang(参考訳) 生物ニューロンの多様性にインスパイアされた二次人工ニューロンは、ディープラーニングモデルにおいて重要な役割を果たす。 我々の関心を持つ二次ニューロンの種類は、通常のニューロンの内積操作を二次機能に置き換える。 これまでは二次ニューロンのネットワークによって有望な結果が得られたが、未解決の重要な問題がある。 理論的には、従来のネットワークまたは2次活性化による従来のネットワークよりも優れた2次ネットワークの表現性は、完全には解明されておらず、2次ネットワークの使用は不十分である。 実際には、二次ネットワークは一般的なバックプロパゲーションによって訓練できるが、従来のネットワークよりも崩壊のリスクが高い。 これらの問題に対処するために、まずスプライン理論と代数幾何学からの測度を適用して、2次ネットワークのモデル表現性を示す2つの定理を与える。 そこで本研究では,ReLinearと呼ばれる2次ネットワークのトレーニングプロセスを安定させ,関連する機械学習タスクの潜在能力を最大限に活用するための,効果的で効率的なトレーニング戦略を提案する。 一般的なデータセットに関する総合的な実験を行い,2次深層学習の性能評価を行った。

Inspired by diversity of biological neurons, quadratic artificial neurons can play an important role in deep learning models. The type of quadratic neurons of our interest replaces the inner-product operation in the conventional neuron with a quadratic function. Despite promising results so far achieved by networks of quadratic neurons, there are important issues not well addressed. Theoretically, the superior expressivity of a quadratic network over either a conventional network or a conventional network via quadratic activation is not fully elucidated, which makes the use of quadratic networks not well grounded. Practically, although a quadratic network can be trained via generic backpropagation, it can be subject to a higher risk of collapse than the conventional counterpart. To address these issues, we first apply the spline theory and a measure from algebraic geometry to give two theorems that demonstrate better model expressivity of a quadratic network than the conventional counterpart with or without quadratic activation. Then, we propose an effective and efficient training strategy referred to as ReLinear to stabilize the training process of a quadratic network, thereby unleashing the full potential in its associated machine learning tasks. Comprehensive experiments on popular datasets are performed to support our findings and evaluate the performance of quadratic deep learning.
翻訳日:2021-10-13 17:42:51 公開日:2021-10-12
# (参考訳) 点雲セグメンテーションのための連続条件ランダム場畳み込み [全文訳有]

Continuous Conditional Random Field Convolution for Point Cloud Segmentation ( http://arxiv.org/abs/2110.06085v1 )

ライセンス: CC BY 4.0
Fei Yang, Franck Davoine, Huan Wang, Zhong Jin(参考訳) ポイントクラウドセグメンテーションは、現代の知的システムのための3次元環境認識の基礎である。 この問題を解決するために、条件付きランダムフィールド(CRF)は通常、ラベル空間における離散モデルとして定式化され、ラベルの一貫性が促進される。 本稿では,CRFを点雲セグメンテーションのための特徴空間として再考する。それは,単に滑らかにするのではなく,特徴の構造をうまく捉えて特徴の表現能力を向上させることができるからである。 そこで,我々はまず,連続的二次エネルギーモデルを用いてポイントクラウドの特徴をモデル化し,その解プロセスをメッセージ通過グラフ畳み込みとして定式化し,ディープネットワークに容易に統合できるようにする。 理論的には、グラフ畳み込みにおけるメッセージの通過は連続CRFモデルの平均場近似と等価である。 さらに,提案する連続crfグラフ畳み込み(crfconv)に基づくエンコーダ・デコーダネットワークを構築することにより,デコード層に埋め込まれたcrfconvが,エンコード段階で失われた高レベルな特徴の詳細を復元し,ネットワークの位置能力を向上させることにより,セグメント化の恩恵を受ける。 CRFConvと類似して、従来の離散CRFは、別のグラフ畳み込みによって提案されたネットワークと協調して動作し、セグメンテーション結果をさらに改善できることを示す。 各種クラウドベンチマーク実験により,提案手法の有効性とロバスト性を示した。 最先端手法と比較して,提案手法は競合セグメンテーション性能も達成できる。

Point cloud segmentation is the foundation of 3D environmental perception for modern intelligent systems. To solve this problem and image segmentation, conditional random fields (CRFs) are usually formulated as discrete models in label space to encourage label consistency, which is actually a kind of postprocessing. In this paper, we reconsider the CRF in feature space for point cloud segmentation because it can capture the structure of features well to improve the representation ability of features rather than simply smoothing. Therefore, we first model the point cloud features with a continuous quadratic energy model and formulate its solution process as a message-passing graph convolution, by which it can be easily integrated into a deep network. We theoretically demonstrate that the message passing in the graph convolution is equivalent to the mean-field approximation of a continuous CRF model. Furthermore, we build an encoder-decoder network based on the proposed continuous CRF graph convolution (CRFConv), in which the CRFConv embedded in the decoding layers can restore the details of high-level features that were lost in the encoding stage to enhance the location ability of the network, thereby benefiting segmentation. Analogous to the CRFConv, we show that the classical discrete CRF can also work collaboratively with the proposed network via another graph convolution to further improve the segmentation results. Experiments on various point cloud benchmarks demonstrate the effectiveness and robustness of the proposed method. Compared with the state-of-the-art methods, the proposed method can also achieve competitive segmentation performance.
翻訳日:2021-10-13 17:19:58 公開日:2021-10-12
# (参考訳) Cubature Kalman Filter を用いたハイブリッド微分方程式 Recurrent Neural Network Physiological Dynamic Model の学習 [全文訳有]

Cubature Kalman Filter Based Training of Hybrid Differential Equation Recurrent Neural Network Physiological Dynamic Models ( http://arxiv.org/abs/2110.06089v1 )

ライセンス: CC BY 4.0
Ahmet Demirkaya, Tales Imbiriba, Kyle Lockwood, Sumientra Rampersad, Elie Alhajjar, Giovanna Guidoboni, Zachary Danziger, Deniz Erdogmus(参考訳) 生体力学系のモデリングは、異なるシステムコンポーネントの相互依存のために困難であり、その一部は完全には理解されていない。 物理系を機械的にモデル化する能力の既存のギャップを埋めるため,ニューラルネットワークと物理モデルを組み合わせることを提案する。 具体的には、ベイジアンフィルタ法を用いて、未知の常微分方程式(ODE)と既知のODEを結合してモデルパラメータをトレーニングし、動的状態変数を同時に推定する方法を示す。 研究ケースとして、人間の網膜における血液循環についてよく理解されたモデルを利用し、その中核となるODEの1つをニューラルネットワーク近似で置き換える。 その結果、欠落したodeに対応する状態ダイナミクスは、既知の状態動的微分方程式と組み合わされた方法で再帰ベイズフィルタリングアプローチを用いて訓練されたニューラルネットワークを用いてよく近似できることが示された。 これにより、再帰ベイズ状態推定(rbse)フレームワーク内の合同状態推定とモデルパラメータ推定により、行方不明状態変数のダイナミクスと影響を捉えることができる。 また、このRBSEによるNNパラメータのトレーニングは、同じ環境でのバックプロパゲーションでニューラルネットワークをトレーニングするよりも、より良い結果(測定/状態推定精度)が得られることを示す。

Modeling biological dynamical systems is challenging due to the interdependence of different system components, some of which are not fully understood. To fill existing gaps in our ability to mechanistically model physiological systems, we propose to combine neural networks with physics-based models. Specifically, we demonstrate how we can approximate missing ordinary differential equations (ODEs) coupled with known ODEs using Bayesian filtering techniques to train the model parameters and simultaneously estimate dynamic state variables. As a study case we leverage a well-understood model for blood circulation in the human retina and replace one of its core ODEs with a neural network approximation, representing the case where we have incomplete knowledge of the physiological state dynamics. Results demonstrate that state dynamics corresponding to the missing ODEs can be approximated well using a neural network trained using a recursive Bayesian filtering approach in a fashion coupled with the known state dynamic differential equations. This demonstrates that dynamics and impact of missing state variables can be captured through joint state estimation and model parameter estimation within a recursive Bayesian state estimation (RBSE) framework. Results also indicate that this RBSE approach to training the NN parameters yields better outcomes (measurement/state estimation accuracy) than training the neural network with backpropagation through time in the same setting.
翻訳日:2021-10-13 16:59:39 公開日:2021-10-12
# (参考訳) twitterにおけるスペイン語変化の大規模語彙分析と意味分析 [全文訳有]

A large scale lexical and semantic analysis of Spanish language variations in Twitter ( http://arxiv.org/abs/2110.06128v1 )

ライセンス: CC BY 4.0
Eric S. Tellez and Daniela Moctezuma and Sabino Miranda and Mario Graff(参考訳) ダイアレクトメトリー(Diterlectometry)は、地理的領域周辺の言語の変化を研究する専門分野である。 彼らの目標の1つは、問題の領域で研究中の言語の類似性と相違を捉える言語的アトラスの作成である。 例えば、スペイン語は世界中で最も話されている言語の1つだが、必ずしも異なる国で同じようにスペイン語が書かれ、話されているわけではない。 この写本は、世界中の26のスペイン語圏における語彙的・意味的関係を記述した広範な分析を示している。 本研究では,twitterのジオタグ付き公開ストリームの4年間を分析し,各国のスペイン語語彙,分布,用語の意味的使用,絵文字について広範な調査を行った。 また、他の研究者や実践者が地域モデルを活用できるように、スペイン語のTwitterにオープンな地域語埋め込みリソースを提供しています。

Dialectometry is a discipline devoted to studying the variations of a language around a geographical region. One of their goals is the creation of linguistic atlases capturing the similarities and differences of the language under study around the area in question. For instance, Spanish is one of the most spoken languages across the world, but not necessarily Spanish is written and spoken in the same way in different countries. This manuscript presents a broad analysis describing lexical and semantic relationships among 26 Spanish-speaking countries around the globe. For this study, we analyze four-year of the Twitter geotagged public stream to provide an extensive survey of the Spanish language vocabularies of different countries, its distributions, semantic usage of terms, and emojis. We also offer open regional word-embedding resources for Spanish Twitter to help other researchers and practitioners take advantage of regionalized models.
翻訳日:2021-10-13 16:50:21 公開日:2021-10-12
# (参考訳) 層間特徴マップ圧縮に基づくメモリ効率cnn加速器 [全文訳有]

Memory-Efficient CNN Accelerator Based on Interlayer Feature Map Compression ( http://arxiv.org/abs/2110.06155v1 )

ライセンス: CC BY 4.0
Zhuang Shao, Xiaoliang Chen, Li Du, Lei Chen, Yuan Du, Wei Zhuang, Huadong Wei, Chenjia Xie, and Zhongfeng Wang(参考訳) 既存の深層畳み込みニューラルネットワーク(cnns)は、ネットワーク推論中に大量の層間特徴データを生成する。 組込みシステムにおけるリアルタイム処理を維持するためには,層間特徴マップのバッファリングには,大きなオンチップメモリが必要となる。 本稿では,オンチップメモリサイズとオフチップメモリアクセス帯域幅を大幅に削減するために,層間特徴圧縮技術を用いた効率的なハードウェアアクセラレータを提案する。 アクセラレータは、ハードウェア実装8x8離散コサイン変換(DCT)を用いて、記憶されたデータを周波数領域に変換することにより、層間特徴写像を圧縮する。 高周波成分は、量子化によりDCT後に除去される。 スパース行列圧縮を用いて、層間特徴写像をさらに圧縮する。 オンチップメモリ割り当て方式は、異なるネットワーク層要求に応じて特徴マップバッファサイズとスクラッチパッドサイズの動的構成をサポートするように設計されている。 ハードウェアアクセラレータは圧縮、減圧縮、cnnの加速を1つの計算ストリームに組み合わせ、最小の圧縮と処理遅延を達成する。 FPGAプラットフォーム上でプロトタイプアクセラレータが実装され、TSMC 28nm COMS技術で合成される。 403GOPSピークスループットと1.4x~3.3x層間特徴マップの削減を実現し、軽量ハードウェア領域のオーバーヘッドを追加し、インテリジェントIoTデバイスのハードウェアアクセラレータとして期待できる。

Existing deep convolutional neural networks (CNNs) generate massive interlayer feature data during network inference. To maintain real-time processing in embedded systems, large on-chip memory is required to buffer the interlayer feature maps. In this paper, we propose an efficient hardware accelerator with an interlayer feature compression technique to significantly reduce the required on-chip memory size and off-chip memory access bandwidth. The accelerator compresses interlayer feature maps through transforming the stored data into frequency domain using hardware-implemented 8x8 discrete cosine transform (DCT). The high-frequency components are removed after the DCT through quantization. Sparse matrix compression is utilized to further compress the interlayer feature maps. The on-chip memory allocation scheme is designed to support dynamic configuration of the feature map buffer size and scratch pad size according to different network-layer requirements. The hardware accelerator combines compression, decompression, and CNN acceleration into one computing stream, achieving minimal compressing and processing delay. A prototype accelerator is implemented on an FPGA platform and also synthesized in TSMC 28-nm COMS technology. It achieves 403GOPS peak throughput and 1.4x~3.3x interlayer feature map reduction by adding light hardware area overhead, making it a promising hardware accelerator for intelligent IoT devices.
翻訳日:2021-10-13 16:32:41 公開日:2021-10-12
# (参考訳) 最寄り-neighbor分類の関連点の探索 [全文訳有]

Finding Relevant Points for Nearest-Neighbor Classification ( http://arxiv.org/abs/2110.06163v1 )

ライセンス: CC BY 4.0
David Eppstein(参考訳) 至近距離分類問題において、既知の分類を持つ1組の1組のd$-d訓練点が与えられ、最近の訓練点と同じ分類を用いて、他の点の未知の分類を推測するために使用される。 トレーニングセットからの欠落がこれらの推論の結果を変える場合、トレーニングポイントは重要となる。 関連する点のサブセットに設定されたトレーニングを細分化する簡単なアルゴリズムを提供し、各点の集合の最小スパンディングツリーを探索し、点の集合の極端点(凸包頂点)を求めるサブルーチンアルゴリズムとして使用する。 我々のアルゴリズムの時間境界は、任意の定数次元$d\ge 3$で、クラークソン (FOCS 1994) による同じ問題に対する以前のアルゴリズムを改善する。

In nearest-neighbor classification problems, a set of $d$-dimensional training points are given, each with a known classification, and are used to infer unknown classifications of other points by using the same classification as the nearest training point. A training point is relevant if its omission from the training set would change the outcome of some of these inferences. We provide a simple algorithm for thinning a training set down to its subset of relevant points, using as subroutines algorithms for finding the minimum spanning tree of a set of points and for finding the extreme points (convex hull vertices) of a set of points. The time bounds for our algorithm, in any constant dimension $d\ge 3$, improve on a previous algorithm for the same problem by Clarkson (FOCS 1994).
翻訳日:2021-10-13 16:08:59 公開日:2021-10-12
# (参考訳) m2gan: 自律走行車における画像雨除去のための多段セルフアテンションネットワーク [全文訳有]

M2GAN: A Multi-Stage Self-Attention Network for Image Rain Removal on Autonomous Vehicles ( http://arxiv.org/abs/2110.06164v1 )

ライセンス: CC BY 4.0
Duc Manh Nguyen, Sang-Woong Lee(参考訳) イメージレーダリングは、自動運転車の応用において新たな挑戦的な問題である。 豪雨の悪天候下では、主に車両のフロントガラスを打つ雨滴は、フロントガラスのワイパーが一部を除去できるとしても、観測能力を著しく低下させることができる。 さらに、フロントガラスの上に広がる雨流は屈折の物理的効果を生じさせ、観光線を著しく阻害したり、車両に搭載された機械学習システムを弱めたりする。 本稿では,自動車のフロントガラスにぶつかる雨滴の問題に対処するため,マルチタスク・リカレント・ジェネレーティブ・逆向ネットワーク(M2GAN)を提案する。 また、ガラス窓やレンズに現れる雨滴の除去にも適用できる。 M2GANは, セマンティックセグメンテーションなどの先進的な高レベル情報を利用して, デライン性能を向上させるマルチタスク生成対向ネットワークである。 M2GANを実証するために,自律走行車における降雨除去のための最初の実世界のデータセットを紹介する。 実験結果から,本手法は他の雨滴流出手法よりも定量的指標と視覚品質において優れていることが示唆された。 M2GANは、自動運転車のような制約のない環境下での現実世界の雨の問題に対処する最初の方法と考えられている。

Image deraining is a new challenging problem in applications of autonomous vehicles. In a bad weather condition of heavy rainfall, raindrops, mainly hitting the vehicle's windshield, can significantly reduce observation ability even though the windshield wipers might be able to remove part of it. Moreover, rain flows spreading over the windshield can yield the physical effect of refraction, which seriously impede the sightline or undermine the machine learning system equipped in the vehicle. In this paper, we propose a new multi-stage multi-task recurrent generative adversarial network (M2GAN) to deal with challenging problems of raindrops hitting the car's windshield. This method is also applicable for removing raindrops appearing on a glass window or lens. M2GAN is a multi-stage multi-task generative adversarial network that can utilize prior high-level information, such as semantic segmentation, to boost deraining performance. To demonstrate M2GAN, we introduce the first real-world dataset for rain removal on autonomous vehicles. The experimental results show that our proposed method is superior to other state-of-the-art approaches of deraining raindrops in respect of quantitative metrics and visual quality. M2GAN is considered the first method to deal with challenging problems of real-world rains under unconstrained environments such as autonomous vehicles.
翻訳日:2021-10-13 15:53:15 公開日:2021-10-12
# (参考訳) GraPE: 高速でスケーラブルなグラフ処理と埋め込み

GraPE: fast and scalable Graph Processing and Embedding ( http://arxiv.org/abs/2110.06196v1 )

ライセンス: CC BY 4.0
Luca Cappelletti, Tommaso Fontana, Elena Casiraghi, Vida Ravanmehr, Tiffany J.Callahan, Marcin P. Joachimiak, Christopher J. Mungall, Peter N. Robinson, Justin Reese and Giorgio Valentini(参考訳) グラフ表現学習手法は、グラフ形式で表現可能なデータに対して、幅広い学習問題に対処することができる。 それでも、経済、生物学、医学、その他の分野における現実のいくつかの問題は、数百万のノードと数十億のエッジを特徴とする実世界のグラフのサイズのため、既存の方法とそのソフトウェア実装に関するスケーリングの問題を引き起こした。 本稿では,グラフ処理とランダムウォークに基づく埋め込みのためのソフトウェアリソースであるgrapeを提案する。 grapeは特殊なデータ構造、アルゴリズム、高速な並列実装で構成されており、経験的空間と時間の複雑さにおいて、最先端のソフトウェアリソースと比較して、経験的空間と時間的複雑さが大幅に向上し、エッジとノードラベルの予測とグラフの教師なし解析のための機械学習メソッドのパフォーマンスが向上している。grapeはラップトップやデスクトップコンピュータだけでなく、高性能コンピューティングクラスタ上でも動作するように設計されている。

Graph Representation Learning methods have enabled a wide range of learning problems to be addressed for data that can be represented in graph form. Nevertheless, several real world problems in economy, biology, medicine and other fields raised relevant scaling problems with existing methods and their software implementation, due to the size of real world graphs characterized by millions of nodes and billions of edges. We present GraPE, a software resource for graph processing and random walk based embedding, that can scale with large and high-degree graphs and significantly speed up-computation. GraPE comprises specialized data structures, algorithms, and a fast parallel implementation that displays everal orders of magnitude improvement in empirical space and time complexity compared to state of the art software resources, with a corresponding boost in the performance of machine learning methods for edge and node label prediction and for the unsupervised analysis of graphs.GraPE is designed to run on laptop and desktop computers, as well as on high performance computing clusters
翻訳日:2021-10-13 15:39:54 公開日:2021-10-12
# codabench: フレキシブルで使いやすい、誰でも再現可能なベンチマーク

Codabench: Flexible, Easy-to-Use and Reproducible Benchmarking for Everyone ( http://arxiv.org/abs/2110.05802v1 )

ライセンス: Link先を確認
Zhen Xu, Huan Zhao, Wei-Wei Tu, Magali Richard, Sergio Escalera, Isabelle Guyon(参考訳) 計算手法の標準化されたクラウドソースベンチマークは、科学コミュニティにおいて大きな問題である。 統一環境での公正な継続的ベンチマークを可能にする専用フレームワークはまだ開発されていない。 ここでは、アルゴリズムやソフトウェアエージェントをデータセットやタスクに対してベンチマークするための、オープンソースでコミュニティ駆動のプラットフォームであるcodabenchを紹介します。 Codabenchのパブリックインスタンスは誰でも無料で公開されており、ベンチマークのオーガナイザは同じ設定(ソフトウェア、ハードウェア、データ、アルゴリズム)とカスタムプロトコルとデータフォーマットを比較することができる。 Codabenchには、フレキシブル、簡単、再現可能なベンチマークの編成を容易にするユニークな機能がある。 まず、専用のコンピュータワーカーのテストのためのコード提出とデータ提出をサポートし、ベンチマークオーガナイザが提供できる。 これによってシステムのスケーラビリティが向上し、プラットフォームプロバイダは低コストになる。 次に、codabenchベンチマークは、(明確に定義されたスキーマに従う)構成ファイル、ドキュメントページ、データ、取り込みおよびスコア付けプログラム、ベンチマークの再利用性と可搬性を備えたzipファイルである、自己完結したバンドルから生成される。 Codabenchのドキュメントには、テンプレートとして使えるバンドルの例が多数含まれている。 第3に、Codabenchは各タスクの実行環境のドッキングを使って結果を再現する。 Codabenchは、過去6ヶ月で10以上のアプリケーションで、内部および外部で使用されている。 実例として,グラフ機械学習,癌異質性,臨床診断,強化学習の4つのベンチマークを紹介する。

Obtaining standardized crowdsourced benchmark of computational methods is a major issue in scientific communities. Dedicated frameworks enabling fair continuous benchmarking in a unified environment are yet to be developed. Here we introduce Codabench, an open-sourced, community-driven platform for benchmarking algorithms or software agents versus datasets or tasks. A public instance of Codabench is open to everyone, free of charge, and allows benchmark organizers to compare fairly submissions, under the same setting (software, hardware, data, algorithms), with custom protocols and data formats. Codabench has unique features facilitating the organization of benchmarks flexibly, easily and reproducibly. Firstly, it supports code submission and data submission for testing on dedicated compute workers, which can be supplied by the benchmark organizers. This makes the system scalable, at low cost for the platform providers. Secondly, Codabench benchmarks are created from self-contained bundles, which are zip files containing a full description of the benchmark in a configuration file (following a well-defined schema), documentation pages, data, ingestion and scoring programs, making benchmarks reusable and portable. The Codabench documentation includes many examples of bundles that can serve as templates. Thirdly, Codabench uses dockers for each task's running environment to make results reproducible. Codabench has been used internally and externally with more than 10 applications during the past 6 months. As illustrative use cases, we introduce 4 diverse benchmarks covering Graph Machine Learning, Cancer Heterogeneity, Clinical Diagnosis and Reinforcement Learning.
翻訳日:2021-10-13 15:38:28 公開日:2021-10-12
# オンラインランキングシステムの最適化

Optimizing Ranking Systems Online as Bandits ( http://arxiv.org/abs/2110.05807v1 )

ライセンス: Link先を確認
Chang Li(参考訳) ランキングシステムは現代の検索とレコメンデーションシステムの中核部分であり、ユーザのコンテキストに応じて候補項目をランク付けすることを目的としている。 オンラインでランキングシステムを最適化することは、デプロイされたシステムがユーザの要求、例えばウェブ検索でのクエリ、クリックなどのユーザーインタラクションから学習することでランキングポリシーを最適化できることを意味する。 banditは一般的なオンライン学習フレームワークで、最適化タスクで使用できます。 しかし,ランキングのユニークな特徴から,ランキングシステム最適化のためのバンドイットアルゴリズムの設計にはいくつかの課題がある。 本論文では,オンラインランキングシステムを最適化する上で,有効性,安全性,非定常性,多様化という4つの課題について検討し,提案する。 まず、効果はアルゴリズムが相互作用からどれだけ速く学習するかに関係している。 本稿では,オンラインランサー評価を効果的に行うために,MergeDTSアルゴリズムを提案する。 第二に、デプロイされたアルゴリズムは安全でなければならない。つまり、アルゴリズムはユーザ要求に対して適切なコンテンツのみを表示する。 安全なオンライン学習のランク付けを実現するために,BubbleRankアルゴリズムを提案する。 第三に、ユーザーが常に好みを変えるとき、アルゴリズムは非定常性を扱うべきである。 我々は、この非定常オンライン学習をカスケード非定常帯域としてランク付けし、その問題を解決するためにカスケードDUCBおよびカスケードSWUCBアルゴリズムを提案する。 最後に、ランクリストの内容は多様であるべきである。 本研究では,ユーザインタラクションから学習する場合に,項目の関連度と結果の多様化度を考慮したカスケードハイバードアルゴリズムを提案する。

Ranking system is the core part of modern retrieval and recommender systems, where the goal is to rank candidate items given user contexts. Optimizing ranking systems online means that the deployed system can serve user requests, e.g., queries in the web search, and optimize the ranking policy by learning from user interactions, e.g., clicks. Bandit is a general online learning framework and can be used in our optimization task. However, due to the unique features of ranking, there are several challenges in designing bandit algorithms for ranking system optimization. In this dissertation, we study and propose solutions for four challenges in optimizing ranking systems online: effectiveness, safety, nonstationarity, and diversification. First, the effectiveness is related to how fast the algorithm learns from interactions. We study the effective online ranker evaluation task and propose the MergeDTS algorithm to solve the problem effectively. Second, the deployed algorithm should be safe, which means the algorithm only displays reasonable content to user requests. To solve the safe online learning to rank problem, we propose the BubbleRank algorithm. Third, as users change their preferences constantly, the algorithm should handle the nonstationarity. We formulate this nonstationary online learning to rank problem as cascade non-stationary bandits and propose CascadeDUCB and CascadeSWUCB algorithms to solve the problem. Finally, the contents in ranked lists should be diverse. We consider the results diversification task and propose the CascadeHybird algorithm that considers both the item relevance and results diversification when learning from user interactions.
翻訳日:2021-10-13 15:38:05 公開日:2021-10-12
# カップル学習:疑似ラベルを用いた平均教師法による半教師付き深層学習結果の改善

Couple Learning: Mean Teacher method with pseudo-labels improves semi-supervised deep learning results ( http://arxiv.org/abs/2110.05809v1 )

ライセンス: Link先を確認
Rui Tao, Long Yan, Kazushige Ouchi, Xiangdong Wang(参考訳) 最近提案された平均教師は、いくつかの半教師付き学習ベンチマークで最先端の結果を得た。 平均教師法は,大規模未ラベルデータを自己認識的に活用することができる。 本稿では, よく訓練されたモデルと平均教師モデルに基づく効果的な結合学習手法を提案する。 提案する擬似ラベル生成モデル (plg) は, 強ラベルデータと弱ラベルデータを増やし, 平均教師法の性能を向上させる。 平均教師法は擬似ラベルデータのノイズを抑制することができる。 複合学習データにより多くの情報を抽出することができる。 dcase2020チャレンジのタスク4におけるこれらの実験結果は、提案手法の優位性を示し、公的なevalセット上で39.18%のf1-scoreを達成し、ベースラインシステムの37.12%をかなりのマージンで上回った。

The recently proposed Mean Teacher has achieved state-of-the-art results in several semi-supervised learning benchmarks. The Mean Teacher method can exploit large-scale unlabeled data in a self-ensembling manner. In this paper, an effective Couple Learning method based on a well-trained model and a Mean Teacher model is proposed. The proposed pseudo-labels generated model (PLG) can increase strongly-labeled data and weakly-labeled data to improve performance of the Mean Teacher method. The Mean Teacher method can suppress noise in pseudo-labels data. The Couple Learning method can extract more information in the compound training data. These experimental results on Task 4 of the DCASE2020 challenge demonstrate the superiority of the proposed method, achieving about 39.18% F1-score on public eval set, outperforming 37.12% of the baseline system by a significant margin.
翻訳日:2021-10-13 15:37:42 公開日:2021-10-12
# FANCI機能共有:DGA検出のための特徴抽出のプライバシ分析

Sharing FANCI Features: A Privacy Analysis of Feature Extraction for DGA Detection ( http://arxiv.org/abs/2110.05849v1 )

ライセンス: Link先を確認
Benedikt Holmes, Arthur Drichel, Ulrike Meyer(参考訳) ドメイン生成アルゴリズム(DGA)検出の目標は、ボットマルウェアによる感染を認識し、非解決型ドメイン名システム(DNS)トラフィックを分類し、潜在的に機密性の高いデータに基づいてトレーニングされる機械学習アプローチの助けを借りることである。 それと並行して、マシンラーニングの世界におけるプライバシ研究の台頭は、ディープラーニングモデルのアーキテクチャやトレーニングルーチンと密に結合した、プライバシ保護対策に繋がる一方で、非ディープラーニングアプローチは、実際の分類モジュール以外のプライバシ向上手法の適用に一般的に適している。 本研究では,機能ベースDGA検出器FANCI(Feature-based Automated Nx domain Classification and Intelligence)の機能抽出器のプライバシ能力を測定することを目的とする。 我々の目標は、データ豊富な敵がFANCIの特徴抽出器の逆写像を学習し、特徴ベクトルからドメイン名を再構築できるかどうかを評価することである。 攻撃の成功は、FANCIの機能表現を共有するためにプライバシー上の脅威となるが、その逆は、プライバシーの懸念なしにこの表現を共有できるようにする。 実世界の3つのデータセットを用いて、再構成タスクで繰り返し機械学習モデルをトレーニングする。 提案手法は復元性能の低下を招き,特徴抽出過程を数学的に検討して結果の裏付けを試みている。 したがって、FANCIの機能表現を共有することは、かなりのプライバシー漏洩にはならない。

The goal of Domain Generation Algorithm (DGA) detection is to recognize infections with bot malware and is often done with help of Machine Learning approaches that classify non-resolving Domain Name System (DNS) traffic and are trained on possibly sensitive data. In parallel, the rise of privacy research in the Machine Learning world leads to privacy-preserving measures that are tightly coupled with a deep learning model's architecture or training routine, while non deep learning approaches are commonly better suited for the application of privacy-enhancing methods outside the actual classification module. In this work, we aim to measure the privacy capability of the feature extractor of feature-based DGA detector FANCI (Feature-based Automated Nxdomain Classification and Intelligence). Our goal is to assess whether a data-rich adversary can learn an inverse mapping of FANCI's feature extractor and thereby reconstruct domain names from feature vectors. Attack success would pose a privacy threat to sharing FANCI's feature representation, while the opposite would enable this representation to be shared without privacy concerns. Using three real-world data sets, we train a recurrent Machine Learning model on the reconstruction task. Our approaches result in poor reconstruction performance and we attempt to back our findings with a mathematical review of the feature extraction process. We thus reckon that sharing FANCI's feature representation does not constitute a considerable privacy leakage.
翻訳日:2021-10-13 15:37:27 公開日:2021-10-12
# Synergy:マルチテナントクラスタにおけるリソース感性DNNスケジューリング

Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters ( http://arxiv.org/abs/2110.06073v1 )

ライセンス: Link先を確認
Jayashree Mohan, Amar Phanishayee, Janardhan Kulkarni, Vijay Chidambaram(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。 DNNトレーニングの既存のスケジューラは、GPUを主要なリソースと考え、ジョブが要求するGPUの数に比例したCPUやメモリなどの他のリソースを割り当てる。 残念ながら、これらのスケジューラは、cpu、メモリ、ストレージリソースの割り当てに対するジョブの感度の影響を考慮しない。 本稿では,共有gpuクラスタのためのリソースセンシティブなスケジューラであるsynergyを提案する。 Synergyは、楽観的なプロファイリングを使用して異なるリソースに対してDNNの感度を推測する。一部のジョブはGPUのプロポーショナルアロケーション以上の恩恵を受け、一部のジョブはGPUのプロポーショナルアロケーションよりも影響を受けない可能性がある。 synergyは新しい最適化のオンラインアルゴリズムを使用して、共有マルチテナントクラスタ上でスケジュールされた一連のジョブに対して、このようなマルチリソースのワークロード対応割り当てを実行する。 実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。

Training Deep Neural Networks (DNNs) is a widely popular workload in both enterprises and cloud data centers. Existing schedulers for DNN training consider GPU as the dominant resource, and allocate other resources such as CPU and memory proportional to the number of GPUs requested by the job. Unfortunately, these schedulers do not consider the impact of a job's sensitivity to allocation of CPU, memory, and storage resources. In this work, we propose Synergy, a resource-sensitive scheduler for shared GPU clusters. Synergy infers the sensitivity of DNNs to different resources using optimistic profiling; some jobs might benefit from more than the GPU-proportional allocation and some jobs might not be affected by less than GPU-proportional allocation. Synergy performs such multi-resource workload-aware assignments across a set of jobs scheduled on shared multi-tenant clusters using a new near-optimal online algorithm. Our experiments show that workload-aware CPU and memory allocations can improve average JCT up to 3.4x when compared to traditional GPU-proportional scheduling.
翻訳日:2021-10-13 15:36:26 公開日:2021-10-12
# 10億規模のセマンティック製品検索のためのデータ構造の導入

Embracing Structure in Data for Billion-Scale Semantic Product Search ( http://arxiv.org/abs/2110.06125v1 )

ライセンス: Link先を確認
Vihan Lakshman, Choon Hui Teo, Xiaowen Chu, Priyanka Nigam, Abhinandan Patni, Pooja Maknikar, SVN Vishwanathan(参考訳) 我々は,10億の規模でDyadic Neural Embedding Modelをトレーニングし,デプロイするための原則的アプローチを提案し,セマンティックプロダクトサーチの適用について検討する。 ダイアドモデルのトレーニングでは、2種類のエンティティ(クエリやドキュメント、ユーザや映画など)を共通のベクトル空間に埋め込んで、関連性の高いペアが近くに位置するようにしようとする。 推論において、あるタイプ(例えば、クエリやユーザ)の埋め込みが与えられた場合、関係性の高い他のタイプのエンティティ(例えば、ドキュメントや映画)を検索しようとする。 本研究では,実世界のデータセットの自然構造を活用することで,両者の課題を効率的に解決できることを示す。 具体的には、正の相関関係を持つペア間の辺を持つ二部グラフとしてdyadicデータをモデル化する。 次に、このネットワークを意味的に一貫性のあるクラスタに分割し、与えられた入力に対してこれらのパーティションの小さなサブセットに焦点を当てることで、検索スペースを削減することを提案する。 トレーニング中、このテクニックにより、ハードネガティブな例を効率的にマイニングできる一方で、推論では、与えられた埋め込みの最も近い隣接点を素早く見つけることができます。 我々は、10億規模のamazon.com製品検索データセットでトレーニングと推論の両方にこの技術の有効性を示すオフライン実験結果を提供する。

We present principled approaches to train and deploy dyadic neural embedding models at the billion scale, focusing our investigation on the application of semantic product search. When training a dyadic model, one seeks to embed two different types of entities (e.g., queries and documents or users and movies) in a common vector space such that pairs with high relevance are positioned nearby. During inference, given an embedding of one type (e.g., a query or a user), one seeks to retrieve the entities of the other type (e.g., documents or movies, respectively) that are highly relevant. In this work, we show that exploiting the natural structure of real-world datasets helps address both challenges efficiently. Specifically, we model dyadic data as a bipartite graph with edges between pairs with positive associations. We then propose to partition this network into semantically coherent clusters and thus reduce our search space by focusing on a small subset of these partitions for a given input. During training, this technique enables us to efficiently mine hard negative examples while, at inference, we can quickly find the nearest neighbors for a given embedding. We provide offline experimental results that demonstrate the efficacy of our techniques for both training and inference on a billion-scale Amazon.com product search dataset.
翻訳日:2021-10-13 15:36:09 公開日:2021-10-12
# バイオメディシンにおけるラベル不足:データ豊富な潜伏因子の発見は表現型予測を促進する

Label scarcity in biomedicine: Data-rich latent factor discovery enhances phenotype prediction ( http://arxiv.org/abs/2110.06135v1 )

ライセンス: Link先を確認
Marc-Andre Schulz, Bertrand Thirion, Alexandre Gramfort, Ga\"el Varoquaux, Danilo Bzdok(参考訳) 高品質なデータ蓄積は、今では健康領域で広く普及している。 健常者からの豊富なデータを利用して、悪名高いデータ不足のある特定の疾患における教師付き推定値を改善する機会が増えている。 低次元の埋め込み空間は、イギリスのバイオバンク人口データセットから導出され、健康指標、生活習慣、人口特性の予測データを強化するために使用される。 変分自己エンコーダ多様体により促進される現象型予測は, PCA や Isomap による次元減少よりもラベルなしデータの増大により, 典型的に向上した。 semisupervisonのアプローチによるパフォーマンス向上は、様々な医療データサイエンスアプリケーションにとって重要な要素になるだろう。

High-quality data accumulation is now becoming ubiquitous in the health domain. There is increasing opportunity to exploit rich data from normal subjects to improve supervised estimators in specific diseases with notorious data scarcity. We demonstrate that low-dimensional embedding spaces can be derived from the UK Biobank population dataset and used to enhance data-scarce prediction of health indicators, lifestyle and demographic characteristics. Phenotype predictions facilitated by Variational Autoencoder manifolds typically scaled better with increasing unlabeled data than dimensionality reduction by PCA or Isomap. Performances gains from semisupervison approaches will probably become an important ingredient for various medical data science applications.
翻訳日:2021-10-13 15:35:05 公開日:2021-10-12
# 部分制御可能な線形系のスパーシティ

Sparsity in Partially Controllable Linear Systems ( http://arxiv.org/abs/2110.06150v1 )

ライセンス: Link先を確認
Yonathan Efroni, Sham Kakade, Akshay Krishnamurthy, Cyril Zhang(参考訳) 制御理論の基本的な概念は制御可能性であり、任意のシステム状態が適切な制御入力の選択によって到達できる。 実際、古典的および近代的なアプローチの大きなボディは、制御可能な線形力学系のために設計されている。 しかし、実際には、多くの状態変数が制御入力から独立して均一に進化するシステムに遭遇することが多く、そのようなシステムは単に \emph{partially controllable} である。 この研究の焦点は、部分制御可能な線形力学系の大きなクラスであり、基礎となるスパーシティパターンによって特定される。 本研究の主な成果は, 構造条件の確立と, システム制御の学習のための有限サンプル保証である。 特に, 最適制御に無関係な状態変数を特徴付け, 古典的制御技術から逸脱した解析を行った。 アルゴリズムの結果は,高次元統計,特にソフトスレッショルドおよびセミパラメトリックな最小二乗法を用いて,基礎となるスパーシティパターンを活用し,確実性同値に基づいて著しく改善する有限サンプル保証を得る。 また、シミュレーション研究により、一定の等価制御に対するこれらの理論的改善を裏付ける。

A fundamental concept in control theory is that of controllability, where any system state can be reached through an appropriate choice of control inputs. Indeed, a large body of classical and modern approaches are designed for controllable linear dynamical systems. However, in practice, we often encounter systems in which a large set of state variables evolve exogenously and independently of the control inputs; such systems are only \emph{partially controllable}. The focus of this work is on a large class of partially controllable linear dynamical systems, specified by an underlying sparsity pattern. Our main results establish structural conditions and finite-sample guarantees for learning to control such systems. In particular, our structural results characterize those state variables which are irrelevant for optimal control, an analysis which departs from classical control techniques. Our algorithmic results adapt techniques from high-dimensional statistics -- specifically soft-thresholding and semiparametric least-squares -- to exploit the underlying sparsity pattern in order to obtain finite-sample guarantees that significantly improve over those based on certainty-equivalenc e. We also corroborate these theoretical improvements over certainty-equivalent control through a simulation study.
翻訳日:2021-10-13 15:34:54 公開日:2021-10-12
# ピック・アンド・プレイスを超えて: 異形ロボットを積み重ねる

Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes ( http://arxiv.org/abs/2110.06192v1 )

ライセンス: Link先を確認
Alex X. Lee, Coline Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, Claudio Fantacci, Jose Enrique Chen, Akhil Raju, Rae Jeong, Michael Neunert, Antoine Laurens, Stefano Saliceti, Federico Casarini, Martin Riedmiller, Raia Hadsell, Francesco Nori(参考訳) 複雑な幾何学の物体を用いたロボット積み重ね問題について検討する。 単純な"ピック・アンド・プレース"ソリューション以上の戦略を必要とするように慎重に設計された、挑戦的で多様なオブジェクトセットを提案する。 本手法は,視覚に基づく対話的政策蒸留とシミュレーションから現実への伝達を組み合わせた強化学習(rl)手法である。 学習したポリシーは、現実世界の複数のオブジェクトの組み合わせを効率的に扱うことができ、様々な積み重ねスキルを発揮できる。 本研究では,このような汎用視覚エージェントをシミュレーションで学習する上で,どのような選択が重要か,ロボットの最適移動にどのような影響を及ぼすかを検討する。 そして、このようなポリシーによって収集されたデータを活用し、オフラインのRLで改善します。 私たちの作品のビデオとブログ記事が補足資料として提供されている。

We study the problem of robotic stacking with objects of complex geometry. We propose a challenging and diverse set of such objects that was carefully designed to require strategies beyond a simple "pick-and-place" solution. Our method is a reinforcement learning (RL) approach combined with vision-based interactive policy distillation and simulation-to-realit y transfer. Our learned policies can efficiently handle multiple object combinations in the real world and exhibit a large variety of stacking skills. In a large experimental study, we investigate what choices matter for learning such general vision-based agents in simulation, and what affects optimal transfer to the real robot. We then leverage data collected by such policies and improve upon them with offline RL. A video and a blog post of our work are provided as supplementary material.
翻訳日:2021-10-13 15:34:36 公開日:2021-10-12
# 終端ノックオフフィルタ:偽発見率制御による高速高次元可変選択

The Terminating-Knockoff Filter: Fast High-Dimensional Variable Selection with False Discovery Rate Control ( http://arxiv.org/abs/2110.06048v1 )

ライセンス: Link先を確認
Jasin Machkour, Michael Muma, Daniel P. Palomar(参考訳) 本稿では,高次元データに対する高速変数選択法であるT-Knockoffフィルタを提案する。 T-Knockフィルタは、選択された真の正の数を最大化しながら、ユーザ定義のターゲット偽発見率(FDR)を制御する。 これは複数の初期終端ランダム実験の解を融合させることによって達成される。 実験は、元のデータとランダムに生成されたノックオフ変数の複数セットを組み合わせたものである。 FDR制御特性に対するマーチンゲール理論に基づく有限サンプル証明を提供する。 数値シミュレーションにより、FDRは高出力を許容しながら目標レベルで制御されていることが示された。 弱い条件下では、ノックオフが任意の単変量分布からサンプリングできることが証明される。 提案手法の計算複雑性を導出し, 数値シミュレーションにより, 逐次計算時間は, 比較的高次元設定において, 最強ベンチマーク法よりも桁違いに小さいことを実証した。 t-knockフィルタは、シミュレーションゲノムワイドアソシエーション研究(gwas)におけるfdr制御のための最先端の手法よりも優れており、計算時間は最強のベンチマーク手法よりも2桁以上低い。

We propose the Terminating-Knockoff (T-Knock) filter, a fast variable selection method for high-dimensional data. The T-Knock filter controls a user-defined target false discovery rate (FDR) while maximizing the number of selected true positives. This is achieved by fusing the solutions of multiple early terminated random experiments. The experiments are conducted on a combination of the original data and multiple sets of randomly generated knockoff variables. A finite sample proof based on martingale theory for the FDR control property is provided. Numerical simulations show that the FDR is controlled at the target level while allowing for a high power. We prove under mild conditions that the knockoffs can be sampled from any univariate distribution. The computational complexity of the proposed method is derived and it is demonstrated via numerical simulations that the sequential computation time is multiple orders of magnitude lower than that of the strongest benchmark methods in sparse high-dimensional settings. The T-Knock filter outperforms state-of-the-art methods for FDR control on a simulated genome-wide association study (GWAS), while its computation time is more than two orders of magnitude lower than that of the strongest benchmark methods.
翻訳日:2021-10-13 15:34:24 公開日:2021-10-12
# Mirrornet : 感覚運動の相互作用に触発された学習音声合成器制御

The Mirrornet : Learning Audio Synthesizer Controls Inspired by Sensorimotor Interaction ( http://arxiv.org/abs/2110.05695v1 )

ライセンス: Link先を確認
Yashish M. Siriwardena, Guilhem Marion, Shihab Shamma(参考訳) ヒト皮質音声システムにおける感覚運動ニューロンの相互作用を理解する実験は、聴覚領域と運動領域の相互作用の双方向的流れの存在を支持する。 彼らの重要な機能は、脳が音声生成のための声道の制御方法を「学習」できるようにすることである。 このアイデアは、制約付きオートエンコーダアーキテクチャである"MirrorNet"の推進力である。 本稿では、ミラーネットを用いて、特定のオーディオシンセサイザー(diva)の制御を教師なしで学習し、その聴覚スペクトログラムからのみメロディを生成する。 その結果、MirrorNetがシンセサイザーパラメータを発見し、元のメロディと見えないメロディとによく似たメロディを生成し、異なるシンセサイザーによって生成された複雑なピアノメロディの近似的なリフレクションに最適な設定パラメータを決定できることを示した。 MirrorNetのこの一般化性は、センサーデータから自動運転車のような任意のモータープラントの制御を発見する可能性を示している。

Experiments to understand the sensorimotor neural interactions in the human cortical speech system support the existence of a bidirectional flow of interactions between the auditory and motor regions. Their key function is to enable the brain to 'learn' how to control the vocal tract for speech production. This idea is the impetus for the recently proposed "MirrorNet", a constrained autoencoder architecture. In this paper, the MirrorNet is applied to learn, in an unsupervised manner, the controls of a specific audio synthesizer (DIVA) to produce melodies only from their auditory spectrograms. The results demonstrate how the MirrorNet discovers the synthesizer parameters to generate the melodies that closely resemble the original and those of unseen melodies, and even determine the best set parameters to approximate renditions of complex piano melodies generated by a different synthesizer. This generalizability of the MirrorNet illustrates its potential to discover from sensory data the controls of arbitrary motor-plants such as autonomous vehicles.
翻訳日:2021-10-13 15:30:53 公開日:2021-10-12
# 自動運転のためのディープフェデレーション学習

Deep Federated Learning for Autonomous Driving ( http://arxiv.org/abs/2110.05754v1 )

ライセンス: Link先を確認
Anh Nguyen, Tuong Do, Minh Tran, Binh X. Nguyen, Chien Duong, Tu Phan, Erman Tjiputra, Quang D. Tran(参考訳) 自律運転は学術と産業の両方において活発な研究課題である。 しかし、既存のソリューションのほとんどは、学習可能なモデルを集中的な大規模データでトレーニングすることで精度を向上させることに重点を置いている。 したがって、これらの方法はユーザのプライバシーを考慮しない。 本稿では,プライバシーを尊重しながら自律運転政策を学習するための新しいアプローチを提案する。 本稿では,ピア・ツー・ピアのディープ・フェデレーション・ラーニング(dfl)アプローチを提案する。 本研究では,モデル安定性の向上,収束の確保,不均衡なデータ分散問題への対処を可能にするとともに,フェデレーション学習法を用いてトレーニングを行う新しいフェデレーション自律運転ネットワーク(fadnet)を設計した。 3つのデータセットについて集中的に実験した結果,fadnet と dfl のアプローチは他の手法と比較して精度が優れていることがわかった。 さらに,ユーザデータを中央サーバに収集しないことにより,プライバシの維持も可能である。

Autonomous driving is an active research topic in both academia and industry. However, most of the existing solutions focus on improving the accuracy by training learnable models with centralized large-scale data. Therefore, these methods do not take into account the user's privacy. In this paper, we present a new approach to learn autonomous driving policy while respecting privacy concerns. We propose a peer-to-peer Deep Federated Learning (DFL) approach to train deep architectures in a fully decentralized manner and remove the need for central orchestration. We design a new Federated Autonomous Driving network (FADNet) that can improve the model stability, ensure convergence, and handle imbalanced data distribution problems while is being trained with federated learning methods. Intensively experimental results on three datasets show that our approach with FADNet and DFL achieves superior accuracy compared with other recent methods. Furthermore, our approach can maintain privacy by not collecting user data to a central server.
翻訳日:2021-10-13 15:30:35 公開日:2021-10-12
# 音楽の感情伝達

Music Sentiment Transfer ( http://arxiv.org/abs/2110.05765v1 )

ライセンス: Link先を確認
Miles Sigel, Michael Zhou, Jiebo Luo(参考訳) 音楽の感情伝達は、まったく新しいタスクです。 感情伝達は、対象とするメディアに対する新たな感情であるソースの感情を適用することに根ざしているため、高度に研究されたスタイル伝達タスクの自然な進化である。 音楽の感情伝達は、感情伝達の高レベルな目的を音楽の領域に適用しようとする。 異なる領域をブリッジするCycleGANを提案する。 ネットワークを利用するためには,音楽フォーマットとしてシンボル的MIDIデータを用いる。 サイクル一貫性の損失を利用することで、ソースデータのコンテンツとリアリズムを保存する1対1のマッピングを作成できます。 その結果,音楽の時間的特性と既存のデータセットの欠如から,音楽の感情伝達の課題はイメージの感情伝達よりも難しいことが示唆された。

Music sentiment transfer is a completely novel task. Sentiment transfer is a natural evolution of the heavily-studied style transfer task, as sentiment transfer is rooted in applying the sentiment of a source to be the new sentiment for a target piece of media; yet compared to style transfer, sentiment transfer has been only scantily studied on images. Music sentiment transfer attempts to apply the high level objective of sentiment transfer to the domain of music. We propose CycleGAN to bridge disparate domains. In order to use the network, we choose to use symbolic, MIDI, data as the music format. Through the use of a cycle consistency loss, we are able to create one-to-one mappings that preserve the content and realism of the source data. Results and literature suggest that the task of music sentiment transfer is more difficult than image sentiment transfer because of the temporal characteristics of music and lack of existing datasets.
翻訳日:2021-10-13 15:30:20 公開日:2021-10-12
# 非負の空間因子化

Nonnegative spatial factorization ( http://arxiv.org/abs/2110.06122v1 )

ライセンス: Link先を確認
F. William Townes and Barbara E. Engelhardt(参考訳) ガウス過程は、その非パラメトリックな柔軟性と不確かさを定量化できる能力のために、空間データの分析に広く使われており、最近開発されたスケーラブルな近似は、大規模データセットへの応用を促進する。 多変量結果に対して、コリージョン化の線形モデルは次元減少と空間相関を結合する。 しかし、非負のモデルとは異なり、部品ベースの表現を回復しないため、実数値の潜在因子やロードは解釈が難しい。 非負空間分解 (non negative spatial factorization, nsf) は、自然にスパーシティを助長する確率的次元減少モデルである。 シミュレーションと高次元空間転写学データを用いたMEFISTOや非空間次元縮小法などの実数値空間分解との比較を行った。 NSFは遺伝子発現の一般化可能な空間パターンを同定する。 遺伝子発現のすべてのパターンが空間的であるわけではないので、空間的および非空間的要素を組み合わせたNSFのハイブリッド拡張を提案し、観察と特徴の両方において空間的重要性の定量化を可能にする。 NSFのTensorFlow実装はhttps://github.com/w illtownes/nsf-paperから入手できる。

Gaussian processes are widely used for the analysis of spatial data due to their nonparametric flexibility and ability to quantify uncertainty, and recently developed scalable approximations have facilitated application to massive datasets. For multivariate outcomes, linear models of coregionalization combine dimension reduction with spatial correlation. However, their real-valued latent factors and loadings are difficult to interpret because, unlike nonnegative models, they do not recover a parts-based representation. We present nonnegative spatial factorization (NSF), a spatially-aware probabilistic dimension reduction model that naturally encourages sparsity. We compare NSF to real-valued spatial factorizations such as MEFISTO and nonspatial dimension reduction methods using simulations and high-dimensional spatial transcriptomics data. NSF identifies generalizable spatial patterns of gene expression. Since not all patterns of gene expression are spatial, we also propose a hybrid extension of NSF that combines spatial and nonspatial components, enabling quantification of spatial importance for both observations and features. A TensorFlow implementation of NSF is available from https://github.com/w illtownes/nsf-paper .
翻訳日:2021-10-13 15:28:17 公開日:2021-10-12
# 空間ミックスアップ:音のイベントの定位と検出のためのデータ拡張としての方向的ラウドネス修正

Spatial mixup: Directional loudness modification as data augmentation for sound event localization and detection ( http://arxiv.org/abs/2110.06126v1 )

ライセンス: Link先を確認
Ricardo Falcon-Perez, Kazuki Shimada, Yuichiro Koyama, Shusuke Takahashi, Yuki Mitsufuji(参考訳) データ拡張手法はラベル付きデータが少ない、あるいはコストがかかる様々な教師付き学習問題において非常に重要である。 音声イベントのローカライゼーションと検出(SELD)タスクには,画像や音声,モノフォニックオーディオなど,他の領域からのアイデアの借用など,いくつかの拡張手法が提案されている。 しかし、完全な3Dオーディオシーンの空間的特性を利用するのはごくわずかである。 本研究では,データ拡張のためのパラメトリック空間音声効果の応用として,アンビソニックス領域で符号化されたマルチチャネル空間音声信号の指向性を変化させる空間ミックスアップを提案する。 ビームフォーミングと同様に、これらの修正は特定の方向から来る信号を強化または抑制するが、効果は少ない。 そのため、深層学習モデルで小さな空間摂動に不変性を達成できる。 この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースラインの性能が向上し、他のよく知られた拡張手法と比較される。 さらに、空間混合と他の手法を組み合わせることにより、性能が大幅に向上する。

Data augmentation methods have shown great importance in diverse supervised learning problems where labeled data is scarce or costly to obtain. For sound event localization and detection (SELD) tasks several augmentation methods have been proposed, with most borrowing ideas from other domains such as images, speech, or monophonic audio. However, only a few exploit the spatial properties of a full 3D audio scene. We propose Spatial Mixup, as an application of parametric spatial audio effects for data augmentation, which modifies the directional properties of a multi-channel spatial audio signal encoded in the ambisonics domain. Similarly to beamforming, these modifications enhance or suppress signals arriving from certain directions, although the effect is less pronounced. Therefore enabling deep learning models to achieve invariance to small spatial perturbations. The method is evaluated with experiments in the DCASE 2021 Task 3 dataset, where spatial mixup increases performance over a non-augmented baseline, and compares to other well known augmentation methods. Furthermore, combining spatial mixup with other methods greatly improves performance.
翻訳日:2021-10-13 15:28:00 公開日:2021-10-12
# 周期材料生成のための結晶拡散変分オートエンコーダ

Crystal Diffusion Variational Autoencoder for Periodic Material Generation ( http://arxiv.org/abs/2110.06197v1 )

ライセンス: Link先を確認
Tian Xie, Xiang Fu, Octavian-Eugen Ganea, Regina Barzilay, Tommi Jaakkola(参考訳) 安定材料の周期構造の生成は、材料設計コミュニティにとって長年の課題である。 この仕事は、安定な物質は原子の全ての可能な周期配置の低次元部分空間にのみ存在するため難しい。 1) 座標は、量子力学によって定義される局所エネルギーの最小値でなければならない。 2) 大域的安定性はまた、構造が異なる原子タイプ間の複雑だが特定の結合嗜好に従う必要がある。 既存の手法ではこれらの因子を取り入れられず、しばしば適切な不変性が欠けている。 本稿では,物質安定性の物理的帰納バイアスを捉える結晶拡散変分オートコーダ(CDVAE)を提案する。 安定物質のデータ分布から学習することにより、デコーダは、原子座標を低いエネルギー状態へ移動させ、隣同士の結合性を満たすために原子タイプを更新する拡散過程において材料を生成する。 我々のモデルは、周期的境界を越えて相互作用を明示的に符号化し、置換、翻訳、回転、周期的不変性を尊重する。 我々は過去のメソッドを3つのタスクで大幅に上回ります。 1)入力構造の再構築 2)有効で多種多様で現実的な材料を生成して 3) 特定の性質を最適化する材料の生成。 また、幅広い機械学習コミュニティのために、いくつかの標準データセットと評価指標も提供しています。

Generating the periodic structure of stable materials is a long-standing challenge for the material design community. This task is difficult because stable materials only exist in a low-dimensional subspace of all possible periodic arrangements of atoms: 1) the coordinates must lie in the local energy minimum defined by quantum mechanics, and 2) global stability also requires the structure to follow the complex, yet specific bonding preferences between different atom types. Existing methods fail to incorporate these factors and often lack proper invariances. We propose a Crystal Diffusion Variational Autoencoder (CDVAE) that captures the physical inductive bias of material stability. By learning from the data distribution of stable materials, the decoder generates materials in a diffusion process that moves atomic coordinates towards a lower energy state and updates atom types to satisfy bonding preferences between neighbors. Our model also explicitly encodes interactions across periodic boundaries and respects permutation, translation, rotation, and periodic invariances. We significantly outperform past methods in three tasks: 1) reconstructing the input structure, 2) generating valid, diverse, and realistic materials, and 3) generating materials that optimize a specific property. We also provide several standard datasets and evaluation metrics for the broader machine learning community.
翻訳日:2021-10-13 15:27:43 公開日:2021-10-12
# (参考訳) オープンセット認識:良いクローズドセット分類器は必要なだけ [全文訳有]

Open-Set Recognition: A Good Closed-Set Classifier is All You Need ( http://arxiv.org/abs/2110.06207v1 )

ライセンス: CC BY 4.0
Sagar Vaze and Kai Han and Andrea Vedaldi and Andrew Zisserman(参考訳) テストサンプルが分類器のトレーニングセットのセマンティッククラスに属するかどうかを識別する能力は、モデルの実践的なデプロイに不可欠である。 このタスクはopen-set recognition(osr)と呼ばれ、近年注目を集めている。 本稿では,まず,分類器が'単立'決定を行う能力と閉集合クラスにおけるその精度との相関が高いことを実証する。 この関係は損失目標とアーキテクチャにまたがって成り立ち、標準OSRベンチマークと大規模イメージネット評価の両方でさらにその傾向を示す。 第2に,この相関を利用してクロスエントロピーosr ‘baseline’の性能を向上させることにより,クローズドセット精度を向上させる。 同様に、クローズドセットの精度を向上させることで既存の最先端手法の性能を向上させるが、これは最も困難なデータセットの強力なベースラインを超えない。 第3の貢献は、OSR評価に使用されるデータセットを再評価し、近隣の機械学習分野が取り組んだ低レベルの分散シフトとは対照的に、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築することである。 この新たな設定では、強いベースラインと既存の最先端の相違が無視できることを示す。

The ability to identify whether or not a test sample belongs to one of the semantic classes in a classifier's training set is critical to practical deployment of the model. This task is termed open-set recognition (OSR) and has received significant attention in recent years. In this paper, we first demonstrate that the ability of a classifier to make the 'none-of-above' decision is highly correlated with its accuracy on the closed-set classes. We find that this relationship holds across loss objectives and architectures, and further demonstrate the trend both on the standard OSR benchmarks as well as on a large-scale ImageNet evaluation. Second, we use this correlation to boost the performance of the cross-entropy OSR 'baseline' by improving its closed-set accuracy, and with this strong baseline achieve a new state-of-the-art on the most challenging OSR benchmark. Similarly, we boost the performance of the existing state-of-the-art method by improving its closed-set accuracy, but this does not surpass the strong baseline on the most challenging dataset. Our third contribution is to reappraise the datasets used for OSR evaluation, and construct new benchmarks which better respect the task of detecting semantic novelty, as opposed to low-level distributional shifts as tackled by neighbouring machine learning fields. In this new setting, we again demonstrate that there is negligible difference between the strong baseline and the existing state-of-the-art.
翻訳日:2021-10-13 15:25:51 公開日:2021-10-12
# KBQAにおける意味解析のためのプログラム転送とオントロジー

Program Transfer and Ontology Awareness for Semantic Parsing in KBQA ( http://arxiv.org/abs/2110.05743v1 )

ライセンス: Link先を確認
Shulin Cao, Jiaxin Shi, Zijun Yao, Lei Hou, Juanzi Li(参考訳) KBQAの意味解析は、自然言語の質問を論理形式に解析することを目的としており、知識ベースに対する実行は答えを生み出す。 質問と回答のペアからセマンティックパーサーを学習するには、答えに整合した論理形式の巨大な空間を探索する必要がある。 現在の手法では、検索空間を減らすために様々な事前知識やエンティティレベルのkb制約を利用する。 本稿では,外部論理形アノテーションとオントロジレベルの制約から,初めて事前知識を検討する。 プログラム転送のための階層的アーキテクチャを設計し,探索空間を削減するためのオントロジー誘導プルーニングアルゴリズムを提案する。 コンプレックス・ウェブ・クエスト(complexwebquestion) の実験により、この手法は最先端のf1スコアを44.0%から58.7%に改善し、絶対的なゲインは14.7%となり、プログラムの転送とオントロジーの認識の有効性が示された。

Semantic parsing in KBQA aims to parse natural language questions into logical forms, whose execution against a knowledge base produces answers. Learning semantic parsers from question-answer pairs requires searching over a huge space of logical forms for ones consistent with answers. Current methods utilize various prior knowlege or entity-level KB constraints to reduce the search space. In this paper, we investigate for the first time prior knowledge from external logical form annotations and ontology-level constraints. We design a hierarchical architecture for program transfer, and propose an ontology-guided pruning algorithm to reduce the search space. The experiments on ComplexWebQuestions show that our method improves the state-of-the-art F1 score from 44.0% to 58.7%, with an absolute gain of 14.7%, which demonstrates the effectiveness of program transfer and ontology awareness.
翻訳日:2021-10-13 14:56:03 公開日:2021-10-12
# デュアルイメージ画像からのデフォーカスマップの推定と劣化

Defocus Map Estimation and Deblurring from a Single Dual-Pixel Image ( http://arxiv.org/abs/2110.05655v1 )

ライセンス: Link先を確認
Shumian Xin, Neal Wadhwa, Tianfan Xue, Jonathan T. Barron, Pratul P. Srinivasan, Jiawen Chen, Ioannis Gkioulekas, Rahul Garg(参考訳) 1つのデュアルピクセル画像を入力として入力し、同時に画像のデフォーカスマップ -- 各ピクセルのデフォーカスぼけ量 -- を推定し、オールインフォーカス画像を復元する手法を提案する。 この方法は、多くの消費者向けカメラで使用可能なデュアルピクセルセンサーを活用してオートフォーカスを支援し、デフォーカスマップやオールインフォーカス画像のリカバリに利用する最近の研究から着想を得ている。 これらの先行研究は、互いに独立して2つのリカバリ問題を解決し、しばしば教師付きトレーニングのために大きなラベル付きデータセットを必要とする。 対照的に,これら2つの密接した問題を同時に扱うことは有益である。 そこで我々は,デュアルピクセル画像の光学を慎重にモデル化することにより,両問題を共同で解決する最適化問題を構築した。 消費者向けスマートフォンカメラでキャプチャしたデータを用いて,1回のキャリブレーションステップを経て,完全に教師なしであるにも関わらず,地図のデフォーカス推定とぼかし除去の両面において,以前の作業を改善することを実証する。

We present a method that takes as input a single dual-pixel image, and simultaneously estimates the image's defocus map -- the amount of defocus blur at each pixel -- and recovers an all-in-focus image. Our method is inspired from recent works that leverage the dual-pixel sensors available in many consumer cameras to assist with autofocus, and use them for recovery of defocus maps or all-in-focus images. These prior works have solved the two recovery problems independently of each other, and often require large labeled datasets for supervised training. By contrast, we show that it is beneficial to treat these two closely-connected problems simultaneously. To this end, we set up an optimization problem that, by carefully modeling the optics of dual-pixel images, jointly solves both problems. We use data captured with a consumer smartphone camera to demonstrate that, after a one-time calibration step, our approach improves upon prior works for both defocus map estimation and blur removal, despite being entirely unsupervised.
翻訳日:2021-10-13 14:54:45 公開日:2021-10-12
# ヒートマップに基づくランドマーク検出の改善

Improved Heatmap-based Landmark Detection ( http://arxiv.org/abs/2110.05676v1 )

ライセンス: Link先を確認
Huifeng Yao, Ziyu Guo, Yatao Zhang, Xiaomeng Li(参考訳) 僧帽弁修復は非常に難しい手術であり、経験豊富な外科医を必要とすることが多い。 医師は、心臓機能の回復を助けるために補綴リングを挿入します。 義歯の縫合位置は極めて重要である。 手術中にそれらを入手し、研究することは、新しい外科医にとって貴重な学習体験である。 本稿では,画像中の縫合点数の変動を解消し,内視鏡画像中の縫合点を検出するためのランドマーク検出ネットワークを提案する。 シミュレーションされた領域からのデータセットと実際の術中データからのデータセットが2つ存在するため、この研究はCycleGANを使用して2つの領域からの画像を相互変換し、より大きなデータセットと実際の術中データに対するより良いスコアを得る。 本論文は,2708枚の写真と2376枚の画像からなる実データを用いて,シミュレーションデータセットを用いて実験を行った。 シミュレーションデータセットの平均感度は約75.64%、精度は約73.62%である。 実際のデータセットの平均感度は約50.23%で、精度は約62.76%である。 データはAdaptor MICCAI Challenge 2021から取得したもので、https://zenodo.org/r ecord/4646979\#で見ることができる。 YO1zLUxCQ2x。

Mitral valve repair is a very difficult operation, often requiring experienced surgeons. The doctor will insert a prosthetic ring to aid in the restoration of heart function. The location of the prosthesis' sutures is critical. Obtaining and studying them during the procedure is a valuable learning experience for new surgeons. This paper proposes a landmark detection network for detecting sutures in endoscopic pictures, which solves the problem of a variable number of suture points in the images. Because there are two datasets, one from the simulated domain and the other from real intraoperative data, this work uses cycleGAN to interconvert the images from the two domains to obtain a larger dataset and a better score on real intraoperative data. This paper performed the tests using a simulated dataset of 2708 photos and a real dataset of 2376 images. The mean sensitivity on the simulated dataset is about 75.64% and the precision is about 73.62%. The mean sensitivity on the real dataset is about 50.23% and the precision is about 62.76%. The data is from the AdaptOR MICCAI Challenge 2021, which can be found at https://zenodo.org/r ecord/4646979\#.YO1z LUxCQ2x.
翻訳日:2021-10-13 14:54:26 公開日:2021-10-12
# シーンテキスト検出モデルのロバスト性探索と改善について

On Exploring and Improving Robustness of Scene Text Detection Models ( http://arxiv.org/abs/2110.05700v1 )

ライセンス: Link先を確認
Shilian Wu, Wei Zhai, Yongrui Li, Kewei Wang, Zengfu Wang(参考訳) シーンテキスト検出技術には実用的応用が数多くあるため, 大規模な汚職に関してテキスト検出モデルの堅牢性を理解することが重要である。 この問題を体系的に検討するために,シーンテキスト検出モデルであるICDAR2015-C(IC15-C)とCTW1500-C(CTW-C)の2つのデータセットを提案する。 本研究は,提案する領域提案,レグレッション,セグメンテーションに基づくシーンテキスト検出フレームワークの性能と堅牢性について検討する。 さらに,事前トレーニングデータ,バックボーン,機能融合モジュール,マルチスケール予測,テキストインスタンスの表現,損失関数の6つの主要コンポーネントのロバスト性解析を行う。 最後に、背景と前景を融合させることでテキスト領域の滑らかさを損なう、シンプルで効果的なデータベース手法を提案し、異なるテキスト検出ネットワークの堅牢性を大幅に向上させることができる。 本研究は,今後の研究に有効なデータポイントと経験を提供することを期待する。 ベンチマーク、コード、データは \url{https://github.com/w ushilian/robust-scen e-text-detection-ben chmark} で利用可能になる。

It is crucial to understand the robustness of text detection models with regard to extensive corruptions, since scene text detection techniques have many practical applications. For systematically exploring this problem, we propose two datasets from which to evaluate scene text detection models: ICDAR2015-C (IC15-C) and CTW1500-C (CTW-C). Our study extends the investigation of the performance and robustness of the proposed region proposal, regression and segmentation-based scene text detection frameworks. Furthermore, we perform a robustness analysis of six key components: pre-training data, backbone, feature fusion module, multi-scale predictions, representation of text instances and loss function. Finally, we present a simple yet effective data-based method to destroy the smoothness of text regions by merging background and foreground, which can significantly increase the robustness of different text detection networks. We hope that this study will provide valid data points as well as experience for future research. Benchmark, code and data will be made available at \url{https://github.com/w ushilian/robust-scen e-text-detection-ben chmark}.
翻訳日:2021-10-13 14:54:05 公開日:2021-10-12
# キャプションからの注意蒸留による話題シーングラフ生成

Topic Scene Graph Generation by Attention Distillation from Caption ( http://arxiv.org/abs/2110.05731v1 )

ライセンス: Link先を確認
W. Wang, R. Wang, X. Chen(参考訳) イメージが物語を語る場合、その画像キャプションは最も簡潔なナレーターである。 一般的に、シーングラフは全知的なジェネラリストを好むが、画像キャプションは専門家になりたがる。 従来の研究では、簡単な内容やノイズを減らさない限り、シーングラフは期待したほど実用的ではないことが分かってきた。 この点において、イメージキャプションは良い家庭教師である。 この目的のために、画像キャプションから機能をシーングラフに借用させることで、トピックシーングラフと呼ばれる全周でスペシャリストになれるようにします。 画像キャプションが注意を向けたものを蒸留してシーングラフに渡し、部分的なオブジェクト、関係、イベントの重要性を推定する。 具体的には、キャプション生成の際、各タイムステップにおける個々のオブジェクトに対する注意を集め、プールし、組み立て、関係性についての注意を得る。 さらに、この注目蒸留プロセスは、画像キャプションとシーングラフの生成を併用する機会を提供するので、シーングラフを、画像キャプションと1世代モデルを共有することにより、リッチで自由な表現で言語形式に変換する。 実験により, 注意蒸留は, 強い監督を伴わない重要な関係のマイニングにおいて, 大幅な改善をもたらすことが示された。

If an image tells a story, the image caption is the briefest narrator. Generally, a scene graph prefers to be an omniscient generalist, while the image caption is more willing to be a specialist, which outlines the gist. Lots of previous studies have found that a scene graph is not as practical as expected unless it can reduce the trivial contents and noises. In this respect, the image caption is a good tutor. To this end, we let the scene graph borrow the ability from the image caption so that it can be a specialist on the basis of remaining all-around, resulting in the so-called Topic Scene Graph. What an image caption pays attention to is distilled and passed to the scene graph for estimating the importance of partial objects, relationships, and events. Specifically, during the caption generation, the attention about individual objects in each time step is collected, pooled, and assembled to obtain the attention about relationships, which serves as weak supervision for regularizing the estimated importance scores of relationships. In addition, as this attention distillation process provides an opportunity for combining the generation of image caption and scene graph together, we further transform the scene graph into linguistic form with rich and free-form expressions by sharing a single generation model with image caption. Experiments show that attention distillation brings significant improvements in mining important relationships without strong supervision, and the topic scene graph shows great potential in subsequent applications.
翻訳日:2021-10-13 14:53:44 公開日:2021-10-12
# 弱監視対象位置推定のための低レベル特徴量活性化マップのオンラインリファインメント

Online Refinement of Low-level Feature Based Activation Map for Weakly Supervised Object Localization ( http://arxiv.org/abs/2110.05741v1 )

ライセンス: Link先を確認
Jinheng Xie, Cheng Luo, Xiangping Zhu, Ziqi Jin, Weizeng Lu, Linlin Shen(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)のための2段階学習フレームワークを提案する。 従来は高レベル機能ベースCAM(Class Activation Maps)に頼っていたが,低レベル機能ベースアクティベーションマップを用いたオブジェクトのローカライズを提案する。 第1段階では、アクティベーションマップ生成装置は、リッチなコンテキストオブジェクト情報がオンライン形式で含まれるように、分類器内の低レベル特徴マップに基づいてアクティベーションマップを生成する。 第2段階では、活性化マップ生成器によって予測される活性化マップを評価するために評価器を用いる。 さらに,対象と背景の間の活性化の不確かさを実質的に低減するために,重み付きエントロピー損失,注意的消去,領域損失を提案し,識別領域の少ない領域を探索する。 第1ステージに保存された低レベルオブジェクト情報に基づいて、第2ステージモデルは、画像中のオブジェクトの分離された完全かつコンパクトなアクティベーションマップを徐々に生成する。 CUB-200-2011とImageNet-1Kデータセットの大規模な実験により、我々のフレームワークが従来の手法をはるかに上回っていることが示され、WSOLの新たな最先端が実現された。

We present a two-stage learning framework for weakly supervised object localization (WSOL). While most previous efforts rely on high-level feature based CAMs (Class Activation Maps), this paper proposes to localize objects using the low-level feature based activation maps. In the first stage, an activation map generator produces activation maps based on the low-level feature maps in the classifier, such that rich contextual object information is included in an online manner. In the second stage, we employ an evaluator to evaluate the activation maps predicted by the activation map generator. Based on this, we further propose a weighted entropy loss, an attentive erasing, and an area loss to drive the activation map generator to substantially reduce the uncertainty of activations between object and background, and explore less discriminative regions. Based on the low-level object information preserved in the first stage, the second stage model gradually generates a well-separated, complete, and compact activation map of object in the image, which can be easily thresholded for accurate localization. Extensive experiments on CUB-200-2011 and ImageNet-1K datasets show that our framework surpasses previous methods by a large margin, which sets a new state-of-the-art for WSOL.
翻訳日:2021-10-13 14:53:17 公開日:2021-10-12
# HyperCube:Voxelized 3D Modelの暗黙の場表現

HyperCube: Implicit Field Representations of Voxelized 3D Models ( http://arxiv.org/abs/2110.05770v1 )

ライセンス: Link先を確認
Magdalena Proszewska, Marcin Mazur, Tomasz Trzci\'nski, Przemys{\l}aw Spurek(参考訳) 最近導入された暗黙のフィールド表現は、3dオブジェクトの形状を生成する効果的な方法を提供する。 これらのデコーダは、形状符号化と連結した3次元点座標を学習し、その点が形状の外側にあるか否かを示す値を出力する。 このアプローチは視覚的に妥当なオブジェクトの効率的なレンダリングを可能にするが、2つの大きな制限がある。 まず、トレーニングセットからすべてのオブジェクトに専用の1つのニューラルネットワークをベースとしており、面倒なトレーニング手順と実生活におけるその応用をもたらす。 さらに重要なことは、暗黙のデコーダは(ボクセル全体ではなく)ボクセル内でサンプリングされた点のみを取り、分類境界の問題を生じさせ、その結果、レンダリングメッシュ内の空空間が生じることである。 上記の制約を解決するために,超ネットワークパラダイムを用いてトレーニングされた3次元ボクセルの直接処理を可能にする区間演算ネットワークに基づく新しいハイパーキューブアーキテクチャを導入する。 voxel内で個々の3dサンプルを処理する代わりに、このアプローチでは、凸殻座標で表されるvoxel(3d立方体)全体を入力し、ハイパーネットによって構築されたターゲットネットワークは、それを内部または外部のカテゴリに割り当てる。 その結果、HyperCubeモデルは、トレーニングと推論効率、最終的なメッシュ品質の両方において競合するアプローチよりも優れています。

Recently introduced implicit field representations offer an effective way of generating 3D object shapes. They leverage implicit decoder trained to take a 3D point coordinate concatenated with a shape encoding and to output a value which indicates whether the point is outside the shape or not. Although this approach enables efficient rendering of visually plausible objects, it has two significant limitations. First, it is based on a single neural network dedicated for all objects from a training set which results in a cumbersome training procedure and its application in real life. More importantly, the implicit decoder takes only points sampled within voxels (and not the entire voxels) which yields problems at the classification boundaries and results in empty spaces within the rendered mesh. To solve the above limitations, we introduce a new HyperCube architecture based on interval arithmetic network, that enables direct processing of 3D voxels, trained using a hypernetwork paradigm to enforce model convergence. Instead of processing individual 3D samples from within a voxel, our approach allows to input the entire voxel (3D cube) represented with its convex hull coordinates, while the target network constructed by a hypernet assigns it to an inside or outside category. As a result our HyperCube model outperforms the competing approaches both in terms of training and inference efficiency, as well as the final mesh quality.
翻訳日:2021-10-13 14:52:37 公開日:2021-10-12
# plnet: 教師なし屋内深度推定のための平面および線先行

PLNet: Plane and Line Priors for Unsupervised Indoor Depth Estimation ( http://arxiv.org/abs/2110.05839v1 )

ライセンス: Link先を確認
Hualie Jiang, Laiyan Ding, Junjie Hu, Rui Huang(参考訳) 人工環境にはテクスチャのない領域が多いため,屋内単眼映像からの奥行きの教師なし学習は困難である。 幸いなことに、屋内のシーンは平面や線のような特定の構造でいっぱいで、教師なしの深層学習をガイドするのに役立ちます。 本稿では,平面と直線の先行値を利用して深度推定を行うPLNetを提案する。 まず,局所平面係数を用いてシーン形状を表現し,その表現に滑らかさ制約を課す。 さらに,コプランナあるいはコリニアであろう点の集合をランダムに選択して,単純かつ効果的な一貫性損失を構築することにより,平面的および線形的一貫性を強制する。 さらに,提案手法の有効性を検証するために,信頼できる平面領域と線形領域における予測点雲の平坦性と直線性を評価することを提案する。 これらの地域の規則性は、質の高い屋内復元を示している。 NYU Depth V2とScanNetの実験では、PLNetが既存のメソッドより優れていることが示されている。 コードは \url{https://github.com/h alleyjiang/plnet} で入手できる。

Unsupervised learning of depth from indoor monocular videos is challenging as the artificial environment contains many textureless regions. Fortunately, the indoor scenes are full of specific structures, such as planes and lines, which should help guide unsupervised depth learning. This paper proposes PLNet that leverages the plane and line priors to enhance the depth estimation. We first represent the scene geometry using local planar coefficients and impose the smoothness constraint on the representation. Moreover, we enforce the planar and linear consistency by randomly selecting some sets of points that are probably coplanar or collinear to construct simple and effective consistency losses. To verify the proposed method's effectiveness, we further propose to evaluate the flatness and straightness of the predicted point cloud on the reliable planar and linear regions. The regularity of these regions indicates quality indoor reconstruction. Experiments on NYU Depth V2 and ScanNet show that PLNet outperforms existing methods. The code is available at \url{https://github.com/H alleyJiang/PLNet}.
翻訳日:2021-10-13 14:52:12 公開日:2021-10-12
# 細粒度半教師付き学習

Fine-Grained Adversarial Semi-supervised Learning ( http://arxiv.org/abs/2110.05848v1 )

ライセンス: Link先を確認
Daniele Mugnai, Federico Pernici, Francesco Turchini, Alberto Del Bimbo(参考訳) 本稿では,FGVCの性能向上のために,SSL(Semi-Supervised Learning)を用いてトレーニングデータの量を増やす。 この問題は、FGVCが要求する厳格なアノテーションコストにもかかわらず、これまで調査されていない。 提案手法は,2次プールモデルを用いて内部特徴表現を得る逆最適化戦略を用いてラベル付きデータを利用する。 この組み合わせにより、第2次プーリングで表される部品の情報を、反対のトレーニング設定でラベルのないデータにバックプロパゲーションすることができる。 本研究では,航空機,スタンフォード・カーズ,CUB-200-2011,オックスフォード・フラワーズ,スタンフォード・ドッグス,最近のセミ・スーパーバイザードiNaturalist-Avesを含む,最先端の細粒度データセットの6つの実験を行った。 実験結果から,提案手法は従来手法よりも優れた性能を示し,比較した教師あり学習法よりも高い分類精度が得られた。

In this paper we exploit Semi-Supervised Learning (SSL) to increase the amount of training data to improve the performance of Fine-Grained Visual Categorization (FGVC). This problem has not been investigated in the past in spite of prohibitive annotation costs that FGVC requires. Our approach leverages unlabeled data with an adversarial optimization strategy in which the internal features representation is obtained with a second-order pooling model. This combination allows to back-propagate the information of the parts, represented by second-order pooling, onto unlabeled data in an adversarial training setting. We demonstrate the effectiveness of the combined use by conducting experiments on six state-of-the-art fine-grained datasets, which include Aircrafts, Stanford Cars, CUB-200-2011, Oxford Flowers, Stanford Dogs, and the recent Semi-Supervised iNaturalist-Aves. Experimental results clearly show that our proposed method has better performance than the only previous approach that examined this problem; it also obtained higher classification accuracy with respect to the supervised learning methods with which we compared.
翻訳日:2021-10-13 14:51:55 公開日:2021-10-12
# 潜在重みをフル活用したバイナリニューラルネットワークの改善

Improving Binary Neural Networks through Fully Utilizing Latent Weights ( http://arxiv.org/abs/2110.05850v1 )

ライセンス: Link先を確認
Weixiang Xu, Qiang Chen, Xiangyu He, Peisong Wang, Jian Cheng(参考訳) バイナリニューラルネットワーク(BNN)は、バイナリトレーニングを支援するために、実数値の補助変数Wに依存する。 しかしながら、先駆的なバイナリワークは、wを使用して後方伝播中に勾配更新を蓄積するだけであり、そのパワーを十分に活用できず、bnnの新たな進歩を妨げる可能性がある。 本研究は,潜伏変数として機能する以外に,トレーニングにおけるWの役割について考察する。 特に、計算グラフにWを加えることを提案し、バイナリトレーニングを支援するために、実数値の特徴抽出器として機能させる。 我々は、実際の重みの活用方法の異なる試みを行い、専門的な監督を提案する。 可視化実験は、異なるカテゴリを区別しやすくするためのアプローチの有効性を質的に検証する。 定量的実験により,本手法は現状よりも優れた性能を示し,浮動小数点ネットワークとBNNの性能ギャップを埋める。 ResNet-18 (Top-1 63.4%)、ResNet-34 (Top-1 67.0%)によるImageNetの評価は、新しい最先端技術を実現する。

Binary Neural Networks (BNNs) rely on a real-valued auxiliary variable W to help binary training. However, pioneering binary works only use W to accumulate gradient updates during backward propagation, which can not fully exploit its power and may hinder novel advances in BNNs. In this work, we explore the role of W in training besides acting as a latent variable. Notably, we propose to add W into the computation graph, making it perform as a real-valued feature extractor to aid the binary training. We make different attempts on how to utilize the real-valued weights and propose a specialized supervision. Visualization experiments qualitatively verify the effectiveness of our approach in making it easier to distinguish between different categories. Quantitative experiments show that our approach outperforms current state-of-the-arts, further closing the performance gap between floating-point networks and BNNs. Evaluation on ImageNet with ResNet-18 (Top-1 63.4%), ResNet-34 (Top-1 67.0%) achieves new state-of-the-art.
翻訳日:2021-10-13 14:51:36 公開日:2021-10-12
# 人間の行動認識のための階層表現に関する共同学習

Joint Learning On The Hierarchy Representation for Fine-Grained Human Action Recognition ( http://arxiv.org/abs/2110.05853v1 )

ライセンス: Link先を確認
Mei Chee Leong, Hui Li Tan, Haosong Zhang, Liyuan Li, Feng Lin, Joo Hwee Lim(参考訳) きめ細かい人間の行動認識は、コンピュータビジョンの主要な研究テーマである。 近年提案されている細粒度動作の階層表現に着想を得て,細粒度階層表現を活用し,細粒度動作認識のための効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。 マルチタスクネットワークは,イベント,セット,要素のフレームレートを徐々に増加させ,協調学習と予測のための統合層を提案する,スローオンリーネットワークの3つの経路からなる。 これは2段階のアプローチであり、まず各階層レベルで深い特徴表現を学習し、その後にマルチタスク学習のための特徴エンコーディングと融合を行う。 FineGymデータセットに関する実験結果は、91.80%のTop-1精度と88.46%の平均的なエレメントアクションの精度で、新しい最先端のパフォーマンスを実現しています。

Fine-grained human action recognition is a core research topic in computer vision. Inspired by the recently proposed hierarchy representation of fine-grained actions in FineGym and SlowFast network for action recognition, we propose a novel multi-task network which exploits the FineGym hierarchy representation to achieve effective joint learning and prediction for fine-grained human action recognition. The multi-task network consists of three pathways of SlowOnly networks with gradually increased frame rates for events, sets and elements of fine-grained actions, followed by our proposed integration layers for joint learning and prediction. It is a two-stage approach, where it first learns deep feature representation at each hierarchical level, and is followed by feature encoding and fusion for multi-task learning. Our empirical results on the FineGym dataset achieve a new state-of-the-art performance, with 91.80% Top-1 accuracy and 88.46% mean accuracy for element actions, which are 3.40% and 7.26% higher than the previous best results.
翻訳日:2021-10-13 14:51:19 公開日:2021-10-12
# リレーショナル物体運動によるフーリエ映像の予測

Fourier-based Video Prediction through Relational Object Motion ( http://arxiv.org/abs/2110.05881v1 )

ライセンス: Link先を確認
Malte Mosbach, Sven Behnke(参考訳) 監視されたビデオフレームに基づいて将来の結果を予測する能力は、自律システムにおけるインテリジェントな意思決定に不可欠である。 近年,映像予測の課題に深部再帰型アーキテクチャを適用している。 しかし、これはしばしばぼやけた予測となり、大規模なデータセットでの退屈なトレーニングを必要とする。 本稿では,(1)映像予測のための周波数領域アプローチ,(2)観察シーンにおけるオブジェクト-モーション関係を明示的に推定するアプローチについて検討する。 結果の予測は、シーンの観察されたダイナミクスと一致しており、ぼやけに悩まされない。

The ability to predict future outcomes conditioned on observed video frames is crucial for intelligent decision-making in autonomous systems. Recently, deep recurrent architectures have been applied to the task of video prediction. However, this often results in blurry predictions and requires tedious training on large datasets. Here, we explore a different approach by (1) using frequency-domain approaches for video prediction and (2) explicitly inferring object-motion relationships in the observed scene. The resulting predictions are consistent with the observed dynamics in a scene and do not suffer from blur.
翻訳日:2021-10-13 14:50:58 公開日:2021-10-12
# ラベルの不確かさ学習による弱教師付きセマンティックセグメンテーション

Weakly-Supervised Semantic Segmentation by Learning Label Uncertainty ( http://arxiv.org/abs/2110.05926v1 )

ライセンス: Link先を確認
Robby Neven, Davy Neven, Bert De Brabandere, Marc Proesmans and Toon Goedem\'e(参考訳) ディープラーニングの登場以来、多くのコンピュータビジョンタスクは大きな進歩を遂げてきた。 しかし、ディープラーニングの欠点は、非常にデータ不足であることです。 特にセグメンテーション問題では、ディープニューラルネットワークのトレーニングには、ピクセル完全画像ラベルの形での深い監督が必要である。 本稿では,少数の画素完全ラベルを持つセグメンテーションネットワークをトレーニングする新たな損失関数を提案するが,安価なバウンディングボックスラベルという形で弱アノテーション付きトレーニングサンプルを利用する。 ボックス・ツー・マスクの提案ジェネレータを利用する最近の作品とは異なり、ネットワークをトレーニングし、バウンディングボックス内でラベルの不確実性を学習し、オンラインブートストラップ(ボックスをセグメンテーションマスクに変換する)を実行することができる。 提案手法は,複数クラスセグメンテーションタスク (cityscapes vehicle and person) とともに,バイナリセグメンテーションタスクに関する評価を行った。 18%のピクセル完全と82%のバウンディングボックスラベルからなるデータセットで各タスクをトレーニングし、完全なピクセル完全データセットでトレーニングされたベースラインモデルと比較した。 また,2値分割タスクでは,ベースラインモデルに匹敵するIoUスコアが98.33%,マルチクラスタスクでは97.12%,ベースラインモデルに匹敵するIoUスコアが79.8mIoUであった。

Since the rise of deep learning, many computer vision tasks have seen significant advancements. However, the downside of deep learning is that it is very data-hungry. Especially for segmentation problems, training a deep neural net requires dense supervision in the form of pixel-perfect image labels, which are very costly. In this paper, we present a new loss function to train a segmentation network with only a small subset of pixel-perfect labels, but take the advantage of weakly-annotated training samples in the form of cheap bounding-box labels. Unlike recent works which make use of box-to-mask proposal generators, our loss trains the network to learn a label uncertainty within the bounding-box, which can be leveraged to perform online bootstrapping (i.e. transforming the boxes to segmentation masks), while training the network. We evaluated our method on binary segmentation tasks, as well as a multi-class segmentation task (CityScapes vehicles and persons). We trained each task on a dataset comprised of only 18% pixel-perfect and 82% bounding-box labels, and compared the results to a baseline model trained on a completely pixel-perfect dataset. For the binary segmentation tasks, our method achieves an IoU score which is ~98.33% as good as our baseline model, while for the multi-class task, our method is 97.12% as good as our baseline model (77.5 vs. 79.8 mIoU).
翻訳日:2021-10-13 14:50:49 公開日:2021-10-12
# 3次元物体検出のための細粒度特徴付き柱の改良

Improved Pillar with Fine-grained Feature for 3D Object Detection ( http://arxiv.org/abs/2110.06049v1 )

ライセンス: Link先を確認
Jiahui Fu, Guanghui Ren, Yunpeng Chen, Si Liu(参考訳) LiDAR点雲を用いた3次元物体検出は、高速、安定性、精度を必要とする自律走行認識モジュールにおいて重要な役割を果たす。 しかし,既存の点ベース法は生の点が多すぎるため速度要件に到達することは困難であり,ボクセル法は3次元スパース畳み込みにより安定な速度を確保できない。 対照的に、pointpillarのような2dグリッドベースの手法は、単純な2d畳み込みに基づく安定かつ効率的な速度を容易に達成できるが、粗粒度点雲表現による競合精度の制限は困難である。 そこで我々は,pointpillarに基づく細粒度で検出精度が大幅に向上した柱を提案する。 高さを認識できるサブピラーと、空間の垂直方向と水平方向にそれぞれ細粒度を表現できるスペーサベースの小さなピラーの2つのモジュールで構成されている。 高さ認識サブピラーについては、2次元擬似画像に投影する際に各サブピラーの高さ情報を保持する高さ位置符号化を導入する。 疎度をベースとした小型ピラーでは,高密度特徴と疎度注意モジュールを積み重ねたスポーシティベースCNNバックボーンを導入し,より広い受容野を持つ特徴を効率よく抽出する。 実験の結果,提案手法はwaymo open datasetにおける最先端の3d検出手法を大幅に上回ることがわかった。 関連するコードは、学術および産業研究を促進するためにリリースされます。

3D object detection with LiDAR point clouds plays an important role in autonomous driving perception module that requires high speed, stability and accuracy. However, the existing point-based methods are challenging to reach the speed requirements because of too many raw points, and the voxel-based methods are unable to ensure stable speed because of the 3D sparse convolution. In contrast, the 2D grid-based methods, such as PointPillar, can easily achieve a stable and efficient speed based on simple 2D convolution, but it is hard to get the competitive accuracy limited by the coarse-grained point clouds representation. So we propose an improved pillar with fine-grained feature based on PointPillar that can significantly improve detection accuracy. It consists of two modules, including height-aware sub-pillar and sparsity-based tiny-pillar, which get fine-grained representation respectively in the vertical and horizontal direction of 3D space. For height-aware sub-pillar, we introduce a height position encoding to keep height information of each sub-pillar during projecting to a 2D pseudo image. For sparsity-based tiny-pillar, we introduce sparsity-based CNN backbone stacked by dense feature and sparse attention module to extract feature with larger receptive field efficiently. Experimental results show that our proposed method significantly outperforms previous state-of-the-art 3D detection methods on the Waymo Open Dataset. The related code will be released to facilitate the academic and industrial study.
翻訳日:2021-10-13 14:50:21 公開日:2021-10-12
# ビデオにおける時間的言語定位のためのマルチモーダルインタラクショングラフ畳み込みネットワーク

Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos ( http://arxiv.org/abs/2110.06058v1 )

ライセンス: Link先を確認
Zongmeng Zhang, Xianjing Han, Xuemeng Song, Yan Yan and Liqiang Nie(参考訳) 本稿では,ビデオ中の時間的言語ローカライゼーションの問題に対処することに焦点を当て,自然言語文で記述されたモーメントの開始点と終了点を特定することを目的とした。 しかし、ビデオと文問合せの包括的理解だけでなく、それらの間の正確な意味的対応も必要となるため、これは簡単ではない。 既存の取り組みは主に、ビデオクリップ間のシーケンシャルな関係を探求し、ビデオと文のクエリを推論し、他のモード内関係を無視する(例えば、ビデオクリップ間の意味的類似性とクエリワード間の構文依存)。 そこで本研究では,ビデオと文の問合せに含まれる複雑なモーダル内関係とモーダル間相互作用を共同研究し,映像と文の問合せの理解と意味的対応の獲得を容易にするマルチモーダルインタラクショングラフ畳み込みネットワーク(migcn)を提案する。 また,提案手法では,コンテキスト情報を候補モーメントに取り込み,マルチスケールの完全連結層を,生成した粗い候補モーメントの境界を異なる長さでランク付け・調整するように設計する適応的コンテキストアウェア・ローカライズ手法を提案する。 charades-sta と activitynet データセットに関する広範な実験により,本モデルの有望な性能と優れた効率を示す。

This paper focuses on tackling the problem of temporal language localization in videos, which aims to identify the start and end points of a moment described by a natural language sentence in an untrimmed video. However, it is non-trivial since it requires not only the comprehensive understanding of the video and sentence query, but also the accurate semantic correspondence capture between them. Existing efforts are mainly centered on exploring the sequential relation among video clips and query words to reason the video and sentence query, neglecting the other intra-modal relations (e.g., semantic similarity among video clips and syntactic dependency among the query words). Towards this end, in this work, we propose a Multi-modal Interaction Graph Convolutional Network (MIGCN), which jointly explores the complex intra-modal relations and inter-modal interactions residing in the video and sentence query to facilitate the understanding and semantic correspondence capture of the video and sentence query. In addition, we devise an adaptive context-aware localization method, where the context information is taken into the candidate moments and the multi-scale fully connected layers are designed to rank and adjust the boundary of the generated coarse candidate moments with different lengths. Extensive experiments on Charades-STA and ActivityNet datasets demonstrate the promising performance and superior efficiency of our model.
翻訳日:2021-10-13 14:49:11 公開日:2021-10-12
# タダ! 映像理解のための時間適応畳み込み

TAda! Temporally-Adaptive Convolutions for Video Understanding ( http://arxiv.org/abs/2110.06178v1 )

ライセンス: Link先を確認
Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr(参考訳) 空間畳み込みは多くのディープビデオモデルで広く使われている。 基本的には時空間不変性、すなわち異なるフレーム内のすべての位置の共有重みを用いる。 ビデオ理解のための時間適応的畳み込み(TAdaConv)は、時間次元に沿った適応的な重み付けが、ビデオの複雑な時間的ダイナミクスをモデル化するための効率的な方法であることを示す。 具体的には,各フレームの畳み込み重みを局所的および大域的な時間的文脈に応じて調整することにより,時間的モデリング能力を有する空間畳み込みを付与する。 従来の時間的モデリング操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴の代わりに畳み込みカーネル上で動作するので、より効率的である。 さらに、カーネルキャリブレーションは、モデルキャパシティも増加させる。 我々は,ResNetにおける空間畳み込みをTAdaConvに置き換えることで,TAda2Dネットワークを構築する。 また,計算オーバーヘッドを無視できるプラグイン操作により,TAdaConvは既存のビデオモデルの多くを効果的に改善できることを示す。 コードとモデルはhttps://github.com/a libaba-mmai-research /pytorch-video-under standingで利用可能になる。

Spatial convolutions are widely used in numerous deep video models. It fundamentally assumes spatio-temporal invariance, i.e., using shared weights for every location in different frames. This work presents Temporally-Adaptive Convolutions (TAdaConv) for video understanding, which shows that adaptive weight calibration along the temporal dimension is an efficient way to facilitate modelling complex temporal dynamics in videos. Specifically, TAdaConv empowers the spatial convolutions with temporal modelling abilities by calibrating the convolution weights for each frame according to its local and global temporal context. Compared to previous temporal modelling operations, TAdaConv is more efficient as it operates over the convolution kernels instead of the features, whose dimension is an order of magnitude smaller than the spatial resolutions. Further, the kernel calibration also brings an increased model capacity. We construct TAda2D networks by replacing the spatial convolutions in ResNet with TAdaConv, which leads to on par or better performance compared to state-of-the-art approaches on multiple video action recognition and localization benchmarks. We also demonstrate that as a readily plug-in operation with negligible computation overhead, TAdaConv can effectively improve many existing video models with a convincing margin. Codes and models will be made available at https://github.com/a libaba-mmai-research /pytorch-video-under standing.
翻訳日:2021-10-13 14:48:44 公開日:2021-10-12
# ソーシャル・ネットワーク・マイニングによる新型コロナウイルス対策の抽出

Extracting Feelings of People Regarding COVID-19 by Social Network Mining ( http://arxiv.org/abs/2110.06151v1 )

ライセンス: Link先を確認
Hamed Vahdat-Nejad, Fatemeh Salmani, Mahdi Hajiabadi, Faezeh Azizi, Sajedeh Abbasi, Mohadese Jamalian, Reyhane Mosafer, Hamideh Hajiabadi(参考訳) 2020年、新型コロナウイルスは世界の主要な関心事となり、依然としてすべてのソーシャルネットワークで広く反映されている。 ユーザーは毎日、このテーマについて何百万ものツイートやコメントを投稿する。 この点に関しては、2020年3月23日から6月23日までの200万以上のツイートからなり、新型コロナウイルスの流行の初期段階の各国の人々の感情を抽出するために、英語でのcovid-19関連ツイートのデータセットが収集されている。 この目的のために、まず、GeoNamesの地理的データベースとレキシコンベースのアプローチを使用して、ツイートを位置情報にラベル付けする。 次に、最近紹介され広く引用されているRoBERTaモデルに基づいて、感情内容を分析する手法を提案する。 その後、ツイートの頻度と感情のトレンドグラフが、新型コロナウイルス(covid-19)にもっと携わっていた世界と国のために作成されている。 グラフ分析の結果、大多数の国のツイートの頻度グラフは、それらに苦しむ日々の公式統計と著しく相関していることがわかった。 さらに、暗黙の知識を抽出し、議論する。

In 2020, COVID-19 became the chief concern of the world and is still reflected widely in all social networks. Each day, users post millions of tweets and comments on this subject, which contain significant implicit information about the public opinion. In this regard, a dataset of COVID-related tweets in English language is collected, which consists of more than two million tweets from March 23 to June 23 of 2020 to extract the feelings of the people in various countries in the early stages of this outbreak. To this end, first, we use a lexicon-based approach in conjunction with the GeoNames geographic database to label the tweets with their locations. Next, a method based on the recently introduced and widely cited RoBERTa model is proposed to analyze their sentimental content. After that, the trend graphs of the frequency of tweets as well as sentiments are produced for the world and the nations that were more engaged with COVID-19. Graph analysis shows that the frequency graphs of the tweets for the majority of nations are significantly correlated with the official statistics of the daily afflicted in them. Moreover, several implicit knowledge is extracted and discussed.
翻訳日:2021-10-13 14:47:36 公開日:2021-10-12
# 質問するな - 予算バンドに対する問題依存の保証

Dare not to Ask: Problem-Dependent Guarantees for Budgeted Bandits ( http://arxiv.org/abs/2110.05724v1 )

ライセンス: Link先を確認
Nadav Merlis, Yonathan Efroni, Shie Mannor(参考訳) 我々は,フィードバックが(おそらく時間依存の)予算によって制限され,報酬が観察されるよう積極的に要求される確率的多腕バンディット設定を考える。 この設定に関する以前の作業は厳格なフィードバック予算を前提として、問題に依存しない後悔の保証を提供しながら、この制約に違反しないことに重点を置いていた。 本研究では,後悔とフィードバックの両方に対して,問題に依存した保証を提供する。 特に、要求されるフィードバックに対する問題依存下限を導出し、一意と複数の最適アームを持つ問題の間に根本的な違いがあることを示す。 さらに,問題依存的後悔と累積フィードバック境界を導出するbufaluと呼ばれる新しいアルゴリズムを提案する。 特に、BuFALUは最適なアームの数に自然に適応することを示す。

We consider a stochastic multi-armed bandit setting where feedback is limited by a (possibly time-dependent) budget, and reward must be actively inquired for it to be observed. Previous works on this setting assumed a strict feedback budget and focused on not violating this constraint while providing problem-independent regret guarantees. In this work, we provide problem-dependent guarantees on both the regret and the asked feedback. In particular, we derive problem-dependent lower bounds on the required feedback and show that there is a fundamental difference between problems with a unique and multiple optimal arms. Furthermore, we present a new algorithm called BuFALU for which we derive problem-dependent regret and cumulative feedback bounds. Notably, we show that BuFALU naturally adapts to the number of optimal arms.
翻訳日:2021-10-13 14:45:16 公開日:2021-10-12
# メタ学習によるタスク間ニューラルネットワーク探索

Across-Task Neural Architecture Search via Meta Learning ( http://arxiv.org/abs/2110.05842v1 )

ライセンス: Link先を確認
Jingtao Rong and Xinyi Yu and Mingyang Zhang and Linlin Ou(参考訳) 適切なラベル付きデータと高価な計算リソースは、ニューラルネットワーク検索(nas)の成功の前提条件である。 限られた計算リソースとデータを持つメタ学習シナリオにNASを適用するのは難しい。 本稿では,勾配に基づくメタラーニングとeaベースのnasを組み合わせることでタスクの分散を学習し,タスク横断型ニューラルネットワーク探索(at-nas)を提案する。 スーパーネットは、その重みをメタ学習することで、一連のタスクを通して学習される。 スーパーネットからサンプリングされたサブネットのアーキテクチャエンコーディングは、タスクに敏感なメタネットワークを検索しながら、進化的アルゴリズムによって反復的に適応される。 検索されたメタネットワークは、いくつかの学習ステップを通じて新しいタスクに適応できる。 実験の結果,AT-NASは数発の分類精度において関連するアプローチを超越していることがわかった。 分類ベンチマークにおけるAT-NASの性能は、5GPUの事前訓練されたメタネットワークから1時間以内でアーキテクチャを適応することで、スクラッチから検索したモデルに匹敵する。

Adequate labeled data and expensive compute resources are the prerequisites for the success of neural architecture search(NAS). It is challenging to apply NAS in meta-learning scenarios with limited compute resources and data. In this paper, an across-task neural architecture search (AT-NAS) is proposed to address the problem through combining gradient-based meta-learning with EA-based NAS to learn over the distribution of tasks. The supernet is learned over an entire set of tasks by meta-learning its weights. Architecture encodes of subnets sampled from the supernet are iteratively adapted by evolutionary algorithms while simultaneously searching for a task-sensitive meta-network. Searched meta-network can be adapted to a novel task via a few learning steps and only costs a little search time. Empirical results show that AT-NAS surpasses the related approaches on few-shot classification accuracy. The performance of AT-NAS on classification benchmarks is comparable to that of models searched from scratch, by adapting the architecture in less than an hour from a 5-GPU-day pretrained meta-network.
翻訳日:2021-10-13 14:45:03 公開日:2021-10-12
# 暗黙的q-learningを用いたオフライン強化学習

Offline Reinforcement Learning with Implicit Q-Learning ( http://arxiv.org/abs/2110.06169v1 )

ライセンス: Link先を確認
Ilya Kostrikov, Ashvin Nair, Sergey Levine(参考訳) オフラインの強化学習では、2つの相反する目標:データセットを収集する行動ポリシーよりも改善するポリシーを学習すると同時に、分散シフトによるエラーを避けるために行動ポリシーからの逸脱を最小化する。 このトレードオフは、現在のオフライン強化学習手法のほとんどが、ポリシーを改善するためにトレーニング中に見当たらないアクションの値をクエリする必要があるため、これらのアクションを分散に制限するか、あるいはその値を正規化する必要があるため、非常に重要である。 本稿では,データセット以外の動作を評価する必要のないオフラインRL手法を提案する。 私たちの研究の主な洞察は、最新のポリシーから見いだせないアクションを評価する代わりに、アクションによって決定されるランダム性(過度の楽観主義を避けるためにダイナミクス上で統合されているにもかかわらず)で、状態値関数を乱数変数として扱い、その状態における最善のアクションの値を推定して、ポリシー改善ステップを暗黙的に近似することができるということです。 これは関数近似器の一般化能力を利用して、この目に見えないアクションでQ関数を直接問い合わせることなく、与えられた状態における最良のアクションの値を推定する。 我々のアルゴリズムはこの上限値関数を適合させ、Q関数にバックアップする。 そこで我々は,有利な行動クローニングを通じてポリシーを抽出する。 暗黙的なQ-ラーニング (IQL) を行う。 IQLは、オフライン強化学習の標準ベンチマークであるD4RLの最先端パフォーマンスを実証している。 また、IQLはオフライン初期化後にオンラインインタラクションを使用して、強力なパフォーマンスの微調整を実現することを示す。

Offline reinforcement learning requires reconciling two conflicting aims: learning a policy that improves over the behavior policy that collected the dataset, while at the same time minimizing the deviation from the behavior policy so as to avoid errors due to distributional shift. This trade-off is critical, because most current offline reinforcement learning methods need to query the value of unseen actions during training to improve the policy, and therefore need to either constrain these actions to be in-distribution, or else regularize their values. We propose an offline RL method that never needs to evaluate actions outside of the dataset, but still enables the learned policy to improve substantially over the best behavior in the data through generalization. The main insight in our work is that, instead of evaluating unseen actions from the latest policy, we can approximate the policy improvement step implicitly by treating the state value function as a random variable, with randomness determined by the action (while still integrating over the dynamics to avoid excessive optimism), and then taking a state conditional upper expectile of this random variable to estimate the value of the best actions in that state. This leverages the generalization capacity of the function approximator to estimate the value of the best available action at a given state without ever directly querying a Q-function with this unseen action. Our algorithm alternates between fitting this upper expectile value function and backing it up into a Q-function. Then, we extract the policy via advantage-weighted behavioral cloning. We dub our method implicit Q-learning (IQL). IQL demonstrates the state-of-the-art performance on D4RL, a standard benchmark for offline reinforcement learning. We also demonstrate that IQL achieves strong performance fine-tuning using online interaction after offline initialization.
翻訳日:2021-10-13 14:44:45 公開日:2021-10-12
# ニュースレコメンデーションのためのアスペクト駆動ユーザ選好とニュース表現学習

Aspect-driven User Preference and News Representation Learning for News Recommendation ( http://arxiv.org/abs/2110.05792v1 )

ライセンス: Link先を確認
Rongyao Wang, Wenpeng Lu, Shoujin Wang, Xueping Peng, Hao Wu and Qian Zhang(参考訳) ニュースレコメンデーターシステムは、ユーザーが大量のニュースからこれらの興味深いニュースを効率的に、効果的に見つけるのを助けるために不可欠である。 既存のニュースレコメンデーションシステムの多くは、通常、ユーザーとニュースのトピックレベルの表現をレコメンデーションのために学び、より情報に富んだユーザーとニュースの機能を学ぶことを無視する。 その結果、限られたレコメンデーションパフォーマンスが達成される。 この欠陥に対処するために,アスペクトレベルのユーザ嗜好とニュース表現学習に基づく新しいAspect-driven News Recommender System (ANRS)を提案する。 ここでは、textit{news aspect} は、関連する単語の集合によって表現されるきめ細かい意味情報であり、ニュースによって記述される特定の側面を示す。 anrsでは、ユーザの好みとニュース特性のきめ細かいアスペクトレベル表現を学習するために \textit{news aspect-level encoder} と \textit{user aspect-level encoder} が考案され、それぞれ \textit{click predictor} に供給され、ユーザが候補ニュースをクリックする確率を判断する。 一般的な実世界のデータセットであるMINDを用いて大規模な実験を行い、代表的手法や最先端手法と比較して、本手法の優位性を実証した。

News recommender systems are essential for helping users to efficiently and effectively find out those interesting news from a large amount of news. Most of existing news recommender systems usually learn topic-level representations of users and news for recommendation, and neglect to learn more informative aspect-level features of users and news for more accurate recommendation. As a result, they achieve limited recommendation performance. Aiming at addressing this deficiency, we propose a novel Aspect-driven News Recommender System (ANRS) built on aspect-level user preference and news representation learning. Here, \textit{news aspect} is fine-grained semantic information expressed by a set of related words, which indicates specific aspects described by the news. In ANRS, \textit{news aspect-level encoder} and \textit{user aspect-level encoder} are devised to learn the fine-grained aspect-level representations of user's preferences and news characteristics respectively, which are fed into \textit{click predictor} to judge the probability of the user clicking the candidate news. Extensive experiments are done on the commonly used real-world dataset MIND, which demonstrate the superiority of our method compared with representative and state-of-the-art methods.
翻訳日:2021-10-13 14:44:16 公開日:2021-10-12
# 文字誤り率の向上はクリーン音声と同等ではない:ブラックボックス音響モデルを用いたasrシステムの音声強調

Improving Character Error Rate Is Not Equal to Having Clean Speech: Speech Enhancement for ASR Systems with Black-box Acoustic Models ( http://arxiv.org/abs/2110.05968v1 )

ライセンス: Link先を確認
Ryosuke Sawata, Yosuke Kashiwagi and Shusuke Takahashi(参考訳) 本稿では,音声認識システム(ASR)の性能を最大化するためのディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。 ASRシステムを評価するための指標の1つである文字誤り率(CER)の観点からDNNベースのSEモデルを最適化するために,本手法では,音声処理用と音響モデル(AM)による出力CERを模倣する2つのDNNを用いる。 そして、両方のDNNがトレーニングフェーズで交互に最適化されます。 例えば、サードパーティが提供するようなブラックボックスであっても、DNNを模倣するDNNが微分可能であるため、提案手法はCERの観点からDNNベースのSEモデルを最適化することができる。 その結果,提案手法は既存のDNN手法のトレーニングスキームに過ぎないため,新たな計算コストやネットワークアーキテクチャの変更など,負の効果のないCER中心のSEモデルを構築することが可能になった。 実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。

A deep neural network (DNN)-based speech enhancement (SE) aiming to maximize the performance of an automatic speech recognition (ASR) system is proposed in this paper. In order to optimize the DNN-based SE model in terms of the character error rate (CER), which is one of the metric to evaluate the ASR system and generally non-differentiable, our method uses two DNNs: one for speech processing and one for mimicking the output CERs derived through an acoustic model (AM). Then both of DNNs are alternately optimized in the training phase. Even if the AM is a black-box, e.g., like one provided by a third-party, the proposed method enables the DNN-based SE model to be optimized in terms of the CER since the DNN mimicking the AM is differentiable. Consequently, it becomes feasible to build CER-centric SE model that has no negative effect, e.g., additional calculation cost and changing network architecture, on the inference phase since our method is merely a training scheme for the existing DNN-based methods. Experimental results show that our method improved CER by 7.3% relative derived through a black-box AM although certain noise levels are kept.
翻訳日:2021-10-13 14:42:23 公開日:2021-10-12
# UniSpeech-SAT:話者による事前学習によるユニバーサル音声表現学習

UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training ( http://arxiv.org/abs/2110.05752v1 )

ライセンス: Link先を確認
Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu(参考訳) ssl(self-supervised learning)は、大規模なラベルなしデータを使用し、広範なラベル付けを回避するため、音声処理の長年の目標である。 近年,音声認識における自己教師型学習の適用は,話者特性のモデル化にSSLを適用した限定的な探索が試みられ,大きな成功を収めている。 本稿では,話者表現学習のための既存のSSLフレームワークの改善を目指す。 教師なし話者情報抽出の2つの手法が導入された。 まず、マルチタスク学習を現在のSSLフレームワークに適用し、SSLの目的関数と発話的に対照的な損失を統合する。 第二に, 話者識別の改善のために, 教師なし, 訓練中に重なり合った発話が生成されるデータ拡張のための発話混合戦略を提案する。 提案手法を HuBERT フレームワークに統合する。 superbベンチマークによる実験の結果,本システムは,話者識別指向タスクにおいて,普遍表現学習において最先端のパフォーマンスを達成していることがわかった。 それぞれの方法の有効性を検証するアブレーション研究を行う。 最後に、トレーニングデータセットを94000時間公開オーディオデータにスケールアップし、すべてのSUPERBタスクでさらなるパフォーマンス向上を実現する。

Self-supervised learning (SSL) is a long-standing goal for speech processing, since it utilizes large-scale unlabeled data and avoids extensive human labeling. Recent years witness great successes in applying self-supervised learning in speech recognition, while limited exploration was attempted in applying SSL for modeling speaker characteristics. In this paper, we aim to improve the existing SSL framework for speaker representation learning. Two methods are introduced for enhancing the unsupervised speaker information extraction. First, we apply the multi-task learning to the current SSL framework, where we integrate the utterance-wise contrastive loss with the SSL objective function. Second, for better speaker discrimination, we propose an utterance mixing strategy for data augmentation, where additional overlapped utterances are created unsupervisely and incorporate during training. We integrate the proposed methods into the HuBERT framework. Experiment results on SUPERB benchmark show that the proposed system achieves state-of-the-art performance in universal representation learning, especially for speaker identification oriented tasks. An ablation study is performed verifying the efficacy of each proposed method. Finally, we scale up training dataset to 94 thousand hours public audio data and achieve further performance improvement in all SUPERB tasks.
翻訳日:2021-10-13 14:42:03 公開日:2021-10-12
# トランスファーラーニングを用いた新しい話者に対するTSモデルの適用

Adapting TTS models For New Speakers using Transfer Learning ( http://arxiv.org/abs/2110.05798v1 )

ライセンス: Link先を確認
Paarth Neekhara, Jason Li, Boris Ginsburg(参考訳) 新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。 これまでは、新しい話者の音声データを使って、事前訓練されたマルチスピーカーTSモデルを新しい音声に適応させることで、この課題に対処しようとしていた。 しかし、一般に入手可能な大規模マルチスピーカーデータセットは、しばしば騒がしいため、製品での使用には適さないttsモデルとなる。 この課題に対して,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。 新しい話者に対して異なる量のデータを用いて広範な研究を行い、対象話者と自然性および音声/スタイルの類似性の観点から合成音声を評価する。 たった30分のデータで単一話者TSモデルを微調整すると、男性と女性の両方のターゲット話者に対して27時間以上のデータでゼロからトレーニングされたモデルに匹敵するパフォーマンスが得られる。

Training neural text-to-speech (TTS) models for a new speaker typically requires several hours of high quality speech data. Prior works on voice cloning attempt to address this challenge by adapting pre-trained multi-speaker TTS models for a new voice, using a few minutes of speech data of the new speaker. However, publicly available large multi-speaker datasets are often noisy, thereby resulting in TTS models that are not suitable for use in products. We address this challenge by proposing transfer-learning guidelines for adapting high quality single-speaker TTS models for a new speaker, using only a few minutes of speech data. We conduct an extensive study using different amounts of data for a new speaker and evaluate the synthesized speech in terms of naturalness and voice/style similarity to the target speaker. We find that fine-tuning a single-speaker TTS model on just 30 minutes of data, can yield comparable performance to a model trained from scratch on more than 27 hours of data for both male and female target speakers.
翻訳日:2021-10-13 14:41:43 公開日:2021-10-12
# 単語順は音声認識には重要ではない

Word Order Does Not Matter For Speech Recognition ( http://arxiv.org/abs/2110.05994v1 )

ライセンス: Link先を確認
Vineel Pratap, Qiantong Xu, Tatiana Likhomanenko, Gabriel Synnaeve and Ronan Collobert(参考訳) 本稿では,音声学習データの書き起こしラベル中の単語の順序が不明な弱教師付き環境での自動音声認識システムの訓練について検討する。 我々は,LogSumExp操作を用いて,全ての出力フレームの分布を集約する単語レベル音響モデルを訓練し,単語分布と一致させるために,クロスエントロピー損失を用いる。 このモデルから生成された擬似ラベルをトレーニングセットで使用し,コネクショニスト時間分類損失を用いて文字ベース音響モデルを訓練する。 本システムでは,2.4%/5.3%をLibriSpeechのテストクリーン/テスト-その他のサブセットで達成している。

In this paper, we study training of automatic speech recognition system in a weakly supervised setting where the order of words in transcript labels of the audio training data is not known. We train a word-level acoustic model which aggregates the distribution of all output frames using LogSumExp operation and uses a cross-entropy loss to match with the ground-truth words distribution. Using the pseudo-labels generated from this model on the training set, we then train a letter-based acoustic model using Connectionist Temporal Classification loss. Our system achieves 2.4%/5.3% on test-clean/test-othe r subsets of LibriSpeech, which is competitive with the supervised baseline's performance.
翻訳日:2021-10-13 14:41:23 公開日:2021-10-12
# デジタル画像におけるシームレスコピー移動操作

Seamless Copy Move Manipulation in Digital Images ( http://arxiv.org/abs/2110.05747v1 )

ライセンス: Link先を確認
Tanzila Qazi, Mushtaq Ali and Khizar Hayat(参考訳) デジタル画像鑑定の重要性と関連性は、偽造を検知するだけでなく、様々な技術を確立する研究者を惹きつけている。 受動画像偽造のコアカテゴリは、異なる変換を適用して画像の独自性に影響を与えるコピーモブ画像偽造である。 本稿では、周波数領域画像操作法を提案し、離散ウェーブレット変換(dwt)の局所的性質を利用して、ホスト画像の領域を保持する。 パッチとホストイメージのどちらも同じレベル$l$でdwtを受け取り、3l + 1$のサブバンドを取得し、パッチの各サブバンドは、ホストイメージの対応するサブバンドの特定領域にペーストされる。 その結果、操作されたホストサブバンドは、最終的な操作されたホストイメージを取得するために逆DWTを受ける。 提案手法は, 2つの周波数領域偽造検出手法による検出に対して良好な抵抗性を示す。 本研究の目的は、偽造を作成し、悪意のある偽造に対して堅牢な偽造検出方法を作成する必要性を強調することである。

The importance and relevance of digital image forensics has attracted researchers to establish different techniques for creating as well as detecting forgeries. The core category in passive image forgery is copy-move image forgery that affects the originality of image by applying a different transformation. In this paper frequency domain image manipulation method is being presented.The method exploits the localized nature of discrete wavelet transform (DWT) to get hold of the region of the host image to be manipulated. Both the patch and host image are subjected to DWT at the same level $l$ to get $3l + 1$ sub-bands and each sub-band of the patch is pasted to the identified region in the corresponding sub-band of the host image. The resultant manipulated host sub-bands are then subjected to inverse DWT to get the final manipulated host image. The proposed method shows good resistance against detection by two frequency domain forgery detection methods from the literature. The purpose of this research work is to create the forgery and highlight the need to produce forgery detection methods that are robust against the malicious copy-move forgery.
翻訳日:2021-10-13 14:41:10 公開日:2021-10-12
# リアルタイムクラウドソーシング画像による被害検出と伝達学習

Detecting Damage Building Using Real-time Crowdsourced Images and Transfer Learning ( http://arxiv.org/abs/2110.05762v1 )

ライセンス: Link先を確認
Gaurav Chachra, Qingkai Kong, Jim Huang, Srujay Korlakunta, Jennifer Grannen, Alexander Robson, Richard Allen(参考訳) 大規模な地震の後、スマートフォンの大量使用により個人やメディアがソーシャルメディアプラットフォームに投稿した画像を見ることができる。 これらの画像は, 地震地域の地震被害に関する情報を公共・研究コミュニティの両方に提供し, 救助作業の指導に活用することができる。 本稿では,twitterなどのソーシャルメディアプラットフォームから地震後の建物画像を自動的に抽出し,その画像を含む特定のユーザ投稿を識別する手法を提案する。 トランスファーラーニングと6500枚の手動ラベル付き画像を用いて,現場に損傷のある建物を画像として認識する深層学習モデルを訓練した。 訓練されたモデルは、異なる場所で新たに取得した地震の画像でテストし、トルコのM7.0地震の後、Twitterフィードでほぼリアルタイムで実行された。 さらに,モデルの意思決定方法の理解を深めるために,画像上の重要な位置を可視化するgrad-cam手法も実装した。

After significant earthquakes, we can see images posted on social media platforms by individuals and media agencies owing to the mass usage of smartphones these days. These images can be utilized to provide information about the shaking damage in the earthquake region both to the public and research community, and potentially to guide rescue work. This paper presents an automated way to extract the damaged building images after earthquakes from social media platforms such as Twitter and thus identify the particular user posts containing such images. Using transfer learning and ~6500 manually labelled images, we trained a deep learning model to recognize images with damaged buildings in the scene. The trained model achieved good performance when tested on newly acquired images of earthquakes at different locations and ran in near real-time on Twitter feed after the 2020 M7.0 earthquake in Turkey. Furthermore, to better understand how the model makes decisions, we also implemented the Grad-CAM method to visualize the important locations on the images that facilitate the decision.
翻訳日:2021-10-13 14:40:50 公開日:2021-10-12
# sdwnet:ウェーブレット変換を用いた画像デブラリング用ストレート拡張ネットワーク

SDWNet: A Straight Dilated Network with Wavelet Transformation for Image Deblurring ( http://arxiv.org/abs/2110.05803v1 )

ライセンス: Link先を確認
Wenbin Zou, Mingchao Jiang, Yunchen Zhang, Liang Chen, Zhiyong Lu, Yi Wu(参考訳) 画像劣化は、ぼやけた画像から鋭い画像を復元することを目的とした古典的なコンピュータビジョン問題である。 この問題を解決するため、既存の手法ではEncode-Decodeアーキテクチャを用いて複雑なネットワークを設計し、優れた性能を実現している。 しかし、これらの手法の多くは、反復的なアップサンプリングとダウンサンプリング構造を使用して受容野を拡大し、サンプリング過程でテクスチャ情報の損失を生じさせ、いくつかの手法では収束を困難にする複数の段階を設計する。 そこで,本モデルは拡張畳み込みを用いることで,空間分解能の高い大きな受容場を得ることができる。 異なる受容場をフル活用することにより,本手法はより優れた性能を実現することができる。 そこで我々は,アップサンプリングとダウンサンプリングの数を削減し,単純なネットワーク構造を設計する。 さらに,ウェーブレット変換を用いた新しいモジュールを提案する。 実データと合成データセットの質的、定量的評価により、より低い訓練条件で既存のアルゴリズムに匹敵する性能が得られた。 ソースコードと事前学習されたモデルはhttps://github.com/f lyegle/sdwnetで入手できる。

Image deblurring is a classical computer vision problem that aims to recover a sharp image from a blurred image. To solve this problem, existing methods apply the Encode-Decode architecture to design the complex networks to make a good performance. However, most of these methods use repeated up-sampling and down-sampling structures to expand the receptive field, which results in texture information loss during the sampling process and some of them design the multiple stages that lead to difficulties with convergence. Therefore, our model uses dilated convolution to enable the obtainment of the large receptive field with high spatial resolution. Through making full use of the different receptive fields, our method can achieve better performance. On this basis, we reduce the number of up-sampling and down-sampling and design a simple network structure. Besides, we propose a novel module using the wavelet transform, which effectively helps the network to recover clear high-frequency texture details. Qualitative and quantitative evaluations of real and synthetic datasets show that our deblurring method is comparable to existing algorithms in terms of performance with much lower training requirements. The source code and pre-trained models are available at https://github.com/F lyEgle/SDWNet.
翻訳日:2021-10-13 14:39:35 公開日:2021-10-12
# イベントベース高速低遅延画像マーカー追跡

Event-Based high-speed low-latency fiducial marker tracking ( http://arxiv.org/abs/2110.05819v1 )

ライセンス: Link先を確認
Adam Loch, Germain Haessig, Markus Vincze(参考訳) 動きと動的環境、特に困難な照明条件下では、ロバストなロボットアプリケーションにとって依然としてオープンな問題である。 本稿では,実時間,低レイテンシ,自由度6自由度姿勢推定のためのエンドツーエンドパイプラインを提案する。 従来のフレームベースアプローチでポーズ推定を行う代わりに、連続するイベントを用いて、空間変換を直接洗練するためにイベントベースのセンサの高速能力を利用する。 さらに,推定された姿勢をバックトラッキングすることで追跡誤差を検出できる新しい双方向検証手法を導入することで,追跡の質を評価することができる。 このアプローチでは,CPUリソースのみに依存しながら,最大156〜kHzのレートでポーズ推定を行うことができる。 提案手法の平均終端レイテンシは3~msである。 実験の結果,高速な動作知覚ループにおける視覚サーボなどのロボットタスクに顕著な可能性を示した。

Motion and dynamic environments, especially under challenging lighting conditions, are still an open issue for robust robotic applications. In this paper, we propose an end-to-end pipeline for real-time, low latency, 6 degrees-of-freedom pose estimation of fiducial markers. Instead of achieving a pose estimation through a conventional frame-based approach, we employ the high-speed abilities of event-based sensors to directly refine the spatial transformation, using consecutive events. Furthermore, we introduce a novel two-way verification process for detecting tracking errors by backtracking the estimated pose, allowing us to evaluate the quality of our tracking. This approach allows us to achieve pose estimation at a rate up to 156~kHz, while only relying on CPU resources. The average end-to-end latency of our method is 3~ms. Experimental results demonstrate outstanding potential for robotic tasks, such as visual servoing in fast action-perception loops.
翻訳日:2021-10-13 14:39:15 公開日:2021-10-12
# ビデオはグラフ: ビデオアクション認識のための構造化グラフモジュール

Video Is Graph: Structured Graph Module for Video Action Recognition ( http://arxiv.org/abs/2110.05904v1 )

ライセンス: Link先を確認
Rong-Chang Li, Tianyang Xu, Xiao-Jun Wu, and Josef Kittler(参考訳) アクション認識の分野では、ビデオクリップは後続処理のための順序付きフレームとして扱われる。 時空間知覚を実現するために、既存のアプローチでは、隣接する時間相互作用を畳み込み層に埋め込むことを提案する。 したがって、グローバルな意味情報は複数のローカルレイヤを階層的に積み重ねることで得られる。 しかし、このようなグローバルな時間的蓄積は、浅い層における潜在的低レベルの全体的手がかりを無視して、深層における高レベルの意味を反映することができる。 本稿ではまず,ビデオシーケンスをグラフに変換して,時間フレーム間の直接的な長期的依存関係を求める。 変換中のシーケンシャルな情報を保存するために、構造化グラフモジュール(SGM)を考案し、ネットワーク全体にわたってきめ細かな時間的相互作用を実現する。 特に、sgmは各ノードの近傍を複数の時間領域に分割し、多様な逐次フローを持つグローバル構造情報を抽出する。 一般的なベンチマークデータセット(Something V1 & V2, Diving48, Kinetics-400, UCF101, HMDB51)で大規模な実験が行われる。 報告した性能と解析の結果,sgmは計算量が少なく,精度に優れることがわかった。

In the field of action recognition, video clips are always treated as ordered frames for subsequent processing. To achieve spatio-temporal perception, existing approaches propose to embed adjacent temporal interaction in the convolutional layer. The global semantic information can therefore be obtained by stacking multiple local layers hierarchically. However, such global temporal accumulation can only reflect the high-level semantics in deep layers, neglecting the potential low-level holistic clues in shallow layers. In this paper, we first propose to transform a video sequence into a graph to obtain direct long-term dependencies among temporal frames. To preserve sequential information during transformation, we devise a structured graph module (SGM), achieving fine-grained temporal interactions throughout the entire network. In particular, SGM divides the neighbors of each node into several temporal regions so as to extract global structural information with diverse sequential flows. Extensive experiments are performed on standard benchmark datasets, i.e., Something-Something V1 & V2, Diving48, Kinetics-400, UCF101, and HMDB51. The reported performance and analysis demonstrate that SGM can achieve outstanding precision with less computational complexity.
翻訳日:2021-10-13 14:39:03 公開日:2021-10-12
# medusa: 医用画像解析のためのマルチスケールエンコーダ・デコーダ自己アテンションディープニューラルネットワークアーキテクチャ

MEDUSA: Multi-scale Encoder-Decoder Self-Attention Deep Neural Network Architecture for Medical Image Analysis ( http://arxiv.org/abs/2110.06063v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Maya Pavlova, Hayden Gunraj, Mohammad Javad Shafiee, Ali Sabri, Amer Alaref, Alexander Wong(参考訳) 医療画像分析は、特定の疾患の微妙な特徴と、疾患の出現の顕著な重複を考えると、興味深い課題が続いている。 本研究では,病気の微妙さに対処するための自己注意の概念を探求する。 この目的のために,医療画像解析に適したマルチスケールエンコーダデコーダ自己保持機構であるMEDUSAを紹介する。 While self-attention deep convolutional neural network architectures in existing literature center around the notion of multiple isolated lightweight attention mechanisms with limited individual capacities being incorporated at different points in the network architecture, MEDUSA takes a significant departure from this notion by possessing a single, unified self-attention mechanism with significantly higher capacity with multiple attention heads feeding into different scales in the network architecture. 著者の知る限りでは、これは最初の「シングルボディ、マルチスケールヘッド」による自己注意の実現であり、個々の抽象レベルで異なる局所的注意コンテキストを許容しながら、異なる表現的抽象化のレベルにおいて選択的に注意を向けることにより、明示的なグローバルコンテキストを実現する。 MEDUSAでは、これまでの研究と比較すると、COVIDx、RSNA RICORD、RSNA Pneumonia Challengeなど、複数の挑戦的な医療画像分析ベンチマークの最先端性能が得られた。 私たちのMEDUSAモデルは公開されています。

Medical image analysis continues to hold interesting challenges given the subtle characteristics of certain diseases and the significant overlap in appearance between diseases. In this work, we explore the concept of self-attention for tackling such subtleties in and between diseases. To this end, we introduce MEDUSA, a multi-scale encoder-decoder self-attention mechanism tailored for medical image analysis. While self-attention deep convolutional neural network architectures in existing literature center around the notion of multiple isolated lightweight attention mechanisms with limited individual capacities being incorporated at different points in the network architecture, MEDUSA takes a significant departure from this notion by possessing a single, unified self-attention mechanism with significantly higher capacity with multiple attention heads feeding into different scales in the network architecture. To the best of the authors' knowledge, this is the first "single body, multi-scale heads" realization of self-attention and enables explicit global context amongst selective attention at different levels of representational abstractions while still enabling differing local attention context at individual levels of abstractions. With MEDUSA, we obtain state-of-the-art performance on multiple challenging medical image analysis benchmarks including COVIDx, RSNA RICORD, and RSNA Pneumonia Challenge when compared to previous work. Our MEDUSA model is publicly available.
翻訳日:2021-10-13 14:38:42 公開日:2021-10-12
# 再パラメータ光場のスペクトル解析

Spectral analysis of re-parameterized light fields ( http://arxiv.org/abs/2110.06064v1 )

ライセンス: Link先を確認
Martin Alain and Aljosa Smolic(参考訳) 本稿では,再パラメータ化光場のスペクトル特性について検討する。 特にサンプリングガイドラインを提供していた光電界スペクトルの先行研究に続いて,光電界の2次元パラメータ化に焦点をあてた。 しかし,画像平面を傾けるだけでなく,平行に傾けることで,さらに柔軟性が向上した。 画像平面配向をシーン形状に適応させる際に、より柔軟なサンプリングガイドライン(例えば、より広いカメラベースライン)を用いて光場をサンプリングすることが可能であることを示すフォーマルな理論的分析が最初に提示される。 次にシミュレーションと結果を提示し,理論的な知見を裏付ける。 本稿で紹介された研究は概ね理論的であるが、ビュー合成やコンパクト表現といったより実践的な光場応用のために、これらの新たな発見がエキサイティングな道を開くと信じている。

In this paper, we study the spectral properties of re-parameterized light field. Following previous studies of the light field spectrum, which notably provided sampling guidelines, we focus on the two plane parameterization of the light field. However, we introduce additional flexibility by allowing the image plane to be tilted and not only parallel. A formal theoretical analysis is first presented, which shows that more flexible sampling guidelines (i.e. wider camera baselines) can be used to sample the light field when adapting the image plane orientation to the scene geometry. We then present our simulations and results to support these theoretical findings. While the work introduced in this paper is mostly theoretical, we believe these new findings open exciting avenues for more practical application of light fields, such as view synthesis or compact representation.
翻訳日:2021-10-13 14:38:22 公開日:2021-10-12
# Robust Glare Detection: レビュー、分析、データセットのリリース

Robust Glare Detection: Review, Analysis, and Dataset Release ( http://arxiv.org/abs/2110.06006v1 )

ライセンス: Link先を確認
Mahdi Abolfazli Esfahani, Han Wang(参考訳) 太陽の輝きは、屋外環境での無人地上と航空機で撮影された画像に広く存在する。 画像にそのようなアーティファクトが存在することは、誤った特徴抽出と自律システムの失敗をもたらす。 人間は(特に運転中に)輝きを観測すると自分の見解を適応させようとし、この行動は次世代の自動運転車にとって必須の要件である。 日光源は太陽に限らず、夜の間に撮影された画像や屋内環境では、異なる光源が存在するため、月光が見え、反射面はそのような人工物の生成にも影響を及ぼす。 グラアの視覚特性は様々なカメラで撮影された画像によって異なり、カメラのシャッター速度や露出レベルといったいくつかの要因に依存する。 したがって、様々な撮像画像でうまく機能するグラア検出のための汎用的、ロバストで正確なアルゴリズムを導入することは困難である。 本研究は,異なるカメラで撮影された画像を含む,グラア検出のための最初のデータセットの導入を目的としている。 さらに,提案したディープネットワークアーキテクチャを用いて,複数の画像表現とその組み合わせがグラア検出に与える影響について検討した。 リリースされたデータセットはhttps://github.com/m aesfahani/glaredetec tionで利用可能である。

Sun Glare widely exists in the images captured by unmanned ground and aerial vehicles performing in outdoor environments. The existence of such artifacts in images will result in wrong feature extraction and failure of autonomous systems. Humans will try to adapt their view once they observe a glare (especially when driving), and this behavior is an essential requirement for the next generation of autonomous vehicles. The source of glare is not limited to the sun, and glare can be seen in the images captured during the nighttime and in indoor environments, which is due to the presence of different light sources; reflective surfaces also influence the generation of such artifacts. The glare's visual characteristics are different on images captured by various cameras and depend on several factors such as the camera's shutter speed and exposure level. Hence, it is challenging to introduce a general - robust and accurate - algorithm for glare detection that can perform well in various captured images. This research aims to introduce the first dataset for glare detection, which includes images captured by different cameras. Besides, the effect of multiple image representations and their combination in glare detection is examined using the proposed deep network architecture. The released dataset is available at https://github.com/m aesfahani/glaredetec tion
翻訳日:2021-10-13 14:36:47 公開日:2021-10-12
# なぜ宝くじが勝つのか。 ニューラルネットワークにおけるサンプル複雑性の理論的展望

Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity on Pruned Neural Networks ( http://arxiv.org/abs/2110.05667v1 )

ライセンス: Link先を確認
Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong(参考訳) lth ( \textit{lottery ticket hypothesis}) は、適切に刈り取られたネットワーク( \textit{winning ticket})で学習することで、元の未刈り込みネットワークよりもテスト精度が向上することを示す。 lthはコンピュータビジョンや自然言語処理などの応用を含む幅広い深層ニューラルネットワーク(dnn)で実証的に正当化されてきたが、当選チケットの一般化に関する理論的検証はいまだに解明されていない。 我々の知識を最大限に活用するために、我々の研究は、目的関数の幾何学的構造とサンプルの複雑さを分析して、探索されたニューラルネットワークを訓練する性能を初めて特徴づけ、一般化誤差をゼロにする。 ニューラルネットワークモデルが刈り取られるにつれて,汎用性が保証された望ましいモデル近傍の凸領域が拡大し,当選券の構造的重要性が示された。 さらに,prunedニューラルネットワークの学習アルゴリズムを(加速)確率的勾配降下アルゴリズムとして指定すると,理論上,ゼロ一般化誤差を達成するために必要なサンプル数が隠れた層内の非pruned重みの個数に比例することを示す。 一定のサンプル数で、プルーンされたニューラルネットワークのトレーニングは、元のプルーンされたニューラルネットワークのトレーニングよりも望ましいモデルへの収束率を高くし、勝利チケットの一般化が改善された公式な正当化を提供する。 実験の結果は,1つの隠れた層からなるプルーニングニューラルネットワークの学習から得られたものであるが,複数層ニューラルネットワークのプルーニングにおける意義を正当化するための実験結果が得られた。

The \textit{lottery ticket hypothesis} (LTH) states that learning on a properly pruned network (the \textit{winning ticket}) improves test accuracy over the original unpruned network. Although LTH has been justified empirically in a broad range of deep neural network (DNN) involved applications like computer vision and natural language processing, the theoretical validation of the improved generalization of a winning ticket remains elusive. To the best of our knowledge, our work, for the first time, characterizes the performance of training a pruned neural network by analyzing the geometric structure of the objective function and the sample complexity to achieve zero generalization error. We show that the convex region near a desirable model with guaranteed generalization enlarges as the neural network model is pruned, indicating the structural importance of a winning ticket. Moreover, when the algorithm for training a pruned neural network is specified as an (accelerated) stochastic gradient descent algorithm, we theoretically show that the number of samples required for achieving zero generalization error is proportional to the number of the non-pruned weights in the hidden layer. With a fixed number of samples, training a pruned neural network enjoys a faster convergence rate to the desired model than training the original unpruned one, providing a formal justification of the improved generalization of the winning ticket. Our theoretical results are acquired from learning a pruned neural network of one hidden layer, while experimental results are further provided to justify the implications in pruning multi-layer neural networks.
翻訳日:2021-10-13 14:35:20 公開日:2021-10-12
# 機械学習による化学変換の立体選択性予測

Predicting the Stereoselectivity of Chemical Transformations by Machine Learning ( http://arxiv.org/abs/2110.05671v1 )

ライセンス: Link先を確認
Justin Li, Dakang Zhang, Yifei Wang, Christopher Ye, Hao Xu, Pengyu Hong(参考訳) 立体選択的反応(化学反応と酵素反応の両方)は生命の起源、進化、人間生物学、医学に必須である。 1960年代後半から、非対称触媒のエキサイティングな新しいフロンティアで多くの成功があった。 しかし、今日では非対称触媒における成功や失敗のエネルギー差は驚くほど小さいため、ほとんどの産業用および学術用非対称触媒は試行錯誤モデルに従っている。 立体選択的反応に関する現在の理解は、立体選択性は、複数の競合する力学経路における立体効果と電子効果の違いから生じると定性的である。 化学反応の立体選択性を定量的に理解し、調節することは依然として非常に難しい。 本稿では2つのガウス混合モデルを用いてLASSOモデルと2つのランダムフォレストモデルを組み合わせて化学反応の立体選択性を定量的に予測する新しい機械学習手法を提案する。 最近の画期的なアプローチ [1] と比較して、我々のアプローチは特徴間のインタラクションをキャプチャし、複雑なデータ分布を利用することができます。 最近発表されたデータセットの実験結果から,我々のアプローチは[1]よりも有意に優れていた。 この結果から得られた知見は, 立体選択的反応を生かした, 合成に価値はあるが機械的に興味深い他の化合物のさらなる探索の基礎となる。

Stereoselective reactions (both chemical and enzymatic reactions) have been essential for origin of life, evolution, human biology and medicine. Since late 1960s, there have been numerous successes in the exciting new frontier of asymmetric catalysis. However, most industrial and academic asymmetric catalysis nowadays do follow the trial-and-error model, since the energetic difference for success or failure in asymmetric catalysis is incredibly small. Our current understanding about stereoselective reactions is mostly qualitative that stereoselectivity arises from differences in steric effects and electronic effects in multiple competing mechanistic pathways. Quantitatively understanding and modulating the stereoselectivity of for a given chemical reaction still remains extremely difficult. As a proof of principle, we herein present a novel machine learning technique, which combines a LASSO model and two Random Forest model via two Gaussian Mixture models, for quantitatively predicting stereoselectivity of chemical reactions. Compared to the recent ground-breaking approach [1], our approach is able to capture interactions between features and exploit complex data distributions, which are important for predicting stereoselectivity. Experimental results on a recently published dataset demonstrate that our approach significantly outperform [1]. The insight obtained from our results provide a solid foundation for further exploration of other synthetically valuable yet mechanistically intriguing stereoselective reactions.
翻訳日:2021-10-13 14:34:50 公開日:2021-10-12
# (参考訳) 局所マルコフ境界探索による効率よいベイズネットワーク構造学習 [全文訳有]

Efficient Bayesian network structure learning via local Markov boundary search ( http://arxiv.org/abs/2110.06082v1 )

ライセンス: CC BY 4.0
Ming Gao, Bryon Aragam(参考訳) 分布的仮定を伴わずに一般の観測データから学習指向型非循環グラフィカルモデルの複雑性を解析した。 提案手法は情報理論であり,局所マルコフ境界探索法を用いて,基礎となるグラフィカルモデルにおける祖先集合を再帰的に構築する。 意外なことに、あるグラフアンサンブルに対して、単純な前方の欲求探索アルゴリズム(つまり、後方のプルーニングフェーズがない)が各ノードのマルコフ境界を学習するのに十分であることを示す。 これによりサンプルの複雑さが大幅に改善され、ノード数の多項式が最大になる。 これは、既存の条件を文学から一般化する新しい識別可能性条件の下でグラフ全体を学習するために適用される。 独立した関心事として,データからマルコフ境界を回復する問題に対する有限サンプル保証を確立する。 さらに,仮定を単純化し,多項式時間でポリツリーを識別し,学習可能な明示的な条件を提供する,ポリツリーの特殊ケースに適用した。 さらにシミュレーション研究において,実装が容易なアルゴリズムの性能について述べる。 我々のアプローチは一般に、離散的あるいは連続的な分布を分布の仮定なしで処理し、データから有向グラフモデルの構造を効率的に学習するために必要な最小の仮定に光を当てる。

We analyze the complexity of learning directed acyclic graphical models from observational data in general settings without specific distributional assumptions. Our approach is information-theoreti c and uses a local Markov boundary search procedure in order to recursively construct ancestral sets in the underlying graphical model. Perhaps surprisingly, we show that for certain graph ensembles, a simple forward greedy search algorithm (i.e. without a backward pruning phase) suffices to learn the Markov boundary of each node. This substantially improves the sample complexity, which we show is at most polynomial in the number of nodes. This is then applied to learn the entire graph under a novel identifiability condition that generalizes existing conditions from the literature. As a matter of independent interest, we establish finite-sample guarantees for the problem of recovering Markov boundaries from data. Moreover, we apply our results to the special case of polytrees, for which the assumptions simplify, and provide explicit conditions under which polytrees are identifiable and learnable in polynomial time. We further illustrate the performance of the algorithm, which is easy to implement, in a simulation study. Our approach is general, works for discrete or continuous distributions without distributional assumptions, and as such sheds light on the minimal assumptions required to efficiently learn the structure of directed graphical models from data.
翻訳日:2021-10-13 14:32:57 公開日:2021-10-12
# 情報理論構造生成モデリング

Information Theoretic Structured Generative Modeling ( http://arxiv.org/abs/2110.05794v1 )

ライセンス: Link先を確認
Bo Hu, Shujian Yu, Jose C. Principe(参考訳) R'enyiの情報は、再生カーネルヒルベルト空間(RKHS)におけるペアワイズ評価に基づいて、トラクタブルでデータ効率のよい非パラメトリック密度推定の理論的基礎を提供する。 本稿は、R\'enyiの情報がガウス混合の閉形式で推定できるという事実に動機づけられたパラメトリック確率モデルに拡張する。 この特別な接続に基づき、コストはスケール不変であり、絶対連続性に対する制約を少なくしつつ高い勾配分散を回避し、パラメトリック情報理論最適化において大きな利点となる、構造生成モデル(structured generative model, sgm)と呼ばれる新しい生成モデルフレームワークが提案されている。 この実装では、無限ガウス混合モデル(IMoG)の学習に適合する単一白色ノイズ源に付加された正規正規入力によって駆動される単一ニューラルネットワークを用いており、低次元での実験的に抽出可能なモデル分布を提供する。 SGMを訓練するために、R\'enyiの2階エントロピーと発散に基づく3つの新しい変分コスト関数を提供し、クロスエントロピーの最小化、$f$-divergenceの変分表現の最小化、エビデンスの下限(条件付き確率)の最大化を行う。 相互情報推定の枠組みをテストし,その結果を相互情報ニューラル推定(mine)と比較し,密度推定,マルコフモデルにおける条件付き確率推定,逆ネットワークの訓練について検討した。 予備実験の結果,sgmは,データ効率とばらつき,従来のガウス混合モデルと変分ガウス混合モデル,および生成型逆ネットワークの性能において,地雷推定を著しく改善することが示された。

R\'enyi's information provides a theoretical foundation for tractable and data-efficient non-parametric density estimation, based on pair-wise evaluations in a reproducing kernel Hilbert space (RKHS). This paper extends this framework to parametric probabilistic modeling, motivated by the fact that R\'enyi's information can be estimated in closed-form for Gaussian mixtures. Based on this special connection, a novel generative model framework called the structured generative model (SGM) is proposed that makes straightforward optimization possible, because costs are scale-invariant, avoiding high gradient variance while imposing less restrictions on absolute continuity, which is a huge advantage in parametric information theoretic optimization. The implementation employs a single neural network driven by an orthonormal input appended to a single white noise source adapted to learn an infinite Gaussian mixture model (IMoG), which provides an empirically tractable model distribution in low dimensions. To train SGM, we provide three novel variational cost functions, based on R\'enyi's second-order entropy and divergence, to implement minimization of cross-entropy, minimization of variational representations of $f$-divergence, and maximization of the evidence lower bound (conditional probability). We test the framework for estimation of mutual information and compare the results with the mutual information neural estimation (MINE), for density estimation, for conditional probability estimation in Markov models as well as for training adversarial networks. Our preliminary results show that SGM significantly improves MINE estimation in terms of data efficiency and variance, conventional and variational Gaussian mixture models, as well as the performance of generative adversarial networks.
翻訳日:2021-10-13 13:44:41 公開日:2021-10-12
# 特徴選択における自己ペナライゼーション現象について

On the Self-Penalization Phenomenon in Feature Selection ( http://arxiv.org/abs/2110.05852v1 )

ライセンス: Link先を確認
Michael I. Jordan, Keli Liu, and Feng Ruan(参考訳) カーネルの族上の最小化に基づく暗黙のスペーサ性誘導機構を記述する: \begin{equation*} \min_{\beta, f}~\widehat{\mathbb{E}}[L(Y, f(\beta^{1/q} \odot X)] + \lambda_n \|f\|_{\mathcal{H}_q}^2~~\text{subject to}~\beta \ge 0, \end{equation*} ここで$L$は損失、$\odot$は座標的乗算、$\mathcal{H}_q$はカーネルの $k_q(x, x') = h(x, x') = h(\|||||||q_q) である。 勾配降下を用いて$\beta$ に関してこの目標を最適化することは、確率の高いちょうどスパースな定常点をもたらす。 スパーシリティは、ペナライゼーション(例えば$\ell_1$)、早期停止または後処理(例えば、クリッピング)など、よく知られた明示的なスペーシフィケーションテクニックを使わずに達成される。 アプリケーションとしては、この疎結合誘導機構を使用して、特徴選択に一貫性のあるアルゴリズムを構築します。

We describe an implicit sparsity-inducing mechanism based on minimization over a family of kernels: \begin{equation*} \min_{\beta, f}~\widehat{\mathbb{E}}[L(Y, f(\beta^{1/q} \odot X)] + \lambda_n \|f\|_{\mathcal{H}_q}^2~~\text{subject to}~~\beta \ge 0, \end{equation*} where $L$ is the loss, $\odot$ is coordinate-wise multiplication and $\mathcal{H}_q$ is the reproducing kernel Hilbert space based on the kernel $k_q(x, x') = h(\|x-x'\|_q^q)$, where $\|\cdot\|_q$ is the $\ell_q$ norm. Using gradient descent to optimize this objective with respect to $\beta$ leads to exactly sparse stationary points with high probability. The sparsity is achieved without using any of the well-known explicit sparsification techniques such as penalization (e.g., $\ell_1$), early stopping or post-processing (e.g., clipping). As an application, we use this sparsity-inducing mechanism to build algorithms consistent for feature selection.
翻訳日:2021-10-13 13:44:06 公開日:2021-10-12
# 過パラメータ線形回帰のための崩壊段階を有するsgdの最後の反復的リスク境界

Last Iterate Risk Bounds of SGD with Decaying Stepsize for Overparameterized Linear Regression ( http://arxiv.org/abs/2110.06198v1 )

ライセンス: Link先を確認
Jingfeng Wu and Difan Zou and Vladimir Braverman and Quanquan Gu and Sham M. Kakade(参考訳) 確率勾配降下(SGD)は、多くのディープラーニングアプリケーションでよく一般化することが示されている。 実際には、しばしばsgdを幾何的に減衰するステップ、すなわち定数初期ステップ、そして複数の幾何学的ステップで実行し、最後のイテレートを出力として使用する。 この種のSGDは古典的有限次元線形回帰問題(Ge et al., 2019)に最適に近い最小値であることが知られ(Ge et al., 2019)、統計的ミニマックス率の観点からは多項式減衰段数でSGDを確実に上回る。 しかし、過パラメータ化条件におけるステップサイズが減衰した最後のSGDの急激な解析は未解決のままである。 本稿では,線形回帰問題に対して,sgdの崩壊段階化を伴う最後の反復的リスク境界に関する問題依存分析を行う。 特に、幾何学的に崩壊するステップズ(またはテールに崩壊するステップズ)を持つsgdでは、過剰なリスクの上限が上界と下界とほぼ一致することが証明される。 以上の結果から,SGDの超パラメータ化問題に対する一般化能力を実証し,古典的状態の対数的要因まで最小値の最適値を復元できることを示した。 さらに, sgd に対して, 多項式減衰ステップ化を伴う過大なリスク下限を与え, 先行研究における最小速度比較を補完する, インスタンス分割による幾何減衰ステップ化の利点を明らかにした。

Stochastic gradient descent (SGD) has been demonstrated to generalize well in many deep learning applications. In practice, one often runs SGD with a geometrically decaying stepsize, i.e., a constant initial stepsize followed by multiple geometric stepsize decay, and uses the last iterate as the output. This kind of SGD is known to be nearly minimax optimal for classical finite-dimensional linear regression problems (Ge et al., 2019), and provably outperforms SGD with polynomially decaying stepsize in terms of the statistical minimax rates. However, a sharp analysis for the last iterate of SGD with decaying step size in the overparameterized setting is still open. In this paper, we provide problem-dependent analysis on the last iterate risk bounds of SGD with decaying stepsize, for (overparameterized) linear regression problems. In particular, for SGD with geometrically decaying stepsize (or tail geometrically decaying stepsize), we prove nearly matching upper and lower bounds on the excess risk. Our results demonstrate the generalization ability of SGD for a wide class of overparameterized problems, and can recover the minimax optimal results up to logarithmic factors in the classical regime. Moreover, we provide an excess risk lower bound for SGD with polynomially decaying stepsize and illustrate the advantage of geometrically decaying stepsize in an instance-wise manner, which complements the minimax rate comparison made in previous work.
翻訳日:2021-10-13 13:41:27 公開日:2021-10-12
# 多焦点超解像核融合に先立つ深部核融合

Deep Fusion Prior for Multi-Focus Image Super Resolution Fusion ( http://arxiv.org/abs/2110.05706v1 )

ライセンス: Link先を確認
Yuanjie Gu, Zhibo Xiao, Hailun Wang, Cheng Liu, Shouyu Wang(参考訳) 本稿では,MFISRFタスクとして,マルチフォーカス画像融合(MFIF)とブラインドスーパー解像度(SR)問題を統一し,このMFISRFタスクに対処するために,DFP(Deep fusion prior)という新しいデータセットのない非教師なしフレームワークを提案する。 dfpはskipnet network, doublereblur focus measurement tactic, decision embedded module, loss functionで構成される。 In particular, DFP can obtain MFISRF only from two low-resolution inputs without any extent dataset; SKIPnet implementing unsupervised learning via deep image prior is an end-to-end generated network acting as the engine of DFP; DoubleReblur is used to determine the primary decision map without learning but based on estimated PSF and Gaussian kernels convolution; decision embedding module optimizes the decision map via learning; and DFP losses composed of content loss, joint gradient loss and gradient limit loss can obtain high-quality MFISRF results robustly. 実験の結果,提案するDFPアプローチは,最先端のMFIF法とSR法の組み合わせよりも優れていた。 さらに、DFPは一般的なフレームワークであり、ネットワークと焦点測定の戦術を継続的に更新し、MFISRFの性能をさらに向上させることができる。 DFPコードはオープンソースで、近々http://github.com/Gu Yuanjie/DeepFusionPr ior.comで利用可能になる。

This paper unifies the multi-focus images fusion (MFIF) and blind super resolution (SR) problems as the multi-focus image super resolution fusion (MFISRF) task, and proposes a novel unified dataset-free unsupervised framework named deep fusion prior (DFP) to address such MFISRF task. DFP consists of SKIPnet network, DoubleReblur focus measurement tactic, decision embedding module and loss functions. In particular, DFP can obtain MFISRF only from two low-resolution inputs without any extent dataset; SKIPnet implementing unsupervised learning via deep image prior is an end-to-end generated network acting as the engine of DFP; DoubleReblur is used to determine the primary decision map without learning but based on estimated PSF and Gaussian kernels convolution; decision embedding module optimizes the decision map via learning; and DFP losses composed of content loss, joint gradient loss and gradient limit loss can obtain high-quality MFISRF results robustly. Experiments have proved that our proposed DFP approaches and even outperforms those state-of-art MFIF and SR method combinations. Additionally, DFP is a general framework, thus its networks and focus measurement tactics can be continuously updated to further improve the MFISRF performance. DFP codes are open source and will be available soon at http://github.com/Gu Yuanjie/DeepFusionPr ior.
翻訳日:2021-10-13 13:41:00 公開日:2021-10-12
# 経皮的画像による早期黒色腫診断

Early Melanoma Diagnosis with Sequential Dermoscopic Images ( http://arxiv.org/abs/2110.05976v1 )

ライセンス: Link先を確認
Zhen Yu, Jennifer Nguyen, Toan D Nguyen, John Kelly, Catriona Mclean, Paul Bonnington, Lei Zhang, Victoria Mar, Zongyuan Ge(参考訳) 皮膚科医は皮膚病変の追跡鏡像を評価して早期黒色腫を診断または除外することが多い。 しかし, 悪性黒色腫早期診断のアルゴリズムは, 病変の1点画像を用いて開発されている。 病変の時間的,形態的変化を無視することは,境界症例の誤診につながる可能性がある。 そこで本研究では,経時的皮膚鏡画像を用いた早期黒色腫診断の枠組みを提案する。 この目的のために,本手法を3つのステップで構築する。 まず, 推定ユークリッド変換を用いて皮膚病変の連続的皮膚鏡像を整列し, 連続画像間の画像差を演算して病変成長領域を抽出し, 整列した病変画像と対応する差分画像から皮膚鏡変化を捉えるための時空間ネットワークを提案する。 最後に,病変画像の悪性度スコアを時間とともに算出する早期診断モジュールを開発した。 122例から179例の経皮的画像データを集め,本法の有効性を確認した。 大規模な実験により、提案モデルは他の一般的なシーケンスモデルよりも優れていることが示された。 また,本モデルの診断結果を,経験者7名,登録者5名と比較した。 本モデルは臨床医よりも高い診断精度(それぞれ63.69%対54.33%)を示し,早期に黒色腫と診断した(最初のフォローアップ画像で診断された黒色腫の60.7%対32.7%)。 以上の結果より,本モデルを用いて早期に悪性形質転換のリスクが高い黒色腫病変を同定し,早期に黒色腫を検出できる可能性が示唆された。

Dermatologists often diagnose or rule out early melanoma by evaluating the follow-up dermoscopic images of skin lesions. However, existing algorithms for early melanoma diagnosis are developed using single time-point images of lesions. Ignoring the temporal, morphological changes of lesions can lead to misdiagnosis in borderline cases. In this study, we propose a framework for automated early melanoma diagnosis using sequential dermoscopic images. To this end, we construct our method in three steps. First, we align sequential dermoscopic images of skin lesions using estimated Euclidean transformations, extract the lesion growth region by computing image differences among the consecutive images, and then propose a spatio-temporal network to capture the dermoscopic changes from aligned lesion images and the corresponding difference images. Finally, we develop an early diagnosis module to compute probability scores of malignancy for lesion images over time. We collected 179 serial dermoscopic imaging data from 122 patients to verify our method. Extensive experiments show that the proposed model outperforms other commonly used sequence models. We also compared the diagnostic results of our model with those of seven experienced dermatologists and five registrars. Our model achieved higher diagnostic accuracy than clinicians (63.69% vs. 54.33%, respectively) and provided an earlier diagnosis of melanoma (60.7% vs. 32.7% of melanoma correctly diagnosed on the first follow-up images). These results demonstrate that our model can be used to identify melanocytic lesions that are at high-risk of malignant transformation earlier in the disease process and thereby redefine what is possible in the early detection of melanoma.
翻訳日:2021-10-13 13:39:32 公開日:2021-10-12
# AutoMLのセキュリティリスクについて

On the Security Risks of AutoML ( http://arxiv.org/abs/2110.06018v1 )

ライセンス: Link先を確認
Ren Pang, Zhaohan Xi, Shouling Ji, Xiapu Luo, Ting Wang(参考訳) neural architecture search(nas)は、与えられたタスクに合わせたモデルを自動的に検索する、新たな機械学習(ml)パラダイムである。 しかし、nasによって引き起こされる潜在的なセキュリティリスクについてはほとんど知られていない。 この作業はギャップを埋めるための確固たる最初のステップである。 10の一般的なNAS手法に関する広範な実証研究を通して、NAS生成モデルは手動で設計した手法と比較して、様々な悪意ある攻撃(例えば、敵の回避、モデル中毒、機能盗難)により大きな脆弱性を被る傾向があることを示した。 さらに,経験的および分析的証拠の両方により,このような現象の説明が可能となる: 禁止された探索空間と訓練コストを考えると,ほとんどのnas手法は,初期訓練段階で高速に収束するモデルを好む; この傾向は,攻撃の脆弱性(例えば,高損失の滑らかさと低勾配分散)に関連するアーキテクチャ的特性をもたらす。 本研究は,モデル特性と攻撃脆弱性の関係を明らかにするだけでなく,異なる攻撃の基盤となる固有接続を示唆する。 最後に、細胞深度の増加やスキップ接続の抑制など、このような欠点を軽減するための潜在的対策について議論し、いくつかの有望な研究方向を導いた。

Neural Architecture Search (NAS) represents an emerging machine learning (ML) paradigm that automatically searches for models tailored to given tasks, which greatly simplifies the development of ML systems and propels the trend of ML democratization. Yet, little is known about the potential security risks incurred by NAS, which is concerning given the increasing use of NAS-generated models in critical domains. This work represents a solid initial step towards bridging the gap. Through an extensive empirical study of 10 popular NAS methods, we show that compared with their manually designed counterparts, NAS-generated models tend to suffer greater vulnerability to various malicious attacks (e.g., adversarial evasion, model poisoning, and functionality stealing). Further, with both empirical and analytical evidence, we provide possible explanations for such phenomena: given the prohibitive search space and training cost, most NAS methods favor models that converge fast at early training stages; this preference results in architectural properties associated with attack vulnerability (e.g., high loss smoothness and low gradient variance). Our findings not only reveal the relationships between model characteristics and attack vulnerability but also suggest the inherent connections underlying different attacks. Finally, we discuss potential remedies to mitigate such drawbacks, including increasing cell depth and suppressing skip connects, which lead to several promising research directions.
翻訳日:2021-10-13 13:39:06 公開日:2021-10-12
# 分散行列因子化

Deviance Matrix Factorization ( http://arxiv.org/abs/2110.05674v1 )

ライセンス: Link先を確認
Liang Wang, Luis Carvalho(参考訳) 逸脱に基づく損失に対する一般化行列因子分解について検討し、ユビキタス特異値分解を二乗誤差損失を超えて拡張する。 同様の手法がこれまで検討されてきたが,本研究では,構造零点とエントリー重みを許容できるほど柔軟なアルゴリズムを提案する。 さらに,これらの分解を理論的に支援する。 (i)一般化線形モデル構成の下で強い整合性を示す。 (ii)一般化ホスマー・ルメショー検定による選択指数関数族の妥当性の検証、及び (iii)最大固有値ギャップ法による分解のランクを決定する。 本研究は, 画像認識, 自然言語処理, ネットワーク解析, バイオメディカル研究から得られたベンチマークデータセットを用いて, 分解仮定に対する堅牢性を評価するためのシミュレーション研究を行う。 理論的および実証的な結果から,提案手法はより柔軟で汎用的で,従来の手法と比較して性能が向上することが示された。

We investigate a general matrix factorization for deviance-based losses, extending the ubiquitous singular value decomposition beyond squared error loss. While similar approaches have been explored before, here we propose an efficient algorithm that is flexible enough to allow for structural zeros and entry weights. Moreover, we provide theoretical support for these decompositions by (i) showing strong consistency under a generalized linear model setup, (ii) checking the adequacy of a chosen exponential family via a generalized Hosmer-Lemeshow test, and (iii) determining the rank of the decomposition via a maximum eigenvalue gap method. To further support our findings, we conduct simulation studies to assess robustness to decomposition assumptions and extensive case studies using benchmark datasets from image face recognition, natural language processing, network analysis, and biomedical studies. Our theoretical and empirical results indicate that the proposed decomposition is more flexible, general, and can provide improved performance when compared to traditional methods.
翻訳日:2021-10-13 13:38:19 公開日:2021-10-12
# ニューラルマシン翻訳のための二重学習逆データ拡張

Doubly-Trained Adversarial Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2110.05691v1 )

ライセンス: Link先を確認
Weiting Tan, Shuoyang Ding, Huda Khayrallah, Philipp Koehn(参考訳) ニューラルマシン翻訳(nmt)モデルはノイズの入力に苦しむことが知られている。 モデルを堅牢化するために、モデルを攻撃し、ソース側の意味的意味を同時に保持する対向的な拡張サンプルを生成する。 このようなサンプルを生成するために,2つの逆変換方向のnmtモデルと,ターゲット側攻撃とソース側意味的類似性制約を組み合わせたジョイント損失関数を組み合わせる二重学習アーキテクチャを提案する。 3つの異なる言語対と2つの評価指標による実験の結果、これらの対立サンプルがモデルロバスト性を向上させることが示された。

Neural Machine Translation (NMT) models are known to suffer from noisy inputs. To make models robust, we generate adversarial augmentation samples that attack the model and preserve the source-side semantic meaning at the same time. To generate such samples, we propose a doubly-trained architecture that pairs two NMT models of opposite translation directions with a joint loss function, which combines the target-side attack and the source-side semantic similarity constraint. The results from our experiments across three different language pairs and two evaluation metrics show that these adversarial samples improve the model robustness.
翻訳日:2021-10-13 13:37:48 公開日:2021-10-12
# sportssum2.0:ライブテキストによる高品質スポーツニュースの生成

SportsSum2.0: Generating High-Quality Sports News from Live Text Commentary ( http://arxiv.org/abs/2110.05750v1 )

ライセンス: Link先を確認
Jiaan Wang, Zhixu Li, Qiang Yang, Jianfeng Qu, Zhigang Chen, Qingsheng Liu, Guoping Hu(参考訳) スポーツゲームの要約は、ライブテキストコメンタリーからニュース記事を生成することを目的としている。 最近の最新の研究であるsportssumは、大規模なベンチマークデータセットを構築するだけでなく、2段階のフレームワークも提案している。 その大きな貢献にもかかわらず、その作品には3つの大きな欠点がある。 1)スポーツサムデータセットに存在するノイズは、要約性能を劣化させる。 2) ニュースとコメントの語彙重なりの無視は,低品質の擬似ラベルアルゴリズムをもたらす。 3)書き直し文を直接結合してニュースを形成することは,その実践性を制限している。 本稿では,新しいベンチマークデータセットsportssum2.0を,修正された要約フレームワークと共に公開する。 特に、クリーンなデータセットを得るために、群衆労働者を使ってオリジナルのデータセットを手動できれいにします。 さらに、語彙重なりの度合いを擬似ラベルの生成に組み込む。 さらに,要約されたニュースの流布度と表現性を考慮するために,再帰的要約器を導入する。 我々のモデルは最先端のベースラインよりも優れています。

Sports game summarization aims to generate news articles from live text commentaries. A recent state-of-the-art work, SportsSum, not only constructs a large benchmark dataset, but also proposes a two-step framework. Despite its great contributions, the work has three main drawbacks: 1) the noise existed in SportsSum dataset degrades the summarization performance; 2) the neglect of lexical overlap between news and commentaries results in low-quality pseudo-labeling algorithm; 3) the usage of directly concatenating rewritten sentences to form news limits its practicability. In this paper, we publish a new benchmark dataset SportsSum2.0, together with a modified summarization framework. In particular, to obtain a clean dataset, we employ crowd workers to manually clean the original dataset. Moreover, the degree of lexical overlap is incorporated into the generation of pseudo labels. Further, we introduce a reranker-enhanced summarizer to take into account the fluency and expressiveness of the summarized news. Extensive experiments show that our model outperforms the state-of-the-art baseline.
翻訳日:2021-10-13 13:36:26 公開日:2021-10-12
# LaoPLM: Laoの事前トレーニング言語モデル

LaoPLM: Pre-trained Language Models for Lao ( http://arxiv.org/abs/2110.05896v1 )

ライセンス: Link先を確認
Nankai Lin and Yingwen Fu and Ziyu Yang and Shengyi Jiang(参考訳) 大規模なコーパスで訓練されたプレトレーニング言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。 複数の下流自然言語処理(NLP)タスクの恩恵を受けることができる。 PTMは、ほとんどのNLPアプリケーション、特に英語などの高リソース言語で広く使われているが、Lao NLP研究ではあまり使われていない。 laoの以前の作業は、注釈付きデータセットの欠如と言語リソースのスパースによって妨げられている。 本研究では,lao言語の資源管理状況を軽減するために,テキスト分類データセットを構築する。 さらに, BERT-small, BERT-base, ELECTRA-small, ELECTRA-baseの4つのバージョンを持つLao用のトランスフォーマーベースのPTMを提示し, 音声タグ付けとテキスト分類という2つの下流タスクで評価する。 実験はlaoモデルの有効性を示す。 私たちは、Lao NLPアプリケーションの今後の開発を促進するために、モデルとデータセットをコミュニティにリリースします。

Trained on the large corpus, pre-trained language models (PLMs) can capture different levels of concepts in context and hence generate universal language representations. They can benefit multiple downstream natural language processing (NLP) tasks. Although PTMs have been widely used in most NLP applications, especially for high-resource languages such as English, it is under-represented in Lao NLP research. Previous work on Lao has been hampered by the lack of annotated datasets and the sparsity of language resources. In this work, we construct a text classification dataset to alleviate the resource-scare situation of the Lao language. We additionally present the first transformer-based PTMs for Lao with four versions: BERT-small, BERT-base, ELECTRA-small and ELECTRA-base, and evaluate it over two downstream tasks: part-of-speech tagging and text classification. Experiments demonstrate the effectiveness of our Lao models. We will release our models and datasets to the community, hoping to facilitate the future development of Lao NLP applications.
翻訳日:2021-10-13 13:36:13 公開日:2021-10-12
# (参考訳) ABO:実世界の3Dオブジェクト理解のためのデータセットとベンチマーク [全文訳有]

ABO: Dataset and Benchmarks for Real-World 3D Object Understanding ( http://arxiv.org/abs/2110.06199v1 )

ライセンス: CC BY 4.0
Jasmine Collins, Shubham Goel, Achleshwar Luthra, Leon Xu, Kenan Deng, Xi Zhang, Tomas F. Yago Vicente, Himanshu Arora, Thomas Dideriksen, Matthieu Guillaumin, Jitendra Malik(参考訳) amazon-berkeley objects (abo) は,製品イメージと実家庭のオブジェクトに対応する3dモデルの新しい大規模データセットである。 この現実的なオブジェクト中心の3Dデータセットを用いて、合成オブジェクトでトレーニングされた単一ビュー3D再構成ネットワークの領域ギャップを測定する。 また、ABOのマルチビュー画像を用いて、さまざまなカメラ視点に対する最先端のメトリック学習アプローチの堅牢性を測定する。 最後に、ABOの物理ベースのレンダリング材料を利用して、様々な複雑な実世界の測地に対して、単視点および多視点の材料推定を行う。 完全なデータセットはhttps://amazon-berke ley-objects.s3.amazo naws.com/index.htmlでダウンロードできる。

We introduce Amazon-Berkeley Objects (ABO), a new large-scale dataset of product images and 3D models corresponding to real household objects. We use this realistic, object-centric 3D dataset to measure the domain gap for single-view 3D reconstruction networks trained on synthetic objects. We also use multi-view images from ABO to measure the robustness of state-of-the-art metric learning approaches to different camera viewpoints. Finally, leveraging the physically-based rendering materials in ABO, we perform single- and multi-view material estimation for a variety of complex, real-world geometries. The full dataset is available for download at https://amazon-berke ley-objects.s3.amazo naws.com/index.html.
翻訳日:2021-10-13 13:33:23 公開日:2021-10-12
# 中国語話者の政治的傾向の予測

Prediction of Political Leanings of Chinese Speaking Twitter Users ( http://arxiv.org/abs/2110.05723v1 )

ライセンス: Link先を確認
Fenglei Gu and Duoji Jiang(参考訳) 本研究は、中国語圏の政治家や他のTwitterユーザーによる姿勢の分類モデルを作成するための教師付き手法を提案する。 これまでの政治ツイートの予測は多くの英文ツイートに存在しているが、我々の知る限りでは、これは中国の政治ツイートの予測モデルを構築する最初の作品だ。 まず、有名な政治家とその関連ユーザーのツイートをかき集めてデータを収集する。 第2に、政治的スペクトルを2つのグループで定義している:中国共産党の承認を示すグループとそうでないグループである。 独立した単語を識別するための中国語の単語間に空間がないため、中国語のセグメンテーションツールであるjiebaによってセグメンテーションとベクトル化が完了する。 最後に、政治的ツイートから収集したデータをトレーニングし、Twitter上でユーザーの政治的スタンスを理解するための高精度な分類モデルを作成する。

This work presents a supervised method for generating a classifier model of the stances held by Chinese-speaking politicians and other Twitter users. Many previous works of political tweets prediction exist on English tweets, but to the best of our knowledge, this is the first work that builds prediction model on Chinese political tweets. It firstly collects data by scraping tweets of famous political figure and their related users. It secondly defines the political spectrum in two groups: the group that shows approvals to the Chinese Communist Party and the group that does not. Since there are not space between words in Chinese to identify the independent words, it then completes segmentation and vectorization by Jieba, a Chinese segmentation tool. Finally, it trains the data collected from political tweets and produce a classification model with high accuracy for understanding users' political stances from their tweets on Twitter.
翻訳日:2021-10-13 13:16:43 公開日:2021-10-12
# DecGAN: アルツハイマー病の神経回路異常を検出するジェネレーティブ・アドバイサル・ネットワークの分離

DecGAN: Decoupling Generative Adversarial Network detecting abnormal neural circuits for Alzheimer's disease ( http://arxiv.org/abs/2110.05712v1 )

ライセンス: Link先を確認
Junren Pan, Baiying Lei, Shuqiang Wang, Bingchuan Wang, Yong Liu, Yanyan Shen(参考訳) アルツハイマー病(ad)の主な原因の1つは、いくつかの神経回路の障害である。 既存のAD予測手法は大きな成功を収めているが、脳ネットワークの観点から異常な神経回路を検出することは依然として大きな課題である。 本研究では,ADの異常な神経回路を検出するために,新たにデカップリング生成対向ネットワーク(DecGAN)を提案する。 具体的には、デカップリングモジュールは、脳ネットワークを2つの部分に分解するように設計されている。一方は、ADの発達を主に決定する神経回路を表すスパースグラフで構成され、もう一方は補足グラフであり、ADへの影響を無視することができる。 さらに、逆方向戦略を用いてデカップリングモジュールを誘導し、ADとより関連性の高い特徴を抽出する。 一方、検出された神経回路をハイパーグラフデータに符号化することにより、ハイパーエッジニューロンアルゴリズムに関連する解析モジュールが、神経回路を識別するように設計されている。 さらに, ニューラル回路の固有位相分布を最小化し, 提案モデルの精度とロバスト性を大幅に向上させるため, 空間スペクトルハイパーグラフ類似性に基づく新しいスパース容量損失法を開発した。 実験の結果,adの異なる段階の異常神経回路を効果的に検出できることが示され,病理学的研究や早期治療に有用である。

One of the main reasons for Alzheimer's disease (AD) is the disorder of some neural circuits. Existing methods for AD prediction have achieved great success, however, detecting abnormal neural circuits from the perspective of brain networks is still a big challenge. In this work, a novel decoupling generative adversarial network (DecGAN) is proposed to detect abnormal neural circuits for AD. Concretely, a decoupling module is designed to decompose a brain network into two parts: one part is composed of a few sparse graphs which represent the neural circuits largely determining the development of AD; the other part is a supplement graph, whose influence on AD can be ignored. Furthermore, the adversarial strategy is utilized to guide the decoupling module to extract the feature more related to AD. Meanwhile, by encoding the detected neural circuits to hypergraph data, an analytic module associated with the hyperedge neurons algorithm is designed to identify the neural circuits. More importantly, a novel sparse capacity loss based on the spatial-spectral hypergraph similarity is developed to minimize the intrinsic topological distribution of neural circuits, which can significantly improve the accuracy and robustness of the proposed model. Experimental results demonstrate that the proposed model can effectively detect the abnormal neural circuits at different stages of AD, which is helpful for pathological study and early treatment.
翻訳日:2021-10-13 13:15:11 公開日:2021-10-12
# 構造制約のある制御のための動作不足状態表現学習

Action-Sufficient State Representation Learning for Control with Structural Constraints ( http://arxiv.org/abs/2110.05721v1 )

ライセンス: Link先を確認
Biwei Huang, Chaochao Lu, Liu Leqi, Jos\'e Miguel Hern\'andez-Lobato, Clark Glymour, Bernhard Sch\"olkopf, Kun Zhang(参考訳) 実世界のシナリオにおける知覚された信号は、通常、高次元で騒がしいものであり、下流の意思決定タスクに必要な必須情報と十分な情報を含むそれらの表現の発見と使用は、タスクの計算効率と一般化能力を改善するのに役立つ。 本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する最小限の状態表現(ASR)を学習することを提案する。 我々は,システム内の変数間の構造的関係に関する生成環境モデルを構築し,構造的制約と,政策学習における累積報酬を最大化する目標に基づいて,asrを特徴付ける原則的手法を提案する。 次に,環境モデルを推定し,asrを抽出するための構造的逐次変分オートエンコーダを開発した。 CarRacing と VizDoom の実証実験の結果は,政策学習における ASR の学習と利用の明確な優位性を示している。 さらに, 推定環境モデルとasrにより, コンパクト潜在空間における想定された結果から学習行動が得られ, サンプル効率が向上する。

Perceived signals in real-world scenarios are usually high-dimensional and noisy, and finding and using their representation that contains essential and sufficient information required by downstream decision-making tasks will help improve computational efficiency and generalization ability in the tasks. In this paper, we focus on partially observable environments and propose to learn a minimal set of state representations that capture sufficient information for decision-making, termed \textit{Action-Sufficient state Representations} (ASRs). We build a generative environment model for the structural relationships among variables in the system and present a principled way to characterize ASRs based on structural constraints and the goal of maximizing cumulative reward in policy learning. We then develop a structured sequential Variational Auto-Encoder to estimate the environment model and extract ASRs. Our empirical results on CarRacing and VizDoom demonstrate a clear advantage of learning and using ASRs for policy learning. Moreover, the estimated environment model and ASRs allow learning behaviors from imagined outcomes in the compact latent space to improve sample efficiency.
翻訳日:2021-10-13 13:14:48 公開日:2021-10-12
# ウェアラブルを用いた行動認識のためのadversarial representation learning

Guided-GAN: Adversarial Representation Learning for Activity Recognition with Wearables ( http://arxiv.org/abs/2110.05732v1 )

ライセンス: Link先を確認
Alireza Abedin, Hamid Rezatofighi, Damith C. Ranasinghe(参考訳) HAR(Human Activity Recognition)はユビキタスコンピューティングにおける重要な研究分野であり、大規模ラベル付きセンサーデータの取得は退屈で、労働集約的で、時間を要する。 HARにおけるデータアノテーションの負担を軽減するために、最先端の教師なしの治療法が調査された。 本稿では,ウェアラブルセンサデータから教師なし特徴表現を学習するためのGAN(Generative Adversarial Network)パラダイムについて検討し,そのタスクのために新しいGANフレームワークを幾何学的にガイドしたGAN(Guid-GAN)を設計する。 提案手法の有効性を示すために,3つの下流分類ベンチマークにおいて,ガイド付きganで得られた特徴を教師なしで評価した。 本研究は,既存の教師なしのアプローチを上回りつつ,教師なしの学習表現によるパフォーマンスに密接なアプローチを示す。 提案手法は、ヒューマンデータアノテーションタスクのコスト削減に寄与しながら、教師なしと教師なしのヒューマンアクティビティ認識のギャップを埋める方法である。

Human activity recognition (HAR) is an important research field in ubiquitous computing where the acquisition of large-scale labeled sensor data is tedious, labor-intensive and time consuming. State-of-the-art unsupervised remedies investigated to alleviate the burdens of data annotations in HAR mainly explore training autoencoder frameworks. In this paper: we explore generative adversarial network (GAN) paradigms to learn unsupervised feature representations from wearable sensor data; and design a new GAN framework-Geometrica lly-Guided GAN or Guided-GAN-for the task. To demonstrate the effectiveness of our formulation, we evaluate the features learned by Guided-GAN in an unsupervised manner on three downstream classification benchmarks. Our results demonstrate Guided-GAN to outperform existing unsupervised approaches whilst closely approaching the performance with fully supervised learned representations. The proposed approach paves the way to bridge the gap between unsupervised and supervised human activity recognition whilst helping to reduce the cost of human data annotation tasks.
翻訳日:2021-10-13 13:14:31 公開日:2021-10-12
# 相対分子自己着脱トランスフォーマ

Relative Molecule Self-Attention Transformer ( http://arxiv.org/abs/2110.05841v1 )

ライセンス: Link先を確認
{\L}ukasz Maziarka, Dawid Majchrowski, Tomasz Danel, Piotr Gai\'nski, Jacek Tabor, Igor Podolak, Pawe{\l} Morkisz, Stanis{\l}aw Jastrz\k{e}bski(参考訳) 自己監督学習は、希少な実験データからのデータ効率的な学習を可能にすることで、分子特性予測(創薬と多くの産業にとって中心的なタスク)に革命をもたらすことを約束している。 かなりの進歩にもかかわらず、未訓練のメソッドは特定の設定でまだ競争力がある。 アーキテクチャが重要なボトルネックになるかも知れないからです。 特に、バックボーンアーキテクチャをドメイン固有の帰納バイアスで強化することは、他のドメインにおける自己教師型学習の成功の鍵となった。 本研究では,分子データに合わせた自己保持機構の設計空間を方法論的に探索する。 我々は,原子間の距離関係とグラフの融合を含む,相対的な自己アテンション層に着想を得た,プロセス分子に適応した新しい自己アテンションの変種を同定する。 我々の主な貢献は、R-MAT(Relative Molecule Attention Transformer)である。これは、新しいトランスフォーマーベースのモデルで、分子特性予測タスクの幅広い範囲にわたる最先端または非常に競争的な結果を達成する。

Self-supervised learning holds promise to revolutionize molecule property prediction - a central task to drug discovery and many more industries - by enabling data efficient learning from scarce experimental data. Despite significant progress, non-pretrained methods can be still competitive in certain settings. We reason that architecture might be a key bottleneck. In particular, enriching the backbone architecture with domain-specific inductive biases has been key for the success of self-supervised learning in other domains. In this spirit, we methodologically explore the design space of the self-attention mechanism tailored to molecular data. We identify a novel variant of self-attention adapted to processing molecules, inspired by the relative self-attention layer, which involves fusing embedded graph and distance relationships between atoms. Our main contribution is Relative Molecule Attention Transformer (R-MAT): a novel Transformer-based model based on the developed self-attention layer that achieves state-of-the-art or very competitive results across a~wide range of molecule property prediction tasks.
翻訳日:2021-10-13 13:14:12 公開日:2021-10-12
# 線形同変ネットワークの入射バイアス

Implicit Bias of Linear Equivariant Networks ( http://arxiv.org/abs/2110.06084v1 )

ライセンス: Link先を確認
Hannah Lawrence, Kristian Georgiev, Andrew Dienes, Bobak T. Kiani(参考訳) g-cnns (group equivariant convolutional neural network) は畳み込みニューラルネットワーク (convolutional neural networks, cnns) の一般化であり、そのアーキテクチャにおいて、回転や置換といった群対称性を明示的にエンコードすることで、幅広い科学的および技術的応用に優れている。 g-cnnsの成功は、畳み込みアーキテクチャの明示的な対称性バイアスによって導かれるが、最近の研究は、特定のパラメータ化(あるいはアーキテクチャ)におけるトレーニングアルゴリズムの暗黙のバイアスが、過剰パラメータ化されたニューラルネットワークの一般化を理解する上で鍵となると提案している。 この文脈では、二進分類タスクにおける勾配降下により訓練された$L$層全幅線形G-CNNが、低ランクフーリエ行列係数の解に収束し、2/L$-Schatten行列ノルムで正規化されることを示す。 本研究は,すべての有限群上の線形g-cnnに対する線形cnnの暗黙的バイアスに関する先行分析を厳密に一般化し,非可換対称性群(置換など)の難解な設定を含む。 様々な群の実験を通して定理を検証するとともに、局所的に類似の正規化パターンを捉えたより現実的な非線形ネットワークを実証的に探究する。 最後に、不確実性原理を通じて実空間におけるフーリエ空間の暗黙正規化結果の直観的な解釈を提供する。

Group equivariant convolutional neural networks (G-CNNs) are generalizations of convolutional neural networks (CNNs) which excel in a wide range of scientific and technical applications by explicitly encoding group symmetries, such as rotations and permutations, in their architectures. Although the success of G-CNNs is driven by the explicit symmetry bias of their convolutional architecture, a recent line of work has proposed that the implicit bias of training algorithms on a particular parameterization (or architecture) is key to understanding generalization for overparameterized neural nets. In this context, we show that $L$-layer full-width linear G-CNNs trained via gradient descent in a binary classification task converge to solutions with low-rank Fourier matrix coefficients, regularized by the $2/L$-Schatten matrix norm. Our work strictly generalizes previous analysis on the implicit bias of linear CNNs to linear G-CNNs over all finite groups, including the challenging setting of non-commutative symmetry groups (such as permutations). We validate our theorems via experiments on a variety of groups and empirically explore more realistic nonlinear networks, which locally capture similar regularization patterns. Finally, we provide intuitive interpretations of our Fourier space implicit regularization results in real space via uncertainty principles.
翻訳日:2021-10-13 13:13:52 公開日:2021-10-12
# コンビネータ型検索空間を有する環境における画素からの計画

Planning from Pixels in Environments with Combinatorially Hard Search Spaces ( http://arxiv.org/abs/2110.06149v1 )

ライセンス: Link先を確認
Marco Bagatella, Mirek Ol\v{s}\'ak, Michal Rol\'inek, Georg Martius(参考訳) 生の視覚入力に基づいて複雑な計画を形成する能力は、従来の2つのコンピュータ科学の異なる領域である視覚処理と抽象的なアルゴリズム実行のシームレスな組み合わせを必要とするため、人工知能の現在の能力のためのlitmusテストである。 近年のこの分野への関心の高まりは、アーケードゲームから連続制御に至るまでのタスクにおいて、優れたパフォーマンスをもたらす進歩をもたらしたが、これらの手法には、一般化能力の制限や、組合せ的にハードなプランニングインスタンスを扱う際の難しさなど、重大な問題がない。 私たちの貢献は2つあります。 (i)その環境を潜在グラフとして表現することを学び、状態同一化を利用して指数関数から線形へ良い方針を見つける複雑さを減らす方法を提案する。 (ii)人間にとっても計画が困難である離散的な組合せ構造を持つ軽量環境のセットを導入する。 さらに,本手法は,低品質軌跡のみを提供するオフラインRLパラダイムにおいて,「ワンショット」計画のような非常に不利な制度であっても,環境の変動に対して強い経験的一般化を実現することを示す。

The ability to form complex plans based on raw visual input is a litmus test for current capabilities of artificial intelligence, as it requires a seamless combination of visual processing and abstract algorithmic execution, two traditionally separate areas of computer science. A recent surge of interest in this field brought advances that yield good performance in tasks ranging from arcade games to continuous control; these methods however do not come without significant issues, such as limited generalization capabilities and difficulties when dealing with combinatorially hard planning instances. Our contribution is two-fold: (i) we present a method that learns to represent its environment as a latent graph and leverages state reidentification to reduce the complexity of finding a good policy from exponential to linear (ii) we introduce a set of lightweight environments with an underlying discrete combinatorial structure in which planning is challenging even for humans. Moreover, we show that our methods achieves strong empirical generalization to variations in the environment, even across highly disadvantaged regimes, such as "one-shot" planning, or in an offline RL paradigm which only provides low-quality trajectories.
翻訳日:2021-10-13 13:12:58 公開日:2021-10-12
# StARformer: State-Action-Reward表現を備えたTransformer

StARformer: Transformer with State-Action-Reward Representations ( http://arxiv.org/abs/2110.06206v1 )

ライセンス: Link先を確認
Jinghuan Shang and Michael S. Ryoo(参考訳) 強化学習(rl)は、過去の状態-アクション-リワードの一連の経験から、将来のアクションのシーケンスを自己回帰的に予測するシーケンスモデリングタスクと見なすことができる。 近年、トランスフォーマーはこの問題のモデル化に成功している。 本研究では, 局所因果関係を明示的にモデル化し, 長いシーケンスにおける動作予測の改善に寄与する State-Action-Reward Transformer (StARformer) を提案する。 StARformerはまず、非常に短い時間で各状態-アクション-リワードトークン群から局所表現(すなわち、StAR-representations )を抽出する。 そのような局所表現と状態表現を組み合わせたシーケンスは、長時間にわたって行動予測を行うために使用される。 実験の結果、StARformerは、オフラインRLと模倣学習設定の両方において、Atari(画像)およびGym(状態ベクトル)ベンチマーク上で最先端のTransformerベースの手法よりも優れていることがわかった。 StARformerはまた、ベースラインよりも長い入力シーケンスに適合している。 私たちのコードはhttps://github.com/e licassion/starformer で利用可能です。

Reinforcement Learning (RL) can be considered as a sequence modeling task, i.e., given a sequence of past state-action-reward experiences, a model autoregressively predicts a sequence of future actions. Recently, Transformers have been successfully adopted to model this problem. In this work, we propose State-Action-Reward Transformer (StARformer), which explicitly models local causal relations to help improve action prediction in long sequences. StARformer first extracts local representations (i.e., StAR-representations ) from each group of state-action-reward tokens within a very short time span. A sequence of such local representations combined with state representations, is then used to make action predictions over a long time span. Our experiments show that StARformer outperforms the state-of-the-art Transformer-based method on Atari (image) and Gym (state vector) benchmarks, in both offline-RL and imitation learning settings. StARformer is also more compliant with longer sequences of inputs compared to the baseline. Our code is available at https://github.com/e licassion/StARformer .
翻訳日:2021-10-13 13:12:39 公開日:2021-10-12
# 単一独立成分回収とその応用

Single Independent Component Recovery and Applications ( http://arxiv.org/abs/2110.05887v1 )

ライセンス: Link先を確認
Uri Shaham, Jonathan Svirsky, Ori Katz and Ronen Talmon(参考訳) 潜在変数発見は、応用科学における幅広い応用を伴うデータ分析における中心的な問題である。 本研究では,2つの統計的独立成分の可逆混合として与えられたデータを考察し,一方の成分が他方が隠れている間に観測されていることを仮定する。 私たちの目標は隠れた部品を回収することです。 そこで本研究では,判別器を備えたオートエンコーダを提案する。 非同定性が示された標準非線形ica問題と異なり、ここで検討するicaの特別な場合において、このアプローチはエントロピー保存変換によって関心の成分を回復できることを示す。 本稿では,画像合成,音声クローニング,胎児心電図抽出など,いくつかのデータセットにおける提案手法の性能を示す。

Latent variable discovery is a central problem in data analysis with a broad range of applications in applied science. In this work, we consider data given as an invertible mixture of two statistically independent components, and assume that one of the components is observed while the other is hidden. Our goal is to recover the hidden component. For this purpose, we propose an autoencoder equipped with a discriminator. Unlike the standard nonlinear ICA problem, which was shown to be non-identifiable, in the special case of ICA we consider here, we show that our approach can recover the component of interest up to entropy-preserving transformation. We demonstrate the performance of the proposed approach on several datasets, including image synthesis, voice cloning, and fetal ECG extraction.
翻訳日:2021-10-13 13:12:02 公開日:2021-10-12
# シークエンシャル環境における一般化のためのGated Information Bottleneck

Gated Information Bottleneck for Generalization in Sequential Environments ( http://arxiv.org/abs/2110.06057v1 )

ライセンス: Link先を確認
Francesco Alesiani, Shujian Yu, Xi Yu(参考訳) 深層ニューラルネットワークは、基礎となるデータ分布がトレーニングセットのそれと異なる場合、一般化が悪く、目に見えない環境に苦しむ。 トレーニングデータから最小限の表現を学習することにより、情報ボトルネック(IB)アプローチは、異なるAIアプリケーションにおける一般化を改善する効果を実証した。 本研究では,スプリアス相関を動的に除去し,学習可能なソフトマスク(生特徴)を用いて,複数の環境にまたがるタスク関連機能を段階的に選択する,新たなニューラルネットワークベースのib手法であるgated information bottleneck(gib)を提案する。 GIBは、変分近似や分布的仮定なしに、単純で扱いやすい目的を享受する。 我々は、敵対的ロバスト性とアウト・オブ・ディストリビューション(OOD)検出において、他の一般的なニューラルネットワークベースのIBアプローチよりもGIBの方が優れていることを実証的に示す。 一方,ib理論と不変因果表現学習との関係も確立し,gibは異なる環境が連続的に到達すると魅力的な性能を示すこと,不変リスク最小化 (irm) が失敗するより実用的なシナリオであることを確認した。 GIBのコードはhttps://github.com/f alesiani/GIBで公開されている。

Deep neural networks suffer from poor generalization to unseen environments when the underlying data distribution is different from that in the training set. By learning minimum sufficient representations from training data, the information bottleneck (IB) approach has demonstrated its effectiveness to improve generalization in different AI applications. In this work, we propose a new neural network-based IB approach, termed gated information bottleneck (GIB), that dynamically drops spurious correlations and progressively selects the most task-relevant features across different environments by a trainable soft mask (on raw features). GIB enjoys a simple and tractable objective, without any variational approximation or distributional assumption. We empirically demonstrate the superiority of GIB over other popular neural network-based IB approaches in adversarial robustness and out-of-distribution (OOD) detection. Meanwhile, we also establish the connection between IB theory and invariant causal representation learning, and observed that GIB demonstrates appealing performance when different environments arrive sequentially, a more practical scenario where invariant risk minimization (IRM) fails. Code of GIB is available at https://github.com/f alesiani/GIB
翻訳日:2021-10-13 13:11:49 公開日:2021-10-12
# デプロイされたモデルのリスクを追跡し、有害な分布シフトを検出する

Tracking the risk of a deployed model and detecting harmful distribution shifts ( http://arxiv.org/abs/2110.06177v1 )

ライセンス: Link先を確認
Aleksandr Podkopaev, Aaditya Ramdas(参考訳) 現実世界にデプロイされた場合、機械学習モデルはデータ分散の変化に必然的に遭遇し、特定の - すべてではないが - 分散シフトによってパフォーマンスが大幅に低下する可能性がある。 実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視して、人間の専門家(またはモデル再訓練)による介入を不要にすることは理にかなっている。 いくつかの研究で分散シフトのテストが開発されているが、通常は非逐次的な方法を使うか、任意のシフト(良性や有害性)を検出するか、両方である。 我々は、警告を発射するための賢明な方法が両方あると論じる。 (a)良心を無視しながら有害な変化を検知し、 (b)誤報率を増大させることなくモデル性能の連続監視を可能にする。 本研究では、ソース(トレーニング)とターゲット(テスト)の分布の違いが、精度やキャリブレーションといった利害関係のリスク関数を著しく低下させるかどうかをテストするための単純なシーケンシャルツールを設計する。 時間一様信頼系列の構築における最近の進歩は、追跡過程中に蓄積された統計証拠の効率的な集約を可能にする。 設計されたフレームワークは、予測が実行された後に(一部)真のラベルが明らかにされたり、遅延した方法でラベルのバッチが利用可能になった場合に適用できる。 提案手法の有効性を,シミュレーションおよび実データセットの収集に関する広範な実証的研究を通じて実証する。

When deployed in the real world, machine learning models inevitably encounter changes in the data distribution, and certain -- but not all -- distribution shifts could result in significant performance degradation. In practice, it may make sense to ignore benign shifts, under which the performance of a deployed model does not degrade substantially, making interventions by a human expert (or model retraining) unnecessary. While several works have developed tests for distribution shifts, these typically either use non-sequential methods, or detect arbitrary shifts (benign or harmful), or both. We argue that a sensible method for firing off a warning has to both (a) detect harmful shifts while ignoring benign ones, and (b) allow continuous monitoring of model performance without increasing the false alarm rate. In this work, we design simple sequential tools for testing if the difference between source (training) and target (test) distributions leads to a significant drop in a risk function of interest, like accuracy or calibration. Recent advances in constructing time-uniform confidence sequences allow efficient aggregation of statistical evidence accumulated during the tracking process. The designed framework is applicable in settings where (some) true labels are revealed after the prediction is performed, or when batches of labels become available in a delayed fashion. We demonstrate the efficacy of the proposed framework through an extensive empirical study on a collection of simulated and real datasets.
翻訳日:2021-10-13 13:11:29 公開日:2021-10-12
# 視覚・言語ナビゲーションに先立つ空間経路の再考

Rethinking the Spatial Route Prior in Vision-and-Language Navigation ( http://arxiv.org/abs/2110.05728v1 )

ライセンス: Link先を確認
Xinzhe Zhou, Wei Liu, Yadong Mu(参考訳) VLN(Vision-and-Langu age Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。 本研究は, vln の課題を, ナビゲーションシーンの前の空間経路を, 事前に無視した側面から解決するものである。 この研究で重要な革新は、いくつかの異なるVLN設定の下で空間経路を明示的に検討することである。 環境マップを知り,最短経路を事前に認める最も情報に富んだ場合,原点-終点ノードペアが与えられた場合,内部経路は一意に決定できる。 したがって、VLNはシーン内のすべての可能な宛先ノードに対して、通常の分類問題として効果的に定式化することができる。 さらに、より一般的なVLN設定に緩和し、(最短経路を先に放棄することで)シーケンシャル決定のバリエーションと(環境マップを知らない場合に対処する)探索と探索のスキームを提案し、コンパクトで情報に富むサブグラフをキュレートする。 34]により報告されたように,過去2年間,VLN法の性能は高原で停滞している。 モデル複雑性が増大しているにもかかわらず、R2R検証の未確認セットにおける最先端の成功率は、シングルランでは62%、モデルアンサンブルでは73%である。 我々はR2RとR4Rの両方について総合的な評価を行い、上記の性能天井を破る鍵となる空間経路の事前利用が驚くべき結果となった。 例えば、R2Rの検証未確認セットでは、探索された離散ノード数が約40である場合、我々の単一モデルの成功率は73%に達し、話者モデルがアンサンブルされた場合の78%まで増加し、3つのモデルがアンサンブルされた以前のVLN-BERTをはるかに上回る。

Vision-and-language navigation (VLN) is a trending topic which aims to navigate an intelligent agent to an expected position through natural language instructions. This work addresses the task of VLN from a previously-ignored aspect, namely the spatial route prior of the navigation scenes. A critically enabling innovation of this work is explicitly considering the spatial route prior under several different VLN settings. In a most information-rich case of knowing environment maps and admitting shortest-path prior, we observe that given an origin-destination node pair, the internal route can be uniquely determined. Thus, VLN can be effectively formulated as an ordinary classification problem over all possible destination nodes in the scenes. Furthermore, we relax it to other more general VLN settings, proposing a sequential-decision variant (by abandoning the shortest-path route prior) and an explore-and-exploit scheme (for addressing the case of not knowing the environment maps) that curates a compact and informative sub-graph to exploit. As reported by [34], the performance of VLN methods has been stuck at a plateau in past two years. Even with increased model complexity, the state-of-the-art success rate on R2R validation-unseen set has stayed around 62% for single-run and 73% for beam-search with model-ensemble. We have conducted comprehensive evaluations on both R2R and R4R, and surprisingly found that utilizing the spatial route priors may be the key of breaking above-mentioned performance ceiling. For example, on R2R validation-unseen set, when the number of discrete nodes explored is about 40, our single-model success rate reaches 73%, and increases to 78% if a Speaker model is ensembled, which significantly outstrips previous state-of-the-art VLN-BERT with 3 models ensembled.
翻訳日:2021-10-13 13:09:40 公開日:2021-10-12
# マシンはビジュアルデータベースなしで見ることができるか?

Can machines learn to see without visual databases? ( http://arxiv.org/abs/2110.05973v1 )

ライセンス: Link先を確認
Alessandro Betti, Marco Gori, Stefano Melacci, Marcello Pelillo, Fabio Roli(参考訳) 本論文は,声動インタラクションと補聴器のみの指示によって,人間のような物体の監督を行う,真に人間的な文脈で視覚スキルを克服する学習機械を考える上での時間的猶予を保っている。 これはおそらく、単純な人間と機械の言語的相互作用の下で、視覚的記述のタスクに機械を巻き込むために、視覚の計算プロセスに関する新しい基礎を必要とする。 課題は、ビジュアルデータベースを使わずに見ることを学ぶマシンを開発することにある。 これは、巨大なビジュアルデータベースの蓄積に依存しないビジョンのためのディープラーニング技術に関する、真に直交する競争軌道への扉を開くかもしれない。

This paper sustains the position that the time has come for thinking of learning machines that conquer visual skills in a truly human-like context, where a few human-like object supervisions are given by vocal interactions and pointing aids only. This likely requires new foundations on computational processes of vision with the final purpose of involving machines in tasks of visual description by living in their own visual environment under simple man-machine linguistic interactions. The challenge consists of developing machines that learn to see without needing to handle visual databases. This might open the doors to a truly orthogonal competitive track concerning deep learning technologies for vision which does not rely on the accumulation of huge visual databases.
翻訳日:2021-10-13 13:09:07 公開日:2021-10-12
# 下流転送改善のための教師付き事前訓練の再考

Rethinking supervised pre-training for better downstream transferring ( http://arxiv.org/abs/2110.06014v1 )

ライセンス: Link先を確認
Yutong Feng, Jianwen Jiang, Mingqian Tang, Rong Jin, Yue Gao(参考訳) プレトレイン-ファインチューンパラダイムは、上流の大きなデータセット(例えばImageNet)でモデルを事前トレーニングし、異なる下流タスクに微調整する、ディープラーニングの多くのアプリケーションで優れたパフォーマンスを示している。 ほとんどの場合、事前訓練は教師付き手法に基づいて行われるが、近年の自己指導型事前訓練の研究は、強力な伝達性を示し、複数の下流タスクにおいて監督型事前訓練よりも優れている。 したがって、教師付き事前トレーニングモデルをダウンストリームタスクにもっとよく一般化する方法は、まだ疑問の余地がない。 本稿では,既存の教師付き事前学習手法の伝達可能性の悪さが,クラス内意味差の無視から生じることを論じる。 これは、これらの手法が視覚内容の多様さにもかかわらず、同じクラスから画像を押し合う傾向があるためであり、これは「上流タスクの過度化」と呼ばれる問題である。 この問題を軽減するために,Leave-One-Out K-Nearest-Neighbor(L OOK)に基づく教師付き事前学習手法を提案する。 アップストリームタスクのオーバーフィットは、各イメージがクラスラベルをほとんどの近辺で共有することだけを要求することで軽減されるため、各クラスがマルチモードの分散を示し、クラス内の差分の一部を連続的に保持することで、ダウンストリームタスクへのより良い転送を可能にします。 提案手法を大規模データセットに対して効率的に実装する手法を開発した。 複数の下流タスクに関する実験的研究は、LOOKが教師付きおよび自己教師付き事前訓練のための他の最先端の手法よりも優れていることを示している。

The pretrain-finetune paradigm has shown outstanding performance on many applications of deep learning, where a model is pre-trained on a upstream large dataset (e.g. ImageNet), and is then fine-tuned to different downstream tasks. Though for most cases, the pre-training stage is conducted based on supervised methods, recent works on self-supervised pre-training have shown powerful transferability and even outperform supervised pre-training on multiple downstream tasks. It thus remains an open question how to better generalize supervised pre-training model to downstream tasks. In this paper, we argue that the worse transferability of existing supervised pre-training methods arise from the negligence of valuable intra-class semantic difference. This is because these methods tend to push images from the same class close to each other despite of the large diversity in their visual contents, a problem to which referred as "overfit of upstream tasks". To alleviate this problem, we propose a new supervised pre-training method based on Leave-One-Out K-Nearest-Neighbor, or LOOK for short. It relieves the problem of overfitting upstream tasks by only requiring each image to share its class label with most of its k nearest neighbors, thus allowing each class to exhibit a multi-mode distribution and consequentially preserving part of intra-class difference for better transferring to downstream tasks. We developed efficient implementation of the proposed method that scales well to large datasets. Experimental studies on multiple downstream tasks show that LOOK outperforms other state-of-the-art methods for supervised and self-supervised pre-training.
翻訳日:2021-10-13 13:08:54 公開日:2021-10-12
# SlideGraph+:乳がんのHER2像を予測する全画像レベルグラフ

SlideGraph+: Whole Slide Image Level Graphs to Predict HER2Status in Breast Cancer ( http://arxiv.org/abs/2110.06042v1 )

ライセンス: Link先を確認
Wenqi Lu, Michael Toss, Emad Rakha, Nasir Rajpoot, Fayyaz Minhas(参考訳) ヒト上皮成長因子受容体2(HER2)は、乳癌(BCa)の15-20%で過剰発現される重要な予後および予測因子である。 現状の決定は、治療体制の選択と予後を決定する上で重要な臨床決定ステップである。 HER2の状態は、手動による観察バイアスによる分析的変動に加えて、追加のコストと組織負担を必要とするシチューハイブリダイゼーション(ISH)を介して、トランスクロプトミックまたは免疫組織化学(IHC)を用いて評価される。 本研究では,HematoxylinおよびEosin(H&E)スライドの全スライディング画像から直接HER2状態を予測するための新しいグラフニューラルネットワーク(GNN)モデル(SlideGraph+)を提案する。 ネットワークは、2つの独立したテストデータセットに加えて、The Cancer Genome Atlas(TCGA)のスライドでトレーニングされ、テストされた。 提案手法は,RCC曲線(AUC)値 > 0.75,独立したテストセット 0.8 の領域で,最先端の手法よりも優れていることを示す。 以上の結果から,提案手法は,症例のトリージングや診断環境における診断テストの事前注文に利用できることが示唆された。 計算病理学における他の弱い教師付き予測問題にも用いられる。 SlideGraph+のコードはhttps://github.com/w enqi006/SlideGraphで入手できる。

Human epidermal growth factor receptor 2 (HER2) is an important prognostic and predictive factor which is overexpressed in 15-20% of breast cancer (BCa). The determination of its status is a key clinical decision making step for selection of treatment regimen and prognostication. HER2 status is evaluated using transcroptomics or immunohistochemistry (IHC) through situ hybridisation (ISH) which require additional costs and tissue burden in addition to analytical variabilities in terms of manual observational biases in scoring. In this study, we propose a novel graph neural network (GNN) based model (termed SlideGraph+) to predict HER2 status directly from whole-slide images of routine Haematoxylin and Eosin (H&E) slides. The network was trained and tested on slides from The Cancer Genome Atlas (TCGA) in addition to two independent test datasets. We demonstrate that the proposed model outperforms the state-of-the-art methods with area under the ROC curve (AUC) values > 0.75 on TCGA and 0.8 on independent test sets. Our experiments show that the proposed approach can be utilised for case triaging as well as pre-ordering diagnostic tests in a diagnostic setting. It can also be used for other weakly supervised prediction problems in computational pathology. The SlideGraph+ code is available at https://github.com/w enqi006/SlideGraph.
翻訳日:2021-10-13 13:08:28 公開日:2021-10-12
# MGH:教師なし人物再識別のためのメタデータガイドハイパーグラフモデリング

MGH: Metadata Guided Hypergraph Modeling for Unsupervised Person Re-identification ( http://arxiv.org/abs/2110.05886v1 )

ライセンス: Link先を確認
Yiming Wu and Xintian Wu and Xi Li and Jian Tian(参考訳) 課題として、教師なしのReIDは、ラベル付き情報を必要としないクエリイメージと同一のIDを一致させることを目指している。 一般的に、既存のアプローチは視覚的な手がかりのみに焦点を当てており、潜在的に価値のある補助メタデータ情報(時空間的文脈など)は探索されない。 現実世界では、このようなメタデータは通常、キャプチャされた画像と一緒に利用できるため、いくつかのハードなReIDマッチングを分離する上で重要な役割を果たす。 このモチベーションを念頭に置いて,メタ情報を用いて特徴学習とラベルリファインメントのためのハイパーグラフを構築する,新しい教師なしのReIDアプローチである~\textbf{MGH}を提案する。 原則としてハイパーグラフは、カメラ間の異種データ相関をモデル化するカメラトポロジー対応ハイパーエッジで構成されている。 ハイパーグラフ上のラベル伝搬を利用して,提案手法では,誤りラベルの修正やノイズラベルの平滑化など,reid結果を効果的に洗練することができる。 さらに,改良された結果から,平均精度を直接近似的に最適化するメモリベースのリストワイズ損失を示す。 3つのベンチマークの大規模な実験は、提案手法の最先端に対する効果を示す。

As a challenging task, unsupervised person ReID aims to match the same identity with query images which does not require any labeled information. In general, most existing approaches focus on the visual cues only, leaving potentially valuable auxiliary metadata information (e.g., spatio-temporal context) unexplored. In the real world, such metadata is normally available alongside captured images, and thus plays an important role in separating several hard ReID matches. With this motivation in mind, we propose~\textbf{MGH}, a novel unsupervised person ReID approach that uses meta information to construct a hypergraph for feature learning and label refinement. In principle, the hypergraph is composed of camera-topology-awar e hyperedges, which can model the heterogeneous data correlations across cameras. Taking advantage of label propagation on the hypergraph, the proposed approach is able to effectively refine the ReID results, such as correcting the wrong labels or smoothing the noisy labels. Given the refined results, We further present a memory-based listwise loss to directly optimize the average precision in an approximate manner. Extensive experiments on three benchmarks demonstrate the effectiveness of the proposed approach against the state-of-the-art.
翻訳日:2021-10-13 13:08:04 公開日:2021-10-12
# VarArray: アレー幾何学-非依存連続音声分離

VarArray: Array-Geometry-Agnos tic Continuous Speech Separation ( http://arxiv.org/abs/2110.05745v1 )

ライセンス: Link先を確認
Takuya Yoshioka, Xiaofei Wang, Dongmei Wang, Min Tang, Zirun Zhu, Zhuo Chen, Naoyuki Kanda(参考訳) マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける重なり問題に対処する上で有望であることがわかった。 本稿では,アレイジオメトリ非依存な音声分離ニューラルネットワークモデルであるvararrayを提案する。 提案手法は,入力チャネル間の非線形相関を生かしながら,任意の数のマイクロホンに適用可能である。 提案手法は, 変換平均結合, コンフォメータ音声分離, チャネル間位相差など, 従来提案されていた異なる要素を分離し, 効率よく結合的に組み合わせる。 参照セグメンテーションなどの事前知識を必要としない完全に発達した転写システムを用いて,2つの実際の会議転写タスクを用いて大規模評価を行った。 提案手法は,全ての幾何学的構成を考慮した配列幾何学非依存モデルにおいて,AMI開発と評価セットにおいて,それぞれ17.5%,20.4%のアスクライトに基づく話者非依存語誤り率を達成し,また,接地構造セグメンテーションを用いないエンド・ツー・エンド設定において,従来の手法よりも優れていた。

Continuous speech separation using a microphone array was shown to be promising in dealing with the speech overlap problem in natural conversation transcription. This paper proposes VarArray, an array-geometry-agnos tic speech separation neural network model. The proposed model is applicable to any number of microphones without retraining while leveraging the nonlinear correlation between the input channels. The proposed method adapts different elements that were proposed before separately, including transform-average-co ncatenate, conformer speech separation, and inter-channel phase differences, and combines them in an efficient and cohesive way. Large-scale evaluation was performed with two real meeting transcription tasks by using a fully developed transcription system requiring no prior knowledge such as reference segmentations, which allowed us to measure the impact that the continuous speech separation system could have in realistic settings. The proposed model outperformed a previous approach to array-geometry-agnos tic modeling for all of the geometry configurations considered, achieving asclite-based speaker-agnostic word error rates of 17.5% and 20.4% for the AMI development and evaluation sets, respectively, in the end-to-end setting using no ground-truth segmentations.
翻訳日:2021-10-13 13:07:43 公開日:2021-10-12
# BERTraffic:ロバストなBERTに基づく話者変化検出とエアトラフ通信の役割同定

BERTraffic: A Robust BERT-Based Approach for Speaker Change Detection and Role Identification of Air-Traffic Communications ( http://arxiv.org/abs/2110.05781v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez and Seyyed Saeed Sarfjoo and Amrutha Prasad and Iuliia Nigmatulina and Petr Motlicek and Oliver Ohneiser and Hartmut Helmke(参考訳) 自動音声認識(ASR)は、航空交通制御(ATC)に特に関心を寄せている。 ASRは、航空管制官(ATCO)とパイロットの間の通信を転写することができる。 これらの転写はATCコマンドタイプと航空機のコールサインなどの名前付きエンティティを抽出するために使用される。 1つの一般的な問題は、音声活動検出(SAD)またはダイアリゼーションシステムが故障し、2つ以上の単一話者セグメントが同一記録に含まれ、システム全体の性能を損なうことである。 本研究では,SADモジュールのセグメンテーションをBERTモデルと組み合わせて,ASR transcripts(ダイアリゼーション+SRI)に基づく話者変更検出(SCD)と話者ロール識別(SRI)を行うシステムを開発した。 本研究は,テキストデータ上で直接ダイアリゼーションを行う実生活ATCテストセットが,アコースティックレベルダイアリゼーションを超えることを示す。 提案したモデルは、いくつかのテストセットでATCO/パイロットで ~0.90/~0.95 F1スコアに達する。 テキストベースのダイアリゼーションシステムは、標準的な音響ベースのダイアリゼーションと比較して、ダイアリゼーションエラーレート(DER)を27%改善する。 これらの結果は, ASR 転写産物であっても, 単語誤り率を推定した ATC テストセットの ASR 転写産物を用いて評価した。

Automatic Speech Recognition (ASR) is gaining special interest in Air Traffic Control (ATC). ASR allows transcribing the communications between air traffic controllers (ATCOs) and pilots. These transcriptions are used to extract ATC command types and named entities such as aircraft callsigns. One common problem is when the Speech Activity Detection (SAD) or diarization system fails and then two or more single speaker segments are in the same recording, jeopardizing the overall system's performance. We developed a system that combines the segmentation of a SAD module with a BERT-based model that performs Speaker Change Detection (SCD) and Speaker Role Identification (SRI) based on ASR transcripts (i.e., diarization + SRI). This research demonstrates on a real-life ATC test set that performing diarization directly on textual data surpass acoustic level diarization. The proposed model reaches up to ~0.90/~0.95 F1-score on ATCO/pilot for SRI on several test sets. The text-based diarization system brings a 27% relative improvement on Diarization Error Rate (DER) compared to standard acoustic-based diarization. These results were on ASR transcripts of a challenging ATC test set with an estimated ~13% word error rate, validating the approach's robustness even on noisy ASR transcripts.
翻訳日:2021-10-13 13:05:56 公開日:2021-10-12
# 熟考過程における機械翻訳を用いた抽象要約モデルの評価

Evaluation of Abstractive Summarisation Models with Machine Translation in Deliberative Processes ( http://arxiv.org/abs/2110.05847v1 )

ライセンス: Link先を確認
M. Arana-Catania, Rob Procter, Yulan He, Maria Liakata(参考訳) 本稿では,非英語言語の熟考過程を要約する。 ニュース記事などの一般的な研究データセットとは異なり、この検討データセットは、主に文法的品質の悪い複数の物語を単一のテキストで組み合わせることの難しさを反映している。 本稿では,市販機械翻訳モデルと組み合わせて,多種多様な抽象的要約モデルを広範囲に評価する。 テキストは英語に翻訳され、要約され、元の言語に翻訳される。 我々は,生成した要約の流動性,一貫性,妥当性について有望な結果を得る。 我々のアプローチは、単に翻訳モデルを変更するだけで、生産目的のために多くの言語の実装が容易です。

We present work on summarising deliberative processes for non-English languages. Unlike commonly studied datasets, such as news articles, this deliberation dataset reflects difficulties of combining multiple narratives, mostly of poor grammatical quality, in a single text. We report an extensive evaluation of a wide range of abstractive summarisation models in combination with an off-the-shelf machine translation model. Texts are translated into English, summarised, and translated back to the original language. We obtain promising results regarding the fluency, consistency and relevance of the summaries produced. Our approach is easy to implement for many languages for production purposes by simply changing the translation model.
翻訳日:2021-10-13 13:05:32 公開日:2021-10-12
# 分散一般サムマルコフゲームにおける効果的な強化学習

Provably Efficient Reinforcement Learning in Decentralized General-Sum Markov Games ( http://arxiv.org/abs/2110.05682v1 )

ライセンス: Link先を確認
Weichao Mao, Tamer Ba\c{s}ar(参考訳) 本稿では,分散マルチエージェント強化学習による一般サムマルコフゲームにおける平衡学習の効率化について述べる。 ナッシュ均衡(NE)を計算することの根本的な困難さを考えると、我々はエージェントの戦略間の相関を許容することによってNEを一般化するソリューション概念である粗相関平衡(CCE)を見つけることを目指している。 本稿では,各エージェントが楽観的v-learning(q-learnin gの変種)を独立に実行して未知環境を効率的に探索するアルゴリズムを提案する。 エージェントは$\epsilon$-approxima te CCEを最大$\widetilde{O}(H^6S A /\epsilon^2)$のエピソードで見つけることができる。 これは一般的な一般のマルコフゲームで学ぶための最初のサンプル複雑性の結果である。 本研究は, 動的学習率と重み付き後悔を伴うOMDに対して, 常に高い確率の後悔が伴うことを新たな研究に頼っている。 アルゴリズムの重要な特徴の1つは、各エージェントがローカル情報のみにアクセスでき、他のエージェントの存在を全く無視できるという意味で、完全に\emph{decentralized} であることである。 このようにして、我々のアルゴリズムは任意の数のエージェントに容易にスケールアップできるが、エージェント数への指数的な依存に悩まされることはない。

This paper addresses the problem of learning an equilibrium efficiently in general-sum Markov games through decentralized multi-agent reinforcement learning. Given the fundamental difficulty of calculating a Nash equilibrium (NE), we instead aim at finding a coarse correlated equilibrium (CCE), a solution concept that generalizes NE by allowing possible correlations among the agents' strategies. We propose an algorithm in which each agent independently runs optimistic V-learning (a variant of Q-learning) to efficiently explore the unknown environment, while using a stabilized online mirror descent (OMD) subroutine for policy updates. We show that the agents can find an $\epsilon$-approxima te CCE in at most $\widetilde{O}( H^6S A /\epsilon^2)$ episodes, where $S$ is the number of states, $A$ is the size of the largest individual action space, and $H$ is the length of an episode. This appears to be the first sample complexity result for learning in generic general-sum Markov games. Our results rely on a novel investigation of an anytime high-probability regret bound for OMD with a dynamic learning rate and weighted regret, which would be of independent interest. One key feature of our algorithm is that it is fully \emph{decentralized}, in the sense that each agent has access to only its local information, and is completely oblivious to the presence of others. This way, our algorithm can readily scale up to an arbitrary number of agents, without suffering from the exponential dependence on the number of agents.
翻訳日:2021-10-13 13:05:09 公開日:2021-10-12
# 探索型分散協調型マルチエージェント強化学習

Decentralized Cooperative Multi-Agent Reinforcement Learning with Exploration ( http://arxiv.org/abs/2110.05707v1 )

ライセンス: Link先を確認
Weichao Mao, Tamer Ba\c{s}ar, Lin F. Yang, Kaiqing Zhang(参考訳) マルチエージェント強化学習(RL)の現実的な応用は、マルチロボットナビゲーションやサイバー物理システムの分散制御などであり、エージェントが連携する目的を持ったチームとして協力することを含んでいる。 協力エージェントが共通の報酬を共有するマルコフゲームのクラスであるマルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェントRLを研究する。 本稿では,各エージェントが段階ベースのv-learning(q-learnin gスタイルアルゴリズム)を独立に実行して未知環境を効率的に探索し,確率勾配降下(sgd)サブルーチンを用いてポリシー更新を行うアルゴリズムを提案する。 エージェントは最大$\propto\widetilde{o}(1/\epsilon^4)$のエピソードで$\epsilon$-approxima te nash平衡ポリシーを学ぶことができる。 本研究は,ステージワイドな静止環境を構築するための新しいV-ラーニング手法を提案する。 また、ある平滑性仮定の下では、我々のアルゴリズムがほぼ \emph{team-optimal} nash平衡を達成できることを示した。 シミュレーション結果は理論的な結果と相関する。 アルゴリズムの重要な特徴の1つは、各エージェントが状態とそのローカルアクションのみにアクセスでき、他のエージェントの存在に対しても \emph{oblivious} であるという意味での \emph{decentralized} である。 学習中、チームメイト間のコミュニケーションや中央コントローラによるコーディネーションは必要とされない。 したがって,本アルゴリズムはエージェント数に指数関数的依存を伴わずに,任意のエージェント数に容易に一般化することができる。

Many real-world applications of multi-agent reinforcement learning (RL), such as multi-robot navigation and decentralized control of cyber-physical systems, involve the cooperation of agents as a team with aligned objectives. We study multi-agent RL in the most basic cooperative setting -- Markov teams -- a class of Markov games where the cooperating agents share a common reward. We propose an algorithm in which each agent independently runs stage-based V-learning (a Q-learning style algorithm) to efficiently explore the unknown environment, while using a stochastic gradient descent (SGD) subroutine for policy updates. We show that the agents can learn an $\epsilon$-approxima te Nash equilibrium policy in at most $\propto\widetilde{O}(1/\epsilon^4)$ episodes. Our results advocate the use of a novel \emph{stage-based} V-learning approach to create a stage-wise stationary environment. We also show that under certain smoothness assumptions of the team, our algorithm can achieve a nearly \emph{team-optimal} Nash equilibrium. Simulation results corroborate our theoretical findings. One key feature of our algorithm is being \emph{decentralized}, in the sense that each agent has access to only the state and its local actions, and is even \emph{oblivious} to the presence of the other agents. Neither communication among teammates nor coordination by a central controller is required during learning. Hence, our algorithm can readily generalize to an arbitrary number of agents, without suffering from the exponential dependence on the number of agents.
翻訳日:2021-10-13 13:04:39 公開日:2021-10-12
# 高速RF信号サーベイランスのためのゼロバイアスディープニューラルネットワーク

Zero-bias Deep Neural Network for Quickest RF Signal Surveillance ( http://arxiv.org/abs/2110.05797v1 )

ライセンス: Link先を確認
Yongxin Liu, Yingjie Chen, Jian Wang, Shuteng Niu, Dahai Liu, Houbing Song(参考訳) モノのインターネット(IoT)は、十分な数のRFデバイスがRFチャネルを介して情報を接続し、共有できるようにすることによって、現代社会を再構築している。 しかし、そのようなオープンな性質は監視に障害をもたらす。 緩和のために、監視神託または認知コミュニケーション実体は、既知の信号源または未知の信号源の出現をリアルタイムに識別し確認する必要がある。 本稿では,rf信号監視のための深層学習フレームワークを提案する。 具体的には、Deep Neural Networks(DNN)とQuickest Detection(QD)を統合して、シーケンシャルな信号監視スキームを形成する。 まず、ニューラルネットワーク分類モデルの潜時空間特性を分析し、DNN分類器の応答特性を活用し、既存のDNN分類器を性能保証バイナリ異常検出器に変換する新しい手法を提案する。 このようにして、DNNをパラメトリック・クイック検出とシームレスに統合する。 最後に,信号監視システムにおけるdnnの数値的安定性が向上した拡張弾性重み統合 (ewc) アルゴリズムを提案し,ゼロバイアスdnnが,インクリメンタル学習と意思決定の公平性を考慮した正規dnnモデルよりも優れていることを示す。 提案フレームワークを実信号データセットを用いて評価し,信頼性の高いiotエコシステムの開発に有用であると考えている。

The Internet of Things (IoT) is reshaping modern society by allowing a decent number of RF devices to connect and share information through RF channels. However, such an open nature also brings obstacles to surveillance. For alleviation, a surveillance oracle, or a cognitive communication entity needs to identify and confirm the appearance of known or unknown signal sources in real-time. In this paper, we provide a deep learning framework for RF signal surveillance. Specifically, we jointly integrate the Deep Neural Networks (DNNs) and Quickest Detection (QD) to form a sequential signal surveillance scheme. We first analyze the latent space characteristic of neural network classification models, and then we leverage the response characteristics of DNN classifiers and propose a novel method to transform existing DNN classifiers into performance-assured binary abnormality detectors. In this way, we seamlessly integrate the DNNs with the parametric quickest detection. Finally, we propose an enhanced Elastic Weight Consolidation (EWC) algorithm with better numerical stability for DNNs in signal surveillance systems to evolve incrementally, we demonstrate that the zero-bias DNN is superior to regular DNN models considering incremental learning and decision fairness. We evaluated the proposed framework using real signal datasets and we believe this framework is helpful in developing a trustworthy IoT ecosystem.
翻訳日:2021-10-13 13:04:11 公開日:2021-10-12
# (参考訳) 骨格型マルチモデルアンサンブルによる手話認識 [全文訳有]

Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble ( http://arxiv.org/abs/2110.06161v1 )

ライセンス: CC BY 4.0
Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu(参考訳) 手話は通常、聴覚障害者やミュート人のコミュニケーションに使用されるが、マスターするには多大な労力を要する。 通常、手の動きが速くて繊細な動き、身体の姿勢、さらには表情で演奏される。 現在の手話認識(SLR)法は通常、ディープニューラルネットワークを介して特徴を抽出し、限られたノイズの多いデータのために過度に適合する。 近年,手指アノテーションの欠如によりスケルトンベースslrが探究中であるのに対し,スケルトンベースの行動認識が注目されている。 一部の研究者は、オフラインのハンドポーズトラッカーを使用して、ハンドキーポイントを取得し、リカレントニューラルネットワークによる手話認識を支援しようと試みている。 しかし、いずれもRGBベースのアプローチより優れているものはない。 そこで本研究では,孤立型slr(sam-slr-v2)のためのグローバルアンサンブルモデル(gem)を用いた新しい骨格認識型マルチモーダルフレームワークを提案する。 具体的には,スケルトンキーポイントの埋め込み力学をモデル化する手話グラフ畳み込みネットワーク (SL-GCN) と,スケルトンの特徴を活かした分離型空間時間畳み込みネットワーク (SSTCN) を提案する。 骨格に基づく予測は他のRGBや深度に基づくモダリティと融合し、グローバル情報を提供し、忠実なSLR予測を行う。 3つの独立したSLRデータセットを用いた実験により,提案したSAM-SLR-v2フレームワークは極めて有効であり,最先端の性能を著しく向上することを示した。 私たちのコードはhttps://github.com/j ackyjsy/SAM-SLR-v2で公開されます。

Sign language is commonly used by deaf or mute people to communicate but requires extensive effort to master. It is usually performed with the fast yet delicate movement of hand gestures, body posture, and even facial expressions. Current Sign Language Recognition (SLR) methods usually extract features via deep neural networks and suffer overfitting due to limited and noisy data. Recently, skeleton-based action recognition has attracted increasing attention due to its subject-invariant and background-invariant nature, whereas skeleton-based SLR is still under exploration due to the lack of hand annotations. Some researchers have tried to use off-line hand pose trackers to obtain hand keypoints and aid in recognizing sign language via recurrent neural networks. Nevertheless, none of them outperforms RGB-based approaches yet. To this end, we propose a novel Skeleton Aware Multi-modal Framework with a Global Ensemble Model (GEM) for isolated SLR (SAM-SLR-v2) to learn and fuse multi-modal feature representations towards a higher recognition rate. Specifically, we propose a Sign Language Graph Convolution Network (SL-GCN) to model the embedded dynamics of skeleton keypoints and a Separable Spatial-Temporal Convolution Network (SSTCN) to exploit skeleton features. The skeleton-based predictions are fused with other RGB and depth based modalities by the proposed late-fusion GEM to provide global information and make a faithful SLR prediction. Experiments on three isolated SLR datasets demonstrate that our proposed SAM-SLR-v2 framework is exceedingly effective and achieves state-of-the-art performance with significant margins. Our code will be available at https://github.com/j ackyjsy/SAM-SLR-v2
翻訳日:2021-10-13 13:02:01 公開日:2021-10-12
# 時間的言語接地のための関係認識ビデオ読解

Relation-aware Video Reading Comprehension for Temporal Language Grounding ( http://arxiv.org/abs/2110.05717v1 )

ライセンス: Link先を確認
Jialin Gao, Xin Sun, Mengmeng Xu, Xi Zhou and Bernard Ghanem(参考訳) ビデオにおける時間言語グラウンドニングは、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。 以前の方法は、境界回帰タスクまたはスパン抽出タスクとして扱う。 本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。 このフレームワークは、粗い選択-クエリ相互作用と選択-選択関係構築の助けを借りて、予め定義された回答セットからビデオモーメント選択を選択することを目的としている。 文-モーメントレベルとトークン-モーメントレベルで同時に視覚情報とテキスト情報とを一致させるために,選択クエリの対話器を提案する。 さらに、グラフ畳み込みを利用して最適な選択選択のためにビデオモーメント選択間の依存関係をキャプチャすることにより、新しいマルチチョース関係コンストラクタを導入する。 ActivityNet-Captions , TACoS, Charades-STAの大規模な実験により, 本ソリューションの有効性が示された。 コードはまもなくリリースされる予定だ。

Temporal language grounding in videos aims to localize the temporal span relevant to the given query sentence. Previous methods treat it either as a boundary regression task or a span extraction task. This paper will formulate temporal language grounding into video reading comprehension and propose a Relation-aware Network (RaNet) to address it. This framework aims to select a video moment choice from the predefined answer set with the aid of coarse-and-fine choice-query interaction and choice-choice relation construction. A choice-query interactor is proposed to match the visual and textual information simultaneously in sentence-moment and token-moment levels, leading to a coarse-and-fine cross-modal interaction. Moreover, a novel multi-choice relation constructor is introduced by leveraging graph convolution to capture the dependencies among video moment choices for the best choice selection. Extensive experiments on ActivityNet-Captions , TACoS, and Charades-STA demonstrate the effectiveness of our solution. Codes will be released soon.
翻訳日:2021-10-13 12:35:51 公開日:2021-10-12
# AVoE:人工認知への期待の振動を理解するための合成3Dデータセット

AVoE: A Synthetic 3D Dataset on Understanding Violation of Expectation for Artificial Cognition ( http://arxiv.org/abs/2110.05836v1 )

ライセンス: Link先を確認
Arijit Dasgupta, Jiafei Duan, Marcelo H. Ang Jr, Cheston Tan(参考訳) 認知的推論とコンピュータビジョンの最近の研究は、合成データセットにおけるVoE(Violation-of-Exp ectation)パラダイムの人気を高めている。 幼児心理学の研究に触発されて、研究者はモデルが予想された場面と驚きの場面を区別できる能力を、その推論能力の兆候として評価し始めた。 物理推論における既存のVoEベースの3Dデータセットは、視覚データのみを提供する。 しかし、現在の心理学者による身体的推論の認知モデルでは、幼児は物体と相互作用の高度な抽象的な表現を作り出す。 AVoEは、物理推論の5つの事象カテゴリに対して、複数の新しいサブカテゴリからの刺激を提示する合成3D VoEベースのデータセットである。 既存の仕事と比較すると、avoeはビジョンデータに付加された抽象的特徴と規則の接地的ラベルで武装しており、物理的な推論タスクにおける高いレベルの象徴的予測への道を開く。

Recent work in cognitive reasoning and computer vision has engendered an increasing popularity for the Violation-of-Expecta tion (VoE) paradigm in synthetic datasets. Inspired by work in infant psychology, researchers have started evaluating a model's ability to discriminate between expected and surprising scenes as a sign of its reasoning ability. Existing VoE-based 3D datasets in physical reasoning only provide vision data. However, current cognitive models of physical reasoning by psychologists reveal infants create high-level abstract representations of objects and interactions. Capitalizing on this knowledge, we propose AVoE: a synthetic 3D VoE-based dataset that presents stimuli from multiple novel sub-categories for five event categories of physical reasoning. Compared to existing work, AVoE is armed with ground-truth labels of abstract features and rules augmented to vision data, paving the way for high-level symbolic predictions in physical reasoning tasks.
翻訳日:2021-10-13 12:35:33 公開日:2021-10-12
# ニューラルネーム付きエンティティ認識のためのデータ適応手法の検討

Investigation on Data Adaptation Techniques for Neural Named Entity Recognition ( http://arxiv.org/abs/2110.05892v1 )

ライセンス: Link先を確認
Evgeniia Tokarchuk, David Thulke, Weiyue Wang, Christian Dugast, Hermann Ney(参考訳) データ処理は、自然言語処理タスクにおいて重要なステップである。 名前付きエンティティ認識でよく使われるデータセットは限られた数のサンプルしか含まないため、効率的かつ信頼性の高いラベル付きデータを取得することが重要である。 一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。 もう一つの一般的なテクニックは、オリジナルのラベル付きデータ(データ拡張)から合成データを作成することである。 本研究では,これらの2つの手法が3つの異なるエンティティ認識タスクの性能に与える影響について検討する。

Data processing is an important step in various natural language processing tasks. As the commonly used datasets in named entity recognition contain only a limited number of samples, it is important to obtain additional labeled data in an efficient and reliable manner. A common practice is to utilize large monolingual unlabeled corpora. Another popular technique is to create synthetic data from the original labeled data (data augmentation). In this work, we investigate the impact of these two methods on the performance of three different named entity recognition tasks.
翻訳日:2021-10-13 12:35:18 公開日:2021-10-12
# (参考訳) mention memory: entity mention attentionによるトランスフォーマーへのテキスト知識の導入 [全文訳有]

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention ( http://arxiv.org/abs/2110.06176v1 )

ライセンス: CC BY 4.0
Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Fei Sha, William Cohen(参考訳) オープンドメイン質問応答のような自然言語理解タスクは、複数の情報源から事実情報を検索し、同化する必要があることが多い。 本稿では,大文字コーパスの半パラメトリック表現を事実知識の源としてトランスフォーマーモデルに統合することで,この問題に対処することを提案する。 具体的には、コーパスに言及されるすべてのエンティティの密接なベクトル表現の表である「メンションメモリ」を用いて知識を表現する。 提案するモデル - TOME は内部メモリ層を通じて情報にアクセスするトランスフォーマーであり、入力通路に記述された各エンティティが参照メモリに付随する。 このアプローチは、単一のトランスフォーマモデル内で、多くの異なる情報ソースの合成と推論を可能にする。 ウィキペディアが言及した1億5000万のメモリを使った実験では、TOMEはいくつかのオープンドメインの知識集約タスクで強力なパフォーマンスを達成している。 また、モデルが直接の監督なしに情報的言及に出席することを学ぶことを示す。 最後に、再学習せずにメモリを更新することで、モデルが新しい未知のエンティティに一般化できることを実証する。

Natural language understanding tasks such as open-domain question answering often require retrieving and assimilating factual information from multiple sources. We propose to address this problem by integrating a semi-parametric representation of a large text corpus into a Transformer model as a source of factual knowledge. Specifically, our method represents knowledge with `mention memory', a table of dense vector representations of every entity mention in a corpus. The proposed model - TOME - is a Transformer that accesses the information through internal memory layers in which each entity mention in the input passage attends to the mention memory. This approach enables synthesis of and reasoning over many disparate sources of information within a single Transformer model. In experiments using a memory of 150 million Wikipedia mentions, TOME achieves strong performance on several open-domain knowledge-intensive tasks, including the claim verification benchmarks HoVer and FEVER and several entity-based QA benchmarks. We also show that the model learns to attend to informative mentions without any direct supervision. Finally we demonstrate that the model can generalize to new unseen entities by updating the memory without retraining.
翻訳日:2021-10-13 12:32:24 公開日:2021-10-12
# マルチタスク学習における平均値と最悪値のバランス

Balancing Average and Worst-case Accuracy in Multitask Learning ( http://arxiv.org/abs/2110.05838v1 )

ライセンス: Link先を確認
Paul Michel and Sebastian Ruder and Dani Yogatama(参考訳) 機械学習モデルを多数のタスクでトレーニングし評価する場合、平均的なタスク精度(これは簡単なタスクや冗長なタスクに偏っている可能性がある)だけでなく、最悪のケースの精度(つまり、タスクのパフォーマンスが最低の精度で)を見ることが重要です。 本研究では、分散ロバスト最適化(DRO)の手法を用いて、マルチタスク学習における最悪の性能を改善する方法について述べる。 そこで本研究では,DROの故障事例をいくつか取り上げ,改良されたLookahead-DRO(L-DRO) を提案する。 L-DROの中核となる考え方は、様々なタスク損失の動的再重み付けを選択するために、トレーニング中のタスク間の相互作用を予測することである。 i)最小限の最悪の損失につながる (ii)できるだけ多くの仕事をこなす。 CIFAR-100画像分類データセットのマルチタスクバージョンと大規模多言語言語モデリング実験の2つの現実的なベンチマークでL-DROの有効性を実証した。 実験の結果,L-DROは計算オーバーヘッドが少なく,平均値と最悪の値とのトレードオフが良好であることがわかった。

When training and evaluating machine learning models on a large number of tasks, it is important to not only look at average task accuracy -- which may be biased by easy or redundant tasks -- but also worst-case accuracy (i.e. the performance on the task with the lowest accuracy). In this work, we show how to use techniques from the distributionally robust optimization (DRO) literature to improve worst-case performance in multitask learning. We highlight several failure cases of DRO when applied off-the-shelf and present an improved method, Lookahead-DRO (L-DRO), which mitigates these issues. The core idea of L-DRO is to anticipate the interaction between tasks during training in order to choose a dynamic re-weighting of the various task losses, which will (i) lead to minimal worst-case loss and (ii) train on as many tasks as possible. After demonstrating the efficacy of L-DRO on a small controlled synthetic setting, we evaluate it on two realistic benchmarks: a multitask version of the CIFAR-100 image classification dataset and a large-scale multilingual language modeling experiment. Our empirical results show that L-DRO achieves a better trade-off between average and worst-case accuracy with little computational overhead compared to several strong baselines.
翻訳日:2021-10-13 12:16:15 公開日:2021-10-12
# 不確実性に基づく分布外検出には適切な関数空間の優先順位を必要とする

Uncertainty-based out-of-distribution detection requires suitable function space priors ( http://arxiv.org/abs/2110.06020v1 )

ライセンス: Link先を確認
Francesco D'Angelo and Christian Henning(参考訳) 不慣れなデータに対する確実な予測を避ける必要性が、アウト・オブ・ディストリビューション(OOD)検出への関心を喚起した。 ベイズニューラルネットワーク(BNN)はこの課題に適していると広く考えられている。 本稿では,この仮定に疑問を呈し,ニューラルネットワークによって引き起こされる関数空間優先性を持つ固有ベイズ推定が必ずしも良いood検出につながるとは限らないことを示す。 近似推論の使用を回避するために、ベイズ推論がガウス過程との対応により正確である無限幅の場合を研究することから始める。 興味深いことに、共通のアーキテクチャ選択の下で誘導されるカーネルは、基盤となるデータ生成プロセスを反映せず、従ってOOD検出には適さない不確実性をもたらす。 重要なことに、このOODの挙動は対応する有限幅ネットワークと一致している。 所望の関数空間特性は事前の重み空間にエンコードできるが、現在はドメインの特定のサブセットにのみ適用されるため、本質的にはoodデータには拡張されない。 最後に、一般化とOOD能力のトレードオフが、実際には望ましくないOOD検出のためのBNNの適用をもたらす可能性があると論じる。 本研究は,OOD検出にBNNを用いた場合の基本的問題点を明らかにし,今後の研究に興味深い道を開く。

The need to avoid confident predictions on unfamiliar data has sparked interest in out-of-distribution (OOD) detection. It is widely assumed that Bayesian neural networks (BNNs) are well suited for this task, as the endowed epistemic uncertainty should lead to disagreement in predictions on outliers. In this paper, we question this assumption and show that proper Bayesian inference with function space priors induced by neural networks does not necessarily lead to good OOD detection. To circumvent the use of approximate inference, we start by studying the infinite-width case, where Bayesian inference can be exact due to the correspondence with Gaussian processes. Strikingly, the kernels induced under common architectural choices lead to uncertainties that do not reflect the underlying data generating process and are therefore unsuited for OOD detection. Importantly, we find this OOD behavior to be consistent with the corresponding finite-width networks. Desirable function space properties can be encoded in the prior in weight space, however, this currently only applies to a specified subset of the domain and thus does not inherently extend to OOD data. Finally, we argue that a trade-off between generalization and OOD capabilities might render the application of BNNs for OOD detection undesirable in practice. Overall, our study discloses fundamental problems when naively using BNNs for OOD detection and opens interesting avenues for future research.
翻訳日:2021-10-13 12:15:53 公開日:2021-10-12
# 自明か不可能か -- dichotomous data difficulty masks model differences (imagenet と beyond)

Trivial or impossible -- dichotomous data difficulty masks model differences (on ImageNet and beyond) ( http://arxiv.org/abs/2110.05922v1 )

ライセンス: Link先を確認
Kristof Meding, Luca M. Schulze Buschoff, Robert Geirhos, Felix A. Wichmann(参考訳) 「一般化システムの力はそのバイアスから直接従う」(Mitchell 1980)。 しかし、その帰納的バイアスがモデル決定にどのように影響するかは、どの程度理解されていますか? ここでは、モデルがどのように決定するかを決定する様々な側面を切り離そうとします。 特に、あるモデルが他のモデルと異なる決定をする理由を尋ねます。 厳密に制御された設定では、(1.)ネットワークアーキテクチャや目的(例えば、自己監督型、半教師型、ビジョントランスフォーマー、反復型モデル)に関係なく、全てのモデルが同様の決定境界に達する。 (2.) これらの知見を理解するために,imagenetバリデーションセットのモデル決定をエポックからエポック,イメージごとに分析した。 ImageNetバリデーションセットは、特に2コマトクスデータ困難(DDD)に悩まされている。 調査対象のモデルの範囲とその精度については、46.0%の「自明」イメージと11.5%の「不可能」イメージ(ラベルエラーに加えて)で支配されている。 画像の42.5%だけが2つのモデルの決定境界の違いの原因となる可能性がある。 (3.) 不可能な"イメージと"自明な"イメージを削除するだけで、モデルの明確な違いが分かるのです。 (4.) 人間はCNN(81.4%)のどの画像が「自明」で「不可能」かを正確に予測できる。 これは、将来の脳、機械、行動の比較において、画像の決定的な役割とそれらの困難の分布についての調査から多くを得る可能性があることを意味する。

"The power of a generalization system follows directly from its biases" (Mitchell 1980). Today, CNNs are incredibly powerful generalisation systems -- but to what degree have we understood how their inductive bias influences model decisions? We here attempt to disentangle the various aspects that determine how a model decides. In particular, we ask: what makes one model decide differently from another? In a meticulously controlled setting, we find that (1.) irrespective of the network architecture or objective (e.g. self-supervised, semi-supervised, vision transformers, recurrent models) all models end up with a similar decision boundary. (2.) To understand these findings, we analysed model decisions on the ImageNet validation set from epoch to epoch and image by image. We find that the ImageNet validation set, among others, suffers from dichotomous data difficulty (DDD): For the range of investigated models and their accuracies, it is dominated by 46.0% "trivial" and 11.5% "impossible" images (beyond label errors). Only 42.5% of the images could possibly be responsible for the differences between two models' decision boundaries. (3.) Only removing the "impossible" and "trivial" images allows us to see pronounced differences between models. (4.) Humans are highly accurate at predicting which images are "trivial" and "impossible" for CNNs (81.4%). This implies that in future comparisons of brains, machines and behaviour, much may be gained from investigating the decisive role of images and the distribution of their difficulties.
翻訳日:2021-10-13 12:15:29 公開日:2021-10-12
# (参考訳) 少数ショット画像分類のためのプロトタイプ分類器について [全文訳有]

A Closer Look at Prototype Classifier for Few-shot Image Classification ( http://arxiv.org/abs/2110.05076v2 )

ライセンス: CC BY-SA 4.0
Mingcheng Hou and Issei Sato(参考訳) prototypical networkはメタラーニングに基づくプロトタイプ分類器であり、メタテスト中にハイパーパラメータを調整せずにクラス固有のプロトタイプを構築して、見当たらない例を分類することで、少数の学習に広く使われている。 興味深いことに、近年の研究では、メタラーニングアルゴリズムを使用しない線形分類器が、原型ネットワークと互換性を持って動作していることが示されている。 しかし、微調整には、新しい環境にモデルを適用する際に追加のハイパーパラメータが必要である。 さらに、数少ない学習の目的はモデルが新しい環境に素早く適応できるようにすることであるが、新しいクラスが現れるたびに微調整を適用する必要があるため、迅速な適応が困難になる。 本稿では,プロトタイプ分類器が微調整やメタ学習を伴わずに等しく機能するかを解析する。 実験により, 標準事前学習モデルを用いて抽出された特徴ベクトルを直接使用して, メタテストにおけるプロトタイプ分類器は, 事前学習モデルの微調整と特徴ベクトルを用いた原型ネットワークや線形分類器と同様に機能しないことがわかった。 そこで,本論文では,特徴ベクトルのノルムの分散に着目することで,性能を向上させることができることを示す。 ノルムの分散を最小化するためのいくつかの正規化法を実験的に検討し、l2正規化と埋め込み空間変換を用いて、微調整やメタラーニングを行わずに同じ性能が得られることを見出した。

The prototypical network is a prototype classifier based on meta-learning and is widely used for few-shot learning because it classifies unseen examples by constructing class-specific prototypes without adjusting hyper-parameters during meta-testing. Interestingly, recent research has attracted a lot of attention, showing that a linear classifier with fine-tuning, which does not use a meta-learning algorithm, performs comparably with the prototypical network. However, fine-tuning requires additional hyper-parameters when adapting a model to a new environment. In addition, although the purpose of few-shot learning is to enable the model to quickly adapt to a new environment, fine-tuning needs to be applied every time a new class appears, making fast adaptation difficult. In this paper, we analyze how a prototype classifier works equally well without fine-tuning and meta-learning. We experimentally found that directly using the feature vector extracted using standard pre-trained models to construct a prototype classifier in meta-testing does not perform as well as the prototypical network and linear classifiers with fine-tuning and feature vectors of pre-trained models. Thus, we derive a novel generalization bound for the prototypical network and show that focusing on the variance of the norm of a feature vector can improve performance. We experimentally investigated several normalization methods for minimizing the variance of the norm and found that the same performance can be obtained by using the L2 normalization and embedding space transformation without fine-tuning or meta-learning.
翻訳日:2021-10-13 12:13:08 公開日:2021-10-12
# (参考訳) ViSeRet: 微細なビデオセグメンテーションによるモーメント検索へのシンプルかつ効果的なアプローチ [全文訳有]

ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation ( http://arxiv.org/abs/2110.05146v2 )

ライセンス: CC BY 4.0
Aiden Seungjoon Lee, Hanseok Oh, Minjoon Seo(参考訳) ビデオテキスト検索には、メディア分析、監視、ロボット工学など、多くの現実世界のアプリケーションがある。 本稿では,ICCV VALUE Challenge 2021のビデオ検索における第1位ソリューションを提案する。 本稿では,2つのビデオテキスト検索タスク(ビデオ検索とビデオコーパスモーメント検索)に,ビデオ検索タスクにのみ訓練されたモデルを活用することで,シンプルかつ効果的なアプローチを提案する。 さらに,VALUE Challengeで提示された4つのデータセット(TVr, How2r, YouCook2r, VATEXr)に対して,新しい最先端のパフォーマンスを実現するアンサンブルモデルを作成する。

Video-text retrieval has many real-world applications such as media analytics, surveillance, and robotics. This paper presents the 1st place solution to the video retrieval track of the ICCV VALUE Challenge 2021. We present a simple yet effective approach to jointly tackle two video-text retrieval tasks (video retrieval and video corpus moment retrieval) by leveraging the model trained only on the video retrieval task. In addition, we create an ensemble model that achieves the new state-of-the-art performance on all four datasets (TVr, How2r, YouCook2r, and VATEXr) presented in the VALUE Challenge.
翻訳日:2021-10-13 11:47:54 公開日:2021-10-12
# (参考訳) 神経算術論理モジュールを用いた学習分割 [全文訳有]

Learning Division with Neural Arithmetic Logic Modules ( http://arxiv.org/abs/2110.05177v2 )

ライセンス: CC BY 4.0
Bhumika Mistry, Katayoun Farrahi, Jonathon Hare(参考訳) 体系的な一般化を実現するために、まず算術のような単純なタスクを習得することが合理的である。 4つの基本的な算術演算(+,-,$\times$,$\div$)のうち、分割は人間とコンピュータの両方にとって最も難しいと考えられている。 本稿では、2つの数字を分割する最も単純なレベルでも、体系的な方法で頑健に学習する分割が課題であることを示す。 本稿では,NRU(Neural Reciprocal Unit)とNMRU(Neural Multiplicative Reciprocal Unit)の2つの新しい手法を提案し,既存の分割モジュールであるReal Neural Power Unit(Real NPU)の改良を提案する。 225の異なるトレーニングセットに入力冗長性を持つ学習分割の実験では、提案する実 npu への修正により、オリジナルよりも平均で 85.3$\%$ 改善が15.1$\% 向上することがわかった。 上記の提案を踏まえて、NMRUアプローチは、さらなる成功を91.6$\%$に向上させることができる。

To achieve systematic generalisation, it first makes sense to master simple tasks such as arithmetic. Of the four fundamental arithmetic operations (+,-,$\times$,$\div$), division is considered the most difficult for both humans and computers. In this paper we show that robustly learning division in a systematic manner remains a challenge even at the simplest level of dividing two numbers. We propose two novel approaches for division which we call the Neural Reciprocal Unit (NRU) and the Neural Multiplicative Reciprocal Unit (NMRU), and present improvements for an existing division module, the Real Neural Power Unit (Real NPU). Experiments in learning division with input redundancy on 225 different training sets, find that our proposed modifications to the Real NPU obtains an average success of 85.3$\%$ improving over the original by 15.1$\%$. In light of the suggestion above, our NMRU approach can further improve the success to 91.6$\%$.
翻訳日:2021-10-13 11:39:10 公開日:2021-10-12
# Yuan 1.0: ゼロショット学習における大規模事前学習型言語モデル

Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning ( http://arxiv.org/abs/2110.04725v2 )

ライセンス: Link先を確認
Shaohua Wu, Xudong Zhao, Tong Yu, Rongguo Zhang, Chong Shen, Hongli Liu, Feng Li, Hong Zhu, Jiangang Luo, Liang Xu, Xuanwei Zhang(参考訳) GPT-3のような最近の研究は、モデルサイズ、データセットサイズ、計算量をスケールアップすることで、多くの自然言語処理(NLP)タスクにおけるゼロショットとフューショット学習の優れたパフォーマンスを示した。 しかし、GPT-3のようなモデルのトレーニングには膨大な量の計算資源が必要であり、研究者にとって困難である。 本研究では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。 この方法では、245Bパラメータを持つ現在の最大のシングルトン言語モデルであるYuan 1.0は、トレーニング中に数千のGPU上で優れたパフォーマンスを実現し、NLPタスクにおける最先端の結果を得る。 大量の原データを効率よくフィルタリングするデータ処理方法が設計されている。 5tbの高品質テキストを持つ現在最大の中国製コーパスは、この方法に基づいて構築されている。 また,Zero-ShotおよびFew-Shotの性能向上のためにキャリブレーション・ラベル展開法を提案し,各種タスクの精度を安定的に改善した。 yuan 1.0は自然言語生成の能力が高く、生成した記事は人間が書いたものと区別が難しい。

Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, we propose a method that incorporates large-scale distributed training performance into model architecture design. With this method, Yuan 1.0, the current largest singleton language model with 245B parameters, achieves excellent performance on thousands GPUs during training, and the state-of-the-art results on NLP tasks. A data processing method is designed to efficiently filter massive amount of raw data. The current largest high-quality Chinese corpus with 5TB high quality texts is built based on this method. In addition, a calibration and label expansion method is proposed to improve the Zero-Shot and Few-Shot performance, and steady improvement is observed on the accuracy of various tasks. Yuan 1.0 presents strong capacity of natural language generation, and the generated articles are difficult to distinguish from the human-written ones.
翻訳日:2021-10-13 10:45:24 公開日:2021-10-12
# 確率的エキスパートによる疎活性化変圧器のモデリング

Taming Sparsely Activated Transformer with Stochastic Experts ( http://arxiv.org/abs/2110.04260v2 )

ライセンス: Link先を確認
Simiao Zuo, Xiaodong Liu, Jian Jiao, Young Jin Kim, Hany Hassan, Ruofei Zhang, Tuo Zhao, Jianfeng Gao(参考訳) Mixture-of-Experts (MoE) のようなスパースアクティベートモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。 しかし、SAMはパラメータ非効率であると報告されており、大きなモデルが必ずしもより良いパフォーマンスをもたらすとは限らない。 現在進行中のほとんどの研究は、専門家に入力をルーティングする方法を探索することでSAMsモデルの改善に重点を置いているが、そのような研究は我々が期待する解決には至らないかもしれない。 本稿では,新たなエキスパートベースモデルであるthor(transformer with stochastic experts)を提案する。 Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングや推論中に各入力に対してランダムに活性化される。 thorモデルは一貫性のある正規化損失を用いてトレーニングされ、専門家はトレーニングデータからだけでなく、教師として他の専門家からも学び、すべての専門家が一貫した予測を行う。 機械翻訳作業におけるTHORの有効性を検証する。 その結果,THORモデルの方がパラメータ効率が良く,TransformerモデルやMoEモデルよりも優れていることがわかった。 例えば、多言語翻訳では、thorはスイッチトランスフォーマーを2 bleuスコアで上回り、最先端のmoeモデルの18倍の大きさのbleuスコアを得る。 私たちのコードは、https://github.com/m icrosoft/Stochastic- Mixture-of-Experts.c omで公開されています。

Sparsely activated models (SAMs), such as Mixture-of-Experts (MoE), can easily scale to have outrageously large amounts of parameters without significant increase in computational cost. However, SAMs are reported to be parameter inefficient such that larger models do not always lead to better performance. While most on-going research focuses on improving SAMs models by exploring methods of routing inputs to experts, our analysis reveals that such research might not lead to the solution we expect, i.e., the commonly-used routing methods based on gating mechanisms do not work better than randomly routing inputs to experts. In this paper, we propose a new expert-based model, THOR (Transformer witH StOchastic ExpeRts). Unlike classic expert-based models, such as the Switch Transformer, experts in THOR are randomly activated for each input during training and inference. THOR models are trained using a consistency regularized loss, where experts learn not only from training data but also from other experts as teachers, such that all the experts make consistent predictions. We validate the effectiveness of THOR on machine translation tasks. Results show that THOR models are more parameter efficient in that they significantly outperform the Transformer and MoE models across various settings. For example, in multilingual translation, THOR outperforms the Switch Transformer by 2 BLEU scores, and obtains the same BLEU score as that of a state-of-the-art MoE model that is 18 times larger. Our code is publicly available at: https://github.com/m icrosoft/Stochastic- Mixture-of-Experts.
翻訳日:2021-10-13 10:45:03 公開日:2021-10-12
# マルチターン対話理解の進歩:サーベイ

Advances in Multi-turn Dialogue Comprehension: A Survey ( http://arxiv.org/abs/2110.04984v2 )

ライセンス: Link先を確認
Zhuosheng Zhang and Hai Zhao(参考訳) 自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と不可欠なタスクである。 対話システムの多様性は、ディープラーニング技術、特に最近の事前学習言語モデル(PrLM)の急速な発展と共に設計されている。 これらの研究の中で、基本的な課題は対話理解であり、その役割は機械に応答する前に対話コンテキストを読み、理解させることである。 本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。 平文読解とは対照的に,対話理解の特徴と課題を要約する。 次に,対話モデリングの典型的な3つのパターンについて論じる。 さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。 最後に,近年の技術的進歩を浮き彫りにして,実証的分析から得た教訓と新たな研究のフロンティアへの展望を指摘する。

Training machines to understand natural language and interact with humans is an elusive and essential task of artificial intelligence. A diversity of dialogue systems has been designed with the rapid development of deep learning techniques, especially the recent pre-trained language models (PrLMs). Among these studies, the fundamental yet challenging type of task is dialogue comprehension whose role is to teach the machines to read and comprehend the dialogue context before responding. In this paper, we review the previous methods from the technical perspective of dialogue modeling for the dialogue comprehension task. We summarize the characteristics and challenges of dialogue comprehension in contrast to plain-text reading comprehension. Then, we discuss three typical patterns of dialogue modeling. In addition, we categorize dialogue-related pre-training techniques which are employed to enhance PrLMs in dialogue scenarios. Finally, we highlight the technical advances in recent years and point out the lessons from the empirical analysis and the prospects towards a new frontier of researches.
翻訳日:2021-10-13 10:44:37 公開日:2021-10-12
# グラフニューラルネットワークによる巡回セールスパーソン問題の局所探索

Graph Neural Network Guided Local Search for the Traveling Salesperson Problem ( http://arxiv.org/abs/2110.05291v2 )

ライセンス: Link先を確認
Benjamin Hudson and Qingbiao Li and Matthew Malencia and Amanda Prorok(参考訳) トラベルセールスパーソン問題(tsp)の解決策は、輸送、物流、自動化のプロセスに実用的な応用があるが、基礎となるタスクのリアルタイム性を満たすために、最小限の遅延で計算する必要がある。 しかし、現在の近似アルゴリズムでは、ソリューションの品質を犠牲にすることなく、大規模なTSPインスタンスを迅速に解決することは困難である。 このギャップを埋めるために、グラフニューラルネットワーク(GNN)とガイドローカルサーチ(GLS)に基づくTSPを解くためのハイブリッドデータ駆動型アプローチを提案する。 我々のモデルは問題グラフの各エッジを解に含めることの後悔を予測し、GLSはこれらの予測を元の問題グラフと併用して解を見つける。 我々の実験は、この手法が最先端の学習ベースアプローチやTSPの非学習GLSアルゴリズムよりも速い速度で最適解に収束することを示し、特に50ノード問題セットの96%、次のベストベンチマークの7%、100ノード問題セットの20%、次のベストベンチマークの4.5倍の最適解を見出した。 20ノード問題から100ノード問題集合に一般化すると、平均最適性差2.5%の解が、次の最良の学習ベースのベンチマークよりも10倍向上する。

Solutions to the Traveling Salesperson Problem (TSP) have practical applications to processes in transportation, logistics, and automation, yet must be computed with minimal delay to satisfy the real-time nature of the underlying tasks. However, solving large TSP instances quickly without sacrificing solution quality remains challenging for current approximate algorithms. To close this gap, we present a hybrid data-driven approach for solving the TSP based on Graph Neural Networks (GNNs) and Guided Local Search (GLS). Our model predicts the regret of including each edge of the problem graph in the solution; GLS uses these predictions in conjunction with the original problem graph to find solutions. Our experiments demonstrate that this approach converges to optimal solutions at a faster rate than state-of-the-art learning-based approaches and non-learning GLS algorithms for the TSP, notably finding optimal solutions to 96% of the 50-node problem set, 7% more than the next best benchmark, and to 20% of the 100-node problem set, 4.5x more than the next best benchmark. When generalizing from 20-node problems to the 100-node problem set, our approach finds solutions with an average optimality gap of 2.5%, a 10x improvement over the next best learning-based benchmark.
翻訳日:2021-10-13 10:44:25 公開日:2021-10-12
# マルチラベル画像認識のためのトランスフォーマーベースデュアルリレーショナルグラフ

Transformer-based Dual Relation Graph for Multi-label Image Recognition ( http://arxiv.org/abs/2110.04722v2 )

ライセンス: Link先を確認
Jiawei Zhao, Ke Yan, Yifan Zhao, Xiaowei Guo, Feiyue Huang, Jia Li(参考訳) 1つの画像における複数のオブジェクトの同時認識は、様々なオブジェクトスケール、一貫性のない外観、混乱したクラス間の関係など、認識領域における複数のイベントにまたがる難しい課題である。 最近の研究は、不明瞭なセマンティクスを強化するために、統計ラベルの共起と言語単語の埋め込みを主に活用している。 本稿では,これらの研究と異なり,相関関係の2つの側面,すなわち構造関係グラフと意味関係グラフを探索して相補関係を構築する,新しいトランスフォーマベースの二重関係学習フレームワークを提案する。 構造関係グラフは、オブジェクトコンテキストから長距離相関を捉えることを目的として、クロススケールトランスフォーマーベースのアーキテクチャを開発する。 セマンティックグラフは、明示的なセマンティック・アウェア制約で画像オブジェクトの意味を動的にモデル化する。 さらに、学習した構造関係を意味グラフに組み込んで、堅牢な表現のための結合関係グラフを構築する。 これら2つの効果的な関係グラフの協調学習により,MS-COCOとVOC 2007データセットという2つの一般的なマルチラベル認識ベンチマーク上で,新たな最先端技術を実現する。

The simultaneous recognition of multiple objects in one image remains a challenging task, spanning multiple events in the recognition field such as various object scales, inconsistent appearances, and confused inter-class relationships. Recent research efforts mainly resort to the statistic label co-occurrences and linguistic word embedding to enhance the unclear semantics. Different from these researches, in this paper, we propose a novel Transformer-based Dual Relation learning framework, constructing complementary relationships by exploring two aspects of correlation, i.e., structural relation graph and semantic relation graph. The structural relation graph aims to capture long-range correlations from object context, by developing a cross-scale transformer-based architecture. The semantic graph dynamically models the semantic meanings of image objects with explicit semantic-aware constraints. In addition, we also incorporate the learnt structural relationship into the semantic graph, constructing a joint relation graph for robust representations. With the collaborative learning of these two effective relation graphs, our approach achieves new state-of-the-art on two popular multi-label recognition benchmarks, i.e., MS-COCO and VOC 2007 dataset.
翻訳日:2021-10-13 10:41:59 公開日:2021-10-12
# BEV-Net: ソーシャル・ディスタンシング・コンプライアンスの評価 : 共同人物のローカライゼーションと幾何学的推論

BEV-Net: Assessing Social Distancing Compliance by Joint People Localization and Geometric Reasoning ( http://arxiv.org/abs/2110.04931v2 )

ライセンス: Link先を確認
Zhirui Dai, Yuepeng Jiang, Yi Li, Bo Liu, Antoni B. Chan, Nuno Vasconcelos(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を抑えるため、公衆衛生に欠かせないソーシャルディスタンシングが注目されている。 本研究は,広い視野カメラを備えた多忙な公共空間におけるソーシャルディスタンス・コンプライアンス・アセスメントの問題点について考察する。 鳥眼図 (bev) 下での注釈付き群衆シーンのデータセットと距離計測のための地上真理を導入し, 社会的距離検出システムの評価のためのいくつかの尺度を提案する。 マルチブランチネットワークであるBEV-Netは、世界座標における個人をローカライズし、社会的距離違反のリスクの高い地域を特定する。 BEV-Netは、頭と足の位置の検出、カメラポーズ推定、画像のBEV座標へのマッピングのための相違可能なホモグラフィモジュール、および幾何学的推論を組み合わせて、シーン内の人々の位置のBEVマップを生成する。 複雑な混雑したシーンにおける実験は、アプローチのパワーを示し、文献の手法から派生したベースラインよりも優れたパフォーマンスを示す。 公衆衛生意思決定者への関心の応用について論じる。 データセット、コード、事前トレーニングされたモデルはgithubで公開されている。

Social distancing, an essential public health measure to limit the spread of contagious diseases, has gained significant attention since the outbreak of the COVID-19 pandemic. In this work, the problem of visual social distancing compliance assessment in busy public areas, with wide field-of-view cameras, is considered. A dataset of crowd scenes with people annotations under a bird's eye view (BEV) and ground truth for metric distances is introduced, and several measures for the evaluation of social distance detection systems are proposed. A multi-branch network, BEV-Net, is proposed to localize individuals in world coordinates and identify high-risk regions where social distancing is violated. BEV-Net combines detection of head and feet locations, camera pose estimation, a differentiable homography module to map image into BEV coordinates, and geometric reasoning to produce a BEV map of the people locations in the scene. Experiments on complex crowded scenes demonstrate the power of the approach and show superior performance over baselines derived from methods in the literature. Applications of interest for public health decision makers are finally discussed. Datasets, code and pretrained models are publicly available at GitHub.
翻訳日:2021-10-13 10:41:37 公開日:2021-10-12
# 歌声合成におけるピッチ保存

Pitch Preservation In Singing Voice Synthesis ( http://arxiv.org/abs/2110.05033v2 )

ライセンス: Link先を確認
Shujun Liu, Hai Zhu, Kun Wang, Huajun Wang(参考訳) 歌唱音声コーパスの制限を受け、エンコーダ・デコーダ・ニューラルネットを構築して分光図を直接生成する既存の歌唱音声合成(SVS)手法は、推論フェーズ中に不規則な問題を引き起こす可能性がある。 そこで本研究では,音素と音素情報を楽譜から切り離してコーパスを完全に活用する,独立したピッチエンコーダと音素エンコーダを用いた新しい音響モデルを提案する。 具体的には、等速理論により、ピッチエンコーダは、隣接する入力ピッチ間の距離をエンコーダ出力間の対応する周波数倍にマッピングするピッチメトリック損失によって制約される。 音素エンコーダは、異なるピッチに対応する同じ音素が類似の発音を生成することができるという分析に基づいて、異なるピッチを持つ同一音素を同じ音素特徴空間にマッピングする逆訓練されたピッチ分類器が続く。 これらの手段により、元の入力空間におけるスパース音素とピッチをそれぞれよりコンパクトな特徴空間に変換することができ、同じ要素が密集して相互に協調して合成品質を向上させることができる。 次に、2つのエンコーダの出力を合計して次のデコーダを音響モデルで通過させる。 実験の結果,提案手法はピッチ入力間の固有構造を特徴付け,ピッチ合成精度を向上し,ベースラインシステムに対する歌唱合成性能を向上できることがわかった。

Suffering from limited singing voice corpus, existing singing voice synthesis (SVS) methods that build encoder-decoder neural networks to directly generate spectrogram could lead to out-of-tune issues during the inference phase. To attenuate these issues, this paper presents a novel acoustic model with independent pitch encoder and phoneme encoder, which disentangles the phoneme and pitch information from music score to fully utilize the corpus. Specifically, according to equal temperament theory, the pitch encoder is constrained by a pitch metric loss that maps distances between adjacent input pitches into corresponding frequency multiples between the encoder outputs. For the phoneme encoder, based on the analysis that same phonemes corresponding to varying pitches can produce similar pronunciations, this encoder is followed by an adversarially trained pitch classifier to enforce the identical phonemes with different pitches mapping into the same phoneme feature space. By these means, the sparse phonemes and pitches in original input spaces can be transformed into more compact feature spaces respectively, where the same elements cluster closely and cooperate mutually to enhance synthesis quality. Then, the outputs of the two encoders are summed together to pass through the following decoder in the acoustic model. Experimental results indicate that the proposed approaches can characterize intrinsic structure between pitch inputs to obtain better pitch synthesis accuracy and achieve superior singing synthesis performance against the advanced baseline system.
翻訳日:2021-10-13 10:41:15 公開日:2021-10-12
# 確率的勾配ランジュバンダイナミクスはディープラーニングに微分プライバシーをもたらすか?

Can Stochastic Gradient Langevin Dynamics Provide Differential Privacy for Deep Learning? ( http://arxiv.org/abs/2110.05057v2 )

ライセンス: Link先を確認
Guy Heller, Ethan Fetaya(参考訳) Stochastic Gradient Langevin Dynamics (SGLD) によるベイズ学習は、異なる個人学習のために提案されている。 これまでの研究では、収束やアルゴリズムの初期段階に近づくと、sgldの差分プライバシ境界を提供するが、どの差分プライバシ保証が可能かという問題は未解決のままである。 この中間領域は特にベイズニューラルネットワークにとって不可欠であり、後部への収束を保証することは困難である。 本稿では,SGLDを使用すれば,後方からのサンプリングが所望の差分プライベートである場合でも,この中間領域のプライバシーを損なう可能性があることを示す。

Bayesian learning via Stochastic Gradient Langevin Dynamics (SGLD) has been suggested for differentially private learning. While previous research provides differential privacy bounds for SGLD when close to convergence or at the initial steps of the algorithm, the question of what differential privacy guarantees can be made in between remains unanswered. This interim region is essential, especially for Bayesian neural networks, as it is hard to guarantee convergence to the posterior. This paper will show that using SGLD might result in unbounded privacy loss for this interim region, even when sampling from the posterior is as differentially private as desired.
翻訳日:2021-10-13 10:40:48 公開日:2021-10-12