このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211214となっている論文です。

PDF登録状況(公開日: 20211214)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) Mat\'ern Gaussian Processs を用いた方向グラフ上の対流のモデル化 [全文訳有]

Modeling Advection on Directed Graphs using Mat\'ern Gaussian Processes for Traffic Flow ( http://arxiv.org/abs/2201.00001v1 )

ライセンス: CC BY 4.0
Danielle C Maddix, Nadim Saad, Yuyang Wang(参考訳) 交通流の輸送は、対流方程式によってモデル化できる。 有限差分法と有限体積法は、この双曲方程式をメッシュ上で数値的に解くために用いられる。 有向グラフにもグラフ有向演算子 [4, 18] を用いて離散的にモデル化されている。 本稿では,このグラフ対流演算子を有限差分スキームとして再構成できることを最初に示す。 次に,このグラフ随伴演算子のダイナミクスを学習可能なmat\'ern gaussianプロセスのカーネルに組み込む有向グラフ随伴行列(dgamgp)モデルを提案し,その不確かさを有向グラフ上の随伴過程として効果的にモデル化する。

The transport of traffic flow can be modeled by the advection equation. Finite difference and finite volumes methods have been used to numerically solve this hyperbolic equation on a mesh. Advection has also been modeled discretely on directed graphs using the graph advection operator [4, 18]. In this paper, we first show that we can reformulate this graph advection operator as a finite difference scheme. We then propose the Directed Graph Advection Mat\'ern Gaussian Process (DGAMGP) model that incorporates the dynamics of this graph advection operator into the kernel of a trainable Mat\'ern Gaussian Process to effectively model traffic flow and its uncertainty as an advective process on a directed graph.
翻訳日:2022-01-09 17:27:13 公開日:2021-12-14
# (参考訳) BACON:著者の言語的スタイルの転送による詩生成のためのディープラーニングパワードAI [全文訳有]

BACON: Deep-Learning Powered AI for Poetry Generation with Author Linguistic Style Transfer ( http://arxiv.org/abs/2112.11483v1 )

ライセンス: CC BY 4.0
Alejandro Rodriguez Pascual(参考訳) 本稿では,著者の言語スタイルを伝達する自動詩生成器のプロトタイプであるベーコンについて述べる。 有限状態機械、確率モデル、ニューラルネットワーク、ディープラーニングといった概念と技術を組み合わせることで、特定の著者のスタイルに豊かな美的資格を持つオリジナル詩を書くことができる。 BACONによるアウトプットの外部評価は、参加者が統計的に有意な方法で人間とAIが生成した詩の違いを判断できないことを示している。

This paper describes BACON, a basic prototype of an automatic poetry generator with author linguistic style transfer. It combines concepts and techniques from finite state machinery, probabilistic models, artificial neural networks and deep learning, to write original poetry with rich aesthetic-qualities in the style of any given author. Extrinsic evaluation of the output generated by BACON shows that participants were unable to tell the difference between human and AI-generated poems in any statistically significant way.
翻訳日:2021-12-26 14:40:06 公開日:2021-12-14
# (参考訳) 知識ベースを問うマルチホップ質問 [全文訳有]

Few-shot Multi-hop Question Answering over Knowledge Base ( http://arxiv.org/abs/2112.11909v1 )

ライセンス: CC BY 4.0
Fan Meihao(参考訳) 中国語知識ベース質問応答に関するこれまでの研究は、複雑な中国語意味解析データセットの欠如と、関係経路の長さによる探索空間の指数関数的な成長により制限されてきた。 本稿では,事前学習された言語モデルと,少ないデータしか必要とせず,オープンドメインの複雑な中国語質問応答タスクでうまく機能する人工学習サンプルを構築するための戦略を備えた効率的なパイプライン手法を提案する。 さらに,言語モデルに基づくビームサーチアルゴリズムを適用して,候補クエリタプルのスコアをマークすることで,マルチホップクエリパスを生成する際の関係経路の増大を抑える。 最後に、知識ベースタスクによるCCKS2019複雑質問回答のモデルを評価し、テストデータセット上でF1スコアの62.55\%を達成する。 さらに、10\%のデータでトレーニングを行う場合、このモデルは58.54\%のf1-scoreを達成できる。 その結果、KBQAタスクを処理できるモデルと、数ショット学習の利点が示された。

Previous work on Chinese Knowledge Base Question Answering has been restricted due to the lack of complex Chinese semantic parsing dataset and the exponentially growth of searching space with the length of relation paths. This paper proposes an efficient pipeline method equipped with a pre-trained language model and a strategy to construct artificial training samples, which only needs small amount of data but performs well on open-domain complex Chinese Question Answering task. Besides, By adopting a Beam Search algorithm based on a language model marking scores for candidate query tuples, we decelerate the growing relation paths when generating multi-hop query paths. Finally, we evaluate our model on CCKS2019 Complex Question Answering via Knowledge Base task and achieves F1-score of 62.55\% on the test dataset. Moreover when training with only 10\% data, our model can still achieves F1-score of 58.54\%. The result shows the capability of our model to process KBQA task and the advantage in few-shot learning.
翻訳日:2021-12-26 14:30:29 公開日:2021-12-14
# (参考訳) 都市はどのようにネットゼロを育んでいますか。 亜国気候戦略分析への計算的アプローチ

How are cities pledging net zero? A computational approach to analyzing subnational climate strategies ( http://arxiv.org/abs/2112.11207v1 )

ライセンス: CC BY-SA 4.0
Siddharth Sachdeva, Angel Hsu, Ian French, and Elwin Lim(参考訳) 都市は気候変動の主要な要因となり、ネットゼロの排出を目標にしている。 排ガスを「ゼロに競争」し、独自の気候緩和策を策定するサブナショナリズムの急速な拡大は、これらのアクターがこれらの目標をどのように達成しようとしているかを理解するための綿密な調査を必要としている。 しかし、都市気候政策文書の散在、不完全、異質な性質は、その体系的な分析を困難にしている。 我々は、ネットゼロの目標を約束する都市からの318の気候行動文書を分析し、機械学習に基づく自然言語処理(nlp)技術を用いて、国家間気候イニシアチブに参加した。 これらのアプローチを2つの主要な目標を達成するために使用します。 1)「曖昧な」ネットゼロ目標を予測するテキストパターンを決定する。そこでは、野心的な目標を、各国政府の経済規模の排出を包含するものと定義し、 2)気候行動テーマ(土地利用、産業、建物等)のパターンやトレードオフを特定するためのセクター分析を行う。 野心的な気候行動を定義した都市は、その計画において量的指標と特定のハイエミットセクターを強調する傾向にあり、ガバナンスや市民参加の言及が支持されている。 都市は、特に建物、輸送、暖房といった計画におけるエネルギー関連の行動に重点を置いているが、土地利用や気候への影響など他の部門を犠牲にしていることが多い。 本稿では,気候行動計画分析のための再現性とスケーラブルな手法と,都市横断学習の促進に向けた第一歩を提案する。

Cities have become primary actors on climate change and are increasingly setting goals aimed at net-zero emissions. The rapid proliferation of subnational governments "racing to zero" emissions and articulating their own climate mitigation plans warrants closer examination to understand how these actors intend to meet these goals. The scattered, incomplete and heterogeneous nature of city climate policy documents, however, has made their systemic analysis challenging. We analyze 318 climate action documents from cities that have pledged net-zero targets or joined a transnational climate initiative with this goal using machine learning-based natural language processing (NLP) techniques. We use these approaches to accomplish two primary goals: 1) determine text patterns that predict "ambitious" net-zero targets, where we define an ambitious target as one that encompasses a subnational government's economy-wide emissions; and 2) perform a sectoral analysis to identify patterns and trade-offs in climate action themes (i.e., land-use, industry, buildings, etc.). We find that cities that have defined ambitious climate actions tend to emphasize quantitative metrics and specific high-emitting sectors in their plans, supported by mentions of governance and citizen participation. Cities predominantly emphasize energy-related actions in their plans, particularly in the buildings, transport and heating sectors, but often at the expense of other sectors, including land-use and climate impacts. The method presented in this paper provides a replicable, scalable approach to analyzing climate action plans and a first step towards facilitating cross-city learning.
翻訳日:2021-12-26 14:15:12 公開日:2021-12-14
# 人工知能倫理と安全:「良い」モデルを作るための実践的ツール

Artificial Intelligence Ethics and Safety: practical tools for creating "good" models ( http://arxiv.org/abs/2112.11208v1 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea(参考訳) aiロボティクス倫理協会(ai robotics ethics society:aires)は、2018年にaaron huiによって設立された非営利団体である。 AIRESは現在、UCLA(ロサンゼルス)、USC(南カリフォルニア大学)、カリフォルニア工科大学(カリフォルニア工科大学)、スタンフォード大学、コーネル大学、ブラウン大学、リオグランデ・ド・スルのポンティフィカル・カトリック大学(ブラジル)などの大学に支部を置いている。 PUCRSにおけるAIRESは、AIRESの最初の国際支部であり、我々はAIRESミッションの推進と促進にコミットしています。 私たちのミッションは、AIが倫理的にかつ責任を持って作成されることを保証するために、明日のAIリーダーを倫理原則で教育することに集中することです。 AIシステム開発の実践において、倫理的原則や規範的ガイドラインをどのように実施すべきかという提案はまだ少ないため、この研究の目的は、談話と実践のギャップを埋めることである。 抽象原則と技術的実装の間。 本稿では,AI倫理と安全に関するトピックについて,読者を紹介する。 同時に、インテリジェントシステムの開発者が"良い"モデルを開発するのを助けるツールをいくつか提示します。 この作品は英語とポルトガル語で出版された開発ガイドである。 コントリビューションと提案は歓迎です。

The AI Robotics Ethics Society (AIRES) is a non-profit organization founded in 2018 by Aaron Hui to promote awareness and the importance of ethical implementation and regulation of AI. AIRES is now an organization with chapters at universities such as UCLA (Los Angeles), USC (University of Southern California), Caltech (California Institute of Technology), Stanford University, Cornell University, Brown University, and the Pontifical Catholic University of Rio Grande do Sul (Brazil). AIRES at PUCRS is the first international chapter of AIRES, and as such, we are committed to promoting and enhancing the AIRES Mission. Our mission is to focus on educating the AI leaders of tomorrow in ethical principles to ensure that AI is created ethically and responsibly. As there are still few proposals for how we should implement ethical principles and normative guidelines in the practice of AI system development, the goal of this work is to try to bridge this gap between discourse and praxis. Between abstract principles and technical implementation. In this work, we seek to introduce the reader to the topic of AI Ethics and Safety. At the same time, we present several tools to help developers of intelligent systems develop "good" models. This work is a developing guide published in English and Portuguese. Contributions and suggestions are welcome.
翻訳日:2021-12-26 12:44:28 公開日:2021-12-14
# 対話型言語モデリングに向けて

Towards Interactive Language Modeling ( http://arxiv.org/abs/2112.11911v1 )

ライセンス: Link先を確認
Maartje ter Hoeve, Evgeny Kharitonov, Dieuwke Hupkes, Emmanuel Dupoux(参考訳) 介護者と子供の相互作用は、人間の言語習得と発達において重要な役割を果たす。 この観察を踏まえると、明示的な相互作用が人工言語モデリングにおいてほとんど役に立たないことは注目に値する。 さらに、言語モデリングに対するインタラクティブなアプローチは、言語モデルをはるかに汎用性を高め、下流アプリケーションに大きな影響を与える可能性がある。 これらの考察により,対話型言語モデリングの分野を開拓した。 最初のコントリビューションとして、対話型言語モデリングに向けて取るべきステップを詳述するロードマップを提示する。 次に、事例を導いて、このロードマップの第一歩を踏み出し、私たちのアプローチの最初の実現可能性を示します。 そこで本研究は,対話型言語モデリングに関するより大きな研究課題の出発点となる。

Interaction between caregivers and children plays a critical role in human language acquisition and development. Given this observation, it is remarkable that explicit interaction plays little to no role in artificial language modeling -- which also targets the acquisition of human language, yet by artificial models. Moreover, an interactive approach to language modeling has the potential to make language models substantially more versatile and to considerably impact downstream applications. Motivated by these considerations, we pioneer the space of interactive language modeling. As a first contribution we present a road map in which we detail the steps that need to be taken towards interactive language modeling. We then lead by example and take the first steps on this road map, showing the initial feasibility of our approach. As such, this work aims to be the start of a larger research agenda on interactive language modeling.
翻訳日:2021-12-26 12:26:43 公開日:2021-12-14
# 視覚に基づく自律ロボットの非現実的な紹介

An Embarrassingly Pragmatic Introduction to Vision-based Autonomous Robots ( http://arxiv.org/abs/2112.05534v2 )

ライセンス: Link先を確認
Marcos V. Conde(参考訳) 自動運転車やヒューマノイドから配達ロボットやドローンまで、過去10年間にかなりの進歩を遂げてきた。 問題の一部は、ロボットに人間の知覚、視覚の感覚を模倣させ、眼をカメラに置き換え、脳をニューラルネットワークのような数学的モデルに置き換えさせることだ。 人間の介入なしに車を運転できるAIと、市内で荷物を配達する小さなロボットを開発することは、異なる問題に思えるかもしれないが、知覚とビジョンの観点から見れば、どちらの問題にもいくつかの類似点がある。 ロボットが環境やシーンを理解し、動き、軌道に適応し、人間の介入なしにそのタスク(メンテナンス、探索など)を実行するために、コンピュータビジョン技術、機械学習、様々なアルゴリズムを使って、視覚情報を通じた環境認識にフォーカスしています。 本研究では,視覚情報のみを用いてシーンを把握し,産業環境をナビゲートし,人や障害物を検知し,簡単なメンテナンス作業を行う,スクラッチから小型自動運転車を開発する。 我々は、基本的な問題の最先端をレビューし、小規模で採用されている多くの手法が、teslaやlyftのような実際の自動運転車で採用されている方法に似ていることを実証する。 最後に、ロボット工学と自動運転の現状と、この分野で見られる技術的、倫理的な制限について論じる。

Autonomous robots are currently one of the most popular Artificial Intelligence problems, having experienced significant advances in the last decade, from Self-driving cars and humanoids to delivery robots and drones. Part of the problem is to get a robot to emulate the perception of human beings, our sense of sight, replacing the eyes with cameras and the brain with mathematical models such as Neural Networks. Developing an AI able to drive a car without human intervention and a small robot to deliver packages in the city may seem like different problems, nevertheless from the point of view of perception and vision, both problems have several similarities. The main solutions we currently find focus on the environment perception through visual information using Computer Vision techniques, Machine Learning, and various algorithms to make the robot understand the environment or scene, move, adapt its trajectory and perform its tasks (maintenance, exploration, etc.) without the need for human intervention. In this work, we develop a small-scale autonomous vehicle from scratch, capable of understanding the scene using only visual information, navigating through industrial environments, detecting people and obstacles, or performing simple maintenance tasks. We review the state-of-the-art of fundamental problems and demonstrate that many methods employed at small-scale are similar to the ones employed in real Self-driving cars from companies like Tesla or Lyft. Finally, we discuss the current state of Robotics and autonomous driving and the technological and ethical limitations that we can find in this field.
翻訳日:2021-12-19 12:53:37 公開日:2021-12-14
# (参考訳) マイクロ表現認識のための短距離・長距離関係に基づく時空間変圧器 [全文訳有]

Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition ( http://arxiv.org/abs/2112.05851v2 )

ライセンス: CC BY 4.0
Liangfei Zhang, Xiaopeng Hong, Ognjen Arandjelovic, Guoying Zhao(参考訳) 自発的であるため、マイクロ表現は、たとえそれを隠そうと試みても、人の真の感情を推測するのに有用である。 短い持続時間と低強度のため、マイクロ表現の認識は感情的な計算では難しいタスクである。 手作りの時空間的特徴に基づく初期の作品は、最近、さまざまなディープラーニングアプローチに取って代わられ、現在、アートパフォーマンスの状態を競っている。 それでも、局所的およびグローバルな時空間パターンをキャプチャする問題は依然として難しい。 この目的のために、我々は、マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチ(すなわち、畳み込みネットワークの使用を無効とする)である、新しい時空間トランスフォーマーアーキテクチャを提案する。 空間パターンを学習する空間エンコーダと、時間次元解析のための時間アグリゲータと、分類ヘッドと、を備える。 smic-hs, casme ii, sammの3つの広く使われている自発的マイクロ表現データセットの包括的評価は、提案手法が常に芸術の状態を上回っており、前述のデータセットの0.9以上の重み付けのないf1-scoreを達成するためのマイクロ表現認識に関する出版文献における最初の枠組みであることを示している。

Being spontaneous, micro-expressions are useful in the inference of a person's true emotions even if an attempt is made to conceal them. Due to their short duration and low intensity, the recognition of micro-expressions is a difficult task in affective computing. The early work based on handcrafted spatio-temporal features which showed some promise, has recently been superseded by different deep learning approaches which now compete for the state of the art performance. Nevertheless, the problem of capturing both local and global spatio-temporal patterns remains challenging. To this end, herein we propose a novel spatio-temporal transformer architecture -- to the best of our knowledge, the first purely transformer based approach (i.e. void of any convolutional network use) for micro-expression recognition. The architecture comprises a spatial encoder which learns spatial patterns, a temporal aggregator for temporal dimension analysis, and a classification head. A comprehensive evaluation on three widely used spontaneous micro-expression data sets, namely SMIC-HS, CASME II and SAMM, shows that the proposed approach consistently outperforms the state of the art, and is the first framework in the published literature on micro-expression recognition to achieve the unweighted F1-score greater than 0.9 on any of the aforementioned data sets.
翻訳日:2021-12-18 17:36:51 公開日:2021-12-14
# (参考訳) 実例によるプログラム・リワード設計

Programmatic Reward Design by Example ( http://arxiv.org/abs/2112.08438v1 )

ライセンス: CC BY 4.0
Weichao Zhou, Wenchao Li(参考訳) リワード設計は強化学習(RL)の基本的な問題である。 不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。 本稿では,RL環境における報酬関数の指定にプログラムを使用するという,‘textit{ Programmatic reward design}’の概念を提案する。 プログラムによって、人間のエンジニアは構造化され解釈可能な方法で、サブゴールと複雑なタスクシナリオを表現できる。 しかし、プログラム的な報酬設計の課題は、人間が高いレベルの構造を提供できる一方で、特定のサブタスクに対する適切な報酬量などの低レベルの詳細を適切に設定することは困難である。 この論文の主な貢献は、専門家のデモンストレーションから最高のプログラム的報酬関数を推測できる確率的枠組みである。 近年の帰納的アプローチにインスパイアされた我々の枠組みは、最適に生成された軌跡と示される軌跡とを区別できない最もプログラム的な報奨関数の探索である。 実験の結果,このフレームワークを用いて学習したプログラム的報酬関数は,既存の報酬学習アルゴリズムで学習した報酬関数を著しく上回ることができ,rlエージェントは高度に複雑なタスクで最先端のパフォーマンスを達成できることがわかった。

Reward design is a fundamental problem in reinforcement learning (RL). A misspecified or poorly designed reward can result in low sample efficiency and undesired behaviors. In this paper, we propose the idea of \textit{programmatic reward design}, i.e. using programs to specify the reward functions in RL environments. Programs allow human engineers to express sub-goals and complex task scenarios in a structured and interpretable way. The challenge of programmatic reward design, however, is that while humans can provide the high-level structures, properly setting the low-level details, such as the right amount of reward for a specific sub-task, remains difficult. A major contribution of this paper is a probabilistic framework that can infer the best candidate programmatic reward function from expert demonstrations. Inspired by recent generative-adversari al approaches, our framework {searches for the most likely programmatic reward function under which the optimally generated trajectories cannot be differentiated from the demonstrated trajectories}. Experimental results show that programmatic reward functions learned using this framework can significantly outperform those learned using existing reward learning algorithms, and enable RL agents to achieve state-of-the-art performance on highly complex tasks.
翻訳日:2021-12-18 13:12:31 公開日:2021-12-14
# (参考訳) 確率勾配ランジュバンダイナミクスのための一般化境界:情報漏洩解析による統一ビュー [全文訳有]

Generalization Bounds for Stochastic Gradient Langevin Dynamics: A Unified View via Information Leakage Analysis ( http://arxiv.org/abs/2112.08439v1 )

ライセンス: CC BY 4.0
Bingzhe Wu, Zhicong Liang, Yatao Bian, ChaoChao Chen, Junzhou Huang, Yuan Yao(参考訳) 近年、SGLD(Stochastic Gradient Langevin Dynamics)を用いた非凸経験的リスク最小化パラダイムの一般化境界が広く研究されている。 情報理論や安定性など、様々な観点からこの問題を研究するための理論的枠組みが提示されている。 本稿では,SGLDの一般化限界を考察するために,プライバシー漏洩解析からの統一的な視点と,過去の結果を簡潔に導出するための理論的枠組みを提案する。 理論的知見は別として,SGLDの情報漏洩問題を実証的に評価するために,様々な数値的研究を行っている。 さらに,sgldのメンバシッププライバシを研究する先行研究について,理論的および実証的な説明を提供する。

Recently, generalization bounds of the non-convex empirical risk minimization paradigm using Stochastic Gradient Langevin Dynamics (SGLD) have been extensively studied. Several theoretical frameworks have been presented to study this problem from different perspectives, such as information theory and stability. In this paper, we present a unified view from privacy leakage analysis to investigate the generalization bounds of SGLD, along with a theoretical framework for re-deriving previous results in a succinct manner. Aside from theoretical findings, we conduct various numerical studies to empirically assess the information leakage issue of SGLD. Additionally, our theoretical and empirical results provide explanations for prior works that study the membership privacy of SGLD.
翻訳日:2021-12-18 13:11:25 公開日:2021-12-14
# (参考訳) 気候不変機械学習 [全文訳有]

Climate-Invariant Machine Learning ( http://arxiv.org/abs/2112.08440v1 )

ライセンス: CC BY 4.0
Tom Beucler, Michael Pritchard, Janni Yuval, Ankitesh Gupta, Liran Peng, Stephan Rasp, Fiaz Ahmed, Paul A. O'Gorman, J. David Neelin, Nicholas J. Lutsko, Pierre Gentine(参考訳) データ駆動アルゴリズム、特にニューラルネットワークは、高分解能シミュレーションデータでトレーニングされた場合、粗分解性気候モデルにおける未解決のプロセスの影響をエミュレートすることができるが、訓練されていない条件で評価した場合、大きな一般化誤差を生じることが多い。 本稿では,機械学習アルゴリズムの入力と出力を物理的に再スケールし,未知の気候への一般化を支援することを提案する。 3つの異なる気候モデルにおけるサブグリッドスケール熱力学のオフラインパラメータ化に適用し、再スケールまたは"気候不変"ニューラルネットワークが、トレーニング気候よりも4kおよび8k温暖なテスト気候において正確な予測を行うことを示した。 さらに、「気候不変」ニューラルネットは、水惑星と地球のようなシミュレーションの間の一般化を促進する。 本研究では,標準的な機械学習モデルと比較し,ストームスケール対流・放射・合成熱力学環境の局所的・強固な関係を学習することを示す。 これらの結果は、地球系プロセスのデータ駆動モデルに物理知識を明示的に組み込むことによって、気候環境全体にわたる一貫性と一般化能力が向上することを示唆している。

Data-driven algorithms, in particular neural networks, can emulate the effects of unresolved processes in coarse-resolution climate models when trained on high-resolution simulation data; however, they often make large generalization errors when evaluated in conditions they were not trained on. Here, we propose to physically rescale the inputs and outputs of machine learning algorithms to help them generalize to unseen climates. Applied to offline parameterizations of subgrid-scale thermodynamics in three distinct climate models, we show that rescaled or "climate-invariant&qu ot; neural networks make accurate predictions in test climates that are 4K and 8K warmer than their training climates. Additionally, "climate-invariant&qu ot; neural nets facilitate generalization between Aquaplanet and Earth-like simulations. Through visualization and attribution methods, we show that compared to standard machine learning models, "climate-invariant&qu ot; algorithms learn more local and robust relations between storm-scale convection, radiation, and their synoptic thermodynamic environment. Overall, these results suggest that explicitly incorporating physical knowledge into data-driven models of Earth system processes can improve their consistency and ability to generalize across climate regimes.
翻訳日:2021-12-18 12:54:55 公開日:2021-12-14
# (参考訳) シェープな付加的説明を用いたコンピュータネットワーク異常検出のためのXAI手法によるオートエンコーダモデルの改良 [全文訳有]

Utilizing XAI technique to improve autoencoder based model for computer network anomaly detection with shapley additive explanation(SHAP) ( http://arxiv.org/abs/2112.08442v1 )

ライセンス: CC BY 4.0
Khushnaseeb Roshan and Aasim Zafar(参考訳) 機械学習(ML)とディープラーニング(DL)メソッドは、特に不正検出、ネットワーク異常検出、侵入検出など、コンピュータネットワークセキュリティにおいて急速に採用されている。 しかし、MLとDLベースのモデルの透明性の欠如は、その実装の大きな障害であり、そのブラックボックスの性質から批判されている。 説明可能な人工知能(XAI)は、これらのモデルの信頼性を向上させるための有望な分野である。 mlおよびdlベースのモデルの内部動作が理解可能であれば、パフォーマンスをさらに向上させることができる。 本論文の目的は,XAI を用いて DL モデル,オートエンコーダの結果を解釈する方法を示すことである。 そして,その解釈に基づいて,コンピュータネットワーク異常検出の性能を改善した。 シャープリー値に基づくカーネルSHAP法は,新しい特徴選択手法として用いられている。 このメソッドは、攻撃/異常インスタンスの集合の異常な振る舞いを実際に引き起こしている機能のみを識別するために使用される。 その後、これらの特徴セットは自動エンコーダのトレーニングと検証に使用されるが、良質なデータのみである。 最後に、SHAP_Modelは特徴選択法に基づいて提案された他の2つのモデルよりも優れていた。 この実験は、最新のCICIDS2017ネットワークデータセットのサブセットで実施されている。 SHAP_Modelの総合精度とAUCはそれぞれ94%と0.969である。

Machine learning (ML) and Deep Learning (DL) methods are being adopted rapidly, especially in computer network security, such as fraud detection, network anomaly detection, intrusion detection, and much more. However, the lack of transparency of ML and DL based models is a major obstacle to their implementation and criticized due to its black-box nature, even with such tremendous results. Explainable Artificial Intelligence (XAI) is a promising area that can improve the trustworthiness of these models by giving explanations and interpreting its output. If the internal working of the ML and DL based models is understandable, then it can further help to improve its performance. The objective of this paper is to show that how XAI can be used to interpret the results of the DL model, the autoencoder in this case. And, based on the interpretation, we improved its performance for computer network anomaly detection. The kernel SHAP method, which is based on the shapley values, is used as a novel feature selection technique. This method is used to identify only those features that are actually causing the anomalous behaviour of the set of attack/anomaly instances. Later, these feature sets are used to train and validate the autoencoder but on benign data only. Finally, the built SHAP_Model outperformed the other two models proposed based on the feature selection method. This whole experiment is conducted on the subset of the latest CICIDS2017 network dataset. The overall accuracy and AUC of SHAP_Model is 94% and 0.969, respectively.
翻訳日:2021-12-18 12:12:46 公開日:2021-12-14
# (参考訳) 抽象概念の学習と表現方法:シンボリック・錬金術を用いた検討 [全文訳有]

How to Learn and Represent Abstractions: An Investigation using Symbolic Alchemy ( http://arxiv.org/abs/2112.08360v1 )

ライセンス: CC BY 4.0
Badr AlKhamissi, Akshay Srinivasan, Zeb-Kurth Nelson, Sam Ritter(参考訳) Alchemyは、興味深い抽象化を含むのに十分な新しいメタ学習環境であるが、きめ細かい分析を抽出できるほどシンプルである。 さらに、alchemyは、大きな計算予算なしでメタrl研究を可能にするオプションのシンボリックインターフェースを提供する。 本研究では,Symbolic Alchemyを用いて,深部RLエージェントが様々な種類の抽象化を学習できるようにする設計選択を行う。 そして, 様々な行動分析, 内省的分析を用いて, 我々の訓練されたエージェントが, 抽象的タスク変数をどのように使用し, 表現しているかを調べ, 抽象の神経科学と興味深い関係を見出す。 本稿では,脳内の抽象変数の表現をよりよく理解するために,メタRLとAlchemyを使用する次のステップについて論じる。

Alchemy is a new meta-learning environment rich enough to contain interesting abstractions, yet simple enough to make fine-grained analysis tractable. Further, Alchemy provides an optional symbolic interface that enables meta-RL research without a large compute budget. In this work, we take the first steps toward using Symbolic Alchemy to identify design choices that enable deep-RL agents to learn various types of abstraction. Then, using a variety of behavioral and introspective analyses we investigate how our trained agents use and represent abstract task variables, and find intriguing connections to the neuroscience of abstraction. We conclude by discussing the next steps for using meta-RL and Alchemy to better understand the representation of abstract variables in the brain.
翻訳日:2021-12-18 11:56:13 公開日:2021-12-14
# (参考訳) パフォーマンスか信頼か? 両方ではない。 自己教師付き学習による深部auc最大化による胸部x線診断 [全文訳有]

Performance or Trust? Why Not Both. Deep AUC Maximization with Self-Supervised Learning for COVID-19 Chest X-ray Classifications ( http://arxiv.org/abs/2112.08363v1 )

ライセンス: CC BY 4.0
Siyuan He, Pengcheng Xi, Ashkan Ebadi, Stephane Tremblay, Alexander Wong(参考訳) 医用画像解析におけるモデル性能向上の鍵は効果的な表現学習である。 ディープラーニングモデルのトレーニングでは、医療応用に不可欠なパフォーマンスと信頼の妥協がしばしば必要となる。 さらに、クロスエントロピー損失に最適化されたモデルは、多数派における不当な過剰信頼と少数派階級における過慎重さに苦しむ傾向がある。 本研究では,新しいサロゲート損失と自己教師付き学習を統合し,x線画像を用いた新型コロナウイルス患者のコンピュータ支援スクリーニングを行った。 さらに,モデルの信頼性を評価するために,新しい定量化スコアを適用した。 特徴学習法と損失関数に対する性能と信頼の両方についてアブレーション研究を行った。 自己教師型モデルに新たなサロゲート損失を活用することで,高性能かつ信頼性の高いラベル効率の高いネットワークを創出できることを示す。

Effective representation learning is the key in improving model performance for medical image analysis. In training deep learning models, a compromise often must be made between performance and trust, both of which are essential for medical applications. Moreover, models optimized with cross-entropy loss tend to suffer from unwarranted overconfidence in the majority class and over-cautiousness in the minority class. In this work, we integrate a new surrogate loss with self-supervised learning for computer-aided screening of COVID-19 patients using radiography images. In addition, we adopt a new quantification score to measure a model's trustworthiness. Ablation study is conducted for both the performance and the trust on feature learning methods and loss functions. Comparisons show that leveraging the new surrogate loss on self-supervised models can produce label-efficient networks that are both high-performing and trustworthy.
翻訳日:2021-12-18 11:41:56 公開日:2021-12-14
# 低コストセンサによる空気品質モニタリングのためのセンササンプリングトレードオフ

Sensor Sampling Trade-Offs for Air Quality Monitoring With Low-Cost Sensors ( http://arxiv.org/abs/2112.09072v1 )

ライセンス: Link先を確認
Pau Ferrer-Cid, Julio Garcia-Calvete, Aina Main-Nadal, Zhe Ye, Jose M. Barcelo-Ordinas and Jorge Garcia-Vidal(参考訳) 機械学習技術を用いた低コストセンサの校正は,近年広く用いられている手法である。 空気質監視のための低コストセンサーの導入では、多くの課題が解決され続けているが、低コストセンサーは高精度計器と組み合わせて有用であることが示されている。 したがって、多くの研究は機械学習を用いた様々なキャリブレーション手法の適用に焦点を当てている。 それでも、これらのモデルの成功は、センサーが取得したデータの品質に依存しており、センサーサンプリングやデータ前処理からセンサー自体の校正に至るまで、データ収集プロセス全体にはほとんど注意が払われていない。 本稿では,機械学習によるセンサキャリブレーション結果の品質と,そのエネルギー消費への影響を主センササンプリングパラメータとして示し,既存のトレードオフを示す。 最後に,実験ノードを用いた結果から,対流圏オゾン,二酸化窒素,一酸化窒素センサのキャリブレーションにおけるデータサンプリング戦略の影響を明らかにした。 具体的には,センシングサブシステムのデューティサイクルを最小化するサンプリング戦略が,データ品質を維持しながら消費電力を削減できることを示す。

The calibration of low-cost sensors using machine learning techniques is a methodology widely used nowadays. Although many challenges remain to be solved in the deployment of low-cost sensors for air quality monitoring, low-cost sensors have been shown to be useful in conjunction with high-precision instrumentation. Thus, most research is focused on the application of different calibration techniques using machine learning. Nevertheless, the successful application of these models depends on the quality of the data obtained by the sensors, and very little attention has been paid to the whole data gathering process, from sensor sampling and data pre-processing, to the calibration of the sensor itself. In this article, we show the main sensor sampling parameters, with their corresponding impact on the quality of the resulting machine learning-based sensor calibration and their impact on energy consumption, thus showing the existing trade-offs. Finally, the results on an experimental node show the impact of the data sampling strategy in the calibration of tropospheric ozone, nitrogen dioxide and nitrogen monoxide low-cost sensors. Specifically, we show how a sampling strategy that minimizes the duty cycle of the sensing subsystem can reduce power consumption while maintaining data quality.
翻訳日:2021-12-17 16:54:05 公開日:2021-12-14
# 衝突するリングは難しいがあり得る

Combating Collusion Rings is Hard but Possible ( http://arxiv.org/abs/2112.08444v1 )

ライセンス: Link先を確認
Niclas Boehmer, Robert Bredereck, Andr\'e Nichterlein(参考訳) Littmann [Commun. ACM '21] の最近の報告は、学術的査定における衝突環の存在と致命的な影響を概説している。 本稿では,次のコルーションリングを使わずにレビュー課題を見つけることを目的とした問題サイクルフリーレビューについて紹介し,分析する。次のレビュー者が書いた論文をレビューする(第1の論文をレビューする最後のレビュアーと共に)レビューする一連のレビュー者が,各レビュー者が好意的なレビューを行うレビューサイクルを作成する。 結果として、このサイクルの全ての論文は、それぞれの科学的メリットから独立して受け入れられる確率が高い。 標準線形計画法を用いて計算されたレビュー割り当ては、一般的に多くの短いレビューサイクルを許容する。 否定的な面では、Cycle-Free Reviewingは、様々な制限されたケースにおいてNP-hardである(すなわち、すべての著者がすべての論文をレビューする資格があり、著者が互いの論文をレビューする権利がある場合、または、著者が1枚の論文しか持たず、少数の論文をレビューする資格がある場合)。 肯定的な面では、いくつかの現実的な設定では、小さな長さのレビューサイクルのない割当てが常に存在することを示す。 また、この結果により、サイクルレスレビューの割り当てを計算(重み付け)するための効率的なヒューリスティック(ヒューリスティック)がもたらされる。

A recent report of Littmann [Commun. ACM '21] outlines the existence and the fatal impact of collusion rings in academic peer reviewing. We introduce and analyze the problem Cycle-Free Reviewing that aims at finding a review assignment without the following kind of collusion ring: A sequence of reviewers each reviewing a paper authored by the next reviewer in the sequence (with the last reviewer reviewing a paper of the first), thus creating a review cycle where each reviewer gives favorable reviews. As a result, all papers in that cycle have a high chance of acceptance independent of their respective scientific merit. We observe that review assignments computed using a standard Linear Programming approach typically admit many short review cycles. On the negative side, we show that Cycle-Free Reviewing is NP-hard in various restricted cases (i.e., when every author is qualified to review all papers and one wants to prevent that authors review each other's or their own papers or when every author has only one paper and is only qualified to review few papers). On the positive side, among others, we show that, in some realistic settings, an assignment without any review cycles of small length always exists. This result also gives rise to an efficient heuristic for computing (weighted) cycle-free review assignments, which we show to be of excellent quality in practice.
翻訳日:2021-12-17 16:29:24 公開日:2021-12-14
# 自動車速度軌道の深部生成モデル

Deep Generative Models for Vehicle Speed Trajectories ( http://arxiv.org/abs/2112.08361v1 )

ライセンス: Link先を確認
Farnaz Behnia and Dominik Karbowski and Vadim Sokolov(参考訳) 現実的な車両速度軌跡の生成は、自動車の燃費の評価と自動運転車の予測制御において重要な要素である。 伝統的な生成モデルはマルコフ連鎖法に依存し、正確な合成軌道を生成することができるが、次元の呪いの対象となる。 それらは生成プロセスに条件付き入力変数を含めることを許さない。 本稿では, 深部生成モデルの拡張によって, 正確かつスケーラブルな生成が可能となることを示す。 提案されたアーキテクチャは、繰り返しおよびフィードフォワード層を含み、敵のテクニックを使って訓練される。 シカゴ大都市圏のGPSデータに基づいて訓練したモデルを用いて,車両軌跡生成に有効であることを示す。

Generating realistic vehicle speed trajectories is a crucial component in evaluating vehicle fuel economy and in predictive control of self-driving cars. Traditional generative models rely on Markov chain methods and can produce accurate synthetic trajectories but are subject to the curse of dimensionality. They do not allow to include conditional input variables into the generation process. In this paper, we show how extensions to deep generative models allow accurate and scalable generation. Proposed architectures involve recurrent and feed-forward layers and are trained using adversarial techniques. Our models are shown to perform well on generating vehicle trajectories using a model trained on GPS data from Chicago metropolitan area.
翻訳日:2021-12-17 16:27:19 公開日:2021-12-14
# 銀行・金融サービスにおける人工知能の説明に向けて

Towards Explainable Artificial Intelligence in Banking and Financial Services ( http://arxiv.org/abs/2112.08441v1 )

ライセンス: Link先を確認
Ambreen Hanif(参考訳) 人工知能(AI)は、機械が人間の経験から学び、新しい入力に適応し、人間のようなタスクを実行することを可能にする。 AIは急速に進歩し、プロセスの自動化からタスクの認知強化、インテリジェントなプロセス/データ分析に至るまで、ビジネスの運営方法を変えつつある。 しかしながら、人間のユーザにとっての大きな課題は、AIアルゴリズムとメソッドの結果を理解し、適切に信頼することだ。 本稿では,この課題に対処するために,xai(resolveable artificial intelligence)手法とツールを用いた最近の研究を考察し,分析する。 我々は,高レベルの学習性能を維持しつつ,説明可能なモデルの作成を容易にする新しいXAIプロセスを導入する。 我々は,AI対応アルゴリズムによる結果と成果の理解と信頼を支援するための,インタラクティブなエビデンスに基づくアプローチを提案する。 私たちは、顧客トランザクションを分析するために、バンキングドメインの典型的なシナリオを採用しています。 提案するXAI手法は,AI対応アルゴリズムの結果を理解する上で,データ科学者の信頼性を大幅に向上させることができるかについて議論する。

Artificial intelligence (AI) enables machines to learn from human experience, adjust to new inputs, and perform human-like tasks. AI is progressing rapidly and is transforming the way businesses operate, from process automation to cognitive augmentation of tasks and intelligent process/data analytics. However, the main challenge for human users would be to understand and appropriately trust the result of AI algorithms and methods. In this paper, to address this challenge, we study and analyze the recent work done in Explainable Artificial Intelligence (XAI) methods and tools. We introduce a novel XAI process, which facilitates producing explainable models while maintaining a high level of learning performance. We present an interactive evidence-based approach to assist human users in comprehending and trusting the results and output created by AI-enabled algorithms. We adopt a typical scenario in the Banking domain for analyzing customer transactions. We develop a digital dashboard to facilitate interacting with the algorithm results and discuss how the proposed XAI method can significantly improve the confidence of data scientists in understanding the result of AI-enabled algorithms.
翻訳日:2021-12-17 14:22:03 公開日:2021-12-14
# イベントアウェアマルチモーダルモビリティのnowcasting

Event-Aware Multimodal Mobility Nowcasting ( http://arxiv.org/abs/2112.08443v1 )

ライセンス: Link先を確認
Zhaonan Wang, Renhe Jiang, Hao Xue, Flora D. Salim, Xuan Song, Ryosuke Shibasaki(参考訳) モビリティ・アズ・ア・サービス(MaaS: Mobility-as-a-Servic e)の成功における決定的な部分として、社会イベントが正常性から逸脱したモビリティ行動を引き起こすシナリオを考えると、群衆運動の時空間予測モデリングは特に難しい課題である。 深層学習による高レベルの時空間正規性をモデル化するための大きな進歩はあったが、既存の手法のほとんどが複数のトランスポートモード間の動的相互作用や、潜在的な社会事象によってもたらされた前例のないボラティリティへの適応を意識していないわけではない。 そこで本稿では,(1)マルチモーダルモビリティにおける相互モダリティを明示的に表現する不均質モビリティ情報ネットワーク (hmin) の設計,(2)メモリ制御型動的フィルタジェネレータ (mdfg) の提案,様々なシナリオにおけるオンザフライ方式のシーケンス固有パラメータの生成,という2つの観点から,正準時空間ネットワーク (st-net) の改善を動機としている。 EAST-Netと呼ばれる拡張イベント対応時空間ネットワークは、多様な社会的事象をカバーした実世界のデータセットで評価される。 定量的・定性的な実験結果から,最先端のベースラインと比較し,本手法の優位性を検証した。 コードとデータはhttps://github.com/u nderdoc-wang/EAST-Ne tで公開されている。

As a decisive part in the success of Mobility-as-a-Servic e (MaaS), spatio-temporal predictive modeling for crowd movements is a challenging task particularly considering scenarios where societal events drive mobility behavior deviated from the normality. While tremendous progress has been made to model high-level spatio-temporal regularities with deep learning, most, if not all of the existing methods are neither aware of the dynamic interactions among multiple transport modes nor adaptive to unprecedented volatility brought by potential societal events. In this paper, we are therefore motivated to improve the canonical spatio-temporal network (ST-Net) from two perspectives: (1) design a heterogeneous mobility information network (HMIN) to explicitly represent intermodality in multimodal mobility; (2) propose a memory-augmented dynamic filter generator (MDFG) to generate sequence-specific parameters in an on-the-fly fashion for various scenarios. The enhanced event-aware spatio-temporal network, namely EAST-Net, is evaluated on several real-world datasets with a wide variety and coverage of societal events. Both quantitative and qualitative experimental results verify the superiority of our approach compared with the state-of-the-art baselines. Code and data are published on https://github.com/u nderdoc-wang/EAST-Ne t.
翻訳日:2021-12-17 14:21:44 公開日:2021-12-14
# 脳波感情認識のためのプログレッシブグラフ畳み込みネットワーク

Progressive Graph Convolution Network for EEG Emotion Recognition ( http://arxiv.org/abs/2112.09069v1 )

ライセンス: Link先を確認
Yijin Zhou, Fu Li, Yang Li, Youshuo Ji, Guangming Shi, Wenming Zheng, Lijian Zhang, Yuanfang Chen, Rui Cheng(参考訳) 神経科学の分野の研究により、感情パターンと脳機能領域の関係が明らかにされ、異なる脳領域間の動的関係が脳波によって決定される感情認識に必須な要因であることが示されている。 さらに,脳波による感情認識では,大きめの感情と小きめの感情の間には,同じ脳波データに基づいて,よりきめ細かな感情の間に明確な境界が存在することが分かる。 したがって、粗粒度カテゴリから細粒度カテゴリへの漸進的分類は脳波の感情認識に有用である。 そこで本研究では,脳波の感情信号に特有の特徴を捉え,差別的な脳波の特徴を段階的に学習するプログレッシブグラフ畳み込みネットワーク(PGCN)を提案する。 異なる脳波パターンを適合させるために,神経科学研究から得られた脳領域の動的機能的結合と静的空間的近接情報を含む,異なる脳波チャネル間の内在的関係を特徴付けるデュアルグラフモジュールを構築した。 さらに、粗い感情と細粒度の感情の関係を観察することによる動機付けにより、PGCNはより差別的な脳波の特徴を、より粗い(簡単)から細粒度のカテゴリー(微分)まで、段階的に学習できるデュアルヘッドモジュールを採用した。 本モデルの有効性を検証するため,SEED-IVとMPED(Multi-modal physiological emotion database)の2つの公開データセットを用いて実験を行った。

Studies in the area of neuroscience have revealed the relationship between emotional patterns and brain functional regions, demonstrating that dynamic relationships between different brain regions are an essential factor affecting emotion recognition determined through electroencephalograp hy (EEG). Moreover, in EEG emotion recognition, we can observe that clearer boundaries exist between coarse-grained emotions than those between fine-grained emotions, based on the same EEG data; this indicates the concurrence of large coarse- and small fine-grained emotion variations. Thus, the progressive classification process from coarse- to fine-grained categories may be helpful for EEG emotion recognition. Consequently, in this study, we propose a progressive graph convolution network (PGCN) for capturing this inherent characteristic in EEG emotional signals and progressively learning the discriminative EEG features. To fit different EEG patterns, we constructed a dual-graph module to characterize the intrinsic relationship between different EEG channels, containing the dynamic functional connections and static spatial proximity information of brain regions from neuroscience research. Moreover, motivated by the observation of the relationship between coarse- and fine-grained emotions, we adopt a dual-head module that enables the PGCN to progressively learn more discriminative EEG features, from coarse-grained (easy) to fine-grained categories (difficult), referring to the hierarchical characteristic of emotion. To verify the performance of our model, extensive experiments were conducted on two public datasets: SEED-IV and multi-modal physiological emotion database (MPED).
翻訳日:2021-12-17 13:42:40 公開日:2021-12-14
# (参考訳) スーパービジョンなしでパスを検索する学習 [全文訳有]

Learning to Retrieve Passages without Supervision ( http://arxiv.org/abs/2112.07708v1 )

ライセンス: CC0 1.0
Ori Ram, Gal Shachaf, Omer Levy, Jonathan Berant, Amir Globerson(参考訳) オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。 密集したレトリバーを自己教師方式で学習できるか検討し,アノテーションを使わずに効果的に適用できるか検討した。 本稿では,このシナリオにおける既存の事前学習モデルについて考察し,検索のための新たな事前学習手法を提案する。 コントラスト学習のための擬似例を作成するために、文書内の通路にまたがる繰り返しスパンを使用します。 その結果得られたモデルであるSpiderは、幅広いODQAデータセットのサンプルなしで驚くほどよく動作し、強力なスパースベースラインであるBM25と競合する。 さらに、スパイダーは、他のデータセットからの質問に対して評価すると、自然質問で訓練されたDPRのような強いベースラインを上回ることがしばしばある。 spiderとbm25を組み合わせたハイブリッドレトリバーは、すべてのデータセットのコンポーネントを改良し、数万の例でトレーニングされるドメイン内dprモデルと競合することが多い。

Dense retrievers for open-domain question answering (ODQA) have been shown to achieve impressive performance by training on large datasets of question-passage pairs. We investigate whether dense retrievers can be learned in a self-supervised fashion, and applied effectively without any annotations. We observe that existing pretrained models for retrieval struggle in this scenario, and propose a new pretraining scheme designed for retrieval: recurring span retrieval. We use recurring spans across passages in a document to create pseudo examples for contrastive learning. The resulting model -- Spider -- performs surprisingly well without any examples on a wide range of ODQA datasets, and is competitive with BM25, a strong sparse baseline. In addition, Spider often outperforms strong baselines like DPR trained on Natural Questions, when evaluated on questions from other datasets. Our hybrid retriever, which combines Spider with BM25, improves over its components across all datasets, and is often competitive with in-domain DPR models, which are trained on tens of thousands of examples.
翻訳日:2021-12-17 07:34:17 公開日:2021-12-14
# (参考訳) 推論の表現とその語彙化 [全文訳有]

Representing Inferences and their Lexicalization ( http://arxiv.org/abs/2112.07711v1 )

ライセンス: CC BY 4.0
David McDonald, James Pustejovsky(参考訳) 我々は最近、背景知識から推論をマーシャリングして深い自然言語理解を促進する、より効率的で効率的な方法を開発するプロジェクトを開始した。 単語の意味は、それが進行中の状況に付加する実体、述語、前提、潜在的な推論であると考えられている。 単語を構成するとき、状況の最小限のモデルは、制限と直接推論へと進化する。 この時点で我々は計算アーキテクチャを開発し、実際のテキスト上に実装した。 私たちの焦点は、設計の実現可能性を証明することです。

We have recently begun a project to develop a more effective and efficient way to marshal inferences from background knowledge to facilitate deep natural language understanding. The meaning of a word is taken to be the entities, predications, presuppositions, and potential inferences that it adds to an ongoing situation. As words compose, the minimal model in the situation evolves to limit and direct inference. At this point we have developed our computational architecture and implemented it on real text. Our focus has been on proving the feasibility of our design.
翻訳日:2021-12-17 07:14:14 公開日:2021-12-14
# (参考訳) Scatterbrained: 分散機械学習のためのフレキシブルで拡張可能なパターン [全文訳有]

Scatterbrained: A flexible and expandable pattern for decentralized machine learning ( http://arxiv.org/abs/2112.07718v1 )

ライセンス: CC BY 4.0
Miller Wilt, Jordan K. Matelsky, Andrew S. Gearhart(参考訳) フェデレーション機械学習は、複数のデバイス間でデータを交換することなくモデルをトレーニングするテクニックである。 データは各計算ノードにローカルに保持されるため、フェデレーション学習は、医学などのデータの注意深く制御された分野や帯域制限のある領域のユースケースに適している。 このアプローチの弱点のひとつは、ほとんどのフェデレーション学習ツールが中央サーバに依存して、ワークロードのデリゲーションを実行し、単一の共有モデルを生成することだ。 本稿では,連合学習パターンを分散化するための柔軟なフレームワークを提案し,pytorchと互換性のあるオープンソースリファレンス実装を提供する。

Federated machine learning is a technique for training a model across multiple devices without exchanging data between them. Because data remains local to each compute node, federated learning is well-suited for use-cases in fields where data is carefully controlled, such as medicine, or in domains with bandwidth constraints. One weakness of this approach is that most federated learning tools rely upon a central server to perform workload delegation and to produce a single shared model. Here, we suggest a flexible framework for decentralizing the federated learning pattern, and provide an open-source, reference implementation compatible with PyTorch.
翻訳日:2021-12-17 06:55:41 公開日:2021-12-14
# (参考訳) 同時位置推定とマッピングによる自律ナビゲーションシステム [全文訳有]

Autonomous Navigation System from Simultaneous Localization and Mapping ( http://arxiv.org/abs/2112.07723v1 )

ライセンス: CC BY 4.0
Micheal Caracciolo, Owen Casciotti, Christopher Lloyd, Ernesto Sola-Thomas, Matthew Weaver, Kyle Bielby, Md Abdul Baset Sarker, Masudul H. Imtiaz(参考訳) 本稿では,SLAMに基づく自律ナビゲーションシステムの開発について述べる。 この研究の動機は、内部空間を自律的にナビゲートする解決策を見つけることである。 内部ナビゲーションは、永遠に進化する可能性があるため、難しい。 この問題を解決するためには、クリーニング、健康産業、製造業など多岐にわたるサービスが必要である。 本稿では,この自律システムのために開発されたSLAMベースのソフトウェアアーキテクチャについて述べる。 スマート車椅子を指向したシステムの適用可能性を評価した。 現在のインテリアナビゲーションソリューションは、床の黒い線のような、ある種の誘導線を必要とする。 この解決策が提案されているため、内装はこの解決策に対応するために改修を必要としない。 このアプリケーションのソースコードはオープンソースにされており、同様のアプリケーション用に再利用することができる。 また、このオープンソースプロジェクトは、現在の状態を越えて、幅広いオープンソースコミュニティによって改善される予定である。

This paper presents the development of a Simultaneous Localization and Mapping (SLAM) based Autonomous Navigation system. The motivation for this study was to find a solution for navigating interior spaces autonomously. Interior navigation is challenging as it can be forever evolving. Solving this issue is necessary for multitude of services, like cleaning, the health industry, and in manufacturing industries. The focus of this paper is the description of the SLAM-based software architecture developed for this proposed autonomous system. A potential application of this system, oriented to a smart wheelchair, was evaluated. Current interior navigation solutions require some sort of guiding line, like a black line on the floor. With this proposed solution, interiors do not require renovation to accommodate this solution. The source code of this application has been made open source so that it could be re-purposed for a similar application. Also, this open-source project is envisioned to be improved by the broad open-source community upon past its current state.
翻訳日:2021-12-17 06:49:23 公開日:2021-12-14
# (参考訳) メールを人間vsマシンカテゴリに分類する [全文訳有]

Classifying Emails into Human vs Machine Category ( http://arxiv.org/abs/2112.07742v1 )

ライセンス: CC BY 4.0
Changsung Kang, Hongwei Shang, Jean-Marc Langlois(参考訳) Yahoo Mailは個人メールと機械メールを区別するために必須の製品である。 Yahoo Mailの古いプロダクション分類器は単純なロジスティック回帰モデルに基づいていた。 このモデルはSMTPアドレスレベルでのアグリゲーション機能によって訓練された。 メッセージレベルでのディープラーニングモデルの構築を提案する。 我々は,(1)対象と内容を入力とするコンテンツモデル,(2)送信者のメールアドレスと名前を入力とする送信者モデル,(3)受信者の行動パターンを解析し,送信者の開閉・削除行動に基づいてターゲットラベルを生成するアクションモデル,(4)送信者の「明示的敬礼」信号を正のラベルとして利用した敬礼モデル,の4つの個別CNNモデルを構築・訓練した。 次に、上記の4つのモデルの異なる組み合わせを探索した後、最終モデルを構築しました。 編集データを用いた実験の結果,本モデルでは,本モデルと比較して調整リコールを70.5%から78.8%に改善するとともに,精度を94.7%から96.0%に向上させた。 私たちのフルモデルは、このタスクにおける最先端のBertモデルを大きく上回っています。 このフルモデルは現在のプロダクションシステム(yahoo mail 6)にデプロイされている。

It is an essential product requirement of Yahoo Mail to distinguish between personal and machine-generated emails. The old production classifier in Yahoo Mail was based on a simple logistic regression model. That model was trained by aggregating features at the SMTP address level. We propose building deep learning models at the message level. We built and trained four individual CNN models: (1) a content model with subject and content as input; (2) a sender model with sender email address and name as input; (3) an action model by analyzing email recipients' action patterns and correspondingly generating target labels based on senders' opening/deleting behaviors; (4) a salutation model by utilizing senders' "explicit salutation" signal as positive labels. Next, we built a final full model after exploring different combinations of the above four models. Experimental results on editorial data show that our full model improves the adjusted-recall from 70.5% to 78.8% compared to the old production model, while at the same time lifts the precision from 94.7% to 96.0%. Our full model also significantly beats the state-of-the-art Bert model at this task. This full model has been deployed into the current production system (Yahoo Mail 6).
翻訳日:2021-12-17 06:41:50 公開日:2021-12-14
# (参考訳) 予測自動符号化による環境状態追跡学習 [全文訳有]

Learning to track environment state via predictive autoencoding ( http://arxiv.org/abs/2112.07745v1 )

ライセンス: CC BY 4.0
Marian Andrecki, Nicholas K. Taylor(参考訳) 本稿では,確率環境の前方モデル学習のためのニューラルアーキテクチャを提案する。 タスクは、画像の形で時間的非構造化観察から学習することによってのみ達成される。 トレーニングが完了すると、モデルはノイズの有無や間欠的に到着する新しいパーセプションによって環境状態を追跡することができる。 さらに、状態推定は観察盲検モードで伝播し、長期的な予測を可能にする。 ネットワークは将来の観測から期待値と信念分布からのサンプルの両方を出力できる。 結果として得られる機能は、パーティクルフィルタ(PF)と似ている。 アーキテクチャは、オブジェクトの動きをシミュレートする環境で評価されます。 フォワードモデルとセンサモデルが利用可能になると、データから学習したモデルの品質を測定するpfを実装します。

This work introduces a neural architecture for learning forward models of stochastic environments. The task is achieved solely through learning from temporal unstructured observations in the form of images. Once trained, the model allows for tracking of the environment state in the presence of noise or with new percepts arriving intermittently. Additionally, the state estimate can be propagated in observation-blind mode, thus allowing for long-term predictions. The network can output both expectation over future observations and samples from belief distribution. The resulting functionalities are similar to those of a Particle Filter (PF). The architecture is evaluated in an environment where we simulate objects moving. As the forward and sensor models are available, we implement a PF to gauge the quality of the models learnt from the data.
翻訳日:2021-12-17 06:26:13 公開日:2021-12-14
# (参考訳) モンテカルロ木探索のための分割移動 [全文訳有]

Split Moves for Monte-Carlo Tree Search ( http://arxiv.org/abs/2112.07761v1 )

ライセンス: CC BY 4.0
Jakub Kowalski, Maksymilian Mika, Wojciech Pawlik, Jakub Sutowicz, Marek Szyku{\l}a, Mark H. M. Winands(参考訳) 多くのゲームでは、プレイヤーがいくつかの決定を下す。 これらの決定は別個の動きと見なすことができ、効率上の理由から、すでにマルチアクションゲームでは一般的である。 プレイヤーのそのような分割は、より単純で低いレベルの動きの列に移動することを \emph{splitting} と呼ぶ。 これまでのところ, 分割動作は, 正解例のみに適用されており, さらに, エージェントの演奏力に対する影響を明らかにする研究はほとんどなかった。 ナレッジフリーの観点から,モンテカルロ木探索(mcts)におけるスプリット移動の有効利用法と,エージェントの強度に対するスプリット設計の実際的影響について考察する。 本稿では,任意の分割動作で動作するMCTSの一般化を提案する。 アルゴリズムのバリエーションをいくつか設計し、分割動作が効率、mctの品質、シミュレーション、およびアクションベースのヒューリスティックスに与える影響を別々に測定する。 テストは一連のボードゲーム上で実施され、通常のボードゲーム一般ゲームプレイングフォーマリズムを用いて実行され、ゲームの抽象的な記述に基づいて、異なる粒度の分割戦略を自動的に引き出すことができる。 その結果, スプリットデザインを用いたエージェントの挙動を, 異なる方法で概観した。 分割設計はシングルアクションゲームやマルチアクションゲームにおいて非常に有益である。

In many games, moves consist of several decisions made by the player. These decisions can be viewed as separate moves, which is already a common practice in multi-action games for efficiency reasons. Such division of a player move into a sequence of simpler / lower level moves is called \emph{splitting}. So far, split moves have been applied only in forementioned straightforward cases, and furthermore, there was almost no study revealing its impact on agents' playing strength. Taking the knowledge-free perspective, we aim to answer how to effectively use split moves within Monte-Carlo Tree Search (MCTS) and what is the practical impact of split design on agents' strength. This paper proposes a generalization of MCTS that works with arbitrarily split moves. We design several variations of the algorithm and try to measure the impact of split moves separately on efficiency, quality of MCTS, simulations, and action-based heuristics. The tests are carried out on a set of board games and performed using the Regular Boardgames General Game Playing formalism, where split strategies of different granularity can be automatically derived based on an abstract description of the game. The results give an overview of the behavior of agents using split design in different ways. We conclude that split design can be greatly beneficial for single- as well as multi-action games.
翻訳日:2021-12-17 06:14:23 公開日:2021-12-14
# (参考訳) Boosted Dense Retriever [全文訳有]

Boosted Dense Retriever ( http://arxiv.org/abs/2112.07771v1 )

ライセンス: CC BY 4.0
Patrick Lewis, Barlas O\u{g}uz, Wenhan Xiong, Fabio Petroni, Wen-tau Yih, Sebastian Riedel(参考訳) 本稿では,強化にインスパイアされた高密度検索アンサンブルDrBoostを提案する。 drboostは段階的にトレーニングされ、各コンポーネントモデルは順次学習され、現在のアンサンブルによる検索ミスのみに焦点を当てて専門化される。 最後の表現は、すべてのコンポーネントモデルの出力ベクトルの連結であり、テスト時に標準の高密度レトリバーをドロップインで置き換えるものである。 DrBoostは、標準的な高密度検索モデルと比較していくつかの利点がある。 4倍のコンパクトな表現を生成し、同等の検索結果を提供する。 また、粗い量子化による近似探索でも驚くほどよく動作し、レイテンシと帯域幅を4倍削減できる。 実際には、ディスクからのインデックス提供とメモリからのインデックス提供の違いを解消し、はるかに安価なデプロイメントを実現することができる。

We propose DrBoost, a dense retrieval ensemble inspired by boosting. DrBoost is trained in stages: each component model is learned sequentially and specialized by focusing only on retrieval mistakes made by the current ensemble. The final representation is the concatenation of the output vectors of all the component models, making it a drop-in replacement for standard dense retrievers at test time. DrBoost enjoys several advantages compared to standard dense retrieval models. It produces representations which are 4x more compact, while delivering comparable retrieval results. It also performs surprisingly well under approximate search with coarse quantization, reducing latency and bandwidth needs by another 4x. In practice, this can make the difference between serving indices from disk versus from memory, paving the way for much cheaper deployments.
翻訳日:2021-12-17 05:29:40 公開日:2021-12-14
# (参考訳) ブール質問に対する回答には説明が必要であるか? はい [全文訳有]

Do Answers to Boolean Questions Need Explanations? Yes ( http://arxiv.org/abs/2112.07772v1 )

ライセンス: CC BY 4.0
Sara Rosenthal, Mihaela Bornea, Avirup Sil, Radu Florian, Scott McCarley(参考訳) BoolQやTYDI QAといったブール質問を含む既存のデータセットは、質問に対するYES/NO応答をユーザに提供します。 しかし、1ワードの応答は説明可能なシステムでは不十分である。 既存のTyDi QAおよびBoolQデータセットのエビデンスを示す新しいアノテーションセットを公開することによって、説明可能性を促進する。 既存のリソースに依存するモデルと比較して、改良されたエビデンスススススパンを抽出するモデルをトレーニングするために、アノテーションが使用できることを示します。 抽出したエビデンスがユーザエクスペリエンスの向上に寄与することを示すユーザスタディで,この知見を確認した。 また、矛盾するYESとNOの回答を含む通路や、予測された証拠の様々な関連性など、ブール問題の解答に関するさらなる知見を提供する。

Existing datasets that contain boolean questions, such as BoolQ and TYDI QA , provide the user with a YES/NO response to the question. However, a one word response is not sufficient for an explainable system. We promote explainability by releasing a new set of annotations marking the evidence in existing TyDi QA and BoolQ datasets. We show that our annotations can be used to train a model that extracts improved evidence spans compared to models that rely on existing resources. We confirm our findings with a user study which shows that our extracted evidence spans enhance the user experience. We also provide further insight into the challenges of answering boolean questions, such as passages containing conflicting YES and NO answers, and varying degrees of relevance of the predicted evidence.
翻訳日:2021-12-17 05:05:56 公開日:2021-12-14
# (参考訳) AIの信頼性開発におけるギャップを埋める [全文訳有]

Filling gaps in trustworthy development of AI ( http://arxiv.org/abs/2112.07773v1 )

ライセンス: CC BY 4.0
Shahar Avin, Haydn Belfield, Miles Brundage, Gretchen Krueger, Jasmine Wang, Adrian Weller, Markus Anderljung, Igor Krawczuk, David Krueger, Jonathan Lebensold, Tegan Maharaj, Noa Zilberman(参考訳) 人工知能(ai)の応用範囲は広範であり、害の可能性を秘めている。 aiシステムからの潜在的なリスクに対する認識が高まり、これらのリスクに対処するための行動が促進され、aiシステムとその開発組織に対する信頼が損なわれた。 2019年の調査によると、80以上の組織が"AI倫理原則"を公開、採用し、それ以来さらに参加している。しかし、原則はしばしば、信頼できるAI開発の"何"と"方法"のギャップを埋めている。 このようなギャップは疑わしい、あるいは倫理的に疑わしい行動を可能にし、特定の組織や分野の信頼性に疑問を投げかけている。 したがって、AI開発者が害を防ぎ、検証可能な行動を通じて信頼性を示すことができる具体的な方法が緊急に必要となる。 以下は、AI開発者が信頼を得られるエコシステムを作るためのメカニズム(arXiv:2004.07213)を探求する。 開発者の信頼度に対するより良い評価は、ユーザの選択、従業員の行動、投資決定、法的合意、そして新たなガバナンス体制に影響を与えうる。

The range of application of artificial intelligence (AI) is vast, as is the potential for harm. Growing awareness of potential risks from AI systems has spurred action to address those risks, while eroding confidence in AI systems and the organizations that develop them. A 2019 study found over 80 organizations that published and adopted "AI ethics principles'', and more have joined since. But the principles often leave a gap between the "what" and the "how" of trustworthy AI development. Such gaps have enabled questionable or ethically dubious behavior, which casts doubts on the trustworthiness of specific organizations, and the field more broadly. There is thus an urgent need for concrete methods that both enable AI developers to prevent harm and allow them to demonstrate their trustworthiness through verifiable behavior. Below, we explore mechanisms (drawn from arXiv:2004.07213) for creating an ecosystem where AI developers can earn trust - if they are trustworthy. Better assessment of developer trustworthiness could inform user choice, employee actions, investment decisions, legal recourse, and emerging governance regimes.
翻訳日:2021-12-17 04:50:07 公開日:2021-12-14
# (参考訳) 強化学習アルゴリズムに基づく連続学習予測エージェントを用いたバーチャルリアリティにおけるヒューマンインタラクションの評価 : パイロット研究 [全文訳有]

Assessing Human Interaction in Virtual Reality With Continually Learning Prediction Agents Based on Reinforcement Learning Algorithms: A Pilot Study ( http://arxiv.org/abs/2112.07774v1 )

ライセンス: CC BY 4.0
Dylan J. A. Brenneis, Adam S. Parker, Michael Bradley Johanson, Andrew Butcher, Elnaz Davoodi, Leslie Acker, Matthew M. Botvinick, Joseph Modayil, Adam White, Patrick M. Pilarski(参考訳) 人工知能システムは、システムトレーニング中に遭遇しない一般的な状況で柔軟性を実現するために、継続学習をますます含んでいる。 自律システムとのヒューマンインタラクションは広く研究されているが、システムはアクティブな学習中に発生し、数分で顕著に振る舞いを変えることができる。 本研究では,人間と学習の継続する予測エージェントの相互作用が,エージェントの能力向上にどう影響するかを検討する。 さらに,エージェント設計における表現的選択がエージェント間の相互作用に与える影響を評価するために,二つの異なるエージェントアーキテクチャを比較した。 強化学習(rl)アルゴリズムによる学習予測が人間の予測を補強する仮想現実環境と時間に基づく予測タスクを開発した。 この課題における参加者のパフォーマンスと行動が,定量的および質的分析の両方を用いて,エージェントの種類によってどのように異なるかを評価する。 以上の結果から,システムに対する人間的信頼はエージェントとの早期の相互作用に影響され,その信頼が戦略行動に影響を及ぼすことが示唆された。 我々は,RLに基づく技術を考える際に,信頼を重視すべきインタラクションの鍵となる特徴として認識し,大規模調査の準備として,本研究への修正を推奨する。 この論文のビデオ要約は、https://youtu.be/ovy jdnbqtwqで見ることができる。

Artificial intelligence systems increasingly involve continual learning to enable flexibility in general situations that are not encountered during system training. Human interaction with autonomous systems is broadly studied, but research has hitherto under-explored interactions that occur while the system is actively learning, and can noticeably change its behaviour in minutes. In this pilot study, we investigate how the interaction between a human and a continually learning prediction agent develops as the agent develops competency. Additionally, we compare two different agent architectures to assess how representational choices in agent design affect the human-agent interaction. We develop a virtual reality environment and a time-based prediction task wherein learned predictions from a reinforcement learning (RL) algorithm augment human predictions. We assess how a participant's performance and behaviour in this task differs across agent types, using both quantitative and qualitative analyses. Our findings suggest that human trust of the system may be influenced by early interactions with the agent, and that trust in turn affects strategic behaviour, but limitations of the pilot study rule out any conclusive statement. We identify trust as a key feature of interaction to focus on when considering RL-based technologies, and make several recommendations for modification to this study in preparation for a larger-scale investigation. A video summary of this paper can be found at https://youtu.be/oVY JdnBqTwQ .
翻訳日:2021-12-17 04:43:18 公開日:2021-12-14
# (参考訳) AMRパーシングのための最大ベイズスマッチ蒸留法 [全文訳有]

Maximum Bayes Smatch Ensemble Distillation for AMR Parsing ( http://arxiv.org/abs/2112.07790v1 )

ライセンス: CC BY-SA 4.0
Young-Suk Lee, Ramon Fernandez Astudillo, Thanh Lam Hoang, Tahira Naseem, Radu Florian, Salim Roukos(参考訳) AMR解析は、アーキテクチャの改善とトランスファーラーニングを含むさまざまな効果により、過去3年間に予期せぬパフォーマンス向上を経験した。 自己学習のテクニックは、パフォーマンスを前進させる上でも重要な役割を果たしています。 しかし、最近の高性能パーサーでは、自己学習と銀データ生成の効果は薄れつつあるようである。 本稿では,スマッチ型センシング技術とアンサンブル蒸留法を組み合わせることで,銀の回収率の低下を克服できることを示す。 広範にわたる実験的なセットアップでは、シングルモデル英語パーサの性能を初めて85 Smatchを超え、実質的なゲインに戻す。 また、中国語、ドイツ語、イタリア語、スペイン語の言語間AMR解析のための新しい最先端技術も獲得した。 最後に,提案した蒸留技術がドメイン適応に与える影響について検討し,QALD-9のヒト注釈データに匹敵する利得を得られることを示すとともに,バイオAMRの新たな最先端技術を実現する。

AMR parsing has experienced an unprecendented increase in performance in the last three years, due to a mixture of effects including architecture improvements and transfer learning. Self-learning techniques have also played a role in pushing performance forward. However, for most recent high performant parsers, the effect of self-learning and silver data generation seems to be fading. In this paper we show that it is possible to overcome this diminishing returns of silver data by combining Smatch-based ensembling techniques with ensemble distillation. In an extensive experimental setup, we push single model English parser performance above 85 Smatch for the first time and return to substantial gains. We also attain a new state-of-the-art for cross-lingual AMR parsing for Chinese, German, Italian and Spanish. Finally we explore the impact of the proposed distillation technique on domain adaptation, and show that it can produce gains rivaling those of human annotated data for QALD-9 and achieve a new state-of-the-art for BioAMR.
翻訳日:2021-12-17 04:30:54 公開日:2021-12-14
# 多様体の機械学習

Machine learning a manifold ( http://arxiv.org/abs/2112.07673v1 )

ライセンス: Link先を確認
Sean Craven, Djuna Croon, Daniel Cutting, Rachel Houtz(参考訳) 本稿では,ニューラルネットワークを用いた回帰によるデータセット内の連続リー代数対称性の簡易同定法を提案する。 我々の提案は、入力変数上の無限小対称性変換の下で出力変数を$ \mathcal{O}(\epsilon^2)$スケーリングする。 対称性変換が後トレーニングで生成されるため、この手法は完全な表現空間のサンプリングやデータセットの結合に頼らず、誤識別の可能性を最小限に抑える。 我々は SU(3)-対称(非)線型 $\Sigma$ モデルで本手法を実証する。

We propose a simple method to identify a continuous Lie algebra symmetry in a dataset through regression by an artificial neural network. Our proposal takes advantage of the $ \mathcal{O}(\epsilon^2)$ scaling of the output variable under infinitesimal symmetry transformations on the input variables. As symmetry transformations are generated post-training, the methodology does not rely on sampling of the full representation space or binning of the dataset, and the possibility of false identification is minimised. We demonstrate our method in the SU(3)-symmetric (non-) linear $\Sigma$ model.
翻訳日:2021-12-16 17:27:58 公開日:2021-12-14
# 言語モデルと弱教師付き学習による抗体親和性成熟の解読

Deciphering antibody affinity maturation with language models and weakly supervised learning ( http://arxiv.org/abs/2112.07782v1 )

ライセンス: Link先を確認
Jeffrey A. Ruffolo, Jeffrey J. Gray, Jeremias Sulam(参考訳) 病原体に対する反応として、適応免疫系は異種抗原を結合および中和する特定の抗体を産生する。 個人の免疫レパートリーの組成を理解することは、この過程に関する洞察を与え、潜在的な治療抗体を明らかにすることができる。 本研究では,抗体特異的言語モデルを用いて免疫レパートリーの理解を支援する。 558mの自然抗体配列で訓練された言語モデルであるantibertyを紹介する。 repertoiresでは、モデルが抗体をアフィニティ成熟に似た形容詞にまとめていることが分かりました。 重要なのは、複数のインスタンス学習フレームワークの下で高度に冗長なシーケンスを予測するようにトレーニングされたモデルが、プロセス内の重要なバインディング残基を識別できることである。 さらなる発展により、ここで提示された手法は、レパートリー配列のみから抗原結合に関する新たな洞察を提供する。

In response to pathogens, the adaptive immune system generates specific antibodies that bind and neutralize foreign antigens. Understanding the composition of an individual's immune repertoire can provide insights into this process and reveal potential therapeutic antibodies. In this work, we explore the application of antibody-specific language models to aid understanding of immune repertoires. We introduce AntiBERTy, a language model trained on 558M natural antibody sequences. We find that within repertoires, our model clusters antibodies into trajectories resembling affinity maturation. Importantly, we show that models trained to predict highly redundant sequences under a multiple instance learning framework identify key binding residues in the process. With further development, the methods presented here will provide new insights into antigen binding from repertoire sequences alone.
翻訳日:2021-12-16 17:27:50 公開日:2021-12-14
# 励起の持続性のない非線形離散時間系の同定:有限時間同時学習

Nonlinear Discrete-time Systems' Identification without Persistence of Excitation: A Finite-time Concurrent Learning ( http://arxiv.org/abs/2112.07765v1 )

ライセンス: Link先を確認
Farzaneh Tatari, Chiristos Panayiotou, Marios Polycarpou(参考訳) 本稿では、励起の持続性を必要としない未知の離散時間非線形系の力学に対する有限時間学習の問題を扱う。 励起条件の持続性に比べて制約が少ない記録データのリッチ性に対して、簡易なランク付け条件を満たす記録経験データとともに、電流データを用いて、オンライン方式で離散時間非線形システムの不確かさを近似する有限時間同時学習手法を提案する。 厳密な証明は、離散時間リアプノフ解析に基づく推定パラメータの最適値への有限時間収束を保証する。 従来の文献と比較すると,提案手法が不確かさをタイムリーかつ正確に近似できることを示すシミュレーション結果が得られた。

This paper deals with the problem of finite-time learning for unknown discrete-time nonlinear systems' dynamics, without the requirement of the persistence of excitation. A finite-time concurrent learning approach is presented to approximate the uncertainties of the discrete-time nonlinear systems in an on-line fashion by employing current data along with recorded experienced data satisfying an easy-to-check rank condition on the richness of the recorded data which is less restrictive in comparison with persistence of excitation condition. Rigorous proofs guarantee the finite-time convergence of the estimated parameters to their optimal values based on a discrete-time Lyapunov analysis. Compared with the existing work in the literature, simulation results illustrate that the proposed method can timely and precisely approximate the uncertainties.
翻訳日:2021-12-16 17:25:37 公開日:2021-12-14
# エゴセントリックから見た3次元物体検出の再検討

Revisiting 3D Object Detection From an Egocentric Perspective ( http://arxiv.org/abs/2112.07787v1 )

ライセンス: Link先を確認
Boyang Deng, Charles R. Qi, Mahyar Najibi, Thomas Funkhouser, Yin Zhou, Dragomir Anguelov(参考訳) 3dオブジェクト検出は、自動運転のような安全クリティカルなロボティクスアプリケーションにとって重要なモジュールである。 これらのアプリケーションでは、検出がエゴエージェントの行動と安全性(エゴ中心的な視点)にどのように影響するかを最も注意する。 直感的には、エゴエージェントの動き軌道に干渉しやすい場合、オブジェクトの幾何学をより正確な記述を求める。 しかしながら、IoU(box Intersection-over-Un ion)に基づく現在の検出メトリクスは、オブジェクト中心であり、オブジェクトとエゴエージェント間の時空間的関係をキャプチャするために設計されていない。 この問題に対処するために,我々は3次元オブジェクト検出,すなわちSDE(Support Distance Error)を評価するための新しいエゴセントリック尺度を提案する。 SDEに基づく解析により,エゴセントリックな検出品質は,境界ボックスの粗い形状によって境界づけられていることが判明した。 SDEがより正確な幾何学的記述の恩恵を受けるという知見を踏まえ、対象をアモーダルな輪郭、特にアモーダルな星形多角形として表現し、そのような輪郭を予測するための単純なモデルStarPolyを考案することを提案する。 大規模なWaymo Open Dataset実験により、SDEは、IoUと比較して、エゴエージェントの安全性に対する検出品質の影響をよりよく反映し、StarPolyの推定した輪郭は、最近の3Dオブジェクト検出器よりもエゴセントリックな検出品質を一貫して改善していることがわかった。

3D object detection is a key module for safety-critical robotics applications such as autonomous driving. For these applications, we care most about how the detections affect the ego-agent's behavior and safety (the egocentric perspective). Intuitively, we seek more accurate descriptions of object geometry when it's more likely to interfere with the ego-agent's motion trajectory. However, current detection metrics, based on box Intersection-over-Un ion (IoU), are object-centric and aren't designed to capture the spatio-temporal relationship between objects and the ego-agent. To address this issue, we propose a new egocentric measure to evaluate 3D object detection, namely Support Distance Error (SDE). Our analysis based on SDE reveals that the egocentric detection quality is bounded by the coarse geometry of the bounding boxes. Given the insight that SDE would benefit from more accurate geometry descriptions, we propose to represent objects as amodal contours, specifically amodal star-shaped polygons, and devise a simple model, StarPoly, to predict such contours. Our experiments on the large-scale Waymo Open Dataset show that SDE better reflects the impact of detection quality on the ego-agent's safety compared to IoU; and the estimated contours from StarPoly consistently improve the egocentric detection quality over recent 3D object detectors.
翻訳日:2021-12-16 16:49:55 公開日:2021-12-14
# モデルベース安全強化学習のための保守的・適応的ペナルティ

Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning ( http://arxiv.org/abs/2112.07701v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, Andrew Shen, Osbert Bastani, Dinesh Jayaraman(参考訳) 実世界の強化学習(RL)エージェントは、報酬目標の最大化に加えて、安全上の制約を満たす必要がある。 モデルベースのRLアルゴリズムは、安全でない現実世界のアクションを減らすことを約束する:学習モデルからシミュレーションされたサンプルを使用して、すべての制約に従うポリシーを合成する。 しかしながら、不完全なモデルは、全ての制約を満たすと予測されるアクションに対してさえ、現実世界の制約違反をもたらす可能性がある。 本稿では,モデル不確実性を捕捉し,報酬とコスト目標のバランスをとるために適応的に利用するモデルベース安全なRLフレームワークである,保守的かつ適応的な罰則(CAP)を提案する。 まずcapは不確実性に基づくペナルティを用いて予測コストを膨らませる。 理論的には、この保守的なコスト制約を満たす政策は、真の環境でも実現可能であることが保証されている。 さらに、RLトレーニング中の全ての中間解の安全性が保証されることを示す。 さらにCAPは、環境からの真のコストフィードバックを使用して、トレーニング中にこのペナルティを適応的に調整する。 我々は,モデルベースのsafe rlに対する保存的かつ適応的なペナルティに基づくアプローチを,状態および画像ベースの環境に広く評価する。 その結果,従来の安全なrlアルゴリズムよりも少ない違反を伴いながら,サンプル効率が大幅に向上した。 コードは、https://github.com/R edrew/CAPで入手できる。

Reinforcement Learning (RL) agents in the real world must satisfy safety constraints in addition to maximizing a reward objective. Model-based RL algorithms hold promise for reducing unsafe real-world actions: they may synthesize policies that obey all constraints using simulated samples from a learned model. However, imperfect models can result in real-world constraint violations even for actions that are predicted to satisfy all constraints. We propose Conservative and Adaptive Penalty (CAP), a model-based safe RL framework that accounts for potential modeling errors by capturing model uncertainty and adaptively exploiting it to balance the reward and the cost objectives. First, CAP inflates predicted costs using an uncertainty-based penalty. Theoretically, we show that policies that satisfy this conservative cost constraint are guaranteed to also be feasible in the true environment. We further show that this guarantees the safety of all intermediate solutions during RL training. Further, CAP adaptively tunes this penalty during training using true cost feedback from the environment. We evaluate this conservative and adaptive penalty-based approach for model-based safe RL extensively on state and image-based environments. Our results demonstrate substantial gains in sample-efficiency while incurring fewer violations than prior safe RL algorithms. Code is available at: https://github.com/R edrew/CAP
翻訳日:2021-12-16 16:20:57 公開日:2021-12-14
# 深部CNNにおけるL1ノルム周波数ヒストグラムを用いたクラス特定フィルタの同定

Identifying Class Specific Filters with L1 Norm Frequency Histograms in Deep CNNs ( http://arxiv.org/abs/2112.07719v1 )

ライセンス: Link先を確認
Akshay Badola, Cherian Roy, Vineet Padmanabhan, Rajendra Lal(参考訳) ディープニューラルネットワークの解釈可能性は探索の大きな領域となっている。 これらのネットワークは多くのタスクにおいて技術精度の状態を達成しているが、それらの決定を解釈し説明することは極めて困難である。 本研究では,ディープ畳み込みネットワークの最終層と最終層を解析し,ネットワークのクラス決定に最も寄与する機能のサブセットを識別するための効率的な手法を提案する。 クラスごとのそのような特徴の数は最終層の次元よりもはるかに小さく、したがってDeep CNNsの決定面は低次元多様体上にあり、ネットワーク深さに比例することを示した。 提案手法では,最終層を分離した部分空間に分解することが可能であり,全ネットワークの最終層に比べてはるかに解釈可能で計算コストも低い。

Interpretability of Deep Neural Networks has become a major area of exploration. Although these networks have achieved state of the art accuracy in many tasks, it is extremely difficult to interpret and explain their decisions. In this work we analyze the final and penultimate layers of Deep Convolutional Networks and provide an efficient method for identifying subsets of features that contribute most towards the network's decision for a class. We demonstrate that the number of such features per class is much lower in comparison to the dimension of the final layer and therefore the decision surface of Deep CNNs lies on a low dimensional manifold and is proportional to the network depth. Our methods allow to decompose the final layer into separate subspaces which is far more interpretable and has a lower computational cost as compared to the final layer of the full network.
翻訳日:2021-12-16 14:43:01 公開日:2021-12-14
# 正規化ベイズグラフ畳み込みニューラルネットワークのための近傍ランダムウォークグラフサンプリング

Neighborhood Random Walk Graph Sampling for Regularized Bayesian Graph Convolutional Neural Networks ( http://arxiv.org/abs/2112.07743v1 )

ライセンス: Link先を確認
Aneesh Komanduri, Justin Zhan(参考訳) ソーシャルメディアとネットワークの現代において、現実世界の現象のグラフ表現は、洞察を掘り起こす上で非常に有用な情報源となっている。 多くの場合、グラフ内のエンティティがどのように相互接続されているかを理解することに興味があります。 グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測,エッジ分類など,さまざまなグラフ学習タスクにおいて,非常に有用なツールであることが証明されている。 しかし、ほとんどのタスクでは、私たちが処理しているグラフデータは騒がしく、スプリアスエッジを含む可能性がある。 つまり、基礎となるグラフ構造には多くの不確実性があります。 不確実性をモデル化する最近のアプローチは、ベイズフレームワークを使い、グラフをモデルパラメータに関連する確率確率変数として見ることである。 グラフベースモデル、特に半教師付きノード分類へのベイズパラダイムの導入は、より高い分類精度をもたらすことが示されている。 しかし、最近の研究で提案されたグラフ推論の方法は、グラフの構造を考慮に入れていない。 本稿では,グラフ構造を用いたマルコフ連鎖モンテカルロ(mcmc)に基づくグラフサンプリングアルゴリズムを用いた近傍ランダムウォークサンプリング(bgcn-nrws)を用いたベイズグラフ畳み込みネットワークと呼ばれる新しいアルゴリズムを提案する。

In the modern age of social media and networks, graph representations of real-world phenomena have become an incredibly useful source to mine insights. Often, we are interested in understanding how entities in a graph are interconnected. The Graph Neural Network (GNN) has proven to be a very useful tool in a variety of graph learning tasks including node classification, link prediction, and edge classification. However, in most of these tasks, the graph data we are working with may be noisy and may contain spurious edges. That is, there is a lot of uncertainty associated with the underlying graph structure. Recent approaches to modeling uncertainty have been to use a Bayesian framework and view the graph as a random variable with probabilities associated with model parameters. Introducing the Bayesian paradigm to graph-based models, specifically for semi-supervised node classification, has been shown to yield higher classification accuracies. However, the method of graph inference proposed in recent work does not take into account the structure of the graph. In this paper, we propose a novel algorithm called Bayesian Graph Convolutional Network using Neighborhood Random Walk Sampling (BGCN-NRWS), which uses a Markov Chain Monte Carlo (MCMC) based graph sampling algorithm utilizing graph structure, reduces overfitting by using a variational inference layer, and yields consistently competitive classification results compared to the state-of-the-art in semi-supervised node classification.
翻訳日:2021-12-16 14:03:36 公開日:2021-12-14
# 任意矩形レンジ一般化弾性ネットによる可変選択と正規化

Variable Selection and Regularization via Arbitrary Rectangle-range Generalized Elastic Net ( http://arxiv.org/abs/2112.07785v1 )

ライセンス: Link先を確認
Yujia Ding, Qidi Peng, Zhengming Song, Hansen Chen(参考訳) 高次元スパース線形モデルにおける制約変数の選択と正規化を行うために、任意の矩形レンジ一般化弾性ネットペナルティ法(ARGEN)を導入する。 非負の弾性ネットペナルティ法の自然な拡張として、ARGENはいくつかの条件下での可変選択整合性と推定整合性を持つことが証明された。 ARGEN推定器の分布における漸近的挙動について検討した。 MU-QP-RR-W-$l_1$というアルゴリズムも提案する。 シミュレーション研究により、ARGENは様々な環境で弾性ネットより優れることを示した。 最後に,ストックアロケーションに制約のあるS&P 500インデックストラッキングの適用を行い,実世界の問題を解決するためにARGENを適用するための一般的なガイダンスを提供する。

We introduce the arbitrary rectangle-range generalized elastic net penalty method, abbreviated to ARGEN, for performing constrained variable selection and regularization in high-dimensional sparse linear models. As a natural extension of the nonnegative elastic net penalty method, ARGEN is proved to have variable selection consistency and estimation consistency under some conditions. The asymptotic behavior in distribution of the ARGEN estimators have been studied. We also propose an algorithm called MU-QP-RR-W-$l_1$ to efficiently solve ARGEN. By conducting simulation study we show that ARGEN outperforms the elastic net in a number of settings. Finally an application of S&P 500 index tracking with constraints on the stock allocations is performed to provide general guidance for adapting ARGEN to solve real-world problems.
翻訳日:2021-12-16 14:03:14 公開日:2021-12-14
# 強化学習における表現と不変性

Representation and Invariance in Reinforcement Learning ( http://arxiv.org/abs/2112.07752v1 )

ライセンス: Link先を確認
Samuel Alexander, Arthur Paul Pedersen(参考訳) もしルールを変更したら、賢者は愚か者と取引するだろうか? 異なるグループは異なる方法で強化学習(RL)を定式化する。 あるRL形式化のエージェントが別のRL形式化の環境内で実行される場合、エージェントは変換されるか、マッピングされる必要がある。 そのような写像に対する適切性の基準は、相対的知性を保つことである。 本稿では,この妥当性基準の定式化と特性について検討する。 しかし、定式化の問題の前には、比較知性の問題が議論されている。 我々は、有権者が環境である知能選挙の候補者として、観察エージェントによって動機付けられた超フィルターを用いたインテリジェンスを比較する。 これらのコンパレータは直観に反するが、RLインテリジェンス測定に関する不可能な定理を証明し、そのような直観は避けられないことを示唆する。 RLフレームワーク間のマッピングを前提として,宛先フレームワーク内の超フィルタベースのインテリジェンスコンパレータに対して,そのマッピングが相対的なインテリジェンスを保持するように,ソースフレームワーク内にウルトラフィルタベースのインテリジェンスコンパレータが存在することを保証する。 種々のRLフレームワーク間の3つの具体的なマッピングを検討し、それらが十分な条件を満たすことを示す。

If we changed the rules, would the wise trade places with the fools? Different groups formalize reinforcement learning (RL) in different ways. If an agent in one RL formalization is to run within another RL formalization's environment, the agent must first be converted, or mapped. A criterion of adequacy for any such mapping is that it preserves relative intelligence. This paper investigates the formulation and properties of this criterion of adequacy. However, prior to the problem of formulation is, we argue, the problem of comparative intelligence. We compare intelligence using ultrafilters, motivated by viewing agents as candidates in intelligence elections where voters are environments. These comparators are counterintuitive, but we prove an impossibility theorem about RL intelligence measurement, suggesting such counterintuitions are unavoidable. Given a mapping between RL frameworks, we establish sufficient conditions to ensure that, for any ultrafilter-based intelligence comparator in the destination framework, there exists an ultrafilter-based intelligence comparator in the source framework such that the mapping preserves relative intelligence. We consider three concrete mappings between various RL frameworks and show that they satisfy these sufficient conditions and therefore preserve suitably-measured relative intelligence.
翻訳日:2021-12-16 13:59:26 公開日:2021-12-14
# CEM-GD:モデルベース強化学習のための勾配Descent Plannerを用いたクロスエントロピー手法

CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2112.07746v1 )

ライセンス: Link先を確認
Kevin Huang, Sahin Lale, Ugo Rosolia, Yuanyuan Shi, Anima Anandkumar(参考訳) 現在の最先端モデルに基づく強化学習アルゴリズムは、連続制御設定の計画にcross-entropy method(cem)などの軌道サンプリング法を使用している。 これらのゼロ階オプティマイザは、多数の軌道のロールアウトをサンプリングして最適なアクションを選択する必要があり、これは大きな予測水平線や高次元のアクション空間に対して低スケールである。 更新時のアクションに対する報酬の勾配を利用する一階述語法はこの問題を軽減することができるが、非凸最適化の状況のために局所最適化に悩まされる。 これらの問題を克服し、両世界のベストを達成するために、一階法とcemを組み合わせた新しいプランナークロスエントロピー法(cem-gd)を提案する。 実行開始時、CEM-GDはCEMを使用してかなりの量の軌道のロールアウトをサンプリングし、最適化ランドスケープを探索し、ローカルなミニマを避ける。 次に、最上位の軌道を勾配降下の初期化として使用し、各軌道に勾配更新を適用して最適な作用列を求める。 しかし、その後の各段階において、CEM-GDは勾配更新を適用する前に、CEMからの軌道をはるかに少なくサンプリングする。 計画問題の次元が大きくなるにつれて,CEM-GDは勾配情報を用いて一定数のサンプルで望ましい性能を保ちつつ,当初はよくサンプリングされた軌道を用いた局所最適化を避けた。 さらに、CEM-GDは、MuJoCoのさまざまな連続制御ベンチマークにおいて、時間ステップあたり100倍のサンプルを削減し、約25%の計算時間と10%のメモリ使用率でCEMよりも優れたパフォーマンスを実現している。 CEM-GDの実装は$\href{https://github.com/K evinHuang8/CEM-GD}{\text{https://github.com/K evinHuang8/CEM-GD}}$で利用可能である。

Current state-of-the-art model-based reinforcement learning algorithms use trajectory sampling methods, such as the Cross-Entropy Method (CEM), for planning in continuous control settings. These zeroth-order optimizers require sampling a large number of trajectory rollouts to select an optimal action, which scales poorly for large prediction horizons or high dimensional action spaces. First-order methods that use the gradients of the rewards with respect to the actions as an update can mitigate this issue, but suffer from local optima due to the non-convex optimization landscape. To overcome these issues and achieve the best of both worlds, we propose a novel planner, Cross-Entropy Method with Gradient Descent (CEM-GD), that combines first-order methods with CEM. At the beginning of execution, CEM-GD uses CEM to sample a significant amount of trajectory rollouts to explore the optimization landscape and avoid poor local minima. It then uses the top trajectories as initialization for gradient descent and applies gradient updates to each of these trajectories to find the optimal action sequence. At each subsequent time step, however, CEM-GD samples much fewer trajectories from CEM before applying gradient updates. We show that as the dimensionality of the planning problem increases, CEM-GD maintains desirable performance with a constant small number of samples by using the gradient information, while avoiding local optima using initially well-sampled trajectories. Furthermore, CEM-GD achieves better performance than CEM on a variety of continuous control benchmarks in MuJoCo with 100x fewer samples per time step, resulting in around 25% less computation time and 10% less memory usage. The implementation of CEM-GD is available at $\href{https://github.com/K evinHuang8/CEM-GD}{\text{https://github.com/K evinHuang8/CEM-GD}}$.
翻訳日:2021-12-16 13:57:44 公開日:2021-12-14
# プラットフォーム間のオンライン反ユダヤ主義

Online anti-Semitism across platforms ( http://arxiv.org/abs/2112.07783v1 )

ライセンス: Link先を確認
Tom De Smedt(参考訳) 我々は、反ユダヤ主義を検出するためのきめ細かいAIシステムを開発した。 この説明可能なAIは、プラットフォーム間でのオンラインソーシャルメディアメッセージにおける非人間化、言語攻撃、共謀といった、英語とドイツの反ユダヤ的な表現を識別し、ハイレベルな意思決定をサポートする。

We created a fine-grained AI system for the detection of anti-Semitism. This Explainable AI will identify English and German anti-Semitic expressions of dehumanization, verbal aggression and conspiracies in online social media messages across platforms, to support high-level decision making.
翻訳日:2021-12-16 13:57:09 公開日:2021-12-14
# 深部畳み込みネットワークを用いた単一画像自動放射歪補正

Single Image Automatic Radial Distortion Compensation Using Deep Convolutional Network ( http://arxiv.org/abs/2112.08198v1 )

ライセンス: Link先を確認
Igor Janos, Wanda Benesova(参考訳) 多くのコンピュータビジョン領域では、入力画像はピンホールカメラモデルに準拠しなければならず、現実世界の直線は画像の直線として投影される。 ライブスポーツの放送映像でコンピュータビジョンのタスクを実行すると、アルゴリズムが特定のキャリブレーションパターンに頼らなくてはならず、未知のカメラや複雑なテレビレンズに由来する放射状の歪み、歪みを補う視覚手がかりの少なさ、リアルタイムパフォーマンスの必要性に対処できなければならないという困難な要件が課される。 本稿では,スポーツ放送のアプリケーションドメインで動作する多項式歪みモデルの2つの高次係数を用いて,リアルタイムの性能と精度を向上する,深部畳み込みニューラルネットワークに基づく単一像自動レンズ歪み補正手法を提案する。 キーワード:深層畳み込みニューラルネットワーク、放射歪、単一画像整流

In many computer vision domains, the input images must conform with the pinhole camera model, where straight lines in the real world are projected as straight lines in the image. Performing computer vision tasks on live sports broadcast footage imposes challenging requirements where the algorithms cannot rely on a specific calibration pattern must be able to cope with unknown and uncalibrated cameras, radial distortion originating from complex television lenses, few visual clues to compensate distortion by, and the necessity for real-time performance. We present a novel method for single-image automatic lens distortion compensation based on deep convolutional neural networks, capable of real-time performance and accuracy using two highest-order coefficients of the polynomial distortion model operating in the application domain of sports broadcast. Keywords: Deep Convolutional Neural Network, Radial Distortion, Single Image Rectification
翻訳日:2021-12-16 13:40:08 公開日:2021-12-14
# スケールでの効率的な動的グラフ表現学習

Efficient Dynamic Graph Representation Learning at Scale ( http://arxiv.org/abs/2112.07768v1 )

ライセンス: Link先を確認
Xinshi Chen, Yan Zhu, Haowen Xu, Mengyang Liu, Liang Xiong, Muhan Zhang, Le Song(参考訳) ノード間のイベント順序列を持つ動的グラフは、eコマースやソーシャルプラットフォームといった実世界の産業アプリケーションで広く使われている。 しかし、動的グラフの表現学習は、時間と構造依存性とデータの不規則な性質のため、計算上の課題を生じさせており、そのようなモデルが現実世界のアプリケーションにデプロイされることを防いでいる。 この課題に対処するために, 学習損失による時間依存性を選択的に表現し, 計算における並列性を改善する効率的な動的グラフ lEarning (EDGE) を提案する。 EDGEは、数百万のノードと数億の時間イベントを持つ動的グラフにスケールでき、新しい最先端(SOTA)パフォーマンスを実現することができる。

Dynamic graphs with ordered sequences of events between nodes are prevalent in real-world industrial applications such as e-commerce and social platforms. However, representation learning for dynamic graphs has posed great computational challenges due to the time and structure dependency and irregular nature of the data, preventing such models from being deployed to real-world applications. To tackle this challenge, we propose an efficient algorithm, Efficient Dynamic Graph lEarning (EDGE), which selectively expresses certain temporal dependency via training loss to improve the parallelism in computations. We show that EDGE can scale to dynamic graphs with millions of nodes and hundreds of millions of temporal events and achieve new state-of-the-art (SOTA) performance.
翻訳日:2021-12-16 13:36:14 公開日:2021-12-14
# 時間知識グラフ補完のための単純かつ強力なグラフエンコーダ

A Simple But Powerful Graph Encoder for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2112.07791v1 )

ライセンス: Link先を確認
Zifeng Ding, Yunpu Ma, Bailan He, Volker Tresp(参考訳) 知識グラフは様々な実体の豊富な意味的知識とそれらの間の関係情報を含んでいるが、時間的知識グラフ(TKG)は時間とともに実体の相互作用を示す。 TKGのモデリング方法を改善するために,自動時間知識グラフ補完(TKGC)が注目されている。 近年のTKGC手法は,アテンション機構やトランスフォーマーといった高度な深層学習技術を統合し,モデル性能の向上を目指している。 しかし,多種多様な複雑なモジュールを採用することに比べ,時間軸に沿った時間情報全体の活用がより有益であることがわかった。 本稿では,TKGCのための単純だが強力なグラフエンコーダTARGCNを提案する。 TARGCNはパラメータ効率が高く、時間的コンテキスト全体からの情報を広範囲に活用する。 3つのベンチマークデータセットで実験を行う。 我々のモデルは,最先端モデルと比較して,GDELTデータセットに対して42%以上の相対的な改善を達成できる。 一方、ICEWS05-15データセットでは18.5%のパラメータで最強のベースラインを上回っている。

While knowledge graphs contain rich semantic knowledge of various entities and the relational information among them, temporal knowledge graphs (TKGs) further indicate the interactions of the entities over time. To study how to better model TKGs, automatic temporal knowledge graph completion (TKGC) has gained great interest. Recent TKGC methods aim to integrate advanced deep learning techniques, e.g., attention mechanism and Transformer, to boost model performance. However, we find that compared to adopting various kinds of complex modules, it is more beneficial to better utilize the whole amount of temporal information along the time axis. In this paper, we propose a simple but powerful graph encoder TARGCN for TKGC. TARGCN is parameter-efficient, and it extensively utilizes the information from the whole temporal context. We perform experiments on three benchmark datasets. Our model can achieve a more than 42% relative improvement on GDELT dataset compared with the state-of-the-art model. Meanwhile, it outperforms the strongest baseline on ICEWS05-15 dataset with around 18.5% fewer parameters.
翻訳日:2021-12-16 13:36:02 公開日:2021-12-14
# (参考訳) 時間依存性コーンシャム系の相関ポテンシャルの動的学習 [全文訳有]

Dynamic Learning of Correlation Potentials for a Time-Dependent Kohn-Sham System ( http://arxiv.org/abs/2112.07067v1 )

ライセンス: CC BY 4.0
Harish S. Bhat and Kevin Collins and Prachi Gupta and Christine M. Isborn(参考訳) 時間依存kohn-sham(tdks)システムの相関ポテンシャルを1次元で学習する手法を開発した。 我々は、時間依存的なシュリンガー方程式を数値的に解くことができる低次元の2電子系から始め、相関ポテンシャルのトレーニングモデルに適した電子密度を得る。 学習問題をTDKS方程式に従属する制約を考慮した最小二乗目標の最適化の1つである。 共役を応用し,勾配を計算し,相関ポテンシャルのモデルを学ぶための効率的な手法を開発した。 その結果、電子密度が真理密度と一致するように相関ポテンシャルの値を学ぶことが可能であることが判明した。 また、相関ポテンシャル関数とメモリとの相関関数の学習方法を示し、トレーニングセット外の軌道に対して妥当な結果をもたらすモデルを示す。

We develop methods to learn the correlation potential for a time-dependent Kohn-Sham (TDKS) system in one spatial dimension. We start from a low-dimensional two-electron system for which we can numerically solve the time-dependent Schr\"odinger equation; this yields electron densities suitable for training models of the correlation potential. We frame the learning problem as one of optimizing a least-squares objective subject to the constraint that the dynamics obey the TDKS equation. Applying adjoints, we develop efficient methods to compute gradients and thereby learn models of the correlation potential. Our results show that it is possible to learn values of the correlation potential such that the resulting electron densities match ground truth densities. We also show how to learn correlation potential functionals with memory, demonstrating one such model that yields reasonable results for trajectories outside the training set.
翻訳日:2021-12-16 05:32:32 公開日:2021-12-14
# (参考訳) Huangなど上に建つ。 単語センスの曖昧化のためのGlosssBERT [全文訳有]

Building on Huang et al. GlossBERT for Word Sense Disambiguation ( http://arxiv.org/abs/2112.07089v1 )

ライセンス: CC BY 4.0
Nikhil Patel, James Hale, Kanika Jindal, Apoorva Sharma, and Yichun Yu(参考訳) 本稿では,Word Sense Disambiguation (WSD) の問題に取り組むことを提案する。 言語では、同じ形態の単語は文脈によって異なる意味を取ることができる。 人間はこれらの単語の意味や光沢を文脈によって容易に推測するが、機械はこのタスクにこだわるため、これらの単語を曖昧にするために設計したモデルであるHuang et al.GlossBERTの結果を再現して拡張する(Huang et al.,2019)。 具体的には、データセットの微調整(アルファハイパーパラメータ)、アンサンブル法、BARTおよびALBERTによるBERTの置き換えを提案する。 以下のgithubリポジトリには、huang氏らが利用可能なコードを拡張する、このレポートで使用されているすべてのコードが含まれている。

We propose to take on the problem ofWord Sense Disambiguation (WSD). In language, words of the same form can take different meanings depending on context. While humans easily infer the meaning or gloss of such words by their context, machines stumble on this task.As such, we intend to replicated and expand upon the results of Huang et al.GlossBERT, a model which they design to disambiguate these words (Huang et al.,2019). Specifically, we propose the following augmentations: data-set tweaking(alpha hyper-parameter), ensemble methods, and replacement of BERT with BART andALBERT. The following GitHub repository contains all code used in this report, which extends on the code made available by Huang et al.
翻訳日:2021-12-16 05:11:30 公開日:2021-12-14
# (参考訳) 畳み込みニューラルネットワークを用いたCOVID-19肺炎とインフルエンザ検出 [全文訳有]

COVID-19 Pneumonia and Influenza Pneumonia Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2112.07102v1 )

ライセンス: CC BY 4.0
Julianna Antonchuk, Benjamin Prescott, Philip Melanchthon, Robin Singh(参考訳) 本研究では,ウイルス肺炎,インフルエンザウイルス肺炎,および正常バイオマーカーの鑑別診断における放射線診断支援のためのコンピュータビジョンソリューションを開発した。 新型肺炎の胸部x線像は非特異的であり、covid-19型肺炎と非covid-19型肺炎の肺炎症の特徴を高い感度で分類する畳み込みニューラルネットワーク(cnn)の最適なアーキテクチャを特定することが課題となっている。 Rahman (2021) は、新型コロナウイルスの放射線画像は診断プロセスに影響を及ぼし、深層学習検出モデルの精度に影響を及ぼす不有効性と品質の問題を観察していると述べている。 新型コロナウイルス(COVID-19)のX線撮影画像の重大な不足は、オーバーサンプリング技術を使う動機となるデータの不均衡をもたらした。 本研究は,ヒト肺(CXR)にCOVID-19肺炎,インフルエンザウイルス肺炎,および正常バイオマーカーを併用し,拡張可能かつ正確なCNNモデルを実現することを目的とした。 本研究では,従来の2つの畳み込み層と最大機能を持つ2つのプール層を有する逐次畳み込みネットワークを選択することで,様々な畳み込みネットワークアーキテクチャの評価を行った。 その分類性能において、最高の性能モデルでは、検証精度は93%、F1スコアは0.95であった。 ネットワークの実験とソリューションデプロイメントを行うために、Azure Machine Learningサービスを選択しました。 自動スケーリング計算クラスタは、ネットワークトレーニングを大幅に短縮した。 人工知能と人間の生物学の分野で科学者が協力して、迅速かつ包括的な診断を提供し、ウイルスの拡散を効果的に軽減したいと考えている。

In the research, we developed a computer vision solution to support diagnostic radiology in differentiating between COVID-19 pneumonia, influenza virus pneumonia, and normal biomarkers. The chest radiograph appearance of COVID-19 pneumonia is thought to be nonspecific, having presented a challenge to identify an optimal architecture of a convolutional neural network (CNN) that would classify with a high sensitivity among the pulmonary inflammation features of COVID-19 and non-COVID-19 types of pneumonia. Rahman (2021) states that COVID-19 radiography images observe unavailability and quality issues impacting the diagnostic process and affecting the accuracy of the deep learning detection models. A significant scarcity of COVID-19 radiography images introduced an imbalance in data motivating us to use over-sampling techniques. In the study, we include an extensive set of X-ray imaging of human lungs (CXR) with COVID-19 pneumonia, influenza virus pneumonia, and normal biomarkers to achieve an extensible and accurate CNN model. In the experimentation phase of the research, we evaluated a variety of convolutional network architectures, selecting a sequential convolutional network with two traditional convolutional layers and two pooling layers with maximum function. In its classification performance, the best performing model demonstrated a validation accuracy of 93% and an F1 score of 0.95. We chose the Azure Machine Learning service to perform network experimentation and solution deployment. The auto-scaling compute clusters offered a significant time reduction in network training. We would like to see scientists across fields of artificial intelligence and human biology collaborating and expanding on the proposed solution to provide rapid and comprehensive diagnostics, effectively mitigating the spread of the virus
翻訳日:2021-12-16 05:03:03 公開日:2021-12-14
# (参考訳) オンライン乗法確率勾配による非漸近境界の最適化

Non Asymptotic Bounds for Optimization via Online Multiplicative Stochastic Gradient Descent ( http://arxiv.org/abs/2112.07110v1 )

ライセンス: CC BY 4.0
Riddhiman Bhattacharya(参考訳) SGD(Stochastic Gradient Descent)の勾配ノイズは、その性質(低電位点と正則化の回避など)において重要な役割を果たすと考えられている。 過去の研究では、最小バッチによるSGD誤差の共分散が、その正規化を決定する上で重要な役割を果たすことが示されている。 しかしながら、誤差の分布がアルゴリズムの挙動にどの程度影響するかは明らかにされていない。 この領域における新たな研究によって、sgdの平均および共分散構造と同じノイズクラスが同様の性質を持つことを示すことにより、普遍性が証明される。 提案手法は主に,sgdアルゴリズムよりも一般的なノイズクラスを持つwuらによって導入された乗法確率勾配降下法(m-sgd)である。 我々は,M-SGD アルゴリズムに対して,SGD に対応する確率微分方程式のミニバッチによる非漸近境界を確立する。 また、M-SGDの誤差は、M-SGDアルゴリズムの任意の固定点において平均0$のガウス分布であることを示す。

The gradient noise of Stochastic Gradient Descent (SGD) is considered to play a key role in its properties (e.g. escaping low potential points and regularization). Past research has indicated that the covariance of the SGD error done via minibatching plays a critical role in determining its regularization and escape from low potential points. It is however not much explored how much the distribution of the error influences the behavior of the algorithm. Motivated by some new research in this area, we prove universality results by showing that noise classes that have the same mean and covariance structure of SGD via minibatching have similar properties. We mainly consider the Multiplicative Stochastic Gradient Descent (M-SGD) algorithm as introduced by Wu et al., which has a much more general noise class than the SGD algorithm done via minibatching. We establish nonasymptotic bounds for the M-SGD algorithm mainly with respect to the Stochastic Differential Equation corresponding to SGD via minibatching. We also show that the M-SGD error is approximately a scaled Gaussian distribution with mean $0$ at any fixed point of the M-SGD algorithm.
翻訳日:2021-12-16 04:52:52 公開日:2021-12-14
# (参考訳) CLIP-Lite: テキストアノテーションによる情報効率の良い視覚表現学習 [全文訳有]

CLIP-Lite: Information Efficient Visual Representation Learning from Textual Annotations ( http://arxiv.org/abs/2112.07133v1 )

ライセンス: CC BY 4.0
Aman Shrivastava, Ramprasaath R. Selvaraju, Nikhil Naik, Vicente Ordonez(参考訳) テキストアノテーションと特徴アライメントによる視覚表現学習のための情報効率向上手法であるCLIP-Liteを提案する。 以前提案したCLIPモデルと比較して、CLIP-Liteは、対照的な学習目標の最適化において、正のイメージテキストサンプル毎に1つの負のイメージテキストサンプルペアしか必要としない。 我々は,2つの入力モード間の相互情報を最大化するために,情報効率のよい低バウンドを利用する。 これにより、CLIP-Liteは、CLIPよりも優れたパフォーマンスを得ながら、データ量とバッチサイズを大幅に削減してトレーニングすることができる。 CLIP-LiteはCOCO-Captionsデータセットで事前トレーニングを行い、他のデータセットへの転送学習をテストする。 clip-liteはpascal voc分類での絶対的な性能向上が+15.4%、imagenetでは+22.1%のtop-1精度向上が得られ、他のより複雑なテキスト教師付きモデルと比較して優れている。 CLIP-Liteは、画像とテキストの検索、ゼロショット分類、視覚的グラウンドニングにおいてCLIPよりも優れている。 最後に、表現学習中に明示的な画像テキストアライメントを実行することで、CLIP-Liteは言語意味論を利用して、下流タスクで使用できるバイアスのない視覚表現を促進することができることを示す。

We propose CLIP-Lite, an information efficient method for visual representation learning by feature alignment with textual annotations. Compared to the previously proposed CLIP model, CLIP-Lite requires only one negative image-text sample pair for every positive image-text sample during the optimization of its contrastive learning objective. We accomplish this by taking advantage of an information efficient lower-bound to maximize the mutual information between the two input modalities. This allows CLIP-Lite to be trained with significantly reduced amounts of data and batch sizes while obtaining better performance than CLIP. We evaluate CLIP-Lite by pretraining on the COCO-Captions dataset and testing transfer learning to other datasets. CLIP-Lite obtains a +15.4% mAP absolute gain in performance on Pascal VOC classification, and a +22.1% top-1 accuracy gain on ImageNet, while being comparable or superior to other, more complex, text-supervised models. CLIP-Lite is also superior to CLIP on image and text retrieval, zero-shot classification, and visual grounding. Finally, by performing explicit image-text alignment during representation learning, we show that CLIP-Lite can leverage language semantics to encourage bias-free visual representations that can be used in downstream tasks.
翻訳日:2021-12-16 04:51:35 公開日:2021-12-14
# (参考訳) 高次元混合変数を用いた線形判別分析 [全文訳有]

Linear Discriminant Analysis with High-dimensional Mixed Variables ( http://arxiv.org/abs/2112.07145v1 )

ライセンス: CC BY 4.0
Binyan Jiang, Chenlei Leng, Cheng Wang, Zhongqing Yang(参考訳) カテゴリー変数と連続変数の両方を含むデータセットは、多くの領域で頻繁に遭遇し、現代の計測技術の急速な発展により、これらの変数の寸法は非常に高い。 連続変数の高次元データをモデル化する最近の進歩にもかかわらず、混合変数の集合を扱う方法が不足している。 このギャップを埋めるために,混合変数を用いた高次元観測の分類手法を開発した。 我々のフレームワークは位置モデルに基づいており、連続変数の分布がカテゴリー変数に条件づけられていると仮定される。 カーネルの平滑化により、データを指数関数的に多くのセル、あるいはカテゴリ変数の組み合わせに分割するという課題を克服し、通常のバイアス分散トレードオフとは異なるボヒナーのレムマの類似性を保証するために、帯域幅選択の新しい視点を提供する。 本モデルにおける2つのパラメータセットを別々に推定し,その推定にペナルティを課すことができることを示す。 その結果,推定精度と誤分類率が確立され,提案する分類器の競合性能は,広範なシミュレーションと実データ解析によって示される。

Datasets containing both categorical and continuous variables are frequently encountered in many areas, and with the rapid development of modern measurement technologies, the dimensions of these variables can be very high. Despite the recent progress made in modelling high-dimensional data for continuous variables, there is a scarcity of methods that can deal with a mixed set of variables. To fill this gap, this paper develops a novel approach for classifying high-dimensional observations with mixed variables. Our framework builds on a location model, in which the distributions of the continuous variables conditional on categorical ones are assumed Gaussian. We overcome the challenge of having to split data into exponentially many cells, or combinations of the categorical variables, by kernel smoothing, and provide new perspectives for its bandwidth choice to ensure an analogue of Bochner's Lemma, which is different to the usual bias-variance tradeoff. We show that the two sets of parameters in our model can be separately estimated and provide penalized likelihood for their estimation. Results on the estimation accuracy and the misclassification rates are established, and the competitive performance of the proposed classifier is illustrated by extensive simulation and real data studies.
翻訳日:2021-12-16 04:33:01 公開日:2021-12-14
# (参考訳) Fruit-Flies のコロニーを用いたFederated Nearest Neighbor 分類 [全文訳有]

Federated Nearest Neighbor Classification with a Colony of Fruit-Flies: With Supplement ( http://arxiv.org/abs/2112.07157v1 )

ライセンス: CC BY 4.0
Parikshit Ram, Kaushik Sinha(参考訳) 果実フライの嗅覚回路における神経学的機構を局所性感受性ハッシュ (Flyhash) とブルームフィルタ (FBF) として数学的に定式化し, 類似性探索, 外れ値検出, テキスト埋め込みなどの機械学習タスクに対して「再プログラム」を行った。 本稿では,このハッシュおよびブルームフィルタの新規な再プログラミング法を提案する。この手法は,学習データとテストデータが当事者間で分散し,各当事者からデータを残さずに分散学習 (fl) 環境において,正準最寄りの近傍分類器 (nnc) をエミュレートする。 具体的には、FlyhashとFBFを用いてFlyNN分類器を作成し、理論上FlyNNがNCと一致する条件を確立する。 FlyNNFLを生成するための通信オーバーヘッドの少ないFLセットアップにおいて、FlyNNが正確にトレーニングされているか、また、どのように差分プライベートになるかを示す。 実証的に言えば (i)FlyNNは、70のOpenMLデータセットにNNC精度をマッチさせる。 (ii)FlyNNFLのトレーニングは、通信オーバーヘッドが低く、最大で$8\times$のスピードアップと$16$のパーティを提供する。

The mathematical formalization of a neurological mechanism in the olfactory circuit of a fruit-fly as a locality sensitive hash (Flyhash) and bloom filter (FBF) has been recently proposed and "reprogrammed" for various machine learning tasks such as similarity search, outlier detection and text embeddings. We propose a novel reprogramming of this hash and bloom filter to emulate the canonical nearest neighbor classifier (NNC) in the challenging Federated Learning (FL) setup where training and test data are spread across parties and no data can leave their respective parties. Specifically, we utilize Flyhash and FBF to create the FlyNN classifier, and theoretically establish conditions where FlyNN matches NNC. We show how FlyNN is trained exactly in a FL setup with low communication overhead to produce FlyNNFL, and how it can be differentially private. Empirically, we demonstrate that (i) FlyNN matches NNC accuracy across 70 OpenML datasets, (ii) FlyNNFL training is highly scalable with low communication overhead, providing up to $8\times$ speedup with $16$ parties.
翻訳日:2021-12-16 03:53:19 公開日:2021-12-14
# (参考訳) 鳥の目から見たソーシャルディスタンシング分析システム [全文訳有]

Birds Eye View Social Distancing Analysis System ( http://arxiv.org/abs/2112.07159v1 )

ライセンス: CC BY 4.0
Zhengye Yang, Mingfei Sun, Hongzhe Ye, Zihao Xiong, Gil Zussman, Zoran Kostic(参考訳) ソーシャルディスタンシングは、新型コロナウイルスなどの呼吸器感染症の感染率を低下させる可能性がある。 交通交差点は、都市における社会的距離の監視や評価に特に適している。 交差点を横断する歩行者の鳥眼視映像記録を利用したプライバシー保護型ソーシャルディスタンシング分析システム(B-SDA)を提案し,評価する。 我々は,コンピュータビジョンやディープラーニング技術に根ざした映像前処理,物体検出,追跡のためのアルゴリズムを考案するが,高度に高精細なカメラで撮影された極小物体・被写体検出の問題に対処するために修正を行った。 本稿では,ソーシャルディスタンシング違反の検出に歩行者グループを組み込む手法を提案する。 B-SDAは、大都市圏におけるパンデミック前とパンデミック前のビデオに基づく歩行者行動の比較に用いられる。 歩行者検出性能は$63.0\%$$ap_{50}$であり、追跡性能は$47.6\%$ motaである。 パンデミック時のソーシャルディスタンシングの違反率は、パンデミック前の基準値が31.4セント以下であることから、歩行者がcdcが推奨するソーシャルディスタンシングの推奨に従っていることを示している。 提案するシステムは実世界のアプリケーションへのデプロイに適している。

Social distancing can reduce the infection rates in respiratory pandemics such as COVID-19. Traffic intersections are particularly suitable for monitoring and evaluation of social distancing behavior in metropolises. We propose and evaluate a privacy-preserving social distancing analysis system (B-SDA), which uses bird's-eye view video recordings of pedestrians who cross traffic intersections. We devise algorithms for video pre-processing, object detection and tracking which are rooted in the known computer-vision and deep learning techniques, but modified to address the problem of detecting very small objects/pedestrians captured by a highly elevated camera. We propose a method for incorporating pedestrian grouping for detection of social distancing violations. B-SDA is used to compare pedestrian behavior based on pre-pandemic and pandemic videos in a major metropolitan area. The accomplished pedestrian detection performance is $63.0\%$ $AP_{50}$ and the tracking performance is $47.6\%$ MOTA. The social distancing violation rate of $15.6\%$ during the pandemic is notably lower than $31.4\%$ pre-pandemic baseline, indicating that pedestrians followed CDC-prescribed social distancing recommendations. The proposed system is suitable for deployment in real-world applications.
翻訳日:2021-12-16 03:16:00 公開日:2021-12-14
# (参考訳) 非凸最適化のための適応手法の確率的一階Oracle複雑性の最小化 [全文訳有]

Minimization of Stochastic First-order Oracle Complexity of Adaptive Methods for Nonconvex Optimization ( http://arxiv.org/abs/2112.07163v1 )

ライセンス: CC BY 4.0
Hideaki Iiduka(参考訳) 数値的な評価は、確率勾配降下、運動量、適応法などのディープラーニング最適化において、バッチサイズを2倍にするごとにディープニューラルネットワークを訓練するために必要なステップの数と、臨界バッチサイズを超えるリターンが減少する領域があることを確実に示している。 本稿では,オプティマイザの確率的一階oracle (sfo) 複雑性のグローバル最小化器を用いて,実際の臨界バッチサイズを決定する。 実臨界バッチサイズの存在を証明するため、SFOの複雑さの下限と上限を設定し、下限と上限を最小化するという意味で臨界バッチサイズが存在することを証明した。 この証明は、SFO複雑性が下界と上界に適合するならば、これらの臨界バッチサイズの存在は、実際の臨界バッチサイズの存在を証明していることを示している。 また,sfo複雑性が下界と上界に適合するために必要な条件を議論し,理論結果を支える数値結果を提供する。

Numerical evaluations have definitively shown that, for deep learning optimizers such as stochastic gradient descent, momentum, and adaptive methods, the number of steps needed to train a deep neural network halves for each doubling of the batch size and that there is a region of diminishing returns beyond the critical batch size. In this paper, we determine the actual critical batch size by using the global minimizer of the stochastic first-order oracle (SFO) complexity of the optimizer. To prove the existence of the actual critical batch size, we set the lower and upper bounds of the SFO complexity and prove that there exist critical batch sizes in the sense of minimizing the lower and upper bounds. This proof implies that, if the SFO complexity fits the lower and upper bounds, then the existence of these critical batch sizes demonstrates the existence of the actual critical batch size. We also discuss the conditions needed for the SFO complexity to fit the lower and upper bounds and provide numerical results that support our theoretical results.
翻訳日:2021-12-16 03:03:54 公開日:2021-12-14
# (参考訳) データ拡張のための生物プロキシとしての皮質拡大とサッカデスの利用について [全文訳有]

On the use of Cortical Magnification and Saccades as Biological Proxies for Data Augmentation ( http://arxiv.org/abs/2112.07173v1 )

ライセンス: CC BY 4.0
Binxu Wang, David Mayo, Arturo Deza, Andrei Barbu, Colin Conwell(参考訳) 自己教師付き学習は、自然データから有用な表現を学ぶための強力な方法である。 また、人間の視覚表現を構築する方法として提案されているが、具体的な目的やアルゴリズムは不明である。 現在、ほとんどの自己教師付き手法は、システムが他の画像と対照的に、同じ画像の異なる変換の不変表現を学ぶことを奨励している。 しかし、このような変換は一般に生物学的には不可能であり、しばしばランダムなトリミングやカラージッタリングのような複雑な知覚スキームから構成される。 本稿では,これらの拡張を,より生物学的に,あるいは知覚的に可能であるようにリバースエンジニアリングし,ロバスト表現を促進する上でも同様の利点を享受する。 批判的に、ランダムな切り取りは皮質の倍率で置き換えることができ、画像のサッケードのようなサンプリングは表現学習にも役立つ。 これらの変換の可能性は、生物学的視覚システムが自己スーパービジョンを実装する可能性を示している。 さらに、多くのコンピュータビジョンアルゴリズムで広く受け入れられている空間一様処理の仮定を破り、人間や機械の空間適応計算の役割を示唆している。 私たちのコードとデモはここにある。

Self-supervised learning is a powerful way to learn useful representations from natural data. It has also been suggested as one possible means of building visual representation in humans, but the specific objective and algorithm are unknown. Currently, most self-supervised methods encourage the system to learn an invariant representation of different transformations of the same image in contrast to those of other images. However, such transformations are generally non-biologically plausible, and often consist of contrived perceptual schemes such as random cropping and color jittering. In this paper, we attempt to reverse-engineer these augmentations to be more biologically or perceptually plausible while still conferring the same benefits for encouraging robust representation. Critically, we find that random cropping can be substituted by cortical magnification, and saccade-like sampling of the image could also assist the representation learning. The feasibility of these transformations suggests a potential way that biological visual systems could implement self-supervision. Further, they break the widely accepted spatially-uniform processing assumption used in many computer vision algorithms, suggesting a role for spatially-adaptive computation in humans and machines alike. Our code and demo can be found here.
翻訳日:2021-12-16 02:39:51 公開日:2021-12-14
# (参考訳) 弱教師付き高忠実性衣服モデル生成 [全文訳有]

Weakly Supervised High-Fidelity Clothing Model Generation ( http://arxiv.org/abs/2112.07200v1 )

ライセンス: CC BY 4.0
Ruili Feng, Cheng Ma, Chengji Shen, Xin Gao, Zhenjiang Liu, Xiaobo Li, Kairi Ou and Zhengjun Zha(参考訳) オンライン・エコノミクスの発展は、商品服のモデル画像の作成、新しい服の表示、販売促進の需要を喚起する。 しかし、高価なプロプライエタリなモデルイメージは、このシナリオでは既存のイメージ仮想トライオンメソッドに挑戦する。 本稿では,この特定のシナリオに対処するために,安価かつスケーラブルな深部生成投影法(dgp)を提案する。 提案手法の核心は、人間の着用効果を予測する過程を模倣することであり、これは、監督者から学んだ計算規則ではなく、生活経験に基づく教師なしの想像力である。 ここでは、トレーニング済みのStyleGANを使用して、着用経験を捉える。 実験により、StyleGAN空間に衣服と身体の粗いアライメントを投影することで、フォトリアリスティックな着用結果が得られることが示された。 リアルシーンのプロプライエタリなモデル画像に対する実験は、衣料品モデル画像を生成する際に、最先端の教師付き手法よりもDGPの方が優れていることを示す。

The development of online economics arouses the demand of generating images of models on product clothes, to display new clothes and promote sales. However, the expensive proprietary model images challenge the existing image virtual try-on methods in this scenario, as most of them need to be trained on considerable amounts of model images accompanied with paired clothes images. In this paper, we propose a cheap yet scalable weakly-supervised method called Deep Generative Projection (DGP) to address this specific scenario. Lying in the heart of the proposed method is to imitate the process of human predicting the wearing effect, which is an unsupervised imagination based on life experience rather than computation rules learned from supervisions. Here a pretrained StyleGAN is used to capture the practical experience of wearing. Experiments show that projecting the rough alignment of clothing and body onto the StyleGAN space can yield photo-realistic wearing results. Experiments on real scene proprietary model images demonstrate the superiority of DGP over several state-of-the-art supervised methods when generating clothing model images.
翻訳日:2021-12-16 02:24:29 公開日:2021-12-14
# (参考訳) 最適圧縮のための画像量子化トレードオフのモデル化 [全文訳有]

Modeling Image Quantization Tradeoffs for Optimal Compression ( http://arxiv.org/abs/2112.07207v1 )

ライセンス: CC BY-SA 4.0
Johnathan Chiu(参考訳) すべての損失圧縮アルゴリズムは、同様の圧縮スキーム-周波数領域変換と量子化とロスレス符号化スキームを用いる。 高い画像歪みのコストで生じる圧縮率を高めるために、高周波データを定量化することでトレードオフを目標としている。 本稿では,従来の手法よりも精度良く速度と歪みパラメータ(rd)のトレードオフを計測できる,深層学習とミニマックス損失関数を用いた量子化テーブルの最適化手法を提案する。 画像ブロックと量子化テーブルのマッピングを教師なしで学習する畳み込みニューラルネットワーク(CNN)を設計する。 すべてのチャネルにまたがるイメージを一度に処理することで、異なるチャネル間の情報損失のトレードオフを測定することで、より強力なパフォーマンスを実現できます。 当初、JPEG画像の最適化を目標としていたが、損失のある圧縮機に拡張できると感じた。

All Lossy compression algorithms employ similar compression schemes -- frequency domain transform followed by quantization and lossless encoding schemes. They target tradeoffs by quantizating high frequency data to increase compression rates which come at the cost of higher image distortion. We propose a new method of optimizing quantization tables using Deep Learning and a minimax loss function that more accurately measures the tradeoffs between rate and distortion parameters (RD) than previous methods. We design a convolutional neural network (CNN) that learns a mapping between image blocks and quantization tables in an unsupervised manner. By processing images across all channels at once, we can achieve stronger performance by also measuring tradeoffs in information loss between different channels. We initially target optimization on JPEG images but feel that this can be expanded to any lossy compressor.
翻訳日:2021-12-16 02:02:46 公開日:2021-12-14
# (参考訳) ローカルアテンションは長期タスクに競争力を持ち続ける [全文訳有]

Simple Local Attentions Remain Competitive for Long-Context Tasks ( http://arxiv.org/abs/2112.07210v1 )

ライセンス: CC BY 4.0
Wenhan Xiong, Barlas O\u{g}uz, Anchit Gupta, Xilun Chen, Diana Liskovich, Omer Levy, Wen-tau Yih, Yashar Mehdad(参考訳) 多くのNLPタスクは、事前訓練されたモデルの長さ制限を超える長いコンテキストを処理する必要がある。 これらのモデルをより長いテキストシーケンスに拡張するために、多くの効率的な長距離注意型が提案されている。 この方向に関する研究が豊富であるにもかかわらず、これらのモデルが実際のユースケースにおいて相対的有効性を測ることは、例えば、事前訓練と精細化のパラダイムに従ってこれらのモデルを適用する場合、依然として困難である。 本研究では,これらのモデルについて,大規模かつ制御された実験により徹底的に解析することを目的とする。 各注意変種について、同一の長docコーパスを用いて大規模モデルを事前訓練し、それらのモデルを現実世界の長コンテキストタスクのために微調整する。 以上の結果から,既存の長距離ベンチマークの落とし穴が明らかとなり,標準プリトレーニングパラダイム下では,効率的な注意力が単純なローカルウインドウの注意力を上回らないことが判明した。 ローカルアテンションの変種に関するさらなる分析は、ダウンストリームの結果を得るのによく使われるアテンション・ウインドウの重複でさえ必要ないことを示唆している。不整合なローカルアテンションを用いて、Longformer~\citep{longformer}の性能と事前訓練された計算の半分に一致するよりシンプルで効率的なロングドックQAモデルを構築することができる。

Many NLP tasks require processing long contexts beyond the length limit of pretrained models. In order to scale these models to longer text sequences, many efficient long-range attention variants have been proposed. Despite the abundance of research along this direction, it is still difficult to gauge the relative effectiveness of these models in practical use cases, e.g., if we apply these models following the pretrain-and-finetun e paradigm. In this work, we aim to conduct a thorough analysis of these emerging models with large-scale and controlled experiments. For each attention variant, we pretrain large-size models using the same long-doc corpus and then finetune these models for real-world long-context tasks. Our findings reveal pitfalls of an existing widely-used long-range benchmark and show none of the tested efficient attentions can beat a simple local window attention under standard pretraining paradigms. Further analysis on local attention variants suggests that even the commonly used attention-window overlap is not necessary to achieve good downstream results -- using disjoint local attentions, we are able to build a simpler and more efficient long-doc QA model that matches the performance of Longformer~\citep{longformer} with half of its pretraining compute.
翻訳日:2021-12-16 01:57:05 公開日:2021-12-14
# (参考訳) 最適輸送によるインダクティブ半教師あり学習 [全文訳有]

Inductive Semi-supervised Learning Through Optimal Transport ( http://arxiv.org/abs/2112.07262v1 )

ライセンス: CC BY 4.0
Mourad El Hamri, Youn\`es Bennani, Issam Falih(参考訳) 本稿では,サンプル外データのラベル予測を目的とした,帰納的半教師付き学習問題に取り組む。 提案手法は、最適輸送誘導(OTI)と呼ばれ、最適輸送に基づくトランスダクティブアルゴリズム(OTP)を、バイナリとマルチクラスの両方のインダクティブタスクに効率的に拡張する。 提案手法と最先端手法を比較するために,いくつかのデータセットを用いて実験を行った。 実験は我々のアプローチの有効性を示す。 私たちはコードを公開しています(コードはhttps://github.com/m ouradelhamri/oti)。

In this paper, we tackle the inductive semi-supervised learning problem that aims to obtain label predictions for out-of-sample data. The proposed approach, called Optimal Transport Induction (OTI), extends efficiently an optimal transport based transductive algorithm (OTP) to inductive tasks for both binary and multi-class settings. A series of experiments are conducted on several datasets in order to compare the proposed approach with state-of-the-art methods. Experiments demonstrate the effectiveness of our approach. We make our code publicly available (Code is available at: https://github.com/M ouradElHamri/OTI).
翻訳日:2021-12-16 01:40:47 公開日:2021-12-14
# (参考訳) mcds: モバイルエッジクラウドコンピューティングシステムにおけるaiによるワークフロースケジューリング [全文訳有]

MCDS: AI Augmented Workflow Scheduling in Mobile Edge Cloud Computing Systems ( http://arxiv.org/abs/2112.07269v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) ワークフロースケジューリングは、ユーザのサービス要件を満たすために計算リソースを効率的に活用することを目的として、並列分散コンピューティング(PDC)において長年研究されてきた問題である。 最近提案されたスケジューリング手法は、アプリケーション品質サービス(qos)を最適化するために、エッジコンピューティングプラットフォームの低応答時間を活用する。 しかし、モバイルエッジクラウドシステムにおけるスケジューリングワークフローの応用は、計算の不均一性、モバイルデバイスのレイテンシの変化、ワークロードリソース要求の揮発性の性質により困難である。 これらの課題を克服するには,qosの目標を効率的にモデル化する長期的最適化手法の開発が不可欠であるが,同時に課題でもある。 本研究では,Deep Surrogate Models を用いたモンテカルロ学習により,モバイルエッジクラウドコンピューティングシステムにおけるワークフローアプリケーションを効率的にスケジュールする。 MCDSは人工知能(AI)ベースのスケジューリングアプローチで、ツリーベースの検索戦略とディープニューラルネットワークベースのサロゲートモデルを使用して、スケジューリング決定の堅牢な最適化のための即時アクションの長期的なQoS影響を推定する。 物理的およびシミュレーションされたエッジクラウドテストベッドの実験では、MCDSはエネルギー消費、応答時間、SLA違反およびコストをそれぞれ6.13、4.56、45.09、30.71パーセント改善できる。

Workflow scheduling is a long-studied problem in parallel and distributed computing (PDC), aiming to efficiently utilize compute resources to meet user's service requirements. Recently proposed scheduling methods leverage the low response times of edge computing platforms to optimize application Quality of Service (QoS). However, scheduling workflow applications in mobile edge-cloud systems is challenging due to computational heterogeneity, changing latencies of mobile devices and the volatile nature of workload resource requirements. To overcome these difficulties, it is essential, but at the same time challenging, to develop a long-sighted optimization scheme that efficiently models the QoS objectives. In this work, we propose MCDS: Monte Carlo Learning using Deep Surrogate Models to efficiently schedule workflow applications in mobile edge-cloud computing systems. MCDS is an Artificial Intelligence (AI) based scheduling approach that uses a tree-based search strategy and a deep neural network-based surrogate model to estimate the long-term QoS impact of immediate actions for robust optimization of scheduling decisions. Experiments on physical and simulated edge-cloud testbeds show that MCDS can improve over the state-of-the-art methods in terms of energy consumption, response time, SLA violations and cost by at least 6.13, 4.56, 45.09 and 30.71 percent respectively.
翻訳日:2021-12-16 01:33:32 公開日:2021-12-14
# (参考訳) 自律放射線学のレベル [全文訳有]

Levels of Autonomous Radiology ( http://arxiv.org/abs/2112.07286v1 )

ライセンス: CC BY 4.0
Suraj Ghuwalewala, Viraj Kulkarni, Richa Pant, Amit Kharat(参考訳) 放射線学は1世紀以上の歴史を持つ若い医学分野の一つであり、非常に技術進歩を目の当たりにしており、今日の医学の実践方法に革命をもたらした。 過去数十年間、医療画像のモダリティは、大量の医療データを生み出してきた。 このデータを用いた人工知能(ai)アプリケーションの開発と採用は、放射線学における進化の次の段階につながるだろう。 アノテーションやレポートジェネレーションなどの面倒な手作業の自動化に加えて,評価ワークフローにおいて,放射線技師を支援するケースの放射線学的評価も実施する。 本稿では,放射線学における自動化の進展をレベルワイドに分類し,各レベルのAI支援を課題と解決策で説明する。 このような議論が、構造的な方法で課題に対処し、放射線学における新しい技術の円滑な採用を保証するために必要なステップを取るのに役立つことを期待している。

Radiology, being one of the younger disciplines of medicine with a history of just over a century, has witnessed tremendous technological advancements and has revolutionized the way we practice medicine today. In the last few decades, medical imaging modalities have generated seismic amounts of medical data. The development and adoption of Artificial Intelligence (AI) applications using this data will lead to the next phase of evolution in radiology. It will include automating laborious manual tasks such as annotations, report-generation, etc., along with the initial radiological assessment of cases to aid radiologists in their evaluation workflow. We propose a level-wise classification for the progression of automation in radiology, explaining AI assistance at each level with corresponding challenges and solutions. We hope that such discussions can help us address the challenges in a structured way and take the necessary steps to ensure the smooth adoption of new technologies in radiology.
翻訳日:2021-12-16 01:05:06 公開日:2021-12-14
# (参考訳) なぜ機能的基礎を学ぶべきか [全文訳有]

Why you should learn functional basis ( http://arxiv.org/abs/2112.07289v1 )

ライセンス: CC BY 4.0
Riccardo Marin, Souhaib Attaiki, Simone Melzi, Emanuele Rodol\`a, Maks Ovsjanikov(参考訳) 幾何学的データの効率的かつ実用的な表現は、幾何処理におけるいくつかの応用においてユビキタスな問題である。 広く用いられる選択は、スペクトル埋め込みを通じて3Dオブジェクトを符号化することであり、微分作用素(典型的にはラプラシアン)の固有関数の切り離された部分集合によって、その点で仮定される値に関連付ける。 異なるアプリケーションのための新しい望ましい埋め込みを定義するいくつかの試みは、過去10年間に光を見てきた。 それでも、標準ラプラシア固有函数は、形状マッチングの準同値に制限されるような制限にもかかわらず、利用可能な解の頂点に固に留まっている。 近年,ラプラシアン固有関数の学習代用法における新しい傾向がみられた。 同時に、多くの研究課題は未解決のままであり、新しい基底はLBO固有関数よりも優れているか、それらとどのように関連しているのか? 機能の観点からどのように振る舞うのか? そして、これらのベースを新しい設定で、追加機能やディスクリプタとともにどのように活用するか? 本研究では,この新たな研究方向性の理解を深めるために,これらの疑問を適切に提起する。 異なる文脈におけるそれらの応用的関連性を示し、彼らの洞察とエキサイティングな将来の方向性を明らかにする。

Efficient and practical representation of geometric data is a ubiquitous problem for several applications in geometry processing. A widely used choice is to encode the 3D objects through their spectral embedding, associating to each surface point the values assumed at that point by a truncated subset of the eigenfunctions of a differential operator (typically the Laplacian). Several attempts to define new, preferable embeddings for different applications have seen the light during the last decade. Still, the standard Laplacian eigenfunctions remain solidly at the top of the available solutions, despite their limitations, such as being limited to near-isometries for shape matching. Recently, a new trend shows advantages in learning substitutes for the Laplacian eigenfunctions. At the same time, many research questions remain unsolved: are the new bases better than the LBO eigenfunctions, and how do they relate to them? How do they act in the functional perspective? And how to exploit these bases in new configurations in conjunction with additional features and descriptors? In this study, we properly pose these questions to improve our understanding of this emerging research direction. We show their applicative relevance in different contexts revealing some of their insights and exciting future directions.
翻訳日:2021-12-16 00:59:41 公開日:2021-12-14
# (参考訳) MMO: ソフトウェア構成調整のためのメタ多目的化 [全文訳有]

MMO: Meta Multi-Objectivizatio n for Software Configuration Tuning ( http://arxiv.org/abs/2112.07303v1 )

ライセンス: CC BY 4.0
Tao Chen and Miqing Li(参考訳) 所定のパフォーマンス目標(例えば、レイテンシを最小化する)を最適化するには、ソフトウェア構成チューニングが不可欠である。 しかし、ソフトウェアが本質的に複雑な構成のランドスケープと高価な測定のために、特に検索がローカルのオプティマに閉じ込められるのを防ぐために、やや成功した。 この問題に対処するため、本稿では異なる視点を取ります。 最適化モデルの改善に焦点をあてる代わりに、最適化モデルに取り組み、補助的なパフォーマンス目標(レイテンシに加えてスループットなど)を考慮したメタ多目的化(MMO)モデルを提案する。 このモデルをユニークなものにしているのは、補助的なパフォーマンスの目標を最適化するのではなく、異なる構成(Paretoが互いに支配的でない)で同等な性能を保ちながら、検索がローカルなオプティマに閉じ込められないようにするためである。 重要なことは、重みを気にせずにMMOモデルを効果的に利用する方法を示します。 11の現実世界のソフトウェアシステム/環境による22のケースの実験では、新しい正規化を備えたMMOモデルは82%のケースで最先端の単一オブジェクトモデルよりも性能が良く、最大2.09倍のスピードアップを実現しています。 67%のケースでは、MMOモデルを使用することで、事前調整したベストウェイトの下でのFSE作業で使われる正規化により、MMOモデルがインスタンスを上回り、優れたウェイトを見つけるのに必要となる大量のリソースを節約することができる。 また、新しい正規化を伴うMMOモデルにより、最近のモデルベースのチューニングツールであるFlashを、一般的に1.22倍のスピードアップのケースの68%で統合できることを実証した。

Software configuration tuning is essential for optimizing a given performance objective (e.g., minimizing latency). Yet, due to the software's intrinsically complex configuration landscape and expensive measurement, there has been a rather mild success, particularly in preventing the search from being trapped in local optima. To address this issue, in this paper we take a different perspective. Instead of focusing on improving the optimizer, we work on the level of optimization model and propose a meta multi-objectivizatio n (MMO) model that considers an auxiliary performance objective (e.g., throughput in addition to latency). What makes this model unique is that we do not optimize the auxiliary performance objective, but rather use it to make similarly-performing while different configurations less comparable (i.e. Pareto nondominated to each other), thus preventing the search from being trapped in local optima. Importantly, we show how to effectively use the MMO model without worrying about its weight -- the only yet highly sensitive parameter that can affect its effectiveness. Experiments on 22 cases from 11 real-world software systems/environments confirm that our MMO model with the new normalization performs better than its state-of-the-art single-objective counterparts on 82% cases while achieving up to 2.09x speedup. For 67% of the cases, the new normalization also enables the MMO model to outperform the instance when using it with the normalization used in our prior FSE work under pre-tuned best weights, saving a great amount of resources which would be otherwise necessary to find a good weight. We also demonstrate that the MMO model with the new normalization can consolidate Flash, a recent model-based tuning tool, on 68% of the cases with 1.22x speedup in general.
翻訳日:2021-12-16 00:35:47 公開日:2021-12-14
# (参考訳) 強化学習を用いたUAV基地局の自律ナビゲーションと統合アクセスバックハウリングの構成 [全文訳有]

Autonomous Navigation and Configuration of Integrated Access Backhauling for UAV Base Station Using Reinforcement Learning ( http://arxiv.org/abs/2112.07313v1 )

ライセンス: CC BY 4.0
Hongyi Zhang, Jingya Li, Zhiqiang Qi, Xingqin Lin, Anders Aronsson, Jan Bosch, Helena Holmstr\"om Olsson(参考訳) 高速で信頼性の高い接続性は、公共安全ミッションクリティカル(mc)ユーザの状況認識と運用効率を高めるために不可欠である。 MC通信要求を満たすために既存のセルネットワークのカバレッジと容量が利用できない場合、セルオンホイールやウイングなどのネットワークベースのソリューションを迅速に利用して、MCユーザにとって信頼性の高い接続を確保することができる。 本稿では,自然災害によりマクロ基地局 (BS) が破壊され, 災害地域の利用者に一時的カバレッジを提供するために, 無人航空機 (UAV-BS) が設置されるシナリオについて考察する。 UAV-BSは5G統合アクセス・バックホール(IAB)技術を用いてモバイルネットワークに統合される。 このユースケースに機械学習を適用するためのフレームワークとシグナリング手順を提案する。 深い補強学習アルゴリズムは、良好なバックホール接続を維持しつつ、地上MCユーザに最適なサービスを提供するために、アクセスとバックホールアンテナの傾きとUAV-BSの3次元位置を協調的に最適化するように設計されている。 提案アルゴリズムは,UAV-BSを自律的にナビゲートし,そのスループットを向上し,MCユーザの減少率を低減できることを示す。

Fast and reliable connectivity is essential to enhancing situational awareness and operational efficiency for public safety mission-critical (MC) users. In emergency or disaster circumstances, where existing cellular network coverage and capacity may not be available to meet MC communication demands, deployable-network-b ased solutions such as cells-on-wheels/wing s can be utilized swiftly to ensure reliable connection for MC users. In this paper, we consider a scenario where a macro base station (BS) is destroyed due to a natural disaster and an unmanned aerial vehicle carrying BS (UAV-BS) is set up to provide temporary coverage for users in the disaster area. The UAV-BS is integrated into the mobile network using the 5G integrated access and backhaul (IAB) technology. We propose a framework and signalling procedure for applying machine learning to this use case. A deep reinforcement learning algorithm is designed to jointly optimize the access and backhaul antenna tilt as well as the three-dimensional location of the UAV-BS in order to best serve the on-ground MC users while maintaining a good backhaul connection. Our result shows that the proposed algorithm can autonomously navigate and configure the UAV-BS to improve the throughput and reduce the drop rate of MC users.
翻訳日:2021-12-15 23:40:43 公開日:2021-12-14
# (参考訳) カーネルアウェアrawバーストブラインド超解像 [全文訳有]

Kernel-aware Raw Burst Blind Super-Resolution ( http://arxiv.org/abs/2112.07315v1 )

ライセンス: CC0 1.0
Wenyi Lian and Shanglian Peng(参考訳) burst super- resolution (sr)は、低品質の画像からリッチな詳細を復元する機能を提供する。 しかし、実用アプリケーションにおける低解像度(LR)画像は複雑で未知の劣化が多発しているため、既存の非盲点(例えばバイコビック)設計のネットワークは通常、高解像度(HR)画像の復元に重大なパフォーマンス低下をもたらす。 さらに、複数の不整合生の入力を扱うことも困難である。 本稿では,現代のハンドヘルドデバイスから取得した生のバーストシーケンスからHR画像を再構成する問題に対処する。 中心となる考え方は、カーネルモデリングとHR復元という2つのステップでバーストSRを解くことができるカーネル誘導戦略である。 前者は生の入力からバーストカーネルを推定し、後者は推定されたカーネルに基づいて超解像を予測する。 さらに, ぼやけた前処理を考慮し, 生画像を効果的にアライメントできるカーネルアライメントモジュールを提案する。 合成および実世界のデータセットに対する大規模な実験により、バーストSR問題において、提案手法が好適な技術性能を発揮することを示した。

Burst super-resolution (SR) provides a possibility of restoring rich details from low-quality images. However, since low-resolution (LR) images in practical applications have multiple complicated and unknown degradations, existing non-blind (e.g., bicubic) designed networks usually lead to a severe performance drop in recovering high-resolution (HR) images. Moreover, handling multiple misaligned noisy raw inputs is also challenging. In this paper, we address the problem of reconstructing HR images from raw burst sequences acquired from modern handheld devices. The central idea is a kernel-guided strategy which can solve the burst SR with two steps: kernel modeling and HR restoring. The former estimates burst kernels from raw inputs, while the latter predicts the super-resolved image based on the estimated kernels. Furthermore, we introduce a kernel-aware deformable alignment module which can effectively align the raw images with consideration of the blurry priors. Extensive experiments on synthetic and real-world datasets demonstrate that the proposed method can perform favorable state-of-the-art performance in the burst SR problem.
翻訳日:2021-12-15 23:31:10 公開日:2021-12-14
# (参考訳) 事前学習された言語モデルに対する不確実性認識知識の融合 [全文訳有]

Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language Models ( http://arxiv.org/abs/2112.07327v1 )

ライセンス: CC BY 4.0
Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou, Xu Sun(参考訳) 有望な性能を持つ多くの微調整事前学習言語モデル(plms)が寛大にリリースされているため、これらのモデルを再訓練する計算コストと潜在的な環境副作用を大幅に削減できるため、より良い再利用方法の検討は不可欠である。 本稿では,PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation~(KA)について検討する。 KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。 そこで我々は,モンテカルロ・ドロップアウトを用いて,学生を指導するためのゴールデン・インスペクティブの近似を行う,モデル不確かさを意識した知識の融合(MUKA)フレームワークを設計する。 実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。 さらに分析したところ、MUKAは複数の教師モデル、異質な教師、さらにはクロスデータセットの教師との複雑な設定の下でうまく一般化できることがわかった。

As many fine-tuned pre-trained language models~(PLMs) with promising performance are generously released, investigating better ways to reuse these models is vital as it can greatly reduce the retraining computational cost and the potential environmental side-effects. In this paper, we explore a novel model reuse paradigm, Knowledge Amalgamation~(KA) for PLMs. Without human annotations available, KA aims to merge the knowledge from different teacher-PLMs, each of which specializes in a different classification problem, into a versatile student model. The achieve this, we design a Model Uncertainty--aware Knowledge Amalgamation~(MUKA) framework, which identifies the potential adequate teacher using Monte-Carlo Dropout for approximating the golden supervision to guide the student. Experimental results demonstrate that MUKA achieves substantial improvements over baselines on benchmark datasets. Further analysis shows that MUKA can generalize well under several complicate settings with multiple teacher models, heterogeneous teachers, and even cross-dataset teachers.
翻訳日:2021-12-15 23:18:01 公開日:2021-12-14
# (参考訳) 表とリンクテキスト間の質問応答のためのマルチインスタンス学習 [全文訳有]

Multi-Instance Training for Question Answering Across Table and Linked Text ( http://arxiv.org/abs/2112.07337v1 )

ライセンス: CC BY 4.0
Vishwajeet Kumar, Saneem Chemmengath, Yash Gupta, Jaydeep Sen, Samarth Bharadwaj, Soumen Chakrabarti(参考訳) 表からの情報(TableQA)を使って自然言語の質問に答えることは、最近の関心事である。 多くのアプリケーションでは、テーブルは独立したものではなく、非構造化テキストに埋め込まれているか、リンクされている。 多くの場合、質問は、その部分と表セルの内容または非構造化テキストスパンを一致させ、どちらの情報源から回答を抽出することで答えられる。 これは、HybridQAデータセットによって導入されたTextTableQA問題の新しいスペースにつながります。 テーブル表現をトランスフォーマーベースの読み取り理解(RC)アーキテクチャに適応させることは、単一のシステムを通して2つの表現の多様さに対処できない。 このようなシステムの訓練は、遠隔監視の必要性により、さらに課題となる。 認知的負担を軽減するため、トレーニングインスタンスは通常、質問と回答だけを含み、後者は複数のテーブル行とテキストパスにマッチする。 これは、テーブルの行だけでなく、リンクされたテキストも含む、ノイズの多いマルチインスタンストレーニング体制につながる。 我々は、テーブル行選択とテキストスパン選択の異なるが密接に関連する確率空間を明示的にモデル化する新しいTextTableQAシステムであるMITQAを提案することで、これらの課題に対処する。 我々の実験は、最近のベースラインと比較して、我々のアプローチの優位性を示している。 提案手法は現在hybridqaリーダボードの最上位にあり,これまで公表された結果に対して,emスコアとf1スコアの両方において,21パーセントの絶対的な改善を達成している。

Answering natural language questions using information from tables (TableQA) is of considerable recent interest. In many applications, tables occur not in isolation, but embedded in, or linked to unstructured text. Often, a question is best answered by matching its parts to either table cell contents or unstructured text spans, and extracting answers from either source. This leads to a new space of TextTableQA problems that was introduced by the HybridQA dataset. Existing adaptations of table representation to transformer-based reading comprehension (RC) architectures fail to tackle the diverse modalities of the two representations through a single system. Training such systems is further challenged by the need for distant supervision. To reduce cognitive burden, training instances usually include just the question and answer, the latter matching multiple table rows and text passages. This leads to a noisy multi-instance training regime involving not only rows of the table, but also spans of linked text. We respond to these challenges by proposing MITQA, a new TextTableQA system that explicitly models the different but closely-related probability spaces of table row selection and text span selection. Our experiments indicate the superiority of our approach compared to recent baselines. The proposed method is currently at the top of the HybridQA leaderboard with a held out test set, achieving 21 % absolute improvement on both EM and F1 scores over previous published results.
翻訳日:2021-12-15 23:01:52 公開日:2021-12-14
# (参考訳) オープンドメイン質問回答に必要なのは1つのモデルだけです [全文訳有]

You Only Need One Model for Open-domain Question Answering ( http://arxiv.org/abs/2112.07381v1 )

ライセンス: CC BY-SA 4.0
Haejun Lee, Akhil Kedia, Jongwon Lee, Ashwin Paranjape, Christopher D. Manning, and Kyoung-Gu Woo(参考訳) オープンドメイン質問回答の最近の研究は、検索者モデルを用いて外部知識ベースを参照し、別のリランカモデルで経路を任意にリランクし、別の読者モデルを用いて回答を生成する。 関連するタスクを実行するにも関わらず、モデルは別々のパラメータを持ち、トレーニング中に弱結合する。 本稿では,変換器アーキテクチャ内で順次適用されたハードアテンション機構としてレトリバーとリランカをキャストし,結果の計算表現を読者に供給する手法を提案する。 この特異モデルアーキテクチャでは、隠れた表現をレトリバーからリカクタから読み手へと徐々に洗練し、モデルのキャパシティをより効率的に利用し、エンドツーエンドでトレーニングした場合の勾配フローを改善する。 また,このアーキテクチャを効果的に学習するための事前学習手法を提案する。 我々は,Natural QuestionsおよびTriviaQAオープンデータセットのモデルを評価するとともに,パラメータ予算の固定化により,従来の最先端モデルよりも1.0,0。

Recent works for Open-domain Question Answering refer to an external knowledge base using a retriever model, optionally rerank the passages with a separate reranker model and generate an answer using an another reader model. Despite performing related tasks, the models have separate parameters and are weakly-coupled during training. In this work, we propose casting the retriever and the reranker as hard-attention mechanisms applied sequentially within the transformer architecture and feeding the resulting computed representations to the reader. In this singular model architecture the hidden representations are progressively refined from the retriever to the reranker to the reader, which is more efficient use of model capacity and also leads to better gradient flow when we train it in an end-to-end manner. We also propose a pre-training methodology to effectively train this architecture. We evaluate our model on Natural Questions and TriviaQA open datasets and for a fixed parameter budget, our model outperforms the previous state-of-the-art model by 1.0 and 0.7 exact match scores.
翻訳日:2021-12-15 22:46:26 公開日:2021-12-14
# (参考訳) アウトレット固有の単語埋め込みの比較によるニュース記事中のバイアス項の同定 [全文訳有]

Identification of Biased Terms in News Articles by Comparison of Outlet-specific Word Embeddings ( http://arxiv.org/abs/2112.07384v1 )

ライセンス: CC BY 4.0
Timo Spinde, Lada Rudnitckaia, Felix Hamborg, Bela Gipp(参考訳) Slanted Newsの報道は、メディアバイアスとも呼ばれ、ニュース消費者がニュースを解釈し反応する方法に大きな影響を与える。 バイアス言語を自動的に識別するために,関連する単語の文脈を比較する探索的アプローチを提案する。 2つの単語埋め込みモデルを訓練し、1つは左翼のテキストで、もう1つは右翼のニュースメディアで訓練する。 我々の仮説は、単語の埋め込み空間における表現は、偏りのある単語よりも非偏りのある単語に類似している、というものである。 根底にある考え方は、異なるニュースメディアにおける偏りのある単語の文脈は、偏りのある単語の知覚がその文脈によって異なるため、偏りのない単語の文脈よりも強く変化するということである。 仮説を受理する統計的意義は見つからないが, 結果はアプローチの有効性を示す。 例えば、両方の単語埋め込み空間を線形にマッピングした後、最大距離を持つ単語の31%はバイアスを引き起こす可能性がある。 結果を改善するためには,データセットが大幅に大きくなる必要があることが分かり,今後の研究方向としてさらなる方法論が導出される。 本稿では,単語埋め込みによって計測されるバイアス単語の文脈を,初めて詳細に検討する。

Slanted news coverage, also called media bias, can heavily influence how news consumers interpret and react to the news. To automatically identify biased language, we present an exploratory approach that compares the context of related words. We train two word embedding models, one on texts of left-wing, the other on right-wing news outlets. Our hypothesis is that a word's representations in both word embedding spaces are more similar for non-biased words than biased words. The underlying idea is that the context of biased words in different news outlets varies more strongly than the one of non-biased words, since the perception of a word as being biased differs depending on its context. While we do not find statistical significance to accept the hypothesis, the results show the effectiveness of the approach. For example, after a linear mapping of both word embeddings spaces, 31% of the words with the largest distances potentially induce bias. To improve the results, we find that the dataset needs to be significantly larger, and we derive further methodology as future research direction. To our knowledge, this paper presents the first in-depth look at the context of bias words measured by word embeddings.
翻訳日:2021-12-15 22:23:53 公開日:2021-12-14
# (参考訳) tassy - テキストアノテーション調査システム [全文訳有]

TASSY -- A Text Annotation Survey System ( http://arxiv.org/abs/2112.07391v1 )

ライセンス: CC BY 4.0
Timo Spinde and Kanishka Sinha and Norman Meuschke and Bela Gipp(参考訳) テキストアノテーションタスクを含むwebベースの調査を作成するための,無償かつオープンソースなツールを提案する。 既存のツールはテキストアノテーションやサーベイ機能を提供するが、両方ではない。 2つの入力タイプを組み合わせることは、年齢、性別、教育といった読者の背景にも依存するテキストに対する読者の認識を調べることに特に関係している。 私たちのツールは、主に図書館や情報科学、社会科学、コンテンツ分析を適用して調査する人文科学、例えば、メディアバイアス、政治コミュニケーション、フェイクニュースなどの研究者のニーズに応えるものです。

We present a free and open-source tool for creating web-based surveys that include text annotation tasks. Existing tools offer either text annotation or survey functionality but not both. Combining the two input types is particularly relevant for investigating a reader's perception of a text which also depends on the reader's background, such as age, gender, and education. Our tool caters primarily to the needs of researchers in the Library and Information Sciences, the Social Sciences, and the Humanities who apply Content Analysis to investigate, e.g., media bias, political communication, or fake news.
翻訳日:2021-12-15 22:16:01 公開日:2021-12-14
# (参考訳) 偏っていると思いますか? メディアバイアスの認識にどう答えるか [全文訳有]

Do You Think It's Biased? How To Ask For The Perception Of Media Bias ( http://arxiv.org/abs/2112.07392v1 )

ライセンス: CC BY 4.0
Timo Spinde and Christina Kreuter and Wolfgang Gaissmaier and Felix Hamborg and Bela Gipp and Helge Giese(参考訳) メディアの報道は、イベントに対する大衆の認識に大きな影響を与えている。 メディアは、私たちの社会の信念や認識を大きく変えることができる。 それでも、ほぼ全てのメディアは、偏りのある方法でニュースを報道することが知られている。 このようなバイアスは、単語の選択や情報の省略によって導入できるが、バイアスの知覚は読者の個人的背景によっても大きく異なる。 したがって、メディアバイアスは識別と分析に非常に複雑な構造である。 メディアバイアスは多くの研究の対象となっているが、過去の評価戦略は単純化され、重複や経験的評価が欠如している。 そこで本研究では,記事バイアスを評価するための信頼性基準として利用できる尺度を開発することを目的とする。 例えば、ニュース記事の偏見を測定するために、「記事はどんな偏見があるのか?」と問うか、「この記事はアメリカの大統領をどう扱ったのか?」と問うべきなのか。 先行研究において,テキスト知覚に関する824の関連質問を検索し,文献検索を行った。 マルチイテレーティブなプロセスでは,これらの質問を意味的に要約して要約し,バイアスに関する可能な質問の完全かつ代表的な集合を結論づけた。 最終セットは25の質問、さまざまな回答形式、意味的差を用いた17の質問、感情の6の格付けで構成されていた。 190の記事で各質問をテストし、633人の参加者で、質問が記事の知覚バイアスをどの程度正確に測定しているかを確認した。 その結果,21項目がメディアバイアスの知覚測定に適し,信頼性が高いことがわかった。 私たちはhttp://bias-question -tree.gipplab.org/で質問の最後のセットを公開します。

Media coverage possesses a substantial effect on the public perception of events. The way media frames events can significantly alter the beliefs and perceptions of our society. Nevertheless, nearly all media outlets are known to report news in a biased way. While such bias can be introduced by altering the word choice or omitting information, the perception of bias also varies largely depending on a reader's personal background. Therefore, media bias is a very complex construct to identify and analyze. Even though media bias has been the subject of many studies, previous assessment strategies are oversimplified, lack overlap and empirical evaluation. Thus, this study aims to develop a scale that can be used as a reliable standard to evaluate article bias. To name an example: Intending to measure bias in a news article, should we ask, "How biased is the article?" or should we instead ask, "How did the article treat the American president?". We conducted a literature search to find 824 relevant questions about text perception in previous research on the topic. In a multi-iterative process, we summarized and condensed these questions semantically to conclude a complete and representative set of possible question types about bias. The final set consisted of 25 questions with varying answering formats, 17 questions using semantic differentials, and six ratings of feelings. We tested each of the questions on 190 articles with overall 663 participants to identify how well the questions measure an article's perceived bias. Our results show that 21 final items are suitable and reliable for measuring the perception of media bias. We publish the final set of questions on http://bias-question -tree.gipplab.org/.
翻訳日:2021-12-15 22:11:12 公開日:2021-12-14
# (参考訳) ゆっくりと変化する特徴の抽出によるロバスト化自動音声認識 [全文訳有]

Robustifying automatic speech recognition by extracting slowly varying features ( http://arxiv.org/abs/2112.07400v1 )

ライセンス: CC BY 4.0
Matias Pizarro and Dorothea Kolossa and Asja Fischer(参考訳) 過去数年間、ディープラーニングシステムは敵対的な例による攻撃によって非常に脆弱であることが示されている。 ニューラルネットワークに基づく自動音声認識(ASR)システムは例外ではない。 ターゲット外の攻撃は、人間が同じ単語を認識するように音声入力信号を変更することができ、asrシステムは異なる転写を予測するために制御される。 本稿では,asrシステムに入力を送る前に,低速特徴解析や低域通過フィルタを適用するか,あるいはその両方を適用することによって,音声信号から高速に変化する特徴を除去することによる,攻撃対象に対する防御機構を提案する。 このような方法で事前処理されたデータに基づいて訓練されたハイブリッドASRモデルの実証分析を行う。 最終的な提案モデルでは,ベースラインモデルと同じようなクリーンなデータ上でのパフォーマンスを示すと同時に,4倍以上の堅牢性を実現しています。

In the past few years, it has been shown that deep learning systems are highly vulnerable under attacks with adversarial examples. Neural-network-based automatic speech recognition (ASR) systems are no exception. Targeted and untargeted attacks can modify an audio input signal in such a way that humans still recognise the same words, while ASR systems are steered to predict a different transcription. In this paper, we propose a defense mechanism against targeted adversarial attacks consisting in removing fast-changing features from the audio signals, either by applying slow feature analysis, a low-pass filter, or both, before feeding the input to the ASR system. We perform an empirical analysis of hybrid ASR models trained on data pre-processed in such a way. While the resulting models perform quite well on benign data, they are significantly more robust against targeted adversarial attacks: Our final, proposed model shows a performance on clean data similar to the baseline model, while being more than four times more robust.
翻訳日:2021-12-15 21:54:10 公開日:2021-12-14
# (参考訳) ベイズフィルタを用いた分岐時間アクティブ推論 [全文訳有]

Branching Time Active Inference with Bayesian Filtering ( http://arxiv.org/abs/2112.07406v1 )

ライセンス: CC BY 4.0
Th\'eophile Champion, Marek Grze\'s, Howard Bowman(参考訳) 分岐時間アクティブ推論(Champion et al., 2021b,a)はベイズ模型の拡張の形式として計画を考えるためのフレームワークである。 そのルーツはアクティブ推論(Friston et al., 2016; Da Costa et al., 2020; Champion et al., 2021c)やモンテカルロ木探索(Browne et al., 2012)にも見られる。 これまで、潜在変数の推論は、変分メッセージパッシング(winn and bishop, 2005)によって提供される柔軟性を利用して行われており、これは因子グラフの端に沿ってメッセージを送信すると解釈できる反復的プロセスである(forney, 2001)。 本稿では,変分自由エネルギーの収束まで更新方程式の反復を必要としないベイズフィルタ (fox et al., 2003) と呼ばれる別の推論手法の効率性を利用する。 その代わり、このスキームは証拠の統合と将来の状態の予測という2つのフェーズを交互に行う。 どちらのフェーズも効率的に実行できるので、最先端よりも70倍のスピードアップが可能になる。

Branching Time Active Inference (Champion et al., 2021b,a) is a framework proposing to look at planning as a form of Bayesian model expansion. Its root can be found in Active Inference (Friston et al., 2016; Da Costa et al., 2020; Champion et al., 2021c), a neuroscientific framework widely used for brain modelling, as well as in Monte Carlo Tree Search (Browne et al., 2012), a method broadly applied in the Reinforcement Learning literature. Up to now, the inference of the latent variables was carried out by taking advantage of the flexibility offered by Variational Message Passing (Winn and Bishop, 2005), an iterative process that can be understood as sending messages along the edges of a factor graph (Forney, 2001). In this paper, we harness the efficiency of an alternative method for inference called Bayesian Filtering (Fox et al., 2003), which does not require the iteration of the update equations until convergence of the Variational Free Energy. Instead, this scheme alternates between two phases: integration of evidence and prediction of future states. Both of those phases can be performed efficiently and this provides a seventy times speed up over the state-of-the-art.
翻訳日:2021-12-15 21:42:39 公開日:2021-12-14
# (参考訳) バイザーズ言語検出の信頼性向上に向けて [全文訳有]

Towards A Reliable Ground-Truth For Biased Language Detection ( http://arxiv.org/abs/2112.07421v1 )

ライセンス: CC BY 4.0
Timo Spinde, David Krieger, Manuel Plank, Bela Gipp(参考訳) 百科事典やニュース記事のような参照テキストは、客観的な報告が主観的な記述に置き換えられる場合、偏りのある言語を表わすことがある。 バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。 しかし、アノテータの低一致とコンパラビリティは、利用可能なメディアバイアスコーパスの重大な欠点である。 データ収集オプションを評価するために、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを収集し、比較する。 我々の結果は、既存のクラウドソーシングアプローチによるデータ品質の欠如を実証し、より信頼性の高いデータセットを集めるためのトレーニング済みのエキスパートフレームワークの必要性を説明している。 このようなフレームワークを作成して、最初のデータセットを集めることで、Krippendorff氏の$\alpha$ = 0.144 (crowdsourcing labels)を$\alpha$ = 0.419 (expert labels)に改善することができます。 より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。 将来的にはデータセットを拡張していくつもりです。

Reference texts such as encyclopedias and news articles can manifest biased language when objective reporting is substituted by subjective writing. Existing methods to detect bias mostly rely on annotated data to train machine learning models. However, low annotator agreement and comparability is a substantial drawback in available media bias corpora. To evaluate data collection options, we collect and compare labels obtained from two popular crowdsourcing platforms. Our results demonstrate the existing crowdsourcing approaches' lack of data quality, underlining the need for a trained expert framework to gather a more reliable dataset. By creating such a framework and gathering a first dataset, we are able to improve Krippendorff's $\alpha$ = 0.144 (crowdsourcing labels) to $\alpha$ = 0.419 (expert labels). We conclude that detailed annotator training increases data quality, improving the performance of existing bias detection systems. We will continue to extend our dataset in the future.
翻訳日:2021-12-15 21:33:58 公開日:2021-12-14
# (参考訳) 弱教師付きセマンティックセグメンテーションにおける擬似マスク雑音除去のための応答スケーリングによる不確かさ推定 [全文訳有]

Uncertainty Estimation via Response Scaling for Pseudo-mask Noise Mitigation in Weakly-supervised Semantic Segmentation ( http://arxiv.org/abs/2112.07431v1 )

ライセンス: CC0 1.0
Yi Li, Yiqun Duan, Zhanghui Kuang, Yimin Chen, Wayne Zhang, Xiaomeng Li(参考訳) WSSS (Weakly Supervised Semantic Segmentation) は、高密度アノテーションの重い負担なしにオブジェクトをセグメント化する。 価格として、生成された擬似マスクは明らかにノイズの多いピクセルが存在し、結果としてこれらの擬似マスク上で訓練された準最適セグメンテーションモデルが得られる。 しかし、こうしたノイズの多いピクセルでさえ、疑似マスクの改良の後、避けられないことだ。 そこで、ノイズ緩和の観点からWSSSを改善しようとしています。 また,多くのノイズ画素が高信頼であり,特に応答範囲が広すぎるか狭すぎる場合,不確実な状態を示す。 そこで本研究では,不確実性推定のための予測マップを複数回スケーリングすることで,応答のノイズ変動をシミュレートする。 不確実性はセグメンテーション損失の重み付けに使われ、ノイズの監視信号を緩和する。 雑音緩和のための応答スケーリングによる不確実性推定から,本手法をurnと呼ぶ。 URNの利点を検証し,本手法はPASCAL VOC 2012とMS COCO 2014でそれぞれ71.2%,41.5%の最先端結果を達成する。 コードはhttps://github.com/X Med-Lab/URN.comで入手できる。

Weakly-Supervised Semantic Segmentation (WSSS) segments objects without a heavy burden of dense annotation. While as a price, generated pseudo-masks exist obvious noisy pixels, which result in sub-optimal segmentation models trained over these pseudo-masks. But rare studies notice or work on this problem, even these noisy pixels are inevitable after their improvements on pseudo-mask. So we try to improve WSSS in the aspect of noise mitigation. And we observe that many noisy pixels are of high confidence, especially when the response range is too wide or narrow, presenting an uncertain status. Thus, in this paper, we simulate noisy variations of response by scaling the prediction map multiple times for uncertainty estimation. The uncertainty is then used to weight the segmentation loss to mitigate noisy supervision signals. We call this method URN, abbreviated from Uncertainty estimation via Response scaling for Noise mitigation. Experiments validate the benefits of URN, and our method achieves state-of-the-art results at 71.2% and 41.5% on PASCAL VOC 2012 and MS COCO 2014 respectively, without extra models like saliency detection. Code is available at https://github.com/X Med-Lab/URN.
翻訳日:2021-12-15 21:30:27 公開日:2021-12-14
# (参考訳) Few-Shot Intent Detectionのための自然言語推論に基づくセットアップの限界探索 [全文訳有]

Exploring the Limits of Natural Language Inference Based Setup for Few-Shot Intent Detection ( http://arxiv.org/abs/2112.07434v1 )

ライセンス: CC BY 4.0
Vijit Malik, Ayush Kumar, Jithendra Veppa(参考訳) 目標指向ダイアログシステムのコアコンポーネントの1つは、意図検出のタスクである。 注釈付き発話が不足しているため、インテント検出による学習は困難である。 メトリックベースと最適化ベースの手法を用いた最近の研究が提案されているが、大きなラベル空間とより少ないショットでは依然として課題となっている。 テスト段階では、新しいクラスと見たクラスの両方が存在するため、一般的なFew-shot学習は困難である。 本研究では,ショットインテント検出の問題に対処できるだけでなく,ゼロショットや一般化されたショット学習問題にも有効であることを証明し,自然言語推論に基づく簡便で効果的な手法を提案する。 自然言語理解(NLU)および音声言語理解(SLU)データセットに関する広範な実験は、我々のアプローチの有効性を示している。 さらに、nliベースメソッドがベースラインを圧倒的に上回る設定についても強調する。

One of the core components of goal-oriented dialog systems is the task of Intent Detection. Few-shot Learning upon Intent Detection is challenging due to the scarcity of available annotated utterances. Although recent works making use of metric-based and optimization-based methods have been proposed, the task is still challenging in large label spaces and much smaller number of shots. Generalized Few-shot learning is more difficult due to the presence of both novel and seen classes during the testing phase. In this work, we propose a simple and effective method based on Natural Language Inference that not only tackles the problem of few shot intent detection, but also proves useful in zero-shot and generalized few shot learning problems. Our extensive experiments on a number of Natural Language Understanding (NLU) and Spoken Language Understanding (SLU) datasets show the effectiveness of our approach. In addition, we highlight the settings in which our NLI based method outperforms the baselines by huge margins.
翻訳日:2021-12-15 21:15:24 公開日:2021-12-14
# (参考訳) フォームエンティティリンクのためのテキスト分類モデル [全文訳有]

Text Classification Models for Form Entity Linking ( http://arxiv.org/abs/2112.07443v1 )

ライセンス: CC BY 4.0
Mar\'ia Villota, C\'esar Dom\'inguez, J\'onathan Heras, Eloy Mata, and Vico Pascual(参考訳) フォームは、管理、医療、金融、保険など、さまざまな分野で使用されるテンプレートベースのドキュメントの広範なタイプである。 これらの文書に含まれる情報の自動抽出は、日常的に発生するフォームの量の増加により、大幅に要求される。 しかし、フォームエンティティの異なるテンプレートの多様性とスキャンされたドキュメントの品質のため、スキャンされたフォームを扱う場合、これは簡単な作業ではない。 このコンテキストでは、すべての形式で共有される機能がある: ヘッダやイメージなどの他のエンティティとともに、キー-値(またはラベル-値)ペアとして構築されたリンクされたエンティティのコレクションを含む。 本研究では,画像処理技術とbertアーキテクチャに基づくテキスト分類モデルを組み合わせて,フォーム上のエンティティリンクの問題に取り組んでいる。 このアプローチは、FUNSDデータセット上でF1スコアの0.80で最先端の結果を達成する。 このプロジェクトのコードはhttps://github.com/m avillot/funsd-entity -linkingで入手できる。

Forms are a widespread type of template-based document used in a great variety of fields including, among others, administration, medicine, finance, or insurance. The automatic extraction of the information included in these documents is greatly demanded due to the increasing volume of forms that are generated in a daily basis. However, this is not a straightforward task when working with scanned forms because of the great diversity of templates with different location of form entities, and the quality of the scanned documents. In this context, there is a feature that is shared by all forms: they contain a collection of interlinked entities built as key-value (or label-value) pairs, together with other entities such as headers or images. In this work, we have tacked the problem of entity linking in forms by combining image processing techniques and a text classification model based on the BERT architecture. This approach achieves state-of-the-art results with a F1-score of 0.80 on the FUNSD dataset, a 5% improvement regarding the best previous method. The code of this project is available at https://github.com/m avillot/FUNSD-Entity -Linking.
翻訳日:2021-12-15 21:05:42 公開日:2021-12-14
# (参考訳) ベイズ最適化のための三角形候補 [全文訳有]

Triangulation candidates for Bayesian optimization ( http://arxiv.org/abs/2112.07457v1 )

ライセンス: CC BY 4.0
Robert B. Gramacy, Annie Sauer, Nathan Wycoff(参考訳) ベイズ最適化は逐次設計の一形態である: 入力-出力関係を適度に柔軟な非線形回帰モデルで理想化する; 最初の実験キャンペーンのデータに適合する; 適合したモデル(例えば、予測方程式)の下で次の実験条件を選択するための基準を考案し、最適化する; 興味のある結果(ミニマなど)を目標とする。 多くの場合、新しいデータ取得基準に対するこの「インナー最適化」は、非凸/高多重モードであり、微分不可能である場合や、特にモンテカルロを必要とする場合の数値オプティマイザを妨害する場合があるため、厄介である。 そのような場合、連続探索をランダムな候補よりも離散的に置き換えることは珍しくない。 本稿では,既存の入力設計のデラウネー三角測量に基づく候補を提案する。 これらの "tricands" の構成を詳述するとともに,従来の凸包ライブラリを包む単純なラッパーを基礎として,幾何学的基準の性質に基づくいくつかの利点を奨励する。 次に、ベンチマーク問題に対する数値最適化による獲得法とランダム候補に基づく代替法の両方と比較して、トリカンドがベイズ最適化性能にどのように寄与するかを実証的に示す。

Bayesian optimization is a form of sequential design: idealize input-output relationships with a suitably flexible nonlinear regression model; fit to data from an initial experimental campaign; devise and optimize a criterion for selecting the next experimental condition(s) under the fitted model (e.g., via predictive equations) to target outcomes of interest (say minima); repeat after acquiring output under those conditions and updating the fit. In many situations this "inner optimization" over the new-data acquisition criterion is cumbersome because it is non-convex/highly multi-modal, may be non-differentiable, or may otherwise thwart numerical optimizers, especially when inference requires Monte Carlo. In such cases it is not uncommon to replace continuous search with a discrete one over random candidates. Here we propose using candidates based on a Delaunay triangulation of the existing input design. In addition to detailing construction of these "tricands", based on a simple wrapper around a conventional convex hull library, we promote several advantages based on properties of the geometric criterion involved. We then demonstrate empirically how tricands can lead to better Bayesian optimization performance compared to both numerically optimized acquisitions and random candidate-based alternatives on benchmark problems.
翻訳日:2021-12-15 20:57:03 公開日:2021-12-14
# (参考訳) 主観的NLP課題に対する2つの対比データアノテーションパラダイム [全文訳有]

Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks ( http://arxiv.org/abs/2112.07475v1 )

ライセンス: CC BY 4.0
Paul R\"ottger, Bertie Vidgen, Dirk Hovy, Janet B. Pierrehumbert(参考訳) Labelled Dataは、ほとんどの自然言語処理タスクの基盤である。 しかし、データのラベル付けは困難であり、正しいデータラベルがどうあるべきかについての様々な有効な信念が存在することが多い。 今のところ、データセットの作成者はアノテーションの主観性を認めているが、アノテーションのプロセスではアクティブに管理していない。 これにより、ダウンストリームの明確な使用に失敗する部分オブジェクトデータセットが実現した。 この問題に対処するため、データアノテーションのコントラストパラダイムを2つ提案する。 記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げる。 記述的アノテーションは異なる信念の調査とモデリングを可能にし、規範的アノテーションは1つの信念を一貫して適用するモデルのトレーニングを可能にする。 我々は、両方のパラダイムを実装する際のメリットと課題について議論し、データセット作成者は、データセットの意図した使用を促進するために、互いに明示的に目的を定めるべきである、と論じる。 最後に,2つのパラダイム間のコントラストを示すアノテーション実験を設計する。

Labelled data is the foundation of most natural language processing tasks. However, labelling data is difficult and there often are diverse valid beliefs about what the correct data labels should be. So far, dataset creators have acknowledged annotator subjectivity, but not actively managed it in the annotation process. This has led to partly-subjective datasets that fail to serve a clear downstream use. To address this issue, we propose two contrasting paradigms for data annotation. The descriptive paradigm encourages annotator subjectivity, whereas the prescriptive paradigm discourages it. Descriptive annotation allows for the surveying and modelling of different beliefs, whereas prescriptive annotation enables the training of models that consistently apply one belief. We discuss benefits and challenges in implementing both paradigms, and argue that dataset creators should explicitly aim for one or the other to facilitate the intended use of their dataset. Lastly, we design an annotation experiment to illustrate the contrast between the two paradigms.
翻訳日:2021-12-15 20:27:36 公開日:2021-12-14
# (参考訳) 成功の知覚ダイナミクス: ストーリーアークのフラクタルスケーリングは読者の嗜好を予測する [全文訳有]

Sentiment Dynamics of Success: Fractal Scaling of Story Arcs Predicts Reader Preferences ( http://arxiv.org/abs/2112.07497v1 )

ライセンス: CC BY 4.0
Yuri Bizzoni, Telma Peura, Mads R. Thomsen, Kristoffer Nielbo(参考訳) 我々は,H.C.アンデルセンの妖精物語の感情圏と,プラットフォームGoodReadsの平均スコアとして評価される人気との相関について検討した。 具体的には、ストーリーの全体的な感情傾向を予測する \textit{per se} とは考えていないが、その一貫性と予測可能性に焦点を当てている。 劣化するハースト値が品質スコアを劣化させる傾向にあるのに対し、.55から.65の間のハースト指数は文学的評価の「スイートスポット」を示す可能性がある。

We explore the correlation between the sentiment arcs of H. C. Andersen's fairy tales and their popularity, measured as their average score on the platform GoodReads. Specifically, we do not conceive a story's overall sentimental trend as predictive \textit{per se}, but we focus on its coherence and predictability over time as represented by the arc's Hurst exponent. We find that degrading Hurst values tend to imply degrading quality scores, while a Hurst exponent between .55 and .65 might indicate a "sweet spot" for literary appreciation.
翻訳日:2021-12-15 20:15:39 公開日:2021-12-14
# (参考訳) グラフにおける最短パスの再構成 [全文訳有]

Reconfiguring Shortest Paths in Graphs ( http://arxiv.org/abs/2112.07499v1 )

ライセンス: CC BY 4.0
Kshitij Gajjar, Agastya Vibhuti Jha, Manish Kumar and Abhiruk Lahiri(参考訳) グラフ内の2つの最短経路を再構成することは、すべての中間経路が最短経路であるように、一度に1つの頂点を変更することによって、もう1つの最短経路を変更することを意味する。 この問題にはいくつかの自然応用がある。 (a)道路網の整備。 (b)同期マルチプロセッシング設定におけるデータパケットの再ルーティング (c)運送容器詰まりの問題、及び (d)列車のマーシャリングの問題。 グラフ問題としてモデル化された場合 a)が最も一般的な場合 (b) (c)および (d) は異なるグラフクラスに対する制限である。 私たちはそれを示します (a)問題を緩和した変種であっても難解である。 のために (b) (c)および (d)各問題を解決するための効率的なアルゴリズムを提案する。 また、この問題を少なくとも$k$(固定整数 $k\geq 2$) の最小経路上の連続頂点を一度に変更することができるように一般化する。

Reconfiguring two shortest paths in a graph means modifying one shortest path to the other by changing one vertex at a time so that all the intermediate paths are also shortest paths. This problem has several natural applications, namely: (a) revamping road networks, (b) rerouting data packets in synchronous multiprocessing setting, (c) the shipping container stowage problem, and (d) the train marshalling problem. When modelled as graph problems, (a) is the most general case while (b), (c) and (d) are restrictions to different graph classes. We show that (a) is intractable, even for relaxed variants of the problem. For (b), (c) and (d), we present efficient algorithms to solve the respective problems. We also generalize the problem to when at most $k$ (for a fixed integer $k\geq 2$) contiguous vertices on a shortest path can be changed at a time.
翻訳日:2021-12-15 20:08:05 公開日:2021-12-14
# (参考訳) グラフを用いた機械学習による反モニー洗浄アラート最適化 [全文訳有]

Anti-Money Laundering Alert Optimization Using Machine Learning with Graphs ( http://arxiv.org/abs/2112.07508v1 )

ライセンス: CC BY 4.0
Ahmad Naser Eddin, Jacopo Bono, David Apar\'icio, David Polido, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro, Pedro Ribeiro(参考訳) マネーロンダリング(英: money laundering)は、麻薬取引、人身売買、汚職などの重罪(毎年1.7-4兆ユーロ)から収益を正当化することに関する世界的な問題である。 金融機関が展開するマネーロンダリングシステムは通常、規制の枠組みに沿って規則を構成する。 人間の調査員は警告を見直し、不審な事件を報告します。 このようなシステムは偽陽性率が高く、有効性が低下し、運用コストが高くなる。 本稿では,ルールベースシステムを補完し,警告のリスクを正確に予測する機械学習トリアージモデルを提案する。 我々のモデルは、エンティティ中心のエンジニアリングされた特徴と、グラフベースの特徴の形での相互関係を特徴付ける属性の両方を使用する。 時間窓を利用して動的グラフを構築し、時間と空間効率を最適化する。 我々は,実世界のバンキングデータセット上でのモデル検証を行い,三重項モデルが偽陽性の数を80%削減し,正の90%以上を検出できることを示す。 このようにして,本モデルはマネーロンダリング対策を大幅に改善することができる。

Money laundering is a global problem that concerns legitimizing proceeds from serious felonies (1.7-4 trillion euros annually) such as drug dealing, human trafficking, or corruption. The anti-money laundering systems deployed by financial institutions typically comprise rules aligned with regulatory frameworks. Human investigators review the alerts and report suspicious cases. Such systems suffer from high false-positive rates, undermining their effectiveness and resulting in high operational costs. We propose a machine learning triage model, which complements the rule-based system and learns to predict the risk of an alert accurately. Our model uses both entity-centric engineered features and attributes characterizing inter-entity relations in the form of graph-based features. We leverage time windows to construct the dynamic graph, optimizing for time and space efficiency. We validate our model on a real-world banking dataset and show how the triage model can reduce the number of false positives by 80% while detecting over 90% of true positives. In this way, our model can significantly improve anti-money laundering operations.
翻訳日:2021-12-15 19:38:33 公開日:2021-12-14
# (参考訳) LMTurk: クラウドソーシングワーカーとして学ぶ人はほとんどいない [全文訳有]

LMTurk: Few-Shot Learners as Crowdsourcing Workers ( http://arxiv.org/abs/2112.07522v1 )

ライセンス: CC BY 4.0
Mengjie Zhao, Fei Mi, Yasheng Wang, Minglei Li, Xin Jiang, Qun Liu, Hinrich Sch\"utze(参考訳) ハイパフォーマンスな少数ショット学習者、すなわち、少ないトレーニングデータでうまく機能するモデルの作成に多大な努力が払われている。 大規模事前訓練型言語モデル(PLM)の訓練には多大なコストがかかるが,PLMをベースとした少数ショット学習者の利用は,その巨大さから依然として困難である。 この研究は重要な問題に焦点を当てている。これらの数発の学習者を効果的に活用するにはどうすればよいのか? 少人数の学習者をクラウドソーシング労働者として扱う新しいアプローチであるLMTurkを提案する。 クラウドソーシングワーカーは、実際にわずかなショット学習者であり、タスクについて学び、注釈を付け始めるためのいくつかの例を示す。 LMTurkは、PLM上に構築された数発の学習者を労働者として採用している。 得られたアノテーションは、タスクをうまく解決し、実用的なシナリオでデプロイできるくらい小さいモデルを訓練するために利用できることを示す。 lmturkは、現在のplmベースのマイノリティ学習を効果的に活用するための重要なステップだ。

Vast efforts have been devoted to creating high-performance few-shot learners, i.e., models that perform well with little training data. Training large-scale pretrained language models (PLMs) has incurred significant cost, but utilizing PLM-based few-shot learners is still challenging due to their enormous size. This work focuses on a crucial question: How to make effective use of these few-shot learners? We propose LMTurk, a novel approach that treats few-shot learners as crowdsourcing workers. The rationale is that crowdsourcing workers are in fact few-shot learners: They are shown a few illustrative examples to learn about a task and then start annotating. LMTurk employs few-shot learners built upon PLMs as workers. We show that the resulting annotations can be utilized to train models that solve the task well and are small enough to be deployable in practical scenarios. Altogether, LMTurk is an important step towards making effective use of current PLM-based few-shot learners.
翻訳日:2021-12-15 19:27:59 公開日:2021-12-14
# (参考訳) 合成データ拡張によるCOVID-19 CXR検出の改善 [全文訳有]

Improving COVID-19 CXR Detection with Synthetic Data Augmentation ( http://arxiv.org/abs/2112.07529v1 )

ライセンス: CC BY 4.0
Daniel Schaudt, Christopher Kloth, Christian Spaete, Andreas Hinteregger, Meinrad Beer, Reinhold von Schwerin(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの開始以来、研究者らは新型コロナウイルスによる肺炎を分類するディープラーニングモデルを開発した。 多くの医療画像処理と同様に、利用可能なデータの質と量はしばしば制限される。 本研究は,新型コロナウイルス画像データを用いた深層学習モデルを訓練し,局所病院胸部X線データによる評価を行う。 このデータを2人の放射線学者によってレビュー・ラベルし、モデルの一般化能力を高精度に評価した。 さらに, 生成的逆ネットワークを用いて, このデータに基づいて合成x線画像を生成する。 以上の結果から,データ拡張に合成画像を用いることで,モデルの性能が著しく向上することが示唆された。 これは多くのスパースデータドメインにとって有望なアプローチである。

Since the beginning of the COVID-19 pandemic, researchers have developed deep learning models to classify COVID-19 induced pneumonia. As with many medical imaging tasks, the quality and quantity of the available data is often limited. In this work we train a deep learning model on publicly available COVID-19 image data and evaluate the model on local hospital chest X-ray data. The data has been reviewed and labeled by two radiologists to ensure a high quality estimation of the generalization capabilities of the model. Furthermore, we are using a Generative Adversarial Network to generate synthetic X-ray images based on this data. Our results show that using those synthetic images for data augmentation can improve the model's performance significantly. This can be a promising approach for many sparse data domains.
翻訳日:2021-12-15 18:56:14 公開日:2021-12-14
# (参考訳) 適応長制御による強化抽象要約 [全文訳有]

Reinforced Abstractive Summarization with Adaptive Length Controlling ( http://arxiv.org/abs/2112.07534v1 )

ライセンス: CC BY 4.0
Mingyang Song, Yi Feng, Liping Jing(参考訳) 自然言語生成における基本的なタスクである文書要約は、与えられた文書に対して短く一貫性のある要約を生成することを目的としている。 制御可能な要約、特に長さは、いくつかの実用アプリケーション、特に長さ制約と情報の整合性をトレードオフする方法において重要な問題である。 本稿では,強化学習による2段階抽象要約モデルを活用するために,textbf{a}daptive \textbf{l}ength \textbf{c}ontrolling \textbf{o}ptimization (\textbf{alco})法を提案する。 ALCOは、長さ制約を文抽出の段階に組み込んで、過剰な長さ抽出文をペナルティ化する。 一方,サリエンシ推定機構は,生成した文のサリエンシ情報を保存するように設計されている。 大規模なベンチマークデータセットであるtextit{CNN/Daily Mail}で、一連の実験が行われた。 その結果、ALCOは長さ制御性とコンテンツ保存の観点から、一般的なベースラインよりも優れていた。

Document summarization, as a fundamental task in natural language generation, aims to generate a short and coherent summary for a given document. Controllable summarization, especially of the length, is an important issue for some practical applications, especially how to trade-off the length constraint and information integrity. In this paper, we propose an \textbf{A}daptive \textbf{L}ength \textbf{C}ontrolling \textbf{O}ptimization (\textbf{ALCO}) method to leverage two-stage abstractive summarization model via reinforcement learning. ALCO incorporates length constraint into the stage of sentence extraction to penalize the overlength extracted sentences. Meanwhile, a saliency estimation mechanism is designed to preserve the salient information in the generated sentences. A series of experiments have been conducted on a wildly-used benchmark dataset \textit{CNN/Daily Mail}. The results have shown that ALCO performs better than the popular baselines in terms of length controllability and content preservation.
翻訳日:2021-12-15 18:47:30 公開日:2021-12-14
# (参考訳) KL正規化探索による強・人型ゲームプレイのモデリング

Modeling Strong and Human-Like Gameplay with KL-Regularized Search ( http://arxiv.org/abs/2112.07544v1 )

ライセンス: CC BY 4.0
Athul Paul Jacob, David J. Wu, Gabriele Farina, Adam Lerer, Anton Bakhtin, Jacob Andreas, Noam Brown(参考訳) 我々は,人間行動の例として,多エージェント意思決定問題において強いが人間的な政策を構築することを考える。 模倣学習は人間の行動を予測するのに効果的であるが、専門家の人間の強さと一致しない場合もあるが、自己学習と探索技術(例えばAlphaZero)は強いパフォーマンスをもたらすが、人間が理解し、協調することが難しい政策を生み出す可能性がある。 チェスと囲碁では、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化すると、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成する。 次に、模倣学習からKLの発散に基づいて正規化される新しい後悔最小化アルゴリズムを導入し、このアルゴリズムを非抑圧外交に適用すると、擬似学習と同じ人間の予測精度を維持しつつ、より強力であることを示す。

We consider the task of building strong but human-like policies in multi-agent decision-making problems, given examples of human behavior. Imitation learning is effective at predicting human actions but may not match the strength of expert humans, while self-play learning and search techniques (e.g. AlphaZero) lead to strong performance but may produce policies that are difficult for humans to understand and coordinate with. We show in chess and Go that regularizing search policies based on the KL divergence from an imitation-learned policy by applying Monte Carlo tree search produces policies that have higher human prediction accuracy and are stronger than the imitation policy. We then introduce a novel regret minimization algorithm that is regularized based on the KL divergence from an imitation-learned policy, and show that applying this algorithm to no-press Diplomacy yields a policy that maintains the same human prediction accuracy as imitation learning while being substantially stronger.
翻訳日:2021-12-15 18:32:48 公開日:2021-12-14
# (参考訳) VALSE:言語現象を中心とした視覚・言語モデルのためのタスク非依存ベンチマーク [全文訳有]

VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena ( http://arxiv.org/abs/2112.07566v1 )

ライセンス: CC BY 4.0
Letitia Parcalabescu, Michele Cafagna, Lilitta Muradjan, Anette Frank, Iacer Calixto, Albert Gatt(参考訳) VALSE (Vision And Language Structured Evaluation, VALSE) は,特定の言語現象に対する視覚言語学的基盤機能のための,汎用的な事前学習型視覚・言語(V&L)モデルをテストするための新しいベンチマークである。 VALSEは、様々な言語構造をカバーする6つのテストスイートを提供する。 これらを解決するためには、視覚的モダリティにおいて言語現象を基底とするモデルが必要である。 我々は有効なホイルの構築を支援する手法を用いてVALSEを構築し、5つの広く使われているV&Lモデルの評価結果を報告する。 実験の結果,現在のモデルではほとんどの現象に対処することが困難であることが示唆された。 したがって、VALSEは、言語学的観点から事前訓練されたV&Lモデルの今後の進歩を測定する重要なベンチマークとして機能し、標準的なタスク中心のV&L評価を補完する。

We propose VALSE (Vision And Language Structured Evaluation), a novel benchmark designed for testing general-purpose pretrained vision and language (V&L) models for their visio-linguistic grounding capabilities on specific linguistic phenomena. VALSE offers a suite of six tests covering various linguistic constructs. Solving these requires models to ground linguistic phenomena in the visual modality, allowing more fine-grained evaluations than hitherto possible. We build VALSE using methods that support the construction of valid foils, and report results from evaluating five widely-used V&L models. Our experiments suggest that current models have considerable difficulty addressing most phenomena. Hence, we expect VALSE to serve as an important benchmark to measure future progress of pretrained V&L models from a linguistic perspective, complementing the canonical task-centred V&L evaluations.
翻訳日:2021-12-15 18:31:32 公開日:2021-12-14
# (参考訳) GPL:Dense Retrievalの教師なしドメイン適応のための生成擬似ラベル [全文訳有]

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval ( http://arxiv.org/abs/2112.07577v1 )

ライセンス: CC BY-SA 4.0
Kexin Wang, Nandan Thakur, Nils Reimers, Iryna Gurevych(参考訳) 難解な検索手法は語彙的ギャップを克服し、検索結果を大幅に改善する。 しかし、ほとんどのドメインでは利用できない大量のトレーニングデータが必要である。 前述したように(Thakur et al., 2021b)、高密度レトリバーの性能はドメインシフトによって著しく低下する。 これにより、大規模なトレーニングデータセットを持つ少数のドメインに限定される。 本稿では,クエリ生成器とクロスエンコーダからの擬似ラベリングを組み合わせた,非教師なしドメイン適応法生成型擬似ラベリング(gpl)を提案する。 6つの代表的なドメイン特化データセットにおいて、提案されたGPLは8.9ポイントのnDCG@10で最先端の高密度検索手法より優れていることが判明した。 gplは、対象ドメインからの(ラベルなし)データが少なく、以前の方法よりもトレーニングが堅牢である。 さらに,検索作業におけるドメイン適応のシナリオにおいて,最近の6つの事前学習手法が果たす役割について検討した。 最善のアプローチであるtsdae(wang et al., 2021)はgplと組み合わせることができ、6つのタスクで1.0ポイントのndcg@10が改善される。

Dense retrieval approaches can overcome the lexical gap and lead to significantly improved search results. However, they require large amounts of training data which is not available for most domains. As shown in previous work (Thakur et al., 2021b), the performance of dense retrievers severely degrades under a domain shift. This limits the usage of dense retrieval approaches to only a few domains with large training datasets. In this paper, we propose the novel unsupervised domain adaptation method Generative Pseudo Labeling (GPL), which combines a query generator with pseudo labeling from a cross-encoder. On six representative domain-specialized datasets, we find the proposed GPL can outperform an out-of-the-box state-of-the-art dense retrieval approach by up to 8.9 points nDCG@10. GPL requires less (unlabeled) data from the target domain and is more robust in its training than previous methods. We further investigate the role of six recent pre-training methods in the scenario of domain adaptation for retrieval tasks, where only three could yield improved results. The best approach, TSDAE (Wang et al., 2021) can be combined with GPL, yielding another average improvement of 1.0 points nDCG@10 across the six tasks.
翻訳日:2021-12-15 17:58:44 公開日:2021-12-14
# (参考訳) 単一画像超解像のためのチャネルワイドノイズの緩和 [全文訳有]

Mitigating Channel-wise Noise for Single Image Super Resolution ( http://arxiv.org/abs/2112.07589v1 )

ライセンス: CC BY 4.0
Srimanta Mandal, Kuldeep Purohit, and A. N. Rajagopalan(参考訳) 実際には、画像には異なる色チャネルのノイズが含まれているため、既存の超解像度アプローチでは認識できない。 本稿では,カラーチャネルを共同で考慮し,ノイズカラー画像の超解法を提案する。 ノイズ統計は入力された低解像度画像から盲目的に推定され、データコストにおいて異なる色チャネルに異なる重みを割り当てるのに使用される。 視覚データの暗黙の低ランク構造は、適応重みと関連する核ノルム最小化によって実施され、これはコストの正規化用語として加えられる。 さらに、入力画像の異なるスケールで抽出された類似のパッチを用いて構築されたPCAベースへの投影を含む別の正規化項により、画像のマルチスケール詳細をモデルに追加する。 その結果、実際のシナリオにおけるアプローチの超解法能力が実証された。

In practice, images can contain different amounts of noise for different color channels, which is not acknowledged by existing super-resolution approaches. In this paper, we propose to super-resolve noisy color images by considering the color channels jointly. Noise statistics are blindly estimated from the input low-resolution image and are used to assign different weights to different color channels in the data cost. Implicit low-rank structure of visual data is enforced via nuclear norm minimization in association with adaptive weights, which is added as a regularization term to the cost. Additionally, multi-scale details of the image are added to the model through another regularization term that involves projection onto PCA basis, which is constructed using similar patches extracted across different scales of the input image. The results demonstrate the super-resolving capability of the approach in real scenarios.
翻訳日:2021-12-15 17:37:38 公開日:2021-12-14
# (参考訳) ヘビーテールデータに対する治療効果推定器の評価 [全文訳有]

Assessment of Treatment Effect Estimators for Heavy-Tailed Data ( http://arxiv.org/abs/2112.07602v1 )

ライセンス: CC BY 4.0
Nilesh Tripuraneni, Dhruv Madeka, Dean Foster, Dominique Perrault-Joncas, Michael I. Jordan(参考訳) ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。 本稿では,この課題に対処する新しいクロスバリデーション的手法を提案する。 提案手法の重要な洞察は,ノイズ(偏りのない)差分推定をRCTの一部の「ラベル」として用いることで,他の部分で訓練された推定器の性能をテストすることである。 本研究では, この知見を, RCT の集合全体にわたる統計的強度を借用した集約手法と組み合わせ, 基礎となる治療効果を推定するエンド・ツー・エンド手法を提案する。 本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。 amazonでのabテストのコーパスでは、応答変数の重み付き性質による治療効果の回復に伴う独特の困難を強調する。 この重み付け設定では, 治療効果がより正確に評価されるように, 偏差を十分に低く抑えながら, 重み付けや大きな値の切り落しを積極的に行う手法が提案されている。

A central obstacle in the objective assessment of treatment effect (TE) estimators in randomized control trials (RCTs) is the lack of ground truth (or validation set) to test their performance. In this paper, we provide a novel cross-validation-lik e methodology to address this challenge. The key insight of our procedure is that the noisy (but unbiased) difference-of-means estimate can be used as a ground truth "label" on a portion of the RCT, to test the performance of an estimator trained on the other portion. We combine this insight with an aggregation scheme, which borrows statistical strength across a large collection of RCTs, to present an end-to-end methodology for judging an estimator's ability to recover the underlying treatment effect. We evaluate our methodology across 709 RCTs implemented in the Amazon supply chain. In the corpus of AB tests at Amazon, we highlight the unique difficulties associated with recovering the treatment effect due to the heavy-tailed nature of the response variables. In this heavy-tailed setting, our methodology suggests that procedures that aggressively downweight or truncate large values, while introducing bias lower the variance enough to ensure that the treatment effect is more accurately estimated.
翻訳日:2021-12-15 17:24:47 公開日:2021-12-14
# GEO-BLEU:地球空間配列の類似度測定

GEO-BLEU: Similarity Measure for Geospatial Sequences ( http://arxiv.org/abs/2112.07144v1 )

ライセンス: Link先を確認
Toru Shimizu, Kota Tsubouchi, Takahiro Yabe(参考訳) 近年の地理空間学的研究では,大規模コーパスを用いた自己教師型アプローチによる自然言語処理の進展と並行して,自己教師型学習による大規模人体移動データのモデリングの重要性が高まっている。 地理空間シーケンスモデリング自体に適用可能なアプローチはすでに数多く存在するが、評価に関して改善の余地があり、特に生成されたシーケンスと参照シーケンスの類似性を測定する方法がある。 本研究では,地空間配列のモデリングと生成の文脈で特に有用であるGEO-BLEUという新しい類似度尺度を提案する。 名称が示すように、この研究は機械翻訳研究で使われる最も一般的な尺度の一つであるbleuに基づいており、n-gramという概念に空間的近接を導入した。 この尺度を、確立されたベースラインである動的時間ウォーピングと比較し、実際の地理空間シーケンスに適用する。 12,000件以上から収集した地理空間配列の類似性に関するクラウドソーシングアノテートデータを用いて,提案手法の優越性を定量的に定性的に示す。

In recent geospatial research, the importance of modeling large-scale human mobility data via self-supervised learning is rising, in parallel with progress in natural language processing driven by self-supervised approaches using large-scale corpora. Whereas there are already plenty of feasible approaches applicable to geospatial sequence modeling itself, there seems to be room to improve with regard to evaluation, specifically about how to measure the similarity between generated and reference sequences. In this work, we propose a novel similarity measure, GEO-BLEU, which can be especially useful in the context of geospatial sequence modeling and generation. As the name suggests, this work is based on BLEU, one of the most popular measures used in machine translation research, while introducing spatial proximity to the idea of n-gram. We compare this measure with an established baseline, dynamic time warping, applying it to actual generated geospatial sequences. Using crowdsourced annotated data on the similarity between geospatial sequences collected from over 12,000 cases, we quantitatively and qualitatively show the proposed method's superiority.
翻訳日:2021-12-15 17:05:06 公開日:2021-12-14
# 簡易密度推定によるディープラーニングの校正と鋭い不確かさ

Calibrated and Sharp Uncertainties in Deep Learning via Simple Density Estimation ( http://arxiv.org/abs/2112.07184v1 )

ライセンス: Link先を確認
Volodymyr Kuleshov, Shachi Deshpande(参考訳) 予測的不確かさは,2つの特性-校正と鋭さを特徴とし,これらの特性の観点から不確かさを推論し,それを深層学習に適用するための単純なアルゴリズムを提案する。本手法では,低次元密度あるいは量子関数をニューラル推定器に適合させることにより,校正-分布校正という最強の概念に焦点をあてる。 結果として得られるアプローチは、分類と回帰の両方において、以前の方法よりもずっとシンプルで広く適用できる。 実験により,本手法は計算と実装のオーバーヘッドを最小限に抑えながら,いくつかのタスクにおける予測の不確実性を改善する。 私たちの洞察は、下流アプリケーション全体のパフォーマンスを改善するために活用すべき正確な不確実性につながる、ディープラーニングモデルをシンプルで改善した訓練方法を提案する。

Predictive uncertainties can be characterized by two properties--calibrat ion and sharpness. This paper argues for reasoning about uncertainty in terms these properties and proposes simple algorithms for enforcing them in deep learning. Our methods focus on the strongest notion of calibration--distrib ution calibration--and enforce it by fitting a low-dimensional density or quantile function with a neural estimator. The resulting approach is much simpler and more broadly applicable than previous methods across both classification and regression. Empirically, we find that our methods improve predictive uncertainties on several tasks with minimal computational and implementation overhead. Our insights suggest simple and improved ways of training deep learning models that lead to accurate uncertainties that should be leveraged to improve performance across downstream applications.
翻訳日:2021-12-15 17:04:48 公開日:2021-12-14
# 自己ペースト学習と低冗長正規化による教師なし特徴選択

Unsupervised feature selection via self-paced learning and low-redundant regularization ( http://arxiv.org/abs/2112.07227v1 )

ライセンス: Link先を確認
Weiyi Li, Hongmei Chen, Tianrui Li, Jihong Wan, Binbin Sang(参考訳) 大規模なラベルなしデータの出現により、現在、教師なしの機能選択に多くの注意が払われている。 サンプルの分布とより効果的な順序でサンプルを用いた学習方法の訓練の潜伏効果を考慮し, 手法の堅牢性を向上させることが必要である。 セルフペースト学習は,サンプルの訓練順序を考慮した効果的な手法である。 本研究では,自己ペース学習と部分空間学習の枠組みを統合し,教師なし特徴選択を提案する。 さらに、局所多様体構造は保存され、特徴の冗長性は2つの正規化項によって制約される。 L_{2,1/2}$-normは、識別的特徴を維持し、データのノイズの影響を緩和することを目的としたプロジェクション行列に適用される。 そして、最適化問題を解決するために反復法を提案する。 この手法の収束性は理論的および実験的に証明される。 提案手法は, 実世界の9つのデータセットにおけるアートアルゴリズムの他の状態と比較した。 実験の結果,提案手法はクラスタリング手法の性能を向上し,他の比較アルゴリズムよりも優れることがわかった。

Much more attention has been paid to unsupervised feature selection nowadays due to the emergence of massive unlabeled data. The distribution of samples and the latent effect of training a learning method using samples in more effective order need to be considered so as to improve the robustness of the method. Self-paced learning is an effective method considering the training order of samples. In this study, an unsupervised feature selection is proposed by integrating the framework of self-paced learning and subspace learning. Moreover, the local manifold structure is preserved and the redundancy of features is constrained by two regularization terms. $L_{2,1/2}$-norm is applied to the projection matrix, which aims to retain discriminative features and further alleviate the effect of noise in the data. Then, an iterative method is presented to solve the optimization problem. The convergence of the method is proved theoretically and experimentally. The proposed method is compared with other state of the art algorithms on nine real-world datasets. The experimental results show that the proposed method can improve the performance of clustering methods and outperform other compared algorithms.
翻訳日:2021-12-15 17:04:29 公開日:2021-12-14
# 逆向リカレントニューラルネットワークを用いた教師なし患者の階層化に対する補償軌道バイアス

Compensating trajectory bias for unsupervised patient stratification using adversarial recurrent neural networks ( http://arxiv.org/abs/2112.07239v1 )

ライセンス: Link先を確認
Avelino Javer, Owen Parsons, Oliver Carr, Janie Baxter, Christian Diedrich, Eren El\c{c}i, Steffen Schaper, Katrin Coboeken, Robert D\"urichen(参考訳) 電子医療記録は、新規疾患の表現型を発見するために患者層化に使用できる重要な情報源である。 しかし、データはスパースで不規則にサンプリングされることが多いため、扱いが難しい場合がある。 これらの制限を解決する1つのアプローチは、リカレントニューラルネットワークオートエンコーダ(RNN-AE)を使用して、個々の患者の軌跡を表す密度の高い埋め込みを学ぶことである。 このプロセスは不要なデータバイアスに影響を受けやすい。 従来提案されていたrnn-aeモデルを用いた埋め込みおよびクラスタは, 軌跡バイアスによって影響される可能性があり, 臨床に関係のある詳細情報ではなく, それぞれの軌跡に含まれるデータ量に支配されることが示唆された。 このバイアスは, 患者軌跡の異なる部分を用いて, 2つのデータセット(異なる病院から)と2つの疾患領域について検討した。 これまでに2つのベースライン法を用いて行った結果,イベント・ツー・エンドの軌道に特に強いバイアスが認められた。 本稿では,RNN-AE上での逆トレーニング手法を用いてこの問題を克服する手法を提案する。 その結果,すべてのケースにおいて軌道バイアスを低減できることがわかった。

Electronic healthcare records are an important source of information which can be used in patient stratification to discover novel disease phenotypes. However, they can be challenging to work with as data is often sparse and irregularly sampled. One approach to solve these limitations is learning dense embeddings that represent individual patient trajectories using a recurrent neural network autoencoder (RNN-AE). This process can be susceptible to unwanted data biases. We show that patient embeddings and clusters using previously proposed RNN-AE models might be impacted by a trajectory bias, meaning that results are dominated by the amount of data contained in each patients trajectory, instead of clinically relevant details. We investigate this bias on 2 datasets (from different hospitals) and 2 disease areas as well as using different parts of the patient trajectory. Our results using 2 previously published baseline methods indicate a particularly strong bias in case of an event-to-end trajectory. We present a method that can overcome this issue using an adversarial training scheme on top of a RNN-AE. Our results show that our approach can reduce the trajectory bias in all cases.
翻訳日:2021-12-15 17:03:10 公開日:2021-12-14
# ハード・アドバーサリー・インスタンスがオーバーフィッティングに及ぼす影響について

On the Impact of Hard Adversarial Instances on Overfitting in Adversarial Training ( http://arxiv.org/abs/2112.07324v1 )

ライセンス: Link先を確認
Chen Liu, Zhichao Huang, Mathieu Salzmann, Tong Zhang, Sabine S\"usstrunk(参考訳) 敵意トレーニング(adversarial training)は、敵意攻撃に対してモデルを堅牢化するための一般的な方法である。 しかし、クリーンな入力のトレーニングよりもはるかに厳しいオーバーフィットを示す。 本研究では,この現象を訓練例,すなわち入出力対の訓練の観点から検討する。 インスタンスの難易度を定量的に測定し,難易度レベルの異なるトレーニングインスタンスにおけるモデルの振る舞いを分析した。 これにより, 対向学習の一般化性能の低下は, 強敵インスタンスに適合するモデルの試みの結果であることを示す。 線形および一般非線形モデルの観測を理論的に検証し、ハードインスタンスでトレーニングされたモデルは、簡単なインスタンスでトレーニングされたモデルよりもより悪い一般化性能を有することを示した。 さらに,難易度レベルの異なるインスタンスによって訓練されたモデル間の一般化ギャップの差が,逆予算の大きさとともに増加することを証明した。 最後に,いくつかのシナリオにおいて,敵のオーバーフィッティングを緩和する手法のケーススタディを行う。 分析の結果, 敵の過剰適合を緩和する手法は, 強敵のインスタンスへの適合を回避できるが, 強敵のインスタンスへの適合は真の堅牢性は得られないことがわかった。

Adversarial training is a popular method to robustify models against adversarial attacks. However, it exhibits much more severe overfitting than training on clean inputs. In this work, we investigate this phenomenon from the perspective of training instances, i.e., training input-target pairs. Based on a quantitative metric measuring instances' difficulty, we analyze the model's behavior on training instances of different difficulty levels. This lets us show that the decay in generalization performance of adversarial training is a result of the model's attempt to fit hard adversarial instances. We theoretically verify our observations for both linear and general nonlinear models, proving that models trained on hard instances have worse generalization performance than ones trained on easy instances. Furthermore, we prove that the difference in the generalization gap between models trained by instances of different difficulty levels increases with the size of the adversarial budget. Finally, we conduct case studies on methods mitigating adversarial overfitting in several scenarios. Our analysis shows that methods successfully mitigating adversarial overfitting all avoid fitting hard adversarial instances, while ones fitting hard adversarial instances do not achieve true robustness.
翻訳日:2021-12-15 17:02:51 公開日:2021-12-14
# メタ強化学習のための確率的分散低減によるバイアスド・グラデーション推定

Biased Gradient Estimate with Drastic Variance Reduction for Meta Reinforcement Learning ( http://arxiv.org/abs/2112.07328v1 )

ライセンス: Link先を確認
Yunhao Tang(参考訳) メタ強化学習(meta-RL)の実証的な成功にもかかわらず、理論と実践の間にはまだまだ多くの相違点がある。 批判的に、偏りの勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。 本研究では,そのような相違について検討する。 特に、(1)偏りのない勾配推定が、内部ループ更新のサンプルサイズに線形に依存する分散$\theta(n)$を持つこと、(2)バイアス$\mathcal{o}(1/\sqrt{n})$と分散$\mathcal{o}(1/n)$を持つ線形化スコア関数 (lsf) 勾配推定を提案すること、(3) 経験的先行研究が実際には lsf 勾配推定の変種を実装していることを示す。 このことは、実用的アルゴリズムが「偶然に」より良い性能を達成するためにバイアスを導入していることを示している; (4) 定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立する。

Despite the empirical success of meta reinforcement learning (meta-RL), there are still a number poorly-understood discrepancies between theory and practice. Critically, biased gradient estimates are almost always implemented in practice, whereas prior theory on meta-RL only establishes convergence under unbiased gradient estimates. In this work, we investigate such a discrepancy. In particular, (1) We show that unbiased gradient estimates have variance $\Theta(N)$ which linearly depends on the sample size $N$ of the inner loop updates; (2) We propose linearized score function (LSF) gradient estimates, which have bias $\mathcal{O}(1/\sqrt{N})$ and variance $\mathcal{O}(1/N)$; (3) We show that most empirical prior work in fact implements variants of the LSF gradient estimates. This implies that practical algorithms "accidentally" introduce bias to achieve better performance; (4) We establish theoretical guarantees for the LSF gradient estimates in meta-RL regarding its convergence to stationary points, showing better dependency on $N$ than prior work when $N$ is large.
翻訳日:2021-12-15 17:02:35 公開日:2021-12-14
# グラフカーネルニューラルネットワーク

Graph Kernel Neural Networks ( http://arxiv.org/abs/2112.07436v1 )

ライセンス: Link先を確認
Luca Cosmo, Giorgia Minello, Michael Bronstein, Emanuele Rodol\`a, Luca Rossi, Andrea Torsello(参考訳) 多くの現代のニューラルアーキテクチャの中核にある畳み込み演算子は、入力行列とフィルタの間のドット積を効果的に実行すると見なすことができる。 これはユークリッド空間の正則格子として表現できる画像のようなデータに容易に適用できるが、畳み込み演算子をグラフに拡張することは、その不規則な構造のためより困難である。 本稿では,グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて,標準畳み込み演算子をグラフ領域に拡張することを提案する。 これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。 当社のアーキテクチャでは,任意の型とグラフカーネルの数をプラグインすることが可能であり,従来の畳み込みニューラルネットワークの畳み込みマスクと同じような,トレーニングプロセスで学習された構造マスクの観点で解釈可能性を提供するという,新たなメリットがあります。 我々は,モデルハイパーパラメータの影響を調べるための広範囲なアブレーション研究を行い,標準グラフ分類データセット上での競合性能を示す。

The convolution operator at the core of many modern neural architectures can effectively be seen as performing a dot product between an input matrix and a filter. While this is readily applicable to data such as images, which can be represented as regular grids in the Euclidean space, extending the convolution operator to work on graphs proves more challenging, due to their irregular structure. In this paper, we propose to use graph kernels, i.e., kernel functions that compute an inner product on graphs, to extend the standard convolution operator to the graph domain. This allows us to define an entirely structural model that does not require computing the embedding of the input graph. Our architecture allows to plug-in any type and number of graph kernels and has the added benefit of providing some interpretability in terms of the structural masks that are learned during the training process, similarly to what happens for convolutional masks in traditional convolutional neural networks. We perform an extensive ablation study to investigate the impact of the model hyper-parameters and we show that our model achieves competitive performance on standard graph classification datasets.
翻訳日:2021-12-15 17:02:05 公開日:2021-12-14
# 多変量時系列予測のためのスケールアウェアニューラルアーキテクチャ探索

Scale-Aware Neural Architecture Search for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2112.07459v1 )

ライセンス: Link先を確認
Donghui Chen, Ling Chen, Zongjiang Shang, Youdong Zhang, Bo Wen, and Chenghu Yang(参考訳) 多変量時系列(MTS)予測は多くのインテリジェントアプリケーションで注目を集めている。 変数内依存関係と変数間依存関係の両方を考慮する必要があるからです。 しかし、既存の作業は特定のシナリオのために設計されており、多くのドメイン知識と専門家の努力を必要とします。 本稿では,MSS予測のための大規模ニューラルネットワーク探索フレームワークSNAS4MTFを提案する。 マルチスケール分解モジュールは、生の時系列をマルチスケールのサブシリーズに変換し、マルチスケールの時間パターンを保存できる。 適応グラフ学習モジュールは、異なる時間スケールで異なる変数間の依存関係を事前の知識なしで推論する。 MTS予測では、検索空間は、各時間スケールで変数内依存関係と変数間依存関係の両方をキャプチャするように設計されている。 マルチスケール分解、適応グラフ学習、ニューラルネットワーク検索モジュールは、エンドツーエンドフレームワークで共同で学習される。 2つの実世界のデータセットに対する大規模な実験は、SNAS4MTFが最先端の手法と比較して有望な性能を達成することを示した。

Multivariate time series (MTS) forecasting has attracted much attention in many intelligent applications. It is not a trivial task, as we need to consider both intra-variable dependencies and inter-variable dependencies. However, existing works are designed for specific scenarios, and require much domain knowledge and expert efforts, which is difficult to transfer between different scenarios. In this paper, we propose a scale-aware neural architecture search framework for MTS forecasting (SNAS4MTF). A multi-scale decomposition module transforms raw time series into multi-scale sub-series, which can preserve multi-scale temporal patterns. An adaptive graph learning module infers the different inter-variable dependencies under different time scales without any prior knowledge. For MTS forecasting, a search space is designed to capture both intra-variable dependencies and inter-variable dependencies at each time scale. The multi-scale decomposition, adaptive graph learning, and neural architecture search modules are jointly learned in an end-to-end framework. Extensive experiments on two real-world datasets demonstrate that SNAS4MTF achieves a promising performance compared with the state-of-the-art methods.
翻訳日:2021-12-15 17:01:48 公開日:2021-12-14
# 局所的協調フィルタリングのための適応グラフ事前学習フレームワーク

An Adaptive Graph Pre-training Framework for Localized Collaborative Filtering ( http://arxiv.org/abs/2112.07191v1 )

ライセンス: Link先を確認
Yiqi Wang, Chaozhuo Li, Zheng Liu, Mingzheng Li, Jiliang Tang, Xing Xie, Lei Chen, Philip S. Yu(参考訳) グラフニューラルネットワーク(GNN)はレコメンデーションタスクに広く適用されており、非常に魅力的な性能を得ている。 しかし、ほとんどのGNNベースのレコメンデーション手法は、実際にデータ空間の問題に悩まされている。 一方、事前学習技術は、自然言語処理(NLP)やコンピュータビジョン(CV)など、さまざまな領域におけるデータの分散を緩和することに成功した。 このように、グラフ事前学習は、GNNベースのレコメンデーションにおいてデータの分散を緩和する大きな可能性を秘めている。 しかし、レコメンデーションのための事前トレーニングGNNは、ユニークな課題に直面している。 例えば、異なるレコメンデーションタスクにおけるユーザとイテムの相互作用グラフは、異なるユーザとアイテムのセットを持ち、しばしば異なるプロパティを示す。 したがって、学習した埋め込みや特徴抽出器などの下流タスクに事前学習タスクから知識を伝達するために、NLPやCVで一般的に用いられる成功メカニズムは、既存のGNNベースのレコメンデーションモデルには直接適用されない。 これらの課題に取り組むため,我々は局所的協調フィルタリング(adapt)のための適応グラフ事前学習フレームワークを繊細に設計する。 ユーザ/テーマの埋め込みを転送する必要はなく、異なるグラフにまたがる共通知識と各グラフのユニークさの両方を捉えることができる。 ADAPTの有効性と優位性について検討した。

Graph neural networks (GNNs) have been widely applied in the recommendation tasks and have obtained very appealing performance. However, most GNN-based recommendation methods suffer from the problem of data sparsity in practice. Meanwhile, pre-training techniques have achieved great success in mitigating data sparsity in various domains such as natural language processing (NLP) and computer vision (CV). Thus, graph pre-training has the great potential to alleviate data sparsity in GNN-based recommendations. However, pre-training GNNs for recommendations face unique challenges. For example, user-item interaction graphs in different recommendation tasks have distinct sets of users and items, and they often present different properties. Therefore, the successful mechanisms commonly used in NLP and CV to transfer knowledge from pre-training tasks to downstream tasks such as sharing learned embeddings or feature extractors are not directly applicable to existing GNN-based recommendations models. To tackle these challenges, we delicately design an adaptive graph pre-training framework for localized collaborative filtering (ADAPT). It does not require transferring user/item embeddings, and is able to capture both the common knowledge across different graphs and the uniqueness for each graph. Extensive experimental results have demonstrated the effectiveness and superiority of ADAPT.
翻訳日:2021-12-15 17:01:32 公開日:2021-12-14
# シングルリード心電図に基づく睡眠ステージングの強化を支援する脳波深度蒸留フレームワーク

A Deep Knowledge Distillation framework for EEG assisted enhancement of single-lead ECG based sleep staging ( http://arxiv.org/abs/2112.07252v1 )

ライセンス: Link先を確認
Vaibhav Joshi, Sricharan Vijayarangan, Preejith SP, and Mohanasankar Sivaprakasam(参考訳) 現在、脳波(EEG)信号の助けを借りて睡眠時自動測定を行っている。 近年,Deep Learning (DL) ベースのアプローチにより,この領域の大幅な進歩が可能となり,自動睡眠ステージにおけるほぼ人間に近い精度を実現している。 しかし、脳波に基づく睡眠ステージングには、広範囲かつ高価な臨床装置が必要である。 さらに、設定の専門家の要求と、研究対象に対する不便さの追加は、ケアの文脈においてそれは望ましくないことを意味する。 心電図(心電図、ecg)は脳波の代替手段として適しているが、当然ながらその性能はeegベースの睡眠ステージと同等である。 当然、EEGからECGに知識を移すことは有益であり、最終的にはECGベースの入力におけるモデルの性能を高めることになる。 知識蒸留(英: Knowledge Distillation, KD)は、より優れた教師モデルからコンパクトな学生モデルに知識を移すことを目的とした、DLで有名な概念である。 この概念に基づいて,eegでトレーニングされたモデルから学習した機能を用いて,ecgベースの睡眠ステージングパフォーマンスを改善するためのクロスモーダルkdフレームワークを提案する。 さらに, 蒸留法についてより深い知見を得るため, 提案モデルの個々の成分について複数の実験を行った。 本研究にはモントリオール睡眠研究資料館(MASS)の200件の被験者データを利用した。 提案モデルでは,4クラス,3クラスで14.3\%,13.4\%の重み付きF1スコアが増加した。 本研究は, 単チャンネル心電図に基づく睡眠ステージングの4クラス(W-L-D-R)および3クラス(W-N-R)分類における性能改善のためのKDの有効性を示す。

Automatic Sleep Staging study is presently done with the help of Electroencephalogram (EEG) signals. Recently, Deep Learning (DL) based approaches have enabled significant progress in this area, allowing for near-human accuracy in automated sleep staging. However, EEG based sleep staging requires an extensive as well as an expensive clinical setup. Moreover, the requirement of an expert for setup and the added inconvenience to the subject under study renders it unfavourable in a point of care context. Electrocardiogram (ECG), an unobtrusive alternative to EEG, is more suitable, but its performance, unsurprisingly, remains sub-par compared to EEG-based sleep staging. Naturally, it would be helpful to transfer knowledge from EEG to ECG, ultimately enhancing the model's performance on ECG based inputs. Knowledge Distillation (KD) is a renowned concept in DL that looks to transfer knowledge from a better but potentially more cumbersome teacher model to a compact student model. Building on this concept, we propose a cross-modal KD framework to improve ECG-based sleep staging performance with assistance from features learned through models trained on EEG. Additionally, we also conducted multiple experiments on the individual components of the proposed model to get better insight into the distillation approach. Data of 200 subjects from the Montreal Archive of Sleep Studies (MASS) was utilized for our study. The proposed model showed a 14.3\% and 13.4\% increase in weighted-F1-score in 4-class and 3-class sleep staging, respectively. This demonstrates the viability of KD for performance improvement of single-channel ECG based sleep staging in 4-class(W-L-D-R) and 3-class(W-N-R) classification.
翻訳日:2021-12-15 16:59:49 公開日:2021-12-14
# AI倫理の実践原則:デザイナと開発者の視点

AI Ethics Principles in Practice: Perspectives of Designers and Developers ( http://arxiv.org/abs/2112.07467v1 )

ライセンス: Link先を確認
Conrad Sanderson, David Douglas, Qinghua Lu, Emma Schleiger, Jon Whittle, Justine Lacey, Glenn Newnham, Stefan Hajkowicz, Cathy Robinson, David Hansen(参考訳) さまざまな公表されたAI倫理原則のコンセンサスがアプローチされているため、責任あるAIシステムの設計と開発に容易に適用可能な、ハイレベルな原則と実践的なテクニックのギャップは依然として残っている。 オーストラリア国立科学研究機関(csiro)の研究者やエンジニアが、さまざまな目的のためにaiシステムの設計と開発に携わっている実践と経験について検討する。 半構造化インタビューは、オーストラリア政府が提案する高レベルのai倫理原則と参加者のプラクティスがどのように関連しているかを検証し、調整するために使用された。 プライバシ保護とセキュリティ、信頼性と安全性、透明性と説明可能性、公平性、競争性、説明責任、人間中心の価値観、人間、社会、環境の幸福。 研究者や技術者の洞察と、原則の実践的適用において彼らにとって起こった課題について考察する。 最後に、ハイレベルなAI倫理原則の実装を実践するために、組織の反応のセットが提供される。

As consensus across the various published AI ethics principles is approached, a gap remains between high-level principles and practical techniques that can be readily adopted to design and develop responsible AI systems. We examine the practices and experiences of researchers and engineers from Australia's national scientific research agency (CSIRO), who are involved in designing and developing AI systems for a range of purposes. Semi-structured interviews were used to examine how the practices of the participants relate to and align with a set of high-level AI ethics principles that are proposed by the Australian Government. The principles comprise: Privacy Protection & Security, Reliability & Safety, Transparency & Explainability, Fairness, Contestability, Accountability, Human-centred Values, and Human, Social & Environmental Wellbeing. The insights of the researchers and engineers as well as the challenges that arose for them in the practical application of the principles are examined. Finally, a set of organisational responses are provided to support the implementation of high-level AI ethics principles into practice.
翻訳日:2021-12-15 16:59:20 公開日:2021-12-14
# 回答セットのラッシングとストローリング -- ナビゲーションが簡単になった

Rushing and Strolling among Answer Sets -- Navigation Made Easy ( http://arxiv.org/abs/2112.07596v1 )

ライセンス: Link先を確認
Johannes K. Fichte, Sarah Alice Gaggl, Dominik Rusovac(参考訳) Answer set programming (ASP)は、人工知能に幅広い応用がある一般的な宣言型プログラミングパラダイムである。 多くの場合、AI問題をASPでモデリングする場合、特に、最適なソリューション、実際のソリューション、ソリューションの違い、ASPプログラムの課題の数など、単純な検索以上の関心がある場合があります。 例えば、ユーザがニーズに応じて特定の回答セットを識別しようとする場合や、医学領域における推論のような確率的応用を理解するために発散するソリューションの総数を必要とする場合などである。 そして、ASPプログラムのソリューション空間をナビゲートするために、特定の問題や手作りのエンコーディング技術しか存在しません。 本稿では,対面ブラウジングに類似した回答集合の所望の部分集合に対する対話的ナビゲーションのための形式的かつ汎用的なフレームワークを提案する。 提案手法は,ある構成可能なペースで解のサブスペース内あるいは外を意識的に拡大することにより,解空間を探索することができる。 重み付けされた顔ナビゲーションは計算が困難であることを示す。 最後に、理解不能な解空間に対する我々のフレームワークの実現可能性を示すアプローチの実装を提供する。

Answer set programming (ASP) is a popular declarative programming paradigm with a wide range of applications in artificial intelligence. Oftentimes, when modeling an AI problem with ASP, and in particular when we are interested beyond simple search for optimal solutions, an actual solution, differences between solutions, or number of solutions of the ASP program matter. For example, when a user aims to identify a specific answer set according to her needs, or requires the total number of diverging solutions to comprehend probabilistic applications such as reasoning in medical domains. Then, there are only certain problem specific and handcrafted encoding techniques available to navigate the solution space of ASP programs, which is oftentimes not enough. In this paper, we propose a formal and general framework for interactive navigation towards desired subsets of answer sets analogous to faceted browsing. Our approach enables the user to explore the solution space by consciously zooming in or out of sub-spaces of solutions at a certain configurable pace. We illustrate that weighted faceted navigation is computationally hard. Finally, we provide an implementation of our approach that demonstrates the feasibility of our framework for incomprehensible solution spaces.
翻訳日:2021-12-15 16:59:02 公開日:2021-12-14
# 事前学習音響・言語モデルによるハイブリッドCTC/Attention End-to-end音声認識の改良

Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model ( http://arxiv.org/abs/2112.07254v1 )

ライセンス: Link先を確認
Keqi Deng, Songjun Cao, Yike Zhang, Long Ma(参考訳) 近年,自己教師付き事前学習は,エンドツーエンド(E2E)自動音声認識(ASR)において顕著な成果を上げている。 しかし、s2s e2eモデルでは、デコーダが音響表現に基づいているため、個別に事前学習することはできないため、自己教師付き事前学習手法を十分に活用することは困難である。 本稿では,ctc/attention e2eハイブリッドモデルに基づくプリトレーニングトランス (preformer) s2s asrアーキテクチャを提案し,プリトレーニング音響モデル (ams) と言語モデル (lms) を十分に活用する。 我々のフレームワークでは、エンコーダは事前訓練されたAM(wav2vec2.0)で初期化されます。 Preformerは、トレーニングと推論においてCTCを補助タスクとして活用する。 さらに,事前学習したLM(DistilGPT2)で初期化できるように,音響表現への依存を緩和するワンクロスデコーダ(OCD)を設計する。 AISHELL-1コーパスでの実験が行われ、テストセットで4.6\%の文字誤り率(CER)を達成する。 我々のバニラハイブリッドCTC/attention Transformerベースラインと比較して,提案したCTC/attention-based Preformerは相対的なCER削減率27\%である。 我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。

Recently, self-supervised pretraining has achieved impressive results in end-to-end (E2E) automatic speech recognition (ASR). However, the dominant sequence-to-sequence (S2S) E2E model is still hard to fully utilize the self-supervised pre-training methods because its decoder is conditioned on acoustic representation thus cannot be pretrained separately. In this paper, we propose a pretrained Transformer (Preformer) S2S ASR architecture based on hybrid CTC/attention E2E models to fully utilize the pretrained acoustic models (AMs) and language models (LMs). In our framework, the encoder is initialized with a pretrained AM (wav2vec2.0). The Preformer leverages CTC as an auxiliary task during training and inference. Furthermore, we design a one-cross decoder (OCD), which relaxes the dependence on acoustic representations so that it can be initialized with pretrained LM (DistilGPT2). Experiments are conducted on the AISHELL-1 corpus and achieve a $4.6\%$ character error rate (CER) on the test set. Compared with our vanilla hybrid CTC/attention Transformer baseline, our proposed CTC/attention-based Preformer yields $27\%$ relative CER reduction. To the best of our knowledge, this is the first work to utilize both pretrained AM and LM in a S2S ASR system.
翻訳日:2021-12-15 16:58:34 公開日:2021-12-14
# Deep Diffusion:潜在特徴多様体上の拡散に基づく検索適応表現の教師なし学習

DeepDiffusion: Unsupervised Learning of Retrieval-adapted Representations via Diffusion-based Ranking on Latent Feature Manifold ( http://arxiv.org/abs/2112.07082v1 )

ライセンス: Link先を確認
Takahiko Furuya and Ryutarou Ohbuchi(参考訳) 特徴表現の教師なし学習は、意味ラベルを持たない大量のマルチメディアデータを解析する上で、難しいが重要な問題である。 近年,ニューラルネットワークに基づく教師なし学習手法が,マルチメディアデータの分類に適した特徴の獲得に成功している。 しかし,マルチメディアデータのマッチング,比較,検索に適応した特徴表現の教師なし学習はよく研究されていない。 このような検索適応特徴を得るために,特徴多様体上の拡散距離とニューラルネットワークに基づく教師なし特徴学習を併用する手法を提案する。 このアイデアはDeepDiffusion (DD)と呼ばれる新しいアルゴリズムとして実現されている。 ddは、ディープニューラルネットワークによる機能埋め込みと、潜在特徴多様体上の拡散を利用する距離メトリックの2つのコンポーネントを同時に最適化する。 DDは損失関数に依存しているがエンコーダアーキテクチャには依存していない。 したがって、それぞれのエンコーダアーキテクチャを持つ多様なマルチメディアデータ型に適用することができる。 3次元形状と2次元画像を用いた実験的評価により,DDアルゴリズムの汎用性と高精度性を示す。 コードはhttps://github.com/t akahikof/DeepDiffusi onで入手できる。

Unsupervised learning of feature representations is a challenging yet important problem for analyzing a large collection of multimedia data that do not have semantic labels. Recently proposed neural network-based unsupervised learning approaches have succeeded in obtaining features appropriate for classification of multimedia data. However, unsupervised learning of feature representations adapted to content-based matching, comparison, or retrieval of multimedia data has not been explored well. To obtain such retrieval-adapted features, we introduce the idea of combining diffusion distance on a feature manifold with neural network-based unsupervised feature learning. This idea is realized as a novel algorithm called DeepDiffusion (DD). DD simultaneously optimizes two components, a feature embedding by a deep neural network and a distance metric that leverages diffusion on a latent feature manifold, together. DD relies on its loss function but not encoder architecture. It can thus be applied to diverse multimedia data types with their respective encoder architectures. Experimental evaluation using 3D shapes and 2D images demonstrates versatility as well as high accuracy of the DD algorithm. Code is available at https://github.com/t akahikof/DeepDiffusi on
翻訳日:2021-12-15 16:57:40 公開日:2021-12-14
# 衛星時系列からの作物マッピングのためのマルチモーダル時間アテンションモデル

Multi-Modal Temporal Attention Models for Crop Mapping from Satellite Time Series ( http://arxiv.org/abs/2112.07558v1 )

ライセンス: Link先を確認
Vivien Sainte Fare Garnot and Loic Landrieu and Nesrine Chehata(参考訳) 光学画像は豊富なスペクトル情報を含んでいるが、Cバンドレーダーは有用な幾何学的情報を捉え、雲の覆いに免疫がある。 複数の作物マッピングタスクにまたがる時間的注意に基づく手法が最近成功し,これらのモデルがどのように複数のモードで操作できるのかを考察する。 新たなアプローチや訓練手順の簡単な調整など,複数の融合方式の実装と評価を行い,複雑さをほとんど加えずに性能と効率を大幅に向上させる。 ほとんどの融合スキームには利点と欠点があり、特定の設定に関係している。 次に,パーセル分類,画素ベースセグメンテーション,パン光学パーセルセグメンテーションなど,複数のタスクにまたがるマルチモーダルの利点を評価する。 光およびレーダ時系列の両方を活用することで、マルチモーダル時間的注意に基づくモデルは、クラウド被覆に対する性能とレジリエンスの観点から、単一モダリティモデルを上回ることができることを示す。 これらの実験を行うために,patisデータセットを空間的にアライメントしたレーダ画像時系列で拡張する。 得られたデータセットであるPASTIS-Rは、セマンティックアノテーションとインスタンスアノテーションを備えた最初の大規模、マルチモーダル、オープンアクセス衛星時系列データセットである。

Optical and radar satellite time series are synergetic: optical images contain rich spectral information, while C-band radar captures useful geometrical information and is immune to cloud cover. Motivated by the recent success of temporal attention-based methods across multiple crop mapping tasks, we propose to investigate how these models can be adapted to operate on several modalities. We implement and evaluate multiple fusion schemes, including a novel approach and simple adjustments to the training procedure, significantly improving performance and efficiency with little added complexity. We show that most fusion schemes have advantages and drawbacks, making them relevant for specific settings. We then evaluate the benefit of multimodality across several tasks: parcel classification, pixel-based segmentation, and panoptic parcel segmentation. We show that by leveraging both optical and radar time series, multimodal temporal attention-based models can outmatch single-modality models in terms of performance and resilience to cloud cover. To conduct these experiments, we augment the PASTIS dataset with spatially aligned radar image time series. The resulting dataset, PASTIS-R, constitutes the first large-scale, multimodal, and open-access satellite time series dataset with semantic and instance annotations.
翻訳日:2021-12-15 16:57:24 公開日:2021-12-14
# 対戦相手によるマルチレーダ混雑ゲーム

Multi-Leader Congestion Games with an Adversary ( http://arxiv.org/abs/2112.07435v1 )

ライセンス: Link先を確認
Tobias Harks, Mona Henle, Max Klimm, Jannik Matuschke, Anja Schedel(参考訳) 本研究では,複数のユーザ(リーダ)がリソースセットから1つのリソースを選択するマルチリーダシングルフォローア・コングリゲーションゲームについて検討し,実負荷を観測した結果,敵(シングルフォローア)が最大負荷でリソースを攻撃し,リーダにさらなるコストをかけた。 リーダー間の戦略ゲームの結果について、純粋なナッシュ均衡は存在せず、従って近似均衡を考慮すべきであることを示す。 最初の主要な結果として、$K$-近似平衡の存在は常に保証され、$K \approx 1.1974$は立方多項式方程式のユニークな解である。 この目的のために、多項式時間組合せアルゴリズムが与えられ、k$-approximate equilibrium が計算される。 つまり、任意の$\alpha<K$に対して$\alpha$-approximate 平衡を認めないインスタンスが存在することを意味する。 したがって、$\alpha=k$ は$\alpha$ の最小値であり、$\alpha$-approximate 平衡の存在が考慮されたゲームの任意の例に対して保証される。 第二に、与えられた固定インスタンスの近似平衡に焦点をあてる。 与えられたインスタンスのすべての$\alpha$-approximate equilibriaの中で、最小の$\alpha$で、最適な近似平衡を効率的に計算する方法を示す。

We study a multi-leader single-follower congestion game where multiple users (leaders) choose one resource out of a set of resources and, after observing the realized loads, an adversary (single-follower) attacks the resources with maximum loads, causing additional costs for the leaders. For the resulting strategic game among the leaders, we show that pure Nash equilibria may fail to exist and therefore, we consider approximate equilibria instead. As our first main result, we show that the existence of a $K$-approximate equilibrium can always be guaranteed, where $K \approx 1.1974$ is the unique solution of a cubic polynomial equation. To this end, we give a polynomial time combinatorial algorithm which computes a $K$-approximate equilibrium. The factor $K$ is tight, meaning that there is an instance that does not admit an $\alpha$-approximate equilibrium for any $\alpha<K$. Thus $\alpha=K$ is the smallest possible value of $\alpha$ such that the existence of an $\alpha$-approximate equilibrium can be guaranteed for any instance of the considered game. Secondly, we focus on approximate equilibria of a given fixed instance. We show how to compute efficiently a best approximate equilibrium, that is, with smallest possible $\alpha$ among all $\alpha$-approximate equilibria of the given instance.
翻訳日:2021-12-15 16:56:19 公開日:2021-12-14
# 音楽ムードのアンサンブル予測の可視化

Visualizing Ensemble Predictions of Music Mood ( http://arxiv.org/abs/2112.07627v1 )

ライセンス: Link先を確認
Zelin Ye and Min Chen(参考訳) 音楽のムード分類は、他の分類問題(ジャンル、作曲家、時代など)と比較して難しい問題となっている。 この課題に対処するソリューションのひとつは、アンサンブルの機械学習モデルを使用することだ。 本稿では, 可視化技術により, 時間軸に沿った異なる音楽区間において, 一般的な予測と不確かさを効果的に伝達でき, 異なる音楽データに適用した個々のMLモデルの解析が可能となることを示す。 重ね合わせ線グラフ,テーテリバー,ピクセルベースの可視化といった従来のビジュアルデザインに加えて,ビューアがスタック付き線グラフやテーテリバーよりも最も人気のある予測を観察し,測定することのできる,"dual-flux themeriver"と呼ばれる新しいテーテリバーも導入した。 テストは、モデル開発ワークフローとモデル予測を使用して音楽に注釈をつける際に、アンサンブル予測の可視化が有効であることを示している。

Music mood classification has been a challenging problem in comparison with some other classification problems (e.g., genre, composer, or period). One solution for addressing this challenging is to use an of ensemble machine learning models. In this paper, we show that visualization techniques can effectively convey the popular prediction as well as uncertainty at different music sections along the temporal axis, while enabling the analysis of individual ML models in conjunction with their application to different musical data. In addition to the traditional visual designs, such as stacked line graph, ThemeRiver, and pixel-based visualization, we introduced a new variant of ThemeRiver, called "dual-flux ThemeRiver", which allows viewers to observe and measure the most popular prediction more easily than stacked line graph and ThemeRiver. Testing indicates that visualizing ensemble predictions is helpful both in model-development workflows and for annotating music using model predictions.
翻訳日:2021-12-15 16:55:52 公開日:2021-12-14
# HET:キャッシュ対応分散フレームワークによる巨大な埋め込みモデルトレーニングのスケールアウト

HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework ( http://arxiv.org/abs/2112.07221v1 )

ライセンス: Link先を確認
Xupeng Miao, Hailin Zhang, Yining Shi, Xiaonan Nie, Zhi Yang, Yangyu Tao, Bin Cui(参考訳) 埋め込みモデルは高次元データに対する効果的な学習パラダイムである。 しかし、埋め込みモデルに関する公然の問題は、それらの表現(相対因子)がしばしば大きなパラメータ空間をもたらすことである。 既存の分散トレーニングフレームワークは、通常、サーバからの共有組み込みパラメータの更新と検索がトレーニングサイクルを支配するため、モデルの組込みというスケーラビリティの問題に直面している。 本稿では,大規模な埋め込みモデルトレーニングのスケーラビリティを大幅に向上させる新しいシステムフレームワークであるHETを提案する。 私たちは、組み込みの人気分布をパフォーマンスの機会として捉え、組み込みキャッシュで通信ボトルネックに対処するために利用します。 キャッシュ間の一貫性を確保するため,HET設計に新たな一貫性モデルを導入する。 読み取り操作に停滞しかできない以前の作業と比較して、hetは書き込み操作に停滞も活用している。 6つの代表的なタスクの評価によると、HETは88%の埋め込み通信の削減と20.68倍の性能向上を実現している。

Embedding models have been an effective learning paradigm for high-dimensional data. However, one open issue of embedding models is that their representations (latent factors) often result in large parameter space. We observe that existing distributed training frameworks face a scalability issue of embedding models since updating and retrieving the shared embedding parameters from servers usually dominates the training cycle. In this paper, we propose HET, a new system framework that significantly improves the scalability of huge embedding model training. We embrace skewed popularity distributions of embeddings as a performance opportunity and leverage it to address the communication bottleneck with an embedding cache. To ensure consistency across the caches, we incorporate a new consistency model into HET design, which provides fine-grained consistency guarantees on a per-embedding basis. Compared to previous work that only allows staleness for read operations, HET also utilizes staleness for write operations. Evaluations on six representative tasks show that HET achieves up to 88% embedding communication reductions and up to 20.68x performance speedup over the state-of-the-art baselines.
翻訳日:2021-12-15 16:52:47 公開日:2021-12-14
# SC-Reg: 自己一致正則化による過パラメータニューラルネットワークのトレーニング

SC-Reg: Training Overparameterized Neural Networks under Self-Concordant Regularization ( http://arxiv.org/abs/2112.07344v1 )

ライセンス: Link先を確認
Adeyemi D. Adeoye, Alberto Bemporad(参考訳) 本稿では,畳み込み問題に対する 'emph{Newton decrement} フレームワークに2次情報を組み込むことで,過パラメータ化フィードフォワードニューラルネットワークを学習するための SC-Reg (self-concordant regularization) フレームワークを提案する。 本稿では,新たな入力バッチを受信するたびにネットワークパラメータを更新する自己一致正規化(SCoRe-GGN)アルゴリズムを提案する。 提案アルゴリズムは,ヘッセン行列の2次情報構造を利用して,トレーニング計算のオーバーヘッドを低減する。 現在の解析では凸の場合のみを考慮しているが、数値実験により凸法と非凸法の両方の条件下での手法の効率と高速収束が示されている。

In this paper we propose the SC-Reg (self-concordant regularization) framework for learning overparameterized feedforward neural networks by incorporating second-order information in the \emph{Newton decrement} framework for convex problems. We propose the generalized Gauss-Newton with Self-Concordant Regularization (SCoRe-GGN) algorithm that updates the network parameters each time it receives a new input batch. The proposed algorithm exploits the structure of the second-order information in the Hessian matrix, thereby reducing the training computational overhead. Although our current analysis considers only the convex case, numerical experiments show the efficiency of our method and its fast convergence under both convex and non-convex settings, which compare favorably against baseline first-order methods and a quasi-Newton method.
翻訳日:2021-12-15 16:52:29 公開日:2021-12-14
# マルチプレイヤーゲームにおけるプレイスタイルのベイズ学習

Bayesian Learning of Play Styles in Multiplayer Video Games ( http://arxiv.org/abs/2112.07437v1 )

ライセンス: Link先を確認
Aline Normoyle and Shane T. Jensen(参考訳) オンラインマルチプレイヤーゲームにおけるゲームプレイの複雑さは、プレイヤーが成功のために使用する様々なプレイスタイルや戦略をモデル化することへの強い関心を生み出した。 本研究では,オンラインマルチプレイヤーゲームBattlefield 3の階層的ベイズ回帰手法を開発し,各試合において,そのプレーヤが持つ役割,ゲームタイプ,マップの関数としてパフォーマンスをモデル化する。 我々はディリクレ・プロセスを用いて、回帰モデルに類似したプレイヤー固有係数を持つプレイヤーのクラスタリングを可能にし、バトルフィールド3プレイヤーのサンプルの中で共通のプレースタイルを発見することができる。 このベイズ的半パラメトリッククラスタリングアプローチにはいくつかの利点がある: 共通のプレースタイルの数を指定する必要がなく、プレイヤーは複数のクラスタ間を移動でき、その結果のグルーピングは直進的な解釈を持つことが多い。 バトルフィールド3のプレイヤーの中で最も一般的なプレースタイルを詳細に検討し、総合的なハイパフォーマンスを示すプレイヤーのグループと、特定のゲームタイプ、マップ、ロールで特によく演奏するプレイヤーのグループを見つける。 また、特定のプレイスタイルの安定したメンバーであるプレイヤーと、試合中に複数のプレイスタイルを示すハイブリッドプレイヤーを区別することができる。 さまざまなプレイスタイルのこの状況のモデリングは、ゲーム開発者が新しい参加者のための特別なチュートリアルを開発するのに役立ち、オンラインマッチングキューにおける補完チームの構築を改善するのに役立つ。

The complexity of game play in online multiplayer games has generated strong interest in modeling the different play styles or strategies used by players for success. We develop a hierarchical Bayesian regression approach for the online multiplayer game Battlefield 3 where performance is modeled as a function of the roles, game type, and map taken on by that player in each of their matches. We use a Dirichlet process prior that enables the clustering of players that have similar player-specific coefficients in our regression model, which allows us to discover common play styles amongst our sample of Battlefield 3 players. This Bayesian semi-parametric clustering approach has several advantages: the number of common play styles do not need to be specified, players can move between multiple clusters, and the resulting groupings often have a straight-forward interpretations. We examine the most common play styles among Battlefield 3 players in detail and find groups of players that exhibit overall high performance, as well as groupings of players that perform particularly well in specific game types, maps and roles. We are also able to differentiate between players that are stable members of a particular play style from hybrid players that exhibit multiple play styles across their matches. Modeling this landscape of different play styles will aid game developers in developing specialized tutorials for new participants as well as improving the construction of complementary teams in their online matching queues.
翻訳日:2021-12-15 16:52:12 公開日:2021-12-14
# Cerebrasを利用したエピジェノミクス言語モデル

Epigenomic language models powered by Cerebras ( http://arxiv.org/abs/2112.07571v1 )

ライセンス: Link先を確認
Meredith V. Trotter, Cuong Q. Nguyen, Stephen Young, Rob T. Woodruff, Kim M. Branson(参考訳) トランスフォーマー言語モデルの大規模自己教師型事前学習は自然言語処理の分野を進歩させ、タンパク質やDNAの生物学的な「言語」への相互適用を約束している。 大きなゲノム配列コーパスを用いたDNA配列の効果的な表現の学習は、転写学習を通じて遺伝子制御と機能モデルの開発を加速させる可能性がある。 しかし、細胞型特異的な遺伝子制御と機能を正確にモデル化するには、DNAヌクレオチド配列に含まれる情報は主に細胞種間で不変であるだけでなく、染色体の局所的な化学的・構造的「エピジェネティック状態」が細胞種間でどのように異なるかを考える必要がある。 本稿では,トランスフォーマー(BERT)モデルによる双方向エンコーダ表現について紹介する。このモデルでは,DNA配列とペアのエピジェネティック状態の入力に基づいて表現を学習し,エピゲノミックBERT(Epegenomic BERT,EBERT)と呼ぶ。 EBERTは、ヒトゲノム全体と127種類の細胞に対して、マスク付き言語モデルで事前訓練する。 この複雑なモデルを従来は禁止されていた大規模データセットでトレーニングすることは、cerebras systemsとのパートナーシップによって初めて可能となった。 細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。 本モデルでは,エンコードドリームベンチマークから評価データセット13点中4点において,芸術性能の状態を超過し,チャレンジ・リーダーボードにおいて3位にランクインする。 本稿では,エピジェネティックデータとタスク特化機能の追加が伝達学習性能に与える影響について考察する。

Large scale self-supervised pre-training of Transformer language models has advanced the field of Natural Language Processing and shown promise in cross-application to the biological `languages' of proteins and DNA. Learning effective representations of DNA sequences using large genomic sequence corpuses may accelerate the development of models of gene regulation and function through transfer learning. However, to accurately model cell type-specific gene regulation and function, it is necessary to consider not only the information contained in DNA nucleotide sequences, which is mostly invariant between cell types, but also how the local chemical and structural `epigenetic state' of chromosomes varies between cell types. Here, we introduce a Bidirectional Encoder Representations from Transformers (BERT) model that learns representations based on both DNA sequence and paired epigenetic state inputs, which we call Epigenomic BERT (or EBERT). We pre-train EBERT with a masked language model objective across the entire human genome and across 127 cell types. Training this complex model with a previously prohibitively large dataset was made possible for the first time by a partnership with Cerebras Systems, whose CS-1 system powered all pre-training experiments. We show EBERT's transfer learning potential by demonstrating strong performance on a cell type-specific transcription factor binding prediction task. Our fine-tuned model exceeds state of the art performance on 4 of 13 evaluation datasets from ENCODE-DREAM benchmarks and earns an overall rank of 3rd on the challenge leaderboard. We explore how the inclusion of epigenetic data and task specific feature augmentation impact transfer learning performance.
翻訳日:2021-12-15 16:51:49 公開日:2021-12-14
# サブクアドラティック時間における多層オーバーパラメータニューラルネットワークの訓練

Training Multi-Layer Over-Parametrized Neural Network in Subquadratic Time ( http://arxiv.org/abs/2112.07628v1 )

ライセンス: Link先を確認
Zhao Song, Lichen Zhang, Ruizhe Zhang(参考訳) 本稿では,多層超パラメータニューラルネットワークを訓練し,損失関数による経験的リスクを最小限に抑える問題を考える。 オーバーパラメータ化の典型的な設定では、ネットワーク幅 $m$ はデータ次元 $d$ よりもはるかに大きく、トレーニングサンプルの数は $n$ (m=\mathrm{poly}(n,d)$) である。 つまり、重み行列を読み、前方計算と後方計算の両方でニューラルネットワークの機能を評価するのに、o(m^2)$を払わなければならない。 本研究は,各イテレーションあたりのトレーニングコストの削減方法,具体的には初期化段階でのみ$m^2$ を消費し,1イテレーションあたり$m$,すなわち$m^{2-\omega(1)}$ という真にサブクアドラルなコストを達成するフレームワークを提案する。 この結果を得るためには,シフトしたreluベーススパルサファイザ,遅延低ランクメンテナンスデータ構造,高速矩形行列乗算,テンソルベーススケッチ技術,プリコンディショニングなど,様々な手法を用いた。

We consider the problem of training a multi-layer over-parametrized neural networks to minimize the empirical risk induced by a loss function. In the typical setting of over-parametrization , the network width $m$ is much larger than the data dimension $d$ and number of training samples $n$ ($m=\mathrm{poly}(n,d)$), which induces a prohibitive large weight matrix $W\in \mathbb{R}^{m\times m}$ per layer. Naively, one has to pay $O(m^2)$ time to read the weight matrix and evaluate the neural network function in both forward and backward computation. In this work, we show how to reduce the training cost per iteration, specifically, we propose a framework that uses $m^2$ cost only in the initialization phase and achieves a truly subquadratic cost per iteration in terms of $m$, i.e., $m^{2-\Omega(1)}$ per iteration. To obtain this result, we make use of various techniques, including a shifted ReLU-based sparsifier, a lazy low rank maintenance data structure, fast rectangular matrix multiplication, tensor-based sketching techniques and preconditioning.
翻訳日:2021-12-15 16:49:26 公開日:2021-12-14
# 運転騒音に基づく表面異常検出の性能向上のための騒音低減と運転イベント抽出法

Noise Reduction and Driving Event Extraction Method for Performance Improvement on Driving Noise-based Surface Anomaly Detection ( http://arxiv.org/abs/2112.07214v1 )

ライセンス: Link先を確認
YeongHyeon Park, JoonSung Lee, Myung Jin Kim, Wonseok Park(参考訳) 雨水や黒い氷などの路面上の異物はタイヤと表面の間の摩擦を減少させる。 以上の状況によりブレーキ性能が低下し、車体姿勢の制御が困難となる。 その場合、少なくとも財産が被害を受ける可能性がある。 最悪の場合、個人的損害が発生する。 この問題を解決するために,車両走行騒音に基づく道路異常検出モデルを提案する。 しかし, 先行提案では, 走行騒音と混合した余分な騒音を考慮せず, 車両運転を伴わないモーメントのスキップ計算も考慮されていない。 本稿では,計算効率と異常検出性能を向上させるための簡易な駆動イベント抽出法とノイズ低減法を提案する。

Foreign substances on the road surface, such as rainwater or black ice, reduce the friction between the tire and the surface. The above situation will reduce the braking performance and make difficult to control the vehicle body posture. In that case, there is a possibility of property damage at least. In the worst case, personal damage will be occured. To avoid this problem, a road anomaly detection model is proposed based on vehicle driving noise. However, the prior proposal does not consider the extra noise, mixed with driving noise, and skipping calculations for moments without vehicle driving. In this paper, we propose a simple driving event extraction method and noise reduction method for improving computational efficiency and anomaly detection performance.
翻訳日:2021-12-15 16:48:59 公開日:2021-12-14
# リアルタイムニューラル音声カモフラージュ

Real-Time Neural Voice Camouflage ( http://arxiv.org/abs/2112.07076v1 )

ライセンス: Link先を確認
Mia Chiquier, Chengzhi Mao, Carl Vondrick(参考訳) 音声認識システムはアプリケーションにエキサイティングな可能性をもたらしてきたが、体系的な盗聴の機会も得る。 室内の人との会話を不便にすることなく、これらのシステムから人の声を空中からカモフラージュする方法を提案する。 通常の敵攻撃は、攻撃が実行されるまでに信号の特性が変化するため、リアルタイムストリーミング状況では有効ではない。 我々は,今後最も効果的となる攻撃を予測することにより,リアルタイム性能を実現する予測攻撃を提案する。 リアルタイム制約下では,確立された音声認識システムdeepspeech 4.17xを,単語誤り率で測定したベースラインと,文字誤り率で測定した7.27倍をジャムする。 さらに,本手法は物理的距離を超える現実的な環境において有効であることを示す。

Automatic speech recognition systems have created exciting possibilities for applications, however they also enable opportunities for systematic eavesdropping. We propose a method to camouflage a person's voice over-the-air from these systems without inconveniencing the conversation between people in the room. Standard adversarial attacks are not effective in real-time streaming situations because the characteristics of the signal will have changed by the time the attack is executed. We introduce predictive attacks, which achieve real-time performance by forecasting the attack that will be the most effective in the future. Under real-time constraints, our method jams the established speech recognition system DeepSpeech 4.17x more than baselines as measured through word error rate, and 7.27x more as measured through character error rate. We furthermore demonstrate our approach is practically effective in realistic environments over physical distances.
翻訳日:2021-12-15 16:48:28 公開日:2021-12-14
# スパースデータからパラメトリックマップを学習するための適応的残差ネットワーク

Adaptive Projected Residual Networks for Learning Parametric Maps from Sparse Data ( http://arxiv.org/abs/2112.07096v1 )

ライセンス: Link先を確認
Thomas O'Leary-Roseberry, Xiaosong Du, Anirban Chaudhuri, Joaquim R. R. A. Martins, Karen Willcox and Omar Ghattas(参考訳) 限られた訓練データから高次元パラメトリックマップを学習するための擬似サロゲートフレームワークを提案する。 パラメトリックサロゲートの必要性は、複雑な計算モデルの繰り返しクエリを必要とする多くのアプリケーションで生じる。 これらの応用には、ベイズ逆問題、最適実験設計、不確実性下での最適設計と制御、リアルタイム推論と制御問題などの「外ループ」問題が含まれる。 多くの高次元パラメトリック写像は低次元構造を許容しており、入力と出力のマッピングに不備な縮小基数を活用できる。 そこで我々は,ResNet近似を適応的に構築することにより,これらのマップの低次元近似を学習するフレームワークを開発した。 制御フローの離散化としてのresnetの最近の近似理論に動機づけられ、提案する適応射影resnetフレームワークの普遍近似特性を証明し、resnet構築のための関連する反復アルゴリズムを動機付ける。 この戦略は, 逐次最小化フローを利用するため, 近似理論とアルゴリズムの相同性を表す。 数値的な例では、これらの類似したマッピングインフォームドアーキテクチャは、トレーニングデータが少ないと驚くほど高い精度を達成できることを示し、トレーニングデータ生成に最小限の計算投資を行うために実装すべきサロゲート戦略であることを示す。

We present a parsimonious surrogate framework for learning high dimensional parametric maps from limited training data. The need for parametric surrogates arises in many applications that require repeated queries of complex computational models. These applications include such "outer-loop" problems as Bayesian inverse problems, optimal experimental design, and optimal design and control under uncertainty, as well as real time inference and control problems. Many high dimensional parametric mappings admit low dimensional structure, which can be exploited by mapping-informed reduced bases of the inputs and outputs. Exploiting this property, we develop a framework for learning low dimensional approximations of such maps by adaptively constructing ResNet approximations between reduced bases of their inputs and output. Motivated by recent approximation theory for ResNets as discretizations of control flows, we prove a universal approximation property of our proposed adaptive projected ResNet framework, which motivates a related iterative algorithm for the ResNet construction. This strategy represents a confluence of the approximation theory and the algorithm since both make use of sequentially minimizing flows. In numerical examples we show that these parsimonious, mapping-informed architectures are able to achieve remarkably high accuracy given few training data, making them a desirable surrogate strategy to be implemented for minimal computational investment in training data generation.
翻訳日:2021-12-15 16:48:14 公開日:2021-12-14
# importantAug: 音声のためのデータ拡張エージェント

ImportantAug: a data augmentation agent for speech ( http://arxiv.org/abs/2112.07156v1 )

ライセンス: Link先を確認
Viet Anh Trinh (1), Hassan Salami Kavaki (1), Michael I Mandel (1 and 2) ((1) CUNY Graduate Center, (2) Brooklyn College)(参考訳) 本研究は,音声の非重要領域にノイズを付加することにより,音声分類と認識モデルの訓練データを強化する手法である importantaugを提案する。 音声認識性能への影響を最小限に抑えつつ、追加するノイズの量を最大化するように訓練されたデータ拡張エージェントによって、発話毎に重要度が予測される。 本手法の有効性を,Google Speech Commands (GSC) データセットのバージョン2に示す。 標準GSCテストセットでは、最も有効な場所に関係なく音声に雑音を付与する従来の雑音増強と比較して、23.3%の相対誤差率の低減を実現している。 また、データ拡張のないベースラインに比べて25.4%のエラー率削減を提供する。 さらに,提案手法は,従来の雑音増減とベースラインを2つのテストセットで上回り,追加ノイズを付加した。

We introduce ImportantAug, a technique to augment training data for speech classification and recognition models by adding noise to unimportant regions of the speech and not to important regions. Importance is predicted for each utterance by a data augmentation agent that is trained to maximize the amount of noise it adds while minimizing its impact on recognition performance. The effectiveness of our method is illustrated on version two of the Google Speech Commands (GSC) dataset. On the standard GSC test set, it achieves a 23.3% relative error rate reduction compared to conventional noise augmentation which applies noise to speech without regard to where it might be most effective. It also provides a 25.4% error rate reduction compared to a baseline without data augmentation. Additionally, the proposed ImportantAug outperforms the conventional noise augmentation and the baseline on two test sets with additional noise added.
翻訳日:2021-12-15 16:47:51 公開日:2021-12-14
# 1次元畳み込みニューラルネットワークを用いたcovid-19自動診断とパラメーターによる人間の呼吸音の増強

Automatic COVID-19 disease diagnosis using 1D convolutional neural network and augmentation with human respiratory sound based on parameters: cough, breath, and voice ( http://arxiv.org/abs/2112.07285v1 )

ライセンス: Link先を確認
Kranthi Kumar Lella and Alphonse Pja(参考訳) 呼吸器の音の分類は、昨年、新型コロナウイルス感染症の診断のために臨床科学者や医学研究者のグループから大きな注目を集めている。 これまで、人工知能(AI)のさまざまなモデルが現実世界に入り、音声、音声、声、声、息など、人工的な音から新型コロナウイルスの病気を検出する。 畳み込みニューラルネットワーク(CNN)モデルは、人工知能(AI)に基づくマシンで多くの現実世界の問題を解決するために実装されている。 この文脈では、1次元(1次元)のcnnが提案され、声、せき、呼吸などの人間の呼吸音からcovid-19の呼吸器疾患を診断するために実装されている。 1D畳み込みネットワークを用いて、COVID-19サウンドデータセットの事前処理性能の向上と、COVID-19疾患診断の自動化を目的として、拡張ベースのメカニズムを適用した。 さらに、DDAE(Data De-noising Auto Encoder)技術を用いて、MFCC(Mel frequency cepstral coefficient)の標準入力を採用する代わりに、1D CNNへの入力関数などの深い音響特性を生成し、従来のモデルよりも精度と性能を向上する。

The issue in respiratory sound classification has attained good attention from the clinical scientists and medical researcher's group in the last year to diagnosing COVID-19 disease. To date, various models of Artificial Intelligence (AI) entered into the real-world to detect the COVID-19 disease from human-generated sounds such as voice/speech, cough, and breath. The Convolutional Neural Network (CNN) model is implemented for solving a lot of real-world problems on machines based on Artificial Intelligence (AI). In this context, one dimension (1D) CNN is suggested and implemented to diagnose respiratory diseases of COVID-19 from human respiratory sounds such as a voice, cough, and breath. An augmentation-based mechanism is applied to improve the preprocessing performance of the COVID-19 sounds dataset and to automate COVID-19 disease diagnosis using the 1D convolutional network. Furthermore, a DDAE (Data De-noising Auto Encoder) technique is used to generate deep sound features such as the input function to the 1D CNN instead of adopting the standard input of MFCC (Mel-frequency cepstral coefficient), and it is performed better accuracy and performance than previous models.
翻訳日:2021-12-15 16:47:39 公開日:2021-12-14
# 宝くじ仮説を用いたプルーニングコヒーレント統合フォトニックニューラルネットワーク

Pruning Coherent Integrated Photonic Neural Networks Using the Lottery Ticket Hypothesis ( http://arxiv.org/abs/2112.07485v1 )

ライセンス: Link先を確認
Sanmitra Banerjee, Mahdi Nikdast, Sudeep Pasricha, Krishnendu Chakrabarty(参考訳) 特異値分解に基づくコヒーレント統合フォトニックニューラルネットワーク(sc-ipnns)は足跡が大きく、トレーニングや推論のために高い静的電力消費を被り、従来のdnnプラニング技術では刈り取ることができない。 我々は,ロッタリーチケット仮説を利用して,重量パラメータ数を最小化することにより,これらの課題を軽減したsc-ipnnのハードウェアアウェアプルーニング手法を提案する。 我々は多層パーセプトロンを用いたsc-ipnnを試用し,sc-ipnnの重みパラメータに対応する位相角の最大89%を,静電消費電力を最大86%削減しつつ,精度の低下(5%未満)でプルーピングできることを示した。

Singular-value-decom position-based coherent integrated photonic neural networks (SC-IPNNs) have a large footprint, suffer from high static power consumption for training and inference, and cannot be pruned using conventional DNN pruning techniques. We leverage the lottery ticket hypothesis to propose the first hardware-aware pruning method for SC-IPNNs that alleviates these challenges by minimizing the number of weight parameters. We prune a multi-layer perceptron-based SC-IPNN and show that up to 89% of the phase angles, which correspond to weight parameters in SC-IPNNs, can be pruned with a negligible accuracy loss (smaller than 5%) while reducing the static power consumption by up to 86%.
翻訳日:2021-12-15 16:46:53 公開日:2021-12-14
# 確率的リプシッツ制約によるロバストグラフニューラルネットワーク

Robust Graph Neural Networks via Probabilistic Lipschitz Constraints ( http://arxiv.org/abs/2112.07575v1 )

ライセンス: Link先を確認
Raghu Arghal, Eric Lei, and Shirin Saeedi Bidokhti(参考訳) グラフニューラルネットワーク(gnns)は、分散制御やリソース割り当てなど、ネットワークベースのさまざまなタスクでうまく動作することが最近実証され、その点において伝統的に挑戦されてきたこれらのタスクに対して計算効率の良い方法を提供している。 しかしながら、多くのニューラルネットワークベースのシステムと同様に、GNNは入力のシフトや摂動に影響を受けやすく、ノード属性とグラフ構造の両方を含むことができる。 現実世界のアプリケーションに役立てるためには、デプロイ後の堅牢性を保証することが重要です。 ノード特性に関してGNNフィルタのリプシッツ定数を制御することにより、GNNフィルタバンクの周波数応答を制限することを提案する。 我々は、この定式化を連続周波数応答制約を用いて動的グラフ設定に拡張し、シナリオアプローチによって問題を緩和した変種を解く。 これにより、サンプル制約に対して同じ計算効率のアルゴリズムを使用することで、シナリオ最適化の結果を使用して、GNNの安定性に関するPACスタイルの保証が可能になる。 また、この設定とGNN安定性とグラフ摂動との重要な関係を強調し、我々のアプローチの有効性と広さを示す実験結果を提供する。

Graph neural networks (GNNs) have recently been demonstrated to perform well on a variety of network-based tasks such as decentralized control and resource allocation, and provide computationally efficient methods for these tasks which have traditionally been challenging in that regard. However, like many neural-network based systems, GNNs are susceptible to shifts and perturbations on their inputs, which can include both node attributes and graph structure. In order to make them more useful for real-world applications, it is important to ensure their robustness post-deployment. Motivated by controlling the Lipschitz constant of GNN filters with respect to the node attributes, we propose to constrain the frequency response of the GNN's filter banks. We extend this formulation to the dynamic graph setting using a continuous frequency response constraint, and solve a relaxed variant of the problem via the scenario approach. This allows for the use of the same computationally efficient algorithm on sampled constraints, which provides PAC-style guarantees on the stability of the GNN using results in scenario optimization. We also highlight an important connection between this setup and GNN stability to graph perturbations, and provide experimental results which demonstrate the efficacy and broadness of our approach.
翻訳日:2021-12-15 16:46:37 公開日:2021-12-14
# 接続性最大化ネットワーク構成の学習

Learning Connectivity-Maximiz ing Network Configurations ( http://arxiv.org/abs/2112.07663v1 )

ライセンス: Link先を確認
Daniel Mox, Vijay Kumar, Alejandro Ribeiro(参考訳) 本研究では,ロボットチームの代数的接続を最適化するためのデータ駆動アプローチを提案する。 この問題に多くの研究が費やされてきたが、私たちはほんの一握り以上のエージェントに対して、オンラインアプリケーションに適した方法でスケールする手法を欠いている。 そこで本研究では,最適化に基づく戦略を用いた専門家のコミュニケーションエージェント配置を学習する畳み込みニューラルネットワーク(cnn)を用いた教師付き学習手法を提案する。 我々は、標準線およびリングトポロジーにおけるcnnのパフォーマンス、ランダムに生成された105kのテストケース、トレーニング中に見られない大きなチームについて実演します。 また,このシステムを動的ロボットチームに適用する方法を,ユニティベースシミュレーションによって示す。 トレーニング後,本システムは10~20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。

In this work we propose a data-driven approach to optimizing the algebraic connectivity of a team of robots. While a considerable amount of research has been devoted to this problem, we lack a method that scales in a manner suitable for online applications for more than a handful of agents. To that end, we propose a supervised learning approach with a convolutional neural network (CNN) that learns to place communication agents from an expert that uses an optimization-based strategy. We demonstrate the performance of our CNN on canonical line and ring topologies, 105k randomly generated test cases, and larger teams not seen during training. We also show how our system can be applied to dynamic robot teams through a Unity-based simulation. After training, our system produces connected configurations 2 orders of magnitude faster than the optimization-based scheme for teams of 10-20 agents.
翻訳日:2021-12-15 16:46:17 公開日:2021-12-14
# (参考訳) 文書要約のための意味対称性の強化 [全文訳有]

Reinforcing Semantic-Symmetry for Document Summarization ( http://arxiv.org/abs/2112.07583v1 )

ライセンス: CC BY 4.0
Mingyang Song, Liping Jing(参考訳) 文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。 主な問題は、出力要約を入力ドキュメントとセマンティックに一貫性を持たせる方法である。 この目標を達成するために、最近の研究者は、抽出モジュールと抽象モジュールを含む、教師付きエンドツーエンドハイブリッドアプローチに焦点を当てている。 このうち、抽出部は、入力文書から有能な文を識別し、抽象部は、有能な文から要約を生成する。 このモデルは、生成された要約と参照要約の一貫性を様々な戦略(強化学習など)を通して維持する。 ハイブリッドモデルのトレーニングには、2つの意味的ギャップがある(1つは文書と抽出文の間、もう1つは抽出文と要約の間)。 しかし、それらは既存の手法では明確に考慮されておらず、通常は要約の意味的バイアスをもたらす。 上記の問題を緩和するため,本稿では,文書要約のための新しい \textbf{r}einforcing s\textbf{e}mantic-\textbf{sy}mmetry learning \textbf{m}odel を提案する。 ReSyMは、最初のギャップを埋めるために、抽出器にセマンティック一貫性の報酬を導入する。 セマンティックデュアルリワードは、抽象子の2番目のギャップをブリッジするように設計されている。 文書要約プロセス全体は、強化学習とハイブリッド報酬機構(上記2つの報酬を組み合わせた)によって実施される。 また、原文書から十分な情報を取り込むための包括的文表現学習方法も提示する。 CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。 その結果,様々な評価指標の点から,ReSyMを最先端のベースラインと比較することで,ReSyMの優位性を示した。

Document summarization condenses a long document into a short version with salient information and accurate semantic descriptions. The main issue is how to make the output summary semantically consistent with the input document. To reach this goal, recently, researchers have focused on supervised end-to-end hybrid approaches, which contain an extractor module and abstractor module. Among them, the extractor identifies the salient sentences from the input document, and the abstractor generates a summary from the salient sentences. This model successfully keeps the consistency between the generated summary and the reference summary via various strategies (e.g., reinforcement learning). There are two semantic gaps when training the hybrid model (one is between document and extracted sentences, and the other is between extracted sentences and summary). However, they are not explicitly considered in the existing methods, which usually results in a semantic bias of summary. To mitigate the above issue, in this paper, a new \textbf{r}einforcing s\textbf{e}mantic-\textbf{sy}mmetry learning \textbf{m}odel is proposed for document summarization (\textbf{ReSyM}). ReSyM introduces a semantic-consistency reward in the extractor to bridge the first gap. A semantic dual-reward is designed to bridge the second gap in the abstractor. The whole document summarization process is implemented via reinforcement learning with a hybrid reward mechanism (combining the above two rewards). Moreover, a comprehensive sentence representation learning method is presented to sufficiently capture the information from the original document. A series of experiments have been conducted on two wildly used benchmark datasets CNN/Daily Mail and BigPatent. The results have shown the superiority of ReSyM by comparing it with the state-of-the-art baselines in terms of various evaluation metrics.
翻訳日:2021-12-15 16:45:34 公開日:2021-12-14
# ループス腎炎検出のためのConvNetsを用いた病理組織像の分類

Classification of histopathology images using ConvNets to detect Lupus Nephritis ( http://arxiv.org/abs/2112.07555v1 )

ライセンス: Link先を確認
Akash Gupta, Anirudh Reddy, CV Jawahar, PK Vinod(参考訳) 全身性エリテマトーデス(systemic lupus erythematosus, SLE)は、患者の免疫系が身体の健康な組織を攻撃する自己免疫疾患である。 ループス腎炎(英語: Lupus Nephritis、LN)は、これらの発作による腎不全を引き起こす腎臓組織の炎症である。 International Society of Nephrology/Renal Pathology Society (ISN/RPS)は、SLEの腎障害時に観察される様々なパターンに基づいた分類システムをリリースした。 従来の方法では、腎生検の慎重な病理学的評価が必要であり、時間を要する。 近年,仮想顕微鏡や全スライドイメージング(WSI)を用いることで,この問題の緩和に寄与している。 ディープラーニングと現代のコンピュータビジョン技術を用いて、プロセスを自動化するパイプラインを提案する。 1) スライド画像全体に存在する様々な糸球体パターンの検出と検出 2)抽出した糸球体特徴を用いた各画像の分類。

Systemic lupus erythematosus (SLE) is an autoimmune disease in which the immune system of the patient starts attacking healthy tissues of the body. Lupus Nephritis (LN) refers to the inflammation of kidney tissues resulting in renal failure due to these attacks. The International Society of Nephrology/Renal Pathology Society (ISN/RPS) has released a classification system based on various patterns observed during renal injury in SLE. Traditional methods require meticulous pathological assessment of the renal biopsy and are time-consuming. Recently, computational techniques have helped to alleviate this issue by using virtual microscopy or Whole Slide Imaging (WSI). With the use of deep learning and modern computer vision techniques, we propose a pipeline that is able to automate the process of 1) detection of various glomeruli patterns present in these whole slide images and 2) classification of each image using the extracted glomeruli features.
翻訳日:2021-12-15 16:12:32 公開日:2021-12-14
# 混合交通におけるスケーラブルな自律性スーパービジョンの連携

Cooperation for Scalable Supervision of Autonomy in Mixed Traffic ( http://arxiv.org/abs/2112.07569v1 )

ライセンス: Link先を確認
Cameron Hickert, Sirui Li, Cathy Wu(参考訳) 自律性の向上は多くのドメインで肯定的な結果をもたらす可能性があるが、安全なデプロイメントを保証することは難しい。 本研究は,人間がエージェントをインテリジェントに監視し,性能保証が得られなくてもある程度の安全性を達成する方法について検討する。 安全クリティカルな環境では、1人の人間が常に1台のマシンを監督する必要性を回避できますか? 本論文は,この「スケーリング監督」問題を定式化し,交通に融合する自律走行車(avs)の安全性-クリティカルコンテキストへの適用について検討する。 本研究は,avsのヒューマン・スーパーバイザーの負担を軽減するための,保守的で到達性に基づく手法を提案する。 深部強化学習を用いた順序統計と交通シミュレーションにより, AV のチーム化により, AV 導入における監督時間のサブ線形化が可能となった。 重要な点は、現在のAVの不完全性にもかかわらず、AVが大量に展開されるにつれて、監督がより困難になることである。 この作業はavに重点を置いているが、スケーラブルな監視フレームワークは、幅広い自律制御の課題に関連している。

Improvements in autonomy offer the potential for positive outcomes in a number of domains, yet guaranteeing their safe deployment is difficult. This work investigates how humans can intelligently supervise agents to achieve some level of safety even when performance guarantees are elusive. The motivating research question is: In safety-critical settings, can we avoid the need to have one human supervise one machine at all times? The paper formalizes this 'scaling supervision' problem, and investigates its application to the safety-critical context of autonomous vehicles (AVs) merging into traffic. It proposes a conservative, reachability-based method to reduce the burden on the AVs' human supervisors, which allows for the establishment of high-confidence upper bounds on the supervision requirements in this setting. Order statistics and traffic simulations with deep reinforcement learning show analytically and numerically that teaming of AVs enables supervision time sublinear in AV adoption. A key takeaway is that, despite present imperfections of AVs, supervision becomes more tractable as AVs are deployed en masse. While this work focuses on AVs, the scalable supervision framework is relevant to a broader array of autonomous control challenges.
翻訳日:2021-12-15 16:12:19 公開日:2021-12-14
# MDD-Eval:マルチドメイン対話評価のための拡張データの自己評価

MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation ( http://arxiv.org/abs/2112.07194v1 )

ライセンス: Link先を確認
Chen Zhang, Luis Fernando D'Haro, Thomas Friedrichs and Haizhou Li(参考訳) チャットボットは、一般的なチットチャット、知識交換、パーソナライズされた会話など、さまざまなドメインで人間的な会話を実行するように設計されている。 このような対話エージェントの品質を測定するため、対話評価器はドメイン間でも評価を行うことが期待される。 しかし、最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。 私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。 具体的には,まず,教師に注釈付きデータで評価器を訓練し,評価スキルを習得し,特定のドメインの悪者から適切な対話応答を伝えるとともに,教師に注釈付きマルチドメインデータで新たな評価器を訓練する自己学習戦略を採用して,新しい評価器が複数のドメインにまたがる一般化を支援する。 MDD-Evalは6つの対話評価ベンチマークで広く評価されている。 実験の結果,MDD-Evalフレームワークは,すべての評価ベンチマークにおける平均スピアマン相関スコアにおいて,最先端のADMよりも7%,絶対的に向上した。

Chatbots are designed to carry out human-like conversations across different domains, such as general chit-chat, knowledge exchange, and persona-grounded conversations. To measure the quality of such conversational agents, a dialogue evaluator is expected to conduct assessment across domains as well. However, most of the state-of-the-art automatic dialogue evaluation metrics (ADMs) are not designed for multi-domain evaluation. We are motivated to design a general and robust framework, MDD-Eval, to address the problem. Specifically, we first train a teacher evaluator with human-annotated data to acquire a rating skill to tell good dialogue responses from bad ones in a particular domain and then, adopt a self-training strategy to train a new evaluator with teacher-annotated multi-domain data, that helps the new evaluator to generalize across multiple domains. MDD-Eval is extensively assessed on six dialogue evaluation benchmarks. Empirical results show that the MDD-Eval framework achieves a strong performance with an absolute improvement of 7% over the state-of-the-art ADMs in terms of mean Spearman correlation scores across all the evaluation benchmarks.
翻訳日:2021-12-15 16:12:00 公開日:2021-12-14
# 混合開始型会話検索 -- パス検索に裏付けられた質問の質疑応答

Conversational Search with Mixed-Initiative -- Asking Good Clarification Questions backed-up by Passage Retrieval ( http://arxiv.org/abs/2112.07308v1 )

ライセンス: Link先を確認
Yosi Mass, Doron Cohen, Asaf Yehudai and David Konopnicki(参考訳) 我々は,対話型検索のシナリオを混合開始型で扱う。つまり,システム質問,システム質問(明確化質問),ユーザ回答である。 我々は,会話の文脈から次の明確化問題を選択するタスクに焦点をあてる。 提案手法は,関係する候補の明確化質問の初期選択と,それらの候補を再評価するための2つのディープラーニングモデルの微調整に利用される。 本手法を2つの異なるユースケースで評価した。 1つ目は、大きなWebコレクション内のオープンドメインの会話検索である。 2つ目はタスク指向のカスタマーサポート設定です。 本手法は両ユースケースで良好に機能することを示す。

We deal with a scenario of conversational search with mixed-initiative: namely user-asks system-answers, as well as system-asks (clarification questions) and user-answers. We focus on the task of selecting the next clarification question, given conversation context. Our method leverages passage retrieval that is used both for an initial selection of relevant candidate clarification questions, as well as for fine-tuning two deep-learning models for re-ranking these candidates. We evaluated our method on two different use-cases. The first is an open domain conversational search in a large web collection. The second is a task-oriented customer-support setup. We show that our method performs well on both use-cases.
翻訳日:2021-12-15 16:11:39 公開日:2021-12-14
# 潜在構造とデータ拡張による合成一般化の改善

Improving Compositional Generalization with Latent Structure and Data Augmentation ( http://arxiv.org/abs/2112.07610v1 )

ライセンス: Link先を確認
Linlu Qiu, Peter Shaw, Panupong Pasupat, Pawe{\l} Krzysztof Nowak, Tal Linzen, Fei Sha, Kristina Toutanova(参考訳) 一般的な非構造ニューラルネットワークは、分布外合成の一般化に苦慮している。 サンプル組換えによる構成データ拡張は、いくつかの意味解析タスクのために、構成性に関する事前知識をブラックボックスニューラルモデルに移行した。 合成構造学習(CSL)と呼ばれるモデルを用いて,より強力なデータ組換え手法を提案する。 CSLは準同期型文脈自由文法のバックボーンを持つ生成モデルであり、トレーニングデータから導出する。 cslから再結合したサンプルをサンプリングし、事前学習されたシーケンス・ツー・シーケンスモデル(t5)の微調整データに追加する。 この手順は、CSLの構成バイアスの大部分を診断タスクのためにT5に効果的に転送し、2つの実世界の構成一般化タスクにおけるT5-CSLアンサンブルよりも強いモデルをもたらす。 これにより、自然言語の変分と要素の新規合成の両方に一般化を必要とするこれらの難解なセマンティック解析タスクに対して、新しい最先端性能が得られる。

Generic unstructured neural networks have been shown to struggle on out-of-distribution compositional generalization. Compositional data augmentation via example recombination has transferred some prior knowledge about compositionality to such black-box neural models for several semantic parsing tasks, but this often required task-specific engineering or provided limited gains. We present a more powerful data recombination method using a model called Compositional Structure Learner (CSL). CSL is a generative model with a quasi-synchronous context-free grammar backbone, which we induce from the training data. We sample recombined examples from CSL and add them to the fine-tuning data of a pre-trained sequence-to-sequence model (T5). This procedure effectively transfers most of CSL's compositional bias to T5 for diagnostic tasks, and results in a model even stronger than a T5-CSL ensemble on two real world compositional generalization tasks. This results in new state-of-the-art performance for these challenging semantic parsing tasks requiring generalization to both natural language variation and novel compositions of elements.
翻訳日:2021-12-15 16:09:42 公開日:2021-12-14
# 問合せ型要約のためのニューラルモデル探索

Exploring Neural Models for Query-Focused Summarization ( http://arxiv.org/abs/2112.07637v1 )

ライセンス: Link先を確認
Jesse Vig, Alexander R. Fabbri, Wojciech Kry\'sci\'nski(参考訳) クエリ中心の要約(qfs)は、特定の関心のある質問に答える要約を作成し、ユーザー制御とパーソナライゼーションの強化を可能にすることを目的としている。 QMSumやAQuaMuSeといった最近リリースされたデータセットは、QFSの研究活動を促進する一方で、適用可能なモデリング手法の広い領域に関する包括的な研究は欠如している。 本稿では,2段階抽出法とエンド・ツー・エンドモデルという2つの方法の一般クラスを考慮した,qfsに対する神経アプローチの系統的探索を行う。 これらのカテゴリにおいて,QMSumデータセットの最先端性能を最大3.38 ROUGE-1,3.72 ROUGE-2,3.28 ROUGE-Lのマージンで達成する既存手法と2つのモデル拡張について検討する。 定量的実験を通じて、異なるモデル構成間のトレードオフを強調し、要約タスク間の伝達能力を検討する。 コードとチェックポイントは、https://github.com/s alesforce/query-focu sed-sum.comで公開されている。

Query-focused summarization (QFS) aims to produce summaries that answer particular questions of interest, enabling greater user control and personalization. While recently released datasets, such as QMSum or AQuaMuSe, facilitate research efforts in QFS, the field lacks a comprehensive study of the broad space of applicable modeling methods. In this paper we conduct a systematic exploration of neural approaches to QFS, considering two general classes of methods: two-stage extractive-abstracti ve solutions and end-to-end models. Within those categories, we investigate existing methods and present two model extensions that achieve state-of-the-art performance on the QMSum dataset by a margin of up to 3.38 ROUGE-1, 3.72 ROUGE-2, and 3.28 ROUGE-L. Through quantitative experiments we highlight the trade-offs between different model configurations and explore the transfer abilities between summarization tasks. Code and checkpoints are made publicly available: https://github.com/s alesforce/query-focu sed-sum.
翻訳日:2021-12-15 16:09:25 公開日:2021-12-14
# 格子を用いたテキスト生成のための大規模復号

Massive-scale Decoding for Text Generation using Lattices ( http://arxiv.org/abs/2112.07660v1 )

ライセンス: Link先を確認
Jiacheng Xu and Greg Durrett(参考訳) 要約や翻訳に使用されるようなニューラルテキスト生成モデルは、高品質な出力を生成するが、本当に望むものが多様なオプションセットである場合、しばしばモードに集中する。 多数の生成オプションを符号化する格子を構成するための探索アルゴリズムを提案する。 まず,ビーム探索と異なる空間を探索し,プルーニングパスを回避して効率を向上させるベストファーストサーチとしてデコード再構成を行う。 第2に,仮説再結合の考え方を再検討する:探索中に類似する生成候補のペアを同定し,それらを近似としてマージすることができる。 文書要約と機械翻訳の両方において、我々のアルゴリズムは文法的かつ高品質な数百から数千の多様な選択肢を1つの線形サイズの格子に符号化することを示した。 このアルゴリズムは、大規模な多様な出力の上に下流生成アプリケーションを構築する基盤を提供する。

Neural text generation models like those used for summarization and translation generate high-quality outputs, but often concentrate around a mode when what we really want is a diverse set of options. We present a search algorithm to construct lattices encoding a massive number of generation options. First, we restructure decoding as a best-first search, which explores the space differently than beam search and improves efficiency by avoiding pruning paths. Second, we revisit the idea of hypothesis recombination: we can identify pairs of similar generation candidates during search and merge them as an approximation. On both document summarization and machine translation, we show that our algorithm encodes hundreds to thousands of diverse options that remain grammatical and high-quality into one linear-sized lattice. This algorithm provides a foundation for building downstream generation applications on top of massive-scale diverse outputs.
翻訳日:2021-12-15 16:09:06 公開日:2021-12-14
# EABlock: 知識グラフ作成パイプラインのための宣言的なエンティティアライメントブロック

EABlock: A Declarative Entity Alignment Block for Knowledge Graph Creation Pipelines ( http://arxiv.org/abs/2112.07493v1 )

ライセンス: Link先を確認
Samaneh Jozashoori, Ahmad Sakor, Enrique Iglesias, Maria-Esther Vidal(参考訳) 膨大な量のリッチで価値のあるデータをエンコードしているにも関わらず、既存のデータソースは独立して作成されている。 RMLやR2RMLといったマッピング言語は、メタデータを適用し、データを知識グラフに統合するプロセスの宣言的な仕様化を促進する。 マッピングルールには、データソース間の対応表現と統一スキーマに加えて、知識抽出機能も含まれる。 マッピングルールと関数の組み合わせは、データをナレッジグラフに透過的に統合するためのパイプラインを特定するための強力な形式です。 驚くべきことに、これらの形式は完全には適合せず、多くのナレッジグラフはデータの事前処理と統合のためにアドホックなプログラムを実行することによって作られる。 本稿では,エンティティアライメント(EA)をRMLマッピングルールの一部として統合するアプローチであるERBlockを提案する。 eablockには、テキスト属性からエンティティ認識を行い、認識されたエンティティをwikidata、dbpedia、ドメイン固有シソーラス(例えばumls)の対応するリソースにリンクする関数のブロックが含まれている。 EABlockは、関数を評価し、マッピングを転送し、どのRML準拠のエンジンにも適用できるようにするための、非依存かつ効率的な技術を提供する。 EABlockの性能を実証的に評価した結果,最先端のRML準拠エンジンにおけるエンティティ認識とリンクを必要とする知識グラフ生成パイプラインの高速化が示唆された。 EABlockはまた、GitHubリポジトリ(https://github.com/ SDM-TIB/EABlock)とDOI(https://doi.org/ 10.5281/zenodo.57797 73)を通じてツールとして公開されている。

Despite encoding enormous amount of rich and valuable data, existing data sources are mostly created independently, being a significant challenge to their integration. Mapping languages, e.g., RML and R2RML, facilitate declarative specification of the process of applying meta-data and integrating data into a knowledge graph. Mapping rules can also include knowledge extraction functions in addition to expressing correspondences among data sources and a unified schema. Combining mapping rules and functions represents a powerful formalism to specify pipelines for integrating data into a knowledge graph transparently. Surprisingly, these formalisms are not fully adapted, and many knowledge graphs are created by executing ad-hoc programs to pre-process and integrate data. In this paper, we present EABlock, an approach integrating Entity Alignment (EA) as part of RML mapping rules. EABlock includes a block of functions performing entity recognition from textual attributes and link the recognized entities to the corresponding resources in Wikidata, DBpedia, and domain specific thesaurus, e.g., UMLS. EABlock provides agnostic and efficient techniques to evaluate the functions and transfer the mappings to facilitate its application in any RML-compliant engine. We have empirically evaluated EABlock performance, and results indicate that EABlock speeds up knowledge graph creation pipelines that require entity recognition and linking in state-of-the-art RML-compliant engines. EABlock is also publicly available as a tool through a GitHub repository(https://g ithub.com/SDM-TIB/EA Block) and a DOI(https://doi.org/ 10.5281/zenodo.57797 73).
翻訳日:2021-12-15 16:08:26 公開日:2021-12-14
# ElePose: カメラの上昇予測による教師なし3次元姿勢推定と2次元姿勢の正規化学習

ElePose: Unsupervised 3D Human Pose Estimation by Predicting Camera Elevation and Learning Normalizing Flows on 2D Poses ( http://arxiv.org/abs/2112.07088v1 )

ライセンス: Link先を確認
Bastian Wandt, James J. Little, Helge Rhodin(参考訳) 単一画像からの人間のポーズ推定は、教師付き学習によって通常解決される困難な問題である。 残念ながら、3Dアノテーションには専用のモーションキャプチャシステムが必要であるため、ラベル付きトレーニングデータはまだ多くの人間の活動には存在していない。 そこで本研究では,クラウドソーシング可能な2次元ポーズデータのみをトレーニングしながら,単一の画像から3次元人間のポーズを予測するための教師なしアプローチを提案する。 この目的のために,2次元ポーズの正規化フローを用いて,ランダムなプロジェクションよりも最も高い確率で3次元ポーズを推定する。 トレーニングデータセットでは,カメラの回転に強い先行性を必要とするが,カメラアングルの分布を学習し,性能を著しく向上させる。 もうひとつの貢献は,2次元ポーズを線形部分空間に投影することにより,高次元3次元ポーズデータの正規化によるトレーニングを安定化することである。 我々は,Human3.6M と MPI-INF-3DHP のベンチマークデータセット上で,最先端の教師なしポーズ推定手法を多くの指標で上回っている。

Human pose estimation from single images is a challenging problem that is typically solved by supervised learning. Unfortunately, labeled training data does not yet exist for many human activities since 3D annotation requires dedicated motion capture systems. Therefore, we propose an unsupervised approach that learns to predict a 3D human pose from a single image while only being trained with 2D pose data, which can be crowd-sourced and is already widely available. To this end, we estimate the 3D pose that is most likely over random projections, with the likelihood estimated using normalizing flows on 2D poses. While previous work requires strong priors on camera rotations in the training data set, we learn the distribution of camera angles which significantly improves the performance. Another part of our contribution is to stabilize training with normalizing flows on high-dimensional 3D pose data by first projecting the 2D poses to a linear subspace. We outperform the state-of-the-art unsupervised human pose estimation methods on the benchmark datasets Human3.6M and MPI-INF-3DHP in many metrics.
翻訳日:2021-12-15 16:06:29 公開日:2021-12-14
# ES-CRF:セマンティックセグメンテーションのための埋め込みスーパーピクセルCRF

ES-CRF: Embedded Superpixel CRF for Semantic Segmentation ( http://arxiv.org/abs/2112.07106v1 )

ライセンス: Link先を確認
Jie Zhu, Huabin Huang, Banghuai Li, Leye Wang(参考訳) 現代のセマンティックセグメンテーション手法は、メトリクス学習やアーキテクチャ設計など、様々な方法でセグメンテーション性能を改善するために特徴表現を調整することに多くの注意を払っている。 しかし、これらの手法のほとんどは境界画素の特異性を無視している。 これらのピクセルは、cnnネットワークにおける受容野の連続的な拡大のため、両側から紛らわしい特徴を得る傾向がある。 このようにして、モデル最適化の方向性を誤解させ、隣接する多くのピクセルを共有する傾向にあるカテゴリのクラス重みを識別できないようにし、全体的な性能を損なう。 本研究では,この問題を深く掘り下げて,組込みスーパーピクセルCRF (ES-CRF) という新しい手法を提案する。 ES-CRFには2つの主な側面がある。 一方、ES-CRFは、より効率的なエンドツーエンド最適化のために、CRF機構を有機的にCNNネットワークに融合させる。 CRFを利用して、高レベルの特徴においてピクセル間のメッセージパッシングを誘導し、内部ピクセルの助けを借りて境界画素の特徴表現を浄化する。 一方、スーパーピクセルはES-CRFに統合され、より信頼性の高いメッセージパッシングに先立ってローカルオブジェクトを利用する。 最後に,提案手法は,Cityscapes と ADE20K の2つの挑戦的ベンチマークに新たな記録を与える。 さらに,ES-CRFの優位性を検証するため,詳細な理論的解析を行った。

Modern semantic segmentation methods devote much attention to adjusting feature representations to improve the segmentation performance in various ways, such as metric learning, architecture design, etc. However, almost all those methods neglect the particularity of boundary pixels. These pixels are prone to obtain confusing features from both sides due to the continuous expansion of receptive fields in CNN networks. In this way, they will mislead the model optimization direction and make the class weights of such categories that tend to share many adjacent pixels lack discrimination, which will damage the overall performance. In this work, we dive deep into this problem and propose a novel method named Embedded Superpixel CRF (ES-CRF) to address it. ES-CRF involves two main aspects. On the one hand, ES-CRF innovatively fuses the CRF mechanism into the CNN network as an organic whole for more effective end-to-end optimization. It utilizes CRF to guide the message passing between pixels in high-level features to purify the feature representation of boundary pixels, with the help of inner pixels belong to the same object. On the other hand, superpixel is integrated into ES-CRF to exploit the local object prior for more reliable message passing. Finally, our proposed method yields new records on two challenging benchmarks, i.e., Cityscapes and ADE20K. Moreover, we make detailed theoretical analysis to verify the superiority of ES-CRF.
翻訳日:2021-12-15 16:06:08 公開日:2021-12-14
# emds-6:環境微生物画像データセット 第6版画像分割・セグメント化・特徴抽出・分類・検出手法の評価

EMDS-6: Environmental Microorganism Image Dataset Sixth Version for Image Denoising, Segmentation, Feature Extraction, Classification and Detection Methods Evaluation ( http://arxiv.org/abs/2112.07111v1 )

ライセンス: Link先を確認
Peng Zhao, Chen Li, Md Mamunur Rahaman, Hao Xu, Pingli Ma, Hechen Yang, Hongzan Sun, Tao Jiang, Ning Xu and Marcin Grzegorzek(参考訳) 環境微生物(EM)は私たちの周りにあり、人間の社会の生存と発展に大きな影響を与えている。 しかし,環境微生物(EM)データ作成の基準と厳格な要件は,GT画像を用いたデータベースだけでなく,既存の関係データベースの不足につながっている。 この問題は関連する実験の進行に深刻な影響を及ぼす。 そこで本研究では,21種類のemsを含む環境微生物データセット(emds-6)を開発した。 EMには40のオリジナルと40のGTイメージが含まれており、合計1680のEMイメージがある。 本研究では,emds-6の有効性をテストする。 画像分割,画像分割,ターゲット検出などの画像処理手法の古典的なアルゴリズムを選択する。 実験結果から,EMDS-6を用いて画像識別,画像分割,画像特徴抽出,画像分類,オブジェクト検出手法の性能を評価することができた。

Environmental microorganisms (EMs) are ubiquitous around us and have an important impact on the survival and development of human society. However, the high standards and strict requirements for the preparation of environmental microorganism (EM) data have led to the insufficient of existing related databases, not to mention the databases with GT images. This problem seriously affects the progress of related experiments. Therefore, This study develops the Environmental Microorganism Dataset Sixth Version (EMDS-6), which contains 21 types of EMs. Each type of EM contains 40 original and 40 GT images, in total 1680 EM images. In this study, in order to test the effectiveness of EMDS-6. We choose the classic algorithms of image processing methods such as image denoising, image segmentation and target detection. The experimental result shows that EMDS-6 can be used to evaluate the performance of image denoising, image segmentation, image feature extraction, image classification, and object detection methods.
翻訳日:2021-12-15 16:05:45 公開日:2021-12-14
# 映像と映像を併用したコトレーニングトランスフォーマは動作認識を改善する

Co-training Transformer with Videos and Images Improves Action Recognition ( http://arxiv.org/abs/2112.07175v1 )

ライセンス: Link先を確認
Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang, Fei Sha(参考訳) 学習行動認識では、モデルは通常、imagenetなどの画像を用いたオブジェクト認識で事前学習され、後にビデオによるターゲット行動認識で微調整される。 このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。 近年の多くの研究は、アクション認識のためのより高度なトランスフォーマーアーキテクチャを設計することを目指しているが、ビデオトランスフォーマーのトレーニング方法に関する取り組みは少ない。 本研究では,いくつかの学習パラダイムを探求し,二つの知見を提示する。 まず、ビデオトランスフォーマーは多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受ける(例えば、キネティクスは外見中心、Somethingは動き中心)。 第二に、画像(シングルフレームビデオ)とのコラボトレーニングにより、ビデオトランスフォーマーはより優れたビデオ表現を学習する。 このアプローチを,CoVeR(Co-training Videos and Images for Action Recognition)と呼ぶ。 特に、timesformerアーキテクチャに基づいてimagenet-21kで事前トレーニングすると、coverはkinetics-400 top-1の精度を2.4%、kinetics-600を2.3%、something-v2を2.3%向上させる。 以前の最先端に続き、大規模な画像データセットで事前訓練された場合、CoVeRは、単純な時空間ビデオ変換器で、 Kinetics-400 (87.2%)、 Kinetics-600 (87.9%)、 Kinetics-700 (79.8%)、 SomethingSomething-v 2 (70.9%)、 Moments-in-Time (46.1%) の最良の結果を得る。

In learning action recognition, models are typically pre-trained on object recognition with images, such as ImageNet, and later fine-tuned on target action recognition with videos. This approach has achieved good empirical performance especially with recent transformer-based video architectures. While recently many works aim to design more advanced transformer architectures for action recognition, less effort has been made on how to train video transformers. In this work, we explore several training paradigms and present two findings. First, video transformers benefit from joint training on diverse video datasets and label spaces (e.g., Kinetics is appearance-focused while SomethingSomething is motion-focused). Second, by further co-training with images (as single-frame videos), the video transformers learn even better video representations. We term this approach as Co-training Videos and Images for Action Recognition (CoVeR). In particular, when pretrained on ImageNet-21K based on the TimeSFormer architecture, CoVeR improves Kinetics-400 Top-1 Accuracy by 2.4%, Kinetics-600 by 2.3%, and SomethingSomething-v 2 by 2.3%. When pretrained on larger-scale image datasets following previous state-of-the-art, CoVeR achieves best results on Kinetics-400 (87.2%), Kinetics-600 (87.9%), Kinetics-700 (79.8%), SomethingSomething-v 2 (70.9%), and Moments-in-Time (46.1%), with a simple spatio-temporal video transformer.
翻訳日:2021-12-15 16:05:28 公開日:2021-12-14
# Few-shot画像分類のためのカテゴリー関連特徴の探索

Exploring Category-correlated Feature for Few-shot Image Classification ( http://arxiv.org/abs/2112.07224v1 )

ライセンス: Link先を確認
Jing Xu, Xinglin Pan, Xu Luo, Wenjie Pei, Zenglin Xu(参考訳) 少数ショット分類は、いくつかのトレーニングサンプルを持つ新しいクラスに分類器を適用することを目的としている。 しかしながら、トレーニングデータの不足は、特定のクラスにおける特徴分布の偏りのある推定を引き起こす可能性がある。 この問題を軽減するため,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,簡易かつ効果的な特徴補正手法を提案する。 このような相関関係を,基本クラス数に一致する次元を持つ潜在ベクトルにマッピングすることで明確に把握し,基本クラス上の特徴の対数確率として扱う。 この潜在ベクトルに基づいて、補正機能はデコーダによって直接構築されるので、他の確率因子を除去しながらカテゴリ関連情報を維持でき、その結果、そのクラスセントロイドに近いものとなる。 さらに,ソフトマックスの温度値を変化させることで,特徴量の補正と再構築を両立させ,性能を向上することができる。 提案手法は,任意の特徴抽出器や分類器に対して汎用的かつ柔軟であり,既存のFSL手法に容易に組み込むことができる。 実験により,本手法は偏りのある特徴,特にその特徴がクラスセントロイドから遠く離れている場合の補正が可能であることが確認された。 提案手法は、異なるバックボーンと分類器を用いて評価された3つの広く使用されているベンチマークにおいて、一定の性能向上が得られる。 コードは公開されます。

Few-shot classification aims to adapt classifiers to novel classes with a few training samples. However, the insufficiency of training data may cause a biased estimation of feature distribution in a certain class. To alleviate this problem, we present a simple yet effective feature rectification method by exploring the category correlation between novel and base classes as the prior knowledge. We explicitly capture such correlation by mapping features into a latent vector with dimension matching the number of base classes, treating it as the logarithm probability of the feature over base classes. Based on this latent vector, the rectified feature is directly constructed by a decoder, which we expect maintaining category-related information while removing other stochastic factors, and consequently being closer to its class centroid. Furthermore, by changing the temperature value in softmax, we can re-balance the feature rectification and reconstruction for better performance. Our method is generic, flexible and agnostic to any feature extractor and classifier, readily to be embedded into existing FSL approaches. Experiments verify that our method is capable of rectifying biased features, especially when the feature is far from the class centroid. The proposed approach consistently obtains considerable performance gains on three widely used benchmarks, evaluated with different backbones and classifiers. The code will be made public.
翻訳日:2021-12-15 16:04:55 公開日:2021-12-14
# クラスインクリメンタル3次元物体検出のための静的動的共学学習

Static-Dynamic Co-Teaching for Class-Incremental 3D Object Detection ( http://arxiv.org/abs/2112.07241v1 )

ライセンス: Link先を確認
Na Zhao and Gim Hee Lee(参考訳) ディープラーニングに基づくアプローチは、3Dオブジェクト検出タスクにおいて顕著なパフォーマンスを示している。 しかし、古いデータを再考することなく、新しいクラスを漸進的に学習するときに、元々訓練されたクラスで破滅的なパフォーマンス低下に悩まされる。 この「破滅的な忘れ物」現象は、継続的学習システムが必要な現実のシナリオに3Dオブジェクト検出アプローチを配置することを妨げる。 本稿では,非探索的ながら重要な3次元オブジェクト検出問題について検討し,新しい静的・ダイナミック・コティーチング法であるSDCoTについて述べる。 SDCoTは, 従来の知識を蒸留損失で抽出することで, 古いクラスに対する疑似アノテーションを新しいサンプルで提供し, 現在のモデルを標準化する静的教師を通して, 古いクラスの破滅的な忘れを緩和する。 それと同時に、SDCoTは動的教師を通して新しいデータから基礎となる知識を一貫して学習する。 2つのベンチマークデータセットに対して広範な実験を行い、いくつかの漸進的な学習シナリオにおいてベースラインアプローチよりもSDCoTの方が優れた性能を示す。

Deep learning-based approaches have shown remarkable performance in the 3D object detection task. However, they suffer from a catastrophic performance drop on the originally trained classes when incrementally learning new classes without revisiting the old data. This "catastrophic forgetting" phenomenon impedes the deployment of 3D object detection approaches in real-world scenarios, where continuous learning systems are needed. In this paper, we study the unexplored yet important class-incremental 3D object detection problem and present the first solution - SDCoT, a novel static-dynamic co-teaching method. Our SDCoT alleviates the catastrophic forgetting of old classes via a static teacher, which provides pseudo annotations for old classes in the new samples and regularizes the current model by extracting previous knowledge with a distillation loss. At the same time, SDCoT consistently learns the underlying knowledge from new data via a dynamic teacher. We conduct extensive experiments on two benchmark datasets and demonstrate the superior performance of our SDCoT over baseline approaches in several incremental learning scenarios.
翻訳日:2021-12-15 16:04:35 公開日:2021-12-14
# グラディエント補正による顔認識のためのフェデレーション学習

Federated Learning for Face Recognition with Gradient Correction ( http://arxiv.org/abs/2112.07246v1 )

ライセンス: Link先を確認
Yifan Niu, Weihong Deng(参考訳) 顔認識におけるプライバシー問題へのアピールが高まる中、フェデレーション学習は、非拘束的な顔認識問題をプライベートな分散データで研究するための最も一般的なアプローチの1つとして浮上している。 しかし,従来の分散化フェデレーションアルゴリズムでは,クライアント間のネットワークパラメータ全体の共有は,顔認識シーンのプライバシー漏洩に悩まされている。 本研究では,顔認識のためのフェデレーション学習に取り組み,より高いプライバシーを保証するためのフレームワークであるFedGCを紹介する。 本稿では,後方伝播の観点から勾配を補正する新たなアイデアを探求し,クライアント間勾配項を精度良く注入することによりクラス埋め込みの勾配を補正するsoftmaxベースの正則化器を提案する。 理論的には、FedGCは標準ソフトマックスと同様の損失関数を構成する。 一般的なベンチマークデータセットのフルトレーニングデータセットを利用する従来の集中型手法のパフォーマンスにマッチするfedercの優位性を検証するために、広範な実験が行われている。

With increasing appealing to privacy issues in face recognition, federated learning has emerged as one of the most prevalent approaches to study the unconstrained face recognition problem with private decentralized data. However, conventional decentralized federated algorithm sharing whole parameters of networks among clients suffers from privacy leakage in face recognition scene. In this work, we introduce a framework, FedGC, to tackle federated learning for face recognition and guarantees higher privacy. We explore a novel idea of correcting gradients from the perspective of backward propagation and propose a softmax-based regularizer to correct gradients of class embeddings by precisely injecting a cross-client gradient term. Theoretically, we show that FedGC constitutes a valid loss function similar to standard softmax. Extensive experiments have been conducted to validate the superiority of FedGC which can match the performance of conventional centralized methods utilizing full training dataset on several popular benchmark datasets.
翻訳日:2021-12-15 16:04:18 公開日:2021-12-14
# 視覚的質問応答における特徴融合のためのバイラテラルクロスモーダルグラフマッチング注意

Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering ( http://arxiv.org/abs/2112.07270v1 )

ライセンス: Link先を確認
JianJian Cao and Xiameng Qin and Sanyuan Zhao and Jianbing Shen(参考訳) VQA(Visual Question Answering)タスクでは,画像に応じた意味論的に複雑な質問への回答が難しい。 画像は深層学習によってよく表現できるが、質問は常に単に埋め込まれており、その意味を十分に示すことはできない。 さらに、視覚的特徴とテキスト的特徴は異なるモダリティのギャップがあり、モダリティ情報の整合や利用は困難である。 本稿では,この2つの問題に着目し,グラフマッチング注意(GMA)ネットワークを提案する。 まず、画像用のグラフを構築するだけでなく、構文と埋め込み情報の両方の観点から質問のためのグラフを構築する。 次に,双段グラフエンコーダを用いてモダリティ内関係を探索し,画像と質問の関係を推定するために注意を一致させる両側交叉モダリティグラフを示す。 更新されたクロスモダリティ機能は、最終応答予測のために応答予測モジュールに送られる。 実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。 アブレーション研究はgmaネットワークにおける各モジュールの有効性を検証する。

Answering semantically-complic ated questions according to an image is challenging in Visual Question Answering (VQA) task. Although the image can be well represented by deep learning, the question is always simply embedded and cannot well indicate its meaning. Besides, the visual and textual features have a gap for different modalities, it is difficult to align and utilize the cross-modality information. In this paper, we focus on these two problems and propose a Graph Matching Attention (GMA) network. Firstly, it not only builds graph for the image, but also constructs graph for the question in terms of both syntactic and embedding information. Next, we explore the intra-modality relationships by a dual-stage graph encoder and then present a bilateral cross-modality graph matching attention to infer the relationships between the image and the question. The updated cross-modality features are then sent into the answer prediction module for final answer prediction. Experiments demonstrate that our network achieves state-of-the-art performance on the GQA dataset and the VQA 2.0 dataset. The ablation studies verify the effectiveness of each modules in our GMA network.
翻訳日:2021-12-15 16:04:03 公開日:2021-12-14
# SNF: フィルタの適切な個数探索によるフィルタプルーニング

SNF: Filter Pruning via Searching the Proper Number of Filters ( http://arxiv.org/abs/2112.07282v1 )

ライセンス: Link先を確認
Pengkun Liu, Yaru Yue, Yanjun Guo, Xingxiang Tao, Xiaoguang Zhou(参考訳) 畳み込みニューラルネットワーク(CNN)はパラメータ冗長性の量を持ち、フィルタプルーニングは冗長なフィルタを除去し、CNNを端末デバイスに適用する可能性を提供する。 しかし、従来の研究は、フィルタの重要度の評価基準の設計に注意を払っており、畳み込みニューラルネットワークの冗長性を低減するために、固定プルーニング率または固定数で重要度を低くする。 各レイヤに予約するフィルタが、最も合理的な選択であるかどうかを考慮しない。 そこで本研究では,適切なフィルタ数(snf)を探索し,新しいフィルタ刈り法を提案する。 SNFは各レイヤに対して最も合理的な数のリザーブドフィルタを検索し、特定の基準でフィルタをプルーニングする。 FLOPで最適なネットワーク構造をカスタマイズすることができる。 フィルタプルーニングによりCIFAR-10のSOTA精度が向上し、ResNet-56ネットワークに基づくImageNet ILSVRC-2012.SNFの競合性能は52.94%でトップ1の精度が0.14%向上する。 CIFAR-10上でのPruning ResNet-110は、68.68%のFLOPを減少させると、トップ1の精度が0.03%向上する。 ImageNetでは、プルーニングレートを52.10%のFLOPに設定し、トップ1の精度は0.74%しか低下しない。 コードはhttps://github.com/p k-l/snfで入手できる。

Convolutional Neural Network (CNN) has an amount of parameter redundancy, filter pruning aims to remove the redundant filters and provides the possibility for the application of CNN on terminal devices. However, previous works pay more attention to designing evaluation criteria of filter importance and then prune less important filters with a fixed pruning rate or a fixed number to reduce convolutional neural networks' redundancy. It does not consider how many filters to reserve for each layer is the most reasonable choice. From this perspective, we propose a new filter pruning method by searching the proper number of filters (SNF). SNF is dedicated to searching for the most reasonable number of reserved filters for each layer and then pruning filters with specific criteria. It can tailor the most suitable network structure at different FLOPs. Filter pruning with our method leads to the state-of-the-art (SOTA) accuracy on CIFAR-10 and achieves competitive performance on ImageNet ILSVRC-2012.SNF based on the ResNet-56 network achieves an increase of 0.14% in Top-1 accuracy at 52.94% FLOPs reduction on CIFAR-10. Pruning ResNet-110 on CIFAR-10 also improves the Top-1 accuracy of 0.03% when reducing 68.68% FLOPs. For ImageNet, we set the pruning rates as 52.10% FLOPs, and the Top-1 accuracy only has a drop of 0.74%. The codes can be available at https://github.com/p k-l/SNF.
翻訳日:2021-12-15 16:03:01 公開日:2021-12-14
# OMAD:ポーズ推定と検索のためのArticulated deformationを用いたオブジェクトモデル

OMAD: Object Model with Articulated Deformations for Pose Estimation and Retrieval ( http://arxiv.org/abs/2112.07334v1 )

ライセンス: Link先を確認
Han Xue, Liu Liu, Wenqiang Xu, Haoyuan Fu, Cewu Lu(参考訳) 人工物は日常生活で広く普及している。 しかし,本質的な高DoF構造のため,関節状物体の接合状態は推定が困難である。 調音物体のモデル化には,幾何学的変形とポーズ変形の2種類の形状変形を考慮すべきである。 そこで本研究では,調音対象を明示的にモデル化するための対象モデル (OMAD) と呼ばれる新しいカテゴリー別パラメトリック表現を提案する。 omadでは、カテゴリは共有形状基底と非線形関節関数を持つ線形形状関数に関連付けられる。 どちらの関数も大規模なオブジェクトモデルデータセットから学習でき、カテゴリ固有の先行として固定される。 そこで我々は,物体の単一観測から形状パラメータと接合状態を予測するためのOMADNetを提案する。 対象の形状と結合状態の完全な表現により,カテゴリレベルのオブジェクトポーズ推定や明瞭なオブジェクト検索など,いくつかの課題に対処できる。 これらのタスクを評価するために,partnet-mobilityに基づく合成データセットを作成する。 大規模な実験により、私たちの単純なOMADNetは両方のタスクの強力なベースラインとして機能することが示された。

Articulated objects are pervasive in daily life. However, due to the intrinsic high-DoF structure, the joint states of the articulated objects are hard to be estimated. To model articulated objects, two kinds of shape deformations namely the geometric and the pose deformation should be considered. In this work, we present a novel category-specific parametric representation called Object Model with Articulated Deformations (OMAD) to explicitly model the articulated objects. In OMAD, a category is associated with a linear shape function with shared shape basis and a non-linear joint function. Both functions can be learned from a large-scale object model dataset and fixed as category-specific priors. Then we propose an OMADNet to predict the shape parameters and the joint states from an object's single observation. With the full representation of the object shape and joint states, we can address several tasks including category-level object pose estimation and the articulated object retrieval. To evaluate these tasks, we create a synthetic dataset based on PartNet-Mobility. Extensive experiments show that our simple OMADNet can serve as a strong baseline for both tasks.
翻訳日:2021-12-15 16:02:31 公開日:2021-12-14
# 行動認識のための自己監督型時間変換器ネットワーク

Temporal Transformer Networks with Self-Supervision for Action Recognition ( http://arxiv.org/abs/2112.07338v1 )

ライセンス: Link先を確認
Yongkang Zhang, Jun Li, Guoming Wu, Han Zhang, Zhiping Shi, Zhaoxun Liu, Zizhang Wu, Na Jiang(参考訳) 近年,2次元畳み込みネットワークを用いた映像行動認識が広く普及しているが,長距離非線形時間関係モデリングやリバースモーション情報モデリングが欠如しているため,既存のモデルの性能が著しく低下している。 この緊急問題に対処するため,TTSN(Singling Temporal Transformer Network with Self-supervision)を導入する。 我々の高性能TTSNは主に時間変圧器モジュールと時間列自己スーパービジョンモジュールからなる。 簡潔な言い方をすれば,非局所フレーム間の非線形時間依存性をモデル化するために,効率的な時間的トランスフォーマーモジュールを用いる。 前例のない時間系列自己スーパービジョンモジュールは,映像フレームのシーケンスを反転させる「ランダムバッチランダムチャネル」の合理化戦略を採用し,逆時間次元からのロバストな動き情報表現抽出を可能にし,モデルの一般化能力を向上させる。 広く使われている3つのデータセット(HMDB51、UCF101、Some-something V1)に対する大規模な実験は、我々の提案するTTSNが動作認識の最先端性能を達成するために有望であることを確定的に証明した。

In recent years, 2D Convolutional Networks-based video action recognition has encouragingly gained wide popularity; However, constrained by the lack of long-range non-linear temporal relation modeling and reverse motion information modeling, the performance of existing models is, therefore, undercut seriously. To address this urgent problem, we introduce a startling Temporal Transformer Network with Self-supervision (TTSN). Our high-performance TTSN mainly consists of a temporal transformer module and a temporal sequence self-supervision module. Concisely speaking, we utilize the efficient temporal transformer module to model the non-linear temporal dependencies among non-local frames, which significantly enhances complex motion feature representations. The temporal sequence self-supervision module we employ unprecedentedly adopts the streamlined strategy of "random batch random channel" to reverse the sequence of video frames, allowing robust extractions of motion information representation from inversed temporal dimensions and improving the generalization capability of the model. Extensive experiments on three widely used datasets (HMDB51, UCF101, and Something-something V1) have conclusively demonstrated that our proposed TTSN is promising as it successfully achieves state-of-the-art performance for action recognition.
翻訳日:2021-12-15 16:02:13 公開日:2021-12-14
# 一般化3次元ポーズ伝達のための幾何コントラストトランス

Geometry-Contrastive Transformer for Generalized 3D Pose Transfer ( http://arxiv.org/abs/2112.07374v1 )

ライセンス: Link先を確認
Haoyu Chen, Hao Tang, Zitong Yu, Nicu Sebe, Guoying Zhao(参考訳) ポーズ転送タスク用にカスタマイズされた3Dメッシュトランスフォーマーモデルを提案する。 3dポーズ移動は、本質的に与えられたメッシュに依存する変形手順であるため、この研究の直観は、与えられたメッシュ間の幾何学的不整合と強力な自己着脱機構を知覚することである。 具体的には,与えられたメッシュ全体にわたる大域的な幾何学的不整合に対して,効率的な3次元構造化知覚能力を有する,新しい幾何コントラスト変換器を提案する。 さらに,地域的幾何学的不整合学習を改善するために,局所的に,単純で効率的な中心測地線のコントラスト損失を提案する。 最後に,未知空間に対するクロスデータセット3dポーズ転送タスクのための,新しい半合成データセットと共に,潜在等尺正規化モジュールを提案する。 SMPL-NPT, FAUST, 新たに提案したデータセットSMG-3Dと, MG-cloth および SMAL データセットの定性的結果を示すことによって, 本手法の有効性を実証した。 提案手法はロバストな3次元ポーズ転送を実現し, クロスデータセットタスクにおける未知空間からのメッシュへの挑戦に一般化できることを実証した。 コードとデータセットは利用可能である。 コードはhttps://github.com/m ikecheninoulu/cgt。

We present a customized 3D mesh Transformer model for the pose transfer task. As the 3D pose transfer essentially is a deformation procedure dependent on the given meshes, the intuition of this work is to perceive the geometric inconsistency between the given meshes with the powerful self-attention mechanism. Specifically, we propose a novel geometry-contrastive Transformer that has an efficient 3D structured perceiving ability to the global geometric inconsistencies across the given meshes. Moreover, locally, a simple yet efficient central geodesic contrastive loss is further proposed to improve the regional geometric-inconsiste ncy learning. At last, we present a latent isometric regularization module together with a novel semi-synthesized dataset for the cross-dataset 3D pose transfer task towards unknown spaces. The massive experimental results prove the efficacy of our approach by showing state-of-the-art quantitative performances on SMPL-NPT, FAUST and our new proposed dataset SMG-3D datasets, as well as promising qualitative results on MG-cloth and SMAL datasets. It's demonstrated that our method can achieve robust 3D pose transfer and be generalized to challenging meshes from unknown spaces on cross-dataset tasks. The code and dataset are made available. Code is available: https://github.com/m ikecheninoulu/CGT.
翻訳日:2021-12-15 16:01:49 公開日:2021-12-14
# TRACER: 極端に注意を向けた有能な物体追跡ネットワーク

TRACER: Extreme Attention Guided Salient Object Tracing Network ( http://arxiv.org/abs/2112.07380v1 )

ライセンス: Link先を確認
Min Seok Lee, WooSeok Shin, and Sung Won Han(参考訳) salient object detection(sod)に関するこれまでの研究は、エッジ情報による異なるオブジェクトの抽出と、sodパフォーマンスを改善するためにマルチレベル機能を集約することに焦点を当てている。 良好な性能を達成するため、改良されたエッジ情報と低マルチレベル不一致を用いる。 しかし、性能向上と計算効率の両面で達成できないため、既存のエンコーダ・デコーダ構造の非効率性について研究する動機となった。 本稿では,注意誘導型トレーシングモジュールを組み込んで,鮮明なエッジで有意な物体を検出するTRACERを提案する。 高速フーリエ変換を用いて,第1エンコーダの終端にマスク付きエッジアテンションモジュールを用いて,改良されたエッジ情報を下流特徴抽出に伝達する。 多レベルアグリゲーションフェーズでは、ユニオンアテンションモジュールは補完チャネルと重要な空間情報を特定する。 デコーダの性能と計算効率を向上させるため、オブジェクトアテンションモジュールによるデコーダブロックの使用を最小化する。 このモジュールは、洗練されたチャネルと空間表現から未検出のオブジェクトとエッジ情報を抽出する。 次に,全ての画素を等しく扱う従来の損失関数とは異なり,比較的重要な画素を扱う適応画素強度損失関数を提案する。 既存の13のメソッドと比較すると、トレーサは5つのベンチマークデータセットで最先端のパフォーマンスを達成している。 特に TRACER-Efficient3 (TE3) は LDF よりも優れており、既存のメソッドでは 1.8 倍の学習パラメータと時間の短縮が必要であり、TE3 は 5 倍高速である。

Existing studies on salient object detection (SOD) focus on extracting distinct objects with edge information and aggregating multi-level features to improve SOD performance. To achieve satisfactory performance, the methods employ refined edge information and low multi-level discrepancy. However, both performance gain and computational efficiency cannot be attained, which has motivated us to study the inefficiencies in existing encoder-decoder structures to avoid this trade-off. We propose TRACER, which detects salient objects with explicit edges by incorporating attention guided tracing modules. We employ a masked edge attention module at the end of the first encoder using a fast Fourier transform to propagate the refined edge information to the downstream feature extraction. In the multi-level aggregation phase, the union attention module identifies the complementary channel and important spatial information. To improve the decoder performance and computational efficiency, we minimize the decoder block usage with object attention module. This module extracts undetected objects and edge information from refined channels and spatial representations. Subsequently, we propose an adaptive pixel intensity loss function to deal with the relatively important pixels unlike conventional loss functions which treat all pixels equally. A comparison with 13 existing methods reveals that TRACER achieves state-of-the-art performance on five benchmark datasets. In particular, TRACER-Efficient3 (TE3) outperforms LDF, an existing method while requiring 1.8x fewer learning parameters and less time; TE3 is 5x faster.
翻訳日:2021-12-15 16:01:27 公開日:2021-12-14
# 句学習とラベル合成によるヒューマン・オブジェクト間インタラクション検出の改善

Improving Human-Object Interaction Detection via Phrase Learning and Label Composition ( http://arxiv.org/abs/2112.07383v1 )

ライセンス: Link先を確認
Zhimin Li, Cheng Zou, Yu Zhao, Boxun Li, Sheng Zhong(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出は、高レベルな人間中心のシーン理解における基本的な課題である。 本稿では,hoi 分岐と新規句分岐を含む phrasehoi を提案し,言語を前もって活用し,関係表現を改善する。 具体的には、フレーズブランチはセマンティック埋め込みによって管理され、その基礎的真理は人間の余分な努力なしにオリジナルのHOIアノテーションから自動的に変換される。 一方,セマンティックな隣人による新しいフレーズラベルを合成するHOIでは,長い尾の問題に対処する新しいラベル合成法が提案されている。 さらに,このフレーズ分岐を最適化するために,蒸留損失と平衡三重項損失からなる損失を提案する。 提案したPhraseHOIの有効性を実証するため,提案手法はベースラインよりも大幅に改善され,HICO-DETベンチマーク上でのFullおよびNonRareの最先端手法を克服する。

Human-Object Interaction (HOI) detection is a fundamental task in high-level human-centric scene understanding. We propose PhraseHOI, containing a HOI branch and a novel phrase branch, to leverage language prior and improve relation expression. Specifically, the phrase branch is supervised by semantic embeddings, whose ground truths are automatically converted from the original HOI annotations without extra human efforts. Meanwhile, a novel label composition method is proposed to deal with the long-tailed problem in HOI, which composites novel phrase labels by semantic neighbors. Further, to optimize the phrase branch, a loss composed of a distilling loss and a balanced triplet loss is proposed. Extensive experiments are conducted to prove the effectiveness of the proposed PhraseHOI, which achieves significant improvement over the baseline and surpasses previous state-of-the-art methods on Full and NonRare on the challenging HICO-DET benchmark.
翻訳日:2021-12-15 16:00:58 公開日:2021-12-14
# 手書きテキスト生成とストライクスルー文字拡張

Handwritten text generation and strikethrough characters augmentation ( http://arxiv.org/abs/2112.07395v1 )

ライセンス: Link先を確認
Alex Shonenkov, Denis Karachev, Max Novopoltsev, Mark Potanin, Denis Dimitrov, Andrey Chertok(参考訳) 本稿では,Resnet-BiLSTM-CTCネットワークを用いて,文字誤り率(WER)と文字誤り率(CER)を,手書き文字認識(HTR)タスクにおいて最もよく報告された結果よりも大幅に低減する2つのデータ拡張手法を提案する。 本研究では,HTRタスクにおいて非常に有効であることが判明した,ストライクスルーテキスト(HandWritten Blots)と印刷テキスト(StackMix)に基づく手書きテキスト生成手法を適用した。 StackMixは、弱い教師付きフレームワークを使用して文字境界を取得する。 これらのデータ拡張技術は使用されるネットワークとは独立しているため、他のネットワークの性能向上やHTRへのアプローチにも応用できる。 10個の手書きテキストデータセットの大規模な実験により、HandWritten Blots augmentationとStackMixはHTRモデルの品質を大幅に改善した。

We introduce two data augmentation techniques, which, used with a Resnet-BiLSTM-CTC network, significantly reduce Word Error Rate (WER) and Character Error Rate (CER) beyond best-reported results on handwriting text recognition (HTR) tasks. We apply a novel augmentation that simulates strikethrough text (HandWritten Blots) and a handwritten text generation method based on printed text (StackMix), which proved to be very effective in HTR tasks. StackMix uses weakly-supervised framework to get character boundaries. Because these data augmentation techniques are independent of the network used, they could also be applied to enhance the performance of other networks and approaches to HTR. Extensive experiments on ten handwritten text datasets show that HandWritten Blots augmentation and StackMix significantly improve the quality of HTR models
翻訳日:2021-12-15 16:00:41 公開日:2021-12-14
# 画像間翻訳のための確率的アクタ・エクゼクタ・クリティカル

Stochastic Actor-Executor-Criti c for Image-to-Image Translation ( http://arxiv.org/abs/2112.07403v1 )

ライセンス: Link先を確認
Ziwei Luo, Jing Hu, Xin Wang, Siwei Lyu, Bin Kong, Youbing Yin, Qi Song, Xi Wu(参考訳) 高次元連続状態と動作空間を含むため、画像から画像への変換を解決するためのモデルフリーの深層強化学習モデルのトレーニングは困難である。 本稿では,画像表現,生成,制御を含む高次元連続空間上の確率的政策を展開するために,連続制御問題に挑戦するために設計された最大エントロピー強化学習フレームワークの最近の成功から着想を得た。 この手法の中心は、現実のイメージを生成するために追加のエグゼキュータを備えたオフポリシーなアクタ-クリティックモデルである確率的アクタ-エグゼキュータ-クリティック(saec)である。 具体的には、アクターは確率的潜在行動によるハイレベルな表現と制御ポリシーに焦点を当て、実行者に国家を操作するための低レベルなアクションを生成するよう明示的に指示する。 いくつかの画像から画像への変換タスクの実験は、高次元連続空間問題に直面する際に提案したSAECの有効性と堅牢性を示した。

Training a model-free deep reinforcement learning model to solve image-to-image translation is difficult since it involves high-dimensional continuous state and action spaces. In this paper, we draw inspiration from the recent success of the maximum entropy reinforcement learning framework designed for challenging continuous control problems to develop stochastic policies over high dimensional continuous spaces including image representation, generation, and control simultaneously. Central to this method is the Stochastic Actor-Executor-Criti c (SAEC) which is an off-policy actor-critic model with an additional executor to generate realistic images. Specifically, the actor focuses on the high-level representation and control policy by a stochastic latent action, as well as explicitly directs the executor to generate low-level actions to manipulate the state. Experiments on several image-to-image translation tasks have demonstrated the effectiveness and robustness of the proposed SAEC when facing high-dimensional continuous space problems.
翻訳日:2021-12-15 16:00:23 公開日:2021-12-14
# ワイドベースラインステレオフォトグラムを用いた深海気泡流のキャラクタリゼーション

Deep Sea Bubble Stream Characterization Using Wide-Baseline Stereo Photogrammetry ( http://arxiv.org/abs/2112.07414v1 )

ライセンス: Link先を確認
Mengkun She, Yifan Song, Tim Wei{\ss}, Jens Greinert, Kevin K\"oser(参考訳) 海底から海への自然および人為的なガス放出(例えば、co$_2$、メタン)の信頼性の高い定量化は、最終的に大気が困難な課題である。 船載のエコー音響装置は、大きな距離からでも水中で自由ガスを検出することができるが、正確な定量化には、そのようなセンサーでは得られない上昇速度や気泡径分布などのパラメータが必要である。 光学的手法は、近距離から単一気泡や気泡流の高時間分解能と空間分解能を提供するという意味で補完的である。 本稿では,光気泡流特性評価のための装置と評価手法について紹介する。 この専用機器は、高速な深海ステレオカメラシステムを使用し、シープサイトに配置されたバブル画像のテラバイトを記録し、後の自動分析を行う。 バブル特性は、数分の短いシーケンスで取得でき、その後、その楽器を他の場所へ移動させたり、あるいは数日の自律的な間隔で移動させることで、電流や圧力の変化や潮流の周期による変動を捉えることができる。 気泡特性を堅牢かつ自律的にするためのステップを報告することに加えて,到達可能な精度を慎重に評価し,点対応の欠如により気泡のシルエットのみを使用する新しいキャリブレーション手順を提案する。 このシステムは、メタンフラックスを評価するために、太平洋で最大1000mの水深で運用されている。 サンプル結果に加えて、開発中に学んだ失敗事例や教訓も報告します。

Reliable quantification of natural and anthropogenic gas release (e.g.\ CO$_2$, methane) from the seafloor into the ocean, and ultimately, the atmosphere, is a challenging task. While ship-based echo sounders allow detection of free gas in the water even from a larger distance, exact quantification requires parameters such as rise speed and bubble size distribution not obtainable by such sensors. Optical methods are complementary in the sense that they can provide high temporal and spatial resolution of single bubbles or bubble streams from close distance. In this contribution we introduce a complete instrument and evaluation method for optical bubble stream characterization. The dedicated instrument employs a high-speed deep sea stereo camera system that can record terabytes of bubble imagery when deployed at a seep site for later automated analysis. Bubble characteristics can be obtained for short sequences of few minutes, then relocating the instrument to other locations, or in autonomous mode of intervals up to several days, in order to capture variations due to current and pressure changes and across tidal cycles. Beside reporting the steps to make bubble characterization robust and autonomous, we carefully evaluate the reachable accuracy and propose a novel calibration procedure that, due to the lack of point correspondences, uses only the silhouettes of bubbles. The system has been operated successfully in up to 1000m water depth in the Pacific Ocean to assess methane fluxes. Besides sample results we also report failure cases and lessons learnt during development.
翻訳日:2021-12-15 15:59:33 公開日:2021-12-14
# 自己教師付き学習によるマルチモーダル知覚注意ネットワークによる話者追跡

Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking ( http://arxiv.org/abs/2112.07423v1 )

ライセンス: Link先を確認
Yidi Li, Hong Liu, Hao Tang(参考訳) マルチモーダル融合は、特に複雑なシナリオにおいて、話者追跡の精度と堅牢性を改善する効果的な方法であることが証明されている。 しかし、異質な情報を組み合わせてマルチモーダル信号の相補性を利用する方法が課題となっている。 本稿では,音声と視覚の両方のモダリティを用いた話者追跡のためのマルチモーダル知覚トラッカ(mpt)を提案する。 具体的には,空間-時間的大域コヒーレンス場(stgcf)に基づく新しい音響マップを構築し,視覚手がかりに整合した定位空間に音響手がかりをマッピングするカメラモデルを用いた異種信号融合を行った。 そして、ノイズに邪魔された間欠的なオーディオやビデオストリームの信頼性と有効性を測定するために、マルチモーダルな知覚注意ネットワークを導入する。 さらに,異なるモード間の相補性と一貫性を活かし,音声と視覚観察の信頼度をモデル化する一意なクロスモーダル自己教師付き学習法を提案する。 実験結果から,MPTは標準データセットと隠蔽データセットでそれぞれ98.6%,78.3%の追跡精度を達成し,そのロバスト性を悪条件下で示し,現在の最先端手法よりも優れていた。

Multi-modal fusion is proven to be an effective method to improve the accuracy and robustness of speaker tracking, especially in complex scenarios. However, how to combine the heterogeneous information and exploit the complementarity of multi-modal signals remains a challenging issue. In this paper, we propose a novel Multi-modal Perception Tracker (MPT) for speaker tracking using both audio and visual modalities. Specifically, a novel acoustic map based on spatial-temporal Global Coherence Field (stGCF) is first constructed for heterogeneous signal fusion, which employs a camera model to map audio cues to the localization space consistent with the visual cues. Then a multi-modal perception attention network is introduced to derive the perception weights that measure the reliability and effectiveness of intermittent audio and video streams disturbed by noise. Moreover, a unique cross-modal self-supervised learning method is presented to model the confidence of audio and visual observations by leveraging the complementarity and consistency between different modalities. Experimental results show that the proposed MPT achieves 98.6% and 78.3% tracking accuracy on the standard and occluded datasets, respectively, which demonstrates its robustness under adverse conditions and outperforms the current state-of-the-art methods.
翻訳日:2021-12-15 15:59:06 公開日:2021-12-14
# imアバター:ビデオからの暗黙の変形可能な頭部アバター

I M Avatar: Implicit Morphable Head Avatars from Videos ( http://arxiv.org/abs/2112.07471v1 )

ライセンス: Link先を確認
Yufeng Zheng, Victoria Fern\'andez Abrevaya, Xu Chen, Marcel C. B\"uhler, Michael J. Black, Otmar Hilliges(参考訳) 従来の変形可能な顔モデルは、表現のきめ細かい制御を提供するが、幾何学的および外観的詳細を簡単に捉えられない。 ニューラルボリューム表現はフォトリアリズムに近づくが、アニメーション化が困難であり、目に見えない表現にうまく一般化しない。 そこで本研究では,単眼ビデオから暗黙的な頭部アバターを学習する新しい手法であるimavatar(implicit morphable avatar)を提案する。 従来の3dmmで得られる細粒度制御機構に着想を得て, ブレンド形状とスキンフィールドによる表現とポーズ関連変形を表現した。 これらの属性はポーズ非依存であり、新しい表現とポーズパラメータを与えられた標準幾何学とテクスチャ場を変形させるのに使用できる。 レイトレーシングと反復ルート探索を用いて,各画素の正準面交点を探索する。 ビデオからIMavatarのエンドツーエンドのトレーニングを可能にする新しい解析的勾配定式化が重要な貢献である。 本手法が幾何学を改良し,最先端手法と比較してより完全な表現空間をカバーすることを定量的・定性的に示す。

Traditional morphable face models provide fine-grained control over expression but cannot easily capture geometric and appearance details. Neural volumetric representations approach photo-realism but are hard to animate and do not generalize well to unseen expressions. To tackle this problem, we propose IMavatar (Implicit Morphable avatar), a novel method for learning implicit head avatars from monocular videos. Inspired by the fine-grained control mechanisms afforded by conventional 3DMMs, we represent the expression- and pose-related deformations via learned blendshapes and skinning fields. These attributes are pose-independent and can be used to morph the canonical geometry and texture fields given novel expression and pose parameters. We employ ray tracing and iterative root-finding to locate the canonical surface intersection for each pixel. A key contribution is our novel analytical gradient formulation that enables end-to-end training of IMavatars from videos. We show quantitatively and qualitatively that our method improves geometry and covers a more complete expression space compared to state-of-the-art methods.
翻訳日:2021-12-15 15:58:42 公開日:2021-12-14
# 物理・一般ビデオ異常検出へのアプローチ

Approaches Toward Physical and General Video Anomaly Detection ( http://arxiv.org/abs/2112.07661v1 )

ライセンス: Link先を確認
Laura Kart and Niv Cohen(参考訳) 近年,ビデオにおける異常発見の問題に対処する研究が数多く行われている。 しかし、ほとんどの研究は、防犯カメラから撮影した監視ビデオの異常なフレームの検出に焦点が当てられている。 一方、異常な機械的挙動を示すビデオにおける異常検出(AD)の課題はほとんど見過ごされている。 このようなビデオにおける異常検出は、多くの製造、保守、実生活環境における故障の自動検出を可能にするため、学術的および実践的な関心事である。 このような異常を検出するための異なるアプローチの可能性を評価するために、我々は2つの単純なベースラインアプローチを評価した。 (i)時間プール型画像広告技術。 (ii)映像分類のための事前学習された特徴を有する映像の密度推定 このような手法の開発は、異なる可能なアプローチの評価を可能にするために、新しいベンチマークを要求する。 本稿では,6種類のビデオクラスを含むPhysical Anomalous Trajectory or Motion(PHANTOM)データセットを紹介する。 各クラスは通常のビデオと異常ビデオで構成されている。 これらのクラスは、提示される現象、通常のクラス可変性、ビデオ内の異常の種類によって異なる。 また、高度に可変なシーンで異常なアクティビティを発見すべきという、さらに難しいベンチマークを提案する。

In recent years, many works have addressed the problem of finding never-seen-before anomalies in videos. Yet, most work has been focused on detecting anomalous frames in surveillance videos taken from security cameras. Meanwhile, the task of anomaly detection (AD) in videos exhibiting anomalous mechanical behavior, has been mostly overlooked. Anomaly detection in such videos is both of academic and practical interest, as they may enable automatic detection of malfunctions in many manufacturing, maintenance, and real-life settings. To assess the potential of the different approaches to detect such anomalies, we evaluate two simple baseline approaches: (i) Temporal-pooled image AD techniques. (ii) Density estimation of videos represented with features pretrained for video-classification . Development of such methods calls for new benchmarks to allow evaluation of different possible approaches. We introduce the Physical Anomalous Trajectory or Motion (PHANTOM) dataset, which contains six different video classes. Each class consists of normal and anomalous videos. The classes differ in the presented phenomena, the normal class variability, and the kind of anomalies in the videos. We also suggest an even harder benchmark where anomalous activities should be spotted on highly variable scenes.
翻訳日:2021-12-15 15:58:22 公開日:2021-12-14
# マルチターゲットマルチカメラトラッキングにおけるアソシエーションに対する適応的親和性

Adaptive Affinity for Associations in Multi-Target Multi-Camera Tracking ( http://arxiv.org/abs/2112.07664v1 )

ライセンス: Link先を確認
Yunzhong Hou, Zhongdao Wang, Shengjin Wang, Liang Zheng(参考訳) マルチターゲットマルチカメラ追跡(MTMCT)のデータアソシエーションは通常、再識別(re-ID)特徴距離から直接親和性を推定する。 しかし、re-ID問題とMTMCT問題とのマッチング範囲の違いを考えると、これは最善の選択ではないかもしれない。 Re-IDシステムはグローバルマッチングに重点を置いており、すべてのカメラからターゲットを取り出す。 対照的に、追跡におけるデータアソシエーションは、その候補が隣り合う場所と時間枠のみから来るため、ローカルマッチングの問題である。 本稿では,グローバルなre-ID特徴距離と追跡における局所的マッチングとの整合性を検証するための実験を設計し,MTMCTの対応する対応範囲にアフィニティ推定を適用するための簡易かつ効果的なアプローチを提案する。 すべての外観変更に対処する代わりに、データアソシエーション中に発生する可能性のあるものに特化したアフィニティメトリックを調整します。 そこで本研究では,トラッカリングにおけるデータアソシエーションに用いた時間窓を用いた新しいデータサンプリング方式を提案する。 ミスマッチを最小限に抑えると、adaptive affinityモジュールはグローバルリid距離を大幅に改善し、cityflowとdukemtmcデータセットで競合パフォーマンスが向上する。

Data associations in multi-target multi-camera tracking (MTMCT) usually estimate affinity directly from re-identification (re-ID) feature distances. However, we argue that it might not be the best choice given the difference in matching scopes between re-ID and MTMCT problems. Re-ID systems focus on global matching, which retrieves targets from all cameras and all times. In contrast, data association in tracking is a local matching problem, since its candidates only come from neighboring locations and time frames. In this paper, we design experiments to verify such misfit between global re-ID feature distances and local matching in tracking, and propose a simple yet effective approach to adapt affinity estimations to corresponding matching scopes in MTMCT. Instead of trying to deal with all appearance changes, we tailor the affinity metric to specialize in ones that might emerge during data associations. To this end, we introduce a new data sampling scheme with temporal windows originally used for data associations in tracking. Minimizing the mismatch, the adaptive affinity module brings significant improvements over global re-ID distance, and produces competitive performance on CityFlow and DukeMTMC datasets.
翻訳日:2021-12-15 15:58:02 公開日:2021-12-14
# 事前学習言語モデルを用いた判例決定における説明文の発見

Discovering Explanatory Sentences in Legal Case Decisions Using Pre-trained Language Models ( http://arxiv.org/abs/2112.07165v1 )

ライセンス: Link先を確認
Jaromir Savelka, Kevin D. Ashley(参考訳) 法的テキストは理解が難しい概念を常用する。 弁護士は、過去にどのように使われたのかを注意深く調べることで、そのような概念の意味を詳しく説明している。 有用な方法で特定の概念に言及するテキストスニペットを見つけるのは退屈で、時間がかかるため、コストがかかる。 判例決定から得られた26,959文のデータセットを組み立て,選択した法概念を説明するための有用性についてラベル付けした。 このデータセットを用いて,大言語コーパスで事前学習したトランスフォーマモデルの有効性について検討した。 モデルの予測に照らして,説明文の様々な言語的特性と,説明すべき法的概念との関係を解析した。 トランスフォーマーモデルでは,驚くほど高度な特徴を学習し,その課題に対する従来のアプローチを上回ることができることを示す。

Legal texts routinely use concepts that are difficult to understand. Lawyers elaborate on the meaning of such concepts by, among other things, carefully investigating how have they been used in past. Finding text snippets that mention a particular concept in a useful way is tedious, time-consuming, and, hence, expensive. We assembled a data set of 26,959 sentences, coming from legal case decisions, and labeled them in terms of their usefulness for explaining selected legal concepts. Using the dataset we study the effectiveness of transformer-based models pre-trained on large language corpora to detect which of the sentences are useful. In light of models' predictions, we analyze various linguistic properties of the explanatory sentences as well as their relationship to the legal concept that needs to be explained. We show that the transformer-based models are capable of learning surprisingly sophisticated features and outperform the prior approaches to the task.
翻訳日:2021-12-15 15:57:27 公開日:2021-12-14
# Open-Domain Question Answeringに答えるために、クエリ指向の要約をスケールアップする

Scaling Up Query-Focused Summarization to Meet Open-Domain Question Answering ( http://arxiv.org/abs/2112.07536v1 )

ライセンス: Link先を確認
Weijia Zhang, Svitlana Vakulenko, Thilina Rajapakse, Evangelos Kanoulas(参考訳) クエリ中心の要約(QFS)は、関連するドキュメントのセットを使用してクエリが与えられたときにテキストの要約を生成する必要がある。 しかし、実際にはそのような文書は簡単には入手できないが、まず文書コレクションから取り出す必要がある。 したがって、このタスクをもっとリアルにするためにどのように拡張するかを示す。 これにより、タスク設定は、検索された上位文書の要約であるオープンドメイン質問応答タスクの設定に類似する。 この拡張タスクに対処するため,文生成と文検索を併用して,入力クエリが与えられた文の要約を生成する。 本研究は,提案課題に対する最初の評価結果を示し,提案課題を抽出した大規模生成モデルを微調整するのに十分なサンプル数を示した。

Query-focused summarization (QFS) requires generating a textual summary given a query using a set of relevant documents. However, in practice, such relevant documents are not readily available but should be first retrieved from a document collection. Therefore, we show how to extend this task to make it more realistic. Thereby the task setup also resembles the settings of the open-domain question answering task, where the answer is a summary of the top-retrieved documents. To address this extended task, we combine passage retrieval with text generation to produce the summary of the retrieved passages given the input query. We demonstrate the first evaluation results on the proposed task and show that a few samples are sufficient to fine-tune a large generative model with retrieved passages.
翻訳日:2021-12-15 15:57:13 公開日:2021-12-14
# (参考訳) 自分のエージェントを操作する方法と理由 [全文訳有]

How and Why to Manipulate Your Own Agent ( http://arxiv.org/abs/2112.07640v1 )

ライセンス: CC BY 4.0
Yoav Kolumbus, Noam Nisan(参考訳) 我々は、複数のユーザが繰り返しオンラインインタラクションに携わる戦略的設定について検討し、後悔を最小限に抑えるエージェントが代わりに「ゲーム」を繰り返しプレイする。 エージェントの繰り返しゲームにおけるダイナミクスと平均的な結果を調査し,ユーザ間のメタゲームを誘発するものとして捉えた。 私たちの主な焦点は、パラメータを誤ってレポートすることで、ユーザが自身のエージェントを操作することで、このメタゲームのメリットを享受できるかどうかにあります。 汎用ゲームにおける「ユーザエージェントメタゲーム」モデルを形式的に定義し、その特性を自動エージェントのダイナミクスの収束という異なる概念の下で議論し、ダイナミクスが単一平衡に収束する2x2ゲームにおいてユーザによって引き起こされる均衡を分析する。

We consider strategic settings where several users engage in a repeated online interaction, assisted by regret-minimizing agents that repeatedly play a "game" on their behalf. We study the dynamics and average outcomes of the repeated game of the agents, and view it as inducing a meta-game between the users. Our main focus is on whether users can benefit in this meta-game from "manipulating" their own agent by mis-reporting their parameters to it. We formally define this "user-agent meta-game" model for general games, discuss its properties under different notions of convergence of the dynamics of the automated agents and analyze the equilibria induced on the users in 2x2 games in which the dynamics converge to a single equilibrium.
翻訳日:2021-12-15 15:55:51 公開日:2021-12-14
# 極多ラベルテキスト分類の逆例

Adversarial Examples for Extreme Multilabel Text Classification ( http://arxiv.org/abs/2112.07512v1 )

ライセンス: Link先を確認
Mohammadreza Qaraei and Rohit Babbar(参考訳) エクストリームマルチラベルテキスト分類(XMTC)はテキスト分類の問題である。 (i)出力空間は非常に大きい。 (ii)各データポイントには複数の正のラベルがあり、 (iii) データは強い不均衡分布に従う。 ウェブスケール文書の自動タグ付けやレコメンデーションシステムへの応用により,XMTCの研究は予測精度の向上と不均衡データ処理に重点を置いている。 しかし、深い学習に基づくXMTCモデルの敵対的な例に対する頑健さは、主に過小評価されている。 本稿では,敵攻撃時のXMTCモデルの挙動について検討する。 この目的のために,まず,マルチラベルテキスト分類問題における逆攻撃を定義する。 マルチラベルテキスト分類器の攻撃を分類する (a)対象の正のラベルが上位kのラベルから外れるべき正のターゲット (b) ターゲットの負ラベルがトップkの予測ラベルに含まれるべきである負ターゲット。 そして,APLC-XLNet と AttentionXML の実験により,XMTC モデルは正の標的攻撃に対して非常に脆弱であるが,負の標的攻撃に対してより堅牢であることを示す。 さらに, 本実験により, 正目標攻撃の成功率は不均衡分布であることがわかった。 より正確には、テールクラスは、攻撃者が実際のデータポイントと高い類似性で敵のサンプルを生成することができる敵攻撃に対して非常に脆弱である。 この問題を克服するために,xmtcにおける再バランス損失関数の効果について検討し,テールクラスにおける精度の向上だけでなく,敵対的攻撃に対するロバスト性も改善した。 実験のコードはhttps://github.com/x mc-aalto/adv-xmtcで公開されている。

Extreme Multilabel Text Classification (XMTC) is a text classification problem in which, (i) the output space is extremely large, (ii) each data point may have multiple positive labels, and (iii) the data follows a strongly imbalanced distribution. With applications in recommendation systems and automatic tagging of web-scale documents, the research on XMTC has been focused on improving prediction accuracy and dealing with imbalanced data. However, the robustness of deep learning based XMTC models against adversarial examples has been largely underexplored. In this paper, we investigate the behaviour of XMTC models under adversarial attacks. To this end, first, we define adversarial attacks in multilabel text classification problems. We categorize attacking multilabel text classifiers as (a) positive-targeted, where the target positive label should fall out of top-k predicted labels, and (b) negative-targeted, where the target negative label should be among the top-k predicted labels. Then, by experiments on APLC-XLNet and AttentionXML, we show that XMTC models are highly vulnerable to positive-targeted attacks but more robust to negative-targeted ones. Furthermore, our experiments show that the success rate of positive-targeted adversarial attacks has an imbalanced distribution. More precisely, tail classes are highly vulnerable to adversarial attacks for which an attacker can generate adversarial samples with high similarity to the actual data-points. To overcome this problem, we explore the effect of rebalanced loss functions in XMTC where not only do they increase accuracy on tail classes, but they also improve the robustness of these classes against adversarial attacks. The code for our experiments is available at https://github.com/x mc-aalto/adv-xmtc
翻訳日:2021-12-15 15:27:11 公開日:2021-12-14
# 科学的発見と計測コスト --強化学習における情報とコストのバランス-

Scientific Discovery and the Cost of Measurement -- Balancing Information and Cost in Reinforcement Learning ( http://arxiv.org/abs/2112.07535v1 )

ライセンス: Link先を確認
Colin Bellinger, Andriy Drozdyuk, Mark Crowley, Isaac Tamblyn(参考訳) 材料設計や自動化学などの科学応用における強化学習(RL)の利用が増加している。 しかし、大きな課題は、システムの状態を測定するのにしばしば費用がかかり、科学的な応用に時間がかかることである。 そこで本研究では,コストのかかる報酬の形で測定コストを明確にし,既成の深層rlアルゴリズムがアクションの選択と,各ステップでシステムの現在の状態を計測するか否かを判断するポリシを学習できる枠組みを提案する。 このようにして、エージェントは情報の必要性と情報コストのバランスをとることを学ぶ。 以上の結果から,デュエルdqnおよびppoエージェントは,最大50対%の状態測定を行いながら最適な行動方針を学習でき,繰り返し発生するニューラルネットワークは50対%以上の精度低下を生じさせることができることが示された。 これらの削減は、実世界の科学的応用にRLを適用する際の障壁を減らすのに役立つと仮定する。

The use of reinforcement learning (RL) in scientific applications, such as materials design and automated chemistry, is increasing. A major challenge, however, lies in fact that measuring the state of the system is often costly and time consuming in scientific applications, whereas policy learning with RL requires a measurement after each time step. In this work, we make the measurement costs explicit in the form of a costed reward and propose a framework that enables off-the-shelf deep RL algorithms to learn a policy for both selecting actions and determining whether or not to measure the current state of the system at each time step. In this way, the agents learn to balance the need for information with the cost of information. Our results show that when trained under this regime, the Dueling DQN and PPO agents can learn optimal action policies whilst making up to 50\% fewer state measurements, and recurrent neural networks can produce a greater than 50\% reduction in measurements. We postulate the these reduction can help to lower the barrier to applying RL to real-world scientific applications.
翻訳日:2021-12-15 15:26:45 公開日:2021-12-14
# 臨界ダンピングランゲヴィン拡散を用いたスコアベース生成モデル

Score-Based Generative Modeling with Critically-Damped Langevin Diffusion ( http://arxiv.org/abs/2112.07068v1 )

ライセンス: Link先を確認
Tim Dockhorn, Arash Vahdat, Karsten Kreis(参考訳) スコアベース生成モデル(SGM)は顕著な合成品質を示した。 sgmは、データの扱いやすい分布に向かって徐々に摂動する拡散過程に依存するが、生成モデルは発声を学習する。 この分母化タスクの複雑さは、データ分布自体とは別に、拡散過程によって一意に決定される。 我々は、現在のSGMが過度に単純化された拡散を導入し、生成的モデリング性能を制限する複雑なデノナイジングプロセスに繋がると主張している。 統計的メカニックスとの接続に基づいて,新しい臨界損傷型Langevin拡散(CLD)を提案し,CLDに基づくSGMが優れた性能を発揮することを示す。 CLDは、ハミルトン力学のようにデータ変数に結合した補助変数を「速度」と見なすことができる拡張空間で共同拡散を実行するものとして解釈することができる。 CLDの新たなスコアマッチング目的を導出し、モデルが与えられた速度の条件分布のスコア関数のみを学ぶ必要があることを示す。 また,cldに基づく拡散モデルからの効率的な合成のための新しいサンプリング手法を提案する。 CLDは、類似のネットワークアーキテクチャの合成品質と計算予算のサンプリングにおいて、従来のSGMよりも優れていた。 そこで本研究では,CLD のサンプルが Euler-Maruyama などの解法よりも優れていることを示す。 本フレームワークは,高分解能画像合成に容易に利用できるスコアベースデノナイズ拡散モデルに関する新たな知見を提供する。 プロジェクトページとコード:https://nv-tlabs.gi thub.io/CLD-SGM。

Score-based generative models (SGMs) have demonstrated remarkable synthesis quality. SGMs rely on a diffusion process that gradually perturbs the data towards a tractable distribution, while the generative model learns to denoise. The complexity of this denoising task is, apart from the data distribution itself, uniquely determined by the diffusion process. We argue that current SGMs employ overly simplistic diffusions, leading to unnecessarily complex denoising processes, which limit generative modeling performance. Based on connections to statistical mechanics, we propose a novel critically-damped Langevin diffusion (CLD) and show that CLD-based SGMs achieve superior performance. CLD can be interpreted as running a joint diffusion in an extended space, where the auxiliary variables can be considered "velocities" that are coupled to the data variables as in Hamiltonian dynamics. We derive a novel score matching objective for CLD and show that the model only needs to learn the score function of the conditional distribution of the velocity given data, an easier task than learning scores of the data directly. We also derive a new sampling scheme for efficient synthesis from CLD-based diffusion models. We find that CLD outperforms previous SGMs in synthesis quality for similar network architectures and sampling compute budgets. We show that our novel sampler for CLD significantly outperforms solvers such as Euler--Maruyama. Our framework provides new insights into score-based denoising diffusion models and can be readily used for high-resolution image synthesis. Project page and code: https://nv-tlabs.git hub.io/CLD-SGM.
翻訳日:2021-12-15 15:25:56 公開日:2021-12-14
# M3E2:マルチ処理効果推定のためのマルチゲート混合実験

M3E2: Multi-gate Mixture-of-experts for Multi-treatment Effect Estimation ( http://arxiv.org/abs/2112.07574v1 )

ライセンス: Link先を確認
Raquel Aoki, Yizhou Chen, Martin Ester(参考訳) この研究は、マルチタスク学習ニューラルネットワークモデルであるM3E2を提案し、複数の治療の効果を推定する。 既存の方法とは対照的に、m3e2は同じ単位に同時に適用される複数の処理効果、連続的および二元的処理、多くの共変量に対して頑健である。 3つのベンチマークデータセットでm3e2と3つのベースラインを比較した。 分析の結果,本手法は優れた性能を示し,真の治療効果をより断定的に評価した。 コードはgithub.com/raquelaok i/M3E2で入手できる。

This work proposes the M3E2, a multi-task learning neural network model to estimate the effect of multiple treatments. In contrast to existing methods, M3E2 is robust to multiple treatment effects applied simultaneously to the same unit, continuous and binary treatments, and many covariates. We compared M3E2 with three baselines in three synthetic benchmark datasets: two with multiple treatments and one with one treatment. Our analysis showed that our method has superior performance, making more assertive estimations of the true treatment effects. The code is available at github.com/raquelaok i/M3E2.
翻訳日:2021-12-15 15:25:34 公開日:2021-12-14
# 統一基礎モデルに向けて:非ペア画像とテキストの同時事前学習トランスフォーマー

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text ( http://arxiv.org/abs/2112.07074v1 )

ライセンス: Link先を確認
Qing Li, Boqing Gong, Yin Cui, Dan Kondratyuk, Xianzhi Du, Ming-Hsuan Yang, Matthew Brown(参考訳) 本稿では,視覚のみのタスクとテキストのみのタスクに適応可能な統合基盤モデルの構築の可能性を検討する。 BERT と ViT を皮切りに、モダリティ固有のトークン化器、共有トランスコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。 画像とテキストを協調的に事前学習するために,提案手法は2つの新しい手法を提案する。 (i)個別に訓練したBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、共同訓練のための追加的かつ正確な監視信号を提供する。 (ii)画像からのパラメータ更新とテキスト事前学習ロスのバランスをとるための新しい勾配マスキング戦略を提案する。 画像分類タスクと自然言語理解タスクを微調整することにより, 共同事前学習型変換器の評価を行った。 実験の結果, 統合基礎変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能し, 提案した知識蒸留と勾配マスキング戦略は, 個別に訓練されたモデルのレベルに近づくために, 効果的に性能を高めることができることがわかった。

In this paper, we explore the possibility of building a unified foundation model that can be adapted to both vision-only and text-only tasks. Starting from BERT and ViT, we design a unified transformer consisting of modality-specific tokenizers, a shared transformer encoder, and task-specific output heads. To efficiently pre-train the proposed model jointly on unpaired images and text, we propose two novel techniques: (i) We employ the separately-trained BERT and ViT models as teachers and apply knowledge distillation to provide additional, accurate supervision signals for the joint training; (ii) We propose a novel gradient masking strategy to balance the parameter updates from the image and text pre-training losses. We evaluate the jointly pre-trained transformer by fine-tuning it on image classification tasks and natural language understanding tasks, respectively. The experiments show that the resultant unified foundation transformer works surprisingly well on both the vision-only and text-only tasks, and the proposed knowledge distillation and gradient masking strategy can effectively lift the performance to approach the level of separately-trained models.
翻訳日:2021-12-15 15:24:52 公開日:2021-12-14
# カメラ画像とLiDAR点雲の時空間表現を用いた3次元物体検出と追跡

Joint 3D Object Detection and Tracking Using Spatio-Temporal Representation of Camera Image and LiDAR Point Clouds ( http://arxiv.org/abs/2112.07116v1 )

ライセンス: Link先を確認
Junho Koh, Jaekyum Kim, Jinhyuk Yoo, Yecheol Kim, Jun Won Choi(参考訳) 本稿では,カメラとLiDARセンサを用いた3次元物体検出・追跡のためのジョイントオブジェクト検出・追跡(JoDT)フレームワークを提案する。 提案手法は3d detectionrackと呼ばれ、検出器とトラッカーが協調してカメラとライダーデータの時空間表現を生成し、3dオブジェクトの検出と追跡を行うことができる。 検出器は、カメラとLiDAR融合によって得られる空間的特徴の重み付け時間的アグリゲーションを介して時空間的特徴を構築する。 そして、前回のタイムステップまで維持されたトラックレットの情報を用いて初期検出結果を再設定する。 検出器によって生成された時空間的特徴に基づいて、トラッカーは検出されたオブジェクトをグラフニューラルネットワーク(GNN)を用いて以前追跡されたオブジェクトと関連付ける。 我々は,規則に基づくエッジプルーニングと注意に基づくエッジゲーティングの組み合わせにより,完全に接続されたgnnを考案する。 KITTIとnuScenesのベンチマークで実施された実験により、提案した3D DetecTrackは、ベースライン法よりも検出および追跡性能に大きな改善を達成し、検出器とトラッカーの協調によって既存の手法間の最先端のパフォーマンスを達成することが示された。

In this paper, we propose a new joint object detection and tracking (JoDT) framework for 3D object detection and tracking based on camera and LiDAR sensors. The proposed method, referred to as 3D DetecTrack, enables the detector and tracker to cooperate to generate a spatio-temporal representation of the camera and LiDAR data, with which 3D object detection and tracking are then performed. The detector constructs the spatio-temporal features via the weighted temporal aggregation of the spatial features obtained by the camera and LiDAR fusion. Then, the detector reconfigures the initial detection results using information from the tracklets maintained up to the previous time step. Based on the spatio-temporal features generated by the detector, the tracker associates the detected objects with previously tracked objects using a graph neural network (GNN). We devise a fully-connected GNN facilitated by a combination of rule-based edge pruning and attention-based edge gating, which exploits both spatial and temporal object contexts to improve tracking performance. The experiments conducted on both KITTI and nuScenes benchmarks demonstrate that the proposed 3D DetecTrack achieves significant improvements in both detection and tracking performances over baseline methods and achieves state-of-the-art performance among existing methods through collaboration between the detector and tracker.
翻訳日:2021-12-15 15:24:29 公開日:2021-12-14
# pp-humanseg:大規模遠隔会議ビデオデータセットを用いたコネクティビティ対応ポートレートセグメンテーション

PP-HumanSeg: Connectivity-Aware Portrait Segmentation with a Large-Scale Teleconferencing Video Dataset ( http://arxiv.org/abs/2112.07146v1 )

ライセンス: Link先を確認
Lutao Chu, Yi Liu, Zewu Wu, Shiyu Tang, Guowei Chen, Yuying Hao, Juncai Peng, Zhiliang Yu, Zeyu Chen, Baohua Lai, Haoyi Xiong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中に広がり、ビデオ会議の需要が急増している。 この目的のために、リアルタイムのポートレートセグメンテーションは、会議参加者のバックグラウンドを置き換えるために人気のある機能になる。 特徴豊富なデータセット、モデル、アルゴリズムは生活シーンから身体の姿勢を抽出するセグメンテーションのために提供されてきたが、ポートレートセグメンテーションはビデオ会議コンテキストではあまりカバーされていない。 この分野の進展を促進するために,PP-HumanSegというオープンソースのソリューションを導入する。 この研究は、23の会議シーンから291のビデオと14Kのファインラベルフレームとマルチカメラテレカンファレンスの拡張を含む、大規模なビデオポートレートデータセットを初めて構築した。 さらに,セマンティクスセグメンテーションのための新しいセマンティクス接続認識学習(scl)を提案し,セマンティクス接続認識損失を導入し,接続性の観点からセグメンテーション結果の品質を向上させる。 また,本論文では,IoUと推論速度の最良のトレードオフを実現するために,SCLを用いた超軽量モデルを提案する。 データセットの大規模な評価は、SCLとモデルが優れていることを示す。 ソースコードはhttps://github.com/p addlepaddle/paddlese gで入手できる。

As the COVID-19 pandemic rampages across the world, the demands of video conferencing surge. To this end, real-time portrait segmentation becomes a popular feature to replace backgrounds of conferencing participants. While feature-rich datasets, models and algorithms have been offered for segmentation that extract body postures from life scenes, portrait segmentation has yet not been well covered in a video conferencing context. To facilitate the progress in this field, we introduce an open-source solution named PP-HumanSeg. This work is the first to construct a large-scale video portrait dataset that contains 291 videos from 23 conference scenes with 14K fine-labeled frames and extensions to multi-camera teleconferencing. Furthermore, we propose a novel Semantic Connectivity-aware Learning (SCL) for semantic segmentation, which introduces a semantic connectivity-aware loss to improve the quality of segmentation results from the perspective of connectivity. And we propose an ultra-lightweight model with SCL for practical portrait segmentation, which achieves the best trade-off between IoU and the speed of inference. Extensive evaluations on our dataset demonstrate the superiority of SCL and our model. The source code is available at https://github.com/P addlePaddle/PaddleSe g.
翻訳日:2021-12-15 15:24:03 公開日:2021-12-14
# AdaViT:効率的な視覚変換のための適応トークン

AdaViT: Adaptive Tokens for Efficient Vision Transformer ( http://arxiv.org/abs/2112.07658v1 )

ライセンス: Link先を確認
Hongxu Yin, Arash Vahdat, Jose Alvarez, Arun Mallya, Jan Kautz, Pavlo Molchanov(参考訳) 本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。 我々は,このタスクのための適応計算時間(act)を再構成し,冗長な空間トークンを破棄するために停止を延長する。 視覚変換器の魅力あるアーキテクチャ特性により、適応トークン低減機構により、ネットワークアーキテクチャや推論ハードウェアを変更することなく推論を高速化できる。 AdaViTは、元のネットワークパラメータに適応停止の学習を基礎として、停止するために余分なパラメータやサブネットワークを必要としないことを実証する。 我々はさらに,事前行為アプローチと比較してトレーニングを安定化する分布的事前正規化を導入する。 画像分類タスク(imagenet1k)において,提案手法は,情報的空間特徴のフィルタリングや計算全体の削減において高い有効性を示す。 提案手法は,DeiT-Tinyのスループットを62%向上し,DeiT-Smallは38%向上し,精度は0.3%低下した。

We introduce AdaViT, a method that adaptively adjusts the inference cost of vision transformer (ViT) for images of different complexity. AdaViT achieves this by automatically reducing the number of tokens in vision transformers that are processed in the network as inference proceeds. We reformulate Adaptive Computation Time (ACT) for this task, extending halting to discard redundant spatial tokens. The appealing architectural properties of vision transformers enables our adaptive token reduction mechanism to speed up inference without modifying the network architecture or inference hardware. We demonstrate that AdaViT requires no extra parameters or sub-network for halting, as we base the learning of adaptive halting on the original network parameters. We further introduce distributional prior regularization that stabilizes training compared to prior ACT approaches. On the image classification task (ImageNet1K), we show that our proposed AdaViT yields high efficacy in filtering informative spatial features and cutting down on the overall compute. The proposed method improves the throughput of DeiT-Tiny by 62% and DeiT-Small by 38% with only 0.3% accuracy drop, outperforming prior art by a large margin.
翻訳日:2021-12-15 15:23:41 公開日:2021-12-14
# クラスラベルを伴わない分散検出

Out-of-Distribution Detection without Class Labels ( http://arxiv.org/abs/2112.07662v1 )

ライセンス: Link先を確認
Niv Cohen, Ron Abutbul, Yedid Hoshen(参考訳) 異常検出手法は、データセットの通常の振る舞いから逸脱するサンプルを識別する。 通常は、複数のラベル付きクラスからの通常のデータを含むトレーニングセットや、単一のラベル付きクラスに対処される。 現在のメソッドは、複数のクラスで構成されるがラベルを持たないトレーニングデータに直面している。 本研究では,自己教師付き画像クラスタリング法によって学習された分類器が,ラベルなしマルチクラスデータセットの異常検出に強力なベースラインを提供することを明らかにする。 おそらく驚くべきことに、事前訓練された機能によるクラスタリングメソッドの初期化は、自己管理されたメソッドよりも改善されない。 これは破滅的な忘れ物現象によるものである。 その代わり、2段階のアプローチを提案する。 まず,自己教師付き手法を用いて画像のクラスタ化を行い,各画像のクラスタラベルを取得する。 クラスタラベルをout-of-distribution (ood) メソッドの"pseudo supervisor"として使用する。 具体的には,クラスタラベルによる画像の分類作業において,事前学習した特徴を微調整する。 本手法の広範な分析を行い,二段階アプローチの必要性を実証する。 我々は,最先端の自己教師付きおよび事前学習法に対して評価を行い,優れた性能を示す。

Anomaly detection methods identify samples that deviate from the normal behavior of the dataset. It is typically tackled either for training sets containing normal data from multiple labeled classes or a single unlabeled class. Current methods struggle when faced with training data consisting of multiple classes but no labels. In this work, we first discover that classifiers learned by self-supervised image clustering methods provide a strong baseline for anomaly detection on unlabeled multi-class datasets. Perhaps surprisingly, we find that initializing clustering methods with pre-trained features does not improve over their self-supervised counterparts. This is due to the phenomenon of catastrophic forgetting. Instead, we suggest a two stage approach. We first cluster images using self-supervised methods and obtain a cluster label for every image. We use the cluster labels as "pseudo supervision" for out-of-distribution (OOD) methods. Specifically, we finetune pretrained features on the task of classifying images by their cluster labels. We provide extensive analyses of our method and demonstrate the necessity of our two-stage approach. We evaluate it against the state-of-the-art self-supervised and pretrained methods and demonstrate superior performance.
翻訳日:2021-12-15 15:23:20 公開日:2021-12-14
# 教師なしデフォルマブル画像登録のための確率プランナーアクタクリティカル

Stochastic Planner-Actor-Critic for Unsupervised Deformable Image Registration ( http://arxiv.org/abs/2112.07415v1 )

ライセンス: Link先を確認
Ziwei Luo, Jing Hu, Xin Wang, Shu Hu, Bin Kong, Youbing Yin, Qi Song, Xi Wu, Siwei Lyu(参考訳) 臓器の大きな変形は、様々な形状と非線形な形状の変化によって引き起こされ、医療画像登録において重要な課題となる。 従来の登録法では、特定の変形モデルを用いて目的関数を厳密なパラメータチューニングとともに反復的に最適化する必要があるが、大きな変形を伴う画像の登録には限界がある。 深層学習に基づく手法は入力画像からそれぞれの変形場への複雑なマッピングを学習することができるが、回帰ベースであり、特に大きな変形が関与している場合、局所的なミニマムに定着しがちである。 そこで我々は,段階的登録を行う新しい強化学習フレームワークであるStochastic Planner-Actor-Critic (SPAC)を提案する。 鍵となる概念は、移動画像を各時間ステップごとに順次巻き戻し、最終的に固定画像に合わせることである。 従来の強化学習(rl)フレームワークでは,高次元連続動作や状態空間を扱うことが困難であると考え,低次元のアクタ-批判モデルに新たな概念「プラン」を導入する。 フレームワーク全体が教師なしのトレーニングに基づいており、エンドツーエンドで動作します。 本手法は2次元および3次元の医用画像データセットで評価し,その一部は大きな変形を含む。 我々の経験的結果は、我々の仕事は一貫性があり、重要な利益を達成し、最先端の手法より優れています。

Large deformations of organs, caused by diverse shapes and nonlinear shape changes, pose a significant challenge for medical image registration. Traditional registration methods need to iteratively optimize an objective function via a specific deformation model along with meticulous parameter tuning, but which have limited capabilities in registering images with large deformations. While deep learning-based methods can learn the complex mapping from input images to their respective deformation field, it is regression-based and is prone to be stuck at local minima, particularly when large deformations are involved. To this end, we present Stochastic Planner-Actor-Critic (SPAC), a novel reinforcement learning-based framework that performs step-wise registration. The key notion is warping a moving image successively by each time step to finally align to a fixed image. Considering that it is challenging to handle high dimensional continuous action and state spaces in the conventional reinforcement learning (RL) framework, we introduce a new concept `Plan' to the standard Actor-Critic model, which is of low dimension and can facilitate the actor to generate a tractable high dimensional action. The entire framework is based on unsupervised training and operates in an end-to-end manner. We evaluate our method on several 2D and 3D medical image datasets, some of which contain large deformations. Our empirical results highlight that our work achieves consistent, significant gains and outperforms state-of-the-art methods.
翻訳日:2021-12-15 15:23:05 公開日:2021-12-14
# CORE-Text: 相対関係推論によるシーンテキスト検出の改善

CORE-Text: Improving Scene Text Detection with Contrastive Relational Reasoning ( http://arxiv.org/abs/2112.07513v1 )

ライセンス: Link先を確認
Jingyang Lin and Yingwei Pan and Rongfeng Lai and Xuehang Yang and Hongyang Chao and Ting Yao(参考訳) 自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。 しかし、実際のシーンにおけるテキストインスタンスのアスペクト比とスケールが極めて多様であるため、従来のテキスト検出器はテキストインスタンスの断片(すなわちサブテキスト)のみをローカライズするサブテキストの問題に悩まされている。 本研究では,サブテキスト問題を定量的に解析し,その問題を緩和するために,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。 COREはまずバニラ関係ブロックを利用して、すべてのテキスト提案(複数のテキストインスタンスのサブテキスト)の関係をモデル化し、インスタンスレベルのサブテキスト識別によるリレーショナル推論をさらに強化する。 このような方法で、テキスト提案のインスタンス対応表現を自然に学習し、シーンテキストの検出を容易にする。 我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。 4つのベンチマークでの大規模な実験は、CORE-Textの優位性を示している。 コードは: \url{https://github.com/j ylins/CORE-Text}。

Localizing text instances in natural scenes is regarded as a fundamental challenge in computer vision. Nevertheless, owing to the extremely varied aspect ratios and scales of text instances in real scenes, most conventional text detectors suffer from the sub-text problem that only localizes the fragments of text instance (i.e., sub-texts). In this work, we quantitatively analyze the sub-text problem and present a simple yet effective design, COntrastive RElation (CORE) module, to mitigate that issue. CORE first leverages a vanilla relation block to model the relations among all text proposals (sub-texts of multiple text instances) and further enhances relational reasoning via instance-level sub-text discrimination in a contrastive manner. Such way naturally learns instance-aware representations of text proposals and thus facilitates scene text detection. We integrate the CORE module into a two-stage text detector of Mask R-CNN and devise our text detector CORE-Text. Extensive experiments on four benchmarks demonstrate the superiority of CORE-Text. Code is available: \url{https://github.com/j ylins/CORE-Text}.
翻訳日:2021-12-15 15:22:37 公開日:2021-12-14
# 視覚領域適応のための転写可能コントラスト学習

Transferrable Contrastive Learning for Visual Domain Adaptation ( http://arxiv.org/abs/2112.07516v1 )

ライセンス: Link先を確認
Yang Chen and Yingwei Pan and Yu Wang and Ting Yao and Xinmei Tian and Tao Mei(参考訳) セルフ教師付き学習(ssl)は、最近、機能学習方法論で好まれている。 したがって、SSLの導入を検討するドメイン適応アプローチは魅力的である。 その直感は、予測器がドメイン間で何らかの不変になるように、インスタンスレベルの機能の一貫性を強制することである。 しかし、ドメイン適応の段階にある既存のSSLメソッドは、通常スタンドアロンの補助的なコンポーネントとして扱われ、ドメイン適応のシグネチャは無視される。 実際、ドメインギャップが消える最適な領域と、SSLが使用するインスタンスレベルの制約はまったく一致しないかもしれない。 この点から、SSLと所望のクロスドメイン転送可能性とを連続的に結びつける、ドメイン適応に適した自己教師型学習(Transferable Contrastive Learning, TCL)のパラダイムを提示する。 ドメイン適応タスクに好まれるクロスドメインクラスレベルの不変性に対して、そのインスタンス不変性の仮定を便利に促進できるため、ドメイン適応に本質的に適する候補となる。 特定のメモリバンクの構成と擬似ラベル戦略に基づいて、tclはクリーンで新しいコントラスト損失を通じて、ソースとターゲットの間のクラス内ドメイン間の不一致を罰する。 無料のランチは、コントラスト学習の導入のおかげで、tclは移動平均鍵エンコーダに依存しており、ターゲットデータに対する擬似ラベルの時間的アンサンブルバージョンを自然に達成し、擬似ラベルエラーの伝播を余分なコストなしで回避している。 従ってtclは、クロスドメインギャップを効率的に低減する。 Office-Home、VisDA-2017、Digits-five、PACS、DomainNetのベンチマークに関する広範な実験を通じて、TCLは最先端のパフォーマンスを実証した。

Self-supervised learning (SSL) has recently become the favorite among feature learning methodologies. It is therefore appealing for domain adaptation approaches to consider incorporating SSL. The intuition is to enforce instance-level feature consistency such that the predictor becomes somehow invariant across domains. However, most existing SSL methods in the regime of domain adaptation usually are treated as standalone auxiliary components, leaving the signatures of domain adaptation unattended. Actually, the optimal region where the domain gap vanishes and the instance level constraint that SSL peruses may not coincide at all. From this point, we present a particular paradigm of self-supervised learning tailored for domain adaptation, i.e., Transferrable Contrastive Learning (TCL), which links the SSL and the desired cross-domain transferability congruently. We find contrastive learning intrinsically a suitable candidate for domain adaptation, as its instance invariance assumption can be conveniently promoted to cross-domain class-level invariance favored by domain adaptation tasks. Based on particular memory bank constructions and pseudo label strategies, TCL then penalizes cross-domain intra-class domain discrepancy between source and target through a clean and novel contrastive loss. The free lunch is, thanks to the incorporation of contrastive learning, TCL relies on a moving-averaged key encoder that naturally achieves a temporally ensembled version of pseudo labels for target data, which avoids pseudo label error propagation at no extra cost. TCL therefore efficiently reduces cross-domain gaps. Through extensive experiments on benchmarks (Office-Home, VisDA-2017, Digits-five, PACS and DomainNet) for both single-source and multi-source domain adaptation tasks, TCL has demonstrated state-of-the-art performances.
翻訳日:2021-12-15 15:22:17 公開日:2021-12-14
# 浮き顔の脱毛と回転の学習

Learning to Deblur and Rotate Motion-Blurred Faces ( http://arxiv.org/abs/2112.07599v1 )

ライセンス: Link先を確認
Givi Meishvili, Attila Szab\'o, Simon Jenni, Paolo Favaro(参考訳) 顔の1つの動画像から新しい視点からシャープな映像を描画する新たな課題に対する解決法を提案する。 提案手法は,3つの大規模データセット(FFHQと300VW)と,新たに構築したBern Multi-View Face Dataset(BMFD)という,共同トレーニングを通じて顔の形状と動きを暗黙的に学習することで,顔のぼやけの複雑性を処理する。 最初の2つのデータセットは多種多様な顔を提供し、我々のモデルはより一般化できる。 BMFDは、新しいカメラビューからシャープなビデオを合成するのに重要なマルチビュー制約を導入することができます。 さまざまな表情を示す複数の被験者の複数の視点からの高フレームレート同期ビデオで構成されている。 高フレームレートビデオを用いて、平均的な動きのぼかしをシミュレートする。 このデータセットにより、ニューラルネットワークをトレーニングし、単一の画像と対応する顔の視線から3Dビデオ表現を再構成する。 次に、エンコーダ・デコーダネットワークへの入力として、推定された視線やぼやけた画像に対するカメラ視点を提供し、新しいカメラ視点でシャープフレームの映像を生成する。 我々は,マルチビューデータセットとvidtimitのテスト対象に対するアプローチを実証する。

We propose a solution to the novel task of rendering sharp videos from new viewpoints from a single motion-blurred image of a face. Our method handles the complexity of face blur by implicitly learning the geometry and motion of faces through the joint training on three large datasets: FFHQ and 300VW, which are publicly available, and a new Bern Multi-View Face Dataset (BMFD) that we built. The first two datasets provide a large variety of faces and allow our model to generalize better. BMFD instead allows us to introduce multi-view constraints, which are crucial to synthesizing sharp videos from a new camera view. It consists of high frame rate synchronized videos from multiple views of several subjects displaying a wide range of facial expressions. We use the high frame rate videos to simulate realistic motion blur through averaging. Thanks to this dataset, we train a neural network to reconstruct a 3D video representation from a single image and the corresponding face gaze. We then provide a camera viewpoint relative to the estimated gaze and the blurry image as input to an encoder-decoder network to generate a video of sharp frames with a novel camera viewpoint. We demonstrate our approach on test subjects of our multi-view dataset and VIDTIMIT.
翻訳日:2021-12-15 15:21:07 公開日:2021-12-14
# バイアスド・ルールを用いた公正度測定:事前学習言語モデルにおけるバイアスの定量化に関する調査

Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in Pretrained Language Models ( http://arxiv.org/abs/2112.07447v1 )

ライセンス: Link先を確認
Pieter Delobelle, Ewoenam Kwaku Tokpo, Toon Calders, Bettina Berendt(参考訳) bertのような自然言語処理リソースにおける偏りのあるパターンに対する認識が高まり、多くの指標が 'bias' と 'fairness' を定量化した。 しかし、異なるメトリクスの結果と、そのようなメトリクスで評価する作業を比較することは、完全に不可能ではないにせよ、依然として困難である。 我々は,事前学習された言語モデルの公平度指標に関する既存の文献を調査し,下流タスクのように言語モデルのバイアスを含む互換性を実験的に評価する。 従来の文献調査と相関分析の混合と,経験的評価の実施によってこれを実現している。 多くのメトリクスは互換性がなく、非常に依存しています。 (i)テンプレート。 (ii)属性及び対象種及び (iii)組込みの選択。 これらの結果は、少なくとも高い主観的ではないにしても、文脈化された言語モデルでは公平さやバイアス評価が依然として困難であることを示している。 将来の比較と公平性評価を改善するため、埋め込みベースのメトリクスを避け、下流タスクにおける公平性評価に重点を置くことを推奨する。

An increasing awareness of biased patterns in natural language processing resources, like BERT, has motivated many metrics to quantify `bias' and `fairness'. But comparing the results of different metrics and the works that evaluate with such metrics remains difficult, if not outright impossible. We survey the existing literature on fairness metrics for pretrained language models and experimentally evaluate compatibility, including both biases in language models as in their downstream tasks. We do this by a mixture of traditional literature survey and correlation analysis, as well as by running empirical evaluations. We find that many metrics are not compatible and highly depend on (i) templates, (ii) attribute and target seeds and (iii) the choice of embeddings. These results indicate that fairness or bias evaluation remains challenging for contextualized language models, if not at least highly subjective. To improve future comparisons and fairness evaluations, we recommend avoiding embedding-based metrics and focusing on fairness evaluations in downstream tasks.
翻訳日:2021-12-15 15:20:44 公開日:2021-12-14
# 音声名付きエンティティ認識における外部データの利用について

On the Use of External Data for Spoken Named Entity Recognition ( http://arxiv.org/abs/2112.07648v1 )

ライセンス: Link先を確認
Ankita Pasad, Felix Wu, Suwon Shon, Karen Livescu, Kyu J. Han(参考訳) 音声言語理解(slu)タスクは、音声信号から意味ラベルへのマッピングを含む。 このようなタスクの複雑さを考えると、優れたパフォーマンスには大きなラベル付きデータセットが必要であり、新しいタスクとドメインごとに収集するのが困難である。 しかし、近年の自己教師型音声表現の進歩により、ラベル付きデータによるSLUモデルの学習が可能になった。 自己教師型事前学習以外にも、タスクにアノテートされていない外部の音声やテキストデータをどのように使うことができますか? 我々は, 自己学習, 知識蒸留, 伝達学習など, 様々なアプローチを踏襲し, エンドツーエンドモデルとパイプライン(音声認識とテキストNERモデル)の両方に適用性を検討する。 これらの手法のいくつかは、事前訓練された表現のみの利点を超えて、リソース制約された設定におけるパフォーマンスを改善する。 以前の作業と比較すると、F1のスコアは最大16%向上しました。 最高のベースラインモデルはパイプラインアプローチであるが、外部データを使用する際の最高のパフォーマンスは、最終的にエンドツーエンドモデルによって達成される。 より詳細な比較と分析を行い、例えば、エンドツーエンドモデルはよりNER固有の単語に集中できることを示す。

Spoken language understanding (SLU) tasks involve mapping from speech audio signals to semantic labels. Given the complexity of such tasks, good performance might be expected to require large labeled datasets, which are difficult to collect for each new task and domain. However, recent advances in self-supervised speech representations have made it feasible to consider learning SLU models with limited labeled data. In this work we focus on low-resource spoken named entity recognition (NER) and address the question: Beyond self-supervised pre-training, how can we use external speech and/or text data that are not annotated for the task? We draw on a variety of approaches, including self-training, knowledge distillation, and transfer learning, and consider their applicability to both end-to-end models and pipeline (speech recognition followed by text NER model) approaches. We find that several of these approaches improve performance in resource-constrained settings beyond the benefits from pre-trained representations alone. Compared to prior work, we find improved F1 scores of up to 16%. While the best baseline model is a pipeline approach, the best performance when using external data is ultimately achieved by an end-to-end model. We provide detailed comparisons and analyses, showing for example that end-to-end models are able to focus on the more NER-specific words.
翻訳日:2021-12-15 15:20:25 公開日:2021-12-14
# ACE-BERT:Eコマース検索のためのクロスモーダル強化BERT

ACE-BERT: Adversarial Cross-modal Enhanced BERT for E-commerce Retrieval ( http://arxiv.org/abs/2112.07209v1 )

ライセンス: Link先を確認
Boxuan Zhang, Chao Wei, Yan Jin and Weiru Zhang(参考訳) 現在、Eコマースプラットフォームでは、製品は複数のモダリティを持つ顧客に提供されています。 これらの複数のモダリティは検索システムにとって重要であり、顧客に対して魅力的な製品を提供している。 したがって,これらの複数モードを同時に考慮して検索性能を向上させることは重要である。 1) 予め訓練された画像モデル(例えばcnnベースのモデル)でパッチの特徴を抽出する方法は、多くの帰納的バイアスを持っています。 電子商取引における商品イメージから効率的な情報を捉えることは困難である。 (2)マルチモーダルデータの多様性は,共通部分空間におけるタイトルやイメージを含む問合せテキストや製品表現の構築を困難にしている。 本稿では, 効率的なEコマース検索のための新しいアドバイザリアルクロスモーダル拡張BERT (ACE-BERT) を提案する。 ACE-BERTは、イメージ表現としてパッチ機能とピクセル機能を利用する。 これにより、トランスフォーマーアーキテクチャを生画像シーケンスに直接適用することができる。 事前訓練された拡張BERTをバックボーンネットワークとして、ACE-BERTは、クエリと製品間の表現ギャップを狭めるために、異なるモダリティ表現の分布一貫性を確保するために、ドメイン分類器を追加することで、逆学習を採用する。 実験の結果,ACE-BERTは検索作業における最先端手法よりも優れていた。 ACE-BERTはすでにEコマースの検索エンジンにデプロイされており、収益は1.46%増加した。

Nowadays on E-commerce platforms, products are presented to the customers with multiple modalities. These multiple modalities are significant for a retrieval system while providing attracted products for customers. Therefore, how to take into account those multiple modalities simultaneously to boost the retrieval performance is crucial. This problem is a huge challenge to us due to the following reasons: (1) the way of extracting patch features with the pre-trained image model (e.g., CNN-based model) has much inductive bias. It is difficult to capture the efficient information from the product image in E-commerce. (2) The heterogeneity of multimodal data makes it challenging to construct the representations of query text and product including title and image in a common subspace. We propose a novel Adversarial Cross-modal Enhanced BERT (ACE-BERT) for efficient E-commerce retrieval. In detail, ACE-BERT leverages the patch features and pixel features as image representation. Thus the Transformer architecture can be applied directly to the raw image sequences. With the pre-trained enhanced BERT as the backbone network, ACE-BERT further adopts adversarial learning by adding a domain classifier to ensure the distribution consistency of different modality representations for the purpose of narrowing down the representation gap between query and product. Experimental results demonstrate that ACE-BERT outperforms the state-of-the-art approaches on the retrieval task. It is remarkable that ACE-BERT has already been deployed in our E-commerce's search engine, leading to 1.46% increase in revenue.
翻訳日:2021-12-15 15:19:55 公開日:2021-12-14
# Meta-CPR: 通信パターン認識モジュールを持つ多数のエージェントに一般化

Meta-CPR: Generalize to Unseen Large Number of Agents with Communication Pattern Recognition Module ( http://arxiv.org/abs/2112.07222v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Wei Wei, Da-Chen Juan, Min Sun(参考訳) 強化学習におけるエージェント間の効果的なコミュニケーション機構の設計は、特に現実世界のアプリケーションにおいて難しい課題であった。 エージェントの数や環境は、現実世界のシナリオで変化するエージェントの数とやりとりする必要がある場合もあります。 この目的のために、マルチエージェントフレームワークは、実世界のアプリケーションで実用的なスケールとダイナミクスの両方の観点から、エージェントの様々なシナリオを扱う必要がある。 エージェント数が異なるマルチエージェント環境をマルチタスク問題として定式化し、この問題に対処するためのメタ強化学習(Meta-RL)フレームワークを提案する。 提案手法では,cpr(meta-learned communication pattern recognition)モジュールを用いてコミュニケーション行動を特定し,学習プロセスを容易にする情報を抽出する。 実験結果から,提案する枠組みが実証された。 a) 目に見えないほど多くのエージェントに一般化し、 (b)エピソード間でエージェントの数を変更することができる。 また, 提案したCPR設計が有効であることを示すために, アブレーション試験を行った。

Designing an effective communication mechanism among agents in reinforcement learning has been a challenging task, especially for real-world applications. The number of agents can grow or an environment sometimes needs to interact with a changing number of agents in real-world scenarios. To this end, a multi-agent framework needs to handle various scenarios of agents, in terms of both scales and dynamics, for being practical to real-world applications. We formulate the multi-agent environment with a different number of agents as a multi-tasking problem and propose a meta reinforcement learning (meta-RL) framework to tackle this problem. The proposed framework employs a meta-learned Communication Pattern Recognition (CPR) module to identify communication behavior and extract information that facilitates the training process. Experimental results are poised to demonstrate that the proposed framework (a) generalizes to an unseen larger number of agents and (b) allows the number of agents to change between episodes. The ablation study is also provided to reason the proposed CPR design and show such design is effective.
翻訳日:2021-12-15 15:19:33 公開日:2021-12-14
# アーキテクト-ビルダー問題におけるガイドとガイドの学習

Learning to Guide and to Be Guided in the Architect-Builder Problem ( http://arxiv.org/abs/2112.07342v1 )

ライセンス: Link先を確認
Barde Paul, Karch Tristan, Nowrouzezahrai Derek, Moulin-Frier Cl\'ement, Pal Christopher, Oudeyer Pierre-Yves(参考訳) 私たちは、アクションを実行するがタスクのゴールを無視する $builder$ -- と、タスクのゴールに向かってビルダーを導く $architect$ -- をコーディネートすることを学ぶインタラクティブエージェントに興味があります。 我々は,共有通信プロトコルを進化させながらタスクを同時に学習する機構を,人工エージェントが備えている形式的な環境を定義し,探索する。 実験セミオティックス(Experimental Semiotics)の分野は、事前の未知の意味から学ぶ人間の習熟度を示している。 それゆえ、我々はそれからインスピレーションを得て、アーキテクト-ビルダー問題(abp: architect-builder problem)を紹介します。 アーキテクトはターゲット構造を知っているが、環境では動作せず、ビルド者には任意のメッセージしか送れない。 一方、ビルダーは、環境の中で振る舞うことができるが、手元にあるタスクに関する知識がなく、アーキテクトが送ったメッセージにのみ依存して解決を学ばなければならない。 メッセージの意味は、当初はエージェント間で定義も共有もされていないが、学習を通じて交渉されなければならない。 このような制約の下で、アーキテクトはアーキテクトの学習モデルを利用してガイドし、ビルダーは自己模倣学習を使ってガイド行動を強化します。 ABIGの鍵となる学習メカニズムを解析し、ABPの2次元インスタンス化において、タスクがキューブをつかみ、所定の場所に配置したり、様々な形状を作る。 この環境では、ABIGは、アーキテクトとビルダーのペアが手元にあるタスクを解決できるだけでなく、目に見えないタスクにも一般化できる、低レベルで高周波な誘導通信プロトコルをもたらす。

We are interested in interactive agents that learn to coordinate, namely, a $builder$ -- which performs actions but ignores the goal of the task -- and an $architect$ which guides the builder towards the goal of the task. We define and explore a formal setting where artificial agents are equipped with mechanisms that allow them to simultaneously learn a task while at the same time evolving a shared communication protocol. The field of Experimental Semiotics has shown the extent of human proficiency at learning from a priori unknown instructions meanings. Therefore, we take inspiration from it and present the Architect-Builder Problem (ABP): an asymmetrical setting in which an architect must learn to guide a builder towards constructing a specific structure. The architect knows the target structure but cannot act in the environment and can only send arbitrary messages to the builder. The builder on the other hand can act in the environment but has no knowledge about the task at hand and must learn to solve it relying only on the messages sent by the architect. Crucially, the meaning of messages is initially not defined nor shared between the agents but must be negotiated throughout learning. Under these constraints, we propose Architect-Builder Iterated Guiding (ABIG), a solution to the Architect-Builder Problem where the architect leverages a learned model of the builder to guide it while the builder uses self-imitation learning to reinforce its guided behavior. We analyze the key learning mechanisms of ABIG and test it in a 2-dimensional instantiation of the ABP where tasks involve grasping cubes, placing them at a given location, or building various shapes. In this environment, ABIG results in a low-level, high-frequency, guiding communication protocol that not only enables an architect-builder pair to solve the task at hand, but that can also generalize to unseen tasks.
翻訳日:2021-12-15 15:19:17 公開日:2021-12-14
# 遺伝的アルゴリズムを用いた畳み込みニューラルネットワークのヒューリスティックハイパーパラメータ最適化

Heuristic Hyperparameter Optimization for Convolutional Neural Networks using Genetic Algorithm ( http://arxiv.org/abs/2112.07087v1 )

ライセンス: Link先を確認
Meng Zhou(参考訳) 近年、世界中の人々が、新型コロナウイルス(COVID-19)として知られる史上最も深刻な病気の1つに苦しんでいる。 ウイルスが肺に達すると、肺肺炎や敗血症を引き起こす確率が高くなる。 X線画像は、新型コロナウイルス感染症の典型的な特徴を特定する強力なツールである。 放射線科医や病理学者は、感染した患者の胸部x線にはグラウンドグラスの不透明性が見られ、診断過程における基準の1つとして使用できると観察した。 過去数年間、ディープラーニングは画像分類の分野でもっとも強力な手法の1つであることが証明されてきた。 正常者と感染者の間で胸部x線が有意な差があるため、深部モデルを用いて患者の胸部x線から疾患の存在を同定することができた。 多くの深層モデルは複雑であり、多くの入力パラメータで進化する。 デザイナーは、特にスクラッチからモデルを構築する際に、深層モデルのチューニングプロセスに苦労することがある。 生物学的進化過程に触発された遺伝的アルゴリズムは、このような複雑な問題を解決する上で重要な役割を果たす。 本稿では,チェストX線分類タスクに対して,畳み込みニューラルネットワーク(CNN)を最適化するための遺伝的アプローチを提案する。

In recent years, people from all over the world are suffering from one of the most severe diseases in history, known as Coronavirus disease 2019, COVID-19 for short. When the virus reaches the lungs, it has a higher probability to cause lung pneumonia and sepsis. X-ray image is a powerful tool in identifying the typical features of the infection for COVID-19 patients. The radiologists and pathologists observe that ground-glass opacity appears in the chest X-ray for infected patient \cite{cozzi2021ground}, and it could be used as one of the criteria during the diagnosis process. In the past few years, deep learning has proven to be one of the most powerful methods in the field of image classification. Due to significant differences in Chest X-Ray between normal and infected people \cite{rousan2020chest}, deep models could be used to identify the presence of the disease given a patient's Chest X-Ray. Many deep models are complex, and it evolves with lots of input parameters. Designers sometimes struggle with the tuning process for deep models, especially when they build up the model from scratch. Genetic Algorithm, inspired by the biological evolution process, plays a key role in solving such complex problems. In this paper, I proposed a genetic-based approach to optimize the Convolutional Neural Network(CNN) for the Chest X-Ray classification task.
翻訳日:2021-12-15 15:17:46 公開日:2021-12-14
# (参考訳) 視覚質問応答のためのデュアルキーマルチモーダルバックドア [全文訳有]

Dual-Key Multimodal Backdoors for Visual Question Answering ( http://arxiv.org/abs/2112.07668v1 )

ライセンス: CC BY-SA 4.0
Matthew Walmer, Karan Sikka, Indranil Sur, Abhinav Shrivastava, Susmit Jha(参考訳) ディープラーニングの成功は、複数の入力ドメインの非自明な融合を必要とするマルチモーダルタスクの進歩を可能にした。 マルチモーダルモデルは多くの問題に潜在性を示しているが、複雑さが増すと攻撃に対してより脆弱になる。 Backdoor(またはTrojan)攻撃は、攻撃者が悪意のある秘密の動作をネットワーク(例えばターゲットの誤分類)に埋め込むセキュリティ脆弱性の一種で、攻撃者が特定したトリガーが入力に追加されると起動される。 本研究では,マルチモーダルネットワークが,Dual-Key Multimodal Backdoorsと呼ばれる新しいタイプの攻撃に対して脆弱であることを示す。 この攻撃は、最先端のネットワークが使用する複雑な融合機構を利用して、効果的でステルス的なバックドアを埋め込む。 単一のトリガーを使用する代わりに、提案された攻撃は入力の各モダリティにトリガーを埋め込み、両方のトリガーが存在する場合にのみ悪意のある動作を起動する。 本稿では,複数のアーキテクチャと視覚機能バックボーンを備えた視覚質問応答(vqa)タスクにおけるマルチモーダルバックドアに関する詳細な研究を行う。 VQAモデルにバックドアを埋め込む際の大きな課題は、ほとんどのモデルが固定された事前訓練対象検出器から抽出された視覚的特徴を使用することである。 これは、検出器が視覚トリガーを完全に歪めたり無視したりできるため、攻撃者にとって困難であり、バックドアが言語トリガーに過度に依存しているモデルにつながる。 我々は、事前訓練対象検出器用に設計された視覚的トリガー最適化戦略を提案する。 この方法では,攻撃成功率98%以上のデュアルキーバックドアを作成し,トレーニングデータの1%を毒殺する。 最後に,クリーンかつトロイの木馬VQAモデルの大規模なコレクションであるTrojVQAをリリースし,マルチモーダルバックドアに対する防御の研究を可能にする。

The success of deep learning has enabled advances in multimodal tasks that require non-trivial fusion of multiple input domains. Although multimodal models have shown potential in many problems, their increased complexity makes them more vulnerable to attacks. A Backdoor (or Trojan) attack is a class of security vulnerability wherein an attacker embeds a malicious secret behavior into a network (e.g. targeted misclassification) that is activated when an attacker-specified trigger is added to an input. In this work, we show that multimodal networks are vulnerable to a novel type of attack that we refer to as Dual-Key Multimodal Backdoors. This attack exploits the complex fusion mechanisms used by state-of-the-art networks to embed backdoors that are both effective and stealthy. Instead of using a single trigger, the proposed attack embeds a trigger in each of the input modalities and activates the malicious behavior only when both the triggers are present. We present an extensive study of multimodal backdoors on the Visual Question Answering (VQA) task with multiple architectures and visual feature backbones. A major challenge in embedding backdoors in VQA models is that most models use visual features extracted from a fixed pretrained object detector. This is challenging for the attacker as the detector can distort or ignore the visual trigger entirely, which leads to models where backdoors are over-reliant on the language trigger. We tackle this problem by proposing a visual trigger optimization strategy designed for pretrained object detectors. Through this method, we create Dual-Key Backdoors with over a 98% attack success rate while only poisoning 1% of the training data. Finally, we release TrojVQA, a large collection of clean and trojan VQA models to enable research in defending against multimodal backdoors.
翻訳日:2021-12-15 15:14:26 公開日:2021-12-14
# Dense から Sparse へ: より優れた事前学習型言語モデル圧縮のためのコントラストプラニング

From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression ( http://arxiv.org/abs/2112.07198v1 )

ライセンス: Link先を確認
Runxin Xu, Fuli Luo, Chengyu Wang, Baobao Chang, Jun Huang, Songfang Huang, Fei Huang(参考訳) 事前学習された言語モデル(PLM)は、事前学習および微調整のパラダイムの下で様々な自然言語処理(NLP)タスクで大きな成功を収めた。 大量のパラメータで PLM は計算集約的で資源不足である。 したがって、大規模plmを圧縮するためにモデルプルーニングが導入された。 しかしながら、ほとんどの以前のアプローチでは、下流タスクに対するタスク固有の知識のみを考慮しているが、プルーニング中に必要不可欠なタスクに依存しない知識を無視する。 そこで本研究では,事前学習と微調整のパラダイムの下で,タスク非依存とタスク特化の両方の知識を維持するために,コントラアッティブ・プルーニング(CAP)を提案する。 汎用フレームワークとして設計され、構造化と非構造化の両方のプラニングと互換性がある。 対照的な学習で統一されたCAPは、訓練済みのタスク非依存の知識モデルから学習し、タスク固有の知識のための微調整されたモデルから学習することを可能にする。 さらに、プルーニングされたモデルの性能をよりよく維持するために、スナップショット(すなわち、各プルーニングイテレーションにおける中間モデル)もプルーニングの効果的な監督役である。 広範な実験の結果,capの採用は,特に極めて高いスパーシティシナリオにおいて,一貫して大幅な改善をもたらすことが分かりました。 わずか3%のモデルパラメータ(すなわち97%の間隔)で、CAPはQQPおよびMNLIタスクにおける元のBERTパフォーマンスの99.2%と96.3%を達成することに成功した。 さらに, 探索実験により, capで刈り取られたモデルの方が一般化能力が向上する可能性が示唆された。

Pre-trained Language Models (PLMs) have achieved great success in various Natural Language Processing (NLP) tasks under the pre-training and fine-tuning paradigm. With large quantities of parameters, PLMs are computation-intensiv e and resource-hungry. Hence, model pruning has been introduced to compress large-scale PLMs. However, most prior approaches only consider task-specific knowledge towards downstream tasks, but ignore the essential task-agnostic knowledge during pruning, which may cause catastrophic forgetting problem and lead to poor generalization ability. To maintain both task-agnostic and task-specific knowledge in our pruned model, we propose ContrAstive Pruning (CAP) under the paradigm of pre-training and fine-tuning. It is designed as a general framework, compatible with both structured and unstructured pruning. Unified in contrastive learning, CAP enables the pruned model to learn from the pre-trained model for task-agnostic knowledge, and fine-tuned model for task-specific knowledge. Besides, to better retain the performance of the pruned model, the snapshots (i.e., the intermediate models at each pruning iteration) also serve as effective supervisions for pruning. Our extensive experiments show that adopting CAP consistently yields significant improvements, especially in extremely high sparsity scenarios. With only 3% model parameters reserved (i.e., 97% sparsity), CAP successfully achieves 99.2% and 96.3% of the original BERT performance in QQP and MNLI tasks. In addition, our probing experiments demonstrate that the model pruned by CAP tends to achieve better generalization ability.
翻訳日:2021-12-15 14:43:23 公開日:2021-12-14
# リアルタイム時空間AIモデルによるオープン手術ビデオのスキル分析

A real-time spatiotemporal AI model analyzes skill in open surgical videos ( http://arxiv.org/abs/2112.07219v1 )

ライセンス: Link先を確認
Emmett D. Goodman, Krishna K. Patel, Yilun Zhang, William Locke, Chris J. Kennedy, Rohan Mehrotra, Stephen Ren, Melody Guan, Maren Downing, Hao Wei Chen, Jevin Z. Clark, Gabriel A. Brat, Serena Yeung(参考訳) オープンプロシージャは世界中で主要な手術形態である。 ai(artificial intelligence, 人工知能)は、外科手術を最適化し、患者の予後を改善する可能性を秘めている。 我々の研究は、現在50カ国からアップロードされた23の手術手順の1997年の動画をキュレートすることで、aiモデルのトレーニングのための既存のデータ制限を克服しています。 このデータセットを用いて,手術の動作や手,ツールのリアルタイム理解を可能にするマルチタスクaiモデルを開発した。 我々のモデルは様々な手術の種類や環境にまたがって一般化している。 この一般化性を図示するために,本研究は,大学医療センターで前向きに収集したオープンサージリーをYouTubeトレーニングモデルに直接適用し,手の動きの効率に関する外科的スキルのキネマティック記述者を特定した。 我々のアノテーション付きオープン手術ビデオ(AVOS)データセットとトレーニングされたモデルは、外科用AIのさらなる開発のために利用できる。

Open procedures represent the dominant form of surgery worldwide. Artificial intelligence (AI) has the potential to optimize surgical practice and improve patient outcomes, but efforts have focused primarily on minimally invasive techniques. Our work overcomes existing data limitations for training AI models by curating, from YouTube, the largest dataset of open surgical videos to date: 1997 videos from 23 surgical procedures uploaded from 50 countries. Using this dataset, we developed a multi-task AI model capable of real-time understanding of surgical behaviors, hands, and tools - the building blocks of procedural flow and surgeon skill. We show that our model generalizes across diverse surgery types and environments. Illustrating this generalizability, we directly applied our YouTube-trained model to analyze open surgeries prospectively collected at an academic medical center and identified kinematic descriptors of surgical skill related to efficiency of hand motion. Our Annotated Videos of Open Surgery (AVOS) dataset and trained model will be made available for further development of surgical AI.
翻訳日:2021-12-15 14:40:06 公開日:2021-12-14
# EgoBody:ヘッドマウントデバイスによる人体形状、運動、社会的相互作用

EgoBody: Human Body Shape, Motion and Social Interactions from Head-Mounted Devices ( http://arxiv.org/abs/2112.07642v1 )

ライセンス: Link先を確認
Siwei Zhang, Qianli Ma, Yan Zhang, Zhiyin Qian, Marc Pollefeys, Federica Bogo, Siyu Tang(参考訳) 一人称視点から社会的相互作用を理解することは、補助ロボットからAR/VRまで、多くのアプリケーションにとって不可欠である。 相互作用について推論する最初のステップは、人間のポーズと形を理解することです。 しかし、現在この分野の研究はデータ不足によって妨げられている。 既存のデータセットはサイズ、アノテーション、基底キャプチャモード、あるいはインタラクションの多様性のいずれにおいても制限されている。 複雑な3Dシーンにおけるソーシャルインタラクションのための,新たな大規模データセットであるEgoBodyを提案することで,この問題に対処する。 私たちはMicrosoft HoloLens2ヘッドセットを使って、リッチなエゴセントリックなデータストリーム(RGB、奥行き、視線、頭と手の追跡など)を記録しています。 正確な3Dグラウンドトラスを得るため,マルチKinectリグを用いてヘッドセットをキャリブレーションし,多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させ,シーンに対する人間のポーズや形状を再構成する。 68のシーケンスを収集し, 多様な社会学的相互作用カテゴリにまたがり, エゴセントリックな視点から3dフルボディポーズと形状推定のための最初のベンチマークを提案する。 私たちのデータセットとコードは、https://sanweiliti.g ithub.io/egobody/ego body.htmlで研究できます。

Understanding social interactions from first-person views is crucial for many applications, ranging from assistive robotics to AR/VR. A first step for reasoning about interactions is to understand human pose and shape. However, research in this area is currently hindered by the lack of data. Existing datasets are limited in terms of either size, annotations, ground-truth capture modalities or the diversity of interactions. We address this shortcoming by proposing EgoBody, a novel large-scale dataset for social interactions in complex 3D scenes. We employ Microsoft HoloLens2 headsets to record rich egocentric data streams (including RGB, depth, eye gaze, head and hand tracking). To obtain accurate 3D ground-truth, we calibrate the headset with a multi-Kinect rig and fit expressive SMPL-X body meshes to multi-view RGB-D frames, reconstructing 3D human poses and shapes relative to the scene. We collect 68 sequences, spanning diverse sociological interaction categories, and propose the first benchmark for 3D full-body pose and shape estimation from egocentric views. Our dataset and code will be available for research at https://sanweiliti.g ithub.io/egobody/ego body.html.
翻訳日:2021-12-15 14:39:48 公開日:2021-12-14
# TopNet: ニューラルネットワークのトピックモデルから学び、長いストーリーを生成する

TopNet: Learning from Neural Topic Model to Generate Long Stories ( http://arxiv.org/abs/2112.07259v1 )

ライセンス: Link先を確認
Yazheng Yang, Boyuan Pan, Deng Cai, Huan Sun(参考訳) Long Story Generation (LSG) は自然言語処理における目標の1つである。 ほとんどのテキスト生成タスクと異なり、lsgは、非常に短いテキスト入力に基づいて、リッチコンテンツの長いストーリーを出力する必要があり、しばしば情報不足に苦しむ。 本稿では,近年のニューラル・トピック・モデリングの進歩を活かし,短い入力を補完するために高品質なスケルトン語を得ることにより,この問題を緩和するための \emph{topnet} を提案する。 特に、ストーリーを直接生成するのではなく、短いテキスト入力を低次元のトピック分布(トピックモデルによって事前に割り当てられる)にマップすることを学びます。 この潜在トピック分布に基づいて、トピックモデルの再構成デコーダを使用して、ストーリーのスケルトンとして関連する単語のシーケンスをサンプリングすることができる。 2つのベンチマークデータセットを用いた実験の結果,提案手法は骨格語選択に極めて有効であり,自動評価と人的評価の両方において最先端モデルよりも優れていた。

Long story generation (LSG) is one of the coveted goals in natural language processing. Different from most text generation tasks, LSG requires to output a long story of rich content based on a much shorter text input, and often suffers from information sparsity. In this paper, we propose \emph{TopNet} to alleviate this problem, by leveraging the recent advances in neural topic modeling to obtain high-quality skeleton words to complement the short input. In particular, instead of directly generating a story, we first learn to map the short text input to a low-dimensional topic distribution (which is pre-assigned by a topic model). Based on this latent topic distribution, we can use the reconstruction decoder of the topic model to sample a sequence of inter-related words as a skeleton for the story. Experiments on two benchmark datasets show that our proposed framework is highly effective in skeleton word selection and significantly outperforms the state-of-the-art models in both automatic evaluation and human evaluation.
翻訳日:2021-12-15 14:38:56 公開日:2021-12-14
# グラフレベル表現学習のためのスペクトルグラフ畳み込みの改善

Improving Spectral Graph Convolution for Learning Graph-level Representation ( http://arxiv.org/abs/2112.07160v1 )

ライセンス: Link先を確認
Mingqi Yang, Rui Li, Yanming Shen, Heng Qi, Baocai Yin(参考訳) 理論上よく定義されたスペクトルグラフの畳み込みから続く空間バスメッセージパスモデルまで、空間的局所性(頂点領域における)は多くのグラフニューラルネットワーク(GNN)の基本原理として機能する。 スペクトルグラフの畳み込みでは、フィルタは$k$次多項式が$k$ホップ近傍をカバーする多項式によって近似される。 メッセージパッシングでは、アグリゲーションで使われる近隣の様々な定義は、実際には空間的局所性情報の広範囲な探索である。 ノード表現を学ぶには、ノード間の基本関係を特徴付けるので、トポロジカル距離が必要である。 しかし、グラフ全体の表現を学ぶには、まだ保持する必要がありますか? 本研究では,そのような原理は不要であり,既存のGNNがグラフ構造を効率的に符号化することを妨げていることを示す。 多項式フィルタの制限を除去することにより、新たなアーキテクチャによりグラフ表現の学習性能が大幅に向上する。 また,信号に対するグラフスペクトルの影響について検討し,様々な改良点を異なるスペクトル平滑化手法として解釈する。 これは、高域通過フィルタとしてよく知られたスペクトル理解と比較して、入力信号に対するスペクトルの影響を定量的に測定する空間理解の役割を果たす。 さらに重要なのは、強力なグラフ表現モデルの開発に光を当てることだ。

From the original theoretically well-defined spectral graph convolution to the subsequent spatial bassed message-passing model, spatial locality (in vertex domain) acts as a fundamental principle of most graph neural networks (GNNs). In the spectral graph convolution, the filter is approximated by polynomials, where a $k$-order polynomial covers $k$-hop neighbors. In the message-passing, various definitions of neighbors used in aggregations are actually an extensive exploration of the spatial locality information. For learning node representations, the topological distance seems necessary since it characterizes the basic relations between nodes. However, for learning representations of the entire graphs, is it still necessary to hold? In this work, we show that such a principle is not necessary, it hinders most existing GNNs from efficiently encoding graph structures. By removing it, as well as the limitation of polynomial filters, the resulting new architecture significantly boosts performance on learning graph representations. We also study the effects of graph spectrum on signals and interpret various existing improvements as different spectrum smoothing techniques. It serves as a spatial understanding that quantitatively measures the effects of the spectrum to input signals in comparison to the well-known spectral understanding as high/low-pass filters. More importantly, it sheds the light on developing powerful graph representation models.
翻訳日:2021-12-15 14:38:12 公開日:2021-12-14
# 世界モデルにおけるマルチモーダリティの定量化

Quantifying Multimodality in World Models ( http://arxiv.org/abs/2112.07263v1 )

ライセンス: Link先を確認
Andreas Sedlmeier, Michael K\"olle, Robert M\"uller, Leo Baudrexel and Claudia Linnhoff-Popien(参考訳) モデルベース深層強化学習(rl)は、環境の基盤となる遷移ダイナミクスのモデルが利用できることを前提としている。 このモデルは、エージェントの可能なアクションの将来の効果を予測するために使用できる。 そのようなモデルが利用できない場合、例えば生成型ニューラルネットワークを用いて、実環境の近似を学習することができる。 ほとんどの実世界の環境は自然に確率的であり、遷移ダイナミクスはしばしばマルチモーダルであるので、このマルチモーダルの不確実性を反映したモデリング技術を使うことが重要である。 このような学習システムを現実世界、特に産業環境で安全に展開するためには、これらの不確実性を考慮することが最重要である。 本研究では,RLをベースとした世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。 不確実な将来状態の正しいモデリングと検出は、現実の環境でRLシステムをデプロイするための前提条件である、安全な方法で重要な状況を扱うための基盤となる。

Model-based Deep Reinforcement Learning (RL) assumes the availability of a model of an environment's underlying transition dynamics. This model can be used to predict future effects of an agent's possible actions. When no such model is available, it is possible to learn an approximation of the real environment, e.g. by using generative neural networks, sometimes also called World Models. As most real-world environments are stochastic in nature and the transition dynamics are oftentimes multimodal, it is important to use a modelling technique that is able to reflect this multimodal uncertainty. In order to safely deploy such learning systems in the real world, especially in an industrial context, it is paramount to consider these uncertainties. In this work, we analyze existing and propose new metrics for the detection and quantification of multimodal uncertainty in RL based World Models. The correct modelling & detection of uncertain future states lays the foundation for handling critical situations in a safe way, which is a prerequisite for deploying RL systems in real-world settings.
翻訳日:2021-12-15 14:37:53 公開日:2021-12-14
# (参考訳) 長期視覚認識のためのマージン校正 [全文訳有]

Margin Calibration for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2112.07225v1 )

ライセンス: CC BY 4.0
Yidong Wang, Bowen Zhang, Wenxin Hou, Zhen Wu, Jindong Wang, Takahiro Shinozaki(参考訳) 視覚認識タスクにおける長い尾のクラス分布は、頭と尾の間の偏りのある予測をどのように扱うか、すなわち、尾のクラスをヘッドクラスとして分類する傾向にあるニューラルネットワークにとって大きな課題となる。 既存の研究はデータ再サンプリングと損失関数工学に重点を置いているが、本論文では異なる視点で分類する。 我々は,マージンとロジット(分類スコア)の関係を調査し,バイアスマージンとバイアスロジットが正の相関関係にあることを実証的に観察する。 偏りのないロジットの偏りを動的に校正する,単純かつ効果的なマージン校正関数marcを提案する。 我々は、CIFAR-LT、ImageNet-LT、Places-LT、iNaturalist-LTといった一般的なロングテールベンチマークの広範な実験を通して、MARCを検証する。 実験の結果,MARCはこれらのベンチマークで良好な結果が得られることが示された。 加えて、MARCはたった3行のコードで非常に簡単に実装できる。 このシンプルな手法が、長い尾の視覚認識において、偏ったマージンと偏ったロジットを再考する動機になることを期待しています。

The long-tailed class distribution in visual recognition tasks poses great challenges for neural networks on how to handle the biased predictions between head and tail classes, i.e., the model tends to classify tail classes as head classes. While existing research focused on data resampling and loss function engineering, in this paper, we take a different perspective: the classification margins. We study the relationship between the margins and logits (classification scores) and empirically observe the biased margins and the biased logits are positively correlated. We propose MARC, a simple yet effective MARgin Calibration function to dynamically calibrate the biased margins for unbiased logits. We validate MARC through extensive experiments on common long-tailed benchmarks including CIFAR-LT, ImageNet-LT, Places-LT, and iNaturalist-LT. Experimental results demonstrate that our MARC achieves favorable results on these benchmarks. In addition, MARC is extremely easy to implement with just three lines of code. We hope this simple method will motivate people to rethink the biased margins and biased logits in long-tailed visual recognition.
翻訳日:2021-12-15 14:36:36 公開日:2021-12-14
# CoCo-BERT:コントラストクロスモーダルマッチングとデノーミングによるビデオランゲージ事前トレーニングの改善

CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising ( http://arxiv.org/abs/2112.07515v1 )

ライセンス: Link先を確認
Jianjie Luo and Yehao Li and Yingwei Pan and Ting Yao and Hongyang Chao and Tao Mei(参考訳) BERT型構造は、視覚言語事前学習の革命と、多くの視覚言語下流タスクにおける最先端の成果の達成につながっている。 既存のソリューションでは、マスクベースのプロキシ事前トレーニングタスク(マスク付き言語モデリングやマスク付きオブジェクト/フレーム予測など)をトリガーするマスクトークンによるマルチモーダル入力が主流である。 本研究では,このようなマスキング入力は必然的にクロスモーダルマッチングプロキシタスクにノイズをもたらし,それゆえ本質的な視覚言語関連を未熟に残すことを議論する。 代替として、ビデオ言語事前学習(Contrastive Cross-modal matching and denoising (CoCo))のための特定の形態のクロスモーダルプロキシーを導出する。 CoCoは、マスク付きフレーム/ワードシーケンスをプライマリ・アンマスケインプットのノイズ増大と見なすことにより、マスケインプットとアンマスケインプットのモーダル間マッチングとイントラ・モーダルデノージングをコントラスト的に同時に進めることで、ビデオ言語関連を強化する。 我々のCoCoプロキシの目的は、コントラストクロスモーダルBERT(CoCo-BERT)と名付けられたビデオ言語事前学習のためのBERT型エンコーダデコーダ構造にさらに統合することができる。 我々は、テレビデータセットと、新たに収集した大規模GIFビデオデータセット(ACTION)でCoCo-BERTを事前訓練する。 幅広い下流タスク(例えば、クロスモーダル検索、ビデオ質問応答、ビデオキャプション)に関する広範な実験を通じて、CoCo-BERTが事前訓練された構造であることを示す。

BERT-type structure has led to the revolution of vision-language pre-training and the achievement of state-of-the-art results on numerous vision-language downstream tasks. Existing solutions dominantly capitalize on the multi-modal inputs with mask tokens to trigger mask-based proxy pre-training tasks (e.g., masked language modeling and masked object/frame prediction). In this work, we argue that such masked inputs would inevitably introduce noise for cross-modal matching proxy task, and thus leave the inherent vision-language association under-explored. As an alternative, we derive a particular form of cross-modal proxy objective for video-language pre-training, i.e., Contrastive Cross-modal matching and denoising (CoCo). By viewing the masked frame/word sequences as the noisy augmentation of primary unmasked ones, CoCo strengthens video-language association by simultaneously pursuing inter-modal matching and intra-modal denoising between masked and unmasked inputs in a contrastive manner. Our CoCo proxy objective can be further integrated into any BERT-type encoder-decoder structure for video-language pre-training, named as Contrastive Cross-modal BERT (CoCo-BERT). We pre-train CoCo-BERT on TV dataset and a newly collected large-scale GIF video dataset (ACTION). Through extensive experiments over a wide range of downstream tasks (e.g., cross-modal retrieval, video question answering, and video captioning), we demonstrate the superiority of CoCo-BERT as a pre-trained structure.
翻訳日:2021-12-15 14:22:24 公開日:2021-12-14
# 分布強化学習のための共役離散分布

Conjugated Discrete Distributions for Distributional Reinforcement Learning ( http://arxiv.org/abs/2112.07424v1 )

ライセンス: Link先を確認
Bj\"orn Lindenberg, Jonas Nordqvist, Karl-Olof Lindahl(参考訳) この研究は、有限マルコフ過程に対する強化学習の最近の進歩に基づき続けている。 従来のアルゴリズム(シングルアクターと分散の両方)の一般的なアプローチは、報酬をクリップするか、Q関数に変換法を適用して実割引リターンで様々な大きさを扱うことである。 理論的には、最も成功した方法の1つは、非決定論的プロセスを持つ場合、最適方針を導くことができない。 解決策として、分散強化学習は、この状況を完全に改善するのに役立つと論じる。 共役分布作用素の導入により、理論収束が保証された実リターンに対する大きな変換クラスを扱うことができる。 本稿では,この演算子に基づいて,Cram\'er 距離によって与えられる適切な分布距離を用いて,未調整報酬に直接エージェントを訓練する。 確率的環境での性能を評価するため,55のAtari 2600のゲームに対して,ステディアクションを用いてエージェントを訓練し,ドパミンフレームワークの他のよく知られたアルゴリズムと比較して最先端のパフォーマンスを得る。

In this work we continue to build upon recent advances in reinforcement learning for finite Markov processes. A common approach among previous existing algorithms, both single-actor and distributed, is to either clip rewards or to apply a transformation method on Q-functions to handle a large variety of magnitudes in real discounted returns. We theoretically show that one of the most successful methods may not yield an optimal policy if we have a non-deterministic process. As a solution, we argue that distributional reinforcement learning lends itself to remedy this situation completely. By the introduction of a conjugated distributional operator we may handle a large class of transformations for real returns with guaranteed theoretical convergence. We propose an approximating single-actor algorithm based on this operator that trains agents directly on unaltered rewards using a proper distributional metric given by the Cram\'er distance. To evaluate its performance in a stochastic setting we train agents on a suite of 55 Atari 2600 games using sticky-actions and obtain state-of-the-art performance compared to other well-known algorithms in the Dopamine framework.
翻訳日:2021-12-15 14:21:37 公開日:2021-12-14
# ドメイン一般化のためのスタイルと意味記憶機構

A Style and Semantic Memory Mechanism for Domain Generalization ( http://arxiv.org/abs/2112.07517v1 )

ライセンス: Link先を確認
Yang Chen and Yu Wang and Yingwei Pan and Ting Yao and Xinmei Tian and Tao Mei(参考訳) 最先端のドメイン一般化アルゴリズムは、ドメイン間の意味的不変性の仮定を優先する傾向がある。 一方、ドメイン内スタイルの不変性は通常、未熟であり、棚に置かれる。 本稿では,ドメイン内スタイルの不変性を活用することが,ドメイン一般化の効率向上に重要であることを明らかにする。 我々は、ネットワークがどのドメイン機能が不変で、インスタンス間で共有されているかを知ることが重要であることを検証し、ネットワークがその理解を深め、意味的判別能力を向上させる。 また,ドメイン間の意味的特徴の共通性を学習する上で特に有効な,新しい「判断」機構を提案する。 steamと呼ばれる完全なモデルは、新しい確率的グラフィカルモデルとして解釈でき、実装には2種類のメモリバンク(セマンティック特徴バンクとスタイル特徴バンク)の便利な構成が必要です。 実験の結果,提案手法は最先端の手法をクリアマージンで超えていることがわかった。

Mainstream state-of-the-art domain generalization algorithms tend to prioritize the assumption on semantic invariance across domains. Meanwhile, the inherent intra-domain style invariance is usually underappreciated and put on the shelf. In this paper, we reveal that leveraging intra-domain style invariance is also of pivotal importance in improving the efficiency of domain generalization. We verify that it is critical for the network to be informative on what domain features are invariant and shared among instances, so that the network sharpens its understanding and improves its semantic discriminative ability. Correspondingly, we also propose a novel "jury" mechanism, which is particularly effective in learning useful semantic feature commonalities among domains. Our complete model called STEAM can be interpreted as a novel probabilistic graphical model, for which the implementation requires convenient constructions of two kinds of memory banks: semantic feature bank and style feature bank. Empirical results show that our proposed framework surpasses the state-of-the-art methods by clear margins.
翻訳日:2021-12-15 14:20:59 公開日:2021-12-14
# $n$-CPS:Cross Pseudo Supervisionを半監督セマンティックセマンティックセグメンテーションのための$n$ネットワークに一般化

$n$-CPS: Generalising Cross Pseudo Supervision to $n$ networks for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.07528v1 )

ライセンス: Link先を確認
Dominik Filipiak, Piotr Tempczyk, Marek Cygan(参考訳) 半教師付きセマンティックセマンティックセグメンテーションのタスクに対する最近の最先端の相互監督(CPS)アプローチを一般化した$n$-CPSを提案する。 n$-CPSでは、同時に訓練されたサブネットワークが、摂動と一貫性の規則化を通じて互いに学習する。 また,サブネットワーク出力に適用したアンサンブル技術により性能が大幅に向上することを示す。 われわれの知る限り、$n$-CPSはCutMixと組み合わせてCPSを上回り、1/16、1/8、1/4、1/2の監督体制)とCityscapes(1/16の監督体制)でPascal VOC 2012の最先端技術を設定する。

We present $n$-CPS - a generalisation of the recent state-of-the-art cross pseudo supervision (CPS) approach for the task of semi-supervised semantic segmentation. In $n$-CPS, there are $n$ simultaneously trained subnetworks that learn from each other through one-hot encoding perturbation and consistency regularisation. We also show that ensembling techniques applied to subnetworks outputs can significantly improve the performance. To the best of our knowledge, $n$-CPS paired with CutMix outperforms CPS and sets the new state-of-the-art for Pascal VOC 2012 with (1/16, 1/8, 1/4, and 1/2 supervised regimes) and Cityscapes (1/16 supervised).
翻訳日:2021-12-15 14:20:44 公開日:2021-12-14
# 効率的な微分可能二次プログラミング層:ADMMアプローチ

Efficient differentiable quadratic programming layers: an ADMM approach ( http://arxiv.org/abs/2112.07464v1 )

ライセンス: Link先を確認
Andrew Butler and Roy Kwon(参考訳) ニューラルネットワークアーキテクチャの最近の進歩は、エンドツーエンドのトレーニング可能なニューラルネットワークにおいて、凸最適化問題を異なる層としてシームレスに統合することを可能にする。 しかし、中規模と大規模の二次プログラムをディープニューラルネットワークアーキテクチャに統合することは、内部点法で正確に2次プログラムを解くことが、変数の数で最悪の3倍の複雑さを持つため困難である。 本稿では,適度に多くの変数を持つ問題にスケール可能な乗算器の交互方向法(ADMM)に基づく,代替的なネットワーク層アーキテクチャを提案する。 後方微分は修正固定点反復の残留写像の暗黙的な微分によって行われる。 シミュレーションの結果は、中規模の問題に対してOptNet二次プログラミング層よりも約1桁高速であるADMM層の計算上の利点を示している。 さらに, メモリと計算の両面から, KKT最適条件の非ロール化や暗黙的微分に基づく標準手法と比較して, 新たな後方通過ルーチンは効率的である。 ポートフォリオ最適化の例を総合的な予測と最適化のパラダイムでまとめる。

Recent advances in neural-network architecture allow for seamless integration of convex optimization problems as differentiable layers in an end-to-end trainable neural network. Integrating medium and large scale quadratic programs into a deep neural network architecture, however, is challenging as solving quadratic programs exactly by interior-point methods has worst-case cubic complexity in the number of variables. In this paper, we present an alternative network layer architecture based on the alternating direction method of multipliers (ADMM) that is capable of scaling to problems with a moderately large number of variables. Backward differentiation is performed by implicit differentiation of the residual map of a modified fixed-point iteration. Simulated results demonstrate the computational advantage of the ADMM layer, which for medium scaled problems is approximately an order of magnitude faster than the OptNet quadratic programming layer. Furthermore, our novel backward-pass routine is efficient, from both a memory and computation standpoint, in comparison to the standard approach based on unrolled differentiation or implicit differentiation of the KKT optimality conditions. We conclude with examples from portfolio optimization in the integrated prediction and optimization paradigm.
翻訳日:2021-12-15 14:20:24 公開日:2021-12-14
# resnetとmgnetのための解釈制約付き線形モデル

An Interpretive Constrained Linear Model for ResNet and MgNet ( http://arxiv.org/abs/2112.07441v1 )

ライセンス: Link先を確認
Juncai He, Jinchao Xu, Lian Zhang, Jianqing Zhu(参考訳) 畳み込みニューラルネットワーク(cnn)を用いた画像分類のための解釈可能な数学的モデルとして,制約付き線形データ特徴マッピングモデルを提案する。 この観点から、線形系における従来の反復的スキームとResNet型およびMgNet型モデルの基本ブロックのアーキテクチャとの詳細な関係を確立する。 これらの接続を用いて、元のモデルと比較してパラメータが少なく、より正確な結果が得られる修正されたresnetモデルを示し、この制約付き学習データ特徴マップの妥当性を示す。 この仮定に基づいて、MgNetの合理性を示す一般的なデータ機能反復スキームを提案する。 また,mgnetについて,画像分類問題におけるその成功と優位性を示すための系統的数値的研究を行い,確立されたネットワークとの比較でその利点を示す。

We propose a constrained linear data-feature-mapping model as an interpretable mathematical model for image classification using a convolutional neural network (CNN). From this viewpoint, we establish detailed connections between the traditional iterative schemes for linear systems and the architectures of the basic blocks of ResNet- and MgNet-type models. Using these connections, we present some modified ResNet models that compared with the original models have fewer parameters and yet can produce more accurate results, thereby demonstrating the validity of this constrained learning data-feature-mapping assumption. Based on this assumption, we further propose a general data-feature iterative scheme to show the rationality of MgNet. We also provide a systematic numerical study on MgNet to show its success and advantages in image classification problems and demonstrate its advantages in comparison with established networks.
翻訳日:2021-12-15 14:20:08 公開日:2021-12-14
# 群同変畳み込み量子ans{\"a}tzeによる量子状態学習の高速化

Speeding up Learning Quantum States through Group Equivariant Convolutional Quantum Ans{\"a}tze ( http://arxiv.org/abs/2112.07611v1 )

ライセンス: Link先を確認
Han Zheng, Zimu Li, Junyu Liu, Sergii Strelchuk, Risi Kondor(参考訳) 我々は、JordanのPQC(Permutational Quantum Computing)形式に基づく、$S_n$-equivariant量子畳み込み回路の理論的フレームワークを開発した。 量子回路は、対称群上の古典的Fast Fourier Transform (FFT)と比較して、$S_n$-Fourier係数の行列要素の計算において超指数的高速化をもたらすフーリエ空間ニューラルアーキテクチャの自然な選択であることを示す。 特に、Okounkov-Vershik 法を用いて、Harrow の主張(Ph.D. Thesis 2005 p.160)を $\operatorname{SU}(d)$- と $S_n$-irrep 基底の同値性で証明し、Young-Jucys-Murphy (YJM) 要素を用いて$S_n$-equivariant Convolutional Quantum Alternating Ans{\"a}tze$S_n$-CQA) を確立する。 我々は、$s_n$-cqaが高密度であることを証明し、従って$s_n$-irrepブロック内で表現可能であることを証明した。 本手法は、量子近似最適化アルゴリズム(QAOA)の普遍性を表現論的観点から証明する別の方法を提供する。 我々のフレームワークは、大域的に$\operatorname{su}(d)$ 対称性を持つ幅広い問題に対して自然に適用できる。 J_1$-$J_2$反強磁性ハイゼンベルク模型の基底状態の符号構造を長方形格子と加護目格子上に示すために,Ans{\"a}tzeの有効性を示す数値シミュレーションを行った。 本研究は、特定の機械学習問題に対する量子アドバンテージを特定し、有名なオコウンコフ・ヴェルシクの表現論を機械学習と量子物理学に初めて応用する。

We develop a theoretical framework for $S_n$-equivariant quantum convolutional circuits, building on and significantly generalizing Jordan's Permutational Quantum Computing (PQC) formalism. We show that quantum circuits are a natural choice for Fourier space neural architectures affording a super-exponential speedup in computing the matrix elements of $S_n$-Fourier coefficients compared to the best known classical Fast Fourier Transform (FFT) over the symmetric group. In particular, we utilize the Okounkov-Vershik approach to prove Harrow's statement (Ph.D. Thesis 2005 p.160) on the equivalence between $\operatorname{SU}(d)$- and $S_n$-irrep bases and to establish the $S_n$-equivariant Convolutional Quantum Alternating Ans{\"a}tze ($S_n$-CQA) using Young-Jucys-Murphy (YJM) elements. We prove that $S_n$-CQA are dense, thus expressible within each $S_n$-irrep block, which may serve as a universal model for potential future quantum machine learning and optimization applications. Our method provides another way to prove the universality of Quantum Approximate Optimization Algorithm (QAOA), from the representation-theor etical point of view. Our framework can be naturally applied to a wide array of problems with global $\operatorname{SU}(d)$ symmetry. We present numerical simulations to showcase the effectiveness of the ans{\"a}tze to find the sign structure of the ground state of the $J_1$--$J_2$ antiferromagnetic Heisenberg model on the rectangular and Kagome lattices. Our work identifies quantum advantage for a specific machine learning problem, and provides the first application of the celebrated Okounkov-Vershik 7;s representation theory to machine learning and quantum physics.
翻訳日:2021-12-15 14:19:55 公開日:2021-12-14
# (参考訳) shgnn:構造対応不均一グラフニューラルネットワーク [全文訳有]

SHGNN: Structure-Aware Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2112.06244v2 )

ライセンス: CC BY 4.0
Wentao Xu, Yingce Xia, Weiqing Liu, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 多くの実世界のグラフ(ネットワーク)は異なる種類のノードとエッジで異質である。 不均質グラフの低次元ノード表現の学習を目的とした不均質グラフ埋め込みは、下流の様々な応用に不可欠である。 近年,異種グラフのセマンティック情報を学習するために,メタパスに基づく埋め込み手法が数多く提案されている。 しかし、既存の技術のほとんどは、ヘテロジニアスグラフ埋め込みを学ぶ際にグラフ構造情報を見落としている。 本稿では、上記の制約に対処する構造対応不均一グラフニューラルネットワーク(SHGNN)を提案する。 具体的には,まず,機能伝達モジュールを用いてメタパス中の中間ノードの局所構造情報をキャプチャする。 次に、ツリーアグリゲータを用いて、メタパス上のアグリゲーションモジュールにグラフ構造情報を組み込む。 最後に、メタパスアグリゲータを利用して、異なるメタパスから集約された情報を融合する。 提案手法の有効性を示すベンチマークデータセットにおいて,ノードの分類とクラスタリングに関する実験を行い,最新の結果を得た。

Many real-world graphs (networks) are heterogeneous with different types of nodes and edges. Heterogeneous graph embedding, aiming at learning the low-dimensional node representations of a heterogeneous graph, is vital for various downstream applications. Many meta-path based embedding methods have been proposed to learn the semantic information of heterogeneous graphs in recent years. However, most of the existing techniques overlook the graph structure information when learning the heterogeneous graph embeddings. This paper proposes a novel Structure-Aware Heterogeneous Graph Neural Network (SHGNN) to address the above limitations. In detail, we first utilize a feature propagation module to capture the local structure information of intermediate nodes in the meta-path. Next, we use a tree-attention aggregator to incorporate the graph structure information into the aggregation module on the meta-path. Finally, we leverage a meta-path aggregator to fuse the information aggregated from different meta-paths. We conducted experiments on node classification and clustering tasks and achieved state-of-the-art results on the benchmark datasets, which shows the effectiveness of our proposed method.
翻訳日:2021-12-15 13:28:09 公開日:2021-12-14
# (参考訳) Anomaly Crossing: クロスドメインFew-shot学習によるビデオ異常検出の新しい手法 [全文訳有]

Anomaly Crossing: A New Method for Video Anomaly Detection as Cross-domain Few-shot Learning ( http://arxiv.org/abs/2112.06320v2 )

ライセンス: CC BY 4.0
Guangyu Sun, Zhang Liu, Lianggong Wen, Jing Shi, Chenliang Xu(参考訳) ビデオ異常検出は、ビデオで発生した異常事象を特定することを目的としている。 異常イベントは比較的稀であるため、バランスの取れたデータセットを収集し、タスクを解決するためにバイナリ分類器を訓練することは不可能である。 したがって、ほとんどの以前のアプローチは、教師なしまたは半教師なしの方法で通常のビデオからのみ学習する。 明らかに、これらは識別異常特性の捕捉と利用に限られており、異常検出性能が損なわれている。 本稿では,ビデオの異常検出に通常のビデオと異常ビデオの両方をフル活用して,新たな学習パラダイムを提案する。 具体的には、ソース領域内の多数のビデオから学んだ知識を伝達して、ターゲット領域における少数ショット異常検出の解決を支援することができるクロスドメイン・数ショット異常検出という新しい学習タスクを定式化する。 具体的には,対象とする通常のビデオに対する自己教師型トレーニングを活用して,ドメインギャップを減らし,メタコンテキスト認識モジュールを考案し,イベントの映像コンテキストを数ショットで探索する。 実験の結果,本手法はDoTAデータセットとUCF-Crimeデータセットのベースライン手法を著しく上回り,新しいタスクは異常検出のためのより実践的な訓練パラダイムに寄与することがわかった。

Video anomaly detection aims to identify abnormal events that occurred in videos. Since anomalous events are relatively rare, it is not feasible to collect a balanced dataset and train a binary classifier to solve the task. Thus, most previous approaches learn only from normal videos using unsupervised or semi-supervised methods. Obviously, they are limited in capturing and utilizing discriminative abnormal characteristics, which leads to compromised anomaly detection performance. In this paper, to address this issue, we propose a new learning paradigm by making full use of both normal and abnormal videos for video anomaly detection. In particular, we formulate a new learning task: cross-domain few-shot anomaly detection, which can transfer knowledge learned from numerous videos in the source domain to help solve few-shot abnormality detection in the target domain. Concretely, we leverage self-supervised training on the target normal videos to reduce the domain gap and devise a meta context perception module to explore the video context of the event in the few-shot setting. Our experiments show that our method significantly outperforms baseline methods on DoTA and UCF-Crime datasets, and the new task contributes to a more practical training paradigm for anomaly detection.
翻訳日:2021-12-15 13:11:44 公開日:2021-12-14
# (参考訳) ガウス過程回帰における低ランク近似はどの程度良いか?

How Good are Low-Rank Approximations in Gaussian Process Regression? ( http://arxiv.org/abs/2112.06410v2 )

ライセンス: CC BY 4.0
Constantinos Daskalakis, Petros Dellaportas, Aristeidis Panos(参考訳) 我々は、ランダムなフーリエ特徴に基づく2つの一般的な低ランクカーネル近似から生じる近似ガウス過程(GP)の回帰を保証し、カーネルのマーサー展開を阻止する。 特に,kullback-leibler の偏差を,その近似値と近似値を用いて計算した予測平均ベクトルと予測共分散行列の間に限定する。 理論境界の有効性を評価するため,シミュレーションデータと標準ベンチマークの両方について実験を行った。

We provide guarantees for approximate Gaussian Process (GP) regression resulting from two common low-rank kernel approximations: based on random Fourier features, and based on truncating the kernel's Mercer expansion. In particular, we bound the Kullback-Leibler divergence between an exact GP and one resulting from one of the afore-described low-rank approximations to its kernel, as well as between their corresponding predictive densities, and we also bound the error between predictive mean vectors and between predictive covariance matrices computed using the exact versus using the approximate GP. We provide experiments on both simulated data and standard benchmarks to evaluate the effectiveness of our theoretical bounds.
翻訳日:2021-12-15 12:51:39 公開日:2021-12-14
# (参考訳) hiclass: scikit-learnと互換性のあるローカル階層分類のためのpythonライブラリ [全文訳有]

HiClass: a Python library for local hierarchical classification compatible with scikit-learn ( http://arxiv.org/abs/2112.06560v2 )

ライセンス: CC BY 4.0
F\'abio M. Miranda, Niklas K\"oehnecke and Bernhard Y. Renard(参考訳) HiClassは、ローカル階層分類のためのオープンソースのPythonパッケージで、Scikit-learnと完全に互換性がある。 これは、ノード毎のローカル分類子、親ノード毎のローカル分類子、レベル毎のローカル分類子を含む、ローカル階層分類のための最も人気のある機械学習モデルの実装を提供する。 さらに、ライブラリには、階層データにおけるモデルパフォーマンスを評価するツールが含まれている。 ドキュメントにはインストール指示、インタラクティブノートブック、APIの完全な記述が含まれている。 HiClassはBSDライセンスで配布されており、学術および商業の両方での使用を奨励している。 ソースコードとドキュメントはhttps://gitlab.com/d acs-hpi/hiclassで入手できる。

HiClass is an open-source Python package for local hierarchical classification fully compatible with scikit-learn. It provides implementations of the most popular machine learning models for local hierarchical classification, including Local Classifier Per Node, Local Classifier Per Parent Node and Local Classifier Per Level. In addition, the library includes tools to evaluate model performance on hierarchical data. The documentation contains installation instructions, interactive notebooks, and a complete description of the API. HiClass is distributed under the simplified BSD license, encouraging its use in both academic and commercial settings. Source code and documentation are available at https://gitlab.com/d acs-hpi/hiclass.
翻訳日:2021-12-15 12:50:48 公開日:2021-12-14
# (参考訳) マルチ武装バンディットの「k$」ランキングトップはノイズ評価

Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations ( http://arxiv.org/abs/2112.06517v2 )

ライセンス: CC BY 4.0
Evrard Garcelon and Vashist Avadhanula and Alessandro Lazaric and Matteo Pirotta(参考訳) マルチアームのバンディット設定を考えると、各ラウンドの始めに、学習者は、各アームの真の報酬のノイズを独立的に受け取り、おそらくバイアスのある \emph{evaluations} を受け取り、できるだけ多くの報酬を t$ ラウンドに蓄積する目的で$k$ のアームを選択する。 各ラウンドにおいて、各アームの真の報酬が固定分布から引き出されるという仮定の下で、評価がどのように生成されるかによって異なるアルゴリズム的アプローチと理論的保証を導出する。 まず、観察関数が真の報酬の系式化された線形関数である場合の一般的な場合、$\widetilde{o}(t^{2/3})$ regretを示す。 一方,実報酬のノイズ線形関数が観測関数である場合には,改良された$\widetilde{o}(\sqrt{t})$ regretが得られることを示した。 最後に,理論的な知見を裏付ける実証的検証を報告し,代替手法を徹底的に比較し,実際にこの設定の関心をさらに支持する。

We consider a multi-armed bandit setting where, at the beginning of each round, the learner receives noisy independent, and possibly biased, \emph{evaluations} of the true reward of each arm and it selects $K$ arms with the objective of accumulating as much reward as possible over $T$ rounds. Under the assumption that at each round the true reward of each arm is drawn from a fixed distribution, we derive different algorithmic approaches and theoretical guarantees depending on how the evaluations are generated. First, we show a $\widetilde{O}(T^{2/3})$ regret in the general case when the observation functions are a genearalized linear function of the true rewards. On the other hand, we show that an improved $\widetilde{O}(\sqrt{T})$ regret can be derived when the observation functions are noisy linear functions of the true rewards. Finally, we report an empirical validation that confirms our theoretical findings, provides a thorough comparison to alternative approaches, and further supports the interest of this setting in practice.
翻訳日:2021-12-15 12:40:32 公開日:2021-12-14
# 長期学習のためのエンド・ツー・エンドトレーニング

You Only Need End-to-End Training for Long-Tailed Recognition ( http://arxiv.org/abs/2112.05958v2 )

ライセンス: Link先を確認
Zhiwei Zhang, Hongsheng Li(参考訳) 長い尾を持つデータセットの一般化のギャップは、ほとんどのカテゴリが少数のトレーニングサンプルを占有しているためである。 分離トレーニングは、バックボーンと分類器を別々にトレーニングすることで、よりよいパフォーマンスを達成する。 エンド・ツー・エンドモデルのトレーニング(例えばlogits margin-based method)のパフォーマンスが低くなる原因は何でしょう? 本研究は,分類器の学習に影響を与える重要な要因である,低エントロピーのチャネル関連特徴を,分類器に入力する前に同定する。 情報理論の観点からは, クロスエントロピー損失が不均衡データに対して高い相関性を持つ傾向がある理由を考察する。 さらに,分類器重みの勾配,ヘシアンの条件数,ロジッツマージンに基づくアプローチについて理論的に解析し,その影響を証明した。 そこで我々は,まずChannel Whiteningを用いて,重み付けをデカップリングし,スキュード決定境界を再構成するための分類器の入力をデコレーションし,ロジットマージン法と組み合わせて満足な結果を得る方法を提案する。 しかし、マイナークラス数が大きければ、バッチ不均衡とトレーニング参加の増加が、主要なクラスの過剰フィットの原因となる。 また,上記の問題を解決するために,ブロックベース相対バランスバッチサンプリング(b3rs)とバッチ組込みトレーニング(bet)という2つのモジュールを提案する。 CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。

The generalization gap on the long-tailed data sets is largely owing to most categories only occupying a few training samples. Decoupled training achieves better performance by training backbone and classifier separately. What causes the poorer performance of end-to-end model training (e.g., logits margin-based methods)? In this work, we identify a key factor that affects the learning of the classifier: the channel-correlated features with low entropy before inputting into the classifier. From the perspective of information theory, we analyze why cross-entropy loss tends to produce highly correlated features on the imbalanced data. In addition, we theoretically analyze and prove its impacts on the gradients of classifier weights, the condition number of Hessian, and logits margin-based approach. Therefore, we firstly propose to use Channel Whitening to decorrelate ("scatter") the classifier's inputs for decoupling the weight update and reshaping the skewed decision boundary, which achieves satisfactory results combined with logits margin-based method. However, when the number of minor classes are large, batch imbalance and more participation in training cause over-fitting of the major classes. We also propose two novel modules, Block-based Relatively Balanced Batch Sampler (B3RS) and Batch Embedded Training (BET) to solve the above problems, which makes the end-to-end training achieve even better performance than decoupled training. Experimental results on the long-tailed classification benchmarks, CIFAR-LT and ImageNet-LT, demonstrate the effectiveness of our method.
翻訳日:2021-12-15 12:38:37 公開日:2021-12-14
# 画像強化を用いた非IID環境におけるフェデレーション学習に基づく医用画像解析の性能向上

Improving Performance of Federated Learning based Medical Image Analysis in Non-IID Settings using Image Augmentation ( http://arxiv.org/abs/2112.06194v2 )

ライセンス: Link先を確認
Alper Emin Cetinkaya and Murat Akin and Seref Sagiroglu(参考訳) フェデレートラーニング(FL)は、厳格なプライバシー制約の下で働く義務のある患者、人々、企業、または業界に属する機密データを利用するのに適したソリューションである。 flはデータプライバシとセキュリティの問題を主にあるいは部分的にサポートし、複数のエッジデバイスや組織が、複数のローカルデータを使用するグローバルモデルのトレーニングに寄与することを促進させる、モデルの代替手段を提供する。 FLの分散特性による非IIDデータから,性能劣化と安定化スキューが顕著である。 本稿では,FLの非IIDデータ問題に対処するため,画像の増大によりクライアントのデータ分散を動的にバランスさせる手法を提案する。 紹介された方法は、モデルトレーニングを著しく安定化させ、高非IIDFL設定の胸部X線画像の検出において、83.22%から89.43%の精度でモデルのテスト精度を向上させる。 IID, 非IID, 非IID と提案した方法フェデレーショントレーニングの結果, 提案手法は, 医療だけでなく, データのプライバシだけでなく, データのプライバシについても, よりよいシステムを開発する組織や研究者を奨励する上で有効であることが示された。

Federated Learning (FL) is a suitable solution for making use of sensitive data belonging to patients, people, companies, or industries that are obligatory to work under rigid privacy constraints. FL mainly or partially supports data privacy and security issues and provides an alternative to model problems facilitating multiple edge devices or organizations to contribute a training of a global model using a number of local data without having them. Non-IID data of FL caused from its distributed nature presents a significant performance degradation and stabilization skews. This paper introduces a novel method dynamically balancing the data distributions of clients by augmenting images to address the non-IID data problem of FL. The introduced method remarkably stabilizes the model training and improves the model's test accuracy from 83.22% to 89.43% for multi-chest diseases detection of chest X-ray images in highly non-IID FL setting. The results of IID, non-IID and non-IID with proposed method federated trainings demonstrated that the proposed method might help to encourage organizations or researchers in developing better systems to get values from data with respect to data privacy not only for healthcare but also other fields.
翻訳日:2021-12-15 12:38:11 公開日:2021-12-14
# ネイティブ中国語読み上げ:ネイティブレベルの中国語機械読み理解のためのデータセット

Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine Reading Comprehension ( http://arxiv.org/abs/2112.06494v2 )

ライセンス: Link先を確認
Shusheng Xu, Yichen Liu, Xiaoyu Yi, Siyuan Zhou, Huizi Li and Yi Wu(参考訳) 我々は、現代中国語と古典中国語の両方で特に長い記事を持つ新しい機械読解データセットであるNative Chinese Reader (NCR)を提示する。 NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。 既存の中国のmrcデータセットはドメイン固有か、あるいは現代中国語のみの数百文字の短い文脈に焦点を当てている。 対照的に、NCRには8390通の文書があり、平均長は1024字で、漢文・古典・古典など多岐にわたる書体を網羅している。 これらの文書に関する合計20477の質問もまた、正しい答えを見つけるために強い推論能力と常識を必要とする。 人気の中国語事前学習モデルを用いて複数のベースラインモデルを実装し,現在の手法の限界を検討するためにデータセットを用いてオンラインコンペティションを開始した。 最適なモデルは59%の精度を達成し、人間の評価では平均79%の精度を示し、これは現在のMSCモデルと中国のネイティブスピーカーとの顕著なパフォーマンス差を示している。 私たちはデータセットをhttps://sites.google .com/view/native- chinese-reader/でリリースします。

We present Native Chinese Reader (NCR), a new machine reading comprehension (MRC) dataset with particularly long articles in both modern and classical Chinese. NCR is collected from the exam questions for the Chinese course in China's high schools, which are designed to evaluate the language proficiency of native Chinese youth. Existing Chinese MRC datasets are either domain-specific or focusing on short contexts of a few hundreds of characters in modern Chinese only. By contrast, NCR contains 8390 documents with an average length of 1024 characters covering a wide range of Chinese writing styles, including modern articles, classical literature and classical poetry. A total of 20477 questions on these documents also require strong reasoning abilities and common sense to figure out the correct answers. We implemented multiple baseline models using popular Chinese pre-trained models and additionally launched an online competition using our dataset to examine the limit of current methods. The best model achieves 59% test accuracy while human evaluation shows an average accuracy of 79%, which indicates a significant performance gap between current MRC models and native Chinese speakers. We release the dataset at https://sites.google .com/view/native-chi nese-reader/.
翻訳日:2021-12-15 12:37:49 公開日:2021-12-14
# SVIP:動画における手順のシーケンス検証

SVIP: Sequence VerIfication for Procedures in Videos ( http://arxiv.org/abs/2112.06447v2 )

ライセンス: Link先を確認
Yicheng Qian, Weixin Luo, Dongze Lian, Xu Tang, Peilin Zhao, Shenghua Gao(参考訳) 本稿では,ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行する正のビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。 このような困難なタスクは、イベントレベルやフレームレベルのアノテーションを必要とする事前のアクション検出やセグメンテーションを必要とせずに、オープンセットに置かれる。 そこで我々は,ステッププロデュース・タスク構造を持つ2つの公開アクション関連データセットを慎重に再構成した。 化学実験において,すべてのステップレベルの変換を列挙したスクリプト付きビデオデータセットを収集し,その有効性について検討した。 また、評価中の異なるステップレベル変換の等価性を保証するために、新しい評価基準重み付き距離比を導入する。 最後に、新しいシーケンスアライメント損失を有するトランスをベースとした単純だが効果的なベースラインを導入し、ステップ間の長期依存性をより正確に評価し、他のアクション認識手法よりも優れている。 コードとデータはリリースされる。

In this paper, we propose a novel sequence verification task that aims to distinguish positive video pairs performing the same action sequence from negative ones with step-level transformations but still conducting the same task. Such a challenging task resides in an open-set setting without prior action detection or segmentation that requires event-level or even frame-level annotations. To that end, we carefully reorganize two publicly available action-related datasets with step-procedure-task structure. To fully investigate the effectiveness of any method, we collect a scripted video dataset enumerating all kinds of step-level transformations in chemical experiments. Besides, a novel evaluation metric Weighted Distance Ratio is introduced to ensure equivalence for different step-level transformations during evaluation. In the end, a simple but effective baseline based on the transformer with a novel sequence alignment loss is introduced to better characterize long-term dependency between steps, which outperforms other action recognition methods. Codes and data will be released.
翻訳日:2021-12-15 12:37:28 公開日:2021-12-14
# spheresr: 360{\deg} 連続球面画像表現による任意の投影による超解像

SphereSR: 360{\deg} Image Super-Resolution with Arbitrary Projection via Continuous Spherical Image Representation ( http://arxiv.org/abs/2112.06536v2 )

ライセンス: Link先を確認
Youngho Yoon, Inchul Chung, Lin Wang, and Kuk-Jin Yoon(参考訳) 360{\deg}イメージングは近年注目されているが、その角分解能は、同じセンサーサイズで魚眼レンズを用いて捉えた狭い視野(FOV)画像よりも比較的低い。 したがって、360{\deg}像を超解くことは有益である。 幾らかの試みがなされているが、主に等方射影(ERP)は緯度に依存した歪みにもかかわらず、360{\deg}像表現の方法の1つであると考えられている。 この場合、出力高分解能(HR)画像は、常に低分解能(LR)入力と同じERPフォーマットであるため、HR画像を他の投影型に変換する際に別の情報損失が発生する可能性がある。 本稿では,lr 360{\deg}画像から連続的な球面画像表現を生成するための新しいフレームワークであるspheresrを提案する。 具体的には,まず,イコサヘドロンに基づく球面データを表現し,球面上の特徴を効率的に抽出する特徴抽出モジュールを提案する。 次に球面座標におけるrgb値を予測する球面局所暗黙画像関数(sliif)を提案する。 これにより、SphereSRは任意の投影型の下でHR画像を柔軟に再構成する。 各種ベンチマークデータセットの実験により,本手法が既存手法を大幅に上回っていることが示された。

The 360{\deg}imaging has recently gained great attention; however, its angular resolution is relatively lower than that of a narrow field-of-view (FOV) perspective image as it is captured by using fisheye lenses with the same sensor size. Therefore, it is beneficial to super-resolve a 360{\deg}image. Some attempts have been made but mostly considered the equirectangular projection (ERP) as one of the way for 360{\deg}image representation despite of latitude-dependent distortions. In that case, as the output high-resolution(HR) image is always in the same ERP format as the low-resolution (LR) input, another information loss may occur when transforming the HR image to other projection types. In this paper, we propose SphereSR, a novel framework to generate a continuous spherical image representation from an LR 360{\deg}image, aiming at predicting the RGB values at given spherical coordinates for super-resolution with an arbitrary 360{\deg}image projection. Specifically, we first propose a feature extraction module that represents the spherical data based on icosahedron and efficiently extracts features on the spherical surface. We then propose a spherical local implicit image function (SLIIF) to predict RGB values at the spherical coordinates. As such, SphereSR flexibly reconstructs an HR image under an arbitrary projection type. Experiments on various benchmark datasets show that our method significantly surpasses existing methods.
翻訳日:2021-12-15 12:37:11 公開日:2021-12-14
# 自己注意は$O(n^2)$メモリを必要としない

Self-attention Does Not Need $O(n^2)$ Memory ( http://arxiv.org/abs/2112.05682v2 )

ライセンス: Link先を確認
Markus N. Rabe and Charles Staats(参考訳) 我々は、配列長に関して$O(1)$メモリを必要とする非常に単純なアルゴリズムと、$O(\log n)$メモリを必要とする自己注意の拡張を提案する。 これは、自己アテンションが$o(n^2)$メモリを必要とするというしばしば述べられている信念とは対照的である。 時間複雑性は依然として$O(n^2)$であるが、現代のアクセラレータでは計算能力よりもデバイスメモリが制限要因となることが多い。 したがって、注意のメモリ要件の削減は、他の方法よりも長いシーケンスの処理を可能にする。 我々は、$o(\sqrt{n})$メモリを必要とし、数値的に安定であり、標準的注意実装のランタイム数パーセント以内のアクセラレーターの実用的な実装を提供する。 また、メモリ効率を保ちながら関数を区別する方法も示す。 シーケンス長16384では、自己アテンションのメモリオーバーヘッドを推論の59倍、微分の32倍に削減する。

We present a very simple algorithm for attention that requires $O(1)$ memory with respect to sequence length and an extension to self-attention that requires $O(\log n)$ memory. This is in contrast with the frequently stated belief that self-attention requires $O(n^2)$ memory. While the time complexity is still $O(n^2)$, device memory rather than compute capability is often the limiting factor on modern accelerators. Thus, reducing the memory requirements of attention allows processing of longer sequences than might otherwise be feasible. We provide a practical implementation for accelerators that requires $O(\sqrt{n})$ memory, is numerically stable, and is within a few percent of the runtime of the standard implementation of attention. We also demonstrate how to differentiate the function while remaining memory-efficient. For sequence length 16384, the memory overhead of self-attention is reduced by 59X for inference and by 32X for differentiation.
翻訳日:2021-12-15 12:36:49 公開日:2021-12-14
# 冠動脈造影の2つの新しい狭窄検出法

Two New Stenosis Detection Methods of Coronary Angiograms ( http://arxiv.org/abs/2112.06149v2 )

ライセンス: Link先を確認
Yaofang Liu, Xinyue Zhang, Wenlong Wan, Shaoyu Liu, Yingdi Liu, Hu Liu, Xueying Zeng, Qing Zhang(参考訳) 冠動脈造影は、冠動脈疾患(CAD)の診断における「ゴールドスタンダード」である。 現在, 冠動脈狭窄の検出・評価の方法は臨床ニーズを満たすことができない。例えば, 臨床において必要となる, 術前血管セグメントにおけるステノシス検出の事前研究は行われていない。 診断補助として血管狭窄検出法が2つ提案されている。 1つ目は、自動的に冠状動脈全枝を抽出し、可能なステントースを全てマークする自動方法である。 2つ目はインタラクティブな方法です。 この方法で、ユーザは任意の血管セグメントを選択して、そのステントのさらなる分析を行うことができる。 実験により, 種々の血管構造を持つ血管造影において, 提案手法は堅牢であることがわかった。 自動狭窄検出法の精度、感度、F_1$スコアはそれぞれ0.821, 0.757, 0.788である。 さらに,本手法により狭窄検出の精度が向上し,定量的解析が現実に近いことが確認された。 提案手法と対話的手法は有効であり,臨床において相互補完が可能である。 第1の方法は予備スクリーニングに使用することができ、第2の方法はさらなる定量的解析に使用することができる。 提案法がcadの臨床診断に適していると考えられる。

Coronary angiography is the "gold standard" for diagnosing coronary artery disease (CAD). At present, the methods for detecting and evaluating coronary artery stenosis cannot satisfy the clinical needs, e.g., there is no prior study of detecting stenoses in prespecified vessel segments, which is necessary in clinical practice. Two vascular stenosis detection methods are proposed to assist the diagnosis. The first one is an automatic method, which can automatically extract the entire coronary artery tree and mark all the possible stenoses. The second one is an interactive method. With this method, the user can choose any vessel segment to do further analysis of its stenoses. Experiments show that the proposed methods are robust for angiograms with various vessel structures. The precision, sensitivity, and $F_1$ score of the automatic stenosis detection method are 0.821, 0.757, and 0.788, respectively. Further investigation proves that the interactive method can provide a more precise outcome of stenosis detection, and our quantitative analysis is closer to reality. The proposed automatic method and interactive method are effective and can complement each other in clinical practice. The first method can be used for preliminary screening, and the second method can be used for further quantitative analysis. We believe the proposed solution is more suitable for the clinical diagnosis of CAD.
翻訳日:2021-12-15 12:35:18 公開日:2021-12-14