このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220215)

# アルゴリズムのアルゴリズム監査と法

Algorithmic audits of algorithms, and the law ( http://arxiv.org/abs/2203.03711v1 )

ライセンス: Link先を確認
Erwan Le Merrer and Ronan Pons and Gilles Tr\'edan(参考訳) アルゴリズムによる意思決定は、医療の割り当てからレコメンデーションや情報ランキングといったより一般的なアクションまで、広く行われている。 これらのアルゴリズムを監査する目的も大きくなっている。 本稿では,対象アルゴリズムのユーザ側と対話することにより実施される,ブラックボックスとみなされる外部監査に着目した。 しかし、これらの監査が行われる法的枠組みは、研究者にとってほとんど曖昧であり、一方、監査結果の法的価値は不明確であり、一方、監査人の権利と義務は不明確である。 本論文の貢献は,2つの標準監査形式を法に具体化し,これらの側面に光を当てることである。 1) 第1の監査形式(ボビー監査形式)はアルゴリズムに対する述語をチェックし、第2の監査形式(シャーロック)はよりゆるく、複数の調査に開放される。 Bobby監査は、訴追には適しているが、実際のユーザデータを操作するほど繊細である。 これは裁判所によって拒絶される可能性がある(許可の欠如)。 Sherlockは、そのオペレーションのためのクラフトデータを監査し、特に、監査されたアルゴリズムのサロゲートを構築する。 口笛を吹く行為に主に用いられるが、たとえ証明として受け入れられても、その明らかな価値は実際は低い。 2 この二の形式は、監査権の事前の尊重、法律による、又は監査対象のプラットフォームによる認可、その他監査の成果にかかわらず、監査人もまた訴追されるおそれがある。 本稿では,アルゴリズム監査の進展する分野を構築するために,現在の監査と法との関係について述べる。

Algorithmic decision making is now widespread, ranging from health care allocation to more common actions such as recommendation or information ranking. The aim to audit these algorithms has grown alongside. In this paper, we focus on external audits that are conducted by interacting with the user side of the target algorithm, hence considered as a black box. Yet, the legal framework in which these audits take place is mostly ambiguous to researchers developing them: on the one hand, the legal value of the audit outcome is uncertain; on the other hand the auditors' rights and obligations are unclear. The contribution of this paper is to articulate two canonical audit forms to law, to shed light on these aspects: 1) the first audit form (we coin the Bobby audit form) checks a predicate against the algorithm, while the second (Sherlock) is more loose and opens up to multiple investigations. We find that: Bobby audits are more amenable to prosecution, yet are delicate as operating on real user data. This can lead to reject by a court (notion of admissibility). Sherlock audits craft data for their operation, most notably to build surrogates of the audited algorithm. It is mostly used for acts for whistleblowing, as even if accepted as a proof, the evidential value will be low in practice. 2) these two forms require the prior respect of a proper right to audit, granted by law or by the platform being audited; otherwise the auditor will be also prone to prosecutions regardless of the audit outcome. This article thus highlights the relation of current audits with law, in order to structure the growing field of algorithm auditing.
翻訳日:2022-03-13 14:02:10 公開日:2022-02-15
# 有害コメントハンター : 有害コメントの重症度

Toxic Comments Hunter : Score Severity of Toxic Comments ( http://arxiv.org/abs/2203.03548v1 )

ライセンス: Link先を確認
Zhichang Wang and Qipeng Zhu(参考訳) 有害なコメントの検出と識別は、文明的で調和のとれたインターネット環境の構築に寄与する。 本実験では,有害なコメントに関する各種データセットを収集した。 コメントデータの特徴から,異なる角度からデータクリーニングと特徴抽出操作を行い,異なる有毒なコメント学習セットを得る。 モデル構築に関しては,TFIDFに基づくモデルをトレーニングするためにトレーニングセットを使用し,Bertモデルを別々に微調整した。 最後に、コードをソフトウェアにカプセル化して、有毒なコメントをリアルタイムで収集する。

The detection and identification of toxic comments are conducive to creating a civilized and harmonious Internet environment. In this experiment, we collected various data sets related to toxic comments. Because of the characteristics of comment data, we perform data cleaning and feature extraction operations on it from different angles to obtain different toxic comment training sets. In terms of model construction, we used the training set to train the models based on TFIDF and finetuned the Bert model separately. Finally, we encapsulated the code into software to score toxic comments in real-time.
翻訳日:2022-03-13 13:48:48 公開日:2022-02-15
# (参考訳) CQELS 2.0: セマンティックストリーム融合のための統一フレームワークを目指して [全文訳有]

CQELS 2.0: Towards A Unified Framework for Semantic Stream Fusion ( http://arxiv.org/abs/2202.13958v1 )

ライセンス: CC BY 4.0
Anh Le-Tuan, Manh Nguyen-Duc, Chien-Quang Le, Trung-Kien Tran, Manfred Hauswirth, Thomas Eiter and Danh Le-Phuoc(参考訳) リンクストリームに対する連続クエリ評価の2番目のバージョンであるCQELS 2.0を紹介します。 CQELS 2.0は、セマンティックストリームの融合に向けたプラットフォームに依存しないフェデレーション実行フレームワークである。 本バージョンでは,深層ニューラルネットワーク(DNN)に基づくデータ融合パイプラインを,学習可能な確率次数を重みとして論理規則により特定可能な,ニューラルシンボリックストリーム推論コンポーネントを導入する。 プラットフォームに依存しないフレームワークとして、cqels 2.0は異なるハードウェアアーキテクチャ(組み込みデバイスからクラウドインフラストラクチャまで)のデバイスに実装できる。 さらに、ネットワーク内の異なるノード上のCQELSインスタンスがリソースを調整し、継続的なクエリをサブスクライブすることで、部分的なワークロードを仲間に委譲することで、処理パイプラインを分散させるアダプティブフェデレータも備えている。

We present CQELS 2.0, the second version of Continuous Query Evaluation over Linked Streams. CQELS 2.0 is a platform-agnostic federated execution framework towards semantic stream fusion. In this version, we introduce a novel neural-symbolic stream reasoning component that enables specifying deep neural network (DNN) based data fusion pipelines via logic rules with learnable probabilistic degrees as weights. As a platform-agnostic framework, CQELS 2.0 can be implemented for devices with different hardware architectures (from embedded devices to cloud infrastructures). Moreover, this version also includes an adaptive federator that allows CQELS instances on different nodes in a network to coordinate their resources to distribute processing pipelines by delegating partial workloads to their peers via subscribing continuous queries
翻訳日:2022-03-06 14:26:51 公開日:2022-02-15
# (参考訳) 深層強化学習に基づく自動車用エッジコンピューティングスケジューリング [全文訳有]

Deep Reinforcement Learning Based Multi-Access Edge Computing Schedule for Internet of Vehicle ( http://arxiv.org/abs/2202.08972v1 )

ライセンス: CC BY 4.0
Xiaoyu Dai, Kaoru Ota, Mianxiong Dong(参考訳) インテリジェントトランスポーテーションシステムが広く実装され、無人アリアル車両(uavs)がマルチアクセスエッジコンピューティング(mec)として機能する地上基地局を支援して、車両のインターネット(iovs)のためのより良い無線ネットワーク通信を提供するため、車線上のiovsの最大品質(qoe)を維持したより良い無線ネットワークサービスの提供を支援するuavs支援手法を提案する。 本稿では,各エージェントの局所観測と低分解能グローバルマップを入力として組み合わせ,各エージェントのポリシーを学ぶマルチエージェントグラフ畳み込み深層強化学習(m-agcdrl)アルゴリズムを提案する。 エージェントはグラフアテンションネットワークで情報を他の人と共有することができ、効果的な共同ポリシーとなる。 シミュレーションの結果,M-AGCDRL法によりIoTのQoEが向上し,優れた性能が得られることがわかった。

As intelligent transportation systems been implemented broadly and unmanned arial vehicles (UAVs) can assist terrestrial base stations acting as multi-access edge computing (MEC) to provide a better wireless network communication for Internet of Vehicles (IoVs), we propose a UAVs-assisted approach to help provide a better wireless network service retaining the maximum Quality of Experience(QoE) of the IoVs on the lane. In the paper, we present a Multi-Agent Graph Convolutional Deep Reinforcement Learning (M-AGCDRL) algorithm which combines local observations of each agent with a low-resolution global map as input to learn a policy for each agent. The agents can share their information with others in graph attention networks, resulting in an effective joint policy. Simulation results show that the M-AGCDRL method enables a better QoE of IoTs and achieves good performance.
翻訳日:2022-02-27 20:50:58 公開日:2022-02-15
# メタバースのための人工知能:調査

Artificial Intelligence for the Metaverse: A Survey ( http://arxiv.org/abs/2202.10336v1 )

ライセンス: Link先を確認
Thien Huynh-The and Quoc-Viet Pham and Xuan-Qui Pham and Thanh Thi Nguyen and Zhu Han and Dong-Seong Kim(参考訳) 1990年代から現在に至るまでのインターネットの大規模な成長とともに、サイバースペースにおけるより仮想的なインタラクションでユーザーが息を吐く様々な革新的な技術が生み出されている。 ソーシャルネットワークから仮想ゲームの世界まで、何千ものサービスやアプリケーションを持つ多くの仮想環境は没入的な経験とデジタルトランスフォーメーションを持って開発されてきたが、その多くはプラットフォームに統合される代わりに一貫性がない。 この文脈において、メタバース(metaverse)は、メタと宇宙を組み合わせた言葉であり、第5世代ネットワークやbeyond、仮想現実、人工知能(ai)など、多くの新興技術によって推進される共有仮想世界として導入された。 このような技術の中で、AIは没入的な体験を高め、仮想エージェントの人間のような知性を可能にするために、ビッグデータを処理することの重要性を示している。 本調査では,メタバースの基礎と発展におけるAIの役割を探求するために,有益な努力を行う。 まず、機械学習アルゴリズムやディープラーニングアーキテクチャを含むAIの予備と、メタバースにおけるその役割について紹介する。 次に, 自然言語処理, マシンビジョン, ブロックチェーン, ネットワーク, デジタルツイン, ニューラルインターフェースの6つの技術的側面に関するaiベースの手法の包括的調査を行い, メタバースの可能性について述べる。 その後、医療、製造業、スマートシティ、ゲームなどのAI支援アプリケーションが研究され、仮想世界に展開される。 最後に、この調査の重要な貢献を締めくくり、メタバースのためのAI研究の方向性を公開します。

Along with the massive growth of the Internet from the 1990s until now, various innovative technologies have been created to bring users breathtaking experiences with more virtual interactions in cyberspace. Many virtual environments with thousands of services and applications, from social networks to virtual gaming worlds, have been developed with immersive experience and digital transformation, but most are incoherent instead of being integrated into a platform. In this context, metaverse, a term formed by combining meta and universe, has been introduced as a shared virtual world that is fueled by many emerging technologies, such as fifth-generation networks and beyond, virtual reality, and artificial intelligence (AI). Among such technologies, AI has shown the great importance of processing big data to enhance immersive experience and enable human-like intelligence of virtual agents. In this survey, we make a beneficial effort to explore the role of AI in the foundation and development of the metaverse. We first deliver a preliminary of AI, including machine learning algorithms and deep learning architectures, and its role in the metaverse. We then convey a comprehensive investigation of AI-based methods concerning six technical aspects that have potentials for the metaverse: natural language processing, machine vision, blockchain, networking, digital twin, and neural interface, and being potential for the metaverse. Subsequently, several AI-aided applications, such as healthcare, manufacturing, smart cities, and gaming, are studied to be deployed in the virtual worlds. Finally, we conclude the key contribution of this survey and open some future research directions in AI for the metaverse.
翻訳日:2022-02-27 17:45:47 公開日:2022-02-15
# 平均場2人プレイゼロサムゲームにおける有理収束準静的ダイナミクス

Provably convergent quasistatic dynamics for mean-field two-player zero-sum games ( http://arxiv.org/abs/2202.10947v1 )

ライセンス: Link先を確認
Chao Ma, Lexing Ying(参考訳) 本論文では,平均場2プレーヤゼロサムゲームにおける混合ナッシュ平衡を求める問題について検討する。 この問題を解決するには、2つの確率分布を最適化する必要がある。 我々は、ある確率分布がワッセルシュタイン勾配の流れに従うような準静的ワッセルシュタイン勾配流れのダイナミクスを考察し、他方の確率分布は常に平衡状態にある。 この力学について理論的解析を行い、穏やかな条件下での混合ナッシュ平衡への収束を示す。 確率分布の連続的ダイナミクスに着想を得て、内外反復を伴う擬静的なランゲヴィン勾配降下法を導出し、GANの訓練混合を含む様々な問題に対する試験を行う。

In this paper, we study the problem of finding mixed Nash equilibrium for mean-field two-player zero-sum games. Solving this problem requires optimizing over two probability distributions. We consider a quasistatic Wasserstein gradient flow dynamics in which one probability distribution follows the Wasserstein gradient flow, while the other one is always at the equilibrium. Theoretical analysis are conducted on this dynamics, showing its convergence to the mixed Nash equilibrium under mild conditions. Inspired by the continuous dynamics of probability distributions, we derive a quasistatic Langevin gradient descent method with inner-outer iterations, and test the method on different problems, including training mixture of GANs.
翻訳日:2022-02-27 17:45:09 公開日:2022-02-15
# ディープバイナリハッシュと量子化による効率的なクロスモーダル検索

Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization ( http://arxiv.org/abs/2202.10232v1 )

ライセンス: Link先を確認
Yang Shi, Young-joo Chung(参考訳) クロスモーダル検索は、異なるコンテンツモダリティ間で類似の意味を持つデータを探すことを目的としている。 しかし、複数のモードでデータを処理する必要があるため、クロスモーダル検索には大量のストレージと検索時間が必要である。 既存の作業は、異なるモダリティ間の類似性を保ったバイナリハッシュコードのような、単一ソースのコンパクトな特徴の学習に重点を置いている。 本研究では,クロスモーダル検索のためのhq(deep hashing and quantization network)を提案する。 エンド・ツー・エンドのディープラーニングアーキテクチャにより,複数のモーダルで意味情報を保存するために,バイナリハッシュ符号と量子化符号を同時に学習する。 検索ステップでは、バイナリハッシュを使用して検索空間からアイテムのサブセットを検索し、量子化を使用して検索されたアイテムを再ランクする。 本研究では,この二段階検索手法が,精度を維持しつつ,より高速な検索結果をもたらすことを示す。 NUS-WIDE、MIR-Flickr、Amazonデータセットの実験結果は、HQが教師付きニューラルネットワークベースのコンパクトコーディングモデルと比較して7%以上の精度で向上していることを示している。

Cross-modal retrieval aims to search for data with similar semantic meanings across different content modalities. However, cross-modal retrieval requires huge amounts of storage and retrieval time since it needs to process data in multiple modalities. Existing works focused on learning single-source compact features such as binary hash codes that preserve similarities between different modalities. In this work, we propose a jointly learned deep hashing and quantization network (HQ) for cross-modal retrieval. We simultaneously learn binary hash codes and quantization codes to preserve semantic information in multiple modalities by an end-to-end deep learning architecture. At the retrieval step, binary hashing is used to retrieve a subset of items from the search space, then quantization is used to re-rank the retrieved items. We theoretically and empirically show that this two-stage retrieval approach provides faster retrieval results while preserving accuracy. Experimental results on the NUS-WIDE, MIR-Flickr, and Amazon datasets demonstrate that HQ achieves boosts of more than 7% in precision compared to supervised neural network-based compact coding models.
翻訳日:2022-02-27 17:44:25 公開日:2022-02-15
# 複雑ネットワークシステムのディジタル・ツイン指向モデリングとそのダイナミクスに向けて:包括的調査

Towards Digital Twin Oriented Modelling of Complex Networked Systems and Their Dynamics: A Comprehensive Survey ( http://arxiv.org/abs/2202.09363v1 )

ライセンス: Link先を確認
Jiaqi Wen, Bogdan Gabrys and Katarzyna Musial(参考訳) 本稿では、複雑なネットワークシステム(CNS)におけるエンティティとその相互作用が、現実に完全にマッチするデジタルツイン(DT)を作成するという彼らの究極の目標に近づく際に、様々な分野においてどのようにモデル化されるかについて、包括的な批判的概要を提供する。 本稿では,異なる視点から様々なモデリングパラダイムを概念的に比較し,それぞれの目標を達成する能力を評価する統一評価基準を作成する新しい枠組みを提案する。 提案する基準を用いて,現在の最先端のアプローチが理想化されたdtsからどの程度離れているか評価する。 また,様々な学際的手法を応用したcnsとdtの収束と統合に基づき,dt指向のcns構築の方向性と方法を特定し,提案する。

This paper aims to provide a comprehensive critical overview on how entities and their interactions in Complex Networked Systems (CNS) are modelled across disciplines as they approach their ultimate goal of creating a Digital Twin (DT) that perfectly matches the reality. We propose a new framework to conceptually compare diverse existing modelling paradigms from different perspectives and create unified assessment criteria to assess their respective capabilities of reaching such an ultimate goal. Using the proposed criteria, we also appraise how far the reviewed current state-of-the-art approaches are from the idealised DTs. We also identify and propose potential directions and ways of building a DT-orientated CNS based on the convergence and integration of CNS and DT utilising a variety of cross-disciplinary techniques.
翻訳日:2022-02-27 17:41:50 公開日:2022-02-15
# 重み付きプログラミング

Weighted Programming ( http://arxiv.org/abs/2202.07577v1 )

ライセンス: Link先を確認
Kevin Batz, Adrian Gallus, Benjamin Lucien Kaminski, Joost-Pieter Katoen, Tobias Winkler(参考訳) 数学モデルを特定するプログラミングパラダイムである重み付けプログラミングについて研究する。 具体的には、(1)非決定的分岐と(2)実行トレースの重み付けという2つの特徴を持つ通常の命令型プログラムと同様の重み付けプログラムについて述べる。 ウェイトは数であるだけでなく、アルファベット、多項式、形式的なパワー級数、または基数などの他の対象でもある。 重み付きプログラミングは(確率的プログラミングで行われているように)確率分布を超えた数学的モデルを定義するのに使うことができる。 重み付きプログラムで指定された数理モデルについて推論するために,最弱条件および最弱自由条件型計算系 \{a} la dijkstra を開発した。 ケーススタディをいくつか紹介する。 例えば、重み付けプログラミングを使ってスキーレンタル問題(最適化問題)をモデル化します。 我々は、最適化問題自体だけでなく、この問題を解決する最良の決定論的オンラインアルゴリズムを重み付けプログラムとしてモデル化する。 最も弱い前提条件の推論により、ソースコードレベルでオンラインアルゴリズムの競合比を決定することができる。

We study weighted programming, a programming paradigm for specifying mathematical models. More specifically, the weighted programs we investigate are like usual imperative programs with two additional features: (1) nondeterministic branching and (2) weighting execution traces. Weights can be numbers but also other objects like words from an alphabet, polynomials, formal power series, or cardinal numbers. We argue that weighted programming as a paradigm can be used to specify mathematical models beyond probability distributions (as is done in probabilistic programming). We develop weakest-precondition - and weakest-liberal-prec ondition-style calculi \`{a} la Dijkstra for reasoning about mathematical models specified by weighted programs. We present several case studies. For instance, we use weighted programming to model the ski rental problem - an optimization problem. We model not only the optimization problem itself, but also the best deterministic online algorithm for solving this problem as weighted programs. By means of weakest-precondition -style reasoning, we can determine the competitive ratio of the online algorithm on source code level.
翻訳日:2022-02-27 17:39:27 公開日:2022-02-15
# 原子の存在下でのプライベート量子量の推定

Private Quantiles Estimation in the Presence of Atoms ( http://arxiv.org/abs/2202.08969v1 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS Lyon), Cl\'ement Gastaud, Nicolas Grislain, Aur\'elien Garivier (CB), R\'emi Gribonval (CB)(参考訳) 現代のデータ分析において重要な構成要素であるデータセットの複数の量子量体(mq)の差分プライベートな推定に対処します。 本研究では,近年の非スムース型逆感度(is)機構をこの問題に適用し,その手法が現在のジョイントexpアルゴリズムと密接に関連していることを示す。 しかし、我々は(非平滑な)JointExpがピーク分布の場合に重要な性能の欠如に悩まされ、原子の存在に破滅的な影響を及ぼす可能性を実証した。 そのスムーズなバージョンは、ISのパフォーマンス保証を活用できるが、実装にはオープンな課題である。 この問題を解決するためのプロキシとして,Huristically Smoothed JointExp (HSJointExp) と呼ばれる単純かつ数値的に効率的な手法を提案する。

We address the differentially private estimation of multiple quantiles (MQ) of a dataset, a key building block in modern data analysis. We apply the recent non-smoothed Inverse Sensitivity (IS) mechanism to this specific problem and establish that the resulting method is closely related to the current state-of-the-art, the JointExp algorithm, sharing in particular the same computational complexity and a similar efficiency. However, we demonstrate both theoretically and empirically that (non-smoothed) JointExp suffers from an important lack of performance in the case of peaked distributions, with a potentially catastrophic impact in the presence of atoms. While its smoothed version would allow to leverage the performance guarantees of IS, it remains an open challenge to implement. As a proxy to fix the problem we propose a simple and numerically efficient method called Heuristically Smoothed JointExp (HSJointExp), which is endowed with performance guarantees for a broad class of distributions and achieves results that are orders of magnitude better on problematic datasets.
翻訳日:2022-02-27 17:02:11 公開日:2022-02-15
# 深層強化学習を用いた省エネルギーパーキング分析システム

Energy-Efficient Parking Analytics System using Deep Reinforcement Learning ( http://arxiv.org/abs/2202.08973v1 )

ライセンス: Link先を確認
Yoones Rezaei, Stephen Lee, Daniel Mosse(参考訳) ディープビジョン技術の進歩とスマートカメラのユビキタス化は、次世代のビデオアナリティクスを駆動する。 しかし、ビデオ分析アプリケーションは、ディープラーニング技術とカメラの両方が電力不足であるため、膨大なエネルギーを消費する。 本稿では,パーキング・ビデオ・アナリティクス・プラットフォームに注目し,システムの有用性を維持しつつ,省エネ化のためにカメラを動作させることを目的とした,深い強化学習に基づく技術であるrl-camsleepを提案する。 私たちの重要な洞察は、多くのビデオ分析アプリケーションが常に運用される必要はなく、必要なときにのみビデオ分析を活性化するポリシーを設計できるということです。 さらに、ハードウェアとソフトウェア効率の改善に重点を置いた既存の作業も補完しています。 提案手法は,市中を76の街路にまたがるパーキングデータセットで評価した。 本分析は,道路が様々な駐車パターンを持つことを示し,適応政策の重要性を強調した。 当社のアプローチでは, 平均エネルギー消費量を76.38%削減し, ビデオ解析における平均精度を98%以上達成できる適応的な政策を学習することができる。

Advances in deep vision techniques and ubiquity of smart cameras will drive the next generation of video analytics. However, video analytics applications consume vast amounts of energy as both deep learning techniques and cameras are power-hungry. In this paper, we focus on a parking video analytics platform and propose RL-CamSleep, a deep reinforcement learning-based technique, to actuate the cameras to reduce the energy footprint while retaining the system's utility. Our key insight is that many video-analytics applications do not always need to be operational, and we can design policies to activate video analytics only when necessary. Moreover, our work is complementary to existing work that focuses on improving hardware and software efficiency. We evaluate our approach on a city-scale parking dataset having 76 streets spread across the city. Our analysis demonstrates how streets have various parking patterns, highlighting the importance of an adaptive policy. Our approach can learn such an adaptive policy that can reduce the average energy consumption by 76.38% and achieve an average accuracy of more than 98% in performing video analytics.
翻訳日:2022-02-27 17:01:51 公開日:2022-02-15
# 機械学習における知識とデータの統合

Integration of knowledge and data in machine learning ( http://arxiv.org/abs/2202.10337v1 )

ライセンス: Link先を確認
Yuntian Chen, Dongxiao Zhang(参考訳) 科学研究の義務と目標は、世界を理解し、探求することと、経験と知識に基づいてそれを修正することである。 知識埋め込みと知識発見は、知識とデータを統合する2つの重要な方法である。 知識の埋め込みを通じて、知識とデータの障壁を破り、物理的な常識を持つ機械学習モデルを形成することができる。 一方、人間の世界に対する理解は常に限られており、知識発見は機械学習を利用して観察から新しい知識を抽出する。 知識発見は、研究者が物理学の性質をよりよく把握するのに役立つだけでなく、知識埋め込み研究を行うのにも役立つ。 知識生成と使用のクローズドループは、知識発見と組み合わさって形成され、モデルの堅牢性と正確性を改善し、未知の科学的原理を明らかにする。 本研究は,既存の文献を要約・分析するだけでなく,研究のギャップと今後の可能性も提案する。

Scientific research's duty and goal is to comprehend and explore the world, as well as to modify it based on experience and knowledge. Knowledge embedding and knowledge discovery are two significant methods of integrating knowledge and data. Through knowledge embedding, the barriers between knowledge and data can be broken, and machine learning models with physical common sense can be formed. Meanwhile, humans' understanding of the world is always limited, and knowledge discovery takes advantage of machine learning to extract new knowledge from observations. Not only may knowledge discovery help researchers better grasp the nature of physics, but it can also help them conduct knowledge embedding research. A closed loop of knowledge generation and usage are formed by combining knowledge embedding with knowledge discovery, which can improve the robustness and accuracy of the model and uncover unknown scientific principles. This study not only summarizes and analyzes the existing literature, but also proposes research gaps and future opportunities.
翻訳日:2022-02-27 17:00:39 公開日:2022-02-15
# (参考訳) CommerceMM: Omni Retrievalによる大規模マルチモーダル表現学習 [全文訳有]

CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni Retrieval ( http://arxiv.org/abs/2202.07247v1 )

ライセンス: CC0 1.0
Licheng Yu, Jun Chen, Animesh Sinha, Mengjiao MJ Wang, Hugo Chen, Tamara L. Berg, Ning Zhang(参考訳) 我々は,あるコンテンツ(画像,テキスト,画像+テキスト)に関連する商業トピックを多様かつきめ細かな理解を提供し,マルチモーダル分類,画像-テキスト検索,クエリ・ツー・プロダクト検索,画像-to-Product Retrievalなど,幅広いタスクに一般化する機能を備えたマルチモーダルモデルであるCommerceMMを紹介した。 我々は、事前訓練+微調整訓練体制を踏襲し、画像テキストペア上で5つの効果的な事前訓練課題を提示する。 テキスト対マルチモーダル,イメージ対マルチモーダル,マルチモーダル対マルチモーダルマッピングを用いた,より一般的かつ多様な商業データを取り込むため,新たな9つのクロスモーダル・クロスペア検索タスクであるomni-retrieval pre-trainingを提案する。 プレトレーニングは、合計14タスクに対して2つの前方/後方更新のみを効率よく行う。 広範囲な実験と分析が各タスクの有効性を示している。 トレーニング前のタスクをすべて組み合わせたモデルでは、微調整後の7つのコマース関連下流タスクにおける最先端のパフォーマンスを実現している。 さらに,異なる効率制約下で動的にモデルを調整するモダリティ確率化の新しい手法を提案する。

We introduce CommerceMM - a multimodal model capable of providing a diverse and granular understanding of commerce topics associated to the given piece of content (image, text, image+text), and having the capability to generalize to a wide range of tasks, including Multimodal Categorization, Image-Text Retrieval, Query-to-Product Retrieval, Image-to-Product Retrieval, etc. We follow the pre-training + fine-tuning training regime and present 5 effective pre-training tasks on image-text pairs. To embrace more common and diverse commerce data with text-to-multimodal, image-to-multimodal, and multimodal-to-multim odal mapping, we propose another 9 novel cross-modal and cross-pair retrieval tasks, called Omni-Retrieval pre-training. The pre-training is conducted in an efficient manner with only two forward/backward updates for the combined 14 tasks. Extensive experiments and analysis show the effectiveness of each task. When combining all pre-training tasks, our model achieves state-of-the-art performance on 7 commerce-related downstream tasks after fine-tuning. Additionally, we propose a novel approach of modality randomization to dynamically adjust our model under different efficiency constraints.
翻訳日:2022-02-20 14:40:28 公開日:2022-02-15
# (参考訳) フェデレーション学習の検証に向けて [全文訳有]

Towards Verifiable Federated Learning ( http://arxiv.org/abs/2202.08310v1 )

ライセンス: CC BY 4.0
Yanci Zhang and Han Yu(参考訳) Federated Learning(FL)は、強力なモデルを構築しながらユーザのプライバシを保存する、コラボレーション機械学習の新たなパラダイムである。 それにもかかわらず、自己関心のある団体によるオープンな参加の性質から、正当なFL参加者による潜在的な不行を防げる必要がある。 fl検証技術はこの問題に対する有望な解決策である。 FLネットワークの信頼性を効果的に向上し、参加者間の信頼構築を支援することが示されている。 検証可能なフェデレーション学習は、学界や業界からも大きな関心を集めている研究の新たな話題となっている。 現在、検証可能な連合学習の分野に関する総合的な調査は存在せず、これは学際的であり、研究者が参入するのは難しい。 本稿では、このギャップを検証FLに焦点を当てた作業の見直しにより埋める。 本稿では,集中型および分散型fl設定をカバーする検証可能flの新たな分類法を提案し,一般的に採用されている性能評価手法を要約し,汎用的な検証可能なflフレームワークに向けた有望な方向性について考察する。

Federated learning (FL) is an emerging paradigm of collaborative machine learning that preserves user privacy while building powerful models. Nevertheless, due to the nature of open participation by self-interested entities, it needs to guard against potential misbehaviours by legitimate FL participants. FL verification techniques are promising solutions for this problem. They have been shown to effectively enhance the reliability of FL networks and help build trust among participants. Verifiable federated learning has become an emerging topic of research that has attracted significant interest from the academia and the industry alike. Currently, there is no comprehensive survey on the field of verifiable federated learning, which is interdisciplinary in nature and can be challenging for researchers to enter into. In this paper, we bridge this gap by reviewing works focusing on verifiable FL. We propose a novel taxonomy for verifiable FL covering both centralised and decentralised FL settings, summarise the commonly adopted performance evaluation approaches, and discuss promising directions towards a versatile verifiable FL framework.
翻訳日:2022-02-19 07:31:53 公開日:2022-02-15
# 構造化テンソルモデルを用いた低ランク位相検索

Low-Rank Phase Retrieval with Structured Tensor Models ( http://arxiv.org/abs/2202.08260v1 )

ライセンス: Link先を確認
Soo Min Kwon, Xin Li, Anand D. Sarwate(参考訳) そこで本研究では,これらの信号の線形測定量から信号列(典型的には画像)を復元することを目的とした低ランク位相検索問題について検討する。 既存のソリューションでは、各画像をベクトル化し積み重ねることで構築された行列を復元する。 これらのアルゴリズムはこの行列を低ランクにモデル化し、低ランク特性を利用して正確な回復に必要なサンプルの複雑さを減少させる。 しかし、利用可能な測定値の数に制限がある場合、これらの低ランク行列モデルはしばしば失敗する。 本研究では、タッカー分解を用いて分解する行列ではなく、画像列をテンソルとしてモデル化するTSPR(Tucker-Structur ed Phase Retrieval)アルゴリズムを提案する。 この因子化は推定されるパラメータの数を減らし、アンダーサンプリング方式のより正確な再構築を可能にする。 興味深いことに、この構造はタッカーのランクが適切に選択された場合に、過度に決定された設定のパフォーマンスも向上している。 複数の異なる測定モデルによる実映像データセットに対するアプローチの有効性を示す。

We study the low-rank phase retrieval problem, where the objective is to recover a sequence of signals (typically images) given the magnitude of linear measurements of those signals. Existing solutions involve recovering a matrix constructed by vectorizing and stacking each image. These algorithms model this matrix to be low-rank and leverage the low-rank property to decrease the sample complexity required for accurate recovery. However, when the number of available measurements is more limited, these low-rank matrix models can often fail. We propose an algorithm called Tucker-Structured Phase Retrieval (TSPR) that models the sequence of images as a tensor rather than a matrix that we factorize using the Tucker decomposition. This factorization reduces the number of parameters that need to be estimated, allowing for a more accurate reconstruction in the under-sampled regime. Interestingly, we observe that this structure also has improved performance in the over-determined setting when the Tucker ranks are chosen appropriately. We demonstrate the effectiveness of our approach on real video datasets under several different measurement models.
翻訳日:2022-02-18 16:42:04 公開日:2022-02-15
# テキストに基づく行動モデルによるプランニング

Text-Based Action-Model Acquisition for Planning ( http://arxiv.org/abs/2202.08373v1 )

ライセンス: Link先を確認
Kebing Jin, Huaixun Chen, Hankz Hankui Zhuo(参考訳) プラントレースからアクションモデルを学習できるアプローチは存在するが、テキストによる観察からアクションモデルを学習する作業は存在せず、プラントレースと比較して、現実世界のアプリケーションからより広く、より簡単に収集できる。 本稿では,制約満足度と自然言語処理技術を統合し,自然言語テキストから行動モデルを学ぶための新しい手法を提案する。 具体的には、まず、テキストからプラントレースを抽出する新しい言語モデルを構築し、それから抽出したプラントレースに基づいてアクションモデルを生成するための制約セットを構築します。 その後、収束言語モデルとアクションモデルを達成するまで、言語モデルと制約を反復的に改善します。 当社のアプローチが効率的かつ効率的であることは,実証的に示しています。

Although there have been approaches that are capable of learning action models from plan traces, there is no work on learning action models from textual observations, which is pervasive and much easier to collect from real-world applications compared to plan traces. In this paper we propose a novel approach to learning action models from natural language texts by integrating Constraint Satisfaction and Natural Language Processing techniques. Specifically, we first build a novel language model to extract plan traces from texts, and then build a set of constraints to generate action models based on the extracted plan traces. After that, we iteratively improve the language model and constraints until we achieve the convergent language model and action models. We empirically exhibit that our approach is both effective and efficient.
翻訳日:2022-02-18 14:30:22 公開日:2022-02-15
# 注目のクォークは

The Quarks of Attention ( http://arxiv.org/abs/2202.08371v1 )

ライセンス: Link先を確認
Pierre Baldi and Roman Vershynin(参考訳) 自然と人工知能システムにおいて、注意は基本的な役割を果たす。 ディープラーニングでは、トランスフォーマーアーキテクチャなどの注意に基づくニューラルアーキテクチャが、自然言語処理などの問題に対処するために広く使われている。 本稿では,注意の基本構成要素とその計算特性について検討する。 ディープラーニングの標準モデルでは、ソース、ターゲット、計算メカニズムの観点から、すべての注意の基本的な構成要素を分類します。 本研究は,加算活性化注意,乗算出力注意(出力ゲーティング),乗算シナプス注意(シナプスゲーティング)の3つの重要なメカニズムを同定し研究する。 ゲーティングメカニズムは、標準モデルの乗法拡張に対応し、現在の注意に基づくすべてのディープラーニングアーキテクチャで使用される。 線形および多項式しきい値ゲートの場合,それらの機能特性を解析し,注意ブロックのキャパシティを推定する。 驚くべきことに、付加活性化注意は下界の証明において中心的な役割を果たす。 注意機構は、特定の基本回路の深さを減少させ、その全コストを発生させることなく二次活性化のパワーを利用する。

Attention plays a fundamental role in both natural and artificial intelligence systems. In deep learning, attention-based neural architectures, such as transformer architectures, are widely used to tackle problems in natural language processing and beyond. Here we investigate the fundamental building blocks of attention and their computational properties. Within the standard model of deep learning, we classify all possible fundamental building blocks of attention in terms of their source, target, and computational mechanism. We identify and study three most important mechanisms: additive activation attention, multiplicative output attention (output gating), and multiplicative synaptic attention (synaptic gating). The gating mechanisms correspond to multiplicative extensions of the standard model and are used across all current attention-based deep learning architectures. We study their functional properties and estimate the capacity of several attentional building blocks in the case of linear and polynomial threshold gates. Surprisingly, additive activation attention plays a central role in the proofs of the lower bounds. Attention mechanisms reduce the depth of certain basic circuits and leverage the power of quadratic activations without incurring their full cost.
翻訳日:2022-02-18 14:30:11 公開日:2022-02-15
# (参考訳) retinexに基づくアルゴリズムの展開と調整による低光度画像強調 [全文訳有]

Low-light Image Enhancement by Retinex Based Algorithm Unrolling and Adjustment ( http://arxiv.org/abs/2202.05972v2 )

ライセンス: CC BY 4.0
Xinyi Liu and Qi Xie and Qian Zhao and Hong Wang and Deyu Meng(参考訳) 近年の進歩により,低照度画像強調(LIE)問題にディープラーニング技術が広く応用されている。 その中でもレチネックス理論に基づくものは、主に分解調整パイプラインに従っており、物理的解釈と有望な性能のために重要な位置を占めてきた。 しかし、retinexベースのディープラーニングに関する現在の調査はまだ不十分であり、伝統的な方法から多くの有用な経験を無視している。 さらに、調整ステップは単純な画像処理技術で実行されるか、あるいは複雑なネットワークで実行されるが、どちらも実際は不満足である。 これらの問題に対処するために,我々はリー問題に対する新しいディープラーニングフレームワークを提案する。 提案手法は,アルゴリズムの展開に触発された分解ネットワークと,グローバル輝度と局所輝度感度の両方を考慮した調整ネットワークを含む。 アルゴリズムのアンロールにより、データから学んだ暗黙の事前と従来のメソッドから借りた明示的な事前の両方がネットワークに埋め込まれ、より良い分解が容易になる。 一方、グローバルとローカルの明るさを考慮すれば、シンプルで効果的なネットワークモジュールの設計を導くことができる。 また,手動のパラメータチューニングを避けるために,常に有望な性能を保証できる自己教師型微調整戦略を提案する。 代表的なリーデータセットを用いた実験により,既存の手法と比較して定量的および視覚的に提案手法の有効性が示された。

Motivated by their recent advances, deep learning techniques have been widely applied to low-light image enhancement (LIE) problem. Among which, Retinex theory based ones, mostly following a decomposition-adjust ment pipeline, have taken an important place due to its physical interpretation and promising performance. However, current investigations on Retinex based deep learning are still not sufficient, ignoring many useful experiences from traditional methods. Besides, the adjustment step is either performed with simple image processing techniques, or by complicated networks, both of which are unsatisfactory in practice. To address these issues, we propose a new deep learning framework for the LIE problem. The proposed framework contains a decomposition network inspired by algorithm unrolling, and adjustment networks considering both global brightness and local brightness sensitivity. By virtue of algorithm unrolling, both implicit priors learned from data and explicit priors borrowed from traditional methods can be embedded in the network, facilitate to better decomposition. Meanwhile, the consideration of global and local brightness can guide designing simple yet effective network modules for adjustment. Besides, to avoid manually parameter tuning, we also propose a self-supervised fine-tuning strategy, which can always guarantee a promising performance. Experiments on a series of typical LIE datasets demonstrated the effectiveness of the proposed method, both quantitatively and visually, as compared with existing methods.
翻訳日:2022-02-18 11:01:45 公開日:2022-02-15
# (参考訳) モデルミス特定による観察からのロバスト学習 [全文訳有]

Robust Learning from Observation with Model Misspecification ( http://arxiv.org/abs/2202.06003v2 )

ライセンス: CC BY 4.0
Luca Viano, Yu-Ting Huang, Parameswaran Kamalaruban, Craig Innes, Subramanian Ramamoorthy, Adrian Weller(参考訳) 模倣学習(il)は、報奨関数を特定する場合のロボットシステムの訓練方針のための一般的なパラダイムである。 しかし、ILアルゴリズムが成功したにも拘わらず、専門家によるデモンストレーションは、新しい模倣者ポリシーが学習される同じ領域から来なければならないというやや非現実的な要件を課している。 実践的な環境を考えると (i)実際の(デプロイ)環境からの状態のみのエキスパートデモンストレーションが学習者に与えられる。 (ii)模倣学習者の方針は、トランジッションダイナミクスが実環境と若干異なるシミュレーション(訓練)環境において訓練される。 (iii)学習者は、与えられたデモンストレーションのバッチを超えて、訓練段階で実環境にアクセスできない。 現在のil法、例えば生成的敵意学習とその状態のみの変種は、上記の設定の下では最適な専門家の行動を模倣できない。 本稿では,強固な強化学習(rl)文献からの洞察を活用し,近年の敵対的模倣手法に基づいて,微調整することなく実環境に効果的に移行可能なポリシを学習する強固なilアルゴリズムを提案する。 さらに,本手法は実環境におけるゼロショット転送性能と異なる試験条件下でのロバストな性能において,最先端のIL法よりも優れていることを示す。

Imitation learning (IL) is a popular paradigm for training policies in robotic systems when specifying the reward function is difficult. However, despite the success of IL algorithms, they impose the somewhat unrealistic requirement that the expert demonstrations must come from the same domain in which a new imitator policy is to be learned. We consider a practical setting, where (i) state-only expert demonstrations from the real (deployment) environment are given to the learner, (ii) the imitation learner policy is trained in a simulation (training) environment whose transition dynamics is slightly different from the real environment, and (iii) the learner does not have any access to the real environment during the training phase beyond the batch of demonstrations given. Most of the current IL methods, such as generative adversarial imitation learning and its state-only variants, fail to imitate the optimal expert behavior under the above setting. By leveraging insights from the Robust reinforcement learning (RL) literature and building on recent adversarial imitation approaches, we propose a robust IL algorithm to learn policies that can effectively transfer to the real environment without fine-tuning. Furthermore, we empirically demonstrate on continuous-control benchmarks that our method outperforms the state-of-the-art state-only IL method in terms of the zero-shot transfer performance in the real environment and robust performance under different testing conditions.
翻訳日:2022-02-18 09:36:43 公開日:2022-02-15
# (参考訳) 認知プロトコルのための組合せ文脈の拡張 [全文訳有]

An Extension Of Combinatorial Contextuality For Cognitive Protocols ( http://arxiv.org/abs/2202.08209v1 )

ライセンス: CC BY 4.0
Abdul Karim Obeid, Peter Bruza, Catarina Moreira, Axel Bruns, Daniel Angus(参考訳) 本稿では,因果的影響の中での文脈性決定を支援するための組合せ的アプローチを拡張する。 文脈性は、人間の記憶における概念(aerts et al., 2013)のような精神現象に関連するシステムにおける量子認知の研究の活発な分野である。 認知研究の分野では、ある現象が文脈的かどうかを判断する現代の課題は、障害の特定と管理であった(Dzhafarov et al., 2016)。 このような乱れがモデリングアプローチによって特定されるか、因果的影響を構成するか、あるいはノイズとして無視できないかは、因果的影響が存在する場合には文脈性が適切に決定できないためである(gleason, 1957]。 この課題に対処するために、まず、canonical9因果モデルの言語における組合せアプローチに必要な要素の形式化を提供する。 この形式化を通じて,外乱の測定と処理を支援する組合せアプローチを拡張し,ノイズと因果的影響を区別する手法を提供する。 その後、認知実験においてこれらの要素を表現できるプロトコルを開発する。 人間の認知は因果的影響に満ちているように思われるので、認知モデラーは、認知現象の文脈性を実践的に決定するために拡張組合せアプローチを適用することができる。

This article extends the combinatorial approach to support the determination of contextuality amidst causal influences. Contextuality is an active field of study in Quantum Cognition, in systems relating to mental phenomena, such as concepts in human memory [Aerts et al., 2013]. In the cognitive field of study, a contemporary challenge facing the determination of whether a phenomenon is contextual has been the identification and management of disturbances [Dzhafarov et al., 2016]. Whether or not said disturbances are identified through the modelling approach, constitute causal influences, or are disregardableas as noise is important, as contextuality cannot be adequately determined in the presence of causal influences [Gleason, 1957]. To address this challenge, we first provide a formalisation of necessary elements of the combinatorial approach within the language of canonical9 causal models. Through this formalisation, we extend the combinatorial approach to support a measurement and treatment of disturbance, and offer techniques to separately distinguish noise and causal influences. Thereafter, we develop a protocol through which these elements may be represented within a cognitive experiment. As human cognition seems rife with causal influences, cognitive modellers may apply the extended combinatorial approach to practically determine the contextuality of cognitive phenomena.
翻訳日:2022-02-18 06:30:08 公開日:2022-02-15
# (参考訳) KCalでのステップバック - ディープニューラルネットワークのためのマルチクラスカーネルベースの校正 [全文訳有]

Taking a Step Back with KCal: Multi-Class Kernel-Based Calibration for Deep Neural Networks ( http://arxiv.org/abs/2202.07679v1 )

ライセンス: CC BY 4.0
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) ディープニューラルネットワーク(DNN)分類器はしばしば過信され、誤校正されたクラス確率が生じる。 既存の校正法の多くは、校正出力を生成する理論的保証を欠いているか、プロセスの分類精度を下げている。 本稿では,kcalと呼ばれる新しいカーネルベースキャリブレーション手法を提案する。 他の校正手順とは異なり、KCalはDNNのロジットやソフトマックス出力を直接操作しない。 代わりにpenultimate-layer latent embeddedを使ってメトリック空間を教師ありの方法でトレーニングする。 事実上、KCalはニューラルネットワーク埋め込みの教師付き次元性低減に相当し、ホールドアウトキャリブレーションセットのカーネル密度推定を用いた予測を生成する。 我々はまずKCalを理論的に分析し、証明可能な漸近キャリブレーションの保証を享受していることを示す。 そこで,KCalが既存のキャリブレーション法よりも,分類精度と(信頼度およびクラスワイド)キャリブレーション誤差の両方で常に優れていることを確認した。

Deep neural network (DNN) classifiers are often overconfident, producing miscalibrated class probabilities. Most existing calibration methods either lack theoretical guarantees for producing calibrated outputs or reduce the classification accuracy in the process. This paper proposes a new Kernel-based calibration method called KCal. Unlike other calibration procedures, KCal does not operate directly on the logits or softmax outputs of the DNN. Instead, it uses the penultimate-layer latent embedding to train a metric space in a supervised manner. In effect, KCal amounts to a supervised dimensionality reduction of the neural network embedding, and generates a prediction using kernel density estimation on a holdout calibration set. We first analyze KCal theoretically, showing that it enjoys a provable asymptotic calibration guarantee. Then, through extensive experiments, we confirm that KCal consistently outperforms existing calibration methods in terms of both the classification accuracy and the (confidence and class-wise) calibration error.
翻訳日:2022-02-18 06:04:43 公開日:2022-02-15
# (参考訳) 接続および自律車両サイバーセキュリティのためのVANET上の悪意ある攻撃のシミュレーション:機械学習データセット [全文訳有]

Simulating Malicious Attacks on VANETs for Connected and Autonomous Vehicle Cybersecurity: A Machine Learning Dataset ( http://arxiv.org/abs/2202.07704v1 )

ライセンス: CC BY 4.0
Safras Iqbal, Peter Ball, Muhammad H Kamarudin, Andrew Bradley(参考訳) コネクテッド・アンド・オートマチック・ビークルズ(CAV)はVehicular Adhoc Networksに頼っており、安全運転を支援するために車両と道路インフラストラクチャー間の無線通信を行っている。 しかし、サイバーセキュリティ攻撃はVANETとCAVの安全な運用に脅威をもたらす。 本研究は,悪質な攻撃を受ける可能性のある典型的なコミュニケーションシナリオをモデル化するためのシミュレーションの利用を提案する。 Eclipse MOSAICシミュレーションフレームワークは、車両とインフラの間のメッセージングを含む2つの典型的な道路シナリオをモデル化するために使用される。 このモデルはこれらの攻撃の影響を実証し、機械学習アルゴリズムの開発を知らせるオープンデータセットを提供し、道路上の安全な通信と安全なCAVの配置を確保するための異常検出と緩和ソリューションを提供する。

Connected and Autonomous Vehicles (CAVs) rely on Vehicular Adhoc Networks with wireless communication between vehicles and roadside infrastructure to support safe operation. However, cybersecurity attacks pose a threat to VANETs and the safe operation of CAVs. This study proposes the use of simulation for modelling typical communication scenarios which may be subject to malicious attacks. The Eclipse MOSAIC simulation framework is used to model two typical road scenarios, including messaging between the vehicles and infrastructure - and both replay and bogus information cybersecurity attacks are introduced. The model demonstrates the impact of these attacks, and provides an open dataset to inform the development of machine learning algorithms to provide anomaly detection and mitigation solutions for enhancing secure communications and safe deployment of CAVs on the road.
翻訳日:2022-02-18 05:12:09 公開日:2022-02-15
# (参考訳) 嘘をつくな! 検証摂動解析によるロバストかつ効率的な説明可能性 [全文訳有]

Don't Lie to Me! Robust and Efficient Explainability with Verified Perturbation Analysis ( http://arxiv.org/abs/2202.07728v1 )

ライセンス: CC BY 4.0
Thomas Fel, Melanie Ducoffe, David Vigouroux, Remi Cadene, Mikael Capelle, Claire Nicodeme, Thomas Serre(参考訳) ディープニューラルネットワークの意思決定方法を説明するために、さまざまな方法が提案されている。 これらのアプローチの鍵は、ピクセル空間を効率的にサンプリングして重要度マップを導出する必要があることである。 しかし,従来のサンプリング手法ではバイアスやその他のアーティファクトを導入し,個々の画素の重要性を不正確な評価を行い,現在の説明可能性手法の信頼性を著しく制限することが示されている。 残念ながら、画像空間を徹底的にサンプリングする代替手段は、計算的に禁止されている。本稿では、摂動空間を徹底的に探索することを保証する最初の説明可能性法であるEVA(Verified perturbation Analysis)を紹介する。 具体的には、検証された摂動解析(時間効率、トラクタビリティ、多様体の完全なカバレッジを保証する)の利点を活用して、モデル決定を駆動する可能性が高い入力変数を効率的に特徴づける。 提案手法を系統的に評価し,複数のベンチマークで最新の結果を示す。

A variety of methods have been proposed to try to explain how deep neural networks make their decisions. Key to those approaches is the need to sample the pixel space efficiently in order to derive importance maps. However, it has been shown that the sampling methods used to date introduce biases and other artifacts, leading to inaccurate estimates of the importance of individual pixels and severely limit the reliability of current explainability methods. Unfortunately, the alternative -- to exhaustively sample the image space is computationally prohibitive. In this paper, we introduce EVA (Explaining using Verified perturbation Analysis) -- the first explainability method guarantee to have an exhaustive exploration of a perturbation space. Specifically, we leverage the beneficial properties of verified perturbation analysis -- time efficiency, tractability and guaranteed complete coverage of a manifold -- to efficiently characterize the input variables that are most likely to drive the model decision. We evaluate the approach systematically and demonstrate state-of-the-art results on multiple benchmarks.
翻訳日:2022-02-18 05:03:53 公開日:2022-02-15
# (参考訳) 軽量マルチ目的非同期ハイパーパラメータオプティマイザ [全文訳有]

A Light-Weight Multi-Objective Asynchronous Hyper-Parameter Optimizer ( http://arxiv.org/abs/2202.07735v1 )

ライセンス: CC BY 4.0
Gabriel Maher, Stephen Boyd, Mykel Kochenderfer, Cristian Matache, Alex Ulitsky, Slava Yukhymuk, Leonid Kopman(参考訳) 本稿では,目標優先スカラー化器を用いて,複数の性能目標を組み合わせることで得られるスカラーコスト関数全体の最小化を図る,ハイパーパラメータ最適化のための軽量かつ高性能なシステムについて述べる。 トレードオフモードもサポートしており、ユーザと対話することで目標間の適切なトレードオフを見つけることが目標だ。 連続値の範囲や値の有限リストといったさまざまな属性を持ち、線形または対数スケールで扱うべきかどうかという、数十のハイパーパラメータの順序に共通するシナリオに注目した。 システムは複数の非同期シミュレーションをサポートし、ストラグラーや障害のシミュレーションにロバストである。

We describe a light-weight yet performant system for hyper-parameter optimization that approximately minimizes an overall scalar cost function that is obtained by combining multiple performance objectives using a target-priority-limi t scalarizer. It also supports a trade-off mode, where the goal is to find an appropriate trade-off among objectives by interacting with the user. We focus on the common scenario where there are on the order of tens of hyper-parameters, each with various attributes such as a range of continuous values, or a finite list of values, and whether it should be treated on a linear or logarithmic scale. The system supports multiple asynchronous simulations and is robust to simulation stragglers and failures.
翻訳日:2022-02-18 04:41:14 公開日:2022-02-15
# (参考訳) 雑音に敏感な多次元特徴学習のための正規化K-Means [全文訳有]

Normalized K-Means for Noise-Insensitive Multi-Dimensional Feature Learning ( http://arxiv.org/abs/2202.07754v1 )

ライセンス: CC BY 4.0
Nicholas Pellegrino, Paul Fieguth, Parsin Haji Reza(参考訳) 光音響顕微鏡などを通して物体の画素毎の撮像を行う多くの測定モダリティは、各画素に多次元的特徴(典型的には時間領域信号)を生成する。 原則として、時間領域信号における多くの自由度は、観測対象に関する単一のスカラー「明度」よりもはるかに多く、重要なマルチモーダル情報が暗黙的に存在する可能性を認める。 しかし、測定された信号は、基礎関数(主成分など)の重み付け和や、ここで提案する新しいクラスタリング手法の動機となった一連のプロトタイプ(k-means)の1つではなく、基盤である未知のターゲット特性と関連するセントロイド(信号形)をスケーラブルでノイズロバストな方法で学習することができる。

Many measurement modalities which perform imaging by probing an object pixel-by-pixel, such as via Photoacoustic Microscopy, produce a multi-dimensional feature (typically a time-domain signal) at each pixel. In principle, the many degrees of freedom in the time-domain signal would admit the possibility of significant multi-modal information being implicitly present, much more than a single scalar "brightness", regarding the underlying targets being observed. However, the measured signal is neither a weighted-sum of basis functions (such as principal components) nor one of a set of prototypes (K-means), which has motivated the novel clustering method proposed here, capable of learning centroids (signal shapes) that are related to the underlying, albeit unknown, target characteristics in a scalable and noise-robust manner.
翻訳日:2022-02-18 04:31:19 公開日:2022-02-15
# (参考訳) H&E染色組織像を用いたフルスペクトルオート蛍光顕微鏡画像の深層学習支援 [全文訳有]

Deep Learning-Assisted Co-registration of Full-Spectral Autofluorescence Lifetime Microscopic Images with H&E-Stained Histology Images ( http://arxiv.org/abs/2202.07755v1 )

ライセンス: CC BY 4.0
Qiang Wang, Susan Fernandes, Gareth O. S. Williams, Neil Finlayson, Ahsan R. Akram, Kevin Dhaliwal, James R. Hopgood, Marta Vallejo(参考訳) 自己蛍光寿命画像は生体試料中の内在性蛍光の特徴を示す。 包括的理解と臨床診断は, 両画像の相違により極めて困難である金標準, 組織像との共存に依存している。 ここでは, 従来の最適化回帰ネットワークを用いて, 異なる発光波長の自己蛍光寿命画像に適用し, 共同登録の成功を著しく向上させる, 教師なし画像変換ネットワークを示す。 経験者による予備的なブラインド比較は,共同登録における手法の優位性を示している。 また, この手法は蛍光強度画像など, 様々な画像形式に適用可能であることを示す。 この登録により、ステッチの結果は、未維持組織全体のスペクトル寿命の異なる違いを示し、肺がんのマクロレベルの迅速な視覚的識別と、細胞変異体および一般的なタイプの細胞レベルでのキャラクタリゼーションを可能にする。 このアプローチは、この範囲を超えるライフタイムイメージや他の染色技術に、力ずくで拡張することができる。

Autofluorescence lifetime images reveal unique characteristics of endogenous fluorescence in biological samples. Comprehensive understanding and clinical diagnosis rely on co-registration with the gold standard, histology images, which is extremely challenging due to the difference of both images. Here, we show an unsupervised image-to-image translation network that significantly improves the success of the co-registration using a conventional optimisation-based regression network, applicable to autofluorescence lifetime images at different emission wavelengths. A preliminary blind comparison by experienced researchers shows the superiority of our method on co-registration. The results also indicate that the approach is applicable to various image formats, like fluorescence intensity images. With the registration, stitching outcomes illustrate the distinct differences of the spectral lifetime across an unstained tissue, enabling macro-level rapid visual identification of lung cancer and cellular-level characterisation of cell variants and common types. The approach could be effortlessly extended to lifetime images beyond this range and other staining technologies.
翻訳日:2022-02-18 04:19:49 公開日:2022-02-15
# (参考訳) 説明可能な予測プロセスモニタリング:ユーザ評価

Explainable Predictive Process Monitoring: A User Evaluation ( http://arxiv.org/abs/2202.07760v1 )

ライセンス: CC BY 4.0
Williams Rizzi, Marco Comuzzi, Chiara Di Francescomarino, Chiara Ghidini, Suhwan Lee, Fabrizio Maria Maggi, Alexander Nolte(参考訳) 説明可能性の動機は、ブラックボックス機械学習アプローチの透明性の欠如にある。 これは予測プロセス監視の分野でも起こり、機械学習技術を適用した予測は、信頼と受け入れを得るためにユーザーに説明する必要がある。 本研究では,予測プロセスモニタリングのための説明手法のユーザ評価を行い,その説明方法と方法について検討する。 (i)は理解できる。 (ii) 意思決定作業において有用である。 (iii) 異なる機械学習の専門知識レベルを持つプロセスアナリストにとって、さらに改善できる。 ユーザ評価の結果は、説明プロットは、ビジネスプロセス管理のユーザのための意思決定タスク -- マシンラーニングの経験と経験のない -- に対して、全体的な理解と有用であるが、異なるプロットの理解と使用、さらには異なる機械学習の専門知識を持つユーザによる理解と使用方法に相違が存在することを示している。

Explainability is motivated by the lack of transparency of black-box Machine Learning approaches, which do not foster trust and acceptance of Machine Learning algorithms. This also happens in the Predictive Process Monitoring field, where predictions, obtained by applying Machine Learning techniques, need to be explained to users, so as to gain their trust and acceptance. In this work, we carry on a user evaluation on explanation approaches for Predictive Process Monitoring aiming at investigating whether and how the explanations provided (i) are understandable; (ii) are useful in decision making tasks;(iii) can be further improved for process analysts, with different Machine Learning expertise levels. The results of the user evaluation show that, although explanation plots are overall understandable and useful for decision making tasks for Business Process Management users -- with and without experience in Machine Learning -- differences exist in the comprehension and usage of different plots, as well as in the way users with different Machine Learning expertise understand and use them.
翻訳日:2022-02-18 04:00:29 公開日:2022-02-15
# (参考訳) 物理系逆問題における後進推論に対する条件付きganの有効性と一般化可能性 [全文訳有]

The efficacy and generalizability of conditional GANs for posterior inference in physics-based inverse problems ( http://arxiv.org/abs/2202.07773v1 )

ライセンス: CC BY 4.0
Deep Ray, Harisankar Ramaswamy, Dhruv V. Patel, Assad A. Oberai(参考訳) 本研究では,条件付きwasserstein生成逆ネットワークをトレーニングし,物理ベースのベイズ推論問題の後方から効果的にサンプルする。 ジェネレータは、条件付きインスタンス正規化を用いて潜時情報を注入するU-Netアーキテクチャを用いて構築される。 前者はマルチスケールの逆写像を促進し、後者は、測定の次元から潜在空間次元の分離を可能にし、U-Netのすべてのスケールで確率性を導入する。 我々はPDEに基づく逆問題を解き、推論された場の不確実性を定量化する手法の性能を示す。 さらに,本研究では,自然界において局所的な逆写像を学習できることを示す。

In this work, we train conditional Wasserstein generative adversarial networks to effectively sample from the posterior of physics-based Bayesian inference problems. The generator is constructed using a U-Net architecture, with the latent information injected using conditional instance normalization. The former facilitates a multiscale inverse map, while the latter enables the decoupling of the latent space dimension from the dimension of the measurement, and introduces stochasticity at all scales of the U-Net. We solve PDE-based inverse problems to demonstrate the performance of our approach in quantifying the uncertainty in the inferred field. Further, we show the generator can learn inverse maps which are local in nature, which in turn promotes generalizability when testing with out-of-distribution samples.
翻訳日:2022-02-18 03:59:30 公開日:2022-02-15
# (参考訳) 教師なしドメイン適応のための決定論的翻訳 [全文訳有]

Beyond Deterministic Translation for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2202.07778v1 )

ライセンス: CC BY 4.0
Eleni Chiou and Eleftheria Panagiotaki and Iasonas Kokkinos(参考訳) 本研究では、教師なしドメイン適応(UDA)において、ソースとターゲットドメイン間の1対1マッピング(「翻訳」)の共通アプローチに挑戦する。 代わりに、本質的な翻訳の曖昧さを捉えるために確率的翻訳に頼る。 これによって私たちは (i)同一のソース画像上で複数の出力を生成してより正確なターゲットネットワークを訓練し、正確な翻訳とデータ拡張を活用し、外観の変動性を高める。 二 単一の対象画像の複数翻訳版におけるソースネットワークの予測を平均化し、目標データに対する突発的頑健な擬似ラベル (iii)翻訳の確率性の程度を変調することにより、対象領域内の多様なネットワークを編成する。 近年の強いベースラインに対する改善を報告し、2つの挑戦的なセマンティックセグメンテーションベンチマークで最先端のUDA結果を得た。

In this work we challenge the common approach of using a one-to-one mapping ('translation') between the source and target domains in unsupervised domain adaptation (UDA). Instead, we rely on stochastic translation to capture inherent translation ambiguities. This allows us to (i) train more accurate target networks by generating multiple outputs conditioned on the same source image, leveraging both accurate translation and data augmentation for appearance variability, (ii) impute robust pseudo-labels for the target data by averaging the predictions of a source network on multiple translated versions of a single target image and (iii) train and ensemble diverse networks in the target domain by modulating the degree of stochasticity in the translations. We report improvements over strong recent baselines, leading to state-of-the-art UDA results on two challenging semantic segmentation benchmarks.
翻訳日:2022-02-18 03:39:06 公開日:2022-02-15
# (参考訳) 教師付き非パラメトリックアンサンブル法による高次元データのバイナリ分類 [全文訳有]

Binary Classification for High Dimensional Data using Supervised Non-Parametric Ensemble Method ( http://arxiv.org/abs/2202.07779v1 )

ライセンス: CC BY 4.0
Nandan Kanvinde, Abhishek Gupta, Raunak Joshi(参考訳) 診断に用いられる医学研究データは、ほとんどの場合、二項分類の問題を扱う。 内分泌疾患にはデータがあり、機械学習を使って利用することができる。 多嚢胞性卵巣症候群のデータセットは、女性の内分泌障害(endocrinological disorder)と呼ばれる。 非Parametric Supervised Ensemble 機械学習手法は、早期の障害の予測に使用できる。 本稿では,データの奥行き解析とともに,精度92%以上で最先端性能に匹敵する予測のためのブートストラップアグリゲーション教師付きアンサンブル非パラメトリック手法を提案する。

Medical Research data used for prognostication deals with binary classification problems in most of the cases. The endocrinological disorders have data available and it can be leveraged using Machine Learning. The dataset for Polycystic Ovary Syndrome is available, which is termed as an endocrinological disorder in women. Non-Parametric Supervised Ensemble machine learning methods can be used for prediction of the disorder in early stages. In this paper we present the Bootstrap Aggregation Supervised Ensemble Non-parametric method for prognostication that competes state-of-the-art performance with accuracy of over 92% along with in depth analysis of the data.
翻訳日:2022-02-18 03:25:29 公開日:2022-02-15
# (参考訳) 信頼できる異常検出:調査 [全文訳有]

Trustworthy Anomaly Detection: A Survey ( http://arxiv.org/abs/2202.07787v1 )

ライセンス: CC BY 4.0
Shuhan Yuan and Xintao Wu(参考訳) 異常検出には、銀行詐欺検出やサイバー侵入検出など、幅広い現実世界のアプリケーションがある。 過去10年間で、様々な異常検出モデルが開発され、様々な異常を正確に検出するための大きな進歩をもたらした。 成功にもかかわらず、異常検出モデルは依然として多くの制限に直面している。 最も重要なのは、モデルから検出結果を信頼できるかどうかです。 近年、研究コミュニティは信頼できる分類モデルの開発など、信頼できる機械学習モデルの設計に多大な努力を払ってきた。 しかし,異常検出タスクに対する注意は十分ではない。 多くの異常検出タスクが人間の人生を変えるタスクであることを考えると、誰かを異常や詐欺師と分類することは極めて慎重であるべきです。 したがって、信頼できる方法で行われる異常検出モデルを保証することは、実世界で自動決定を行うためにモデルをデプロイするための必須要件である。 本稿では,既存の取り組みを要約し,解釈可能性,公正性,堅牢性,プライバシー保護の観点から,信頼に値する異常検出に向けたオープンな課題を論じる。

Anomaly detection has a wide range of real-world applications, such as bank fraud detection and cyber intrusion detection. In the past decade, a variety of anomaly detection models have been developed, which lead to big progress towards accurately detecting various anomalies. Despite the successes, anomaly detection models still face many limitations. The most significant one is whether we can trust the detection results from the models. In recent years, the research community has spent a great effort to design trustworthy machine learning models, such as developing trustworthy classification models. However, the attention to anomaly detection tasks is far from sufficient. Considering that many anomaly detection tasks are life-changing tasks involving human beings, labeling someone as anomalies or fraudsters should be extremely cautious. Hence, ensuring the anomaly detection models conducted in a trustworthy fashion is an essential requirement to deploy the models to conduct automatic decisions in the real world. In this brief survey, we summarize the existing efforts and discuss open problems towards trustworthy anomaly detection from the perspectives of interpretability, fairness, robustness, and privacy-preservation .
翻訳日:2022-02-18 03:20:16 公開日:2022-02-15
# (参考訳) ロシアのSuperGLUE 1.1: ロシアのNLPモデルで学ばない教訓の改訂 [全文訳有]

Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP models ( http://arxiv.org/abs/2202.07791v1 )

ライセンス: CC BY 4.0
Alena Fenogenova, Maria Tikhonova, Vladislav Mikhailov, Tatiana Shavrina, Anton Emelyanov, Denis Shevelev, Alexandr Kukushkin, Valentin Malykh, Ekaterina Artemova(参考訳) 昨年、ロシア語で新しいニューラルアーキテクチャと多言語事前学習モデルがリリースされ、様々な言語理解タスクにおけるパフォーマンス評価の問題につながった。 本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。 新バージョンには、前バージョンで未解決のベンチマーク脆弱性の修正を含む、多くの技術的、ユーザエクスペリエンス、方法論的改善が含まれている。 単語の意味を理解するための新鮮で改善されたテスト、読み理解と常識推論(danetqa、rucos、muserc)。 更新データセットのリリースとともに、最新のロシア語モデルをサポートするさまざまなアーキテクチャのNLPモデルの一貫したトレーニングと評価のための、‘texttt{jiant} framework’に基づくベンチマークツールキットを改善した。 最後に,オープンソースモデルの産業評価のためのフレームワークであるモロッコ(モデル資源比較)とロシアのスーパーグルーを統合することで,すべてのタスクに対する重み付け平均メトリック,推論速度,ramの占有量に応じてモデルを評価する。 ロシアのSuperGLUEはhttps://russiansuper glue.com/で公開されている。

In the last year, new neural architectures and multilingual pre-trained models have been released for Russian, which led to performance evaluation problems across a range of language understanding tasks. This paper presents Russian SuperGLUE 1.1, an updated benchmark styled after GLUE for Russian NLP models. The new version includes a number of technical, user experience and methodological improvements, including fixes of the benchmark vulnerabilities unresolved in the previous version: novel and improved tests for understanding the meaning of a word in context (RUSSE) along with reading comprehension and common sense reasoning (DaNetQA, RuCoS, MuSeRC). Together with the release of the updated datasets, we improve the benchmark toolkit based on \texttt{jiant} framework for consistent training and evaluation of NLP-models of various architectures which now supports the most recent models for Russian. Finally, we provide the integration of Russian SuperGLUE with a framework for industrial evaluation of the open-source models, MOROCCO (MOdel ResOurCe COmparison), in which the models are evaluated according to the weighted average metric over all tasks, the inference speed, and the occupied amount of RAM. Russian SuperGLUE is publicly available at https://russiansuper glue.com/.
翻訳日:2022-02-18 03:05:28 公開日:2022-02-15
# DruGNNによる薬物副作用のマルチソース予測

Modular multi-source prediction of drug side-effects with DruGNN ( http://arxiv.org/abs/2202.08147v1 )

ライセンス: Link先を確認
Pietro Bongini, Franco Scarselli, Monica Bianchini, Giovanna Maria Dimitri, Niccol\`o Pancino, Pietro Li\`o(参考訳) 薬物副作用(dses)は、公衆衛生、医療システムコスト、薬物発見プロセスに大きな影響を与える。 副作用の発生の確率を予測することは、特に薬物発見において、この影響を減らすのに不可欠である。 候補分子は臨床試験の前にスクリーニングすることができ、参加者の時間、お金、健康のコストを削減できる。 薬物の副作用は、薬物構造からタンパク質とタンパク質の相互作用に至るまで、多くの異なる実体を含む複雑な生物学的過程によって引き起こされる。 発生を予測するには,異種源からのデータを統合する必要がある。 この論文では、このような異種データをグラフデータセットに統合し、薬物分子や遺伝子などの異なる実体間の関係情報を表現します。 データセットのリレーショナルな性質は、薬物副作用予測にとって重要なノベルティである。 グラフニューラルネットワーク(GNN)は、データセット上のDSEを非常に有望な結果で予測するために利用される。 GNNは、グラフ構造化データを最小限の情報損失で処理できるディープラーニングモデルであり、幅広い生物学的タスクに適用されている。 実験結果は,データエンティティ間の関係性を利用することの利点を確認し,この領域における今後の興味深い展開を示唆する。 この実験は、薬物と副作用の関連性を決定する上で、データの特定のサブセットの重要性も示している。

Drug Side-Effects (DSEs) have a high impact on public health, care system costs, and drug discovery processes. Predicting the probability of side-effects, before their occurrence, is fundamental to reduce this impact, in particular on drug discovery. Candidate molecules could be screened before undergoing clinical trials, reducing the costs in time, money, and health of the participants. Drug side-effects are triggered by complex biological processes involving many different entities, from drug structures to protein-protein interactions. To predict their occurrence, it is necessary to integrate data from heterogeneous sources. In this work, such heterogeneous data is integrated into a graph dataset, expressively representing the relational information between different entities, such as drug molecules and genes. The relational nature of the dataset represents an important novelty for drug side-effect predictors. Graph Neural Networks (GNNs) are exploited to predict DSEs on our dataset with very promising results. GNNs are deep learning models that can process graph-structured data, with minimal information loss, and have been applied on a wide variety of biological tasks. Our experimental results confirm the advantage of using relationships between data entities, suggesting interesting future developments in this scope. The experimentation also shows the importance of specific subsets of data in determining associations between drugs and side-effects.
翻訳日:2022-02-17 16:24:01 公開日:2022-02-15
# 人間-ロボットインタラクションのためのアクティブ不確実性学習 : 暗黙のデュアル制御アプローチ

Active Uncertainty Learning for Human-Robot Interaction: An Implicit Dual Control Approach ( http://arxiv.org/abs/2202.07720v1 )

ライセンス: Link先を確認
Haimin Hu, Jaime F. Fisac(参考訳) 予測モデルは、人間とロボットの相互作用の安全性と効率に影響を与える重要な部分である人間の動きの推論に有効である。 しかし、ロボットはしばしばそのようなモデルの特定の重要なパラメータ、例えば人間の目的、彼らの気晴らしのレベル、協力する意志などへのアクセスを欠いている。 双対制御理論は未知のパラメータを確率的隠れ状態として扱い、ロボットの制御中に収集された情報を用いてそれらの値を特定することでこの問題に対処している。 探索と搾取を最適かつ自動的にトレードオフすることができるにもかかわらず、双対制御は、主にネスト軌道最適化と人間の意図予測のために、一般の人道運動計画では計算的に難解である。 本稿では,暗黙の双対制御パラダイムに基づくループ内動作計画のためのアクティブ不確実性学習を実現するための新しいアルゴリズム的アプローチを提案する。 提案手法は,確率的動的プログラミングのサンプリングに基づく近似に依拠し,実時間勾配に基づく最適化手法で容易に解けるモデル予測制御問題を導出する。 結果として得られた方針は、連続的およびカテゴリー的不確実性を持つ一般的なヒト予測モデルに対する二重制御効果を保つことが示される。 本手法の有効性は, 模擬駆動例を用いて実証した。

Predictive models are effective in reasoning about human motion, a crucial part that affects safety and efficiency in human-robot interaction. However, robots often lack access to certain key parameters of such models, for example, human's objectives, their level of distraction, and willingness to cooperate. Dual control theory addresses this challenge by treating unknown parameters as stochastic hidden states and identifying their values using information gathered during control of the robot. Despite its ability to optimally and automatically trade off exploration and exploitation, dual control is computationally intractable for general human-in-the-loop motion planning, mainly due to nested trajectory optimization and human intent prediction. In this paper, we present a novel algorithmic approach to enable active uncertainty learning for human-in-the-loop motion planning based on the implicit dual control paradigm. Our approach relies on sampling-based approximation of stochastic dynamic programming, leading to a model predictive control problem that can be readily solved by real-time gradient-based optimization methods. The resulting policy is shown to preserve the dual control effect for generic human predictive models with both continuous and categorical uncertainty. The efficacy of our approach is demonstrated with simulated driving examples.
翻訳日:2022-02-17 16:17:04 公開日:2022-02-15
# 映像フレーム補間における主観的品質調査

A Subjective Quality Study for Video Frame Interpolation ( http://arxiv.org/abs/2202.07727v1 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang and David Bull(参考訳) ビデオフレーム補間(VFI)は,ビデオ処理における基礎研究の1つであり,新しい補間アルゴリズムや拡張補間アルゴリズムの研究が盛んである。 補間されたコンテンツの品質評価にも同じことが当てはまらない。 本稿では,新たに開発されたビデオデータベースBVI-VFIに基づくVFIの主観的品質調査について述べる。 BVI-VFIは、3つの異なるフレームレートで36の参照シーケンスと、5つの従来の学習ベースのVFIアルゴリズムを用いて生成された180の歪みビデオを含んでいる。 主観的評価スコアは60人の被験者から収集され、PSNR、SSIM、LPIPSを含む8つの一般的な品質指標の評価に使用される。 その結果、これらの指標は補間コンテンツの品質と許容できる相関性を持たず、最も優れた指標であるlpipsは0.6未満のsrocc値を示した。 以上の結果から,VFIの知覚品質測定基準の確立が急務であることが示唆された。 BVI-VFIデータセットは公開されており、https://danielism97. github.io/BVI-VFI/でアクセスできる。

Video frame interpolation (VFI) is one of the fundamental research areas in video processing and there has been extensive research on novel and enhanced interpolation algorithms. The same is not true for quality assessment of the interpolated content. In this paper, we describe a subjective quality study for VFI based on a newly developed video database, BVI-VFI. BVI-VFI contains 36 reference sequences at three different frame rates and 180 distorted videos generated using five conventional and learning based VFI algorithms. Subjective opinion scores have been collected from 60 human participants, and then employed to evaluate eight popular quality metrics, including PSNR, SSIM and LPIPS which are all commonly used for assessing VFI methods. The results indicate that none of these metrics provide acceptable correlation with the perceived quality on interpolated content, with the best-performing metric, LPIPS, offering a SROCC value below 0.6. Our findings show that there is an urgent need to develop a bespoke perceptual quality metric for VFI. The BVI-VFI dataset is publicly available and can be accessed at https://danielism97. github.io/BVI-VFI/.
翻訳日:2022-02-17 15:59:43 公開日:2022-02-15
# 粗い3次元CNNによる変形可能な畳み込みに基づくビデオフレーム補間

Enhancing Deformable Convolution based Video Frame Interpolation with Coarse-to-fine 3D CNN ( http://arxiv.org/abs/2202.07731v1 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang and David Bull(参考訳) 本稿では,粗く微細な3次元cnnを用いて,変形可能な畳み込み型ビデオフレーム補間(vfi)法を提案する。 このモデルはまず3次元CNNを用いて複数スケールの時空間的特徴を抽出し,これらの特徴を粗い方法で推定する。 次に、推定されたマルチフローを用いて、元の入力フレームとコンテキストマップをワープし、ワープした結果を合成ネットワークで融合して最終的な出力を生成する。 このVFIアプローチは、一般的に使用されている3つのテストデータベース上の12の最先端VFI手法に対して完全に評価されている。 その結果,PSNRは0.19dBまで向上し,他の手法よりも高い補間性能を実現する手法の有効性が明らかとなった。

This paper presents a new deformable convolution-based video frame interpolation (VFI) method, using a coarse to fine 3D CNN to enhance the multi-flow prediction. This model first extracts spatio-temporal features at multiple scales using a 3D CNN, and estimates multi-flows using these features in a coarse-to-fine manner. The estimated multi-flows are then used to warp the original input frames as well as context maps, and the warped results are fused by a synthesis network to produce the final output. This VFI approach has been fully evaluated against 12 state-of-the-art VFI methods on three commonly used test databases. The results evidently show the effectiveness of the proposed method, which offers superior interpolation performance over other state of the art algorithms, with PSNR gains up to 0.19dB.
翻訳日:2022-02-17 15:59:25 公開日:2022-02-15
# 自動抑うつ検出:感情音声テキストコーパスとGRU/BiLSTMモデル

Automatic Depression Detection: An Emotional Audio-Textual Corpus and a GRU/BiLSTM-based Model ( http://arxiv.org/abs/2202.08210v1 )

ライセンス: Link先を確認
Ying Shen, Huiyu Yang, Lin Lin(参考訳) うつ病は世界的なメンタルヘルスの問題であり、最悪の場合自殺につながる可能性がある。 自動うつ病検出システムは、うつ病自己診断を容易にし、診断精度を向上させるのに大いに役立つ。 本研究では,参加者のインタビューから音声の特徴と言語内容を利用した新しい抑うつ検出手法を提案する。 さらに,抑うつ者や非抑うつ者から音声や回答の書き起こしを抽出するEATD-Corpus(Emotiona l Audio-Textual Depression Corpus)を構築した。 私たちの知る限りでは、eatd-corpusは中国語で音声とテキストデータを含む最初の、唯一の公開うつ病データセットです。 提案手法は,2つのうつ病データセットで評価され,最新性能が得られた。 その結果,提案手法の有効性と一般化能力が示された。 ソースコードとEATD-Corpusはhttps://github.com/s peechandlangprocessi ng/ICASSP2022-Depres sionで入手できる。

Depression is a global mental health problem, the worst case of which can lead to suicide. An automatic depression detection system provides great help in facilitating depression self-assessment and improving diagnostic accuracy. In this work, we propose a novel depression detection approach utilizing speech characteristics and linguistic contents from participants' interviews. In addition, we establish an Emotional Audio-Textual Depression Corpus (EATD-Corpus) which contains audios and extracted transcripts of responses from depressed and non-depressed volunteers. To the best of our knowledge, EATD-Corpus is the first and only public depression dataset that contains audio and text data in Chinese. Evaluated on two depression datasets, the proposed method achieves the state-of-the-art performances. The outperforming results demonstrate the effectiveness and generalization ability of the proposed method. The source code and EATD-Corpus are available at https://github.com/s peechandlanguageproc essing/ICASSP2022-De pression.
翻訳日:2022-02-17 15:56:40 公開日:2022-02-15
# Imagining the Near Future による安全強化学習

Safe Reinforcement Learning by Imagining the Near Future ( http://arxiv.org/abs/2202.07789v1 )

ライセンス: Link先を確認
Garrett Thomas, Yuping Luo, Tengyu Ma(参考訳) 安全強化学習(safe reinforcement learning)は、現実世界の問題に強化学習アルゴリズムを適用するための有望な方法である。 本研究では、短時間の計画から将来へ向けて、安全でない状態を避けることが可能な設定に焦点をあてる。 この設定では、十分に正確なモデルを持つモデルベースのエージェントは、安全でない状態を避けることができる。 我々は、安全でない軌跡を深く罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。 実験により,複数の連続制御タスクにおいて,安全性違反の少ない競合報酬が得られることを示した。

Safe reinforcement learning is a promising path toward applying reinforcement learning algorithms to real-world problems, where suboptimal behaviors may lead to actual negative consequences. In this work, we focus on the setting where unsafe states can be avoided by planning ahead a short time into the future. In this setting, a model-based agent with a sufficiently accurate model can avoid unsafe states. We devise a model-based algorithm that heavily penalizes unsafe trajectories, and derive guarantees that our algorithm can avoid unsafe states under certain assumptions. Experiments demonstrate that our algorithm can achieve competitive rewards with fewer safety violations in several continuous control tasks.
翻訳日:2022-02-17 15:36:11 公開日:2022-02-15
# 不規則音声の非言語音検出

Nonverbal Sound Detection for Disordered Speech ( http://arxiv.org/abs/2202.07750v1 )

ライセンス: Link先を確認
Colin Lea, Zifang Huang, Dhruv Jain, Lauren Tooley, Zeinab Liaghat, Shrinath Thelapurath, Leah Findlater, Jeffrey P. Bigham(参考訳) 音声アシスタントは、タッチスクリーンのようなきめ細かいモーター制御を必要とせず、複雑な電話やタブレットベースのインタラクションを可能にするため、様々な障害を持つ人々にとって必須のツールになっている。 しかし、これらのシステムは、運動障害、難聴、難聴、重度の発声、最小の言語性など、言語障害を持つ個人の独特の特徴に合わせて調整されていない。 音声を用いた音声入力システムでは、「ポップ」や「クリック」や「eh」といった15の非言語音を用いた音声イベント検出が可能である。 このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。 本稿では,データセットの設計,実世界展開のためのモデル考慮,モデルパーソナライゼーションへの取り組みについて述べる。 完全教師付きモデルは,成人710名の内部データセット上でセグメントレベルの精度と88.6%,88.4%のリコールを達成し,音声などの攻撃者では1時間あたり0.31偽陽性となった。 5ショットパーソナライゼーションは、ジェネリックモデルに失敗した場合の84.5%で満足できるパフォーマンスを実現する。

Voice assistants have become an essential tool for people with various disabilities because they enable complex phone- or tablet-based interactions without the need for fine-grained motor control, such as with touchscreens. However, these systems are not tuned for the unique characteristics of individuals with speech disorders, including many of those who have a motor-speech disorder, are deaf or hard of hearing, have a severe stutter, or are minimally verbal. We introduce an alternative voice-based input system which relies on sound event detection using fifteen nonverbal mouth sounds like "pop," "click," or "eh." This system was designed to work regardless of ones' speech abilities and allows full access to existing technology. In this paper, we describe the design of a dataset, model considerations for real-world deployment, and efforts towards model personalization. Our fully-supervised model achieves segment-level precision and recall of 88.6% and 88.4% on an internal dataset of 710 adults, while achieving 0.31 false positives per hour on aggressors such as speech. Five-shot personalization enables satisfactory performance in 84.5% of cases where the generic model fails.
翻訳日:2022-02-17 15:32:28 公開日:2022-02-15
# ソーシャルメディア投稿における誤情報検出

Misinformation Detection in Social Media Video Posts ( http://arxiv.org/abs/2202.07706v1 )

ライセンス: Link先を確認
Kehan Wang, David Chan, Seth Z. Zhao, John Canny, Avideh Zakhor(参考訳) ソーシャルメディアプラットフォームによるショートフォームビデオの普及に伴い、ビデオ投稿による誤情報拡散がソーシャルメディアプロバイダーにとって重要な課題となっている。 本稿では,ソーシャルメディア投稿における誤情報検出手法を開発し,ビデオやテキストなどのモダリティを活用する。 マルチモーダルデータセットにおける誤情報検出のための大規模な公開データがないため、Twitterから16万の動画投稿を収集し、自己教師付き学習を活用して、共同視覚およびテキストデータの表現表現を学ぶ。 本研究では,コントラスト学習とマスキング言語モデルに基づき,ソーシャルメディア投稿中の意味的不一致を検出する2つの新しい手法を提案する。 提案手法は,正のサンプルをランダムにスワッピングして生成した人工データと,意味的誤情報を手作業でラベル付けした新しいテストセットの両方において,最先端の手法よりも優れていることを示す。

With the growing adoption of short-form video by social media platforms, reducing the spread of misinformation through video posts has become a critical challenge for social media providers. In this paper, we develop methods to detect misinformation in social media posts, exploiting modalities such as video and text. Due to the lack of large-scale public data for misinformation detection in multi-modal datasets, we collect 160,000 video posts from Twitter, and leverage self-supervised learning to learn expressive representations of joint visual and textual data. In this work, we propose two new methods for detecting semantic inconsistencies within short-form social media video posts, based on contrastive learning and masked language modeling. We demonstrate that our new approaches outperform current state-of-the-art methods on both artificial data generated by random-swapping of positive samples and in the wild on a new manually-labeled test set for semantic misinformation.
翻訳日:2022-02-17 15:17:32 公開日:2022-02-15
# プライバシ保護による視覚的質問応答

Privacy Preserving Visual Question Answering ( http://arxiv.org/abs/2202.07712v1 )

ライセンス: Link先を確認
Cristian-Paul Bara, Qing Ping, Abhinav Mathur, Govind Thattai, Rohith MV, Gaurav S. Sukhatme(参考訳) エッジ上で視覚質問応答を行うための新しいプライバシー保護手法を提案する。 本手法は,クラス,属性,述語を共同で予測する低複雑度コンピュータビジョンモデルを用いて,視覚シーンの象徴表現を構築する。 この記号表現は微分不可能であり、原画像の復元に使用できないため、原画像は非公開である。 提案するハイブリッドソリューションは,現在のsota(state-of-the-ar t)のビジョンモデルよりも25倍以上小さく,エンドツーエンドのsoma vqaモデルよりも100倍小さいビジョンモデルを用いる。 本報告では,詳細な誤差解析を行い,蒸留視覚モデルと視覚シーンの象徴的表現のトレードオフについて考察する。

We introduce a novel privacy-preserving methodology for performing Visual Question Answering on the edge. Our method constructs a symbolic representation of the visual scene, using a low-complexity computer vision model that jointly predicts classes, attributes and predicates. This symbolic representation is non-differentiable, which means it cannot be used to recover the original image, thereby keeping the original image private. Our proposed hybrid solution uses a vision model which is more than 25 times smaller than the current state-of-the-art (SOTA) vision models, and 100 times smaller than end-to-end SOTA VQA models. We report detailed error analysis and discuss the trade-offs of using a distilled vision model and a symbolic representation of the visual scene.
翻訳日:2022-02-17 15:17:16 公開日:2022-02-15
# Cryo-EM画像の非初期コントラスト推定と復調

Ab-initio Contrast Estimation and Denoising of Cryo-EM Images ( http://arxiv.org/abs/2202.07737v1 )

ライセンス: Link先を確認
Yunpeng Shi and Amit Singer(参考訳) 背景と目的:cryo-em画像のコントラストは、主に氷層が不均一なため、それぞれ異なる。 コントラストのばらつきは、2次元クラス平均化、3次元ab-initioモデリング、および3次元の不均一性解析の品質に影響する。 コントラスト推定は現在3次元反復精錬中に行われる。 その結果、推定値はクラス平均化やab-initioモデリングでは利用できない。 しかし、これらの方法は分子の3次元体積と3次元回転の適切な初期推定を必要とする。 本稿では,3次元ボリュームを推定することなく,アブイニティ段階でのコントラスト推定問題を解くことを目的とする。 方法: 原画像の2次元共分散行列は, 基礎となるクリーン画像の共分散, ノイズ分散, 画像間のコントラスト変動と関連している。 コントラスト変動は2次元共分散行列から導出することができ、既存の共分散ウィナーフィルタ(CWF)フレームワークを用いて推定できることを示す。 また,個々の画像のコントラストを推定するために,CWFの修正を行った。 結果: 提案手法は, 従来のCWF法と比較して, コントラスト推定を大きなマージンで改善する。 その推定精度は、クリーン画像の真理共分散を知っているオラクルのものとしばしば同等である。 より正確なコントラスト推定は、合成データセットと実験データセットの両方で示されるように、画像のノイズ化の品質も改善する。 結論: 3次元ボリューム情報を用いることなく, ノイズ画像から直接のコントラスト推定を効果的に行う手法を提案する。 単一粒子分析の初期におけるコントラスト補正を可能にし、下流処理の精度を向上させることができる。

Background and Objective: The contrast of cryo-EM images vary from one to another, primarily due to the uneven thickness of ice layers. The variation of contrast can affect the quality of 2-D class averaging, 3-D ab-initio modeling, and 3-D heterogeneity analysis. Contrast estimation is currently performed during 3-D iterative refinement. As a result, the estimates are not available for class averaging and ab-initio modeling. However, these methods require good initial estimates of 3-D volumes and 3-D rotations of molecules. This paper aims to solve the contrast estimation problem in the ab-initio stage, without estimating the 3-D volume. Methods: The key observation underlying our analysis is that the 2-D covariance matrix of the raw images is related to the covariance of the underlying clean images, the noise variance, and the contrast variability between images. We show that the contrast variability can be derived from the 2-D covariance matrix and use the existing Covariance Wiener Filtering (CWF) framework to estimate it. We also demonstrate a modification of CWF to estimate the contrast of individual images. Results: Our method improves the contrast estimation by a large margin, compared to the previous CWF method. Its estimation accuracy is often comparable to that of an oracle that knows the ground truth covariance of the clean images. The more accurate contrast estimation also improves the quality of image denoising as demonstrated in both synthetic and experimental datasets. Conclusions: This paper proposes an effective method for contrast estimation directly from noisy images without using any 3-D volume information. It enables contrast correction in the earlier stage of single particle analysis, and may improve the accuracy of downstream processing.
翻訳日:2022-02-17 15:17:03 公開日:2022-02-15
# ニューラルネットワークのためのアーキテクチャ非依存連合学習

Architecture Agnostic Federated Learning for Neural Networks ( http://arxiv.org/abs/2202.07757v1 )

ライセンス: Link先を確認
Disha Makhija, Xing Han, Nhat Ho, Joydeep Ghosh(参考訳) データプライバシに関する懸念が高まり、データボリュームが急速に増加する中、フェデレーション学習(fl)は重要な学習パラダイムとなっている。 しかしながら、fl設定でディープニューラルネットワークモデルを共同学習することは、クライアント間のさまざまなアーキテクチャ、ニューロンの置換不変性、各層における非線形変換の存在など、ニューラルネットワークに関連する複雑さによって、非自明なタスクであることが証明される。 この研究は、クライアント間の共通アーキテクチャを強制することなく、各クライアントがパーソナライズされたモデルを構築することができる新しいフェデレーション・ヘテロジニアスニューラルネットワーク(FedHeNN)フレームワークを導入している。 これにより、各クライアントは、他の(潜在的により強力な)クライアントの学習の恩恵を受けながら、ローカルデータや計算制約を最適化できる。 FedHeNNのキーとなるアイデアは、ピアクライアントから得られたインスタンスレベルの表現を使用して、各クライアントの同時トレーニングをガイドすることだ。 FedHeNNフレームワークは、クライアント間の均質アーキテクチャと異質アーキテクチャの両方の設定において、クライアント上でより優れたモデルを実行することができることを示す。

With growing concerns regarding data privacy and rapid increase in data volume, Federated Learning(FL) has become an important learning paradigm. However, jointly learning a deep neural network model in a FL setting proves to be a non-trivial task because of the complexities associated with the neural networks, such as varied architectures across clients, permutation invariance of the neurons, and presence of non-linear transformations in each layer. This work introduces a novel Federated Heterogeneous Neural Networks (FedHeNN) framework that allows each client to build a personalised model without enforcing a common architecture across clients. This allows each client to optimize with respect to local data and compute constraints, while still benefiting from the learnings of other (potentially more powerful) clients. The key idea of FedHeNN is to use the instance-level representations obtained from peer clients to guide the simultaneous training on each client. The extensive experimental results demonstrate that the FedHeNN framework is capable of learning better performing models on clients in both the settings of homogeneous and heterogeneous architectures across clients.
翻訳日:2022-02-17 15:12:59 公開日:2022-02-15
# 自己注意を伴う波形領域における発声

Speech Denoising in the Waveform Domain with Self-Attention ( http://arxiv.org/abs/2202.07790v1 )

ライセンス: Link先を確認
Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro(参考訳) そこで本研究では,生波形の因果的発声モデルであるCleanUNetを提案する。 提案モデルはエンコーダ・デコーダアーキテクチャと複数の自己アテンションブロックを組み合わせることでボトルネック表現を洗練し,良好な結果を得るのに不可欠である。 このモデルは、波形と多分解能スペクトログラムの両方で定義された損失セットによって最適化される。 提案手法は,様々な客観評価指標と主観評価指標から音質を推定し,最先端モデルよりも優れている。

In this work, we present CleanUNet, a causal speech denoising model on the raw waveform. The proposed model is based on an encoder-decoder architecture combined with several self-attention blocks to refine its bottleneck representations, which is crucial to obtain good results. The model is optimized through a set of losses defined over both waveform and multi-resolution spectrograms. The proposed method outperforms the state-of-the-art models in terms of denoised speech quality from various objective and subjective evaluation metrics.
翻訳日:2022-02-17 15:03:28 公開日:2022-02-15
# ガウス混合モデルの学習におけるチャネル容量の役割について

On the Role of Channel Capacity in Learning Gaussian Mixture Models ( http://arxiv.org/abs/2202.07707v1 )

ライセンス: Link先を確認
Elad Romanov, Tamir Bendory, Or Ordentlich(参考訳) 本稿では, 球面共分散行列 $\sigma^2\mathbf{i}$ を持つ$\mathbb{r}^d$ における平衡ガウス混合モデル (gmm) のk$未知中心を学習するサンプル複雑性について検討する。 特に、以下の質問に興味を持っている: ラベル付き測定値から中心を推定する際に、サンプルの複雑さが本質的に同じである最大ノイズレベル$\sigma^2$ とは何でしょうか? そのために、この問題のベイズ的定式化に注意を向け、そこで中心は球面 $\sqrt{d}\mathcal{S}^{d-1}$ 上で均一に分布する。 我々の主な結果は、gmm学習問題である大きなシステム制限値である$d,k\to\infty$がラベル付き観測から学ぶのと同じくらい簡単であり、それよりもはるかに困難である、正確な雑音閾値$\sigma^2$を特徴付けるものである。 閾値は$\frac{\log k}{d} = \frac12\log\left(1+\frac{1}{\sigma^2} \right)$で、これは付加的な白色ガウスノイズ(AWGN)チャネルの容量である。 コードとしての$k$ Centerのセットを考えると、このノイズ閾値は、AWGNチャネル上のコードのエラー確率が小さい最大のノイズレベルと解釈できる。 GMM学習問題に関するこれまでの研究は、GMM学習の統計的困難度を決定する重要なパラメータとして、中心間の最小距離を特定してきた。 本研究の結果は, 球面上に一様分布するGMMに対してのみ証明されるが, 最小距離ではなく, 対応するGMMを学習することの統計的困難さを判断するチャネル符号として, 中心星座に付随する復号誤差確率が示唆される。

This paper studies the sample complexity of learning the $k$ unknown centers of a balanced Gaussian mixture model (GMM) in $\mathbb{R}^d$ with spherical covariance matrix $\sigma^2\mathbf{I}$. In particular, we are interested in the following question: what is the maximal noise level $\sigma^2$, for which the sample complexity is essentially the same as when estimating the centers from labeled measurements? To that end, we restrict attention to a Bayesian formulation of the problem, where the centers are uniformly distributed on the sphere $\sqrt{d}\mathcal{S}^{d-1}$. Our main results characterize the exact noise threshold $\sigma^2$ below which the GMM learning problem, in the large system limit $d,k\to\infty$, is as easy as learning from labeled observations, and above which it is substantially harder. The threshold occurs at $\frac{\log k}{d} = \frac12\log\left( 1+\frac{1}{\sigma^2} \right)$, which is the capacity of the additive white Gaussian noise (AWGN) channel. Thinking of the set of $k$ centers as a code, this noise threshold can be interpreted as the largest noise level for which the error probability of the code over the AWGN channel is small. Previous works on the GMM learning problem have identified the minimum distance between the centers as a key parameter in determining the statistical difficulty of learning the corresponding GMM. While our results are only proved for GMMs whose centers are uniformly distributed over the sphere, they hint that perhaps it is the decoding error probability associated with the center constellation as a channel code that determines the statistical difficulty of learning the corresponding GMM, rather than just the minimum distance.
翻訳日:2022-02-17 14:59:16 公開日:2022-02-15
# 自己監督型クラスコグニザントFewショット分類

Self-Supervised Class-Cognizant Few-Shot Classification ( http://arxiv.org/abs/2202.08149v1 )

ライセンス: Link先を確認
Ojas Kishore Shirekar, Hadi Jamali-Rad(参考訳) 教師なし学習は人間の知性の暗黒物質であると主張する。 そこで本研究では,大量のラベル付きデータからの教師なし学習と,下流の分類タスクにおける数発の微調整に焦点をあてる。 本研究では,自己教師付き事前学習へのコントラスト学習の適用について,反復的クラスタリングと再ランク付けを通じてクラスレベルの認識を取り入れ,コントラスト最適化損失を考慮に入れた最近の研究を展開する。 我々の知る限り、私たちは標準およびクロスドメインシナリオの両方において、標準のmini-ImageNetベンチマークの(5-way, 1, 5-shot)設定と、クロスドメインCDFSLベンチマークの(5-way, 5, 20-shot)設定に新しい最先端(SoTA)を設定することを実証しています。 私たちのコードと実験はgithubリポジトリで確認できます。

Unsupervised learning is argued to be the dark matter of human intelligence. To build in this direction, this paper focuses on unsupervised learning from an abundance of unlabeled data followed by few-shot fine-tuning on a downstream classification task. To this aim, we extend a recent study on adopting contrastive learning for self-supervised pre-training by incorporating class-level cognizance through iterative clustering and re-ranking and by expanding the contrastive optimization loss to account for it. To our knowledge, our experimentation both in standard and cross-domain scenarios demonstrate that we set a new state-of-the-art (SoTA) in (5-way, 1 and 5-shot) settings of standard mini-ImageNet benchmark as well as the (5-way, 5 and 20-shot) settings of cross-domain CDFSL benchmark. Our code and experimentation can be found in our GitHub repository: https://github.com/o jss/c3lr.
翻訳日:2022-02-17 14:34:24 公開日:2022-02-15
# Perceiver ARを用いた汎用長文自動回帰モデリング

General-purpose, long-context autoregressive modeling with Perceiver AR ( http://arxiv.org/abs/2202.07765v1 )

ライセンス: Link先を確認
Curtis Hawthorne, Andrew Jaegle, C\u{a}t\u{a}lina Cangea, Sebastian Borgeaud, Charlie Nash, Mateusz Malinowski, Sander Dieleman, Oriol Vinyals, Matthew Botvinick, Ian Simon, Hannah Sheahan, Neil Zeghidour, Jean-Baptiste Alayrac, Jo\~ao Carreira, Jesse Engel(参考訳) 実世界のデータは高次元で、本、画像、音楽の演奏は圧縮後も数十万の要素を含むことができる。 しかし、最も一般的に使用される自己回帰モデルであるトランスフォーマーは、この長距離構造を捉えるのに必要な入力と層の数にスケールするのに非常に高価である。 我々は,自己回帰型モダリティ非依存アーキテクチャであるperceiver arを開発した。クロスアテンションを用いて,少数の潜在子に長距離入力をマッピングすると同時に,エンドツーエンドの因果的マスキングも維持する。 Perceiver ARは10万以上のトークンに直接対応可能で、手作りのスパーシティパターンやメモリ機構を必要とせずに、実用的な長期コンテキスト密度推定を可能にする。 画像や音楽のトレーニングを行うと、Perceiver ARは長期的なコヒーレンスと構造を明確にした出力を生成する。 また,64 x 64 イメージネット画像や PG-19 書籍など,時系列ベンチマークの最先端性も得られる。

Real-world data is high-dimensional: a book, image, or musical performance can easily contain hundreds of thousands of elements even after compression. However, the most commonly used autoregressive models, Transformers, are prohibitively expensive to scale to the number of inputs and layers needed to capture this long-range structure. We develop Perceiver AR, an autoregressive, modality-agnostic architecture which uses cross-attention to map long-range inputs to a small number of latents while also maintaining end-to-end causal masking. Perceiver AR can directly attend to over a hundred thousand tokens, enabling practical long-context density estimation without the need for hand-crafted sparsity patterns or memory mechanisms. When trained on images or music, Perceiver AR generates outputs with clear long-term coherence and structure. Our architecture also obtains state-of-the-art likelihood on long-sequence benchmarks, including 64 x 64 ImageNet images and PG-19 books.
翻訳日:2022-02-17 14:33:48 公開日:2022-02-15
# limref: 予測のための局所解釈可能なモデル非依存規則に基づく説明と電気スマートメータデータへの応用

LIMREF: Local Interpretable Model Agnostic Rule-based Explanations for Forecasting, with an Application to Electricity Smart Meter Data ( http://arxiv.org/abs/2202.07766v1 )

ライセンス: Link先を確認
Dilini Rajapaksha and Christoph Bergmeir(参考訳) 電力需要の正確な予測は、持続可能電力システムにおいて重要な役割を果たす。 エンドユーザの需要フレキシビリティを向上するためには, 正確なだけでなく, 理解しやすく, 行動可能な予測を提供する必要がある。 時系列を通して訓練されたグローバル予測モデル(GFM)は、近年の需要予測競争や実世界の応用において、単変量予測手法と比較して優れた結果を示している。 我々は,グローバル予測手法における精度と解釈可能性のギャップを埋めることを目的とする。 グローバルモデル予測を説明するために,グローバル予測モデルをブラックボックスモデルとして考慮し,特定の予測に対するk-最適影響ルールを生成する局所的な説明フレームワークLIMREF(Local Interpretable Model-Agnostic Rule-based Explanations for Forecasting)を提案する。 グローバルモデルとカウンターファクトルールの予測を説明する異なるタイプのルールを提供し、与えられたインスタンスに対して異なる出力を得るための潜在的な変更に対する実行可能な洞察を提供する。 温度やカレンダー効果などの外部特性を備えた大規模電力需要データセットを用いて実験を行う。 本稿では,LIMREFフレームワークが生成する説明の質を,精度,忠実度,理解性といった質的・定量的な側面の観点から評価し,他のローカルな説明者に対して評価する。

Accurate electricity demand forecasts play a crucial role in sustainable power systems. To enable better decision-making especially for demand flexibility of the end-user, it is necessary to provide not only accurate but also understandable and actionable forecasts. To provide accurate forecasts Global Forecasting Models (GFM) trained across time series have shown superior results in many demand forecasting competitions and real-world applications recently, compared with univariate forecasting approaches. We aim to fill the gap between the accuracy and the interpretability in global forecasting approaches. In order to explain the global model forecasts, we propose Local Interpretable Model-agnostic Rule-based Explanations for Forecasting (LIMREF), a local explainer framework that produces k-optimal impact rules for a particular forecast, considering the global forecasting model as a black-box model, in a model-agnostic way. It provides different types of rules that explain the forecast of the global model and the counterfactual rules, which provide actionable insights for potential changes to obtain different outputs for given instances. We conduct experiments using a large-scale electricity demand dataset with exogenous features such as temperature and calendar effects. Here, we evaluate the quality of the explanations produced by the LIMREF framework in terms of both qualitative and quantitative aspects such as accuracy, fidelity, and comprehensibility and benchmark those against other local explainers.
翻訳日:2022-02-17 14:31:54 公開日:2022-02-15
# (参考訳) 固定スロットプールにおけるスロット値の継承による対話状態の追跡について [全文訳有]

On Tracking Dialogue State by Inheriting Slot Values in Mentioned Slot Pools ( http://arxiv.org/abs/2202.07156v1 )

ライセンス: CC BY 4.0
Zhoujian Sun, Zhengxing Huang and Nai Ding(参考訳) 対話状態追跡(DST)はタスク指向の対話システムの一部である。 タスクを達成するために、各スロットが情報の重要な部分を表し、各対話ターンでスロット値が繰り返し更新される対話発話に従ってスロット値の抽出と管理を行う。 しかし、多くのDSTモデルはスロット値を適切に更新することはできない。 これらのモデルは、前のターンで抽出された間違ったスロット値を繰り返し継承し、結果としてDSTタスク全体が失敗する可能性がある。 本研究では,更新問題に対処するためのスロットプール(MSP)を設計した。 MSPは、継承される可能性のある全てのスロット値を記録するスロット固有のメモリであり、我々のモデルはMSPと対話コンテキストに応じてスロット値を更新する。 我々のモデルは、値が間違っていると予測した場合、以前のスロット値の継承を拒否します。 そして、現在の対話コンテキストからスロット値を再抽出する。 文脈情報が対話の進行とともに蓄積されるにつれて、新しい値が正しい可能性が高くなる。 また、MSPから値を選択することで間接的に言及されているスロットを追跡することもできる。 実験の結果,MultiWOZ 2.1および2.2データセット上での最先端DST性能が得られた。

Dialogue state tracking (DST) is a component of the task-oriented dialogue system. It is responsible for extracting and managing slot values according to dialogue utterances, where each slot represents an essential part of the information to accomplish a task, and slot value is updated recurrently in each dialogue turn. However, many DST models cannot update slot values appropriately. These models may repeatedly inherit wrong slot values extracted in previous turns, resulting in the fail of the entire DST task.They cannot update indirectly mentioned slots well, either. This study designed a model with a mentioned slot pool (MSP) to tackle the update problem. The MSP is a slot-specific memory that records all mentioned slot values that may be inherited, and our model updates slot values according to the MSP and the dialogue context. Our model rejects inheriting the previous slot value when it predicates the value is wrong. Then, it re-extracts the slot value from the current dialogue context. As the contextual information accumulates with the dialogue progress, the new value is more likely to be correct. It also can track the indirectly mentioned slot by picking a value from the MSP. Experimental results showed our model reached state-of-the-art DST performance on MultiWOZ 2.1 and 2.2 datasets.
翻訳日:2022-02-17 07:24:53 公開日:2022-02-15
# (参考訳) OLIVE:信頼された実行環境におけるオープンで差別的なフェデレーション学習 [全文訳有]

OLIVE: Oblivious and Differentially Private Federated Learning on Trusted Execution Environment ( http://arxiv.org/abs/2202.07165v1 )

ライセンス: CC BY 4.0
Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa(参考訳) フェデレーション学習とディファレンシャルプライバシを組み合わせることで、プライバシを考慮した深いモデルのトレーニングが可能になる。 ローカルディファレンシャルプライバシ(ldp)を使用するには、サーバへの信頼は必要ないが、強い勾配摂動のため、その有用性は限られている。 一方、クライアントレベルの中央微分プライバシー(CDP)は、トレーニングされたモデルのプライバシとユーティリティのバランスが良好だが、生の勾配を共有する必要があるため、中央サーバを信頼する必要がある。 本稿では,近年注目されているtrusted execution environment(tee)を用いて,ldpが実現しているように,サーバへの信頼の必要をなくし,cdpのメリットを享受できるシステムであるoliveを提案する。 特にOLIVEは、権限のないサーバでも、TEE内の集約中に発生するプライバシーリスクを最小限に抑える、効率的なデータ監視アルゴリズムを提供する。 本研究では、まず、偏りのある勾配設定においてサイドチャネルが得る勾配の指標情報からトレーニングデータのプライバシーを漏洩させる推論攻撃を設計し、実世界のデータセットにおける攻撃の有効性を実証する。 第2に,メモリアクセスパターンを完全に均一かつセキュアに保ち,設計した攻撃からプライバシを保護するアルゴリズムを提案する。 また,本手法は様々な実験実験によって実際に動作することを示す。 実験の結果,提案アルゴリズムは最先端汎用Oblivious RAMと比較して効率が良く,実世界のスケールでは実用的な方法であることがわかった。

By combining Federated Learning with Differential Privacy, it has become possible to train deep models while taking privacy into account. Using Local Differential Privacy (LDP) does not require trust in the server, but its utility is limited due to strong gradient perturbations. On the other hand, client-level Central Differential Privacy (CDP) provides a good balance between the privacy and utility of the trained model, but requires trust in the central server since they have to share raw gradients. We propose OLIVE, a system that can benefit from CDP while eliminating the need for trust in the server as LDP achieves, by using Trusted Execution Environment (TEE), which has attracted much attention in recent years. In particular, OLIVE provides an efficient data oblivious algorithm to minimize the privacy risk that can occur during aggregation in a TEE even on a privileged untrusted server. In this work, firstly, we design an inference attack to leak training data privacy from index information of gradients which can be obtained by side channels in a sparsified gradients setting, and demonstrate the attack's effectiveness on real world dataset. Secondly, we propose a fully-oblivious but efficient algorithm that keeps the memory access patterns completely uniform and secure to protect privacy against the designed attack. We also demonstrate that our method works practically by various empirical experiments. Our experimental results show our proposed algorithm is more efficient compared to state-of-the-art general-purpose Oblivious RAM, and can be a practical method in the real-world scales.
翻訳日:2022-02-17 07:12:46 公開日:2022-02-15
# (参考訳) 非IIDグラフデータの公正性:文献レビュー [全文訳有]

Fairness Amidst Non-IID Graph Data: A Literature Review ( http://arxiv.org/abs/2202.07170v1 )

ライセンス: CC0 1.0
Wenbin Zhang, Jeremy C. Weiss, Shuigeng Zhou and Toby Walsh(参考訳) 機械学習(ML)の公正さは、アルゴリズムバイアスを理解し、修正するプロセスであり、多くの文献が実行され、基礎となるデータが独立で同一の分散(IID)であると仮定されるようになり、注目を集めている。 一方でグラフは、個々のユニット間の接続をキャプチャするユビキタスなデータ構造であり、本質的には非iidである。 したがって、IIDデータとユビキタスな非IIDグラフ表現に基づいて設計された伝統的な公正な文献を、MLシステムのバイアスに対処するために橋渡しすることが非常に重要である。 本研究では,非IIDグラフデータにおける公平性の最近の進歩を概観し,今後の研究で利用可能なデータセットと評価指標を同定する。 既存の作業の限界や将来的な方向性についても指摘しています。

Fairness in machine learning (ML), the process to understand and correct algorithmic bias, has gained increasing attention with numerous literature being carried out, commonly assume the underlying data is independent and identically distributed (IID). On the other hand, graphs are a ubiquitous data structure to capture connections among individual units and is non-IID by nature. It is therefore of great importance to bridge the traditional fairness literature designed on IID data and ubiquitous non-IID graph representations to tackle bias in ML systems. In this survey, we review such recent advance in fairness amidst non-IID graph data and identify datasets and evaluation metrics available for future research. We also point out the limitations of existing work as well as promising future directions.
翻訳日:2022-02-17 06:43:59 公開日:2022-02-15
# (参考訳) turf: 2要素法、普遍性、ロバスト性、高速分布学習アルゴリズム [全文訳有]

TURF: A Two-factor, Universal, Robust, Fast Distribution Learning Algorithm ( http://arxiv.org/abs/2202.07172v1 )

ライセンス: CC BY 4.0
Yi Hao, Ayush Jain, Alon Orlitsky, Vaishakh Ravindrakumar(参考訳) サンプルからの分布の近似は標準統計学習問題である。 その最も強力で成功したモダリティの1つは、すべての分布を、最も近い$t$-ピース次数-$d$多項式よりも本質的にほぼ一定の倍の大きさで、$t\ge1$と$d\ge0$に近似する。 c_{t,d}$ を最小の値とすると、明らかに$c_{1,0}=1$ であり、他のすべての$t$ と $d$ に対して$c_{t,d}\ge 2$ であることが示される。 しかし、現在の計算効率の良いアルゴリズムは$c_{t,1}\le 2.25$しか示さず、バウンドは$c_{t,d}\le 3$ for $d\ge 9$となる。 我々は、すべての$(t,d)\ne(1,0)$に対して$c_{t,d}=2$を確立する、ほぼ線形時間かつ本質的に標本最適推定器を導出する。 さらに、多くの実用分布において、最も低い近似距離は、非常に多くのピースを持つ多項式によって達成される。 本稿では,この数値をほぼ最適に推定する手法を提案する。 2つの手法を組み合わせる実験により、既存の手法よりも性能が向上した。

Approximating distributions from their samples is a canonical statistical-learning problem. One of its most powerful and successful modalities approximates every distribution to an $\ell_1$ distance essentially at most a constant times larger than its closest $t$-piece degree-$d$ polynomial, where $t\ge1$ and $d\ge0$. Letting $c_{t,d}$ denote the smallest such factor, clearly $c_{1,0}=1$, and it can be shown that $c_{t,d}\ge 2$ for all other $t$ and $d$. Yet current computationally efficient algorithms show only $c_{t,1}\le 2.25$ and the bound rises quickly to $c_{t,d}\le 3$ for $d\ge 9$. We derive a near-linear-time and essentially sample-optimal estimator that establishes $c_{t,d}=2$ for all $(t,d)\ne(1,0)$. Additionally, for many practical distributions, the lowest approximation distance is achieved by polynomials with vastly varying number of pieces. We provide a method that estimates this number near-optimally, hence helps approach the best possible approximation. Experiments combining the two techniques confirm improved performance over existing methodologies.
翻訳日:2022-02-17 06:29:04 公開日:2022-02-15
# (参考訳) deeponet-grid-uq: パワーグリッドのポストフェイトトラジェクタ予測のための信頼できるディープオペレータフレームワーク [全文訳有]

DeepONet-Grid-UQ: A Trustworthy Deep Operator Framework for Predicting the Power Grid's Post-Fault Trajectories ( http://arxiv.org/abs/2202.07176v1 )

ライセンス: CC BY 4.0
Christian Moya, Shiqi Zhang, Meng Yue, and Guang Lin(参考訳) 本稿では,電力系統の高信頼化予測のための新しいデータ駆動方式を提案する。 提案手法は深層作用素ネットワーク(deeponets)の基本的な新しい概念に基づいている。 近似関数を学ぶ従来のニューラルネットワークと比較して、deeponetsは近似非線形演算子として設計されている。 本手法では,(1) 故障軌跡の入力として,例えばシミュレーションやファサー計測装置を用いて,(1) 故障軌跡の入力としてDeepONetを設計し,(2) 予測後軌跡の出力として提供する。 さらに,不確実性定量化による信頼性・信頼性の高い予測と効率のバランスをとるための,非常に必要な手法を提示する。 そこで本研究では,予測の不確実性を定量化する2つの手法を提案する。 まず,DeepONetパラメータの後方分布から,確率勾配のハミルトニアン・モンテカルロを標本として用いた「textit{Bayesian DeepONet} (B-DeepONet)」を提案する。 そこで我々は,DeepONetsに自動不確実性定量化の形式を,ほぼ計算コストを伴わずに装備する確率論的トレーニング戦略を用いて,‘textit{Probabilistic DeepONet}(Prob-DeepONet)’を提案する。 最後に、IEEE 16-machine 68-busシステムを用いて、提案したB-DeepONetとProb-DeepONetの予測パワーと不確実性定量化能力を検証する。

This paper proposes a new data-driven method for the reliable prediction of power system post-fault trajectories. The proposed method is based on the fundamentally new concept of Deep Operator Networks (DeepONets). Compared to traditional neural networks that learn to approximate functions, DeepONets are designed to approximate nonlinear operators. Under this operator framework, we design a DeepONet to (1) take as inputs the fault-on trajectories collected, for example, via simulation or phasor measurement units, and (2) provide as outputs the predicted post-fault trajectories. In addition, we endow our method with a much-needed ability to balance efficiency with reliable/trustworthy predictions via uncertainty quantification. To this end, we propose and compare two methods that enable quantifying the predictive uncertainty. First, we propose a \textit{Bayesian DeepONet} (B-DeepONet) that uses stochastic gradient Hamiltonian Monte-Carlo to sample from the posterior distribution of the DeepONet parameters. Then, we propose a \textit{Probabilistic DeepONet} (Prob-DeepONet) that uses a probabilistic training strategy to equip DeepONets with a form of automated uncertainty quantification, at virtually no extra computational cost. Finally, we validate the predictive power and uncertainty quantification capability of the proposed B-DeepONet and Prob-DeepONet using the IEEE 16-machine 68-bus system.
翻訳日:2022-02-17 05:39:03 公開日:2022-02-15
# (参考訳) モデル摂動によるフェデレーション学習:クライアントレベル差分プライバシー下での精度向上 [全文訳有]

Federated Learning with Sparsified Model Perturbation: Improving Accuracy under Client-Level Differential Privacy ( http://arxiv.org/abs/2202.07178v1 )

ライセンス: CC BY 4.0
Rui Hu, Yanmin Gong and Yuanxiong Guo(参考訳) 分散クライアントがローカルにトレーニングデータを保持しながら共有統計モデルを共同学習できるフェデレーション・ラーニング(fl)が最近注目され、従来の集中型機械学習パラダイムと比較して、プライバシと通信効率が向上している。 しかし、FLで共有されたモデル更新からトレーニングデータに関する機密情報を推測することもできる。 差別化プライバシ(DP)は、これらの攻撃を防御するための最先端技術である。 FLにおけるDP達成の鍵となる課題は、DPノイズがモデル精度、特に多数のモデルパラメータを持つディープラーニングモデルに悪影響を与えることである。 本稿では,モデル精度を維持しつつ,クライアントレベルのDP保証を提供するFed-SMPという新しいFL方式を開発する。 モデル精度に対するプライバシ保護の影響を軽減するため、Fed-SMPでは、Sparsified Model Perturbation(SMP)と呼ばれる新しいテクニックを活用している。 Fed-SMPでは2つのスパーシフィケーション戦略が検討されている。 R{\'e}nyi差分プライバシーをFed-SMPのエンドツーエンドDP保証の厳密な分析に応用し、一般損失関数によるFed-SMPの収束性を証明する。 実世界のデータセットに対する大規模な実験を行い、Fed-SMPのモデル精度を大幅に改善し、DP保証と通信コストを同時に削減する効果を実証した。

Federated learning (FL) that enables distributed clients to collaboratively learn a shared statistical model while keeping their training data locally has received great attention recently and can improve privacy and communication efficiency in comparison with traditional centralized machine learning paradigm. However, sensitive information about the training data can still be inferred from model updates shared in FL. Differential privacy (DP) is the state-of-the-art technique to defend against those attacks. The key challenge to achieve DP in FL lies in the adverse impact of DP noise on model accuracy, particularly for deep learning models with large numbers of model parameters. This paper develops a novel differentially-priva te FL scheme named Fed-SMP that provides client-level DP guarantee while maintaining high model accuracy. To mitigate the impact of privacy protection on model accuracy, Fed-SMP leverages a new technique called Sparsified Model Perturbation (SMP), where local models are sparsified first before being perturbed with additive Gaussian noise. Two sparsification strategies are considered in Fed-SMP: random sparsification and top-$k$ sparsification. We also apply R{\'e}nyi differential privacy to providing a tight analysis for the end-to-end DP guarantee of Fed-SMP and prove the convergence of Fed-SMP with general loss functions. Extensive experiments on real-world datasets are conducted to demonstrate the effectiveness of Fed-SMP in largely improving model accuracy with the same level of DP guarantee and saving communication cost simultaneously.
翻訳日:2022-02-17 05:18:39 公開日:2022-02-15
# (参考訳) ニューラルネットワーク表現におけるブロック構造現象の起源について

On the Origins of the Block Structure Phenomenon in Neural Network Representations ( http://arxiv.org/abs/2202.07184v1 )

ライセンス: CC BY 4.0
Thao Nguyen, Maithra Raghu, Simon Kornblith(参考訳) 近年の研究では、大容量ニューラルネットワークにおいて驚くべき現象が発見されている。 このブロック構造には2つの矛盾する性質がある:一方、その構成層は、非常によく似た第1主成分(PC)を示すが、一方、それらの表現と共通の第1主成分は、異なるランダムシード間で非常に異なる。 本研究は,ブロック構造の起源をデータとトレーニング手法に関連づけることで,これらの不整合特性の整合を図っている。 支配的なPCの特性を解析することにより、ブロック構造が支配的なデータポイント(例えば背景色)から生じていることが分かる。 しかし、支配的なデータポイントのセットと正確な共有画像統計は、ランダムな種によって異なる可能性がある。 このように、ブロック構造は意味のあるデータセット統計を反映するが、同時に各モデルに固有のものである。 隠れた層活性化の研究と合成データポイントの作成を通じて、これらの単純な画像統計がブロック構造内の層の表現幾何学を支配していることを示す。 実験では, ブロック構造が訓練の早い段階で形をなしているが, 基礎となる表現とそれに対応する支配的なデータポイントは大きく変化し続けている。 最後に,ブロック構造と異なるトレーニング機構の相互作用について検討し,ブロック構造を排除するための標的的介入を導入するとともに,事前学習とシェイクシェイク正規化の効果を検討する。

Recent work has uncovered a striking phenomenon in large-capacity neural networks: they contain blocks of contiguous hidden layers with highly similar representations. This block structure has two seemingly contradictory properties: on the one hand, its constituent layers exhibit highly similar dominant first principal components (PCs), but on the other hand, their representations, and their common first PC, are highly dissimilar across different random seeds. Our work seeks to reconcile these discrepant properties by investigating the origin of the block structure in relation to the data and training methods. By analyzing properties of the dominant PCs, we find that the block structure arises from dominant datapoints - a small group of examples that share similar image statistics (e.g. background color). However, the set of dominant datapoints, and the precise shared image statistic, can vary across random seeds. Thus, the block structure reflects meaningful dataset statistics, but is simultaneously unique to each model. Through studying hidden layer activations and creating synthetic datapoints, we demonstrate that these simple image statistics dominate the representational geometry of the layers inside the block structure. We explore how the phenomenon evolves through training, finding that the block structure takes shape early in training, but the underlying representations and the corresponding dominant datapoints continue to change substantially. Finally, we study the interplay between the block structure and different training mechanisms, introducing a targeted intervention to eliminate the block structure, as well as examining the effects of pretraining and Shake-Shake regularization.
翻訳日:2022-02-17 03:32:34 公開日:2022-02-15
# (参考訳) クロスレイヤーランキングとk-reciprocal closest filterを用いたプルーニングネットワーク [全文訳有]

Pruning Networks with Cross-Layer Ranking & k-Reciprocal Nearest Filters ( http://arxiv.org/abs/2202.07190v1 )

ライセンス: CC0 1.0
Mingbao Lin, Liujuan Cao, Yuxin Zhang, Ling Shao, Chia-Wen Lin, Rongrong Ji(参考訳) 本稿ではフィルタレベルのネットワークプルーニングについて述べる。 CLR-RNFと呼ばれる新しいプルーニング法を提案する。 まず「長尾」長尾の刈り取り問題を明らかにするとともに, 個々の重みの重要度を計算・認識し, 次いで重みのクロスレイヤーランキング (clr) を用いて下級重みを識別・除去する手法を提案する。 その結果, 層間間隔はフィルタプルーニングにおけるプルーンドネットワーク構造を構成することがわかった。 次に,各フィルタが最も近いフィルタ群を推奨する推奨ベースのフィルタ選択方式を提案する。 これらの推奨群から保存フィルタを選択するために、選択したフィルタが推奨群の交点に落ちるような k-Reciprocal Nearest Filter (RNF) の選択スキームを考案する。 刈り込みネットワーク構造とフィルタ選択はどちらも非学習プロセスであり、これにより刈り込みの複雑さを著しく低減し、既存の作業と区別する。 我々は,CIFAR-10とImageNetで画像分類を行い,CLR-RNFの最先端性を示す。 例えば CIFAR-10 では、CLR-RNF は VGGNet-16 から 74.1% FLOP と 95.0% のパラメータを削除し、精度は0.3\% まで向上した。 imagenetでは、70.2%のフロップと64.8%のパラメータをresnet-50から削除した。 私たちのプロジェクトはhttps://github.com/l mbxmu/clr-rnfです。

This paper focuses on filter-level network pruning. A novel pruning method, termed CLR-RNF, is proposed. We first reveal a "long-tail" long-tail pruning problem in magnitude-based weight pruning methods, and then propose a computation-aware measurement for individual weight importance, followed by a Cross-Layer Ranking (CLR) of weights to identify and remove the bottom-ranked weights. Consequently, the per-layer sparsity makes up of the pruned network structure in our filter pruning. Then, we introduce a recommendation-based filter selection scheme where each filter recommends a group of its closest filters. To pick the preserved filters from these recommended groups, we further devise a k-Reciprocal Nearest Filter (RNF) selection scheme where the selected filters fall into the intersection of these recommended groups. Both our pruned network structure and the filter selection are non-learning processes, which thus significantly reduce the pruning complexity, and differentiate our method from existing works. We conduct image classification on CIFAR-10 and ImageNet to demonstrate the superiority of our CLR-RNF over the state-of-the-arts. For example, on CIFAR-10, CLR-RNF removes 74.1% FLOPs and 95.0% parameters from VGGNet-16 with even 0.3\% accuracy improvements. On ImageNet, it removes 70.2% FLOPs and 64.8% parameters from ResNet-50 with only 1.7% top-5 accuracy drops. Our project is at https://github.com/l mbxmu/CLR-RNF.
翻訳日:2022-02-17 03:31:14 公開日:2022-02-15
# (参考訳) 局所プライベート準MLEに対する1ビット挿入 : その漸近正常性と限界 [全文訳有]

One-bit Submission for Locally Private Quasi-MLE: Its Asymptotic Normality and Limitation ( http://arxiv.org/abs/2202.07194v1 )

ライセンス: CC BY 4.0
Hajime Ono, Kazuhiro Minami, Hideitsu Hino(参考訳) ローカルディファレンシャルプライバシ~(LDP)は、信頼できないデータキュレーターを含む統計調査に適した情報理論のプライバシ定義である。 準最大可能性推定器(QMLE)の LDP バージョンが開発されているが,従来の LDP QMLE 構築手法は,長時間の待ち時間,通信コスト,ログ型関数の微分の有界性仮定などにより,現実の大規模サーベイシステムにおいて実装が困難である。 我々はこれらの問題なしに代替の LDP プロトコルを提供し、大規模なサーベイに容易にデプロイできる可能性がある。 また,プロトコルの整合性や漸近的正規性,制限に対する十分な条件も提供した。 我々のプロトコルはユーザにとって負担が少なく、理論的保証は既存の方法よりも現実的なケースをカバーする。

Local differential privacy~(LDP) is an information-theoreti c privacy definition suitable for statistical surveys that involve an untrusted data curator. An LDP version of quasi-maximum likelihood estimator~(QMLE) has been developed, but the existing method to build LDP QMLE is difficult to implement for a large-scale survey system in the real world due to long waiting time, expensive communication cost, and the boundedness assumption of derivative of a log-likelihood function. We provided an alternative LDP protocol without those issues, which is potentially much easily deployable to a large-scale survey. We also provided sufficient conditions for the consistency and asymptotic normality and limitations of our protocol. Our protocol is less burdensome for the users, and the theoretical guarantees cover more realistic cases than those for the existing method.
翻訳日:2022-02-17 02:54:44 公開日:2022-02-15
# (参考訳) 事例法検索 : 過去20年間の課題・方法・課題・評価

Case law retrieval: problems, methods, challenges and evaluations in the last 20 years ( http://arxiv.org/abs/2202.07209v1 )

ライセンス: CC BY 4.0
Daniel Locke and Guido Zuccon(参考訳) 判例法検索は、法的問題に関連する司法判断の検索である。 事例法検索は,弁護士の時間を大幅に短縮し,正確なアドバイスの確保と作業負荷の削減が重要である。 我々は過去20年間の事例法検索の方法を調査し,今後の事例法検索システムの評価に直面する課題と課題を概説する。 限定された出版作業は、アドホックケース法検索におけるランキングの改善に焦点を当てている。 しかし、他の事例法検索や法情報検索の分野では重要な研究がなされている。 これは、合法的な検索プロバイダーが、彼らの成功の秘密をライバルに譲ろうとしないからだろう。 事例法検索のほとんどの評価は、小規模な収集と質問応答システムやレコメンデーターシステムといった関連するタスクに焦点を当てている。 クランフィールドスタイルの評価や、公に入手可能なテストコレクションのケースロー検索方法のベースラインは存在していない。 これは今後の大きな課題である。 しかし、少なくとも商用環境では、この問題の範囲に疑問を呈する理由がある。 テストコレクションからベースラインアプローチがなければ、メソッドが有望かどうかはわからない。 商用の法律検索プロバイダによる研究は、自然言語システムの有効性と事例法検索のためのクエリ拡張を示している。 機械学習は、ますます多くの法的検索タスクに応用されつつあるが、間違いなくこれは、ケースロー検索の未来を表している。

Case law retrieval is the retrieval of judicial decisions relevant to a legal question. Case law retrieval comprises a significant amount of a lawyer's time, and is important to ensure accurate advice and reduce workload. We survey methods for case law retrieval from the past 20 years and outline the problems and challenges facing evaluation of case law retrieval systems going forward. Limited published work has focused on improving ranking in ad-hoc case law retrieval. But there has been significant work in other areas of case law retrieval, and legal information retrieval generally. This is likely due to legal search providers being unwilling to give up the secrets of their success to competitors. Most evaluations of case law retrieval have been undertaken on small collections and focus on related tasks such as question-answer systems or recommender systems. Work has not focused on Cranfield style evaluations and baselines of methods for case law retrieval on publicly available test collections are not present. This presents a major challenge going forward. But there are reasons to question the extent of this problem, at least in a commercial setting. Without test collections to baseline approaches it cannot be known whether methods are promising. Works by commercial legal search providers show the effectiveness of natural language systems as well as query expansion for case law retrieval. Machine learning is being applied to more and more legal search tasks, and undoubtedly this represents the future of case law retrieval.
翻訳日:2022-02-17 02:20:42 公開日:2022-02-15
# (参考訳) ロングテールカメラトラップ認識のためのドメインエキスパートのバランス [全文訳有]

Balancing Domain Experts for Long-Tailed Camera-Trap Recognition ( http://arxiv.org/abs/2202.07215v1 )

ライセンス: CC BY 4.0
Byeongjun Park, Jeongsoo Kim, Seungju Cho, Heeseon Kim(参考訳) カメラトラップ画像のラベル分布は高度に不均衡で長い尾を持つため、ニューラルネットワークは頻繁に現れるヘッドクラスに偏りがちである。 ロングテール学習はデータの不均衡に対処するために非常に研究されてきたが、マルチドメインやマルチフレームなどのカメラトラップ特性を検討する研究はほとんど行われていない。 本稿では,統合フレームワークを提案し,ロングテールカメラトラップ認識のための2つのデータセットを提案する。 まずドメインエキスパートを設計し、各専門家がデータ不均衡に起因する不完全な決定境界のバランスをとることを学び、互いに補完してドメインバランス決定境界を生成する。 また,複数フレームのクラスアクティベーションマップが入力画像のオプティカルフローマップと一致することを期待して,移動物体に着目したフロー一貫性ロスを提案する。 さらに,WCS-LTとDMZ-LTの2つの長尾カメラトラップデータセットを導入し,本手法の有効性を検証した。 実験の結果,本手法の有効性が示され,提案手法は先行手法よりも優れていた。

Label distributions in camera-trap images are highly imbalanced and long-tailed, resulting in neural networks tending to be biased towards head-classes that appear frequently. Although long-tail learning has been extremely explored to address data imbalances, few studies have been conducted to consider camera-trap characteristics, such as multi-domain and multi-frame setup. Here, we propose a unified framework and introduce two datasets for long-tailed camera-trap recognition. We first design domain experts, where each expert learns to balance imperfect decision boundaries caused by data imbalances and complement each other to generate domain-balanced decision boundaries. Also, we propose a flow consistency loss to focus on moving objects, expecting class activation maps of multi-frame matches the flow with optical flow maps for input images. Moreover, two long-tailed camera-trap datasets, WCS-LT and DMZ-LT, are introduced to validate our methods. Experimental results show the effectiveness of our framework, and proposed methods outperform previous methods on recessive domain samples.
翻訳日:2022-02-17 02:19:40 公開日:2022-02-15
# (参考訳) 量子スパイクニューラルネットワークにおける局所最小化 [全文訳有]

Navigating Local Minima in Quantized Spiking Neural Networks ( http://arxiv.org/abs/2202.07221v1 )

ライセンス: CC BY 4.0
Jason K. Eshraghian, Corey Lammie, Mostafa Rahimi Azghadi, Wei D. Lu(参考訳) 深層学習(DL)アルゴリズムの超効率的な実装においては,スパイキングと量子ニューラルネットワーク(NN)が極めて重要になっている。 しかし、これらのネットワークは、ハードしきい値を適用する際の勾配信号の欠如により、エラーのバックプロパゲーションを用いてトレーニングする際の課題に直面している。 これを回避するために広く受け入れられているトリックは、バイアス付き勾配推定器を使用することである。スパイキングニューラルネットワーク(SNN)のしきい値に近い勾配と、量子ニューラルネットワーク(QNN)のしきい値を完全にバイパスするSTE(Straight-Through Estimator)である。 雑音下勾配フィードバックは単純な教師付き学習タスクにおいて合理的な性能をもたらすが、このようなノイズは、特に最適化の後期において、損失の風景においてオプティマを見つけることの難しさを増大させると考えられている。 トレーニング中にLR(Learning Rate)を定期的に増加させることで、ローカルなミニマやバリア、平らな表面のために到達し難い未探索のソリューション空間をネットワークがナビゲートできることを期待しています。 本稿では,量非依存の適応モーメント推定を量子化SNN(QSNN)に適用したコサインアニールLRスケジュールの体系的評価を行う。 3つのデータセットにまたがる高精度で4ビットの量子化sns上でのこの手法の厳密な実証的評価を行い、より複雑なデータセット上での最先端の性能を実証した。 私たちのソースコードはこのリンクで利用可能です。

Spiking and Quantized Neural Networks (NNs) are becoming exceedingly important for hyper-efficient implementations of Deep Learning (DL) algorithms. However, these networks face challenges when trained using error backpropagation, due to the absence of gradient signals when applying hard thresholds. The broadly accepted trick to overcoming this is through the use of biased gradient estimators: surrogate gradients which approximate thresholding in Spiking Neural Networks (SNNs), and Straight-Through Estimators (STEs), which completely bypass thresholding in Quantized Neural Networks (QNNs). While noisy gradient feedback has enabled reasonable performance on simple supervised learning tasks, it is thought that such noise increases the difficulty of finding optima in loss landscapes, especially during the later stages of optimization. By periodically boosting the Learning Rate (LR) during training, we expect the network can navigate unexplored solution spaces that would otherwise be difficult to reach due to local minima, barriers, or flat surfaces. This paper presents a systematic evaluation of a cosine-annealed LR schedule coupled with weight-independent adaptive moment estimation as applied to Quantized SNNs (QSNNs). We provide a rigorous empirical evaluation of this technique on high precision and 4-bit quantized SNNs across three datasets, demonstrating (close to) state-of-the-art performance on the more complex datasets. Our source code is available at this link: https://github.com/j eshraghian/QSNNs.
翻訳日:2022-02-17 02:08:02 公開日:2022-02-15
# (参考訳) 幾何学的に等価なグラフニューラルネットワーク:サーベイ [全文訳有]

Geometrically Equivariant Graph Neural Networks: A Survey ( http://arxiv.org/abs/2202.07230v1 )

ライセンス: CC BY 4.0
Jiaqi Han, Yu Rong, Tingyang Xu, Wenbing Huang(参考訳) 多くの科学的問題は幾何学グラフの形でデータを処理する必要がある。 一般的なグラフデータとは異なり、幾何学グラフは変換、回転および/または反射の対称性を示す。 研究者はそのような帰納的バイアスを利用し、幾何学的同変グラフニューラルネットワーク(gnns)を開発し、幾何学的グラフの幾何学的およびトポロジーをよりよく特徴付ける。 実りある成果にもかかわらず、同変GNNの進展を示すための調査がまだ欠けているため、同変GNNのさらなる発展を妨げている。 この目的のために,必要ではあるが簡潔な数学的予備条件に基づいて,gnnにおけるメッセージパッシングとアグリゲーションの表現方法に関して,既存の手法を3つのグループに分析,分類する。 また、ベンチマークと関連するデータセットを要約し、方法論開発と実験評価の後の研究を促進する。 将来的な方向性の見通しも提供される。

Many scientific problems require to process data in the form of geometric graphs. Unlike generic graph data, geometric graphs exhibit symmetries of translations, rotations, and/or reflections. Researchers have leveraged such inductive bias and developed geometrically equivariant Graph Neural Networks (GNNs) to better characterize the geometry and topology of geometric graphs. Despite fruitful achievements, it still lacks a survey to depict how equivariant GNNs are progressed, which in turn hinders the further development of equivariant GNNs. To this end, based on the necessary but concise mathematical preliminaries, we analyze and classify existing methods into three groups regarding how the message passing and aggregation in GNNs are represented. We also summarize the benchmarks as well as the related datasets to facilitate later researches for methodology development and experimental evaluation. The prospect for future potential directions is also provided.
翻訳日:2022-02-17 01:50:52 公開日:2022-02-15
# (参考訳) コンピュータビジョンにおけるディエンス予測課題のためのニューラルネットワーク探索 [全文訳有]

Neural Architecture Search for Dense Prediction Tasks in Computer Vision ( http://arxiv.org/abs/2202.07242v1 )

ライセンス: CC BY 4.0
Thomas Elsken, Arber Zela, Jan Hendrik Metzen, Benedikt Staffler, Thomas Brox, Abhinav Valada, Frank Hutter(参考訳) 近年のディープラーニングの成功は、ニューラルネットワークアーキテクチャエンジニアリングに対する需要の高まりにつながっている。 その結果、手動でではなく、データ駆動方式でニューラルネットワークアーキテクチャを自動設計することを目的としたニューラルネットワーク探索(NAS)が、一般的な研究分野として発展した。 アーキテクチャ間の重み共有戦略の出現により、NASはより広範な問題に適用できるようになった。 特に、コンピュータビジョンでは、セマンティックセグメンテーションやオブジェクト検出といったピクセルレベルの予測を必要とする密集した予測タスクに関する多くの出版物がある。 これらのタスクには、高解像度データによるメモリフットプリントの向上、マルチスケール表現の学習、より長いトレーニング時間、より複雑で大きなニューラルネットワークアーキテクチャなど、新たな課題が伴う。 本稿では,これらの新たな課題を解明し,今後の研究の容易化と既存手法の新規問題への応用について検討することで,nasの密集した予測タスクについて概説する。

The success of deep learning in recent years has lead to a rising demand for neural network architecture engineering. As a consequence, neural architecture search (NAS), which aims at automatically designing neural network architectures in a data-driven manner rather than manually, has evolved as a popular field of research. With the advent of weight sharing strategies across architectures, NAS has become applicable to a much wider range of problems. In particular, there are now many publications for dense prediction tasks in computer vision that require pixel-level predictions, such as semantic segmentation or object detection. These tasks come with novel challenges, such as higher memory footprints due to high-resolution data, learning multi-scale representations, longer training times, and more complex and larger neural architectures. In this manuscript, we provide an overview of NAS for dense prediction tasks by elaborating on these novel challenges and surveying ways to address them to ease future research and application of existing methods to novel problems.
翻訳日:2022-02-17 01:32:42 公開日:2022-02-15
# (参考訳) 学習ベクトル量子化分類器の拒絶オプションの説明 [全文訳有]

Explaining Reject Options of Learning Vector Quantization Classifiers ( http://arxiv.org/abs/2202.07244v1 )

ライセンス: CC BY 4.0
Andr\'e Artelt, Johannes Brinkrolf, Roel Visser, Barbara Hammer(参考訳) 機械学習モデルは、常に予測を出力すると仮定されるが、モデルが許容できない低い確実性のある予測しかできない入力を拒否できる拒否オプションの形で拡張も存在する。 eXplainable AIの台頭に伴い、モデル予測を説明する多くの方法が開発されている。 しかし、なぜ入力がモデルによって分類される代わりに拒否されたのかを理解することも興味深い。 驚いたことに、これまでのところ拒絶の説明は検討されていない。 提案手法は,レジェクトを説明するために反事実的説明を用い,学習ベクトル量子化モデルなどのプロトタイプベースの分類器において,異なるレジェクトオプションの反事実的説明を効率的に計算する方法を検討する。

While machine learning models are usually assumed to always output a prediction, there also exist extensions in the form of reject options which allow the model to reject inputs where only a prediction with an unacceptably low certainty would be possible. With the ongoing rise of eXplainable AI, a lot of methods for explaining model predictions have been developed. However, understanding why a given input was rejected, instead of being classified by the model, is also of interest. Surprisingly, explanations of rejects have not been considered so far. We propose to use counterfactual explanations for explaining rejects and investigate how to efficiently compute counterfactual explanations of different reject options for an important class of models, namely prototype-based classifiers such as learning vector quantization models.
翻訳日:2022-02-17 00:58:07 公開日:2022-02-15
# (参考訳) 安全なクロスプラットフォームソーシャルレコメンデーションにおけるデータスパリティの爆発 [全文訳有]

Exploiting Data Sparsity in Secure Cross-Platform Social Recommendation ( http://arxiv.org/abs/2202.07253v1 )

ライセンス: CC BY 4.0
Jamie Cui and Chaochao Chen and Lingjuan Lyu and Carl Yang and Li Wang(参考訳) ソーシャルリコメンデーションは、社会的相関データを追加のインプットとして活用するため、従来のシステムよりも有望な改善が示されている。 既存の作業の多くは、すべてのデータがレコメンデーションプラットフォームで利用できると仮定している。 しかし、実際には、ユーザとコンテンツの相互作用データ(レーティングなど)とユーザとユーザのソーシャルデータは、通常異なるプラットフォームによって生成され、どちらも機密情報を含んでいる。 ですから,“データの質が極めて低い,さまざまなプラットフォームでセキュアで効率的なソーシャルレコメンデーションを実現する方法”は,依然として重要な課題です。 本研究では,ソーシャルレコメンデーションにセキュアな計算手法を導入し,分散性を考慮したセキュアなクロスプラットフォームソーシャルレコメンデーションフレームワークであるS3Recを提案する。 その結果,ソーシャルプラットフォーム上でスパースなソーシャルデータを取り入れることで,評価プラットフォームのレコメンデーションパフォーマンスを向上させるだけでなく,両プラットフォームのデータのプライバシを保護することが可能となった。 さらに,モデル学習効率をさらに向上するために,同型暗号とプライベート情報検索に基づく2つのセキュアスパース行列乗算プロトコルを提案する。 2つのベンチマークデータセットに対する実験により,S3Recの有効性が示された。

Social recommendation has shown promising improvements over traditional systems since it leverages social correlation data as an additional input. Most existing work assumes that all data are available to the recommendation platform. However, in practice, user-item interaction data (e.g.,rating) and user-user social data are usually generated by different platforms, and both of which contain sensitive information. Therefore, "How to perform secure and efficient social recommendation across different platforms, where the data are highly-sparse in nature" remains an important challenge. In this work, we bring secure computation techniques into social recommendation, and propose S3Rec, a sparsity-aware secure cross-platform social recommendation framework. As a result, our model can not only improve the recommendation performance of the rating platform by incorporating the sparse social data on the social platform, but also protect data privacy of both platforms. Moreover, to further improve model training efficiency, we propose two secure sparse matrix multiplication protocols based on homomorphic encryption and private information retrieval. Our experiments on two benchmark datasets demonstrate the effectiveness of S3Rec.
翻訳日:2022-02-17 00:37:48 公開日:2022-02-15
# (参考訳) REPID:暗黙的相互作用検出による地域効果プロット [全文訳有]

REPID: Regional Effect Plots with implicit Interaction Detection ( http://arxiv.org/abs/2202.07254v1 )

ライセンス: CC BY 4.0
Julia Herbinger and Bernd Bischl and Giuseppe Casalicchio(参考訳) 機械学習モデルは、非線形や相互作用効果などの複雑な関係を自動的に学習することができる。 部分依存プロットのような解釈可能な機械学習手法は、限界特徴効果を可視化するが、特徴相互作用が存在する場合の誤解を招く可能性がある。 したがって、機械学習モデルの内部動作をよりよく理解するために、相互作用の強さを検出し測定できる追加の手法が最重要である。 既存のグローバルインタラクション検出手法のいくつかの欠点を実証し、理論的に特徴付け、経験的に評価する。 さらに、興味のある特徴と他の特徴との相互作用を検出する新しい枠組みである暗黙の相互作用検出を用いた地域効果プロットを導入する。 このフレームワークはまた、相互作用の強さを定量化し、相互作用によって理解されにくくなるため、特徴効果をより確実に解釈できる解釈可能な異なる領域を提供する。 本手法の理論的適性を証明するとともに,シミュレーションや実世界の実例への適用性を示す。

Machine learning models can automatically learn complex relationships, such as non-linear and interaction effects. Interpretable machine learning methods such as partial dependence plots visualize marginal feature effects but may lead to misleading interpretations when feature interactions are present. Hence, employing additional methods that can detect and measure the strength of interactions is paramount to better understand the inner workings of machine learning models. We demonstrate several drawbacks of existing global interaction detection approaches, characterize them theoretically, and evaluate them empirically. Furthermore, we introduce regional effect plots with implicit interaction detection, a novel framework to detect interactions between a feature of interest and other features. The framework also quantifies the strength of interactions and provides interpretable and distinct regions in which feature effects can be interpreted more reliably, as they are less confounded by interactions. We prove the theoretical eligibility of our method and show its applicability on various simulation and real-world examples.
翻訳日:2022-02-17 00:23:41 公開日:2022-02-15
# (参考訳) Media Slantは感染性がある

Media Slant is Contagious ( http://arxiv.org/abs/2202.07269v1 )

ライセンス: CC BY 4.0
Philine Widmer, Sergio Galletta, and Elliott Ash(参考訳) 本稿では,全国ケーブルテレビニュースのパルチザンコンテンツが米国新聞の地域報道に与える影響について分析する。 我々は,Fox News Channel(FNC),CNN,MSN BC(2005-2008)の40K字幕テレビエピソードのコーパスに基づいて学習した,新しい学習に基づくケーブルニューススラント尺度を提供する。 この手法を24mのローカル新聞記事のコーパスに適用すると、cnn/msnbcに対するfncのローカル視聴者の増加に対応して、ローカル新聞記事は(その逆も)fncの書き起こしとより似ていることが分かる。 読者の好みの変化に反応する新聞とは対照的に、ケーブルニュースコンテンツを直接借りるのではなく、地域のニュース報道のフレーミングの変化が見られる。 右利きの新聞は右利きのFNC言語を採用する傾向があり、左利きの新聞は左利きになる傾向にある。 メディアスラントは伝染性です。

This paper analyzes the influence of partisan content from national cable TV news on local reporting in U.S. newspapers. We provide a new machine-learning-bas ed measure of cable news slant, trained on a corpus of 40K transcribed TV episodes from Fox News Channel (FNC), CNN, and MSNBC (2005-2008). Applying the method to a corpus of 24M local newspaper articles, we find that in response to an exogenous increase in local viewership of FNC relative to CNN/MSNBC, local newspaper articles become more similar to FNC transcripts (and vice versa). Consistent with newspapers responding to changes in reader preferences, we see a shift in the framing of local news coverage rather than just direct borrowing of cable news content. Further, cable news slant polarizes local news content: right-leaning newspapers tend to adopt right-wing FNC language, while left-leaning newspapers tend to become more left-wing. Media slant is contagious.
翻訳日:2022-02-16 23:26:37 公開日:2022-02-15
# (参考訳) 会話検索におけるショートカット依存からの難読化 [全文訳有]

Saving Dense Retriever from Shortcut Dependency in Conversational Search ( http://arxiv.org/abs/2202.07280v1 )

ライセンス: CC BY 4.0
Sungdong Kim, Gangwoo Kim(参考訳) 対話型検索(CS)では、関連する経路を検索するために、対話型入力に関する全体的理解が必要である。 本稿では, csにおける検索ショートカットの存在を実証し, モデルが最新の質問を無視しながら, 部分的履歴のみに依存する通路を検索できるようにする。 詳細な分析を行えば,ナイーブに訓練された密集したレトリバーがショートカットを大いに活用していることが分かる。 モデルがショートカットにのみ依存することを防止するため,事前訓練された高密度レトリバーによって抽出された反復的硬い負を探索する。 実験結果から,反復的強陰性トレーニングはショートカットへの依存性を効果的に軽減し,最近のCSベンチマークで大幅な改善が得られた。 検索の結果は,QReCCではRecall@10で9.7,TopiOCQAではRecall@5で12.4で,従来最高のモデルを上回った。 さらに,本研究の終末QA実験では,従来の最先端モデルの3.7 EMとTopiOCQAの1.0 EMをそれぞれ上回った。

In conversational search (CS), it needs holistic understanding over conversational inputs to retrieve relevant passages. In this paper, we demonstrate the existence of a retrieval shortcut in CS, which causes models to retrieve passages solely relying on partial history while disregarding the latest question. With in-depth analysis, we first show naively trained dense retrievers heavily exploit the shortcut and hence perform poorly when asked to answer history-independent questions. To prevent models from solely relying on the shortcut, we explore iterative hard negatives mined by pre-trained dense retrievers. Experimental results show that training with the iterative hard negatives effectively mitigates the dependency on the shortcut and makes substantial improvement on recent CS benchmarks. Our retrievers achieve new state-of-the-art results, outperforming the previous best models by 9.7 in Recall@10 on QReCC and 12.4 in Recall@5 on TopiOCQA. Furthermore, in our end-to-end QA experiments, FiD readers combined with our retrievers surpass the previous state-of-the-art models by 3.7 and 1.0 EM scores on QReCC and TopiOCQA, respectively.
翻訳日:2022-02-16 23:25:21 公開日:2022-02-15
# (参考訳) 訓練をやめるな: 自己教師付きアルゴリズムが脳皮質の聴覚反応に最適な理由 [全文訳有]

Don't stop the training: continuously-updatin g self-supervised algorithms best account for auditory responses in the cortex ( http://arxiv.org/abs/2202.07290v1 )

ライセンス: CC BY 4.0
Pierre Orhan, Yves Boubenec, Jean-R\'emi King(参考訳) 過去10年間に多くの研究が、深層ニューラルネットワークが哺乳類の脳と同様の感覚表現を示し、その活性化が同じ感覚入力に対する皮質反応に線形にマッピングされていることを示した。 しかし、これらの人工ネットワークが脳のように学習するかどうかは不明だ。 この問題に対処するために,機能的超音波画像(fus)で記録されたフェレット聴覚皮質2つの脳反応を解析し,動物に32010\,s音を提示した。 これらの脳反応を,960\,hの音声で事前学習された自己教師付きニューラルネットワークwav2vec 2.0の活性化と,同じ320音の入力と比較した。 Wav2vec 2.0を2つの異なるモードで評価する。 (i)全ての音に同じモデルを用いる「予習」、 (II)事前訓練されたモデルの重みを各音の後に後方伝搬で修正し、フェレットと同じ順序で提示する「連続更新」。 以上の結果から,wav2vec 2.0は,事前学習されたwav2vec 2.0や,異なるトレーニングモードを用いた他の制御モデルよりも脳に類似したアクティベーションを生成する。 これらの結果は, バックプロパゲーションによって誘導される自己教師付きアルゴリズムの試行錯誤が, 音に対する皮質反応の変動と一致することを示唆している。 その結果,音処理における自己教師モデルと大脳皮質間の共通学習機構の実証的証拠が得られた。

Over the last decade, numerous studies have shown that deep neural networks exhibit sensory representations similar to those of the mammalian brain, in that their activations linearly map onto cortical responses to the same sensory inputs. However, it remains unknown whether these artificial networks also learn like the brain. To address this issue, we analyze the brain responses of two ferret auditory cortices recorded with functional UltraSound imaging (fUS), while the animals were presented with 320 10\,s sounds. We compare these brain responses to the activations of Wav2vec 2.0, a self-supervised neural network pretrained with 960\,h of speech, and input with the same 320 sounds. Critically, we evaluate Wav2vec 2.0 under two distinct modes: (i) "Pretrained", where the same model is used for all sounds, and (ii) "Continuous Update", where the weights of the pretrained model are modified with back-propagation after every sound, presented in the same order as the ferrets. Our results show that the Continuous-Update mode leads Wav2Vec 2.0 to generate activations that are more similar to the brain than a Pretrained Wav2Vec 2.0 or than other control models using different training modes. These results suggest that the trial-by-trial modifications of self-supervised algorithms induced by back-propagation aligns with the corresponding fluctuations of cortical responses to sounds. Our finding thus provides empirical evidence of a common learning mechanism between self-supervised models and the mammalian cortex during sound processing.
翻訳日:2022-02-16 23:03:59 公開日:2022-02-15
# (参考訳) ViNTER:感情認識型トランスを用いたイメージナラティブ生成 [全文訳有]

ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer ( http://arxiv.org/abs/2202.07305v1 )

ライセンス: CC BY 4.0
Kohei Uehara, Yusuke Mori, Yusuke Mukuta, Tatsuya Harada(参考訳) 画像ナラティブ生成は、主観的視点から画像データの内容に関するストーリーの作成を記述する。 ストーリーテリングにおいて、作家、登場人物、読者の主観的な感情の重要性から、イメージナラティブ生成手法は人間の感情を考慮すべきであり、これは記述的キャプション生成タスクとの主な違いである。 画像に関連付けられた物語的テキストを自動生成する手法の開発は、エンターテイメントや教育や広告など多くの実用目的のために重要な機能を持つため、社会的な意味を持つと考えられる。 本研究では,多変圧器を用いた事前学習モデルにおける最近の進歩を活かし,多様な感情を表す時系列を「感情アーク」として表現する画像ナラティブを生成するvinter(visual narrative transformer with emotion arc representation)モデルを提案する。 本稿では,手動評価と自動評価を併用し,画像物語生成に対する感情認識アプローチの有効性を実証する実験結果を示す。

Image narrative generation describes the creation of stories regarding the content of image data from a subjective viewpoint. Given the importance of the subjective feelings of writers, characters, and readers in storytelling, image narrative generation methods must consider human emotion, which is their major difference from descriptive caption generation tasks. The development of automated methods to generate story-like text associated with images may be considered to be of considerable social significance, because stories serve essential functions both as entertainment and also for many practical purposes such as education and advertising. In this study, we propose a model called ViNTER (Visual Narrative Transformer with Emotion arc Representation) to generate image narratives that focus on time series representing varying emotions as "emotion arcs," to take advantage of recent advances in multimodal Transformer-based pre-trained models. We present experimental results of both manual and automatic evaluations, which demonstrate the effectiveness of the proposed emotion-aware approach to image narrative generation.
翻訳日:2022-02-16 22:51:58 公開日:2022-02-15
# (参考訳) HAA4D:3次元時空間骨格アライメントによる人体原子行動認識 [全文訳有]

HAA4D: Few-Shot Human Atomic Action Recognition via 3D Spatio-Temporal Skeletal Alignment ( http://arxiv.org/abs/2202.07308v1 )

ライセンス: CC BY 4.0
Mu-Ruei Tseng, Abhishek Gupta, Chi-Keung Tang, Yu-Wing Tai(参考訳) 人間の行動には複雑なポーズのバリエーションがあり、2Dプロジェクションは非常に曖昧である。 したがって、3d時空間または4d(すなわち3d+t)のヒト骨格は、測光および視点不変であり、2d+t骨格/画素の優れた代替であり、行動認識精度を向上させる。 本稿では,300以上の原子行動クラスに3300以上のRGBビデオからなる新しい4DデータセットHAA4Dを提案する。 HAA4Dはクリーンで多様なクラスバランスを持ち、各クラスは4Dスケルトンを使用し、クラスごとに1つの4Dスケルトンしか深層認識モデルのトレーニングに十分ではない。 さらに、アトミックアクションの選択は、各ビデオクリップがわずか数秒しか続かないため、アノテーションをより簡単にする。 HAA4Dの全ての3D骨格の訓練と試験は、同じグローバル空間に深いアライメントモデルを用いて、全世界的に整列されており、各骨格は負のz方向に直面している。 このようなアライメントにより、クラス内変異を減らし、アクション認識に必要なクラス毎のトレーニングサンプルを少なくすることで、マッチングスケルトンがより安定する。 HAA4Dにおける高多様性と骨格アライメントを前提として、ベルやホイッスルを使わずに最初のベースラインの4D人間の原子行動認識ネットワークを構築し、無数のトレーニングサンプルを用いて、明示的な骨格アライメントを伴わずに埋め込み空間エンコーディングに依存した最先端技術と同等または高い性能を生み出す。

Human actions involve complex pose variations and their 2D projections can be highly ambiguous. Thus 3D spatio-temporal or 4D (i.e., 3D+T) human skeletons, which are photometric and viewpoint invariant, are an excellent alternative to 2D+T skeletons/pixels to improve action recognition accuracy. This paper proposes a new 4D dataset HAA4D which consists of more than 3,300 RGB videos in 300 human atomic action classes. HAA4D is clean, diverse, class-balanced where each class is viewpoint-balanced with the use of 4D skeletons, in which as few as one 4D skeleton per class is sufficient for training a deep recognition model. Further, the choice of atomic actions makes annotation even easier, because each video clip lasts for only a few seconds. All training and testing 3D skeletons in HAA4D are globally aligned, using a deep alignment model to the same global space, making each skeleton face the negative z-direction. Such alignment makes matching skeletons more stable by reducing intraclass variations and thus with fewer training samples per class needed for action recognition. Given the high diversity and skeletal alignment in HAA4D, we construct the first baseline few-shot 4D human atomic action recognition network without bells and whistles, which produces comparable or higher performance than relevant state-of-the-art techniques relying on embedded space encoding without explicit skeletal alignment, using the same small number of training samples of unseen classes.
翻訳日:2022-02-16 22:36:51 公開日:2022-02-15
# (参考訳) ソーシャルメディア画像を用いた建築機能分類 [全文訳有]

Using Social Media Images for Building Function Classification ( http://arxiv.org/abs/2202.07315v1 )

ライセンス: CC BY-SA 4.0
Eike Jens Hoffmann, Karam Abdulahhad, and Xiao Xiang Zhu(参考訳) 建築物のインスタンスレベルでの土地利用は多くの用途において重要な地理情報であり、入手は困難である。 このギャップを閉じるための直感的なアプローチは、地上画像から建物機能を予測することである。 ソーシャルメディア画像プラットフォームには何十億もの画像が含まれており、様々なモチーフがあるが、ストリートパースペクティブに限定されない。 そこで本研究では,大規模なソーシャルメディア画像データセットから高品質で地上レベルの画像を得るフィルタリングパイプラインを提案する。 パイプラインは、すべての画像がコンパス方向の完全かつ有効なジオタグを持ち、地図からの画像の内容と空間オブジェクトを関連付けることを保証する。 われわれの方法では、世界中の42都市から2800万枚以上の画像で、文化的に多様なソーシャルメディアデータセットをFlickrから分析する。 得られたデータセットは、3クラス構築関数分類タスクのコンテキストで評価される。 この研究で考慮されている3つの建築クラスは、商業、住宅、その他である。 微細調整された最先端アーキテクチャでは、フィルタ画像上でF1スコアが最大0.51になる。 分析の結果,openstreetmap から得られるラベルの品質により,ヒトの検証ラベルのみを考慮すれば0.2%向上することが明らかとなった。 したがって、これらのラベルは弱いとみなし、パイプラインから得られた画像を、弱いラベル付きデータセットとして示す建物と共に公開する。

Urban land use on a building instance level is crucial geo-information for many applications, yet difficult to obtain. An intuitive approach to close this gap is predicting building functions from ground level imagery. Social media image platforms contain billions of images, with a large variety of motifs including but not limited to street perspectives. To cope with this issue this study proposes a filtering pipeline to yield high quality, ground level imagery from large social media image datasets. The pipeline ensures that all resulting images have full and valid geotags with a compass direction to relate image content and spatial objects from maps. We analyze our method on a culturally diverse social media dataset from Flickr with more than 28 million images from 42 cities around the world. The obtained dataset is then evaluated in a context of 3-classes building function classification task. The three building classes that are considered in this study are: commercial, residential, and other. Fine-tuned state-of-the-art architectures yield F1-scores of up to 0.51 on the filtered images. Our analysis shows that the performance is highly limited by the quality of the labels obtained from OpenStreetMap, as the metrics increase by 0.2 if only human validated labels are considered. Therefore, we consider these labels to be weak and publish the resulting images from our pipeline together with the buildings they are showing as a weakly labeled dataset.
翻訳日:2022-02-16 22:34:05 公開日:2022-02-15
# (参考訳) マルチマルジナルカップリングを用いたBlottoゲームに対するアルゴリズム的解法

An algorithmic solution to the Blotto game using multi-marginal couplings ( http://arxiv.org/abs/2202.07318v1 )

ライセンス: CC BY 4.0
Vianney Perchet and Philippe Rigollet and Thibaut Le Gouic(参考訳) 本稿では,n個の戦場における2人プレイのブロットゲームに対する解の計算アルゴリズムについて述べる。 そのような解に対する明示的な構成は、特定の、ほとんど対称または均質な設定に限定されているが、このアルゴリズムによる解決は、現在最も一般的な状況、すなわち非対称予算の値非対称ゲームをカバーする。 提案アルゴリズムは、行列とテンソルスケーリングのシンクホーン反復に関する最近の理論的進歩に基づいている。 以前の試みから外れていた重要なケースは、非対称な予算を持つ不均一だが対称な戦場値である。 この場合、ブロットゲームは定数サムであり、最適解が存在し、我々のアルゴリズムは予算と戦場の値とは独立に、時間 O(n^2 + \eps^{-4}) における \eps-optimal solution からサンプリングする。 最適解が存在しないがnash平衡が存在しない非対称値の場合、同様の複雑性を持つが、暗黙定数が戦場の値のようなゲームの様々なパラメータに依存する場合、アルゴリズムは \eps-nash平衡からサンプルする。

We describe an efficient algorithm to compute solutions for the general two-player Blotto game on n battlefields with heterogeneous values. While explicit constructions for such solutions have been limited to specific, largely symmetric or homogeneous, setups, this algorithmic resolution covers the most general situation to date: value-asymmetric game with asymmetric budget. The proposed algorithm rests on recent theoretical advances regarding Sinkhorn iterations for matrix and tensor scaling. An important case which had been out of reach of previous attempts is that of heterogeneous but symmetric battlefield values with asymmetric budget. In this case, the Blotto game is constant-sum so optimal solutions exist, and our algorithm samples from an \eps-optimal solution in time O(n^2 + \eps^{-4}), independently of budgets and battlefield values. In the case of asymmetric values where optimal solutions need not exist but Nash equilibria do, our algorithm samples from an \eps-Nash equilibrium with similar complexity but where implicit constants depend on various parameters of the game such as battlefield values.
翻訳日:2022-02-16 22:18:24 公開日:2022-02-15
# (参考訳) 一般化とリスク-エントロピー曲線 [全文訳有]

Generalisation and the Risk--Entropy Curve ( http://arxiv.org/abs/2202.07350v1 )

ライセンス: CC BY 4.0
Dominic Belcher, Antonia Marcu, Adam Pr\"ugel-Bennett(参考訳) 本稿では,学習機械の予測一般化性能が,リスクの分布,すなわちその対数(リスクエントロピーと呼ぶ量)と,トレーニング比率と呼ぶ量の変動によって決定されることを示す。 マルコフ連鎖モンテカルロ法を用いた深層ニューラルネットワークモデルにおいて,リスクエントロピーは経験的に推定できることを示す。 様々な問題に対する異なるディープニューラルネットワークに対して結果が示される。 リスクエントロピーの漸近挙動は、学習機械の能力と類似して作用するが、現実的な状況で経験した一般化性能は、漸近的体制に達する前のリスクエントロピーの挙動によって決定される。 このパフォーマンスは、学習マシンの能力だけでなく、データ(機能とターゲット)の分散に大きく依存します。

In this paper we show that the expected generalisation performance of a learning machine is determined by the distribution of risks or equivalently its logarithm -- a quantity we term the risk entropy -- and the fluctuations in a quantity we call the training ratio. We show that the risk entropy can be empirically inferred for deep neural network models using Markov Chain Monte Carlo techniques. Results are presented for different deep neural networks on a variety of problems. The asymptotic behaviour of the risk entropy acts in an analogous way to the capacity of the learning machine, but the generalisation performance experienced in practical situations is determined by the behaviour of the risk entropy before the asymptotic regime is reached. This performance is strongly dependent on the distribution of the data (features and targets) and not just on the capacity of the learning machine.
翻訳日:2022-02-16 22:16:39 公開日:2022-02-15
# (参考訳) textless-lib:textles s Spoken Language Processingのためのライブラリ [全文訳有]

textless-lib: a Library for Textless Spoken Language Processing ( http://arxiv.org/abs/2202.07359v1 )

ライセンス: CC BY-SA 4.0
Eugene Kharitonov and Jade Copet and Kushal Lakhotia and Tu Anh Nguyen and Paden Tomasello and Ann Lee and Ali Elkahky and Wei-Ning Hsu and Abdelrahman Mohamed and Emmanuel Dupoux and Yossi Adi(参考訳) テキストレス音声言語処理研究は、標準nlpツールセットを音声言語や言語に適用可能にすることを目的としている。 本稿では,この研究分野の研究を容易にすることを目的としたpytorchベースのライブラリであるtextless-libを提案する。 ライブラリが提供するビルディングブロックについて説明するとともに,3つの異なるユースケースについて論じて,そのユーザビリティを実証する。 (i)話者探索, (ii)音声の再生・圧縮、及び (iii)発話継続。 我々は、テキストレスlibは、テキストレスセッティングを実質的に単純化し、音声研究者だけでなく、NLPコミュニティ全体にとっても一握りのものになるだろうと考えている。 コード、ドキュメンテーション、事前学習されたモデルはhttps://github.com/f acebookresearch/text lesslib/で入手できる。

Textless spoken language processing research aims to extend the applicability of standard NLP toolset onto spoken language and languages with few or no textual resources. In this paper, we introduce textless-lib, a PyTorch-based library aimed to facilitate research in this research area. We describe the building blocks that the library provides and demonstrate its usability by discuss three different use-case examples: (i) speaker probing, (ii) speech resynthesis and compression, and (iii) speech continuation. We believe that textless-lib substantially simplifies research the textless setting and will be handful not only for speech researchers but also for the NLP community at large. The code, documentation, and pre-trained models are available at https://github.com/f acebookresearch/text lesslib/ .
翻訳日:2022-02-16 21:51:23 公開日:2022-02-15
# (参考訳) ディープラーニングによる燃料電池電極のx線画像の異常検出 [全文訳有]

Deep Learning-based Anomaly Detection on X-ray Images of Fuel Cell Electrodes ( http://arxiv.org/abs/2202.07361v1 )

ライセンス: CC BY 4.0
Simon B. Jensen, Thomas B. Moeslund, S{\o}ren J. Andreasen(参考訳) X線画像の異常検出は、特に医療用X線画像の領域において、ここ数十年で活発で永続的な研究領域となっている。 本研究では,白金触媒溶液を被覆した燃料電池電極の16ビットX線画像データからなる実世界のラベル付き異常データセットを作成し,深層学習による異常検出を行った。 このデータセットは、電極が例えば、引っかき傷、泡、汚泥などを含む11の共通異常を有する多様な異常セットを含む。 16ビット画像から8ビット画像への変換を実験し、事前学習された畳み込みニューラルネットワークを特徴抽出器(転送学習)として活用し、ヒストグラム等化による16ビットから8ビットの変換において、データセット全体のコントラストを最大化することで、最高の性能を得る。 本研究は, 異常を有する燃料電池電極を異常と呼ばれる単一クラス, 正常な燃料電池電極を正常と呼ばれるクラスに分類し, 異常検出問題を二分分類問題に抽象化する。 平衡精度85.18\%を達成する。 異常検出は、燃料電池電極の品質管理に要する時間を最適化するために、Sernergy社によって使用される。

Anomaly detection in X-ray images has been an active and lasting research area in the last decades, especially in the domain of medical X-ray images. For this work, we created a real-world labeled anomaly dataset, consisting of 16-bit X-ray image data of fuel cell electrodes coated with a platinum catalyst solution and perform anomaly detection on the dataset using a deep learning approach. The dataset contains a diverse set of anomalies with 11 identified common anomalies where the electrodes contain e.g. scratches, bubbles, smudges etc. We experiment with 16-bit image to 8-bit image conversion methods to utilize pre-trained Convolutional Neural Networks as feature extractors (transfer learning) and find that we achieve the best performance by maximizing the contrasts globally across the dataset during the 16-bit to 8-bit conversion, through histogram equalization. We group the fuel cell electrodes with anomalies into a single class called abnormal and the normal fuel cell electrodes into a class called normal, thereby abstracting the anomaly detection problem into a binary classification problem. We achieve a balanced accuracy of 85.18\%. The anomaly detection is used by the company, Serenergy, for optimizing the time spend on the quality control of the fuel cell electrodes
翻訳日:2022-02-16 21:38:13 公開日:2022-02-15
# (参考訳) muld: マルチタスクのロングドキュメントベンチマーク [全文訳有]

MuLD: The Multitask Long Document Benchmark ( http://arxiv.org/abs/2202.07362v1 )

ライセンス: CC BY 4.0
G Thomas Hudson, Noura Al Moubayed(参考訳) NLP技術の顕著な進歩は、GLUEやSuperGLUEといったマルチタスクベンチマークの開発によってもたらされている。 これらのベンチマークは1つまたは2つの入力文のタスクに焦点を当てているが、より長い入力を処理するための効率的なテクニックを設計することにはエキサイティングな取り組みがある。 本稿では、1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークである MuLD を提案する。 既存のNLPタスクを変更することで、テキスト内の長期依存関係をモデルでモデル化するために必要な多様なベンチマークを作成する。 既存のモデルのパフォーマンスを評価し、ベンチマークが ‘short document’ 同等のものよりもずっと難しいことを見出します。 さらに, 正規および効率的な変換器の評価により, 文脈長の増大したモデルの方が, 提示した課題をよりよく解決できることが示され, これらのモデルの将来的な改善が, 同様の長期文書問題の解決に不可欠であることが示唆された。 我々は、効率的なNLPモデルの研究を促進するために、ベースラインのデータとコードをリリースする。

The impressive progress in NLP techniques has been driven by the development of multi-task benchmarks such as GLUE and SuperGLUE. While these benchmarks focus on tasks for one or two input sentences, there has been exciting work in designing efficient techniques for processing much longer inputs. In this paper, we present MuLD: a new long document benchmark consisting of only documents over 10,000 tokens. By modifying existing NLP tasks, we create a diverse benchmark which requires models to successfully model long-term dependencies in the text. We evaluate how existing models perform, and find that our benchmark is much more challenging than their `short document' equivalents. Furthermore, by evaluating both regular and efficient transformers, we show that models with increased context length are better able to solve the tasks presented, suggesting that future improvements in these models are vital for solving similar long document problems. We release the data and code for baselines to encourage further research on efficient NLP models.
翻訳日:2022-02-16 21:25:15 公開日:2022-02-15
# (参考訳) 新規決定問題におけるゼロショット支援 [全文訳有]

Zero-Shot Assistance in Novel Decision Problems ( http://arxiv.org/abs/2202.07364v1 )

ライセンス: CC BY 4.0
Sebastiaan De Peuter, Samuel Kaski(参考訳) エージェントがアシスタントに明示的に報酬関数を指定できないことを前提に、エージェント(しばしば人間)が新たなシーケンシャルな意思決定問題を解決するのを助けるアシスタントを作成する問題を考える。 現在のアプローチのようにエージェントに代わって自動化し、行動することを目指すのではなく、アシスタントに助言の役割を与え、エージェントを主要な意思決定者としてループに留める。 難しいのは、エージェントの制限や制約によって引き起こされる潜在的なバイアスを考慮しなければならないということです。 これを実現するために、これらのバイアスをモデル化する新しい支援の形式化を導入し、アシスタントがそれらを推測し、適応できるようにします。 次に,大規模な意思決定問題にスケール可能なアシスタントのアドバイスを計画するための新しい手法を提案する。 最後に,本手法がエージェントバイアスに適応することを示した結果,自動化方式よりもエージェントに対する累積報酬が高かった。

We consider the problem of creating assistants that can help agents - often humans - solve novel sequential decision problems, assuming the agent is not able to specify the reward function explicitly to the assistant. Instead of aiming to automate, and act in place of the agent as in current approaches, we give the assistant an advisory role and keep the agent in the loop as the main decision maker. The difficulty is that we must account for potential biases induced by limitations or constraints of the agent which may cause it to seemingly irrationally reject advice. To do this we introduce a novel formalization of assistance that models these biases, allowing the assistant to infer and adapt to them. We then introduce a new method for planning the assistant's advice which can scale to large decision making problems. Finally, we show experimentally that our approach adapts to these agent biases, and results in higher cumulative reward for the agent than automation-based alternatives.
翻訳日:2022-02-16 21:09:04 公開日:2022-02-15
# (参考訳) EdgeIoTにおけるオンラインリソース割り当てのための深層強化学習支援フェデレーションラーニングの探索 [全文訳有]

Exploring Deep Reinforcement Learning-Assisted Federated Learning for Online Resource Allocation in EdgeIoT ( http://arxiv.org/abs/2202.07391v1 )

ライセンス: CC BY 4.0
Jingjing Zheng, Kai Li, Naram Mhaisen, Wei Ni, Eduardo Tovar, Mohsen Guizani(参考訳) フェデレートラーニング(FL)は、モバイルエッジコンピューティングベースのInternet of Thing(EdgeIoT)における盗聴攻撃からデータトレーニングプライバシを保護するものとして、ますます検討されている。 一方、FLの学習精度は、トレーニング用の大きなデータセットでIoTデバイスを選択することで改善され、より高いエネルギー消費がもたらされる。 一方、FL用の小さなデータセットでIoTデバイスを選択して、学習精度を低下させることで、エネルギー消費量を削減できる。 本稿では、FLの学習精度とIoTデバイスのエネルギー消費のバランスをとるために、EdgeIoTの新しいリソース割り当て問題を定式化する。 本稿では,連続領域における最適精度とエネルギーバランスを達成するために,新しいフェデレート学習可能な二重遅延型ディープ決定論的政策勾配(fldlt3)フレームワークを提案する。 さらに、fl-dlt3ではlong short term memory(lstm)を利用して時間変動ネットワーク状態を予測し、fl-dlt3ではiotデバイスの選択と送信電力の割り当てを訓練する。 その結果、FL-DLT3は100回未満の高速収束を実現し、FLの精度-エネルギー消費比は既存の最先端ベンチマークと比較して51.8%向上した。

Federated learning (FL) has been increasingly considered to preserve data training privacy from eavesdropping attacks in mobile edge computing-based Internet of Thing (EdgeIoT). On the one hand, the learning accuracy of FL can be improved by selecting the IoT devices with large datasets for training, which gives rise to a higher energy consumption. On the other hand, the energy consumption can be reduced by selecting the IoT devices with small datasets for FL, resulting in a falling learning accuracy. In this paper, we formulate a new resource allocation problem for EdgeIoT to balance the learning accuracy of FL and the energy consumption of the IoT device. We propose a new federated learning-enabled twin-delayed deep deterministic policy gradient (FLDLT3) framework to achieve the optimal accuracy and energy balance in a continuous domain. Furthermore, long short term memory (LSTM) is leveraged in FL-DLT3 to predict the time-varying network state while FL-DLT3 is trained to select the IoT devices and allocate the transmit power. Numerical results demonstrate that the proposed FL-DLT3 achieves fast convergence (less than 100 iterations) while the FL accuracy-to-energy consumption ratio is improved by 51.8% compared to existing state-of-the-art benchmark.
翻訳日:2022-02-16 20:52:19 公開日:2022-02-15
# (参考訳) 多段階サブゴール探索による解釈型強化学習 [全文訳有]

Interpretable Reinforcement Learning with Multilevel Subgoal Discovery ( http://arxiv.org/abs/2202.07414v1 )

ライセンス: CC BY 4.0
Alexander Demin and Denis Ponomaryov(参考訳) 本研究は, 本質的に解釈可能であり, 深層階層の発見を支援する, 離散環境のための新しい強化学習モデルを提案する。 モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習し、一方(サブ)ゴールに対するポリシーはその組み合わせとして学習される。 学習には報酬関数は不要であり、エージェントは達成するための主要な目標のみを与える必要がある。 これらの状態記述は、エージェントのルール言語に新しいセンサーが述語として導入され、重要な中間状態を検知し、それに従って環境ルールとポリシーを更新することができる。

We propose a novel Reinforcement Learning model for discrete environments, which is inherently interpretable and supports the discovery of deep subgoal hierarchies. In the model, an agent learns information about environment in the form of probabilistic rules, while policies for (sub)goals are learned as combinations thereof. No reward function is required for learning; an agent only needs to be given a primary goal to achieve. Subgoals of a goal G from the hierarchy are computed as descriptions of states, which if previously achieved increase the total efficiency of the available policies for G. These state descriptions are introduced as new sensor predicates into the rule language of the agent, which allows for sensing important intermediate states and for updating environment rules and policies accordingly.
翻訳日:2022-02-16 20:32:20 公開日:2022-02-15
# (参考訳) 光の変動に対するロバストCNNの事前補正モジュール [全文訳有]

A precortical module for robust CNNs to light variations ( http://arxiv.org/abs/2202.07432v1 )

ライセンス: CC BY 4.0
R. Fioresi, J. Petkovic(参考訳) 本研究は,哺乳類の低視野路の簡易な数学的モデルを示し,その重要な要素である網膜,側原性核(lgn),一次視覚野(v1)について考察する。 視覚系の皮質レベルと画像分類タスクで使用される一般的なcnnの構造との類似性は、入力画像の光強度とコントラストの変動に対するロバスト性を改善するために、前皮質神経回路にインスパイアされた予備畳み込みモジュールの導入を示唆している。 我々は、MNIST、FashionMNIST、SVHNといった人気データベース上で仮説を検証し、これらのバリエーションに関してより堅牢なCNNを得る。

We present a simple mathematical model for the mammalian low visual pathway, taking into account its key elements: retina, lateral geniculate nucleus (LGN), primary visual cortex (V1). The analogies between the cortical level of the visual system and the structure of popular CNNs, used in image classification tasks, suggests the introduction of an additional preliminary convolutional module inspired to precortical neuronal circuits to improve robustness with respect to global light intensity and contrast variations in the input images. We validate our hypothesis on the popular databases MNIST, FashionMNIST and SVHN, obtaining significantly more robust CNNs with respect to these variations, once such extra module is added.
翻訳日:2022-02-16 20:09:58 公開日:2022-02-15
# (参考訳) DualConv: 軽量ディープニューラルネットワークのためのデュアル畳み込みカーネル [全文訳有]

DualConv: Dual Convolutional Kernels for Lightweight Deep Neural Networks ( http://arxiv.org/abs/2202.07481v1 )

ライセンス: CC BY 4.0
Jiachen Zhong, Junying Chen and Ajmal Mian(参考訳) CNNアーキテクチャは一般にメモリと計算の要求に重きを置いており、ハードウェアリソースが限られている組み込みシステムでは利用できない。 本稿では,軽量深層ニューラルネットワーク構築のためのデュアル畳み込みカーネル(DualConv)を提案する。 DualConvは3$\times$3と1$\times$1の畳み込みカーネルを組み合わせて同じ入力特徴写像チャネルを同時に処理し、グループ畳み込み技術を利用して畳み込みフィルタを効率的に配置する。 DualConvは画像分類にはVGG-16やResNet-50、オブジェクト検出にはYOLO、R-CNN、セマンティックセグメンテーションにはFCNなど、任意のCNNモデルで利用できる。 本稿では,これらのネットワークアーキテクチャが他のタスクのバックボーンを形成するため,分類のためのDualConvを広範囲にテストする。 また, YOLO-V3画像検出のためのDualConvについても検討した。 実験の結果、dualconvは構造的なイノベーションと組み合わせることで、ディープニューラルネットワークの計算コストとパラメータ数を大幅に削減すると同時に、元のモデルよりも驚くほど高い精度を実現していることがわかった。 我々はDualConvを使用して、軽量MobileNetV2のパラメータ数を54%削減し、CIFAR-100データセットの精度はわずか0.68%低下した。 パラメータ数が問題にならない場合、DualConvは同じデータセット上でMobileNetV1の精度を4.11%向上させる。 さらに、DualConvはYOLO-V3オブジェクトの検出速度を大幅に改善し、PASCAL VOCデータセットの精度を4.4%向上させた。

CNN architectures are generally heavy on memory and computational requirements which makes them infeasible for embedded systems with limited hardware resources. We propose dual convolutional kernels (DualConv) for constructing lightweight deep neural networks. DualConv combines 3$\times$3 and 1$\times$1 convolutional kernels to process the same input feature map channels simultaneously and exploits the group convolution technique to efficiently arrange convolutional filters. DualConv can be employed in any CNN model such as VGG-16 and ResNet-50 for image classification, YOLO and R-CNN for object detection, or FCN for semantic segmentation. In this paper, we extensively test DualConv for classification since these network architectures form the backbones for many other tasks. We also test DualConv for image detection on YOLO-V3. Experimental results show that, combined with our structural innovations, DualConv significantly reduces the computational cost and number of parameters of deep neural networks while surprisingly achieving slightly higher accuracy than the original models in some cases. We use DualConv to further reduce the number of parameters of the lightweight MobileNetV2 by 54% with only 0.68% drop in accuracy on CIFAR-100 dataset. When the number of parameters is not an issue, DualConv increases the accuracy of MobileNetV1 by 4.11% on the same dataset. Furthermore, DualConv significantly improves the YOLO-V3 object detection speed and improves its accuracy by 4.4% on PASCAL VOC dataset.
翻訳日:2022-02-16 19:59:14 公開日:2022-02-15
# (参考訳) ミニマックス超過リスクの情報理論解析 [全文訳有]

Information-Theoreti c Analysis of Minimax Excess Risk ( http://arxiv.org/abs/2202.07537v1 )

ライセンス: CC BY 4.0
Hassan Hafez-Kolahi, Behrad Moniri, Shohreh Kasaei(参考訳) 機械学習理論で研究されている2つの主要な概念は、一般化ギャップ(列車とテストエラーの差)と過剰リスク(テストエラーと最小可能なエラーの差)である。 学習アルゴリズムの一般化ギャップを研究するために情報理論ツールが広く用いられているが、過剰リスクの情報理論の性質はまだ十分に研究されていない。 本稿では,この目標に向けていくつかのステップについて述べる。 アルゴリズム設計者と世界とのゼロサムゲームとしてミニマックス超過リスクの頻繁な問題を考える。 そこで我々は,遊びの順序を交換できるように,このゲームを変更することが望ましいと論じる。 いくつかの正規性条件の下で、世界とデザイナーがランダムに遊ぶことができるならば、双対性ギャップはゼロであり、遊びの順序を変えることができる。 この場合、ベイズ問題(英語版)は双対表現で表される。 これにより、ベイズ学習の最小過剰リスクに対する最近の情報理論結果を利用して、ミニマックス超過リスクの限界を与えることができる。 仮説空間が有限なvc次元を持つ場合の分類と正規化最小二乗という2つの重要な問題についての情報理論的な洞察を提供することにより,結果の適用性を示す。

Two main concepts studied in machine learning theory are generalization gap (difference between train and test error) and excess risk (difference between test error and the minimum possible error). While information-theoreti c tools have been used extensively to study the generalization gap of learning algorithms, the information-theoreti c nature of excess risk has not yet been fully investigated. In this paper, some steps are taken toward this goal. We consider the frequentist problem of minimax excess risk as a zero-sum game between algorithm designer and the world. Then, we argue that it is desirable to modify this game in a way that the order of play can be swapped. We prove that, under some regularity conditions, if the world and designer can play randomly the duality gap is zero and the order of play can be changed. In this case, a Bayesian problem surfaces in the dual representation. This makes it possible to utilize recent information-theoreti c results on minimum excess risk in Bayesian learning to provide bounds on the minimax excess risk. We demonstrate the applicability of the results by providing information theoretic insight on two important classes of problems: classification when the hypothesis space has finite VC-dimension, and regularized least squares.
翻訳日:2022-02-16 19:37:23 公開日:2022-02-15
# (参考訳) blue at memotion 2.0 2022: 私のイメージ、テキスト、トランスフォーマー [全文訳有]

BLUE at Memotion 2.0 2022: You have my Image, my Text and my Transformer ( http://arxiv.org/abs/2202.07543v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma and Ioan-Bogdan Iordache(参考訳) ミームはインターネット上で普及し、私たちの文化と共に成長し、進化し続けています。 インターネット上で伝播するミームの自動理解は、人々の一般的な感情と文化的態度に光を当てることができる。 本稿では,第2回MEMOTIONコンペティションのチームBLUEのソリューションについて紹介する。 bertを用いたテキストのみの手法によるミーム分類(感情・ユーモア・攻撃・皮肉・動機づけレベル)と,ミーム画像とキャプションの両方で動作するマルチモーダルマルチタスクトランスフォーマーネットワークを用いて最終スコアを出力する手法を2つ紹介する。 両アプローチとも,テキスト(BERT, Sentence Transformer)と画像処理(EfficientNetV4, CLIP)の最先端事前学習モデルを活用する。 我々の努力により、我々はタスクaで第1位、タスクbで第2位、タスクcで第3位を獲得しました。

Memes are prevalent on the internet and continue to grow and evolve alongside our culture. An automatic understanding of memes propagating on the internet can shed light on the general sentiment and cultural attitudes of people. In this work, we present team BLUE's solution for the second edition of the MEMOTION competition. We showcase two approaches for meme classification (i.e. sentiment, humour, offensive, sarcasm and motivation levels) using a text-only method using BERT, and a Multi-Modal-Multi-Ta sk transformer network that operates on both the meme image and its caption to output the final scores. In both approaches, we leverage state-of-the-art pretrained models for text (BERT, Sentence Transformer) and image processing (EfficientNetV4, CLIP). Through our efforts, we obtain first place in task A, second place in task B and third place in task C. In addition, our team obtained the highest average score for all three tasks.
翻訳日:2022-02-16 19:00:46 公開日:2022-02-15
# (参考訳) 層間不確かさの信頼性表現のためのラベル融合と訓練方法 [全文訳有]

Label fusion and training methods for reliable representation of inter-rater uncertainty ( http://arxiv.org/abs/2202.07550v1 )

ライセンス: CC BY 4.0
Andreanne Lemay, Charley Gros, Julien Cohen-Adad(参考訳) 医療タスクは、画像品質、プロフェッショナルな経験とトレーニング、ガイドラインの明確さなど、さまざまな要因によって、レート間変動が起こりやすい。 複数のレートラーからのアノテーションでディープラーニングネットワークをトレーニングすることは、モデルの1人の専門家に対するバイアスを軽減する一般的なプラクティスである。 臨床における人工知能の統合の鍵となるのは、校正出力を生成し、レータ間不一致を反映する信頼性のあるモデルである。 異なる専門家のラベルを考慮する様々な方法が存在する。 実験では,ステープル法,パーサのセグメンテーション平均法,トレーニング中の各パーサのセグメンテーションのランダムサンプリング法という3つのラベル融合法を比較した。 各ラベル融合法は、従来のトレーニングフレームワークや、セグメンテーションタスクを回帰として扱うことで情報損失を制限するSoftSegフレームワークを用いて研究される。 2つの公開データセットで10個のデータ分割を行った結果,接地真理融合法に関わらず,ソフトセグメンテーションモデルが従来のデータに比べて,レート間レート変動のキャリブレーションと保存性が向上し,セグメンテーション性能に影響を与えなかった。 従来のモデル、すなわち二進的な入力とシグモイド/ソフトマックスのファイナルアクティベートで訓練されたDice損失は、レーダー間変動に関する不確実性を過信し過小評価していた。 逆に、平均的なラベルをSoftSegフレームワークと融合することで、信頼性の低いアウトプットと利率の不一致の過大評価につながった。 セグメンテーション性能の面では,研究した2つのデータセットでは最良ラベル融合法が異なるため,このパラメータがタスク依存である可能性が示唆された。 しかし、ソフトセグメンテーションの性能は従来の訓練されたモデルよりも体系的に優れていたか、同等であった。

Medical tasks are prone to inter-rater variability due to multiple factors such as image quality, professional experience and training, or guideline clarity. Training deep learning networks with annotations from multiple raters is a common practice that mitigates the model's bias towards a single expert. Reliable models generating calibrated outputs and reflecting the inter-rater disagreement are key to the integration of artificial intelligence in clinical practice. Various methods exist to take into account different expert labels. We focus on comparing three label fusion methods: STAPLE, average of the rater's segmentation, and random sampling each rater's segmentation during training. Each label fusion method is studied using the conventional training framework or the recently published SoftSeg framework that limits information loss by treating the segmentation task as a regression. Our results, across 10 data splittings on two public datasets, indicate that SoftSeg models, regardless of the ground truth fusion method, had better calibration and preservation of the inter-rater rater variability compared with their conventional counterparts without impacting the segmentation performance. Conventional models, i.e., trained with a Dice loss, with binary inputs, and sigmoid/softmax final activate, were overconfident and underestimated the uncertainty associated with inter-rater variability. Conversely, fusing labels by averaging with the SoftSeg framework led to underconfident outputs and overestimation of the rater disagreement. In terms of segmentation performance, the best label fusion method was different for the two datasets studied, indicating this parameter might be task-dependent. However, SoftSeg had segmentation performance systematically superior or equal to the conventionally trained models and had the best calibration and preservation of the inter-rater variability.
翻訳日:2022-02-16 18:35:55 公開日:2022-02-15
# (参考訳) SDDおよび関連分類器の解説における特徴員決定について [全文訳有]

On Deciding Feature Membership in Explanations of SDD & Related Classifiers ( http://arxiv.org/abs/2202.07553v1 )

ライセンス: CC BY-SA 4.0
Xuanxiang Huang, Joao Marques-Silva(参考訳) 機械学習(ml)分類器の説明を推論する場合、関連するクエリは、与えられた予測を説明するのに重要な機能があるかどうかを決定することである。 最近の研究は、幅広い分類器のクラスに対して、FMPは$\Sigma_2^P$では難しいことを示した。 これとは対照的に, 分類器群ではFMPがNPであることを示す。 具体的には、説明を多項式時間で計算できる分類器を1つのnp oracleコールで決定できることを実証する。 そこで本論文では,Sentential Decision Diagrams (SDD) で表される分類器の命題エンコーディングと他の命題言語について提案する。 実験の結果,提案手法の実用性が確認された。

When reasoning about explanations of Machine Learning (ML) classifiers, a pertinent query is to decide whether some sensitive features can serve for explaining a given prediction. Recent work showed that the feature membership problem (FMP) is hard for $\Sigma_2^P$ for a broad class of classifiers. In contrast, this paper shows that for a number of families of classifiers, FMP is in NP. Concretely, the paper proves that any classifier for which an explanation can be computed in polynomial time, then deciding feature membership in an explanation can be decided with one NP oracle call. The paper then proposes propositional encodings for classifiers represented with Sentential Decision Diagrams (SDDs) and for other related propositional languages. The experimental results confirm the practical efficiency of the proposed approach.
翻訳日:2022-02-16 18:17:45 公開日:2022-02-15
# (参考訳) 群不変表現と同値表現の教師なし学習 [全文訳有]

Unsupervised Learning of Group Invariant and Equivariant Representations ( http://arxiv.org/abs/2202.07559v1 )

ライセンス: CC BY 4.0
Robin Winter, Marco Bertolini, Tuan Le, Frank No\'e, Djork-Arn\'e Clevert(参考訳) データに作用する群Gの表現に応じて隠れた特徴が変換される同変ニューラルネットワークは、トレーニング効率と一般化性能の向上を示す。 本研究では,グループ不変および同変表現学習を教師なし深層学習の分野に拡張する。 本稿では, 潜在表現が不変項と同値群作用成分で絡み合わされるエンコーダ・デコーダの枠組みに基づく一般学習戦略を提案する。 鍵となる考え方は、ネットワークがデータ空間上のグループアクションを学習し、不変なデータ表現から再構成タスクを解くことができるため、アドホックなグループ固有の実装の必要性を避けることである。 我々は同変エンコーダ上の必要条件を導出し、任意の g に対して離散的かつ連続的に有効な構成を示す。 回転、翻訳、置換に関する我々の構成を明示的に記述する。 我々は,異なるネットワークアーキテクチャを用いた多様なデータ型を用いた様々な実験において,アプローチの有効性と堅牢性を検証した。

Equivariant neural networks, whose hidden features transform according to representations of a group G acting on the data, exhibit training efficiency and an improved generalisation performance. In this work, we extend group invariant and equivariant representation learning to the field of unsupervised deep learning. We propose a general learning strategy based on an encoder-decoder framework in which the latent representation is disentangled in an invariant term and an equivariant group action component. The key idea is that the network learns the group action on the data space and thus is able to solve the reconstruction task from an invariant data representation, hence avoiding the necessity of ad-hoc group-specific implementations. We derive the necessary conditions on the equivariant encoder, and we present a construction valid for any G, both discrete and continuous. We describe explicitly our construction for rotations, translations and permutations. We test the validity and the robustness of our approach in a variety of experiments with diverse data types employing different network architectures.
翻訳日:2022-02-16 17:54:27 公開日:2022-02-15
# (参考訳) モンテカルロドロップアウトを用いたディープラーニングモデルの再現性向上 [全文訳有]

Improving the repeatability of deep learning models with Monte Carlo dropout ( http://arxiv.org/abs/2202.07562v1 )

ライセンス: CC BY 4.0
Andreanne Lemay, Katharina Hoebel, Christopher P. Bridge, Brian Befano, Silvia De Sanjos\'e, Diden Egemen, Ana Cecilia Rodriguez, Mark Schiffman, John Peter Campbell, Jayashree Kalpathy-Cramer(参考訳) 人工知能を臨床ワークフローに統合するには、信頼できる堅牢なモデルが必要です。 再現性はモデルロバストネスの重要な属性である。 繰り返し可能なモデルは、類似した条件下での独立テスト中に低変動の予測を出力する。 モデル開発と評価の間、モデルの再現性がほとんど評価されない間に分類性能に多くの注意が払われ、臨床で使用できないモデルの開発に繋がる。 本研究は,同訪問中に同一患者から取得した画像に対する4種類のモデル(バイナリ分類,多クラス分類,順序分類,回帰)の再現性を評価する。 本研究では, 膝関節症, 頚部癌検診, 乳房密度推定, 未熟児網膜症という4つの医療画像分類課題において, バイナリ, マルチクラス, 順序, 回帰モデルの性能について検討した。 ResNetとDenseNetアーキテクチャで繰り返し測定され、比較される。 さらに,テスト時のモンテカルロドロップアウト予測が分類性能と再現性に与える影響について検討した。 モンテカルロ予測の活用は、二進数、複数クラス、順序モデルの全てのタスクの繰り返し可能性を大幅に向上させ、合意の95%の限界を16%、不一致率を7%に下げる結果となった。 分類精度は多くの設定で改善され、再現性も向上した。 結果から,約20回のモンテカルロ反復以上の繰り返し性は得られないことが示唆された。 より高いテスト-テストの合意に加えて、モンテカルロの予測はより良い校正が行われ、出力確率は正しく分類される可能性がより正確に反映された。

The integration of artificial intelligence into clinical workflows requires reliable and robust models. Repeatability is a key attribute of model robustness. Repeatable models output predictions with low variation during independent tests carried out under similar conditions. During model development and evaluation, much attention is given to classification performance while model repeatability is rarely assessed, leading to the development of models that are unusable in clinical practice. In this work, we evaluate the repeatability of four model types (binary classification, multi-class classification, ordinal classification, and regression) on images that were acquired from the same patient during the same visit. We study the performance of binary, multi-class, ordinal, and regression models on four medical image classification tasks from public and private datasets: knee osteoarthritis, cervical cancer screening, breast density estimation, and retinopathy of prematurity. Repeatability is measured and compared on ResNet and DenseNet architectures. Moreover, we assess the impact of sampling Monte Carlo dropout predictions at test time on classification performance and repeatability. Leveraging Monte Carlo predictions significantly increased repeatability for all tasks on the binary, multi-class, and ordinal models leading to an average reduction of the 95\% limits of agreement by 16% points and of the disagreement rate by 7% points. The classification accuracy improved in most settings along with the repeatability. Our results suggest that beyond about 20 Monte Carlo iterations, there is no further gain in repeatability. In addition to the higher test-retest agreement, Monte Carlo predictions were better calibrated which leads to output probabilities reflecting more accurately the true likelihood of being correctly classified.
翻訳日:2022-02-16 17:30:27 公開日:2022-02-15
# (参考訳) cup: 安全強化学習のための保守的更新ポリシーアルゴリズム

CUP: A Conservative Update Policy Algorithm for Safe Reinforcement Learning ( http://arxiv.org/abs/2202.07565v1 )

ライセンス: CC BY 4.0
Long Yang, Jiaming Ji, Juntao Dai, Yu Zhang, Pengfei Li, Gang Pan(参考訳) 安全強化学習(RL)は、戻り値の最大化と安全な探索の両方を考慮する必要があるため、依然として非常に難しい。 本稿では,理論的安全性を保証する保守的更新ポリシーアルゴリズムであるCUPを提案する。 提案した性能バウンダリとサロゲート関数に基づいてCUPを導出する。 安全なRLアルゴリズムを設計するために境界関数を代理関数として使用することは、いくつかの既存の研究に現れてきたが、少なくとも3つの側面を開発する。 i) 一般化された優位推定器(GAE)に代理関数を拡張するための厳密な理論解析を提供する。 GAEは、CUPを設計するための効率的なステップである許容レベルのバイアスを維持しながら、実験的に分散を著しく低減します。 (ii)提案する境界は,提案する境界をサーロゲート関数として用いる方が,目的と安全性の制約に対してより局所的な近似である。 (iii)提案したCUPは,凸近似に依存しない一階最適化器による非凸実装を提供する。 最後に、広範囲な実験により、エージェントが安全な制約を満たすCUPの有効性を示す。 我々はCUPのソースコードをhttps://github.com/R L-boxes/Safe-RLで公開しました。

Safe reinforcement learning (RL) is still very challenging since it requires the agent to consider both return maximization and safe exploration. In this paper, we propose CUP, a Conservative Update Policy algorithm with a theoretical safety guarantee. We derive the CUP based on the new proposed performance bounds and surrogate functions. Although using bounds as surrogate functions to design safe RL algorithms have appeared in some existing works, we develop them at least three aspects: (i) We provide a rigorous theoretical analysis to extend the surrogate functions to generalized advantage estimator (GAE). GAE significantly reduces variance empirically while maintaining a tolerable level of bias, which is an efficient step for us to design CUP; (ii) The proposed bounds are tighter than existing works, i.e., using the proposed bounds as surrogate functions are better local approximations to the objective and safety constraints. (iii) The proposed CUP provides a non-convex implementation via first-order optimizers, which does not depend on any convex approximation. Finally, extensive experiments show the effectiveness of CUP where the agent satisfies safe constraints. We have opened the source code of CUP at https://github.com/R L-boxes/Safe-RL.
翻訳日:2022-02-16 17:07:35 公開日:2022-02-15
# (参考訳) フィードバックによる表現学習について [全文訳有]

On Representation Learning with Feedback ( http://arxiv.org/abs/2202.07572v1 )

ライセンス: CC BY 4.0
Hao Li(参考訳) 本論文は,著者の最近の論文 "robust representation learning with feedback for single image deraining" を補完し,表現学習のメカニズムに関するヒューリスティックな理論的説明,すなわち本論文で提示された著作の本質的メリットを提供する。 このノートは、フィードバックによる表現学習のメカニズムにおけるキーポイントの理解を促進する。

This note complements the author's recent paper "Robust representation learning with feedback for single image deraining" by providing heuristically theoretical explanations on the mechanism of representation learning with feedback, namely an essential merit of the works presented in this recent article. This note facilitates understanding of key points in the mechanism of representation learning with feedback.
翻訳日:2022-02-16 17:05:29 公開日:2022-02-15
# (参考訳) グラフニューラルネットワークによるグローバル天気予報 [全文訳有]

Forecasting Global Weather with Graph Neural Networks ( http://arxiv.org/abs/2202.07575v1 )

ライセンス: CC BY 4.0
Ryan Keisler(参考訳) 本稿では,グラフニューラルネットワークを用いた気象予報手法を提案する。 システムは現在の3D大気状態を6時間前に進めることを学び、複数のステップをチェーンして、数日後の未来に進む巧妙な予測を生成する。 基礎となるモデルは、ERA5の再分析データやGFSの予測データに基づいて訓練される。 Z500 (geopotential height) や T850 (temperature) のようなメトリクスの試験性能は、従来のデータ駆動型アプローチにより改善され、少なくとも1度のスケールで評価された場合と再解析初期条件を用いて、GFSやECMWFの操作的で完全な物理モデルに匹敵する。 また、このデータ駆動モデルと、GFSによる実運用予測を結びつける結果も示す。

We present a data-driven approach for forecasting global weather using graph neural networks. The system learns to step forward the current 3D atmospheric state by six hours, and multiple steps are chained together to produce skillful forecasts going out several days into the future. The underlying model is trained on reanalysis data from ERA5 or forecast data from GFS. Test performance on metrics such as Z500 (geopotential height) and T850 (temperature) improves upon previous data-driven approaches and is comparable to operational, full-resolution, physical models from GFS and ECMWF, at least when evaluated on 1-degree scales and when using reanalysis initial conditions. We also show results from connecting this data-driven model to live, operational forecasts from GFS.
翻訳日:2022-02-16 17:01:24 公開日:2022-02-15
# (参考訳) 等価カラビ・ヤウ位相の同定--機械学習のための数学と物理学からの離散的挑戦 [全文訳有]

Identifying equivalent Calabi--Yau topologies: A discrete challenge from math and physics for machine learning ( http://arxiv.org/abs/2202.07590v1 )

ライセンス: CC BY 4.0
Vishnu Jejjala, Washington Taylor, Andrew Turner(参考訳) 本稿では,カラビ・ヤウ三重奏法の特徴的トポロジカルデータについて概説し,関連するトポロジカルデータを通じて2つの3重奏法が等価であるかどうかを考察する。 これは、物理学に動機づけられた離散数学問題における機械学習方法論の興味深いテストケースを提供する。

We review briefly the characteristic topological data of Calabi--Yau threefolds and focus on the question of when two threefolds are equivalent through related topological data. This provides an interesting test case for machine learning methodology in discrete mathematics problems motivated by physics.
翻訳日:2022-02-16 16:44:49 公開日:2022-02-15
# (参考訳) マルチストリームセンサデータにおける異常評価のための深部畳み込みオートエンコーダ [全文訳有]

Deep Convolutional Autoencoder for Assessment of Anomalies in Multi-stream Sensor Data ( http://arxiv.org/abs/2202.07592v1 )

ライセンス: CC BY 4.0
Anthony Geglio, Eisa Hedayati, Mark Tascillo, Dyche Anderson, Jonathan Barker, Timothy C. Havens(参考訳) パワートレイン領域からの多センサ駆動サイクルデータにおける異常検出のための完全畳み込みオートエンコーダを開発した。 実世界のパワートレインデータから得られた予備結果は,故障ドライブサイクルの再構成誤差が,トレーニングされたオートエンコーダを用いた正常ドライブサイクルの再構成に比較して有意に低下することを示している。 これらの結果から, 故障駆動サイクルの同定, システム予後の精度向上, 連結車両の予測保守性の向上が期待できる。

A fully convolutional autoencoder is developed for the detection of anomalies in multi-sensor vehicle drive-cycle data from the powertrain domain. Preliminary results collected on real-world powertrain data show that the reconstruction error of faulty drive cycles deviates significantly relative to the reconstruction of healthy drive cycles using the trained autoencoder. The results demonstrate applicability for identifying faulty drive-cycles, and for improving the accuracy of system prognosis and predictive maintenance in connected vehicles.
翻訳日:2022-02-16 16:35:29 公開日:2022-02-15
# (参考訳) 大気汚染のアクティブモニタリングのためのベイズ最適化 [全文訳有]

Bayesian Optimisation for Active Monitoring of Air Pollution ( http://arxiv.org/abs/2202.07595v1 )

ライセンス: CC BY 4.0
Sigrid Passano Hellan, Christopher G. Lucas and Nigel H. Goddard(参考訳) 大気汚染は世界の死亡率の主要な原因の1つであり、毎年数百万人が死亡している。 効率的な監視は、露出を計測し、法的制限を強制するために重要である。 新しい低コストセンサーは、より多くの数とより多様な場所に展開することができ、効率的な自動配置の問題を動機付ける。 これまでの研究では、ベイズ最適化は適切な方法であるが、衛星データのみを考慮し、全高度でデータを収集したことが示唆された。 人間が呼吸するのは地上レベルの汚染であり、それが最も重要なのである。 我々は, 階層モデルを用いてこれらの結果を改善し, ロンドンにおける都市汚染データのモデル評価を行い, ベイズ最適化が問題に適用可能であることを示す。

Air pollution is one of the leading causes of mortality globally, resulting in millions of deaths each year. Efficient monitoring is important to measure exposure and enforce legal limits. New low-cost sensors can be deployed in greater numbers and in more varied locations, motivating the problem of efficient automated placement. Previous work suggests Bayesian optimisation is an appropriate method, but only considered a satellite data set, with data aggregated over all altitudes. It is ground-level pollution, that humans breathe, which matters most. We improve on those results using hierarchical models and evaluate our models on urban pollution data in London to show that Bayesian optimisation can be successfully applied to the problem.
翻訳日:2022-02-16 16:24:45 公開日:2022-02-15
# 衛星統合型コミュニティネットワークにおけるマネジメントギャップの閉鎖--自己維持への階層的アプローチ

Closing the Management Gap for Satellite-Integrated Community Networks: A Hierarchical Approach to Self-Maintenance ( http://arxiv.org/abs/2202.07532v1 )

ライセンス: Link先を確認
Peng Hu(参考訳) コミュニティネットワーク(CN)は、世界中の未保存地域や未保存地域において、重要なインターネット接続を提供する重要なパラダイムとなっている。 しかし、CNにとって必須の部分はネットワーク管理であり、レスポンシブで自律的なメンテナンスがとても必要である。 通信ネットワークの技術的進歩により、従来の衛星依存CNは衛星統合CN(SICN)に変換され、ネットワーク管理において大きな自律性、知性、拡張性をもたらすことが期待されている。 本稿では、SICNの自律的自己維持を可能にする機械学習(ML)に基づく階層的アプローチについて論じる。 このアプローチは異常識別と異常緩和フェーズに分割され、関連するMLメソッド、データ収集手段、デプロイメントオプション、緩和スキームが提示される。 本ケーススタディでは,衛星と固定接続をバックホールオプションとして使用する典型的なシナリオについて検討し,提案手法である \hl{with recurrent neural network and ensemble method の有効性を示す。

Community networks (CNs) have become an important paradigm for providing essential Internet connectivity in unserved and underserved areas across the world. However, an indispensable part for CNs is network management, where responsive and autonomous maintenance is much needed. With the technological advancement in telecommunications networks, a classical satellite-dependent CN is envisioned to be transformed into a satellite-integrated CN (SICN), which will embrace significant autonomy, intelligence, and scalability in network management. This article discusses the machine-learning (ML) based hierarchical approach to enabling autonomous self-maintenance for SICNs. The approach is split into the anomaly identification and anomaly mitigation phases, where the related ML methods, data collection means, deployment options, and mitigation schemes are presented. With the case study, we discuss a typical scenario using satellite and fixed connections as backhaul options and show the effectiveness \hl{and performance improvements} of the proposed approach \hl{with recurrent neural network and ensemble methods
翻訳日:2022-02-16 16:07:43 公開日:2022-02-15
# ポートフォリオ選択のためのオンラインニュートンステップの減衰

Damped Online Newton Step for Portfolio Selection ( http://arxiv.org/abs/2202.07574v1 )

ライセンス: Link先を確認
Zakaria Mhammedi and Alexander Rakhlin(参考訳) 古典的なオンラインポートフォリオ選択の問題を再考し、各ラウンドで学習者がポートフォリオの集合上の分布を選択し、その富を割り当てる。 この問題に対して、カバーの損失に関する対数的後悔は、例えばユニバーサルポートフォリオ選択アルゴリズムを用いて達成可能であることが知られている。 しかし、この問題に対する対数的後悔を達成する既存のアルゴリズムは、丸ごとの総数と多項式的にスケールする時間と空間の複雑さを持ち、現実的ではない。 本稿では,Haipengらによる最近の研究に基づいて,対数的後悔を伴う最初の実用的なオンラインポートフォリオ選択アルゴリズムを提案する。 私たちのアプローチの背後には、2つの重要な技術革新があります。 まず, 減衰したオンラインニュートンステップは, 時変正規化器を扱う場合においても鏡面降下を緩和できることを示した。 第2に,混合損失に対する適応対数的後悔(すなわち,任意のサブインターバルにおける対数的後悔)を実現するメタアルゴリズムを提案する。

We revisit the classic online portfolio selection problem, where at each round a learner selects a distribution over a set of portfolios to allocate its wealth. It is known that for this problem a logarithmic regret with respect to Cover's loss is achievable using the Universal Portfolio Selection algorithm, for example. However, all existing algorithms that achieve a logarithmic regret for this problem have per-round time and space complexities that scale polynomially with the total number of rounds, making them impractical. In this paper, we build on the recent work by Haipeng et al. 2018 and present the first practical online portfolio selection algorithm with a logarithmic regret and whose per-round time and space complexities depend only logarithmically on the horizon. Behind our approach are two key technical novelties of independent interest. We first show that the Damped Online Newton steps can approximate mirror descent iterates well, even when dealing with time-varying regularizers. Second, we present a new meta-algorithm that achieves an adaptive logarithmic regret (i.e. a logarithmic regret on any sub-interval) for mixable losses.
翻訳日:2022-02-16 16:07:25 公開日:2022-02-15
# エンドツーエンドモバイル操作のためのベイズ模倣学習

Bayesian Imitation Learning for End-to-End Mobile Manipulation ( http://arxiv.org/abs/2202.07600v1 )

ライセンス: Link先を確認
Yuqing Du and Daniel Ho and Alexander A. Alemi and Eric Jang and Mohi Khansari(参考訳) 本研究では,複数のセンサ入力からの模倣学習に対するベイズ的アプローチの利点を,移動マニピュレータを用いたオフィスドアを開ける作業に適用して検討し,実証する。 RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための直接的なアプローチである。 マルチセンサーロボット学習を、非構造化現実環境(オフィスや家庭など)やより複雑なロボット行動に拡大するにつれて、コストや効率、安全性といったシミュレータへの依存度も高まります。 その結果、複数のセンサモード間のsim-to-realギャップも増加し、シミュレーション検証がより困難になる。 畳み込みニューラルネットワークを正規化するために,変化情報ボット(Alemi et al., 2016)を用いることで,保持領域への一般化が向上し,センサに依存しない方法で,シモン・トゥ・リアルギャップを低減できることを示す。 副作用として、学習した埋め込みは、各センサに対するモデルの不確かさの有用な推定も提供する。 本手法は,各センサの状況不確かさの理解に基づいて,シミュレーションと現実のギャップを埋め,RGBと奥行きのモダリティを融合させることが可能であることを示す。 現実のオフィス環境では、96%のタスク成功を実現し、ベースラインを+16%改善します。

In this work we investigate and demonstrate benefits of a Bayesian approach to imitation learning from multiple sensor inputs, as applied to the task of opening office doors with a mobile manipulator. Augmenting policies with additional sensor inputs, such as RGB + depth cameras, is a straightforward approach to improving robot perception capabilities, especially for tasks that may favor different sensors in different situations. As we scale multi-sensor robotic learning to unstructured real-world settings (e.g. offices, homes) and more complex robot behaviors, we also increase reliance on simulators for cost, efficiency, and safety. Consequently, the sim-to-real gap across multiple sensor modalities also increases, making simulated validation more difficult. We show that using the Variational Information Bottleneck (Alemi et al., 2016) to regularize convolutional neural networks improves generalization to held-out domains and reduces the sim-to-real gap in a sensor-agnostic manner. As a side effect, the learned embeddings also provide useful estimates of model uncertainty for each sensor. We demonstrate that our method is able to help close the sim-to-real gap and successfully fuse RGB and depth modalities based on understanding of the situational uncertainty of each sensor. In a real-world office environment, we achieve 96% task success, improving upon the baseline by +16%.
翻訳日:2022-02-16 16:07:06 公開日:2022-02-15
# ニューラルSDE市場モデルを用いたオプションブックのリスク推定

Estimating risks of option books using neural-SDE market models ( http://arxiv.org/abs/2202.07148v1 )

ライセンス: Link先を確認
Samuel N. Cohen and Christoph Reisinger and Sheng Wang(参考訳) 本稿では、単一基盤上の複数の欧州オプションのジョイントダイナミクスの現実的なシナリオを生成するために、仲裁自由ニューラルネットワーク-SDE市場モデルの能力について検討する。 その後、オプションポートフォリオのリスクシミュレーションエンジンとしての使用例を示す。 バックテスト分析により、我々のモデルは、オプションポートフォリオのバリュー・アット・リスク(VaR)を評価するのにより計算効率が高く、精度が良く、カバー性能が良く、また、標準的なフィルタによる履歴シミュレーション手法よりもプロサイクティリティが低いことを示す。

In this paper, we examine the capacity of an arbitrage-free neural-SDE market model to produce realistic scenarios for the joint dynamics of multiple European options on a single underlying. We subsequently demonstrate its use as a risk simulation engine for option portfolios. Through backtesting analysis, we show that our models are more computationally efficient and accurate for evaluating the Value-at-Risk (VaR) of option portfolios, with better coverage performance and less procyclicality than standard filtered historical simulation approaches.
翻訳日:2022-02-16 16:06:41 公開日:2022-02-15
# 信頼性の高い深層グラフ学習の最近の進歩:敵対的攻撃、固有ノイズ、分布シフト

Recent Advances in Reliable Deep Graph Learning: Adversarial Attack, Inherent Noise, and Distribution Shift ( http://arxiv.org/abs/2202.07114v1 )

ライセンス: Link先を確認
Bingzhe Wu, Jintang Li, Chengbin Hou, Guoji Fu, Yatao Bian, Liang Chen, Junzhou Huang(参考訳) ディープグラフ学習(dgl)は、金融や電子商取引から薬物や高度な物質発見まで、ビジネス分野と科学分野の両方で著しく進歩した。 進歩にもかかわらず、DGLを現実世界のアプリケーションに適用することは、敵攻撃、固有のノイズ、分散シフトなど、一連の信頼性上の脅威に直面している。 本調査は,上記の脅威に対するdglアルゴリズムの信頼性向上に向けた最近の進歩を総合的に検討することを目的とする。 敵対的攻撃や防衛に重点を置く先行調査とは対照的に,本調査は,dglの信頼性に関連する側面,すなわち固有ノイズと分布シフトを対象とする。 さらに、上記の側面間の関係を議論し、今後の研究で検討すべき重要な課題をいくつか取り上げる。

Deep graph learning (DGL) has achieved remarkable progress in both business and scientific areas ranging from finance and e-commerce to drug and advanced material discovery. Despite the progress, applying DGL to real-world applications faces a series of reliability threats including adversarial attacks, inherent noise, and distribution shift. This survey aims to provide a comprehensive review of recent advances for improving the reliability of DGL algorithms against the above threats. In contrast to prior related surveys which mainly focus on adversarial attacks and defense, our survey covers more reliability-related aspects of DGL, i.e., inherent noise and distribution shift. Additionally, we discuss the relationships among above aspects and highlight some important issues to be explored in future research.
翻訳日:2022-02-16 16:04:53 公開日:2022-02-15
# 空力形状最適化における機械学習

Machine Learning in Aerodynamic Shape Optimization ( http://arxiv.org/abs/2202.07141v1 )

ライセンス: Link先を確認
Jichao Li and Xiaosong Du and Joaquim R. R. A. Martins(参考訳) 機械学習(ML)によるASO(Aerodynamic shape optimization)の急速な進歩は, ディープラーニングの継続的な発展により, 有効性が高まっている。 本稿ではまず,ASOにおける最先端技術と未解決課題について紹介する。 次に,ASOに成功しているMLアルゴリズムについて述べる。 次に,ASOに寄与するMLアプリケーションについて,コンパクトな幾何学的設計空間,高速空力解析,効率的な最適化アーキテクチャの3点から概観する。 本研究の総合的な概要を述べるとともに,開発手法の実用性と有効性について述べる。 最先端のMLアプローチがASOにどのような恩恵をもたらすかを示し、インタラクティブな設計最適化のような課題に対処する。 しかしながら、コストのかかるmlトレーニングコストのため、実用的な大規模設計最適化は依然として課題である。 MLモデル構築とASOの事前経験と物理を考慮した知識との深い結合は、MLモデルを効果的に訓練するために推奨される。

Large volumes of experimental and simulation aerodynamic data have been rapidly advancing aerodynamic shape optimization (ASO) via machine learning (ML), whose effectiveness has been growing thanks to continued developments in deep learning. In this review, we first introduce the state of the art and the unsolved challenges in ASO. Next, we present a description of ML fundamentals and detail the ML algorithms that have succeeded in ASO. Then we review ML applications contributing to ASO from three fundamental perspectives: compact geometric design space, fast aerodynamic analysis, and efficient optimization architecture. In addition to providing a comprehensive summary of the research, we comment on the practicality and effectiveness of the developed methods. We show how cutting-edge ML approaches can benefit ASO and address challenging demands like interactive design optimization. However, practical large-scale design optimizations remain a challenge due to the costly ML training expense. A deep coupling of ML model construction with ASO prior experience and knowledge, such as taking physics into account, is recommended to train ML models effectively.
翻訳日:2022-02-16 16:04:40 公開日:2022-02-15
# 南アフリカコールセンターオーディオのためのマルチスタイルトレーニング

Multi-style Training for South African Call Centre Audio ( http://arxiv.org/abs/2202.07219v1 )

ライセンス: Link先を確認
Walter Heymans, Marelie H. Davel, Charl van Heerden(参考訳) ミスマッチしたデータは自動音声認識(ASR)システムでは難しい問題である。 ミスマッチデータに対処する最も一般的なテクニックの1つは、トレーニングデータをテストデータのより代表的なものとして変換し、異なる条件に適用可能な堅牢な表現を学ぶための、データ拡張の一形態であるマルチスタイルトレーニング(mtr)である。 このタスクは、テスト条件が不明な場合、非常に難しい。 深層ニューラルネットワーク隠れマルコフモデル (DNN-HMM) ASR システムにおいて,テスト条件が訓練条件と異なる場合のシステム性能に対する異なる MTR スタイルの影響について検討する。 制御環境は LibriSpeech コーパスを用いて作成され, 最終システム性能に対する異なるMTRスタイルの影響を分離する。 本研究は,WAV49符号化音声を含む南アフリカのコールセンターデータセットについて検討した。

Mismatched data is a challenging problem for automatic speech recognition (ASR) systems. One of the most common techniques used to address mismatched data is multi-style training (MTR), a form of data augmentation that attempts to transform the training data to be more representative of the testing data; and to learn robust representations applicable to different conditions. This task can be very challenging if the test conditions are unknown. We explore the impact of different MTR styles on system performance when testing conditions are different from training conditions in the context of deep neural network hidden Markov model (DNN-HMM) ASR systems. A controlled environment is created using the LibriSpeech corpus, where we isolate the effect of different MTR styles on final system performance. We evaluate our findings on a South African call centre dataset that contains noisy, WAV49-encoded audio.
翻訳日:2022-02-16 16:04:24 公開日:2022-02-15
# SpeechPainter: テキストコンディショニング

SpeechPainter: Text-conditioned Speech Inpainting ( http://arxiv.org/abs/2202.07273v1 )

ライセンス: Link先を確認
Zal\'an Borsos, Matt Sharifi, Marco Tagliasacchi(参考訳) 本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。 本モデルでは, 話者の同一性, 韻律, 記録環境条件を維持しながら, 適切な内容の音声認識を行い, 未認識話者に一般化できることを実証する。 提案手法は, 適応型TSを用いて構築したベースラインよりも有意に優れており, 人為的な評価とMOSテストで評価された。

We propose SpeechPainter, a model for filling in gaps of up to one second in speech samples by leveraging an auxiliary textual input. We demonstrate that the model performs speech inpainting with the appropriate content, while maintaining speaker identity, prosody and recording environment conditions, and generalizing to unseen speakers. Our approach significantly outperforms baselines constructed using adaptive TTS, as judged by human raters in side-by-side preference and MOS tests.
翻訳日:2022-02-16 16:04:10 公開日:2022-02-15
# (参考訳) 2020年アメリカ合衆国大統領選挙の投票選好からみたCOVID-19のつぶやき感の推移 [全文訳有]

Shifting Trends of COVID-19 Tweet Sentiment with Respect to Voting Preferences in the 2020 Election Year of the United States ( http://arxiv.org/abs/2202.07587v1 )

ライセンス: CC BY 4.0
Megan Doman, Jacob Motley, Hong Qin, Mengjun Xie, Li Yang(参考訳) 新型コロナウイルス(COVID-19)関連の政策は、2020年の米大統領選期間中に広範囲にポリティケートされた。 twitterのユーザーは特に2020年の選挙で熱心だった。 ここでは,選挙日までの期間において,新型コロナウイルス関連ツイートが州レベルでの選挙結果に関連があるかどうかを検討した。 2週間の間隔で、COVID-19関連ツイートの平均感情と人気投票との間には弱い相関関係が見られ、傾向は徐々に逆になっている。 続いて私たちは、共和党(赤)や民主党(青)を支持する州間でのCOVID-19関連ツイートの平均的な感情を比較した。 青州におけるロックダウンの感情の始まりは、赤州よりもはるかに肯定的であることがわかりました。 しかし、2020年夏には、赤国の感情は徐々に肯定的になり、選挙の日まで続いた。

COVID-19 related policies were extensively politicized during the 2020 election year of the United States, resulting in polarizing viewpoints. Twitter users were particularly engaged during the 2020 election year. Here we investigated whether COVID-19 related tweets were associated with the overall election results at the state level during the period leading up to the election day. We observed weak correlations between the average sentiment of COVID-19 related tweets and popular votes in two-week intervals, and the trends gradually become opposite. We then compared the average sentiments of COVID-19 related tweets between states called in favor of Republican (red states) or Democratic parties (blue states). We found that at the beginning of lockdowns sentiments in the blue states were much more positive than those in the red states. However, sentiments in the red states gradually become more positive during the summer of 2020 and persisted until the election day.
翻訳日:2022-02-16 16:02:43 公開日:2022-02-15
# ユーザ指向ロバスト強化学習

User-Oriented Robust Reinforcement Learning ( http://arxiv.org/abs/2202.07301v1 )

ライセンス: Link先を確認
Haoyi You, Beichen Yu, Haiming Jin, Zhaoxing Yang, Jiahui Sun, Xinbing Wang(参考訳) 近年、様々な環境における政策の堅牢性向上が強化学習(RL)コミュニティの注目を集めている。 既存のロバストなRL手法は主に、最悪の環境下でのポリシーの性能を最適化することで、最大限のロバスト性を達成することを目的としている。 しかし、実際には、rlポリシーを使用するユーザは、環境間のパフォーマンスよりも異なる好みを持つ可能性がある。 上述した最大限の堅牢性は、しばしばユーザーの好みを満たすには保守的すぎる。 そこで本稿では,ロバストなRLにユーザ嗜好を取り入れ,新しいユーザ指向ロバストRL(UOR-RL)フレームワークを提案する。 具体的には、RLのための新しいユーザ指向ロバストネス(UOR)メトリックを定義し、ユーザ好みに応じて異なる重みを環境に割り当て、最大ロバストネスメトリックを一般化する。 UORのパラメータを最適化するために, 既知環境分布を有するシナリオに対して, 2つの異なるUOR-RLトレーニングアルゴリズムを開発した。 理論的には、我々のUOR-RLトレーニングアルゴリズムは、環境分布に関する不正確な、あるいは全く知識のない場合でも、ほぼ最適ポリシーに収束することを示す。 さらに,4つの MuJoCo タスクの広範な実験評価を行った。 実験結果から,UOR-RLは平均および最悪の性能指標の下では最先端のベースラインと同等であり,さらにUOR測定に基づいて新たな最先端のパフォーマンスを確立することが示唆された。

Recently, improving the robustness of policies across different environments attracts increasing attention in the reinforcement learning (RL) community. Existing robust RL methods mostly aim to achieve the max-min robustness by optimizing the policy's performance in the worst-case environment. However, in practice, a user that uses an RL policy may have different preferences over its performance across environments. Clearly, the aforementioned max-min robustness is oftentimes too conservative to satisfy user preference. Therefore, in this paper, we integrate user preference into policy learning in robust RL, and propose a novel User-Oriented Robust RL (UOR-RL) framework. Specifically, we define a new User-Oriented Robustness (UOR) metric for RL, which allocates different weights to the environments according to user preference and generalizes the max-min robustness metric. To optimize the UOR metric, we develop two different UOR-RL training algorithms for the scenarios with or without a priori known environment distribution, respectively. Theoretically, we prove that our UOR-RL training algorithms converge to near-optimal policies even with inaccurate or completely no knowledge about the environment distribution. Furthermore, we carry out extensive experimental evaluations in 4 MuJoCo tasks. The experimental results demonstrate that UOR-RL is comparable to the state-of-the-art baselines under the average and worst-case performance metrics, and more importantly establishes new state-of-the-art performance under the UOR metric.
翻訳日:2022-02-16 15:56:31 公開日:2022-02-15
# トランスフォーマーのためのXAI:保守的伝播によるより良い説明

XAI for Transformers: Better Explanations through Conservative Propagation ( http://arxiv.org/abs/2202.07304v1 )

ライセンス: Link先を確認
Ameen Ali, Thomas Schnake, Oliver Eberle, Gr\'egoire Montavon, Klaus-Robert M\"uller, Lior Wolf(参考訳) トランスフォーマーは機械学習の重要な仕事場となり、多くの応用がなされている。 これは透明性を高めるための信頼性の高い方法の開発を必要とする。 勾配情報に基づく複数の解釈可能性法が提案されている。 変換器の勾配は関数を局所的にのみ反映するので,入力特性の予測への寄与を確実に把握できないことを示す。 我々は,注意ヘッドと層ノルムを,そのような信頼性の低い説明の主な理由として認識し,これらの層を伝播するより安定した方法を提案する。 提案手法は,よく確立されたLPP法をトランスフォーマーに適切に拡張したものと見なすことができるが,理論上も実証的にも,単純な勾配に基づくアプローチの欠如を克服し,幅広いトランスフォーマーモデルとデータセットの最先端説明性能を実現する。

Transformers have become an important workhorse of machine learning, with numerous applications. This necessitates the development of reliable methods for increasing their transparency. Multiple interpretability methods, often based on gradient information, have been proposed. We show that the gradient in a Transformer reflects the function only locally, and thus fails to reliably identify the contribution of input features to the prediction. We identify Attention Heads and LayerNorm as main reasons for such unreliable explanations and propose a more stable way for propagation through these layers. Our proposal, which can be seen as a proper extension of the well-established LRP method to Transformers, is shown both theoretically and empirically to overcome the deficiency of a simple gradient-based approach, and achieves state-of-the-art explanation performance on a broad range of Transformer models and datasets.
翻訳日:2022-02-16 15:56:06 公開日:2022-02-15
# 確率的マルチレベル合成最適化のための最適アルゴリズム

Optimal Algorithms for Stochastic Multi-Level Compositional Optimization ( http://arxiv.org/abs/2202.07530v1 )

ライセンス: Link先を確認
Wei Jiang, Bokun Wang, Yibo Wang, Lijun Zhang, Tianbao Yang(参考訳) 本稿では,目的関数が複数の滑らかだが非凸関数の合成である確率的多値合成最適化の問題について検討する。 この問題を解決する既存の方法は、最適なサンプルの複雑さに苦しむか、巨大なバッチサイズを必要とする。 この制限に対処するため,Stochastic Multi-level Variance Reduction法 (SMVR) を提案し,非凸対象に対する$\epsilon$-stationar y point を求めるために$\mathcal{O}\left(1 / \epsilon^{3}\right)$の最適なサンプル複雑性を実現する。 さらに、目的関数が凸性あるいはポリアック・ロジャシエヴィチ(PL)条件を満たすとき、SMVRのステージワイド変種を提案し、サンプル複雑性を$\mathcal{O}\left(1 / \epsilon^{2}\right)$または$\mathcal{O}\left(1 / (\mu\epsilon)\right) $に対して$\mu$-PL条件を満たす非凸関数に対して改善する。 後者の結果は$\mu$-strongly convex関数の複雑さを示している。 また,適応学習率を利用するために,適応型smvrを開発した。 すべての複雑性は、$\epsilon$の点でだけでなく、各イテレーションで大きなバッチサイズを使わずに$\mu$(plまたは強凸関数)の点でも下限に一致します。

In this paper, we investigate the problem of stochastic multi-level compositional optimization, where the objective function is a composition of multiple smooth but possibly non-convex functions. Existing methods for solving this problem either suffer from sub-optimal sample complexities or need a huge batch size. To address this limitation, we propose a Stochastic Multi-level Variance Reduction method (SMVR), which achieves the optimal sample complexity of $\mathcal{O}\left(1 / \epsilon^{3}\right)$ to find an $\epsilon$-stationar y point for non-convex objectives. Furthermore, when the objective function satisfies the convexity or Polyak-Lojasiewicz (PL) condition, we propose a stage-wise variant of SMVR and improve the sample complexity to $\mathcal{O}\left(1 / \epsilon^{2}\right)$ for convex functions or $\mathcal{O}\left(1 /(\mu\epsilon)\right )$ for non-convex functions satisfying the $\mu$-PL condition. The latter result implies the same complexity for $\mu$-strongly convex functions. To make use of adaptive learning rates, we also develop Adaptive SMVR, which achieves the same optimal complexities but converges faster in practice. All our complexities match the lower bounds not only in terms of $\epsilon$ but also in terms of $\mu$ (for PL or strongly convex functions), without using a large batch size in each iteration.
翻訳日:2022-02-16 15:55:52 公開日:2022-02-15
# 変換不変条件下でのPAC学習可能性の理論

A Theory of PAC Learnability under Transformation Invariances ( http://arxiv.org/abs/2202.07552v1 )

ライセンス: Link先を確認
Han Shao, Omar Montasser, Avrim Blum(参考訳) 変換不変性は多くの実世界の問題に存在する。 例えば、画像分類は通常回転と色変換に不変であり、異なる色の回転した車は依然として車として識別される。 データ拡張(Data augmentation)は、トレーニングセットに変換されたデータを追加し、拡張データ上でモデルをトレーニングするものであり、これらの不変性を学習プロセスに組み込むのに一般的に使用されるテクニックである。 しかし、データ拡張が理論的にどのように機能し、最適なアルゴリズムが変換不変性の存在下にあるかは不明である。 本稿では, 変換不変条件下でのPAC学習可能性について, 実現可能性の異なる3つの条件で検討する。 (i)仮説は、拡張データに適合する。 2 仮説は、元のデータと、データ配信の支持に横たわる変換されたデータのみに適合する。 (iii)不可知例。 1つの興味深い観察は、設定において最適な精度を達成するためには、元のデータと変換されたデータの区別が必要であることである。 (ii)および (iii)は、元のデータと変換されたデータ(データ拡張を含む)を区別しないアルゴリズムが最適でないことを意味する。 さらに、この種のアルゴリズムは精度を「損なう」こともできる。 設定において (i)2つのデータセットを区別する必要はないが、データ拡張は依然として最適に動作しない。 このような違いから,設定における最適サンプル複雑性を特徴付ける2つの組合せ測度を提案する。 (i)および (ii) (iii)最適なアルゴリズムを提供する。

Transformation invariances are present in many real-world problems. For example, image classification is usually invariant to rotation and color transformation: a rotated car in a different color is still identified as a car. Data augmentation, which adds the transformed data into the training set and trains a model on the augmented data, is one commonly used technique to build these invariances into the learning process. However, it is unclear how data augmentation performs theoretically and what the optimal algorithm is in presence of transformation invariances. In this paper, we study PAC learnability under transformation invariances in three settings according to different levels of realizability: (i) A hypothesis fits the augmented data; (ii) A hypothesis fits only the original data and the transformed data lying in the support of the data distribution; (iii) Agnostic case. One interesting observation is that distinguishing between the original data and the transformed data is necessary to achieve optimal accuracy in setting (ii) and (iii), which implies that any algorithm not differentiating between the original and transformed data (including data augmentation) is not optimal. Furthermore, this type of algorithms can even "harm" the accuracy. In setting (i), although it is unnecessary to distinguish between the two data sets, data augmentation still does not perform optimally. Due to such a difference, we propose two combinatorial measures characterizing the optimal sample complexity in setting (i) and (ii)(iii) and provide the optimal algorithms.
翻訳日:2022-02-16 15:55:17 公開日:2022-02-15
# StratDef:マルウェア検出における敵攻撃に対する戦略的防御

StratDef: a strategic defense against adversarial attacks in malware detection ( http://arxiv.org/abs/2202.07568v1 )

ライセンス: Link先を確認
Aqib Rashid, Jose Such(参考訳) 長年にわたり、機械学習モデルに対する敵対的攻撃に対する防御に関するほとんどの研究は、画像処理領域にある。 マルウェア検出領域は、重要性にもかかわらずあまり注目されていない。 さらに、防御を探求するほとんどの作業は、機能ベース、勾配ベース、あるいはランダム化メソッドにフォーカスしているが、それらを適用する際の戦略はない。 本稿では,移動目標防衛ゲーム理論に基づくマルウェア検出ドメインに適した戦略防衛システムであるStratDefを紹介する。 我々は,モデルの体系的構築,選択,戦略的利用に関する課題を克服し,逆ロバスト性を最大化する。 StratDefは攻撃者の不確実性を高めるための最良のモデルを動的かつ戦略的に選択し、攻撃性のような敵MLドメインの重要な側面を最小限にする。 我々は、マルウェア検出のための機械学習に対する敵攻撃に対する防御を包括的に評価し、脅威モデルは異なるレベルの脅威、攻撃者の知識、能力、攻撃強度を探索する。 我々は,StratDefが最強の敵の脅威に直面しても,他の防御よりも優れた性能を示すことを示す。 また,既存の防御からみて,バニラモデルのみを用いたモデルよりもはるかに優れた保護を提供するのは,少数の敵が訓練したモデルのみであることも示している。

Over the years, most research towards defenses against adversarial attacks on machine learning models has been in the image processing domain. The malware detection domain has received less attention despite its importance. Moreover, most work exploring defenses focuses on feature-based, gradient-based or randomized methods but with no strategy when applying them. In this paper, we introduce StratDef, which is a strategic defense system tailored for the malware detection domain based on a Moving Target Defense and Game Theory approach. We overcome challenges related to the systematic construction, selection and strategic use of models to maximize adversarial robustness. StratDef dynamically and strategically chooses the best models to increase the uncertainty for the attacker, whilst minimizing critical aspects in the adversarial ML domain like attack transferability. We provide the first comprehensive evaluation of defenses against adversarial attacks on machine learning for malware detection, where our threat model explores different levels of threat, attacker knowledge, capabilities, and attack intensities. We show that StratDef performs better than other defenses even when facing the peak adversarial threat. We also show that, from the existing defenses, only a few adversarially-traine d models provide substantially better protection than just using vanilla models but are still outperformed by StratDef.
翻訳日:2022-02-16 15:54:57 公開日:2022-02-15
# 時系列異常検出のための階層的潜在因子を用いた深部生成モデル

Deep Generative model with Hierarchical Latent Factors for Time Series Anomaly Detection ( http://arxiv.org/abs/2202.07586v1 )

ライセンス: Link先を確認
Cristian Challu and Peihong Jiang and Ying Nian Wu and Laurent Callot(参考訳) 近年、多変量時系列異常検出は研究の活発な領域となり、Deep Learningモデルはベンチマークデータセットに対する以前のアプローチよりも優れている。 再構成に基づくモデルの中で、以前の研究は変分オートエンコーダやジェネレーティブ・アドバイサル・ネットワークに重点を置いてきた。 本研究は、時系列異常検出のための新しい生成モデルであるDGHLを、後続サンプリングと交互バックプロパゲーションによる観測可能性の最大化によって訓練した。 トップダウン畳み込みネットワークは、新しい階層的潜在空間を時系列ウィンドウにマッピングし、時間力学を利用して情報を効率的にエンコードする。 後方サンプリングに依存するが、現在のアプローチよりも計算効率が高く、rnnベースのモデルよりも最大10倍のトレーニング時間が短い。 提案手法は,4つのベンチマークデータセットにおいて,現在の最先端モデルよりも優れていた。 最後に、DGHLはエンティティ間での変動機能に対して堅牢であり、IoTの出現に伴う関連性の向上による設定の欠如が大きい値であっても正確である。 本稿では,新しい咬合実験を行い,dghlの優れたロバスト性を示す。 私たちのコードはhttps://github.com/c challu/dghlで利用可能です。

Multivariate time series anomaly detection has become an active area of research in recent years, with Deep Learning models outperforming previous approaches on benchmark datasets. Among reconstruction-based models, most previous work has focused on Variational Autoencoders and Generative Adversarial Networks. This work presents DGHL, a new family of generative models for time series anomaly detection, trained by maximizing the observed likelihood by posterior sampling and alternating back-propagation. A top-down Convolution Network maps a novel hierarchical latent space to time series windows, exploiting temporal dynamics to encode information efficiently. Despite relying on posterior sampling, it is computationally more efficient than current approaches, with up to 10x shorter training times than RNN based models. Our method outperformed current state-of-the-art models on four popular benchmark datasets. Finally, DGHL is robust to variable features between entities and accurate even with large proportions of missing values, settings with increasing relevance with the advent of IoT. We demonstrate the superior robustness of DGHL with novel occlusion experiments in this literature. Our code is available at https://github.com/c challu/dghl.
翻訳日:2022-02-16 15:54:37 公開日:2022-02-15
# 限られた偽陽性をもつ等角予測集合

Conformal Prediction Sets with Limited False Positives ( http://arxiv.org/abs/2202.07650v1 )

ライセンス: Link先を確認
Adam Fisch, Tal Schuster, Tommi Jaakkola, Regina Barzilay(参考訳) 提案手法は,有界な解数を持つ予測候補の正確なセットを出力することを目的として,多ラベル共形予測の新しい手法を開発する。 標準共形予測(standard conformal prediction)は、単一の予測の代わりに校正された候補セットを構築することによって、モデルの不確実性に適応する能力を提供する。 しかし、このカバレッジ特性に従うために、共形集合はノイズの多い候補で水浸しになり、実際には役に立たない。 これは、予算が限られている実用的なアプリケーションと特に関係があり、偽陽性に関連するコスト(金銭的またはその他)は無視できない。 予測された共形集合(つまり、偽陽性の総数)における不正確な候補の存在が、ユーザ指定の許容度に応じて境界づけられていることを強制して、精度の概念のための貿易カバレッジを提案する。 この制約に従えば、アルゴリズムは与えられたクエリ(ゼロを含む)に対する任意の真の答えを可能にする集合カバレッジ(すなわち真正率)の一般化概念を最適化する。 自然言語処理,コンピュータビジョン,計算化学において,様々な分類タスクにおいて,この手法の有効性を示す。

We develop a new approach to multi-label conformal prediction in which we aim to output a precise set of promising prediction candidates with a bounded number of incorrect answers. Standard conformal prediction provides the ability to adapt to model uncertainty by constructing a calibrated candidate set in place of a single prediction, with guarantees that the set contains the correct answer with high probability. In order to obey this coverage property, however, conformal sets can become inundated with noisy candidates -- which can render them unhelpful in practice. This is particularly relevant to practical applications where there is a limited budget, and the cost (monetary or otherwise) associated with false positives is non-negligible. We propose to trade coverage for a notion of precision by enforcing that the presence of incorrect candidates in the predicted conformal sets (i.e., the total number of false positives) is bounded according to a user-specified tolerance. Subject to this constraint, our algorithm then optimizes for a generalized notion of set coverage (i.e., the true positive rate) that allows for any number of true answers for a given query (including zero). We demonstrate the effectiveness of this approach across a number of classification tasks in natural language processing, computer vision, and computational chemistry.
翻訳日:2022-02-16 15:54:19 公開日:2022-02-15
# 経済プラットフォーム上でAIコラボレーションを緩和する学習

Learning to Mitigate AI Collusion on Economic Platforms ( http://arxiv.org/abs/2202.07106v1 )

ライセンス: Link先を確認
Gianluca Brero, Nicolas Lepore, Eric Mibuari, and David C. Parkes(参考訳) オンラインeコマースプラットフォームのアルゴリズムによる価格設定は、強化学習アルゴリズムが分散的価格設定を学習し、利益フィードバックのみを通じて学習するという、暗黙の結束の懸念を提起する。 これは、特定の商品や価格を消費者に売り込むeコマースサイトの要素を規制するルールの設計を通じて、適切な「購入箱」の設計によって、共同価格が防げるかどうかという疑問を提起する。 Johnson et al. (2020) は、売り手による価格設定の歴史に基づいて需要管理を利用する手作りの購入箱ルールを設計した。 価格交渉には効果があるが、消費者選択や消費者福祉に厳しい制限を課すことで効果がある。 本稿では,RL販売者の共謀防止に有効な購入箱ルールをプラットフォームで学習し,消費者の選択を損なうことなく,強化学習(RL)を活用できることを実証する。 そこで我々は,stackelberg mdps の方法論を取り入れ,異なる行動モデルを採用した販売者や商品の流通コストの高い販売者とともに,高い消費者福祉を提供する強固なルールを習得し,その成功を実証する。

Algorithmic pricing on online e-commerce platforms raises the concern of tacit collusion, where reinforcement learning algorithms learn to set collusive prices in a decentralized manner and through nothing more than profit feedback. This raises the question as to whether collusive pricing can be prevented through the design of suitable "buy boxes," i.e., through the design of the rules that govern the elements of e-commerce sites that promote particular products and prices to consumers. In previous work, Johnson et al. (2020) designed hand-crafted buy box rules that use demand-steering, based on the history of pricing by sellers, to prevent collusive behavior. Although effective against price collusion, these rules effect this by imposing severe restrictions on consumer choice and consumer welfare. In this paper, we demonstrate that reinforcement learning (RL) can also be used by platforms to learn buy box rules that are effective in preventing collusion by RL sellers, and to do so without reducing consumer choice. For this, we adopt the methodology of Stackelberg MDPs, and demonstrate success in learning robust rules that continue to provide high consumer welfare together with sellers employing different behavior models or having out-of-distribution costs for goods.
翻訳日:2022-02-16 15:52:44 公開日:2022-02-15
# 大型道路網における区間の強相関群の同定

Identifying strongly correlated groups of sections in a large motorway network ( http://arxiv.org/abs/2202.07644v1 )

ライセンス: Link先を確認
Shanshan Wang, Michael Schreckenberg, Thomas Guhr(参考訳) 高速道路網では、異なるリンク、すなわち(異なる)自動車の部品間の相関関係に大きな関心がある。 個々の高速道路におけるフラックスと速度の知識は不十分であり、その相関関係は、それぞれ、ネットワーク全体の機能とダイナミクスを決定するか、反映する。 これらの相関は、ネットワークのダイナミクスが非常に非定常であり、昼と週によって大きく変化するため、時間に依存する。 トラフィックネットワークにおける障害のリスクを検出するには相関が不可欠である。 代替ルートの発見と脆弱なルートとの相関は、トラフィックネットワークの堅牢化と崩壊の回避に寄与する。 そのため、特に、強い相関のある道路区間のグループの同定が必要である。 この目的のために、最適化された$k$-meansクラスタリング手法を用いる。 主な要素は、ネットワークの先頭集団運動が除去された特定の相関行列のスペクトル情報である。 ドイツのライン=ヴェストファーレン北部(nrw)の大規模高速道路網における区間群を,強い相関関係で同定した。 グループは、異なる期間の交通の位相だけでなく、スペクトルと地理的特徴の観点から、高速道路のセクションを分類する。 実トポロジ上のグループ,すなわち道路地図上の表現と可視化は、高速道路ネットワーク上の力学に関する新しい結果をもたらす。 我々のアプローチは非常に一般的であり、他の相関した複雑なシステムにも適用できる。

In a motorway network, correlations between the different links, i.e. between the parts of (different) motorways, are of considerable interest. Knowledge of fluxes and velocities on individual motorways is not sufficient, rather, their correlations determine or reflect, respectively, the functionality of and the dynamics on the network as a whole. These correlations are time dependent as the dynamics on the network is highly non-stationary, as it strongly varies during the day and over the week. Correlations are indispensable to detect risks of failure in a traffic network. Discovery of alternative routes less correlated with the vulnerable ones helps to make the traffic network robust and to avoid a collapse. Hence, the identification of, especially, groups of strongly correlated road sections is needed. To this end, we employ an optimized $k$-means clustering method. A major ingredient is the spectral information of certain correlation matrices in which the leading collective motion of the network has been removed. We identify strongly correlated groups of sections in the large motorway network of North Rhine-Westphalia (NRW), Germany. The groups classify the motorway sections in terms of spectral and geographic features as well as of traffic phases during different time periods. The representation and visualization of the groups on the real topology, i.e. on the road map, provides new results on the dynamics on the motorway network. Our approach is very general and can also be applied to other correlated complex systems.
翻訳日:2022-02-16 15:52:20 公開日:2022-02-15
# Gaze-Guided Class Activation Mapping:胸部X線分類におけるネットワーク注意の活用

Gaze-Guided Class Activation Mapping: Leveraging Human Attention for Network Attention in Chest X-rays Classification ( http://arxiv.org/abs/2202.07107v1 )

ライセンス: Link先を確認
Hongzhi Zhu, Septimiu Salcudean, Robert Rohling(参考訳) 視線追跡技術の可用性と正確性が高まり、心理学、神経科学、そして最近ではコンピュータビジョンと人工知能の研究に注目が集まっている。 ニューラルネットワークの注意機構は、学習タスクを改善することが知られている。 しかし、ネットワークの注目と人間の注意を組み合わせる以前の研究は行われていない。 本稿では,胸部x線病理分類問題に対する専門放射線科医の視覚的注意に基づくネットワーク注意の形成を直接制御するための視線誘導型クラスアクティベーションマッピング(gg-cam)法について述べる。 GG-CAMは軽量(学習プロセスを制御するためのトレーニング可能なパラメータを3ドル追加)で、ほとんどの分類畳み込みニューラルネットワーク(CNN)に容易に適用可能なジェネリック拡張である。 GG-CAM修飾CNNは、完全に訓練された時に入力として人間の注意を必要としない。 比較実験により,GG-CAM拡張を用いた2つの標準CNNでは,分類性能が著しく向上することが示唆された。 曲線(AUC)におけるResNet50の平均値の中央値は0.721$から0.776$へと増加する。 EfficientNetv2 (s) の場合、中央値 AUC は 0.723$ から 0.801$ に増加する。 GG-CAMはまた、ネットワークのより優れた解釈可能性をもたらし、弱教師付き病理の局在と解析を容易にする。

The increased availability and accuracy of eye-gaze tracking technology has sparked attention-related research in psychology, neuroscience, and, more recently, computer vision and artificial intelligence. The attention mechanism in artificial neural networks is known to improve learning tasks. However, no previous research has combined the network attention and human attention. This paper describes a gaze-guided class activation mapping (GG-CAM) method to directly regulate the formation of network attention based on expert radiologists' visual attention for the chest X-ray pathology classification problem, which remains challenging due to the complex and often nuanced differences among images. GG-CAM is a lightweight ($3$ additional trainable parameters for regulating the learning process) and generic extension that can be easily applied to most classification convolutional neural networks (CNN). GG-CAM-modified CNNs do not require human attention as an input when fully trained. Comparative experiments suggest that two standard CNNs with the GG-CAM extension achieve significantly greater classification performance. The median area under the curve (AUC) metrics for ResNet50 increases from $0.721$ to $0.776$. For EfficientNetv2 (s), the median AUC increases from $0.723$ to $0.801$. The GG-CAM also brings better interpretability of the network that facilitates the weakly-supervised pathology localization and analysis.
翻訳日:2022-02-16 15:49:53 公開日:2022-02-15
# マルチタスクUNet:胸部X線画像の唾液濃度予測と疾患分類を併用

Multi-task UNet: Jointly Boosting Saliency Prediction and Disease Classification on Chest X-ray Images ( http://arxiv.org/abs/2202.07118v1 )

ライセンス: Link先を確認
Hongzhi Zhu, Robert Rohling, Septimiu Salcudean(参考訳) 人間の視覚的な注意は、機械学習モデルの強化に特有の能力を示している。 しかし、人間の視覚に注意を向けて医療作業を促進しようとする研究はまだ少ない。 本稿では,胸部X線(CXR)画像における視覚的サリエンシ予測のための新しい深層学習モデルについて述べる。 データ不足に対処するため,マルチタスク学習手法を応用し,同時にCXRの疾患分類に取り組む。 より堅牢なトレーニングプロセスのために、より最適化されたマルチタスク学習スキームを提案する。 提案したディープラーニングモデルと新しい学習手法を併用した実験により,サリエンシ予測や画像分類のための既存手法よりも優れることを示す。 本論文で使用するコードはhttps://github.com/h z-zhu/mt-unetで利用可能である。

Human visual attention has recently shown its distinct capability in boosting machine learning models. However, studies that aim to facilitate medical tasks with human visual attention are still scarce. To support the use of visual attention, this paper describes a novel deep learning model for visual saliency prediction on chest X-ray (CXR) images. To cope with data deficiency, we exploit the multi-task learning method and tackles disease classification on CXR simultaneously. For a more robust training process, we propose a further optimized multi-task learning scheme to better handle model overfitting. Experiments show our proposed deep learning model with our new learning scheme can outperform existing methods dedicated either for saliency prediction or image classification. The code used in this paper is available at https://github.com/h z-zhu/MT-UNet.
翻訳日:2022-02-16 15:49:31 公開日:2022-02-15
# 低用量CT再構成において,Plug-and-Play法はニューラルネットワーク単体でどの程度優れているか

To what extent can Plug-and-Play methods outperform neural networks alone in low-dose CT reconstruction ( http://arxiv.org/abs/2202.07173v1 )

ライセンス: Link先を確認
Qifan Xu, Qihui Lyu, Dan Ruan, Ke Sheng(参考訳) Plug-and-Play(PnP)フレームワークは、訓練されたディープラーニング(DL)ニューラルネットワークなど、さまざまなプラグインを統合するためのモデルベースのメソッドの解釈可能性と柔軟性を活用するために、低用量CT再構成のために最近導入された。 しかし,PnP法と最先端DL法の利点は明らかになっていない。 本研究では,従来の限界に対処するPnPフレームワークを改良し,定量的結果評価のための臨床関連セグメンテーション指標を開発した。 DLのみと比較して,提案するPnPフレームワークはMSEとPSNRでは若干劣っていた。 しかし, 得られた画像のパワースペクトルは, dl画像のパワースペクトルよりもフルドース画像のパワースペクトルとよく一致した。 得られた画像は, テストセット中の10例すべてに対して, 気道分節画像よりも高い精度で, 0.61cm$^2$未満の断面積の気道上で, 葉分節中の50例中45例において, DL分節画像に優れていた。 我々のPnP法は画像テクスチャの保存に優れており、自動構造分割と検出においてタスク固有の利点に変換された。

The Plug-and-Play (PnP) framework was recently introduced for low-dose CT reconstruction to leverage the interpretability and the flexibility of model-based methods to incorporate various plugins, such as trained deep learning (DL) neural networks. However, the benefits of PnP vs. state-of-the-art DL methods have not been clearly demonstrated. In this work, we proposed an improved PnP framework to address the previous limitations and develop clinical-relevant segmentation metrics for quantitative result assessment. Compared with the DL alone methods, our proposed PnP framework was slightly inferior in MSE and PSNR. However, the power spectrum of the resulting images better matched that of full-dose images than that of DL denoised images. The resulting images supported higher accuracy in airway segmentation than DL denoised images for all the ten patients in the test set, more substantially on the airways with a cross-section smaller than 0.61cm$^2$, and outperformed the DL denoised images for 45 out of 50 lung lobes in lobar segmentation. Our PnP method proved to be significantly better at preserving the image texture, which translated to task-specific benefits in automated structure segmentation and detection.
翻訳日:2022-02-16 15:49:18 公開日:2022-02-15
# 3Dポイントクラウド攻撃のためのグラフスペクトル領域における悪魔の探索

Exploring the Devil in Graph Spectral Domain for 3D Point Cloud Attacks ( http://arxiv.org/abs/2202.07261v1 )

ライセンス: Link先を確認
Qianjiang Hu, Daizong Liu, Wei Hu(参考訳) 3d動的ポイントクラウドは、没入型テレプレゼンス、自律運転、監視、 \textit{etc} で広く使われている実世界の物体やシーンの離散表現を提供する。 しかし、センサから取得した点雲は通常ノイズによって摂動し、表面再構成や解析などの下流タスクに影響する。 静的ポイントクラウドデノージングには多くの取り組みがなされているが、動的ポイントクラウドデノージングを扱う作品はほとんどない。 本稿では, 勾配場推定のための時間対応を利用して, 動的点群処理と解析の基本的な問題である, 新しい勾配型動的点群分解法を提案する。 勾配場はノイズ点雲の対数確率関数の勾配であり、各点を下層の清浄面に収束させるために勾配上昇を行う。 古典力学における剛体運動を利用して時間対応パッチを探索する時間対応を利用して,各表面パッチの勾配を推定する。 特に、各パッチを剛体として扱い、隣り合うフレームの勾配場を力で移動する、すなわち、パッチ上の勾配の和が0に達するときのバランス状態に達する。 点が下面に近づくと勾配が小さくなるので、バランスの取れたパッチは下面によく適合し、時間的対応をもたらす。 最後に、隣接するフレームにおける対応するパッチから平均される勾配方向に沿ってパッチの各点の位置を更新する。 実験結果から,提案モデルが最先端手法より優れていることが示された。

3D dynamic point clouds provide a discrete representation of real-world objects or scenes in motion, which have been widely applied in immersive telepresence, autonomous driving, surveillance, \textit{etc}. However, point clouds acquired from sensors are usually perturbed by noise, which affects downstream tasks such as surface reconstruction and analysis. Although many efforts have been made for static point cloud denoising, few works address dynamic point cloud denoising. In this paper, we propose a novel gradient-based dynamic point cloud denoising method, exploiting the temporal correspondence for the estimation of gradient fields -- also a fundamental problem in dynamic point cloud processing and analysis. The gradient field is the gradient of the log-probability function of the noisy point cloud, based on which we perform gradient ascent so as to converge each point to the underlying clean surface. We estimate the gradient of each surface patch by exploiting the temporal correspondence, where the temporally corresponding patches are searched leveraging on rigid motion in classical mechanics. In particular, we treat each patch as a rigid object, which moves in the gradient field of an adjacent frame via force until reaching a balanced state, i.e., when the sum of gradients over the patch reaches 0. Since the gradient would be smaller when the point is closer to the underlying surface, the balanced patch would fit the underlying surface well, thus leading to the temporal correspondence. Finally, the position of each point in the patch is updated along the direction of the gradient averaged from corresponding patches in adjacent frames. Experimental results demonstrate that the proposed model outperforms state-of-the-art methods.
翻訳日:2022-02-16 15:48:54 公開日:2022-02-15
# マルチモーダルドライバ参照:車両内外の物体に対する指差の比較

Multimodal Driver Referencing: A Comparison of Pointing to Objects Inside and Outside the Vehicle ( http://arxiv.org/abs/2202.07360v1 )

ライセンス: Link先を確認
Abdul Rafey Aftab, Michael von der Beeck(参考訳) 高度なインカビンセンシング技術、特にビジョンベースのアプローチは、車内におけるユーザインタラクションを著しく進歩させ、自然なユーザインタラクションの新しい応用への道を開いた。 人間が複数のモードを使って互いに通信するのと同じように、私たちは複数のモードを同時に使用して、特定のタスクに対して自然な人間と機械の相互作用を実現するアプローチに従う。 視線,頭部,指の動きを追跡することで,ディープニューラルネットワークを用いたマルチモーダル融合アーキテクチャを設計し,ドライバの参照意図を正確に識別する。 さらに、各参照イベントを分離するために、音声コマンドをトリガーとして使用します。 特に眼, 頭, 指の3つのモードの正確性を分析する場合, ドライバの挙動の違いを観察する。 我々は、各モダリティが特定の制限を示すため、すべてのケースにのみ最適である単一のモダリティは存在しないと結論づける。 複数のモダリティの融合は、各モダリティの関連する特性を利用するため、個々のモダリティのケース依存の制限を克服する。 最終的に,予測されたポインティング方向に基づいて,運転者の参照対象が車内または車外に存在するか否かを識別する手法を提案する。

Advanced in-cabin sensing technologies, especially vision based approaches, have tremendously progressed user interaction inside the vehicle, paving the way for new applications of natural user interaction. Just as humans use multiple modes to communicate with each other, we follow an approach which is characterized by simultaneously using multiple modalities to achieve natural human-machine interaction for a specific task: pointing to or glancing towards objects inside as well as outside the vehicle for deictic references. By tracking the movements of eye-gaze, head and finger, we design a multimodal fusion architecture using a deep neural network to precisely identify the driver's referencing intent. Additionally, we use a speech command as a trigger to separate each referencing event. We observe differences in driver behavior in the two pointing use cases (i.e. for inside and outside objects), especially when analyzing the preciseness of the three modalities eye, head, and finger. We conclude that there is no single modality that is solely optimal for all cases as each modality reveals certain limitations. Fusion of multiple modalities exploits the relevant characteristics of each modality, hence overcoming the case dependent limitations of each individual modality. Ultimately, we propose a method to identity whether the driver's referenced object lies inside or outside the vehicle, based on the predicted pointing direction.
翻訳日:2022-02-16 15:48:28 公開日:2022-02-15
# ブラインド画像超解像のための深部拘束型最小方形

Deep Constrained Least Squares for Blind Image Super-Resolution ( http://arxiv.org/abs/2202.07508v1 )

ライセンス: Link先を確認
Ziwei Luo, Haibin Huang, Lei Yu, Youwei Li, Haoqiang Fan, and Shuaicheng Liu(参考訳) 本稿では,再構成分解モデルと2つの新規モジュールを用いて,ブラインド画像超解像(sr)の問題に取り組む。 ブラインドSRの一般的な実践に続いて、カーネル推定とカーネルベースの高解像度画像復元の両方を改善することを提案する。 より具体的には、まず劣化モデルを再構成し、脱水核推定を低分解能空間に転送する。 これに加えて,動的ディープ線形フィルタモジュールを導入する。 すべての画像に固定されたカーネルを学習する代わりに、入力に条件付きでデブラリングなカーネル重みを生成し、より堅牢なカーネル推定を生成することができる。 その後、再編成および推定カーネルに基づいてクリーンな特徴を生成するために、深い制約付き最小二乗フィルタリングモジュールが適用される。 そして、遅延特徴と低入力画像特徴とをデュアルパス構造化SRネットワークに入力し、最終高分解能結果を復元する。 本手法を評価するため,Gaussian8 や DIV2KRK など,いくつかのベンチマークでさらに評価を行う。 提案手法は,最先端手法に対する精度と視覚的改善を実現する。

In this paper, we tackle the problem of blind image super-resolution(SR) with a reformulated degradation model and two novel modules. Following the common practices of blind SR, our method proposes to improve both the kernel estimation as well as the kernel based high resolution image restoration. To be more specific, we first reformulate the degradation model such that the deblurring kernel estimation can be transferred into the low resolution space. On top of this, we introduce a dynamic deep linear filter module. Instead of learning a fixed kernel for all images, it can adaptively generate deblurring kernel weights conditional on the input and yields more robust kernel estimation. Subsequently, a deep constrained least square filtering module is applied to generate clean features based on the reformulation and estimated kernel. The deblurred feature and the low input image feature are then fed into a dual-path structured SR network and restore the final high resolution result. To evaluate our method, we further conduct evaluations on several benchmarks, including Gaussian8 and DIV2KRK. Our experiments demonstrate that the proposed method achieves better accuracy and visual improvements against state-of-the-art methods.
翻訳日:2022-02-16 15:47:49 公開日:2022-02-15
# クロスプラットフォーム学習画像圧縮のためのポストトレーニング量子化

Post-Training Quantization for Cross-Platform Learned Image Compression ( http://arxiv.org/abs/2202.07513v1 )

ライセンス: Link先を確認
Dailan He, Ziming Yang, Yuan Chen, Qi Zhang, Hongwei Qin, Yan Wang(参考訳) 学習された画像圧縮は従来の画像符号化技術よりも優れており、産業用途では実用的である傾向にある。 考慮すべき最も重要な問題の1つは非決定論的計算であり、これは確率予測がクロスプラットフォームに矛盾し、復号を成功させる。 本稿では,既存のトレーニングや微調整に基づくアプローチよりもはるかにシンプルでありながら,学習画像圧縮の速度歪み性能に優れるモデル推論を,十分に開発した後処理量子化を導入して,この問題を解決することを提案する。 これに基づいて,エントロピーパラメータの離散化をさらに改善し,決定論的推論をガウス混合モデルに適合するように拡張する。 提案手法により,現在の最先端画像圧縮モデルは,クロスプラットフォームに一貫性のある方法で推定できるため,学習画像圧縮のさらなる開発と実践がより有望になる。

It has been witnessed that learned image compression has outperformed conventional image coding techniques and tends to be practical in industrial applications. One of the most critical issues that need to be considered is the non-deterministic calculation, which makes the probability prediction cross-platform inconsistent and frustrates successful decoding. We propose to solve this problem by introducing well-developed post-training quantization and making the model inference integer-arithmetic-o nly, which is much simpler than presently existing training and fine-tuning based approaches yet still keeps the superior rate-distortion performance of learned image compression. Based on that, we further improve the discretization of the entropy parameters and extend the deterministic inference to fit Gaussian mixture models. With our proposed methods, the current state-of-the-art image compression models can infer in a cross-platform consistent manner, which makes the further development and practice of learned image compression more promising.
翻訳日:2022-02-16 15:47:31 公開日:2022-02-15
# 重力波検出のための機械学習モデルの解釈

Interpreting a Machine Learning Model for Detecting Gravitational Waves ( http://arxiv.org/abs/2202.07399v1 )

ライセンス: Link先を確認
Mohammadtaher Safarzadeh, Asad Khan, E. A. Huerta, Martin Wattenberg(参考訳) 本稿では,コンピュータビジョンのために開発された解釈可能性技術を用いて,重力波の探索と探索に用いる機械学習モデルに適用する。 本研究は,非ガウスおよび非定常レーザー干渉計重力波観測装置(LIGO)データにおけるブラックホールの融合事象を検出するために訓練された。 我々は、実際の重力波信号、ノイズ異常、純粋な高度なLIGOノイズを含む高度なLIGOデータを処理する際に、機械学習モデルの応答を可視化した。 我々の研究結果は、これらの機械学習モデルにおける個々のニューロンの反応に光を当てた。 さらに分析したところ、ネットワークの異なる部分は局所的特徴とグローバルな特徴に特化しており、この違いはLIGO検出器のノイズ特性と同様に、ネットワークの分岐アーキテクチャに根ざしていることが示唆された。 これらの「ブラックボックス」モデルを白化しようとする取り組みは、今後の研究の道筋を示唆し、重力波天体物理学のための解釈可能な機械学習モデルの設計に役立てることができると信じている。

We describe a case study of translational research, applying interpretability techniques developed for computer vision to machine learning models used to search for and find gravitational waves. The models we study are trained to detect black hole merger events in non-Gaussian and non-stationary advanced Laser Interferometer Gravitational-wave Observatory (LIGO) data. We produced visualizations of the response of machine learning models when they process advanced LIGO data that contains real gravitational wave signals, noise anomalies, and pure advanced LIGO noise. Our findings shed light on the responses of individual neurons in these machine learning models. Further analysis suggests that different parts of the network appear to specialize in local versus global features, and that this difference appears to be rooted in the branched architecture of the network as well as noise characteristics of the LIGO detectors. We believe efforts to whiten these "black box" models can suggest future avenues for research and help inform the design of interpretable machine learning models for gravitational wave astrophysics.
翻訳日:2022-02-16 15:46:04 公開日:2022-02-15
# インテリジェントセマンティック通信ネットワークにおける無線リソース管理

Wireless Resource Management in Intelligent Semantic Communication Networks ( http://arxiv.org/abs/2202.07632v1 )

ライセンス: Link先を確認
Le Xia, Yao Sun, Xiaoqian Li, Gang Feng, and Muhammad Ali Imran(参考訳) 人工知能(AI)の繁栄は、従来のビットシーケンスではなく、セマンティックな内容が効率的なコミュニケーションのためにAIモデルによってコードされる、インテリジェントセマンティックコミュニケーション(ISC)という、有望なコミュニケーションシステムのパラダイムを確立した。 セマンティクス回復のための背景知識のユニークな要求により、ワイヤレスリソース管理はiscの新たな課題に直面している。 本稿では、ISC対応ヘテロジニアスネットワーク(ISC-HetNet)におけるユーザアソシエーション(UA)と帯域幅割り当て(BA)の問題に対処する。 まず,システムモデルに補助知識ベース(kb)を導入し,システムスループット・イン・メッセージ(stm)と呼ばれるisc-hetnetの新しいパフォーマンス指標を開発した。 UAとBAの合同最適化は、KBマッチングと無線帯域制約を対象とするSTMの最大化を目的とし定式化する。 そこで本研究では,第1段階の確率的プログラミング手法と第2段階のヒューリスティックアルゴリズムを用いて,UAとBAの最適性に到達するための2段階の解を提案する。 2つのベースラインアルゴリズムと比較して,提案手法のSTM性能に対する高い優位性と信頼性を示す。

The prosperity of artificial intelligence (AI) has laid a promising paradigm of communication system, i.e., intelligent semantic communication (ISC), where semantic contents, instead of traditional bit sequences, are coded by AI models for efficient communication. Due to the unique demand of background knowledge for semantic recovery, wireless resource management faces new challenges in ISC. In this paper, we address the user association (UA) and bandwidth allocation (BA) problems in an ISC-enabled heterogeneous network (ISC-HetNet). We first introduce the auxiliary knowledge base (KB) into the system model, and develop a new performance metric for the ISC-HetNet, named system throughput in message (STM). Joint optimization of UA and BA is then formulated with the aim of STM maximization subject to KB matching and wireless bandwidth constraints. To this end, we propose a two-stage solution, including a stochastic programming method in the first stage to obtain a deterministic objective with semantic confidence, and a heuristic algorithm in the second stage to reach the optimality of UA and BA. Numerical results show great superiority and reliability of our proposed solution on the STM performance when compared with two baseline algorithms.
翻訳日:2022-02-16 15:45:48 公開日:2022-02-15
# データ結合による持続的コンバウンダリングによる長期因果推論

Long-term Causal Inference Under Persistent Confounding via Data Combination ( http://arxiv.org/abs/2202.07234v1 )

ライセンス: Link先を確認
Guido Imbens, Nathan Kallus, Xiaojie Mao, Yuhao Wang(参考訳) 実験データと観察データの両方が利用可能である場合の長期治療効果の同定と推定について検討する。 長期の成果は長期間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。 しかし、どちらのデータも短期的な結果の観察を含んでいる。 本稿では,従来の文献では識別戦略を無効としており,治療,短期的成果,長期的成果に同時に影響を及ぼすような,持続的無測定共同設立者の課題に一意的に取り組む。 この課題に対処するために,複数の短期的成果の逐次構造を活用し,平均的長期的治療効果に対する3つの新しい識別戦略を開発する。 さらに,対応する3つの推定器を提案し,それらの漸近的一貫性と漸近的正規性を証明する。 最後に, 半合成データを用いて, 職業訓練プログラムが長期雇用に及ぼす影響を推定する手法を適用した。 我々は,提案手法が持続的共同創設者を扱わない既存手法よりも優れていることを数値的に示す。

We study the identification and estimation of long-term treatment effects when both experimental and observational data are available. Since the long-term outcome is observed only after a long delay, it is not measured in the experimental data, but only recorded in the observational data. However, both types of data include observations of some short-term outcomes. In this paper, we uniquely tackle the challenge of persistent unmeasured confounders, i.e., some unmeasured confounders that can simultaneously affect the treatment, short-term outcomes and the long-term outcome, noting that they invalidate identification strategies in previous literature. To address this challenge, we exploit the sequential structure of multiple short-term outcomes, and develop three novel identification strategies for the average long-term treatment effect. We further propose three corresponding estimators and prove their asymptotic consistency and asymptotic normality. We finally apply our methods to estimate the effect of a job training program on long-term employment using semi-synthetic data. We numerically show that our proposals outperform existing methods that fail to handle persistent confounders.
翻訳日:2022-02-16 15:45:27 公開日:2022-02-15
# 無重力スパイクニューラルネットワークにおける時間遅延による記憶

Memory via Temporal Delays in weightless Spiking Neural Network ( http://arxiv.org/abs/2202.07132v1 )

ライセンス: Link先を確認
Hananel Hazan, Simon Caby, Christopher Earl, Hava Siegelmann, Michael Levin(参考訳) 神経科学コミュニティにおける一般的な見解は、記憶はニューロン間の接続強度に符号化されているということである。 この知覚により、ニューラルネットワークモデルは学習を変調する鍵となる変数として接続重みに注目した。 本稿では,単純な分類処理を行うことができる無重力スパイクニューラルネットワークのプロトタイプを提案する。 このネットワーク内のメモリは接続の強度よりもニューロン間のタイミングに記憶され、接続の遅延を調整するヘビースパイクタイミング依存可塑性(stdp)を用いて訓練される。

A common view in the neuroscience community is that memory is encoded in the connection strength between neurons. This perception led artificial neural network models to focus on connection weights as the key variables to modulate learning. In this paper, we present a prototype for weightless spiking neural networks that can perform a simple classification task. The memory in this network is stored in the timing between neurons, rather than the strength of the connection, and is trained using a Hebbian Spike Timing Dependent Plasticity (STDP), which modulates the delays of the connection.
翻訳日:2022-02-16 15:44:46 公開日:2022-02-15
# L2C2: 安定・平滑強化学習への局所リプシッツ連続制約

L2C2: Locally Lipschitz Continuous Constraint towards Stable and Smooth Reinforcement Learning ( http://arxiv.org/abs/2202.07152v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 本稿では,政策と価値機能を円滑かつ安定にするための強化学習(RL)のための新しい正規化手法を提案する。 RLは学習過程の不安定さと、取得したポリシーのノイズに対する感受性で知られている。 これらの問題を解決するためにいくつかの方法が提案され、まとめると、RLで主に学んだポリシーと値関数の滑らかさがこれらの問題に寄与する。 しかし、これらの関数が非常に滑らかであれば、その表現性が失われ、大域最適解が得られない。 そこで本稿では、局所リプシッツ連続性制約(L2C2)の下でRLを考える。 各段階における状態遷移からL2C2の時空間的局所コンパクト空間を設計することにより、表現性を損なうことなく適度な滑らか性を実現できる。 提案するl2c2は,学習方針から生成したロボット動作を平滑化しつつ,タスク性能を上回ることを確認した。

This paper proposes a new regularization technique for reinforcement learning (RL) towards making policy and value functions smooth and stable. RL is known for the instability of the learning process and the sensitivity of the acquired policy to noise. Several methods have been proposed to resolve these problems, and in summary, the smoothness of policy and value functions learned mainly in RL contributes to these problems. However, if these functions are extremely smooth, their expressiveness would be lost, resulting in not obtaining the global optimal solution. This paper therefore considers RL under local Lipschitz continuity constraint, so-called L2C2. By designing the spatio-temporal locally compact space for L2C2 from the state transition at each time step, the moderate smoothness can be achieved without loss of expressiveness. Numerical noisy simulations verified that the proposed L2C2 outperforms the task performance while smoothing out the robot action generated from the learned policy.
翻訳日:2022-02-16 15:43:18 公開日:2022-02-15
# Federated Graph Neural Networks:概要、技術、課題

Federated Graph Neural Networks: Overview, Techniques and Challenges ( http://arxiv.org/abs/2202.07256v1 )

ライセンス: Link先を確認
Rui Liu and Han Yu(参考訳) 実用的なアプリケーションで広く見られるグラフデータを扱う強力な能力によって、グラフニューラルネットワーク(GNN)は大きな研究注目を集めている。 しかし、社会がデータプライバシーにますます関心を持つようになると、GNNはこの新しい標準に適応する必要がある。 近年、フェデレーショングラフニューラルネットワーク(federated graph neural networks, fedgnns)の研究が急速に進展している。 有望ではあるが、この学際分野は興味のある研究者にとって非常に困難である。 このトピックに関する洞察に富んだ調査の欠如は、この問題を悪化させるだけだ。 本稿では,この新興分野を包括的に調査することで,このギャップを埋める。 我々は,フェデレートラーニング(FL)の文脈において,GNNがどのように機能するかを明確に把握するために,フェデレートラーニング文学の3層分類法を提案する。 既存の作業は、FL設定におけるグラフデータの表示方法、異なるFLシステムアーキテクチャ下でのGNNトレーニングの実施方法、データサイロ間でのグラフデータの重複度、さまざまなFL設定下でのGNNアグリゲーションの実行方法を分析することで、視点に置いている。 既存の作業の利点と限界について議論することで、より堅牢で、動的で、効率的で、解釈可能なFedGNNを構築するのに役立つ将来の研究方向を想像する。

With its powerful capability to deal with graph data widely found in practical applications, graph neural networks (GNNs) have received significant research attention. However, as societies become increasingly concerned with data privacy, GNNs face the need to adapt to this new normal. This has led to the rapid development of federated graph neural networks (FedGNNs) research in recent years. Although promising, this interdisciplinary field is highly challenging for interested researchers to enter into. The lack of an insightful survey on this topic only exacerbates this problem. In this paper, we bridge this gap by offering a comprehensive survey of this emerging field. We propose a unique 3-tiered taxonomy of the FedGNNs literature to provide a clear view into how GNNs work in the context of Federated Learning (FL). It puts existing works into perspective by analyzing how graph data manifest themselves in FL settings, how GNN training is performed under different FL system architectures and degrees of graph data overlap across data silo, and how GNN aggregation is performed under various FL settings. Through discussions of the advantages and limitations of existing works, we envision future research directions that can help build more robust, dynamic, efficient, and interpretable FedGNNs.
翻訳日:2022-02-16 15:43:02 公開日:2022-02-15
# ウェアラブル型人間行動認識のための不整合行動パターンの学習

Learning Disentangled Behaviour Patterns for Wearable-based Human Activity Recognition ( http://arxiv.org/abs/2202.07260v1 )

ライセンス: Link先を確認
Jie Su, Zhenyu Wen, Tao Lin, Yu Guan(参考訳) ウェアラブルに基づくヒューマンアクティビティ認識(HAR)研究において、大きな課題の1つは、クラス内変動の問題である。 収集された活動信号は、必ずしも、個人、環境、その他の要因によって引き起こされるノイズやバイアスと組み合わせられることが多く、特に不十分なデータの場合、HARタスクの効果的な特徴を学習することは困難である。 この問題に対処するため,本研究では,個人のスタイルや環境騒音などの無関係な騒音から行動パターンを分離できる行動パターン異方性(bpd)フレームワークを提案する。 不等角化ネットワークに基づき,複数の損失関数を設計・設計し,特徴空間における最小依存性(その間)で無関係な雑音からアクティビティ信号を取り外し得る最適化のための逆訓練戦略を用いた。 私たちのBPDフレームワークはフレキシブルで、機能改善のために既存のディープラーニング(DL)アプローチの上に使用することができます。 4つの公開HARデータセットに対して大規模な実験を行い,提案手法の有望な結果から,その柔軟性と有効性が示唆された。 これはオープンソースプロジェクトであり、コードはhttp://github.com/Ji e-su/BPDで見ることができる。

In wearable-based human activity recognition (HAR) research, one of the major challenges is the large intra-class variability problem. The collected activity signal is often, if not always, coupled with noises or bias caused by personal, environmental, or other factors, making it difficult to learn effective features for HAR tasks, especially when with inadequate data. To address this issue, in this work, we proposed a Behaviour Pattern Disentanglement (BPD) framework, which can disentangle the behavior patterns from the irrelevant noises such as personal styles or environmental noises, etc. Based on a disentanglement network, we designed several loss functions and used an adversarial training strategy for optimization, which can disentangle activity signals from the irrelevant noises with the least dependency (between them) in the feature space. Our BPD framework is flexible, and it can be used on top of existing deep learning (DL) approaches for feature refinement. Extensive experiments were conducted on four public HAR datasets, and the promising results of our proposed BPD scheme suggest its flexibility and effectiveness. This is an open-source project, and the code can be found at http://github.com/Ji e-su/BPD
翻訳日:2022-02-16 15:42:42 公開日:2022-02-15
# 確率勾配Descent-Ascent:統一理論と新しい効率的な方法

Stochastic Gradient Descent-Ascent: Unified Theory and New Efficient Methods ( http://arxiv.org/abs/2202.07262v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Eduard Gorbunov, Hugo Berard, Nicolas Loizou(参考訳) Stochastic Gradient Descent-Ascent (SGDA)は、様々な機械学習タスクに現れるmin-max最適化と変分不等式問題(VIP)を解決するアルゴリズムの1つである。 この手法の成功により古典的なSGDAの拡張が進み、任意のサンプリングによる変種、ばらつきの低減、座標のランダム化、圧縮による分散変種などが研究され、特に過去数年間に広く研究された。 本稿では,これまで異なる直観が必要であった確率的勾配降下上昇法を多種多様に適用し,様々なコミュニティで個別に開発してきた統一収束解析を提案する。 統合フレームワークの鍵は確率的推定に関するパラメトリックな仮定である。 私たちの一般的な理論的枠組みでは、既知の特別なケースの最も鋭い既知のレートを回復するか、それらを締め付けるかのどちらかです。 さらに,提案手法の柔軟性を説明するために,新しい分散分散手法 (L-SVRGDA), 圧縮型分散方式 (QSGDA, DIANA-SGDA, VR-DIANA-SGDA), 座標ランダム化方式 (SEGA-SGDA) など,SGDAの新しい変種を開発した。 新しい手法の変種は最小化問題の解法として知られているが、min-max問題やvipsの解法として考慮されることはなかった。 また,本手法の最も重要な特性を広範囲な数値実験により示す。

Stochastic Gradient Descent-Ascent (SGDA) is one of the most prominent algorithms for solving min-max optimization and variational inequalities problems (VIP) appearing in various machine learning tasks. The success of the method led to several advanced extensions of the classical SGDA, including variants with arbitrary sampling, variance reduction, coordinate randomization, and distributed variants with compression, which were extensively studied in the literature, especially during the last few years. In this paper, we propose a unified convergence analysis that covers a large variety of stochastic gradient descent-ascent methods, which so far have required different intuitions, have different applications and have been developed separately in various communities. A key to our unified framework is a parametric assumption on the stochastic estimates. Via our general theoretical framework, we either recover the sharpest known rates for the known special cases or tighten them. Moreover, to illustrate the flexibility of our approach we develop several new variants of SGDA such as a new variance-reduced method (L-SVRGDA), new distributed methods with compression (QSGDA, DIANA-SGDA, VR-DIANA-SGDA), and a new method with coordinate randomization (SEGA-SGDA). Although variants of the new methods are known for solving minimization problems, they were never considered or analyzed for solving min-max problems and VIPs. We also demonstrate the most important properties of the new methods through extensive numerical experiments.
翻訳日:2022-02-16 15:42:20 公開日:2022-02-15
# ラベルノイズを用いた畳み込みネットワークファブリックプルーニング

Convolutional Network Fabric Pruning With Label Noise ( http://arxiv.org/abs/2202.07268v1 )

ライセンス: Link先を確認
Ilias Benjelloun (SYNALP), Bart Lamiroy (CRESTIC, SYNALP), Efoevi Koudou (IECL)(参考訳) 本稿では,コンボリューショナル・ネットワーク・ファブリック(CNF)に対して,ノイズの多いトレーニングやテストデータの存在下で反復的プルーニング戦略を提案する。 ニューラルネットワークモデルのサイズが継続的に増加するにつれて、さまざまな著者が、パフォーマンスを維持しながら、リソースを少なくするよりコンパクトなネットワーク構造を構築するためのプラニングアプローチを開発した。 本稿では,本論文で示すように,その固有構造と機能から,畳み込みネットワークファブリックは刈り取りの理想的な候補である。 畳み込みフィルタ全体または個々の重み付けを切断することで、最終的なネットワークサイズと必要なトレーニング時間の両方を著しく削減し、グリッドを視覚的に理解できるが、全体的な実行品質は制御可能な境界内に留まる。 本手法は,ネットワークの複雑さが急速に減少し,計算時間が短縮されるように,トレーニング中に反復的に適用できる。 本論文は,データ依存戦略とデータ依存戦略の両方に対処し,アノテーションエラーを含むデータのトレーニングやテストにおいて,最も効率的なアプローチを実験的に確立する。

This paper presents an iterative pruning strategy for Convolutional Network Fabrics (CNF) in presence of noisy training and testing data. With the continuous increase in size of neural network models, various authors have developed pruning approaches to build more compact network structures requiring less resources, while preserving performance. As we show in this paper, because of their intrinsic structure and function, Convolutional Network Fabrics are ideal candidates for pruning. We present a series of pruning strategies that can significantly reduce both the final network size and required training time by pruning either entire convolutional filters or individual weights, so that the grid remains visually understandable but that overall execution quality stays within controllable boundaries. Our approach can be iteratively applied during training so that the network complexity decreases rapidly, saving computational time. The paper addresses both data-dependent and dataindependent strategies, and also experimentally establishes the most efficient approaches when training or testing data contain annotation errors.
翻訳日:2022-02-16 15:41:51 公開日:2022-02-15
# (参考訳) 条件推論の一般的な枠組み -予備報告- [全文訳有]

A General Framework for Modelling Conditional Reasoning -- Preliminary Report ( http://arxiv.org/abs/2202.07596v1 )

ライセンス: CC BY 4.0
Giovanni Casini, Umberto Straccia(参考訳) ここでは、幅広い推論システムの定義を可能にする条件文の形式化を紹介し、検討する。 このフレームワークは、論理ベースのkrにおいて最も一般的な条件付き推論の種類をカバーする:我々が提案するセマンティクスは、古典論理に付随するクロージャプロパティを満たさない条件型の構造分析に適しています。

We introduce and investigate here a formalisation for conditionals that allows the definition of a broad class of reasoning systems. This framework covers the most popular kinds of conditional reasoning in logic-based KR: the semantics we propose is appropriate for a structural analysis of those conditionals that do not satisfy closure properties associated to classical logics.
翻訳日:2022-02-16 15:39:00 公開日:2022-02-15
# PILED:Few-Shotイベント検出のためのIdentify-and-Localiz eフレームワーク

PILED: An Identify-and-Localiz e Framework for Few-Shot Event Detection ( http://arxiv.org/abs/2202.07615v1 )

ライセンス: Link先を確認
Sha Li, Liyuan Liu, Yiqing Xie, Heng Ji, Jiawei Han(参考訳) イベント抽出システムの実践的応用は、人間の重大アノテーションの必要性から長い間妨げられてきた。 新しいドメインやイベントタイプにスケールアップするには、モデルが数ショットの学習設定のように、限られた監督に対処することを学ぶ必要がある。 この目的のために、大きな課題は、モデルがイベント参照アノテーションを必要とせずに、イベントタイプのセマンティクスをマスターできるようにすることである。 本研究では,事前学習された言語モデルからイベント関連知識を導き出すためにclozeプロンプトを用い,さらにイベント定義やキーワードを用いてトリガーワードをピンポイントする。 イベント検出タスクを識別テーマのローカライズ手順として定式化することにより、型固有のパラメータの数を最小化し、新しいタイプのイベント検出タスクに迅速に適応できるようにする。 3つのイベント検出ベンチマークデータセット(ACE, FewEvent, MAVEN)を実験した結果,提案手法は完全な教師付き設定下では良好に動作し,FewEventデータセットでは21%F1,MAVENデータセットでは20%,各イベントタイプでは5つの例しか提供されていない場合,既存の複数ショットメソッドを上回ります。

Practical applications of event extraction systems have long been hindered by their need for heavy human annotation. In order to scale up to new domains and event types, models must learn to cope with limited supervision, as in few-shot learning settings. To this end, the major challenge is to let the model master the semantics of event types, without requiring abundant event mention annotations. In our study, we employ cloze prompts to elicit event-related knowledge from pretrained language models and further use event definitions and keywords to pinpoint the trigger word. By formulating the event detection task as an identify-then-locali ze procedure, we minimize the number of type-specific parameters, enabling our model to quickly adapt to event detection tasks for new types. Experiments on three event detection benchmark datasets (ACE, FewEvent, MAVEN) show that our proposed method performs favorably under fully supervised settings and surpasses existing few-shot methods by 21% F1 on the FewEvent dataset and 20% on the MAVEN dataset when only 5 examples are provided for each event type.
翻訳日:2022-02-16 15:12:52 公開日:2022-02-15
# 言語間の視覚的質問への深い答え

Delving Deeper into Cross-lingual Visual Question Answering ( http://arxiv.org/abs/2202.07630v1 )

ライセンス: Link先を確認
Chen Liu, Jonas Pfeiffer, Anna Korhonen, Ivan Vulic, Iryna Gurevych(参考訳) 視覚的質問応答(VQA)は視覚と言語の重要なタスクの1つである。 しかし、最近まで多くの研究は、適切な評価リソースの欠如のため、英語のみに焦点を当ててきた。 従来の言語間VQAの研究では、現在の多言語マルチモーダルトランスフォーマーのゼロショット転送性能が低かったこと、およびモノリンガル性能に対する大きなギャップが報告されている。 本研究では、入力データの影響、微調整および評価体制、および言語間セットアップにおける2つのモード間の相互作用を理解することを目的として、言語間VQAの様々な側面を深く掘り下げて対処する。 1) 単言語英語性能のギャップを実質的に低減し, 既存のトランスファー法に比べて+10の精度ポイントを得る新しい手法により, 低転送性能に取り組む。 2) 諸問題の種類,多言語多モード変換器,ゼロショット,少数ショットのシナリオにおいて,多言語間VQAについて検討し,検討した。 3) 学習データやモデルにおけるモダリティバイアスに関する広範な分析を行い, なぜゼロショット性能差が問題型や言語に残るのかをさらに理解することを目的とした。 新たな手法と詳細な分析により,多言語VQAのさらなる進歩が期待できる。

Visual question answering (VQA) is one of the crucial vision-and-language tasks. Yet, the bulk of research until recently has focused only on the English language due to the lack of appropriate evaluation resources. Previous work on cross-lingual VQA has reported poor zero-shot transfer performance of current multilingual multimodal Transformers and large gaps to monolingual performance, attributed mostly to misalignment of text embeddings between the source and target languages, without providing any additional deeper analyses. In this work, we delve deeper and address different aspects of cross-lingual VQA holistically, aiming to understand the impact of input data, fine-tuning and evaluation regimes, and interactions between the two modalities in cross-lingual setups. 1) We tackle low transfer performance via novel methods that substantially reduce the gap to monolingual English performance, yielding +10 accuracy points over existing transfer methods. 2) We study and dissect cross-lingual VQA across different question types of varying complexity, across different multilingual multi-modal Transformers, and in zero-shot and few-shot scenarios. 3) We further conduct extensive analyses on modality biases in training data and models, aimed to further understand why zero-shot performance gaps remain for some question types and languages. We hope that the novel methods and detailed analyses will guide further progress in multilingual VQA.
翻訳日:2022-02-16 15:12:30 公開日:2022-02-15
# すべてをルールする1つの構成? 多目的ベイズ最適化を用いたトピックモデルのハイパーパラメータ移動に向けて

One Configuration to Rule Them All? Towards Hyperparameter Transfer in Topic Models using Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2202.07631v1 )

ライセンス: Link先を確認
Silvia Terragni, Ismail Harrando, Pasquale Lisena, Raphael Troncy, Elisabetta Fersini(参考訳) トピックモデルはドキュメントコレクションから基礎となるトピックを抽出する統計的手法である。 トピックモデリングを行う場合、ユーザーは通常、互いに一貫性があり多様なトピックを欲しがり、下流のタスク(文書分類など)のために優れた文書表現を構成する。 本稿では,3つの話題モデルの多目的ハイパーパラメータ最適化を行う。 その結果, 異なる目的の相反する性質を明らかにし, トレーニングコーパス特性がハイパーパラメータ選択に不可欠であること, データセット間で最適なハイパーパラメータ構成を転送できることが示唆された。

Topic models are statistical methods that extract underlying topics from document collections. When performing topic modeling, a user usually desires topics that are coherent, diverse between each other, and that constitute good document representations for downstream tasks (e.g. document classification). In this paper, we conduct a multi-objective hyperparameter optimization of three well-known topic models. The obtained results reveal the conflicting nature of different objectives and that the training corpus characteristics are crucial for the hyperparameter selection, suggesting that it is possible to transfer the optimal hyperparameter configurations between datasets.
翻訳日:2022-02-16 15:11:56 公開日:2022-02-15
# 論理と埋め込みを用いたナレッジグラフ推論:調査と展望

Knowledge Graph Reasoning with Logics and Embeddings: Survey and Perspective ( http://arxiv.org/abs/2202.07412v1 )

ライセンス: Link先を確認
Wen Zhang, Jiaoyan Chen, Juan Li, Zezhong Xu, Jeff Z. Pan, Huajun Chen(参考訳) 知識グラフ(KG)推論は、学術と産業の両方で人気が高まっている。 記号論理に基づく従来のKG推論は決定論的であり、推論結果は説明可能であるが、現代の埋め込みに基づく推論は不確実性に対処し、しばしばベクトル計算による高い効率で妥当な知識を予測することができる。 有望な方向性は、ロジックベースと埋め込みベースの両方のメソッドを統合することである。 近年、多くの作品が出版され、研究の注目を集めている。 本稿では,これらを包括的に調査し,論理と組込みの統合方法について考察する。 まず,まず予備研究を紹介し,次に異なる視点から論理と埋め込みを意識したKG推論を体系的に分類,議論し,最終的に課題と今後の方向性について結論付け,議論する。

Knowledge graph (KG) reasoning is becoming increasingly popular in both academia and industry. Conventional KG reasoning based on symbolic logic is deterministic, with reasoning results being explainable, while modern embedding-based reasoning can deal with uncertainty and predict plausible knowledge, often with high efficiency via vector computation. A promising direction is to integrate both logic-based and embedding-based methods, with the vision to have advantages of both. It has attracted wide research attention with more and more works published in recent years. In this paper, we comprehensively survey these works, focusing on how logics and embeddings are integrated. We first briefly introduce preliminaries, then systematically categorize and discuss works of logic and embedding-aware KG reasoning from different perspectives, and finally conclude and discuss the challenges and further directions.
翻訳日:2022-02-16 15:11:47 公開日:2022-02-15
# 自律走行における車線検出と分類のための準現実領域適応

Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving ( http://arxiv.org/abs/2202.07133v1 )

ライセンス: Link先を確認
Chuqing Hu, Sinclair Hudson, Martin Ethier, Mohammad Al-Sharman, Derek Rayside, William Melek(参考訳) 自律運転における教師付き検出および分類フレームワークは、大きなラベル付きデータセットを収束させる必要があるが、フォトリアルなシミュレーション環境から生成された合成データによって促進されるUnsupervised Domain Adaptation (UDA)アプローチは、低コストで低コストなソリューションであると考えられている。 本稿では,自動走行における車線検出と分類のための逆判別法と生成法を用いたUDA方式を提案する。 我々はまた,CARLAの膨大な交通シナリオと気象条件を生かした合成データセットを作成するために,Simulanesデータセットジェネレータを提案する。 提案したUDAフレームワークは、ラベルをソースドメインとして合成データセットを取り込み、ターゲットドメインは、乱れのない実世界のデータである。 逆生成および特徴判別器を用いて学習したモデルを調整し、対象領域におけるレーンの位置とクラスを予測する。 提案手法は,実世界と合成データを用いて評価する。 その結果,提案手法は検出,分類精度,整合性の観点から,他のベースライン方式よりも優れていることがわかった。 アブレーション研究では,提案手法の分類性能において,シミュレーションデータセットのサイズが重要な役割を果たすことを明らかにした。 UDAフレームワークはhttps://github.com/a nita-hu/sim2real-lan e-detectionで、データセットジェネレータはhttps://github.com/a nita-hu/simulanesでリリースされています。

While supervised detection and classification frameworks in autonomous driving require large labelled datasets to converge, Unsupervised Domain Adaptation (UDA) approaches, facilitated by synthetic data generated from photo-real simulated environments, are considered low-cost and less time-consuming solutions. In this paper, we propose UDA schemes using adversarial discriminative and generative methods for lane detection and classification applications in autonomous driving. We also present Simulanes dataset generator to create a synthetic dataset that is naturalistic utilizing CARLA's vast traffic scenarios and weather conditions. The proposed UDA frameworks take the synthesized dataset with labels as the source domain, whereas the target domain is the unlabelled real-world data. Using adversarial generative and feature discriminators, the learnt models are tuned to predict the lane location and class in the target domain. The proposed techniques are evaluated using both real-world and our synthetic datasets. The results manifest that the proposed methods have shown superiority over other baseline schemes in terms of detection and classification accuracy and consistency. The ablation study reveals that the size of the simulation dataset plays important roles in the classification performance of the proposed methods. Our UDA frameworks are available at https://github.com/a nita-hu/sim2real-lan e-detection and our dataset generator is released at https://github.com/a nita-hu/simulanes
翻訳日:2022-02-16 15:09:17 公開日:2022-02-15
# GANによる顔検出:調査と新たな展望

GAN-generated Faces Detection: A Survey and New Perspectives ( http://arxiv.org/abs/2202.07145v1 )

ライセンス: Link先を確認
Xin Wang, Hui Guo, Shu Hu, Ming-Ching Chang, Siwei Lyu(参考訳) generative adversarial networks (gan) は、偽のソーシャルメディアアカウントやその他の偽情報に使われ、重大な影響をもたらすような、非常に現実的な顔画像の生成につながった。 したがって、対応するGAN顔検出技術は、そのような偽の顔を調べ、露出させることのできる活発な開発が進められている。 本稿では,gan顔検出の最近の進歩を総合的に検討することを目的とする。 我々は、GANモデルから生成または合成された顔画像を検出する方法に焦点を当てる。 既存の検出作業は,(1)深層学習に基づく,(2)物理に基づく,(3)生理的手法,(4)人間の視覚性能に対する評価と比較の4つのカテゴリに分類した。 各カテゴリについて、キーとなるアイデアをまとめ、メソッドの実装と結びつけます。 オープンな問題も議論し、今後の研究方向性を提案する。

Generative Adversarial Networks (GAN) have led to the generation of very realistic face images, which have been used in fake social media accounts and other disinformation matters that can generate profound impacts. Therefore, the corresponding GAN-face detection techniques are under active development that can examine and expose such fake faces. In this work, we aim to provide a comprehensive review of recent progress in GAN-face detection. We focus on methods that can detect face images that are generated or synthesized from GAN models. We classify the existing detection works into four categories: (1) deep learning-based, (2) physical-based, (3) physiological-based methods, and (4) evaluation and comparison against human visual performance. For each category, we summarize the key ideas and connect them with method implementations. We also discuss open problems and suggest future research directions.
翻訳日:2022-02-16 15:08:49 公開日:2022-02-15
# MeshLeTemp: 学習可能なVertex-Vertex関係の活用による人間行動の一般化とメッシュ再構築

MeshLeTemp: Leveraging the Learnable Vertex-Vertex Relationship to Generalize Human Pose and Mesh Reconstruction for In-the-Wild Scenes ( http://arxiv.org/abs/2202.07228v1 )

ライセンス: Link先を確認
Trung Q. Tran, Cuong C. Than, Hai T. Nguyen(参考訳) 一つの画像から3次元のポーズとメッシュ再構成を行う強力な方法であるMeshLeTempを提案する。 人体事前符号化では,従来の最先端手法を用いた定型テンプレートの代わりに,学習可能なテンプレートヒューマンメッシュを提案する。 提案する学習テンプレートは頂点と頂点の相互作用だけでなく、人間のポーズや体形も反映し、多様な画像に適応できる。 また、2Dアノテーションと3Dアノテーションの両方を含むトレーニングデータを充実させる戦略も導入する。 我々は,本手法の一般化可能性とデータ戦略の有効性を示す広範な実験を行った。 Ablation studyの1つとして、3次元手指再建法であるMeshLeTempを別の領域に適用した。

We present MeshLeTemp, a powerful method for 3D human pose and mesh reconstruction from a single image. In terms of human body priors encoding, we propose using a learnable template human mesh instead of a constant template utilized by previous state-of-the-art methods. The proposed learnable template reflects not only vertex-vertex interactions but also the human pose and body shape, being able to adapt to diverse images. We also introduce a strategy to enrich the training data that contains both 2D and 3D annotations. We conduct extensive experiments to show the generalizability of our method and the effectiveness of our data strategy. As one of our ablation studies, we adapt MeshLeTemp to another domain which is 3D hand reconstruction.
翻訳日:2022-02-16 15:08:36 公開日:2022-02-15
# フィンガープリントライブネス検出(LivDet)コンペティションシリーズのレビュー:2009年から2021年まで

Review of the Fingerprint Liveness Detection (LivDet) competition series: from 2009 to 2021 ( http://arxiv.org/abs/2202.07259v1 )

ライセンス: Link先を確認
Marco Micheletto, Giulia Orr\`u, Roberto Casula, David Yambay, Gian Luca Marcialis, Stephanie C. Schuckers(参考訳) 指紋認証システムは、指紋提示攻撃と呼ばれる指紋の人工的な複製に対して非常に脆弱である。 攻撃者は年々複製技術を洗練しているので、プレゼンテーション攻撃の検出は簡単ではない。 国際指紋ライブネス検出コンペティション(livdet, international fingerprint liveness detection competition)は、プレゼンテーションアタック検出の問題を扱うアカデミーや民間企業のオープンかつ周知の場であり、標準的な実験プロトコルとデータセットを用いて指紋提示アタック検出(fpad)アルゴリズムの性能を評価することを目標としている。 2009年から毎年2回開催されるそれぞれのLivDetエディションは、競合相手が対処しなければならないさまざまな課題が特徴である。 競争相手の継続的な増加と、競争間のエラー率の顕著な減少は、このトピックに対する関心の高まりを示している。 本稿では,2009年から2021年までのlivdet版をレビューし,その進化を指摘する。

Fingerprint authentication systems are highly vulnerable to artificial reproductions of fingerprint, called fingerprint presentation attacks. Detecting presentation attacks is not trivial because attackers refine their replication techniques from year to year. The International Fingerprint liveness Detection Competition (LivDet), an open and well-acknowledged meeting point of academies and private companies that deal with the problem of presentation attack detection, has the goal to assess the performance of fingerprint presentation attack detection (FPAD) algorithms by using standard experimental protocols and data sets. Each LivDet edition, held biannually since 2009, is characterized by a different set of challenges against which competitors must be dealt with. The continuous increase of competitors and the noticeable decrease in error rates across competitions demonstrate a growing interest in the topic. This paper reviews the LivDet editions from 2009 to 2021 and points out their evolution over the years.
翻訳日:2022-02-16 15:08:24 公開日:2022-02-15
# シーングラフ生成のためのハイパーリレーショナル学習ネットワーク

Hyper-relationship Learning Network for Scene Graph Generation ( http://arxiv.org/abs/2202.07271v1 )

ライセンス: Link先を確認
Yibing Zhan, Zhi Chen, Jun Yu, BaoSheng Yu, Dacheng Tao, Yong Luo(参考訳) 画像から情報的なシーングラフを生成するには、様々なグラフコンポーネント、すなわちオブジェクトとリレーションシップの統合と推論が必要である。 しかし,未偏化sgg法を含む現在のシーングラフ生成法(sgg)では,情報的関係の予測が困難である。 1)関係間の推移的推論などのハイレベルな推論 2)グラフコンポーネントのすべての相互作用を組み込む効率的なメカニズム。 上記の課題に対処するため,SGGのための高関係学習ネットワークHLNを開発した。 具体的には、提案したHLNはハイパーグラフと2つのグラフアテンションネットワーク(GAT)が関係を推測するために設計されている。 1)対象関係GAT又はOR-GATは、対象と関係の相互作用を探索し、 2)超関係性 GAT あるいは HR-GAT は、過関係性の推移的推論、すなわち、過関係性推論のための3つの対象間の逐次的関係を統合する。 その結果、HLNは、オブジェクトの相互作用、関係の相互作用、超関係性の推移的推論の統合と推論により、シーングラフ生成の性能を著しく向上させる。 我々は、最も人気のあるsggデータセット、すなわち視覚ゲノムデータセット上でのhlnを評価し、最近の最先端手法よりもその優れた性能を示す実験結果を示す。 例えば、提案するhlnはリコール毎の関係を11.3\%から13.1\%に改善し、リコール毎のイメージを19.8\%から34.9\%に維持する。 ソースコードと事前トレーニングされたモデルをGitHubでリリースします。

Generating informative scene graphs from images requires integrating and reasoning from various graph components, i.e., objects and relationships. However, current scene graph generation (SGG) methods, including the unbiased SGG methods, still struggle to predict informative relationships due to the lack of 1) high-level inference such as transitive inference between relationships and 2) efficient mechanisms that can incorporate all interactions of graph components. To address the issues mentioned above, we devise a hyper-relationship learning network, termed HLN, for SGG. Specifically, the proposed HLN stems from hypergraphs and two graph attention networks (GATs) are designed to infer relationships: 1) the object-relationship GAT or OR-GAT to explore interactions between objects and relationships, and 2) the hyper-relationship GAT or HR-GAT to integrate transitive inference of hyper-relationships, i.e., the sequential relationships between three objects for transitive reasoning. As a result, HLN significantly improves the performance of scene graph generation by integrating and reasoning from object interactions, relationship interactions, and transitive inference of hyper-relationships. We evaluate HLN on the most popular SGG dataset, i.e., the Visual Genome dataset, and the experimental results demonstrate its great superiority over recent state-of-the-art methods. For example, the proposed HLN improves the recall per relationship from 11.3\% to 13.1\%, and maintains the recall per image from 19.8\% to 34.9\%. We will release the source code and pretrained models on GitHub.
翻訳日:2022-02-16 15:08:09 公開日:2022-02-15
# 自然運動を超えて:ビデオフレーム補間の不連続を探る

Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation ( http://arxiv.org/abs/2202.07291v1 )

ライセンス: Link先を確認
Sangjin Lee, Hyeongmin Lee, Chajin Shin, Hanbin Son, Sangyoun Lee(参考訳) ビデオ補間は、2つの連続するフレームが与えられた中間フレームを合成するタスクである。 以前の研究の多くは、乱れたフレームに対する適切なフレームワープ操作と改良モジュールに焦点を当てていた。 これらの研究は、連続的な動きしか持たない自然ビデオで行われている。 しかし、多くの実用的なビデオには、チャットウィンドウ、ウォーターマーク、GUI要素、サブタイトルなど、多くの不連続な動きが含まれている。 これらの問題に対処するために,二つのフレーム間の遷移の概念を拡張する3つの手法を提案する。 まず、連続的および不連続的な動き領域を分離できる新しいアーキテクチャです。 また,図形テキスト混合(FTM)と呼ばれる新しいデータ拡張戦略を提案し,モデルがより一般的なシナリオを学習できるようにする。 最後に,データ拡張を伴う不連続な運動領域の監視を行うための損失関数を提案する。 モバイルゲームやチャットビデオからなる特別なデータセットを収集しました。 本手法は,特殊データセット上の映像の補間特性を著しく改善することを示す。 さらに,本モデルは,DAVISやUCF101のような連続的な動きのみを含む自然なビデオデータセットの最先端手法よりも優れている。

Video interpolation is the task that synthesizes the intermediate frame given two consecutive frames. Most of the previous studies have focused on appropriate frame warping operations and refinement modules for the warped frames. These studies have been conducted on natural videos having only continuous motions. However, many practical videos contain a lot of discontinuous motions, such as chat windows, watermarks, GUI elements, or subtitles. We propose three techniques to expand the concept of transition between two consecutive frames to address these issues. First is a new architecture that can separate continuous and discontinuous motion areas. We also propose a novel data augmentation strategy called figure-text mixing (FTM) to make our model learn more general scenarios. Finally, we propose loss functions to give supervisions of the discontinuous motion areas with the data augmentation. We collected a special dataset consisting of some mobile games and chatting videos. We show that our method significantly improves the interpolation qualities of the videos on the special dataset. Moreover, our model outperforms the state-of-the-art methods for natural video datasets containing only continuous motions, such as DAVIS and UCF101.
翻訳日:2022-02-16 15:06:30 公開日:2022-02-15
# SODAR: 隣接するマスク表現の動的集約によるオブジェクトの分割

SODAR: Segmenting Objects by DynamicallyAggregati ng Neighboring Mask Representations ( http://arxiv.org/abs/2202.07402v1 )

ライセンス: Link先を確認
Tao Wang, Jun Hao Liew, Yu Li, Yunpeng Chen, Jiashi Feng(参考訳) 最近の最先端のワンステージインスタンスセグメンテーションモデルは、入力画像をグリッドに分割し、完全な畳み込みネットワークでグリッドセルオブジェクトマスクごとに直接予測する。 我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察し,これらの予測が互いに補完し合うことを観察した。 観測されたギャップによって動機付けられ,建築効率を保ちながら,豊かな隣り合う情報を活用することでSOLOを改善する学習ベースアグリゲーション手法を開発した。 モデル名はSODAR。 元のグリッドセル・オブジェクト・マスクとは異なり、SODARは暗黙的にマスク表現を学習し、近くのオブジェクトの幾何学的構造を符号化し、隣接する表現をコンテキストで補完する。 凝集方法はさらに2つの新しい設計を含む。 1)近隣の格子セル間で隣接する表現を共有することにより、モデルがはるかに少ないマスク表現を生成できるようにするマスク補間機構により、計算とメモリを節約する。 2) モデルが隣接するサンプリング位置を適応的に調整できる変形可能な近接サンプリング機構により, より関連性の高いマスク表現を収集し, 高い性能を実現する。 SODARはインスタンスセグメンテーション性能を著しく改善し、例えば、COCO \texttt{test} セットの 2.2 AP で ResNet-101 のバックボーンを持つ SOLO モデルの性能を約 3 % で上回っている。 さらに,SOLOv2モデルによる一貫した性能向上を示す。

Recent state-of-the-art one-stage instance segmentation model SOLO divides the input image into a grid and directly predicts per grid cell object masks with fully-convolutional networks, yielding comparably good performance as traditional two-stage Mask R-CNN yet enjoying much simpler architecture and higher efficiency. We observe SOLO generates similar masks for an object at nearby grid cells, and these neighboring predictions can complement each other as some may better segment certain object part, most of which are however directly discarded by non-maximum-suppress ion. Motivated by the observed gap, we develop a novel learning-based aggregation method that improves upon SOLO by leveraging the rich neighboring information while maintaining the architectural efficiency. The resulting model is named SODAR. Unlike the original per grid cell object masks, SODAR is implicitly supervised to learn mask representations that encode geometric structure of nearby objects and complement adjacent representations with context. The aggregation method further includes two novel designs: 1) a mask interpolation mechanism that enables the model to generate much fewer mask representations by sharing neighboring representations among nearby grid cells, and thus saves computation and memory; 2) a deformable neighbour sampling mechanism that allows the model to adaptively adjust neighbor sampling locations thus gathering mask representations with more relevant context and achieving higher performance. SODAR significantly improves the instance segmentation performance, e.g., it outperforms a SOLO model with ResNet-101 backbone by 2.2 AP on COCO \texttt{test} set, with only about 3\% additional computation. We further show consistent performance gain with the SOLOv2 model.
翻訳日:2022-02-16 15:06:15 公開日:2022-02-15
# 逆メッシュのためのランダムウォーク

Random Walks for Adversarial Meshes ( http://arxiv.org/abs/2202.07453v1 )

ライセンス: Link先を確認
Amir Belder, Gal Yefet, Ran Ben Izhak, Ayellet Tal(参考訳) 多角形メッシュはコンピュータグラフィックスにおいて最もよく使われる表面表現であり、近年様々な分類網が提案されている。 しかし、逆境攻撃は2dでかなり研究されているが、逆境メッシュの研究はほとんど存在しない。 本稿では,最先端メッシュ分類ニューラルネットワークの誤分類につながる,新しい,統一的,汎用的な敵攻撃を提案する。 私たちの攻撃アプローチはブラックボックスであり、ネットワークの予測のみにアクセスするが、ネットワークの完全なアーキテクチャや勾配にはアクセスできない。 重要なアイデアは、所定の分類ネットワークを模倣するネットワークをトレーニングすることだ。 これはメッシュ表面に沿ってランダムウォークを利用することで行われ、幾何学的情報を集める。 これらのウォークは、与えられた分類ネットワークの正確な予測に重要なメッシュの領域に関する洞察を提供する。 これらのメッシュ領域は、肉眼ではほとんど見えない方法でネットワークを攻撃するために、他の領域よりも修正される。

A polygonal mesh is the most-commonly used representation of surfaces in computer graphics; thus, a variety of classification networks have been recently proposed. However, while adversarial attacks are wildly researched in 2D, almost no works on adversarial meshes exist. This paper proposes a novel, unified, and general adversarial attack, which leads to misclassification of numerous state-of-the-art mesh classification neural networks. Our attack approach is black-box, i.e. it has access only to the network's predictions, but not to the network's full architecture or gradients. The key idea is to train a network to imitate a given classification network. This is done by utilizing random walks along the mesh surface, which gather geometric information. These walks provide insight onto the regions of the mesh that are important for the correct prediction of the given classification network. These mesh regions are then modified more than other regions in order to attack the network in a manner that is barely visible to the naked eye.
翻訳日:2022-02-16 15:05:19 公開日:2022-02-15
# アイリス認識のためのテクスチャ認識オートエンコーダの事前学習とペアワイズ学習

Texture Aware Autoencoder Pre-training And Pairwise Learning Refinement For Improved Iris Recognition ( http://arxiv.org/abs/2202.07499v1 )

ライセンス: Link先を確認
Manashi Chakraborty, Aritri Chakraborty, Prabir Kumar Biswas, Pabitra Mitra(参考訳) 本稿では,学習データに制限のあるアイリスのようなデータセットを対象とした,テクスチャを意識したエンドツーエンドのトレーニング可能なアイリス認識システムを提案する。 私たちは、重要な最適化とアーキテクチャの革新によって、以前の段階的な学習フレームワークを構築しました。 まず、ステージ1エンコーダネットワークを事前学習し、教師なしのオートエンコーダ学習を行い、通常の再構成損失に加えて追加のデータ関連損失を最適化する。 データ関係損失は、irisのようなテクスチャリッチデータセットにとって重要な、より優れたテクスチャ表現の学習を可能にする。 Stage-1の特徴表現のロバスト性は補助的認知タスクによってさらに強化される。 このような事前トレーニングは、制約付きirisデータセットでディープネットワークを効果的にトレーニングするのに有用である。 次に,ステージ2の教師ありリファインメントにおいて,エンドツーエンドのトレーニング可能な虹彩認識システムのためのペアワイズ学習アーキテクチャを設計する。 ペア学習は、トレーニングパイプライン内における虹彩マッチングのタスクを含み、通常のオフラインマッチングに比べて認識性能が大幅に向上する。 提案モデルは,データセット内およびデータセット間の構成において,従来型と深層型の両方のベースラインを一貫して上回っている。

This paper presents a texture aware end-to-end trainable iris recognition system, specifically designed for datasets like iris having limited training data. We build upon our previous stagewise learning framework with certain key optimization and architectural innovations. First, we pretrain a Stage-1 encoder network with an unsupervised autoencoder learning optimized with an additional data relation loss on top of usual reconstruction loss. The data relation loss enables learning better texture representation which is pivotal for a texture rich dataset such as iris. Robustness of Stage-1 feature representation is further enhanced with an auxiliary denoising task. Such pre-training proves beneficial for effectively training deep networks on data constrained iris datasets. Next, in Stage-2 supervised refinement, we design a pairwise learning architecture for an end-to-end trainable iris recognition system. The pairwise learning includes the task of iris matching inside the training pipeline itself and results in significant improvement in recognition performance compared to usual offline matching. We validate our model across three publicly available iris datasets and the proposed model consistently outperforms both traditional and deep learning baselines for both Within-Dataset and Cross-Dataset configurations
翻訳日:2022-02-16 15:05:05 公開日:2022-02-15
# ScoreNet: Transformer-based Histopathological Image Classificationのための非一様注意と拡張の学習

ScoreNet: Learning Non-Uniform Attention and Augmentation for Transformer-Based Histopathological Image Classification ( http://arxiv.org/abs/2202.07570v1 )

ライセンス: Link先を確認
Thomas Stegm\"uller, Antoine Spahr, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) デジタル病理の進歩は、高解像度画像と徹底的な局所アノテーションの禁止コストによって妨げられている。 病理画像の分類によく使われるパラダイムはパッチベースの処理であり、複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。 にもかかわらず、診断に関連のある領域は組織全体のごく一部しか取らず、MILベースのアグリゲーション操作は全てのパッチ表現が独立していると仮定し、隣接する細胞や組織の微小環境からのコンテキスト情報を誤る。 したがって、特定の領域専用の計算資源は、その情報寄与とは独立である。 本稿では,詳細な局所的注意と粗い大域的注意機構を組み合わせて,高分解能画像の有意義な表現を効率的な計算コストで学習する,病理組織像分類に特化したトランスフォーマアーキテクチャを提案する。 さらに,上述の観察に基づいて,訓練中の画像の意味領域の分布を活用し,識別画像コンテンツの位置をサンプリングし,データ混合を慎重に指導することにより,新たな混合型データ提示戦略「スコアミックス」を提案する。 Haematoxylin & Eosin (H&E) のTRoIsデータセットの3つの挑戦的コホートに関する詳細な実験およびアブレーション研究は、既存の最先端手法よりも、我々のアプローチの優位性と、提案したコンポーネント(例えば、データ拡張による分類性能の向上)の有効性を検証した。 また,本手法の解釈可能性,堅牢性,ドメイン間一般化能力を示す。

Progress in digital pathology is hindered by high-resolution images and the prohibitive cost of exhaustive localized annotations. The commonly used paradigm to categorize pathology images is patch-based processing, which often incorporates multiple instance learning (MIL) to aggregate local patch-level representations yielding image-level prediction. Nonetheless, diagnostically relevant regions may only take a small fraction of the whole tissue, and MIL-based aggregation operation assumes that all patch representations are independent and thus mislays the contextual information from adjacent cell and tissue microenvironments. Consequently, the computational resources dedicated to a specific region are independent of its information contribution. This paper proposes a transformer-based architecture specifically tailored for histopathological image classification, which combines fine-grained local attention with a coarse global attention mechanism to learn meaningful representations of high-resolution images at an efficient computational cost. More importantly, based on the observation above, we propose a novel mixing-based data-augmentation strategy, namely ScoreMix, by leveraging the distribution of the semantic regions of images during the training and carefully guiding the data mixing via sampling the locations of discriminative image content. Thorough experiments and ablation studies on three challenging representative cohorts of Haematoxylin & Eosin (H&E) tumour regions-of-interest (TRoIs) datasets have validated the superiority of our approach over existing state-of-the-art methods and effectiveness of our proposed components, e.g., data augmentation in improving classification performance. We also demonstrate our method's interpretability, robustness, and cross-domain generalization capability.
翻訳日:2022-02-16 15:04:46 公開日:2022-02-15
# NewsPod: 自動でインタラクティブなニュースポッドキャスト

NewsPod: Automatic and Interactive News Podcasts ( http://arxiv.org/abs/2202.07146v1 )

ライセンス: Link先を確認
Philippe Laban and Elicia Ye and Srujay Korlakunta and John Canny and Marti A. Hearst(参考訳) ニュースポッドキャストは、ニューストピックを深く掘り下げて情報を提供し続ける人気メディアだ。 現在、ほとんどのポッドキャストはプロが手作りしている。 本研究では,自然言語処理と音声合成技術における最近の進歩を活かして,自動生成ポッドキャストの最先端を推し進める。 自動生成されたインタラクティブなニュースポッドキャストであるnewspodを紹介します。 ポッドキャストはニュースイベントを中心にセグメンテーションに分けられ、各セグメンションは質問と回答の会話として構成され、リスナーをエンゲージすることを目的としている。 デザインの重要な側面は、会話をより良くシミュレートするために、各役割(クエスト、レスポンダー)に異なる声を使うことである。 NewsPodのもう一つの新しい側面は、リスナーが自身の質問をすることでポッドキャストと対話し、自動的に生成された回答を受け取ることである。 本研究では,2つのユーザビリティ研究を通して,このシステム設計の健全性を検証する。 NewsPodは参加者によってベースラインよりも好まれており、80%が将来このシステムを使うと主張している。

News podcasts are a popular medium to stay informed and dive deep into news topics. Today, most podcasts are handcrafted by professionals. In this work, we advance the state-of-the-art in automatically generated podcasts, making use of recent advances in natural language processing and text-to-speech technology. We present NewsPod, an automatically generated, interactive news podcast. The podcast is divided into segments, each centered on a news event, with each segment structured as a Question and Answer conversation, whose goal is to engage the listener. A key aspect of the design is the use of distinct voices for each role (questioner, responder), to better simulate a conversation. Another novel aspect of NewsPod allows listeners to interact with the podcast by asking their own questions and receiving automatically generated answers. We validate the soundness of this system design through two usability studies, focused on evaluating the narrative style and interactions with the podcast, respectively. We find that NewsPod is preferred over a baseline by participants, with 80% claiming they would use the system in the future.
翻訳日:2022-02-16 15:03:03 公開日:2022-02-15
# STaR: スケーリング、翻訳、回転による知識グラフの埋め込み

STaR: Knowledge Graph Embedding by Scaling, Translation and Rotation ( http://arxiv.org/abs/2202.07130v1 )

ライセンス: Link先を確認
Jiayi Li, Yujiu Yang(参考訳) バイリニア法は知識グラフ埋め込み(KGE)において主流であり、知識グラフ(KG)におけるエンティティと関係の低次元表現を学習し、完全に欠落したリンクを学習することを目的としている。 既存の仕事の多くは、関係のパターンを見つけ、それらを効果的にモデル化してこのタスクを達成することです。 以前の研究は、主に非可換性のような6つの重要なパターンを発見した。 いくつかの双線型手法はこれらのパターンをモデル化することに成功したが、1-to-N、N-to-1、N-to-N関係(あるいは複雑な関係)を同時に扱うことは無視され、表現性を損なう。 この目的のために、我々は、複雑な関係とパターンをそれぞれ解くことができる翻訳と回転の組み合わせであるスケーリングを統合し、スケーリングはプロジェクションの単純化である。 そこで本稿では,上記の2つの部分からなる2次モデルスケーリング変換と回転 (star) を提案する。 また、翻訳を双線形モデルに直接組み込むことができないため、翻訳行列を等価として導入する。 理論的解析により、STaRは全てのパターンをモデル化し、複雑な関係を同時に扱うことができることが証明された。

The bilinear method is mainstream in Knowledge Graph Embedding (KGE), aiming to learn low-dimensional representations for entities and relations in Knowledge Graph (KG) and complete missing links. Most of the existing works are to find patterns between relationships and effectively model them to accomplish this task. Previous works have mainly discovered 6 important patterns like non-commutativity. Although some bilinear methods succeed in modeling these patterns, they neglect to handle 1-to-N, N-to-1, and N-to-N relations (or complex relations) concurrently, which hurts their expressiveness. To this end, we integrate scaling, the combination of translation and rotation that can solve complex relations and patterns, respectively, where scaling is a simplification of projection. Therefore, we propose a corresponding bilinear model Scaling Translation and Rotation (STaR) consisting of the above two parts. Besides, since translation cannot be incorporated into the bilinear model directly, we introduce translation matrix as the equivalent. Theoretical analysis proves that STaR is capable of modeling all patterns and handling complex relations simultaneously, and experiments demonstrate its effectiveness on commonly used benchmarks for link prediction.
翻訳日:2022-02-16 15:01:15 公開日:2022-02-15
# (参考訳) 視覚特徴指数の体系的評価のための公正指標 [全文訳有]

Fairness Indicators for Systematic Assessments of Visual Feature Extractors ( http://arxiv.org/abs/2202.07603v1 )

ライセンス: CC BY 4.0
Priya Goyal, Adriana Romero Soriano, Caner Hazirbas, Levent Sagun, Nicolas Usunier(参考訳) 誰もがコンピュータビジョンシステムの利点を享受できるだろうか? コンピュータビジョンシステムが大規模に展開されるにつれて、この問題に対する回答はますます重要になってきており、様々な人口動態や社会的背景を持つ人々の間で大きなパフォーマンスの相違が生じると、大きな懸念が持ち上がる。 コンピュータビジョンシステムの公平性、害、偏見の体系的診断は、社会的に責任のあるシステムを構築するための重要なステップである。 標準化された公正度監査に向けた取り組みを開始するために,視覚システムの害やバイアスの定量化を目的とした3つの公正度指標を提案する。 本稿では, 公正性評価のために収集された既存の公開データセットを用いて, 文献における有害ラベル関連, 社会的・人口的特性の学習表現の差異, 地理的に多様な画像に対する偏り, および, 幅広いコンピュータビジョンモデルに適用可能な正確な実験的プロトコルを定義した。 これらの指標は、絶えず進化を続けるフェアネスプローブの一部であり、新しいコンピュータビジョン技術が与える幅広い影響を徹底的に分析するための代替となるものではない。 しかし,コンピュータビジョン研究におけるフェアネスアセスメントの普及と委任の促進,および社会的に責任のあるモデル構築に向けた進展の追跡は,(1)第1段階が必要であると我々は信じている。 提案する指標を任意の視覚システムに適用し,その実用性と適用性について検討するため,本論文では,画像上のラベルを予測できるのか,あるいは埋め込みのみを生成できるのかを,広く採用されているモデルトレーニングパラダイムを用いて構築したオフ・ザ・シェルフモデルに適用する。 また,データ領域とモデルサイズの影響を体系的に研究する。

Does everyone equally benefit from computer vision systems? Answers to this question become more and more important as computer vision systems are deployed at large scale, and can spark major concerns when they exhibit vast performance discrepancies between people from various demographic and social backgrounds. Systematic diagnosis of fairness, harms, and biases of computer vision systems is an important step towards building socially responsible systems. To initiate an effort towards standardized fairness audits, we propose three fairness indicators, which aim at quantifying harms and biases of visual systems. Our indicators use existing publicly available datasets collected for fairness evaluations, and focus on three main types of harms and bias identified in the literature, namely harmful label associations, disparity in learned representations of social and demographic traits, and biased performance on geographically diverse images from across the world.We define precise experimental protocols applicable to a wide range of computer vision models. These indicators are part of an ever-evolving suite of fairness probes and are not intended to be a substitute for a thorough analysis of the broader impact of the new computer vision technologies. Yet, we believe it is a necessary first step towards (1) facilitating the widespread adoption and mandate of the fairness assessments in computer vision research, and (2) tracking progress towards building socially responsible models. To study the practical effectiveness and broad applicability of our proposed indicators to any visual system, we apply them to off-the-shelf models built using widely adopted model training paradigms which vary in their ability to whether they can predict labels on a given image or only produce the embeddings. We also systematically study the effect of data domain and model size.
翻訳日:2022-02-16 14:59:09 公開日:2022-02-15
# 再構成による構成シーン表現学習:調査

Compositional Scene Representation Learning via Reconstruction: A Survey ( http://arxiv.org/abs/2202.07135v1 )

ライセンス: Link先を確認
Jinyang Yuan, Tonglin Chen, Bin Li, Xiangyang Xue(参考訳) 視覚シーン表現学習はコンピュータビジョンの分野で重要な研究課題である。 視覚シーンに適切な表現が学習されれば、視覚タスクのパフォーマンスが向上する可能性がある。 複雑な視覚シーンは比較的単純な視覚概念の合成であり、組合せ的爆発の性質を持っている。 視覚シーン全体を直接表現するのに比べ、構成的なシーン表現を抽出することは、背景とオブジェクトの多様な組み合わせに対処できる。 構成的シーン表現はオブジェクトの概念を抽象化するので、これらの表現に基づいて視覚的なシーン分析と理解を行うことは、より容易に解釈できる。 さらに、再構成による構成シーン表現の学習は、データアノテーションのトレーニングの必要性を大幅に減らすことができる。 したがって、再構成による構図表現学習は重要な研究課題である。 本稿では,まず,オブジェクト指向の監督なしに,一つの視点から学習するか,複数の視点から学習するか,構図表現の応用を行い,最終的にこの話題の今後の方向性について考察する。

Visual scene representation learning is an important research problem in the field of computer vision. The performance on vision tasks could be improved if more suitable representations are learned for visual scenes. Complex visual scenes are the composition of relatively simple visual concepts, and have the property of combinatorial explosion. Compared with directly representing the entire visual scene, extracting compositional scene representations can better cope with the diverse combination of background and objects. Because compositional scene representations abstract the concept of objects, performing visual scene analysis and understanding based on these representations could be easier and more interpretable. Moreover, learning compositional scene representations via reconstruction can greatly reduce the need for training data annotations. Therefore, compositional scene representation learning via reconstruction has important research significance. In this survey, we first discuss representative methods that either learn from a single viewpoint or multiple viewpoints without object-level supervision, then the applications of compositional scene representations, and finally the future directions on this topic.
翻訳日:2022-02-16 14:29:50 公開日:2022-02-15
# 自己学習におけるdebiased pseudo labeling

Debiased Pseudo Labeling in Self-Training ( http://arxiv.org/abs/2202.07136v1 )

ライセンス: Link先を確認
Baixu Chen, Junguang Jiang, Ximei Wang, Jianmin Wang, Mingsheng Long(参考訳) ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。 しかし、大規模なアノテーションは、現実的なタスクで得られるのに時間と労力を要する。 ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに対する擬似ラベル付けにより、学術と産業の両方で自己学習が広く使われている。 その人気にもかかわらず、疑似ラベリングは信頼性が低く、しばしばトレーニング不安定に繋がる。 実験により,データサンプリング,事前学習モデル,トレーニング戦略,特に擬似ラベルの不適切な利用により,自己学習の性能が偏っていることが明らかとなった。 そこで本研究では,疑似ラベルの生成と利用を2つの独立したヘッドで分離するdebiasedを提案する。 擬似ラベルの品質をさらに向上させるために,擬似ラベルの最悪の場合推定を導入し,最悪の場合を避けるために表現をシームレスに最適化する。 広範な実験により、提案されたデバイアスは、11ドルのタスク(汎用オブジェクト認識、きめ細かいオブジェクト認識、テクスチャ分類、シーン分類など)の最先端アルゴリズムに対して平均14.4$\%の改善をもたらすだけでなく、トレーニングの安定化とクラス全体のパフォーマンスのバランスにも寄与する。

Deep neural networks achieve remarkable performances on a wide range of tasks with the aid of large-scale labeled datasets. However, large-scale annotations are time-consuming and labor-exhaustive to obtain on realistic tasks. To mitigate the requirement for labeled data, self-training is widely used in both academia and industry by pseudo labeling on readily-available unlabeled data. Despite its popularity, pseudo labeling is well-believed to be unreliable and often leads to training instability. Our experimental studies further reveal that the performance of self-training is biased due to data sampling, pre-trained models, and training strategies, especially the inappropriate utilization of pseudo labels. To this end, we propose Debiased, in which the generation and utilization of pseudo labels are decoupled by two independent heads. To further improve the quality of pseudo labels, we introduce a worst-case estimation of pseudo labeling and seamlessly optimize the representations to avoid the worst-case. Extensive experiments justify that the proposed Debiased not only yields an average improvement of $14.4$\% against state-of-the-art algorithms on $11$ tasks (covering generic object recognition, fine-grained object recognition, texture classification, and scene classification) but also helps stabilize training and balance performance across classes.
翻訳日:2022-02-16 14:29:34 公開日:2022-02-15
# 無監督解剖学的特徴蒸留によるヒト精子頭形態分類の改善

Improving Human Sperm Head Morphology Classification with Unsupervised Anatomical Feature Distillation ( http://arxiv.org/abs/2202.07191v1 )

ライセンス: Link先を確認
Yejia Zhang, Jingjing Zhang, Xiaomin Zha, Yiru Zhou, Yunxia Cao, Danny Chen(参考訳) 男性不妊症の増加に伴い、精子頭の形態分類は正確かつタイムリーな臨床診断に不可欠となる。 近年のDeep Learning (DL) 形態素解析手法は有望なベンチマーク結果を実現するが、限定的でノイズの多いクラスラベルに依存して性能と頑健さを表に残す。 そこで本稿では,ヒト精子顕微鏡作物の解剖学的および画像的前処理を活用し,追加のラベル付けコストを伴わずに有用な特徴を抽出する新しいdlトレーニングフレームワークを提案する。 我々の中心となる考え方は、精子の頭部情報を確実な擬似マスクと教師なし空間予測タスクで蒸留することである。 そして、この蒸留工程から予測された前景マスクを利用して、調整段階における画像およびラベルノイズの調整および低減を行う。 2つの公開精子データセットに対する我々の新しいアプローチを評価し、最先端のパフォーマンスを達成する(例:65.9% SCIANの精度と96.5% HuSHeMの精度)。

With rising male infertility, sperm head morphology classification becomes critical for accurate and timely clinical diagnosis. Recent deep learning (DL) morphology analysis methods achieve promising benchmark results, but leave performance and robustness on the table by relying on limited and possibly noisy class labels. To address this, we introduce a new DL training framework that leverages anatomical and image priors from human sperm microscopy crops to extract useful features without additional labeling cost. Our core idea is to distill sperm head information with reliably-generated pseudo-masks and unsupervised spatial prediction tasks. The predicted foreground masks from this distillation step are then leveraged to regularize and reduce image and label noise in the tuning stage. We evaluate our new approach on two public sperm datasets and achieve state-of-the-art performances (e.g. 65.9% SCIAN accuracy and 96.5% HuSHeM accuracy).
翻訳日:2022-02-16 14:29:10 公開日:2022-02-15
# ニューラルネットワークPDE解のリーポイント対称性データ拡張

Lie Point Symmetry Data Augmentation for Neural PDE Solvers ( http://arxiv.org/abs/2202.07643v1 )

ライセンス: Link先を確認
Johannes Brandstetter, Max Welling, Daniel E. Worrall(参考訳) ニューラルネットワークは、より遅い数値解法を置き換える偏微分方程式(PDE)の解法としてますます使われている。 しかし、重要な問題は、ニューラルPDEソルバが高品質な基底真理データを必要とすることである。 そこで我々は,ニワトリとエッグの問題を示す。 本稿では,神経pdeソルバのサンプル複雑性 -- リーポイント対称性データ拡張 (lpsda) を改善することにより,この問題を部分的に緩和する手法を提案する。 PDE の文脈では、問題となる PDE のリー点対称性群(他の応用領域では不可能なこと)に基づいて、データ変換の完全なリストを定量的に導出できることが分かる。 本稿では, ニューラルネットワークを用いたPDEソルバサンプルの複雑性を桁違いに向上するために, どのように展開できるかを示す。

Neural networks are increasingly being used to solve partial differential equations (PDEs), replacing slower numerical solvers. However, a critical issue is that neural PDE solvers require high-quality ground truth data, which usually must come from the very solvers they are designed to replace. Thus, we are presented with a proverbial chicken-and-egg problem. In this paper, we present a method, which can partially alleviate this problem, by improving neural PDE solver sample complexity -- Lie point symmetry data augmentation (LPSDA). In the context of PDEs, it turns out that we are able to quantitatively derive an exhaustive list of data transformations, based on the Lie point symmetry group of the PDEs in question, something not possible in other application areas. We present this framework and demonstrate how it can easily be deployed to improve neural PDE solver sample complexity by an order of magnitude.
翻訳日:2022-02-16 14:28:54 公開日:2022-02-15
# 深層学習における神経トロイの木馬攻撃と防御に関する研究

A Survey of Neural Trojan Attacks and Defenses in Deep Learning ( http://arxiv.org/abs/2202.07183v1 )

ライセンス: Link先を確認
Jie Wang, Ghulam Mubashar Hassan, Naveed Akhtar(参考訳) AI(Artificial Intelligence)は、ディープラーニングに大きく依存する — 安全クリティカルでリスクの高いドメインであっても、AIの現実的な応用でますます人気が高まっているテクノロジだ。 しかし,近年,トロイの木馬を組み込んで深層学習を操作できることが判明した。 残念ながら、モデルトレーニングやデータアノテーションを第三者にアウトソーシングするなど、ディープラーニングの計算的要件を回避するための実用的ソリューションは、さらにトロイア攻撃に対するモデル感受性を高める。 深層学習におけるこのトピックの重要性から、近年の文献はこの方向に多くの貢献をしている。 我々は、深層学習のためのトロイア攻撃を考案し、その防御を探求する技術について包括的なレビューを行う。 本調査は,最近の文献を体系的に整理し,読者のドメイン知識を最小にしつつ,手法の重要な概念について考察する。 ニューラルトロイの木馬の最近の発展を理解するために、より広いコミュニティへの理解可能なゲートウェイを提供する。

Artificial Intelligence (AI) relies heavily on deep learning - a technology that is becoming increasingly popular in real-life applications of AI, even in the safety-critical and high-risk domains. However, it is recently discovered that deep learning can be manipulated by embedding Trojans inside it. Unfortunately, pragmatic solutions to circumvent the computational requirements of deep learning, e.g. outsourcing model training or data annotation to third parties, further add to model susceptibility to the Trojan attacks. Due to the key importance of the topic in deep learning, recent literature has seen many contributions in this direction. We conduct a comprehensive review of the techniques that devise Trojan attacks for deep learning and explore their defenses. Our informative survey systematically organizes the recent literature and discusses the key concepts of the methods while assuming minimal knowledge of the domain on the readers part. It provides a comprehensible gateway to the broader community to understand the recent developments in Neural Trojans.
翻訳日:2022-02-16 14:28:38 公開日:2022-02-15
# 制御可能な音声合成のための教師なし単語レベルの韻律タグ付け

Unsupervised word-level prosody tagging for controllable speech synthesis ( http://arxiv.org/abs/2202.07200v1 )

ライセンス: Link先を確認
Yiwei Guo, Chenpeng Du, Kai Yu(参考訳) ニューラルテキスト音声合成(TTS)における単語レベルの韻律モデリングは,近年,多様な音声合成において研究されているが,特定の参照なしに手動で音声合成を制御することは依然として困難である。 これは主に単語レベルの韻律タグがないためである。 本稿では,2つの段階からなる教師なし単語レベルの韻律タグ作成のための新しいアプローチを提案する。まず,単語を音声内容に応じた決定木で異なる型に分類し,その後,各単語の型にgmmを用いて韻律を分類する。 この設計は、長い単語や短い単語など、異なる種類の単語の韻律を異なるラベルセットでタグ付けするべきであるという仮定に基づいている。 さらに、単語レベルの韻律タグを抽出したTSシステムは、制御可能な音声合成のために訓練される。 ljspeechの実験によれば、単語レベルの韻律タグで訓練されたttsモデルは、通常のfastspeech2モデルよりも自然性が向上するだけでなく、単語レベルの韻律を操作する能力も得る。

Although word-level prosody modeling in neural text-to-speech (TTS) has been investigated in recent research for diverse speech synthesis, it is still challenging to control speech synthesis manually without a specific reference. This is largely due to lack of word-level prosody tags. In this work, we propose a novel approach for unsupervised word-level prosody tagging with two stages, where we first group the words into different types with a decision tree according to their phonetic content and then cluster the prosodies using GMM within each type of words separately. This design is based on the assumption that the prosodies of different type of words, such as long or short words, should be tagged with different label sets. Furthermore, a TTS system with the derived word-level prosody tags is trained for controllable speech synthesis. Experiments on LJSpeech show that the TTS model trained with word-level prosody tags not only achieves better naturalness than a typical FastSpeech2 model, but also gains the ability to manipulate word-level prosody.
翻訳日:2022-02-16 14:26:32 公開日:2022-02-15
# 深層学習モデルの包括的敵対的ロバスト性

Holistic Adversarial Robustness of Deep Learning Models ( http://arxiv.org/abs/2202.07201v1 )

ライセンス: Link先を確認
Pin-Yu Chen and Sijia Liu(参考訳) 敵対的堅牢性は、安全性と信頼性を確保するために、機械学習モデルの最悪のケースパフォーマンスを研究する。 ディープラーニングベースのテクノロジの普及により、モデル開発とデプロイメントに関連する潜在的なリスクが増幅され、恐ろしい脆弱性になる可能性がある。 本稿では,攻撃,防御,検証,新規応用を含む深層学習モデルの対向ロバスト性に関する研究手法について,研究トピックと基礎原則を包括的に概観する。

Adversarial robustness studies the worst-case performance of a machine learning model to ensure safety and reliability. With the proliferation of deep-learning based technology, the potential risks associated with model development and deployment can be amplified and become dreadful vulnerabilities. This paper provides a comprehensive overview of research topics and foundational principles of research methods for adversarial robustness of deep learning models, including attacks, defenses, verification, and novel applications.
翻訳日:2022-02-16 14:26:11 公開日:2022-02-15
# 計算ノートブックとのコラボレーションのベストプラクティス

Eliciting Best Practices for Collaboration with Computational Notebooks ( http://arxiv.org/abs/2202.07233v1 )

ライセンス: Link先を確認
Luigi Quaranta and Fabio Calefato and Filippo Lanubile(参考訳) 計算ノートが広く採用されているにもかかわらず、コラボレーティブな文脈で使用するベストプラクティスについてはほとんど知られていない。 本稿では,計算ノートブックを用いた協調データサイエンスのベストプラクティスのカタログを抽出して,このギャップを埋める。 この目的により、我々はまず、多言語文献レビューを通じてベストプラクティスを探求する。 そして、これらのベストプラクティスに対する意識を評価するために、専門家データサイエンティストとのインタビューを行う。 最後に、kaggleプラットフォームから取得した1,380個のjupyterノートブックの分析を通じて、ベストプラクティスの採用を評価する。 専門家がベストプラクティスをよく知っていて、日々の作業で採用する傾向があることが分かる。 それでも、特定の状況によっては、適切なツールサポートが欠如しているために実現不可能あるいは非生産的と見なされるものもあるため、一貫してすべての推奨に従うわけではない。 そこで我々は,データサイエンティストが品質コードの記述よりも探索と迅速なプロトタイピングを優先する必要のないノートブックソリューションの設計を構想する。

Despite the widespread adoption of computational notebooks, little is known about best practices for their usage in collaborative contexts. In this paper, we fill this gap by eliciting a catalog of best practices for collaborative data science with computational notebooks. With this aim, we first look for best practices through a multivocal literature review. Then, we conduct interviews with professional data scientists to assess their awareness of these best practices. Finally, we assess the adoption of best practices through the analysis of 1,380 Jupyter notebooks retrieved from the Kaggle platform. Findings reveal that experts are mostly aware of the best practices and tend to adopt them in their daily work. Nonetheless, they do not consistently follow all the recommendations as, depending on specific contexts, some are deemed unfeasible or counterproductive due to the lack of proper tool support. As such, we envision the design of notebook solutions that allow data scientists not to have to prioritize exploration and rapid prototyping over writing code of quality.
翻訳日:2022-02-16 14:26:03 公開日:2022-02-15
# HiMA: 微分可能なニューラルネットワークのための高速かつスケーラブルな履歴ベースのメモリアクセスエンジン

HiMA: A Fast and Scalable History-based Memory Access Engine for Differentiable Neural Computer ( http://arxiv.org/abs/2202.07275v1 )

ライセンス: Link先を確認
Yaoyu Tao, Zhengya Zhang(参考訳) memory-augmented neural network (manns)は、外部メモリの助けを借りて、多くのタスクにおいてより良い推論性能を提供する。 最近開発された微分可能ニューラルネットワーク(dnc)は、複雑なデータ構造の表現や長期的な依存関係の学習において優れていることが示されている。 DNCのハイパフォーマンスは、以前使用されていたコンテンツベースのアテンションメカニズムに加えて、新しい履歴ベースのアテンションメカニズムに由来する。 履歴ベースのメカニズムは、既存のニューラルネットワーク(NN)やMANNアクセラレータがサポートしていない、さまざまな新しい計算プリミティブとステートメモリを必要とする。 タイルに分散メモリを備えたタイル型履歴ベースメモリアクセスエンジンであるHiMAについて述べる。 HiMAはマルチモードネットワークオンチップ(NoC)を導入し、通信遅延を低減し、スケーラビリティを向上させる。 最適部分行列メモリ分割戦略を適用して、NoCトラフィックの量を削減し、2段階の利用ソート法では、分散タイルを活用して計算速度を向上する。 HiMAを根本的にスケーラブルにするために、DNC-Dと呼ばれる分散バージョンのDNCを作成し、ほとんどすべてのメモリ操作をローカルメモリに適用し、トレーニング可能な重み付け和でグローバルメモリ出力を生成する。 ハードウェア効率をより高めるために,2つの近似手法,使用法スキミングとソフトマックス近似を提案する。 HiMAのプロトタイプはRTLで作られ、40nmで合成される。 シミュレーションにより、DNCとDNC-Dを走らせるHiMAは6.47倍と39.1倍の速度、22.8倍と164.3倍の面積効率、そして6.1倍と61.2倍のエネルギー効率を示す。 Nvidia 3080Ti GPUと比較して、HiMAは、それぞれDNCとDNC-Dを実行する場合、最大437倍と2,646倍のスピードアップを示す。

Memory-augmented neural networks (MANNs) provide better inference performance in many tasks with the help of an external memory. The recently developed differentiable neural computer (DNC) is a MANN that has been shown to outperform in representing complicated data structures and learning long-term dependencies. DNC's higher performance is derived from new history-based attention mechanisms in addition to the previously used content-based attention mechanisms. History-based mechanisms require a variety of new compute primitives and state memories, which are not supported by existing neural network (NN) or MANN accelerators. We present HiMA, a tiled, history-based memory access engine with distributed memories in tiles. HiMA incorporates a multi-mode network-on-chip (NoC) to reduce the communication latency and improve scalability. An optimal submatrix-wise memory partition strategy is applied to reduce the amount of NoC traffic; and a two-stage usage sort method leverages distributed tiles to improve computation speed. To make HiMA fundamentally scalable, we create a distributed version of DNC called DNC-D to allow almost all memory operations to be applied to local memories with trainable weighted summation to produce the global memory output. Two approximation techniques, usage skimming and softmax approximation, are proposed to further enhance hardware efficiency. HiMA prototypes are created in RTL and synthesized in a 40nm technology. By simulations, HiMA running DNC and DNC-D demonstrates 6.47x and 39.1x higher speed, 22.8x and 164.3x better area efficiency, and 6.1x and 61.2x better energy efficiency over the state-of-the-art MANN accelerator. Compared to an Nvidia 3080Ti GPU, HiMA demonstrates speedup by up to 437x and 2,646x when running DNC and DNC-D, respectively.
翻訳日:2022-02-16 14:25:50 公開日:2022-02-15
# EvoKG: 時系列知識グラフを用いた推論のためのイベント時間とネットワーク構造を併用したモデリング

EvoKG: Jointly Modeling Event Time and Network Structure for Reasoning over Temporal Knowledge Graphs ( http://arxiv.org/abs/2202.07648v1 )

ライセンス: Link先を確認
Namyong Park, Fuchen Liu, Purvanshi Mehta, Dana Cristofor, Christos Faloutsos, Yuxiao Dong(参考訳) 時間的知識グラフ(TKG)上で知識推論をどのように行うか。 TKGは実体とその関係に関する事実を表し、それぞれの事実はタイムスタンプと関連付けられている。 時間進化するKGから新たな事実を推測するTKGに対する推論は、インテリジェントなサービスを提供する多くのアプリケーションにとって不可欠である。 しかし、TKGとして表現できる実世界のデータが普及しているにもかかわらず、ほとんどの手法は静的知識グラフの推論に焦点を当てている。 本稿では,TKGに対する効果的な推論,すなわちイベント時間と進化するネットワーク構造をモデル化するために対処すべき2つの主要な問題を統一する問題定式化を提案する。 提案手法は,tkgにおける構造的および時間的ダイナミクスを反復的イベントモデリングによって捉え,時間的近傍集約フレームワークに基づくエンティティ間の相互作用をモデル化する効果的な枠組みで,両タスクを協調的にモデル化する。 さらに、evokgは、神経密度推定に基づく柔軟で効率的なメカニズムを用いて、イベントタイムの正確なモデリングを実現する。 実験により、EvoKGは既存の手法よりも有効性(最大77%、より正確な時間とリンク予測の116%)と効率性が高いことが示された。

How can we perform knowledge reasoning over temporal knowledge graphs (TKGs)? TKGs represent facts about entities and their relations, where each fact is associated with a timestamp. Reasoning over TKGs, i.e., inferring new facts from time-evolving KGs, is crucial for many applications to provide intelligent services. However, despite the prevalence of real-world data that can be represented as TKGs, most methods focus on reasoning over static knowledge graphs, or cannot predict future events. In this paper, we present a problem formulation that unifies the two major problems that need to be addressed for an effective reasoning over TKGs, namely, modeling the event time and the evolving network structure. Our proposed method EvoKG jointly models both tasks in an effective framework, which captures the ever-changing structural and temporal dynamics in TKGs via recurrent event modeling, and models the interactions between entities based on the temporal neighborhood aggregation framework. Further, EvoKG achieves an accurate modeling of event time, using flexible and efficient mechanisms based on neural density estimation. Experiments show that EvoKG outperforms existing methods in terms of effectiveness (up to 77% and 116% more accurate time and link prediction) and efficiency.
翻訳日:2022-02-16 14:23:58 公開日:2022-02-15
# 観測周期間の個人レベル潜在ダイナミクスのモデリングのための深層学習と微分方程式

Deep learning and differential equations for modeling changes in individual-level latent dynamics between observation periods ( http://arxiv.org/abs/2202.07403v1 )

ライセンス: Link先を確認
G\"oran K\"ober, Raffael Kalisch, Lara Puhlmann, Andrea Chmitorz, Anita Schick, and Harald Binder(参考訳) 縦断的な生体医学データをモデル化する場合、しばしば次元の縮小と動的モデリングが必要となる。 これは、次元減少のための人工ニューラルネットワークと、個人レベルの軌道の動的モデリングのための微分方程式によって達成できる。 しかし、このようなアプローチは、観測期間を通して個々のレベルダイナミクスのパラメータが一定であると仮定している。 心理学的レジリエンス研究の応用に動機づけられ,微分方程式パラメータの異なる集合を観察サブ周期に許容する拡張法を提案する。 それでも、individual sub- periodsの推定は、モデルに比較的小さなデータセットを適合させるために結合される。 その後、アプリケーション内のレジリエンスの個々の動的モデルから予測対象を導出する。 これらは解釈可能なレジリエンス関連の結果となり、個人の特性から予測され、ベースラインとフォローアップ時点で測定され、少数の重要な予測器を選択する。 我々のアプローチは、動的モデルの個々のレベルパラメータをうまく識別し、予測因子、すなわちレジリエンス因子を安定して選択することができる。 さらに、フォローアップ時に更新に最も有望な個人の特性を識別することができ、将来の研究デザインに影響を及ぼす可能性がある。 これは観測サブ周期間のパラメータ変化を伴う深部動的モデリング手法の有用性を示す。

When modeling longitudinal biomedical data, often dimensionality reduction as well as dynamic modeling in the resulting latent representation is needed. This can be achieved by artificial neural networks for dimension reduction, and differential equations for dynamic modeling of individual-level trajectories. However, such approaches so far assume that parameters of individual-level dynamics are constant throughout the observation period. Motivated by an application from psychological resilience research, we propose an extension where different sets of differential equation parameters are allowed for observation sub-periods. Still, estimation for intra-individual sub-periods is coupled for being able to fit the model also with a relatively small dataset. We subsequently derive prediction targets from individual dynamic models of resilience in the application. These serve as interpretable resilience-related outcomes, to be predicted from characteristics of individuals, measured at baseline and a follow-up time point, and selecting a small set of important predictors. Our approach is seen to successfully identify individual-level parameters of dynamic models that allows us to stably select predictors, i.e., resilience factors. Furthermore, we can identify those characteristics of individuals that are the most promising for updates at follow-up, which might inform future study design. This underlines the usefulness of our proposed deep dynamic modeling approach with changes in parameters between observation sub-periods.
翻訳日:2022-02-16 14:23:26 公開日:2022-02-15
# 悲観的ミニマックス値反復:オフラインデータセットからの効率的な平衡学習

Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium Learning from Offline Datasets ( http://arxiv.org/abs/2202.07511v1 )

ライセンス: Link先を確認
Han Zhong, Wei Xiong, Jiyuan Tan, Liwei Wang, Tong Zhang, Zhaoran Wang, Zhuoran Yang(参考訳) オフライン環境での2人プレイヤゼロサムマルコフゲーム (MG) について検討し, 予め収集したデータセットに基づいて, 近似的なナッシュ均衡 (NE) ポリシーペアを見つけることを目標とした。 データセットがすべてのポリシペアに対して均一なカバレッジを持っていない場合、近似NEを見つけるには、3つの側面がある。 (i)行動政策と最適政策の分布変化 (ii)大きな状態空間を扱うための関数近似、 (iii)平衡解のためのミニマックス最適化。 本研究では,両プレイヤーの値関数の悲観的推定を行い,2つの値関数に基づいてnesを解いてポリシーペアを出力する,悲観的最小値反復(pmvi)と呼ばれる悲観的最小値反復法を提案する。 さらに、データセットの均一なカバレッジを前提にせず、サブリニアレートを回復するサブオプティリティ上のデータ依存上界を確立する。 また,情報理論上の下限を証明し,上界のデータ依存項が本質的であることを示唆する。 また, オフラインmgsにおいて試料効率を達成するための必要十分条件を特徴付ける「相対的不確かさ」の概念も強調した。 我々の知る限り、関数近似を持つオフラインMGに対して、最初の最小限の最適結果を提供する。

We study episodic two-player zero-sum Markov games (MGs) in the offline setting, where the goal is to find an approximate Nash equilibrium (NE) policy pair based on a dataset collected a priori. When the dataset does not have uniform coverage over all policy pairs, finding an approximate NE involves challenges in three aspects: (i) distributional shift between the behavior policy and the optimal policy, (ii) function approximation to handle large state space, and (iii) minimax optimization for equilibrium solving. We propose a pessimism-based algorithm, dubbed as pessimistic minimax value iteration (PMVI), which overcomes the distributional shift by constructing pessimistic estimates of the value functions for both players and outputs a policy pair by solving NEs based on the two value functions. Furthermore, we establish a data-dependent upper bound on the suboptimality which recovers a sublinear rate without the assumption on uniform coverage of the dataset. We also prove an information-theoreti cal lower bound, which suggests that the data-dependent term in the upper bound is intrinsic. Our theoretical results also highlight a notion of "relative uncertainty", which characterizes the necessary and sufficient condition for achieving sample efficiency in offline MGs. To the best of our knowledge, we provide the first nearly minimax optimal result for offline MGs with function approximation.
翻訳日:2022-02-16 14:23:05 公開日:2022-02-15
# 確率的・対向的オンライン凸最適化:滑らか性による回帰境界の改善

Between Stochastic and Adversarial Online Convex Optimization: Improved Regret Bounds via Smoothness ( http://arxiv.org/abs/2202.07554v1 )

ライセンス: Link先を確認
Sarah Sachs, H\'edi Hadiji, Tim van Erven, Crist\'obal Guzm\'an(参考訳) 確率的データと敵対的データは、オンライン学習において広く研究されている2つの設定である。 しかし、多くの最適化タスクはi.d.でも完全逆数でもないため、これらの極端点の間の世界をより理論的に理解することへの根本的な関心がある。 本研究では,オンライン凸最適化における新たな後悔の限界を,確率的i.i.d.と完全敵対的損失との補間として確立する。 期待損失の滑らかさを活用することで、この境界は最大勾配長への依存性を、以前は線形損失のみとして知られていた勾配の分散に置き換える。 さらに、逆毒のラウンドやデータ分散のシフトを許可することで、i.i.d.の仮定を弱める。 この目的を達成するために、損失系列に関連する2つの重要な量を導入し、累積確率分散と対角変動と呼ぶ。 我々の上限は、定型化リーダに従う楽観的な事例によって達成され、累積確率変動と対角変動に自動的に適応する適応学習率を設計する。 完全なi.d.の場合、我々の境界は確率加速度の結果から期待される速度と一致し、完全な逆数の場合、ミニマックスの後悔と一致するように優雅に劣化する。 さらに, 累積確率的分散と逆変動に対して, 後悔の上限が全ての中間的レジームに対して厳密であることを示す下限を与える。

Stochastic and adversarial data are two widely studied settings in online learning. But many optimization tasks are neither i.i.d. nor fully adversarial, which makes it of fundamental interest to get a better theoretical understanding of the world between these extremes. In this work we establish novel regret bounds for online convex optimization in a setting that interpolates between stochastic i.i.d. and fully adversarial losses. By exploiting smoothness of the expected losses, these bounds replace a dependence on the maximum gradient length by the variance of the gradients, which was previously known only for linear losses. In addition, they weaken the i.i.d. assumption by allowing adversarially poisoned rounds or shifts in the data distribution. To accomplish this goal, we introduce two key quantities associated with the loss sequence, that we call the cumulative stochastic variance and the adversarial variation. Our upper bounds are attained by instances of optimistic follow the regularized leader, and we design adaptive learning rates that automatically adapt to the cumulative stochastic variance and adversarial variation. In the fully i.i.d. case, our bounds match the rates one would expect from results in stochastic acceleration, and in the fully adversarial case they gracefully deteriorate to match the minimax regret. We further provide lower bounds showing that our regret upper bounds are tight for all intermediate regimes for the cumulative stochastic variance and the adversarial variation.
翻訳日:2022-02-16 14:22:42 公開日:2022-02-15
# ランダム特徴増幅:ニューラルネットワークにおける特徴学習と一般化

Random Feature Amplification: Feature Learning and Generalization in Neural Networks ( http://arxiv.org/abs/2202.07626v1 )

ライセンス: Link先を確認
Spencer Frei, Niladri S. Chatterji, Peter L. Bartlett(参考訳) 本研究では,ランダム初期化後のロジスティック損失の勾配降下により訓練された2層ReLUネットワークにおける特徴学習過程の特性評価を行う。 入力特徴のXOR様関数によって生成されるバイナリラベルを持つデータを考える。 トレーニングラベルの一定割合が敵によって破壊されることを許可します。 線形分類器は分布のランダムな推測に勝るものはないが、勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成し、マラーチとシャレフ=シュワルツの予想を「ディーパーは良いときのみよい」と反論している。 我々は,初期化時のニューロンのほとんどが,有用な特徴と弱い相関しか持たないランダムな特徴として機能し,勾配降下ダイナミクスがこれらの弱い,ランダムな特徴を強固で有用な特徴に「増幅」することを示す新しい証明手法を開発した。

In this work, we provide a characterization of the feature-learning process in two-layer ReLU networks trained by gradient descent on the logistic loss following random initialization. We consider data with binary labels that are generated by an XOR-like function of the input features. We permit a constant fraction of the training labels to be corrupted by an adversary. We show that, although linear classifiers are no better than random guessing for the distribution we consider, two-layer ReLU networks trained by gradient descent achieve generalization error close to the label noise rate, refuting the conjecture of Malach and Shalev-Shwartz that 'deeper is better only when shallow is good'. We develop a novel proof technique that shows that at initialization, the vast majority of neurons function as random features that are only weakly correlated with useful features, and the gradient descent dynamics 'amplify' these weak, random features to strong, useful features.
翻訳日:2022-02-16 14:22:16 公開日:2022-02-15
# 特徴認識によるマスク・フリー顔認識のための統一フレームワーク

A Unified Framework for Masked and Mask-Free Face Recognition via Feature Rectification ( http://arxiv.org/abs/2202.07358v1 )

ライセンス: Link先を確認
Shaozhe Hao, Chaofeng Chen, Zhenfang Chen, Kwan-Yee K. Wong(参考訳) 理想的な条件下での顔認識は、ディープラーニングの進歩と共に解決された問題と考えられている。 しかし、隠蔽された顔を認識することは依然として課題である。 既存の技術では、口と鼻の両方をマスクで覆った顔を認識することができないことが多い。 この問題に取り組む一般的なアプローチには 1)認識・認識中のマスキング領域から情報を捨てること 2) 認識前にマスク領域を復元すること。 マスクのない顔とマスクのない顔から抽出された特徴の一貫性を検討した作品はほとんどない。 この結果、マスクなしの顔でしばしば劣化したパフォーマンスを示すマスク付き顔を認識する訓練を受けたモデルが生まれた。 本稿では,マスクフリー顔とマスクフリー顔の両方を認識するための統合フレームワークであるface feature rectification network(ffr-net)を提案する。 本稿では,最先端認識モデルによって抽出された特徴を空間的およびチャネル的次元で整流化ブロックを導入し,整流化特徴空間におけるマスク面とマスクフリー面との間の距離を最小化する。 実験の結果,統一フレームワークはマスクフリー顔とマスクフリー顔の両方を効果的に認識し,最先端の結果を得るための修正された特徴空間を学習できることがわかった。 プロジェクトコード:https://github.com/ haoosz/FFR-Net

Face recognition under ideal conditions is now considered a well-solved problem with advances in deep learning. Recognizing faces under occlusion, however, still remains a challenge. Existing techniques often fail to recognize faces with both the mouth and nose covered by a mask, which is now very common under the COVID-19 pandemic. Common approaches to tackle this problem include 1) discarding information from the masked regions during recognition and 2) restoring the masked regions before recognition. Very few works considered the consistency between features extracted from masked faces and from their mask-free counterparts. This resulted in models trained for recognizing masked faces often showing degraded performance on mask-free faces. In this paper, we propose a unified framework, named Face Feature Rectification Network (FFR-Net), for recognizing both masked and mask-free faces alike. We introduce rectification blocks to rectify features extracted by a state-of-the-art recognition model, in both spatial and channel dimensions, to minimize the distance between a masked face and its mask-free counterpart in the rectified feature space. Experiments show that our unified framework can learn a rectified feature space for recognizing both masked and mask-free faces effectively, achieving state-of-the-art results. Project code: https://github.com/h aoosz/FFR-Net
翻訳日:2022-02-16 14:20:22 公開日:2022-02-15
# 信頼度閾値ニューラルダイビング

Confidence Threshold Neural Diving ( http://arxiv.org/abs/2202.07506v1 )

ライセンス: Link先を確認
Taehyun Yoon(参考訳) より実現可能なソリューションを短時間で見つけることは、Mixed Integer Programsの解決に不可欠な部分です。 より柔軟にヒューリスティックスを構築するために,ニューラルダイビングに基づくポストホック法を提案する。 我々は、信頼度の高い変数が最適解に含まれることがより明確であると仮定する。 この仮説に対し,信頼しきい値法が,主観的目標値の高い最終解へと導く部分的解を生み出すという実証的証拠を与える。 提案手法は,NeurIPS 2021 ML4COコンペティションにおいて2位となった。 また,本手法は,コンペティションにおける他の学習手法の中で最も優れたスコアを示す。

Finding a better feasible solution in a shorter time is an integral part of solving Mixed Integer Programs. We present a post-hoc method based on Neural Diving to build heuristics more flexibly. We hypothesize that variables with higher confidence scores are more definite to be included in the optimal solution. For our hypothesis, we provide empirical evidence that confidence threshold technique produces partial solutions leading to final solutions with better primal objective values. Our method won 2nd place in the primal task on the NeurIPS 2021 ML4CO competition. Also, our method shows the best score among other learning-based methods in the competition.
翻訳日:2022-02-16 14:19:40 公開日:2022-02-15
# プレトレーニング期間がFew-Shot Reasoningに及ぼす影響

Impact of Pretraining Term Frequencies on Few-Shot Reasoning ( http://arxiv.org/abs/2202.07206v1 )

ライセンス: Link先を確認
Yasaman Razeghi, Robert L. Logan IV, Matt Gardner, Sameer Singh(参考訳) 事前訓練された言語モデル(LM)は、いくつかの例を数ショット設定で外挿することで数値推論を行う能力を示した。 しかし、この外挿が頑健な推論に依存する範囲は不明確である。 本稿では,これらのモデルが事前学習データにおいていかに頻度が低いかについて検討する。 特に,テストインスタンスにおけるモデル性能と,事前学習データ中のこれらのインスタンスからの語句の頻度との相関について検討する。 本稿では,様々な数値推論タスク(算術や単位変換など)において,GPTに基づく言語モデル(Pileデータセットで事前学習)に対して,この相関関係の強さを計測する。 以上の結果から,最上位10~%の頻繁な単語では,下位10~%よりも70~%以上(絶対的)のインスタンスの方が,より普及度が高いインスタンスではモデルの方が正確であることを一貫して証明した。 総じて,lmsは数点数推論タスクにおいて強力な性能を示すが,本研究では,事前学習データ以上のモデルが実際にどの程度一般化されているかという疑問を提起し,評価結果の解釈に際し,事前学習データを考慮に入れることを研究者に促す。

Pretrained Language Models (LMs) have demonstrated ability to perform numerical reasoning by extrapolating from a few examples in few-shot settings. However, the extent to which this extrapolation relies on robust reasoning is unclear. In this paper, we investigate how well these models reason with terms that are less frequent in the pretraining data. In particular, we examine the correlations between the model performance on test instances and the frequency of terms from those instances in the pretraining data. We measure the strength of this correlation for a number of GPT-based language models (pretrained on the Pile dataset) on various numerical deduction tasks (e.g., arithmetic and unit conversion). Our results consistently demonstrate that models are more accurate on instances whose terms are more prevalent, in some cases above $70\%$ (absolute) more accurate on the top 10\% frequent terms in comparison to the bottom 10\%. Overall, although LMs exhibit strong performance at few-shot numerical reasoning tasks, our results raise the question of how much models actually generalize beyond pretraining data, and we encourage researchers to take the pretraining data into account when interpreting evaluation results.
翻訳日:2022-02-16 14:18:44 公開日:2022-02-15
# エンティティ-リレーション抽出のための効果的なマルチタスクインタラクションに向けて:選択再帰ネットワークを備えた統一フレームワーク

Towards Effective Multi-Task Interaction for Entity-Relation Extraction: A Unified Framework with Selection Recurrent Network ( http://arxiv.org/abs/2202.07281v1 )

ライセンス: Link先を確認
An Wang, Ao Liu, Hieu Hanh Le and Haruo Yokota(参考訳) エンティティ関係抽出は、名前付きエンティティ認識(NER)と関係抽出(RE)を共同で解くことを目的としている。 最近のアプローチでは、パイプライン方式で一方向のシーケンシャルな情報伝達を使用するか、共有エンコーダと二方向の暗黙的な相互作用を使用する。 しかし、彼らは NER と RE の異なるタスク形式間のギャップのため、情報交換の貧弱さに悩まされており、RE が NER にとって本当に有益かどうかという議論を巻き起こしている。 そこで本研究では,シーケンシャルな情報伝達と暗黙的インタラクションの両方の利点を組み合わせた,新しい統一的なカスケードフレームワークを提案する。 一方、エンティティ-リレーション抽出を一括抽出タスクとして再構成することで、この2つのタスク間のギャップを解消する。 具体的には、タスク固有の独立な共有表現を符号化する共有エンコーダとして選択繰り返しネットワークを提案し、NERとRE間の逐次情報フローを実現するための2つのシーケンシャル情報伝搬戦略を設計する。 大規模な実験により、ACE05とSciERCの2つの共通ベンチマークで最先端の結果が得られ、NERとREの大きな相互利益を実現するマルチタスク相互作用を効果的にモデル化できることが示されている。

Entity-relation extraction aims to jointly solve named entity recognition (NER) and relation extraction (RE). Recent approaches use either one-way sequential information propagation in a pipeline manner or two-way implicit interaction with a shared encoder. However, they still suffer from poor information interaction due to the gap between the different task forms of NER and RE, raising a controversial question whether RE is really beneficial to NER. Motivated by this, we propose a novel and unified cascade framework that combines the advantages of both sequential information propagation and implicit interaction. Meanwhile, it eliminates the gap between the two tasks by reformulating entity-relation extraction as unified span-extraction tasks. Specifically, we propose a selection recurrent network as a shared encoder to encode task-specific independent and shared representations and design two sequential information propagation strategies to realize the sequential information flow between NER and RE. Extensive experiments demonstrate that our approaches can achieve state-of-the-art results on two common benchmarks, ACE05 and SciERC, and effectively model the multi-task interaction, which realizes significant mutual benefits of NER and RE.
翻訳日:2022-02-16 14:18:21 公開日:2022-02-15
# (参考訳) Tomayto, Tomahto。 質問応答評価のためのトークンレベルの回答等価性 [全文訳有]

Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation ( http://arxiv.org/abs/2202.07654v1 )

ライセンス: CC BY 4.0
Jannis Bulian, Christian Buck, Wojciech Gajewski, Benjamin Boerschinger, Tal Schuster(参考訳) 質問応答(QA)システムの予測は通常、1つ以上の回答の注釈付き有限集合に対して評価される。 これにより、システムの真のパフォーマンスを過小評価するカバレッジ制限が発生し、通常、事前に定義されたルールやトークンレベルのf1測定値で正確な一致(em)を拡張することで対処される。 本稿では,トークンレベルの等価度尺度の欠点を検討するために,最初の体系的概念およびデータ駆動分析を提案する。 この目的のために、回答等価性(AE)という非対称な概念を定義し、参照に対して同等または改善された回答を受け入れ、SQuAD上の複数のQAシステムによって生成される候補に対して26K以上の人的判断を収集する。 このデータを注意深く分析することにより,感謝心の虚偽の印象や質問への依存の欠如など,f1尺度のいくつかの具体的な限界を明らかにし,定量化する。 評価された各モデルに対するAEアノテーションの収集は高価であるため、BERTマッチングBEM尺度を学習し、このタスクを近似する。 QAよりも単純なタスクであるため、BEMはF1よりもはるかに優れたAE近似を提供し、システムの性能をより正確に反映する。 最後に, 最小精度予測セットの具体的適用において, ae と bem の実用性を実証し, 必要な回答数を最大 2.6 倍に削減した。

The predictions of question answering (QA) systems are typically evaluated against manually annotated finite sets of one or more answers. This leads to a coverage limitation that results in underestimating the true performance of systems, and is typically addressed by extending over exact match (EM) with predefined rules or with the token-level F1 measure. In this paper, we present the first systematic conceptual and data-driven analysis to examine the shortcomings of token-level equivalence measures. To this end, we define the asymmetric notion of answer equivalence (AE), accepting answers that are equivalent to or improve over the reference, and collect over 26K human judgements for candidates produced by multiple QA systems on SQuAD. Through a careful analysis of this data, we reveal and quantify several concrete limitations of the F1 measure, such as false impression of graduality, missing dependence on question, and more. Since collecting AE annotations for each evaluated model is expensive, we learn a BERT matching BEM measure to approximate this task. Being a simpler task than QA, we find BEM to provide significantly better AE approximations than F1, and more accurately reflect the performance of systems. Finally, we also demonstrate the practical utility of AE and BEM on the concrete application of minimal accurate prediction sets, reducing the number of required answers by up to 2.6 times.
翻訳日:2022-02-16 14:16:53 公開日:2022-02-15
# ポイントクラウドにおけるネットワーク設計と局所幾何学の再考: シンプルな残留MLPフレームワーク

Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework ( http://arxiv.org/abs/2202.07123v1 )

ライセンス: Link先を確認
Xu Ma, Can Qin, Haoxuan You, Haoxi Ran, Yun Fu(参考訳) ポイントクラウド分析は、不規則性と非順序データ構造のために難しい。 3D測地を捉えるために、先行研究は主に畳み込み、グラフ、アテンション機構を用いた洗練された局所幾何学的抽出器の探索に頼っている。 しかし、これらの手法は推論中に好ましくないレイテンシを引き起こし、過去数年間で性能が飽和した。 本稿では,この課題に対する新たな視点を示す。 詳細な局所幾何学的情報は、おそらくポイントクラウド分析の鍵ではないことに気付きます。我々は、洗練された局所幾何学的抽出器を統合せず、非常に競争的に機能する、純粋に残余なmlpネットワークであるpointmlpを導入します。 提案されている軽量な幾何アフィンモジュールを備えたpointmlpは、複数のデータセットに新しい最先端を提供する。 実世界のScanObjectNNデータセットでは,従来のベストメソッドを3.3%の精度で上回ります。 我々は、PointMLPがこの強力な性能を高度な操作なしで達成し、推論速度が向上することを強調した。 最新のCurveNetと比較して、PointMLPは2倍速く、テストは7倍速く、ModelNet40ベンチマークではより正確である。 私たちはPointMLPが、ポイントクラウド分析をより深く理解するためのコミュニティに役立つことを期待しています。 コードはhttps://github.com/m a-xu/pointmlp-pytorc hで入手できる。

Point cloud analysis is challenging due to irregularity and unordered data structure. To capture the 3D geometries, prior works mainly rely on exploring sophisticated local geometric extractors using convolution, graph, or attention mechanisms. These methods, however, incur unfavorable latency during inference, and the performance saturates over the past few years. In this paper, we present a novel perspective on this task. We notice that detailed local geometrical information probably is not the key to point cloud analysis -- we introduce a pure residual MLP network, called PointMLP, which integrates no sophisticated local geometrical extractors but still performs very competitively. Equipped with a proposed lightweight geometric affine module, PointMLP delivers the new state-of-the-art on multiple datasets. On the real-world ScanObjectNN dataset, our method even surpasses the prior best method by 3.3% accuracy. We emphasize that PointMLP achieves this strong performance without any sophisticated operations, hence leading to a superior inference speed. Compared to most recent CurveNet, PointMLP trains 2x faster, tests 7x faster, and is more accurate on ModelNet40 benchmark. We hope our PointMLP may help the community towards a better understanding of point cloud analysis. The code is available at https://github.com/m a-xu/pointMLP-pytorc h.
翻訳日:2022-02-16 13:58:59 公開日:2022-02-15
# マスクアグリゲーションによる少数ショット意味セグメンテーション

Few-shot semantic segmentation via mask aggregation ( http://arxiv.org/abs/2202.07231v1 )

ライセンス: Link先を確認
Wei Ao, Shunyi Zheng, Yan Meng(参考訳) セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。 この困難なタスクでは、クエリイメージとサポートイメージの関係をマイニングする必要がある。 従来の研究では、ピクセル単位の分類問題と見なされていた。 そのため,クエリ画像とサポート画像との相関関係を検討するために,様々なモデルが設計されている。 しかし、ピクセルワイド対応のみに焦点を合わせ、オブジェクトの全体的な相関を無視する。 本稿では,この問題に対処するためのマスクベース分類手法を提案する。 マスク分類モデルであるマスクアグリゲーションネットワーク(MANet)は,一定数のマスクとターゲットとなる確率を同時に生成するために提案されている。 そして、その位置に応じてすべてのマスクを集約して最終セグメンテーション結果を得る。 PASCAL-5^i と COCO-20^i の2つのデータセットを用いた実験により,本手法は最先端の画素法と同等に動作することが示された。 この競合性能は、少数ショット意味セグメンテーションにおける代替ベースライン方法としてマスク分類の可能性を示す。 ソースコードはhttps://github.com/t inyaway/manetで入手できる。

Few-shot semantic segmentation aims to recognize novel classes with only very few labelled data. This challenging task requires mining of the relevant relationships between the query image and the support images. Previous works have typically regarded it as a pixel-wise classification problem. Therefore, various models have been designed to explore the correlation of pixels between the query image and the support images. However, they focus only on pixel-wise correspondence and ignore the overall correlation of objects. In this paper, we introduce a mask-based classification method for addressing this problem. The mask aggregation network (MANet), which is a simple mask classification model, is proposed to simultaneously generate a fixed number of masks and their probabilities of being targets. Then, the final segmentation result is obtained by aggregating all the masks according to their locations. Experiments on both the PASCAL-5^i and COCO-20^i datasets show that our method performs comparably to the state-of-the-art pixel-based methods. This competitive performance demonstrates the potential of mask classification as an alternative baseline method in few-shot semantic segmentation. Our source code will be made available at https://github.com/T inyAway/MANet.
翻訳日:2022-02-16 13:58:38 公開日:2022-02-15
# 言語モデル間の記憶の定量化

Quantifying Memorization Across Neural Language Models ( http://arxiv.org/abs/2202.07646v1 )

ライセンス: Link先を確認
Nicholas Carlini, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Florian Tramer, Chiyuan Zhang(参考訳) 大規模言語モデル(lms)は、トレーニングデータの一部を記憶し、適切に促された場合には、記憶されたトレーニングデータ verbatim を発行する。 これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。 lmsが記憶されたトレーニングデータを出力する程度を定量化する3つの対数線形関係について述べる。 メモリ化は,(1)モデルの容量の増加,(2)例の重複回数の増加,(3)モデルの促進に使用されるコンテキストのトークン数の増加とともに著しく増加する。 驚いたことに、これらの結果をモデルファミリーに一般化する場合、状況は複雑になる。 全体として、LMの記憶は以前考えられていたよりも一般的であり、少なくともアクティブな緩和なしにモデルがスケールし続けるにつれて悪化する可能性が高い。

Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text is often low quality), and hurts fairness (some texts are memorized over others). We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an example has been duplicated, and (3) the number of tokens of context used to prompt the model. Surprisingly, we find the situation becomes complicated when generalizing these results across model families. On the whole, we find that memorization in LMs is more prevalent than previously believed and will likely get worse as models continues to scale, at least without active mitigations.
翻訳日:2022-02-16 13:58:23 公開日:2022-02-15
# G-Mixup:グラフ分類のためのグラフデータ拡張

G-Mixup: Graph Data Augmentation for Graph Classification ( http://arxiv.org/abs/2202.07179v1 )

ライセンス: Link先を確認
Xiaotian Han, Zhimeng Jiang, Ninghao Liu, Xia Hu(参考訳) この研究はグラフデータのための \emph{mixup を開発する。 Mixupは、2つのランダムサンプル間の特徴とラベルを補間することにより、ニューラルネットワークの一般化とロバスト性を改善する上で優位性を示している。 従来、Mixupは画像や表データなどの正規データ、グリッドデータ、ユークリッドデータを扱うことができる。 しかし、グラフデータを追加するためにmixupを直接採用するのは困難である。 1) ノードの数が異なる。 2) 容易に一致しない,及び 3) 非ユークリッド空間において特異な型付けを持つ。 この目的のために、グラフの異なるクラスの生成元(すなわち、グラフ)を補間することによりグラフ分類のための拡張グラフに対する$\mathcal{G}$-Mixupを提案する。 具体的には、まず同じクラス内のグラフを使ってgraphonを推定します。 次に、グラフを直接操作するのではなく、ユークリッド空間内の異なるクラスのグラフを補間して混合グラフを得る。 拡張実験により、$\mathcal{G}$-Mixup は GNN の一般化とロバスト性を大幅に改善することが示された。

This work develops \emph{mixup for graph data}. Mixup has shown superiority in improving the generalization and robustness of neural networks by interpolating features and labels between two random samples. Traditionally, Mixup can work on regular, grid-like, and Euclidean data such as image or tabular data. However, it is challenging to directly adopt Mixup to augment graph data because different graphs typically: 1) have different numbers of nodes; 2) are not readily aligned; and 3) have unique typologies in non-Euclidean space. To this end, we propose $\mathcal{G}$-Mixup to augment graphs for graph classification by interpolating the generator (i.e., graphon) of different classes of graphs. Specifically, we first use graphs within the same class to estimate a graphon. Then, instead of directly manipulating graphs, we interpolate graphons of different classes in the Euclidean space to get mixed graphons, where the synthetic graphs are generated through sampling based on the mixed graphons. Extensive experiments show that $\mathcal{G}$-Mixup substantially improves the generalization and robustness of GNNs.
翻訳日:2022-02-16 13:55:53 公開日:2022-02-15
# 分散ロバスト最適化によるルーティング問題の解法

Learning to Solve Routing Problems via Distributionally Robust Optimization ( http://arxiv.org/abs/2202.07241v1 )

ライセンス: Link先を確認
Yuan Jiang, Yaoxin Wu, Zhiguang Cao, Jie Zhang(参考訳) ルーティング問題を解決するための最近のディープモデルは、常に訓練用ノードの単一分布を前提としており、分散一般化能力を著しく損なう。 本稿では,群分布的ロバストな最適化(グループDRO)を利用してこの問題に対処し,異なる分布群に対する重み付けと深層モデルのパラメータを学習中にインターリーブされた方法で共同で最適化する。 また,畳み込みニューラルネットワークに基づくモジュールも設計し,ディープモデルがノード間のより有益な潜在パターンを学習できるようにする。 提案手法はGCNとPOMOを含む2種類のよく知られた深層モデルに対して評価する。 ランダムに合成されたインスタンスと2つのベンチマークデータセット(TSPLibとCVRPLib)による実験結果から,本手法が元のモデルよりも分散一般化性能を大幅に向上することを示した。

Recent deep models for solving routing problems always assume a single distribution of nodes for training, which severely impairs their cross-distribution generalization ability. In this paper, we exploit group distributionally robust optimization (group DRO) to tackle this issue, where we jointly optimize the weights for different groups of distributions and the parameters for the deep model in an interleaved manner during training. We also design a module based on convolutional neural network, which allows the deep model to learn more informative latent pattern among the nodes. We evaluate the proposed approach on two types of well-known deep models including GCN and POMO. The experimental results on the randomly synthesized instances and the ones from two benchmark dataset (i.e., TSPLib and CVRPLib) demonstrate that our approach could significantly improve the cross-distribution generalization performance over the original models.
翻訳日:2022-02-16 13:55:35 公開日:2022-02-15
# 文脈的重要性とユーティリティ:理論的基礎

Contextual Importance and Utility: aTheoretical Foundation ( http://arxiv.org/abs/2202.07292v1 )

ライセンス: Link先を確認
Kary Fr\"amling(参考訳) 本稿では,eXplainable AI (XAI) メソッド Contextual Importance and Utility (CIU) をサポートするための新しい理論を提案する。 CIU算術は、CIUにしっかりとした理論基盤を与えるマルチ属性ユーティリティ理論の概念に基づいている。 文脈影響という新しい概念も定義されており、モデルに依存しない結果説明のためのCIUといわゆる加法的特徴属性(AFA)メソッドを直接比較することができる。 afaメソッドで使われる"インフルエンス(influence)"の概念は、単純なモデルでも結果説明の目的には不十分である。 単純なモデルを用いた実験では、文脈的重要性(CI)と文脈的有用性(CU)を用いた説明が、影響に基づく手法が失敗する理由を説明する。 CIとCUは、説明モデルに対する説明の忠実性を保証することも示している。

This paper provides new theory to support to the eXplainable AI (XAI) method Contextual Importance and Utility (CIU). CIU arithmetic is based on the concepts of Multi-Attribute Utility Theory, which gives CIU a solid theoretical foundation. The novel concept of contextual influence is also defined, which makes it possible to compare CIU directly with so-called additive feature attribution (AFA) methods for model-agnostic outcome explanation. One key takeaway is that the "influence" concept used by AFA methods is inadequate for outcome explanation purposes even for simple models to explain. Experiments with simple models show that explanations using contextual importance (CI) and contextual utility (CU) produce explanations where influence-based methods fail. It is also shown that CI and CU guarantees explanation faithfulness towards the explained model.
翻訳日:2022-02-16 13:55:20 公開日:2022-02-15
# 最後の隠れ層アクティベーションの 理不尽な効果

Unreasonable Effectiveness of Last Hidden Layer Activations ( http://arxiv.org/abs/2202.07342v1 )

ライセンス: Link先を確認
Omer Faruk Tuna, Ferhat Ozgur Catak, M. Taner Eskil(参考訳) 標準ディープニューラルネットワーク(DNN)ベースの分類器では、一般的な慣習は、最後の(出力)層の活性化関数を省略し、ロジットに直接ソフトマックス関数を適用して各クラスの確率スコアを取得することである。 このタイプのアーキテクチャでは、任意の出力クラスに対する分類器の損失値は、最終確率スコアと関連するクラスのラベル値との差に直接比例する。 標準的なホワイトボックスの敵対的回避攻撃は、ターゲットとターゲットのいずれであれ、主にモデル損失関数の勾配を利用して、敵のサンプルを作り、モデルを騙そうとする。 本研究では,高温度値のモデル出力層で広く知られているアクティベーション関数を用いることで,標的と標的の双方の攻撃事例の勾配をゼロにし,攻撃者がモデル損失関数を悪用して敵のサンプルを作成することを防ぐ効果を数学的および実験的に示す。 CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。 詳細な実験により,本手法は,勾配に基づく標的攻撃および非標的攻撃に対するロバスト性が大幅に向上することを確認した。 また,出力層における非線形性の増加は,deepfool攻撃など他の攻撃方法にもいくつかの利点があることを示した。

In standard Deep Neural Network (DNN) based classifiers, the general convention is to omit the activation function in the last (output) layer and directly apply the softmax function on the logits to get the probability scores of each class. In this type of architectures, the loss value of the classifier against any output class is directly proportional to the difference between the final probability score and the label value of the associated class. Standard White-box adversarial evasion attacks, whether targeted or untargeted, mainly try to exploit the gradient of the model loss function to craft adversarial samples and fool the model. In this study, we show both mathematically and experimentally that using some widely known activation functions in the output layer of the model with high temperature values has the effect of zeroing out the gradients for both targeted and untargeted attack cases, preventing attackers from exploiting the model's loss function to craft adversarial samples. We've experimentally verified the efficacy of our approach on MNIST (Digit), CIFAR10 datasets. Detailed experiments confirmed that our approach substantially improves robustness against gradient-based targeted and untargeted attack threats. And, we showed that the increased non-linearity at the output layer has some additional benefits against some other attack methods like Deepfool attack.
翻訳日:2022-02-16 13:55:06 公開日:2022-02-15
# 不連続および隣接したファジィ顆粒による多種粒度近似

Multi-class granular approximation by means of disjoint and adjacent fuzzy granules ( http://arxiv.org/abs/2202.07584v1 )

ライセンス: Link先を確認
Marko Palangeti\'c, Chris Cornelis, Salvatore Greco, Roman S{\l}owi\'nski(参考訳) 粒度の計算では、ファジィ集合は元のファジィ集合 w.r.t. にできるだけ近い粒度の表現可能な集合によって近似することができる。 そのような集合は粒度近似と呼ばれる。 本稿では,解離および隣接した顆粒の概念を紹介し,新しい定義が粒度近似にどのように影響するかを検討する。 まず,新たな概念は,属性空間(隣接顆粒)を可能な限りカバーするために,決定領域を分離しておくのに役立つため,二分分類問題において重要であることを示す。 後に、多クラス分類問題に対する粒度近似を考えると、多クラス粒度近似の定義に繋がる。 最後に, ファジィファジィ連結体の多クラス粒度近似を効率的に計算する方法を示す。 導入された概念をより深く理解するための図面も提供します。

In granular computing, fuzzy sets can be approximated by granularly representable sets that are as close as possible to the original fuzzy set w.r.t. a given closeness measure. Such sets are called granular approximations. In this article, we introduce the concepts of disjoint and adjacent granules and we examine how the new definitions affect the granular approximations. First, we show that the new concepts are important for binary classification problems since they help to keep decision regions separated (disjoint granules) and at the same time to cover as much as possible of the attribute space (adjacent granules). Later, we consider granular approximations for multi-class classification problems leading to the definition of a multi-class granular approximation. Finally, we show how to efficiently calculate multi-class granular approximations for {\L}ukasiewicz fuzzy connectives. We also provide graphical illustrations for a better understanding of the introduced concepts.
翻訳日:2022-02-16 13:54:44 公開日:2022-02-15
# 安全スクリーニングによる非負・有界可変線形回帰アルゴリズムの高速化

Accelerating Non-Negative and Bounded-Variable Linear Regression Algorithms with Safe Screening ( http://arxiv.org/abs/2202.07258v1 )

ライセンス: Link先を確認
Cassio Dantas (IMAG, UM), Emmanuel Soubies (IRIT-SC, CNRS), C\'edric F\'evotte (IRIT-SC, CNRS)(参考訳) 非負で有界な線形回帰問題は、機械学習や信号処理における様々な応用に現れる。 本稿では,これらの問題に対する既存の解法を,反復過程における飽和座標を同定することで高速化する手法を提案する。 これは、スパーシティ・レギュラライズド・レグレッション問題のために以前に提案された安全なスクリーニング技術に似ている。 提案した戦略は、最適解において同定された座標が実際に飽和していることの理論的保証を提供するため、確実に安全である。 合成データと実データによる実験結果は、非負および有界変数問題の両方に対する説得力のある加速度を示す。

Non-negative and bounded-variable linear regression problems arise in a variety of applications in machine learning and signal processing. In this paper, we propose a technique to accelerate existing solvers for these problems by identifying saturated coordinates in the course of iterations. This is akin to safe screening techniques previously proposed for sparsity-regularized regression problems. The proposed strategy is provably safe as it provides theoretical guarantees that the identified coordinates are indeed saturated in the optimal solution. Experimental results on synthetic and real data show compelling accelerations for both non-negative and bounded-variable problems.
翻訳日:2022-02-16 13:52:30 公開日:2022-02-15
# 時系列の適応的等角予測

Adaptive Conformal Predictions for Time Series ( http://arxiv.org/abs/2202.07282v1 )

ライセンス: Link先を確認
Margaux Zaffran (EDF R&D, CRISAM, CMAP, PARIETAL), Aymeric Dieuleveut (CMAP), Olivier F\'eron (EDF R&D, FiME Lab), Yannig Goude (EDF R&D), Julie Josse (CRISAM, IDESP)(参考訳) 予測モデルの不確実性定量化は意思決定問題において重要である。 共形予測は一般的かつ理論的に正しい答えである。 しかし、時系列を除く交換可能なデータが必要である。 最近の研究はこの問題に取り組みつつ、分布シフト時系列のために開発された適応共形推論(aci, gibbs, cand{\``e}s, 2021)は、一般的な依存性を持つ時系列に対して良い手順であると主張する。 交換可能な自動回帰ケースにおける学習率の効率への影響を理論的に分析する。 本稿では,オンラインエキスパートアグリゲーションに基づくACIを適応的に構築するパラメータフリー手法AgACIを提案する。 時系列におけるACIの活用を提唱する競合手法に対する広範な公正シミュレーションを導いた。 実際のケーススタディとして、電力価格の予測を行います。 提案アルゴリズムは,日頭予測のための効率的な予測間隔を提供する。 実験を再現するためのコードとデータは、すべて利用可能である。

Uncertainty quantification of predictive models is crucial in decision-making problems. Conformal prediction is a general and theoretically sound answer. However, it requires exchangeable data, excluding time series. While recent works tackled this issue, we argue that Adaptive Conformal Inference (ACI, Gibbs and Cand{\`e}s, 2021), developed for distribution-shift time series, is a good procedure for time series with general dependency. We theoretically analyse the impact of the learning rate on its efficiency in the exchangeable and auto-regressive case. We propose a parameter-free method, AgACI, that adaptively builds upon ACI based on online expert aggregation. We lead extensive fair simulations against competing methods that advocate for ACI's use in time series. We conduct a real case study: electricity price forecasting. The proposed aggregation algorithm provides efficient prediction intervals for day-ahead forecasting. All the code and data to reproduce the experiments is made available.
翻訳日:2022-02-16 13:52:22 公開日:2022-02-15
# 学習関係による現実的対実的説明

Realistic Counterfactual Explanations by Learned Relations ( http://arxiv.org/abs/2202.07356v1 )

ライセンス: Link先を確認
Xintao Xiang and Artem Lenskiy(参考訳) 反事実的説明の既存の方法の多くは、データ属性間の内在的な関係を無視するので、現実的反事実を生成することができない。 さらに、データ属性間の関係を説明する既存のメソッドはドメイン知識を必要とし、複雑な現実世界のアプリケーションに適用性を制限する。 本稿では,データ属性間の関係を保存した現実的対実的説明に対する新しいアプローチを提案する。 モデルはドメイン知識のない変分自動エンコーダによって関係を直接学習し、それに従って潜伏空間を乱すことを学習する。 合成と実世界の両方のデータセットについて広範な実験を行う。 その結果,提案手法はデータから関係を学習し,それらの関係を生成された反事実に保存する。

Many existing methods of counterfactual explanations ignore the intrinsic relationships between data attributes and thus fail to generate realistic counterfactuals. Moreover, the existing methods that account for relationships between data attributes require domain knowledge, which limits their applicability in complex real-world applications. In this paper, we propose a novel approach to realistic counterfactual explanations that preserve relationships between data attributes. The model directly learns the relationships by a variational auto-encoder without domain knowledge and then learns to disturb the latent space accordingly. We conduct extensive experiments on both synthetic and real-world datasets. The results demonstrate that the proposed method learns relationships from the data and preserves these relationships in generated counterfactuals.
翻訳日:2022-02-16 13:52:09 公開日:2022-02-15
# 単純クリグの統計的学習観

A Statistical Learning View of Simple Kriging ( http://arxiv.org/abs/2202.07365v1 )

ライセンス: Link先を確認
Emilia Siviero, Emilie Chautru, Stephan Cl\'emen\c{c}on(参考訳) ビッグデータ時代には、特に位置情報センサーが普及するにつれて、複雑な空間依存構造を示す巨大なデータセットが利用できるようになる。 この文脈では、統計的学習の標準確率論は直接適用されず、そのようなデータから学習された予測規則の一般化能力の保証が確立される。 平方可積分な乱体 $X=\{X_s\}_{s\in S}$, $S\subset \mathbb{R}^2$, 未知の共分散構造を持つ値は、空間過程の有限個の位置 $s_1,\; \ldots,\; s_n$ in $S$ で空間過程の単一実現を観測することにより、最小2次リスクで予測される。 この最小化問題とカーネルリッジ回帰との接続にもかかわらず、経験的リスク最小化器の一般化能力を確立することは、空間データ $X_{s_1},\; \ldots,\; X_{s_n}$ の非自然性のため、決して簡単ではない。 本稿では、正則格子を形成する場所で観測される等方定常ガウス過程の場合、真の最小化器を模倣するプラグイン予測則の過剰なリスクに対して、順序 $o_{\mathbb{p}}(1/n)$ の非漸近境界が証明される。 これらの理論的な結果とそれらの確立に必要な技術的条件が果たした役割は、様々な数値実験によって示され、空間データに基づく統計学のさらなる発展への道を開くことを願っている。

In the Big Data era, with the ubiquity of geolocation sensors in particular, massive datasets exhibiting a possibly complex spatial dependence structure are becoming increasingly available. In this context, the standard probabilistic theory of statistical learning does not apply directly and guarantees of the generalization capacity of predictive rules learned from such data are left to establish. We analyze here the simple Kriging task, the flagship problem in Geostatistics: the values of a square integrable random field $X=\{X_s\}_{s\in S}$, $S\subset \mathbb{R}^2$, with unknown covariance structure are to be predicted with minimum quadratic risk, based upon observing a single realization of the spatial process at a finite number of locations $s_1,\; \ldots,\; s_n$ in $S$. Despite the connection of this minimization problem with kernel ridge regression, establishing the generalization capacity of empirical risk minimizers is far from straightforward, due to the non i.i.d. nature of the spatial data $X_{s_1},\; \ldots,\; X_{s_n}$ involved. In this article, nonasymptotic bounds of order $O_{\mathbb{P}}(1/n)$ are proved for the excess risk of a plug-in predictive rule mimicking the true minimizer in the case of isotropic stationary Gaussian processes observed at locations forming a regular grid. These theoretical results, as well as the role played by the technical conditions required to establish them, are illustrated by various numerical experiments and hopefully pave the way for further developments in statistical learning based on spatial data.
翻訳日:2022-02-16 13:51:57 公開日:2022-02-15
# (参考訳) 説明可能な勧告のためのパーソナライズされたプロンプト学習 [全文訳有]

Personalized Prompt Learning for Explainable Recommendation ( http://arxiv.org/abs/2202.07371v1 )

ライセンス: CC BY 4.0
Lei Li, Yongfeng Zhang, Li Chen(参考訳) レコメンデーションを正当化するためのユーザ理解可能な説明を提供することは、推奨項目をよりよく理解し、システムの使いやすさを高め、ユーザの信頼を得るのに役立つ。 それを実現する典型的なアプローチは自然言語生成である。 しかし、以前の研究は主に終端を満たすためにリカレントニューラルネットワークを採用しており、より効果的にトレーニング済みのTransformerモデルを未探索のまま残している。 実際、レコメンダシステムで重要な識別子であるユーザidとアイテムidは、トレーニング済みのモデルがすでにトレーニング済みの単語として、本質的に異なる意味空間にある。 したがって、これらのモデルにIDを効果的に融合する方法が重要な問題となる。 近年の即時学習の進歩に触発されて,IDを表す代替語を見つける(離散的即時学習と呼ぶ)ことと,事前学習されたモデルにIDベクトルを直接入力する(連続的即時学習という)という2つの方法が考案された。 後者の場合、IDベクトルはランダムに初期化されるが、モデルは大きなコーパスで事前訓練されるため、実際には異なる学習段階にある。 さらに,このギャップを埋めるために,逐次チューニングとレコメンデーションの2つのトレーニング戦略を提案する。 広範な実験により,トレーニング戦略を備えた継続的プロンプト学習アプローチが,説明可能なレコメンデーションの3つのデータセットにおいて,強いベースラインを一貫して上回っていることが示された。

Providing user-understandable explanations to justify recommendations could help users better understand the recommended items, increase the system's ease of use, and gain users' trust. A typical approach to realize it is natural language generation. However, previous works mostly adopt recurrent neural networks to meet the ends, leaving the potentially more effective pre-trained Transformer models under-explored. In fact, user and item IDs, as important identifiers in recommender systems, are inherently in different semantic space as words that pre-trained models were already trained on. Thus, how to effectively fuse IDs into such models becomes a critical issue. Inspired by recent advancement in prompt learning, we come up with two solutions: find alternative words to represent IDs (called discrete prompt learning), and directly input ID vectors to a pre-trained model (termed continuous prompt learning). In the latter case, ID vectors are randomly initialized but the model is trained in advance on large corpora, so they are actually in different learning stages. To bridge the gap, we further propose two training strategies: sequential tuning and recommendation as regularization. Extensive experiments show that our continuous prompt learning approach equipped with the training strategies consistently outperforms strong baselines on three datasets of explainable recommendation.
翻訳日:2022-02-16 13:49:46 公開日:2022-02-15
# 自然言語処理のための動的ニューラルネットワークに関する研究

A Survey on Dynamic Neural Networks for Natural Language Processing ( http://arxiv.org/abs/2202.07101v1 )

ライセンス: Link先を確認
Canwen Xu and Julian McAuley(参考訳) 大規模なTransformerモデルを効果的にスケールすることは、自然言語処理の最近の進歩の主要な要因である。 動的ニューラルネットワークは、新たな研究方向として、入力に基づいて計算経路を動的に調整することで、計算と時間のサブ線形増加を伴うニューラルネットワークのスケールアップを可能にする。 動的ニューラルネットワークは、事前学習された言語モデルのパラメータ数の増加に対する有望な解決策となり、数兆のパラメータによる事前トレーニングと、モバイルデバイスでのより高速な推論の両方を可能にする。 本研究では,NLPにおける3種類の動的ニューラルネットワークの進歩を概説する。 動的ニューラルネットワークの現在の課題と今後の研究の方向性についても強調する。

Effectively scaling large Transformer models is a main driver of recent advances in natural language processing. Dynamic neural networks, as an emerging research direction, are capable of scaling up neural networks with sub-linear increases in computation and time by dynamically adjusting their computational path based on the input. Dynamic neural networks could be a promising solution to the growing parameter numbers of pretrained language models, allowing both model pretraining with trillions of parameters and faster inference on mobile devices. In this survey, we summarize progress of three types of dynamic neural networks in NLP: skimming, mixture of experts, and early exit. We also highlight current challenges in dynamic neural networks and directions for future research.
翻訳日:2022-02-16 13:21:43 公開日:2022-02-15
# 自然言語処理のためのモデル圧縮に関する調査

A Survey on Model Compression for Natural Language Processing ( http://arxiv.org/abs/2202.07105v1 )

ライセンス: Link先を確認
Canwen Xu and Julian McAuley(参考訳) トランスフォーマーやプレトレーニング技術といった新しいアーキテクチャの発展に伴い、自然言語処理(NLP)の応用において大きな進歩を遂げている。 しかし、Transformerの高エネルギーコストと長時間の推論遅延により、NLPがエッジやモバイルコンピューティングを含む幅広いシナリオに入るのを防いでいる。 効率的なNLP研究は、データ準備、モデルトレーニング、推論を含むNLPのライフサイクル全体の計算、時間、炭素排出量を包括的に検討することを目的としている。 本稿では,NLPのモデル圧縮の現状を,ベンチマーク,メトリクス,方法論など,推論段階に焦点をあてて検討する。 現在の障害と今後の研究方向性について概説する。

With recent developments in new architectures like Transformer and pretraining techniques, significant progress has been made in applications of natural language processing (NLP). However, the high energy cost and long inference delay of Transformer is preventing NLP from entering broader scenarios including edge and mobile computing. Efficient NLP research aims to comprehensively consider computation, time and carbon emission for the entire life-cycle of NLP, including data preparation, model training and inference. In this survey, we focus on the inference stage and review the current state of model compression for NLP, including the benchmarks, metrics and methodology. We outline the current obstacles and future research directions.
翻訳日:2022-02-16 13:21:33 公開日:2022-02-15
# 時系列のトランスフォーマー:サーベイ

Transformers in Time Series: A Survey ( http://arxiv.org/abs/2202.07125v1 )

ライセンス: Link先を確認
Qingsong Wen, Tian Zhou, Chaoli Zhang, Weiqi Chen, Ziqing Ma, Junchi Yan, Liang Sun(参考訳) トランスフォーマーは自然言語処理やコンピュータビジョンにおいて多くのタスクにおいて優れたパフォーマンスを達成しており、時系列コミュニティにおいても大きな関心を集めている。 トランスフォーマの複数の利点のうち、長距離の依存関係と相互作用をキャプチャする能力は、時系列モデリングにおいて特に魅力的であり、様々な時系列アプリケーションでエキサイティングな進歩をもたらす。 本稿では,既存の時系列変換器を2つの視点で要約する新しい分類法により,その強みと限界を強調し,時系列モデリングのための変換器方式を体系的に検討する。 ネットワーク修正の観点からは,モジュールレベルの適応と時系列変換器のアーキテクチャレベルを要約する。 応用の観点からは,予測,異常検出,分類などの共通タスクに基づいて時系列変換器を分類する。 実験では,ロバスト解析,モデルサイズ解析,季節分解分析を行い,時系列におけるトランスフォーマーの動作について検討した。 最後に, 有用な研究指導を行うための今後の方向性について考察し, 提案する。 本論文は,時系列データをモデル化するための変圧器の最近の進歩を包括的かつ体系的に要約した最初の研究である。 この調査が、時系列トランスフォーマーのさらなる研究関心を喚起することを願っている。

Transformers have achieved superior performances in many tasks in natural language processing and computer vision, which also intrigues great interests in the time series community. Among multiple advantages of transformers, the ability to capture long-range dependencies and interactions is especially attractive for time series modeling, leading to exciting progress in various time series applications. In this paper, we systematically review transformer schemes for time series modeling by highlighting their strengths as well as limitations through a new taxonomy to summarize existing time series transformers in two perspectives. From the perspective of network modifications, we summarize the adaptations of module level and architecture level of the time series transformers. From the perspective of applications, we categorize time series transformers based on common tasks including forecasting, anomaly detection, and classification. Empirically, we perform robust analysis, model size analysis, and seasonal-trend decomposition analysis to study how Transformers perform in time series. Finally, we discuss and suggest future directions to provide useful research guidance. To the best of our knowledge, this paper is the first work to comprehensively and systematically summarize the recent advances of Transformers for modeling time series data. We hope this survey will ignite further research interests in time series Transformers.
翻訳日:2022-02-16 13:21:22 公開日:2022-02-15
# NeuPL: 神経集団学習

NeuPL: Neural Population Learning ( http://arxiv.org/abs/2202.07415v1 )

ライセンス: Link先を確認
Siqi Liu, Luke Marris, Daniel Hennes, Josh Merel, Nicolas Heess, Thore Graepel(参考訳) 戦略ゲーム(スタークラフト、ポーカーなど)で学ぶには、多様なポリシーを見つける必要がある。 これはしばしば、既存の政策に対して反復的に新しい政策を訓練することで達成される。 この反復的なアプローチは、現実世界のゲームで2つの問題に苦しむ。 a) 有限予算下では,各イテレーションにおける近似的最善応答演算子は,停止を必要とし,その結果,人口を過度に訓練した善応答を生じさせる。 b) 各反復における基本的スキルの繰り返しの学習は無駄であり,ますます強い相手方の存在下では,難解になる。 本研究では,両課題に対する解としてニューラル集団学習(neupl)を提案する。 neuplは、穏やかな仮定の下で最善の応答の集団に収束保証を提供する。 単一条件モデル内のポリシーの集団を表現することによって、neuplはポリシー間の転送学習を可能にする。 経験的に、複数のテストドメインにまたがるneuplの汎用性、性能改善、効率性を示す。 最も興味深いのは、神経人口が増加するにつれて、新しい戦略がよりアクセスしやすくなります。

Learning in strategy games (e.g. StarCraft, poker) requires the discovery of diverse policies. This is often achieved by iteratively training new policies against existing ones, growing a policy population that is robust to exploit. This iterative approach suffers from two issues in real-world games: a) under finite budget, approximate best-response operators at each iteration needs truncating, resulting in under-trained good-responses populating the population; b) repeated learning of basic skills at each iteration is wasteful and becomes intractable in the presence of increasingly strong opponents. In this work, we propose Neural Population Learning (NeuPL) as a solution to both issues. NeuPL offers convergence guarantees to a population of best-responses under mild assumptions. By representing a population of policies within a single conditional model, NeuPL enables transfer learning across policies. Empirically, we show the generality, improved performance and efficiency of NeuPL across several test domains. Most interestingly, we show that novel strategies become more accessible, not less, as the neural population expands.
翻訳日:2022-02-16 13:21:05 公開日:2022-02-15
# アクタ-クリティックアルゴリズムの効率的なポリシー更新のためのポリシー勾配定理を超えて

Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms ( http://arxiv.org/abs/2202.07496v1 )

ライセンス: Link先を確認
Romain Laroche, Remi Tachet(参考訳) 強化学習では、ある状態における最適行動は、その後の状態における政策決定に依存する。 その結果、学習対象は時間とともに進化し、政策最適化プロセスは、以前に学んだことを学ばなければならない。 本稿では, 政策勾配定理が, 目標値に対する構造対称性から解き放たれるのが遅い政策更新を規定していることを明らかにする。 学習速度を向上するために、我々は新しいポリシー更新、すなわち、$q$を最大化するアクションに対するクロスエントロピー損失の勾配について検討するが、そのような更新が価値の低下につながる可能性がある。 したがって、その欠陥を欠いた修正ポリシー更新を導入し、古典的な仮定の下で$\mathcal{o}(t^{-1})$ における大域的最適性への収束の保証を証明する。 さらに,6つの分析次元に沿って,標準政策更新とクロスエントロピー政策更新を評価する。 最後に,理論的知見を実証的に検証した。

In Reinforcement Learning, the optimal action at a given state is dependent on policy decisions at subsequent states. As a consequence, the learning targets evolve with time and the policy optimization process must be efficient at unlearning what it previously learnt. In this paper, we discover that the policy gradient theorem prescribes policy updates that are slow to unlearn because of their structural symmetry with respect to the value target. To increase the unlearning speed, we study a novel policy update: the gradient of the cross-entropy loss with respect to the action maximizing $q$, but find that such updates may lead to a decrease in value. Consequently, we introduce a modified policy update devoid of that flaw, and prove its guarantees of convergence to global optimality in $\mathcal{O}(t^{-1})$ under classic assumptions. Further, we assess standard policy updates and our cross-entropy policy updates along six analytical dimensions. Finally, we empirically validate our theoretical findings.
翻訳日:2022-02-16 13:20:49 公開日:2022-02-15
# 入力雑音下におけるロバスト多目的ベイズ最適化

Robust Multi-Objective Bayesian Optimization Under Input Noise ( http://arxiv.org/abs/2202.07549v1 )

ライセンス: Link先を確認
Samuel Daulton, Sait Cakmak, Maximilian Balandat, Michael A. Osborne, Enlu Zhou, Eytan Bakshy(参考訳) ベイズ最適化(bayesian optimization、bo)は、設計パラメータをチューニングし、高価なブラックボックスのパフォーマンスメトリクスを最適化するサンプル効率の高い手法である。 多くの製造プロセスにおいて、設計パラメータはランダムな入力ノイズにさらされ、結果としてしばしば期待よりも性能の低い製品となる。 入力雑音下で1つの目的を最適化するためにBO法が提案されているが、入力摂動に敏感な複数の目的が存在する現実的なシナリオに対処する手法は存在しない。 本研究では,入力雑音に対してロバストな最初の多目的bo法を提案する。 我々は,不確実な目標のリスク尺度である多変量値リスク(MVaR)の最適化を目標とする。 MVaRを直接最適化することは、多くの設定で計算不可能であるため、ランダムなスカラー化を用いてMVaRを最適化するためのスケーラブルで理論的なアプローチを提案する。 実験により,本手法は代替手法を著しく上回り,複数のメトリクスの仕様を満たす最適なロバストな設計を高い確率で効率的に同定する。

Bayesian optimization (BO) is a sample-efficient approach for tuning design parameters to optimize expensive-to-evaluat e, black-box performance metrics. In many manufacturing processes, the design parameters are subject to random input noise, resulting in a product that is often less performant than expected. Although BO methods have been proposed for optimizing a single objective under input noise, no existing method addresses the practical scenario where there are multiple objectives that are sensitive to input perturbations. In this work, we propose the first multi-objective BO method that is robust to input noise. We formalize our goal as optimizing the multivariate value-at-risk (MVaR), a risk measure of the uncertain objectives. Since directly optimizing MVaR is computationally infeasible in many settings, we propose a scalable, theoretically-ground ed approach for optimizing MVaR using random scalarizations. Empirically, we find that our approach significantly outperforms alternative methods and efficiently identifies optimal robust designs that will satisfy specifications across multiple metrics with high probability.
翻訳日:2022-02-16 13:20:33 公開日:2022-02-15
# R'enyi差分プライバシーによる再建攻撃の防御

Defending against Reconstruction Attacks with R\'enyi Differential Privacy ( http://arxiv.org/abs/2202.07623v1 )

ライセンス: Link先を確認
Pierre Stock, Igor Shilov, Ilya Mironov, Alexandre Sablayrolles(参考訳) レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスしてトレーニングセットのデータサンプルを再生することができる。 最近、単純なヒューリスティックスが言語モデルからデータサンプルを再構築できることが示されており、この脅威シナリオがモデルリリースの重要な側面となっている。 差分プライバシーはそのような攻撃に対する既知の解決策であるが、しばしば意味のある保証に変換されない比較的大きなプライバシー予算(epsilon > 8)で使用される。 本稿では,同機構により,従来の文献よりも優れた復元攻撃のプライバシー保証を導出できることを示す。 特に,より大きなプライバシ予算は,メンバシップ推論から保護されるのではなく,稀な秘密の抽出を保護できることを示す。 Wikitext-103で微調整されたGPT-2など,さまざまな言語モデルに対して保証が守られていることを実験的に示す。

Reconstruction attacks allow an adversary to regenerate data samples of the training set using access to only a trained model. It has been recently shown that simple heuristics can reconstruct data samples from language models, making this threat scenario an important aspect of model release. Differential privacy is a known solution to such attacks, but is often used with a relatively large privacy budget (epsilon > 8) which does not translate to meaningful guarantees. In this paper we show that, for a same mechanism, we can derive privacy guarantees for reconstruction attacks that are better than the traditional ones from the literature. In particular, we show that larger privacy budgets do not protect against membership inference, but can still protect extraction of rare secrets. We show experimentally that our guarantees hold against various language models, including GPT-2 finetuned on Wikitext-103.
翻訳日:2022-02-16 13:20:14 公開日:2022-02-15
# エッジの予測:より大型のモデルが優れているかを特定する

Predicting on the Edge: Identifying Where a Larger Model Does Better ( http://arxiv.org/abs/2202.07652v1 )

ライセンス: Link先を確認
Taman Narayan, Heinrich Jiang, Sen Zhao, Sanjiv Kumar(参考訳) 大規模で正確なモデルの構築に多くの努力が注がれているが、どの例が追加の複雑さの恩恵を受けているかを理解することは比較的少ない。 本稿では,個々の事例におけるモデル予測の不確実性と,より大きなモデルが予測を改善する可能性との驚くほど厳密な関係を実証し,解析する。 T5エンコーダ・デコーダアーキテクチャに関する広範な数値研究を通じて,小型モデルが最も不確実な例において,大規模モデルが最も改善されていることを示す。 より特定の例では、小さなモデルが特に正確でない場合でも、大きなモデルは改善できないことが多く、小さなモデルよりもパフォーマンスが悪くなります。 これらの結果から,小モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルが,性能と資源利用の大幅な向上を達成できることが示唆された。 我々はまた、より効果的だが実用的でない委員会ベースの不確実性指標についても検討する。

Much effort has been devoted to making large and more accurate models, but relatively little has been put into understanding which examples are benefiting from the added complexity. In this paper, we demonstrate and analyze the surprisingly tight link between a model's predictive uncertainty on individual examples and the likelihood that larger models will improve prediction on them. Through extensive numerical studies on the T5 encoder-decoder architecture, we show that large models have the largest improvement on examples where the small model is most uncertain. On more certain examples, even those where the small model is not particularly accurate, large models are often unable to improve at all, and can even perform worse than the smaller model. Based on these findings, we show that a switcher model which defers examples to a larger model when a small model is uncertain can achieve striking improvements in performance and resource usage. We also explore committee-based uncertainty metrics that can be more effective but less practical.
翻訳日:2022-02-16 13:19:18 公開日:2022-02-15
# AI計画と自然言語処理の統合:明示的知識と暗黙的知識の組み合わせ

Integrating AI Planning with Natural Language Processing: A Combination of Explicit and Tacit Knowledge ( http://arxiv.org/abs/2202.07138v1 )

ライセンス: Link先を確認
Kebing Jin, Hankz Hankui Zhuo(参考訳) 自動プランニングは戦略に焦点を当て、ドメインモデルを構築し、初期状態を目標に渡すための計画を合成する。 自然言語処理はエージェントと人間の言語との相互作用、特に大量の自然言語データの処理と分析に関係している。 これら2つの分野は、例えば、行動モデルの前提条件や効果といった明示的な知識を生成し、それぞれ、神経モデルのような暗黙の知識から学ぶ能力を持っている。 AI計画と自然言語処理の統合は、人間と知的エージェント間のコミュニケーションを効果的に改善する。 本稿では,ai計画と自然言語処理の共通点と関係を概説し,(1)計画に基づくテキスト理解,(2)計画に基づくテキスト生成,(3)テキストに基づく人間とロボットのインタラクション,(4)テキストベースの説明可能な計画,の4つの分野に効果的に影響を与えることができると主張する。 また、AI計画と自然言語処理の間の潜在的な問題についても検討する。

Automated planning focuses on strategies, building domain models and synthesizing plans to transit initial states to goals. Natural language processing concerns with the interactions between agents and human language, especially processing and analyzing large amounts of natural language data. These two fields have abilities to generate explicit knowledge, e.g., preconditions and effects of action models, and learn from tacit knowledge, e.g., neural models, respectively. Integrating AI planning and natural language processing effectively improves the communication between human and intelligent agents. This paper outlines the commons and relations between AI planning and natural language processing, argues that each of them can effectively impact on the other one by four areas: (1) planning-based text understanding, (2) planning-based text generation, (3) text-based human-robot interaction, and (4) text-based explainable planning. We also explore some potential future issues between AI planning and natural language processing.
翻訳日:2022-02-16 13:17:49 公開日:2022-02-15
# Mask Token Augmentationによる言語間プロンプトの強化

Enhancing Cross-lingual Prompting with Mask Token Augmentation ( http://arxiv.org/abs/2202.07255v1 )

ライセンス: Link先を確認
Meng Zhou, Xin Li, Yue Jiang, Lidong Bing(参考訳) プロンプティングは、数ショットのシナリオで有望な結果を示す。 しかし、多言語/言語間問題に対するその強みは十分に活用されていない。 zhao and sch\"utze (2021) は、この方向の初期調査を行い、言語交叉が言語交叉の微調整を上回ることを示した。 本稿では,言語横断的プロンプトにおける各コンポーネントの効果を実証分析し,言語間のユニバーサル・プロンプトを導出することにより,ソース言語学習とターゲット言語推論の相違を緩和する。 そこで本研究では,プロンプトに基づく言語間転送の性能をさらに向上させるマスクトークン拡張フレームワークを提案する。 特に,XNLIでは,クラスごとの英語学習例は16例のみで46.54%,ファインタニングの34.99%をはるかに上回っている。

Prompting shows promising results in few-shot scenarios. However, its strength for multilingual/cross-l ingual problems has not been fully exploited. Zhao and Sch\"utze (2021) made initial explorations in this direction by presenting that cross-lingual prompting outperforms cross-lingual finetuning. In this paper, we conduct empirical analysis on the effect of each component in cross-lingual prompting and derive Universal Prompting across languages, which helps alleviate the discrepancies between source-language training and target-language inference. Based on this, we propose a mask token augmentation framework to further improve the performance of prompt-based cross-lingual transfer. Notably, for XNLI, our method achieves 46.54% with only 16 English training examples per class, significantly better than 34.99% of finetuning.
翻訳日:2022-02-16 13:17:31 公開日:2022-02-15
# (参考訳) 近傍強化コントラスト学習によるグラフ協調フィルタリングの改善 [全文訳有]

Improving Graph Collaborative Filtering with Neighborhood-enriche d Contrastive Learning ( http://arxiv.org/abs/2202.06200v2 )

ライセンス: CC BY 4.0
Zihan Lin, Changxin Tian, Yupeng Hou and Wayne Xin Zhao(参考訳) 近年,ユーザ・項目間インタラクショングラフをモデル化することにより,アイテムに対するユーザの嗜好を捉えるための効果的な推奨手法としてグラフ協調フィルタリング手法が提案されている。 データ疎度の影響を低減するため、グラフ協調フィルタリングにおいてコントラスト学習を採用して性能を向上させる。 しかし、これらの方法は通常、ランダムサンプリングによってコントラストペアを構築し、ユーザ(またはアイテム)間の隣り合う関係を無視し、コントラスト学習の可能性を十分に活用しない。 上記の課題に対処するために,NCL という,近隣の候補をコントラッシブなペアに明示的に組み込んだ新しいコントラスト学習手法を提案する。 具体的には、ユーザ(またはアイテム)の隣人について、それぞれグラフ構造と意味空間から紹介する。 相互作用グラフ上の構造的隣人に対しては、ユーザ(またはアイテム)とその構造的隣人を正のコントラスト的対とみなす新しい構造的対照的な目的を開発する。 実装では、ユーザ(またはアイテム)と隣人の表現は異なるGNN層の出力に対応する。 さらに, 意味空間における潜在的隣接関係を掘り下げるために, 類似表現を持つ利用者が意味空間内にあることを仮定し, それらの類似関係をプロトタイプ・コントラスト目的に組み込む。 提案したNCLをEMアルゴリズムで最適化し,グラフ協調フィルタリング法に適用するために一般化する。 5つの公開データセットに関する広範囲な実験が提案されているnclの有効性を示している。特にyelpとamazon-bookデータセットの競合グラフ協調フィルタリングベースモデルに対する26%と17%のパフォーマンス向上である。 コードはhttps://github.com/r ucaibox/ncl。

Recently, graph collaborative filtering methods have been proposed as an effective recommendation approach, which can capture users' preference over items by modeling the user-item interaction graphs. In order to reduce the influence of data sparsity, contrastive learning is adopted in graph collaborative filtering for enhancing the performance. However, these methods typically construct the contrastive pairs by random sampling, which neglect the neighboring relations among users (or items) and fail to fully exploit the potential of contrastive learning for recommendation. To tackle the above issue, we propose a novel contrastive learning approach, named Neighborhood-enriche d Contrastive Learning, named NCL, which explicitly incorporates the potential neighbors into contrastive pairs. Specifically, we introduce the neighbors of a user (or an item) from graph structure and semantic space respectively. For the structural neighbors on the interaction graph, we develop a novel structure-contrastiv e objective that regards users (or items) and their structural neighbors as positive contrastive pairs. In implementation, the representations of users (or items) and neighbors correspond to the outputs of different GNN layers. Furthermore, to excavate the potential neighbor relation in semantic space, we assume that users with similar representations are within the semantic neighborhood, and incorporate these semantic neighbors into the prototype-contrastiv e objective. The proposed NCL can be optimized with EM algorithm and generalized to apply to graph collaborative filtering methods. Extensive experiments on five public datasets demonstrate the effectiveness of the proposed NCL, notably with 26% and 17% performance gain over a competitive graph collaborative filtering base model on the Yelp and Amazon-book datasets respectively. Our code is available at: https://github.com/R UCAIBox/NCL.
翻訳日:2022-02-16 12:14:26 公開日:2022-02-15
# (参考訳) ロボットスキルの実証による連続学習 [全文訳有]

Continual Learning from Demonstration of Robotic Skills ( http://arxiv.org/abs/2202.06843v2 )

ライセンス: CC BY 4.0
Sayantan Auddy, Jakob Hollenstein, Matteo Saveriano, Antonio Rodr\'iguez-S\'anchez and Justus Piater(参考訳) ロボットにモーションスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。 デモから学べるロボットは、過去の知識を忘れずに新しい動きを学べることの恩恵を受けることができる。 そこで本研究では,ハイパーネットワークとニューラル常微分方程式解法を用いた実演からの連続学習手法を提案する。 我々は,過去のデータを保存することなく,軌道学習タスクの長いシーケンスを記憶する手法の有効性を実証的に実証する。 実験の結果,ハイパーネットワークは,他の最先端の正規化に基づく連続学習手法よりも優れていた。 実験では、人気のあるLASAトラジェクトリベンチマークと、この論文で紹介したHelloWorldデータセットで紹介した新しい審美的デモンストレーションデータセットを使用しました。 我々は,軌跡誤差メトリクスと連続学習メトリクスの両方を用いてアプローチを評価し,新しい連続学習メトリクスを2つ提案する。 私たちのコードは、新たに収集したデータセットとともに、https://github.com/s ayantanauddy/clfdで利用可能です。

Methods for teaching motion skills to robots focus on training for a single skill at a time. Robots capable of learning from demonstration can considerably benefit from the added ability to learn new movements without forgetting past knowledge. To this end, we propose an approach for continual learning from demonstration using hypernetworks and neural ordinary differential equation solvers. We empirically demonstrate the effectiveness of our approach in remembering long sequences of trajectory learning tasks without the need to store any data from past demonstrations. Our results show that hypernetworks outperform other state-of-the-art regularization-based continual learning approaches for learning from demonstration. In our experiments, we use the popular LASA trajectory benchmark, and a new dataset of kinesthetic demonstrations that we introduce in this paper called the HelloWorld dataset. We evaluate our approach using both trajectory error metrics and continual learning metrics, and we propose two new continual learning metrics. Our code, along with the newly collected dataset, is available at https://github.com/s ayantanauddy/clfd.
翻訳日:2022-02-16 11:55:32 公開日:2022-02-15
# リカレントネットワークを用いたエンドツーエンドアルゴリズム合成:再考せずに論理的外挿

End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking ( http://arxiv.org/abs/2202.05826v2 )

ライセンス: Link先を確認
Arpit Bansal, Avi Schwarzschild, Eitan Borgnia, Zeyad Emam, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) 機械学習システムはパターンマッチングタスクでよく機能するが、アルゴリズム的あるいは論理的推論を行う能力はよく理解されていない。 1つの重要な推論能力は論理補間であり、小さな/単純な推論問題にのみ訓練されたモデルは、テスト時に大規模/複雑な問題までスケールアップする複雑なアルゴリズムを合成できる。 論理的な外挿は反復システムによって達成でき、難しい推論問題を解決するために何度も反復することができる。 このアプローチは、多くのイテレーションが適用されると振る舞いが縮退するため、非常に複雑な問題にスケールできないことを観察します。 本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。 また、反復数に固有の振る舞いをモデルが学習するのを防ぎ、無期限に繰り返しられる振る舞いを学習するためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。 これらのイノベーションは、過度に考え抜かれた問題を防ぎ、リカレントシステムは、過度にハードな論理的補間タスクを解くことができる。

Machine learning systems perform well on pattern matching tasks, but their ability to perform algorithmic or logical reasoning is not well understood. One important reasoning capability is logical extrapolation, in which models trained only on small/simple reasoning problems can synthesize complex algorithms that scale up to large/complex problems at test time. Logical extrapolation can be achieved through recurrent systems, which can be iterated many times to solve difficult reasoning problems. We observe that this approach fails to scale to highly complex problems because behavior degenerates when many iterations are applied -- an issue we refer to as "overthinking." We propose a recall architecture that keeps an explicit copy of the problem instance in memory so that it cannot be forgotten. We also employ a progressive training routine that prevents the model from learning behaviors that are specific to iteration number and instead pushes it to learn behaviors that can be repeated indefinitely. These innovations prevent the overthinking problem, and enable recurrent systems to solve extremely hard logical extrapolation tasks, some requiring over 100K convolutional layers, without overthinking.
翻訳日:2022-02-16 11:39:07 公開日:2022-02-15
# ADeADA: セマンティックセグメンテーションのための適応密度認識型アクティブドメイン適応

ADeADA: Adaptive Density-aware Active Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2202.06484v2 )

ライセンス: Link先を確認
Tsung-Han Wu, Yi-Syuan Liou, Shao-Ji Yuan, Hsin-Ying Lee, Tung-I Chen, Winston H. Hsu(参考訳) ドメイン適応の分野では、モデルパフォーマンスとターゲットドメインアノテーションの数の間にトレードオフが存在する。 アクティブラーニング(Active Learning)は、情報付きデータの少ないモデルパフォーマンスを最大化することで、このようなシナリオに役立ちます。 本稿では,セマンティックセグメンテーションのための一般的なアクティブドメイン適応フレームワークであるADeADAについて述べる。 最小限のクエリ済みラベルで対象ドメインにモデルを適応させるため,既存のソースドメインのラベル付きデータと相補的に,ターゲットドメインの確率密度が高いがソースドメインの確率密度が低いサンプルのラベルを取得することを提案する。 ラベル効率をさらに高めるために,異なるカテゴリ間のラベリング予算と,密度認識手法と不確実性に基づく手法を動的にバランスさせる適応予算配分ポリシーを設計する。 gta5 -> cityscapes と synthia -> cityscapes の2つのベンチマークにおいて,本手法が既存のアクティブラーニングおよびドメイン適応ベースラインを上回ることを示す。 対象とするドメインアノテーションが5%未満の場合,本手法は全監視対象と同等の結果となる。

In the field of domain adaptation, a trade-off exists between the model performance and the number of target domain annotations. Active learning, maximizing model performance with few informative labeled data, comes in handy for such a scenario. In this work, we present ADeADA, a general active domain adaptation framework for semantic segmentation. To adapt the model to the target domain with minimum queried labels, we propose acquiring labels of the samples with high probability density in the target domain yet with low probability density in the source domain, complementary to the existing source domain labeled data. To further facilitate the label efficiency, we design an adaptive budget allocation policy, which dynamically balances the labeling budgets among different categories as well as between density-aware and uncertainty-based methods. Extensive experiments show that our method outperforms existing active learning and domain adaptation baselines on two benchmarks, GTA5 -> Cityscapes and SYNTHIA -> Cityscapes. With less than 5% target domain annotations, our method reaches comparable results with that of full supervision.
翻訳日:2022-02-16 11:38:44 公開日:2022-02-15
# 小型物体検出のためのスライシング支援ハイパー推論と微調整

Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection ( http://arxiv.org/abs/2202.06934v2 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Sinan Onur Altinuc, Alptekin Temizel(参考訳) 現場から遠く離れた小さな物体や物体を検知することは、監視アプリケーションにおいて大きな課題である。 このような物体は、画像中の少数のピクセルで表現され、十分な詳細が欠如しているため、従来の検出器を用いた検出が困難である。 本稿では,スライス支援ハイパー推論(slicing aided hyper inference, sahi)と呼ばれるオープンソースのフレームワークを提案する。 提案手法は,任意の物体検出器上で,微調整をすることなく適用できるという意味では一般的である。 Visdrone と xView の空中物体検出データセットのオブジェクト検出ベースラインを用いた実験的評価により,提案手法は,FCOS , VFNet および TOOD 検出器でそれぞれ6.8%,5.1%,5.3% のオブジェクト検出APを増大させることができることが示された。 さらに、スライシング支援による微調整により検出精度がさらに向上し、合計12.7%、13.4%、14.5%APが同じ順序で増加する。 Detectron2、MMDetection、YOLOv5モデルに統合され、https://github.com/o bss/sahi.gitで公開されている。

Detection of small objects and objects far away in the scene is a major challenge in surveillance applications. Such objects are represented by small number of pixels in the image and lack sufficient details, making them difficult to detect using conventional detectors. In this work, an open-source framework called Slicing Aided Hyper Inference (SAHI) is proposed that provides a generic slicing aided inference and fine-tuning pipeline for small object detection. The proposed technique is generic in the sense that it can be applied on top of any available object detector without any fine-tuning. Experimental evaluations, using object detection baselines on the Visdrone and xView aerial object detection datasets show that the proposed inference method can increase object detection AP by 6.8%, 5.1% and 5.3% for FCOS, VFNet and TOOD detectors, respectively. Moreover, the detection accuracy can be further increased with a slicing aided fine-tuning, resulting in a cumulative increase of 12.7%, 13.4% and 14.5% AP in the same order. Proposed technique has been integrated with Detectron2, MMDetection and YOLOv5 models and it is publicly available at https://github.com/o bss/sahi.git .
翻訳日:2022-02-16 11:38:25 公開日:2022-02-15
# 模範者が導いた横顔の塗り絵

Diverse facial inpainting guided by exemplars ( http://arxiv.org/abs/2202.06358v2 )

ライセンス: Link先を確認
Wanglong Lu, Hanli Zhao, Xianta Jiang, Xiaogang Jin, Min Wang, Jiankai Lyu, and Kaijie Shi(参考訳) 顔画像インペインティングは、顔画像の欠落やマスクされたピクセルに対する視覚的で意味的に意味のあるコンテンツを埋めるタスクである。 既存の手法は高い視覚品質を達成するために大きな進歩を遂げているが、顔画像の着色の制御可能な多様性はこの分野では未解決の問題である。 本稿では,画像全体の高品質な視覚効果を保ちつつ,顔像を模範的な顔属性で仕上げることのできる,多彩でインタラクティブな顔インペイントフレームワークEXE-GANを紹介する。 提案手法は, 入力画像のグローバルなスタイル, 確率的スタイル, 模範画像の模範的スタイルを活用することで, 生成的対向ネットワークに基づく顔の塗装を実現する。 ネットワークが顔属性のスタイルを自己監督的に学習できるように,新たな属性類似度指標が導入された。 塗装領域の境界を越える自然遷移を保証するために,空間位置に基づいて損失勾配を調整する新しい空間変動勾配バックプロパゲーション手法が考案された。 CelebA-HQとFFHQのデータセットに対する様々な実験結果と比較を行い、顔の塗布における品質と多様性の両面で提案手法の優位性を実証した。

Facial image inpainting is a task of filling visually realistic and semantically meaningful contents for missing or masked pixels in a face image. Although existing methods have made significant progress in achieving high visual quality, the controllable diversity of facial image inpainting remains an open problem in this field. This paper introduces EXE-GAN, a novel diverse and interactive facial inpainting framework, which can not only preserve the high-quality visual effect of the whole image but also complete the face image with exemplar-like facial attributes. The proposed facial inpainting is achieved based on generative adversarial networks by leveraging the global style of input image, the stochastic style, and the exemplar style of exemplar image. A novel attribute similarity metric is introduced to encourage networks to learn the style of facial attributes from the exemplar in a self-supervised way. To guarantee the natural transition across the boundary of inpainted regions, a novel spatial variant gradient backpropagation technique is designed to adjust the loss gradients based on the spatial location. A variety of experimental results and comparisons on public CelebA-HQ and FFHQ datasets are presented to demonstrate the superiority of the proposed method in terms of both the quality and diversity in facial inpainting.
翻訳日:2022-02-16 11:37:59 公開日:2022-02-15
# BiFSMN: キーワードスポッティングのためのバイナリニューラルネットワーク

BiFSMN: Binary Neural Network for Keyword Spotting ( http://arxiv.org/abs/2202.06483v2 )

ライセンス: Link先を確認
Haotong Qin, Xudong Ma, Yifu Ding, Xiaoyang Li, Yang Zhang, Yao Tian, Zejun Ma, Jie Luo, Xianglong Liu(参考訳) Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。 しかしながら、これらのネットワークの計算リソースは、通常はエッジデバイス上でオンコールされるため、かなり制約がある。 本稿では,KWSのための高精度かつ極効率なバイナリニューラルネットワークであるBiFSMNを提案する。 まず,二元化学習のための高頻度増感蒸留スキームを構築し,二元化ネットワークの最適化においてより重要である全精度ネットワーク表現からの高周波情報を強調した。 そして,実行時の即時かつ適応的な精度・効率のトレードオフを可能にするため,トポロジの観点から二項化ネットワークの加速度ポテンシャルをさらに解放する薄型二項化アーキテクチャを提案する。 さらに、ARMv8デバイス上でBiFSMN用のFast Bitwise Computation Kernelを実装し、レジスタを完全に活用し、命令スループットを高め、デプロイメント効率の限界を押し上げる。 大規模な実験により、BiFSMNは様々なデータセットのマージンを説得することで既存のバイナライズ手法よりも優れており、完全な精度(音声コマンドV1-12では3%未満)に匹敵することを示している。 薄型アーキテクチャと最適化された1ビット実装の利点により、BiFSMNは22.3倍のスピードアップと15.5倍のストレージ節約を実現できる。

The deep neural networks, such as the Deep-FSMN, have been widely studied for keyword spotting (KWS) applications. However, computational resources for these networks are significantly constrained since they usually run on-call on edge devices. In this paper, we present BiFSMN, an accurate and extreme-efficient binary neural network for KWS. We first construct a High-frequency Enhancement Distillation scheme for the binarization-aware training, which emphasizes the high-frequency information from the full-precision network's representation that is more crucial for the optimization of the binarized network. Then, to allow the instant and adaptive accuracy-efficiency trade-offs at runtime, we also propose a Thinnable Binarization Architecture to further liberate the acceleration potential of the binarized network from the topology perspective. Moreover, we implement a Fast Bitwise Computation Kernel for BiFSMN on ARMv8 devices which fully utilizes registers and increases instruction throughput to push the limit of deployment efficiency. Extensive experiments show that BiFSMN outperforms existing binarization methods by convincing margins on various datasets and is even comparable with the full-precision counterpart (e.g., less than 3% drop on Speech Commands V1-12). We highlight that benefiting from the thinnable architecture and the optimized 1-bit implementation, BiFSMN can achieve an impressive 22.3x speedup and 15.5x storage-saving on real-world edge hardware.
翻訳日:2022-02-16 11:37:37 公開日:2022-02-15
# ラベル補正による遅延フィードバックモデリングの漸近的非バイアス推定

Asymptotically Unbiased Estimation for Delayed Feedback Modeling via Label Correction ( http://arxiv.org/abs/2202.06472v2 )

ライセンス: Link先を確認
Yu Chen, Jiaqi Jin, Hui Zhao, Pengjie Wang, Guojun Liu, Jian Xu and Bo Zheng(参考訳) 遅延したフィードバック問題を緩和することは、オンライン広告における変換率(CVR)予測において重要である。 正確なラベル待ちと新鮮なフィードバックのトレードオフのバランスをとるためにオブザーバーウィンドウを用いた以前の遅延フィードバックモデリング手法。 さらに, 偽陰性分布を用いてCVRを推定するためには, 分布バイアスを低減するために重要サンプリングが広く用いられている。 効果はあるものの, 従来の手法では偽陰性標本を重み付けにおいて真陰性扱いし, 検出された正のサンプルを十分に活用していないため, 準最適性能が得られた。 本研究では,非バイアス推定を用いた遅延フィードバックモデル (DEFUSE) を提案する。これは, 即効性, 偽陰性, 実陰性, 遅延正の重み付けを, より微細な粒度でそれぞれ補正することを目的としている。 具体的には、まず、重要サンプリングを適用する前に、観測された負の偽陰性の確率を推定する2段階最適化手法を提案する。 観測された分布から地中即応を十分に活用するために、偏りのない即応と偏りのある遅延変換を共同でモデル化する二分散モデリングフレームワークを更に開発する。 公立および工業用両方のデータセットの実験結果から,DEFUSEの優位性を検証した。 コードはhttps://github.com/y chen216/defuse.gitで入手できる。

Alleviating the delayed feedback problem is of crucial importance for the conversion rate(CVR) prediction in online advertising. Previous delayed feedback modeling methods using an observation window to balance the trade-off between waiting for accurate labels and consuming fresh feedback. Moreover, to estimate CVR upon the freshly observed but biased distribution with fake negatives, the importance sampling is widely used to reduce the distribution bias. While effective, we argue that previous approaches falsely treat fake negative samples as real negative during the importance weighting and have not fully utilized the observed positive samples, leading to suboptimal performance. In this work, we propose a new method, DElayed Feedback modeling with UnbiaSed Estimation, (DEFUSE), which aim to respectively correct the importance weights of the immediate positive, the fake negative, the real negative, and the delay positive samples at finer granularity. Specifically, we propose a two-step optimization approach that first infers the probability of fake negatives among observed negatives before applying importance sampling. To fully exploit the ground-truth immediate positives from the observed distribution, we further develop a bi-distribution modeling framework to jointly model the unbiased immediate positives and the biased delay conversions. Experimental results on both public and our industrial datasets validate the superiority of DEFUSE. Codes are available at https://github.com/y chen216/DEFUSE.git.
翻訳日:2022-02-16 11:37:13 公開日:2022-02-15
# 高次元固有ソルバーのスケーリング深度学習のための物理誘導問題分解法 : Schr\"{o}dinger 方程式の場合

Physics-Guided Problem Decomposition for Scaling Deep Learning of High-dimensional Eigen-Solvers: The Case of Schr\"{o}dinger's Equation ( http://arxiv.org/abs/2202.05994v2 )

ライセンス: Link先を確認
Sangeeta Srivastava, Samuel Olin, Viktor Podolskiy, Anuj Karpatne, Wei-Cheng Lee, Anish Arora(参考訳) 非線形マッピングを効果的に学習し、高速な推論を行う能力から、ディープニューラルネットワーク(NN)は、多くの科学的応用の基礎となる高次元固有値方程式(HDE)を解くための従来のシミュレーション駆動アプローチの代替手段として提案されている。 残念ながら、これらの科学的応用における学習モデルが一般化を達成するためには、大きく、多様で、好ましくは注釈付きデータセットが必要である。 さらに、学習したモデルは、主に出力層のサイズのため、メモリと計算集約性が高い傾向にある。 一般化、特に外挿は物理損失の形で物理的制約を課すことによって試みられているが、モデルのスケーラビリティの問題はまだ残っている。 本稿では,物理知識を用いて高次元固有ベクトルを複数の単純なサブタスクに予測する複雑な回帰タスクを分解することで,出力層の計算ボトルネックを軽減し,それぞれを単純な「専門家」ネットワークで学習する。 我々は、特殊専門家による物理誘導混合専門家(pg-moe)のアーキテクチャと呼ぶ。 量子力学におけるschr\"{o}dinger方程式の場合には,そのような物理誘導問題分解の有効性を示す。 提案したPG-MoEモデルは基底状態解,すなわち最小の固有値に対応する固有ベクトルを予測する。 モデルは、一般化の競争力を維持しながら複雑なタスクを学習するために訓練されたネットワークよりも150倍小さい。 また、PG-MoEの一般化を改善するために、変動エネルギーに基づく物理誘導損失関数を用い、量子力学の原理により、出力は基底状態解である。

Given their ability to effectively learn non-linear mappings and perform fast inference, deep neural networks (NNs) have been proposed as a viable alternative to traditional simulation-driven approaches for solving high-dimensional eigenvalue equations (HDEs), which are the foundation for many scientific applications. Unfortunately, for the learned models in these scientific applications to achieve generalization, a large, diverse, and preferably annotated dataset is typically needed and is computationally expensive to obtain. Furthermore, the learned models tend to be memory- and compute-intensive primarily due to the size of the output layer. While generalization, especially extrapolation, with scarce data has been attempted by imposing physical constraints in the form of physics loss, the problem of model scalability has remained. In this paper, we alleviate the compute bottleneck in the output layer by using physics knowledge to decompose the complex regression task of predicting the high-dimensional eigenvectors into multiple simpler sub-tasks, each of which are learned by a simple "expert" network. We call the resulting architecture of specialized experts Physics-Guided Mixture-of-Experts (PG-MoE). We demonstrate the efficacy of such physics-guided problem decomposition for the case of the Schr\"{o}dinger's Equation in Quantum Mechanics. Our proposed PG-MoE model predicts the ground-state solution, i.e., the eigenvector that corresponds to the smallest possible eigenvalue. The model is 150x smaller than the network trained to learn the complex task while being competitive in generalization. To improve the generalization of the PG-MoE, we also employ a physics-guided loss function based on variational energy, which by quantum mechanics principles is minimized iff the output is the ground-state solution.
翻訳日:2022-02-16 11:35:22 公開日:2022-02-15
# 自己接触に基づく偽スパン発見による部分的偽音声検出

Partially Fake Audio Detection by Self-attention-based Fake Span Discovery ( http://arxiv.org/abs/2202.06684v2 )

ライセンス: Link先を確認
Haibin Wu, Heng-Cheng Kuo, Naijun Zheng, Kuo-Hsuan Hung, Hung-Yi Lee, Yu Tsao, Hsin-Min Wang, Helen Meng(参考訳) 過去数年間、音声合成と音声変換技術の著しい進歩が目撃されてきた。 しかし、このような技術は広く実装された生体認証モデルの頑健さを損なう可能性があり、野生の攻撃者が違法に利用するために利用できる。 asvspoofチャレンジは主に音声合成と音声変換モデルによる合成音声とリプレイアタックに焦点を当てている。 最近、最初のAudio Deep Synthesis Detection Challenge (ADD 2022) が攻撃シナリオをさらに多くの側面に拡張した。 また、ADD 2022は、部分的に偽の音声検出タスクを提案する最初の挑戦である。 このような真新しい攻撃は危険であり、どのように攻撃に取り組むかは依然として疑問である。 そこで本研究では,疑似音声検出のための自己照査機構を備えた質問応答(フェイクスパン発見)戦略を導入することにより,新たな枠組みを提案する。 提案した偽スパン検出モジュールは、アンチスプーフィングモデルをタスクし、部分的に偽オーディオ内の偽クリップの開始位置と終了位置を予測し、一般化の少ない他のショートカットよりも偽スパンの発見にモデルの注意を向け、最終的に実オーディオと部分的に偽オーディオの識別能力を備えたモデルに装備する。 ADD 2022の部分的に偽の音声検出トラックで2位にランクインした。

The past few years have witnessed the significant advances of speech synthesis and voice conversion technologies. However, such technologies can undermine the robustness of broadly implemented biometric identification models and can be harnessed by in-the-wild attackers for illegal uses. The ASVspoof challenge mainly focuses on synthesized audios by advanced speech synthesis and voice conversion models, and replay attacks. Recently, the first Audio Deep Synthesis Detection challenge (ADD 2022) extends the attack scenarios into more aspects. Also ADD 2022 is the first challenge to propose the partially fake audio detection task. Such brand new attacks are dangerous and how to tackle such attacks remains an open question. Thus, we propose a novel framework by introducing the question-answering (fake span discovery) strategy with the self-attention mechanism to detect partially fake audios. The proposed fake span detection module tasks the anti-spoofing model to predict the start and end positions of the fake clip within the partially fake audio, address the model's attention into discovering the fake spans rather than other shortcuts with less generalization, and finally equips the model with the discrimination capacity between real and partially fake audios. Our submission ranked second in the partially fake audio detection track of ADD 2022.
翻訳日:2022-02-16 11:34:51 公開日:2022-02-15