このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220605となっている論文です。

PDF登録状況(公開日: 20220605)

TitleAuthorsAbstract論文公表日・翻訳日
# 動的に制約が変化するKnapsack問題に対する単目的・多目的進化アルゴリズム

Single- and Multi-Objective Evolutionary Algorithms for the Knapsack Problem with Dynamically Changing Constraints ( http://arxiv.org/abs/2004.12574v2 )

ライセンス: Link先を確認
Vahid Roostapour, Aneta Neumann, Frank Neumann(参考訳) 進化的アルゴリズムは、環境の変化に容易に適応できるバイオインスパイアされたアルゴリズムである。 実行時解析の分野での最近の結果は、(1+1)~EAやGlobal SEMOのようなアルゴリズムが動的一様制約の下で線形関数を効率的に再最適化できることを指摘している。 本研究では,knapsackの容量が時間とともに変化する古典的knapsack問題に対する,単目的および多目的のベースライン進化アルゴリズムについて検討した。 キャパシティが均一あるいは正規分布に応じて$\tau$イテレーション毎に変化する、さまざまなベンチマークシナリオを確立します。 実験では,選択した分布のパラメータによって決定される変化の大きさ,$\tau$で決定される周波数,検討中のknapsackインスタンスのクラスを用いて,アルゴリズムの挙動を解析した。 その結果,動的変化に対応する集団を用いた多目的アプローチは,変化頻度があまり高くない場合,多くのベンチマークシナリオにおいて明らかに有利であることがわかった。 さらに、nsga-iiやspea2のような一般的な進化的多目的アルゴリズムで使用される多様性メカニズムは必ずしも優れた性能をもたらすものではなく、単純な多目的アプローチに比べて劣る結果をもたらすことも示している。

Evolutionary algorithms are bio-inspired algorithms that can easily adapt to changing environments. Recent results in the area of runtime analysis have pointed out that algorithms such as the (1+1)~EA and Global SEMO can efficiently reoptimize linear functions under a dynamic uniform constraint. Motivated by this study, we investigate single- and multi-objective baseline evolutionary algorithms for the classical knapsack problem where the capacity of the knapsack varies over time. We establish different benchmark scenarios where the capacity changes every $\tau$ iterations according to a uniform or normal distribution. Our experimental investigations analyze the behavior of our algorithms in terms of the magnitude of changes determined by parameters of the chosen distribution, the frequency determined by $\tau$, and the class of knapsack instance under consideration. Our results show that the multi-objective approaches using a population that caters for dynamic changes have a clear advantage on many benchmarks scenarios when the frequency of changes is not too high. Furthermore, we demonstrate that the diversity mechanisms used in popular evolutionary multi-objective algorithms such as NSGA-II and SPEA2 do not necessarily result in better performance and even lead to inferior results compared to our simple multi-objective approaches.
翻訳日:2022-12-09 04:46:11 公開日:2022-06-05
# 拘束質量最適輸送

Constrained Mass Optimal Transport ( http://arxiv.org/abs/2206.13352v1 )

ライセンス: Link先を確認
Said Kerrache and Yasushi Nakauchi(参考訳) 最適物質輸送(英: Optimal mass transport、または Earth mover's problem)は、経済学、確率論、流体力学、宇宙論、地球物理学など、様々な分野において重要な応用の最適化問題である。 最適なトランスポートはまた、画像登録、コンテンツベースの画像検索、より一般的にはパターン認識や機械学習において、データ間の相似性を測定する手段として成功している。 本稿では,制約付き最適輸送の問題を紹介する。 時間依存性の定式化は、より正確には、流体力学のアプローチを、密度と運動量場にソフト制約を課すか、あるいは所定の条件を満たす曲線のサブセットに制限することにより、制約された問題を定義する出発点として用いる。 特殊の場合としてユークリッド空間の閉凸部分集合上の最適輸送を凸に制限した制約付き鞍点問題のクラスを解くためにアルゴリズムのファミリーが導入された。 収束証明と数値結果が提示される。

Optimal mass transport, also known as the earth mover's problem, is an optimization problem with important applications in various disciplines, including economics, probability theory, fluid dynamics, cosmology and geophysics to cite a few. Optimal transport has also found successful applications in image registration, content-based image retrieval, and more generally in pattern recognition and machine learning as a way to measure dissimilarity among data. This paper introduces the problem of constrained optimal transport. The time-dependent formulation, more precisely, the fluid dynamics approach is used as a starting point from which the constrained problem is defined by imposing a soft constraint on the density and momentum fields or restricting them to a subset of curves that satisfy some prescribed conditions. A family of algorithms is introduced to solve a class of constrained saddle point problems, which has convexly constrained optimal transport on closed convex subsets of the Euclidean space as a special case. Convergence proofs and numerical results are presented.
翻訳日:2022-07-04 01:45:20 公開日:2022-06-05
# (参考訳) 暗黙言語q学習による自然言語生成のためのオフラインrl

Offline RL for Natural Language Generation with Implicit Language Q Learning ( http://arxiv.org/abs/2206.11871v1 )

ライセンス: CC BY 4.0
Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, Sergey Levine(参考訳) 大規模言語モデルはテキストコーパスから幅広い知識を抽出する。 しかし、ユーザー特定タスクの完了に関しては一貫性がない場合がある。 この問題は、キュレートされたデータセットの教師あり学習や強化学習を通じて、これらのモデルを微調整することで対処できる。 本研究では,従来のRLアルゴリズムの柔軟なユーティリティ最適化フレームワークと,既存のデータを活用する教師あり学習能力と,そのシンプルさと安定性を組み合わせた,新しいオフラインRLモチベーション手法である暗黙的言語Q-ラーニング(ILQL)を提案する。 動的プログラミングをベースとした本手法では,学習価値関数における暗黙的データセットサポート制約と並行して,値保存性のブレンドを用いて,言語モデル生成を実用性最大化に向けて導く。 ILQLの実証的検証に加えて、オフラインRLが自然言語生成設定において有用である場合の詳細な実証分析を行い、従来のエンドツーエンド対話のアプローチよりも効果的なユーティリティオプティマイザになり得るか、また、コメントを有害な音声の例としてラベル付けするかどうかなどの主観的判断に基づいて、高分散報酬関数を効果的に最適化できるかを示す。

Large language models distill broad knowledge from text corpora. However, they can be inconsistent when it comes to completing user specified tasks. This issue can be addressed by finetuning such models via supervised learning on curated datasets, or via reinforcement learning. In this work, we propose a novel offline RL motivated method, implicit language Q-learning (ILQL), designed for use on language models, that combines both the flexible utility optimization framework of traditional RL algorithms with supervised learning's ability to leverage existing data and its simplicity and stability. Our method, based on dynamic programming, employs a blend of value conservatism alongside an implicit dataset support constraint in learning value functions, which are then used to guide language model generations towards maximizing utility. In addition to empirically validating ILQL, we present a detailed empirical analysis of situations where offline RL can be useful in natural language generation settings, demonstrating how it can be a more effective utility optimizer than prior approaches for end-to-end dialogue, and how it can effectively optimize high variance reward functions based on subjective judgement, such as whether to label a comment as an example of toxic speech or not.
翻訳日:2022-06-27 02:51:39 公開日:2022-06-05
# チャット,シフト,パフォーマンス:タスク指向と非タスク指向の対話システム間のギャップを埋める

Chat, Shift and Perform: Bridging the Gap between Task-oriented and Non-task-oriented Dialog Systems ( http://arxiv.org/abs/2206.11813v1 )

ライセンス: Link先を確認
Teppei Yoshino, Yosuke Fukuchi, Shoya Matsumori, Michita Imai(参考訳) 本研究では,チャット,シフト,実行という3種類の対話モデルからなる新しい対話システムであるcasper (chat, shift and perform)を提案する。 Shifterはトピック切り替え用に設計されており、オープンドメインチャットからタスク指向ダイアログへのシームレスなダイアログフローを可能にする。 ユーザスタディにおいて、CASPERは、エンドツーエンドで訓練されたベースラインダイアログシステムと比較して、応答の自然性、強制的なトピック切り替えの欠如、満足度について、より良い印象を与えた。 アブレーション研究において,シフターがキャスパーから削除された時と比較して,応答の自然性,対話満足度,タスクエレクテーション率が改善し,シフターとのトピックシフトが自然なタスク指向ダイアログの導入をサポートすることが示唆された。

We propose CASPER (ChAt, Shift and PERform), a novel dialog system consisting of three types of dialog models: chatter, shifter, and performer. Shifter, which is designed for topic switching, enables a seamless flow of dialog from open-domain chat- to task-oriented dialog. In a user study, CASPER gave a better impression in terms of naturalness of response, lack of forced topic switching, and satisfaction compared with a baseline dialog system trained in an end-to-end manner. In an ablation study, we found that naturalness of response, dialog satisfaction, and task-elicitation rate improved compared with when shifter was removed from CASPER, indicating that topic shift with shifter supports the introduction of natural task-oriented dialog.
翻訳日:2022-06-26 12:16:11 公開日:2022-06-05
# (参考訳) シーケンス最適化のためのバンド理論とトンプソンサンプリング誘導進化

Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization ( http://arxiv.org/abs/2206.02092v1 )

ライセンス: CC BY 4.0
Hui Yuan, Chengzhuo Ni, Huazheng Wang, Xuezhou Zhang, Le Cong, Csaba Szepesv\'ari, Mengdi Wang(参考訳) 1960年代に始まった画期的な湿床法であるdirected evolution (de)は、候補配列の集団を進化させることで、新しいタンパク質の設計を発見できる。 近年のバイオテクノロジーの進歩により、高スループットデータの収集が可能となり、機械学習を用いてタンパク質の配列と機能の関係をマッピングできるようになった。 タンパク質最適化を加速するための機械学習支援deへの関心が高まっている。 しかし、deの理論的な理解と、deでの機械学習の使用は、まだ限られている。 本稿では,deをバンディット学習理論と結びつけ,deにおける後悔の最小化を研究する最初の試みを行う。 本稿では,シーケンス・トゥ・ファンクション・マッピングが未知であり,単一値のクエリがコストが高くノイズの多い測定対象となるシーケンス最適化のためのトンプソンサンプリング誘導指向進化(TS-DE)フレームワークを提案する。 TS-DEは収集された測定値に基づいて関数の後方を更新する。 DEのクロスオーバー組換えと突然変異ステップを導くのに、後方サンプリング関数推定を用いる。 線形モデルの場合、TS-DE は$\tilde O(d^{2}\sqrt{MT})$, $d$ is feature dimension, $M$ is population size, $T$ is number of rounds のベイズ的後悔を楽しむ。 この後悔のバウンドはほぼ最適であり、バンディット学習は確実にdeを加速することができる。 より一般的なシーケンス最適化や進化的アルゴリズムに影響を及ぼす可能性がある。

Directed Evolution (DE), a landmark wet-lab method originated in 1960s, enables discovery of novel protein designs via evolving a population of candidate sequences. Recent advances in biotechnology has made it possible to collect high-throughput data, allowing the use of machine learning to map out a protein's sequence-to-function relation. There is a growing interest in machine learning-assisted DE for accelerating protein optimization. Yet the theoretical understanding of DE, as well as the use of machine learning in DE, remains limited. In this paper, we connect DE with the bandit learning theory and make a first attempt to study regret minimization in DE. We propose a Thompson Sampling-guided Directed Evolution (TS-DE) framework for sequence optimization, where the sequence-to-function mapping is unknown and querying a single value is subject to costly and noisy measurements. TS-DE updates a posterior of the function based on collected measurements. It uses a posterior-sampled function estimate to guide the crossover recombination and mutation steps in DE. In the case of a linear model, we show that TS-DE enjoys a Bayesian regret of order $\tilde O(d^{2}\sqrt{MT})$, where $d$ is feature dimension, $M$ is population size and $T$ is number of rounds. This regret bound is nearly optimal, confirming that bandit learning can provably accelerate DE. It may have implications for more general sequence optimization and evolutionary algorithms.
翻訳日:2022-06-11 12:24:50 公開日:2022-06-05
# (参考訳) Connectome機能を使ってEcho状態ネットワークを制限

Using Connectome Features to Constrain Echo State Networks ( http://arxiv.org/abs/2206.02094v1 )

ライセンス: CC BY 4.0
Jacob Morra, Mark Daley(参考訳) 動的システムの1次元時系列予測においてすでに競合性能を達成している従来のEcho State Network(ESN)の改良について報告する。 我々のモデル – フルーツフライコネクトーム(およびブートストラップ分布)由来の貯水量を持つ20$\%$-dense ESN – は、カオス時系列予測タスクにおいて優れた性能を示し、さらに、ESNの高分散問題を緩和する。 また, 重みの任意の位置決めはesnの性能とばらつきを低下させ, 特にコネクトーム由来の重み付けを用いることで改善できることがわかった。 ここでは,重みのスパーシティ,ポジショニング,分散,クラスタリングという4つのコネクトーム機能を検討し,適切なヌルモデルesnから対応するモデルクラス(a,b,b${}_2$,c)を構築する。 関係するハイパーパラメータをチューニングし,各モデルクラスの最良のインスタンスを選択すると,Mackey-Glassカオス時系列のサイズ変化(50,250,500,750のトレーニング入力ステップ)を多段階で予測するモデルを訓練し,その性能(平均二乗誤差)と列車価試験間の分散を計算する。

We report an improvement to the conventional Echo State Network (ESN), which already achieves competitive performance in one-dimensional time series prediction of dynamical systems. Our model -- a 20$\%$-dense ESN with reservoir weights derived from a fruit fly connectome (and from its bootstrapped distribution) -- yields superior performance on a chaotic time series prediction task, and furthermore alleviates the ESN's high-variance problem. We also find that an arbitrary positioning of weights can degrade ESN performance and variance; and that this can be remedied in particular by employing connectome-derived weight positions. Herein we consider four connectome features -- namely, the sparsity, positioning, distribution, and clustering of weights -- and construct corresponding model classes (A, B, B${}_2$, C) from an appropriate null model ESN; one with its reservoir layer replaced by a fruit fly connectivity matrix. After tuning relevant hyperparameters and selecting the best instance of each model class, we train and validate all models for multi-step prediction on size-variants (50, 250, 500, and 750 training input steps) of the Mackey-Glass chaotic time series; and compute their performance (Mean-Squared Error) and variance across train-validate trials.
翻訳日:2022-06-11 12:23:17 公開日:2022-06-05
# (参考訳) ARC -- 敵対的模倣学習のためのアクター残酷批判

ARC -- Actor Residual Critic for Adversarial Imitation Learning ( http://arxiv.org/abs/2206.02095v1 )

ライセンス: CC BY 4.0
Ankur Deka, Changliu Liu, Katia Sycara(参考訳) Adversarial Imitation Learning (AIL)は、一般的な最先端のImitation Learningアルゴリズムのクラスであり、人工敵の誤分類を報酬信号として使用し、標準的なReinforcement Learning (RL)アルゴリズムによって最適化される。 ほとんどのRL設定とは異なり、AILの報酬は微分可能であるが、モデルなしのRLアルゴリズムはポリシーのトレーニングにこのプロパティを使用しない。 対照的に、AIL報酬関数の微分可能性を利用し、RL文学における標準的なアクター・クリティカル(AC)アルゴリズムと平行に描画するアクター・残留批評家(ARC)RLアルゴリズムのクラスを定式化し、(標準Q関数の代わりに)残留批評家C関数を用いて、割引後の戻り値のみを近似する(即時報酬を除く)。 ARCアルゴリズムは標準のACアルゴリズムと同様の収束特性を持ち、即時報酬の勾配が正確であるという利点がある。 有限状態、作用、既知のダイナミクスを持つ離散(表式)の場合、$c$関数を持つポリシーイテレーションが最適なポリシーに収束することを証明する。 関数近似と未知ダイナミクスの連続例では、ARCがAILを補助し、シミュレーションされた連続制御および実ロボット操作タスクにおいて標準のAILより優れていることを示す。 ARCアルゴリズムは実装が簡単であり、ACアルゴリズムによって既存のAIL実装に組み込むことができる。

Adversarial Imitation Learning (AIL) is a class of popular state-of-the-art Imitation Learning algorithms where an artificial adversary's misclassification is used as a reward signal and is optimized by any standard Reinforcement Learning (RL) algorithm. Unlike most RL settings, the reward in AIL is differentiable but model-free RL algorithms do not make use of this property to train a policy. In contrast, we leverage the differentiability property of the AIL reward function and formulate a class of Actor Residual Critic (ARC) RL algorithms that draw a parallel to the standard Actor-Critic (AC) algorithms in RL literature and uses a residual critic, C function (instead of the standard Q function) to approximate only the discounted future return (excluding the immediate reward). ARC algorithms have similar convergence properties as the standard AC algorithms with the additional advantage that the gradient through the immediate reward is exact. For the discrete (tabular) case with finite states, actions, and known dynamics, we prove that policy iteration with $C$ function converges to an optimal policy. In the continuous case with function approximation and unknown dynamics, we experimentally show that ARC aided AIL outperforms standard AIL in simulated continuous-control and real robotic manipulation tasks. ARC algorithms are simple to implement and can be incorporated into any existing AIL implementation with an AC algorithm.
翻訳日:2022-06-11 12:09:25 公開日:2022-06-05
# (参考訳) 画像分類における識別可能なニューラルアーキテクチャ探索のための探索空間適応

Search Space Adaptation for Differentiable Neural Architecture Search in Image Classification ( http://arxiv.org/abs/2206.02098v1 )

ライセンス: CC BY 4.0
Youngkee Kim, Soyi Jung, Minseok Choi and Joongheon Kim(参考訳) ディープニューラルネットワークは様々なタスクで前例のないパフォーマンスを達成しているため、ニューラルネットワークアーキテクチャを自動プロセスで設計する研究分野であるneural architecture search(nas)が活発に進行中である。 最近では、差別化可能なnasは、検索コストを単一のネットワークのトレーニングレベルに引き下げることで大きな影響を与える。 さらに、候補アーキテクチャを定義する検索空間は、最終アーキテクチャの性能に直接的な影響を与える。 本稿では,探索スコープを導入することにより,探索空間の適応スキームを提案する。 画像分類タスクにおいて, ProxylessNAS を用いて提案手法の有効性を示す。 さらに,アーキテクチャパラメータ更新の軌跡を可視化し,アーキテクチャ検索を改善するための洞察を提供する。

As deep neural networks achieve unprecedented performance in various tasks, neural architecture search (NAS), a research field for designing neural network architectures with automated processes, is actively underway. More recently, differentiable NAS has a great impact by reducing the search cost to the level of training a single network. Besides, the search space that defines candidate architectures to be searched directly affects the performance of the final architecture. In this paper, we propose an adaptation scheme of the search space by introducing a search scope. The effectiveness of proposed method is demonstrated with ProxylessNAS for the image classification task. Furthermore, we visualize the trajectory of architecture parameter updates and provide insights to improve the architecture search.
翻訳日:2022-06-11 11:48:00 公開日:2022-06-05
# (参考訳) AUTMフロー:モノトニック正規化フローのための原子非制限時間マシン

AUTM Flow: Atomic Unrestricted Time Machine for Monotonic Normalizing Flows ( http://arxiv.org/abs/2206.02102v1 )

ライセンス: CC BY 4.0
Difeng Cai, Yuliang Ji, Huan He, Qiang Ye, Yuanzhe Xi(参考訳) 非線形単調変換は、単純な分布から複素分布への可逆三角写像を構築するために、フローの正規化に広く用いられる。 既存の文献では、単調性は通常関数クラスやモデルパラメータの制限によって強制され、逆変換は閉形式逆が利用できないため、しばしばルートフィンディングアルゴリズムによって近似される。 本稿では,制限のない積分器と計算容易な明示的逆数を備えた「原子非制限時間マシン(Atomic Unrestricted Time Machine, AUTM)」と呼ばれる新しい積分ベースのアプローチを提案する。 AUTMは、明示的な逆関数クラスや非制限関数クラスやパラメータを持つ正規化フローの設計において、汎用的で効率的な方法を提供する。 理論的には、AUTMが普遍的であるという構成的証明が提示される: すべての単調正規化フローは、AUTMフローの極限と見なすことができる。 本稿では,AUTM流を用いた任意の単調正規化流の近似法を示す具体例を示す。 その結果、AUTMは既存の流れを明示的な逆パラメータと非制限パラメータを備えた新しい流れに変換するのに利用できる。 提案手法の性能は,高次元密度推定,変分推論,画像生成に基づいて評価される。 実験はautmの高速化とメモリ効率を実証する。

Nonlinear monotone transformations are used extensively in normalizing flows to construct invertible triangular mappings from simple distributions to complex ones. In existing literature, monotonicity is usually enforced by restricting function classes or model parameters and the inverse transformation is often approximated by root-finding algorithms as a closed-form inverse is unavailable. In this paper, we introduce a new integral-based approach termed "Atomic Unrestricted Time Machine (AUTM)", equipped with unrestricted integrands and easy-to-compute explicit inverse. AUTM offers a versatile and efficient way to the design of normalizing flows with explicit inverse and unrestricted function classes or parameters. Theoretically, we present a constructive proof that AUTM is universal: all monotonic normalizing flows can be viewed as limits of AUTM flows. We provide a concrete example to show how to approximate any given monotonic normalizing flow using AUTM flows with guaranteed convergence. The result implies that AUTM can be used to transform an existing flow into a new one equipped with explicit inverse and unrestricted parameters. The performance of the new approach is evaluated on high dimensional density estimation, variational inference and image generation. Experiments demonstrate superior speed and memory efficiency of AUTM.
翻訳日:2022-06-11 11:42:24 公開日:2022-06-05
# (参考訳) 構造化データのための解釈可能な専門家の混合

Interpretable Mixture of Experts for Structured Data ( http://arxiv.org/abs/2206.02107v1 )

ライセンス: CC BY 4.0
Aya Abdelsalam Ismail, Sercan \"O. Arik, Jinsung Yoon, Ankur Taly, Soheil Feizi and Tomas Pfister(参考訳) 構造化データのための機械学習の成長に伴い、特に高スループットアプリケーションでは、信頼できるモデル説明の必要性が不可欠である。 本稿では,構造化されたデータに対して,精度を保ちながら解釈性を提供する新しいフレームワークである Interpretable Mixture of Experts (IME) を紹介する。 IMEは割り当てモジュールと線形モデルのような解釈可能な専門家の混合物で構成され、各サンプルは単一の解釈可能な専門家に割り当てられる。 これは本質的に解釈可能なアーキテクチャであり、IMEによって生成された説明は予測がどのように計算されるかの正確な記述である。 スタンドアローンで本質的に解釈可能なアーキテクチャを構成することに加えて、既存のディープニューラルネットワーク(DNN)と統合して、DNNの精度を維持しながら、サンプルのサブセットに解釈性を提供する機能が追加されている。 様々な構造化データセットに関する実験は、imeが単一の解釈可能なモデルよりも正確であり、忠実な説明を提供しながら、既存の最先端ディープラーニングモデルと相性が良いことを証明している。

With the growth of machine learning for structured data, the need for reliable model explanations is essential, especially in high-stakes applications. We introduce a novel framework, Interpretable Mixture of Experts (IME), that provides interpretability for structured data while preserving accuracy. IME consists of an assignment module and a mixture of interpretable experts such as linear models where each sample is assigned to a single interpretable expert. This results in an inherently-interpretable architecture where the explanations produced by IME are the exact descriptions of how the prediction is computed. In addition to constituting a standalone inherently-interpretable architecture, an additional IME capability is that it can be integrated with existing Deep Neural Networks (DNNs) to offer interpretability to a subset of samples while maintaining the accuracy of the DNNs. Experiments on various structured datasets demonstrate that IME is more accurate than a single interpretable model and performs comparably to existing state-of-the-art deep learning models in terms of accuracy while providing faithful explanations.
翻訳日:2022-06-11 11:23:36 公開日:2022-06-05
# (参考訳) 合成赤外画像生成法による大型噴流火炎のコンピュータビジョンによるキャラクタリゼーション

Computer Vision-based Characterization of Large-scale Jet Flames using a Synthetic Infrared Image Generation Approach ( http://arxiv.org/abs/2206.02110v1 )

ライセンス: CC BY 4.0
Carmina P\'erez-Guerrero, Jorge Francisco Cipri\'an-S\'anchez, Adriana Palacios, Gilberto Ochoa-Ruiz, Miguel Gonzalez-Mendoza, Vahid Foroughi, Elsa Pastor, Gerardo Rodriguez-Hernandez(参考訳) 有害物質を含む産業活動中に発生する様々な火災事故の中で、ジェット火災はあまり知られていないタイプの1つである。 これは、しばしばドミノ効果(Domino effect)として知られる大きな事故を発生させる過程に関与しているためである。 炎の衝突は通常ドミノ効果を引き起こし、ジェットエンジンの火災は、これが起こる確率を大幅に増加させる特定の特徴を示す。 これらの特徴はリスク分析の観点から重要となり、適切な特徴付けが重要な課題となる。 ディープラーニングのアプローチは、jet fire characterizationのようなタスクで広く使われているが、これらの方法は、データ量とラベルの品質に大きく依存している。 ジェット火災のデータ取得には、特に赤外線画像を使用する場合、高価な実験が必要となる。 そこで本稿では,可視画像から可視赤外線画像を生成するためにジェネレーティブ・アドバイサル・ネットワーク(Generative Adversarial Networks)を提案する。 その結果,可視カメラと赤外線カメラの両方を用いた実験の結果を現実的に再現できることが示唆された。 得られた結果は, 過去の実験と比較し, 同様の結果が得られた。

Among the different kinds of fire accidents that can occur during industrial activities that involve hazardous materials, jet fires are one of the lesser-known types. This is because they are often involved in a process that generates a sequence of other accidents of greater magnitude, known as domino effect. Flame impingement usually causes domino effects, and jet fires present specific features that can significantly increase the probability of this happening. These features become relevant from a risk analysis perspective, making their proper characterization a crucial task. Deep Learning approaches have become extensively used for tasks such as jet fire characterization; however, these methods are heavily dependent on the amount of data and the quality of the labels. Data acquisition of jet fires involve expensive experiments, especially so if infrared imagery is used. Therefore, this paper proposes the use of Generative Adversarial Networks to produce plausible infrared images from visible ones, making experiments less expensive and allowing for other potential applications. The results suggest that it is possible to realistically replicate the results for experiments carried out using both visible and infrared cameras. The obtained results are compared with some previous experiments, and it is shown that similar results were obtained.
翻訳日:2022-06-11 11:07:10 公開日:2022-06-05
# (参考訳) アジアヘイトに対する音声検出課題:BERT the Central, Data-Centric Studies the Crucial

Speech Detection Task Against Asian Hate: BERT the Central, While Data-Centric Studies the Crucial ( http://arxiv.org/abs/2206.02114v1 )

ライセンス: CC BY 4.0
Xin Lian(参考訳) 疫病の流行が続く中、アジア以外の国、特に中国人の間では、アジア人に対する憎悪が高まっている。 そのため、アジア人に対するヘイトスピーチを効果的に検出・防止する必要がある。 本研究では、まず、2022年2月初旬に取得した2,035件の注釈付きツイートを含む、Twitter上の反アジアヘイトスピーチデータセットの拡張である注釈付きデータセットであるCOVID-HATE-2022を作成し、データセットにヘイトおよび非ヘイトツイートのシナリオの包括的なコレクションを示す。 次に、関連するデータセットに基づいてBERTモデルを微調整し、戦略を含む戦略を示す。 1)微調整プロセスの前にハッシュタグ、ユーザー名が@、url、絵文字を削除。 2)「クリーン」なデータ(と反対のデータ)で検証しながらデータを使ったトレーニングは、パフォーマンスを改善するには有効ではない。 第3に,高度な微調整戦略の性能について検討する。 1)識別的微調整、段階的凍結、ウォームアップステップなどのモデル中心のアプローチ 2) データトリミングとデータ拡張を取り入れたデータ中心のアプローチでは、両戦略が一般的にパフォーマンスを向上し、一方、データ中心のアプローチは、データ中心のアプローチの有効性と有効性を示している。

With the epidemic continuing, hatred against Asians is intensifying in countries outside Asia, especially among the Chinese. Thus, there is an urgent need to detect and prevent hate speech toward Asians effectively. In this work, we first create COVID-HATE-2022, an annotated dataset that is an extension of the anti-Asian hate speech dataset on Twitter, including 2,035 annotated tweets fetched in early February 2022, which are labeled based on specific criteria, and we present the comprehensive collection of scenarios of hate and non-hate tweets in the dataset. Second, we fine-tune the BERT models based on the relevant datasets, and demonstrate strategies including 1) cleaning the hashtags, usernames being @, URLs, and emojis before the fine-tuning process, and 2) training with the data while validating with the "clean" data (and the opposite) are not effective for improving performance. Third, we investigate the performance of advanced fine-tuning strategies with 1) model-centric approaches, such as discriminative fine-tuning, gradual unfreezing, and warmup steps, and 2) data-centric approaches, which incorporate data trimming and data augmenting, and show that both strategies generally improve the performance, while data-centric ones outperform the others, which demonstrate the feasibility and effectiveness of the data-centric approaches.
翻訳日:2022-06-11 10:45:05 公開日:2022-06-05
# (参考訳) 集合知性の不可避性

Impossibility of Collective Intelligence ( http://arxiv.org/abs/2206.02786v1 )

ライセンス: CC BY 4.0
Krikamol Muandet(参考訳) AIの民主化には、異種および潜在的に巨大な環境にわたる機械学習モデルのトレーニングとデプロイが含まれる。 データの多様性は、AIシステムを前進させる多くの可能性を開くと同時に、特別な注意を要するプライバシー、セキュリティ、エクイティなどのプレッシャーの懸念ももたらします。 本研究は,集合知能 (ci) と呼ばれる異種環境を横断的に学習できる有理学習アルゴリズムを理論的に設計することは不可能であることを示す。 仮説空間上の選択対応として学習アルゴリズムを表現することで、本質的性質でそれらを公理化することができる。 残念ながら、全ての公理と互換性のある唯一の実現可能なアルゴリズムは、単一の環境から任意に学習する標準経験的リスク最小化(erm)である。 分散の一般化、連合学習、アルゴリズムの公平性、マルチモーダル学習など、機械学習の重要な領域で成功するための前提条件に光を当てる、複数の環境から学習する新しいアルゴリズムを設計する研究者にとって、環境間の情報的非互換性は最も大きな障害の1つです。

Democratization of AI involves training and deploying machine learning models across heterogeneous and potentially massive environments. Diversity of data opens up a number of possibilities to advance AI systems, but also introduces pressing concerns such as privacy, security, and equity that require special attention. This work shows that it is theoretically impossible to design a rational learning algorithm that has the ability to successfully learn across heterogeneous environments, which we decoratively call collective intelligence (CI). By representing learning algorithms as choice correspondences over a hypothesis space, we are able to axiomatize them with essential properties. Unfortunately, the only feasible algorithm compatible with all of the axioms is the standard empirical risk minimization (ERM) which learns arbitrarily from a single environment. Our impossibility result reveals informational incomparability between environments as one of the foremost obstacles for researchers who design novel algorithms that learn from multiple environments, which sheds light on prerequisites for success in critical areas of machine learning such as out-of-distribution generalization, federated learning, algorithmic fairness, and multi-modal learning.
翻訳日:2022-06-11 10:21:41 公開日:2022-06-05
# (参考訳) ShapePU: Scribble Supervised Cardiac Segmentationのためのグローバル一貫性によって正規化された新しいPU学習フレームワーク

ShapePU: A New PU Learning Framework Regularized by Global Consistency for Scribble Supervised Cardiac Segmentation ( http://arxiv.org/abs/2206.02118v1 )

ライセンス: CC BY 4.0
Ke Zhang and Xiahai Zhuang(参考訳) 心臓の分節は心血管疾患の診断に必須のステップである。 しかし、ピクセル単位での密なラベリングはコストも時間もかかる。 scribbleは、sparseアノテーションの形式として、完全なアノテーションよりもアクセスしやすい。 しかし、スクリブルからの監督が弱いセグメンテーションネットワークを訓練することは特に難しい。 この問題に対処するため,我々は,Positive-Unlabeled (PU) 学習フレームワークとグローバル整合性正規化に基づく,新しいスクリブル誘導型心臓セグメンテーション法を提案し,ShapePUと呼ぶ。 ラベルなし画素をpu学習で活用するために,まず期待最大化(em)アルゴリズムを適用し,ラベルなし画素の各クラスの割合を推定する。 推定比率を考えると、ラベルなし画素のクラスを識別するために限界確率最大化を導入する。 形状知識を利用するため,訓練画像にカットアウト操作を適用し,矛盾したセグメント化結果をペナルティ化する。 ACDCとMSCMRsegの2つのオープンデータセットで評価したところ、私たちのスクリブル教師付きShapePUは、それぞれ1.4%、平均9.8%の教師付きアプローチを上回り、最先端の教師付きおよびPU学習手法を大きなマージンで上回りました。 私たちのコードはhttps://github.com/BWGZK/ShapePUで利用可能です。

Cardiac segmentation is an essential step for the diagnosis of cardiovascular diseases. However, pixel-wise dense labeling is both costly and time-consuming. Scribble, as a form of sparse annotation, is more accessible than full annotations. However, it's particularly challenging to train a segmentation network with weak supervision from scribbles. To tackle this problem, we propose a new scribble-guided method for cardiac segmentation, based on the Positive-Unlabeled (PU) learning framework and global consistency regularization, and termed as ShapePU. To leverage unlabeled pixels via PU learning, we first present an Expectation-Maximization (EM) algorithm to estimate the proportion of each class in the unlabeled pixels. Given the estimated ratios, we then introduce the marginal probability maximization to identify the classes of unlabeled pixels. To exploit shape knowledge, we apply cutout operations to training images, and penalize the inconsistent segmentation results. Evaluated on two open datasets, i.e, ACDC and MSCMRseg, our scribble-supervised ShapePU surpassed the fully supervised approach respectively by 1.4% and 9.8% in average Dice, and outperformed the state-of-the-art weakly supervised and PU learning methods by large margins. Our code is available at https://github.com/BWGZK/ShapePU.
翻訳日:2022-06-11 09:46:57 公開日:2022-06-05
# (参考訳) サルカズムにおける感情認識のためのマルチモーダルコーパス

A Multimodal Corpus for Emotion Recognition in Sarcasm ( http://arxiv.org/abs/2206.02119v1 )

ライセンス: CC BY 4.0
Anupama Ray, Shubham Mishra, Apoorva Nunna, Pushpak Bhattacharyya(参考訳) 感情分析と感情分析は広く研究されているが、皮肉と感情の関係は未解明のままである。 皮肉な表現は、様々な根底にある感情を持つ。 たとえば「無視されるのが大好き」とか「私の携帯はバッテリーのバックアップがわずか15分で素晴らしい!」とかは、フラストレーションを表しています。 皮肉表現の背後にある感情を検出することは、非自明だが重要なタスクである。 我々は、我々の知識を最大限に活用し、探究されていない皮肉文中の感情を検出するタスクを引き受ける。 我々は、最近リリースされたMultimodal sarcasm Detection dataset (MUStARD)から始める。 343個の不正確な感情ラベルを識別・訂正した(うち690件)。 データセットのサイズを倍にし、感情の強さを示す重要な指標であるヴァレンスと覚醒とともに感情をラベル付けします。 最後に,各サーカシック発声に,プロポジション,エンベッドド,ライクプレフィックス,イルカチオンの4種類のサルカシム型の1つをラベル付けし,サルカシム検出研究を進めることを目的とした。 マルチモーダル(テキスト、オーディオ、ビデオ)融合モデルによる実験は、サルカズムにおける正確な感情認識のベンチマークを確立し、最先端のサルカズム検出より優れている。 さまざまなアノテーションと研究目的のコードで強化されたデータセットをリリースします。

While sentiment and emotion analysis have been studied extensively, the relationship between sarcasm and emotion has largely remained unexplored. A sarcastic expression may have a variety of underlying emotions. For example, "I love being ignored" belies sadness, while "my mobile is fabulous with a battery backup of only 15 minutes!" expresses frustration. Detecting the emotion behind a sarcastic expression is non-trivial yet an important task. We undertake the task of detecting the emotion in a sarcastic statement, which to the best of our knowledge, is hitherto unexplored. We start with the recently released multimodal sarcasm detection dataset (MUStARD) pre-annotated with 9 emotions. We identify and correct 343 incorrect emotion labels (out of 690). We double the size of the dataset, label it with emotions along with valence and arousal which are important indicators of emotional intensity. Finally, we label each sarcastic utterance with one of the four sarcasm types-Propositional, Embedded, Likeprefixed and Illocutionary, with the goal of advancing sarcasm detection research. Exhaustive experimentation with multimodal (text, audio, and video) fusion models establishes a benchmark for exact emotion recognition in sarcasm and outperforms the state-of-art sarcasm detection. We release the dataset enriched with various annotations and the code for research purposes: https://github.com/apoorva-nunna/MUStARD_Plus_Plus
翻訳日:2022-06-11 09:36:57 公開日:2022-06-05
# (参考訳) 強化学習における学習ダイナミクスと一般化

Learning Dynamics and Generalization in Reinforcement Learning ( http://arxiv.org/abs/2206.02126v1 )

ライセンス: CC BY 4.0
Clare Lyle, Mark Rowland, Will Dabney, Marta Kwiatkowska, Yarin Gal(参考訳) 強化学習(RL)問題を解くことは、潜在的に不連続な値関数を適合させ、新しい観測にうまく一般化する、2つの競合する課題をもたらす。 本稿では,時間差アルゴリズムの学習力学を解析し,この2つの目的間の緊張について新たな知見を得る。 理論的には, 時間差学習は, 学習初期における価値関数の非スムース成分の適合を促進させると同時に, 分散一般化の2次効果を誘導する。 我々は,これらの知見を,様々な環境において訓練された深層rlエージェントに裏付ける。高密度報酬タスクにおいて時間差アルゴリズムを用いて訓練されたニューラルネットワークは,ランダムに初期化されたネットワークやポリシー勾配法で訓練されたネットワークよりも,状態間の一般化が弱いことを見出した。 最後に, 学習後の蒸留がこの落とし穴をいかに回避できるかを調査し, このアプローチがプロクジェンスイートの新規環境への一般化を改善し, 入力摂動に対する頑健性を向上させることを示す。

Solving a reinforcement learning (RL) problem poses two competing challenges: fitting a potentially discontinuous value function, and generalizing well to new observations. In this paper, we analyze the learning dynamics of temporal difference algorithms to gain novel insight into the tension between these two objectives. We show theoretically that temporal difference learning encourages agents to fit non-smooth components of the value function early in training, and at the same time induces the second-order effect of discouraging generalization. We corroborate these findings in deep RL agents trained on a range of environments, finding that neural networks trained using temporal difference algorithms on dense reward tasks exhibit weaker generalization between states than randomly initialized networks and networks trained with policy gradient methods. Finally, we investigate how post-training policy distillation may avoid this pitfall, and show that this approach improves generalization to novel environments in the ProcGen suite and improves robustness to input perturbations.
翻訳日:2022-06-11 09:17:56 公開日:2022-06-05
# (参考訳) トランスフォーマーを用いた連関訓練

Federated Adversarial Training with Transformers ( http://arxiv.org/abs/2206.02131v1 )

ライセンス: CC BY 4.0
Ahmed Aldahdooh, Wassim Hamidouche, Olivier D\'eforges(参考訳) federated learning (fl) は、プライバシを維持しながら、分散クライアントのデータ上でグローバルモデルトレーニングを可能にするために登場した。 しかし、グローバルトレーニングモデルは、特に敵のサンプル(AE)の回避攻撃に弱いため、慎重にサンプルを作成して誤分類を発生させる。 逆行訓練(AT)は、回避攻撃に対する最も有望なアプローチであり、畳み込みニューラルネットワーク(CNN)として広く研究されている。 近年、視覚トランスフォーマーは多くのコンピュータビジョンタスクで有効であることが判明している。 著者の知識を最大限に活用するために、視覚変換器のFLプロセスにおけるATの実現可能性を研究する研究は存在しない。 本稿では,トークン化や分類ヘッド技術が異なるフェデレーションモデル集約法と異なる視覚トランスフォーマモデルによる実現可能性について検討する。 非独立で同一分布のモデル(Non-IID)のロバストな精度を改善するため,FedWAvgと呼ばれるFedAvg集約法の拡張を提案する。 グローバルモデルの最後の層とクライアント更新の最後の層の間の類似度を測定することで、feedwavgはローカルモデル更新を集約する重みを計算する。 実験の結果,FedWAvgは他の最先端集約手法と比較して,ロバストな精度が向上した。

Federated learning (FL) has emerged to enable global model training over distributed clients' data while preserving its privacy. However, the global trained model is vulnerable to the evasion attacks especially, the adversarial examples (AEs), carefully crafted samples to yield false classification. Adversarial training (AT) is found to be the most promising approach against evasion attacks and it is widely studied for convolutional neural network (CNN). Recently, vision transformers have been found to be effective in many computer vision tasks. To the best of the authors' knowledge, there is no work that studied the feasibility of AT in a FL process for vision transformers. This paper investigates such feasibility with different federated model aggregation methods and different vision transformer models with different tokenization and classification head techniques. In order to improve the robust accuracy of the models with the not independent and identically distributed (Non-IID), we propose an extension to FedAvg aggregation method, called FedWAvg. By measuring the similarities between the last layer of the global model and the last layer of the client updates, FedWAvg calculates the weights to aggregate the local models updates. The experiments show that FedWAvg improves the robust accuracy when compared with other state-of-the-art aggregation methods.
翻訳日:2022-06-11 08:49:12 公開日:2022-06-05
# (参考訳) 訓練軽度パラメータ化ニューラルネットワークの初期収束と大域収束

Early Stage Convergence and Global Convergence of Training Mildly Parameterized Neural Networks ( http://arxiv.org/abs/2206.02139v1 )

ライセンス: CC BY 4.0
Mingze Wang, Chao Ma(参考訳) ランダム初期化から始まる軽度パラメータ化ニューラルネットワークのトレーニングにおけるGDとSGDの収束性について検討した。 最も一般的に使われる正方形損失とクロスエントロピー損失を含む、幅広いモデルと損失関数に対して、 ``early stage convergence'' の結果が証明される。 トレーニングの初期段階において、損失はかなりの量減少し、この減少は高速であることを示す。 furthurmore, 指数型損失関数について, トレーニングデータに対するいくつかの仮定の下で, gd のグローバル収束を示す。 極端に過度なパラメータ化に頼る代わりに、我々の研究はニューロンの活性化パターンの顕微鏡分析に基づいており、勾配のより強力な下界の導出に役立つ。 と呼ばれる活性化パターンの結果は、ニューラルネットワークのトレーニングダイナミクスの振る舞いを理解するための直感を構築するのに役立ち、独立した関心を持つかもしれない。

The convergence of GD and SGD when training mildly parameterized neural networks starting from random initialization is studied. For a broad range of models and loss functions, including the most commonly used square loss and cross entropy loss, we prove an ``early stage convergence'' result. We show that the loss is decreased by a significant amount in the early stage of the training, and this decrease is fast. Furthurmore, for exponential type loss functions, and under some assumptions on the training data, we show global convergence of GD. Instead of relying on extreme over-parameterization, our study is based on a microscopic analysis of the activation patterns for the neurons, which helps us derive more powerful lower bounds for the gradient. The results on activation patterns, which we call ``neuron partition'', help build intuitions for understanding the behavior of neural networks' training dynamics, and may be of independent interest.
翻訳日:2022-06-11 08:16:53 公開日:2022-06-05
# (参考訳) Dict-TTS:テキストから音声への事前辞書知識の学習

Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech ( http://arxiv.org/abs/2206.02147v1 )

ライセンス: CC0 1.0
Ziyue Jiang, Su Zhe, Zhou Zhao, Qian Yang, Yi Ren, Jinglin Liu, Zhenhui Ye(参考訳) Polyphone disambiguation は、信頼あるテキスト音声(TTS)システムのための自然なテキストシーケンスから正確な発音知識をキャプチャすることを目的としている。 しかし、以前のアプローチでは、十分な注釈付きトレーニングデータと言語専門家による追加の努力を必要としており、高品質のニューラルttsシステムをドメイン外日々の会話や数え切れないほどの言語に拡張することは困難である。 本稿では,オンラインwebサイト辞書(自然言語における既存の先行情報)を用いた意味認識型音声合成モデルdict-ttsを提案する。 具体的には、s2paモジュールを、入力テキストシーケンスと辞書の先行意味論との間の意味パターンを一致させ、対応する発音を得るために設計し、s2paモジュールは、アノテートされた音素ラベルなしで、エンドツーエンドttsモデルで容易に訓練することができる。 3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れており,TSシステムの韻律モデルの改良が期待できる。 異なる言語エンコーダによるより広範な分析により、Dict-TTSの各設計が有効であることが示されている。 オーディオサンプルは \url{https://dicttts.github.io/DictTTS-Demo/} で入手できる。

Polyphone disambiguation aims to capture accurate pronunciation knowledge from natural text sequences for reliable Text-to-speech (TTS) systems. However, previous approaches require substantial annotated training data and additional efforts from language experts, making it difficult to extend high-quality neural TTS systems to out-of-domain daily conversations and countless languages worldwide. This paper tackles the polyphone disambiguation problem from a concise and novel perspective: we propose Dict-TTS, a semantic-aware generative text-to-speech model with an online website dictionary (the existing prior information in the natural language). Specifically, we design a semantics-to-pronunciation attention (S2PA) module to match the semantic patterns between the input text sequence and the prior semantics in the dictionary and obtain the corresponding pronunciations; The S2PA module can be easily trained with the end-to-end TTS model without any annotated phoneme labels. Experimental results in three languages show that our model outperforms several strong baseline models in terms of pronunciation accuracy and improves the prosody modeling of TTS systems. Further extensive analyses with different linguistic encoders demonstrate that each design in Dict-TTS is effective. Audio samples are available at \url{https://dicttts.github.io/DictTTS-Demo/}.
翻訳日:2022-06-11 08:15:19 公開日:2022-06-05
# (参考訳) どのモデルが本質的に不確実性推定に最適か?

Which models are innately best at uncertainty estimation? ( http://arxiv.org/abs/2206.02152v1 )

ライセンス: CC BY 4.0
Ido Galil, Mohammed Dabbah, Ran El-Yaniv(参考訳) ディープニューラルネットワークは、リスクに敏感なタスクにデプロイする場合、不確実性推定機構を備える必要がある。 本稿では,ディープアーキテクチャとトレーニングレジームの関係と,その選択予測と不確実性推定性能について検討する。 分配不確実性と分配不確実性の両方を考慮する。 さらに、AUROC、ECE、AURC、選択精度制約のカバレッジなど、これまで提案された最も一般的な推定性能指標について考察する。 本稿では,一般リポジトリで使用可能な484個の既存訓練済みディープイメージネット分類器の選択的予測と不確実性推定性能に関する新規かつ総合的な研究を行う。 我々は,不確実性推定に影響を及ぼす未知の要因を多数同定し,各指標間の関係を考察した。 蒸留法に基づくトレーニング体制は,バニラトレーニングやデータセットの事前トレーニング,敵のトレーニングなど,他のトレーニング手法よりも不確実性を常に評価している。 また,vitが不確実性評価性能の面では,分布内とクラス外の両方において,最も優れたアーキテクチャであることを示す強い実証的証拠を提供する。

Deep neural networks must be equipped with an uncertainty estimation mechanism when deployed for risk-sensitive tasks. This paper studies the relationship between deep architectures and their training regimes with their corresponding selective prediction and uncertainty estimation performance. We consider both in-distribution uncertainties and class-out-of-distribution ones. Moreover, we consider some of the most popular estimation performance metrics previously proposed including AUROC, ECE, AURC, and coverage for selective accuracy constraint. We present a novel and comprehensive study of selective prediction and the uncertainty estimation performance of 484 existing pretrained deep ImageNet classifiers that are available at popular repositories. We identify numerous and previously unknown factors that affect uncertainty estimation and examine the relationships between the different metrics. We find that distillation-based training regimes consistently yield better uncertainty estimations than other training schemes such as vanilla training, pretraining on a larger dataset and adversarial training. We also provide strong empirical evidence showing that ViT is by far the most superior architecture in terms of uncertainty estimation performance, judging by any aspect, in both in-distribution and class-out-of-distribution scenarios.
翻訳日:2022-06-11 07:52:19 公開日:2022-06-05
# (参考訳) サイバーセキュリティとプライバシーに関する非専門家の視点--twitter上でのオンライン議論の分析

Perspectives of Non-Expert Users on Cyber Security and Privacy: An Analysis of Online Discussions on Twitter ( http://arxiv.org/abs/2206.02156v1 )

ライセンス: CC BY 4.0
Nandita Pattnaik, Shujun Li and Jason R.C. Nurse(参考訳) サイバーセキュリティと家庭におけるスマートデバイスに関連するプライバシーに関する現在の研究は、非常に活発だが、ホームコンテキストにおけるモバイルやスマートiotデバイスのような、特定の現代的なデバイスに焦点が当てられることが多い。 さらに, オンライン調査やインタビューなど, 小規模な実証研究に基づくものも多かった。 われわれは3年連続で6ヶ月(2019年1月、2月、2020年、2月、2021年)にTwitterに投稿された413,985件のツイートの実際のデータセットに基づいて大規模な調査を行うことで、これらの研究ギャップを埋めようとしている。 413,985件のツイートを識別するために、2つの機械学習ベースの分類器が開発された。 我々はこのデータセットを分析し、新型コロナウイルス(COVID-19)のパンデミックの影響を含む、専門家でないユーザーのサイバーセキュリティとプライバシーの観点を理解する。 トピックモデリング,感情分析,選択されたツイートの質的分析をデータセットに適用し,興味深い知見を得た。 たとえば、2021年のサイバーセキュリティやプライバシー関連のトピックに関するツイートは、2019年1月から2020年2月までの世界的な新型コロナウイルスのロックダウン前に比べて、54%増加している。 また、新型コロナウイルス(COVID-19)のパンデミックで、助けを求めるツイートが増えていることも観察した。 分析の結果、vpn、wi-fi、スマートフォン、ラップトップ、スマートホームデバイス、金融セキュリティ、さまざまな利害関係者によるセキュリティとプライバシの問題など、3年間にわたって、非専門家ユーザによって議論されたさまざまなトピックが明らかになった。 全般的な否定的な感情は、3年間にわたってtwitter上で議論されたほとんどすべてのトピックにおいて観察された。 本研究は,非専門家ユーザによるサイバーセキュリティとプライバシに関する多面的視点を検証し,その視点の異なる面について,より包括的,包括的かつニュアンス的な研究を求めるものである。

Current research on users` perspectives of cyber security and privacy related to traditional and smart devices at home is very active, but the focus is often more on specific modern devices such as mobile and smart IoT devices in a home context. In addition, most were based on smaller-scale empirical studies such as online surveys and interviews. We endeavour to fill these research gaps by conducting a larger-scale study based on a real-world dataset of 413,985 tweets posted by non-expert users on Twitter in six months of three consecutive years (January and February in 2019, 2020 and 2021). Two machine learning-based classifiers were developed to identify the 413,985 tweets. We analysed this dataset to understand non-expert users` cyber security and privacy perspectives, including the yearly trend and the impact of the COVID-19 pandemic. We applied topic modelling, sentiment analysis and qualitative analysis of selected tweets in the dataset, leading to various interesting findings. For instance, we observed a 54% increase in non-expert users` tweets on cyber security and/or privacy related topics in 2021, compared to before the start of global COVID-19 lockdowns (January 2019 to February 2020). We also observed an increased level of help-seeking tweets during the COVID-19 pandemic. Our analysis revealed a diverse range of topics discussed by non-expert users across the three years, including VPNs, Wi-Fi, smartphones, laptops, smart home devices, financial security, and security and privacy issues involving different stakeholders. Overall negative sentiment was observed across almost all topics non-expert users discussed on Twitter in all the three years. Our results confirm the multi-faceted nature of non-expert users` perspectives on cyber security and privacy and call for more holistic, comprehensive and nuanced research on different facets of such perspectives.
翻訳日:2022-06-10 10:55:18 公開日:2022-06-05
# (参考訳) メトリクスは気にするな -- 不確実性はどうだろう? 混乱行列計量分布の可視化

Never mind the metrics -- what about the uncertainty? Visualising confusion matrix metric distributions ( http://arxiv.org/abs/2206.02157v1 )

ライセンス: CC BY 4.0
David Lovell, Dimity Miller, Jaiden Capra and Andrew Bradley(参考訳) さまざまなデータセットやベンチマークで優れた予測性能を示すモデルを構築するための強いインセンティブがあります。 これらのインセンティブは、モデルとそれらの評価と比較に使用されるパフォーマンスメトリクスに限定して焦点を絞るリスクがあると考えています。 本稿では,不確実性の異なるモデル下での分布を強調し,この不確実性が,分類器の実証的性能の違いをいかに軽視できるかを示すことによって,分類器性能指標のバランスのとれた視点を求める。 まず、経験的混乱行列の基本的な離散性を強調し、二項行列を3次元合成格子で有意に表現し、その断面が受信操作特性(ROC)曲線の空間の基底となることを示す。 このroc空間内(およびそれ以上)でパフォーマンスメトリクスの輪郭の方程式、アニメーション、インタラクティブな視覚化を開発し、クラスの不均衡によってどのように影響を受けるかを示します。 本研究では,ROC空間における真正と偽正の離散的後続予測確率質量関数と,バランスド精度 (BA) やマシューズ相関係数 (MCC) などの性能指標の不確実性との関連性を示すインタラクティブな可視化手法を提案する。 当社の希望は、これらの洞察と視覚化が、経験的なデータセットとベンチマークで分類器が評価されると生じるパフォーマンスメトリック推定の実質的な不確実性をより強く認識し、この理解によって分類モデルのパフォーマンスクレームを緩和することです。

There are strong incentives to build models that demonstrate outstanding predictive performance on various datasets and benchmarks. We believe these incentives risk a narrow focus on models and on the performance metrics used to evaluate and compare them -- resulting in a growing body of literature to evaluate and compare metrics. This paper strives for a more balanced perspective on classifier performance metrics by highlighting their distributions under different models of uncertainty and showing how this uncertainty can easily eclipse differences in the empirical performance of classifiers. We begin by emphasising the fundamentally discrete nature of empirical confusion matrices and show how binary matrices can be meaningfully represented in a three dimensional compositional lattice, whose cross-sections form the basis of the space of receiver operating characteristic (ROC) curves. We develop equations, animations and interactive visualisations of the contours of performance metrics within (and beyond) this ROC space, showing how some are affected by class imbalance. We provide interactive visualisations that show the discrete posterior predictive probability mass functions of true and false positive rates in ROC space, and how these relate to uncertainty in performance metrics such as Balanced Accuracy (BA) and the Matthews Correlation Coefficient (MCC). Our hope is that these insights and visualisations will raise greater awareness of the substantial uncertainty in performance metric estimates that can arise when classifiers are evaluated on empirical datasets and benchmarks, and that classification model performance claims should be tempered by this understanding.
翻訳日:2022-06-10 10:22:09 公開日:2022-06-05
# (参考訳) カーブサイドピックアップとドロップオフの混雑効果の推定と緩和:因果推論手法

Estimating and Mitigating the Congestion Effect of Curbside Pick-ups and Drop-offs: A Causal Inference Approach ( http://arxiv.org/abs/2206.02164v1 )

ライセンス: CC BY 4.0
Xiaohui Liu and Sean Qian and Wei Ma(参考訳) カーブスペースは都市道路網でもっとも忙しい地域の一つである。 特に近年は、何十年にもわたって設計・製造された制限区域を占有する大規模なピックアップ/ドロップオフ(PUDO)が急速に増加している。 これらのPUDOは、抑制利用を妨害し、メインラインの交通の流れを妨害し、明らかに社会的外部性を著しく損なう可能性がある。 しかし、システムビューにおけるPUDOの混雑効果を厳格に定量化し緩和する分析フレームワークが欠如している。 そこで本研究では,PUDOの一般ネットワークにおける混雑効果を推定するために,厳密な因果推論手法を開発した。 因果グラフは、PUDOと交通速度の時空間関係を表すように設定され、PUDOが交通渋滞に与える影響を定量化するために、二重分離機械学習(DSML)法が提案されている。 さらに、乗客の歩行と交通流の再循環を促進させ、システム最適化を図るために、再ルートの定式化を開発し、解決した。 マンハッタン地域の実世界データを用いて数値実験を行った。 1つの地域でのPUDOは、平日と週末にそれぞれ3.70mphと4.54mphの速さで100台追加される。 PUDOの縁石での往復は、平日にミッドタウンとセントラルパークでそれぞれ2.44\%と2.12\%のシステム全体の旅行時間を短縮することができる。 また,提案手法の有効性とロバスト性を示すために感度解析を行った。

Curb space is one of the busiest areas in urban road networks. Especially in recent years, the rapid increase of ride-hailing trips and commercial deliveries has induced massive pick-ups/drop-offs (PUDOs), which occupy the limited curb space that was designed and built decades ago. These PUDOs could jam curb utilization and disturb the mainline traffic flow, evidently leading to significant societal externalities. However, there is a lack of an analytical framework that rigorously quantifies and mitigates the congestion effect of PUDOs in the system view, particularly with little data support and involvement of confounding effects. In view of this, this paper develops a rigorous causal inference approach to estimate the congestion effect of PUDOs on general networks. A causal graph is set to represent the spatio-temporal relationship between PUDOs and traffic speed, and a double and separated machine learning (DSML) method is proposed to quantify how PUDOs affect traffic congestion. Additionally, a re-routing formulation is developed and solved to encourage passenger walking and traffic flow re-routing to achieve system optimal. Numerical experiments are conducted using real-world data in the Manhattan area. On average, 100 additional units of PUDOs in a region could reduce the traffic speed by 3.70 and 4.54 mph on weekdays and weekends, respectively. Re-routing trips with PUDOs on curbs could respectively reduce the system-wide total travel time by 2.44\% and 2.12\% in Midtown and Central Park on weekdays. Sensitivity analysis is also conducted to demonstrate the effectiveness and robustness of the proposed framework.
翻訳日:2022-06-10 10:20:55 公開日:2022-06-05
# (参考訳) 二重分散環境における深層学習に基づくチャネル推定に関する調査

A Survey on Deep Learning based Channel Estimation in Doubly Dispersive Environments ( http://arxiv.org/abs/2206.02165v1 )

ライセンス: CC BY 4.0
Abdul Karim Gizzini, Marwa Chafii(参考訳) 無線通信システムは、チャネルが二重分散化し、その推定が困難なタスクとなる動的環境において、マルチパスフェードとドップラーシフトによって影響を受ける。 従来の方法では、高データレート伝送を維持するために、チャネル推定に使用されるパイロットはごくわずかである。 その結果、そのような推定器は高移動度シナリオにおいて顕著な性能劣化を経験する。 近年, 難易度, 頑健性, 一般化能力の良さから, 二重分散チャネル推定に深層学習が採用されている。 本稿では,この背景に対して,異なる手法を深く調査することにより,深層学習に基づくチャネル推定手法に関する包括的調査を行う。 この研究はまた、計算複雑性解析に続く広範な実験シミュレーションも提供する。 変調順序, 移動度, フレーム長, ディープラーニングアーキテクチャなどの異なるパラメータを考慮し, 検討した推定器の性能をいくつかの移動シナリオで評価した。 さらに、成果を再現できるようにソースコードをオンラインで利用可能にしている。

Wireless communications systems are impacted by multi-path fading and Doppler shift in dynamic environments, where the channel becomes doubly-dispersive and its estimation becomes an arduous task. Only a few pilots are used for channel estimation in conventional approaches to preserve high data rate transmission. Consequently, such estimators experience a significant performance degradation in high mobility scenarios. Recently, deep learning has been employed for doubly-dispersive channel estimation due to its low-complexity, robustness, and good generalization ability. Against this backdrop, the current paper presents a comprehensive survey on channel estimation techniques based on deep learning by deeply investigating different methods. The study also provides extensive experimental simulations followed by a computational complexity analysis. After considering different parameters such as modulation order, mobility, frame length, and deep learning architecture, the performance of the studied estimators is evaluated in several mobility scenarios. In addition, the source codes are made available online in order to make the results reproducible.
翻訳日:2022-06-09 13:11:40 公開日:2022-06-05
# (参考訳) 量子自然言語処理の最近の進歩

Near-Term Advances in Quantum Natural Language Processing ( http://arxiv.org/abs/2206.02171v1 )

ライセンス: CC BY 4.0
Dominic Widdows, Daiwei Zhu, Chase Zimmerman(参考訳) 本稿では、量子コンピュータを用いて自然言語処理のいくつかの問題に対処できることを示す実験について述べる。 ここで提示される例には、量子サポートベクターマシンと単語の袋方式の両方を用いたトピック分類、単語列と形式概念に適用可能なbigramモデリング、動詞-名詞合成におけるあいまいさの解決などがある。 使用されるデータセットはまだ小さいが、記述されたシステムは物理量子コンピュータ上で実行される。 これらの実装とその結果は、アルゴリズムや数学的手法とともに記述される。

This paper describes experiments showing that some problems in natural language processing can already be addressed using quantum computers. The examples presented here include topic classification using both a quantum support vector machine and a bag-of-words approach, bigram modeling that can be applied to sequences of words and formal concepts, and ambiguity resolution in verb-noun composition. While the datasets used are still small, the systems described have been run on physical quantum computers. These implementations and their results are described along with the algorithms and mathematical approaches used.
翻訳日:2022-06-09 12:29:12 公開日:2022-06-05
# (参考訳) 条件付きフィルタ:高次元空間における追跡状態と推定パラメータ

Factored Conditional Filtering: Tracking States and Estimating Parameters in High-Dimensional Spaces ( http://arxiv.org/abs/2206.02178v1 )

ライセンス: CC BY 4.0
Dawei Chen, Samuel Yang-Zhao, John Lloyd, Kee Siong Ng(参考訳) 本稿では,高次元状態空間における状態の同時追跡とパラメータ推定のための新しいフィルタアルゴリズムであるFacted Conditional Filterを提案する。 このアルゴリズムの条件付き性質はパラメータを推定するために使用され、分解された性質は、状態空間を低次元の部分空間に分解するために用いられる。 アルゴリズムをうまく適用するための条件は、観測が部分空間レベルで利用可能であり、遷移モデルは部分空間にほぼ限定された局所遷移モデルに分解可能であることであり、これらの条件はコンピュータ科学、工学、物理フィルタリングの応用において広く満足されている。 提案手法の有効性を示す大規模接触ネットワークにおける流行の追跡とパラメータ推定に関する実験結果を示す。

This paper introduces the factored conditional filter, a new filtering algorithm for simultaneously tracking states and estimating parameters in high-dimensional state spaces. The conditional nature of the algorithm is used to estimate parameters and the factored nature is used to decompose the state space into low-dimensional subspaces in such a way that filtering on these subspaces gives distributions whose product is a good approximation to the distribution on the entire state space. The conditions for successful application of the algorithm are that observations be available at the subspace level and that the transition model can be factored into local transition models that are approximately confined to the subspaces; these conditions are widely satisfied in computer science, engineering, and geophysical filtering applications. We give experimental results on tracking epidemics and estimating parameters in large contact networks that show the effectiveness of our approach.
翻訳日:2022-06-09 12:14:02 公開日:2022-06-05
# (参考訳) 火星画像分類とセグメンテーションのための半教師付き学習

Semi-Supervised Learning for Mars Imagery Classification and Segmentation ( http://arxiv.org/abs/2206.02180v1 )

ライセンス: CC BY 4.0
Wenjing Wang, Lilang Lin, Zejia Fan, Jiaying Liu(参考訳) 火星探査の進展に伴い、多くの火星画像データが収集され、分析される必要がある。 しかし、火星データの不均衡と歪みのため、既存のコンピュータビジョンモデルの性能は不満足である。 本稿では,火星の機械ビジョンのための半教師付きフレームワークを導入し,分類とセグメンテーションという2つのタスクを解決しようとする。 コントラスト学習は強力な表現学習技術である。 しかし、火星のデータサンプル間には情報が重なりすぎており、対照的な学習と火星のデータの間に矛盾が生じている。 私たちの重要なアイデアは、アノテーションの助けを借りてこの矛盾を解消し、ラベルのないデータを利用してパフォーマンスを改善することです。 分類のために,ラベル付きデータでは内部クラスペアを無視し,ラベル付きデータでは否定ペアを無視し,教師付きクラス間コントラスト学習と教師なし類似性学習を形成する。 セグメンテーションでは、教師付きクラス間コントラスト学習を要素ワイズモードに拡張し、ラベルなし領域の監視にオンライン擬似ラベルを使用する。 実験結果から,我々の学習戦略は,分類モデルとセグメンテーションモデルを大幅に改善し,最先端のアプローチより優れていることが示された。

With the progress of Mars exploration, numerous Mars image data are collected and need to be analyzed. However, due to the imbalance and distortion of Martian data, the performance of existing computer vision models is unsatisfactory. In this paper, we introduce a semi-supervised framework for machine vision on Mars and try to resolve two specific tasks: classification and segmentation. Contrastive learning is a powerful representation learning technique. However, there is too much information overlap between Martian data samples, leading to a contradiction between contrastive learning and Martian data. Our key idea is to reconcile this contradiction with the help of annotations and further take advantage of unlabeled data to improve performance. For classification, we propose to ignore inner-class pairs on labeled data as well as neglect negative pairs on unlabeled data, forming supervised inter-class contrastive learning and unsupervised similarity learning. For segmentation, we extend supervised inter-class contrastive learning into an element-wise mode and use online pseudo labels for supervision on unlabeled areas. Experimental results show that our learning strategies can improve the classification and segmentation models by a large margin and outperform state-of-the-art approaches.
翻訳日:2022-06-09 12:12:28 公開日:2022-06-05
# (参考訳) 機械学習による解釈可能なラマンシグネチャを用いた正確なウイルス同定

Accurate Virus Identification with Interpretable Raman Signatures by Machine Learning ( http://arxiv.org/abs/2206.02788v1 )

ライセンス: CC BY 4.0
Jiarong Ye, Yin-Ting Yeh, Yuan Xue, Ziyang Wang, Na Zhang, He Liu, Kunyan Zhang, RyeAnne Ricker, Zhuohang Yu, Allison Roder, Nestor Perea Lopez, Lindsey Organtini, Wallace Greene, Susan Hafenstein, Huaguang Lu, Elodie Ghedin, Mauricio Terrones, Shengxi Huang, Sharon Xiaolei Huang(参考訳) 新たに出現または循環するウイルスの迅速同定は、潜在的な流行に対する公衆衛生対応を管理するための重要な第一歩である。 ラベルフリーラマン分光法と組み合わされた携帯型ウイルス捕獲装置は、ウイルスのラマンシグネチャを迅速に取得し、さらにそのラマンスペクトルに基づいてウイルスを認識する機械学習アプローチを指紋として適用することにより、高速検出の可能性を秘めている。 本稿では,ヒトおよび鳥類ウイルスのラマンスペクトルを解析するための機械学習手法を提案する。 スペクトルデータ用に特別に設計された畳み込みニューラルネットワーク(CNN)分類器は、様々なウイルスタイプやサブタイプの識別タスクに対して非常に高い精度を達成する。 特に、インフルエンザウイルスA型とB型を分類する99%の精度、インフルエンザAの4種類のサブタイプを分類する96%の精度、エンベロープウイルスと非エンベロープウイルスを区別する95%の精度、他の鳥ウイルスと区別する99%の精度を達成する。 さらに、完全勾配アルゴリズムを用いた訓練cnnモデルにおけるニューラルネット応答の解釈は、ウイルス同定に最も重要なラマンスペクトル範囲を強調する。 ML-selected salient Raman ranges with the signature ranges of known biomolecules and chemical functional groups(例えば、アミド、アミノ酸、カルボン酸)を関連づけることで、我々のMLモデルは異なるウイルスに存在するタンパク質、脂質、その他の重要な官能基のRamanシグネチャを効果的に認識し、これらのシグネチャの重み付けを組み合わせてウイルスを同定することを検証する。

Rapid identification of newly emerging or circulating viruses is an important first step toward managing the public health response to potential outbreaks. A portable virus capture device coupled with label-free Raman Spectroscopy holds the promise of fast detection by rapidly obtaining the Raman signature of a virus followed by a machine learning approach applied to recognize the virus based on its Raman spectrum, which is used as a fingerprint. We present such a machine learning approach for analyzing Raman spectra of human and avian viruses. A Convolutional Neural Network (CNN) classifier specifically designed for spectral data achieves very high accuracy for a variety of virus type or subtype identification tasks. In particular, it achieves 99% accuracy for classifying influenza virus type A vs. type B, 96% accuracy for classifying four subtypes of influenza A, 95% accuracy for differentiating enveloped and non-enveloped viruses, and 99% accuracy for differentiating avian coronavirus (infectious bronchitis virus, IBV) from other avian viruses. Furthermore, interpretation of neural net responses in the trained CNN model using a full-gradient algorithm highlights Raman spectral ranges that are most important to virus identification. By correlating ML-selected salient Raman ranges with the signature ranges of known biomolecules and chemical functional groups (for example, amide, amino acid, carboxylic acid), we verify that our ML model effectively recognizes the Raman signatures of proteins, lipids and other vital functional groups present in different viruses and uses a weighted combination of these signatures to identify viruses.
翻訳日:2022-06-09 11:52:20 公開日:2022-06-05
# GAAF:遺伝的アルゴリズムによるバイナリニューラルネットワークの活性化関数探索

GAAF: Searching Activation Functions for Binary Neural Networks through Genetic Algorithm ( http://arxiv.org/abs/2206.03291v1 )

ライセンス: Link先を確認
Yanfei Li, Tong Geng, Samuel Stein, Ang Li, Huimin Yu(参考訳) バイナリニューラルネットワーク(bnns)は、エッジデバイスやモバイルシステムなど、コストと電力制限領域での有望な利用を示している。 これは計算量とストレージの需要が著しく少ないためであるが、性能が低下するコストがかかる。 本稿では,この精度ギャップを埋めるために,符号に基づく二項化よりも先に相補的活性化関数 (AF) を追加し,遺伝的アルゴリズム (GA) に頼って理想的なAFを自動検索する手法を提案する。 これらのAFは、フォワードパスの入力データから追加情報を抽出し、後方パスの勾配近似の改善を可能にする。 GAベースの検索によって15の新たなAFが特定され、そのほとんどが、異なるデータセットやネットワークモデルをテストする際のパフォーマンス向上(ImageNetで2.54%まで)を示しています。 本手法は汎用BNNアーキテクチャを設計するための新しいアプローチを提供する。 私たちのコードはhttp://github.com/flying-yan/gaafで利用可能です。

Binary neural networks (BNNs) show promising utilization in cost and power-restricted domains such as edge devices and mobile systems. This is due to its significantly less computation and storage demand, but at the cost of degraded performance. To close the accuracy gap, in this paper we propose to add a complementary activation function (AF) ahead of the sign based binarization, and rely on the genetic algorithm (GA) to automatically search for the ideal AFs. These AFs can help extract extra information from the input data in the forward pass, while allowing improved gradient approximation in the backward pass. Fifteen novel AFs are identified through our GA-based search, while most of them show improved performance (up to 2.54% on ImageNet) when testing on different datasets and network models. Our method offers a novel approach for designing general and application-specific BNN architecture. Our code is available at http://github.com/flying-Yan/GAAF.
翻訳日:2022-06-08 15:57:30 公開日:2022-06-05
# 非対称キューイングシステムにおける効率的な分散マルチエージェント学習

Efficient decentralized multi-agent learning in asymmetric queuing systems ( http://arxiv.org/abs/2206.03324v1 )

ライセンス: Link先を確認
Daniel Freund and Thodoris Lykouris and Wentao Weng(参考訳) サービスシステムの標準モデルであるbipartite queuing systemsにおける分散マルチエージェント学習について検討した。 特に$N$エージェントは、通信なしで同じアルゴリズムを実行することによって、完全に分散された方法で$K$サーバからのサービスを要求する。 従来の分散アルゴリズムは対称システムに限定され、サーバ数で指数関数的に低下する性能を持ち、共有ランダム性とユニークなエージェントidによる通信を必要とし、計算上要求される。 対照的に,各エージェントが分散的に実行すると,一般的な非対称二成分キューシステムにおいて効率良くキューシステムの性能が向上し,さらにロバスト性も向上する,簡単な学習アルゴリズムを提供する。 その過程で,krishnasamy et al. (2016,2021) によるオープン質問を解決した,この問題の一元的なケースに対して,最初のucbベースのアルゴリズムを提供する。

We study decentralized multi-agent learning in bipartite queuing systems, a standard model for service systems. In particular, $N$ agents request service from $K$ servers in a fully decentralized way, i.e, by running the same algorithm without communication. Previous decentralized algorithms are restricted to symmetric systems, have performance that is degrading exponentially in the number of servers, require communication through shared randomness and unique agent identities, and are computationally demanding. In contrast, we provide a simple learning algorithm that, when run decentrally by each agent, leads the queuing system to have efficient performance in general asymmetric bipartite queuing systems while also having additional robustness properties. Along the way, we provide the first UCB-based algorithm for the centralized case of the problem, which resolves an open question by Krishnasamy et al. (2016,2021).
翻訳日:2022-06-08 15:38:43 公開日:2022-06-05
# 二元化ニューラルネットワークの類似度探索

Searching Similarity Measure for Binarized Neural Networks ( http://arxiv.org/abs/2206.03325v1 )

ライセンス: Link先を確認
Yanfei Li, Ang Li, Huimin Yu(参考訳) リソース制限されたデバイスにデプロイされる有望なモデルであるBNN(Binarized Neural Networks)は、学術と産業の両方から広く注目を集めている。 しかし、完全精度のディープニューラルネットワーク(DNN)と比較すると、BNNは非自明な精度劣化に悩まされ、さまざまな領域で適用範囲が制限される。 これは、類似度尺度のような既存のネットワークコンポーネントが特別にDNN用に設計されており、BNNに準最適化されているためである。 本研究では,入力特徴マップとフィルタ間の距離を定量化する類似度尺度であるBNNの重要成分に着目し,遺伝的アルゴリズムに基づくBNN調整類似度尺度の自動探索手法を提案する。 ResNet、NIN、VGGを用いたCifar10およびCifar100の評価結果から、同定された類似度指標のほとんどは、一般的に使用される相互相関法よりも相当な精度(最大3.39%)を達成できることが示された。

Being a promising model to be deployed in resource-limited devices, Binarized Neural Networks (BNNs) have drawn extensive attention from both academic and industry. However, comparing to the full-precision deep neural networks (DNNs), BNNs suffer from non-trivial accuracy degradation, limiting its applicability in various domains. This is partially because existing network components, such as the similarity measure, are specially designed for DNNs, and might be sub-optimal for BNNs. In this work, we focus on the key component of BNNs -- the similarity measure, which quantifies the distance between input feature maps and filters, and propose an automatic searching method, based on genetic algorithm, for BNN-tailored similarity measure. Evaluation results on Cifar10 and Cifar100 using ResNet, NIN and VGG show that most of the identified similarty measure can achieve considerable accuracy improvement (up to 3.39%) over the commonly-used cross-correlation approach.
翻訳日:2022-06-08 15:38:25 公開日:2022-06-05
# 超高次元の超パラメータreluネット学習による大域収束パズルの解法化

Demystifying the Global Convergence Puzzle of Learning Over-parameterized ReLU Nets in Very High Dimensions ( http://arxiv.org/abs/2206.03254v1 )

ライセンス: Link先を確認
Peng He(参考訳) この理論論文は,超過パラメータ整流線形単位(ReLU)ネットを極めて軽度な仮定で高次元データセットに学習するという,グローバル収束現象を決定づける厳密な理論を,困難なシナリオで開発することを目的としている。 本解析の主な要素はランダム活性化行列の細粒度解析である。 活性化行列を分解する本質的な利点は、高次元データ空間における最適化と角分布のダイナミクスを橋渡しすることである。 この角度に基づく詳細な解析は、各勾配降下反復における勾配ノルムの漸近的特徴付けと目的関数の方向曲率をもたらし、経験的損失関数が過剰パラメータ設定において優れた幾何学的性質を享受していることを明らかにする。 その過程で、超高次元データを学習するための非常に穏やかな仮定により、超パラメータ条件と学習率の両方の既存の理論境界を大幅に改善する。 さらに,入力データの幾何学的およびスペクトル的特性が,所望の超パラメータサイズと大域収束率を決定する上で果たす役割を明らかにする。 これらの手がかりはすべて、深層学習における非凸最適化の新たな幾何学的イメージを見つけることができる: 高次元データ空間における角分布 $\mapsto$ 過剰パラメータ化活性化行列のスペクトル $\mapsto$ 経験的損失景観の幾何学的性質 $\mapsto$ global convergence phenomena Furthreremore,我々の理論的結果は、勾配に基づく非凸最適化アルゴリズムは、非常に高次元データを学習するための理論状態よりも遥かに緩やかに過度なパラメータ化条件で、より強力な統計的保証を有することを示唆している。

This theoretical paper is devoted to developing a rigorous theory for demystifying the global convergence phenomenon in a challenging scenario: learning over-parameterized Rectified Linear Unit (ReLU) nets for very high dimensional dataset under very mild assumptions. A major ingredient of our analysis is a fine-grained analysis of random activation matrices. The essential virtue of dissecting activation matrices is that it bridges the dynamics of optimization and angular distribution in high-dimensional data space. This angle-based detailed analysis leads to asymptotic characterizations of gradient norm and directional curvature of objective function at each gradient descent iteration, revealing that the empirical loss function enjoys nice geometrical properties in the overparameterized setting. Along the way, we significantly improve existing theoretical bounds on both over-parameterization condition and learning rate with very mild assumptions for learning very high dimensional data. Moreover, we uncover the role of the geometrical and spectral properties of the input data in determining desired over-parameterization size and global convergence rate. All these clues allow us to discover a novel geometric picture of nonconvex optimization in deep learning: angular distribution in high-dimensional data space $\mapsto$ spectrums of overparameterized activation matrices $\mapsto$ favorable geometrical properties of empirical loss landscape $\mapsto$ global convergence phenomenon. Furthremore, our theoretical results imply that gradient-based nonconvex optimization algorithms have much stronger statistical guarantees with much milder over-parameterization condition than exisiting theory states for learning very high dimensional data, which is rarely explored so far.
翻訳日:2022-06-08 13:42:54 公開日:2022-06-05
# (参考訳) 機能性アンサンブル蒸留

Functional Ensemble Distillation ( http://arxiv.org/abs/2206.02183v1 )

ライセンス: CC BY 4.0
Coby Penso, Idan Achituve, Ethan Fetaya(参考訳) ベイズモデルには多くの望ましい性質があるが、最も注目すべきは限られたデータから一般化し、予測の不確実性を適切に推定する能力である。 しかし、ベイズ推論は計算が難解な場合が多いため、これらの利点は計算コストが急上昇する。 この問題を緩和する1つの一般的なアプローチは、後部からサンプリングされたモデルのアンサンブルを用いたモンテカルロ推定である。 しかし、このアプローチはテスト時に複数のモデルを保存および実行する必要があるため、依然としてかなりの計算コストがかかる。 本研究では,効率的なモデルを用いてアンサンブルの予測を最適に蒸留する方法を検討する。 まず、予測よりも単純に分布を返却する現在のアプローチは、予測間の共分散のような重要な特性を計算できないため、さらなる処理に有用であると主張する。 第二に、多くの限られたデータ設定において、すべてのアンサンブルメンバーはトレーニング損失をほぼゼロにし、すなわち、最適化された蒸留モデルを生成するトレーニングセット上でほぼ同一の予測を生成する。 両問題に対処するため,我々はFED(Functional Ensemble Distillation)という,新規かつ汎用的な蒸留手法を提案し,この環境でのアンサンブルの蒸留方法について検討する。 混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。 提案手法をいくつかのタスクで評価し, 精度および不確実性評価において, 現在の手法と比較して優れた結果が得られることを示した。

Bayesian models have many desirable properties, most notable is their ability to generalize from limited data and to properly estimate the uncertainty in their predictions. However, these benefits come at a steep computational cost as Bayesian inference, in most cases, is computationally intractable. One popular approach to alleviate this problem is using a Monte-Carlo estimation with an ensemble of models sampled from the posterior. However, this approach still comes at a significant computational cost, as one needs to store and run multiple models at test time. In this work, we investigate how to best distill an ensemble's predictions using an efficient model. First, we argue that current approaches that simply return distribution over predictions cannot compute important properties, such as the covariance between predictions, which can be valuable for further processing. Second, in many limited data settings, all ensemble members achieve nearly zero training loss, namely, they produce near-identical predictions on the training set which results in sub-optimal distilled models. To address both problems, we propose a novel and general distillation approach, named Functional Ensemble Distillation (FED), and we investigate how to best distill an ensemble in this setting. We find that learning the distilled model via a simple augmentation scheme in the form of mixup augmentation significantly boosts the performance. We evaluated our method on several tasks and showed that it achieves superior results in both accuracy and uncertainty estimation compared to current approaches.
翻訳日:2022-06-08 13:09:08 公開日:2022-06-05
# (参考訳) 電力市場エージェントモデルのための機械学習応用:系統的文献レビュー

Machine learning applications for electricity market agent-based models: A systematic literature review ( http://arxiv.org/abs/2206.02196v1 )

ライセンス: CC BY 4.0
Alexander J. M. Kell, Stephen McGough, Matthew Forshaw(参考訳) 電力市場はエネルギーシステムの脱炭素化において重要な役割を担っている。 しかし、電力市場は様々な変数とデータ入力で構成されている。 これらの変数とデータ入力は、a-prioriを予測できない予測不能な方法で振る舞う。 したがって、エージェントベースのシミュレーションは電力市場のダイナミクスをよりよく理解するために使われることが示唆されている。 エージェントベースのモデルは、機械学習と人工知能を統合して、インテリジェンスを追加し、より良い予測を行い、電力市場をより効率的に制御する機会を提供する。 本稿では,エージェントベース電気市場モデルに適用した機械学習に焦点を当てた,2016年から2021年の間に発行された55の論文を整理する。 入札戦略など,一般的なトピックを中心に研究が集結していることが分かりました。 しかし、より調査されたアプリケーションから高強度の研究の恩恵を受けることができる様々な研究応用の長い部分が存在する。

The electricity market has a vital role to play in the decarbonisation of the energy system. However, the electricity market is made up of many different variables and data inputs. These variables and data inputs behave in sometimes unpredictable ways which can not be predicted a-priori. It has therefore been suggested that agent-based simulations are used to better understand the dynamics of the electricity market. Agent-based models provide the opportunity to integrate machine learning and artificial intelligence to add intelligence, make better forecasts and control the power market in better and more efficient ways. In this systematic literature review, we review 55 papers published between 2016 and 2021 which focus on machine learning applied to agent-based electricity market models. We find that research clusters around popular topics, such as bidding strategies. However, there exists a long-tail of different research applications that could benefit from the high intensity research from the more investigated applications.
翻訳日:2022-06-08 11:28:58 公開日:2022-06-05
# (参考訳) GridShift:イメージセグメンテーションとオブジェクト追跡のための高速モード探索アルゴリズム

GridShift: A Faster Mode-seeking Algorithm for Image Segmentation and Object Tracking ( http://arxiv.org/abs/2206.02200v1 )

ライセンス: CC BY 4.0
Abhishek Kumar, Oladayo S. Ajani, Swagatam Das, and Rammohan Mallipeddi(参考訳) 機械学習とコンピュータビジョンでは、平均シフト(MS)はクラスタリングとイメージセグメンテーションに使用される最も一般的なモード探索アルゴリズムの1つである。 各データポイントを近隣データポイントの重み付け平均に反復的に移動させる。 各データポイントの近傍を見つけるのに必要な計算コストは、データポイントの数に2倍である。 その結果、バニラmsは大規模なデータセットでは極めて遅いように見える。 この問題に対処するため,GridShift というモード探索アルゴリズムを提案し,MS を主目的とした高速化を実現した。 さらに、GridShiftは、データポイントの代わりにアクティブグリッドセル(少なくとも1つのデータポイントに関連付けられたグリッドセル)をより高い密度に移動させる。 GridShiftのランタイムはアクティブなグリッドセルの数で線形であり、機能の数で指数関数的である。 したがって、オブジェクト追跡や画像分割といった大規模低次元アプリケーションには理想的である。 広範にわたる実験により,画像セグメンテーションのためのベンチマークデータセット上で,他のMSベースや最先端アルゴリズムと比較して,GridShiftの優れた性能を示す。 最後に、GridShiftに基づく新しいオブジェクト追跡アルゴリズムを提供し、CamShiftや meanshift++と比較して、オブジェクト追跡に有望な結果を示す。

In machine learning and computer vision, mean shift (MS) qualifies as one of the most popular mode-seeking algorithms used for clustering and image segmentation. It iteratively moves each data point to the weighted mean of its neighborhood data points. The computational cost required to find the neighbors of each data point is quadratic to the number of data points. Consequently, the vanilla MS appears to be very slow for large-scale datasets. To address this issue, we propose a mode-seeking algorithm called GridShift, with significant speedup and principally based on MS. To accelerate, GridShift employs a grid-based approach for neighbor search, which is linear in the number of data points. In addition, GridShift moves the active grid cells (grid cells associated with at least one data point) in place of data points towards the higher density, a step that provides more speedup. The runtime of GridShift is linear in the number of active grid cells and exponential in the number of features. Therefore, it is ideal for large-scale low-dimensional applications such as object tracking and image segmentation. Through extensive experiments, we showcase the superior performance of GridShift compared to other MS-based as well as state-of-the-art algorithms in terms of accuracy and runtime on benchmark datasets for image segmentation. Finally, we provide a new object-tracking algorithm based on GridShift and show promising results for object tracking compared to CamShift and meanshift++.
翻訳日:2022-06-08 11:08:29 公開日:2022-06-05
# (参考訳) サイバーバブル分類における簡易変圧器とRes-CNN-BiLSTMの性能比較

Performance Comparison of Simple Transformer and Res-CNN-BiLSTM for Cyberbullying Classification ( http://arxiv.org/abs/2206.02206v1 )

ライセンス: CC BY 4.0
Raunak Joshi, Abhishek Gupta(参考訳) 双方向型LSTMアーキテクチャを用いたテキスト分類のタスクは、計算コストが高く、訓練に時間がかかる。 そのため、従来のディープラーニングアーキテクチャに比べて優れたパフォーマンスを実現するトランスフォーマーが発見された。 本稿では,テキスト分類問題に対する単純なトランスフォーマーネットワークとRes-CNN-BiLSTMベースのネットワークの性能比較を行う。 その結果,0.65mのパラメータでトレーニングしたトランスフォーマは,48.82mのパラメータでres-cnn-bilstmの性能を上回って,より高速なトレーニング速度とより汎用的なメトリクスを得ることができた。 また, 1次元文字レベル埋め込みネットワークと100次元グローブ埋め込みネットワークをトランスフォーマーと比較した。

The task of text classification using Bidirectional based LSTM architectures is computationally expensive and time consuming to train. For this, transformers were discovered which effectively give good performance as compared to the traditional deep learning architectures. In this paper we present a performance based comparison between simple transformer based network and Res-CNN-BiLSTM based network for cyberbullying text classification problem. The results obtained show that transformer we trained with 0.65 million parameters has significantly being able to beat the performance of Res-CNN-BiLSTM with 48.82 million parameters for faster training speeds and more generalized metrics. The paper also compares the 1-dimensional character level embedding network and 100-dimensional glove embedding network with transformer.
翻訳日:2022-06-08 10:47:37 公開日:2022-06-05
# (参考訳) コンバウンド・リワード下におけるシークエンシャル意思決定

Sequential Counterfactual Decision-Making Under Confounded Reward ( http://arxiv.org/abs/2206.02216v1 )

ライセンス: CC BY 4.0
Erik Skalnes(参考訳) 利害関係と効果が合わさった場合のランダム・トライアルの限界について,エージェントの自然な予兆がソフト・インターベンションに入力される反事実的ポリシー空間を定式化することにより検討する。

We investigate the limitations of random trials when the cause of interest is confounded with the effect by formalizing a counterfactual policy-space where the agent's natural predilection is input to a soft-intervention.
翻訳日:2022-06-08 10:39:03 公開日:2022-06-05
# (参考訳) ジェネリックCNNボトルネック層で観測されたU(1)対称性の破れ

U(1) Symmetry-breaking Observed in Generic CNN Bottleneck Layers ( http://arxiv.org/abs/2206.02220v1 )

ライセンス: CC BY 4.0
Louis-Fran\c{c}ois Bouchard, Mohsen Ben Lazreg and Matthew Toews(参考訳) 本稿では, 深部畳み込みニューラルネットワーク(CNN)と生体ビジョン, 基礎粒子物理を結びつける重要な発見について報告する。 CNNにおける情報伝達のモデルが光学系と類似して提案され、ボゾン粒子(すなわち光子)は、画像の2次元空間分解能が焦点1ドル=1$に崩壊するにつれて集中される。 3D空間$(x,y,t)$は、画像平面内の座標$(x,y)$と、CNN層$t$で定義される。そこで、主線$(0,0,t)$は、光軸と画像中心画素の両方を通して情報伝搬の方向に走り、最も鋭い空間焦点は画像平面内の混乱の円に制限される。 我々の新しい洞察は、主光学光線 $(0,0,t)$ を、rgb$ 色空間のグレイスケール(または輝度)ベクトル $(t,t,t)$ に沿って、n$ チャネルの活性化空間の正のオルマント $i(x,y) \in r^{n+}$ における媒質ベクトルと幾何学的に等価であるとモデル化することである。 したがって、情報はエネルギーポテンシャル $e(x,y,t)=\|i(x,y,t)\|^2$ に集中し、特にボトルネック層に対して、ジェネリック cnn の $t$ は、空間的起源 $(0,0,t)$ に対して非常に集中して対称であり、ボソン粒子のよく知られた "sombrero" ポテンシャルを示す。 この対称性は分類において破られ、一般的な事前訓練されたCNNモデルのボトルネック層は、画像平面とアクティベーション特徴空間で同時に定義される角度$\theta \in U(1)$に対して一貫したクラス固有のバイアスを示す。 最初の観測では、トレーニングやチューニングを伴わずに、一般的なCNNアクティベーションマップとベアボーンメモリベースの分類スキームから仮説を検証する。 ランダムな$u(1)$クラスラベルを使ってスクラッチからトレーニングすると、すべてのケースで分類が改善される。

We report on a significant discovery linking deep convolutional neural networks (CNN) to biological vision and fundamental particle physics. A model of information propagation in a CNN is proposed via an analogy to an optical system, where bosonic particles (i.e. photons) are concentrated as the 2D spatial resolution of the image collapses to a focal point $1\times 1=1$. A 3D space $(x,y,t)$ is defined by $(x,y)$ coordinates in the image plane and CNN layer $t$, where a principal ray $(0,0,t)$ runs in the direction of information propagation through both the optical axis and the image center pixel located at $(x,y)=(0,0)$, about which the sharpest possible spatial focus is limited to a circle of confusion in the image plane. Our novel insight is to model the principal optical ray $(0,0,t)$ as geometrically equivalent to the medial vector in the positive orthant $I(x,y) \in R^{N+}$ of a $N$-channel activation space, e.g. along the greyscale (or luminance) vector $(t,t,t)$ in $RGB$ colour space. Information is thus concentrated into an energy potential $E(x,y,t)=\|I(x,y,t)\|^2$, which, particularly for bottleneck layers $t$ of generic CNNs, is highly concentrated and symmetric about the spatial origin $(0,0,t)$ and exhibits the well-known "Sombrero" potential of the boson particle. This symmetry is broken in classification, where bottleneck layers of generic pre-trained CNN models exhibit a consistent class-specific bias towards an angle $\theta \in U(1)$ defined simultaneously in the image plane and in activation feature space. Initial observations validate our hypothesis from generic pre-trained CNN activation maps and a bare-bones memory-based classification scheme, with no training or tuning. Training from scratch using a random $U(1)$ class label the leads to improved classification in all cases.
翻訳日:2022-06-08 10:28:41 公開日:2022-06-05
# (参考訳) Webcrawledデータを用いたKaraallisut-British機械翻訳システム

Finetuning a Kalaallisut-English machine translation system using web-crawled data ( http://arxiv.org/abs/2206.02230v1 )

ライセンス: CC BY-SA 4.0
Alex Jones(参考訳) ウェストグリーンランド語(west greenlandic)は、グリーンランドの約56,000人が話す非常に低資源の多合成言語である。 そこで我々は,約30の多言語WebサイトのWebcrawled pseudoparallel文を用いて,事前訓練されたKaraallisut-to- English neural machine translation (NMT)システムを微調整する。 93,000以上のkalaallisut文と14万以上のデンマーク語文のコーパスをコンパイルし、言語横断的な文埋め込みと近似的なニアハイボー探索を用いて、これらのコーパスから翻訳に近い文を抽出する。 最後に、デンマーク語の文を英語に翻訳し、人工的なカラアリシュ・アライメントコーパスを得る。 得られたデータセットは, 事前訓練されたMTモデルを改善するには小さすぎてうるさいが, 追加資源により, より優れた擬似並列コーパスを構築し, MT上でより有望な結果が得られると信じている。 実験用のコードとデータを公開しています。

West Greenlandic, known by native speakers as Kalaallisut, is an extremely low-resource polysynthetic language spoken by around 56,000 people in Greenland. Here, we attempt to finetune a pretrained Kalaallisut-to-English neural machine translation (NMT) system using web-crawled pseudoparallel sentences from around 30 multilingual websites. We compile a corpus of over 93,000 Kalaallisut sentences and over 140,000 Danish sentences, then use cross-lingual sentence embeddings and approximate nearest-neighbors search in an attempt to mine near-translations from these corpora. Finally, we translate the Danish sentence to English to obtain a synthetic Kalaallisut-English aligned corpus. Although the resulting dataset is too small and noisy to improve the pretrained MT model, we believe that with additional resources, we could construct a better pseudoparallel corpus and achieve more promising results on MT. We also note other possible uses of the monolingual Kalaallisut data and discuss directions for future work. We make the code and data for our experiments publicly available.
翻訳日:2022-06-08 10:07:07 公開日:2022-06-05
# (参考訳) OntoMerger:知識グラフノードの複製と接続のためのオントロジー統合ライブラリ

OntoMerger: An Ontology Integration Library for Deduplicating and Connecting Knowledge Graph Nodes ( http://arxiv.org/abs/2206.02238v1 )

ライセンス: CC BY 4.0
David Geleta, Andriy Nikolov, Mark ODonoghue, Benedek Rozemberczki, Anna Gogleva, Valentina Tamma, Terry R. Payne(参考訳) ノードの重複は、異種データセットから知識グラフ(KG)を構築する際に発生する一般的な問題であり、同じ意味を持つノードをマージできることが不可欠である。 OntoMergerはPythonのオントロジー統合ライブラリで、KGノードを非重複化する機能を備えている。 提案手法では,KGノードの集合,マッピング,非連結階層を抽出し,連結階層とともに統合ノードの集合を生成する。 さらに、ライブラリは、入力を微調整し、さらに重複を減らし、出力グラフの接続性を高めるために使用できる分析およびデータテスト機能を提供する。 OntoMergerは様々なオントロジーやKGに適用できる。 本稿では,OntoMergerについて紹介し,実世界のバイオメディカルKGでその機能を説明する。

Duplication of nodes is a common problem encountered when building knowledge graphs (KGs) from heterogeneous datasets, where it is crucial to be able to merge nodes having the same meaning. OntoMerger is a Python ontology integration library whose functionality is to deduplicate KG nodes. Our approach takes a set of KG nodes, mappings and disconnected hierarchies and generates a set of merged nodes together with a connected hierarchy. In addition, the library provides analytic and data testing functionalities that can be used to fine-tune the inputs, further reducing duplication, and to increase connectivity of the output graph. OntoMerger can be applied to a wide variety of ontologies and KGs. In this paper we introduce OntoMerger and illustrate its functionality on a real-world biomedical KG.
翻訳日:2022-06-08 09:55:39 公開日:2022-06-05
# (参考訳) ロボット認知アーキテクチャarmarxの記憶システムの概念設計

Conceptual Design of the Memory System of the Robot Cognitive Architecture ArmarX ( http://arxiv.org/abs/2206.02241v1 )

ライセンス: CC BY 4.0
Fabian Peller-Konrad, Rainer-Kartmann, Christian R. G. Dreher, Andre Meixner, Fabian Reister, Markus Grotz, Tamim Asfour(参考訳) メモリシステムは,推論,計画,意味的シーン理解に使用されるハイレベルな記号的離散表現と,制御に使用される低レベルのセンサモジュレータ連続表現とのギャップを埋める上で,中心的な役割を果たすあらゆる技術認知システムのキーコンポーネントであると考える。 本研究では,メモリシステムのような概念的,技術的特性を,基礎となるデータ表現とともに記述する。 また,人間中心環境においてタスクを行うヒューマノイドロボットの記憶システムが,マルチモダリティ,イントロスペクタビリティ,ヘテロ結合性,予測可能性,本質的にエピソディクス構造などをサポートするべきことを実証する実例について考察した。 これらの特徴に基づき,我々のロボットソフトウェアフレームワークArmarXを,ARMARヒューマノイドロボットファミリーのロボットに使用される統合認知アーキテクチャに拡張した。 さらに、ロボットソフトウェアの開発によって、この新たなメモリ対応認知アーキテクチャが実現し、メモリ駆動行動の実装において、ロボットがメモリをどのように使用しているかを示す。

We consider the memory system as a key component of any technical cognitive system that can play a central role in bridging the gap between high-level symbolic discrete representations used for reasoning, planning and semantic scene understanding and low-level sensorimotor continuous representations used for control. In this work we described conceptual and technical characteristics such a memory system has to fulfill, together with the underlying data representation. We identify these characteristics based on the experience we gained in developing our ARMAR humanoid robot systems and discuss practical examples that demonstrate what a memory system of a humanoid robot performing tasks in human-centered environments should support, such as multi-modality, introspectability, hetero associativity, predictability or an inherently episodic structure. Based on these characteristics, we extended our robot software framework ArmarX into a unified cognitive architecture that is used in robots of the ARMAR humanoid robot family. Further, we describe, how the development of robot software led us to this novel memory-enabled cognitive architecture and we show how the memory is used by the robots to implement memory-driven behaviors.
翻訳日:2022-06-08 09:41:28 公開日:2022-06-05
# (参考訳) 拡散TSモデルのためのゼロショット音声条件付け

Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models ( http://arxiv.org/abs/2206.02246v1 )

ライセンス: CC BY 4.0
Alon Levkovitch, Eliya Nachmani, Lior Wolf(参考訳) 本稿では,事前学習した発声拡散音声モデルを用いて,未学習者の声で音声を生成する新しい方法を提案する。 この方法は対象者からの短い(約3秒)サンプルを必要とし、推論時に生成はトレーニングステップなしで操作される。 この手法の核心にあるサンプリングプロセスは、発声モデルの推定と、新しい話者のサンプルのローパスバージョンとを組み合わせたものである。 客観的・主観的評価により,本サンプリング法では,話者の発声周波数に類似した音声を,最先端の手法に匹敵する精度で,訓練なしで生成できることを示す。

We present a novel way of conditioning a pretrained denoising diffusion speech model to produce speech in the voice of a novel person unseen during training. The method requires a short (~3 seconds) sample from the target person, and generation is steered at inference time, without any training steps. At the heart of the method lies a sampling process that combines the estimation of the denoising model with a low-pass version of the new speaker's sample. The objective and subjective evaluations show that our sampling method can generate a voice similar to that of the target speaker in terms of frequency, with an accuracy comparable to state-of-the-art methods, and without training.
翻訳日:2022-06-08 09:21:30 公開日:2022-06-05
# (参考訳) 大規模多言語モデルを用いた言語横断型テキストスタイル変換の検討

Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models ( http://arxiv.org/abs/2206.02252v1 )

ライセンス: CC BY 4.0
Daniil Moskovskiy, Daryna Dementieva, Alexander Panchenko(参考訳) デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。 既存のデトキシフィケーションメソッドは、1つの正確な言語で動作するように設計されている。 本研究は,多言語および多言語間デトキシフィケーションと,この設定における大規模多言語モデルの行動について検討する。 従来の作業とは異なり、我々は、与えられた言語を直接微調整することなく、デトキシフィケーションを実行できる大きな言語モデルを作ることを目指している。 実験により、多言語モデルが多言語スタイル転送が可能であることが示された。 しかし、モデルでは言語間デトキシフィケーションは行えず、正確な言語を直接微調整することは避けられない。

Detoxification is a task of generating text in polite style while preserving meaning and fluency of the original toxic text. Existing detoxification methods are designed to work in one exact language. This work investigates multilingual and cross-lingual detoxification and the behavior of large multilingual models like in this setting. Unlike previous works we aim to make large language models able to perform detoxification without direct fine-tuning in given language. Experiments show that multilingual models are capable of performing multilingual style transfer. However, models are not able to perform cross-lingual detoxification and direct fine-tuning on exact language is inevitable.
翻訳日:2022-06-08 09:09:00 公開日:2022-06-05
# (参考訳) 説明評価のための利用事例別シミュレーション

Use-Case-Grounded Simulations for Explanation Evaluation ( http://arxiv.org/abs/2206.02256v1 )

ライセンス: CC BY 4.0
Valerie Chen, Nari Johnson, Nicholay Topin, Gregory Plumb, Ameet Talwalkar(参考訳) 機械学習モデルの説明をユーザーに提供することが、実際のユースケースに役立てることができるかどうかを調べるために、人間の主題評価を行う研究が増えている。 しかし、ユーザ研究の実行は困難でコストがかかるため、各研究は通常、限られた数の異なる設定のみを評価する。 これらの課題に対処し、ユーザスタディデザインを支援するために、SimEvals(Use-Case-Grounded Simulated Evaluations)を導入する。 SimEvalsは、人事研究の参加者に提示される情報コンテンツ(モデル説明など)を入力として、興味のあるユースケースに対する回答を予測するアルゴリズムエージェントを訓練する。 アルゴリズムエージェントのテストセット精度は、下流ユースケースの情報内容の予測性の測定値を提供する。 実世界の3つのユースケース(フォワードシミュレーション、モデルデバッギング、および反ファクト推論)を総合的に評価し、Simevalsが各ユースケースにおいてどの説明方法が人間に役立つかを効果的に特定できることを示す。 これらの結果は、SimEvalsが、潜在的にコストがかかるユーザスタディを実行する前に、ユーザに提示すべき説明の選択など、重要なユーザスタディ設計決定のセットを効率的にスクリーニングするために使用できることを示す。

A growing body of research runs human subject evaluations to study whether providing users with explanations of machine learning models can help them with practical real-world use cases. However, running user studies is challenging and costly, and consequently each study typically only evaluates a limited number of different settings, e.g., studies often only evaluate a few arbitrarily selected explanation methods. To address these challenges and aid user study design, we introduce Use-Case-Grounded Simulated Evaluations (SimEvals). SimEvals involve training algorithmic agents that take as input the information content (such as model explanations) that would be presented to each participant in a human subject study, to predict answers to the use case of interest. The algorithmic agent's test set accuracy provides a measure of the predictiveness of the information content for the downstream use case. We run a comprehensive evaluation on three real-world use cases (forward simulation, model debugging, and counterfactual reasoning) to demonstrate that Simevals can effectively identify which explanation methods will help humans for each use case. These results provide evidence that SimEvals can be used to efficiently screen an important set of user study design decisions, e.g. selecting which explanations should be presented to the user, before running a potentially costly user study.
翻訳日:2022-06-08 08:57:17 公開日:2022-06-05
# (参考訳) 3次元手のポーズ推定のための効率的なアノテーションと学習:調査

Efficient Annotation and Learning for 3D Hand Pose Estimation: A Survey ( http://arxiv.org/abs/2206.02257v1 )

ライセンス: CC BY 4.0
Takehiko Ohkawa and Ryosuke Furuta and Yoichi Sato(参考訳) 本研究では,効率的なアノテーションと学習の観点から3次元手形推定の包括的解析を行う。 特に,アノテーションデータに制限のある3次元手形アノテーションと学習手法に対する最近のアプローチについて検討した。 3Dハンドポーズ推定では、3Dハンドポーズアノテーションの収集は、ビデオ理解、AR/VR、ロボット工学などの手ポーズ推定器とその応用を開発するための重要なステップである。 しかし,3d情報へのアクセスや咬合が困難であるなど,注釈付き3d手ポーズの取得は煩雑である。 アノテーション問題に対する最近の取り組みを解明し,マニュアル,合成モデルベース,ハンドセンサーベース,計算手法に分類したアノテーション手法について検討した。 これらのアノテーションは,必ずしも大規模に利用できないため,自己教師付き事前学習,半教師付き学習,ドメイン適応といった,十分なアノテートデータを持たない3Dハンドポーズの学習方法を検討した。 これらの効率的なアノテーションと学習の分析に基づいて、この分野の限界と将来的な方向性をさらに議論する。

In this survey, we present comprehensive analysis of 3D hand pose estimation from the perspective of efficient annotation and learning. In particular, we study recent approaches for 3D hand pose annotation and learning methods with limited annotated data. In 3D hand pose estimation, collecting 3D hand pose annotation is a key step in developing hand pose estimators and their applications, such as video understanding, AR/VR, and robotics. However, acquiring annotated 3D hand poses is cumbersome, e.g., due to the difficulty of accessing 3D information and occlusion. Motivated by elucidating how recent works address the annotation issue, we investigated annotation methods classified as manual, synthetic-model-based, hand-sensor-based, and computational approaches. Since these annotation methods are not always available on a large scale, we examined methods of learning 3D hand poses when we do not have enough annotated data, namely self-supervised pre-training, semi-supervised learning, and domain adaptation. Based on the analysis of these efficient annotation and learning, we further discuss limitations and possible future directions of this field.
翻訳日:2022-06-08 08:28:07 公開日:2022-06-05
# (参考訳) 情報しきい値、ベイズ推論と意思決定

Information Threshold, Bayesian Inference and Decision-Making ( http://arxiv.org/abs/2206.02266v1 )

ライセンス: CC BY 4.0
Jacques Balayla(参考訳) 我々は,情報しきい値を先行ベイズ曲線と後方ベイズ曲線の最大曲率点と定義し,どちらも問題の分類システムの真正負率と負率の関数として記述する。 しきい値の性質は、十分な二分分類システムの場合、しきい値を超えて過剰な情報を取得することは、我々の分類評価の信頼性を著しく変えるものではない。 ここでは,この概念を説明するために「結婚状態思考実験」を導入し,決定論において重要な哲学的・認識論的意味を持つベイジアン前部と後部の数学的関係を報告した。 事前の確率が$\phi$ で与えられる 0 と 1 の間のスカラーであり、後方が $\rho$ で与えられるスカラーであるとき、情報しきい値で $\phi_e$: $\phi_e + \rho_e = 1$ が述べられなければ、ある程度の事前の信念が与えられると、十分な品質証拠が後方の合計が 1 に等しいように、その説得力を主張できる。 この点を超えてさらなる証拠を得ることは、後続確率を著しく改善するものではなく、意思決定の信頼性の指標となる可能性がある。

We define the information threshold as the point of maximum curvature in the prior vs. posterior Bayesian curve, both of which are described as a function of the true positive and negative rates of the classification system in question. The nature of the threshold is such that for sufficiently adequate binary classification systems, retrieving excess information beyond the threshold does not significantly alter the reliability of our classification assessment. We hereby introduce the "marital status thought experiment" to illustrate this idea and report a previously undefined mathematical relationship between the Bayesian prior and posterior, which may have significant philosophical and epistemological implications in decision theory. Where the prior probability is a scalar between 0 and 1 given by $\phi$ and the posterior is a scalar between 0 and 1 given by $\rho$, then at the information threshold, $\phi_e$: $\phi_e + \rho_e = 1$ Otherwise stated, given some degree of prior belief, we may assert its persuasiveness when sufficient quality evidence yields a posterior so that their combined sum equals 1. Retrieving further evidence beyond this point does not significantly improve the posterior probability, and may serve as a benchmark for confidence in decision-making.
翻訳日:2022-06-08 08:13:19 公開日:2022-06-05
# (参考訳) クライアントとデータサンプリングによる非凸SGDのシャーパレートとフレキシブルフレームワーク

Sharper Rates and Flexible Framework for Nonconvex SGD with Client and Data Sampling ( http://arxiv.org/abs/2206.02275v1 )

ライセンス: CC BY 4.0
Alexander Tyurin and Lukang Sun and Konstantin Burlachenko and Peter Richt\'arik(参考訳) 我々は、平均$n$滑らかでおそらくは非凸関数のほぼ定常点を求める古典的問題を再考する。 個々の関数の勾配評価数の観点からの確率的一階法の最適複雑性は$\mathcal{o}\left(n + n^{1/2}\varepsilon^{-1}\right)$であり、例えば$\varepsilon$がエラー耐性であるような最適sgd法$\small\sf\color{green}{spider}$(arxiv:1807.01695)と$\small\sf\color{green}{page}$(arxiv:2008.10898)である。 しかし、 i) big-$\mathcal{O}$ 表記は、関数に関連する滑らかさ定数に重要な依存を隠蔽し、 二 この方法の率及び理論は、柔軟性を提供しない簡易サンプリング機構を仮定する。 この仕事で私たちは状況を修復する。 まず、$\small\sf\color{green}{page}$アルゴリズムを一般化し、事実上任意の(偏りのない)サンプリングメカニズムで動作できるようにします。 これは、クライアントとデータサンプリング戦略の様々な組み合わせの影響を構築およびよりよく理解することができるため、フェデレートドラーニングにおいて特に有用である。 第2に, 平滑度定数とサンプリング手順の複雑な相互作用を捉えた新たな不等式を明示的に利用することにより, 解析がよりシャープになる。 実際、この分析は$\small\sf\color{green}{PAGE}$ paperで分析された単純なサンプリング手順よりも優れている。 しかし,提案する異なるサンプリング方式により,既に改良された境界をさらに研ぎ取ることができる。 要約すると、スムーズな非凸状態における最適SGDの最も一般的かつ正確な解析を提供する。 最後に、我々の理論的発見は慎重に設計された実験である。

We revisit the classical problem of finding an approximately stationary point of the average of $n$ smooth and possibly nonconvex functions. The optimal complexity of stochastic first-order methods in terms of the number of gradient evaluations of individual functions is $\mathcal{O}\left(n + n^{1/2}\varepsilon^{-1}\right)$, attained by the optimal SGD methods $\small\sf\color{green}{SPIDER}$(arXiv:1807.01695) and $\small\sf\color{green}{PAGE}$(arXiv:2008.10898), for example, where $\varepsilon$ is the error tolerance. However, i) the big-$\mathcal{O}$ notation hides crucial dependencies on the smoothness constants associated with the functions, and ii) the rates and theory in these methods assume simplistic sampling mechanisms that do not offer any flexibility. In this work we remedy the situation. First, we generalize the $\small\sf\color{green}{PAGE}$ algorithm so that it can provably work with virtually any (unbiased) sampling mechanism. This is particularly useful in federated learning, as it allows us to construct and better understand the impact of various combinations of client and data sampling strategies. Second, our analysis is sharper as we make explicit use of certain novel inequalities that capture the intricate interplay between the smoothness constants and the sampling procedure. Indeed, our analysis is better even for the simple sampling procedure analyzed in the $\small\sf\color{green}{PAGE}$ paper. However, this already improved bound can be further sharpened by a different sampling scheme which we propose. In summary, we provide the most general and most accurate analysis of optimal SGD in the smooth nonconvex regime. Finally, our theoretical findings are supposed with carefully designed experiments.
翻訳日:2022-06-08 08:00:33 公開日:2022-06-05
# (参考訳) Tagged-MRI2 Audio : 注意ガイド下不均一トランスレータ

Tagged-MRI2Audio with Attention Guided Heterogeneous Translator ( http://arxiv.org/abs/2206.02284v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Jiachen Zhuo, Maureen Stone, Georges El Fakhri, Jonghye Woo(参考訳) タグ付きMRIで見られる舌と咽頭筋の変形について理解することは,音声運動制御理論の進展と発話関連障害の治療において重要な役割を担っている。 しかし、それらの不均一な表現のため、2つのモーダル、すなわち2次元(中軸スライス)と時間タグ付きMRIシーケンスとそれに対応する1次元波形の直接マッピングは簡単ではない。 その代わりに、ピッチと共鳴の両方を含む中間表現として2次元スペクトログラムを用いて、タグ付きMRIのシーケンスからデータセットサイズに制限のある対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。 本フレームワークは, 音声中の筋構造を特異的に活用するための自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータに基づく。 さらに, 潜在空間表現不等角化戦略を用いて, 同一発話とサンプルの対関係を利用した。 さらに, 生成したスペクトログラムのリアリズムを改善するために, 生成型adversarial networkとの対向学習アプローチを組み込んだ。 実験の結果,63個のタグ付きMRIシーケンスと音声アコースティックスを併用して行った結果,このフレームワークにより,タグ付きMRIのシーケンスから明瞭な音声波形の生成が可能となり,競合する手法を上回った。

Understanding the underlying relationship between tongue and oropharyngeal muscle deformation seen in tagged-MRI and intelligible speech plays an important role in advancing speech motor control theories and treatment of speech related-disorders. Because of their heterogeneous representations, however, direct mapping between the two modalities -- i.e., two-dimensional (mid-sagittal slice) plus time tagged-MRI sequence and its corresponding one-dimensional waveform -- is not straightforward. Instead, we resort to two-dimensional spectrograms as an intermediate representation, which contains both pitch and resonance, from which to develop an end-to-end deep learning framework to translate from a sequence of tagged-MRI to its corresponding audio waveform with limited dataset size. Our framework is based on a novel fully convolutional asymmetry translator with guidance of a self residual attention strategy to specifically exploit the moving muscular structures during speech. In addition, we leverage a pairwise correlation of the samples with the same utterances with a latent space representation disentanglement strategy. Furthermore, we incorporate an adversarial training approach with generative adversarial networks to offer improved realism on our generated spectrograms. Our experimental results, carried out with a total of 63 tagged-MRI sequences alongside speech acoustics, showed that our framework enabled the generation of clear audio waveforms from a sequence of tagged-MRI, surpassing competing methods.
翻訳日:2022-06-08 06:56:08 公開日:2022-06-05
# (参考訳) ACT:非対称検診による半教師付き領域適応型医用画像分割

ACT: Semi-supervised Domain-adaptive Medical Image Segmentation with Asymmetric Co-Training ( http://arxiv.org/abs/2206.02288v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Nadya Shusharina, Ruth Lim, C-C Jay Kuo, Georges El Fakhri, Jonghye Woo(参考訳) 医用画像分割のための半教師付き領域適応(ssda)の開発を目指している。 本稿では,ラベル付き対象データに加えて,ラベル付きソースデータとターゲットドメインデータの両方を統一的に活用することを提案する。 具体的には、これらのサブセットを統合し、ソースドメインデータの支配を回避するための新しい非対称コトレーニング(ACT)フレームワークを提案する。 分割・分散戦略に従い、SSDAのラベル監督を半教師付き学習(SSL)とUDAを含む2つの非対称なサブタスクに明確に分離し、ソースとターゲットのラベル監督の区別を考慮して、2つのセグメントからの異なる知識を活用する。 2つのモジュールで学んだ知識は、信頼を意識した擬似ラベルに基づいて相互に反復的に教えることでACTと適応的に統合される。 さらに、擬似ラベルノイズは、滑らかな伝搬のための指数的混合減衰スキームでよく制御される。 BraTS18データベースを用いた異種間脳腫瘍MRIのセグメンテーションタスクの実験では、限られたラベル付きターゲットサンプルであっても、ACTはUDAおよび最先端SSDA法よりも顕著に改善した。

We aim to develop semi-supervised domain adaptation (SSDA) for medical image segmentation, which is largely underexplored. We propose to exploit both labeled source and target domain data, in addition to unlabeled target data in a unified manner. Specifically, we present a novel asymmetric co-training (ACT) framework to integrate these subsets and avoid the domination of the source domain data. Following a divide-and-conquer strategy, we explicitly decouple the label supervisions in SSDA into two asymmetric sub-tasks, including semi-supervised learning (SSL) and UDA, and leverage different knowledge from two segmentors to take into account the distinction between the source and target label supervisions. The knowledge learned in the two modules is then adaptively integrated with ACT, by iteratively teaching each other, based on the confidence-aware pseudo-label. In addition, pseudo label noise is well-controlled with an exponential MixUp decay scheme for smooth propagation. Experiments on cross-modality brain tumor MRI segmentation tasks using the BraTS18 database showed, even with limited labeled target samples, ACT yielded marked improvements over UDA and state-of-the-art SSDA methods.
翻訳日:2022-06-08 06:47:08 公開日:2022-06-05
# アルゴリズム意思決定における集団公平性強化--十分性下での実用的最大化

Enforcing Group Fairness in Algorithmic Decision Making: Utility Maximization Under Sufficiency ( http://arxiv.org/abs/2206.02237v1 )

ライセンス: Link先を確認
Joachim Baumann, Anik\'o Hann\'ak, Christoph Heitz(参考訳) バイナリ意思決定分類器はデフォルトではフェアではない。 公正要件は意思決定の合理化に付加的な要素であり、これは典型的には実用関数の最大化によって引き起こされる。 その意味で、アルゴリズム的公平性は制約付き最適化問題として定式化することができる。 本稿では、正の予測値(ppv)パリティ、偽の欠落率(for)パリティ、および(前者の2つを組み合わせた)充足性の公平性の概念に焦点を当て、公平性をどのように実装するかに関する議論に寄与する。 グループ固有のしきい値規則は、他のグループフェアネス基準でよく知られた結果と同様、PPVパリティとforパリティに最適であることを示す。 しかし、人口分布と効用関数によっては、1つのグループに対する上限値規則が最適であることがある: ppvパリティ(またはパリティ)の下での効用最大化は、最も有望な個人を選ぶのではなく、1つのグループで最小の効用を持つ個人を選ぶことになるかもしれない。 この結果は反直観的であり、統計的パリティと機会の平等に対する類似の解とは対照的である。 また,フェアネス制約を満たす最適決定規則の解も提供する。 より複雑な決定ルールが必要であり、グループ内の1つを除くすべてのグループに対して不公平になることを示す。 シミュレーションデータと実データに基づいて,本研究の成果を示す。

Binary decision making classifiers are not fair by default. Fairness requirements are an additional element to the decision making rationale, which is typically driven by maximizing some utility function. In that sense, algorithmic fairness can be formulated as a constrained optimization problem. This paper contributes to the discussion on how to implement fairness, focusing on the fairness concepts of positive predictive value (PPV) parity, false omission rate (FOR) parity, and sufficiency (which combines the former two). We show that group-specific threshold rules are optimal for PPV parity and FOR parity, similar to well-known results for other group fairness criteria. However, depending on the underlying population distributions and the utility function, we find that sometimes an upper-bound threshold rule for one group is optimal: utility maximization under PPV parity (or FOR parity) might thus lead to selecting the individuals with the smallest utility for one group, instead of selecting the most promising individuals. This result is counter-intuitive and in contrast to the analogous solutions for statistical parity and equality of opportunity. We also provide a solution for the optimal decision rules satisfying the fairness constraint sufficiency. We show that more complex decision rules are required and that this leads to within-group unfairness for all but one of the groups. We illustrate our findings based on simulated and real data.
翻訳日:2022-06-07 18:05:02 公開日:2022-06-05
# M2FNet:会話における感情認識のためのマルチモーダル融合ネットワーク

M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation ( http://arxiv.org/abs/2206.02187v1 )

ライセンス: Link先を確認
Vishal Chudasama, Purbayan Kar, Ashish Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Naoyuki Onoe(参考訳) 会話における感情認識(ERC)は交感神経と機械の相互作用の発達に不可欠である。 会話ビデオでは、感情は複数のモダリティ、すなわち音声、ビデオ、および文字起こしに現れる。 しかしながら、これらのモダリティの固有の特性から、マルチモーダルercは常に困難な仕事とみなされてきた。 既存のERC研究は、他の2つのモダリティを無視して、議論でテキスト情報を使うことに重点を置いている。 マルチモーダルアプローチを用いることで,感情認識精度の向上が期待できる。 そこで本研究では,視覚,音声,テキストのモーダリティから感情関連特徴を抽出するマルチモーダル融合ネットワーク(m2fnet)を提案する。 入力データの感情に富んだ潜在表現を結合するマルチヘッドアテンションベースの融合機構を採用している。 音声と視覚のモダリティから潜在特徴を抽出する新しい特徴抽出器を提案する。 提案する特徴抽出器は、適応マージンに基づく新しい三重項損失関数を用いて、音声および視覚データから感情関連特徴を学習する。 ERCの領域では、既存のメソッドは1つのベンチマークデータセットでうまく機能するが、他のベンチマークでは機能しない。 提案したM2FNetアーキテクチャは、よく知られたMELDおよびIEMOCAPデータセットの重み付き平均F1スコアにおいて、他の全ての手法よりも優れており、ERCにおける新しい最先端性能が設定されている。

Emotion Recognition in Conversations (ERC) is crucial in developing sympathetic human-machine interaction. In conversational videos, emotion can be present in multiple modalities, i.e., audio, video, and transcript. However, due to the inherent characteristics of these modalities, multi-modal ERC has always been considered a challenging undertaking. Existing ERC research focuses mainly on using text information in a discussion, ignoring the other two modalities. We anticipate that emotion recognition accuracy can be improved by employing a multi-modal approach. Thus, in this study, we propose a Multi-modal Fusion Network (M2FNet) that extracts emotion-relevant features from visual, audio, and text modality. It employs a multi-head attention-based fusion mechanism to combine emotion-rich latent representations of the input data. We introduce a new feature extractor to extract latent features from the audio and visual modality. The proposed feature extractor is trained with a novel adaptive margin-based triplet loss function to learn emotion-relevant features from the audio and visual data. In the domain of ERC, the existing methods perform well on one benchmark dataset but not on others. Our results show that the proposed M2FNet architecture outperforms all other methods in terms of weighted average F1 score on well-known MELD and IEMOCAP datasets and sets a new state-of-the-art performance in ERC.
翻訳日:2022-06-07 18:04:03 公開日:2022-06-05
# 画像スタックに基づくマルチパスSAR変化検出の自動回帰モデル

Autoregressive Model for Multi-Pass SAR Change Detection Based on Image Stacks ( http://arxiv.org/abs/2206.02278v1 )

ライセンス: Link先を確認
B. G. Palm, D. I. Alves, V. T. Vu, M. I. Pettersson, F. M. Bayer, R. J. Cintra, R. Machado, P. Dammert, H. Hellsten(参考訳) 変化検出は重要な合成開口レーダ(SAR)アプリケーションであり、通常、異なるタイミングで地上環境の変化を検出するために使用される。 従来、変更検出アルゴリズム(CDA)は主に異なる瞬間に検索される2つの合成開口レーダ(SAR)画像のために設計されている。 しかし、アルゴリズムのパフォーマンス向上により多くの画像を使用することができ、SAR変化検出の研究トピックとしてウィッチが登場している。 画像スタック情報は時系列データとして扱うことができ、自己回帰(ar)モデルによってモデル化することができる。 そこで本研究では,ARモデルを考慮した画像スタックに基づくSAR変化検出に関する初期の知見を示す。 画像スタック内の各画素位置に対するARモデルを適用し,CDAの基準画像として使用できる地上シーンの推定画像を得た。 実験の結果,ARモデルによる地景推定は正確であり,変化検出アプリケーションに使用できることがわかった。

Change detection is an important synthetic aperture radar (SAR) application, usually used to detect changes on the ground scene measurements in different moments in time. Traditionally, change detection algorithm (CDA) is mainly designed for two synthetic aperture radar (SAR) images retrieved at different instants. However, more images can be used to improve the algorithms performance, witch emerges as a research topic on SAR change detection. Image stack information can be treated as a data series over time and can be modeled by autoregressive (AR) models. Thus, we present some initial findings on SAR change detection based on image stack considering AR models. Applying AR model for each pixel position in the image stack, we obtained an estimated image of the ground scene which can be used as a reference image for CDA. The experimental results reveal that ground scene estimates by the AR models is accurate and can be used for change detection applications.
翻訳日:2022-06-07 18:01:11 公開日:2022-06-05
# ストラグラー・レジリエントな個人化フェデレーション学習

Straggler-Resilient Personalized Federated Learning ( http://arxiv.org/abs/2206.02078v1 )

ライセンス: Link先を確認
Isidoros Tziotis, Zebang Shen, Ramtin Pedarsani, Hamed Hassani and Aryan Mokhtari(参考訳) フェデレートラーニング(Federated Learning)は、プライバシと通信の制限を尊重しながら、クライアントの大きなネットワークに分散したサンプルからモデルをトレーニングする、新たな学習パラダイムである。 その成功にもかかわらず、連合学習はその分散した性質に関するいくつかの課題に直面している。 そこで本研究では,これら2つのハードルを同時に処理する,理論的な高速化を保証した新しいアルゴリズム手法を開発した。 (i)データ異質性、すなわち、データ分布がクライアント間で大きく異なる場合、及び (ii)システムの不均一性,すなわち,クライアントの計算能力は著しく異なっていた。 提案手法は,すべてのクライアントのデータを用いてグローバルな共通表現を見つけ,各クライアントに対してパーソナライズされたソリューションにつながるパラメータの集合を学習するために,表現学習理論からのアイデアに依存している。 さらに,その計算特性と統計的意義に基づいてクライアントを適応的に選択することにより,ストラグラーの効果を軽減し,サンプル複雑性の最適近似と対数高速化を実現する。 実験結果は,システムおよびデータヘテロジニアス環境において,代替のパーソナライズされたフェデレーションスキームよりも優れた手法を示した。

Federated Learning is an emerging learning paradigm that allows training models from samples distributed across a large network of clients while respecting privacy and communication restrictions. Despite its success, federated learning faces several challenges related to its decentralized nature. In this work, we develop a novel algorithmic procedure with theoretical speedup guarantees that simultaneously handles two of these hurdles, namely (i) data heterogeneity, i.e., data distributions can vary substantially across clients, and (ii) system heterogeneity, i.e., the computational power of the clients could differ significantly. Our method relies on ideas from representation learning theory to find a global common representation using all clients' data and learn a user-specific set of parameters leading to a personalized solution for each client. Furthermore, our method mitigates the effects of stragglers by adaptively selecting clients based on their computational characteristics and statistical significance, thus achieving, for the first time, near optimal sample complexity and provable logarithmic speedup. Experimental results support our theoretical findings showing the superiority of our method over alternative personalized federated schemes in system and data heterogeneous environments.
翻訳日:2022-06-07 17:36:11 公開日:2022-06-05
# 知識グラフ表現学習による新規キナーゼ-基質相互作用の予測

A knowledge graph representation learning approach to predict novel kinase-substrate interactions ( http://arxiv.org/abs/2206.02290v1 )

ライセンス: Link先を確認
Sachin Gavali, Karen Ross, Chuming Chen, Julie Cowart, Cathy H. Wu(参考訳) ヒトプロテオームは、相互作用するキナーゼと基質の広大なネットワークを含む。 いくつかのキナーゼは治療標的として非常に有用であることが証明されているが、大多数はまだ研究されていない。 本研究では,新しい知識グラフ表現学習手法を提案する。 提案手法では,iPTMnet,Protein Ontology,Gene Ontology,BioKGのデータを統合して構築したホスホプロテオミクス知識グラフを用いている。 この知識グラフにおけるキナーゼと基質の表現は、修正されたSkipGramまたはCBOWモデルと組み合わせたトリプル上のランダムウォークによって学習される。 これらの表現は教師付き分類モデルへの入力として使われ、未熟なキナーゼの新しい相互作用を予測する。 また, 予測された相互作用の予測後解析, およびリンプロテオミクス知識グラフのアブレーション分析を行い, 検討中のキナーゼの生物学的知見を得た。

The human proteome contains a vast network of interacting kinases and substrates. Even though some kinases have proven to be immensely useful as therapeutic targets, a majority are still understudied. In this work, we present a novel knowledge graph representation learning approach to predict novel interaction partners for understudied kinases. Our approach uses a phosphoproteomic knowledge graph constructed by integrating data from iPTMnet, Protein Ontology, Gene Ontology and BioKG. The representation of kinases and substrates in this knowledge graph are learned by performing directed random walks on triples coupled with a modified SkipGram or CBOW model. These representations are then used as an input to a supervised classification model to predict novel interactions for understudied kinases. We also present a post-predictive analysis of the predicted interactions and an ablation study of the phosphoproteomic knowledge graph to gain an insight into the biology of the understudied kinases.
翻訳日:2022-06-07 17:19:59 公開日:2022-06-05
# LDRNet: モバイルデバイス上でリアルタイムなドキュメントローカライズを実現する

LDRNet: Enabling Real-time Document Localization on Mobile Devices ( http://arxiv.org/abs/2206.02136v1 )

ライセンス: Link先を確認
Han Wu, Holland Qian, Huaming Wu(参考訳) モバイル機器におけるIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて普及しているが、ID盗難や詐欺のリスクが高まっている。 アイデンティティドキュメント保持者は、通常、インポスタを回避するためにオンラインビデオインタビューに参加する必要がある。 しかし、現在のIDVプロセスは、非効率で高価なオンラインステップバイステップガイダンスをサポートするために、追加の人的労働力に依存する。 既存のAIベースのアプローチのパフォーマンスは、モバイルデバイスのリアルタイムおよび軽量な要求を満たすことはできない。 本稿では,リアルタイムIDVのためのエッジインテリジェンス支援アプローチを設計することで,これらの課題に対処する。 本稿では,idvプロセスの応答性を向上させるために,モバイル機器用の新しい文書ローカライズモデルであるldrnetを提案する。 軽量なバックボーンネットワークに基づいて,ldrnet,コーナーポイント予測,ライン境界予測,ドキュメント分類のための3つの予測ブランチを構築した。 我々は,新たな補足的目標,等分割点を設計し,新しい損失関数Line Lossを用いて,アプローチの速度と精度を向上させる。 IDVプロセスに加えて、LDRNetはあらゆる種類のモバイルアプリケーションに対して効率的で信頼性の高いドキュメントローカライゼーションの代替手段である。 実証として、LDRNetと一般的な文書データセットのローカライズに関する一般的なアプローチを比較した。 実験の結果, LDRNetは最大790 FPSで47倍高速で動作し, シングルモデルおよびシングルスケールテストではJaccard Index(JI)に匹敵する性能を示した。

While Identity Document Verification (IDV) technology on mobile devices becomes ubiquitous in modern business operations, the risk of identity theft and fraud is increasing. The identity document holder is normally required to participate in an online video interview to circumvent impostors. However, the current IDV process depends on an additional human workforce to support online step-by-step guidance which is inefficient and expensive. The performance of existing AI-based approaches cannot meet the real-time and lightweight demands of mobile devices. In this paper, we address those challenges by designing an edge intelligence-assisted approach for real-time IDV. Aiming at improving the responsiveness of the IDV process, we propose a new document localization model for mobile devices, LDRNet, to Localize the identity Document in Real-time. On the basis of a lightweight backbone network, we build three prediction branches for LDRNet, the corner points prediction, the line borders prediction and the document classification. We design novel supplementary targets, the equal-division points, and use a new loss function named Line Loss, to improve the speed and accuracy of our approach. In addition to the IDV process, LDRNet is an efficient and reliable document localization alternative for all kinds of mobile applications. As a matter of proof, we compare the performance of LDRNet with other popular approaches on localizing general document datasets. The experimental results show that LDRNet runs at a speed up to 790 FPS which is 47x faster, while still achieving comparable Jaccard Index(JI) in single-model and single-scale tests.
翻訳日:2022-06-07 17:11:38 公開日:2022-06-05
# ガイド付き変形性アテンション付きリカレントビデオ再生変換器

Recurrent Video Restoration Transformer with Guided Deformable Attention ( http://arxiv.org/abs/2206.02146v1 )

ライセンス: Link先を確認
Jingyun Liang and Yuchen Fan and Xiaoyu Xiang and Rakesh Ranjan and Eddy Ilg and Simon Green and Jiezhang Cao and Kai Zhang and Radu Timofte and Luc Van Gool(参考訳) ビデオ復元は、複数の低品質フレームから複数の高品質フレームを復元することを目的としている。 既存のビデオ復元法は、通常、全てのフレームを並列に復元するか、フレームごとに再帰的に復元するかの2つの極端なケースに分類され、異なるメリットと欠点をもたらす。 典型的には、前者は時間情報融合の利点がある。 しかし、大きなモデルサイズと集中メモリ消費に苦しむ;後者はフレーム間でパラメータを共有するため、モデルサイズが比較的小さい;しかし、長距離の依存性モデリング能力と並列化性が欠けている。 本稿では,リカレントビデオ再生変換器であるRVRTを提案することによって,この2つの事例の利点を統合する。 RVRTは、グローバルにリカレントなフレームワーク内で、近隣のフレームを並列に処理し、モデルのサイズ、有効性、効率のよいトレードオフを達成する。 具体的には、rvrtはビデオを複数のクリップに分割し、前述したクリップ機能を使って次のクリップ機能を推定する。 各クリップ内では、異なるフレーム機能と暗黙の機能集約が共同で更新される。 異なるクリップにまたがって、ガイド付き変形可能なアテンションはクリップからクリップへのアライメントのために設計されており、推定されたクリップ全体から複数の関連する位置を予測し、アテンションメカニズムによってそれらの特徴を集約する。 ビデオスーパーレゾリューション、デブラリング、デノイジングに関する広範な実験により、提案されたrvrtは、モデルサイズ、メモリテスト、ランタイムのバランスのとれたベンチマークデータセットで最先端のパフォーマンスを達成していることが示された。

Video restoration aims at restoring multiple high-quality frames from multiple low-quality frames. Existing video restoration methods generally fall into two extreme cases, i.e., they either restore all frames in parallel or restore the video frame by frame in a recurrent way, which would result in different merits and drawbacks. Typically, the former has the advantage of temporal information fusion. However, it suffers from large model size and intensive memory consumption; the latter has a relatively small model size as it shares parameters across frames; however, it lacks long-range dependency modeling ability and parallelizability. In this paper, we attempt to integrate the advantages of the two cases by proposing a recurrent video restoration transformer, namely RVRT. RVRT processes local neighboring frames in parallel within a globally recurrent framework which can achieve a good trade-off between model size, effectiveness, and efficiency. Specifically, RVRT divides the video into multiple clips and uses the previously inferred clip feature to estimate the subsequent clip feature. Within each clip, different frame features are jointly updated with implicit feature aggregation. Across different clips, the guided deformable attention is designed for clip-to-clip alignment, which predicts multiple relevant locations from the whole inferred clip and aggregates their features by the attention mechanism. Extensive experiments on video super-resolution, deblurring, and denoising show that the proposed RVRT achieves state-of-the-art performance on benchmark datasets with balanced model size, testing memory and runtime.
翻訳日:2022-06-07 17:11:12 公開日:2022-06-05
# sealid:saimaa ringed seal再識別データセット

SealID: Saimaa ringed seal re-identification dataset ( http://arxiv.org/abs/2206.02260v1 )

ライセンス: Link先を確認
Ekaterina Nepovinnykh, Tuomas Eerola, Vincent Biard, Piia Mutka, Marja Niemi, Heikki K\"alvi\"ainen, Mervi Kunnasranta(参考訳) 野生生物カメラトラップとクラウドソースの画像素材は、絶滅危惧種の監視に新たな可能性をもたらす。 しかし、これらの手法が生み出す膨大な画像ボリュームは、研究者が手動で分析を行う自動システムを呼び出すような処理を通すのに圧倒的です。 もっとも注目を集めた分析タスクは個体の再同定であり、例えば動物の移動を研究したり、個体数を推定したりすることができる。 サイマア環アザラシ(フィンランド語:pusa hispida saimensis)はフィンランドのサイマア湖でのみ見られる絶滅危惧種であり、現存する数少ない淡水性アザラシの1つである。 帯状アザラシは、個々の個人に固有の永続的なペラージュパターンを持ち、個人の識別に使用することができる。 リングパターンとペラージュの他の部分との外観やコントラストが変化し、アザラシの変形性がさらに悪化し、サイマア環アザラシの再識別作業は非常に困難となり、最先端の再識別方法を評価するための優れたベンチマークを提供する。 そこで本研究では,サイマーリングシール画像(SealID)データセット(N=57)を研究目的で公開する。 本稿では,データセットについて述べるとともに,再同定手法の評価プロトコルを提案し,HotSpotterとNORPPAの2つのベースライン手法の結果について述べる。 SealIDデータセットが公開されている。

Wildlife camera traps and crowd-sourced image material provide novel possibilities to monitor endangered animal species. However, massive image volumes that these methods produce are overwhelming for researchers to go through manually which calls for automatic systems to perform the analysis. The analysis task that has gained the most attention is the re-identification of individuals, as it allows, for example, to study animal migration or to estimate the population size. The Saimaa ringed seal (Pusa hispida saimensis) is an endangered subspecies only found in the Lake Saimaa, Finland, and is one of the few existing freshwater seal species. Ringed seals have permanent pelage patterns that are unique to each individual which can be used for the identification of individuals. Large variation in poses further exacerbated by the deformable nature of seals together with varying appearance and low contrast between the ring pattern and the rest of the pelage makes the Saimaa ringed seal re-identification task very challenging, providing a good benchmark to evaluate state-of-the-art re-identification methods. Therefore, we make our Saimaa ringed seal image (SealID) dataset (N=57) publicly available for research purposes. In this paper, the dataset is described, the evaluation protocol for re-identification methods is proposed, and the results for two baseline methods HotSpotter and NORPPA are provided. The SealID dataset has been made publicly available.
翻訳日:2022-06-07 17:10:45 公開日:2022-06-05
# PEER:タンパク質配列理解のための総合的マルチタスクベンチマーク

PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding ( http://arxiv.org/abs/2206.02096v1 )

ライセンス: Link先を確認
Minghao Xu, Zuobai Zhang, Jiarui Lu, Zhaocheng Zhu, Yangtian Zhang, Chang Ma, Runcheng Liu, Jian Tang(参考訳) 現在、タンパク質の様々なタスク(またはデータセット)において、ディープラーニングメソッドが著しく進歩しているのを目撃しています。 しかし、異なる方法のパフォーマンスを評価する標準ベンチマークが欠如しており、この分野におけるディープラーニングの進歩を妨げている。 本稿では,タンパク質配列理解のための包括的かつマルチタスク・ベンチマークであるpeerを提案する。 peerは、タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-タンパク質相互作用予測、タンパク質-リガンド相互作用予測などの多様なタンパク質理解タスクを提供する。 我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。 さらに,マルチタスク学習環境下でのこれらの手法の性能についても検討する。 実験の結果、大規模事前学習したタンパク質言語モデルが、ほとんどの個々のタスクで最高のパフォーマンスを達成し、複数のタスクを共同トレーニングすることで、パフォーマンスがさらに向上することが示された。 このベンチマークのデータセットとソースコードは近くオープンソース化される。

We are now witnessing significant progress of deep learning methods in a variety of tasks (or datasets) of proteins. However, there is a lack of a standard benchmark to evaluate the performance of different methods, which hinders the progress of deep learning in this field. In this paper, we propose such a benchmark called PEER, a comprehensive and multi-task benchmark for Protein sEquence undERstanding. PEER provides a set of diverse protein understanding tasks including protein function prediction, protein localization prediction, protein structure prediction, protein-protein interaction prediction, and protein-ligand interaction prediction. We evaluate different types of sequence-based methods for each task including traditional feature engineering approaches, different sequence encoding methods as well as large-scale pre-trained protein language models. In addition, we also investigate the performance of these methods under the multi-task learning setting. Experimental results show that large-scale pre-trained protein language models achieve the best performance for most individual tasks, and jointly training multiple tasks further boosts the performance. The datasets and source codes of this benchmark will be open-sourced soon.
翻訳日:2022-06-07 17:03:04 公開日:2022-06-05
# DeeprETA: 大規模なETA後処理システム

DeeprETA: An ETA Post-processing System at Scale ( http://arxiv.org/abs/2206.02127v1 )

ライセンス: Link先を確認
Xinyu Hu, Tanmay Binaykiya, Eric Frank, Olcay Cirit(参考訳) Estimated Time of Arrival (ETA)は、デリバリーと配車プラットフォームにおいて重要な役割を果たす。 例えばuberは、etasを使って運賃の計算、ピックアップ時間の推定、ドライバーとのマッチング、配達計画などを行っている。 一般的に使用される経路計画アルゴリズムは、最高の経路で条件付きETAを予測しているが、実際の経路が事前に分かっていない場合には、そのようなETA推定は信頼できない。 本稿では,経路計画アルゴリズムにより生成した遅延ETAネットワーク(DeeprETA)を改良したETA後処理システムについて述べる。 オフライン実験とオンラインテストにより、DeeprETAによる後処理は平均および中央値の絶対誤差で測定されたナイーブETAの精度を大幅に改善することが示された。 さらに、DeeprETAによる後処理は、競合するベースライン回帰モデルよりも低い誤差が得られることを示す。

Estimated Time of Arrival (ETA) plays an important role in delivery and ride-hailing platforms. For example, Uber uses ETAs to calculate fares, estimate pickup times, match riders to drivers, plan deliveries, and more. Commonly used route planning algorithms predict an ETA conditioned on the best available route, but such ETA estimates can be unreliable when the actual route taken is not known in advance. In this paper, we describe an ETA post-processing system in which a deep residual ETA network (DeeprETA) refines naive ETAs produced by a route planning algorithm. Offline experiments and online tests demonstrate that post-processing by DeeprETA significantly improves upon the accuracy of naive ETAs as measured by mean and median absolute error. We further show that post-processing by DeeprETA attains lower error than competitive baseline regression models.
翻訳日:2022-06-07 17:02:47 公開日:2022-06-05
# 無限水平マルコフ決定過程の形式的検証解法

Formally Verified Solution Methods for Infinite-Horizon Markov Decision Processes ( http://arxiv.org/abs/2206.02169v1 )

ライセンス: Link先を確認
Maximilian Sch\"afeller and Mohammad Abdulaziz(参考訳) 対話型定理証明器Isabelle/HOLにおいてマルコフ決定過程(MDP)を解くための実行可能なアルゴリズムを正式に検証する。 確率論の既存の定式化に基づき,無限ホライゾン問題に対する期待総報酬基準を解析する。 我々はベルマン方程式を定式化し, 最適政策が存在する条件を与える。 この分析に基づいて,表型MDPを解く動的プログラミングアルゴリズムを検証する。 標準化された実装を実験により評価し,実用性を示す。 さらに,効率的な非検証実装と組み合わせることで,最先端システムと競合し,性能を上回ることができることを示す。

We formally verify executable algorithms for solving Markov decision processes (MDPs) in the interactive theorem prover Isabelle/HOL. We build on existing formalizations of probability theory to analyze the expected total reward criterion on infinite-horizon problems. Our developments formalize the Bellman equation and give conditions under which optimal policies exist. Based on this analysis, we verify dynamic programming algorithms to solve tabular MDPs. We evaluate the formally verified implementations experimentally on standard problems and show they are practical. Furthermore, we show that, combined with efficient unverified implementations, our system can compete with and even outperform state-of-the-art systems.
翻訳日:2022-06-07 16:56:23 公開日:2022-06-05
# ディープエンコーダと多重浅層デコーダを用いた多言語ニューラルマシン翻訳

Multilingual Neural Machine Translation with Deep Encoder and Multiple Shallow Decoders ( http://arxiv.org/abs/2206.02079v1 )

ライセンス: Link先を確認
Xiang Kong, Adithya Renduchintala, James Cross, Yuqing Tang, Jiatao Gu, Xian Li(参考訳) 近年の多言語翻訳の研究は、高容量の深層トランスフォーマモデルを用いた多言語ベースラインよりも翻訳品質が向上している。 しかし、このアプローチによって導入された追加のレイテンシとメモリコストは、効率に制約のあるアプリケーションでは受け入れられないかもしれない。 近年,深部エンコーダと浅部デコーダ(DESD)を用いて翻訳品質を維持しながら推論遅延を低減できることがバイリンガル翻訳において示されている。 複数対1の翻訳では、このアプローチを使って品質を犠牲にすることなくデコーダの速度を向上できるが、一対多の翻訳では浅いデコーダが明らかな品質低下を引き起こす。 そこで本研究では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。 具体的には、2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。

Recent work in multilingual translation advances translation quality surpassing bilingual baselines using deep transformer models with increased capacity. However, the extra latency and memory costs introduced by this approach may make it unacceptable for efficiency-constrained applications. It has recently been shown for bilingual translation that using a deep encoder and shallow decoder (DESD) can reduce inference latency while maintaining translation quality, so we study similar speed-accuracy trade-offs for multilingual translation. We find that for many-to-one translation we can indeed increase decoder speed without sacrificing quality using this approach, but for one-to-many translation, shallow decoders cause a clear quality drop. To ameliorate this drop, we propose a deep encoder with multiple shallow decoders (DEMSD) where each shallow decoder is responsible for a disjoint subset of target languages. Specifically, the DEMSD model with 2-layer decoders is able to obtain a 1.8x speedup on average compared to a standard transformer model with no drop in translation quality.
翻訳日:2022-06-07 16:33:48 公開日:2022-06-05
# 混合注意機構を持つゼロショットインテント分類のための簡易メタラーニングパラダイム

A Simple Meta-learning Paradigm for Zero-shot Intent Classification with Mixture Attention Mechanism ( http://arxiv.org/abs/2206.02179v1 )

ライセンス: Link先を確認
Han Liu, Siyang Zhao, Xiaotong Zhang, Feng Zhang, Junjie Sun, Hong Yu, Xianchao Zhang(参考訳) ゼロショットインテント分類は対話システムにおいて不可欠で困難な課題であり、注釈付きトレーニングデータなしで、無知なインテントを高速に処理することを目的としている。 より満足な性能を得るためには、より優れた発話特徴の抽出とモデルの一般化能力の強化という2つの側面がある。 本稿では,ゼロショット意図分類のためのシンプルなメタ学習パラダイムを提案する。 発話の意味表現を改善するために,分布的シグネチャの注意と多層パーセプトロンの注意を同時に活用し,関連する単語出現パターンを符号化する混合注意機構を提案する。 参照クラスから未知クラスへのモデルの伝達能力を強化するために,参照カテゴリ上で複数のゼロショット分類タスクをシミュレートしてモデルを訓練するメタラーニング戦略を用いてゼロショットインテント分類を再構成し,未知クラスを模倣するメタ適応手順を用いてモデル一般化能力を促進する。 異なる言語における2つの実世界の対話データセットに関する広範囲な実験は、標準および一般化されたゼロショット意図分類タスクにおいて、我々のモデルが他の強力なベースラインよりも優れていることを示している。

Zero-shot intent classification is a vital and challenging task in dialogue systems, which aims to deal with numerous fast-emerging unacquainted intents without annotated training data. To obtain more satisfactory performance, the crucial points lie in two aspects: extracting better utterance features and strengthening the model generalization ability. In this paper, we propose a simple yet effective meta-learning paradigm for zero-shot intent classification. To learn better semantic representations for utterances, we introduce a new mixture attention mechanism, which encodes the pertinent word occurrence patterns by leveraging the distributional signature attention and multi-layer perceptron attention simultaneously. To strengthen the transfer ability of the model from seen classes to unseen classes, we reformulate zero-shot intent classification with a meta-learning strategy, which trains the model by simulating multiple zero-shot classification tasks on seen categories, and promotes the model generalization ability with a meta-adapting procedure on mimic unseen categories. Extensive experiments on two real-world dialogue datasets in different languages show that our model outperforms other strong baselines on both standard and generalized zero-shot intent classification tasks.
翻訳日:2022-06-07 16:31:33 公開日:2022-06-05
# 静的フィンガープリント,POSタグおよび屈折言語:ポーランド語を事例として

Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study in Polish ( http://arxiv.org/abs/2206.02208v1 )

ライセンス: Link先を確認
Maciej Eder and Rafa{\l}. L. G\'orski(参考訳) テクスチャ的調査では、最も頻繁な単語(MFW)と文字n-gramの頻度は他のスタイルマーカーよりも優れており、その性能は言語によって大きく異なる。 屈折言語では語尾が顕著な役割を果たすため、汎用的なテキストトークン化では異なる語形が認識できない。 無数の単語形式は周波数をスパースにし、ほとんどの統計的手続きを複雑にする。 おそらく、補題化や構文解析などのNLP技術の適用により、分類性能が向上する可能性がある。 本研究の目的は,レキシスと文法における選択の自由度という根本的な問題に対処するため,著者プロファイル認識における文法的特徴(POSタグn-gramで評価される)と補題形式の有用性を検討することである。 ポーランドの小説のコーパスを用いて,様々な種類の語彙および構文的スタイルマーカーの分類精度を比較するために,教師付き著者帰属ベンチマークを行った。 posタグや補間フォームのパフォーマンスが語彙マーカーよりも悪名高いとしても、違いはそれほど大きくなく、caを超えることはなかった。 15%.

In stylometric investigations, frequencies of the most frequent words (MFWs) and character n-grams outperform other style-markers, even if their performance varies significantly across languages. In inflected languages, word endings play a prominent role, and hence different word forms cannot be recognized using generic text tokenization. Countless inflected word forms make frequencies sparse, making most statistical procedures complicated. Presumably, applying one of the NLP techniques, such as lemmatization and/or parsing, might increase the performance of classification. The aim of this paper is to examine the usefulness of grammatical features (as assessed via POS-tag n-grams) and lemmatized forms in recognizing authorial profiles, in order to address the underlying issue of the degree of freedom of choice within lexis and grammar. Using a corpus of Polish novels, we performed a series of supervised authorship attribution benchmarks, in order to compare the classification accuracy for different types of lexical and syntactic style-markers. Even if the performance of POS-tags as well as lemmatized forms was notoriously worse than that of lexical markers, the difference was not substantial and never exceeded ca. 15%.
翻訳日:2022-06-07 16:31:11 公開日:2022-06-05
# アノテーションエラー検出:過去と現在を解析してよりコヒーレントな未来へ

Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future ( http://arxiv.org/abs/2206.02280v1 )

ライセンス: Link先を確認
Jan-Christoph Klie, Bonnie Webber, Iryna Gurevych(参考訳) アノテーション付きデータは、機械学習モデルのトレーニングと評価のための自然言語処理において重要な要素である。 したがって、アノテーションが高品質であることは非常に望ましい。 しかし最近の研究は、いくつかの一般的なデータセットが驚くほどの量のアノテーションエラーや矛盾を含んでいることを示している。 この問題を軽減するため,長年にわたり,アノテーション誤り検出手法が数多く考案されてきた。 研究者たちは、彼らのアプローチが新しく導入されたデータセットでうまく機能することを示したが、彼らのメソッドを以前の作業や同じデータセットと比較することはめったにない。 これにより、メソッドの一般的なパフォーマンスに対する強い関心が生まれ、その強みと弱みを突き止めるのが難しくなる。 そこで,アノテーションの潜在的な誤りを検出するための18の手法を再実装し,トークンやスパンラベリングと同様にテキスト分類のための9つの英語データセットで評価する。 さらに,アノテーション誤り検出タスク,評価プロトコル,一般的なベストプラクティスの新しい形式化を含む,統一的な評価設定を定義する。 今後の研究と再現性を促進するため,我々はデータセットと実装を,使いやすいオープンソースソフトウェアパッケージとしてリリースする。

Annotated data is an essential ingredient in natural language processing for training and evaluating machine learning models. It is therefore very desirable for the annotations to be of high quality. Recent work, however, has shown that several popular datasets contain a surprising amount of annotation errors or inconsistencies. To alleviate this issue, many methods for annotation error detection have been devised over the years. While researchers show that their approaches work well on their newly introduced datasets, they rarely compare their methods to previous work or on the same datasets. This raises strong concerns on methods' general performance and makes it difficult to asses their strengths and weaknesses. We therefore reimplement 18 methods for detecting potential annotation errors and evaluate them on 9 English datasets for text classification as well as token and span labeling. In addition, we define a uniform evaluation setup including a new formalization of the annotation error detection task, evaluation protocol and general best practices. To facilitate future research and reproducibility, we release our datasets and implementations in an easy-to-use and open source software package.
翻訳日:2022-06-07 16:30:49 公開日:2022-06-05
# 製品安全イディオム:製品安全性とリスク評価のための因果ベイズネットワーク構築方法

Product safety idioms: a method for building causal Bayesian networks for product safety and risk assessment ( http://arxiv.org/abs/2206.02144v1 )

ライセンス: Link先を確認
Joshua Hunte, Martin Neil, Norman Fenton(参考訳) イディオムは小さく再利用可能なベイズネットワーク(bn)フラグメントであり、不確定な推論のジェネリックタイプを表す。 本稿では,データと知識を組み合わせた製品安全性とリスク評価のための因果BNを構築するために,イディオムをどのように利用できるかを示す。 当社が導入する製品安全イディオムは、幅広い製品に対する安全性とリスクを評価するためのbnモデルを構築するのに十分であることを示す。 その結果得られたモデルは、限定された(あるいは全く)製品テストデータがある場合でも、安全規制当局や製品製造者が使用できる。

Idioms are small, reusable Bayesian network (BN) fragments that represent generic types of uncertain reasoning. This paper shows how idioms can be used to build causal BNs for product safety and risk assessment that use a combination of data and knowledge. We show that the specific product safety idioms that we introduce are sufficient to build full BN models to evaluate safety and risk for a wide range of products. The resulting models can be used by safety regulators and product manufacturers even when there are limited (or no) product testing data.
翻訳日:2022-06-07 16:27:11 公開日:2022-06-05
# 多チャンネルビデオ言語検索のための事前制約付きコントラストモデルの高速適応に向けて

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval ( http://arxiv.org/abs/2206.02082v1 )

ライセンス: Link先を確認
Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang(参考訳) マルチチャネル・ビデオ言語検索では、異なるモダリティ(ビデオ+質問、ビデオ+音声など)からの情報をモデルが理解し、実世界の知識がビデオとテキスト応答やクエリを正しくリンクする必要がある。 幸いなことに、マルチモーダルコントラストモデルは画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されており、例えばCLIP(英語版)やテキストコントラストモデルは、SimCSE(英語版)のような差別的な文埋め込みを生成する強力な能力のために、最近広く研究されている。 それらの能力は、マルチチャンネルビデオ言語検索によって正確に必要とされる。 しかし、これらの2行のモデルをマルチチャンネルビデオ言語検索スタイルのタスクに迅速に適用する方法は明確ではない。 本稿では,ビデオの表現方法と映像とテキスト情報を融合する方法という,2つの軸を持つ基本モデル設計空間を同定する。 近年の手法の分類に基づいて,連続特徴ベクトルや離散テキストトークンを用いた映像表現の選択肢を検討するとともに,マルチモーダルトランスフォーマタや事前学習されたコントラストテキストモデルについて検討する。 5つのビデオ言語データセットで4つの組み合わせを広範囲に評価した。 個別のテキストトークンと事前訓練されたコントラストテキストモデルが組み合わさって、最高のパフォーマンスが得られます。 この組み合わせは、何百万ものビデオ言語データに対する追加のトレーニングなしで、iVQAデータセットの最先端のパフォーマンスを達成できる。 さらなる分析により、動画をテキストトークンとして表現することは、テキストモデルと自然に整合するテキストトークンで重要な視覚情報をキャプチャし、テキストモデルは、コントラストプリトレーニングプロセス中に豊富な知識を得たためであることが示された。 4つの変種について得られたすべての経験的分析は、事前訓練されたコントラストモデルの豊富な知識を活用するための将来の研究のための確固たる基礎を確立します。

Multi-channel video-language retrieval require models to understand information from different modalities (e.g. video+question, video+speech) and real-world knowledge to correctly link a video with a textual response or query. Fortunately, multimodal contrastive models have been shown to be highly effective at aligning entities in images/videos and text, e.g., CLIP; text contrastive models have been extensively studied recently for their strong ability of producing discriminative sentence embeddings, e.g., SimCSE. Their abilities are exactly needed by multi-channel video-language retrieval. However, it is not clear how to quickly adapt these two lines of models to multi-channel video-language retrieval-style tasks. In this paper, we identify a principled model design space with two axes: how to represent videos and how to fuse video and text information. Based on categorization of recent methods, we investigate the options of representing videos using continuous feature vectors or discrete text tokens; for the fusion method, we explore a multimodal transformer or a pretrained contrastive text model. We extensively evaluate the four combinations on five video-language datasets. We surprisingly find that discrete text tokens coupled with a pretrained contrastive text model yields the best performance. This combination can even outperform state-of-the-art on the iVQA dataset without the additional training on millions of video-language data. Further analysis shows that this is because representing videos as text tokens captures the key visual information with text tokens that are naturally aligned with text models and the text models obtained rich knowledge during contrastive pretraining process. All the empirical analysis we obtain for the four variants establishes a solid foundation for future research on leveraging the rich knowledge of pretrained contrastive models.
翻訳日:2022-06-07 16:22:42 公開日:2022-06-05
# 栄養・食品グループに基づく画像データベースの構築に向けて

Towards the Creation of a Nutrition and Food Group Based Image Database ( http://arxiv.org/abs/2206.02086v1 )

ライセンス: Link先を確認
Zeman Shao, Jiangpeng He, Ya-Yuan Yu, Luotao Lin, Alexandra Cowan, Heather Eicher-Miller, Fengqing Zhu(参考訳) 食品分類は、食物評価において報告される食品に含まれる栄養素の分析に重要である。 モバイルおよびウェアラブルセンサーの進歩と、新しいイメージベース手法、特にディープラーニングに基づくアプローチが組み合わさって、食事摂取量を評価するための食品分類の精度を向上させるという大きな約束が示された。 しかし、これらの手法はデータ収集であり、その性能は食品分類モデルを訓練するための利用可能なデータセットの量と品質に大きく依存している。 既存の食品画像データセットは、精細な食品分類や以下の栄養分析には適さない。 本稿では,食品の栄養素プロファイルとの関連性を高めるために,視覚的および階層的食品分類情報を含む栄養・食品群ベースの画像データベースを作成するための枠組みを提案する。 We design a protocol for linking food group based food codes in the U.S. Department of Agriculture's (USDA) Food and Nutrient Database for Dietary Studies (FNDDS) to a food image dataset, and implement a web-based annotation tool for efficient deployment of this protocol.Our proposed method is used to build a nutrition and food group based image database including 16,114 food images representing the 74 most frequently consumed What We Eat in America (WWEIA) food sub-categories in the United States with 1,865 USDA food code matched to a nutrient database, the USDA FNDDS nutrient database.

Food classification is critical to the analysis of nutrients comprising foods reported in dietary assessment. Advances in mobile and wearable sensors, combined with new image based methods, particularly deep learning based approaches, have shown great promise to improve the accuracy of food classification to assess dietary intake. However, these approaches are data-hungry and their performances are heavily reliant on the quantity and quality of the available datasets for training the food classification model. Existing food image datasets are not suitable for fine-grained food classification and the following nutrition analysis as they lack fine-grained and transparently derived food group based identification which are often provided by trained dietitians with expert domain knowledge. In this paper, we propose a framework to create a nutrition and food group based image database that contains both visual and hierarchical food categorization information to enhance links to the nutrient profile of each food. We design a protocol for linking food group based food codes in the U.S. Department of Agriculture's (USDA) Food and Nutrient Database for Dietary Studies (FNDDS) to a food image dataset, and implement a web-based annotation tool for efficient deployment of this protocol.Our proposed method is used to build a nutrition and food group based image database including 16,114 food images representing the 74 most frequently consumed What We Eat in America (WWEIA) food sub-categories in the United States with 1,865 USDA food code matched to a nutrient database, the USDA FNDDS nutrient database.
翻訳日:2022-06-07 16:22:11 公開日:2022-06-05
# 形状制約型多段CNNによるX線画像の正確なスコリアス頂点位置推定

Accurate Scoliosis Vertebral Landmark Localization on X-ray Images via Shape-constrained Multi-stage Cascaded CNNs ( http://arxiv.org/abs/2206.02087v1 )

ライセンス: Link先を確認
Zhiwei Wang, Jinxin Lv, Yunqiao Yang, Yuanhuai Liang, Yi Lin, Qiang Li, Xin Li, and Xin Yang(参考訳) 椎骨のランドマークの局在は、脊椎関連臨床応用において重要なステップであり、17の椎骨のコーナーポイントを検出する必要がある。 しかし、隣接するランドマークは、脊椎の均質な外観のためにお互いを混乱させることが多く、脊椎のランドマークの局在は非常に困難である。 本稿では,1つのタスクを2つのステップに分割する多段カスケード畳み込みニューラルネットワーク(cnns)を提案する。 各ステップのランドマークは、カスケードCNNを介してオフセットを回帰することで、初期化点の集合から徐々に位置する。 主成分分析(PCA)は、脊椎の相互の魅力に抵抗するためにオフセット回帰における形状制約を維持するために用いられる。 胸椎前方x線画像609点からなり, 胸椎と腰椎からなる17個の椎骨を含むaasceデータセットを用いて, 椎体形状解析を行った。 実験の結果, 椎骨のランドマーク位置は3.2e-3から7.2e-4に低下した。

Vertebral landmark localization is a crucial step for variant spine-related clinical applications, which requires detecting the corner points of 17 vertebrae. However, the neighbor landmarks often disturb each other for the homogeneous appearance of vertebrae, which makes vertebral landmark localization extremely difficult. In this paper, we propose multi-stage cascaded convolutional neural networks (CNNs) to split the single task into two sequential steps, i.e., center point localization to roughly locate 17 center points of vertebrae, and corner point localization to find 4 corner points for each vertebra without distracted by others. Landmarks in each step are located gradually from a set of initialized points by regressing offsets via cascaded CNNs. Principal Component Analysis (PCA) is employed to preserve a shape constraint in offset regression to resist the mutual attraction of vertebrae. We evaluate our method on the AASCE dataset that consists of 609 tight spinal anterior-posterior X-ray images and each image contains 17 vertebrae composed of the thoracic and lumbar spine for spinal shape characterization. Experimental results demonstrate our superior performance of vertebral landmark localization over other state-of-the-arts with the relative error decreasing from 3.2e-3 to 7.2e-4.
翻訳日:2022-06-07 16:21:46 公開日:2022-06-05
# LiDARセマンティックセグメンテーションのためのポイント・ツー・ボクセル知識蒸留法

Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2206.02099v1 )

ライセンス: Link先を確認
Yuenan Hou, Xinge Zhu, Yuexin Ma, Chen Change Loy, and Yikang Li(参考訳) 本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。 以前の蒸留アプローチを直接使用すると、点雲の本質的な問題、すなわちスパーシティ、ランダム性、密度の変化により、結果が劣る。 本稿では,上記の問題に対処するために,隠れた知識を点レベルとボクセルレベルの両方から伝達するPVD(Point-to-Voxel Knowledge Distillation)を提案する。 具体的には,まず,ポイントワイズ蒸留とボクセルワイズ蒸留を併用し,スパース監視信号を補完する。 そして, 構造情報をよりよく活用するために, 点群全体を複数のスーパーボクセルに分割し, より頻度の低いクラスや遠方オブジェクトを含むスーパーボクセルをサンプリングする難易度の高いサンプリング戦略を設計する。 これらのスーパーボクセル上では, 点とボクセルの類似性情報により, 周辺環境の構造情報をよりよく把握できる点間親和性蒸留法を提案する。 我々は2つの人気のあるLiDARセグメンテーションベンチマーク、すなわちnuScenesとSemanticKITTIで広範囲にわたる実験を行った。 いずれのベンチマークにおいても,我々のpvdは,シリンダー3d,spvnas,minkowskinetという3つの代表的なバックボーンに対して,従来の蒸留アプローチを大きく上回っている。 特に、難易度の高いnuScenesとSemanticKITTIデータセットでは、競合するCylinder3Dモデルで約75%のMAC削減と2倍の高速化を実現し、SemanticKITTIリーダーボードで上位1位となる。 私たちのコードはhttps://github.com/cardwing/Codes-for-PVKDで利用可能です。

This article addresses the problem of distilling knowledge from a large teacher model to a slim student network for LiDAR semantic segmentation. Directly employing previous distillation approaches yields inferior results due to the intrinsic challenges of point cloud, i.e., sparsity, randomness and varying density. To tackle the aforementioned problems, we propose the Point-to-Voxel Knowledge Distillation (PVD), which transfers the hidden knowledge from both point level and voxel level. Specifically, we first leverage both the pointwise and voxelwise output distillation to complement the sparse supervision signals. Then, to better exploit the structural information, we divide the whole point cloud into several supervoxels and design a difficulty-aware sampling strategy to more frequently sample supervoxels containing less-frequent classes and faraway objects. On these supervoxels, we propose inter-point and inter-voxel affinity distillation, where the similarity information between points and voxels can help the student model better capture the structural information of the surrounding environment. We conduct extensive experiments on two popular LiDAR segmentation benchmarks, i.e., nuScenes and SemanticKITTI. On both benchmarks, our PVD consistently outperforms previous distillation approaches by a large margin on three representative backbones, i.e., Cylinder3D, SPVNAS and MinkowskiNet. Notably, on the challenging nuScenes and SemanticKITTI datasets, our method can achieve roughly 75% MACs reduction and 2x speedup on the competitive Cylinder3D model and rank 1st on the SemanticKITTI leaderboard among all published algorithms. Our code is available at https://github.com/cardwing/Codes-for-PVKD.
翻訳日:2022-06-07 16:21:24 公開日:2022-06-05
# contraclip: コントラスト文のペアによる解釈可能なgan生成

ContraCLIP: Interpretable GAN generation driven by pairs of contrasting sentences ( http://arxiv.org/abs/2206.02104v1 )

ライセンス: Link先を確認
Christos Tzelepis, James Oldfield, Georgios Tzimiropoulos, Ioannis Patras(参考訳) この研究は、事前学習されたGANの潜在空間における非線形解釈パスをモデルに依存しない方法で発見する問題に対処する。 提案手法では,学習可能な潜在パスの符号化に必要な解釈の限界として機能するセマンティックダイポールという,対照的なセマンティックスを持つ自然言語文の組によって,この発見を駆動する。 事前訓練されたCLIPエンコーダを使用することで、文は視覚言語空間に投影され、ダイポールとして機能し、RBFベースのワープ関数は、各セマンティックダイポールに対して1つの非線形方向パスを定義する。 視覚言語埋め込み空間における所望の経路に沿って変化を起こすGANの潜伏空間の経路を発見する目的を定義することによって、基礎となる生成因子を制御し、最先端の作業の限界に対処する直感的な方法を提供する。 a) それらは典型的には特定のGANアーキテクチャ(すなわちStyleGAN)に適合する。 b) 画像埋め込みにおける操作対象の相対位置及び原画像の相対位置及び画像の相対位置及びテキスト埋め込みを無視する。 c) 急激な画像操作を誘導し、低密度の領域に迅速に到達し、画像品質が低く、生成因子の限定的な制御を提供する。 私たちは、2つの事前訓練されたganでクレームを実証する広範囲な質的、定量的な結果を提供し、コードと事前訓練済みモデルを以下の形で公開しています。

This work addresses the problem of discovering non-linear interpretable paths in the latent space of pre-trained GANs in a model-agnostic manner. In the proposed method, the discovery is driven by a set of pairs of natural language sentences with contrasting semantics, named semantic dipoles, that serve as the limits of the interpretation that we require by the trainable latent paths to encode. By using the pre-trained CLIP encoder, the sentences are projected into the vision-language space, where they serve as dipoles, and where RBF-based warping functions define a set of non-linear directional paths, one for each semantic dipole, allowing in this way traversals from one semantic pole to the other. By defining an objective that discovers paths in the latent space of GANs that generate changes along the desired paths in the vision-language embedding space, we provide an intuitive way of controlling the underlying generative factors and address some of the limitations of the state-of-the-art works, namely, that a) they are typically tailored to specific GAN architectures (i.e., StyleGAN), b) they disregard the relative position of the manipulated and the original image in the image embedding and the relative position of the image and the text embeddings, and c) they lead to abrupt image manipulations and quickly arrive at regions of low density and, thus, low image quality, providing limited control of the generative factors. We provide extensive qualitative and quantitative results that demonstrate our claims with two pre-trained GANs, and make the code and the pre-trained models publicly available at: https://github.com/chi0tzp/ContraCLIP
翻訳日:2022-06-07 16:20:49 公開日:2022-06-05
# 木の森は見えない:ビデオ内のオブジェクトをよりよく分類するために複数の視点を集約する

Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to Better Classify Objects in Videos ( http://arxiv.org/abs/2206.02116v1 )

ライセンス: Link先を確認
Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim(参考訳) 近年,長い尾の認識と物体追跡が個別に大きく進歩している。 TAOベンチマークは、2つの長い尾を持つ物体追跡の混合を示し、現実世界の側面をさらに反映した。 これまでのソリューションでは、長い尾の分布に堅牢性を示す検出器を採用しており、フレームごとの結果が導出されている。 そして、時間的に独立した検出を組み合わせてトラックレットをファイナライズする追跡アルゴリズムを使用した。 しかし,この手法はシーンの時間的変化を考慮に入れなかったため,ビデオの非一貫性な分類結果が全体の性能を低下させた。 本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。 ビデオ中のスパースアノテーションに対処するため,データ効率を最大化できるトラックレットの拡張を提案する。 セット分類器は既存のオブジェクトトラッカにプラグイン・アンド・プレイ可能であり、ロングテールオブジェクトトラッキングの性能が大幅に向上する。 ResNet-101の上のQDTrackにメソッドをアタッチするだけで、TAO検証とテストセットでそれぞれ19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。

Recently, both long-tailed recognition and object tracking have made great advances individually. TAO benchmark presented a mixture of the two, long-tailed object tracking, in order to further reflect the aspect of the real-world. To date, existing solutions have adopted detectors showing robustness in long-tailed distributions, which derive per-frame results. Then, they used tracking algorithms that combine the temporally independent detections to finalize tracklets. However, as the approaches did not take temporal changes in scenes into account, inconsistent classification results in videos led to low overall performance. In this paper, we present a set classifier that improves accuracy of classifying tracklets by aggregating information from multiple viewpoints contained in a tracklet. To cope with sparse annotations in videos, we further propose augmentation of tracklets that can maximize data efficiency. The set classifier is plug-and-playable to existing object trackers, and highly improves the performance of long-tailed object tracking. By simply attaching our method to QDTrack on top of ResNet-101, we achieve the new state-of-the-art, 19.9% and 15.7% TrackAP_50 on TAO validation and test sets, respectively.
翻訳日:2022-06-07 16:19:50 公開日:2022-06-05
# MPANet: 赤外線小ターゲット検出のためのマルチパッチアテンション

MPANet: Multi-Patch Attention For Infrared Small Target object Detection ( http://arxiv.org/abs/2206.02120v1 )

ライセンス: Link先を確認
Ao Wang, Wei Li, Xin Wu, Zhanchao Huang, and Ran Tao(参考訳) 赤外線小目標検出(ISTD)が注目され,様々な分野に応用されている。 赤外線ターゲットの小型化と複雑な背景からのノイズ干渉のため、畳み込みニューラルネットワーク(CNN)を用いたISTDの性能は制限されている。 さらに、長距離依存特徴をバニラcnnで符号化できないという構成主義者は、複雑なシナリオにおいてターゲットの形状や位置を捕捉する強固さを損なう。 この目的のために、アキシャルアテンションエンコーダとマルチスケールパッチブランチ(MSPB)構造に基づくマルチパッチアテンションネットワーク(MPANet)を提案する。 特に、アキシャルアテンション改善エンコーダアーキテクチャは、小さなターゲットの効果的な特徴を強調し、背景雑音を抑制するように設計されている。 さらに、開発したMSPB構造は、様々な意味尺度から粗くきめ細かな特徴を融合させる。 SIRSTデータセットの大規模な実験は、提案したMPANetの最先端手法よりも優れた性能と有効性を示している。

Infrared small target detection (ISTD) has attracted widespread attention and been applied in various fields. Due to the small size of infrared targets and the noise interference from complex backgrounds, the performance of ISTD using convolutional neural networks (CNNs) is restricted. Moreover, the constriant that long-distance dependent features can not be encoded by the vanilla CNNs also impairs the robustness of capturing targets' shapes and locations in complex scenarios. To this end, a multi-patch attention network (MPANet) based on the axial-attention encoder and the multi-scale patch branch (MSPB) structure is proposed. Specially, an axial-attention-improved encoder architecture is designed to highlight the effective features of small targets and suppress background noises. Furthermore, the developed MSPB structure fuses the coarse-grained and fine-grained features from different semantic scales. Extensive experiments on the SIRST dataset show the superiority performance and effectiveness of the proposed MPANet compared to the state-of-the-art methods.
翻訳日:2022-06-07 16:19:29 公開日:2022-06-05
# MotionCNN: 自動運転における運動予測のための強力なベースライン

MotionCNN: A Strong Baseline for Motion Prediction in Autonomous Driving ( http://arxiv.org/abs/2206.02163v1 )

ライセンス: Link先を確認
Stepan Konev, Kirill Brodt, Artsiom Sanakoyeu(参考訳) 安全で効率的なルートを計画するには、自動運転車は周囲の他のエージェントの将来の動きを予測する必要がある。 運動予測は、最近研究コミュニティ内で大きな注目を集めた非常に難しい課題である。 本稿では,畳み込みニューラルネットワークに基づくマルチモーダル動作予測のための,単純かつ非常に強力なベースラインを提案する。 実装が容易である一方で、提案手法は最先端の手法と比較して競争性能が向上し、2021年のWaymo Open Dataset Motion Prediction Challengeで3位となった。 ソースコードはGitHubで公開されています

To plan a safe and efficient route, an autonomous vehicle should anticipate future motions of other agents around it. Motion prediction is an extremely challenging task that recently gained significant attention within the research community. In this work, we present a simple and yet very strong baseline for multimodal motion prediction based purely on Convolutional Neural Networks. While being easy-to-implement, the proposed approach achieves competitive performance compared to the state-of-the-art methods and ranks 3rd on the 2021 Waymo Open Dataset Motion Prediction Challenge. Our source code is publicly available at GitHub
翻訳日:2022-06-07 16:19:12 公開日:2022-06-05
# FOF:単眼リアルタイム再建のためのフーリエ活動場

FOF: Learning Fourier Occupancy Field for Monocular Real-time Human Reconstruction ( http://arxiv.org/abs/2206.02194v1 )

ライセンス: Link先を確認
Qiao Feng, Yebin Liu, Yu-Kun Lai, Jingyu Yang, Kun Li(参考訳) 深層学習の出現は、単眼的ヒト再建の著しい進歩をもたらした。 しかしながら、パラメトリックモデル、ボクセルグリッド、メッシュ、暗黙の神経表現といった既存の表現は、高品質な結果とリアルタイムの速度を同時に達成するのに困難である。 本稿では,モノクロリアルタイムかつ高精度な人体再構成のための,新しい強力で効率的で柔軟な3D表現であるFourier Occupancy Field (FOF)を提案する。 FOFは、ビュー方向と直交する2Dフィールドを有する3Dオブジェクトを表し、各2D位置において、ビュー方向に沿ったオブジェクトの占有体が、2D領域のトポロジと近傍関係を保持するフーリエ級数の最初の数項でコンパクトに表現される。 FOFは、2D畳み込みニューラルネットワークと互換性があり、3Dジオメトリと2Dイメージのギャップを埋めることのできるマルチチャネルイメージとして保存することができる。 FOFは非常に柔軟で拡張性があり、例えばパラメトリックモデルはより堅牢な結果を得るためにFOFに簡単に統合できる。 fofに基づいて、最初の30fpsの高忠実度リアルタイムヒト再建フレームワークをデザインする。 公開データセットと実際のキャプチャデータの両方でFOFの可能性を実証する。 コードは研究目的でリリースされる予定だ。

The advent of deep learning has led to significant progress in monocular human reconstruction. However, existing representations, such as parametric models, voxel grids, meshes and implicit neural representations, have difficulties achieving high-quality results and real-time speed at the same time. In this paper, we propose Fourier Occupancy Field (FOF), a novel powerful, efficient and flexible 3D representation, for monocular real-time and accurate human reconstruction. The FOF represents a 3D object with a 2D field orthogonal to the view direction where at each 2D position the occupancy field of the object along the view direction is compactly represented with the first few terms of Fourier series, which retains the topology and neighborhood relation in the 2D domain. A FOF can be stored as a multi-channel image, which is compatible with 2D convolutional neural networks and can bridge the gap between 3D geometries and 2D images. The FOF is very flexible and extensible, e.g., parametric models can be easily integrated into a FOF as a prior to generate more robust results. Based on FOF, we design the first 30+FPS high-fidelity real-time monocular human reconstruction framework. We demonstrate the potential of FOF on both public dataset and real captured data. The code will be released for research purposes.
翻訳日:2022-06-07 16:19:03 公開日:2022-06-05
# 動作認識のための注意を伴う3次元畳み込み

3D Convolutional with Attention for Action Recognition ( http://arxiv.org/abs/2206.02203v1 )

ライセンス: Link先を確認
Labina Shrestha, Shikha Dubey, Farrukh Olimov, Muhammad Aasim Rafique, Moongu Jeon(参考訳) 人間の行動認識はコンピュータビジョンにおける課題の1つである。 現在の行動認識法は、計算コストの高いモデルを用いて行動の時空間依存性を学習する。 RGBチャネルと光フローを別々に利用するモデル、二ストリーム融合を用いたモデル、畳み込みニューラルネットワーク(CNN)と長短短期記憶(LSTM)の両方からなるモデルなどがそのような複雑なモデルの一例である。 さらに、このような複雑なモデルの微調整も計算コストがかかる。 本稿では,3次元畳み込み層,完全連結層(fc層),アテンション層(utf-101データセットにおいて,より実装が容易で競合性能を有する)からなる,そのような依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。 提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,認識に必要な特徴に注意を向けることを支援する。

Human action recognition is one of the challenging tasks in computer vision. The current action recognition methods use computationally expensive models for learning spatio-temporal dependencies of the action. Models utilizing RGB channels and optical flow separately, models using a two-stream fusion technique, and models consisting of both convolutional neural network (CNN) and long-short term memory (LSTM) network are few examples of such complex models. Moreover, fine-tuning such complex models is computationally expensive as well. This paper proposes a deep neural network architecture for learning such dependencies consisting of a 3D convolutional layer, fully connected (FC) layers, and attention layer, which is simpler to implement and gives a competitive performance on the UCF-101 dataset. The proposed method first learns spatial and temporal features of actions through 3D-CNN, and then the attention mechanism helps the model to locate attention to essential features for recognition.
翻訳日:2022-06-07 16:17:53 公開日:2022-06-05
# Bengali Handwriting Digit Recognition の2年 : アンケート調査

Two Decades of Bengali Handwritten Digit Recognition: A Survey ( http://arxiv.org/abs/2206.02234v1 )

ライセンス: Link先を確認
A.B.M. Ashikur Rahman, Md. Bakhtiar Hasan, Sabbir Ahmed, Tasnim Ahmed, Md. Hamjajul Ashmafee, Mohammad Ridwan Kabir, Md. Hasanul Kabir(参考訳) Handwriting Digit Recognition (HDR) は、光学文字認識(OCR)分野において最も困難なタスクの1つである。 言語に反し、HDRには固有の課題がいくつかあるが、それは主に個人間での筆記スタイルのバリエーション、中・環境の書き方、数字を繰り返し書きながら同じストロークを維持できないことなどが原因である。 さらに、特定の言語の桁の構造的複雑さは、HDRの曖昧なシナリオにつながる可能性がある。 研究者たちは長年にわたり、さまざまな画像処理技術と従来の機械学習(ML)ベースの/またはディープラーニング(DL)ベースのアーキテクチャを組み合わせた、オフラインおよびオンラインのHDRパイプラインを数多く開発してきた。 hdrに関する広範なレビュー研究の証拠は、英語、アラビア語、インド語、ファルシ語、中国語など言語に関する文献に存在しているが、ベンガルhdr(bhdr)に関する調査はほとんど見られず、課題の包括的分析、基盤となる認識過程、将来の方向性を欠いている。 本稿では,ベンガル手書き数字の特徴と固有曖昧さと,20年間の最先端データセットの包括的洞察とオフラインBHDRへのアプローチについて分析した。 さらに、BHDRを含む実生活のアプリケーション固有の研究も詳細に議論されている。 本論文は, オフラインBHDRの背後にある科学に関心を持つ研究者のコンペディションとして機能し, さまざまなアプリケーション領域におけるベンガル手書き桁のオフライン認識の向上につながる可能性のある, 関連研究の新たな道筋を探究する。

Handwritten Digit Recognition (HDR) is one of the most challenging tasks in the domain of Optical Character Recognition (OCR). Irrespective of language, there are some inherent challenges of HDR, which mostly arise due to the variations in writing styles across individuals, writing medium and environment, inability to maintain the same strokes while writing any digit repeatedly, etc. In addition to that, the structural complexities of the digits of a particular language may lead to ambiguous scenarios of HDR. Over the years, researchers have developed numerous offline and online HDR pipelines, where different image processing techniques are combined with traditional Machine Learning (ML)-based and/or Deep Learning (DL)-based architectures. Although evidence of extensive review studies on HDR exists in the literature for languages, such as: English, Arabic, Indian, Farsi, Chinese, etc., few surveys on Bengali HDR (BHDR) can be found, which lack a comprehensive analysis of the challenges, the underlying recognition process, and possible future directions. In this paper, the characteristics and inherent ambiguities of Bengali handwritten digits along with a comprehensive insight of two decades of the state-of-the-art datasets and approaches towards offline BHDR have been analyzed. Furthermore, several real-life application-specific studies, which involve BHDR, have also been discussed in detail. This paper will also serve as a compendium for researchers interested in the science behind offline BHDR, instigating the exploration of newer avenues of relevant research that may further lead to better offline recognition of Bengali handwritten digits in different application areas.
翻訳日:2022-06-07 16:17:37 公開日:2022-06-05
# E^2VTS:無人航空機からの高効率ビデオテキストスポッティング

E^2VTS: Energy-Efficient Video Text Spotting from Unmanned Aerial Vehicles ( http://arxiv.org/abs/2206.02281v1 )

ライセンス: Link先を確認
Zhenyu Hu, Zhenyu Wu, Pengcheng Pi, Yunhe Xue, Jiayi Shen, Jianchao Tan, Xiangru Lian, Zhangyang Wang, and Ji Liu(参考訳) 無人航空機(uavs)ベースのビデオテキストスポッティングは、民間および軍事ドメインで広く使われている。 UAVの限られたバッテリー容量は、エネルギー効率の良いビデオテキストスポッティングソリューションを開発する動機となります。 本稿では,まずRCNNの作物・再サイズ訓練戦略を再検討し,UAVが捉えた実世界のビデオテキストデータセット上でのRoIサンプリングの精度を実証的に上回ることを示す。 省エネルギー化のため,映像の冗長性,連続性,複合劣化を考慮したマルチステージ画像処理を提案する。 最後に、このモデルはraspberry piにデプロイする前に刈り取られ、定量化される。 提案手法は,エネルギ効率と性能の競合的なトレードオフを達成し,E^2VTS(エネルギ効率の高いビデオテキストスポッティング)とよばれる。 私たちのコードと事前訓練済みモデルは、https://github.com/wuzhenyusjtu/LPCVC20-VideoTextSpotting.comで利用可能です。

Unmanned Aerial Vehicles (UAVs) based video text spotting has been extensively used in civil and military domains. UAV's limited battery capacity motivates us to develop an energy-efficient video text spotting solution. In this paper, we first revisit RCNN's crop & resize training strategy and empirically find that it outperforms aligned RoI sampling on a real-world video text dataset captured by UAV. To reduce energy consumption, we further propose a multi-stage image processor that takes videos' redundancy, continuity, and mixed degradation into account. Lastly, the model is pruned and quantized before deployed on Raspberry Pi. Our proposed energy-efficient video text spotting solution, dubbed as E^2VTS, outperforms all previous methods by achieving a competitive tradeoff between energy efficiency and performance. All our codes and pre-trained models are available at https://github.com/wuzhenyusjtu/LPCVC20-VideoTextSpotting.
翻訳日:2022-06-07 16:17:08 公開日:2022-06-05
# 解釈可能な機械学習の推論:特徴重要度に対する高速でモデルに依存しない信頼区間

Inference for Interpretable Machine Learning: Fast, Model-Agnostic Confidence Intervals for Feature Importance ( http://arxiv.org/abs/2206.02088v1 )

ライセンス: Link先を確認
Luqin Gan, Lili Zheng, Genevera I. Allen(参考訳) 機械学習を高い精度の問題を信頼するためには、信頼性と解釈可能なモデルが必要です。 近年、データ、モデル、予測に対する人間の理解可能な洞察を生成する、解釈可能な機械学習に関する研究が増えている。 同時に、共形推論を用いた予測に対する信頼区間という形で、機械学習予測の信頼性と不確実性を定量化することへの関心も高まっている。 しかし、この論文の焦点である機械学習解釈の信頼性と不確実性には、比較的注意が向けられていない。 私たちの目標は、広く使われている機械学習解釈の信頼区間を開発することです。 具体的には、どんな機械学習モデルでも、回帰や分類タスクでも有効になるような、普遍的なモデル非依存で前提に満ちた信頼区間を開発しようとしている。 我々は、ミニパッチアンサンブルと呼ばれるランダムな観察と特徴サブサンプリングの形式を活用し、我々のアプローチが任意のモデルの特徴重要度スコアに対して仮定光漸近的カバレッジを提供することを示す。 さらに, この手法は, アンサンブル学習プロセスの一環として, 推論に必要な計算がほぼ無料で行えるため, 高速である。 最後に,モデル予測と解釈の両方の不確かさを迅速かつ同時に定量化することにより,予測に有効な信頼区間を提供できることを示す。 その結果,本手法が正しい重要な特徴を検知し,既存の手法よりも多くの計算・統計上の利点を示すことが示された。

In order to trust machine learning for high-stakes problems, we need models to be both reliable and interpretable. Recently, there has been a growing body of work on interpretable machine learning which generates human understandable insights into data, models, or predictions. At the same time, there has been increased interest in quantifying the reliability and uncertainty of machine learning predictions, often in the form of confidence intervals for predictions using conformal inference. Yet, there has been relatively little attention given to the reliability and uncertainty of machine learning interpretations, which is the focus of this paper. Our goal is to develop confidence intervals for a widely-used form of machine learning interpretation: feature importance. We specifically seek to develop universal model-agnostic and assumption-light confidence intervals for feature importance that will be valid for any machine learning model and for any regression or classification task. We do so by leveraging a form of random observation and feature subsampling called minipatch ensembles and show that our approach provides assumption-light asymptotic coverage for the feature importance score of any model. Further, our approach is fast as computations needed for inference come nearly for free as part of the ensemble learning process. Finally, we also show that our same procedure can be leveraged to provide valid confidence intervals for predictions, hence providing fast, simultaneous quantification of the uncertainty of both model predictions and interpretations. We validate our intervals on a series of synthetic and real data examples, showing that our approach detects the correct important features and exhibits many computational and statistical advantages over existing methods.
翻訳日:2022-06-07 15:24:33 公開日:2022-06-05
# 空間・時空間データの統計的深層学習

Statistical Deep Learning for Spatial and Spatio-Temporal Data ( http://arxiv.org/abs/2206.02218v1 )

ライセンス: Link先を確認
Christopher K. Wikle and Andrew Zammit-Mangion(参考訳) 近年,深層ニューラルネットワークモデルが普及し,科学,工学,産業のほぼすべての分野に適用されている。 これらのモデルは特に、空間(例えば、画像)と時間(例えば、シーケンス)に強い依存を持つデータに有用である。 実際、深層モデルは、例えば多レベルベイズ階層モデルや深いガウス過程を用いて、空間的および時空間的データをモデル化するために、統計コミュニティによって広く使用されている。 本稿では,まず,空間的および時空間的データをモデル化するための従来の統計・機械学習の観点の概要を述べるとともに,最近潜在プロセス,データ,パラメータ仕様のために開発された様々なハイブリッドモデルに注目した。 これらのハイブリッドモデルは、各モデリングパラダイムの強みを活用するために、統計モデリングのアイデアとディープニューラルネットワークモデルを統合する。 本稿では,これらのハイブリッドモデルに有用であることが証明された計算技術の概観と,今後の研究方向性について簡単な議論を行った。

Deep neural network models have become ubiquitous in recent years, and have been applied to nearly all areas of science, engineering, and industry. These models are particularly useful for data that have strong dependencies in space (e.g., images) and time (e.g., sequences). Indeed, deep models have also been extensively used by the statistical community to model spatial and spatio-temporal data through, for example, the use of multi-level Bayesian hierarchical models and deep Gaussian processes. In this review, we first present an overview of traditional statistical and machine learning perspectives for modeling spatial and spatio-temporal data, and then focus on a variety of hybrid models that have recently been developed for latent process, data, and parameter specifications. These hybrid models integrate statistical modeling ideas with deep neural network models in order to take advantage of the strengths of each modeling paradigm. We conclude by giving an overview of computational technologies that have proven useful for these hybrid models, and with a brief discussion on future research directions.
翻訳日:2022-06-07 15:24:07 公開日:2022-06-05
# 逆行訓練におけるバニラ機能蒸留の精度向上

Vanilla Feature Distillation for Improving the Accuracy-Robustness Trade-Off in Adversarial Training ( http://arxiv.org/abs/2206.02158v1 )

ライセンス: Link先を確認
Guodong Cao, Zhibo Wang, Xiaowei Dong, Zhifei Zhang, Hengchang Guo, Zhan Qin, Kui Ren(参考訳) 敵の訓練は深層モデルに対する攻撃を緩和するために広く研究されてきた。 しかし、既存の作品の多くは、ロバストでないが高い予測機能を無視しながら、ロバストな機能(敵によって簡単に改ざんされない)へのモデルに適合する傾向があるため、高い精度と強固な堅牢性の間のジレンマに閉じ込められている。 よりロバストで高精度なトレードオフを実現するため,事前学習したモデル(高精度に最適化された)から知識蒸留を行い,高い精度,すなわち非破壊的かつ予測的な特徴を保存するためのバニラ特徴蒸留訓練(VFD-Adv)を提案する。 より具体的には、事前訓練された/クリーンモデルから予測表現を蒸留することで、敵の例もクリーンモデルも特徴空間に整列せざるを得なくなり、以前の研究はクリーンモデルから予測的特徴をほとんど利用しなかった。 これにより、頑健性が得られるように精度を最大に保ちたい敵訓練モデルを更新する。 この手法の重要な利点は、既存の作品に普遍的に適応し、促進できることである。 各種データセット,分類モデル,および逆行訓練アルゴリズムの探索実験により,提案手法の有効性を実証した。

Adversarial training has been widely explored for mitigating attacks against deep models. However, most existing works are still trapped in the dilemma between higher accuracy and stronger robustness since they tend to fit a model towards robust features (not easily tampered with by adversaries) while ignoring those non-robust but highly predictive features. To achieve a better robustness-accuracy trade-off, we propose the Vanilla Feature Distillation Adversarial Training (VFD-Adv), which conducts knowledge distillation from a pre-trained model (optimized towards high accuracy) to guide adversarial training towards higher accuracy, i.e., preserving those non-robust but predictive features. More specifically, both adversarial examples and their clean counterparts are forced to be aligned in the feature space by distilling predictive representations from the pre-trained/clean model, while previous works barely utilize predictive features from clean models. Therefore, the adversarial training model is updated towards maximally preserving the accuracy as gaining robustness. A key advantage of our method is that it can be universally adapted to and boost existing works. Exhaustive experiments on various datasets, classification models, and adversarial training algorithms demonstrate the effectiveness of our proposed method.
翻訳日:2022-06-07 15:17:43 公開日:2022-06-05
# 拡散GAN:拡散を伴うGANの訓練

Diffusion-GAN: Training GANs with Diffusion ( http://arxiv.org/abs/2206.02262v1 )

ライセンス: Link先を確認
Zhendong Wang, Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) GAN(Generative Adversarial Network)の安定したトレーニングでは、判別器の入力にインスタンスノイズを注入することは理論的に健全な解であると考えられており、実際にはまだ実現されていない。 本稿では,前方拡散鎖のすべての拡散ステップ上で定義されるガウス混合分布を用いてインスタンスノイズを注入する拡散-ganを提案する。 観察または生成されたデータから拡散された混合物からのランダムサンプルを判別器への入力として供給する。 各トレーニングステップで許容される最大ノイズ対データ比を制御するために、長さを適応的に調整した前方拡散チェーンを介して勾配を逆伝搬することにより、発電機を更新する。 理論解析はモデルおよびドメインに依存しない微分拡張を提供する拡散GANの健全性を検証する。 多様なデータセットに関する豊富な実験により、Diffusion-GANは安定したデータ効率のGANトレーニングを提供し、フォトリアリスティック画像を合成するための強力なGANベースラインよりも一貫したパフォーマンス向上をもたらすことが示されている。

For stable training of generative adversarial networks (GANs), injecting instance noise into the input of the discriminator is considered as a theoretically sound solution, which, however, has not yet delivered on its promise in practice. This paper introduces Diffusion-GAN that employs a Gaussian mixture distribution, defined over all the diffusion steps of a forward diffusion chain, to inject instance noise. A random sample from the mixture, which is diffused from an observed or generated data, is fed as the input to the discriminator. The generator is updated by backpropagating its gradient through the forward diffusion chain, whose length is adaptively adjusted to control the maximum noise-to-data ratio allowed at each training step. Theoretical analysis verifies the soundness of the proposed Diffusion-GAN, which provides model- and domain-agnostic differentiable augmentation. A rich set of experiments on diverse datasets show that Diffusion-GAN can provide stable and data-efficient GAN training, bringing consistent performance improvement over strong GAN baselines for synthesizing photo-realistic images.
翻訳日:2022-06-07 14:48:14 公開日:2022-06-05
# hpgnn: 階層型グラフニューラルネットワークを用いたアウトドアポイントクラウド処理

HPGNN: Using Hierarchical Graph Neural Networks for Outdoor Point Cloud Processing ( http://arxiv.org/abs/2206.02153v1 )

ライセンス: Link先を確認
Arulmolivarman Thieshanthan, Amashi Niwarthana, Pamuditha Somarathne, Tharindu Wickremasinghe, Ranga Rodrigo(参考訳) 近年の自律的ナビゲーションのためのポイントクラウド処理の改善に触発されて,大規模屋外lidarポイントクラウド上での処理と機能学習に階層型グラフニューラルネットワークの利用に焦点をあてた。 既存のGNNベースの手法では,屋外データセットのスケールや不規則性の課題を克服できない。 そこで我々は,階層的ポイントグラフニューラルネットワーク (HPGNN) を提案する。 様々なレベルのグラフ粗さでノードの特徴を学習し、情報を抽出する。 これにより、既存のポイントレベルのグラフネットワークが達成に苦慮している詳細を保ちながら、大きなポイントクラウド上で学習することができる。 複数のレベル間の接続により、数回のイテレーションで、複数のスケールで機能を学ぶことができる。 我々はHPGNNを純粋にGNNベースのアプローチとして設計し、他のポイントベースおよびグラフネットワークベースラインで見られるモジュラー拡張性を提供する。 処理能力の向上を示すために,semantickittiデータセット上のgnn (+36.7 miou) において,semantic segmentationのための以前の点ベースモデルとgnnモデルを比較した。

Inspired by recent improvements in point cloud processing for autonomous navigation, we focus on using hierarchical graph neural networks for processing and feature learning over large-scale outdoor LiDAR point clouds. We observe that existing GNN based methods fail to overcome challenges of scale and irregularity of points in outdoor datasets. Addressing the need to preserve structural details while learning over a larger volume efficiently, we propose Hierarchical Point Graph Neural Network (HPGNN). It learns node features at various levels of graph coarseness to extract information. This enables to learn over a large point cloud while retaining fine details that existing point-level graph networks struggle to achieve. Connections between multiple levels enable a point to learn features in multiple scales, in a few iterations. We design HPGNN as a purely GNN-based approach, so that it offers modular expandability as seen with other point-based and Graph network baselines. To illustrate the improved processing capability, we compare previous point based and GNN models for semantic segmentation with our HPGNN, achieving a significant improvement for GNNs (+36.7 mIoU) on the SemanticKITTI dataset.
翻訳日:2022-06-07 14:43:42 公開日:2022-06-05
# 深部3dフィッティングとメトリックラーニングによるグレヴィのゼブラ識別に向けて

Towards Individual Grevy's Zebra Identification via Deep 3D Fitting and Metric Learning ( http://arxiv.org/abs/2206.02261v1 )

ライセンス: Link先を確認
Maria Stennett, Daniel I. Rubenstein, Tilo Burghardt(参考訳) 本稿では,1つのパイプラインで種検出,3次元モデルフィッティング,メートル法学習のためのディープラーニング技術を組み合わせて,ユニークなコートパターンを活用し,写真から個体識別を行う。 これは、従来の2DバウンディングボックスやセグメンテーションベースのCNN識別パイプラインと比較して、効果的で明示的な視点正規化を提供し、学習されたバイオメトリックス空間を直線的に可視化することができる。 メトリック学習を使用することで、パイプラインはオープンセットやゼロショットの再識別シナリオにも容易に適用できる点に注意が必要だ。 提案手法をGrevy's zebra(Equus grevyi)の個人識別に適用し,SMALSTデータセットの小さな研究で,3次元モデルフィッティングが実際に性能に有効であることを示す。 特に、3D装着モデルのバックプロジェクションされたテクスチャは、データセットの2Dバウンディングボックスアプローチと比較して識別精度を48.0%から56.8%改善している。 この研究は、大規模な実世界のアプリケーション環境で達成可能なパフォーマンスの可能性を正確に見積もるには小さすぎるが、我々の研究は、動物の生体計測の次のステップとして、オープンな集団環境での深部メートル法学習に向けた概念的かつ実践的な基礎を定めている。 本論文では,ネットワークの重みと関連するファシリテーションソースコードを,完全な再現性とさらなる研究へのインスピレーションとして公開する。

This paper combines deep learning techniques for species detection, 3D model fitting, and metric learning in one pipeline to perform individual animal identification from photographs by exploiting unique coat patterns. This is the first work to attempt this and, compared to traditional 2D bounding box or segmentation based CNN identification pipelines, the approach provides effective and explicit view-point normalisation and allows for a straight forward visualisation of the learned biometric population space. Note that due to the use of metric learning the pipeline is also readily applicable to open set and zero shot re-identification scenarios. We apply the proposed approach to individual Grevy's zebra (Equus grevyi) identification and show in a small study on the SMALST dataset that the use of 3D model fitting can indeed benefit performance. In particular, back-projected textures from 3D fitted models improve identification accuracy from 48.0% to 56.8% compared to 2D bounding box approaches for the dataset. Whilst the study is far too small accurately to estimate the full performance potential achievable in larger-scale real-world application settings and in comparisons against polished tools, our work lays the conceptual and practical foundations for a next step in animal biometrics towards deep metric learning driven, fully 3D-aware animal identification in open population settings. We publish network weights and relevant facilitating source code with this paper for full reproducibility and as inspiration for further research.
翻訳日:2022-06-07 14:43:20 公開日:2022-06-05
# 正常超音波エラストグラフィーにおける身体刺激による拘束

Physically Inspired Constraint for Unsupervised Regularized Ultrasound Elastography ( http://arxiv.org/abs/2206.02225v1 )

ライセンス: Link先を確認
Ali K. Z. Tehrani and Hassan Rivaz(参考訳) 変位推定は、ほぼ全ての超音波エラストグラフィ(USE)技術の重要なステップである。 2つの主要な特徴は、このタスクを一般的な光流問題と比較して、超音波ラジオ周波数データ(RF)の高周波特性と変位場における物理の法則の2つに特徴付ける。 近年,光フローネットワークのアーキテクチャが改良され,RFデータの利用が可能になった。 また、第1及び第2導出正規化器の形式での変位連続性の事前知識を考慮して、半教師付き及び非教師付き技術が採用されている。 これらの試みにもかかわらず、組織圧縮パターンは検討されておらず、軸方向と横方向の変位は独立であると考えられている。 しかし, 組織運動パターンは物理法則によって制御され, 軸方向と横方向の変位は高い相関性を示した。 本稿では,非教師付き正規化エラストグラフィ(PICTURE)のための物理刺激型ConsTraintを提案し,ポアソン比の制約を課し,横方向の変位推定を改善する。 ファントムおよびin vivoデータを用いた実験により,画像は側方変位推定の質を大幅に改善することが示された。

Displacement estimation is a critical step of virtually all Ultrasound Elastography (USE) techniques. Two main features make this task unique compared to the general optical flow problem: the high-frequency nature of ultrasound radio-frequency (RF) data and the governing laws of physics on the displacement field. Recently, the architecture of the optical flow networks has been modified to be able to use RF data. Also, semi-supervised and unsupervised techniques have been employed for USE by considering prior knowledge of displacement continuity in the form of the first- and second-derivative regularizers. Despite these attempts, no work has considered the tissue compression pattern, and displacements in axial and lateral directions have been assumed to be independent. However, tissue motion pattern is governed by laws of physics in USE, rendering the axial and the lateral displacements highly correlated. In this paper, we propose Physically Inspired ConsTraint for Unsupervised Regularized Elastography (PICTURE), where we impose constraints on the Poisson's ratio to improve lateral displacement estimates. Experiments on phantom and in vivo data show that PICTURE substantially improves the quality of the lateral displacement estimation.
翻訳日:2022-06-07 14:40:12 公開日:2022-06-05
# 報酬関数学習のための人間の嗜好モデル

Models of human preference for learning reward functions ( http://arxiv.org/abs/2206.02231v1 )

ライセンス: Link先を確認
W. Bradley Knox, Stephane Hatgis-Kessell, Serena Booth, Scott Niekum, Peter Stone, Alessandro Allievi(参考訳) 強化学習の有用性は、報酬機能の調整と人間の利害関係者の利益によって制限される。 アライメントの有望な方法の1つは、軌道セグメントのペア間の人間の生成した好みから報酬関数を学ぶことである。 これらの人間の好みは、通常、各セグメントの報酬の合計である部分的なリターンによってのみ通知される。 この仮定には欠陥があり,各セグメントの後悔,セグメントの最適意思決定からの逸脱といった,異なる統計から生じるモデリングの嗜好が提案されている。 後悔による無限に多くの選好が生成されると、これらの選好を生んだ報奨関数に匹敵する報奨関数を特定できることが証明される。 また,従来の部分回帰モデルには,報酬の相対比を示す優先ノイズを伴わずに,この識別可能性特性が欠如していることも証明し,提案した後悔選好モデルが,同じ条件下で有限のトレーニングデータで優れていたことを実証的に示す。 さらに,提案する後悔選好モデルは,実際の人間選好を予測するだけでなく,その選好から報奨機能を学習し,より人間に合った政策へと導く。 概して、この研究は、選好モデルの選択が影響があることを証明し、提案した後悔選好モデルは、最近の研究の中核的な仮定を改善する。

The utility of reinforcement learning is limited by the alignment of reward functions with the interests of human stakeholders. One promising method for alignment is to learn the reward function from human-generated preferences between pairs of trajectory segments. These human preferences are typically assumed to be informed solely by partial return, the sum of rewards along each segment. We find this assumption to be flawed and propose modeling preferences instead as arising from a different statistic: each segment's regret, a measure of a segment's deviation from optimal decision-making. Given infinitely many preferences generated according to regret, we prove that we can identify a reward function equivalent to the reward function that generated those preferences. We also prove that the previous partial return model lacks this identifiability property without preference noise that reveals rewards' relative proportions, and we empirically show that our proposed regret preference model outperforms it with finite training data in otherwise the same setting. Additionally, our proposed regret preference model better predicts real human preferences and also learns reward functions from these preferences that lead to policies that are better human-aligned. Overall, this work establishes that the choice of preference model is impactful, and our proposed regret preference model provides an improvement upon a core assumption of recent research.
翻訳日:2022-06-07 14:37:39 公開日:2022-06-05
# セッション内適応レコメンデーションによるNetflix検索の強化

Augmenting Netflix Search with In-Session Adapted Recommendations ( http://arxiv.org/abs/2206.02254v1 )

ライセンス: Link先を確認
Moumita Bhattacharya and Sudarshan Lamkhede(参考訳) 我々は,現在のセッションから参加者のインタラクションを活用することで,モメント内の意図に適合できるレコメンデーションシステムの必要性を動機付けている。 netflix検索の文脈において、エンドツーエンドのインセッション適応型レコメンデーションシステムの概要を提供する。 我々は,本番規模でシステムを開発する際の課題と潜在的な解決策について考察する。

We motivate the need for recommendation systems that can cater to the members in-the-moment intent by leveraging their interactions from the current session. We provide an overview of an end-to-end in-session adaptive recommendations system in the context of Netflix Search. We discuss the challenges and potential solutions when developing such a system at production scale.
翻訳日:2022-06-07 14:37:15 公開日:2022-06-05
# AugLoss: 実世界のデータセット破壊の学習方法論

AugLoss: A Learning Methodology for Real-World Dataset Corruption ( http://arxiv.org/abs/2206.02286v1 )

ライセンス: Link先を確認
Kyle Otstot, John Kevin Cava, Tyler Sypherd, Lalitha Sankar(参考訳) ディープラーニング(dl)モデルは、多くの領域で大きな成功を収めます。 しかし、DLモデルは、トレーニング段階におけるノイズラベリングやテスト段階における特徴分布シフトなど、安全性と堅牢性への懸念がますます高まっている。 これまでの研究は、これらの問題に対処する上で大きな進歩を遂げてきたが、その焦点は、一度に1つの問題だけに対するソリューションの開発だった。 例えば、最近の研究は、ラベルノイズを緩和するために調整可能な堅牢な損失関数を使うことと、分散シフトと戦うためにデータ拡張(AugMixなど)を議論している。 両問題を同時に解決するためのステップとして,データ拡張とロバスト損失関数を統一することにより,列車時ノイズラベルとテスト時特徴分布シフトの両方に対して堅牢性を実現する,シンプルかつ効果的な手法であるAugLossを紹介した。 我々は,実世界のデータセット腐敗のさまざまな設定で包括的な実験を行い,これまでの最先端手法と比較して,auglossが達成した成果を示す。 最後に、この取り組みが、現実世界の腐敗の下でより堅牢で信頼性の高いdlモデルを設計するための新しい方向を開くことを望んでいる。

Deep Learning (DL) models achieve great successes in many domains. However, DL models increasingly face safety and robustness concerns, including noisy labeling in the training stage and feature distribution shifts in the testing stage. Previous works made significant progress in addressing these problems, but the focus has largely been on developing solutions for only one problem at a time. For example, recent work has argued for the use of tunable robust loss functions to mitigate label noise, and data augmentation (e.g., AugMix) to combat distribution shifts. As a step towards addressing both problems simultaneously, we introduce AugLoss, a simple but effective methodology that achieves robustness against both train-time noisy labeling and test-time feature distribution shifts by unifying data augmentation and robust loss functions. We conduct comprehensive experiments in varied settings of real-world dataset corruption to showcase the gains achieved by AugLoss compared to previous state-of-the-art methods. Lastly, we hope this work will open new directions for designing more robust and reliable DL models under real-world corruptions.
翻訳日:2022-06-07 14:14:53 公開日:2022-06-05
# 可変レート階層CPCは音声における音響単位の発見につながる

Variable-rate hierarchical CPC leads to acoustic unit discovery in speech ( http://arxiv.org/abs/2206.02211v1 )

ライセンス: Link先を確認
Santiago Cuervo and Adrian {\L}a\'ncucki and Ricard Marxer and Pawe{\l} Rychlikowski and Jan Chorowski(参考訳) ディープラーニングの成功は、低レベルの表現で定義された高レベル表現を学習することで、データの階層構造を捉える能力から来ている。 本稿では,複数レベルのコントラスト予測符号化(CPC)を適用し,音声の階層的表現の自己教師型学習について検討する。 2つのCPCモデルの積み重ねだけではシングルレベルのアーキテクチャよりも大きな改善が得られない。 そこで本研究では,低レベルCPCモジュールの出力を非一様化して高レベルCPCモジュールの損失を直接最小化するモデルを提案する。 後者は、集中した負のサンプリングと予測対象の量子化によって連続する高水準表現の不一致を強制することにより、その表現における分離可能性と離散性の先行を強制するようにも設計されている。 音声信号の構造に関する説明は、単レベルCPCの特徴により改善され、下流の音声認識タスクによって測定された学習された表現の絡み合いが向上すると同時に、音声境界によく似た信号の有意義なセグメンテーションをもたらす。

The success of deep learning comes from its ability to capture the hierarchical structure of data by learning high-level representations defined in terms of low-level ones. In this paper we explore self-supervised learning of hierarchical representations of speech by applying multiple levels of Contrastive Predictive Coding (CPC). We observe that simply stacking two CPC models does not yield significant improvements over single-level architectures. Inspired by the fact that speech is often described as a sequence of discrete units unevenly distributed in time, we propose a model in which the output of a low-level CPC module is non-uniformly downsampled to directly minimize the loss of a high-level CPC module. The latter is designed to also enforce a prior of separability and discreteness in its representations by enforcing dissimilarity of successive high-level representations through focused negative sampling, and by quantization of the prediction targets. Accounting for the structure of the speech signal improves upon single-level CPC features and enhances the disentanglement of the learned representations, as measured by downstream speech recognition tasks, while resulting in a meaningful segmentation of the signal that closely resembles phone boundaries.
翻訳日:2022-06-07 14:11:31 公開日:2022-06-05
# LAE:単言語および多言語ASRのための言語対応エンコーダ

LAE: Language-Aware Encoder for Monolingual and Multilingual ASR ( http://arxiv.org/abs/2206.02093v1 )

ライセンス: Link先を確認
Jinchuan Tian, Jianwei Yu, Chunlei Zhang, Chao Weng, Yuexian Zou, Dong Yu(参考訳) 音声認識(ASR)研究の急速な進歩にもかかわらず、統合されたASRシステムを用いた多言語音声の認識は非常に困難である。 従来の多言語音声認識の研究は主に2つの方向に焦点を当てている: 複数の単言語音声を認識すること、または1つの発話内で異なる言語を相互に使用するコードスイッチされた音声を認識すること。 しかし、実用的多言語認識器は両方向との互換性が期待されている。 本研究は,言語固有情報を分離し,符号化中にフレームレベル言語対応表現を生成することにより,両状況に対処する新しい言語対応エンコーダ(LAE)アーキテクチャを提案する。 LAEでは、プライマリエンコーディングは共有ブロックによって実装され、言語固有のブロックは各言語の特定の表現を抽出するために使用される。 言語固有の情報を識別的に学習するために,LAEにおける言語固有のブロックを最適化する言語認識学習手法を提案する。 mandarin- english code-switched speech を用いた実験により,提案する lae はフレームレベルで異なる言語を識別でき,単言語および多言語asrタスクにおいて優れた性能を示すことが示唆された。 実記録またはシミュレートされたコードスイッチングデータセットを用いて、提案したRAEは、CTCとニューラルトランスデューサの両方で統計的に有意な改善を実現する。 コードがリリース

Despite the rapid progress in automatic speech recognition (ASR) research, recognizing multilingual speech using a unified ASR system remains highly challenging. Previous works on multilingual speech recognition mainly focus on two directions: recognizing multiple monolingual speech or recognizing code-switched speech that uses different languages interchangeably within a single utterance. However, a pragmatic multilingual recognizer is expected to be compatible with both directions. In this work, a novel language-aware encoder (LAE) architecture is proposed to handle both situations by disentangling language-specific information and generating frame-level language-aware representations during encoding. In the LAE, the primary encoding is implemented by the shared block while the language-specific blocks are used to extract specific representations for each language. To learn language-specific information discriminatively, a language-aware training method is proposed to optimize the language-specific blocks in LAE. Experiments conducted on Mandarin-English code-switched speech suggest that the proposed LAE is capable of discriminating different languages in frame-level and shows superior performance on both monolingual and multilingual ASR tasks. With either a real-recorded or simulated code-switched dataset, the proposed LAE achieves statistically significant improvements on both CTC and neural transducer systems. Code is released
翻訳日:2022-06-07 14:10:31 公開日:2022-06-05
# カプセルネットワークと感情レキシコンに基づくオンライン旅行レビューの感情分析

Sentiment Analysis of Online Travel Reviews Based on Capsule Network and Sentiment Lexicon ( http://arxiv.org/abs/2206.02160v1 )

ライセンス: Link先を確認
Jia Wang, Junping Du, Yingxia Shao, and Ang Li(参考訳) オンライン旅行サービスの発達に伴い、利用者の旅行サービスの評価感情をタイムリに掘り下げ、オンライン旅行サービスの質向上を導く指標として活用するアプリケーションとして大いに期待されている。 本稿では,ソーシャルメディアのオンラインコメントに基づくオンライン旅行レビューのテキスト感情分類について検討し,カプセルネットワークと感情レキシコンに基づくSCCLモデルを提案する。 SCCLモデルは、BERTやGRUのようなテキストコンテキスト機能を効率的に抽出できる言語モデルにおいて、テキストの局所的特徴や感情的意味的特徴の欠如を目標としている。 次に、以下の欠点を改善します。 一方、BERT-BiGRUをベースとしたカプセルネットワークは、良好なコンテキスト特性を維持しつつ、局所的な特徴を抽出するために導入された。 一方、感情辞書を導入し、テキストの感情的シーケンスを抽出し、モデルに対するより豊かな感情的意味的特徴を提供する。 感情レキシコンの普遍性を高めるため、TF-IDFに基づく改良されたSO-PMIアルゴリズムを用いて、レキシコンを拡張し、オンライン旅行レビューの分野でも良好に機能する。

With the development of online travel services, it has great application prospects to timely mine users' evaluation emotions for travel services and use them as indicators to guide the improvement of online travel service quality. In this paper, we study the text sentiment classification of online travel reviews based on social media online comments and propose the SCCL model based on capsule network and sentiment lexicon. SCCL model aims at the lack of consideration of local features and emotional semantic features of the text in the language model that can efficiently extract text context features like BERT and GRU. Then make the following improvements to their shortcomings. On the one hand, based on BERT-BiGRU, the capsule network is introduced to extract local features while retaining good context features. On the other hand, the sentiment lexicon is introduced to extract the emotional sequence of the text to provide richer emotional semantic features for the model. To enhance the universality of the sentiment lexicon, the improved SO-PMI algorithm based on TF-IDF is used to expand the lexicon, so that the lexicon can also perform well in the field of online travel reviews.
翻訳日:2022-06-07 14:10:07 公開日:2022-06-05
# ストリートビュー画像, 空中画像, 地表面温度データによる建築エネルギー効率の推定

Estimating Building Energy Efficiency From Street View Imagery, Aerial Imagery, and Land Surface Temperature Data ( http://arxiv.org/abs/2206.02270v1 )

ライセンス: Link先を確認
Kevin Mayer, Lukas Haas(参考訳) カーボンニュートラルへの競争では、建築部門は遅れており、他の産業全体の進歩を危険にさらす可能性がある。 これは、建物が数十年にわたって寿命を保ち、気候変動に直面してかなりの慣性を生み出すためである。 この慣性は、既存の建物の在庫の規模によってさらに悪化する。 世界中の数十億の運用建物で、カーボンニュートラルな建築セクターへの取り組みには、ステークホルダーが大規模にサブパービルを正確に識別し、修復できるソリューションが必要である。 しかし, 既存建築物のエネルギー効率の向上は, 目標と効率の両立が困難である。 これは、今日では建物のエネルギー効率が一般的に認定エネルギー監査官の現場訪問によって決定されるため、プロセスは遅く、費用がかかり、地理的に不完全である。 そこで本研究では,道路ビューや航空画像,OSM由来のフットプリント領域,衛星搭載地表面温度(LST)など,純粋にリモートセンシングされたデータを用いて,ビルのエネルギー効率を推定する手法を提案する。 効率的な建物と非効率な建物を区別するバイナリ設定において、我々のエンドツーエンドのディープラーニングモデルは62.06\%のマクロ平均F1スコアを達成する。 この研究は、エネルギー効率などの建築特性を予測するためのリモートセンシングデータの可能性と相補的な性質を示し、将来的なデータソースの統合に向けた新たな機会を開く。

In the race towards carbon neutrality, the building sector has fallen behind and bears the potential to endanger the progress made across other industries. This is because buildings exhibit a life span of several decades which creates substantial inertia in the face of climate change. This inertia is further exacerbated by the scale of the existing building stock. With several billion operational buildings around the globe, working towards a carbon-neutral building sector requires solutions which enable stakeholders to accurately identify and retrofit subpar buildings at scale. However, improving the energy efficiency of the existing building stock through retrofits in a targeted and efficient way remains challenging. This is because, as of today, the energy efficiency of buildings is generally determined by on-site visits of certified energy auditors which makes the process slow, costly, and geographically incomplete. In order to accelerate the identification of promising retrofit targets, this work proposes a new method which can estimate a building's energy efficiency using purely remotely sensed data such as street view and aerial imagery, OSM-derived footprint areas, and satellite-borne land surface temperature (LST) measurements. We find that in the binary setting of distinguishing efficient from inefficient buildings, our end-to-end deep learning model achieves a macro-averaged F1-score of 62.06\%. As such, this work shows the potential and complementary nature of remotely sensed data in predicting building attributes such as energy efficiency and opens up new opportunities for future work to integrate additional data sources.
翻訳日:2022-06-07 14:06:36 公開日:2022-06-05