このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 静的モデルとテストセットを超えて:タスクと言語間の事前訓練モデルの可能性のベンチマーク [全文訳有]

Beyond Static Models and Test Sets: Benchmarking the Potential of Pre-trained Models Across Tasks and Languages ( http://arxiv.org/abs/2205.06356v1 )

ライセンス: CC BY 4.0
Kabir Ahuja, Sandipan Dandapat, Sunayana Sitaram, Monojit Choudhury(参考訳) mBERTやXLMRのような最近のMMLM(Massively Multilingual Language Model)は約100言語をサポートしているが、既存の多言語NLPベンチマークでは、言語多様性の少ない少数の言語で評価データを提供している。 本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境におけるMMLMの性能の全体像を提示しない。 NLPタスクの性能予測における最近の研究は,多言語NLPにおけるベンチマークの修正における潜在的な解決策として,データと言語型に関する特徴を活用して,異なる言語上でのMMLMの性能を推定することを提案する。 性能予測と4つの異なる多言語データセットのケーススタディを比較し、これらの手法は、追加の翻訳や評価コストを必要とせずに、翻訳ベースアプローチとほぼ同等のパフォーマンスを信頼性の高い推定を行うことができることを検証した。

Although recent Massively Multilingual Language Models (MMLMs) like mBERT and XLMR support around 100 languages, most existing multilingual NLP benchmarks provide evaluation data in only a handful of these languages with little linguistic diversity. We argue that this makes the existing practices in multilingual evaluation unreliable and does not provide a full picture of the performance of MMLMs across the linguistic landscape. We propose that the recent work done in Performance Prediction for NLP tasks can serve as a potential solution in fixing benchmarking in Multilingual NLP by utilizing features related to data and language typology to estimate the performance of an MMLM on different languages. We compare performance prediction with translating test data with a case study on four different multilingual datasets, and observe that these methods can provide reliable estimates of the performance that are often on-par with the translation based approaches, without the need for any additional translation as well as evaluation costs.
公開日:2022-05-12
翻訳日:2022-05-17 00:07:32
# (参考訳) KASAM: 関数近似のためのスプライン付加モデル

KASAM: Spline Additive Models for Function Approximation ( http://arxiv.org/abs/2205.06376v1 )

ライセンス: CC BY 4.0
Heinrich van Deventer, Pieter Janse van Rensburg, Anna Bosman(参考訳) ニューラルネットワークは、新しい概念が導入されたとき、過去の概念の破滅的な忘れと急速な未学習のために、継続的な学習ができないことで批判されている。 壊滅的な忘れは、特別に設計されたモデルと訓練技術によって軽減される。 本稿では, Spline Additive Model (SAM)について概説する。 SAMは多くの実用的なタスクに対して十分な表現力を持つ固有のメモリ保持を示すが、普遍的な関数近似器ではない。 sam は kolmogorov-arnold representation theorem を用いて、kolmogorov-arnold spline additive model (kasam) と呼ばれる新しい普遍関数近似子へと拡張される。 SAM と KASAM のメモリ保持、表現力、限界を解析的かつ実証的に説明する。 SAMは、連続的な学習タスクで重複する干渉の小さな領域で、堅牢だが不完全な記憶保持を示す。 KASAMは破滅的な忘れやすさを示した。 KASAMと擬似リハーサルトレーニングの併用により、回帰作業や記憶保持において優れた性能を示した。

Neural networks have been criticised for their inability to perform continual learning due to catastrophic forgetting and rapid unlearning of a past concept when a new concept is introduced. Catastrophic forgetting can be alleviated by specifically designed models and training techniques. This paper outlines a novel Spline Additive Model (SAM). SAM exhibits intrinsic memory retention with sufficient expressive power for many practical tasks, but is not a universal function approximator. SAM is extended with the Kolmogorov-Arnold representation theorem to a novel universal function approximator, called the Kolmogorov-Arnold Spline Additive Model - KASAM. The memory retention, expressive power and limitations of SAM and KASAM are illustrated analytically and empirically. SAM exhibited robust but imperfect memory retention, with small regions of overlapping interference in sequential learning tasks. KASAM exhibited greater susceptibility to catastrophic forgetting. KASAM in combination with pseudo-rehearsal training techniques exhibited superior performance in regression tasks and memory retention.
公開日:2022-05-12
翻訳日:2022-05-16 23:51:20
# (参考訳) LANTERN-RD: 侵入型ランタンフライの緩和のためのディープラーニングの実現 [全文訳有]

LANTERN-RD: Enabling Deep Learning for Mitigation of the Invasive Spotted Lanternfly ( http://arxiv.org/abs/2205.06397v1 )

ライセンス: CC BY 4.0
Srivatsa Kundurthy(参考訳) スポット・ランタンフライ(英: Spotted Lanternfly、SLF)は、アメリカ合衆国北東部や日本などの地域の生物多様性と農業経済を脅かす侵入性植物ホッパーである。 研究者が昆虫の研究に没頭するにつれ、SLFを組み込む際に重要な下流に影響を及ぼすような、検出、ポーズ推定、正確な識別といったコンピュータビジョンのタスクには大きな可能性がある。 しかし、現在そのようなAIモデルをトレーニングするためのデータセットは公開されていない。 コンピュータビジョンの応用と、侵入SLF問題に挑戦するためのモチベーション向上を実現するため、我々は、観測されたランタンフライとその外観に関する最初のキュレートされた画像データセットであるLANTERN-RDを提案し、様々な照明条件、多様な背景、様々なポーズの被写体を特徴付ける。 VGG16ベースのベースラインCNNは、新しいコンピュータビジョンアプリケーションを刺激し、侵入SLF研究を加速するためのデータセットの可能性を検証する。 さらに, 簡易なモバイル分類アプリケーションにおいて, 教育モデルを実装し, 責任ある公衆衛生活動に直接力を与える。 本研究の包括的なミッションは、新しいSLFイメージデータセットを導入し、コンピュータビジョンアプリケーションを可能にする分類フレームワークをリリースし、侵略的なSLFを取り巻く研究を強化し、農業と経済の被害を最小限に抑えることである。

The Spotted Lanternfly (SLF) is an invasive planthopper that threatens the local biodiversity and agricultural economy of regions such as the Northeastern United States and Japan. As researchers scramble to study the insect, there is a great potential for computer vision tasks such as detection, pose estimation, and accurate identification to have important downstream implications in containing the SLF. However, there is currently no publicly available dataset for training such AI models. To enable computer vision applications and motivate advancements to challenge the invasive SLF problem, we propose LANTERN-RD, the first curated image dataset of the spotted lanternfly and its look-alikes, featuring images with varied lighting conditions, diverse backgrounds, and subjects in assorted poses. A VGG16-based baseline CNN validates the potential of this dataset for stimulating fresh computer vision applications to accelerate invasive SLF research. Additionally, we implement the trained model in a simple mobile classification application in order to directly empower responsible public mitigation efforts. The overarching mission of this work is to introduce a novel SLF image dataset and release a classification framework that enables computer vision applications, boosting studies surrounding the invasive SLF and assisting in minimizing its agricultural and economic damage.
公開日:2022-05-12
翻訳日:2022-05-16 23:50:21
# (参考訳) PoisonedEncoder: コントラスト学習におけるラベルなし事前学習データ [全文訳有]

PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in Contrastive Learning ( http://arxiv.org/abs/2205.06401v1 )

ライセンス: CC BY 4.0
Hongbin Liu, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) コントラスト学習は、画像エンコーダが様々な下流タスクの汎用特徴抽出器として使用できるように、大量のラベルのないデータを用いて画像エンコーダを事前学習する。 本研究では, コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。 特に、攻撃者は、複数の目標下流タスクに対して、汚染されたエンコーダに基づいて構築された下流分類器を同時に攻撃者長線、任意のクリーン入力を攻撃者長線、任意のクラスに分類する。 我々は,2段階の最適化問題としてデータ中毒攻撃を定式化し,その解法が毒の入力の集合であることを示す。 複数のデータセットに対する評価の結果,ポゾンデエンコーダは,非攻撃的入力に対して有毒なエンコーダ上に構築された下流分類器のテスト精度を維持しつつ,高い攻撃成功率を達成できた。 また,前処理1回,内処理3回,後処理1回を含む,PoisonedEncoderに対する5つの防御効果を評価した。 以上の結果から,これらの防御は,攻撃成功率を低下させる可能性があるが,エンコーダの有用性を犠牲にしたり,大規模なクリーンな事前トレーニングデータセットが必要となる。

Contrastive learning pre-trains an image encoder using a large amount of unlabeled data such that the image encoder can be used as a general-purpose feature extractor for various downstream tasks. In this work, we propose PoisonedEncoder, a data poisoning attack to contrastive learning. In particular, an attacker injects carefully crafted poisoning inputs into the unlabeled pre-training data, such that the downstream classifiers built based on the poisoned encoder for multiple target downstream tasks simultaneously classify attacker-chosen, arbitrary clean inputs as attacker-chosen, arbitrary classes. We formulate our data poisoning attack as a bilevel optimization problem, whose solution is the set of poisoning inputs; and we propose a contrastive-learning -tailored method to approximately solve it. Our evaluation on multiple datasets shows that PoisonedEncoder achieves high attack success rates while maintaining the testing accuracy of the downstream classifiers built upon the poisoned encoder for non-attacker-chosen inputs. We also evaluate five defenses against PoisonedEncoder, including one pre-processing, three in-processing, and one post-processing defenses. Our results show that these defenses can decrease the attack success rate of PoisonedEncoder, but they also sacrifice the utility of the encoder or require a large clean pre-training dataset.
公開日:2022-05-13
翻訳日:2022-05-16 23:43:47
# (参考訳) 自然言語処理のための量子カーネルの設計と実装

Design and Implementation of a Quantum Kernel for Natural Language Processing ( http://arxiv.org/abs/2205.06409v1 )

ライセンス: CC BY 4.0
Matt Wright(参考訳) 自然言語処理(英: Natural Language Processing、NLP)は、人間の言語をコンピュータで利用できるようにする分野であり、記号言語の意味を表現するために数学的モデルを適用することに依存する。 そのようなモデルの一つであるDisCoCatは、個々の単語の意味と構成の性質の両方を表現する方法を定義している。 このモデルは量子コンピュータ上で自然に実装することができ、場の量子NLP(QNLP)につながる。 最近の実験では、量子符号化文の期待値を用いて、テキストからクラスラベルへのマッピングに量子機械学習技術を用いた。 文の類似性を計算する理論的研究は行われているが、非現実的な量子メモリストアに依存している。 この論文の主な目標は、DisCoCatモデルを利用して、NLPタスクのサポートベクトルマシン(SVM)で使用できる量子ベースのカーネル関数を設計することである。 2つの類似性尺度が研究された。 (i)遷移振幅アプローチ及び遷移振幅アプローチ (ii)SWAPテスト。 単語の埋め込みを訓練し、両方のモデルの性能を評価するために、従来の作業から分類タスクを意味する単純なNLPを用いた。 Pythonモジュールのlambeqとその関連ソフトウェアスタックは実装に使用された。 以前の研究から明らかなモデルは単語埋め込みの訓練に使われ、93.09 \pm 0.01$%のテスト精度を達成した。 どちらのSVM変種も、アプローチに対して9,5.72 \pm 0.01$%の高いテスト精度を達成した。 (i)および9.7.14 \pm 0.01$% (ii) SWAPテストは、実量子デバイス ibmq_guadalupe で定義されたノイズモデルの下でシミュレートされた。 明示的なモデルは911.94 \pm 0.01$%の精度を達成し、SWAPテストSVMは96.7%のテストデータセットで達成した。 これらの結果は,我々の提案するカーネル化QNLPパラダイムのさらなる研究の動機となっている。

Natural language processing (NLP) is the field that attempts to make human language accessible to computers, and it relies on applying a mathematical model to express the meaning of symbolic language. One such model, DisCoCat, defines how to express both the meaning of individual words as well as their compositional nature. This model can be naturally implemented on quantum computers, leading to the field quantum NLP (QNLP). Recent experimental work used quantum machine learning techniques to map from text to class label using the expectation value of the quantum encoded sentence. Theoretical work has been done on computing the similarity of sentences but relies on an unrealized quantum memory store. The main goal of this thesis is to leverage the DisCoCat model to design a quantum-based kernel function that can be used by a support vector machine (SVM) for NLP tasks. Two similarity measures were studied: (i) the transition amplitude approach and (ii) the SWAP test. A simple NLP meaning classification task from previous work was used to train the word embeddings and evaluate the performance of both models. The Python module lambeq and its related software stack was used for implementation. The explicit model from previous work was used to train word embeddings and achieved a testing accuracy of $93.09 \pm 0.01$%. It was shown that both the SVM variants achieved a higher testing accuracy of $95.72 \pm 0.01$% for approach (i) and $97.14 \pm 0.01$% for (ii). The SWAP test was then simulated under a noise model defined by the real quantum device, ibmq_guadalupe. The explicit model achieved an accuracy of $91.94 \pm 0.01$% while the SWAP test SVM achieved 96.7% on the testing dataset, suggesting that the kernelized classifiers are resilient to noise. These are encouraging results and motivate further investigations of our proposed kernelized QNLP paradigm.
公開日:2022-05-13
翻訳日:2022-05-16 23:19:54
# (参考訳) ドメイン一般化のためのテスト時間フーリエ型校正 [全文訳有]

Test-time Fourier Style Calibration for Domain Generalization ( http://arxiv.org/abs/2205.06427v1 )

ライセンス: CC BY 4.0
Xingchen Zhao, Chang Liu, Anthony Sicilia, Seong Jae Hwang, Yun Fu(参考訳) ソースドメインの集合で学習した機械学習モデルを未知のターゲットドメインに一般化するという課題は難しい。 多くのドメイン一般化(DG)手法は有望な結果を得たが、主にテスト時にターゲットドメインを操作することなく、列車時にソースドメインに依存する。 したがって、これらのメソッドがソースドメインに過剰に適合し、ターゲットドメインでパフォーマンスが低下する可能性がある。 ドメインがスタイルと強く結びついているという観察によって、ソースとターゲットのスタイルのギャップを減らすことがモデルの一般化可能性を高めると論じる。 トレーニング中にターゲットドメインにアクセスできないというジレンマを解決するために,テスト中のターゲットドメインスタイルを調整するためのTF-Cal(Test-time Fourier Style Calibration)を導入する。 スタイルにアクセスするために、フーリエ変換を用いて特徴を振幅(スタイル)特徴と位相(意味)特徴に分解する。 さらに,TF-Calを補完するAAF(Augment Amplitude Features)を提案する。 いくつかのDGベンチマークと医用画像のセグメンテーションデータセットによる大規模な実験により,本手法が最先端の手法より優れていることが示された。

The topic of generalizing machine learning models learned on a collection of source domains to unknown target domains is challenging. While many domain generalization (DG) methods have achieved promising results, they primarily rely on the source domains at train-time without manipulating the target domains at test-time. Thus, it is still possible that those methods can overfit to source domains and perform poorly on target domains. Driven by the observation that domains are strongly related to styles, we argue that reducing the gap between source and target styles can boost models' generalizability. To solve the dilemma of having no access to the target domain during training, we introduce Test-time Fourier Style Calibration (TF-Cal) for calibrating the target domain style on the fly during testing. To access styles, we utilize Fourier transformation to decompose features into amplitude (style) features and phase (semantic) features. Furthermore, we present an effective technique to Augment Amplitude Features (AAF) to complement TF-Cal. Extensive experiments on several popular DG benchmarks and a segmentation dataset for medical images demonstrate that our method outperforms state-of-the-art methods.
公開日:2022-05-13
翻訳日:2022-05-16 23:18:40
# (参考訳) 低コストで制御可能で解釈可能なタスク指向チャットボット: 実世界のアフターセールサービスを例に [全文訳有]

A Low-Cost, Controllable and Interpretable Task-Oriented Chatbot: With Real-World After-Sale Services as Example ( http://arxiv.org/abs/2205.06436v1 )

ライセンス: CC BY 4.0
Xiangyu Xi and Chenxu Lv and Yuncheng Hua and Wei Ye and Chaobo Sun and Shuaipeng Liu and Fan Yang and Guanglu Wan(参考訳) 業界で広く使われているが、従来のタスク指向対話システムは3つのボトルネックを抱えている。 (i)難しいオントロジーの構築(例えば、意図及びスロット) (二 制御性及び解釈性に乏しいこと。) (iii)アノテーション・ハングリー。 本稿では,木構造タスクFlowを構築し,タスクFlowをコアコンポーネントとするタスク指向チャットボットを構築する,ダイアログアクションというシンプルな概念で発話を表現することを提案する。 大規模な対話からTaskFlowを自動的に構築し、オンラインにデプロイするフレームワークが提示される。 実世界のアフターセールカスタマサービスに関する実験では,taskflowが主要なニーズを満足すると同時に,開発者の負担を効果的に軽減できることが示されています。

Though widely used in industry, traditional task-oriented dialogue systems suffer from three bottlenecks: (i) difficult ontology construction (e.g., intents and slots); (ii) poor controllability and interpretability; (iii) annotation-hungry. In this paper, we propose to represent utterance with a simpler concept named Dialogue Action, upon which we construct a tree-structured TaskFlow and further build task-oriented chatbot with TaskFlow as core component. A framework is presented to automatically construct TaskFlow from large-scale dialogues and deploy online. Our experiments on real-world after-sale customer services show TaskFlow can satisfy the major needs, as well as reduce the developer burden effectively.
公開日:2022-05-13
翻訳日:2022-05-16 23:04:54
# (参考訳) NEAT強化学習ネットワークにおけるモジュール性 [全文訳有]

Modularity in NEAT Reinforcement Learning Networks ( http://arxiv.org/abs/2205.06451v1 )

ライセンス: CC BY 4.0
Humphrey Munn, Marcus Gallagher(参考訳) モジュール化は、多くのよく機能する構造化システムにとって不可欠であり、複雑さを管理する有用な手段です [8]。 機械学習アルゴリズムが生成するニューラルネットワークのモジュラリティの分析は、そのようなアルゴリズムの動作と、モジュラリティをパフォーマンスを改善するためにどのように活用できるかについての貴重な洞察を提供することができる。 しかし、この性質はしばしば神経進化学の文献で見過ごされているため、多くの学習アルゴリズムのモジュラー性は不明である。 この特性は、ネットワークトポロジを最適化するNEATの能力により、標準的なシミュレーションベンチマーク制御問題に対して、一般的なアルゴリズムであるNeuroEvolution of Augmenting Topologies (NEAT)に基づいて評価された。 本稿では,問題に依存する速度と収束率によって,ネットワークのモジュール性が急速に向上していることを示す。 興味深いことに、NEATはネットワークの適合度が収束してもモジュラーネットワークが増加する傾向にある。 検討されたパラメータ空間におけるネットワークモジュラリティの理想的なレベルは、他のネットワーク変数に大きく依存しており、モジュラリティがネットワーク性能と直接的な関係を持つという理論を廃止している。 この結果は,モジュール性が直接的に向上しなかったことを実証することで,さらに証明されている。

Modularity is essential to many well-performing structured systems, as it is a useful means of managing complexity [8]. An analysis of modularity in neural networks produced by machine learning algorithms can offer valuable insight into the workings of such algorithms and how modularity can be leveraged to improve performance. However, this property is often overlooked in the neuroevolutionary literature, so the modular nature of many learning algorithms is unknown. This property was assessed on the popular algorithm "NeuroEvolution of Augmenting Topologies" (NEAT) for standard simulation benchmark control problems due to NEAT's ability to optimise network topology. This paper shows that NEAT networks seem to rapidly increase in modularity over time with the rate and convergence dependent on the problem. Interestingly, NEAT tends towards increasingly modular networks even when network fitness converges. It was shown that the ideal level of network modularity in the explored parameter space is highly dependent on other network variables, dispelling theories that modularity has a straightforward relationship to network performance. This is further proven in this paper by demonstrating that rewarding modularity directly did not improve fitness.
公開日:2022-05-13
翻訳日:2022-05-16 22:51:25
# (参考訳) R5: Reinforceed and Recurrent Relational Reasoningによるルール発見 [全文訳有]

R5: Rule Discovery with Reinforced and Recurrent Relational Reasoning ( http://arxiv.org/abs/2205.06454v1 )

ライセンス: CC BY 4.0
Shengyao Lu, Bang Liu, Keith G. Mills, Shangling Jui, Di Niu(参考訳) 体系性(Systematicity)、すなわち、既知の部品や規則を再結合して、関係データを推論しながら新しいシーケンスを形成する能力は、マシンインテリジェンスにとって重要である。 強い体系性を持つモデルは、小規模タスクを訓練し、大規模タスクに一般化することができる。 本稿では,関係グラフデータに基づく強化学習に基づく関係推論フレームワークR5を提案する。 r5は強い体系性を持ち、ノイズデータに対して堅牢である。 モンテカルロ木探索によるリレーショナル予測とルールマイニングのためのバックトラック書き換え機構を備えたポリシー値ネットワークで構成されている。 2つのコンポーネントを交互に適用することにより、R5はデータから一連の明示的なルールを徐々に学習し、説明可能で一般化可能な関係予測を行う。 複数のデータセットに対して広範な評価を行う。 実験結果から,R5は接地真理則の発見において高いリコール率を達成しつつ,関係予測タスクにおける様々な埋め込みベースおよびルール誘導ベースラインよりも優れていた。

Systematicity, i.e., the ability to recombine known parts and rules to form new sequences while reasoning over relational data, is critical to machine intelligence. A model with strong systematicity is able to train on small-scale tasks and generalize to large-scale tasks. In this paper, we propose R5, a relational reasoning framework based on reinforcement learning that reasons over relational graph data and explicitly mines underlying compositional logical rules from observations. R5 has strong systematicity and being robust to noisy data. It consists of a policy value network equipped with Monte Carlo Tree Search to perform recurrent relational prediction and a backtrack rewriting mechanism for rule mining. By alternately applying the two components, R5 progressively learns a set of explicit rules from data and performs explainable and generalizable relation prediction. We conduct extensive evaluations on multiple datasets. Experimental results show that R5 outperforms various embedding-based and rule induction baselines on relation prediction tasks while achieving a high recall rate in discovering ground truth rules.
公開日:2022-05-13
翻訳日:2022-05-16 22:42:42
# (参考訳) ViT5:ベトナム語生成のための事前訓練されたテキスト-テキスト変換器 [全文訳有]

ViT5: Pretrained Text-to-Text Transformer for Vietnamese Language Generation ( http://arxiv.org/abs/2205.06457v1 )

ライセンス: CC BY 4.0
Long Phan, Hieu Tran, Hieu Nguyen, Trieu H. Trinh(参考訳) ベトナム語のトランスフォーマーを用いたエンコーダデコーダモデルViT5を提案する。 t5スタイルの自己教師付き事前訓練により、vit5は高品質で多様なベトナム語のテキストのコーパスで訓練される。 我々はvit5を2つの下流テキスト生成タスク(抽象テキスト要約と名前付きエンティティ認識)でベンチマークする。 抽象テキスト要約は、その豊かで膨大なデータソースのおかげで、英語で広く研究されてきたが、ベトナムでは、非常に低いリソース言語である同じタスクについて最小限の研究がなされている。 本研究ではベトナムの抽象的な要約と名前付きエンティティ認識の両方について徹底的な実験を行い、ViT5の性能を他の多くの事前訓練されたトランスフォーマーベースのエンコーダデコーダモデルと比較した。 実験の結果,ViT5は既存のモデルよりも大幅に優れ,ベトナム語のテキスト要約における最先端の結果が得られた。 Named Entity Recognitionのタスクでは、ViT5は事前訓練されたエンコーダベースのTransformerモデルによる以前の最良の結果と競合する。 さらなる分析により、異なる設定でのダウンストリームパフォーマンスの自己教師付き事前トレーニングにおけるコンテキスト長の重要性が示されている。

We present ViT5, a pretrained Transformer-based encoder-decoder model for the Vietnamese language. With T5-style self-supervised pretraining, ViT5 is trained on a large corpus of high-quality and diverse Vietnamese texts. We benchmark ViT5 on two downstream text generation tasks, Abstractive Text Summarization and Named Entity Recognition. Although Abstractive Text Summarization has been widely studied for the English language thanks to its rich and large source of data, there has been minimal research into the same task in Vietnamese, a much lower resource language. In this work, we perform exhaustive experiments on both Vietnamese Abstractive Summarization and Named Entity Recognition, validating the performance of ViT5 against many other pretrained Transformer-based encoder-decoder models. Our experiments show that ViT5 significantly outperforms existing models and achieves state-of-the-art results on Vietnamese Text Summarization. On the task of Named Entity Recognition, ViT5 is competitive against previous best results from pretrained encoder-based Transformer models. Further analysis shows the importance of context length during the self-supervised pretraining on downstream performance across different settings.
公開日:2022-05-13
翻訳日:2022-05-16 22:10:40
# (参考訳) 入射再投射ネットワークによる単眼的人体デジタル化 [全文訳有]

Monocular Human Digitization via Implicit Re-projection Networks ( http://arxiv.org/abs/2205.06468v1 )

ライセンス: CC BY 4.0
Min-Gyu Park, Ju-Mi Kang, Je Woo Kim, Ju Hong Yoon(参考訳) 画像から3次元モデルを生成する手法を提案する。 フレームワークの鍵となるのは、両面の直交深度マップとカラー画像が単一の視点で投影された画像から予測できることである。 私たちのフレームワークは3つのネットワークで構成されています。 第1のネットワークは、通常の地図を予測して、衣服や顔領域のしわなどの幾何学的詳細を復元する。 第2のネットワークは、予測された正規地図を用いて、フロント及びバックビューのシェード削除画像を予測する。 最後のマルチヘッドネットワークは、通常の地図と日陰のない画像の両方を取り込み、マルチヘッドアテンションゲートを介して測光情報と幾何情報を選択的に融合しながら深度マップを予測する。 実験の結果,最先端手法に対する各種評価指標を用いて,視覚的に有望な結果と競争力を示すことができた。

We present an approach to generating 3D human models from images. The key to our framework is that we predict double-sided orthographic depth maps and color images from a single perspective projected image. Our framework consists of three networks. The first network predicts normal maps to recover geometric details such as wrinkles in the clothes and facial regions. The second network predicts shade-removed images for the front and back views by utilizing the predicted normal maps. The last multi-headed network takes both normal maps and shade-free images and predicts depth maps while selectively fusing photometric and geometric information through multi-headed attention gates. Experimental results demonstrate that our method shows visually plausible results and competitive performance in terms of various evaluation metrics over state-of-the-art methods.
公開日:2022-05-13
翻訳日:2022-05-16 22:00:23
# (参考訳) l-Leaks: ログによるメンバシップ推論攻撃 [全文訳有]

l-Leaks: Membership Inference Attacks with Logits ( http://arxiv.org/abs/2205.06469v1 )

ライセンス: CC BY 4.0
Shuhao Li, Yajie Wang, Yuanzhang Li, Yu-an Tan(参考訳) 機械学習(ML)は過去数十年で前例のない進歩を遂げた。 しかし、トレーニングデータの記憶力のため、MLは様々な攻撃、特にモデルのトレーニングデータを推測することを目的としたメンバーシップ推論攻撃(MIA)の影響を受けやすい。 これまでのところ、ML分類器に対するメンバーシップ推論攻撃のほとんどは、ターゲットモデルと同じ構造を持つシャドウモデルを利用している。 しかし、実験の結果、シャドウモデルがターゲットモデルのネットワーク構造について明確でない場合、これらの攻撃は容易に軽減できることが示された。 本稿では,対象モデルに対するブラックボックスアクセスに基づく攻撃について述べる。 我々は攻撃を \textbf{l-leaks} と命名する。 l-Leaksは、確立されたシャドウモデルがターゲットモデルと十分に類似している場合、敵はシャドウモデルの情報を利用してターゲットサンプルのメンバシップを予測するという直感に従っており、訓練されたターゲットモデルのロジットには貴重なサンプル知識が含まれている。 ターゲットモデルのロジットを学習し、シャドウモデルをターゲットモデルに近いものにすることでシャドウモデルを構築する。 次に、シャドーモデルは、ターゲットモデルのメンバサンプルに十分な信頼性を持つ。 また,シャドウモデルの異なるネットワーク構造が攻撃結果に与える影響についても考察する。 異なるネットワークやデータセット上での実験では、どちらの攻撃も高いパフォーマンスを実現している。

Machine Learning (ML) has made unprecedented progress in the past several decades. However, due to the memorability of the training data, ML is susceptible to various attacks, especially Membership Inference Attacks (MIAs), the objective of which is to infer the model's training data. So far, most of the membership inference attacks against ML classifiers leverage the shadow model with the same structure as the target model. However, empirical results show that these attacks can be easily mitigated if the shadow model is not clear about the network structure of the target model. In this paper, We present attacks based on black-box access to the target model. We name our attack \textbf{l-Leaks}. The l-Leaks follows the intuition that if an established shadow model is similar enough to the target model, then the adversary can leverage the shadow model's information to predict a target sample's membership.The logits of the trained target model contain valuable sample knowledge. We build the shadow model by learning the logits of the target model and making the shadow model more similar to the target model. Then shadow model will have sufficient confidence in the member samples of the target model. We also discuss the effect of the shadow model's different network structures to attack results. Experiments over different networks and datasets demonstrate that both of our attacks achieve strong performance.
公開日:2022-05-13
翻訳日:2022-05-16 21:48:33
# (参考訳) 3次元および4次元医用画像における左心房細動の分節化と解析 [全文訳有]

A Survey of Left Atrial Appendage Segmentation and Analysis in 3D and 4D Medical Images ( http://arxiv.org/abs/2205.06486v1 )

ライセンス: CC BY 4.0
Hrvoje Leventi\'c, Marin Ben\v{c}evi\'c, Danilo Babin, Marija Habijan, Irena Gali\'c(参考訳) 心房細動(英: atrial fibrillation, AF)は、脳卒中の主な危険因子の一つである心血管疾患である。 AFによる脳梗塞の大部分は左心房補助(LAA)由来の血栓によるものである。 LAA閉塞は脳卒中リスクを低減する効果的な方法である。 プロシージャ前画像と分析を用いた手順の策定は, 有益である。 この分析は、手動で2Dスライスにアタッチメントを分割することで行うのが一般的である。 自動LAAセグメンテーション法は、専門家の時間を節約し、洞察に富んだ3D可視化と正確な自動測定を提供することで医療処置を支援する。 いくつかの半自動的手法が提案されている。 本稿では,CT,MRI,心エコー画像を含む3次元および4次元の医用画像に対するLAA自動分割法について概説する。 我々は,手法をヒューリスティックおよびモデルに基づく手法に分類し,半自動および完全自動の手法に分類する。 提案手法を要約・比較し,その有効性を評価し,現状の課題と克服へのアプローチを提示する。

Atrial fibrillation (AF) is a cardiovascular disease identified as one of the main risk factors for stroke. The majority of strokes due to AF are caused by clots originating in the left atrial appendage (LAA). LAA occlusion is an effective procedure for reducing stroke risk. Planning the procedure using pre-procedural imaging and analysis has shown benefits. The analysis is commonly done by manually segmenting the appendage on 2D slices. Automatic LAA segmentation methods could save an expert's time and provide insightful 3D visualizations and accurate automatic measurements to aid in medical procedures. Several semi- and fully-automatic methods for segmenting the appendage have been proposed. This paper provides a review of automatic LAA segmentation methods on 3D and 4D medical images, including CT, MRI, and echocardiogram images. We classify methods into heuristic and model-based methods, as well as into semi- and fully-automatic methods. We summarize and compare the proposed methods, evaluate their effectiveness, and present current challenges in the field and approaches to overcome them.
公開日:2022-05-13
翻訳日:2022-05-16 21:35:36
# (参考訳) 深部強化学習によるmmW-NOMAダウンリンクシステムの連系パワーアロケーションとビームフォーマ [全文訳有]

Joint Power Allocation and Beamformer for mmW-NOMA Downlink Systems by Deep Reinforcement Learning ( http://arxiv.org/abs/2205.06489v1 )

ライセンス: CC BY 4.0
Abbas Akbarpour-Kasgari, Mehrdad Ardebilipour(参考訳) 次世代無線通信におけるデータレートの高需要はミリメートル波(mmw)周波数帯における非直交多重アクセス(noma)アプローチによって保証される。 mmW-NOMAシステムの連系電力配分とビームフォーミングは最適化手法によって達成される。 この目的のために、我々は、ポリシー生成によってユーザの最適化された総和率につながる、Deep Reinforcement Learning(DRL)アプローチを利用した。 アクター批判現象を利用して、即時報酬を測定し、ネットワーク全体のQ値を最大化する新しいアクションを提供する。 即時報酬は、各ユーザに対する最小保証率と消費電力の合計を制約として、2人のユーザの割合の合計に基づいて定義されている。 シミュレーション結果は,tdma (time-division multiple access) やユーザ総率の観点からのnoma最適化戦略よりも,提案手法が優れていることを示す。

The high demand for data rate in the next generation of wireless communication could be ensured by Non-Orthogonal Multiple Access (NOMA) approach in the millimetre-wave (mmW) frequency band. Joint power allocation and beamforming of mmW-NOMA systems is mandatory which could be met by optimization approaches. To this end, we have exploited Deep Reinforcement Learning (DRL) approach due to policy generation leading to an optimized sum-rate of users. Actor-critic phenomena are utilized to measure the immediate reward and provide the new action to maximize the overall Q-value of the network. The immediate reward has been defined based on the summation of the rate of two users regarding the minimum guaranteed rate for each user and the sum of consumed power as the constraints. The simulation results represent the superiority of the proposed approach rather than the Time-Division Multiple Access (TDMA) and another NOMA optimized strategy in terms of sum-rate of users.
公開日:2022-05-13
翻訳日:2022-05-16 21:22:12
# (参考訳) rtmapsを用いたマルチadasデータ融合のための局所動的マップ [全文訳有]

RTMaps-based Local Dynamic Map for multi-ADAS data fusion ( http://arxiv.org/abs/2205.06497v1 )

ライセンス: CC BY 4.0
Marcos Nieto, Mikel Garcia, Itziar Urbieta, Oihana Otaegui(参考訳) ローカル・ダイナミック・マップ(LDM)の実装はまだ初期段階であり、LDM標準はデータベース内で情報がどのように構成されるかのみを定義し、異なるレイヤ間で情報を融合またはリンクするメカニズムは未定義のままである。 車両内のリアルタイムデータベースとしてのワーキング LDM コンポーネントは、車内の情報の中心となるリアルタイム LDM データベースを供給し、他のコンポーネント(例えば、意思決定システム)に融合して構造化された情報を公開する、マルチADAS システムの魅力的なソリューションである。 本稿では,rtmapsミドルウェアを用いたリアルタイムldmコンポーネントの実装手法について述べる。rtmapsミドルウェアを車両にデプロイしたデータベースとして,道路側ユニット(rsu)にも実装し,融合戦略を導く3つの柱(標準の利用(ドメイン間の変換),複数のadasソースを統一するためのミドルウェア,セマンティクス概念によるデータのリンク)を用いて実装する。

Work on Local Dynamic Maps (LDM) implementation is still in its early stages, as the LDM standards only define how information shall be structured in databases, while the mechanism to fuse or link information across different layers is left undefined. A working LDM component, as a real-time database inside the vehicle is an attractive solution to multi-ADAS systems, which may feed a real-time LDM database that serves as a central point of information inside the vehicle, exposing fused and structured information to other components (e.g., decision-making systems). In this paper we describe our approach implementing a real-time LDM component using the RTMaps middleware, as a database deployed in a vehicle, but also at road-side units (RSU), making use of the three pillars that guide a successful fusion strategy: utilisation of standards (with conversions between domains), middlewares to unify multiple ADAS sources, and linkage of data via semantic concepts.
公開日:2022-05-13
翻訳日:2022-05-16 21:14:29
# (参考訳) DualCF:非現実的説明から効率的なモデル抽出攻撃 [全文訳有]

DualCF: Efficient Model Extraction Attack from Counterfactual Explanations ( http://arxiv.org/abs/2205.06504v1 )

ライセンス: CC BY 4.0
Yongjie Wang, Hangwei Qian, Chunyan Miao(参考訳) クラウドサービスプロバイダがMLaaS(Machine-Learni ng-as-a-Service)プラットフォームをローンチした。 予測出力に加えて、これらのAPIは、対実的説明(CF)など、より人間的に理解可能な方法で他の情報を提供することもできる。 しかしながら、このような余分な情報は、クラウドモデルの内部機能を盗むことを目的とした、抽出攻撃に対して、必然的にクラウドモデルがより脆弱になる。 しかし、クラウドモデルのブラックボックスの性質から、代替モデルが高い忠実度に達する前に、既存の攻撃戦略によって必然的に大量のクエリが必要となる。 本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,シンプルで効率的なクエリ手法を提案する。 これは,現在の問合せ戦略が決定境界シフト問題に苦しむのを,代用モデルトレーニングに遠距離問合せと近距離cfsを取り入れることに起因している。 そこで我々は,CF だけでなく,CF (CCF) を代替モデルのトレーニングサンプルのペアとして扱うことで実現した,上記の問題を回避するための DualCF 戦略を提案する。 合成データと実世界のデータセットの両方で、広範囲で包括的な実験評価が行われる。 実験結果から,DualCFはより少ないクエリで効率よく高忠実度モデルを生成できることを示す。

Cloud service providers have launched Machine-Learning-as- a-Service (MLaaS) platforms to allow users to access large-scale cloudbased models via APIs. In addition to prediction outputs, these APIs can also provide other information in a more human-understandable way, such as counterfactual explanations (CF). However, such extra information inevitably causes the cloud models to be more vulnerable to extraction attacks which aim to steal the internal functionality of models in the cloud. Due to the black-box nature of cloud models, however, a vast number of queries are inevitably required by existing attack strategies before the substitute model achieves high fidelity. In this paper, we propose a novel simple yet efficient querying strategy to greatly enhance the querying efficiency to steal a classification model. This is motivated by our observation that current querying strategies suffer from decision boundary shift issue induced by taking far-distant queries and close-to-boundary CFs into substitute model training. We then propose DualCF strategy to circumvent the above issues, which is achieved by taking not only CF but also counterfactual explanation of CF (CCF) as pairs of training samples for the substitute model. Extensive and comprehensive experimental evaluations are conducted on both synthetic and real-world datasets. The experimental results favorably illustrate that DualCF can produce a high-fidelity model with fewer queries efficiently and effectively.
公開日:2022-05-13
翻訳日:2022-05-16 21:10:12
# (参考訳) 二重復号による字幕と字幕の同時生成 [全文訳有]

Joint Generation of Captions and Subtitles with Dual Decoding ( http://arxiv.org/abs/2205.06522v1 )

ライセンス: CC BY 4.0
Jitao Xu, Fran\c{c}ois Buet, Josep Crego, Elise Bertin-Lem\'ee, Fran\c{c}ois Yvon(参考訳) 音声・視覚コンテンツの増加に伴い、国際的な視聴者の期待に応えて自動キャプション・サブティット・ソリューションを開発する必要性が、スループットを向上し、関連するポストプロダクションコストを削減できる唯一の方法として現れている。 自動キャプションとサブタイピングは、互いに適切なレベルの一貫性と同期を達成するために、ビデオ信号と密接に連携する必要があることが多い。 本研究では,これら2つのタスク間の強い結合を実現するために,二重復号方式を評価し,モデルサイズやトレーニングの複雑さといった付加的なコストをほとんど必要とせず,妥当性と一貫性がどの程度向上しているかを示す。

As the amount of audio-visual content increases, the need to develop automatic captioning and subtitling solutions to match the expectations of a growing international audience appears as the only viable way to boost throughput and lower the related post-production costs. Automatic captioning and subtitling often need to be tightly intertwined to achieve an appropriate level of consistency and synchronization with each other and with the video signal. In this work, we assess a dual decoding scheme to achieve a strong coupling between these two tasks and show how adequacy and consistency are increased, with virtually no additional cost in terms of model size and training complexity.
公開日:2022-05-13
翻訳日:2022-05-16 20:34:06
# (参考訳) ニューラルコード補完の生産性評価 [全文訳有]

Productivity Assessment of Neural Code Completion ( http://arxiv.org/abs/2205.06537v1 )

ライセンス: CC BY 4.0
Albert Ziegler, Eirini Kalliamvakou, Shawn Simister, Ganesh Sittampalam, Alice Li, Andrew Rice, Devon Rifkin, and Edward Aftandilian(参考訳) ニューラルコード合成は、スニペット生成が人間のソフトウェア開発ワークフローへの統合を考えるのに十分な精度に達している。 商用製品は、直接測定することなく、プログラマの生産性を向上させることを目指している。 このケーススタディでは、GitHub Copilotのユーザに対して、生産性への影響について質問し、直接測定可能なユーザデータに対する認識の反映を見つけようとしました。 提案が受け入れられる割合は、コード内の完了の持続性に関するより具体的な指標ではなく、開発者の生産性に対する認識を後押ししていることが分かりました。

Neural code synthesis has reached a point where snippet generation is accurate enough to be considered for integration into human software development workflows. Commercial products aim to increase programmers' productivity, without being able to measure it directly. In this case study, we asked users of GitHub Copilot about its impact on their productivity, and sought to find a reflection of their perception in directly measurable user data. We find that the rate with which shown suggestions are accepted, rather than more specific metrics regarding the persistence of completions in the code over time, drives developers' perception of productivity.
公開日:2022-05-13
翻訳日:2022-05-16 20:21:30
# (参考訳) 胚のステージ識別における注意モデルとポストホックな説明法の比較 [全文訳有]

Comparison of attention models and post-hoc explanation methods for embryo stage identification: a case study ( http://arxiv.org/abs/2205.06546v1 )

ライセンス: CC BY 4.0
Tristan Gomez, Thomas Fr\'eour, Harold Mouch\`ere(参考訳) In Vitro Fertilization (IVF)のためのAIベースのソリューションの開発に重要な制限は、ディープラーニングアーキテクチャの複雑さのため、ほとんどの最先端モデルのブラックボックスの性質である。 解釈可能なAIの必要性は、IVF分野だけでなく、一般のディープラーニングコミュニティでも高まっている。 この傾向は文献で始まり、著者は汎用的な説明法を評価するために客観的なメトリクスを設計することに集中している。 本稿では,最近提案された胚段階同定問題に適用された目的的忠実度指標の挙動について検討する。 評価指標を用いて注意モデルとポストホック法をベンチマークし,さらに,(1)指標がモデルランキングの全体的な一致度が低いこと,(2)メトリックアプローチにより,ポストホック法や注意モデルが好まれること,を実証的に示す。 最後に、忠実性を定義することの難しさと、好まれるアプローチの種類との関係を理解する必要性について、一般的なコメントで締めくくります。

An important limitation to the development of AI-based solutions for In Vitro Fertilization (IVF) is the black-box nature of most state-of-the-art models, due to the complexity of deep learning architectures, which raises potential bias and fairness issues. The need for interpretable AI has risen not only in the IVF field but also in the deep learning community in general. This has started a trend in literature where authors focus on designing objective metrics to evaluate generic explanation methods. In this paper, we study the behavior of recently proposed objective faithfulness metrics applied to the problem of embryo stage identification. We benchmark attention models and post-hoc methods using metrics and further show empirically that (1) the metrics produce low overall agreement on the model ranking and (2) depending on the metric approach, either post-hoc methods or attention models are favored. We conclude with general remarks about the difficulty of defining faithfulness and the necessity of understanding its relationship with the type of approach that is favored.
公開日:2022-05-13
翻訳日:2022-05-16 20:06:22
# (参考訳) フェアフェイス認識のためのメタバランスネットワーク [全文訳有]

Meta Balanced Network for Fair Face Recognition ( http://arxiv.org/abs/2205.06548v1 )

ライセンス: CC BY 4.0
Mei Wang, Yaobin Zhang, Weihong Deng(参考訳) 近年、深部顔認識は目覚ましい進歩を遂げているが、肌のトーンに基づく差別や、現実のシナリオへの展開に疑問を呈する議論が起きている。 本稿では,データとアルゴリズムの両面から,このバイアスを体系的かつ科学的に研究することを目的とする。 まず、皮膚科医がFitzpatrick Skin Type分類システムとPersonal Typology Angleを承認し、既存の顔認識アルゴリズムや商用APIの肌色に対するバイアスの度合いを効果的に定量化するIDSデータベース(Identity Shades:IDS)と呼ばれるベンチマークを提出する。 さらに、トレーニングデータのバイアスを取り除くために、BUPT-GlobalfaceデータセットとBUPT-Balancedfaceデータセットと呼ばれる2つのスキントーン対応トレーニングデータセットを提供する。 最後に、アルゴリズムバイアスを軽減するために、メタバランスネットワーク(meta balanced network, mbn)と呼ばれる新しいメタ学習アルゴリズムを提案する。 マージンを決定するために, クリーンかつアンバイアスなメタセット上でのメタスキューネス損失を最適化し, 後方方向の自動微分を利用して, 現行マージンの2次勾配降下ステップを実行する。 大規模な実験により、MBNは偏見を緩和し、顔認識において異なる肌のトーンを持つ人々に対してよりバランスのとれたパフォーマンスを学ぶ。 提案されたデータセットはhttp://www.whdeng.cn /rfw/index.htmlで利用可能である。

Although deep face recognition has achieved impressive progress in recent years, controversy has arisen regarding discrimination based on skin tone, questioning their deployment into real-world scenarios. In this paper, we aim to systematically and scientifically study this bias from both data and algorithm aspects. First, using the dermatologist approved Fitzpatrick Skin Type classification system and Individual Typology Angle, we contribute a benchmark called Identity Shades (IDS) database, which effectively quantifies the degree of the bias with respect to skin tone in existing face recognition algorithms and commercial APIs. Further, we provide two skin-tone aware training datasets, called BUPT-Globalface dataset and BUPT-Balancedface dataset, to remove bias in training data. Finally, to mitigate the algorithmic bias, we propose a novel meta-learning algorithm, called Meta Balanced Network (MBN), which learns adaptive margins in large margin loss such that the model optimized by this loss can perform fairly across people with different skin tones. To determine the margins, our method optimizes a meta skewness loss on a clean and unbiased meta set and utilizes backward-on-backward automatic differentiation to perform a second order gradient descent step on the current margins. Extensive experiments show that MBN successfully mitigates bias and learns more balanced performance for people with different skin tones in face recognition. The proposed datasets are available at http://www.whdeng.cn /RFW/index.html.
公開日:2022-05-13
翻訳日:2022-05-16 19:53:33
# (参考訳) Oracle文字認識のための教師なし構造・テクスチャ分離ネットワーク [全文訳有]

Unsupervised Structure-Texture Separation Network for Oracle Character Recognition ( http://arxiv.org/abs/2205.06549v1 )

ライセンス: CC BY 4.0
Mei Wang, Weihong Deng, Cheng-Lin Liu(参考訳) オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。 しかし、実世界のスキャンされたoracleデータはまれであり、スキャンされたoracleの文字の自動認識が困難なタスクになるようなアノテーションの専門家はほとんどいない。 そこで本研究では,手書きのオラクルデータからスキャンされたドメインへの知識伝達のための教師なしドメイン適応を探求する。 そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。 まず、STSNは、特徴を生成モデルにより構造(グリフ)とテクスチャ(ノイズ)に切り離し、次に、重騒音による負の影響を回避できるように、手書きおよびスキャンされたデータを構造特徴空間に整列させる。 第二に、学習したテクスチャをドメイン間で交換することで変換を行い、最終分類のための分類器を訓練して、変換されたスキャンされた文字のラベルを予測する。 これは絶対的な分離を保証するだけでなく、学習した特徴の識別能力を高める。 oracle-241データセットに関する広範な実験は、stsnが他の適応方法よりも優れており、長い埋葬や不注意な発掘によって汚染された場合でも、スキャンされたデータの認識性能が向上していることを示している。

Oracle bone script is the earliest-known Chinese writing system of the Shang dynasty and is precious to archeology and philology. However, real-world scanned oracle data are rare and few experts are available for annotation which make the automatic recognition of scanned oracle characters become a challenging task. Therefore, we aim to explore unsupervised domain adaptation to transfer knowledge from handprinted oracle data, which are easy to acquire, to scanned domain. We propose a structure-texture separation network (STSN), which is an end-to-end learning framework for joint disentanglement, transformation, adaptation and recognition. First, STSN disentangles features into structure (glyph) and texture (noise) components by generative models, and then aligns handprinted and scanned data in structure feature space such that the negative influence caused by serious noises can be avoided when adapting. Second, transformation is achieved via swapping the learned textures across domains and a classifier for final classification is trained to predict the labels of the transformed scanned characters. This not only guarantees the absolute separation, but also enhances the discriminative ability of the learned features. Extensive experiments on Oracle-241 dataset show that STSN outperforms other adaptation methods and successfully improves recognition performance on scanned data even when they are contaminated by long burial and careless excavation.
公開日:2022-05-13
翻訳日:2022-05-16 19:18:10
# (参考訳) 医用画像セグメンテーションのためのコントラスト領域異方性の検討 [全文訳有]

Contrastive Domain Disentanglement for Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2205.06551v1 )

ライセンス: CC BY 4.0
Ran Gu, Jiangshan Lu, Jingyang Zhang, Wenhui Lei, Xiaofan Zhang, Guotai Wang, Shaoting Zhang(参考訳) 畳み込みニューラルネットワークは,医用画像のセグメンテーションにおいて顕著な性能を発揮するためには,識別的特徴の効率的な利用が不可欠であると同時に,複数の領域をまたがるモデル一般化においても重要である。 残念なことに、最近のディスタングルネットワークのほとんどは、提供されたデータ分散の制限のため、未取得のドメインデータセットに直接適用できない。 この障害に対処するため,医療画像分割のためのコントラシブ・ドメイン・ディスタングル(CDD)ネットワークを提案する。 まず,医療画像から解剖学的表現因子とモダリティ表現因子に分解する異角形ネットワークを導入する。 次に、異なるドメインが互いに離れている間、同じドメインからのモダリティ表現を可能な限り近い場所に配布するよう促すスタイルの対照的な損失を提案する。 最後に,モデル一般化トレーニングのための新しいドメインをランダムに生成できるドメイン拡張戦略を提案する。 光カップとディスクセグメンテーションのための多地点画像データセットの実験結果から、CDDは優れたモデル一般化を有することが示された。 提案するcddは,ドメイン一般化セグメンテーションにおいて,最先端のメソッドを数種類上回っている。

Efficiently utilizing discriminative features is crucial for convolutional neural networks to achieve remarkable performance in medical image segmentation and is also important for model generalization across multiple domains, where letting model recognize domain-specific and domain-invariant information among multi-site datasets is a reasonable strategy for domain generalization. Unfortunately, most of the recent disentangle networks are not directly adaptable to unseen-domain datasets because of the limitations of offered data distribution. To tackle this deficiency, we propose Contrastive Domain Disentangle (CDD) network for generalizable medical image segmentation. We first introduce a disentangle network to decompose medical images into an anatomical representation factor and a modality representation factor. Then, a style contrastive loss is proposed to encourage the modality representations from the same domain to distribute as close as possible while different domains are estranged from each other. Finally, we propose a domain augmentation strategy that can randomly generate new domains for model generalization training. Experimental results on multi-site fundus image datasets for optic cup and disc segmentation show that the CDD has good model generalization. Our proposed CDD outperforms several state-of-the-art methods in domain generalizable segmentation.
公開日:2022-05-13
翻訳日:2022-05-16 18:44:00
# (参考訳) リアルカーソリューションのための仮想乗客:合成データセット [全文訳有]

Virtual passengers for real car solutions: synthetic datasets ( http://arxiv.org/abs/2205.06556v1 )

ライセンス: CC BY 4.0
Paola Natalia Canas, Juan Diego Ortega, Marcos Nieto and Oihana Otaegui(参考訳) 合成データの生成を含むストラテジーは、実際のデータを取得することは、論理的に複雑で、非常に高価、あるいは遅いため、実現し始めている。 データのキャプチャだけでなく、アノテーションも複雑になる可能性がある。 インテリジェントシステムのトレーニングのための高忠実度データを実現するため,我々は3Dシナリオを構築した。 我々のアプローチでは、シーンにランダム性を加えるためにパラメータを設定および変更することが可能であり、この方法ではデータセットの構築において非常に重要であるデータの変動が許される。 さらに、アノテーションタスクは、多くのリソースを節約できる、キャプチャ後のタスクではなく、データ生成の実行にすでに含まれています。 本稿では,実データキャプチャの代替として,運転者や乗客の監視を目的とした合成データ生成のプロセスと概念について述べる。

Strategies that include the generation of synthetic data are beginning to be viable as obtaining real data can be logistically complicated, very expensive or slow. Not only the capture of the data can lead to complications, but also its annotation. To achieve high-fidelity data for training intelligent systems, we have built a 3D scenario and set-up to resemble reality as closely as possible. With our approach, it is possible to configure and vary parameters to add randomness to the scene and, in this way, allow variation in data, which is so important in the construction of a dataset. Besides, the annotation task is already included in the data generation exercise, rather than being a post-capture task, which can save a lot of resources. We present the process and concept of synthetic data generation in an automotive context, specifically for driver and passenger monitoring purposes, as an alternative to real data capturing.
公開日:2022-05-13
翻訳日:2022-05-16 18:33:48
# (参考訳) 大規模ストリーミングデータによるレイテンシ保証による噂の検出 [全文訳有]

Detecting Rumours with Latency Guarantees using Massive Streaming Data ( http://arxiv.org/abs/2205.06580v1 )

ライセンス: CC BY 4.0
Thanh Tam Nguyen, Thanh Trung Huynh, Hongzhi Yin, Matthias Weidlich, Thanh Thi Nguyen, Thai Son Mai, Quoc Viet Hung Nguyen(参考訳) 今日のソーシャルネットワークは、大量のデータストリームを継続的に生成し、噂が広まり始めるとすぐに、噂の検出の出発点となる。 しかし、ソーシャルネットワークが出力する高速度ストリーミングデータの量を考えると、現代のアルゴリズムでは満たせない、厳密なレイテンシ境界が噂されている。 そこで本研究では,遅延の大きいすべての噂よりも,ほとんどの噂を素早く検出する最善の噂検出法を提案する。 この目的のために,提案手法は,精度の低下を最小限に抑えつつ,入力データの一部を破棄する効率的な負荷シェディングと噂パターンのグラフマッチングを併用する。 大規模実世界のデータセットを用いた実験は、さまざまなストリーミング条件下での実行時性能と検出精度の観点から、このアプローチの堅牢性を示している。

Today's social networks continuously generate massive streams of data, which provide a valuable starting point for the detection of rumours as soon as they start to propagate. However, rumour detection faces tight latency bounds, which cannot be met by contemporary algorithms, given the sheer volume of high-velocity streaming data emitted by social networks. Hence, in this paper, we argue for best-effort rumour detection that detects most rumours quickly rather than all rumours with a high delay. To this end, we combine techniques for efficient, graph-based matching of rumour patterns with effective load shedding that discards some of the input data while minimising the loss in accuracy. Experiments with large-scale real-world datasets illustrate the robustness of our approach in terms of runtime performance and detection accuracy under diverse streaming conditions.
公開日:2022-05-13
翻訳日:2022-05-16 18:23:57
# (参考訳) 韻律リセットを伴う確率環境におけるアップサイドダウン強化学習 [全文訳有]

Upside-Down Reinforcement Learning Can Diverge in Stochastic Environments With Episodic Resets ( http://arxiv.org/abs/2205.06595v1 )

ライセンス: CC BY 4.0
Miroslav \v{S}trupl, Francesco Faccio, Dylan R. Ashley, J\"urgen Schmidhuber, Rupesh Kumar Srivastava(参考訳) Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要とせず、教師付き学習のみを使用するRL問題を解決するアプローチである。 Goal-Conditional Supervised Learning (GCSL) - UDRLの簡易版と見なすことができる - が目標達成性能の低い境界を最適化することをGhoshらは証明した。 これにより、そのようなアルゴリズムは、特定のよく知られたrlアルゴリズムと同様に、任意の環境における最適ポリシーへの収束を保証できるという期待が高まる。 ここでは、特定のエピソードなUDRLアルゴリズム(eUDRL、GCSLを含む)について、これはそうではなく、この制限の原因であることを示す。 そこで我々はまず,再帰的ポリシー更新としてeUDRLの有用な書き直しを導入する。 この定式化は、幅広い確率的環境に対する最適ポリシーへの収束を阻害するのに役立つ。 最後に、eUDRLが分岐する非常に単純な環境の具体例を示す。 本論文の主な目的は負の結果を示すことであり、最も優れた反例は最も単純なものであるため、全ての議論を有限(離散)環境に限定し、関数近似や限定サンプルサイズの問題を無視している。

Upside-Down Reinforcement Learning (UDRL) is an approach for solving RL problems that does not require value functions and uses only supervised learning, where the targets for given inputs in a dataset do not change over time. Ghosh et al. proved that Goal-Conditional Supervised Learning (GCSL) -- which can be viewed as a simplified version of UDRL -- optimizes a lower bound on goal-reaching performance. This raises expectations that such algorithms may enjoy guaranteed convergence to the optimal policy in arbitrary environments, similar to certain well-known traditional RL algorithms. Here we show that for a specific episodic UDRL algorithm (eUDRL, including GCSL), this is not the case, and give the causes of this limitation. To do so, we first introduce a helpful rewrite of eUDRL as a recursive policy update. This formulation helps to disprove its convergence to the optimal policy for a wide class of stochastic environments. Finally, we provide a concrete example of a very simple environment where eUDRL diverges. Since the primary aim of this paper is to present a negative result, and the best counterexamples are the simplest ones, we restrict all discussions to finite (discrete) environments, ignoring issues of function approximation and limited sample size.
公開日:2022-05-13
翻訳日:2022-05-16 17:55:43
# (参考訳) faststmf: スパースデータに対する効率的な熱帯行列分解アルゴリズム [全文訳有]

FastSTMF: Efficient tropical matrix factorization algorithm for sparse data ( http://arxiv.org/abs/2205.06619v1 )

ライセンス: CC BY-SA 4.0
Amra Omanovi\'c, Polona Oblak and Toma\v{z} Curk(参考訳) 行列分解(matrix factorization)は、機械学習で最も一般的な方法の1つで、最近、熱帯セミリングを用いた予測タスクに非線形性を導入することで恩恵を受けている。 非線形性は極値と分布により適合し、標準線型代数で見られるものとは異なる高分散パターンを見つけることができる。 しかし, 種々の熱帯行列分解法の最適化プロセスは遅い。 本研究では,sparse tropical matrix factorization (stmf) に基づく新しいfaststmf法を提案する。 我々は,TCGAデータベースから合成および実遺伝子発現データに対するFastSTMFの有効性を評価し,FastSTMFがSTMFの精度と実行時間の両方で優れていることを示した。 NMFと比較して、FastSTMFはいくつかのデータセットで性能が良く、NMFとして過度に適合する傾向がある。 この研究は、新しい最適化プロセスを用いて、他の多くの半環に基づく他の行列因数分解手法の開発の基礎を定めている。

Matrix factorization, one of the most popular methods in machine learning, has recently benefited from introducing non-linearity in prediction tasks using tropical semiring. The non-linearity enables a better fit to extreme values and distributions, thus discovering high-variance patterns that differ from those found by standard linear algebra. However, the optimization process of various tropical matrix factorization methods is slow. In our work, we propose a new method FastSTMF based on Sparse Tropical Matrix Factorization (STMF), which introduces a novel strategy for updating factor matrices that results in efficient computational performance. We evaluated the efficiency of FastSTMF on synthetic and real gene expression data from the TCGA database, and the results show that FastSTMF outperforms STMF in both accuracy and running time. Compared to NMF, we show that FastSTMF performs better on some datasets and is not prone to overfitting as NMF. This work sets the basis for developing other matrix factorization techniques based on many other semirings using a new proposed optimization process.
公開日:2022-05-13
翻訳日:2022-05-16 17:38:38
# (参考訳) 事前学習多言語モデルを用いた翻訳形式制御 [全文訳有]

Controlling Translation Formality Using Pre-trained Multilingual Language Models ( http://arxiv.org/abs/2205.06644v1 )

ライセンス: CC BY 4.0
Elijah Rippeth and Sweta Agrawal and Marine Carpuat(参考訳) 本稿では、メリーランド大学が発声言語翻訳の形式性制御に関する特別課題である \iwslt への提案について述べる。 対象言語と形式性の出力を同時に制御することで,この問題に対して \textit{single multilingual model} がどの程度対処できるかを検討する。 その結果、この戦略は、専用翻訳モデルによって達成された翻訳品質と形式制御にアプローチできることを示した。 しかし、基礎となる事前学習言語モデルと微調整サンプルの性質は結果に大きな影響を及ぼす。

This paper describes the University of Maryland's submission to the Special Task on Formality Control for Spoken Language Translation at \iwslt, which evaluates translation from English into 6 languages with diverse grammatical formality markers. We investigate to what extent this problem can be addressed with a \textit{single multilingual model}, simultaneously controlling its output for target language and formality. Results show that this strategy can approach the translation quality and formality control achieved by dedicated translation models. However, the nature of the underlying pre-trained language model and of the finetuning samples greatly impact results.
公開日:2022-05-13
翻訳日:2022-05-16 17:14:50
# (参考訳) 多目的遺伝的変化予測のための局所注意グラフベース変換器 [全文訳有]

Local Attention Graph-based Transformer for Multi-target Genetic Alteration Prediction ( http://arxiv.org/abs/2205.06672v1 )

ライセンス: CC BY 4.0
Daniel Reisenb\"uchler, Sophia J. Wagner, Melanie Boxberg, Tingying Peng(参考訳) 古典的な多重インスタンス学習(mil)メソッドは、しばしばインスタンス間の同一かつ独立した分散仮定に基づいているため、個々のエンティティを超えて、潜在的に豊富なコンテキスト情報を無視する。 一方,グローバルな自己アテンションモジュールを持つトランスフォーマーは,すべてのインスタンス間の相互依存性をモデル化するために提案されている。 大規模全スライド画像(wsis)において,自己注意を用いたグローバルリレーションモデリングは必要か,あるいは局所的レジームに対する自己注意計算を適切に制限できるか,という疑問を呈する。 任意の大きさの適応的局所環境においてインスタンスを明示的にコンテキスト化することにより,帰納的バイアスを導入する。 さらに、効率よく適応した損失関数により、複数のバイオマーカーの結合解析のための表現型WSI埋め込みを学習することができる。 LA-MILは消化器癌に対する突然変異予測において最先端の結果を得られ,大腸癌に対するマイクロサテライト不安定性などの重要なバイオマーカーの既存モデルよりも優れていた。 このことは、局所自己着在性がグローバルモジュールと同等の依存性を十分にモデル化することを示唆している。 私たちの実装が公開される。

Classical multiple instance learning (MIL) methods are often based on the identical and independent distributed assumption between instances, hence neglecting the potentially rich contextual information beyond individual entities. On the other hand, Transformers with global self-attention modules have been proposed to model the interdependencies among all instances. However, in this paper we question: Is global relation modeling using self-attention necessary, or can we appropriately restrict self-attention calculations to local regimes in large-scale whole slide images (WSIs)? We propose a general-purpose local attention graph-based Transformer for MIL (LA-MIL), introducing an inductive bias by explicitly contextualizing instances in adaptive local regimes of arbitrary size. Additionally, an efficiently adapted loss function enables our approach to learn expressive WSI embeddings for the joint analysis of multiple biomarkers. We demonstrate that LA-MIL achieves state-of-the-art results in mutation prediction for gastrointestinal cancer, outperforming existing models on important biomarkers such as microsatellite instability for colorectal cancer. This suggests that local self-attention sufficiently models dependencies on par with global modules. Our implementation will be published.
公開日:2022-05-13
翻訳日:2022-05-16 16:59:30
# (参考訳) MOPaC: 部分合意を伴う多国間交渉のための多重プロトコル [全文訳有]

MOPaC: The Multiple Offers Protocol for Multilateral Negotiations with Partial Consensus ( http://arxiv.org/abs/2205.06678v1 )

ライセンス: CC BY 4.0
Pradeep K. Murukannaiah and Catholijn M. Jonker(参考訳) 多国間交渉のための既存のプロトコルは、交渉当事者間の完全な合意を必要とする。 対照的に、交渉相手のサブセットのみが合意に達することができる部分的なコンセンサスを可能にする多国間交渉のプロトコルを提案する。 我々はそのようなプロトコルを必要とする問題を動機付け、プロトコルを正式に記述する。

Existing protocols for multilateral negotiation require a full consensus among the negotiating parties. In contrast, we propose a protocol for multilateral negotiation that allows partial consensus, wherein only a subset of the negotiating parties can reach an agreement. We motivate problems that require such a protocol and describe the protocol formally.
公開日:2022-05-13
翻訳日:2022-05-16 16:43:55
# (参考訳) ディープフェイク映像検出における時間依存性の効果 [全文訳有]

The Effectiveness of Temporal Dependency in Deepfake Video Detection ( http://arxiv.org/abs/2205.06684v1 )

ライセンス: CC BY 4.0
Will Rowan and Nick Pears(参考訳) ディープフェイク(deepfakes)は、悪意のある目的のために個人の偽のビデオを生成する合成画像生成の一種である。 得られたビデオは、誤報を広めたり、メディアへの信頼を減らしたり、脅迫の一形態として利用することができる。 これらの脅威はディープフェイクビデオ検出の自動化方法を必要とする。 本稿では,時間的情報がディープラーニングモデルの深度検出性能を向上させるかを検討する。 そこで本研究では,新しいアプローチと既存のアプローチを,その定義特性によって分類するフレームワークを提案する。 これらは自動あるいは手動による機能抽出と、フレーム間の時間的関係:依存または独立である。 このフレームワークを用いて,モデルのディープフェイク検出性能に対する時間依存性の影響を調べる。 時間依存性は,自動特徴選択によるモデルの実像の分類において,統計的に有意な(p < 0.05)増加を生じさせ,時空間情報が深層映像検出モデルの性能を向上させることを示した。

Deepfakes are a form of synthetic image generation used to generate fake videos of individuals for malicious purposes. The resulting videos may be used to spread misinformation, reduce trust in media, or as a form of blackmail. These threats necessitate automated methods of deepfake video detection. This paper investigates whether temporal information can improve the deepfake detection performance of deep learning models. To investigate this, we propose a framework that classifies new and existing approaches by their defining characteristics. These are the types of feature extraction: automatic or manual, and the temporal relationship between frames: dependent or independent. We apply this framework to investigate the effect of temporal dependency on a model's deepfake detection performance. We find that temporal dependency produces a statistically significant (p < 0.05) increase in performance in classifying real images for the model using automatic feature selection, demonstrating that spatio-temporal information can increase the performance of deepfake video detection models.
公開日:2022-05-13
翻訳日:2022-05-16 16:41:04
# (参考訳) インプシットシンクホーンの識別のための統一フレームワーク

A Unified Framework for Implicit Sinkhorn Differentiation ( http://arxiv.org/abs/2205.06688v1 )

ライセンス: CC BY 4.0
Marvin Eisenberger, Aysim Toker, Laura Leal-Taix\'e, Florian Bernard, Daniel Cremers(参考訳) Sinkhorn演算子はコンピュータビジョンや関連分野で最近人気が高まっている。 主な理由は、ディープラーニングフレームワークへの統合が容易であることだ。 本稿では,各ニューラルネットワークの効率的な学習を可能にするために,暗黙的微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。 以前の作業と比較して、このフレームワークはspinhorn演算子の最も一般的な定式化に基づいている。 これはあらゆる種類の損失関数を許容するが、目標容量とコスト行列は共同で区別される。 さらに、近似入力に対する結果アルゴリズムの誤差境界を構築する。 最後に,多くのアプリケーションにおいて,自動微分をアルゴリズムに置き換えれば,得られる勾配の安定性と精度が向上することを示す。 さらに、特にGPUメモリなどのリソースが不足している場合、計算効率が向上することを示す。

The Sinkhorn operator has recently experienced a surge of popularity in computer vision and related fields. One major reason is its ease of integration into deep learning frameworks. To allow for an efficient training of respective neural networks, we propose an algorithm that obtains analytical gradients of a Sinkhorn layer via implicit differentiation. In comparison to prior work, our framework is based on the most general formulation of the Sinkhorn operator. It allows for any type of loss function, while both the target capacities and cost matrices are differentiated jointly. We further construct error bounds of the resulting algorithm for approximate inputs. Finally, we demonstrate that for a number of applications, simply replacing automatic differentiation with our algorithm directly improves the stability and accuracy of the obtained gradients. Moreover, we show that it is computationally more efficient, particularly when resources like GPU memory are scarce.
公開日:2022-05-13
翻訳日:2022-05-16 16:27:17
# (参考訳) ロボットの衣服の折り畳みに関する合成データからキーポイントを学習する [全文訳有]

Learning Keypoints from Synthetic Data for Robotic Cloth Folding ( http://arxiv.org/abs/2205.06714v1 )

ライセンス: CC BY 4.0
Thomas Lips, Victor-Louis De Gusseme, Francis wyffels(参考訳) ロボット布の操作はその変形性から困難であり、完全な状態を決定することは不可能である。 しかし、布の折り畳みについては、いくつかの意味キーポイントの位置を知るだけでよい。 畳み込みニューラルネットワーク(CNN)は、これらのキーポイントを検出するために使用できるが、大量の注釈付きデータを必要とするため、収集に費用がかかる。 そこで我々は,これらのキーポイント検出器を合成データから学習し,低コストなデータ収集を実現することを提案する。 本稿では,タオルの画像を手続き的に生成し,それをCNNの訓練に用いる。 本研究では, 片手ロボットにおけるタオルの折り畳み性能を評価し, グリップ成功率は77%, 折り畳み成功率は53%であった。 筆者らは,布の折り畳みや関連タスクの合成データからキーポイント検出器を学習することが,有望な研究方向であり,いくつかの失敗を議論し,今後の課題に関連付けることを結論付けた。 CNNアーキテクチャとトレーニング設定の詳細は、https://github.com/t lpss/workshop-icra-2 022-cloth-keypoints. gitにある。

Robotic cloth manipulation is challenging due to its deformability, which makes determining its full state infeasible. However, for cloth folding, it suffices to know the position of a few semantic keypoints. Convolutional neural networks (CNN) can be used to detect these keypoints, but require large amounts of annotated data, which is expensive to collect. To overcome this, we propose to learn these keypoint detectors purely from synthetic data, enabling low-cost data collection. In this paper, we procedurally generate images of towels and use them to train a CNN. We evaluate the performance of this detector for folding towels on a unimanual robot setup and find that the grasp and fold success rates are 77% and 53%, respectively. We conclude that learning keypoint detectors from synthetic data for cloth folding and related tasks is a promising research direction, discuss some failures and relate them to future work. A video of the system, as well as the codebase, more details on the CNN architecture and the training setup can be found at https://github.com/t lpss/workshop-icra-2 022-cloth-keypoints. git.
公開日:2022-05-13
翻訳日:2022-05-16 16:26:17
# (参考訳) 非順序データにおける教師なし異常検出のための視覚インスパイアニューラルネットワーク

A Vision Inspired Neural Network for Unsupervised Anomaly Detection in Unordered Data ( http://arxiv.org/abs/2205.06716v1 )

ライセンス: CC BY 4.0
Nassir Mohammad(参考訳) 教師なし機械学習の分野における根本的な問題は、関心の希少かつ異常な観察に対応する異常の検出である。 異常は直感的に、異常または矛盾するものと理解され、その発生がすぐに注意を喚起する。 より形式的な異常は、事前関心の集団化に関して発生を期待する観察に基づく適切な確率変数モデリングであり、パラメータフリーな知覚異常検出アルゴリズムを開発するために、そのような定義と理解が用いられてきた。 本研究は、知覚アルゴリズムが用いたアプローチと、神経生理学と計算神経科学におけるこれまでの数十年の研究、特に網膜および視覚野における情報処理との重要かつ実践的な関係を確立することを目的とする。 このアルゴリズムは、予期せぬ観察を異常として信号する学習を行う教師なしニューラルネットワークのカーネルを形成するニューロンモデルとして概念化されている。 ネットワークとニューロンの表示特性は、即時知性、並列処理、冗長性、大域的劣化、コントラスト不変性、パラメータフリーな計算、動的しきい値、非線形処理を含む生物学的プロセスで観察される。 このネットワークを具体的応用として, 単変量および多変量データの異常検出のための頑健かつ正確なモデルを構築した。

A fundamental problem in the field of unsupervised machine learning is the detection of anomalies corresponding to rare and unusual observations of interest; reasons include for their rejection, accommodation or further investigation. Anomalies are intuitively understood to be something unusual or inconsistent, whose occurrence sparks immediate attention. More formally anomalies are those observations-under appropriate random variable modelling-whose expectation of occurrence with respect to a grouping of prior interest is less than one; such a definition and understanding has been used to develop the parameter-free perception anomaly detection algorithm. The present work seeks to establish important and practical connections between the approach used by the perception algorithm and prior decades of research in neurophysiology and computational neuroscience; particularly that of information processing in the retina and visual cortex. The algorithm is conceptualised as a neuron model which forms the kernel of an unsupervised neural network that learns to signal unexpected observations as anomalies. Both the network and neuron display properties observed in biological processes including: immediate intelligence; parallel processing; redundancy; global degradation; contrast invariance; parameter-free computation, dynamic thresholds and non-linear processing. A robust and accurate model for anomaly detection in univariate and multivariate data is built using this network as a concrete application.
公開日:2022-05-13
翻訳日:2022-05-16 16:15:36
# (参考訳) 間欠的クライアント可用性と時変通信制約下での連合学習 [全文訳有]

Federated Learning Under Intermittent Client Availability and Time-Varying Communication Constraints ( http://arxiv.org/abs/2205.06730v1 )

ライセンス: CC BY 4.0
Monica Ribero and Haris Vikalo and Gustavo De Veciana(参考訳) フェデレーション学習システムは、潜在的に異種なデータを多数のクライアントに分散する設定において、グローバルモデルのトレーニングを容易にする。 このようなシステムは、断続的なクライアントの可用性および/または時間変化の通信制約を伴う設定で動作する。 その結果、連合学習システムによって訓練されたグローバルモデルは、高可用性のクライアントに偏りが生じる可能性がある。 本稿では,グローバルモデル収束に対するクライアントサンプリング分散の影響を漸近的に最小化し,連合学習の性能を向上させる,可用性依存型クライアント選択戦略を動的に学習する非バイアスアルゴリズムであるf3astを提案する。 提案アルゴリズムは, 間欠的に利用可能なクライアントに対して, 通信制約下での様々な設定で検証し, CIFAR100とシェークスピアデータセットを用いて, 合成データおよび現実的なベンチマーク実験で有効性を示した。 cifar100では186%,fedavgでは8%,fedadamでは8%,シェークスピアでは7%であった。

Federated learning systems facilitate training of global models in settings where potentially heterogeneous data is distributed across a large number of clients. Such systems operate in settings with intermittent client availability and/or time-varying communication constraints. As a result, the global models trained by federated learning systems may be biased towards clients with higher availability. We propose F3AST, an unbiased algorithm that dynamically learns an availability-depende nt client selection strategy which asymptotically minimizes the impact of client-sampling variance on the global model convergence, enhancing performance of federated learning. The proposed algorithm is tested in a variety of settings for intermittently available clients under communication constraints, and its efficacy demonstrated on synthetic data and realistically federated benchmarking experiments using CIFAR100 and Shakespeare datasets. We show up to 186% and 8% accuracy improvements over FedAvg, and 8% and 7% over FedAdam on CIFAR100 and Shakespeare, respectively.
公開日:2022-05-13
翻訳日:2022-05-16 16:14:32
# (参考訳) マイナショット学習の包括的調査 : 進化、応用、挑戦、機会 [全文訳有]

A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2205.06743v1 )

ライセンス: CC BY 4.0
Yisheng Song, Ting Wang, Subrota K Mondal, Jyoti Prakash Sahoo(参考訳) 効果的な学習方法としてFSL(Few-shot Learning)が登場し,大きな可能性を示している。 FSLタスクに取り組むための最近の創造的な作業にもかかわらず、少数のサンプルから、あるいはゼロのサンプルから有効な情報を素早く学習することは、依然として深刻な課題である。 本研究では,過去3年間に発行されたFSLに関する200以上の最新の論文を網羅的に調査し,FSLの最近の進歩のタイムリーかつ包括的概要と,既存の作品の長所と短所を公平に比較することを目的とした。 概念的混乱を避けるために,我々はまず,少数ショット学習,転帰学習,メタラーニングなど,類似した概念のセットを詳しく比較する。 さらに,FSLの課題に応じて,知識の抽象化レベルに応じて既存の作業を分類する新たな分類法を提案する。 この調査を充実させるために、各節において、これらのトピックに関する最近の進歩に関する詳細な分析と洞察に富んだ議論を提供する。 さらに、コンピュータビジョンを例として、さまざまな研究ホットスポットをカバーするFSLの重要応用を強調した。 最後に,技術進化の傾向に関する独自の知見と今後の研究機会について,フォローアップ研究へのガイダンスの提供を期待する。

Few-shot learning (FSL) has emerged as an effective learning method and shows great potential. Despite the recent creative works in tackling FSL tasks, learning valid information rapidly from just a few or even zero samples still remains a serious challenge. In this context, we extensively investigated 200+ latest papers on FSL published in the past three years, aiming to present a timely and comprehensive overview of the most recent advances in FSL along with impartial comparisons of the strengths and weaknesses of the existing works. For the sake of avoiding conceptual confusion, we first elaborate and compare a set of similar concepts including few-shot learning, transfer learning, and meta-learning. Furthermore, we propose a novel taxonomy to classify the existing work according to the level of abstraction of knowledge in accordance with the challenges of FSL. To enrich this survey, in each subsection we provide in-depth analysis and insightful discussion about recent advances on these topics. Moreover, taking computer vision as an example, we highlight the important application of FSL, covering various research hotspots. Finally, we conclude the survey with unique insights into the technology evolution trends together with potential future research opportunities in the hope of providing guidance to follow-up research.
公開日:2022-05-13
翻訳日:2022-05-16 15:45:43
# (参考訳) ニューラルネットワークを用いた薄肉2次元押出格子の構造と特性関係の検討 [全文訳有]

Exploring the structure-property relations of thin-walled, 2D extruded lattices using neural networks ( http://arxiv.org/abs/2205.06761v1 )

ライセンス: CC BY 4.0
Junyan He, Shashank Kushwaha, Diab Abueidda, Iwona Jasiuk(参考訳) 本稿では,断面と高さを特徴とする動的縦圧縮下における薄肉格子の構造特性関係について検討する。 これらの関係は、エネルギー吸収を含む機械的応答に関する設計の異なる幾何学的特徴の相互作用を解明する。 我々は,異なる格子設計を生成するための組合せ型キーベース設計システムを提案し,その応答をジョンソン-クック材料モデルでシミュレートするために有限要素法を用いた。 オートエンコーダを用いて、格子の断面画像を潜在設計特徴ベクトルに符号化し、予測を生成するためにニューラルネットワークモデルに供給した。 トレーニングされたモデルはキーベース設計システムにおける格子エネルギー吸収曲線を正確に予測することができ、転送学習を通じてシステム外の新しい設計に拡張することができる。

This paper investigates the structure-property relations of thin-walled lattices under dynamic longitudinal compression, characterized by their cross-sections and heights. These relations elucidate the interactions of different geometric features of a design on mechanical response, including energy absorption. We proposed a combinatorial, key-based design system to generate different lattice designs and used the finite element method to simulate their response with the Johnson-Cook material model. Using an autoencoder, we encoded the cross-sectional images of the lattices into latent design feature vectors, which were supplied to the neural network model to generate predictions. The trained models can accurately predict lattice energy absorption curves in the key-based design system and can be extended to new designs outside of the system via transfer learning.
公開日:2022-05-13
翻訳日:2022-05-16 15:05:37
# (参考訳) EyeDAS:tereoblindnes s syndromeに対する自律走行車の認識の確保 [全文訳有]

EyeDAS: Securing Perception of Autonomous Cars Against the Stereoblindness Syndrome ( http://arxiv.org/abs/2205.06765v1 )

ライセンス: CC BY 4.0
Efrat Levy, Ben Nassi, Raz Swissa and Yuval Elovici(参考訳) 物体が2dまたは3dの物体であるかどうかを検知する能力は、運転者、乗客、歩行者などの安全を危険にさらすなど、自動運転において極めて重要である。 2次元物体と3次元物体を区別する手法(例えば、生存度検出法)は、物体に依存したり、自律運転に関連する制約(例えば、車両が動いている最中のリアルタイム意思決定の必要性)を考慮していないため、自律運転には適さない。 本稿では,物体検出装置(OD)をステレオブラインドネス症候群(すなわち,2次元物体と3次元物体を区別できない)の脅威に対して確保することを目的とした,新しい数発学習方式であるEyeDASを提案する。 運転席からダッシュカメラで撮影した7本のYouTubeビデオ映像から2000個のオブジェクトを抽出し,EyeDASのリアルタイム性能を評価する。 対策としてEyeDASを7種類の最先端ODに適用すると、EyeDASは2D誤分類率を71.42-100%から2.4%に下げることができた(TPRは1.0)。 また、EyeDASはベースライン法よりも優れ、0.999以上のAUCと1.0のTPRを0.024のFPRで達成している。

The ability to detect whether an object is a 2D or 3D object is extremely important in autonomous driving, since a detection error can have life-threatening consequences, endangering the safety of the driver, passengers, pedestrians, and others on the road. Methods proposed to distinguish between 2 and 3D objects (e.g., liveness detection methods) are not suitable for autonomous driving, because they are object dependent or do not consider the constraints associated with autonomous driving (e.g., the need for real-time decision-making while the vehicle is moving). In this paper, we present EyeDAS, a novel few-shot learning-based method aimed at securing an object detector (OD) against the threat posed by the stereoblindness syndrome (i.e., the inability to distinguish between 2D and 3D objects). We evaluate EyeDAS's real-time performance using 2,000 objects extracted from seven YouTube video recordings of street views taken by a dash cam from the driver's seat perspective. When applying EyeDAS to seven state-of-the-art ODs as a countermeasure, EyeDAS was able to reduce the 2D misclassification rate from 71.42-100% to 2.4% with a 3D misclassification rate of 0% (TPR of 1.0). We also show that EyeDAS outperforms the baseline method and achieves an AUC of over 0.999 and a TPR of 1.0 with an FPR of 0.024.
公開日:2022-05-13
翻訳日:2022-05-16 14:51:57
# チャネル容量に基づくデータ駆動上界

Data-Driven Upper Bounds on Channel Capacity ( http://arxiv.org/abs/2205.06471v1 )

ライセンス: Link先を確認
Christian H\"ager, Erik Agrell(参考訳) 我々は、未知のチャネル法則と連続出力アルファベットを用いて、メモリレスチャネルの容量の上限を推定する問題を考察する。 入力分布上の最大化をチャネル出力上の参照分布上の最小化に置き換えるキャパシティの二重表現を利用する新しいデータ駆動アルゴリズムを提案する。 条件付きチャネルと基準分布の間の所要のばらつきの最大化を効率的に計算するために、チャネル入力を付加パラメータとして取り込む改良された相互情報ニューラル推定器を用いる。 我々は,異なるメモリレスチャネルに対するアプローチを評価し,推定上界がチャネル容量あるいはよく知られた下界に密接に収束していることを示す。

We consider the problem of estimating an upper bound on the capacity of a memoryless channel with unknown channel law and continuous output alphabet. A novel data-driven algorithm is proposed that exploits the dual representation of capacity where the maximization over the input distribution is replaced with a minimization over a reference distribution on the channel output. To efficiently compute the required divergence maximization between the conditional channel and the reference distribution, we use a modified mutual information neural estimator that takes the channel input as an additional parameter. We evaluate our approach on different memoryless channels and show that the estimated upper bounds closely converge either to the channel capacity or to best-known lower bounds.
公開日:2022-05-13
翻訳日:2022-05-16 14:38:33
# スパイクソーティングアルゴリズムの形式化とハードウェア評価に向けて

Toward A Formalized Approach for Spike Sorting Algorithms and Hardware Evaluation ( http://arxiv.org/abs/2205.06514v1 )

ライセンス: Link先を確認
Tim Zhang, Corey Lammie, Mostafa Rahimi Azghadi, Amirali Amirsoleimani, Majid Ahmadi, Roman Genov(参考訳) スパイク分類アルゴリズムは、神経細胞集団の細胞外記録を単一単位スパイク活動に分離するために用いられる。 スパイクソートアルゴリズムを実装するカスタマイズハードウェアの開発は急成長している。 しかし、ソフトウェアとハードウェア実装の直接比較を容易にするため、体系的なアプローチと標準化された評価基準が欠如している。 本稿では,SSOER (Synthetic Simulations of Extracellular Recordings) と題する,標準化された基準の集合と,SNR (Signal-to-Noise Ratios) の異なる既存の合成データセットを集約して構築した合成データセットを定式化した。 さらに,今後の比較のためのベンチマークを行い,特徴抽出のための離散ウェーブレット変換 (dwt) を用いたシミュレート抵抗ランダムアクセスメモリ (rram) in-memory computing (imc) システムの評価を行う。 約10.72mWを消費し、22nm FDSOI補体金属-酸化物-半導体(CMOS)プロセスにおいて0.66mm$^2$の面積を占める。

Spike sorting algorithms are used to separate extracellular recordings of neuronal populations into single-unit spike activities. The development of customized hardware implementing spike sorting algorithms is burgeoning. However, there is a lack of a systematic approach and a set of standardized evaluation criteria to facilitate direct comparison of both software and hardware implementations. In this paper, we formalize a set of standardized criteria and a publicly available synthetic dataset entitled Synthetic Simulations Of Extracellular Recordings (SSOER), which was constructed by aggregating existing synthetic datasets with varying Signal-To-Noise Ratios (SNRs). Furthermore, we present a benchmark for future comparison, and use our criteria to evaluate a simulated Resistive Random-Access Memory (RRAM) In-Memory Computing (IMC) system using the Discrete Wavelet Transform (DWT) for feature extraction. Our system consumes approximately (per channel) 10.72mW and occupies an area of 0.66mm$^2$ in a 22nm FDSOI Complementary Metal-Oxide-Semicond uctor (CMOS) process.
公開日:2022-05-13
翻訳日:2022-05-16 14:38:22
# ACM Multimedia 2022 Computational Paralinguistics Challenge: Vocalisations, Stuttering, Activity, and Mosquitoes

The ACM Multimedia 2022 Computational Paralinguistics Challenge: Vocalisations, Stuttering, Activity, & Mosquitoes ( http://arxiv.org/abs/2205.06799v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller, Anton Batliner, Shahin Amiriparian, Christian Bergler, Maurice Gerczuk, Natalie Holz, Pauline Larrouy-Maestri, Sebastian P. Bayerl, Korbinian Riedhammer, Adria Mallol-Ragolta, Maria Pateraki, Harry Coppock, Ivan Kiskin, Marianne Sinka, Stephen Roberts(参考訳) acm multimedia 2022 computational paralinguistics challenge(acmマルチメディア2022 計算パラ言語学チャレンジ)は、明確に定義された条件下での研究競争で初めて4つの異なる問題に対処した: 発声と発声サブチャレンジにおいて、人間の非言語的な発声と音声の分類を行う必要があり、アクティビティサブチャレンジは、スマートウォッチのセンサーデータから、音声以外の人間の活動を認識することを目的としており、蚊サブチャレンジでは蚊を検知する必要がある。 本稿では,通常の比較・boaw機能,audeepツールキット,deepspectrumツールキットを用いたcnnからの深層特徴抽出,エンドツーエンドシーケンシャルモデリング,log-mel-128-bnnを用いたサブチャンジ,ベースライン特徴抽出,分類器について述べる。

The ACM Multimedia 2022 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the Vocalisations and Stuttering Sub-Challenges, a classification on human non-verbal vocalisations and speech has to be made; the Activity Sub-Challenge aims at beyond-audio human activity recognition from smartwatch sensor data; and in the Mosquitoes Sub-Challenge, mosquitoes need to be detected. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the usual ComPaRE and BoAW features, the auDeep toolkit, and deep feature extraction from pre-trained CNNs using the DeepSpectRum toolkit; in addition, we add end-to-end sequential modelling, and a log-mel-128-BNN.
公開日:2022-05-13
翻訳日:2022-05-16 14:38:04
# 主エージェント仮説検定

Principal-Agent Hypothesis Testing ( http://arxiv.org/abs/2205.06812v1 )

ライセンス: Link先を確認
Stephen Bates, Michael I. Jordan, Michael Sklar, Jake A. Soloff(参考訳) FDA(プリンシパル)と製薬会社(エージェント)の関係を考える。 製薬会社は利益を上げるために製品を売ることを望んでおり、fdaは有効な薬のみを公に公開することを望んでいる。 この薬の有効性はFDAには分かっていないので、医薬品会社はFDAに効力を示すために費用がかかる裁判を行わなければならない。 批判的に、有効性を確立するために使用される統計プロトコルは、戦略的で利害関係にある製薬会社の行動に影響を与え、より低い統計証拠は、薬局が有効性の低い薬についてより多くの治験を行うように動機づける。 統計プロトコルと製薬会社のインセンティブとの相互作用は、このシステムを理解し、高い社会的ユーティリティでプロトコルを設計する上で不可欠である。 本研究では, 統計的証拠に基づいて, 主役とエージェントが, 支払契約を締結する方法について論じる。 製品の品質に関するより強力な証拠がある場合、プリンシパルはエージェントがより大きな利益を得るのを許可する。 我々は,エージェントの戦略行動にロバストな契約の設計方法を示し,戦略行動が存在する場合に最適な契約を導出する。

Consider the relationship between the FDA (the principal) and a pharmaceutical company (the agent). The pharmaceutical company wishes to sell a product to make a profit, and the FDA wishes to ensure that only efficacious drugs are released to the public. The efficacy of the drug is not known to the FDA, so the pharmaceutical company must run a costly trial to prove efficacy to the FDA. Critically, the statistical protocol used to establish efficacy affects the behavior of a strategic, self-interested pharmaceutical company; a lower standard of statistical evidence incentivizes the pharmaceutical company to run more trials for drugs that are less likely to be effective, since the drug may pass the trial by chance, resulting in large profits. The interaction between the statistical protocol and the incentives of the pharmaceutical company is crucial to understanding this system and designing protocols with high social utility. In this work, we discuss how the principal and agent can enter into a contract with payoffs based on statistical evidence. When there is stronger evidence for the quality of the product, the principal allows the agent to make a larger profit. We show how to design contracts that are robust to an agent's strategic actions, and derive the optimal contract in the presence of strategic behavior.
公開日:2022-05-13
翻訳日:2022-05-16 14:37:44
# (参考訳) マルチエージェント強化学習を用いた無線ネットワークの分散伝送制御 [全文訳有]

Distributed Transmission Control for Wireless Networks using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.06800v1 )

ライセンス: CC BY 4.0
Collin Farquhar, Prem Sagar Pattanshetty Vasanth Kumar, Anu Jagannath, Jithin Jagannath(参考訳) 本稿では,複数エージェント強化学習のレンズを通して,分散無線通信ネットワークにおける伝送制御,すなわち送信タイミングの問題について検討する。 送信の制御やスケジューリングに強化学習を用いる作業の多くは集中制御機構を使用しているが、我々のアプローチは完全に分散している。 各送信ノードは独立した強化学習エージェントであり、他のエージェントが行う動作について直接知識を持っていない。 エージェントのサブセットしか一度に送信できない場合を考えると、各エージェントは他のエージェントと協調して行動することを学ぶ必要がある。 エージェントは、特定の数のステップを将来的に送信することを決定できるが、この決定は、他のエージェントと通信されないため、適切なタイミングで送信しようとする個々のエージェントのタスクである。 我々は、異なる行動空間の効果を研究することによって、この協調行動を達成する。 私たちは物理層を知らないので、アプローチは多くの種類のネットワークに適用できます。 このようなアプローチは,独立エージェントによるマルチエージェント強化学習を使用する他のドメインでは有用かもしれない。

We examine the problem of transmission control, i.e., when to transmit, in distributed wireless communications networks through the lens of multi-agent reinforcement learning. Most other works using reinforcement learning to control or schedule transmissions use some centralized control mechanism, whereas our approach is fully distributed. Each transmitter node is an independent reinforcement learning agent and does not have direct knowledge of the actions taken by other agents. We consider the case where only a subset of agents can successfully transmit at a time, so each agent must learn to act cooperatively with other agents. An agent may decide to transmit a certain number of steps into the future, but this decision is not communicated to the other agents, so it the task of the individual agents to attempt to transmit at appropriate times. We achieve this collaborative behavior through studying the effects of different actions spaces. We are agnostic to the physical layer, which makes our approach applicable to many types of networks. We submit that approaches similar to ours may be useful in other domains that use multi-agent reinforcement learning with independent agents.
公開日:2022-05-13
翻訳日:2022-05-16 14:36:29
# (参考訳) 映画レコメンデーションのためのディープコラボレーティブニューラルネットワークにおけるユーザと項目レビューの統合

Integrating User and Item Reviews in Deep Cooperative Neural Networks for Movie Recommendation ( http://arxiv.org/abs/2205.06296v1 )

ライセンス: CC BY 4.0
Aristeidis Karras, Christos Karras(参考訳) ユーザ評価には、オンラインプラットフォーム全体でかなりの量の情報が含まれる。 この情報ソースは、スパーシティの問題を緩和し、提案の質を高める可能性があるにもかかわらず、既存のレコメンデーションシステムの大部分によって無視されている。 この研究は、レビューテキストからアイテム属性とユーザの振る舞いを同時に学習するための深いモデルを示す。 Deep Cooperative Neural Networks (DeepCoNN) は、2つの並列ニューラルネットワークを最終層に接続したモデルである。 ネットワークの1つは、ユーザが提出したレビューからユーザ行動を学ぶことに焦点を当て、もう1つは、ユーザレビューからアイテム属性を学ぶ。 さらに、この2つのネットワークを接続するために共有レイヤが追加される。 因子化マシンのアプローチと同様に、共有レイヤは、人や物が相互に相互作用するために取得した潜在要因を許容する。 実験結果によると、多くのデータセットにおいて、DeepCoNNはすべてのベースラインレコメンデーションシステムを上回っている。

User evaluations include a significant quantity of information across online platforms. This information source has been neglected by the majority of existing recommendation systems, despite its potential to ease the sparsity issue and enhance the quality of suggestions. This work presents a deep model for concurrently learning item attributes and user behaviour from review text. Deep Cooperative Neural Networks (DeepCoNN) is the suggested model consisting of two parallel neural networks connected in their final layers. One of the networks focuses on learning user behaviour from reviews submitted by the user, while the other network learns item attributes from user reviews. On top, a shared layer is added to connect these two networks. Similar to factorization machine approaches, the shared layer allows latent factors acquired for people and things to interact with each other. On a number of datasets, DeepCoNN surpasses all baseline recommendation systems, according to experimental findings.
公開日:2022-05-12
翻訳日:2022-05-16 14:18:24
# (参考訳) 協調型マルチエージェント確率線形帯域

Collaborative Multi-agent Stochastic Linear Bandits ( http://arxiv.org/abs/2205.06331v1 )

ライセンス: CC BY 4.0
Ahmadreza Moradipari, Mohammad Ghavamzadeh, and Mahnoosh Alizadeh(参考訳) 我々は,ネットワークを形成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント確率線形帯域設定について検討した。 この設定では、各エージェントは独自の線形バンディット問題(それ自体は報酬パラメータ)を持ち、ゴールは報酬パラメータの平均値として最高のグローバルアクションw.r.tを選択することである。 各ラウンドで各エージェントがアクションを提案し、1つのアクションがランダムに選択され、ネットワークアクションとして再生される。 すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。 本稿では,分散上信頼度境界(UCB)アルゴリズムを提案し,各通信ラウンドに関連付けられた後悔の線形成長を含む,T$ラウンドの後悔に基づく高い確率を証明した。 我々の後悔は、$\mathcal{o}\big(\sqrt{\frac{t}{n \log(1/|\lambda_2|)}}\cdot (\log t)^2\big)$という順序である。

We study a collaborative multi-agent stochastic linear bandit setting, where $N$ agents that form a network communicate locally to minimize their overall regret. In this setting, each agent has its own linear bandit problem (its own reward parameter) and the goal is to select the best global action w.r.t. the average of their reward parameters. At each round, each agent proposes an action, and one action is randomly selected and played as the network action. All the agents observe the corresponding rewards of the played actions and use an accelerated consensus procedure to compute an estimate of the average of the rewards obtained by all the agents. We propose a distributed upper confidence bound (UCB) algorithm and prove a high probability bound on its $T$-round regret in which we include a linear growth of regret associated with each communication round. Our regret bound is of order $\mathcal{O}\Big(\sqrt{\frac{T}{N \log(1/|\lambda_2|)}}\cdot (\log T)^2\Big)$, where $\lambda_2$ is the second largest (in absolute value) eigenvalue of the communication matrix.
公開日:2022-05-12
翻訳日:2022-05-16 14:18:08
# HPCシステムにおける計算流体力学の深部強化学習

Deep Reinforcement Learning for Computational Fluid Dynamics on HPC Systems ( http://arxiv.org/abs/2205.06502v1 )

ライセンス: Link先を確認
Marius Kurz, Philipp Offenh\"auser, Dominic Viola, Oleksandr Shcherbakov, Michael Resch, Andrea Beck(参考訳) 強化学習(Reinforcement Learning, RL)は、動的システムの文脈における制御戦略の考案に非常に適している。 そのような力学系の顕著な例は流体力学を支配する方程式系である。 最近の研究結果は、例えば乱流モデリングの分野では、RL強化計算流体力学(CFD)の解法が現在の技術状況を超える可能性があることを示唆している。 しかし、教師付き学習では、トレーニングデータをオフラインで生成することができるが、RLはトレーニング中に一定の実行時インタラクションとCFDソルバとのデータ交換を必要とする。 RL強化CFDのポテンシャルを利用するには、CFDソルバとRLアルゴリズムの相互作用を高速コンピューティング(HPC)ハードウェア上で効率的に実装する必要がある。 そこで本研究では,hpcシステムにおける機械学習ワークフローと最新のcfdソルバとのギャップを埋めるスケーラブルなrlフレームワークとしてrelexiを提案する。 Relexiはモジュール性を考慮して構築されており、SmartSimライブラリが提供するインメモリデータ転送によって、さまざまなHPCソルバを容易に統合することができる。 ここでは、relexiフレームワークが数千のコア上で数百の並列環境にスケールアップできることを実証する。 これにより、最新のHPCリソースを活用して、より大きな問題を有効にするか、ターンアラウンド時間を短縮することができる。 最後に、大規模渦シミュレーションにおいて最適渦粘度選択の制御戦略を見出すことにより、RL強化CFDソルバの可能性を示す。

Reinforcement learning (RL) is highly suitable for devising control strategies in the context of dynamical systems. A prominent instance of such a dynamical system is the system of equations governing fluid dynamics. Recent research results indicate that RL-augmented computational fluid dynamics (CFD) solvers can exceed the current state of the art, for example in the field of turbulence modeling. However, while in supervised learning, the training data can be generated a priori in an offline manner, RL requires constant run-time interaction and data exchange with the CFD solver during training. In order to leverage the potential of RL-enhanced CFD, the interaction between the CFD solver and the RL algorithm thus have to be implemented efficiently on high-performance computing (HPC) hardware. To this end, we present Relexi as a scalable RL framework that bridges the gap between machine learning workflows and modern CFD solvers on HPC systems providing both components with its specialized hardware. Relexi is built with modularity in mind and allows easy integration of various HPC solvers by means of the in-memory data transfer provided by the SmartSim library. Here, we demonstrate that the Relexi framework can scale up to hundreds of parallel environment on thousands of cores. This allows to leverage modern HPC resources to either enable larger problems or faster turnaround times. Finally, we demonstrate the potential of an RL-augmented CFD solver by finding a control strategy for optimal eddy viscosity selection in large eddy simulations.
公開日:2022-05-13
翻訳日:2022-05-16 14:17:25
# 協調的薬物発見:推論レベルのデータ保護の観点から

Collaborative Drug Discovery: Inference-level Data Protection Perspective ( http://arxiv.org/abs/2205.06506v1 )

ライセンス: Link先を確認
Balazs Pejo, Mina Remeli, Adam Arany, Mathieu Galtier, Gergely Acs(参考訳) 製薬業界は、データ資産を活用して、協調機械学習プラットフォームを通じて薬物発見を仮想化することができる。 一方で、参加者のトレーニングデータの意図しない漏洩から生じる無視できないリスクがあるため、そのようなプラットフォームが安全かつプライバシ保護であることは不可欠である。 本稿では,創薬前段階における協調モデリングのためのプライバシーリスク評価について述べる。 最先端の推論攻撃の短い分類の後、いくつかのシナリオを採用およびカスタマイズしました。 最後に、このような攻撃を軽減するために、関連するプライバシー保護技術をいくつか説明し、実験します。

Pharmaceutical industry can better leverage its data assets to virtualize drug discovery through a collaborative machine learning platform. On the other hand, there are non-negligible risks stemming from the unintended leakage of participants' training data, hence, it is essential for such a platform to be secure and privacy-preserving. This paper describes a privacy risk assessment for collaborative modeling in the preclinical phase of drug discovery to accelerate the selection of promising drug candidates. After a short taxonomy of state-of-the-art inference attacks we adopt and customize several to the underlying scenario. Finally we describe and experiments with a handful of relevant privacy protection techniques to mitigate such attacks.
公開日:2022-05-13
翻訳日:2022-05-16 14:17:03
# 加速度計による心停止時の循環状態の分類

Accelerometry-based classification of circulatory states during out-of-hospital cardiac arrest ( http://arxiv.org/abs/2205.06540v1 )

ライセンス: Link先を確認
Wolfgang J. Kern, Simon Orlob, Andreas Bohn, Wolfgang Toller, Jan Wnent, Jan-Thorsten Gr\"asner, Martin Holler(参考訳) 目的: 心停止治療中は, 通常手動による脈拍検査による自然循環の確実な検出が患者の生存に不可欠であり, 実際は困難である。 方法: 実世界の除細動器の4秒間スニペットと心電図データから, 心停止治療中の循環状態を自動予測する機械学習アルゴリズムを開発した。 このアルゴリズムは、ドイツの蘇生登録簿の917件の事例に基づいて訓練され、医師の手作業による注釈によって真理ラベルが作成された。 これは、加速度計と心電図データの相関を部分的に反映した14の特徴に基づくカーネル化されたサポートベクトルマシン分類器を使用する。 結果: テストデータセットでは, 提案アルゴリズムの精度は94.4 (93.6, 95.2)%, 感度は95.0 (93.9, 96.1)%, 特異性は93.9 (92.7, 95.1)%であった。 結論と意義: 応用において, このアルゴリズムは, 質管理のためのふりかえりアノテーションの簡略化や, 心停止治療中の循環状態を臨床医が評価できるように支援するために用いられる。

Objective: During cardiac arrest treatment, a reliable detection of spontaneous circulation, usually performed by manual pulse checks, is both vital for patient survival and practically challenging. Methods: We developed a machine learning algorithm to automatically predict the circulatory state during cardiac arrest treatment from 4-second-long snippets of accelerometry and electrocardiogram data from real-world defibrillator records. The algorithm was trained based on 917 cases from the German Resuscitation Registry, for which ground truth labels were created by a manual annotation of physicians. It uses a kernelized Support Vector Machine classifier based on 14 features, which partially reflect the correlation between accelerometry and electrocardiogram data. Results: On a test data set, the proposed algorithm exhibits an accuracy of 94.4 (93.6, 95.2)%, a sensitivity of 95.0 (93.9, 96.1)%, and a specificity of 93.9 (92.7, 95.1)%. Conclusion and significance: In application, the algorithm may be used to simplify retrospective annotation for quality management and, moreover, to support clinicians to assess circulatory state during cardiac arrest treatment.
公開日:2022-05-13
翻訳日:2022-05-16 14:16:52
# 一般活性化関数とプールを持つディープニューラルネットワークの収束

Convergence of Deep Neural Networks with General Activation Functions and Pooling ( http://arxiv.org/abs/2205.06570v1 )

ライセンス: Link先を確認
Wentao Huang, Yuesheng Xu, Haizhang Zhang(参考訳) 深層ニューラルネットワークは、高次元の複雑な関数を表現する強力なシステムであり、ディープラーニングにおいて重要な役割を果たす。 深層ニューラルネットワークの収束は、ディープラーニングの数学的基礎を構築する上で基本的な問題である。 最近の2つの研究(arXiv:2107.12530, 2109.13542)において、深部ReLUネットワークと深部畳み込みニューラルネットワークの収束について検討した。 そこでは整流線形単位(relu)活性化のみが研究され,重要なプーリング戦略は考慮されなかった。 本研究は, 深部ニューラルネットワークの収束度を, 漏洩ReLUとシグモイド関数の2つの重要な活性化関数に対して無限大となる傾向として検討する。 プールも研究される。 その結果、arXiv:2107.12530, 2109.13542 で確立された十分条件は、漏洩した ReLU ネットワークにはまだ十分であることが証明された。 シグモイド関数のような収縮活性化関数に対して、深部ニューラルネットワークの一様収束のためのより弱い条件を確立する。

Deep neural networks, as a powerful system to represent high dimensional complex functions, play a key role in deep learning. Convergence of deep neural networks is a fundamental issue in building the mathematical foundation for deep learning. We investigated the convergence of deep ReLU networks and deep convolutional neural networks in two recent researches (arXiv:2107.12530, 2109.13542). Only the Rectified Linear Unit (ReLU) activation was studied therein, and the important pooling strategy was not considered. In this current work, we study the convergence of deep neural networks as the depth tends to infinity for two other important activation functions: the leaky ReLU and the sigmoid function. Pooling will also be studied. As a result, we prove that the sufficient condition established in arXiv:2107.12530, 2109.13542 is still sufficient for the leaky ReLU networks. For contractive activation functions such as the sigmoid function, we establish a weaker sufficient condition for uniform convergence of deep neural networks.
公開日:2022-05-13
翻訳日:2022-05-16 14:16:31
# 差分プライベート機械学習におけるアーキテクチャと特徴選択の重要性について

On the Importance of Architecture and Feature Selection in Differentially Private Machine Learning ( http://arxiv.org/abs/2205.06720v1 )

ライセンス: Link先を確認
Wenxuan Bao, Luke A. Bauer, and Vincent Bindschaedler(参考訳) 差分プライベート機械学習の典型的なワークフローにおける落とし穴について検討する。 差分プライベート学習アルゴリズムを"ドロップイン"方式で使用することで、どの機能エンジニアリング操作を使用するか、どの機能を選択するか、ニューラルネットワークアーキテクチャを使用するかを選択した場合、差分プライバシ(DP)ノイズの影響を考慮せずに、過度に複雑でパフォーマンスの悪いモデルが得られる。 言い換えれば、dpノイズの影響を予測すれば、よりシンプルで正確な代替モデルが同じプライバシー保証のために訓練されたことになる。 我々はこの現象を理論と実験を通じて体系的に研究する。 理論面では、説明的枠組みを提供し、差分プライバシーを満たすためのノイズの追加から自然に発生する現象を証明する。 実験では、様々なデータセット、モデルの種類、タスク、ニューラルネットワークアーキテクチャを用いて、実際にこの現象がどのように現れるかを実証する。 また,問題に寄与する要因を分析し,実践者が異なるプライバシを持つトレーニングモデルに従える具体的な知見を抽出した。 最後に,機能選択とニューラルネットワークアーキテクチャ探索のためのプライバシアウェアアルゴリズムを提案する。 それらの差分プライバシー特性を分析し、実証的に評価する。

We study a pitfall in the typical workflow for differentially private machine learning. The use of differentially private learning algorithms in a "drop-in" fashion -- without accounting for the impact of differential privacy (DP) noise when choosing what feature engineering operations to use, what features to select, or what neural network architecture to use -- yields overly complex and poorly performing models. In other words, by anticipating the impact of DP noise, a simpler and more accurate alternative model could have been trained for the same privacy guarantee. We systematically study this phenomenon through theory and experiments. On the theory front, we provide an explanatory framework and prove that the phenomenon arises naturally from the addition of noise to satisfy differential privacy. On the experimental front, we demonstrate how the phenomenon manifests in practice using various datasets, types of models, tasks, and neural network architectures. We also analyze the factors that contribute to the problem and distill our experimental insights into concrete takeaways that practitioners can follow when training models with differential privacy. Finally, we propose privacy-aware algorithms for feature selection and neural network architecture search. We analyze their differential privacy properties and evaluate them empirically.
公開日:2022-05-13
翻訳日:2022-05-16 14:16:11
# 生成逆ネットワークを用いたデータ拡張による天文時系列分類の改善

Improving Astronomical Time-series Classification via Data Augmentation with Generative Adversarial Networks ( http://arxiv.org/abs/2205.06758v1 )

ライセンス: Link先を確認
Germ\'an Garc\'ia-Jara, Pavlos Protopapas and Pablo A. Est\'evez(参考訳) 最新の技術進歩により、大きな空域を持つ望遠鏡は毎晩何百万もの天文警報を発し、迅速かつ自動的に分類しなければならない。 現在、分類は、既存の天体の注釈数と高度にバランスの取れないクラス分布によって性能が制限された教師付き機械学習アルゴリズムで構成されている。 本研究では,可変星から様々な合成光曲線を生成するために,gans(generative adversarial network)に基づくデータ拡張手法を提案する。 Fr'echet Inception Distance が明らかにしていない GAN-overfitting ケースを同定し, 再サンプリング手法と評価指標を用いて, 不均衡データセットにおける生成モデルの品質を評価する。 提案モデルは,カタリーナとズウィッキーの過渡的施設調査から得られた2つのデータセットに適用した。 実データのみを使用する場合において、合成データを用いたトレーニングや実データによるテストにおいて、変光星の分類精度が大幅に向上する。

Due to the latest advances in technology, telescopes with significant sky coverage will produce millions of astronomical alerts per night that must be classified both rapidly and automatically. Currently, classification consists of supervised machine learning algorithms whose performance is limited by the number of existing annotations of astronomical objects and their highly imbalanced class distributions. In this work, we propose a data augmentation methodology based on Generative Adversarial Networks (GANs) to generate a variety of synthetic light curves from variable stars. Our novel contributions, consisting of a resampling technique and an evaluation metric, can assess the quality of generative models in unbalanced datasets and identify GAN-overfitting cases that the Fr\'echet Inception Distance does not reveal. We applied our proposed model to two datasets taken from the Catalina and Zwicky Transient Facility surveys. The classification accuracy of variable stars is improved significantly when training with synthetic data and testing with real data with respect to the case of using only real data.
公開日:2022-05-13
翻訳日:2022-05-16 14:15:49
# 一般化ボルツマンマシンとしての詳細な平衡化学反応ネットワーク

Detailed Balanced Chemical Reaction Networks as Generalized Boltzmann Machines ( http://arxiv.org/abs/2205.06313v1 )

ライセンス: Link先を確認
William Poole, Thomas Ouldridge, Manoj Gopalkrishnan, and Erik Winfree(参考訳) ミクロンサイズの相互作用分子の袋は、常に変動する環境に適応できるのか? 細胞性生命は肯定的な存在の証明を提供するが、生命の存在を許す原理は証明されていない。 バイオケミカル計算の工学と理解における課題の1つは、化学的変動による固有のノイズである。 本稿では, 機械学習理論, 化学反応ネットワーク理論, 統計物理学の知見から, 複雑な分布の表現と条件付けが可能な, 詳細なバランスの取れた化学反応ネットワークの広範かつ生物学的な分類を示す。 これらの結果は,生物化学計算機が内在性化学ノイズを用いて複雑な計算を行う方法を示している。 さらに, 熱力学的な推論コストを導出するために, 明示的な物理モデルを用いる。

Can a micron sized sack of interacting molecules understand, and adapt to a constantly-fluctuati ng environment? Cellular life provides an existence proof in the affirmative, but the principles that allow for life's existence are far from being proven. One challenge in engineering and understanding biochemical computation is the intrinsic noise due to chemical fluctuations. In this paper, we draw insights from machine learning theory, chemical reaction network theory, and statistical physics to show that the broad and biologically relevant class of detailed balanced chemical reaction networks is capable of representing and conditioning complex distributions. These results illustrate how a biochemical computer can use intrinsic chemical noise to perform complex computations. Furthermore, we use our explicit physical model to derive thermodynamic costs of inference.
公開日:2022-05-12
翻訳日:2022-05-16 14:15:33
# (参考訳) 核リッジ回帰の線形構造を超えた鋭い漸近性

Sharp Asymptotics of Kernel Ridge Regression Beyond the Linear Regime ( http://arxiv.org/abs/2205.06798v1 )

ライセンス: CC BY 4.0
Hong Hu and Yue M. Lu(参考訳) kernel ridge regression (krr) の一般化性能は、サンプルサイズ $n$ と基礎となる次元 $d$ とのスケーリング関係に大きく依存する多相パターンを示している。 この現象は、KRR がサンプルサイズが大きくなるにつれて、次々に複雑さを増す関数を学習するという事実によるもので、$d^{k-1}\ll n\ll d^{k}$ の場合、$k$ 未満の多項式のみが学習される。 本稿では, 臨界遷移領域におけるKRRの性能を, $n \asymp d^k$, for $k\in\mathbb{Z}^{+}$で急激な漸近的に評価する。 我々の漸近的特徴は、学習過程全体の正確な画像を提供し、一般化性能に対する様々なパラメータ(カーネル関数の選択を含む)の影響を明らかにする。 特に,krrの学習曲線は,異なる多項式スケーリング系における偏分散トレードオフにより,繊細な「二重降下」挙動を持つことが示された。

The generalization performance of kernel ridge regression (KRR) exhibits a multi-phased pattern that crucially depends on the scaling relationship between the sample size $n$ and the underlying dimension $d$. This phenomenon is due to the fact that KRR sequentially learns functions of increasing complexity as the sample size increases; when $d^{k-1}\ll n\ll d^{k}$, only polynomials with degree less than $k$ are learned. In this paper, we present sharp asymptotic characterization of the performance of KRR at the critical transition regions with $n \asymp d^k$, for $k\in\mathbb{Z}^{+}$. Our asymptotic characterization provides a precise picture of the whole learning process and clarifies the impact of various parameters (including the choice of the kernel function) on the generalization performance. In particular, we show that the learning curves of KRR can have a delicate "double descent" behavior due to specific bias-variance trade-offs at different polynomial scaling regimes.
公開日:2022-05-13
翻訳日:2022-05-16 14:14:22
# (参考訳) 確率線形帯域におけるマルチ環境メタラーニング

Multi-Environment Meta-Learning in Stochastic Linear Bandits ( http://arxiv.org/abs/2205.06326v1 )

ライセンス: CC BY 4.0
Ahmadreza Moradipari, Mohammad Ghavamzadeh, Taha Rajabzadeh, Christos Thrampoulidis, Mahnoosh Alizadeh(参考訳) 本研究では,マルチタスク線形確率帯域問題におけるメタラーニング(学習から学習への)アプローチについて検討する。 単一分布(すなわち単一環境)からパラメータをサンプリングした線形バンディット問題の列におけるメタラーニングに関する[1]の研究に着想を得て、タスクパラメータが混合分布から引き出される場合のメタラーニングの可能性について考察する。 そこで本研究では,ラベル付き環境を持つタスクでトレーニングを行う場合,新しいタスクが起源となる環境の知識を必要とせず,新たなタスクに対する後悔を少なくするofulアルゴリズムの正規化版を提案する。 具体的には、新しいアルゴリズムに対する後悔は、環境の誤分類の影響を捉え、各タスクを個別に学習することや、異なる混合成分を認識せずにメタラーニングすることの利点を強調する。

In this work we investigate meta-learning (or learning-to-learn) approaches in multi-task linear stochastic bandit problems that can originate from multiple environments. Inspired by the work of [1] on meta-learning in a sequence of linear bandit problems whose parameters are sampled from a single distribution (i.e., a single environment), here we consider the feasibility of meta-learning when task parameters are drawn from a mixture distribution instead. For this problem, we propose a regularized version of the OFUL algorithm that, when trained on tasks with labeled environments, achieves low regret on a new task without requiring knowledge of the environment from which the new task originates. Specifically, our regret bound for the new algorithm captures the effect of environment misclassification and highlights the benefits over learning each task separately or meta-learning without recognition of the distinct mixture components.
公開日:2022-05-12
翻訳日:2022-05-16 14:12:41
# (参考訳) メタラーニングを用いたウォームスタートダート

Warm-starting DARTS using meta-learning ( http://arxiv.org/abs/2205.06355v1 )

ライセンス: CC BY-SA 4.0
Matej Grobelnik and Joaquin Vanschoren(参考訳) neural architecture search(nas)は、自動機械学習(automl)の分野で大きな可能性を秘めている。 nasは手設計のネットワークを上回っており、ディープニューラルネットワークの設計を自動化して、人間の専門知識の必要性を更に減らしている。 しかし、ほとんどの研究は単一の特定のタスクを対象として行われ、複数のタスクに対するnasメソッドの研究はほとんど見過ごされている。 一般的に、新しいタスクのためのアーキテクチャを見つけるには2つの一般的な方法があります。 設計に効果がないスクラッチから検索するか、他のタスクから検出されたアーキテクチャを転送するかのいずれかで、パフォーマンス保証がなく、おそらく最適ではない。 本研究では,微分可能なアーキテクチャ探索(DARTS)を温めるメタラーニングフレームワークを提案する。 DARTSはNASメソッドであり、転送されたアーキテクチャで初期化することができ、新しいタスクに迅速に適応することができる。 タスク類似度尺度は、どの転送アーキテクチャが選択されているかを決定するために使用される。 さらに、複数のタスクで学んだ単純なメタ転送アーキテクチャも採用しています。 実験によると、ウォームスタートしたDARTSは競争力のあるアーキテクチャを見つけることができ、検索コストを平均60%削減できる。

Neural architecture search (NAS) has shown great promise in the field of automated machine learning (AutoML). NAS has outperformed hand-designed networks and made a significant step forward in the field of automating the design of deep neural networks, thus further reducing the need for human expertise. However, most research is done targeting a single specific task, leaving research of NAS methods over multiple tasks mostly overlooked. Generally, there exist two popular ways to find an architecture for some novel task. Either searching from scratch, which is ineffective by design, or transferring discovered architectures from other tasks, which provides no performance guarantees and is probably not optimal. In this work, we present a meta-learning framework to warm-start Differentiable architecture search (DARTS). DARTS is a NAS method that can be initialized with a transferred architecture and is able to quickly adapt to new tasks. A task similarity measure is used to determine which transfer architecture is selected, as transfer architectures found on similar tasks will likely perform better. Additionally, we employ a simple meta-transfer architecture that was learned over multiple tasks. Experiments show that warm-started DARTS is able to find competitive performing architectures while reducing searching costs on average by 60%.
公開日:2022-05-12
翻訳日:2022-05-16 14:12:26
# 不確実性定量のためのディープカーネル付きハイブリッドデータ駆動物理制約ガウスプロセス回帰フレームワーク

A hybrid data driven-physics constrained Gaussian process regression framework with deep kernel for uncertainty quantification ( http://arxiv.org/abs/2205.06494v1 )

ライセンス: Link先を確認
Cheng Chang and Tieyong Zeng(参考訳) ガウス過程回帰 (GPR) は不確実性定量化 (UQ) などの様々な応用においてよく知られた機械学習手法である。 しかし、GPRは本質的にデータ駆動方式であり、十分に大きなデータセットを必要とする。 適切な物理制約(例えば偏微分方程式で表される)を組み込むことができれば、データの量は大幅に削減され、精度がさらに向上する。 本研究では,ハイブリッドなデータ駆動物理制約付きガウスプロセス回帰フレームワークを提案する。 物理知識をボルツマン・ギブス分布でエンコードし、最大可能性(ML)アプローチでモデルを導出する。 深層カーネル学習法を適用した。 提案モデルは,GPRの共分散関数の一部として機能するディープニューラルネットワークのトレーニングを通じて,データと物理の制約から学習する。 提案モデルでは,高次元問題において良好な結果が得られ,その不確実性を正確に伝播する。

Gaussian process regression (GPR) has been a well-known machine learning method for various applications such as uncertainty quantifications (UQ). However, GPR is inherently a data-driven method, which requires sufficiently large dataset. If appropriate physics constraints (e.g. expressed in partial differential equations) can be incorporated, the amount of data can be greatly reduced and the accuracy further improved. In this work, we propose a hybrid data driven-physics constrained Gaussian process regression framework. We encode the physics knowledge with Boltzmann-Gibbs distribution and derive our model through maximum likelihood (ML) approach. We apply deep kernel learning method. The proposed model learns from both data and physics constraints through the training of a deep neural network, which serves as part of the covariance function in GPR. The proposed model achieves good results in high-dimensional problem, and correctly propagate the uncertainty, with very limited labelled data provided.
公開日:2022-05-13
翻訳日:2022-05-16 14:11:53
# スペクトルドリフト検出による精密変化点検出

Precise Change Point Detection using Spectral Drift Detection ( http://arxiv.org/abs/2205.06507v1 )

ライセンス: Link先を確認
Fabian Hinder, Andr\'e Artelt, Valerie Vaquet, Barbara Hammer(参考訳) 概念ドリフトの概念は、データ生成が時間とともに変化する現象を指しており、結果として機械学習モデルが不正確になり、調整が必要である可能性がある。 本稿では,教師なし学習における変化点検出の問題について考察する。 多くの教師なしのアプローチは、2つの時間窓のサンプル分布のばらつきに依存する。 この手順は小さなウィンドウでうるさいため、偽陽性を誘発する傾向があり、ウィンドウで複数のドリフトイベントを扱うことができない。 本稿では,分布のカーネル埋め込みのスペクトル特性を利用するドリフト誘起信号の構造特性に依存する。 そこで我々は,新しい教師なしドリフト検出アルゴリズムを導出し,その数学的性質を調査し,いくつかの実験でその有用性を示す。

The notion of concept drift refers to the phenomenon that the data generating distribution changes over time; as a consequence machine learning models may become inaccurate and need adjustment. In this paper we consider the problem of detecting those change points in unsupervised learning. Many unsupervised approaches rely on the discrepancy between the sample distributions of two time windows. This procedure is noisy for small windows, hence prone to induce false positives and not able to deal with more than one drift event in a window. In this paper we rely on structural properties of drift induced signals, which use spectral properties of kernel embedding of distributions. Based thereon we derive a new unsupervised drift detection algorithm, investigate its mathematical properties, and demonstrate its usefulness in several experiments.
公開日:2022-05-13
翻訳日:2022-05-16 14:11:39
# DRBM-ClustNet: データクラスタリングのための深い制限付きボルツマン-コホーネンアーキテクチャ

DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data Clustering ( http://arxiv.org/abs/2205.06697v1 )

ライセンス: Link先を確認
J. Senthilnath, Nagaraj G, Sumanth Simha C, Sushant Kulkarni, Meenakumari Thapa, Indiramma M, J\'on Atli Benediktsson(参考訳) DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。 このコアクラスタリングエンジンは、ラベルのないデータを処理するためのDeep Restricted Boltzmann Machine (DRBM) で構成され、非相関性があり、互いに大きなばらつきを持つ新機能を作成する。 次に、ベイズ情報基準(bic)を用いてクラスタ数を予測し、続いてコホーネンネットワークベースのクラスタリング層を用いる。 ラベルなしデータの処理は、非線形分離データセットの効率的なクラスタリングのための3段階で行われる。 最初の段階では、DRBMは$d$次元の特徴ベクトルを$n$次元に投影することにより、非常に複雑なデータ表現をキャプチャすることで非線形特徴抽出を行う。 ほとんどのクラスタリングアルゴリズムは、事前決定すべきクラスタ数を必要とするため、bicを使用する第2ステージのクラスタ数を自動化する。 第3段階では、BICから派生したクラスタの数は、DRBMから得られた特徴抽出データのクラスタリングを行うKohonenネットワークの入力となる。 この方法は、クラスタ数の事前仕様、局所最適収束、非線形データセットでのクラスタリング精度の低下といったクラスタリングアルゴリズムの一般的な欠点を克服する。 本研究では、2つの合成データセット、UCI Machine Learningレポジトリからの15のベンチマークデータセット、DRBM-ClustNetの分析に4つの画像データセットを使用する。 提案手法は,クラスタリングの精度に基づいて評価し,他の最先端クラスタリング手法と比較した。 その結果,DRBM-ClustNetは最先端クラスタリングアルゴリズムよりも優れていた。

A Bayesian Deep Restricted Boltzmann-Kohonen architecture for data clustering termed as DRBM-ClustNet is proposed. This core-clustering engine consists of a Deep Restricted Boltzmann Machine (DRBM) for processing unlabeled data by creating new features that are uncorrelated and have large variance with each other. Next, the number of clusters are predicted using the Bayesian Information Criterion (BIC), followed by a Kohonen Network-based clustering layer. The processing of unlabeled data is done in three stages for efficient clustering of the non-linearly separable datasets. In the first stage, DRBM performs non-linear feature extraction by capturing the highly complex data representation by projecting the feature vectors of $d$ dimensions into $n$ dimensions. Most clustering algorithms require the number of clusters to be decided a priori, hence here to automate the number of clusters in the second stage we use BIC. In the third stage, the number of clusters derived from BIC forms the input for the Kohonen network, which performs clustering of the feature-extracted data obtained from the DRBM. This method overcomes the general disadvantages of clustering algorithms like the prior specification of the number of clusters, convergence to local optima and poor clustering accuracy on non-linear datasets. In this research we use two synthetic datasets, fifteen benchmark datasets from the UCI Machine Learning repository, and four image datasets to analyze the DRBM-ClustNet. The proposed framework is evaluated based on clustering accuracy and ranked against other state-of-the-art clustering methods. The obtained results demonstrate that the DRBM-ClustNet outperforms state-of-the-art clustering algorithms.
公開日:2022-05-13
翻訳日:2022-05-16 14:11:28
# 確実に安全な強化学習:理論的および実験的比較

Provably Safe Reinforcement Learning: A Theoretical and Experimental Comparison ( http://arxiv.org/abs/2205.06750v1 )

ライセンス: Link先を確認
Hanna Krasowski, Jakob Thumm, Marlon M\"uller, Xiao Wang, Matthias Althoff(参考訳) 強化学習(RL)アルゴリズムの安全性の確保は多くの実世界のタスクに不可欠である。 しかし、バニラrlはエージェントの安全性を保証しない。 近年,RLの安全性を保証する手法が提案されている。 我々の知る限りでは、これらの証明可能な安全なRL法を包括的に比較することはできない。 そこで本研究では,既存の有理安全 rl 法を分類し,連続的および離散的作用空間の理論的基礎を提案する。 さらに,逆振り子を用いたRLの評価を行った。 実験では、確実に安全なRL法のみが安全性を保証することが示された。

Ensuring safety of reinforcement learning (RL) algorithms is crucial for many real-world tasks. However, vanilla RL does not guarantee safety for an agent. In recent years, several methods have been proposed to provide safety guarantees for RL. To the best of our knowledge, there is no comprehensive comparison of these provably safe RL methods. We therefore introduce a categorization for existing provably safe RL methods, and present the theoretical foundations for both continuous and discrete action spaces. Additionally, we evaluate provably safe RL on an inverted pendulum. In the experiments, it is shown that indeed only provably safe RL methods guarantee safety.
公開日:2022-05-13
翻訳日:2022-05-16 14:11:00
# 分子グラフのためのエンボディ・シンボリックコントラストグラフ自己教師付き学習

Embodied-Symbolic Contrastive Graph Self-Supervised Learning for Molecular Graphs ( http://arxiv.org/abs/2205.06783v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) Dual embodied-symbolic concept representationsはディープラーニングとシンボリックAI統合の基礎である。 本稿では,分子グラフ表現学習における二重エンボディ・シンボリックな概念表現の活用について論じる。 具体化表現は分子グラフから学び、記号表現は対応する化学知識グラフ(kg)から学習される。 我々はケミカルKGを用いて、記号的(意味的な)知識で分子グラフを強化し、その強化された分子グラフを生成する。 分子グラフとその意味的に拡張された分子グラフを同じ意味クラスの例として扱い、そのペアを例ベースのコントラストSSLにおいて正のペアとして利用する。

Dual embodied-symbolic concept representations are the foundation for deep learning and symbolic AI integration. We discuss the use of dual embodied-symbolic concept representations for molecular graph representation learning, specifically with exemplar-based contrastive self-supervised learning (SSL). The embodied representations are learned from molecular graphs, and the symbolic representations are learned from the corresponding Chemical knowledge graph (KG). We use the Chemical KG to enhance molecular graphs with symbolic (semantic) knowledge and generate their augmented molecular graphs. We treat a molecular graph and its semantically augmented molecular graph as exemplars of the same semantic class, and use the pairs as positive pairs in exemplar-based contrastive SSL.
公開日:2022-05-13
翻訳日:2022-05-16 14:10:54
# 命題論理と量子化モーダル論理のPVS埋め込み

PVS Embeddings of Propositional and Quantified Modal Logic ( http://arxiv.org/abs/2205.06391v1 )

ライセンス: Link先を確認
John Rushby(参考訳) 様相論理は、様々な真理のモードについての推論を可能にする:例えば、何かが真であることの意味や、それを単に信じることとは対照的に、何かが真であることを知る。 本稿では,pvs検証システムにおける命題論理と量化モーダル論理の組込みについて述べる。 PVSのリソースは、効率的な自動化を提供しながら、モーダルロジックの標準的な構文の多くをサポートする魅力的な方法でこれを行うことができる。 本報告では, 標準モーダル公理とアクセシビリティ関係の性質の関係, バーカン公式の属性, および, 定数領域および可変領域におけるその逆関係など, モーダル論理におけるいくつかの標準的トピックを, 正式に定義し, 検証する。

Modal logics allow reasoning about various modes of truth: for example, what it means for something to be possibly true, or to know that something is true as opposed to merely believing it. This report describes embeddings of propositional and quantified modal logic in the PVS verification system. The resources of PVS allow this to be done in an attractive way that supports much of the standard syntax of modal logic, while providing effective automation. The report introduces and formally specifies and verifies several standard topics in modal logic such as relationships between the standard modal axioms and properties of the accessibility relation, and attributes of the Barcan Formula and its converse in both constant and varying domains.
公開日:2022-05-12
翻訳日:2022-05-16 14:09:13
# 構音障害と高齢者音声認識のためのパーソナライズされたadversarial data augmentation

Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2205.06445v1 )

ライセンス: Link先を確認
Zengrui Jin, Mengzhe Geng, Jiajun Deng, Tianzi Wang, Shujie Hu, Guinan Li, Xunying Liu(参考訳) 通常の音声を対象とする自動音声認識(ASR)技術の急速な進歩にもかかわらず、外科的・高齢者的音声の正確な認識はいまだに非常に難しい課題である。 これらのユーザの間で頻繁に見られるモビリティの問題から,ASRシステム開発のための大量のデータ収集は困難である。 この目的のために、データ拡張技術は重要な役割を果たす。 従来のスペクトル輪郭の発話速度や全体形状のみを変化させる既存のデータ拡張技術とは対照的に、新しい話者依存型(sd)生成逆ネットワーク(gan)に基づくデータ拡張アプローチを用いて、老年者および正常者間の精細な分光時間差をモデル化する。 これらは両方を柔軟に許容します a) 平行音声データが利用可能である場合、時間的又は速度的に乱される正常音声スペクトルを、障害のある話者のそれに近いものに修正すること。 b)非並列データの場合,SVDは対象の高齢者話者の音声スペクトルベースの特徴を分解し,時間的ベースと再分解し,最先端のTDNNとコンフォーマーASRシステムトレーニングのための拡張データを生成する。 英語uaspeechとtorgo dysarthric speech corpora、英語認知症バンクpitとカントン語jccocc mocaの高齢者音声データセットの4つのタスクについて実験を行った。 提案したGANベースのデータ拡張アプローチは、TORGOとDementiaBankのデータに対するWER削減をそれぞれ0.91%と3.0%(9.61%と6.4%)まで改善する。 LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。

Despite the rapid progress of automatic speech recognition (ASR) technologies targeting normal speech, accurate recognition of dysarthric and elderly speech remains highly challenging tasks to date. It is difficult to collect large quantities of such data for ASR system development due to the mobility issues often found among these users. To this end, data augmentation techniques play a vital role. In contrast to existing data augmentation techniques only modifying the speaking rate or overall shape of spectral contour, fine-grained spectro-temporal differences between dysarthric, elderly and normal speech are modelled using a novel set of speaker dependent (SD) generative adversarial networks (GAN) based data augmentation approaches in this paper. These flexibly allow both: a) temporal or speed perturbed normal speech spectra to be modified and closer to those of an impaired speaker when parallel speech data is available; and b) for non-parallel data, the SVD decomposed normal speech spectral basis features to be transformed into those of a target elderly speaker before being re-composed with the temporal bases to produce the augmented data for state-of-the-art TDNN and Conformer ASR system training. Experiments are conducted on four tasks: the English UASpeech and TORGO dysarthric speech corpora; the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets. The proposed GAN based data augmentation approaches consistently outperform the baseline speed perturbation method by up to 0.91% and 3.0% absolute (9.61% and 6.4% relative) WER reduction on the TORGO and DementiaBank data respectively. Consistent performance improvements are retained after applying LHUC based speaker adaptation.
公開日:2022-05-13
翻訳日:2022-05-16 14:08:58
# マルチドメインマルチデバイスASRシステムの統一モデリング

Unified Modeling of Multi-Domain Multi-Device ASR Systems ( http://arxiv.org/abs/2205.06655v1 )

ライセンス: Link先を確認
Soumyajit Mitra, Swayambhu Nath Ray, Bharat Padi, Arunasish Sen, Raghavendra Bilgi, Harish Arsikere, Shalini Ghosh, Ajay Srinivasamurthy, Sri Garimella(参考訳) 現代の自動音声認識(ASR)システムは、異なるデバイス間で異なるユーザ発話タイプに対して高い精度を得るために、ドメイン固有のモデルのポートフォリオを使用することが多い。 本稿では、ドメイン埋め込み、ドメインエキスパート、エキスパートの混在、敵の訓練を組み合わせて、異なるドメイン単位のドメインモデルを統一モデルに統合する革新的なアプローチを提案する。 統合モデル全体の正確性に寄与する上で、これらのイノベーションのメリットを示すために、慎重にアブレーション研究を実施しています。 実験の結果,提案手法はドメイン単位のモデルごとに慎重に調整し,パラメータ数がほとんど増加しないベースラインモデルに対して最大10%の相対的なゲインが得られることがわかった。

Modern Automatic Speech Recognition (ASR) systems often use a portfolio of domain-specific models in order to get high accuracy for distinct user utterance types across different devices. In this paper, we propose an innovative approach that integrates the different per-domain per-device models into a unified model, using a combination of domain embedding, domain experts, mixture of experts and adversarial training. We run careful ablation studies to show the benefit of each of these innovations in contributing to the accuracy of the overall unified model. Experiments show that our proposed unified modeling approach actually outperforms the carefully tuned per-domain models, giving relative gains of up to 10% over a baseline model with negligible increase in the number of parameters.
公開日:2022-05-13
翻訳日:2022-05-16 14:08:25
# 拡散MRIにおけるスパース表現にインスパイアされた微細構造推定変換器

A microstructure estimation Transformer inspired by sparse representation for diffusion MRI ( http://arxiv.org/abs/2205.06450v1 )

ライセンス: Link先を確認
Tianshu Zheng, Cong Sun, Weihao Zheng, Wen Shi, Haotian Li, Yi Sun, Yi Zhang, Guangbin Wang, Chuyang Ye, Dan Wu(参考訳) 拡散磁気共鳴イメージング(dMRI)は、複雑で非線形な生体物理モデルに基づく組織微細構造を特徴づける重要なツールである。 ミクロ組織を最適化技術で解くことは、誤差を推定し、q空間に密集したサンプリングを必要とする。 ディープラーニングに基づくアプローチは、これらの制限を克服するために提案されている。 そこで本研究では,トランスフォーマの優れた性能に動機づけられた学習ベースのフレームワーク,すなわち,ダウンサンプリングされたq空間データを用いたdmriに基づく微細構造推定のためのスパース符号化(metsc)を用いた微細構造推定トランスを提案する。 大規模なトレーニングデータ要件の制限に対処しながらTransformerを活用するために,スパースコーディング技術を用いてTransformerにインダクティブバイアス(モデルバイアス)を明示的に導入し,トレーニングプロセスを容易にする。 このようにして、metscは、埋め込みステージ、スパース表現ステージ、マッピングステージの3つのステージで構成される。 埋め込みステージは、voxelが効果的に表現されるように信号を符号化するトランスベース構造である。 スパース表現段階において、反復ハードしきい値(iht)過程を展開するスパース再構成問題を解決することにより辞書を構築する。 マッピングステージは本質的には、重みも学習される正規化辞書係数の重み付き和に基づいて、第2段の出力からミクロ構造パラメータを計算するデコーダである。 我々は,VIM(Intravoxel Incoherent Motion)モデルとNODDI(Neneurite orientationvariance and density imaging)モデルを含む,低サンプリングQ空間データを用いた2つのdMRIモデルについて検討を行った。 提案手法は,最大11.25倍の高速化を実現し,他の最先端学習法を上回った。

Diffusion magnetic resonance imaging (dMRI) is an important tool in characterizing tissue microstructure based on biophysical models, which are complex and highly non-linear. Resolving microstructures with optimization techniques is prone to estimation errors and requires dense sampling in the q-space. Deep learning based approaches have been proposed to overcome these limitations. Motivated by the superior performance of the Transformer, in this work, we present a learning-based framework based on Transformer, namely, a Microstructure Estimation Transformer with Sparse Coding (METSC) for dMRI-based microstructure estimation with downsampled q-space data. To take advantage of the Transformer while addressing its limitation in large training data requirements, we explicitly introduce an inductive bias - model bias into the Transformer using a sparse coding technique to facilitate the training process. Thus, the METSC is composed with three stages, an embedding stage, a sparse representation stage, and a mapping stage. The embedding stage is a Transformer-based structure that encodes the signal to ensure the voxel is represented effectively. In the sparse representation stage, a dictionary is constructed by solving a sparse reconstruction problem that unfolds the Iterative Hard Thresholding (IHT) process. The mapping stage is essentially a decoder that computes the microstructural parameters from the output of the second stage, based on the weighted sum of normalized dictionary coefficients where the weights are also learned. We tested our framework on two dMRI models with downsampled q-space data, including the intravoxel incoherent motion (IVIM) model and the neurite orientation dispersion and density imaging (NODDI) model. The proposed method achieved up to 11.25 folds of acceleration in scan time and outperformed the other state-of-the-art learning-based methods.
公開日:2022-05-13
翻訳日:2022-05-16 14:08:13
# (参考訳) 人間環境におけるロボット操作のための安全深層強化学習

Provably Safe Deep Reinforcement Learning for Robotic Manipulation in Human Environments ( http://arxiv.org/abs/2205.06311v1 )

ライセンス: CC BY 4.0
Jakob Thumm and Matthias Althoff(参考訳) 深部強化学習(RL)はマニピュレータの運動計画において有望な結果を示した。 しかし、rlベースのマニピュレータ制御において、人間のような非常にダイナミックな障害物の安全性を保証する方法はない。 この正式な安全保証の欠如は、現実世界の人間環境におけるマニピュレータへのRLの適用を妨げる。 そこで本研究では,マニピュレータ上でのRLアルゴリズムのトレーニングおよび展開中に,ISO認証による安全性を保証する遮蔽機構を提案する。 我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。 提案手法は,事故発生時の衝突を防止し,安全性を保証し,RL性能を大幅に向上する。 人間のモーションキャプチャーデータを用いたシミュレーションにおいて,提案手法の性能を示す。

Deep reinforcement learning (RL) has shown promising results in the motion planning of manipulators. However, no method guarantees the safety of highly dynamic obstacles, such as humans, in RL-based manipulator control. This lack of formal safety assurances prevents the application of RL for manipulators in real-world human environments. Therefore, we propose a shielding mechanism that ensures ISO-verified human safety while training and deploying RL algorithms on manipulators. We utilize a fast reachability analysis of humans and manipulators to guarantee that the manipulator comes to a complete stop before a human is within its range. Our proposed method guarantees safety and significantly improves the RL performance by preventing episode-ending collisions. We demonstrate the performance of our proposed method in simulation using human motion capture data.
公開日:2022-05-12
翻訳日:2022-05-16 14:07:39
# (参考訳) ランダムな内積核行列のスペクトルに対する同値原理

An Equivalence Principle for the Spectrum of Random Inner-Product Kernel Matrices ( http://arxiv.org/abs/2205.06308v1 )

ライセンス: CC BY 4.0
Yue M. Lu and Horng-Tzer Yau(参考訳) 我々は、$\mathbb{R}^d$ の単位球面から一様に描画された$n$独立なデータベクトル間の対の内積に(非線形)カーネル関数を適用することで、成分を得るランダム行列を考える。 このモデルの研究は、内部積のカーネルランダム行列とそのスペクトル特性が重要な役割を果たす機械学習、統計、信号処理の問題によって動機付けられている。 核関数上の穏やかな条件の下では、いくつかの固定された $\ell \in \mathbb{n}$ と $\kappa \in \mathbb{r}$ に対して、$n / d^\ell \to \kappa \in (0, \infty)$ となるようなとき、これらの行列の経験的スペクトル分布の弱極限を確立する。 これは、線形スケーリング法($\ell = 1$ と $n/d \to \kappa$)で同じモデルを研究したcheng and singer (2013)の初期の結果を一般化している。 ランダムカーネル行列のスペクトルは、(シフトした)ウィッシュアート行列とガウス直交アンサンブルから引き出された独立行列の線型結合として構築された単純な行列モデルのスペクトルと漸近的に等価である。 ウィッシュアート行列のアスペクト比と線形結合の係数は$\ell$と直交エルミート多項式基底におけるカーネル関数の拡張によって決定される。 したがって、ランダムカーネル行列の制限スペクトルは、マルケンコ・パストゥル則と半円則の間の自由加法的畳み込みとして特徴づけることができる。

We consider random matrices whose entries are obtained by applying a (nonlinear) kernel function to the pairwise inner products between $n$ independent data vectors drawn uniformly from the unit sphere in $\mathbb{R}^d$. Our study of this model is motivated by problems in machine learning, statistics, and signal processing, where such inner-product kernel random matrices and their spectral properties play important roles. Under mild conditions on the kernel function, we establish the weak-limit of the empirical spectral distribution of these matrices when $d, n \to \infty$ such that $n / d^\ell \to \kappa \in (0, \infty)$, for some fixed $\ell \in \mathbb{N}$ and $\kappa \in \mathbb{R}$. This generalizes an earlier result of Cheng and Singer (2013), who studied the same model in the linear scaling regime (with $\ell = 1$ and $n/d \to \kappa$). The main insight of our work is a general equivalence principle: the spectrum of the random kernel matrix is asymptotically equivalent to that of a simpler matrix model, constructed as the linear combination of a (shifted) Wishart matrix and an independent matrix drawn from the Gaussian orthogonal ensemble. The aspect ratio of the Wishart matrix and the coefficients of the linear combination are determined by $\ell$ and by the expansion of the kernel function in the orthogonal Hermite polynomial basis. Consequently, the limiting spectrum of the random kernel matrix can be characterized as the free additive convolution between a Marchenko-Pastur law and a semicircle law.
公開日:2022-05-12
翻訳日:2022-05-16 14:07:08
# 軽量CNN用スパース方向フィルタ辞書によるブラインド画像の描画

Blind Image Inpainting with Sparse Directional Filter Dictionaries for Lightweight CNNs ( http://arxiv.org/abs/2205.06597v1 )

ライセンス: Link先を確認
Jenny Schmalfuss and Erik Scheurer and Heng Zhao and Nikolaos Karantzas and Andr\'es Bruhn and Demetrio Labate(参考訳) 近年、ディープラーニングアーキテクチャに基づくブラインド塗装アルゴリズムは、画像の品質と実行時間の両方において、モデルベースの手法よりも優れたパフォーマンスを示している。 しかしながら、ニューラルネットワーク戦略には理論的な説明が欠けているのが一般的であり、モデルに基づく手法の根底にあるよく理解された理論とは対照的である。 本研究では、変換領域法とスパース近似から理論的に確立された概念をCNNベースのブラインド画像インペイント手法に統合することにより、両方のアプローチの利点を利用する。 そこで本研究では,線形に要素を重み付け可能なフィルタ辞書を応用した,畳み込みカーネルの学習手法を提案する。 数値実験はこのアプローチの競争力を示す。 その結果,従来のcnnに比べて塗装品質が向上しただけでなく,軽量ネットワーク設計におけるネットワークコンバージェンスも大幅に向上した。

Blind inpainting algorithms based on deep learning architectures have shown a remarkable performance in recent years, typically outperforming model-based methods both in terms of image quality and run time. However, neural network strategies typically lack a theoretical explanation, which contrasts with the well-understood theory underlying model-based methods. In this work, we leverage the advantages of both approaches by integrating theoretically founded concepts from transform domain methods and sparse approximations into a CNN-based approach for blind image inpainting. To this end, we present a novel strategy to learn convolutional kernels that applies a specifically designed filter dictionary whose elements are linearly combined with trainable weights. Numerical experiments demonstrate the competitiveness of this approach. Our results show not only an improved inpainting quality compared to conventional CNNs but also significantly faster network convergence within a lightweight network design.
公開日:2022-05-13
翻訳日:2022-05-16 14:06:02
# スリムなビデオコーデック

Slimmable Video Codec ( http://arxiv.org/abs/2205.06754v1 )

ライセンス: Link先を確認
Zhaocheng Liu, Luis Herranz, Fei Yang, Saiping Zhang, Shuai Wan, Marta Mrak and Marc G\'orriz Blanch(参考訳) ニューラルビデオ圧縮は、トレーニング可能な多層ニューラルネットワークと機械学習を組み合わせた新しいパラダイムとして登場し、競争速度歪み(RD)のパフォーマンスを実現しているが、大きなメモリと計算要求を伴う重いニューラルネットワークアーキテクチャのため、依然として実行不可能である。 さらに、モデルは通常、1つのRDトレードオフに最適化される。 最近のスリム化可能な画像コーデックは、RD性能を損なうことなく、モデル容量を動的に調整し、メモリと計算の要求を適切に低減することができる。 本稿では,スリム化可能なビデオコーデック(SlimVC)を提案し,スリム化可能な時間エントロピーモデルをスリム化可能なオートエンコーダに統合する。 より複雑なアーキテクチャにもかかわらず、スリム化はレート、メモリフットプリント、計算コスト、レイテンシを制御するための強力なメカニズムであり、いずれも実用的なビデオ圧縮の重要な要件であることを示す。

Neural video compression has emerged as a novel paradigm combining trainable multilayer neural networks and machine learning, achieving competitive rate-distortion (RD) performances, but still remaining impractical due to heavy neural architectures, with large memory and computational demands. In addition, models are usually optimized for a single RD tradeoff. Recent slimmable image codecs can dynamically adjust their model capacity to gracefully reduce the memory and computation requirements, without harming RD performance. In this paper we propose a slimmable video codec (SlimVC), by integrating a slimmable temporal entropy model in a slimmable autoencoder. Despite a significantly more complex architecture, we show that slimming remains a powerful mechanism to control rate, memory footprint, computational cost and latency, all being important requirements for practical video compression.
公開日:2022-05-13
翻訳日:2022-05-16 14:05:47
# 配電用グラフ表現学習による電力系統の過渡安定度評価

Distribution-Aware Graph Representation Learning for Transient Stability Assessment of Power System ( http://arxiv.org/abs/2205.06576v1 )

ライセンス: Link先を確認
Kaixuan Chen, Shunyu Liu, Na Yu, Rong Yan, Quan Zhang, Jie Song, Zunlei Feng, Mingli Song(参考訳) リアルタイム過渡安定性評価(TSA)は、電力系統の安全な運転において重要な役割を果たす。 古典的な数値積分法である textit{i.e.} 時間領域シミュレーション (TDS) は、産業的に広く用いられているが、電力系統の高緯度高度化のため、必然的に高い計算複雑性に閉じ込められている。 本研究では,データ駆動型電力系統推定手法を提案し,TDSが時間ウィンドウのシミュレーション終了前に電力系統の安定性を迅速に予測し,精度を損なうことなく,安定性評価の平均シミュレーション時間を短縮できることを示した。 電力システムのトポロジーはグラフ構造であるので、グラフニューラルネットワークに基づく表現学習は電力システムの状態を学習するのに自然に適している。 そこで,電力系統のバスノード上での重要なアクティブ電力分布情報と反応性電力を観測することにより,電力系統の状態を記述するための情報グラフ表現ベクトルを探索する分布認識学習~(dal)モジュールを提案する。 次に、TSAをバイナリ分類タスクとして再定義し、数値積分なしで結果のグラフ表現から直接システムの安定性を決定する。 最後に,本手法をオンラインtsaタスクに適用する。 IEEE 39-busシステムとポーランド2383-busシステムのケーススタディにより,提案手法の有効性が示された。

The real-time transient stability assessment (TSA) plays a critical role in the secure operation of the power system. Although the classic numerical integration method, \textit{i.e.} time-domain simulation (TDS), has been widely used in industry practice, it is inevitably trapped in a high computational complexity due to the high latitude sophistication of the power system. In this work, a data-driven power system estimation method is proposed to quickly predict the stability of the power system before TDS reaches the end of simulating time windows, which can reduce the average simulation time of stability assessment without loss of accuracy. As the topology of the power system is in the form of graph structure, graph neural network based representation learning is naturally suitable for learning the status of the power system. Motivated by observing the distribution information of crucial active power and reactive power on the power system's bus nodes, we thus propose a distribution-aware learning~(DAL) module to explore an informative graph representation vector for describing the status of a power system. Then, TSA is re-defined as a binary classification task, and the stability of the system is determined directly from the resulting graph representation without numerical integration. Finally, we apply our method to the online TSA task. The case studies on the IEEE 39-bus system and Polish 2383-bus system demonstrate the effectiveness of our proposed method.
公開日:2022-05-12
翻訳日:2022-05-16 14:05:31
# 物理形ニューラルネットワークのハイパーパラメータチューニング:ヘルムホルツ問題への応用

Hyper-parameter tuning of physics-informed neural networks: Application to Helmholtz problems ( http://arxiv.org/abs/2205.06704v1 )

ライセンス: Link先を確認
Paul Escapil-Inchausp\&#x 27;e and Gonzalo A. Ruz(参考訳) 物理インフォームドニューラルネットワーク [Raissi et al., J. Comput. Phys. 278 (2019) 686-707] を前方物理問題に適用する。 最適なピン構成を見つけるために,ガウス過程に基づくベイズ最適化によるハイパーパラメータチューニング手順を導入する。 この手順を有界領域のヘルムホルツ問題に適用し、以下の点に注目して徹底的な研究を行う。 (i)演奏 (ii)コロケーションポイント密度$r$および (iii)$\kappa$の頻度で、その方法の適用性と必要性を確認する。 有限要素法との比較を含む2次元および3次元の数値実験を行う。

We consider physics-informed neural networks [Raissi et al., J. Comput. Phys. 278 (2019) 686-707] for forward physical problems. In order to find optimal PINNs configuration, we introduce a hyper-parameter tuning procedure via Gaussian processes-based Bayesian optimization. We apply the procedure to Helmholtz problems for bounded domains and conduct a thorough study, focusing on: (i) performance, (ii) the collocation points density $r$ and (iii) the frequency $\kappa$, confirming the applicability and necessity of the method. Numerical experiments are performed in two and three dimensions, including comparison to finite element methods.
公開日:2022-05-13
翻訳日:2022-05-16 14:05:09
# ガウス過程を用いたチャープ瞬時周波数の確率的推定

Probabilistic Estimation of Chirp Instantaneous Frequency Using Gaussian Processes ( http://arxiv.org/abs/2205.06306v1 )

ライセンス: Link先を確認
Zheng Zhao, Simo S\"arkk\"a, Jens Sj\"olund, Thomas B. Sch\"on(参考訳) チャープと瞬時周波数の真の形式が不明な場合にチャープ信号とその瞬時周波数関数を推定する確率論的手法を提案する。 そこで, 非線形確率微分方程式によって制御される結合カスケードガウス過程を表現し, 確率フィルタとスムーサを用いて後続分布を推定する。 モデルパラメータは最大確率推定によって決定される。 理論的結果は,推定法が有界平均2乗誤差を持つことを示している。 実験により, この手法は合成モデル上で多くのベースライン法より優れており, 重力波データの解析にも適用できることがわかった。

We present a probabilistic approach for estimating chirp signal and its instantaneous frequency function when the true forms of the chirp and instantaneous frequency are unknown. To do so, we represent them by joint cascading Gaussian processes governed by a non-linear stochastic differential equation, and estimate their posterior distribution by using stochastic filters and smoothers. The model parameters are determined via maximum likelihood estimation. Theoretical results show that the estimation method has a bounded mean squared error. Experiments show that the method outperforms a number of baseline methods on a synthetic model, and we also apply the method to analyse a gravitational wave data.
公開日:2022-05-12
翻訳日:2022-05-16 14:04:59
# 複数の更新モデルにおけるメンバーシップ推論攻撃の組合せ

How to Combine Membership-Inference Attacks on Multiple Updated Models ( http://arxiv.org/abs/2205.06369v1 )

ライセンス: Link先を確認
Matthew Jagielski, Stanley Wu, Alina Oprea, Jonathan Ullman, Roxana Geambasu(参考訳) 機械学習モデルは、トレーニングデータの参加者のプライバシに反するメンバーシップ推論(MI)攻撃に弱いことが、大規模な研究で示されている。 ほとんどのMI研究は、単一のスタンドアロンモデルの場合に焦点を当てている一方、本番の機械学習プラットフォームは、しばしば分散がシフトするデータに基づいて、時間とともにモデルを更新し、攻撃者により多くの情報を与える。 本稿では、MIを改善するために、1つ以上のモデル更新を利用する新たな攻撃を提案する。 我々のアプローチの重要な部分は、元のモデルと更新されたモデルに対して個別にマウントされたスタンドアロンMI攻撃からの豊富な情報を活用し、これらの情報を特定の方法で組み合わせて攻撃の有効性を向上させることである。 本稿では,それぞれの組み合わせ関数とチューニング手法のセットを提案し,様々な選択肢について解析的および定量的に正当性を示す。 4つの公開データセットから得られた結果から,我々の攻撃は,スタンドアロンモデルに対する攻撃に対して,敵に重大な優位性を与えるために更新情報を使用するのに有効であることが示された。 モデル更新によるMI攻撃に対する分布シフトの影響の初回測定を行い、より劇的な分布シフトにより、段階的な変化よりもMIリスクが著しく高いことを示す。 私たちのコードはhttps://www.github.c om/stanleykywu/model -updatesで利用可能です。

A large body of research has shown that machine learning models are vulnerable to membership inference (MI) attacks that violate the privacy of the participants in the training data. Most MI research focuses on the case of a single standalone model, while production machine-learning platforms often update models over time, on data that often shifts in distribution, giving the attacker more information. This paper proposes new attacks that take advantage of one or more model updates to improve MI. A key part of our approach is to leverage rich information from standalone MI attacks mounted separately against the original and updated models, and to combine this information in specific ways to improve attack effectiveness. We propose a set of combination functions and tuning methods for each, and present both analytical and quantitative justification for various options. Our results on four public datasets show that our attacks are effective at using update information to give the adversary a significant advantage over attacks on standalone models, but also compared to a prior MI attack that takes advantage of model updates in a related machine-unlearning setting. We perform the first measurements of the impact of distribution shift on MI attacks with model updates, and show that a more drastic distribution shift results in significantly higher MI risk than a gradual shift. Our code is available at https://www.github.c om/stanleykywu/model -updates.
公開日:2022-05-12
翻訳日:2022-05-16 14:04:48
# (参考訳) アナログ深層学習ハードウェアのための適応ブロック浮動小数点法

Adaptive Block Floating-Point for Analog Deep Learning Hardware ( http://arxiv.org/abs/2205.06287v1 )

ライセンス: CC BY 4.0
Ayon Basumallik, Darius Bunandar, Nicholas Dronen, Nicholas Harris, Ludmila Levkova, Calvin McCarter, Lakshmi Nair, David Walter, David Widemann(参考訳) アナログ混合信号(AMS)デバイスは、デジタル信号よりも高速でエネルギー効率の高いディープニューラルネットワーク(DNN)推論を約束する。 しかし、近年の研究では、固定点数を持つAMSデバイス上のDNNが精度の低下により精度の低下を招き得ることが示されている。 このペナルティを緩和するために、AMS互換適応ブロック浮動小数点(ABFP)数表現を提案する。 また、出力のビット精度を増加させることなく、数表現の精度を向上させる方法として増幅(または利得)を導入する。 MLPerf データセンター推論ベンチマークにおける DNN に対する ABFP の有効性を評価する。 また,従来の量子化アウェアトレーニングと比較して,デバイスのノイズをサンプリングして微調整を高速化する差動ノイズ微調整(dnf)法を提案する。

Analog mixed-signal (AMS) devices promise faster, more energy-efficient deep neural network (DNN) inference than their digital counterparts. However, recent studies show that DNNs on AMS devices with fixed-point numbers can incur an accuracy penalty because of precision loss. To mitigate this penalty, we present a novel AMS-compatible adaptive block floating-point (ABFP) number representation. We also introduce amplification (or gain) as a method for increasing the accuracy of the number representation without increasing the bit precision of the output. We evaluate the effectiveness of ABFP on the DNNs in the MLPerf datacenter inference benchmark -- realizing less than $1\%$ loss in accuracy compared to FLOAT32. We also propose a novel method of finetuning for AMS devices, Differential Noise Finetuning (DNF), which samples device noise to speed up finetuning compared to conventional Quantization-Aware Training.
公開日:2022-05-12
翻訳日:2022-05-16 14:04:26
# (参考訳) KG-SP: オープンワールドコンポジションゼロショット学習のための知識ガイド付きシンプルなプリミティブ [全文訳有]

KG-SP: Knowledge Guided Simple Primitives for Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2205.06784v1 )

ライセンス: CC BY 4.0
Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata(参考訳) オープンワールド・コンポジションゼロショット・ラーニング(OW-CZSL)の目標は、トレーニング中にサブセットのみを与えられ、未確認のコンポジションに先行しない状態で、画像中の状態とオブジェクトのコンポジションを認識することである。 この設定では、モデルは巨大な出力空間で動作し、可能なすべての状態オブジェクト合成を含む。 従来の研究は合成の埋め込みを共同で学習することでこの問題に対処するが、ここでは単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立に予測する。 モデルがプリミティブな特徴を開発することを保証するため、状態とオブジェクトの分類器に別個の非線形特徴抽出器を装備する。 さらに, 出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。 最後に、トレーニング中にオブジェクトまたは状態ラベルのみを利用可能とし、不足ラベルを推定するために、事前の使用が可能な、新しい設定、すなわち、部分監督下のCZSL(pCZSL)を提案する。 我々のモデルであるKG-SP(Knowledge-Guid ed Simple Primitives)はOW-CZSLとpCZSLの両方で最先端の技術を達成し、半教師付き学習技術と組み合わせても、近年の競争相手を上回っている。 コードはhttps://github.com/e xplainableml/kg-sp。

The goal of open-world compositional zero-shot learning (OW-CZSL) is to recognize compositions of state and objects in images, given only a subset of them during training and no prior on the unseen compositions. In this setting, models operate on a huge output space, containing all possible state-object compositions. While previous works tackle the problem by learning embeddings for the compositions jointly, here we revisit a simple CZSL baseline and predict the primitives, i.e. states and objects, independently. To ensure that the model develops primitive-specific features, we equip the state and object classifiers with separate, non-linear feature extractors. Moreover, we estimate the feasibility of each composition through external knowledge, using this prior to remove unfeasible compositions from the output space. Finally, we propose a new setting, i.e. CZSL under partial supervision (pCZSL), where either only objects or state labels are available during training, and we can use our prior to estimate the missing labels. Our model, Knowledge-Guided Simple Primitives (KG-SP), achieves state of the art in both OW-CZSL and pCZSL, surpassing most recent competitors even when coupled with semi-supervised learning techniques. Code available at: https://github.com/E xplainableML/KG-SP.
公開日:2022-05-13
翻訳日:2022-05-16 14:03:40
# 教師なし異常検出と局所化のための自己監督型マスキング

Self-Supervised Masking for Unsupervised Anomaly Detection and Localization ( http://arxiv.org/abs/2205.06568v1 )

ライセンス: Link先を確認
Chaoqin Huang, Qinwei Xu, Yanfeng Wang, Yu Wang, and Ya Zhang(参考訳) 近年,マルチメディアデータの異常検出と局所化が機械学習コミュニティで注目されている。 医療診断や産業的欠陥検出のような現実世界の応用では、異常は画像のごく一部にのみ存在する。 再構成に基づく異常検出アーキテクチャを局所化異常に拡張するため,ランダムマスキングによる自己教師あり学習手法を提案する。 SSMは、塗布ネットワークのトレーニングを強化するだけでなく、推測時のマスク予測の効率を大幅に向上させる。 ランダムマスキングにより、各画像は多様なトレーニング三重奏団に拡張され、オートエンコーダはトレーニング中に様々な大きさのマスクで再構築することができる。 推論における異常検出と局所化の効率と有効性を改善するため,我々は,正常な領域を徐々に発見し,最終的に異常領域を発見できる新しいプログレッシブマスク改良手法を提案する。 提案するssm法は, 異常検出と異常局在の両方において, それぞれ98.3%が網膜oct, 93.9%がmvtec adであった。

Recently, anomaly detection and localization in multimedia data have received significant attention among the machine learning community. In real-world applications such as medical diagnosis and industrial defect detection, anomalies only present in a fraction of the images. To extend the reconstruction-based anomaly detection architecture to the localized anomalies, we propose a self-supervised learning approach through random masking and then restoring, named Self-Supervised Masking (SSM) for unsupervised anomaly detection and localization. SSM not only enhances the training of the inpainting network but also leads to great improvement in the efficiency of mask prediction at inference. Through random masking, each image is augmented into a diverse set of training triplets, thus enabling the autoencoder to learn to reconstruct with masks of various sizes and shapes during training. To improve the efficiency and effectiveness of anomaly detection and localization at inference, we propose a novel progressive mask refinement approach that progressively uncovers the normal regions and finally locates the anomalous regions. The proposed SSM method outperforms several state-of-the-arts for both anomaly detection and anomaly localization, achieving 98.3% AUC on Retinal-OCT and 93.9% AUC on MVTec AD, respectively.
公開日:2022-05-13
翻訳日:2022-05-16 13:40:31
# Open-Eye:AI合成顔の識別で人的パフォーマンスを研究するオープンプラットフォーム

Open-Eye: An Open Platform to Study Human Performance on Identifying AI-Synthesized Faces ( http://arxiv.org/abs/2205.06680v1 )

ライセンス: Link先を確認
Hui Guo, Shu Hu, Xin Wang, Ming-Ching Chang, Siwei Lyu(参考訳) AI合成顔は、実際の顔と区別することが視覚的に難しい。 偽のソーシャルメディアアカウントのプロフィール画像として使われており、社会に悪影響を及ぼしている。 AI合成顔を検出する自動手法の開発は進展しているが、AI合成顔検出の人間のパフォーマンスを研究するためのオープンプラットフォームは存在しない。 本研究では,AI合成顔検出の人的パフォーマンスを研究するために,Open-eyeというオンラインプラットフォームを開発した。 本稿では,オープンアイの設計とワークフローについて述べる。

AI-synthesized faces are visually challenging to discern from real ones. They have been used as profile images for fake social media accounts, which leads to high negative social impacts. Although progress has been made in developing automatic methods to detect AI-synthesized faces, there is no open platform to study the human performance of AI-synthesized faces detection. In this work, we develop an online platform called Open-eye to study the human performance of AI-synthesized face detection. We describe the design and workflow of the Open-eye in this paper.
公開日:2022-05-13
翻訳日:2022-05-16 13:40:08
# オープンセット半教師付き学習における知識蒸留

Knowledge Distillation Meets Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2205.06701v1 )

ライセンス: Link先を確認
Jing Yang, Xiatian Zhu, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos(参考訳) 既存の知識蒸留法は主に教師の予測と中間活性化の蒸留に焦点を当てている。 しかし、深層モデルの最も重要な要素の1つである構造化表現は、概ね見過ごされている。 本研究では,教師から対象学生へ意味論的に表現的知識を蒸留することに特化した,新しい「em \modelname{}} ({\bf\em \shortname{})} 法を提案する。 鍵となる考え方は、教師の分類器を意味的批判として活用し、教師と生徒の両方の表現を評価し、全ての特徴次元の高次構造化情報を用いて意味的知識を蒸留することである。 これは、学生の表現を教師の分類器に渡すことによって計算されるクロスネットワークロジットの概念を導入することで達成される。 さらに,複合的な視点における意味空間の基礎として見受けられるクラスの集合を考えると,広く利用可能な任意のラベルなしのトレーニングデータの有効活用を可能にするために,unseenクラスに \shortname{} をスケールする。 問題レベルでは、これはopen-set semi-supervised learning (ssl) による知識蒸留と興味深い関係を確立する。 大規模実験により, 粗い物体分類と微粒な顔認識タスクにおいて, 従来の最先端の知識蒸留法よりも優れており, 同時に, 事実上重要なバイナリネットワーク蒸留法も少ないことがわかった。 より現実的なオープンセットSSL設定では、既存のOf-Distribution(OOD) サンプル検出よりも知識蒸留の方が一般的に有効であることを明らかにし、提案した‘shortname{}’は以前の蒸留とSSLの競合よりも優れている。 ソースコードは \url{https://github.com/j ingyang2017/srd\_oss l} で入手できる。

Existing knowledge distillation methods mostly focus on distillation of teacher's prediction and intermediate activation. However, the structured representation, which arguably is one of the most critical ingredients of deep models, is largely overlooked. In this work, we propose a novel {\em \modelname{}} ({\bf\em \shortname{})} method dedicated for distilling representational knowledge semantically from a pretrained teacher to a target student. The key idea is that we leverage the teacher's classifier as a semantic critic for evaluating the representations of both teacher and student and distilling the semantic knowledge with high-order structured information over all feature dimensions. This is accomplished by introducing a notion of cross-network logit computed through passing student's representation into teacher's classifier. Further, considering the set of seen classes as a basis for the semantic space in a combinatorial perspective, we scale \shortname{} to unseen classes for enabling effective exploitation of largely available, arbitrary unlabeled training data. At the problem level, this establishes an interesting connection between knowledge distillation with open-set semi-supervised learning (SSL). Extensive experiments show that our \shortname{} outperforms significantly previous state-of-the-art knowledge distillation methods on both coarse object classification and fine face recognition tasks, as well as less studied yet practically crucial binary network distillation. Under more realistic open-set SSL settings we introduce, we reveal that knowledge distillation is generally more effective than existing Out-Of-Distribution (OOD) sample detection, and our proposed \shortname{} is superior over both previous distillation and SSL competitors. The source code is available at \url{https://github.com/j ingyang2017/SRD\_oss l}.
公開日:2022-05-13
翻訳日:2022-05-16 13:40:00
# カーネル型補間アーキテクチャのパラメータ削減のためのマルチエンコーダネットワーク

Multi-encoder Network for Parameter Reduction of a Kernel-based Interpolation Architecture ( http://arxiv.org/abs/2205.06723v1 )

ライセンス: Link先を確認
Issa Khalifeh, Marc Gorriz Blanch, Ebroul Izquierdo, Marta Mrak(参考訳) ビデオフレーム補間は、既存のフレームから新しいフレームを合成する。 畳み込みニューラルネットワーク(cnns)は、この分野における最近の進歩の最前線にある。 一般的なCNNベースのアプローチの1つは、インプットフレームに生成したカーネルを適用して補間フレームを得ることである。 補間法がもたらすすべての利点にもかかわらず、これらのネットワークの多くは多くのパラメータを必要とする。 モデルのサイズを減らすことは一般的にパフォーマンスに悪影響を及ぼす。 本稿では,一般的なフローレスカーネルネットワーク(Adaptive Collaboration of Flows)のパラメータ削減手法を提案する。 本手法では,最も多くのパラメータを必要とするレイヤを除去し,より小さなエンコーダで置き換えることにより,ネットワークのパラメータ数を削減し,元の手法よりも優れた性能を実現する。 これは、各エンコーダに入力画像から異なる特徴を学習させるローテーションをデプロイすることで実現される。 設計選択を正当化するためにアブレーションを行い,本手法がフル長ビデオでどのように動作するかを評価する。

Video frame interpolation involves the synthesis of new frames from existing ones. Convolutional neural networks (CNNs) have been at the forefront of the recent advances in this field. One popular CNN-based approach involves the application of generated kernels to the input frames to obtain an interpolated frame. Despite all the benefits interpolation methods offer, many of these networks require a lot of parameters, with more parameters meaning a heavier computational burden. Reducing the size of the model typically impacts performance negatively. This paper presents a method for parameter reduction for a popular flow-less kernel-based network (Adaptive Collaboration of Flows). Through our technique of removing the layers that require the most parameters and replacing them with smaller encoders, we reduce the number of parameters of the network and even achieve better performance compared to the original method. This is achieved by deploying rotation to force each individual encoder to learn different features from the input images. Ablations are conducted to justify design choices and an evaluation on how our method performs on full-length videos is presented.
公開日:2022-05-13
翻訳日:2022-05-16 13:39:29
# scribble2d5:scribble アノテーションによるボリューム画像分割

Scribble2D5: Weakly-Supervised Volumetric Image Segmentation via Scribble Annotations ( http://arxiv.org/abs/2205.06779v1 )

ライセンス: Link先を確認
Qiuhui Chen, Yi Hong(参考訳) 近年,ピクセル/ボクセルレベルでのラベル表示や時間消費に比べて,このようなアノテーションの入手がはるかに容易であるため,スクリブルのような弱いアノテーションを用いた画像分割が注目されている。 しかし、スクリブルには関心領域(ROI)の構造情報がないため、既存のスクリブルベースの手法では境界のローカライゼーションが不十分である。 さらに, 画像スライスに直接適用した場合, ボリューム情報を十分に活用しない2次元画像セグメンテーションのために設計されている。 本稿では,3次元異方性画像セグメンテーションに取り組み,境界予測を改善するスクリブルベースのボリューム画像セグメンテーションScribble2D5を提案する。 これを実現するために,提案するラベル伝搬モジュールを用いて2.5次元アテンションunetを拡張し,スクリブルから意味情報を拡張し,roi境界を学習し形状を定式化する静的境界予測とアクティブ境界予測を組み合わせた。 3つの公開データセットに関する大規模な実験は、Scribble2D5が現在のスクリブルベースのメソッドを大幅に上回っており、完全に教師されたデータセットのパフォーマンスにアプローチしていることを示している。 私たちのコードはオンラインで入手できる。

Recently, weakly-supervised image segmentation using weak annotations like scribbles has gained great attention, since such annotations are much easier to obtain compared to time-consuming and label-intensive labeling at the pixel/voxel level. However, because scribbles lack structure information of region of interest (ROI), existing scribble-based methods suffer from poor boundary localization. Furthermore, most current methods are designed for 2D image segmentation, which do not fully leverage the volumetric information if directly applied to image slices. In this paper, we propose a scribble-based volumetric image segmentation, Scribble2D5, which tackles 3D anisotropic image segmentation and improves boundary prediction. To achieve this, we augment a 2.5D attention UNet with a proposed label propagation module to extend semantic information from scribbles and a combination of static and active boundary prediction to learn ROI's boundary and regularize its shape. Extensive experiments on three public datasets demonstrate Scribble2D5 significantly outperforms current scribble-based methods and approaches the performance of fully-supervised ones. Our code is available online.
公開日:2022-05-13
翻訳日:2022-05-16 13:37:05
# VQFR:ベクトル量子辞書と並列デコーダによるブラインド顔復元

VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder ( http://arxiv.org/abs/2205.06803v1 )

ライセンス: Link先を確認
Yuchao Gu, Xintao Wang, Liangbin Xie, Chao Dong, Gen Li, Ying Shan, Ming-Ming Cheng(参考訳) 生成的顔前部と幾何学的前部は、最近、目隠し顔の復元に高品質な結果を示しているが、入力に忠実な細かい顔の詳細を作成することは難しい課題である。 古典辞書に基づく手法と最近のベクトル量子化(VQ)技術により,VQに基づく顔復元手法-VQFRを提案する。 vqfrは高品質の顔から抽出した高品質低レベル機能バンクを活用し、リアルな顔詳細を復元するのに役立つ。 しかしながら、VQコードブックの簡単な適用は、忠実な詳細とアイデンティティ保存によって良い結果を得ることはできない。 そこで我々はさらに2つの特別なネットワーク設計を導入する。 1). まず、VQコードブックの圧縮パッチサイズを調査し、適切な圧縮パッチサイズで設計されたVQコードブックが品質と忠実さのバランスをとるために重要であることを確認する。 2). VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルの特徴をさらに融合させるため、テクスチャデコーダとメインデコーダからなる並列デコーダを提案する。 これら2つのデコーダは、変形可能な畳み込みを伴うテクスチャワープモジュールと対話する。 顔詳細辞書としてのvqコードブックと並列デコーダ設計を備えており、提案するvqfrは、従来の方法に忠実さを維持しつつ、顔詳細の復元品質を大きく向上させることができる。 コードはhttps://github.com/T encentARC/VQFRで入手できる。

Although generative facial prior and geometric prior have recently demonstrated high-quality results for blind face restoration, producing fine-grained facial details faithful to inputs remains a challenging problem. Motivated by the classical dictionary-based methods and the recent vector quantization (VQ) technique, we propose a VQ-based face restoration method -- VQFR. VQFR takes advantage of high-quality low-level feature banks extracted from high-quality faces and can thus help recover realistic facial details. However, the simple application of the VQ codebook cannot achieve good results with faithful details and identity preservation. Therefore, we further introduce two special network designs. 1). We first investigate the compression patch size in the VQ codebook and find that the VQ codebook designed with a proper compression patch size is crucial to balance the quality and fidelity. 2). To further fuse low-level features from inputs while not "contaminating" the realistic details generated from the VQ codebook, we proposed a parallel decoder consisting of a texture decoder and a main decoder. Those two decoders then interact with a texture warping module with deformable convolution. Equipped with the VQ codebook as a facial detail dictionary and the parallel decoder design, the proposed VQFR can largely enhance the restored quality of facial details while keeping the fidelity to previous methods. Codes will be available at https://github.com/T encentARC/VQFR.
公開日:2022-05-13
翻訳日:2022-05-16 13:36:42
# AEON:NLP検査症例の自動評価方法

AEON: A Method for Automatic Evaluation of NLP Test Cases ( http://arxiv.org/abs/2205.06439v1 )

ライセンス: Link先を確認
Jen-tse Huang, Jianping Zhang, Wenxuan Wang, Pinjia He, Yuxin Su, Michael R. Lyu(参考訳) 手動テストオラクル構築の労働集約性のため、自然言語処理(NLP)ソフトウェアの信頼性を高めるために様々な自動テスト技術が提案されている。 理論上、これらのテクニックは既存のテストケース(例えば、ラベル付き文)を変異させ、生成されたものと同じ意味または類似の意味を持ち、したがって同じラベルを持つと仮定する。 しかし、実際には、生成されたテストケースの多くは同様の意味を保たず、不自然な(文法エラーなど)ため、偽のアラーム率が高く、不自然なテストケースにつながる。 評価の結果,最先端(SOTA)アプローチによる検査症例の44%が誤報であることがわかった。 これらのテストケースは広範囲な手動チェック作業を必要とし、NLPソフトウェアを改善する代わりに、モデルトレーニングに使用するとNLPソフトウェアを劣化させることもできる。 そこで本研究では,NLPテストケースの自動評価のためのAEONを提案する。 生成されたテストケースごとに、意味的類似性と言語自然性に基づいてスコアを出力する。 3つの典型的なNLPタスクにまたがる5つのデータセット上で,4つの一般的なテスト手法によって生成されたテストケースを評価するために,AEONを使用している。 その結果,AEONはヒトの判断に最適であることがわかった。 特に、AEONは、セマンティック不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。 さらに、AEONは、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。 さらに、AEONが優先するテストケースによるモデルトレーニングは、より正確で堅牢なモデルをもたらし、AEONがNLPソフトウェアを改善する可能性を示している。

Due to the labor-intensive nature of manual test oracle construction, various automated testing techniques have been proposed to enhance the reliability of Natural Language Processing (NLP) software. In theory, these techniques mutate an existing test case (e.g., a sentence with its label) and assume the generated one preserves an equivalent or similar semantic meaning and thus, the same label. However, in practice, many of the generated test cases fail to preserve similar semantic meaning and are unnatural (e.g., grammar errors), which leads to a high false alarm rate and unnatural test cases. Our evaluation study finds that 44% of the test cases generated by the state-of-the-art (SOTA) approaches are false alarms. These test cases require extensive manual checking effort, and instead of improving NLP software, they can even degrade NLP software when utilized in model training. To address this problem, we propose AEON for Automatic Evaluation Of NLP test cases. For each generated test case, it outputs scores based on semantic similarity and language naturalness. We employ AEON to evaluate test cases generated by four popular testing techniques on five datasets across three typical NLP tasks. The results show that AEON aligns the best with human judgment. In particular, AEON achieves the best average precision in detecting semantic inconsistent test cases, outperforming the best baseline metric by 10%. In addition, AEON also has the highest average precision of finding unnatural test cases, surpassing the baselines by more than 15%. Moreover, model training with test cases prioritized by AEON leads to models that are more accurate and robust, demonstrating AEON's potential in improving NLP software.
公開日:2022-05-13
翻訳日:2022-05-16 13:36:18
# プログレッシブカスケードネットワークを用いた解釈可能な気候変動モデル

Interpretable Climate Change Modeling With Progressive Cascade Networks ( http://arxiv.org/abs/2205.06351v1 )

ライセンス: Link先を確認
Charles Anderson, Jason Stock, David Anderson(参考訳) 高次元データをモデリングするための典型的なディープラーニングアプローチは、しばしばデータに対する新しい理解を簡単に明らかにしない複雑なモデルをもたらす。 深層学習分野の研究は、深層ニューラルネットワークを解釈し、複雑さを減らすための新しい手法を積極的に追求している。 ここでは、線形モデルから始まり、データによってのみサポートされた複雑性を漸進的に追加するアプローチについて説明する。 気候の変化にかかわるパターンを調査するために、地球温度と降水を年々マッピングするモデルを訓練した応用例を示す。

Typical deep learning approaches to modeling high-dimensional data often result in complex models that do not easily reveal a new understanding of the data. Research in the deep learning field is very actively pursuing new methods to interpret deep neural networks and to reduce their complexity. An approach is described here that starts with linear models and incrementally adds complexity only as supported by the data. An application is shown in which models that map global temperature and precipitation to years are trained to investigate patterns associated with changes in climate.
公開日:2022-05-12
翻訳日:2022-05-16 13:35:52
# 羽ばたき農業のための深層学習:予測と異常検出

Deep Learning for Prawn Farming: Forecasting and Anomaly Detection ( http://arxiv.org/abs/2205.06359v1 )

ライセンス: Link先を確認
Joel Janek Dabrowski, Ashfaqur Rahman, Andrew Hellicar, Mashud Rana, Stuart Arnold(参考訳) エビ池における水質管理のための意思決定支援システムを提案する。 このシステムは、24時間予測と水質パラメータの異常検出のための新しい方法で、さまざまなデータソースとディープラーニングモデルを使用する。 エビ農家に、成長の悪い環境を積極的に回避し、成長を最適化し、株を失うリスクを減らすためのツールを提供する。 これは、水質の悪い環境に反応して池の管理を強制される農家にとって大きな転換である。 私たちの知る限りでは、transformerを異常検出モデルとして初めて適用し、この養殖問題に一般的に異常検出を適用するのは初めてです。 我々の技術貢献には、多変量データにForecastNetを適用すること、天気予報データをデコーダに組み込むためにTransformerとAtentionモデルを適用することが含まれる。 溶存酸素の予測値の平均絶対値誤差は12%であり, 異常検出例は2例ある。 このシステムは、商業用エビ農場での2年目の展開で成功している。

We present a decision support system for managing water quality in prawn ponds. The system uses various sources of data and deep learning models in a novel way to provide 24-hour forecasting and anomaly detection of water quality parameters. It provides prawn farmers with tools to proactively avoid a poor growing environment, thereby optimising growth and reducing the risk of losing stock. This is a major shift for farmers who are forced to manage ponds by reactively correcting poor water quality conditions. To our knowledge, we are the first to apply Transformer as an anomaly detection model, and the first to apply anomaly detection in general to this aquaculture problem. Our technical contributions include adapting ForecastNet for multivariate data and adapting Transformer and the Attention model to incorporate weather forecast data into their decoders. We attain an average mean absolute percentage error of 12% for dissolved oxygen forecasts and we demonstrate two anomaly detection case studies. The system is successfully running in its second year of deployment on a commercial prawn farm.
公開日:2022-05-12
翻訳日:2022-05-16 13:35:43
# OFEDQIT: 量子化と断続的伝達によるコミュニケーション効率の高いオンラインフェデレーション学習

OFedQIT: Communication-Effici ent Online Federated Learning via Quantization and Intermittent Transmission ( http://arxiv.org/abs/2205.06491v1 )

ライセンス: Link先を確認
Jonghwan Park, Dohyeok Kwon, Songnam hong(参考訳) オンラインフェデレーションラーニング(OFL)は,ローカルデータのプライバシを維持しながら,複数のクライアントに送信される分散ストリーミングデータから,一連の非線形関数(あるいはモデル)を協調的に学習する,有望なフレームワークである。 本稿では,オンライン勾配降下法(OGD)をデファクト集約法(FedAvg)に組み込むことにより,まずバニラ法(OedAvg)を構築した。 最適な漸近性能にもかかわらず、OfedAvgは通信オーバーヘッドと長い学習遅延に悩まされている。 これらの欠点に対処するために,確率的量子化と断続的伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。 我々の主な貢献は、$T$タイムスロットのOfedQITが、任意の実データ(非IIDデータを含む)に対して、最適なサブ線形リセットを$\mathcal{O}(\sqrt{T})$で達成し、通信オーバヘッドを大幅に削減できることを理論的に証明することである。 さらに、ネットワーク内の少数のクライアント(高速な処理時間と高品質の通信チャネル)が一度に参加しても、この最適性は保証される。 分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。 実データを用いた実験により,オンライン分類と回帰タスクにおけるアルゴリズムの有効性を実証した。

Online federated learning (OFL) is a promising framework to collaboratively learn a sequence of non-linear functions (or models) from distributed streaming data incoming to multiple clients while keeping the privacy of their local data. In this framework, we first construct a vanilla method (named OFedAvg) by incorporating online gradient descent (OGD) into the de facto aggregation method (named FedAvg). Despite its optimal asymptotic performance, OFedAvg suffers from heavy communication overhead and long learning delay. To tackle these shortcomings, we propose a communication-effici ent OFL algorithm (named OFedQIT) by means of a stochastic quantization and an intermittent transmission. Our major contribution is to theoretically prove that OFedQIT over $T$ time slots can achieve an optimal sublinear regret bound $\mathcal{O}(\sqrt{T})$ for any real data (including non-IID data) while significantly reducing the communication overhead. Furthermore, this optimality is still guaranteed even when a small fraction of clients (having faster processing time and high-quality communication channel) in a network are participated at once. Our analysis reveals that OFedQIT successfully addresses the drawbacks of OFedAvg while maintaining superior learning accuracy. Experiments with real datasets demonstrate the effectiveness of our algorithm on various online classification and regression tasks.
公開日:2022-05-13
翻訳日:2022-05-16 13:35:26
# (参考訳) 誰の話だ? 音声翻訳における人名処理 [全文訳有]

Who Are We Talking About? Handling Person Names in Speech Translation ( http://arxiv.org/abs/2205.06755v1 )

ライセンス: CC BY-SA 4.0
Marco Gaido, Matteo Negri and Marco Turchi(参考訳) 近年の研究では、自動音声認識(ASR)と同様の音声翻訳システム(ST)が、人物名を扱いにくいことが示されている。 この欠点は、入力の意味をひどく歪めるようなエラーにつながるだけでなく、人名のような名前付きエンティティの翻訳が不可欠であるアプリケーションシナリオ(コンピュータによる解釈など)におけるそのようなシステムの採用を妨げます。 本稿では、まずASR/STシステムの出力を分析し、人名転写/翻訳の失敗の原因を特定する。 トレーニングデータの頻度に加えて、対象者の国籍を重要な要因として挙げる。 そして,複数言語モデルの作成によりこの問題を軽減し,さらにstシステムを改良し,書き起こしと翻訳を共同生成させ,前者よりも前者を優先させる。 全体として、我々のソリューションは、3つの言語ペア(en->es,fr,it)に対して平均47.8%のトークンレベルの人物名精度を相対的に向上させる。

Recent work has shown that systems for speech translation (ST) -- similarly to automatic speech recognition (ASR) -- poorly handle person names. This shortcoming does not only lead to errors that can seriously distort the meaning of the input, but also hinders the adoption of such systems in application scenarios (like computer-assisted interpreting) where the translation of named entities, like person names, is crucial. In this paper, we first analyse the outputs of ASR/ST systems to identify the reasons of failures in person name transcription/transl ation. Besides the frequency in the training data, we pinpoint the nationality of the referred person as a key factor. We then mitigate the problem by creating multilingual models, and further improve our ST systems by forcing them to jointly generate transcripts and translations, prioritising the former over the latter. Overall, our solutions result in a relative improvement in token-level person name accuracy by 47.8% on average for three language pairs (en->es,fr,it).
公開日:2022-05-13
翻訳日:2022-05-16 13:34:06
# 人間の行動のモデリング その1-学習と信念のアプローチ

Modeling Human Behavior Part I -- Learning and Belief Approaches ( http://arxiv.org/abs/2205.06485v1 )

ライセンス: Link先を確認
Andrew Fuchs and Andrea Passarella and Marco Conti(参考訳) 人間の行動をモデル化し理解したいという明確な願望がある。 この話題を扱った研究のトレンドは、人的推論が人的推論の前提であると考える人が多いという明確な仮定を示している。 このように、ゲーム理論、心の理論、機械学習などのトピックはすべて、人間の推論の構成要素とされる概念を統合している。 これらは人間の行動の複製と理解の両方を試みる技術として機能する。 さらに、次世代の自律的で適応的なシステムには、主にAIエージェントと人間がチームとして一緒に働く。 これを可能にするために、自律エージェントは、人間の行動の実用的なモデルを埋め込む能力が必要であり、それは、人間のモデルを「学習」する技術として複製するだけでなく、ユーザーの行動を理解し、行動を予測するために、真の共生で行動することを可能にする。 本論文の主な目的は、人間の行動の定量的モデルを扱う2つの領域における最も重要なアプローチの簡潔かつ体系的なレビューを提供することである。 特に私たちは (一 強化学習等の探索及びフィードバックを通じて行動のモデル又は方針を学ぶ技術 (ii)必ずしも試行錯誤で学習することなく、信念やバイアスといった人間の推論のメカニズムを直接モデル化する。

There is a clear desire to model and comprehend human behavior. Trends in research covering this topic show a clear assumption that many view human reasoning as the presupposed standard in artificial reasoning. As such, topics such as game theory, theory of mind, machine learning, etc. all integrate concepts which are assumed components of human reasoning. These serve as techniques to attempt to both replicate and understand the behaviors of humans. In addition, next generation autonomous and adaptive systems will largely include AI agents and humans working together as teams. To make this possible, autonomous agents will require the ability to embed practical models of human behavior, which allow them not only to replicate human models as a technique to "learn", but to to understand the actions of users and anticipate their behavior, so as to truly operate in symbiosis with them. The main objective of this paper it to provide a succinct yet systematic review of the most important approaches in two areas dealing with quantitative models of human behaviors. Specifically, we focus on (i) techniques which learn a model or policy of behavior through exploration and feedback, such as Reinforcement Learning, and (ii) directly model mechanisms of human reasoning, such as beliefs and bias, without going necessarily learning via trial-and-error.
公開日:2022-05-13
翻訳日:2022-05-16 13:15:42
# 個人化プライバシ決定のための自己認識型パーソナルアシスタント

A Self-aware Personal Assistant for Making Personalized Privacy Decisions ( http://arxiv.org/abs/2205.06544v1 )

ライセンス: Link先を確認
Gonul Ayci, Murat Sensoy, Arzucan \"Ozg\"Ur, Pinar Yolum(参考訳) オンラインソーシャルネットワークのような多くのソフトウェアシステムは、ユーザーが自身の情報を共有することができる。 共有のアクションは単純ですが、プライバシに関する精巧な思考プロセスが必要です。 共有すべきコンテンツごとにこれらについて考えるのは面倒です。 この問題に対処する最近のアプローチは、ユーザが時間とともにプライベートであることを学習し、プライベートやパブリックなどのプライバシラベルを、ユーザが共有を考えている個々のコンテンツに推奨することで、ユーザを支援するパーソナルアシスタントを構築する。 しかし、プライバシーは本質的に曖昧で、非常に個人的なものだ。 プライバシー決定を推奨する既存のアプローチは、プライバシーのこれらの側面に十分対応していない。 理想的には、パーソナルアシスタントはユーザーのプライバシーの理解を考慮して、特定のユーザーに基づいてレコメンデーションを調整できるべきです。 さらに、パーソナルアシスタントは、いつ推薦が不確実になるかを判断し、ユーザが自身で決定を下す必要がある。 そこで本稿では,自明なディープラーニングを用いて,プライバシーラベルに基づくコンテンツ分類を行うパーソナルアシスタントを提案する。 パーソナルアシスタントの重要な特徴は、その決定においてその不確実性を明示的にモデル化し、その答えを知らないと判断し、不確実性が高ければ推薦を控えることである。 リスク要因や自身のラベルなど、ユーザのプライバシに対する自身の理解をファクタリングすることで、パーソナルアシスタントはユーザ毎のレコメンデーションをパーソナライズすることができる。 提案するパーソナルアシスタントをよく知られたデータセットを用いて評価する。 私たちのパーソナルアシスタントは、不確実性のあるケースを正確に識別し、ユーザのニーズに合わせてパーソナライズし、ユーザのプライバシの保護に役立ちます。

Many software systems, such as online social networks enable users to share information about themselves. While the action of sharing is simple, it requires an elaborate thought process on privacy: what to share, with whom to share, and for what purposes. Thinking about these for each piece of content to be shared is tedious. Recent approaches to tackle this problem build personal assistants that can help users by learning what is private over time and recommending privacy labels such as private or public to individual content that a user considers sharing. However, privacy is inherently ambiguous and highly personal. Existing approaches to recommend privacy decisions do not address these aspects of privacy sufficiently. Ideally, a personal assistant should be able to adjust its recommendation based on a given user, considering that user's privacy understanding. Moreover, the personal assistant should be able to assess when its recommendation would be uncertain and let the user make the decision on her own. Accordingly, this paper proposes a personal assistant that uses evidential deep learning to classify content based on its privacy label. An important characteristic of the personal assistant is that it can model its uncertainty in its decisions explicitly, determine that it does not know the answer, and delegate from making a recommendation when its uncertainty is high. By factoring in the user's own understanding of privacy, such as risk factors or own labels, the personal assistant can personalize its recommendations per user. We evaluate our proposed personal assistant using a well-known data set. Our results show that our personal assistant can accurately identify uncertain cases, personalize them to its user's needs, and thus helps users preserve their privacy well.
公開日:2022-05-13
翻訳日:2022-05-16 13:15:22
# 深部インバースグラフィーと学習可能レンダラーによる一例画像からのリアルタイムバーチャルトリオン

Real-time Virtual-Try-On from a Single Example Image through Deep Inverse Graphics and Learned Differentiable Renderers ( http://arxiv.org/abs/2205.06305v1 )

ライセンス: Link先を確認
Robin Kips, Ruowei Jiang, Sileye Ba, Brendan Duke, Matthieu Perrot, Pietro Gori, Isabelle Bloch(参考訳) 拡張現実(augmented reality, ar)アプリケーションは、オンラインプラットフォームに急速に広がり、消費者は化粧、髪の死、靴など、さまざまな製品を試すことができる。 しかし、特定の製品の現実的なイメージを合成するためにレンダラーをパラメータ化することは、専門家の知識を必要とする課題である。 最近の研究は、サンプル画像から仮想試行のためのニューラルネットワークレンダリング手法を導入しているが、現在のアプローチはモバイルデバイスでリアルタイムに使用できない大規模な生成モデルに基づいている。 これにより、コンピュータグラフィックスとニューラルレンダリングアプローチの利点を組み合わせたハイブリッドな手法が求められます。 本稿では,与えられた拡張現実レンダリングエンジンのパラメータ空間への単一のサンプル画像のマッピングを学習するリアルタイム逆グラフィックスエンコーダを構築するための,ディープラーニングに基づく新しいフレームワークを提案する。 本手法は自己教師付き学習を活用し,多くの仮想試行アプリケーションに拡張可能なラベル付きトレーニングデータを必要としない。 さらに、ほとんどの拡張現実レンダラは、ポータブルデバイス上でリアルタイムに到達するためのアルゴリズム選択や実装制約のため、実際には区別できない。 逆グラフィックス問題におけるグラフィックスベースの微分可能レンダラの必要性を緩和するために,学習可能なイミテータモジュールを導入する。 我々の模倣者は、与えられた非微分可能レンダラーの挙動を正確に再現することを学ぶ生成ネットワークである。 本稿では,ネットワークがレンダリングパラメータ毎に正確かつ連続的な表現を学習することを保証するために,イミテータを訓練するための新しいレンダリング感度損失を提案する。 当社のフレームワークは,ソーシャルメディア上のインスピレーション付き参照画像から,未知の商品を仮想的に試せる新しいアプリケーションを実現する。 また、グラフィックアーティストが参照商品画像からリアルなレンダリングを自動的に作成するためにも使用できる。

Augmented reality applications have rapidly spread across online platforms, allowing consumers to virtually try-on a variety of products, such as makeup, hair dying, or shoes. However, parametrizing a renderer to synthesize realistic images of a given product remains a challenging task that requires expert knowledge. While recent work has introduced neural rendering methods for virtual try-on from example images, current approaches are based on large generative models that cannot be used in real-time on mobile devices. This calls for a hybrid method that combines the advantages of computer graphics and neural rendering approaches. In this paper we propose a novel framework based on deep learning to build a real-time inverse graphics encoder that learns to map a single example image into the parameter space of a given augmented reality rendering engine. Our method leverages self-supervised learning and does not require labeled training data which makes it extendable to many virtual try-on applications. Furthermore, most augmented reality renderers are not differentiable in practice due to algorithmic choices or implementation constraints to reach real-time on portable devices. To relax the need for a graphics-based differentiable renderer in inverse graphics problems, we introduce a trainable imitator module. Our imitator is a generative network that learns to accurately reproduce the behavior of a given non-differentiable renderer. We propose a novel rendering sensitivity loss to train the imitator, which ensures that the network learns an accurate and continuous representation for each rendering parameter. Our framework enables novel applications where consumers can virtually try-on a novel unknown product from an inspirational reference image on social media. It can also be used by graphics artists to automatically create realistic rendering from a reference product image.
公開日:2022-05-12
翻訳日:2022-05-16 13:14:56
# 術中手術スキルの映像による評価

Video-based assessment of intraoperative surgical skill ( http://arxiv.org/abs/2205.06416v1 )

ライセンス: Link先を確認
Sanchit Hira, Digvijay Singh, Tae Soo Kim, Shobhit Gupta, Gregory Hager, Shameema Sikder, S. Swaroop Vedula(参考訳) 目的: 本研究の目的は, 手術室における手術技能の映像ベース評価における最先端手法の総合的分析を提供することである。 方法: 白内障手術における重要なステップであるcapsulorhexisの99ビデオのデータセットを用いて,前述した手術スキル評価のための特徴量ベース手法をベンチトップ設定で評価した。 さらに,RGBビデオを用いて直接スキル評価を行う2つの深層学習手法を提案する。 まず,楽器の先端をキーポイントとして予測し,時間的畳み込みニューラルネットワークを用いて外科的スキルを学ぶ。 第2の方法は,フレームワイズエンコーダ(2次元畳み込みニューラルネットワーク)と時間モデル(リカレントニューラルネットワーク)を併用した手術スキル評価のための新しいアーキテクチャを提案する。 5倍のクロスバリデーションにより,各手法における特性曲線,感度,特異性,予測値の操作領域を報告する。 結果:二分的スキル分類(専門対初心者)の課題に対して,ディープニューラルネットワークに基づく手法は従来の時空間的関心点に基づく手法よりも高いAUCを示す。 注意機構を用いたニューラルネットワークアプローチも高い感度と特異性を示した。 結論: 深層学習法は手術室における手術技術の評価に必要である。 注意機構を用いてRGBビデオから直接スキルを評価するネットワークの内部妥当性を,他のデータセットの外部妥当性として評価すべきである。

Purpose: The objective of this investigation is to provide a comprehensive analysis of state-of-the-art methods for video-based assessment of surgical skill in the operating room. Methods: Using a data set of 99 videos of capsulorhexis, a critical step in cataract surgery, we evaluate feature based methods previously developed for surgical skill assessment mostly under benchtop settings. In addition, we present and validate two deep learning methods that directly assess skill using RGB videos. In the first method, we predict instrument tips as keypoints, and learn surgical skill using temporal convolutional neural networks. In the second method, we propose a novel architecture for surgical skill assessment that includes a frame-wise encoder (2D convolutional neural network) followed by a temporal model (recurrent neural network), both of which are augmented by visual attention mechanisms. We report the area under the receiver operating characteristic curve, sensitivity, specificity, and predictive values with each method through 5-fold cross-validation. Results: For the task of binary skill classification (expert vs. novice), deep neural network based methods exhibit higher AUC than the classical spatiotemporal interest point based methods. The neural network approach using attention mechanisms also showed high sensitivity and specificity. Conclusion: Deep learning methods are necessary for video-based assessment of surgical skill in the operating room. Our findings of internal validity of a network using attention mechanisms to assess skill directly using RGB videos should be evaluated for external validity in other data sets.
公開日:2022-05-13
翻訳日:2022-05-16 13:14:25
# FRIH: きめ細かい領域認識画像調和

FRIH: Fine-grained Region-aware Image Harmonization ( http://arxiv.org/abs/2205.06448v1 )

ライセンス: Link先を確認
Jinlong Peng, Zekun Luo, Liang Liu, Boshen Zhang, Tao Wang, Yabiao Wang, Ying Tai, Chengjie Wang, Weiyao Lin(参考訳) イメージ調和は、複合画像の前景と背景をより現実的な外観にすることを目的としている。 既存の手法では前景全体に対して同じ調和処理を行う。 しかし、移植された前景には常に異なる外観パターンがある。 既存のソリューションはすべて、各色ブロックの違いを無視し、特定の詳細を失う。 そこで本稿では,FRIH(Fentral-Aware Image Harmonization)をエンドツーエンドにトレーニングする,新たなグローバルな2段階化フレームワークを提案する。 第1段階では、全入力フォアグラウンドマスクを用いてグローバル粗粒調和を行う。 第2段階では,入力前景マスクを合成画像中の対応する画素RGB値によって複数のサブマスクに適応的にクラスタリングする。 各サブマスクと粗調整画像とをそれぞれ連結して軽量カスケードモジュールに供給し、地域対応の局所的特徴に応じてグローバル調和性能を調整する。 さらに,全てのカスケードデコーダ層の特徴を融合予測モジュールに融合して最終結果を生成することにより,異なる調和度を包括的に活用し,融合予測モジュールの設計を行った。 ベルとホイッスルがなければ、FRIHアルゴリズムは軽量モデルでiHarmony4データセット(PSNRは38.19dB)上で最高の性能を達成する。 我々のモデルのパラメータは11.98mで、既存の方法よりはるかに低い。

Image harmonization aims to generate a more realistic appearance of foreground and background for a composite image. Existing methods perform the same harmonization process for the whole foreground. However, the implanted foreground always contains different appearance patterns. All the existing solutions ignore the difference of each color block and losing some specific details. Therefore, we propose a novel global-local two stages framework for Fine-grained Region-aware Image Harmonization (FRIH), which is trained end-to-end. In the first stage, the whole input foreground mask is used to make a global coarse-grained harmonization. In the second stage, we adaptively cluster the input foreground mask into several submasks by the corresponding pixel RGB values in the composite image. Each submask and the coarsely adjusted image are concatenated respectively and fed into a lightweight cascaded module, adjusting the global harmonization performance according to the region-aware local feature. Moreover, we further designed a fusion prediction module by fusing features from all the cascaded decoder layers together to generate the final result, which could utilize the different degrees of harmonization results comprehensively. Without bells and whistles, our FRIH algorithm achieves the best performance on iHarmony4 dataset (PSNR is 38.19 dB) with a lightweight model. The parameters for our model are only 11.98 M, far below the existing methods.
公開日:2022-05-13
翻訳日:2022-05-16 13:13:41
# FontNet:フォント合成におけるフォントデザイナーのパフォーマンスのギャップを埋める

FontNet: Closing the gap to font designer performance in font synthesis ( http://arxiv.org/abs/2205.06512v1 )

ライセンス: Link先を確認
Ammar Ul Hassan Muhammad, Jaeyoung Choi(参考訳) 手動フォント設計はドメインの専門知識を必要とし、作業集約的で時間のかかる仕事であるため、フォント合成は近年非常に活発な話題となっている。 既存のフォント合成法には、大きな参照画像を持つ未観測フォントスタイルを微調整する必要があるが、最近の数ショットフォント合成法は特定の言語システム用に設計されているか、使用を制限する低解像度の画像で操作されている。 本稿では,組込み空間におけるフォントスタイルを学習することで,このフォント合成問題に取り組む。 そこで本研究では,フォントの類似度の測定値と距離が直接一致する埋め込み空間において,フォントスタイルを分離し,入力画像を所定の観察または観察されていないフォントスタイルに変換するモデルである fontnet を提案する。 さらに,任意の言語システムに適用可能なネットワークアーキテクチャとトレーニング手順を設計し,高解像度フォント画像を生成する。 このアプローチにより,提案手法は質的および定量的実験において,既存の最先端フォント生成手法を上回っている。

Font synthesis has been a very active topic in recent years because manual font design requires domain expertise and is a labor-intensive and time-consuming job. While remarkably successful, existing methods for font synthesis have major shortcomings; they require finetuning for unobserved font style with large reference images, the recent few-shot font synthesis methods are either designed for specific language systems or they operate on low-resolution images which limits their use. In this paper, we tackle this font synthesis problem by learning the font style in the embedding space. To this end, we propose a model, called FontNet, that simultaneously learns to separate font styles in the embedding space where distances directly correspond to a measure of font similarity, and translates input images into the given observed or unobserved font style. Additionally, we design the network architecture and training procedure that can be adopted for any language system and can produce high-resolution font images. Thanks to this approach, our proposed method outperforms the existing state-of-the-art font generation methods on both qualitative and quantitative experiments.
公開日:2022-05-13
翻訳日:2022-05-16 13:13:21
# ビデオ質問応答のための構文ハイパーグラフを用いた意味合成のモデル化

Modeling Semantic Composition with Syntactic Hypergraph for Video Question Answering ( http://arxiv.org/abs/2205.06530v1 )

ライセンス: Link先を確認
Zenan Xu, Wanjun Zhong, Qinliang Su, Zijing Ou and Fuwei Zhang(参考訳) ビデオ質問応答における重要な課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。 既存の手法は主に、単語表現をビデオ領域と整合させようとしている。 しかしながら、単語表現は、一般的に特定の単語の合成によって記述されるテキスト概念の完全な記述を伝達できないことが多い。 この問題に対処するため,本研究では,まず,既成のツールを用いて各質問に対する構文依存ツリーを構築し,意味のある単語合成の抽出を誘導する手法を提案する。 抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。 ハイパーグラフ畳み込みネットワーク(HCN)は、単語合成の初期表現を学ぶために使用される。 その後,テキスト空間と視覚的意味空間のクロスモーダル意味アライメントを行うために,最適なトランスポートベース手法を提案する。 クロスモダリティの影響を反映するため、クロスモダリティ情報は初期表現に組み込まれ、クロスモダリティ認識構文hcn(cross-modality-a ware syntactic hcn)と呼ばれるモデルに繋がる。 3つのベンチマークによる実験結果から,本手法は強いベースラインよりも優れていた。 さらに分析により,各成分の有効性を実証し,意味的構成の異なるレベルをモデル化し,無関係な情報のフィルタリングに長けていることを示す。

A key challenge in video question answering is how to realize the cross-modal semantic alignment between textual concepts and corresponding visual objects. Existing methods mostly seek to align the word representations with the video regions. However, word representations are often not able to convey a complete description of textual concepts, which are in general described by the compositions of certain words. To address this issue, we propose to first build a syntactic dependency tree for each question with an off-the-shelf tool and use it to guide the extraction of meaningful word compositions. Based on the extracted compositions, a hypergraph is further built by viewing the words as nodes and the compositions as hyperedges. Hypergraph convolutional networks (HCN) are then employed to learn the initial representations of word compositions. Afterwards, an optimal transport based method is proposed to perform cross-modal semantic alignment for the textual and visual semantic space. To reflect the cross-modal influences, the cross-modal information is incorporated into the initial representations, leading to a model named cross-modality-aware syntactic HCN. Experimental results on three benchmarks show that our method outperforms all strong baselines. Further analyses demonstrate the effectiveness of each component, and show that our model is good at modeling different levels of semantic compositions and filtering out irrelevant information.
公開日:2022-05-13
翻訳日:2022-05-16 13:13:03
# (参考訳) マルチエージェント強化学習における創発的bartering行動

Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.06760v1 )

ライセンス: CC BY 4.0
Michael Bradley Johanson, Edward Hughes, Finbarr Timbers, Joel Z. Leibo(参考訳) 人工知能の進歩は、しばしば現実世界の状況を便利に研究できる形で抽象化する新しい環境の開発に起因している。 本稿は,小学校のミクロ経済学に触発された発想に基づく環境に貢献する。 エージェントは、空間的に複雑な世界でリソースを生産し、互いに取引し、彼らが好むリソースを消費することを学ぶ。 マイクロエコノミクスの需給シフトによって予測される方向において, 創発的な生産, 消費, 価格の挙動が環境条件に応答することを示す。 また,各エージェントの商品に対する創発的価格が空間的に異なる設定を示し,現地の商品の豊富さを反映している。 価格格差が生じた後、一部のエージェントは、価格の異なる地域間で商品を輸送するニッチ(ニッチ)を発見する。 最後に, 一連のアブレーション実験において, 環境報酬, 物々交換行動, エージェント・アーキテクチャ, および販売可能な商品を消費する能力の選択が, この経済行動の出現を助長するか阻害するかについて検討した。 この研究は、シミュレーション社会におけるマルチエージェントインタラクションを通じて人間のような人工知能を構築することを目的とした研究プログラムの環境開発部門の一部である。 初等ミクロ経済学の基礎的な現象が学習から自動的に現れるためには,どのような環境特性が必要かを探索することにより,従来のマルチエージェント強化学習作業と異なる環境に到達した。 例えば、モデルには異質な味覚と身体能力が含まれており、エージェントはコミュニケーションの基盤として互いに交渉する。

Advances in artificial intelligence often stem from the development of new environments that abstract real-world situations into a form where research can be done conveniently. This paper contributes such an environment based on ideas inspired by elementary Microeconomics. Agents learn to produce resources in a spatially complex world, trade them with one another, and consume those that they prefer. We show that the emergent production, consumption, and pricing behaviors respond to environmental conditions in the directions predicted by supply and demand shifts in Microeconomics. We also demonstrate settings where the agents' emergent prices for goods vary over space, reflecting the local abundance of goods. After the price disparities emerge, some agents then discover a niche of transporting goods between regions with different prevailing prices -- a profitable strategy because they can buy goods where they are cheap and sell them where they are expensive. Finally, in a series of ablation experiments, we investigate how choices in the environmental rewards, bartering actions, agent architecture, and ability to consume tradable goods can either aid or inhibit the emergence of this economic behavior. This work is part of the environment development branch of a research program that aims to build human-like artificial general intelligence through multi-agent interactions in simulated societies. By exploring which environment features are needed for the basic phenomena of elementary microeconomics to emerge automatically from learning, we arrive at an environment that differs from those studied in prior multi-agent reinforcement learning work along several dimensions. For example, the model incorporates heterogeneous tastes and physical abilities, and agents negotiate with one another as a grounded form of communication.
公開日:2022-05-13
翻訳日:2022-05-16 13:12:40
# (参考訳) オーバーパラメータ化によるスタイルGANインバージョンの改善

Overparameterization Improves StyleGAN Inversion ( http://arxiv.org/abs/2205.06304v1 )

ライセンス: CC BY 4.0
Yohan Poirier-Ginter, Alexandre Lessard, Ryan Smith, Jean-Fran\c{c}ois Lalonde(参考訳) styleganのような深層生成モデルは、ピクセルの値ではなく、コンテンツによって画像を変更するというセマンティックな画像編集を約束している。 残念なことに、任意のイメージを扱うにはStyleGANジェネレータを反転する必要がある。 既存のインバージョンアプローチは、復元品質と下流編集性の間のトレードオフを伴って、有望だが不完全な結果が得られる。 品質を改善するために、これらのアプローチはトレーニング後のモデルの潜在空間を拡張する様々な技術に頼らなければならない。 一歩後退すると、これらの手法が本質的には、自由パラメータの数を増やすために、いずれかの方法で提案されることが分かる。 これは、逆転は制約が過小評価されているため困難であることを示している。 本研究では,従来のStyleGANアーキテクチャに簡単な変更を加えて,学習前の潜在空間を直接的かつ劇的に過度にパラメータ化する。 過パラメータ化は利用可能な自由度を高め、結果的に逆転を促進する。 これにより、エンコーダやトレーニング後の潜在空間の変更を必要とせずに、ほぼ完全な画像再構成が可能となる。 われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。

Deep generative models like StyleGAN hold the promise of semantic image editing: modifying images by their content, rather than their pixel values. Unfortunately, working with arbitrary images requires inverting the StyleGAN generator, which has remained challenging so far. Existing inversion approaches obtain promising yet imperfect results, having to trade-off between reconstruction quality and downstream editability. To improve quality, these approaches must resort to various techniques that extend the model latent space after training. Taking a step back, we observe that these methods essentially all propose, in one way or another, to increase the number of free parameters. This suggests that inversion might be difficult because it is underconstrained. In this work, we address this directly and dramatically overparameterize the latent space, before training, with simple changes to the original StyleGAN architecture. Our overparameterization increases the available degrees of freedom, which in turn facilitates inversion. We show that this allows us to obtain near-perfect image reconstruction without the need for encoders nor for altering the latent space after training. Our approach also retains editability, which we demonstrate by realistically interpolating between images.
公開日:2022-05-12
翻訳日:2022-05-16 13:12:15
# テキスト分類のためのインターロックフリーマルチスペクトル合理化

Interlock-Free Multi-Aspect Rationalization for Text Classification ( http://arxiv.org/abs/2205.06756v1 )

ライセンス: Link先を確認
Shuangqi Li, Diego Antognini, Boi Faltings(参考訳) テキスト分類作業では説明が重要である。 一般的な説明の1つがrationalesであり、これは予測に十分であり、人間にとって意味のある入力テキストのテキストスニペットである。 合理化に関する多くの研究は、選択的合理化フレームワークに基づいており、最近、相互ロックのダイナミクスによって問題になっていることが示されている。 本稿では,複数の出力に対して複数の有理数を生成することを目的としたマルチアスペクト設定におけるインターロック問題に対処する。 より具体的には、より意味論的に多様な理性を生み出すのに役立つ自己教師付きコントラスト損失を付加した多段階学習手法を提案する。 ビールレビューデータセットにおける実験結果から,本手法は合理化性能が著しく向上することが示された。

Explanation is important for text classification tasks. One prevalent type of explanation is rationales, which are text snippets of input text that suffice to yield the prediction and are meaningful to humans. A lot of research on rationalization has been based on the selective rationalization framework, which has recently been shown to be problematic due to the interlocking dynamics. In this paper, we show that we address the interlocking problem in the multi-aspect setting, where we aim to generate multiple rationales for multiple outputs. More specifically, we propose a multi-stage training method incorporating an additional self-supervised contrastive loss that helps to generate more semantically diverse rationales. Empirical results on the beer review dataset show that our method improves significantly the rationalization performance.
公開日:2022-05-13
翻訳日:2022-05-16 13:10:35
# 深層残留ネットワークの収束解析

Convergence Analysis of Deep Residual Networks ( http://arxiv.org/abs/2205.06571v1 )

ライセンス: Link先を確認
Wentao Huang and Haizhang Zhang(参考訳) さまざまな強力なディープニューラルネットワークアーキテクチャは、過去20年におけるディープラーニングのエキサイティングな成功に大きな貢献をした。 中でもDeep Residual Networks(ResNets)は,多くのディープラーニングコンペで優勝し,コンピュータビジョンにおいて大きな有用性を示したことから,特に重要である。 また、ResNetsは、ディープラーニングの発展史において、非常に深いニューラルネットワークの最初のクラスだった。 深い再ネットの収束を理解することは数学的に興味深く、実際的な意味である。 本研究では,ディープResNetの収束度を,ネットワークのパラメータの観点から無限大の傾向を示す。 この目的に向けて,まず,近距離接続を用いた一般深層ニューラルネットワークのマトリックス・ベクトル記述と,アクティベーションドメインとアクティベーション行列の概念を用いてネットワークの明示的な表現を定式化する。 収束は、非平方行列の無限積を含む2つの級数の収束に還元される。 2つの級数の研究により、resnetsのポイントワイズ収束の十分条件が確立される。 我々の結果はResNetsの設計を正当化することができる。 また、機械学習データをベンチマークして結果を検証する実験も行います。

Various powerful deep neural network architectures have made great contribution to the exciting successes of deep learning in the past two decades. Among them, deep Residual Networks (ResNets) are of particular importance because they demonstrated great usefulness in computer vision by winning the first place in many deep learning competitions. Also, ResNets were the first class of neural networks in the development history of deep learning that are really deep. It is of mathematical interest and practical meaning to understand the convergence of deep ResNets. We aim at characterizing the convergence of deep ResNets as the depth tends to infinity in terms of the parameters of the networks. Toward this purpose, we first give a matrix-vector description of general deep neural networks with shortcut connections and formulate an explicit expression for the networks by using the notions of activation domains and activation matrices. The convergence is then reduced to the convergence of two series involving infinite products of non-square matrices. By studying the two series, we establish a sufficient condition for pointwise convergence of ResNets. Our result is able to give justification for the design of ResNets. We also conduct experiments on benchmark machine learning data to verify our results.
公開日:2022-05-13
翻訳日:2022-05-16 13:10:24
# 即時フィードバックによる逐次クエリ勧告の改善

Improving Sequential Query Recommendation with Immediate User Feedback ( http://arxiv.org/abs/2205.06297v1 )

ライセンス: Link先を確認
Shameem A Puthiya Parambath, Christos Anagnostopoulos, Roderick Murray-Smith(参考訳) 情報収集のための知識発見など,インタラクティブなデータ探索設定において,次のクエリレコメンデーションのためのアルゴリズムを提案する。 最先端のクエリレコメンデーションアルゴリズムは、過去のインタラクションデータを利用するシーケンスからシーケンスへの学習アプローチに基づいている。 本稿では,mab(multi-armed bandit)フレームワークを用いた即時ユーザフィードバックに対応するために,問合せレコメンデーションのためのトランスフォーマベース因果言語モデルの拡張を提案する。 本研究では,オンライン文献発見サービスからのログファイルを用いた大規模実験を行い,本アルゴリズムが,即時ユーザフィードバックを利用せず,最先端のトランスフォーマベースの問合せレコメンデーションモデルに関して,累積的後悔を大幅に改善できることを実証する。 データモデルとソースコードは ~\url{https://anonymous.4o pen.science/r/exp3_s s-9985/} で利用可能です。

We propose an algorithm for next query recommendation in interactive data exploration settings, like knowledge discovery for information gathering. The state-of-the-art query recommendation algorithms are based on sequence-to-sequence learning approaches that exploit historical interaction data. We propose to augment the transformer-based causal language models for query recommendations to adapt to the immediate user feedback using multi-armed bandit (MAB) framework. We conduct a large-scale experimental study using log files from a popular online literature discovery service and demonstrate that our algorithm improves the cumulative regret substantially, with respect to the state-of-the-art transformer-based query recommendation models, which do not make use of the immediate user feedback. Our data model and source code are available at ~\url{https://anonymous.4o pen.science/r/exp3_s s-9985/}.
公開日:2022-05-12
翻訳日:2022-05-16 13:10:08
# (参考訳) 関数空間における一般化変分推論--ガウス測度とベイズ深層学習

Generalized Variational Inference in Function Spaces: Gaussian Measures meet Bayesian Deep Learning ( http://arxiv.org/abs/2205.06342v1 )

ライセンス: CC BY 4.0
Veit D. Wild, Robert Hu, Dino Sejdinovic(参考訳) 無限次元関数空間における一般化変分推論の枠組みを開発し、それをガウス・ワッサーシュタイン推論(GWI)と呼ばれる方法を構築する。 gwi は二乗可積分函数のヒルベルト空間上のガウス測度間のワッサーシュタイン距離を利用して、可搬最適化基準を用いて変分後点を判定し、標準変分関数空間推論で生じる病理を回避している。 GWIのエキサイティングな応用は、GWIの変分パラメトリションにおいてディープニューラルネットワークを使用する能力であり、その優れた予測性能とガウス過程に類似した原理化された不確実性定量化を組み合わせたものである。 提案手法は,複数のベンチマークデータセット上での最先端性能を得る。

We develop a framework for generalized variational inference in infinite-dimensional function spaces and use it to construct a method termed Gaussian Wasserstein inference (GWI). GWI leverages the Wasserstein distance between Gaussian measures on the Hilbert space of square-integrable functions in order to determine a variational posterior using a tractable optimisation criterion and avoids pathologies arising in standard variational function space inference. An exciting application of GWI is the ability to use deep neural networks in the variational parametrisation of GWI, combining their superior predictive performance with the principled uncertainty quantification analogous to that of Gaussian processes. The proposed method obtains state-of-the-art performance on several benchmark datasets.
公開日:2022-05-12
翻訳日:2022-05-16 13:07:41
# $\alpha$-gan:収束と推定の保証

$\alpha$-GAN: Convergence and Estimation Guarantees ( http://arxiv.org/abs/2205.06393v1 )

ライセンス: Link先を確認
Gowtham R. Kurri, Monica Welfert, Tyler Sypherd, Lalitha Sankar(参考訳) 一般CPE損失関数 GANs の min-max 最適化と、関連する$f$-divergences の最小化との双方向対応性を証明する。 すると、$\alpha$-GAN を $\alpha$-loss で定義し、いくつかの GAN (Hellinger, vanilla, Total Variation) を補間し、有元発散の最小化に対応する。 すべての$\alpha\in \mathbb{R}_{>0}\cup\{\infty\}$に対して、$\alpha$-GAN によって誘導される有元発散が同値収束することを示す。 しかし、制限付き学習モデルと有限サンプルの下では、$\alpha$の関数として多様なGAN挙動を示す推定境界を提供する。 最後に、$\alpha$ハイパーパラメータのチューニングの実用性を強調したtoyデータセットについて実験結果を示す。

We prove a two-way correspondence between the min-max optimization of general CPE loss function GANs and the minimization of associated $f$-divergences. We then focus on $\alpha$-GAN, defined via the $\alpha$-loss, which interpolates several GANs (Hellinger, vanilla, Total Variation) and corresponds to the minimization of the Arimoto divergence. We show that the Arimoto divergences induced by $\alpha$-GAN equivalently converge, for all $\alpha\in \mathbb{R}_{>0}\cup\{\infty\}$. However, under restricted learning models and finite samples, we provide estimation bounds which indicate diverse GAN behavior as a function of $\alpha$. Finally, we present empirical results on a toy dataset that highlight the practical utility of tuning the $\alpha$ hyperparameter.
公開日:2022-05-12
翻訳日:2022-05-16 13:07:27
# E(3)等変原子中心原子間ポテンシャルの設計空間

The Design Space of E(3)-Equivariant Atom-Centered Interatomic Potentials ( http://arxiv.org/abs/2205.06643v1 )

ライセンス: Link先を確認
Ilyes Batatia, Simon Batzner, D\'avid P\'eter Kov\'acs, Albert Musaelian, Gregor N. C. Simm, Ralf Drautz, Christoph Ortner, Boris Kozinsky, G\'abor Cs\'anyi(参考訳) 過去数年間における機械学習の原子間ポテンシャルの急速な進歩は、多くの新しいアーキテクチャを生み出した。 特に注目すべきは、原子密度ベースの記述子に関する初期のアイデアの多くを統一したAtomic Cluster Expansion (ACE) と、芸術的正確性を示す同変特徴を持つメッセージパッシングニューラルネットワークであるNequIP(Neural Equivariant Interatomic Potentials)である。 本研究では,これらのモデルを統一する数学的枠組みを構築する。ACEは多層アーキテクチャの一層として再キャストできるように一般化される。 別の観点からは、NequIPの線型化バージョンは、はるかに大きな多項式モデルの特別なスパース化として理解される。 私たちのフレームワークは、統一デザイン空間における異なる選択を体系的に探索するための実用的なツールも提供します。 我々は,NequIPをトレーニングデータからかなり離れた領域内および外部領域の精度とスムーズな外挿に着目した一連の実験によってアブレーション研究し,高い精度を達成するために設計選択が重要かを示す。 最後に,より単純化されたNequIPのBOTNet(Body-Ordered- Tensor-Network)を提案する。

The rapid progress of machine learning interatomic potentials over the past couple of years produced a number of new architectures. Particularly notable among these are the Atomic Cluster Expansion (ACE), which unified many of the earlier ideas around atom density-based descriptors, and Neural Equivariant Interatomic Potentials (NequIP), a message passing neural network with equivariant features that showed state of the art accuracy. In this work, we construct a mathematical framework that unifies these models: ACE is generalised so that it can be recast as one layer of a multi-layer architecture. From another point of view, the linearised version of NequIP is understood as a particular sparsification of a much larger polynomial model. Our framework also provides a practical tool for systematically probing different choices in the unified design space. We demonstrate this by an ablation study of NequIP via a set of experiments looking at in- and out-of-domain accuracy and smooth extrapolation very far from the training data, and shed some light on which design choices are critical for achieving high accuracy. Finally, we present BOTNet (Body-Ordered-Tensor -Network), a much-simplified version of NequIP, which has an interpretable architecture and maintains accuracy on benchmark datasets.
公開日:2022-05-13
翻訳日:2022-05-16 13:07:10
# 分散型SGDにおける重機現象

Heavy-Tail Phenomenon in Decentralized SGD ( http://arxiv.org/abs/2205.06689v1 )

ライセンス: Link先を確認
Mert Gurbuzbalaban, Yuanhan Hu, Umut Simsekli, Kun Yuan, Lingjiong Zhu(参考訳) 近年の理論的研究により、ガウスデータによる線形回帰のような驚くほど単純な設定でも「乗法雑音」による確率的最適化において重項が現れることが示されている。 これらの研究はいくつかの興味深い現象を明らかにしているが、現代の機械学習アプリケーションで自然に発生する分散型設定を除外する従来の確率最適化問題を考察している。 本稿では,分散確率勾配降下(de-sgd)におけるヘビーテールの出現と,分散がテール挙動に及ぼす影響について検討する。 まず、各計算ノードの損失関数がコンパクト領域の外側で連続的に微分可能であり、強い凸であるとき、DEC-SGDの法則は多項式的に減衰する(重)尾を持つ分布に収束することを示す。 次に,各ノードにおける損失が二次的である場合について,より明示的な制御を行うために,各ノードのネットワークのステップサイズ,バッチサイズ,および位相特性の関数としてテールインデックスを推定可能であることを示す。 次に,D-SGDが集中型SGDよりも重い尾を持つことを示す理論的,実証的な結果を示す。 また,ノードがデータを分散するが通信しない非分離sgdと比較した。 ネットワーク構造をD-SGD % 加えると、網構造に依存しないSGD よりも軽い、あるいは重い尾を持つ2つのパラメータ(ステップサイズとネットワークサイズ)を同定する。 最後に, 理論的結果を支援するため, 合成データとニューラルネットワークの両方で数値実験を行った。

Recent theoretical studies have shown that heavy-tails can emerge in stochastic optimization due to `multiplicative noise', even under surprisingly simple settings, such as linear regression with Gaussian data. While these studies have uncovered several interesting phenomena, they consider conventional stochastic optimization problems, which exclude decentralized settings that naturally arise in modern machine learning applications. In this paper, we study the emergence of heavy-tails in decentralized stochastic gradient descent (DE-SGD), and investigate the effect of decentralization on the tail behavior. We first show that, when the loss function at each computational node is twice continuously differentiable and strongly convex outside a compact region, the law of the DE-SGD iterates converges to a distribution with polynomially decaying (heavy) tails. To have a more explicit control on the tail exponent, we then consider the case where the loss at each node is a quadratic, and show that the tail-index can be estimated as a function of the step-size, batch-size, and the topological properties of the network of the computational nodes. Then, we provide theoretical and empirical results showing that DE-SGD has heavier tails than centralized SGD. We also compare DE-SGD to disconnected SGD where nodes distribute the data but do not communicate. Our theory uncovers an interesting interplay between the tails and the network structure: we identify two regimes of parameters (stepsize and network size), where DE-SGD %addition of network structure can have lighter or heavier tails than disconnected SGD depending on the regime. Finally, to support our theoretical results, we provide numerical experiments conducted on both synthetic data and neural networks.
公開日:2022-05-13
翻訳日:2022-05-16 13:06:47
# リモートセンシングにおけるハイパースペクトルデータ処理のためのテンソル分解

Tensor Decompositions for Hyperspectral Data Processing in Remote Sensing: A Comprehensive Review ( http://arxiv.org/abs/2205.06407v1 )

ライセンス: Link先を確認
Minghua Wang, Danfeng Hong, Zhu Han, Jiaxin Li, Jing Yao, Lianru Gao, Bing Zhang, Jocelyn Chanussot(参考訳) センサー技術の急速な発展により、ハイパースペクトル(HS)リモートセンシング(RS)イメージングは、航空機、宇宙船、衛星などのデータ取得装置の距離における地球表面の観測と分析のために、かなりの量の空間的およびスペクトル的情報を提供してきた。 近年のHS RS技術の進歩と革命は、HS RSの巨大な取得データを効率的に処理し分析する新たな課題に直面しつつ、様々なアプリケーションの潜在能力を実現する機会を提供する。 3次元HS固有の構造が維持されているため、テンソルの分解は過去数十年にわたってHSデータ処理タスクの幅広い関心や研究を引き起こしている。 本稿では, HSデータ処理における5つの幅広いトピックのコンテキスト化, HS復元, 圧縮センシング, 異常検出, 超解像, スペクトルアンミックスについて, テンソル分解の包括的概要を述べることを目的とする。 それぞれの話題について, hs rs のテンソル分解モデルの顕著な成果について, 既存手法の重要な記述と実験結果に関する代表的展示について詳述する。 その結果、HS RSの実践とテンソルの分解を先進的な先進や深層ニューラルネットワークと組み合わせることで、フォローアップ研究の方向性の残りの課題を概説し、議論する。 本稿では, 異なるテンソル分解に基づくHSデータ処理手法を要約し, 簡単な適用から, アルゴリズム初心者の他の先例との複雑な組み合わせまで, 異なるクラスに分類する。 また、この調査は、テンソル分解とHS RSをある程度理解した経験豊富な研究者に対して、新たな調査と開発動向を提供することができると期待している。

Owing to the rapid development of sensor technology, hyperspectral (HS) remote sensing (RS) imaging has provided a significant amount of spatial and spectral information for the observation and analysis of the Earth's surface at a distance of data acquisition devices, such as aircraft, spacecraft, and satellite. The recent advancement and even revolution of the HS RS technique offer opportunities to realize the full potential of various applications, while confronting new challenges for efficiently processing and analyzing the enormous HS acquisition data. Due to the maintenance of the 3-D HS inherent structure, tensor decomposition has aroused widespread concern and research in HS data processing tasks over the past decades. In this article, we aim at presenting a comprehensive overview of tensor decomposition, specifically contextualizing the five broad topics in HS data processing, and they are HS restoration, compressed sensing, anomaly detection, super-resolution, and spectral unmixing. For each topic, we elaborate on the remarkable achievements of tensor decomposition models for HS RS with a pivotal description of the existing methodologies and a representative exhibition on the experimental results. As a result, the remaining challenges of the follow-up research directions are outlined and discussed from the perspective of the real HS RS practices and tensor decomposition merged with advanced priors and even with deep neural networks. This article summarizes different tensor decomposition-based HS data processing methods and categorizes them into different classes from simple adoptions to complex combinations with other priors for the algorithm beginners. We also expect this survey can provide new investigations and development trends for the experienced researchers who understand tensor decomposition and HS RS to some extent.
公開日:2022-05-13
翻訳日:2022-05-16 13:06:19
# TIE: ウェブページにおけるトポロジカル情報強化構造読解

TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages ( http://arxiv.org/abs/2205.06435v1 )

ライセンス: Link先を確認
Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen, and Kai Yu(参考訳) 近年,Webページにおける構造化読解(SRC)タスクが研究の関心を集めている。 以前のSRC作業ではHTMLタグやXPathsといった余分な情報を活用していたが、Webページの情報トポロジは効果的に活用されていない。 本研究では,トークンレベルタスクをタグレベルタスクに変換するTIE(Topological Information Enhanced Model)を提案する。 これに基づいて、TIEはグラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合し、論理構造と空間構造のトポロジ情報を活用する。 実験の結果,本モデルは強いベースラインを上回り,webベースのsrcベンチマークwebsrcで最先端のパフォーマンスを達成していることがわかった。 TIEのコードはhttps://github.com/X -LANCE/TIEで公開される。

Recently, the structural reading comprehension (SRC) task on web pages has attracted increasing research interests. Although previous SRC work has leveraged extra information such as HTML tags or XPaths, the informative topology of web pages is not effectively exploited. In this work, we propose a Topological Information Enhanced model (TIE), which transforms the token-level task into a tag-level task by introducing a two-stage process (i.e. node locating and answer refining). Based on that, TIE integrates Graph Attention Network (GAT) and Pre-trained Language Model (PLM) to leverage the topological information of both logical structures and spatial structures. Experimental results demonstrate that our model outperforms strong baselines and achieves state-of-the-art performances on the web-based SRC benchmark WebSRC at the time of writing. The code of TIE will be publicly available at https://github.com/X -LANCE/TIE.
公開日:2022-05-13
翻訳日:2022-05-16 13:05:50
# (参考訳) noun2verb: 単語クラス変換のための確率的フレームセマンティクス

Noun2Verb: Probabilistic frame semantics for word class conversion ( http://arxiv.org/abs/2205.06321v1 )

ライセンス: CC BY 4.0
Lei Yu, Yang Xu(参考訳) 人間は、異なる文法クラス(単語クラス変換として知られる現象)にまたがって、柔軟に単語の使用を拡張できる。 名詞から動詞への変換(英: Noun-to-verb conversion, 英: Denominal verb)は、単語のクラス変換の最も一般的な形式の一つである。 しかし、既存の自然言語処理システムは、新しい動詞の解釈や生成に苦しめられている。 先行研究では、リスナーが話者との共有知識に基づいて意図した意味を計算できるならば、新しい語尾動詞の使用法が理解可能であることが示唆された。 ここでは,フレーム意味論に基づくこの提案の計算形式について考察する。 意味フレームにおける話者とリスナーの共有知識をモデル化し,新しい動詞用法の生成と理解をシミュレートする形式的枠組みであるnoun2verbを提案する。 パラフレーズによる新しい名詞用動詞の解釈と生成を学習する確率モデルを段階的に評価する。 本報告では,話者と聞き手が協調して意味フレーム上での協調分布を学習するモデルが,語用言語モデルよりも経験的語用動詞使用法をよりよく説明できることを示す。 1) 成人・子供両方の発話における現代英語 2)現代中国語、および 3)英語の歴史的発展。 我々の研究は、確率的フレームセマンティクスにおける単語のクラス変換を基礎とし、自然言語処理システムと人間の語彙的創造性のギャップを埋める。

Humans can flexibly extend word usages across different grammatical classes, a phenomenon known as word class conversion. Noun-to-verb conversion, or denominal verb (e.g., to Google a cheap flight), is one of the most prevalent forms of word class conversion. However, existing natural language processing systems are impoverished in interpreting and generating novel denominal verb usages. Previous work has suggested that novel denominal verb usages are comprehensible if the listener can compute the intended meaning based on shared knowledge with the speaker. Here we explore a computational formalism for this proposal couched in frame semantics. We present a formal framework, Noun2Verb, that simulates the production and comprehension of novel denominal verb usages by modeling shared knowledge of speaker and listener in semantic frames. We evaluate an incremental set of probabilistic models that learn to interpret and generate novel denominal verb usages via paraphrasing. We show that a model where the speaker and listener cooperatively learn the joint distribution over semantic frame elements better explains the empirical denominal verb usages than state-of-the-art language models, evaluated against data from 1) contemporary English in both adult and child speech, 2) contemporary Mandarin Chinese, and 3) the historical development of English. Our work grounds word class conversion in probabilistic frame semantics and bridges the gap between natural language processing systems and humans in lexical creativity.
公開日:2022-05-12
翻訳日:2022-05-16 13:05:10
# (参考訳) 多言語ファウショット学習の経済性について:機械翻訳とマニュアルデータのコストパフォーマンストレードオフをモデル化する

On the Economics of Multilingual Few-shot Learning: Modeling the Cost-Performance Trade-offs of Machine Translated and Manual Data ( http://arxiv.org/abs/2205.06350v1 )

ライセンス: CC BY 4.0
Kabir Ahuja, Monojit Choudhury, Sandipan Dandapat(参考訳) 本稿では,多言語多言語モデルのタスク固有の微調整のための,機械翻訳と手作業によるラベル付きデータ間の性能とコストのトレードオフを体系的に評価する枠組みを提案する。 本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。 この研究の興味深い結論の1つは、機械翻訳のコストが0より大きい場合、最適性能は少なくとも手動で作成したデータで常に達成されるということである。 我々の知る限り、これは多言語モデルのトレーニングのためのデータ収集戦略を研究するために生産関数の概念を拡張しようとする最初の試みであり、NLPにおける他の同様のコスト対データトレードオフのための貴重なツールとして役立ちます。

Borrowing ideas from {\em Production functions} in micro-economics, in this paper we introduce a framework to systematically evaluate the performance and cost trade-offs between machine-translated and manually-created labelled data for task-specific fine-tuning of massively multilingual language models. We illustrate the effectiveness of our framework through a case-study on the TyDIQA-GoldP dataset. One of the interesting conclusions of the study is that if the cost of machine translation is greater than zero, the optimal performance at least cost is always achieved with at least some or only manually-created data. To our knowledge, this is the first attempt towards extending the concept of production functions to study data collection strategies for training multilingual models, and can serve as a valuable tool for other similar cost vs data trade-offs in NLP.
公開日:2022-05-12
翻訳日:2022-05-16 13:04:33
# 知識表現学習のためのシンプルで効果的な関係ベース埋め込み伝播

Simple and Effective Relation-based Embedding Propagation for Knowledge Representation Learning ( http://arxiv.org/abs/2205.06456v1 )

ライセンス: Link先を確認
Huijuan Wang, Siming Dai, Weiyue Su, Hui Zhong, Zeyang Fang, Zhengjie Huang, Shikun Feng, Zeyu Chen, Yu Sun, Dianhai Yu(参考訳) リレーショナルグラフニューラルネットワークは、知識グラフ(KG)のグラフコンテキストを符号化するために特に注目を集めている。 小型kgでの競争力は高いが、グラフコンテキストを大規模kgで効率的に活用する方法は未解決の問題である。 そこで本研究では,Relation-based Embedding Propagation (REP)法を提案する。 事前学習されたkg埋め込みをグラフコンテキストに適応させるための後処理技術である。 KG間の関係は指向的であるので、入ってくる頭部コンテキストと出ている尾コンテキストを別々にモデル化する。 したがって,外部パラメータを含まない関係コンテキスト関数を設計する。 さらに、平均化を用いてコンテキスト情報を集約し、REPをより計算効率よくします。 このような設計は伝播中の情報歪みを回避できることを理論的に証明する。 大規模な実験では、REPは予測品質を改善したり維持したりしながら大きなスケーラビリティを持っていることも示している。 特に、OGBL-WikiKG2上の三重項ベースの埋め込みメソッドに対して平均10%の相対的な改善をもたらし、最先端のGC-OTEと同等の結果を得るのに5%-83%の時間を要する。

Relational graph neural networks have garnered particular attention to encode graph context in knowledge graphs (KGs). Although they achieved competitive performance on small KGs, how to efficiently and effectively utilize graph context for large KGs remains an open problem. To this end, we propose the Relation-based Embedding Propagation (REP) method. It is a post-processing technique to adapt pre-trained KG embeddings with graph context. As relations in KGs are directional, we model the incoming head context and the outgoing tail context separately. Accordingly, we design relational context functions with no external parameters. Besides, we use averaging to aggregate context information, making REP more computation-efficien t. We theoretically prove that such designs can avoid information distortion during propagation. Extensive experiments also demonstrate that REP has significant scalability while improving or maintaining prediction quality. Notably, it averagely brings about 10% relative improvement to triplet-based embedding methods on OGBL-WikiKG2 and takes 5%-83% time to achieve comparable results as the state-of-the-art GC-OTE.
公開日:2022-05-13
翻訳日:2022-05-16 13:03:48
# 言語モデルからのスーパービジョン信号を用いた弱教師付きテキスト分類

Weakly Supervised Text Classification using Supervision Signals from a Language Model ( http://arxiv.org/abs/2205.06604v1 )

ライセンス: Link先を確認
Ziqian Zeng, Weimin Ni, Tianqing Fang, Xiang Li, Xinran Zhao and Yangqiu Song(参考訳) 人間のアノテーションが不足している現実世界のアプリケーションでは、弱い教師付きでテキスト分類を解くことが重要である。 本稿では,クローゼスタイルのプロンプトでマスク付き言語モデルに問い合わせ,監視信号を得る手法を提案する。 我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。 マスク言語モデルは[mask]トークンの単語を生成することができる。 文書の内容を要約した生成された単語を監視信号として利用することができる。 本稿では,生成した単語を予め定義されたカテゴリに関連づける単語分布学習者と,注釈付きデータを用いることなく文書分類器を同時に学習する潜在変数モデルを提案する。 AGNews, 20Newsgroups, UCINewsの3つのデータセットから, 本手法がベースラインを2%, 4%, 3%で上回る結果を得た。

Solving text classification in a weakly supervised manner is important for real-world applications where human annotations are scarce. In this paper, we propose to query a masked language model with cloze style prompts to obtain supervision signals. We design a prompt which combines the document itself and "this article is talking about [MASK]." A masked language model can generate words for the [MASK] token. The generated words which summarize the content of a document can be utilized as supervision signals. We propose a latent variable model to learn a word distribution learner which associates generated words to pre-defined categories and a document classifier simultaneously without using any annotated data. Evaluation on three datasets, AGNews, 20Newsgroups, and UCINews, shows that our method can outperform baselines by 2%, 4%, and 3%.
公開日:2022-05-13
翻訳日:2022-05-16 13:03:31
# LSCDiscovery:スペイン語における意味変化の発見と検出に関する共有タスク

LSCDiscovery: A shared task on semantic change discovery and detection in Spanish ( http://arxiv.org/abs/2205.06691v1 )

ライセンス: Link先を確認
Frank D. Zamora-Reina, Felipe Bravo-Marquez, Dominik Schlechtweg(参考訳) スペイン語における意味的変化の発見と検出に関する最初の共通タスクを提示し,durelフレームワーク(schlechtweg et al., 2018)を用いて,意味的変化を手作業でアノテートしたスペイン語単語のデータセットを作成する。 その仕事は2つの段階に分けられる。 1)段階的変化発見、及び 2)バイナリ変更検出。 新しい言語の導入に加えて、以前のタスクに対する主な新規性は、コーパス内のすべての語彙語の変化を予測し、評価することである。 6チームが第1相と第7相のフェーズ2に参加し、最も優れたシステムは第1相のスピアマンランク相関0.735、第2相のF1スコア0.716を得た。 競合するチームが開発したシステムについて述べ、特に有用であったテクニックを強調し、これらのアプローチの限界について議論する。

We present the first shared task on semantic change discovery and detection in Spanish and create the first dataset of Spanish words manually annotated for semantic change using the DURel framework (Schlechtweg et al., 2018). The task is divided in two phases: 1) Graded Change Discovery, and 2) Binary Change Detection. In addition to introducing a new language the main novelty with respect to the previous tasks consists in predicting and evaluating changes for all vocabulary words in the corpus. Six teams participated in phase 1 and seven teams in phase 2 of the shared task, and the best system obtained a Spearman rank correlation of 0.735 for phase 1 and an F1 score of 0.716 for phase 2. We describe the systems developed by the competing teams, highlighting the techniques that were particularly useful and discuss the limits of these approaches.
公開日:2022-05-13
翻訳日:2022-05-16 13:03:14
# MuCPAD: マルチドメインの中国述語文データセット

MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset ( http://arxiv.org/abs/2205.06703v1 )

ライセンス: Link先を確認
Yahui Liu and Haoping Yang and Chen Gong and Qingrong Xia and Zhenghua Li and Min Zhang(参考訳) 過去10年間、ニューラルネットワークモデルはドメイン内のセマンティックロールラベリング(SRL)に大きな進歩を遂げてきた。 しかし、ドメイン外設定でパフォーマンスは劇的に低下する。 クロスドメインSRLの研究を容易にするために,6つのドメインから30,897文と92,051述語からなる多ドメイン中国語述語データセット MuCPAD を提案する。 MuCPADには3つの重要な特徴がある。 1)フレームフリーなアノテーション手法に基づき,新しい述語に対する複雑なフレームの記述は避ける。 2) 内容語の省略は多分野の漢文においてユビキタスであることを考慮し, 省略された中核引数を明示的に注釈付けして, より完全な意味構造を復元する。 3) アノテーションガイドライン53ページをコンパイルし,データ品質向上のために厳格なダブルアノテーションを採用する。 本稿では,mucpadのアノテーション方法論とアノテーションプロセスの詳細を説明し,詳細なデータ分析を行う。 また,MUCPADに基づくクロスドメインSRLのベンチマーク結果を示す。

During the past decade, neural network models have made tremendous progress on in-domain semantic role labeling (SRL). However, performance drops dramatically under the out-of-domain setting. In order to facilitate research on cross-domain SRL, this paper presents MuCPAD, a multi-domain Chinese predicate-argument dataset, which consists of 30,897 sentences and 92,051 predicates from six different domains. MuCPAD exhibits three important features. 1) Based on a frame-free annotation methodology, we avoid writing complex frames for new predicates. 2) We explicitly annotate omitted core arguments to recover more complete semantic structure, considering that omission of content words is ubiquitous in multi-domain Chinese texts. 3) We compile 53 pages of annotation guidelines and adopt strict double annotation for improving data quality. This paper describes in detail the annotation methodology and annotation process of MuCPAD, and presents in-depth data analysis. We also give benchmark results on cross-domain SRL based on MuCPAD.
公開日:2022-05-13
翻訳日:2022-05-16 13:02:56
# 事前学習言語モデルの数値推論能力の向上

Improving the Numerical Reasoning Skills of Pretrained Language Models ( http://arxiv.org/abs/2205.06733v1 )

ライセンス: Link先を確認
Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) 最先端の事前訓練された言語モデルは、数に対する推論を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。 最近の研究は、(1)一般的なトークン化アルゴリズムが共通語に最適化されているため、数に対する表現性が制限されていること、(2)一般的な事前学習目的が数値推論や理解数字を全く対象としていないこと、の2つの主な理由を指摘している。 最近のアプローチでは、アーキテクチャの変更やモデルをスクラッチから事前トレーニングすることによって、通常はそれらを別々に扱う。 本稿では,アーキテクチャ変更やスクラッチからの事前学習を必要とせずに,両者の欠点を解決するための推論・アウェアプリトレーニングという,新たな拡張プリトレーニング手法を提案する。 コントラスト学習を用いて、すでに訓練済みのモデルに代替数表現を組み込むとともに、推論可能数予測タスクと呼ばれる新しい事前学習目標をトレーニングすることで、数値推論スキルを向上させる。 数値推論を必要とする3つのタスクに対する我々のアプローチを評価する。 (a)ドロップデータセットの理解を読み取ること。 b)InfoTabsデータセットにおける推論オンテーブル、および (c)WikiBioおよびSciGenデータセットのテーブル・ツー・テキスト生成。 DROPとInfoTabsによる結果から,これらのデータセットの精度は9.6ポイント,33.9ポイント向上した。 scigen と wikibio を用いた人間評価の結果,全データセットの事実的正確性が向上した。

State-of-the-art pretrained language models tend to perform below their capabilities when applied out-of-the-box on tasks that require reasoning over numbers. Recent work sees two main reasons for this: (1) popular tokenisation algorithms are optimized for common words, and therefore have limited expressiveness for numbers, and (2) common pretraining objectives do not target numerical reasoning or understanding numbers at all. Recent approaches usually address them separately and mostly by proposing architectural changes or pretraining models from scratch. In this paper, we propose a new extended pretraining approach called reasoning-aware pretraining to jointly address both shortcomings without requiring architectural changes or pretraining from scratch. Using contrastive learning, our approach incorporates an alternative number representation into an already pretrained model, while improving its numerical reasoning skills by training on a novel pretraining objective called inferable number prediction task. We evaluate our approach on three different tasks that require numerical reasoning, including (a) reading comprehension in the DROP dataset, (b) inference-on-tables in the InfoTabs dataset, and (c) table-to-text generation in WikiBio and SciGen datasets. Our results on DROP and InfoTabs show that our approach improves the accuracy by 9.6 and 33.9 points on these datasets, respectively. Our human evaluation on SciGen and WikiBio shows that our approach improves the factual correctness on all datasets.
公開日:2022-05-13
翻訳日:2022-05-16 13:02:40
# 人間の行動のモデル化 その2 --認知的アプローチと不確かさ

Modeling Human Behavior Part II -- Cognitive approaches and Uncertainty ( http://arxiv.org/abs/2205.06483v1 )

ライセンス: Link先を確認
Andrew Fuchs and Andrea Passarella and Marco Conti(参考訳) このトピックの第1部で論じたように、人間の行動をモデル化し理解したいという明確な願望があります。 学習と意思決定の標準としての人間の推論の一般的な前提を考えると、これらの生来の人間の能力を人工的なシステムで再現する研究の多大な努力と成長傾向がある。 第1部では,システムの探索から行動モデルを生成する学習手法と,その提示された行動に基づくフィードバックと,適用可能なスキルや他者の精神状態に対する信念の使用や説明に関する話題について議論した。 本研究は,人間の推論で示される認知能力,限界,バイアスに着目した手法の観点から議論を継続する。 これらのトピックを次のように整理します。 (i)認知的アーキテクチャ、認知的ヒューリスティックス、および認知的資源に対する制限の仮定とそれが意思決定にどのように影響するかを示す関連方法 二 偏見又は不確実性の表現を生成して活用し、人間の意思決定又は将来の意思決定の結果をモデル化する方法。

As we discussed in Part I of this topic, there is a clear desire to model and comprehend human behavior. Given the popular presupposition of human reasoning as the standard for learning and decision-making, there have been significant efforts and a growing trend in research to replicate these innate human abilities in artificial systems. In Part I, we discussed learning methods which generate a model of behavior from exploration of the system and feedback based on the exhibited behavior as well as topics relating to the use of or accounting for beliefs with respect to applicable skills or mental states of others. In this work, we will continue the discussion from the perspective of methods which focus on the assumed cognitive abilities, limitations, and biases demonstrated in human reasoning. We will arrange these topics as follows (i) methods such as cognitive architectures, cognitive heuristics, and related which demonstrate assumptions of limitations on cognitive resources and how that impacts decisions and (ii) methods which generate and utilize representations of bias or uncertainty to model human decision-making or the future outcomes of decisions.
公開日:2022-05-13
翻訳日:2022-05-16 13:02:16
# (参考訳) 複数のドメイン因果ネットワーク [全文訳有]

Multiple Domain Causal Networks ( http://arxiv.org/abs/2205.06791v1 )

ライセンス: CC BY 4.0
Tianhui Zhou, William E. Carson IV, Michael Hunter Klein, David Carlson(参考訳) 観察研究はランダム化試験の経済的代替品と見なされ、治療効果の調査や判定にしばしば使用される。 サンプルサイズが不足しているため、観測研究は通常、複数のソースまたは異なるサイト/センターからのデータを結合する。 サンプルサイズの増大にもかかわらず、多中心データの単純な組み合わせは、特定の中心とは異なる治療に対するコホートや反応を生成するセンター固有のプロトコルから生じる矛盾をもたらす可能性がある。 これらの問題は、個人の独特な生物学的特徴に関連する治療効果を捉えることを含む、様々な文脈で発生する。 既存の不均質な処理効果を推定する方法は多施設の文脈に十分対応していないが、単に十分なサンプルサイズを得るための手段として扱う。 さらに、治療効果を推定するための従来のアプローチは、特に新しい未観察センターから患者に治療の洞察を提供するために必要な場合、マルチセンター設計に直接一般化するものではない。 このような欠点に対処するため,複数ドメイン因果ネットワーク (MDCN) を提案する。これは,特徴埋め込みの学習を通じて,治療課題における選択バイアスに対処しながら,類似中心間の情報共有を同時に強化するアプローチである。 経験的評価では、MDCNは、治療不均衡や一般的なセンター差のみに基づいて調整されるベンチマークと比較して、新しいセンターにおける不均一な治療効果を推定するときに一貫して正確である。 最後に、MDCNが新しい観測対象中心の一般化境界を改善することを示す理論的解析を提供することにより、我々のアプローチを正当化する。

Observational studies are regarded as economic alternatives to randomized trials, often used in their stead to investigate and determine treatment efficacy. Due to lack of sample size, observational studies commonly combine data from multiple sources or different sites/centers. Despite the benefits of an increased sample size, a naive combination of multicenter data may result in incongruities stemming from center-specific protocols for generating cohorts or reactions towards treatments distinct to a given center, among other things. These issues arise in a variety of other contexts, including capturing a treatment effect related to an individual's unique biological characteristics. Existing methods for estimating heterogeneous treatment effects have not adequately addressed the multicenter context, but rather treat it simply as a means to obtain sufficient sample size. Additionally, previous approaches to estimating treatment effects do not straightforwardly generalize to the multicenter design, especially when required to provide treatment insights for patients from a new, unobserved center. To address these shortcomings, we propose Multiple Domain Causal Networks (MDCN), an approach that simultaneously strengthens the information sharing between similar centers while addressing the selection bias in treatment assignment through learning of a new feature embedding. In empirical evaluations, MDCN is consistently more accurate when estimating the heterogeneous treatment effect in new centers compared to benchmarks that adjust solely based on treatment imbalance or general center differences. Finally, we justify our approach by providing theoretical analyses that demonstrate that MDCN improves on the generalization bound of the new, unobserved target center.
公開日:2022-05-13
翻訳日:2022-05-16 13:01:17
# 多言語ttsによる発話顔生成

Talking Face Generation with Multilingual TTS ( http://arxiv.org/abs/2205.06421v1 )

ライセンス: Link先を確認
Hyoung-Kyu Song, Sang Hoon Woo, Junhyeok Lee, Seungmin Yang, Hyunjae Cho, Youseong Lee, Dongho Choi, Kang-wook Kim(参考訳) 本研究では,テキスト入力のみから多言語会話音声を生成できる音声合成システムと音声合成システムを組み合わせた共同システムを提案する。 本システムでは, 音声の同一性を維持しつつ, 自然な多言語音声を合成でき, 合成音声に同期した唇の動きも維持できる。 我々は,異なる言語族から4つの言語(韓国語,英語,日本語,中国語)を選択することで,システムの一般化能力を実証する。 また、話し顔生成モデルの出力と、多言語サポートを主張する以前の作業の出力を比較する。 デモでは、前処理ステージに翻訳apiを追加して、ニューラルネットワークのドバ形式で提示することで、ユーザがシステムの多言語特性をより簡単に利用できるようにしました。

In this work, we propose a joint system combining a talking face generation system with a text-to-speech system that can generate multilingual talking face videos from only the text input. Our system can synthesize natural multilingual speeches while maintaining the vocal identity of the speaker, as well as lip movements synchronized to the synthesized speech. We demonstrate the generalization capabilities of our system by selecting four languages (Korean, English, Japanese, and Chinese) each from a different language family. We also compare the outputs of our talking face generation model to outputs of a prior work that claims multilingual support. For our demo, we add a translation API to the preprocessing stage and present it in the form of a neural dubber so that users can utilize the multilingual property of our system more easily.
公開日:2022-05-13
翻訳日:2022-05-16 12:35:59
# 自然文を用いた言語モデルにおけるバイアス理解

Using Natural Sentences for Understanding Biases in Language Models ( http://arxiv.org/abs/2205.06303v1 )

ライセンス: Link先を確認
Sarah Alnegheimish, Alicia Guo, Yi Sun(参考訳) 言語モデルにおけるバイアスの評価は、しばしば合成されたデータセットに限られる。 この依存は、言語モデルの特定の振る舞いをトリガーするプロンプトスタイルのデータセットの必要性にさかのぼる。 本稿では,ウィキペディアに存在する実世界の自然文から収集した職業に関する素早いデータセットを作成することで,このギャップに対処する。 言語モデルにおけるジェンダー占有バイアスの研究において,テンプレートに基づくプロンプトと自然文プロンプトの違いを理解することを目的とする。 テンプレートプロンプトの設計選択には, バイアス評価が非常に敏感であることが分かり, 自然な文プロンプトを体系的な評価に用いて, バイアスを発生させる可能性のある設計選択から離れることを提案する。

Evaluation of biases in language models is often limited to synthetically generated datasets. This dependence traces back to the need for a prompt-style dataset to trigger specific behaviors of language models. In this paper, we address this gap by creating a prompt dataset with respect to occupations collected from real-world natural sentences present in Wikipedia. We aim to understand the differences between using template-based prompts and natural sentence prompts when studying gender-occupation biases in language models. We find bias evaluations are very sensitive to the design choices of template prompts, and we propose using natural sentence prompts for systematic evaluations to step away from design choices that could introduce bias in the observations.
公開日:2022-05-12
翻訳日:2022-05-16 12:35:47
# EUのソーシャル・メディア・プラットフォームに関するデジタル・サービス法施行のための法的コンプライアンス・APIの事例

The Case for a Legal Compliance API for the Enforcement of the EU's Digital Services Act on Social Media Platforms ( http://arxiv.org/abs/2205.06666v1 )

ライセンス: Link先を確認
Catalina Goanta, Thales Bertaglia, Adriana Iamnitchi(参考訳) 1年足らずの間に、欧州委員会はプラットフォームガバナンスに関する最も重要な規制提案をいくつか開始した。 この種のクロスセクター規制の背景にある委員会の目標は、市場や民主主義の保護である。 これらの法律はいずれも、新しい執行機関と手続きを確立するための高度なルールを提案しているが、ある側面ははっきりしない。 本論は、デジタルサービス法(DSA)に焦点をあて、デジタル施行を目的としたソーシャルメディアデータアクセスに関する問題に批判的に取り組むとともに、DSAへのコンプライアンスを促進する手段として、法的コンプライアンスアプリケーションプログラミングインターフェース(API)の使用を提案する。 この議論を文脈化するために、ソーシャルメディア利用者の特に脆弱なカテゴリーである子供に影響を及ぼすコンテンツ収益化から生じる害を実証する2つのシナリオを追求する。 この2つのシナリオは、データアクセスとDSAへの法的コンプライアンスに関する本質的な問題と、労働および消費者法分野におけるさらに適用可能な法的基準を反映するために使用される。

In the course of under a year, the European Commission has launched some of the most important regulatory proposals to date on platform governance. The Commission's goals behind cross-sectoral regulation of this sort include the protection of markets and democracies alike. While all these acts propose sophisticated rules for setting up new enforcement institutions and procedures, one aspect remains highly unclear: how digital enforcement will actually take place in practice. Focusing on the Digital Services Act (DSA), this discussion paper critically addresses issues around social media data access for the purpose of digital enforcement and proposes the use of a legal compliance application programming interface (API) as a means to facilitate compliance with the DSA and complementary European and national regulation. To contextualize this discussion, the paper pursues two scenarios that exemplify the harms arising out of content monetization affecting a particularly vulnerable category of social media users: children. The two scenarios are used to further reflect upon essential issues surrounding data access and legal compliance with the DSA and further applicable legal standards in the field of labour and consumer law.
公開日:2022-05-13
翻訳日:2022-05-16 12:35:35
# ヒト理解可能なニューラルモデルのための一様パラメトリック活性化関数

Uninorm-like parametric activation functions for human-understandable neural models ( http://arxiv.org/abs/2205.06547v1 )

ライセンス: Link先を確認
Orsolya Csisz\'ar, Luca S\'ara Pusztah\'azi, Lehel D\'enes-Fazakas, Michael S. Gashler, Vladik Kreinovich, G\'abor Csisz\'ar(参考訳) 入力特徴間の人間の理解可能な接続を見つけるための深層学習モデルを提案する。 提案手法は, 虚弱ファジィ論理とマルチ基準決定法(MCDM)の理論的背景に基づいて, パラメータ化・微分可能なアクティベーション関数を用いる。 学習可能なパラメータは、入力特徴間の補償レベルを示す意味意味を有する。 ニューラルネットワークは、勾配降下を用いたパラメータを決定し、入力特徴間の人間の理解可能な関係を見つける。 UCI Machine Learning Repositoryの分類問題に適用することで,モデルの有用性と有効性を示す。

We present a deep learning model for finding human-understandable connections between input features. Our approach uses a parameterized, differentiable activation function, based on the theoretical background of nilpotent fuzzy logic and multi-criteria decision-making (MCDM). The learnable parameter has a semantic meaning indicating the level of compensation between input features. The neural network determines the parameters using gradient descent to find human-understandable relationships between input features. We demonstrate the utility and effectiveness of the model by successfully applying it to classification problems from the UCI Machine Learning Repository.
公開日:2022-05-13
翻訳日:2022-05-16 12:35:16
# 知識グラフ埋め込みのためのクロネッカー分解

Kronecker Decomposition for Knowledge Graph Embeddings ( http://arxiv.org/abs/2205.06560v1 )

ライセンス: Link先を確認
Caglar Demir and Julian Lienen and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフ埋め込み研究は主にリンク予測問題に適した実体と関係の連続的な表現を学習することに焦点を当てている。 最近の結果は、ベンチマークデータセットに対する現在のアプローチの予測能力の増大を示している。 しかし、この効果はしばしば過パラメータ化と計算複雑性の増大によるコストが伴う。 前者は、悪意のあるオーバーフィッティングを軽減するために、広範なハイパーパラメータ最適化を誘導する。 後者は、ハードウェア宝くじに勝つことの重要性を拡大する。 ここでは,最初の問題に対する対策について検討する。 Kronecker分解に基づく手法を提案し,その表現性を保ちながら知識グラフ埋め込みモデルにおけるパラメータ数を削減する。 クロネッカー分解により、大きな埋め込み行列は訓練過程でより小さな埋め込み行列に分割される。 したがって、知識グラフの埋め込みは平易な検索ではなく、オンザフライで再構築される。 この分解は、3つの埋め込みベクトル間の要素的相互作用が各埋め込みベクトル内の相互作用によって拡張されることを保証する。 これにより、埋め込みベクトルの冗長性が暗黙的に減少し、機能の再利用が促進される。 Kronecker分解が埋め込み行列に与える影響を定量化するために、ベンチマークデータセット上で一連の実験を行う。 実験により,Kronecker分解を埋め込み行列に適用すると,全てのベンチマークデータセットのパラメータ効率が向上することが示唆された。 さらに、再構成された埋め込みは入力知識グラフにおける雑音に対する頑健性を伴うという実証的な証拠が示唆されている。 再現可能な研究を促進するため、我々は、知識グラフ埋め込みフレームワーク(https://github.com/ dice-group/dice-embe ddings)のトレーニングおよび評価スクリプト、事前学習されたモデルを含む、我々のアプローチのオープンソース実装を提供する。

Knowledge graph embedding research has mainly focused on learning continuous representations of entities and relations tailored towards the link prediction problem. Recent results indicate an ever increasing predictive ability of current approaches on benchmark datasets. However, this effectiveness often comes with the cost of over-parameterizatio n and increased computationally complexity. The former induces extensive hyperparameter optimization to mitigate malicious overfitting. The latter magnifies the importance of winning the hardware lottery. Here, we investigate a remedy for the first problem. We propose a technique based on Kronecker decomposition to reduce the number of parameters in a knowledge graph embedding model, while retaining its expressiveness. Through Kronecker decomposition, large embedding matrices are split into smaller embedding matrices during the training process. Hence, embeddings of knowledge graphs are not plainly retrieved but reconstructed on the fly. The decomposition ensures that elementwise interactions between three embedding vectors are extended with interactions within each embedding vector. This implicitly reduces redundancy in embedding vectors and encourages feature reuse. To quantify the impact of applying Kronecker decomposition on embedding matrices, we conduct a series of experiments on benchmark datasets. Our experiments suggest that applying Kronecker decomposition on embedding matrices leads to an improved parameter efficiency on all benchmark datasets. Moreover, empirical evidence suggests that reconstructed embeddings entail robustness against noise in the input knowledge graph. To foster reproducible research, we provide an open-source implementation of our approach, including training and evaluation scripts as well as pre-trained models in our knowledge graph embedding framework (https://github.com/ dice-group/dice-embe ddings).
公開日:2022-05-13
翻訳日:2022-05-16 12:35:06
# Bayesian HyperNetworks を用いた高速条件付きネットワーク圧縮

Fast Conditional Network Compression Using Bayesian HyperNetworks ( http://arxiv.org/abs/2205.06404v1 )

ライセンス: Link先を確認
Phuoc Nguyen, Truyen Tran, Ky Le, Sunil Gupta, Santu Rana, Dang Nguyen, Trong Nguyen, Shannon Ryan, and Svetha Venkatesh(参考訳) 条件付き圧縮問題を導入し,それに取り組むための高速フレームワークを提案する。 問題は、クラスの一部分だけを含むコンテキストや、限られた計算リソースしか利用できないコンテキストなど、ターゲットコンテキストが与えられた場合、トレーニング済みの大規模ニューラルネットワークを最適に小さなネットワークに迅速に圧縮する方法である。 そこで本研究では,与えられた大規模ネットワークをより小さいサイズに圧縮し,各文脈条件を満たす効率的なベイズフレームワークを提案する。 我々は,与えられた条件入力の重みの後方分布をパラメータ化し,ベイズニューラルネットワークの変動目標を最小化する。 ネットワークサイズをさらに小さくするため,新たに重みの入出力群疎度分解を行い,重みの疎度向上を図る。 提案手法は,ベースライン法よりもかなり小型の圧縮ネットワークを高速に生成できる。

We introduce a conditional compression problem and propose a fast framework for tackling it. The problem is how to quickly compress a pretrained large neural network into optimal smaller networks given target contexts, e.g. a context involving only a subset of classes or a context where only limited compute resource is available. To solve this, we propose an efficient Bayesian framework to compress a given large network into much smaller size tailored to meet each contextual requirement. We employ a hypernetwork to parameterize the posterior distribution of weights given conditional inputs and minimize a variational objective of this Bayesian neural network. To further reduce the network sizes, we propose a new input-output group sparsity factorization of weights to encourage more sparseness in the generated weights. Our methods can quickly generate compressed networks with significantly smaller sizes than baseline methods.
公開日:2022-05-13
翻訳日:2022-05-16 12:34:40
# 逆破壊を伴う線形文脈バンディットの近似最適アルゴリズム

Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial Corruptions ( http://arxiv.org/abs/2205.06811v1 )

ライセンス: Link先を確認
Jiafan He and Dongruo Zhou and Tong Zhang and Quanquan Gu(参考訳) 我々は,各ラウンドの報酬が敵意によって損なわれ,腐敗レベル(地平線上の汚職等級の合計)が$c\geq 0$である,敵対的汚職の存在下での直線的文脈的バンディット問題について検討した。 この設定における最もよく知られたアルゴリズムは、計算量的に非効率であるか、腐敗に対する強い仮定を必要とするか、または彼らの後悔が腐敗のない後悔よりも少なくとも$c$2であるという点で制限されている。 本稿では,これらの制約を克服するために,不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。 アルゴリズムの中核は重み付きリッジ回帰であり、選択された各アクションの重みは、その信頼度をしきい値まで依存する。 既知の$c$と未知の$c$ケースの両方において、ハイパーパラメーターを適切に選択したアルゴリズムは、下限にほぼ一致することを後悔する。 したがって、このアルゴリズムは両方の場合の対数係数にほぼ最適である。 特に, このアルゴリズムは, 破損事例と破損事例の両方に対して, ほぼ最適の後悔を同時に達成する(C=0$)。

We study the linear contextual bandit problem in the presence of adversarial corruption, where the reward at each round is corrupted by an adversary, and the corruption level (i.e., the sum of corruption magnitudes over the horizon) is $C\geq 0$. The best-known algorithms in this setting are limited in that they either are computationally inefficient or require a strong assumption on the corruption, or their regret is at least $C$ times worse than the regret without corruption. In this paper, to overcome these limitations, we propose a new algorithm based on the principle of optimism in the face of uncertainty. At the core of our algorithm is a weighted ridge regression where the weight of each chosen action depends on its confidence up to some threshold. We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds. Thus, our algorithm is nearly optimal up to logarithmic factors for both cases. Notably, our algorithm achieves the near-optimal regret for both corrupted and uncorrupted cases ($C=0$) simultaneously.
公開日:2022-05-13
翻訳日:2022-05-16 12:34:27
# StyLandGAN:depth-map を用いたスタイルGANに基づく景観画像合成

StyLandGAN: A StyleGAN based Landscape Image Synthesis using Depth-map ( http://arxiv.org/abs/2205.06611v1 )

ライセンス: Link先を確認
Gunhee Lee, Jonghwa Yim, Chanran Kim, Minjae Kim(参考訳) 近年の条件付き画像合成の成功にもかかわらず、セマンティクスやエッジといった一般的な入力条件は、'Linear (Ridges)'や'Planar (Scale)'表現を表現するには不十分である。 そこで本稿では,より表現力の高い深度マップを用いて所望の風景画像を合成する新しい枠組みであるstylandganを提案する。 StyleLandGANは、入力条件を受け入れるために、無条件生成モデルから拡張されます。 また, 多様な深度マップを生成し, 利用者の意図を容易に反映できるように, 局所的な部分を変更する「2相推論」パイプラインを提案する。 比較として,既存の意味的画像合成モデルを,奥行きマップも受け入れるように修正した。 実験の結果,本手法は品質,多様性,深さ精度において既存の手法よりも優れていることがわかった。

Despite recent success in conditional image synthesis, prevalent input conditions such as semantics and edges are not clear enough to express `Linear (Ridges)' and `Planar (Scale)' representations. To address this problem, we propose a novel framework StyLandGAN, which synthesizes desired landscape images using a depth map which has higher expressive power. Our StyleLandGAN is extended from the unconditional generation model to accept input conditions. We also propose a '2-phase inference' pipeline which generates diverse depth maps and shifts local parts so that it can easily reflect user's intend. As a comparison, we modified the existing semantic image synthesis models to accept a depth map as well. Experimental results show that our method is superior to existing methods in quality, diversity, and depth-accuracy.
公開日:2022-05-13
翻訳日:2022-05-16 12:34:06
# (参考訳) 人種、性別、交叉軸に沿ったヘイトスピーチデータの解析 [全文訳有]

Analyzing Hate Speech Data along Racial, Gender and Intersectional Axes ( http://arxiv.org/abs/2205.06621v1 )

ライセンス: CC BY-SA 4.0
Antonis Maronikolakis, Philip Baader, Hinrich Sch\"utze(参考訳) ヘイトスピーチの増大する現象に対処するため、データキュレーションと分析への取り組みが進められている。 バイアスの分析に関しては、以前の作業は主にレースに重点を置いています。 本研究では,人種,性別,交叉軸に沿ったヘイトスピーチデータセットのバイアスをさらに調査する。 我々は、アフリカ系アメリカ人英語(aae)、男性英語、男性英語(aae+男性)のツイートに対する強い偏見を識別する。 BERTベースのモデルは、このバイアスを伝播し、これらの保護属性のトレーニングデータのバランスが、性別に関してより公平なモデルに繋がることを示した。

To tackle the rising phenomenon of hate speech, efforts have been made towards data curation and analysis. When it comes to analysis of bias, previous work has focused predominantly on race. In our work, we further investigate bias in hate speech datasets along racial, gender and intersectional axes. We identify strong bias against African American English (AAE), masculine and AAE+Masculine tweets, which are annotated as disproportionately more hateful and offensive than from other demographics. We provide evidence that BERT-based models propagate this bias and show that balancing the training data for these protected attributes can lead to fairer models with regards to gender, but not race.
公開日:2022-05-13
翻訳日:2022-05-16 12:32:34
# 正規化事前学習による文脈表現の改善

Improving Contextual Representation with Gloss Regularized Pre-training ( http://arxiv.org/abs/2205.06603v1 )

ライセンス: Link先を確認
Yu Lin, Zhecheng An, Peihao Wu, Zejun Ma(参考訳) 多くのNLPタスクにおいて印象的な結果が得られるが、BERTのようなマスク付き言語モデル(MLM)は事前学習と推論の相違に遭遇する。 このギャップを考慮して,単語確率分布の観点から,事前学習と推論の文脈的表現について検討する。 bertは,事前学習における文脈的単語類似性を無視するリスクがあることを見出した。 そこで本研究では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。 マスクされた単語を予測し、対応する用語にコンテキスト埋め込みを同時に調整することで、単語の類似性を明示的にモデル化することができる。 GR-BERTのための2つのアーキテクチャを設計し、下流タスクでモデルを評価する。 実験の結果,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。 GR-BERTは、語彙置換タスクにおける新しい最先端処理を実現し、教師なしタスクと教師なしSTSタスクの両方においてBERT文表現を大幅に促進する。

Though achieving impressive results on many NLP tasks, the BERT-like masked language models (MLM) encounter the discrepancy between pre-training and inference. In light of this gap, we investigate the contextual representation of pre-training and inference from the perspective of word probability distribution. We discover that BERT risks neglecting the contextual word similarity in pre-training. To tackle this issue, we propose an auxiliary gloss regularizer module to BERT pre-training (GR-BERT), to enhance word semantic similarity. By predicting masked words and aligning contextual embeddings to corresponding glosses simultaneously, the word similarity can be explicitly modeled. We design two architectures for GR-BERT and evaluate our model in downstream tasks. Experimental results show that the gloss regularizer benefits BERT in word-level and sentence-level semantic representation. The GR-BERT achieves new state-of-the-art in lexical substitution task and greatly promotes BERT sentence representation in both unsupervised and supervised STS tasks.
公開日:2022-05-13
翻訳日:2022-05-16 12:19:50
# The Devil is in the details: On the Pitfalls of Vocabulary Selection in Neural Machine Translation

The Devil is in the Details: On the Pitfalls of Vocabulary Selection in Neural Machine Translation ( http://arxiv.org/abs/2205.06618v1 )

ライセンス: Link先を確認
Tobias Domhan, Eva Hasler, Ke Tran, Sony Trenous, Bill Byrne, Felix Hieber(参考訳) 語彙選択(英: vocabulary selection、英: lexical shortlisting)は、推論中に許容される単語の集合を制限することによって、ニューラルネットワークの翻訳モデルのレイテンシを改善するためのよく知られた手法である。 選択された集合は、通常、推論時のソース・センテンスコンテキストとは無関係に、個別に訓練されたアライメントモデルパラメータによって決定される。 語彙選択は,先行作業における自動品質指標と競合するように見えるが,特に慣用的表現のような意味論的に非複合的な言語現象に対して,適切な出力語群を選択することができず,人間の認識する翻訳品質が低下することを示す。 許可されたセットのサイズを増やすことで品質の遅延を排除することは、現実のシナリオではオプションではないことが多い。 本稿では,文脈化されたエンコーダ表現から許容される単語の集合を予測するニューラル翻訳モデルに統合した語彙選択モデルを提案する。 これにより、WMTニューステスト2020と慣用表現による人による評価により、アライメントに基づくアライメント選択と積極的なしきい値を用いた競合する推論遅延において、制約のないシステムの翻訳品質を復元し、個別に訓練されたアライメントモデルへの依存を除去する。

Vocabulary selection, or lexical shortlisting, is a well-known technique to improve latency of Neural Machine Translation models by constraining the set of allowed output words during inference. The chosen set is typically determined by separately trained alignment model parameters, independent of the source-sentence context at inference time. While vocabulary selection appears competitive with respect to automatic quality metrics in prior work, we show that it can fail to select the right set of output words, particularly for semantically non-compositional linguistic phenomena such as idiomatic expressions, leading to reduced translation quality as perceived by humans. Trading off latency for quality by increasing the size of the allowed set is often not an option in real-world scenarios. We propose a model of vocabulary selection, integrated into the neural translation model, that predicts the set of allowed output words from contextualized encoder representations. This restores translation quality of an unconstrained system, as measured by human evaluations on WMT newstest2020 and idiomatic expressions, at an inference latency competitive with alignment-based selection using aggressive thresholds, thereby removing the dependency on separately trained alignment models.
公開日:2022-05-13
翻訳日:2022-05-16 12:19:33
# オブジェクト認識表現を用いた多目的シーンの視覚運動制御

Visuomotor Control in Multi-Object Scenes Using Object-Aware Representations ( http://arxiv.org/abs/2205.06333v1 )

ライセンス: Link先を確認
Negin Heravi, Ayzaan Wahid, Corey Lynch, Pete Florence, Travis Armstrong, Jonathan Tompson, Pierre Sermanet, Jeannette Bohg, Debidatta Dwibedi(参考訳) ロボット作業の完了には,シーンの知覚的理解と異なるコンポーネント間の関係が重要である。 表現学習は、このために強力なテクニックであることが示されているが、現在の方法論のほとんどは、必ずしも他のタスクにうまく移行しないタスク固有の表現を学ぶ。 さらに、教師付き手法で学習した表現は、現実世界で収集するのに高価なタスクごとに大きなラベル付きデータセットを必要とする。 ラベルのないデータから表現を得るために自己教師付き学習を使用することで、この問題を軽減できる。 しかし,現状の自己教師型表現学習法は対象非依存であり,多くのコンポーネントを持つシーンの複雑さを捉えるのに失敗するため,汎用ロボティクスタスクでは表現が不十分であることを示す。 本稿では,ロボット作業におけるオブジェクト指向表現学習の有効性について検討する。 我々の自己監督表現は、エージェントが環境の異なる部分と自由に相互作用するのを観察して学習し、2つの異なる設定でクエリされる。 (i)政策学習及び (ii)オブジェクトの位置予測。 提案モデルでは,サンプル効率のよい制御ポリシを学習し,最先端のオブジェクト非依存技術や生のRGB画像で訓練された手法よりも優れていることを示す。 その結果、暗黙的行動クローニング(IBC)を用いた政策訓練において、低データ体制(1000トラジェクトリ)のパフォーマンスは20%向上した。 さらに,本手法は,多目的シーンにおけるオブジェクトローカライゼーションタスクのベースラインよりも優れる。

Perceptual understanding of the scene and the relationship between its different components is important for successful completion of robotic tasks. Representation learning has been shown to be a powerful technique for this, but most of the current methodologies learn task specific representations that do not necessarily transfer well to other tasks. Furthermore, representations learned by supervised methods require large labeled datasets for each task that are expensive to collect in the real world. Using self-supervised learning to obtain representations from unlabeled data can mitigate this problem. However, current self-supervised representation learning methods are mostly object agnostic, and we demonstrate that the resulting representations are insufficient for general purpose robotics tasks as they fail to capture the complexity of scenes with many components. In this paper, we explore the effectiveness of using object-aware representation learning techniques for robotic tasks. Our self-supervised representations are learned by observing the agent freely interacting with different parts of the environment and is queried in two different settings: (i) policy learning and (ii) object location prediction. We show that our model learns control policies in a sample-efficient manner and outperforms state-of-the-art object agnostic techniques as well as methods trained on raw RGB images. Our results show a 20 percent increase in performance in low data regimes (1000 trajectories) in policy training using implicit behavioral cloning (IBC). Furthermore, our method outperforms the baselines for the task of object localization in multi-object scenes.
公開日:2022-05-12
翻訳日:2022-05-16 12:19:08
# インド語ocrのためのctcモデルに関する実証的研究

An empirical study of CTC based models for OCR of Indian languages ( http://arxiv.org/abs/2205.06740v1 )

ライセンス: Link先を確認
Minesh Mathew and CV Jawahar(参考訳) サブワードセグメンテーションを必要とせず、単語や線画像上のテキストの認識は、インド語のテキスト認識の研究や開発において主流となっている。 Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRの最も一般的なアプローチである。 本研究では、CTCを用いて、ニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換する様々なニューラルネットワークモデルに関する総合的な実証的研究を示す。 この研究は13のインド語で行われ、1つの言語に約1000ページのデータセットが組み込まれている。 認識単位としての線対単語の選択とモデル学習のための合成データの利用について検討した。 当社のモデルは、エンドツーエンドのドキュメント画像認識のための一般的なocrツールと比較します。 認識モデルと既存のテキストセグメンテーションツールを使用したエンドツーエンドパイプラインは、13言語中8言語でこれらの公開OCRツールより優れています。 また,インド語で単語と行の認識を行うために,mozhiと呼ばれる新しい公開データセットも導入する。 データセットには13のインド語言語にわたる120万以上の注釈付き単語画像(120万行)が含まれている。 私たちのコード、トレーニングされたモデル、mozhiデータセットはhttp://cvit.iiit.ac. in/research/projects /cvit-projects/で利用可能になります。

Recognition of text on word or line images, without the need for sub-word segmentation has become the mainstream of research and development of text recognition for Indian languages. Modelling unsegmented sequences using Connectionist Temporal Classification (CTC) is the most commonly used approach for segmentation-free OCR. In this work we present a comprehensive empirical study of various neural network models that uses CTC for transcribing step-wise predictions in the neural network output to a Unicode sequence. The study is conducted for 13 Indian languages, using an internal dataset that has around 1000 pages per language. We study the choice of line vs word as the recognition unit, and use of synthetic data to train the models. We compare our models with popular publicly available OCR tools for end-to-end document image recognition. Our end-to-end pipeline that employ our recognition models and existing text segmentation tools outperform these public OCR tools for 8 out of the 13 languages. We also introduce a new public dataset called Mozhi for word and line recognition in Indian language. The dataset contains more than 1.2 million annotated word images (120 thousand text lines) across 13 Indian languages. Our code, trained models and the Mozhi dataset will be made available at http://cvit.iiit.ac. in/research/projects /cvit-projects/
公開日:2022-05-13
翻訳日:2022-05-16 12:18:46
# (参考訳) 時系列予測のための効率的な自動ディープラーニング [全文訳有]

Efficient Automated Deep Learning for Time Series Forecasting ( http://arxiv.org/abs/2205.05511v2 )

ライセンス: CC BY 4.0
Difan Deng, Florian Karl, Frank Hutter, Bernd Bischl, Marius Lindauer(参考訳) 近年、自動機械学習(automl)、特に自動ディープラーニング(autodl)システムの効率が大幅に向上しているが、最近の研究は表型、画像、nlpのタスクに焦点を当てている。 これまでのところ、こうしたタスクに異なる新しいアーキテクチャを適用する大きな成功にもかかわらず、時系列予測のための一般的なAutoDLフレームワークにはほとんど注意が払われていない。 本稿では,時系列予測のためのデータ処理パイプライン全体のニューラルアーキテクチャとハイパーパラメータの協調最適化のための効率的な手法を提案する。 一般的なnas検索空間とは対照的に、我々は様々な最先端アーキテクチャをカバーする新しいニューラルネットワーク検索空間を設計し、様々なdlアプローチで効率的なマクロ検索を可能にした。 このような大きな構成空間を効率的に探索するために,マルチフィデリティ最適化を伴うベイズ最適化を用いる。 異なる予測データセット上で効率の良い多重忠実度最適化を実現するために,様々な予算タイプを実証的に検討する。 さらに,提案システムであるauto-pytorch-tsをいくつかの確立されたベースラインと比較し,複数のデータセットで比較した。

Recent years have witnessed tremendously improved efficiency of Automated Machine Learning (AutoML), especially Automated Deep Learning (AutoDL) systems, but recent work focuses on tabular, image, or NLP tasks. So far, little attention has been paid to general AutoDL frameworks for time series forecasting, despite the enormous success in applying different novel architectures to such tasks. In this paper, we propose an efficient approach for the joint optimization of neural architecture and hyperparameters of the entire data processing pipeline for time series forecasting. In contrast to common NAS search spaces, we designed a novel neural architecture search space covering various state-of-the-art architectures, allowing for an efficient macro-search over different DL approaches. To efficiently search in such a large configuration space, we use Bayesian optimization with multi-fidelity optimization. We empirically study several different budget types enabling efficient multi-fidelity optimization on different forecasting datasets. Furthermore, we compared our resulting system, dubbed Auto-PyTorch-TS, against several established baselines and show that it significantly outperforms all of them across several datasets.
公開日:2022-05-13
翻訳日:2022-05-16 11:27:00
# (参考訳) 質問によるビデオ検索の学習 [全文訳有]

Learning to Retrieve Videos by Asking Questions ( http://arxiv.org/abs/2205.05739v2 )

ライセンス: CC BY 4.0
Avinash Madasu, Junier Oliva, Gedas Bertasius(参考訳) 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作する。 これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。 この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。 このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。 マルチモーダル質問生成器は i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と (ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。 さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guid ed supervisor)を提案する。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。 さらに,提案手法は実際の人間との相互作用を含む現実世界の環境にも一般化し,枠組みの堅牢性や汎用性を実証する。

The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. This can be suboptimal if the initial query has ambiguities, which would lead to many falsely retrieved videos. To overcome this limitation, we propose a novel framework for Video Retrieval using Dialog (ViReD), which enables the user to interact with an AI agent via multiple rounds of dialog. The key contribution of our framework is a novel multimodal question generator that learns to ask questions that maximize the subsequent video retrieval performance. Our multimodal question generator uses (i) the video candidates retrieved during the last round of interaction with the user and (ii) the text-based dialog history documenting all previous interactions, to generate questions that incorporate both visual and linguistic cues relevant to video retrieval. Furthermore, to generate maximally informative questions, we propose an Information-Guided Supervision (IGS), which guides the question generator to ask questions that would boost subsequent video retrieval accuracy. We validate the effectiveness of our interactive ViReD framework on the AVSD dataset, showing that our interactive method performs significantly better than traditional non-interactive video retrieval systems. Furthermore, we also demonstrate that our proposed approach also generalizes to the real-world settings that involve interactions with real humans, thus, demonstrating the robustness and generality of our framework
公開日:2022-05-13
翻訳日:2022-05-16 11:02:22
# (参考訳) MEWS:リアルタイムソーシャルメディア操作検出と分析 [全文訳有]

MEWS: Real-time Social Media Manipulation Detection and Analysis ( http://arxiv.org/abs/2205.05783v2 )

ライセンス: CC BY 4.0
Trenton W. Ford, William Theisen, Michael Yankoski, Tom Henry, Farah Khashman, Katherine R. Dearstyne and Tim Weninger(参考訳) 本稿ではMEWS(Misinformation Early Warning System)のベータバージョンについて述べる。 ソーシャルメディアプラットフォーム上に出現し拡散するソーシャルメディアイメージ間の関係を、ほぼリアルタイムで判断するために使用される、摂取、操作検出、グラフ化アルゴリズムの様々な側面について記述する。 これらの様々な技術を単一の処理パイプラインに組み合わせることで、MEWSは操作されたメディアアイテムを発生時に識別し、特定のアイテムが個々のソーシャルメディアプラットフォーム、あるいは複数のプラットフォーム上でトレンドになり始めたときを特定することができる。 操作されたコンテンツの急速な拡散に続く新しい操作の出現は、偽情報キャンペーンを示唆している。

This article presents a beta-version of MEWS (Misinformation Early Warning System). It describes the various aspects of the ingestion, manipulation detection, and graphing algorithms employed to determine--in near real-time--the relationships between social media images as they emerge and spread on social media platforms. By combining these various technologies into a single processing pipeline, MEWS can identify manipulated media items as they arise and identify when these particular items begin trending on individual social media platforms or even across multiple platforms. The emergence of a novel manipulation followed by rapid diffusion of the manipulated content suggests a disinformation campaign.
公開日:2022-05-13
翻訳日:2022-05-16 10:46:36
# F3A-GAN:生成対向ネットワークを用いた顔アニメーションのための顔の流れ

F3A-GAN: Facial Flow for Face Animation with Generative Adversarial Networks ( http://arxiv.org/abs/2205.06204v2 )

ライセンス: Link先を確認
Xintian Wu, Qihang Zhang, Yiming Wu, Huanyu Wang, Songyuan Li, Lingyun Sun, and Xi Li(参考訳) 条件生成問題として定式化された顔アニメーションは、条件付き顔の動きによって駆動される単一の音源画像から連続顔画像を合成することを目的としている。 以前の作品は、顔の動きを1dまたは2d表現(アクションユニット、感情コード、ランドマークなど)の条件としてモデル化しており、これはしばしば、連続生成や大規模変換のような複雑なシナリオで品質の低い結果をもたらす。 この問題に対処するために、条件は運動情報保存と幾何学的連続性という2つの要件を満たすことが求められる。 そこで本研究では,人間の顔の自然な動きを表現するために,顔の流れと呼ばれる3次元幾何学的流れに基づく新しい表現を提案する。 他の条件と比較して,提案手法では顔の連続的な変化を良好に制御できる。 その後、顔の編集に顔フローを利用するため、条件付き顔フローを伴う連続画像を生成する合成フレームワークを構築する。 顔フローの動作情報を完全に活用するために, 画像から抽出した複数スケールの外観特徴と, フローから抽出した動き特徴とを階層的に結合する階層的条件付き枠組みを考案した。 フレームワークは複数の融合した機能を徐々にイメージにデコードする。 実験の結果,本手法は他の最先端手法と比較して有効性が示された。

Formulated as a conditional generation problem, face animation aims at synthesizing continuous face images from a single source image driven by a set of conditional face motion. Previous works mainly model the face motion as conditions with 1D or 2D representation (e.g., action units, emotion codes, landmark), which often leads to low-quality results in some complicated scenarios such as continuous generation and largepose transformation. To tackle this problem, the conditions are supposed to meet two requirements, i.e., motion information preserving and geometric continuity. To this end, we propose a novel representation based on a 3D geometric flow, termed facial flow, to represent the natural motion of the human face at any pose. Compared with other previous conditions, the proposed facial flow well controls the continuous changes to the face. After that, in order to utilize the facial flow for face editing, we build a synthesis framework generating continuous images with conditional facial flows. To fully take advantage of the motion information of facial flows, a hierarchical conditional framework is designed to combine the extracted multi-scale appearance features from images and motion features from flows in a hierarchical manner. The framework then decodes multiple fused features back to images progressively. Experimental results demonstrate the effectiveness of our method compared to other state-of-the-art methods.
公開日:2022-05-13
翻訳日:2022-05-16 10:40:50
# 点雲の表面表現

Surface Representation for Point Clouds ( http://arxiv.org/abs/2205.05740v2 )

ライセンス: Link先を確認
Haoxi Ran, Jun Liu, Chengjie Wang(参考訳) ほとんどの先行研究は座標による点雲の形状を表している。 しかし、局所幾何学を直接記述するには不十分である。 本稿では, 点雲の局所構造を記述する新しい表現である, \textbf{RepSurf} (representative surfaces) を提案する。 我々は,三角形メッシュに触発されたrepsurf,三角形repsurf,傘repsurfの2つの変種と,コンピュータグラフィックスにおける傘曲率について検討した。 RepSurfの表現は、表面再構成後の予め定義された幾何学的先行値によって計算する。 repsurfは、不規則な点との無償のコラボレーションにより、ほとんどのポイントクラウドモデルのためのプラグアンドプレイモジュールとなる。 PointNet++(SSGバージョン)のシンプルなベースラインに基づいて、Umbrella RepSurfは、パフォーマンスと効率の観点から、さまざまなベンチマークの分類、セグメンテーション、検出において、これまでの最先端をはるかに上回っている。 パラメータの約 \textbf{0.008M} , \textbf{0.04G} FLOPs および \textbf{1.12ms} の推論時間の増加に伴い,ModelNet40では \textbf{94.7\%} (+0.5\%) , ScanObjectNNでは \textbf{84.6\%} (+1.8\%) , S3DIS 6-foldでは \textbf{74.3\%} (+0.8\%) mIoU, ScanNetでは \textb{70.0\%} (+1.6\%) mIoU が得られる。 検出のために、RepSurf を用いた過去の最先端検出器は、ScanNetV2 上で \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$, SUN RGB-D 上で \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$を得る。 私たちの軽量なTriangular RepSurfは、これらのベンチマークでも優れた性能を発揮しています。 コードは \url{https://github.com/h ancyran/RepSurf} で公開されている。

Most prior work represents the shapes of point clouds by coordinates. However, it is insufficient to describe the local geometry directly. In this paper, we present \textbf{RepSurf} (representative surfaces), a novel representation of point clouds to \textbf{explicitly} depict the very local structure. We explore two variants of RepSurf, Triangular RepSurf and Umbrella RepSurf inspired by triangle meshes and umbrella curvature in computer graphics. We compute the representations of RepSurf by predefined geometric priors after surface reconstruction. RepSurf can be a plug-and-play module for most point cloud models thanks to its free collaboration with irregular points. Based on a simple baseline of PointNet++ (SSG version), Umbrella RepSurf surpasses the previous state-of-the-art by a large margin for classification, segmentation and detection on various benchmarks in terms of performance and efficiency. With an increase of around \textbf{0.008M} number of parameters, \textbf{0.04G} FLOPs, and \textbf{1.12ms} inference time, our method achieves \textbf{94.7\%} (+0.5\%) on ModelNet40, and \textbf{84.6\%} (+1.8\%) on ScanObjectNN for classification, while \textbf{74.3\%} (+0.8\%) mIoU on S3DIS 6-fold, and \textbf{70.0\%} (+1.6\%) mIoU on ScanNet for segmentation. For detection, previous state-of-the-art detector with our RepSurf obtains \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$ on ScanNetV2, and \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$ on SUN RGB-D. Our lightweight Triangular RepSurf performs its excellence on these benchmarks as well. The code is publicly available at \url{https://github.com/h ancyran/RepSurf}.
公開日:2022-05-13
翻訳日:2022-05-16 10:40:26
# 深層学習BERTモデルとTVP-VARモデルに基づく中国の投資家感情・株式市場流動性・ボラティリティの経時変化に関する研究

A time-varying study of Chinese investor sentiment, stock market liquidity and volatility: Based on deep learning BERT model and TVP-VAR model ( http://arxiv.org/abs/2205.05719v2 )

ライセンス: Link先を確認
Chenrui Zhang, Xinyi Wu, Hailu Deng, Huiwei Zhang(参考訳) 2018年1月1日から2019年12月31日まで、イーストモニーのウェブサイトにある深セン株指数バーの注釈データに基づいて。 本稿では,深層学習bertモデルを用いて組込み投資家感情を抽出し,tvp-varモデルを用いて投資感情,株式市場流動性,ボラティリティの時間的変動関係について検討する。 その結果、投資家の感情が株式市場の流動性とボラティリティに与える影響が強くなっている。 逆効果は比較的小さいが、株式市場の状態とともにより発音される。 いずれの場合も、反応は短期的には中長期よりも顕著であり、その影響は非対称であり、市場が下向きの渦巻状態にある場合には衝撃が強くなる。

Based on the commentary data of the Shenzhen Stock Index bar on the EastMoney website from January 1, 2018 to December 31, 2019. This paper extracts the embedded investor sentiment by using a deep learning BERT model and investigates the time-varying linkage between investment sentiment, stock market liquidity and volatility using a TVP-VAR model. The results show that the impact of investor sentiment on stock market liquidity and volatility is stronger. Although the inverse effect is relatively small, it is more pronounced with the state of the stock market. In all cases, the response is more pronounced in the short term than in the medium to long term, and the impact is asymmetric, with shocks stronger when the market is in a downward spiral.
公開日:2022-05-13
翻訳日:2022-05-16 10:39:23
# kNN-Embed:多目的候補検索のためのローカルな平滑な埋め込みミックス

kNN-Embed: Locally Smoothed Embedding Mixtures For Multi-interest Candidate Retrieval ( http://arxiv.org/abs/2205.06205v2 )

ライセンス: Link先を確認
Ahmed El-Kishky, Thomas Markovich, Kenny Leung, Frank Portman, Aria Haghighi, Ying Xiao(参考訳) 候補生成はレコメンデーションシステムにおける第1段階であり、入力ユーザに対して潜在的に関連するアイテムを取得するために軽量システムを使用する。 これらの候補項目は、より複雑なランキングモデルを用いて、リコメンデータシステムの後半段階でランク付けされ、刈り取られる。 候補生成はレコメンデーションファンネルの最上位であるため、下流ランキングモデルにフィードするハイリコール候補セットを検索することが重要である。 候補生成の一般的なアプローチは、単一の高密度クエリ埋め込みから近い近傍(ANN)探索を活用することであるが、このアプローチは、多くの近い重複を持つ低多様性の結果をもたらす可能性がある。 ユーザが複数の関心を持つことが多いため、候補検索は、ユーザの複数の関心を反映した多様な候補セットを理想的に返すべきである。 そこで我々は,高密度ANN検索における多様性向上のための一般的なアプローチであるkNN-Embedを紹介する。 kNN-Embedは、各ユーザを学習アイテムクラスタ上のスムーズな混合として表現し、ユーザの‘関心’を区別する。 各ユーザの混合成分をそれぞれの混合重みに比例してクエリすることにより、ユーザの関心事から要素を反映する候補の多様性の高い集合を検索する。 knn-embed と標準 ann 候補検索を実験的に比較し、3 つのデータセット間の全体的なリコールとダイバーシティの改善を示す。 この作業を伴って、当社は大規模なTwitterフォローグラフデータセットをオープンソース化し、レコメンダシステムのためのグラフマイニングと表現学習のさらなる研究を促進する。

Candidate generation is the first stage in recommendation systems, where a light-weight system is used to retrieve potentially relevant items for an input user. These candidate items are then ranked and pruned in later stages of recommender systems using a more complex ranking model. Since candidate generation is the top of the recommendation funnel, it is important to retrieve a high-recall candidate set to feed into downstream ranking models. A common approach for candidate generation is to leverage approximate nearest neighbor (ANN) search from a single dense query embedding; however, this approach this can yield a low-diversity result set with many near duplicates. As users often have multiple interests, candidate retrieval should ideally return a diverse set of candidates reflective of the user's multiple interests. To this end, we introduce kNN-Embed, a general approach to improving diversity in dense ANN-based retrieval. kNN-Embed represents each user as a smoothed mixture over learned item clusters that represent distinct `interests' of the user. By querying each of a user's mixture component in proportion to their mixture weights, we retrieve a high-diversity set of candidates reflecting elements from each of a user's interests. We experimentally compare kNN-Embed to standard ANN candidate retrieval, and show significant improvements in overall recall and improved diversity across three datasets. Accompanying this work, we open source a large Twitter follow-graph dataset, to spur further research in graph-mining and representation learning for recommender systems.
公開日:2022-05-13
翻訳日:2022-05-16 10:39:07
# (参考訳) 変圧器におけるデータ分散特性の創発的Few-Shot学習 [全文訳有]

Data Distributional Properties Drive Emergent Few-Shot Learning in Transformers ( http://arxiv.org/abs/2205.05055v2 )

ライセンス: CC BY 4.0
Stephanie C.Y. Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh, Pierre H. Richemond, Jay McClelland, Felix Hill(参考訳) 大規模なトランスフォーマーベースの言語モデルは、明示的にトレーニングされることなく、少数ショット学習(インコンテキスト学習とも呼ばれる)を行うことができる。 自然言語の特定の分布特性は、これらの特徴が、数発メタトレーニング(迅速な数発学習を促すために設計された)と標準教師付きトレーニング(段階的インウェイト学習を引き出すために設計された)のある種の補間に繋がる可能性があるため、この創発的な現象を引き起こす可能性があると仮定した。 また,これらの分布特性が言語以外の領域における創発的少数発学習につながると仮定した。 このアイデアに触発されて、私たちは標準的なイメージベースの少数ショットデータセットで一連の実験を行いました。 多くのデータ特性が、トランスフォーマーモデルにおける数発の学習の出現を促進することを発見した。 これらの特性はすべて自然言語で存在します -- バーストネス、ロングテールネス、多対多ラベルマッピングなどです。 このデータは、モデルが数ショットの学習に偏っているか、重みの情報を記憶しているかに影響を与えている。 しかし、この2つの機能は、クラス上のスキューでZipfianの分布である同じモデルで共存することができ、言語でも同様に発生する可能性があることが判明した。 特に、トランスフォーマーの少数ショット学習を誘発するトレーニングデータは、リカレントモデルにおける少数ショット学習を誘発することができなかった。 結論として、適切なデータ分散に適切なアーキテクチャを適用することでのみ、わずかなショット学習が生まれるということが分かりました。

Large transformer-based language models are able to perform few-shot learning (also known as in-context learning), without having been explicitly trained for it. We hypothesized that specific distributional properties of natural language might drive this emergent phenomenon, as these characteristics might lead to a kind of interpolation between few-shot meta-training (designed to elicit rapid few-shot learning) and standard supervised training (designed to elicit gradual in-weights learning). We also hypothesized that these distributional properties could lead to emergent few-shot learning in domains outside of language. Inspired by this idea, we ran a series of experiments on a standard image-based few-shot dataset. We discovered that a number of data properties did indeed promote the emergence of few-shot learning in transformer models. All of these properties are present in natural language -- burstiness, long-tailedness, and many-to-one or one-to-many label mappings. The data influenced whether models were biased towards either few-shot learning vs. memorizing information in their weights; models could generally perform well at only one or the other. However, we discovered that an additional distributional property could allow the two capabilities to co-exist in the same model -- a skewed, Zipfian distribution over classes -- which occurs in language as well. Notably, training data that could elicit few-shot learning in transformers were unable to elicit few-shot learning in recurrent models. In sum, we find that few-shot learning emerges only from applying the right architecture to the right data distribution; neither component is sufficient on its own.
公開日:2022-05-12
翻訳日:2022-05-16 02:16:38
# (参考訳) セキュアな分散/フェデレーション学習:マルチエージェントシステムのための予測・生産性トレードオフ [全文訳有]

Secure Distributed/Federate d Learning: Prediction-Privacy Trade-Off for Multi-Agent System ( http://arxiv.org/abs/2205.04855v1 )

ライセンス: CC BY 4.0
Mohamed Ridha Znaidi, Gaurav Gupta, Paul Bogdan(参考訳) 分散学習は、複数の有界コンピューティングエージェントの計算能力を高めるための効率的な新興パラダイムである。 分散および連合学習(dlおよびfl)フレームワーク内で推論を実行するビッグデータ時代において、中央サーバは、複数の分散トレーニングタスクを実行するためにさまざまなエージェントに依存しながら、大量のデータを処理する必要がある。 分散コンピューティングトポロジを考えると、プライバシは第一級の関心事になっている。 さらに、エージェントの限られた情報処理能力を仮定すると、効率的な計算を保証する高度な \textit{privacy-preserving decentralization} が要求される。 この目的に向けて,分散プライベートフェデレーション学習(dpfl)アプローチによるグローバル端末に関するエージェントが受信した情報メッセージを,プライバシを保ちながら,各エージェントに関連する情報処理制約の対象となる問題である \textit{privacy-aware server to multi-agent assignment} について検討する。 2エージェントシステムの分散化スキームを見つけるために,各エージェントの圧縮制約の質を考慮して,プライバシと精度のバランスをとる最適化問題を定式化する。 自己整合方程式を交互に解く反復収束アルゴリズムを提案する。 また,プライバシー保護のトレードオフを示すための提案手法を数値的に評価し,DLとFLのプライバシー確保に新たなアプローチの有効性を示す。

Decentralized learning is an efficient emerging paradigm for boosting the computing capability of multiple bounded computing agents. In the big data era, performing inference within the distributed and federated learning (DL and FL) frameworks, the central server needs to process a large amount of data while relying on various agents to perform multiple distributed training tasks. Considering the decentralized computing topology, privacy has become a first-class concern. Moreover, assuming limited information processing capability for the agents calls for a sophisticated \textit{privacy-preserving decentralization} that ensures efficient computation. Towards this end, we study the \textit{privacy-aware server to multi-agent assignment} problem subject to information processing constraints associated with each agent, while maintaining the privacy and assuring learning informative messages received by agents about a global terminal through the distributed private federated learning (DPFL) approach. To find a decentralized scheme for a two-agent system, we formulate an optimization problem that balances privacy and accuracy, taking into account the quality of compression constraints associated with each agent. We propose an iterative converging algorithm by alternating over self-consistent equations. We also numerically evaluate the proposed solution to show the privacy-prediction trade-off and demonstrate the efficacy of the novel approach in ensuring privacy in DL and FL.
公開日:2022-04-24
翻訳日:2022-05-16 01:59:37
# (参考訳) テキストに基づく感情検出のレビュー --技術,アプリケーション,データセット,今後の方向性-

A Review on Text-Based Emotion Detection -- Techniques, Applications, Datasets, and Future Directions ( http://arxiv.org/abs/2205.03235v1 )

ライセンス: CC BY 4.0
Sheetal Kusal, Shruti Patil, Jyoti Choudrie, Ketan Kotecha, Deepali Vora, Ilias Pappas(参考訳) 人工知能(AI)は、データを処理して意思決定し、人間と対話し、感情や感情を理解するために使われてきた。 インターネットが出現すると、人々は日々の活動や、テキストメッセージングアプリケーションによるグローバルおよびローカルイベントについての考えを共有し、表現する。 したがって、機械が意見、フィードバック、テキスト対話の感情を理解することは、今日のオンライン世界のユーザに対して感情に敏感な応答を提供するために不可欠である。 テキストベースの感情検出(TBED)の分野は、ビジネスや財務など、さまざまなアプリケーションに自動化されたソリューションを提供しようとしている。 TBEDは近年多くの注目を集めている。 本稿では,2005年から2021年までのTBEDにおける既存の文献の体系的な文献レビューについて述べる。 このレビューでは、ieee、science direct、scopus、web of science databaseの63の研究論文を精査し、4つの主要な研究課題に対処した。 また、TBEDの様々な研究領域における様々な応用をレビューし、その利用を強調している。 様々な感情モデル、技法、特徴抽出方法、データセット、今後の方向性に関する研究課題の概観も提示されている。

Artificial Intelligence (AI) has been used for processing data to make decisions, interact with humans, and understand their feelings and emotions. With the advent of the internet, people share and express their thoughts on day-to-day activities and global and local events through text messaging applications. Hence, it is essential for machines to understand emotions in opinions, feedback, and textual dialogues to provide emotionally aware responses to users in today's online world. The field of text-based emotion detection (TBED) is advancing to provide automated solutions to various applications, such as businesses, and finances, to name a few. TBED has gained a lot of attention in recent times. The paper presents a systematic literature review of the existing literature published between 2005 to 2021 in TBED. This review has meticulously examined 63 research papers from IEEE, Science Direct, Scopus, and Web of Science databases to address four primary research questions. It also reviews the different applications of TBED across various research domains and highlights its use. An overview of various emotion models, techniques, feature extraction methods, datasets, and research challenges with future directions has also been represented.
公開日:2022-04-26
翻訳日:2022-05-16 01:46:23
# (参考訳) 風力タービンギアボックスの故障時予測のためのディジタルツインフレームワーク:概念 [全文訳有]

Digital Twin Framework for Time to Failure Forecasting of Wind Turbine Gearbox: A Concept ( http://arxiv.org/abs/2205.03513v1 )

ライセンス: CC BY 4.0
Mili Wadhwani, Sakshi Deshmukh, Harsh S. Dhiman(参考訳) 風力タービンは複雑な機械であり、回転・非回転装置は故障に敏感である。 摩耗や裂け目の増加により、風力タービンの保守性は極めて重要である。 風力タービンの部品が予期せぬ故障によりo\&mコストが増大し、最終的に風力発電所の有効電力を削減できる。 風力タービンの故障検出は、10分間のサンプル間隔で時系列形式で風力発電事業者から利用可能なSCADAデータで補足されることが多い。 さらに、時系列分析とデータ表現は、風力タービンのような複雑な機械の動的過程をより深く把握するための強力なツールとなっている。 風力タービンscadaデータは、通常、ギアボックスオイル温度、ギアボックスベアリング温度、ナセル温度、ローター速度、アクティブパワーなどの変数を持つ多変量時系列として利用可能である。 本稿では,予測モジュールがリアルタイムSCADAデータによって継続的に更新される風力タービンギヤボックスの故障予測のためのディジタルツインの概念について議論し,風力発電事業者に有意義な洞察を与える。

Wind turbine is a complex machine with its rotating and non-rotating equipment being sensitive to faults. Due to increased wear and tear, the maintenance aspect of a wind turbine is of critical importance. Unexpected failure of wind turbine components can lead to increased O\&M costs which ultimately reduces effective power capture of a wind farm. Fault detection in wind turbines is often supplemented with SCADA data available from wind farm operators in the form of time-series format with a 10-minute sample interval. Moreover, time-series analysis and data representation has become a powerful tool to get a deeper understating of the dynamic processes in complex machinery like wind turbine. Wind turbine SCADA data is usually available in form of a multivariate time-series with variables like gearbox oil temperature, gearbox bearing temperature, nacelle temperature, rotor speed and active power produced. In this preprint, we discuss the concept of a digital twin for time to failure forecasting of the wind turbine gearbox where a predictive module continuously gets updated with real-time SCADA data and generates meaningful insights for the wind farm operator.
公開日:2022-04-28
翻訳日:2022-05-16 01:35:39
# (参考訳) ビームフォーミングCSI計測による5Gmm波位置決めのためのCNN手法 [全文訳有]

A CNN Approach for 5G mmWave Positioning Using Beamformed CSI Measurements ( http://arxiv.org/abs/2205.03236v1 )

ライセンス: CC BY 4.0
Ghazaleh Kia, Laura Ruotsalainen, Jukka Talvitie(参考訳) 人工知能(AI)の出現は、人間の生活のあらゆる側面に影響を与えた。 AI影響の具体的な例の1つは、無線位置決めで見ることができる。 本稿では,ビームフォーマドチャネル状態情報(CSI)からなる5Gニューラジオ(NR)指紋を用いて,畳み込みニューラルネットワーク(CNN)を訓練することにより,AIのパワーを初めて活用する。 CSIを観察することにより、送信機と受信機との間のマルチパスチャネルを特徴付けることができ、ユーザ機器(UE)の位置を見つけるための時空間データの優れたソースを提供することができる。 都市部からレイトレーシングによる5G NR CSIを収集する。 1つの基地局(BS)からの信号のCSIデータは、既知の位置の基準地点で収集され、CNNを訓練する。 テストによって仕事を評価するのです a) 同じ基準点上の新しい測定値の位置を推定するための訓練されたネットワークの堅牢性 b) ueが基準点以外の点上にある間、cnnに基づく位置推定の精度。 その結果, 特定都市環境を対象としたトレーニングネットワークでは, 平均誤差0.98mでUE位置を推定できることがわかった。

The advent of Artificial Intelligence (AI) has impacted all aspects of human life. One of the concrete examples of AI impact is visible in radio positioning. In this article, for the first time we utilize the power of AI by training a Convolutional Neural Network (CNN) using 5G New Radio (NR) fingerprints consisting of beamformed Channel State Information (CSI). By observing CSI, it is possible to characterize the multipath channel between the transmitter and the receiver, and thus provide a good source of spatiotemporal data to find the position of a User Equipment (UE). We collect ray-tracing-based 5G NR CSI from an urban area. The CSI data of the signals from one Base Station (BS) is collected at the reference points with known positions to train a CNN. We evaluate our work by testing: a) the robustness of the trained network for estimating the positions for the new measurements on the same reference points and b) the accuracy of the CNN-based position estimation while the UE is on points other than the reference points. The results prove that our trained network for a specific urban environment can estimate the UE position with a minimum mean error of 0.98 m.
公開日:2022-04-30
翻訳日:2022-05-16 01:32:34
# (参考訳) リモートセンシングデータを用いた都市水消費の理解 [全文訳有]

Understanding Urban Water Consumption using Remotely Sensed Data ( http://arxiv.org/abs/2205.02932v1 )

ライセンス: CC BY 4.0
Shaswat Mohanty, Anirudh Vijay, Shailesh Deshpande(参考訳) 都市代謝は、都市部からの排出と資源消費を推定する研究の活発な分野である。 この分析は、エレガントな機械学習アルゴリズムを実装することで、手動で実施することができる。 本研究は,衛星画像で捉えた地域の建物による水消費量を推定するものである。 この目的のために、分析を3つの部分に分けます。 一 衛星画像が与えられ、次に続く建物画素の識別 二 建物の種類(居住/非居住)を建物画素から識別し、最後 三 都道府県の調査結果から得られた建物の種類別に、建物ピクセルとそれらのタイプを用いて、単位面積当たりの平均水消費量を推定すること。

Urban metabolism is an active field of research that deals with the estimation of emissions and resource consumption from urban regions. The analysis could be carried out through a manual surveyor by the implementation of elegant machine learning algorithms. In this exploratory work, we estimate the water consumption by the buildings in the region captured by satellite imagery. To this end, we break our analysis into three parts: i) Identification of building pixels, given a satellite image, followed by ii) identification of the building type (residential/non-res idential) from the building pixels, and finally iii) using the building pixels along with their type to estimate the water consumption using the average per unit area consumption for different building types as obtained from municipal surveys.
公開日:2022-05-03
翻訳日:2022-05-16 01:22:13
# 主観的耳鳴診断のための側面認識メタラーニング

Side-aware Meta-Learning for Cross-Dataset Listener Diagnosis with Subjective Tinnitus ( http://arxiv.org/abs/2205.03231v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Molly Lucas, Jessica J.M.Monaghan, and Yu Zhang(参考訳) デジタル技術の発展により、機械学習は次世代のティンニタス診断への道を開いた。 機械学習はEEGベースのチニタス分析に広く応用されているが、現在のモデルのほとんどはデータセット固有のものである。 各データセットは、特定の種類の症状、全体的な病気の重症度、人口統計属性に限定される可能性がある。 本稿では,異なるデータ収集プロセスから発散年齢,性別の被験者に対して,効果的にチンニタスを分類できる,クロスデータセット・ティンニタス診断のための側面認識メタラーニングを提案する。 メタ学習の優位性のため,本手法は従来のディープラーニングモデルのような大規模データセットに依存しない。 さらに,異なる患者や健常者のデータパターンを適合させるために,モデル支援のための主題別トレーニングプロセスをデザインする。 本手法は,クロスデータセット分類において73.8 %の精度を実現する。 本研究では,耳の側面情報によるモデル性能の向上と,学習特徴の質向上における側面認識メタラーニングの効果を広範囲に分析する。

With the development of digital technology, machine learning has paved the way for the next generation of tinnitus diagnoses. Although machine learning has been widely applied in EEG-based tinnitus analysis, most current models are dataset-specific. Each dataset may be limited to a specific range of symptoms, overall disease severity, and demographic attributes; further, dataset formats may differ, impacting model performance. This paper proposes a side-aware meta-learning for cross-dataset tinnitus diagnosis, which can effectively classify tinnitus in subjects of divergent ages and genders from different data collection processes. Owing to the superiority of meta-learning, our method does not rely on large-scale datasets like conventional deep learning models. Moreover, we design a subject-specific training process to assist the model in fitting the data pattern of different patients or healthy people. Our method achieves a high accuracy of 73.8\% in the cross-dataset classification. We conduct an extensive analysis to show the effectiveness of side information of ears in enhancing model performance and side-aware meta-learning in improving the quality of the learned features.
公開日:2022-05-03
翻訳日:2022-05-16 01:14:54
# 0.5kb深層学習モデルによるセンサ歩行位相検出のリアルタイム化

Real Time On Sensor Gait Phase Detection with 0.5KB Deep Learning Model ( http://arxiv.org/abs/2205.03234v1 )

ライセンス: Link先を確認
Yi-An Chen, Jien-De Sui and Tian-Sheuan Chang(参考訳) 畳み込みニューラルネットワークによる歩行位相検出は、正確な分類を提供するが、高い計算コストを必要とするため、リアルタイムの低電力オンセンサー処理を阻害する。 本稿では,0.5KBのモデルサイズと毎秒67Kの操作しか必要とせず,95.9%の精度でセンサマイクロコントローラに制限された資源に容易に適用可能なセグメント化に基づく歩行位相検出手法を提案する。

Gait phase detection with convolution neural network provides accurate classification but demands high computational cost, which inhibits real time low power on-sensor processing. This paper presents a segmentation based gait phase detection with a width and depth downscaled U-Net like model that only needs 0.5KB model size and 67K operations per second with 95.9% accuracy to be easily fitted into resource limited on sensor microcontroller.
公開日:2022-05-02
翻訳日:2022-05-16 01:14:36
# 心電図深層学習による経時的死亡率の予測

Electrocardiographic Deep Learning for Predicting Post-Procedural Mortality ( http://arxiv.org/abs/2205.03242v1 )

ライセンス: Link先を確認
David Ouyang, John Theurer, Nathan R. Stein, J. Weston Hughes, Pierre Elias, Bryan He, Neal Yuan, Grant Duffy, Roopinder K. Sandhu, Joseph Ebinger, Patrick Botting, Melvin Jujjavarapu, Brian Claggett, James E. Tooley, Tim Poterucha, Jonathan H. Chen, Michael Nurok, Marco Perez, Adler Perotte, James Y. Zou, Nancy R. Cook, Sumeet S. Chugh, Susan Cheng and Christine M. Albert(参考訳) 背景。 臨床で使用される術前のリスクアセスメントは、術後死亡のリスクを特定する能力に制限がある。 心電図には術後死亡の診断に役立つ隠れた危険マーカーが含まれていると仮定する。 メソッド。 45,969人の術前患者の導出コホート(59歳以上19歳,55%女性)において,術前心電図からの波形信号を利用して術後死亡を判別する深層学習アルゴリズムを開発した。 モデル性能は, 内部テストデータセットと2つの外部病院コホートを用いて評価し, 改訂心リスク指標(RCRI)と比較した。 結果だ コホートでは1,452人が死亡した。 このアルゴリズムはAUCが0.83(95% CI 0.79-0.87)、AUCが0.67(CI 0.61-0.72)、RCRIが0.67(95% CI 0.79-0.87)と判定する。 深層学習モデルのリスク予測によりリスクが高いと判定された患者は、術後死亡率8.83 (5.57-13.20)、または術後死亡率2.08 (ci 0.77-3.50)の2。 深層学習アルゴリズムは、AUC0.85(CI 0.77-0.92)、AUC0.83(0.79-0.88)、AUC0.76(0.72-0.81)によるカテーテル化・内視鏡化手術と同じような方法で心臓手術を行った。 このアルゴリズムは、それぞれ0.79 (0.75-0.83) と 0.75 (0.74-0.76) の独立した医療システムから2つの独立した外部検証コホートで死亡リスクを識別した。 結論だ 本研究は, 術前心電図に応用した新しい深層学習アルゴリズムを用いて, 術後死亡率の判定を改善できることを示す。

Background. Pre-operative risk assessments used in clinical practice are limited in their ability to identify risk for post-operative mortality. We hypothesize that electrocardiograms contain hidden risk markers that can help prognosticate post-operative mortality. Methods. In a derivation cohort of 45,969 pre-operative patients (age 59+- 19 years, 55 percent women), a deep learning algorithm was developed to leverage waveform signals from pre-operative ECGs to discriminate post-operative mortality. Model performance was assessed in a holdout internal test dataset and in two external hospital cohorts and compared with the Revised Cardiac Risk Index (RCRI) score. Results. In the derivation cohort, there were 1,452 deaths. The algorithm discriminates mortality with an AUC of 0.83 (95% CI 0.79-0.87) surpassing the discrimination of the RCRI score with an AUC of 0.67 (CI 0.61-0.72) in the held out test cohort. Patients determined to be high risk by the deep learning model's risk prediction had an unadjusted odds ratio (OR) of 8.83 (5.57-13.20) for post-operative mortality as compared to an unadjusted OR of 2.08 (CI 0.77-3.50) for post-operative mortality for RCRI greater than 2. The deep learning algorithm performed similarly for patients undergoing cardiac surgery with an AUC of 0.85 (CI 0.77-0.92), non-cardiac surgery with an AUC of 0.83 (0.79-0.88), and catherization or endoscopy suite procedures with an AUC of 0.76 (0.72-0.81). The algorithm similarly discriminated risk for mortality in two separate external validation cohorts from independent healthcare systems with AUCs of 0.79 (0.75-0.83) and 0.75 (0.74-0.76) respectively. Conclusion. The findings demonstrate how a novel deep learning algorithm, applied to pre-operative ECGs, can improve discrimination of post-operative mortality.
公開日:2022-04-30
翻訳日:2022-05-16 01:14:25
# てんかん発作の予測を支援する多チャンネル合成前脳波信号

Multichannel Synthetic Preictal EEG Signals to Enhance the Prediction of Epileptic Seizures ( http://arxiv.org/abs/2205.03239v1 )

ライセンス: Link先を確認
Yankun Xu, Jie Yang, and Mohamad Sawan(参考訳) てんかんは、世界中の16%の人に影響を及ぼす慢性神経疾患であり、ディープラーニング(DL)アルゴリズムに基づく脳波解析により、正確なてんかん発作(ES)予測が可能となり、てんかんに苦しむ患者に利益をもたらす。 発作発生前の前頭葉領域を特定するには、DLアルゴリズムのトレーニングには多数の注釈付き脳波信号が必要である。 しかし、発作の発症頻度が低いため、DLアルゴリズムを訓練するデータは非常に不十分である。 このデータ不足を克服するため,本稿では,合成マルチチャネルEEGプリシタルサンプルを生成するために,生成逆数ネットワークに基づくプリシタル人工信号合成アルゴリズムを提案する。 視覚的および統計的評価によって決定される高品質のシングルチャネルアーキテクチャを用いて、マルチチャネルサンプルの生成を訓練する。 また, ES予測性能を, 合成前駆体試料増量なしで比較することにより, 合成試料の有効性を評価した。 受信機動作特性曲線評価における余剰一精算クロス検証es予測精度と対応する面積は,それぞれ73.0\%,0.676から78.0\%,0.704で10$\times$合成試料増量により改善した。 その結果, 合成プレクタル試料はES予測性能の向上に有効であることが示唆された。

Epilepsy is a chronic neurological disorder affecting 1\% of people worldwide, deep learning (DL) algorithms-based electroencephalograp h (EEG) analysis provides the possibility for accurate epileptic seizure (ES) prediction, thereby benefiting patients suffering from epilepsy. To identify the preictal region that precedes the onset of seizure, a large number of annotated EEG signals are required to train DL algorithms. However, the scarcity of seizure onsets leads to significant insufficiency of data for training the DL algorithms. To overcome this data insufficiency, in this paper, we propose a preictal artificial signal synthesis algorithm based on a generative adversarial network to generate synthetic multichannel EEG preictal samples. A high-quality single-channel architecture, determined by visual and statistical evaluations, is used to train the generators of multichannel samples. The effectiveness of the synthetic samples is evaluated by comparing the ES prediction performances without and with synthetic preictal sample augmentation. The leave-one-seizure-ou t cross validation ES prediction accuracy and corresponding area under the receiver operating characteristic curve evaluation improve from 73.0\% and 0.676 to 78.0\% and 0.704 by 10$\times$ synthetic sample augmentation, respectively. The obtained results indicate that synthetic preictal samples are effective for enhancing ES prediction performance.
公開日:2022-04-29
翻訳日:2022-05-16 01:13:48
# 超高感度フレキシブルスポンジセンサアレイによる筋活動検出とヒト肢運動認識

Ultra-sensitive Flexible Sponge-Sensor Array for Muscle Activities Detection and Human Limb Motion Recognition ( http://arxiv.org/abs/2205.03238v1 )

ライセンス: Link先を確認
Jiao Suo, Yifan Liu, Clio Cheng, Keer Wang, Meng Chen, Ho-yin Chan, Roy Vellaisamy, Ning Xi, Vivian W. O. Lou, and Wen Jung Li(参考訳) ヒト肢の運動追跡と認識は、医療リハビリテーショントレーニング、下肢補助、アンプの補綴設計、補助ロボットのフィードバック制御などにおいて重要な役割を担っている。 慣性センサー、表面筋電計、柔軟な歪み/圧力センサーなど、軽量なウェアラブルセンサーは、次世代のモーションキャプチャデバイスになることを約束している。 そこで本研究では, 16チャンネルのフレキシブルスポンジ型圧力センサアレイを用いて, ふくらはぎ腹筋活動によるヒト皮膚の輪郭を検知し, 様々な下肢運動を認識する無線ウェアラブルデバイスを提案する。 それぞれのセンシング素子は、直径4mm、厚さ約400.mu}mの薄いカーボンナノチューブ/ポリジメチルシロキサンナノコンポジットの丸い多孔質構造である。 3名の被験者が、開発した装置を装着しながら10種類の下肢運動を行うように雇われた。 支持ベクトルマシン法による動作分類結果は、テストされた10つの動作すべてに対して約94.48%のマクロリコールを示す。 本研究は、下肢動作認識アプリケーションを備えた携帯型ウェアラブル筋活動検出装置を実証し、補助ロボット制御、医療、スポーツ監視等に使用することができることを示した。

Human limb motion tracking and recognition plays an important role in medical rehabilitation training, lower limb assistance, prosthetics design for amputees, feedback control for assistive robots, etc. Lightweight wearable sensors, including inertial sensors, surface electromyography sensors, and flexible strain/pressure, are promising to become the next-generation human motion capture devices. Herein, we present a wireless wearable device consisting of a sixteen-channel flexible sponge-based pressure sensor array to recognize various human lower limb motions by detecting contours on the human skin caused by calf gastrocnemius muscle actions. Each sensing element is a round porous structure of thin carbon nanotube/polydimethy lsiloxane nanocomposites with a diameter of 4 mm and thickness of about 400 {\mu}m. Three human subjects were recruited to perform ten different lower limb motions while wearing the developed device. The motion classification result with the support vector machine method shows a macro-recall of about 94.48% for all ten motions tested. This work demonstrates a portable wearable muscle activity detection device with a lower limb motion recognition application, which can be potentially used in assistive robot control, healthcare, sports monitoring, etc.
公開日:2022-04-30
翻訳日:2022-05-16 01:13:21
# 信号エネルギーを用いたTMS-EEG摂動指数の特徴:アルツハイマー病分類の初期研究

Characterizing TMS-EEG perturbation indexes using signal energy: initial study on Alzheimer's Disease classification ( http://arxiv.org/abs/2205.03241v1 )

ライセンス: Link先を確認
Alexandra-Maria Tautan, Elias Casula, Ilaria Borghi, Michele Maiella, Sonia Bonni, Marilena Minei, Martina Assogna, Bogdan Ionescu, Giacomo Koch and Emiliano Santarnecchi(参考訳) 経頭蓋磁気刺激(TMS)と脳波記録(TMS-EEG)を組み合わせることで、脳、特にアルツハイマー病(AD)の研究に大きな可能性を示した。 本研究では,脳機能の変化を反映した電位指標として,脳波信号のTMS誘発摂動の持続時間を自動的に決定する手法を提案する。 アルツハイマー病(AD)患者を対象に予備研究を行った。 TMS誘発脳波(TEP)活動の強度と持続時間を測定するための3つの指標を提案し,AD患者を健常者から同定する可能性を検討した。 分析には,17例と17例の健康管理(hc)を用いたtms-eeg記録のデータセットを用いた。 抽出されたtepメトリクスに基づいてランダムフォレスト分類アルゴリズムを訓練し,その性能をlet-one-subject-outクロスバリデーションで評価した。 作成されたモデルでは、AD患者をHCからそれぞれ69.32%、72.23%、66.41%の精度で同定する有望な結果が得られた。

Transcranial Magnetic Stimulation (TMS) combined with EEG recordings (TMS-EEG) has shown great potential in the study of the brain and in particular of Alzheimer's Disease (AD). In this study, we propose an automatic method of determining the duration of TMS induced perturbation of the EEG signal as a potential metric reflecting the brain's functional alterations. A preliminary study is conducted in patients with Alzheimer's disease (AD). Three metrics for characterizing the strength and duration of TMS evoked EEG (TEP) activity are proposed and their potential in identifying AD patients from healthy controls was investigated. A dataset of TMS-EEG recordings from 17 AD and 17 healthy controls (HC) was used in our analysis. A Random Forest classification algorithm was trained on the extracted TEP metrics and its performance is evaluated in a leave-one-subject-ou t cross-validation. The created model showed promising results in identifying AD patients from HC with an accuracy, sensitivity and specificity of 69.32%, 72.23% and 66.41%, respectively.
公開日:2022-04-29
翻訳日:2022-05-16 01:12:59
# 課題は残っていない: 学生評価向上のための知識追跡とオプション追跡のマルチタスク学習

No Task Left Behind: Multi-Task Learning of Knowledge Tracing and Option Tracing for Better Student Assessment ( http://arxiv.org/abs/2204.14006v1 )

ライセンス: Link先を確認
Suyeong An, Junghoon Kim, Minsam Kim and Juneyoung Park(参考訳) 学生評価はAI教育(AIEd)分野における最も基本的な課題の1つである。 学生評価における最も一般的なアプローチの1つは、学生が与えられた質問に正しく答えるかどうかを予測することによって、学生の知識状態を評価する知識追跡(KT)である。 しかし、複数の選択(多義性)質問の文脈では、従来のKTアプローチは二進的(二元的)正当性ラベル(すなわち正しいか間違っているか)しか考慮せず、学生が選択した特定の選択肢を無視している。 一方、オプショントラクション(OT)は、与えられた質問に対してどの選択肢を選択するかを予測することによって、学生をモデル化しようとするが、正確性情報を見落としている。 本稿では,KTとOTを組み合わせたマルチタスク学習フレームワークであるDichotomous-Polytomo us Multi-Task Learning (DP-MTL)を提案する。 特に,DP-MTL フレームワークにおける OT の正規化用語として KT が機能することを示し,既存の深層学習に基づく KT モデル上に本手法を適用するための適切なアーキテクチャを提案する。 DP-MTL は KT と OT の両方の性能を著しく向上させるとともに,スコア予測 (SP) などの下流処理にも有効であることを確認した。

Student assessment is one of the most fundamental tasks in the field of AI Education (AIEd). One of the most common approach to student assessment is Knowledge Tracing (KT), which evaluates a student's knowledge state by predicting whether the student will answer a given question correctly or not. However, in the context of multiple choice (polytomous) questions, conventional KT approaches are limited in that they only consider the binary (dichotomous) correctness label (i.e., correct or incorrect), and disregard the specific option chosen by the student. Meanwhile, Option Tracing (OT) attempts to model a student by predicting which option they will choose for a given question, but overlooks the correctness information. In this paper, we propose Dichotomous-Polytomo us Multi-Task Learning (DP-MTL), a multi-task learning framework that combines KT and OT for more precise student assessment. In particular, we show that the KT objective acts as a regularization term for OT in the DP-MTL framework, and propose an appropriate architecture for applying our method on top of existing deep learning-based KT models. We experimentally confirm that DP-MTL significantly improves both KT and OT performances, and also benefits downstream tasks such as Score Prediction (SP).
公開日:2022-04-08
翻訳日:2022-05-16 01:11:16
# 生体インスパイアされたニューロン適応はニューラルネットワークの学習を改善する

Biologically-inspire d neuronal adaptation improves learning in neural networks ( http://arxiv.org/abs/2204.14008v1 )

ライセンス: Link先を確認
Yoshimasa Kubo, Eric Chalmers, Artur Luczak(参考訳) 人間は依然として多くのタスクで人工ニューラルネットワークを上回っているため、脳からインスピレーションを得て、現在の機械学習アルゴリズムを改善するのに役立つかもしれない。 Contrastive Hebbian Learning (CHL) と Equilibrium Propagation (EP) は、局所情報のみを用いて重みを更新する生物学的に妥当なアルゴリズムである。 本研究では,神経細胞の刺激に対するニューロンの応答を短時間で調節する適応効果に触発されて,chlとepを調節適応で拡張した。 我々は、MNISTとCIFAR-10で訓練された多層パーセプトロンと畳み込みニューラルネットワークにこの適応機能を付加する。 驚いたことに、これらのネットワークの性能は改善された。 このアイデアの生物学的なインスピレーションについて論じ,学習の安定性と正確性を改善する上で,なぜニューロン適応が重要な脳機構になるのかを検討する。

Since humans still outperform artificial neural networks on many tasks, drawing inspiration from the brain may help to improve current machine learning algorithms. Contrastive Hebbian Learning (CHL) and Equilibrium Propagation (EP) are biologically plausible algorithms that update weights using only local information (without explicitly calculating gradients) and still achieve performance comparable to conventional backpropagation. In this study, we augmented CHL and EP with Adjusted Adaptation, inspired by the adaptation effect observed in neurons, in which a neuron's response to a given stimulus is adjusted after a short time. We add this adaptation feature to multilayer perceptrons and convolutional neural networks trained on MNIST and CIFAR-10. Surprisingly, adaptation improved the performance of these networks. We discuss the biological inspiration for this idea and investigate why Neuronal Adaptation could be an important brain mechanism to improve the stability and accuracy of learning.
公開日:2022-04-08
翻訳日:2022-05-16 01:10:50
# エッジTPU上でのオンデバイスMLのための効率的なニューラルネットワークの探索

Searching for Efficient Neural Architectures for On-Device ML on Edge TPUs ( http://arxiv.org/abs/2204.14007v1 )

ライセンス: Link先を確認
Berkin Akin, Suyog Gupta, Yun Long, Anton Spiridonov, Zhuo Wang, Marie White, Hao Xu, Ping Zhou, Yanqi Zhou(参考訳) オンデバイスMLアクセラレータは、現代のモバイルシステムオンチップ(SoC)において標準になっている。 neural architecture search (nas)は、これらのアクセラレータによって提供される高い計算スループットを効率的に利用するために救助される。 しかし、既存のNASフレームワークは、複数のタスクと異なるターゲットプラットフォームへのスケーリングにおいて、いくつかの実用的な制限がある。 本研究では,この課題に対する2つのアプローチを提案します。 一 モデルコスト評価、検索空間設計及びNASアルゴリズムを分離し、様々なデバイス上でのMLタスクを迅速にターゲットするNAS対応基盤 (II)グループ畳み込みに基づく逆ボトルネック(IBN)による探索空間は、MLアクセラレーター上で柔軟な品質/性能トレードオフを提供し、既存の完全および深度畳み込みに基づくISNを補完する。 このアプローチを使用することで、最先端のモバイルプラットフォームであるGoogle Tensor SoCをターゲットとし、さまざまなコンピュータビジョン(分類、検出、セグメンテーション)や自然言語処理タスクのクオリティ-パフォーマンスのパレートフロンティアを改善するニューラルネットワークを実証する。

On-device ML accelerators are becoming a standard in modern mobile system-on-chips (SoC). Neural architecture search (NAS) comes to the rescue for efficiently utilizing the high compute throughput offered by these accelerators. However, existing NAS frameworks have several practical limitations in scaling to multiple tasks and different target platforms. In this work, we provide a two-pronged approach to this challenge: (i) a NAS-enabling infrastructure that decouples model cost evaluation, search space design, and the NAS algorithm to rapidly target various on-device ML tasks, and (ii) search spaces crafted from group convolution based inverted bottleneck (IBN) variants that provide flexible quality/performance trade-offs on ML accelerators, complementing the existing full and depthwise convolution based IBNs. Using this approach we target a state-of-the-art mobile platform, Google Tensor SoC, and demonstrate neural architectures that improve the quality-performance pareto frontier for various computer vision (classification, detection, segmentation) as well as natural language processing tasks.
公開日:2022-04-09
翻訳日:2022-05-16 01:10:30
# 物理インフォームドニューラルネットワーク(PINN)を用いた2次元土壌固化予測のための深層学習手法

A Deep Learning Approach for Predicting Two-dimensional Soil Consolidation Using Physics-Informed Neural Networks (PINN) ( http://arxiv.org/abs/2205.05710v1 )

ライセンス: Link先を確認
Yue Lu, Gang Mei, Francesco Piccialli(参考訳) 地盤の固化は、地盤工学的な建物や基礎の浸透、安定性、沈降と密接に関連しており、上層構造物の使用と安全性に直接影響している。 現在、土壌の一方向収束理論は特定の条件や近似計算に広く用いられている。 土壌固化の多方向理論は、実際的な応用における一方向理論よりも妥当であるが、指数決定と解の点でより複雑である。 そこで本論文では,2次元地盤の固化に伴う間隙水圧の予測のために,物理インフォームドニューラルネットワーク(pinn)を用いた深層学習法を提案する。 提案手法では,(1)完全に連結されたニューラルネットワークを構築し,(2)計算領域,偏微分方程式(PDE),および制約を定義してモデルトレーニングのためのデータを生成し,(3)2次元の土壌凝縮のPDEとニューラルネットワークのモデルとを接続してモデルの損失を低減する。 提案手法の有効性をPDEの数値解との比較により検証した。 この手法により, 余剰の細孔水圧を簡便かつ効率的に予測できる。 また,中国天津港の実例において,基礎地における土壌の細孔水圧を推定するために,本手法を適用した。 提案した深層学習手法は, 大規模かつ複雑な多方向土壌統合の研究に利用できる。

Soil consolidation is closely related to seepage, stability, and settlement of geotechnical buildings and foundations, and directly affects the use and safety of superstructures. Nowadays, the unidirectional consolidation theory of soils is widely used in certain conditions and approximate calculations. The multi-directional theory of soil consolidation is more reasonable than the unidirectional theory in practical applications, but it is much more complicated in terms of index determination and solution. To address the above problem, in this paper, we propose a deep learning method using physics-informed neural networks (PINN) to predict the excess pore water pressure of two-dimensional soil consolidation. In the proposed method, (1) a fully connected neural network is constructed, (2) the computational domain, partial differential equation (PDE), and constraints are defined to generate data for model training, and (3) the PDE of two-dimensional soil consolidation and the model of the neural network is connected to reduce the loss of the model. The effectiveness of the proposed method is verified by comparison with the numerical solution of PDE for two-dimensional consolidation. Using this method, the excess pore water pressure could be predicted simply and efficiently. In addition, the method was applied to predict the soil excess pore water pressure in the foundation in a real case at Tianjin port, China. The proposed deep learning approach can be used to investigate the large and complex multi-directional soil consolidation.
公開日:2022-04-09
翻訳日:2022-05-16 01:10:10
# (参考訳) ミームにおけるビジュオリンガルメタファーにおけるプロパガンダの検出 [全文訳有]

Detection of Propaganda Techniques in Visuo-Lingual Metaphor in Memes ( http://arxiv.org/abs/2205.02937v1 )

ライセンス: CC BY 4.0
Sunil Gundapu, Radhika Mamidi(参考訳) ソーシャルメディアネットワークの急激な増加は、データの生産、流通、消費を驚くべき速度で可能にしている。 さらに、ソーシャルメディア革命は、インターネットミームと呼ばれるソーシャルメディアプラットフォームにユニークな現象をもたらした。 インターネットミームは、ソーシャルメディアで使われる最も人気のあるコンテンツの1つであり、機知に富み、キャッチー、または風刺的なテキスト記述を持つ画像の形をとることができる。 本稿では,近年のインターネットミームでよく見られるプロパガンダを扱う。 プロパガンダとはコミュニケーションであり、プロパガンディストが欲しがる行動や反応を観客に操作または影響を与える心理的・修辞的手法をしばしば含む。 インターネットミーム中のプロパガンダを検出するために,テキストと画像の特徴表現を融合し,テキストと画像のモダリティのみに基づいて個々のモデルを上回るマルチモーダルディープラーニング融合システムを提案する。

The exponential rise of social media networks has allowed the production, distribution, and consumption of data at a phenomenal rate. Moreover, the social media revolution has brought a unique phenomenon to social media platforms called Internet memes. Internet memes are one of the most popular contents used on social media, and they can be in the form of images with a witty, catchy, or satirical text description. In this paper, we are dealing with propaganda that is often seen in Internet memes in recent times. Propaganda is communication, which frequently includes psychological and rhetorical techniques to manipulate or influence an audience to act or respond as the propagandist wants. To detect propaganda in Internet memes, we propose a multimodal deep learning fusion system that fuses the text and image feature representations and outperforms individual models based solely on either text or image modalities.
公開日:2022-05-03
翻訳日:2022-05-16 01:08:54
# GRU-TV:多変量臨床時系列データを用いた患者表現のための時間・速度対応GRU

GRU-TV: Time- and velocity-aware GRU for patient representation on multivariate clinical time-series data ( http://arxiv.org/abs/2205.04892v1 )

ライセンス: Link先を確認
Ningtao Liu, Ruoxi Gao, Jing Yuan, Calire Park, Shuwei Xing, and Shuiping Gou(参考訳) 電子健康記録(ehrs)は患者の健康状態を追跡するための豊富なリポジトリを提供する。 EHRは患者の生理状態を完全に文書化し、高次元、不均一、多モードのデータを含む。 臨床変数のサンプリング頻度の有意差は, EHRから抽出した多変量臨床時系列データにおいて, 隣接記録間の欠落率と不均一な時間間隔をもたらす可能性がある。 臨床時系列データを用いた臨床研究では、患者の生理状態はスポラジカルに収集された値によって記述された離散的なプロセスであり、患者の生理状態のダイナミクスは時間連続的である。 さらに、患者表現学習に広く使用されるリカレントニューラルネットワーク(recurrent neural network:rnn)モデルは、時間間隔と速度の知覚を欠き、患者の生理的状態を表現するモデルの能力を制限する。 本稿では,臨床用多変量時系列データの時間連続学習のためのgru(time- and velocity-aware gru)を提案する。 提案するgru-tvでは,神経常微分方程式(odes)と速度知覚機構を用いて,時系列データの記録と患者の生理状態の変化率との時間間隔をそれぞれ知覚する。 2つの実世界の臨床EHRデータセット(PhysioNet2012, MIMIC-III)の実験結果から、GRU-TVはコンピュータ支援診断(CAD)タスクにおいて最先端のパフォーマンスを達成し、サンプルデータの処理に有利であることが示された。

Electronic health records (EHRs) provide a rich repository to track a patient's health status. EHRs seek to fully document the patient's physiological status, and include data that is is high dimensional, heterogeneous, and multimodal. The significant differences in the sampling frequency of clinical variables can result in high missing rates and uneven time intervals between adjacent records in the multivariate clinical time-series data extracted from EHRs. Current studies using clinical time-series data for patient characterization view the patient's physiological status as a discrete process described by sporadically collected values, while the dynamics in patient's physiological status are time-continuous. In addition, recurrent neural networks (RNNs) models widely used for patient representation learning lack the perception of time intervals and velocity, which limits the ability of the model to represent the physiological status of the patient. In this paper, we propose an improved gated recurrent unit (GRU), namely time- and velocity-aware GRU (GRU-TV), for patient representation learning of clinical multivariate time-series data in a time-continuous manner. In proposed GRU-TV, the neural ordinary differential equations (ODEs) and velocity perception mechanism are used to perceive the time interval between records in the time-series data and changing rate of the patient's physiological status, respectively. Experimental results on two real-world clinical EHR datasets(PhysioNet20 12, MIMIC-III) show that GRU-TV achieve state-of-the-art performance in computer aided diagnosis (CAD) tasks, and is more advantageous in processing sampled data.
公開日:2022-05-04
翻訳日:2022-05-16 00:53:19
# フェアネスの再考:ヘゲモニックMLフェアネスアプローチに対する批判の学際的調査

Rethinking Fairness: An Interdisciplinary Survey of Critiques of Hegemonic ML Fairness Approaches ( http://arxiv.org/abs/2205.04460v1 )

ライセンス: Link先を確認
Lindsay Weinberg(参考訳) 本稿では、哲学、フェミニスト研究、批判的人種・民族研究、法学、人類学、科学技術研究など、さまざまな非計算分野から導かれる機械学習(ML)に対する、現在の公正化の技術的介入の既存の批判を評価し、比較する。 mlフェアネスに対するヘゲモニックな計算アプローチの可能性と限界を学際的に理解するために、認識論的分割を橋渡しし、社会の最も限界的な結果を生み出す。 この記事は、これらの異なる分野が交わる批評の9つの主要なテーマに従って構成されている。 1)AIフェアネス研究における「公正」の定義 2)AIシステムに対処する問題はどのように定式化されるか。 3) 抽象化がaiツールの機能やその普及に与える影響は,技術解決主義につながる。 4)AIフェアネス研究における人種分類の運用方法 5) 規制を回避し,倫理洗浄に従事するためのAI公正対策の使用 6) aiフェアネスを考慮した参加型設計及び民主的審議の欠如 7)「バイアス」を巻き込むデータ収集の実践は、非合意であり、透明性がない。 8)AIシステムに疎外されたグループを捕食すること 9)AIの長期的な社会的・倫理的成果への関与の欠如。 この論文はこれらの批判から引き合いに出し、将来のmlフェアネス研究の方向性を想像し、社会における権力力学と構造的不正を積極的に破壊する。

This survey article assesses and compares existing critiques of current fairness-enhancing technical interventions into machine learning (ML) that draw from a range of non-computing disciplines, including philosophy, feminist studies, critical race and ethnic studies, legal studies, anthropology, and science and technology studies. It bridges epistemic divides in order to offer an interdisciplinary understanding of the possibilities and limits of hegemonic computational approaches to ML fairness for producing just outcomes for society's most marginalized. The article is organized according to nine major themes of critique wherein these different fields intersect: 1) how "fairness" in AI fairness research gets defined; 2) how problems for AI systems to address get formulated; 3) the impacts of abstraction on how AI tools function and its propensity to lead to technological solutionism; 4) how racial classification operates within AI fairness research; 5) the use of AI fairness measures to avoid regulation and engage in ethics washing; 6) an absence of participatory design and democratic deliberation in AI fairness considerations; 7) data collection practices that entrench "bias," are non-consensual, and lack transparency; 8) the predatory inclusion of marginalized groups into AI systems; and 9) a lack of engagement with AI's long-term social and ethical outcomes. Drawing from these critiques, the article concludes by imagining future ML fairness research directions that actively disrupt entrenched power dynamics and structural injustices in society.
公開日:2022-05-06
翻訳日:2022-05-16 00:52:48
# 関数データを用いた説明可能な多クラス異常検出

Explainable multi-class anomaly detection on functional data ( http://arxiv.org/abs/2205.02935v1 )

ライセンス: Link先を確認
Mathieu Cura and Katarina Firdova and C\'eline Labart and Arthur Martel(参考訳) 本稿では,多変量関数データにおける異常検出とその説明可能性について述べる。 異常検出手順は、系列を特徴のベクトルに変換し、分離森林アルゴリズムを用いて構成する。 説明可能な手順は、shap係数の計算と教師付き決定木の使用に基づいている。 シミュレーションデータに適用して,本手法の性能を測定し,産業から得られた実データに適用する。

In this paper we describe an approach for anomaly detection and its explainability in multivariate functional data. The anomaly detection procedure consists of transforming the series into a vector of features and using an Isolation forest algorithm. The explainable procedure is based on the computation of the SHAP coefficients and on the use of a supervised decision tree. We apply it on simulated data to measure the performance of our method and on real data coming from industry.
公開日:2022-05-03
翻訳日:2022-05-16 00:52:28
# ai index 2022年次報告書

The AI Index 2022 Annual Report ( http://arxiv.org/abs/2205.03468v1 )

ライセンス: Link先を確認
Daniel Zhang, Nestor Maslej, Erik Brynjolfsson, John Etchemendy, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Michael Sellitto, Ellie Sakhaee, Yoav Shoham, Jack Clark, Raymond Perrault(参考訳) AI Index Reportの第5版にようこそ! 最新のエディションには、学術、民間、非営利の幅広い組織からのデータに加えて、技術パフォーマンス章、世界中のロボット研究者の新たな調査、25カ国における世界ai立法記録、技術ai倫理指標の詳細な分析を含む新しい章など、これまでのどのエディションよりも多くの自己収集されたデータとオリジナル分析が含まれている。 AI Index Reportは、人工知能に関連するデータを追跡、照合、蒸留、可視化する。 そのミッションは、政策立案者、研究者、幹部、ジャーナリスト、および一般大衆に対して、偏見のない、厳格な、そしてグローバルにソースされたデータを提供することであり、複雑なaiの分野をより徹底的かつ微妙な理解を開発することである。 このレポートは、AIに関するデータと洞察の最も信頼性が高く権威のある情報源になることを目指している。

Welcome to the fifth edition of the AI Index Report! The latest edition includes data from a broad set of academic, private, and nonprofit organizations as well as more self-collected data and original analysis than any previous editions, including an expanded technical performance chapter, a new survey of robotics researchers around the world, data on global AI legislation records in 25 countries, and a new chapter with an in-depth analysis of technical AI ethics metrics. The AI Index Report tracks, collates, distills, and visualizes data related to artificial intelligence. Its mission is to provide unbiased, rigorously vetted, and globally sourced data for policymakers, researchers, executives, journalists, and the general public to develop a more thorough and nuanced understanding of the complex field of AI. The report aims to be the world's most credible and authoritative source for data and insights about AI.
公開日:2022-05-02
翻訳日:2022-05-16 00:52:21
# Assurance 2.0による信頼性の評価

Assessing Confidence with Assurance 2.0 ( http://arxiv.org/abs/2205.04522v1 )

ライセンス: Link先を確認
John Rushby and Robin Bloomfield(参考訳) アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。 自然な疑問は、このケースがどの程度の信頼を提供するのか、ということです。 信頼は単一の属性や測定に還元できない、と我々は主張する。 代わりに、それは3つの異なる視点、すなわち正、負、および残余の疑念に基づくべきだと提案する。 ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。 私たちは正当化のために高い基準を設定しました。 これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。 証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。 さらに、確率論理を用いて議論のステップを通じて証拠から確率を集約して、我々がクレームの確率的評価と呼ぶものを得ることもできる。 否定的な視点は、典型的には敗者として表現される事件に対する疑念と挑戦とその探索と解決を記録している。 保証開発者は、確認バイアスを回避し、ケースを開発する際に、潜在的な敗者を探究し、再作業を避けてレビュアーを助けるために、それらとその解決を記録すべきである。 Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。 リスクを探求し、受け入れがたい、あるいは避けられないと判断する。 しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。 本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援するか,その視点を詳細に検討する。

An assurance case is intended to provide justifiable confidence in the truth of its top claim, which typically concerns safety or security. A natural question is then "how much" confidence does the case provide? We argue that confidence cannot be reduced to a single attribute or measurement. Instead, we suggest it should be based on attributes that draw on three different perspectives: positive, negative, and residual doubts. Positive Perspectives consider the extent to which the evidence and overall argument of the case combine to make a positive statement justifying belief in its claims. We set a high bar for justification, requiring it to be indefeasible. The primary positive measure for this is soundness, which interprets the argument as a logical proof. Confidence in evidence can be expressed probabilistically and we use confirmation measures to ensure that the "weight" of evidence crosses some threshold. In addition, probabilities can be aggregated from evidence through the steps of the argument using probability logics to yield what we call probabilistic valuations for the claims. Negative Perspectives record doubts and challenges to the case, typically expressed as defeaters, and their exploration and resolution. Assurance developers must guard against confirmation bias and should vigorously explore potential defeaters as they develop the case, and should record them and their resolution to avoid rework and to aid reviewers. Residual Doubts: the world is uncertain so not all potential defeaters can be resolved. We explore risks and may deem them acceptable or unavoidable. It is crucial however that these judgments are conscious ones and that they are recorded in the assurance case. This report examines the perspectives in detail and indicates how Clarissa, our prototype toolset for Assurance 2.0, assists in their evaluation.
公開日:2022-05-03
翻訳日:2022-05-16 00:52:05
# リカレントニューラルネットワークを用いた生体信号検証

Biometric Signature Verification Using Recurrent Neural Networks ( http://arxiv.org/abs/2205.02934v1 )

ライセンス: Link先を確認
Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez and Javier Ortega-Garcia(参考訳) リカレントニューラルネットワーク(RNN)に基づくアーキテクチャは、最先端の結果を用いた音声や手書き認識など、さまざまなタスクにうまく適用されている。 この研究の主な貢献は、実運用シナリオにおけるオンライン署名検証におけるRNNの可能性を分析することである。 我々は,一対のシグネチャから類似度を学習することを目的とした,Siameseアーキテクチャを用いたLong Short-Term Memory(LSTM)に基づくシステムを検討した。 実験では,400名のユーザと4名の個別取得セッションからなるBiosecurIDデータベースについて検討した。 提案するlstm rnnシステムは、17.76%から28.00%の有能な偽造の相対的検証性能向上率において,最近発表されたバイオセキュリドベンチマークの結果を上回っている。

Architectures based on Recurrent Neural Networks (RNNs) have been successfully applied to many different tasks such as speech or handwriting recognition with state-of-the-art results. The main contribution of this work is to analyse the feasibility of RNNs for on-line signature verification in real practical scenarios. We have considered a system based on Long Short-Term Memory (LSTM) with a Siamese architecture whose goal is to learn a similarity metric from pairs of signatures. For the experimental work, the BiosecurID database comprised of 400 users and 4 separated acquisition sessions are considered. Our proposed LSTM RNN system has outperformed the results of recent published works on the BiosecurID benchmark in figures ranging from 17.76% to 28.00% relative verification performance improvement for skilled forgeries.
公開日:2022-05-03
翻訳日:2022-05-16 00:51:36
# エージェントによる生産・補助プロセスの分散・統合スケジューリングの概念とアルゴリズム

Concepts and Algorithms for Agent-based Decentralized and Integrated Scheduling of Production and Auxiliary Processes ( http://arxiv.org/abs/2205.04461v2 )

ライセンス: Link先を確認
Felix Gehlhoff, Alexander Fay(参考訳) 個別の製品と短い製品ライフサイクルは、企業が伝統的な大量生産を再考するきっかけとなった。 industry 4.0のような新しい概念は、分散生産制御と情報の分散の出現を促進する。 このようなシナリオを実現するための有望な技術はマルチエージェントシステムである。 この貢献はエージェントベースの分散型および統合型スケジューリングアプローチの要件を分析する。 要求の一部は、エージェント間の通信がスケジューリング実行時間の主要なドライバであるため、線形にスケールする通信アーキテクチャを開発することである。 このアプローチは、運用、輸送、バッファリング、ツールなどの共有リソース操作を統合的にスケジュールし、それらの相互依存性を考慮します。 ロジスティクス要件の一部は、バッファ不足のような大きなワークピースの制約を反映している。 このアプローチは、例えば複数の企業からなるプロダクションネットワークで見られるような、大規模なシステムサイズにも適用可能な、一般的なソリューションを提供することを目的としている。 また、異なる種類の工場組織(フローショップ、求人店など)にも適用できる。 このアプローチは、産業要件に基づいた例を使って説明されます。 スケジューリングの実行時間を評価する実験が行われている。 結果は,アプローチの線形スケーリング挙動を示す。 また、同時交渉能力の分析を行う。

Individualized products and shorter product life cycles have driven companies to rethink traditional mass production. New concepts like Industry 4.0 foster the advent of decentralized production control and distribution of information. A promising technology for realizing such scenarios are Multi-agent systems. This contribution analyses the requirements for an agent-based decentralized and integrated scheduling approach. Part of the requirements is to develop a linearly scaling communication architecture, as the communication between the agents is a major driver of the scheduling execution time. The approach schedules production, transportation, buffering and shared resource operations such as tools in an integrated manner to account for interdependencies between them. Part of the logistics requirements reflect constraints for large workpieces such as buffer scarcity. The approach aims at providing a general solution that is also applicable to large system sizes that, for example, can be found in production networks with multiple companies. Further, it is applicable for different kinds of factory organization (flow shop, job shop etc.). The approach is explained using an example based on industrial requirements. Experiments have been conducted to evaluate the scheduling execution time. The results show the approach's linear scaling behavior. Also, analyses of the concurrent negotiation ability are conducted.
公開日:2022-05-12
翻訳日:2022-05-16 00:51:24
# クロスセット型主観的耳鳴診断のための非教師付き領域適応

Disentangled and Side-aware Unsupervised Domain Adaptation for Cross-dataset Subjective Tinnitus Diagnosis ( http://arxiv.org/abs/2205.03230v1 )

ライセンス: Link先を確認
Zhe Liu, Yun Li, Lina Yao, Jessica J.M.Monaghan, and David McAlpine(参考訳) 脳波に基づく耳鳴分類は耳鳴の診断、研究、治療に有用である。 現在の作業のほとんどは、データパターンが似ている単一のデータセットに限定されている。 しかし、EEG信号は非常に非定常的であり、結果としてモデルが新しいユーザやセッション、データセットにあまり一般化されていない。 したがって、新しいデータセットに一般化できるモデルを設計することは有益であり、不可欠である。 本研究では,データセット間の分布差を軽減するために,DSUDA(Disentangled and Side-aware Unsupervised Domain Adaptation)を提案する。 クラス非関連情報を脳波信号から切り離し、分類能力を向上させるために、絡み合ったオートエンコーダを開発した。 サイドアウェア非教師付きドメイン適応モジュールは、クラス非関連情報を新しいデータセットへのドメイン分散として適応させ、分散を除外して、新しいデータセット分類のためのクラス希釈特徴を得る。 また、左右の耳の信号を調整して、脳波パターンの違いを克服する。 我々はDSUDAを最先端の手法と比較し,総合評価基準に関する競争相手よりも大幅に改善した。 その結果,本モデルは新たなデータセットに一般化し,チニタスを効果的に診断できることを示した。

EEG-based tinnitus classification is a valuable tool for tinnitus diagnosis, research, and treatments. Most current works are limited to a single dataset where data patterns are similar. But EEG signals are highly non-stationary, resulting in model's poor generalization to new users, sessions or datasets. Thus, designing a model that can generalize to new datasets is beneficial and indispensable. To mitigate distribution discrepancy across datasets, we propose to achieve Disentangled and Side-aware Unsupervised Domain Adaptation (DSUDA) for cross-dataset tinnitus diagnosis. A disentangled auto-encoder is developed to decouple class-irrelevant information from the EEG signals to improve the classifying ability. The side-aware unsupervised domain adaptation module adapts the class-irrelevant information as domain variance to a new dataset and excludes the variance to obtain the class-distill features for the new dataset classification. It also align signals of left and right ears to overcome inherent EEG pattern difference. We compare DSUDA with state-of-the-art methods, and our model achieves significant improvements over competitors regarding comprehensive evaluation criteria. The results demonstrate our model can successfully generalize to a new dataset and effectively diagnose tinnitus.
公開日:2022-05-03
翻訳日:2022-05-16 00:51:10
# (参考訳) マルチモーダルセンサを用いた認知負荷の測定 [全文訳有]

Measuring Cognitive Workload Using Multimodal Sensors ( http://arxiv.org/abs/2205.04235v1 )

ライセンス: CC BY 4.0
Niraj Hirachan, Anita Mathews, Julio Romero, Raul Fernandez Rojas(参考訳) 本研究の目的は,マルチモーダルセンシングと機械学習を用いて認知負荷を推定する指標のセットを特定することである。 2段階の作業難易度(安易かつ硬度)で12名の被験者に認知的作業負荷を誘発する3つの認知テストを実施した。 心電図(ECG)、心電図(EDA)、呼吸(RESP)、酸素飽和(SpO2)の4つのセンサーが被験者の生理的変化を測定した。 認識作業の負荷を理解するため、NASA-TLXは各テスト後に使用し、Chi-Squareテストを用いて分析した。 3つの知識分類器(LDA, SVM, DT)を生理的データを用いて独立に訓練・試験した。 統計的分析の結果, 被験者の認知的作業負荷は, 異なる認知レベルを誘導する実験条件の有効性を示すテスト間で有意に異なる (p<0.001) ことがわかった。 分類の結果,ECGとEDAの融合は認知負荷検出に優れた判別力(acc=0.74)を示した。 本研究は,認知負荷の指標セットの同定における予備的な結果を提供する。 より現実的なシナリオとより人口の多い指標を検証するためには、今後の作業が必要である。

This study aims to identify a set of indicators to estimate cognitive workload using a multimodal sensing approach and machine learning. A set of three cognitive tests were conducted to induce cognitive workload in twelve participants at two levels of task difficulty (Easy and Hard). Four sensors were used to measure the participants' physiological change, including, Electrocardiogram (ECG), electrodermal activity (EDA), respiration (RESP), and blood oxygen saturation (SpO2). To understand the perceived cognitive workload, NASA-TLX was used after each test and analysed using Chi-Square test. Three well-know classifiers (LDA, SVM, and DT) were trained and tested independently using the physiological data. The statistical analysis showed that participants' perceived cognitive workload was significantly different (p<0.001) between the tests, which demonstrated the validity of the experimental conditions to induce different cognitive levels. Classification results showed that a fusion of ECG and EDA presented good discriminating power (acc=0.74) for cognitive workload detection. This study provides preliminary results in the identification of a possible set of indicators of cognitive workload. Future work needs to be carried out to validate the indicators using more realistic scenarios and with a larger population.
公開日:2022-05-05
翻訳日:2022-05-15 15:30:01
# (参考訳) Mixed-UNet:マルチスケール推論を用いた弱改良セマンティックセマンティックセグメンテーションのためのクラス活性化マッピング [全文訳有]

Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised Semantic Segmentation with Multi-scale Inference ( http://arxiv.org/abs/2205.04227v1 )

ライセンス: CC BY 4.0
Yang Liu, Ersi Zhang, Lulu Xu, Chufan Xiao, Xiaoyun Zhong, Lijin Lian, Fang Li, Bin Jiang, Yuhan Dong, Lan Ma, Qiming Huang, Ming Xu, Yongbing Zhang, Dongmei Yu, Chenggang Yan, and Peiwu Qin(参考訳) 深層学習技術は、特にmri(mri)スキャンやctスキャンで高精度で信頼性の高い画像分割を行い、病変の局在と診断を可能にすることで、医療画像処理において大きな可能性を秘めている。 しかし、これらのセグメンテーションモデルのトレーニングには、画像レベルのラベルの入手が容易とは対照的に、時間と労力がかかる多数の手作業によるピクセルレベルのラベルが必要である。 画像レベルのラベルを監督として用い,弱い教師付きセマンティックセマンティックセマンティクスモデルを用いてこの問題を解決することが不可欠である。 高度なソリューションのほとんどは、クラスアクティベーションマッピング(CAM)を利用している。 しかし、オリジナルのCAMは、病変の正確な境界を捉えることは滅多にない。 本研究では,シングルスケール推論における詳細損失を低減し,CAMを洗練するためのマルチスケール推論手法を提案する。 セグメンテーションのために、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。 その結果、2つの枝から抽出した特徴を融合させて得られる。 地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。 検証の結果,本モデルは脳画像から得られた各種病変の分節において,同一の監督レベルで利用可能な方法を超えることが判明した。

Deep learning techniques have shown great potential in medical image processing, particularly through accurate and reliable image segmentation on magnetic resonance imaging (MRI) scans or computed tomography (CT) scans, which allow the localization and diagnosis of lesions. However, training these segmentation models requires a large number of manually annotated pixel-level labels, which are time-consuming and labor-intensive, in contrast to image-level labels that are easier to obtain. It is imperative to resolve this problem through weakly-supervised semantic segmentation models using image-level labels as supervision since it can significantly reduce human annotation efforts. Most of the advanced solutions exploit class activation mapping (CAM). However, the original CAMs rarely capture the precise boundaries of lesions. In this study, we propose the strategy of multi-scale inference to refine CAMs by reducing the detail loss in single-scale reasoning. For segmentation, we develop a novel model named Mixed-UNet, which has two parallel branches in the decoding phase. The results can be obtained after fusing the extracted features from two branches. We evaluate the designed Mixed-UNet against several prevalent deep learning-based segmentation approaches on our dataset collected from the local hospital and public datasets. The validation results demonstrate that our model surpasses available methods under the same supervision level in the segmentation of various lesions from brain imaging.
公開日:2022-05-06
翻訳日:2022-05-15 15:21:55
# (参考訳) 新型コロナウイルスの診断・鑑別のための高分解能胸部CTスキャン画像データセット [全文訳有]

A High-Resolution Chest CT-Scan Image Dataset for COVID-19 Diagnosis and Differentiation ( http://arxiv.org/abs/2205.03408v1 )

ライセンス: CC BY 4.0
Iraj Abedi, Mahsa Vali, Bentolhoda Otroshi Shahreza, Hamidreza Bolhasani(参考訳) 新型コロナウイルスのパンデミックの間、CT(Computerd tomography)は新型コロナウイルスの患者を診断するのに良い方法だ。 HRCT(High-Resolution Computed Tomography)は、画像分解能を改善するために高度な手法を用いるCTの一種である。 一般にアクセス可能な新型コロナウイルスのCT画像データセットは、プライバシー上の懸念のため、非常に難しいため、CT画像に基づいたAIによる新型コロナウイルスの診断アルゴリズムの研究と開発を妨げている。 この問題に対処するため、新たにHRCTv1-COVID-19という高解像度胸部CTスキャン画像データセットを導入しました。 HRCTv1-COVID-19データセットには、スライスレベルや患者レベルのラベルが含まれており、特に人工知能アルゴリズム、機械学習、ディープラーニング手法を用いた診断と識別のために、新型コロナウイルスの研究を支援する可能性がある。 このデータセットは、web at: http://databiox.comでアクセスでき、4つのラベルを持つ395人の患者の胸部hrct画像181,106枚を含む。 キーワード-データセット、COVID-19、CTスキャン、CT、医療画像、胸部画像。

During the COVID-19 pandemic, computed tomography (CT) is a good way to diagnose COVID-19 patients. HRCT (High-Resolution Computed Tomography) is a form of computed tomography that uses advanced methods to improve image resolution. Publicly accessible COVID-19 CT image datasets are very difficult to come by due to privacy concerns, which impedes the study and development of AI-powered COVID-19 diagnostic algorithms based on CT images. To address this problem, we have introduced HRCTv1-COVID-19, a new COVID-19 high resolution chest CT Scan image dataset that includes not only COVID-19 cases of Ground Glass Opacity (GGO), Crazy Paving, and Air Space Consolidation, but also CT images of cases with negative COVID-19. The HRCTv1-COVID-19 dataset, which includes slice-level, and patient-level labels, has the potential to aid COVID-19 research, especially for diagnosis and differentiation using artificial intelligence algorithms, machine learning and deep learning methods. This dataset is accessible through web at: http://databiox.com and includes 181,106 chest HRCT images from 395 patients with four labels: GGO, Crazy Paving, Air Space Consolidation and Negative. Keywords- Dataset, COVID-19, CT-Scan, Computed Tomography, Medical Imaging, Chest Image.
公開日:2022-05-06
翻訳日:2022-05-15 15:01:29
# (参考訳) AODisaggregation:グローバルエアロゾル垂直プロファイルに向けて [全文訳有]

AODisaggregation: toward global aerosol vertical profiles ( http://arxiv.org/abs/2205.04296v1 )

ライセンス: CC BY 4.0
Shahine Bouabid, Duncan Watson-Parris, Sofija Stefanovi\'c, Athanasios Nenes, Dino Sejdinovic(参考訳) エアロゾルとクラウドの相互作用は、人為的気候変動の評価において最大の不確実性の源となっている。 この不確実性は、エアロゾルの垂直分布の測定が困難であることから生じ、散発的な垂直分解観測のみが可能である。 エアロゾル光深度 (AOD) のような, 情報の少ない垂直集約型プロキシを念頭に置く必要があることが多い。 本研究では,気温,気圧,相対湿度などの鉛直分解型気象予報器を用いて,aodの鉛直分解を,大気列全体における光消滅の指標として,絶滅プロファイルに分類する枠組みを開発した。 ベイズ非パラメトリックモデリングを用いて, エアロゾルの鉛直分布に先立って, 単純なガウス過程を考案し, aod観測で更新し, 鉛直絶滅プロファイル上の分布を推定する。 提案手法の検証には,気象共変量,AOD,絶滅プロファイルの自己整合性シミュレーションを行うECHAM-HAMエアロゾル気候モデルを用いている。 我々のモデルは,非常に単純ながら,衛星AOD検索アルゴリズムで典型的に使用される理想化されたベースラインの桁違いに優れた精度で,精度の高い不確かさで現実的な絶滅プロファイルを再構築することができることを示す。 特に, このモデルでは, 境界層におけるエアロゾル吸水による絶滅パターンの忠実な再構築が示されている。 しかし, エアロゾルの質量濃度, 粒子径, 放射特性などによる他の絶滅パターンは, 捕獲が難しく, さらに垂直分解された予測因子が必要であることが示唆された。

Aerosol-cloud interactions constitute the largest source of uncertainty in assessments of the anthropogenic climate change. This uncertainty arises in part from the difficulty in measuring the vertical distributions of aerosols, and only sporadic vertically resolved observations are available. We often have to settle for less informative vertically aggregated proxies such as aerosol optical depth (AOD). In this work, we develop a framework for the vertical disaggregation of AOD into extinction profiles, i.e. the measure of light extinction throughout an atmospheric column, using readily available vertically resolved meteorological predictors such as temperature, pressure or relative humidity. Using Bayesian nonparametric modelling, we devise a simple Gaussian process prior over aerosol vertical profiles and update it with AOD observations to infer a distribution over vertical extinction profiles. To validate our approach, we use ECHAM-HAM aerosol-climate model data which offers self-consistent simulations of meteorological covariates, AOD and extinction profiles. Our results show that, while very simple, our model is able to reconstruct realistic extinction profiles with well-calibrated uncertainty, outperforming by an order of magnitude the idealized baseline which is typically used in satellite AOD retrieval algorithms. In particular, the model demonstrates a faithful reconstruction of extinction patterns arising from aerosol water uptake in the boundary layer. Observations however suggest that other extinction patterns, due to aerosol mass concentration, particle size and radiative properties, might be more challenging to capture and require additional vertically resolved predictors.
公開日:2022-05-06
翻訳日:2022-05-15 14:56:21
# (参考訳) トランスベースマルチスペクトルマルチグラニュラ性非母語英語話者発音評価

Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation Assessment ( http://arxiv.org/abs/2205.03432v1 )

ライセンス: CC BY 4.0
Yuan Gong, Ziyi Chen, Iek-Heng Chu, Peng Chang, James Glass(参考訳) 自動発音評価は,自己指導型言語学習者を支援する重要な技術である。 発音品質には精度、流派、完全性、韻律を含む複数の側面があるが、従来の試みは1つの粒度(例えば音素レベル)でのみ1つの側面(例えば精度)をモデル化する。 本研究では,複数粒度のマルチアスペクト発音評価のモデル化について検討する。 具体的には、マルチタスク学習によるGoodness Of Pronunciation機能ベースのトランスフォーマー(GOPT)を訓練する。 実験により、goptは、librispeechで訓練された公用自動音声認識(asr)音響モデルを用いて、 speechocean762で最高の結果を得た。

Automatic pronunciation assessment is an important technology to help self-directed language learners. While pronunciation quality has multiple aspects including accuracy, fluency, completeness, and prosody, previous efforts typically only model one aspect (e.g., accuracy) at one granularity (e.g., at the phoneme-level). In this work, we explore modeling multi-aspect pronunciation assessment at multiple granularities. Specifically, we train a Goodness Of Pronunciation feature-based Transformer (GOPT) with multi-task learning. Experiments show that GOPT achieves the best results on speechocean762 with a public automatic speech recognition (ASR) acoustic model trained on Librispeech.
公開日:2022-05-06
翻訳日:2022-05-15 14:32:03
# (参考訳) Vocalsound:人間の声道音声認識を改善するデータセット [全文訳有]

Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition ( http://arxiv.org/abs/2205.03433v1 )

ライセンス: CC BY 4.0
Yuan Gong, Jin Yu, James Glass(参考訳) 人間の非音声音声認識は重要な課題であり、音声の自動書き起こしや健康状態のモニタリングといった幅広い応用がある。 しかし、既存のデータセットは比較的少数の音声サンプルやうるさいラベルを持っている。 その結果、最先端の音声イベント分類モデルは、人間の発声音を検出するのにうまく機能しない可能性がある。 そこで我々は,3,365名の独特な被験者の笑い,おびただしい声,喉の清浄,くしゃみ,嗅覚をクラウドソースで記録した21,000以上の音声データセットを作成した。 実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。 さらに、これまでのデータセットとは異なり、 vocalsoundデータセットには、話者年齢、性別、母国語、国、健康状態などのメタ情報が含まれている。

Recognizing human non-speech vocalizations is an important task and has broad applications such as automatic sound transcription and health condition monitoring. However, existing datasets have a relatively small number of vocal sound samples or noisy labels. As a consequence, state-of-the-art audio event classification models may not perform well in detecting human vocal sounds. To support research on building robust and accurate vocal sound recognition, we have created a VocalSound dataset consisting of over 21,000 crowdsourced recordings of laughter, sighs, coughs, throat clearing, sneezes, and sniffs from 3,365 unique subjects. Experiments show that the vocal sound recognition performance of a model can be significantly improved by 41.9% by adding VocalSound dataset to an existing dataset as training material. In addition, different from previous datasets, the VocalSound dataset contains meta information such as speaker age, gender, native language, country, and health condition.
公開日:2022-05-06
翻訳日:2022-05-15 14:31:09
# (参考訳) EdgeViTs: ビジョントランスフォーマーを備えたモバイルデバイス上での軽量CNNの競合

EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers ( http://arxiv.org/abs/2205.03436v1 )

ライセンス: CC BY 4.0
Junting Pan, Adrian Bulat, Fuwen Tan, Xiatian Zhu, Lukasz Dudziak, Hongsheng Li, Georgios Tzimiropoulos and Brais Martinez(参考訳) 視覚変換器(ViT)のような自己注意に基づくモデルは、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる非常に競争力のあるアーキテクチャとして登場した。 認識精度が向上するほど、自己注意の二次的な複雑さのため、既存のViTは計算とモデルサイズが要求される。 以前のCNNの設計選択(例えば、畳み込みと階層的な多段階構造)は、近年のViTに再導入されているが、モバイルデバイスの限られたリソース要件を満たすには不十分である。 これは、最先端のMobileNet-v2をベースにした軽量ViTの開発を、ごく最近の試みの動機としている。 この研究では、この未研究の方向をさらに推し進め、EdgeViTsを紹介します。これは、新しい軽量ViTのファミリーで、初めて注目ベースのビジョンモデルが、正確性とデバイス上の効率のトレードオフにおいて、最高の軽量CNNと競合できるようにします。 自己着脱と畳み込みの最適統合に基づく高コスト効率なlgl(local-global-loc al)情報交換ボトルネックを導入することで実現される。 デバイス専用評価では、FLOPやパラメータの数などの不正確なプロキシに頼るのではなく、デバイス上でのレイテンシに直接フォーカスする実践的なアプローチを採用し、初めてエネルギー効率を向上する。 具体的には、精度レイテンシと精度エネルギーのトレードオフを考慮した場合、我々のモデルはパレート最適であることが示され、ほとんどの場合、他のViTよりも厳格に支配され、最も効率的なCNNと競合する。

Self-attention based models such as vision transformers (ViTs) have emerged as a very competitive architecture alternative to convolutional neural networks (CNNs) in computer vision. Despite increasingly stronger variants with ever-higher recognition accuracies, due to the quadratic complexity of self-attention, existing ViTs are typically demanding in computation and model size. Although several successful design choices (e.g., the convolutions and hierarchical multi-stage structure) of prior CNNs have been reintroduced into recent ViTs, they are still not sufficient to meet the limited resource requirements of mobile devices. This motivates a very recent attempt to develop light ViTs based on the state-of-the-art MobileNet-v2, but still leaves a performance gap behind. In this work, pushing further along this under-studied direction we introduce EdgeViTs, a new family of light-weight ViTs that, for the first time, enable attention-based vision models to compete with the best light-weight CNNs in the tradeoff between accuracy and on-device efficiency. This is realized by introducing a highly cost-effective local-global-local (LGL) information exchange bottleneck based on optimal integration of self-attention and convolutions. For device-dedicated evaluation, rather than relying on inaccurate proxies like the number of FLOPs or parameters, we adopt a practical approach of focusing directly on on-device latency and, for the first time, energy efficiency. Specifically, we show that our models are Pareto-optimal when both accuracy-latency and accuracy-energy trade-offs are considered, achieving strict dominance over other ViTs in almost all cases and competing with the most efficient CNNs.
公開日:2022-05-06
翻訳日:2022-05-15 14:20:47
# (参考訳) 局所記述子学習によるグローバルマルチモーダル2D/3D登録 [全文訳有]

Global Multi-modal 2D/3D Registration via Local Descriptors Learning ( http://arxiv.org/abs/2205.03439v1 )

ライセンス: CC BY 4.0
Viktoria Markova, Matteo Ronchetti, Wolfgang Wein, Oliver Zettinig and Raphael Prevost(参考訳) マルチモーダル登録は、多くの画像誘導手順、特に解剖学的コンテキストを必要とする超音波誘導介入において必要となるステップである。 このような登録アルゴリズムはいくつか既に利用可能だが、超音波画像の出現と取得した任意の座標系が困難であるため、すべて成功するためには適切な初期化が必要である。 本稿では,術前画像への超音波スイープの登録問題を解決するための新しい手法を提案する。 我々は、登録を推定する密集したキーポイント記述子を学習する。 また,本手法では,データのマルチモダリティと多次元性という自由ハンド超音波スイープによる登録課題を克服すると同時に,正確な基礎的真理の欠如や少ない訓練例の欠如も示している。 我々は,高速で汎用的で完全自動であり,初期化を必要とせず,解釈可能性や説明可能性を支援する視覚化を自然に生成できる登録手法を考案した。 本手法は, MRボリュームと超音波シーケンスを併用した臨床データセットを用いて評価した。

Multi-modal registration is a required step for many image-guided procedures, especially ultrasound-guided interventions that require anatomical context. While a number of such registration algorithms are already available, they all require a good initialization to succeed due to the challenging appearance of ultrasound images and the arbitrary coordinate system they are acquired in. In this paper, we present a novel approach to solve the problem of registration of an ultrasound sweep to a pre-operative image. We learn dense keypoint descriptors from which we then estimate the registration. We show that our method overcomes the challenges inherent to registration tasks with freehand ultrasound sweeps, namely, the multi-modality and multidimensionality of the data in addition to lack of precise ground truth and low amounts of training examples. We derive a registration method that is fast, generic, fully automatic, does not require any initialization and can naturally generate visualizations aiding interpretability and explainability. Our approach is evaluated on a clinical dataset of paired MR volumes and ultrasound sequences.
公開日:2022-05-06
翻訳日:2022-05-15 14:18:58
# (参考訳) latentkeypointgan: 潜在キーポイントによるイメージ制御 -- 拡張抽象 [全文訳有]

LatentKeypointGAN: Controlling Images via Latent Keypoints -- Extended Abstract ( http://arxiv.org/abs/2205.03448v1 )

ライセンス: CC BY 4.0
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) GAN(Generative Adversarial Network)は、フォトリアリスティックな画像を生成することができる。 しかし、画像コンテンツをどう制御するかは、依然としてオープンな課題である。 生成したオブジェクトの位置とスタイルを制御可能なキーポイントと関連する外観埋め込みを内部的に条件付けした2段階のGANであるLatntKeypointGANを紹介する。 主な課題は、画像の空間的・外見的要素をドメイン知識や監視信号の少ない領域に切り離すことである。 本研究では,LatentKeypointGANが生成した画像を再配置し,異なる画像から顔と口を合成して画像を生成するようなキーポイント埋め込みを交換することで,解釈可能な潜在空間を提供することを示す。 特に,本手法は自己監督されているためラベルを必要としないため,ポートレートの編集や室内室,全身の人間のポーズなど,多様な応用領域に適用できる。

Generative adversarial networks (GANs) can now generate photo-realistic images. However, how to best control the image content remains an open challenge. We introduce LatentKeypointGAN, a two-stage GAN internally conditioned on a set of keypoints and associated appearance embeddings providing control of the position and style of the generated objects and their respective parts. A major difficulty that we address is disentangling the image into spatial and appearance factors with little domain knowledge and supervision signals. We demonstrate in a user study and quantitative experiments that LatentKeypointGAN provides an interpretable latent space that can be used to re-arrange the generated images by re-positioning and exchanging keypoint embeddings, such as generating portraits by combining the eyes, and mouth from different images. Notably, our method does not require labels as it is self-supervised and thereby applies to diverse application domains, such as editing portraits, indoor rooms, and full-body human poses.
公開日:2022-05-06
翻訳日:2022-05-15 14:09:20
# (参考訳) 心理的インスパイアされた音楽レコメンデーションシステム [全文訳有]

Psychologically-Insp ired Music Recommendation System ( http://arxiv.org/abs/2205.03459v1 )

ライセンス: CC BY 4.0
Danila Rozhevskii, Jie Zhu, Boyuan Zhao(参考訳) ここ数年、Spotify、Amazon、Appleといった企業が、ユーザーのために最もパーソナライズされた音楽提案を生成する能力に競い合っている音楽分野において、自動レコメンデーションシステムが主要な焦点となっている。 開発者がまだ取り組んでいない課題の1つは、音楽の心理的側面と感情的側面を考慮することだ。 我々のゴールは、ユーザの個人特性と現在の感情状態を、協調的かつコンテンツベースのフィルタリングによって単一の音楽レコメンデーションシステムに統合する方法を見つけることである。 本研究では,リスナーの個性と現在の感情状態とを関連付けて感情認識型MSSを構築することを目的とする。その結果をSpotify APIデータに基づく従来のMSSの出力と定量的・質的に比較し,私たちの進歩が音楽レコメンデーションの品質に重大な影響を与えるかどうかを明らかにする。

In the last few years, automated recommendation systems have been a major focus in the music field, where companies such as Spotify, Amazon, and Apple are competing in the ability to generate the most personalized music suggestions for their users. One of the challenges developers still fail to tackle is taking into account the psychological and emotional aspects of the music. Our goal is to find a way to integrate users' personal traits and their current emotional state into a single music recommendation system with both collaborative and content-based filtering. We seek to relate the personality and the current emotional state of the listener to the audio features in order to build an emotion-aware MRS. We compare the results both quantitatively and qualitatively to the output of the traditional MRS based on the Spotify API data to understand if our advancements make a significant impact on the quality of music recommendations.
公開日:2022-05-06
翻訳日:2022-05-15 14:01:45
# (参考訳) EVIMO2:モノクロ・ステレオ・アルゴリズムを用いた屋内シーンにおけるモーションセグメンテーション,光フロー,運動構造,視覚慣性オドメトリーのためのイベントカメラデータセット [全文訳有]

EVIMO2: An Event Camera Dataset for Motion Segmentation, Optical Flow, Structure from Motion, and Visual Inertial Odometry in Indoor Scenes with Monocular or Stereo Algorithms ( http://arxiv.org/abs/2205.03467v1 )

ライセンス: CC BY 4.0
Levi Burner, Anton Mitrokhin, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) 新しいイベントカメラデータセットであるEVIMO2が導入され、より複雑なシナリオにおいて、より良いカメラからより多くのデータを提供することで、人気のあるEVIMOデータセットを改善する。 前者と同様に、EVIMO2は、カメラやオブジェクトのポーズと同様に、ピクセルごとの真実の深さとセグメンテーションのラベルを提供する。 すべてのシーケンスは物理カメラのデータを使用し、多くのシーケンスは独立して動く複数のオブジェクトを特徴とする。 通常、このようなラベル付きデータは物理イベントカメラデータセットでは利用できない。 したがって、evimo2は既存のアルゴリズムと新しいアルゴリズムの開発のための豊富なトレーニングセットに対する挑戦的なベンチマークとして機能する。 特に、evimo2は、運動と物体のセグメンテーション、光学フロー、運動からの構造、および単眼またはステレオ構成の視覚(慣性)オドメトリの研究を支援するのに適している。 evimo2は、3つの640$\times$480のイベントカメラから41分間のデータ、1つの2080$\times $1552のクラシックカラーカメラ、2つの6軸慣性測定ユニットからの慣性測定、そしてバイコンモーションキャプチャシステムからの精密な正確な物体のポーズからなる。 データセットの173のシーケンスは3つのカテゴリに分けられる。 3.75分間の単独移動、22.55分間の静的なシーン、14.85分間の基本的な動きの浅いシーン。 いくつかのシーケンスは、従来のカメラが故障した低照度環境で記録された。 深さとセグメンテーションは、イベントカメラは60Hz、クラシックカメラは30Hzで提供される。 マスクは200Hzまでの速度でオープンソースコードを使って再生することができる。 本技術報告ではEVIMO2について概説する。 完全なドキュメントはオンラインで入手できる。 個々のシーケンスのビデオはダウンロードページでサンプルすることができる。

A new event camera dataset, EVIMO2, is introduced that improves on the popular EVIMO dataset by providing more data, from better cameras, in more complex scenarios. As with its predecessor, EVIMO2 provides labels in the form of per-pixel ground truth depth and segmentation as well as camera and object poses. All sequences use data from physical cameras and many sequences feature multiple independently moving objects. Typically, such labeled data is unavailable in physical event camera datasets. Thus, EVIMO2 will serve as a challenging benchmark for existing algorithms and rich training set for the development of new algorithms. In particular, EVIMO2 is suited for supporting research in motion and object segmentation, optical flow, structure from motion, and visual (inertial) odometry in both monocular or stereo configurations. EVIMO2 consists of 41 minutes of data from three 640$\times$480 event cameras, one 2080$\times$1552 classical color camera, inertial measurements from two six axis inertial measurement units, and millimeter accurate object poses from a Vicon motion capture system. The dataset's 173 sequences are arranged into three categories. 3.75 minutes of independently moving household objects, 22.55 minutes of static scenes, and 14.85 minutes of basic motions in shallow scenes. Some sequences were recorded in low-light conditions where conventional cameras fail. Depth and segmentation are provided at 60 Hz for the event cameras and 30 Hz for the classical camera. The masks can be regenerated using open-source code up to rates as high as 200 Hz. This technical report briefly describes EVIMO2. The full documentation is available online. Videos of individual sequences can be sampled on the download page.
公開日:2022-05-06
翻訳日:2022-05-15 13:53:59
# (参考訳) 強化学習エージェントを用いた動的結合記憶の書込み [全文訳有]

Dynamically writing coupled memories using a reinforcement learning agent, meeting physical bounds ( http://arxiv.org/abs/2205.03471v1 )

ライセンス: CC BY 4.0
Th\'eo Jules, Laura Michel, Ad\`ele Douin and Fr\'ed\'eric Lechenault(参考訳) 従来のメモリ書き込み操作は一度に1ビット進み、例えば個々の磁気領域が局所化された外部磁場によって力ずくめられる。 材料の貯蔵容量を増やす方法の1つは、材料の大部分に一度に数ビットを書き込むことである。 しかし、ビットの操作は通常準静的演算によって行われる。 モデル化は簡単だが、メモリ容量を減らすことが知られている。 本稿では, 強化学習エージェントが, 単純なマルチビット機械系の動的応答を利用して, メモリをフル容量に復元する方法を実証する。 そこで本研究では,エージェントの外部動作によって一方の端で操作される二安定ばねの連鎖からなるモデルフレームワークを提案する。 エージェントは,断熱的な操作では到達できない状態であっても,3つのバネに対して利用可能なすべての状態への到達方法を学習でき,物理パラメータ空間内のトレーニング速度と収束性はトランスファー学習技術によって改善されていることを示す。 興味深いことに、エージェントは書き込み時間の観点からシステムの最適な設計も指している。 制御時間は、内部散逸に対する非単調な依存を示し、機械的に動機づけられたスケーリング関係を検証するために示されるクロスオーバーで最小に達する。

Traditional memory writing operations proceed one bit at a time, where e.g. an individual magnetic domain is force-flipped by a localized external field. One way to increase material storage capacity would be to write several bits at a time in the bulk of the material. However, the manipulation of bits is commonly done through quasi-static operations. While simple to model, this method is known to reduce memory capacity. In this paper, we demonstrate how a reinforcement learning agent can exploit the dynamical response of a simple multi-bit mechanical system to restore its memory to full capacity. To do so, we introduce a model framework consisting of a chain of bi-stable springs, which is manipulated on one end by the external action of the agent. We show that the agent manages to learn how to reach all available states for three springs, even though some states are not reachable through adiabatic manipulation, and that both the training speed and convergence within physical parameter space are improved using transfer learning techniques. Interestingly, the agent also points to an optimal design of the system in terms of writing time. In fact, it appears to learn how to take advantage of the underlying physics: the control time exhibits a non-monotonic dependence on the internal dissipation, reaching a minimum at a cross-over shown to verify a mechanically motivated scaling relation.
公開日:2022-05-06
翻訳日:2022-05-15 13:45:18
# (参考訳) 文が談話の実体を含まない場合、トランスフォーマーベースのモデルはまだそれを参照することがある。 [全文訳有]

When a sentence does not introduce a discourse entity, Transformer-based models still sometimes refer to it ( http://arxiv.org/abs/2205.03472v1 )

ライセンス: CC BY 4.0
Sebastian Schuster, Tal Linzen(参考訳) 長い物語を理解するか、会話に参加するには、言及された談話の実体を追跡する必要がある。 犬」のような不定名詞句(NP)は、しばしば談話の実体を導入するが、この振る舞いは否定のような感性演算子によって変調される。 例えば「アーサーは犬を飼っていません」の「犬」は否定の存在から談話の実体を導入しない。 本研究では,言語モデルパラダイムの心理言語学的評価を高次言語現象に適用し,感性演算子と不確定NP間の相互作用の知識をターゲットとした英語評価スイートを導入する。 本稿では,Transformer ベースモデル GPT-2 と GPT-3 のエンティティ追跡能力を詳細に検討する。 我々は,モデルが相互作用にある程度敏感であるのに対して,複数のNPが存在することは問題であり,その挙動は体系的ではないこと,GPT-3スケールのモデルでさえ,基本的な実体追跡能力を完全には獲得していないことを示唆している。

Understanding longer narratives or participating in conversations requires tracking of discourse entities that have been mentioned. Indefinite noun phrases (NPs), such as 'a dog', frequently introduce discourse entities but this behavior is modulated by sentential operators such as negation. For example, 'a dog' in 'Arthur doesn't own a dog' does not introduce a discourse entity due to the presence of negation. In this work, we adapt the psycholinguistic assessment of language models paradigm to higher-level linguistic phenomena and introduce an English evaluation suite that targets the knowledge of the interactions between sentential operators and indefinite NPs. We use this evaluation suite for a fine-grained investigation of the entity tracking abilities of the Transformer-based models GPT-2 and GPT-3. We find that while the models are to a certain extent sensitive to the interactions we investigate, they are all challenged by the presence of multiple NPs and their behavior is not systematic, which suggests that even models at the scale of GPT-3 do not fully acquire basic entity tracking abilities.
公開日:2022-05-06
翻訳日:2022-05-15 13:30:25
# (参考訳) 最適輸送によるクロスドメイン模倣学習の課題と課題 [全文訳有]

Issues in "Cross-Domain Imitation Learning via Optimal Transport" and a possible fix ( http://arxiv.org/abs/2205.03476v1 )

ライセンス: CC BY 4.0
Ruichao Jiang, Javad Tavakoli, and Yiqinag Zhao(参考訳) 4]gromov-wasserstein (gw) [6]距離を模倣学習の代理報酬として用いることを提案する。 これらの手法は数学的問題とアルゴリズム的問題の両方に悩まされている。 我々は、マルコフ決定過程(MDP)の打上げ時を用いて、それらの数学的問題を修正し、アルゴリズム問題の背後にある困難を議論する。 私たちの知る限りでは、MDPの文脈で最初のヒットタイムを定義するのは初めてです。

[4] proposes to use the Gromov-Wasserstein ( GW) [6] distance as a proxy reward for imitation learning. We show that their approach suffers both mathematical and algorithmic issues. We use hitting-time of a Markov decision process (MDP) to fix their mathematical issues and discuss the difficulty behind the algorithmic issue. To our best knowledge, we are the first to define the first-hitting time in the context of MDP.
公開日:2022-05-06
翻訳日:2022-05-15 13:10:40
# (参考訳) 自己組織的生成モデルによる多様な模倣学習 [全文訳有]

Diverse Imitation Learning via Self-Organizing Generative Models ( http://arxiv.org/abs/2205.03484v1 )

ライセンス: CC BY 4.0
Arash Vahabpour, Tianyi Wang, Qiujing Lu, Omead Pooladzandi, Vwani Roychowdhury(参考訳) 模倣学習は、報酬機能にアクセスせずに、デモンストレーションから専門家ポリシーを複製するタスクである。 このタスクは、専門家が行動の混合を示すと特に困難になる。 これまでの研究では、エキスパートポリシーのバリエーションをモデル化するために潜伏変数を導入してきた。 しかし,本実験では,既存の作品が個別モードの適切な模倣を示さないことを示す。 この問題に対処するために,行動クローニングのためのエンコーダフリー生成モデル(bc)を採用し,異なるモードを正確に識別・模倣する。 そして、GAILと統合して、未知の状態のエラーを複雑化する学習を堅牢にする。 提案手法は,複数の実験において技量を著しく上回ることを示す。

Imitation learning is the task of replicating expert policy from demonstrations, without access to a reward function. This task becomes particularly challenging when the expert exhibits a mixture of behaviors. Prior work has introduced latent variables to model variations of the expert policy. However, our experiments show that the existing works do not exhibit appropriate imitation of individual modes. To tackle this problem, we adopt an encoder-free generative model for behavior cloning (BC) to accurately distinguish and imitate different modes. Then, we integrate it with GAIL to make the learning robust towards compounding errors at unseen states. We show that our method significantly outperforms the state of the art across multiple experiments.
公開日:2022-05-06
翻訳日:2022-05-15 13:01:12
# (参考訳) 法律領域における微細なインテント分類 [全文訳有]

Fine-grained Intent Classification in the Legal Domain ( http://arxiv.org/abs/2205.03509v1 )

ライセンス: CC BY 4.0
Ankan Mullick, Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, R Raghav(参考訳) 法律実務者は、多くの長い訴訟手続を経なければならない。 訴訟における当事者・個人間の行為の背後にある動機を理解するためには、事件に対応する意図を表す文書の一部を明確に理解することが不可欠である。 本稿では, 殺人, 土地紛争, 強盗, 破産のいずれかの事例分類に属する93件の法的文書のデータセットを紹介し, 文書のカテゴリと同一の意図を表すフレーズを注釈付けする。 また,各フレーズに対して詳細なインテントをアノテートすることで,読者がより深く理解できるようにする。 最後に,目的語句を抽出するプロセス(粗い部分ときめ細かな部分の両方)を自動化し,文書を可能な4つのカテゴリの1つに分類する際の変換器モデルの性能を分析し,特に微粒な意図分類の場合,そのデータセットは困難であることを示す。

A law practitioner has to go through a lot of long legal case proceedings. To understand the motivation behind the actions of different parties/individuals in a legal case, it is essential that the parts of the document that express an intent corresponding to the case be clearly understood. In this paper, we introduce a dataset of 93 legal documents, belonging to the case categories of either Murder, Land Dispute, Robbery, or Corruption, where phrases expressing intent same as the category of the document are annotated. Also, we annotate fine-grained intents for each such phrase to enable a deeper understanding of the case for a reader. Finally, we analyze the performance of several transformer-based models in automating the process of extracting intent phrases (both at a coarse and a fine-grained level), and classifying a document into one of the possible 4 categories, and observe that, our dataset is challenging, especially in the case of fine-grained intent classification.
公開日:2022-05-06
翻訳日:2022-05-15 12:40:52
# (参考訳) corwa: 引用指向の関連作業アノテーションデータセット [全文訳有]

CORWA: A Citation-Oriented Related Work Annotation Dataset ( http://arxiv.org/abs/2205.03512v1 )

ライセンス: CC BY 4.0
Xiangci Li, Biswadip Mandal, Jessica Ouyang(参考訳) 学術研究は、問題に対する新しい解決策を発見するための探索活動である。 この性質により、学術研究は文学評論を行い、その新奇性を先行作品と区別する。 自然言語処理では、この文献レビューは「関連作業」のセクションで通常実施される。 関連作業生成のタスクは、研究論文の残りと引用する論文のリストから、関連作業セクションを自動的に生成することを目的としている。 このタスクの以前の作業は、文を生成の基本単位として重視しており、関連する作業セクションが異なる情報ソースから派生した可変長テキストフラグメントで構成されているという事実を無視している。 言語的に動機づけられた作業生成フレームワークへの第一歩として、異なる情報ソースから異なるタイプの引用テキストフラグメントをラベル付けしたCitation Oriented Related Work Annotation (CORWA)データセットを提案する。 大量のラベルのない関連作業セクションのテキストにcorwaラベルを自動的にタグ付けする、強力なベースラインモデルをトレーニングします。 さらに,人間-イン-ループ,反復的,抽象的関連作業生成のための新しいフレームワークを提案する。

Academic research is an exploratory activity to discover new solutions to problems. By this nature, academic research works perform literature reviews to distinguish their novelties from prior work. In natural language processing, this literature review is usually conducted under the "Related Work" section. The task of related work generation aims to automatically generate the related work section given the rest of the research paper and a list of papers to cite. Prior work on this task has focused on the sentence as the basic unit of generation, neglecting the fact that related work sections consist of variable length text fragments derived from different information sources. As a first step toward a linguistically-motiv ated related work generation framework, we present a Citation Oriented Related Work Annotation (CORWA) dataset that labels different types of citation text fragments from different information sources. We train a strong baseline model that automatically tags the CORWA labels on massive unlabeled related work section texts. We further suggest a novel framework for human-in-the-loop, iterative, abstractive related work generation.
公開日:2022-05-07
翻訳日:2022-05-15 12:35:29
# (参考訳) クロスデバイス実世界の超解像に対する双対適応法 [全文訳有]

Dual Adversarial Adaptation for Cross-Device Real-World Image Super-Resolution ( http://arxiv.org/abs/2205.03524v1 )

ライセンス: CC BY 4.0
Xiaoqian Xu, Pengxu Wei, Weikai Chen, Mingzhi Mao, Liang Lin, Guanbin Li(参考訳) 高度な撮像プロセスのため、異なるカメラが捉えた同一のシーンは異なる画像パターンを示し、異なるデバイスからの画像に基づいて訓練された超高解像度(SR)モデルに異なる習熟性をもたらす可能性がある。 本稿では,一台のカメラで撮影したペア画像に基づいて訓練された実世界のSRモデルを,任意のターゲットデバイスで撮影した低解像度(LR)画像に適応させる,新規で実用的なクロスデバイスSRについて検討する。 提案課題は,様々な撮像装置からのペアデータがないため,極めて困難である。 この問題に対処するために,DADA (Dual ADversarial Adaptation) と呼ばれる実世界SRのための教師なしドメイン適応機構を提案する。 DADAは、HR監督なしでもターゲットモデルトレーニングの基礎を確立するために、Domain-Invariant Attention (DIA)モジュールを使用している。 さらに、DADAの2つのフレームワークは、2つのドメインからのLR入力画像に対して1つのブランチのドメイン間適応(InterAA)、そして2つのブランチのLR入力画像に対するドメイン内適応(IntraAA)を促進する。 InterAAとIntraAAは共に、ソースドメインからターゲットへのモデル転送性を改善する。 3つの異なるカメラで6つのリアルからリアルの順応設定で実験を行い、既存の最先端のアプローチと比較して優れた性能を得る。 また,ビデオカメラへの適応に対処するために提案したDADを評価し,現実の超解像の幅広い応用を促進するための有望な研究課題を提示する。 ソースコードはhttps://github.com/l onelyhope/dada.gitで公開しています。

Due to the sophisticated imaging process, an identical scene captured by different cameras could exhibit distinct imaging patterns, introducing distinct proficiency among the super-resolution (SR) models trained on images from different devices. In this paper, we investigate a novel and practical task coded cross-device SR, which strives to adapt a real-world SR model trained on the paired images captured by one camera to low-resolution (LR) images captured by arbitrary target devices. The proposed task is highly challenging due to the absence of paired data from various imaging devices. To address this issue, we propose an unsupervised domain adaptation mechanism for real-world SR, named Dual ADversarial Adaptation (DADA), which only requires LR images in the target domain with available real paired data from a source camera. DADA employs the Domain-Invariant Attention (DIA) module to establish the basis of target model training even without HR supervision. Furthermore, the dual framework of DADA facilitates an Inter-domain Adversarial Adaptation (InterAA) in one branch for two LR input images from two domains, and an Intra-domain Adversarial Adaptation (IntraAA) in two branches for an LR input image. InterAA and IntraAA together improve the model transferability from the source domain to the target. We empirically conduct experiments under six Real to Real adaptation settings among three different cameras, and achieve superior performance compared with existing state-of-the-art approaches. We also evaluate the proposed DADA to address the adaptation to the video camera, which presents a promising research topic to promote the wide applications of real-world super-resolution. Our source code is publicly available at https://github.com/l onelyhope/DADA.git.
公開日:2022-05-07
翻訳日:2022-05-15 12:15:44
# (参考訳) attract me to buy:マルチモーダル・マルチストラクショナル情報による広告複写生成 [全文訳有]

Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information ( http://arxiv.org/abs/2205.03534v1 )

ライセンス: CC BY 4.0
Zhipeng Zhang, Xinglin Hou, Kai Niu, Zhongzhen Huang, Tiezheng Ge, Yuning Jiang, Qi Wu, Peng Wang(参考訳) 近年、オンラインショッピングは世界中の人々の買い物の一般的な方法になりつつある。 奇妙な商品広告は、購入する人を多く惹きつける。 これらの広告は、視覚的空間情報やきめ細かい構造情報といった商品のマルチモーダル多構造情報を適切に統合する。 しかし、伝統的なマルチモーダルテキスト生成は、現実の世界における広告のコピーライティングの要件に合致しない、存在と発生の従来の記述に焦点を当てている。 広告の写しは鮮明な言語スタイルと忠実さの要求が高いためである。 残念ながら、再利用可能な評価フレームワークがなく、データセットが不足している。 そこで本稿では,E-MMAD(e-commercial multi-structured ads copywriting)というデータセットを提案する。 特に、この分野では最大のビデオキャプションデータセットの1つである。 そこで本研究では,データ集合上の現実の需要を解決するための構造化情報推論の強みに関するベースライン法と忠実性評価指標を提案する。 従来の手法を、すべてのメトリクスに対して大きなマージンで上回る。 データセットとメソッドは、もうすぐ \url{https://e-mmad.githu b.io/e-mmad.net/inde x.html}で提供される。

Recently, online shopping has gradually become a common way of shopping for people all over the world. Wonderful merchandise advertisements often attract more people to buy. These advertisements properly integrate multimodal multi-structured information of commodities, such as visual spatial information and fine-grained structure information. However, traditional multimodal text generation focuses on the conventional description of what existed and happened, which does not match the requirement of advertisement copywriting in the real world. Because advertisement copywriting has a vivid language style and higher requirements of faithfulness. Unfortunately, there is a lack of reusable evaluation frameworks and a scarcity of datasets. Therefore, we present a dataset, E-MMAD (e-commercial multimodal multi-structured advertisement copywriting), which requires, and supports much more detailed information in text generation. Noticeably, it is one of the largest video captioning datasets in this field. Accordingly, we propose a baseline method and faithfulness evaluation metric on the strength of structured information reasoning to solve the demand in reality on this dataset. It surpasses the previous methods by a large margin on all metrics. The dataset and method are coming soon on \url{https://e-mmad.githu b.io/e-mmad.net/inde x.html}.
公開日:2022-05-07
翻訳日:2022-05-15 12:01:13
# (参考訳) 測地線中心性を用いたグラフスペクトル埋め込み [全文訳有]

Graph Spectral Embedding using the Geodesic Betweeness Centrality ( http://arxiv.org/abs/2205.03544v1 )

ライセンス: CC BY 4.0
Shay Deutsch and Stefano Soatto(参考訳) 本稿では,局所的類似性,接続性,大域的構造の教師なしグラフ表現であるグラフシルベスター埋め込み(gse)を紹介する。 GSEはシルヴェスター方程式の解を用いて、ネットワーク構造と近傍の近接を1つの表現で捉える。 ラプラシアンの固有ベクトルに基づく埋め込みとは異なり、GSEは2つ以上の基底関数、例えばラプラシアン行列とアフィニティ行列を組み込む。 そのような基底関数は、元のグラフからではなく、元のグラフの辺(その辺を通る最短経路の数の分数)の重みを測定するものから構成される。 これにより、複雑なネットワーク構造を表現する柔軟性と制御が向上し、材料科学における失敗エッジの予測やヒト-SARS CoV-2タンパク質間相互作用におけるネットワークアライメントといったデータ解析タスクに使用される場合、技術状況よりも大幅に改善される。

We introduce the Graph Sylvester Embedding (GSE), an unsupervised graph representation of local similarity, connectivity, and global structure. GSE uses the solution of the Sylvester equation to capture both network structure and neighborhood proximity in a single representation. Unlike embeddings based on the eigenvectors of the Laplacian, GSE incorporates two or more basis functions, for instance using the Laplacian and the affinity matrix. Such basis functions are constructed not from the original graph, but from one whose weights measure the centrality of an edge (the fraction of the number of shortest paths that pass through that edge) in the original graph. This allows more flexibility and control to represent complex network structure and shows significant improvements over the state of the art when used for data analysis tasks such as predicting failed edges in material science and network alignment in the human-SARS CoV-2 protein-protein interactome.
公開日:2022-05-07
翻訳日:2022-05-15 11:44:14
# (参考訳) 理論的保証付きグラフニューラルネットワークに対する構造摂動型ブラックボックス攻撃の帯域 [全文訳有]

Bandits for Structure Perturbation-based Black-box Attacks to Graph Neural Networks with Theoretical Guarantees ( http://arxiv.org/abs/2205.03546v1 )

ライセンス: CC BY 4.0
Binghui Wang, Youqi Li, and Pan Zhou(参考訳) グラフニューラルネットワーク(gnns)は、ノード分類やグラフ分類など、多くのグラフベースのタスクで最先端のパフォーマンスを達成している。 しかし、近年の多くの研究は、攻撃者がグラフ構造をわずかに摂動させることでGNNモデルを誤認できることを示した。 既存のGNNに対する攻撃は、攻撃者がGNNモデルパラメータにアクセスすると仮定されるような実用的でない脅威モデルか、あるいは実用的なブラックボックス脅威モデルの下では、十分な効果がないと思われる摂動ノードの特徴を考慮する。 本稿では,このギャップを埋め,構造摂動を伴うGNNに対するブラックボックス攻撃を理論的保証とともに検討することを目的とする。 我々は,この課題にバンディット技術を用いて対処することを提案する。 具体的には、攻撃をランディットフィードバックによるオンライン最適化として定式化する。 この元の問題は、グラフ構造の摂動が二進最適化問題であるという事実から、本質的にNPハードである。 次に,帯域最適化に基づくオンライン攻撃を提案する。これはクエリ番号$T$,すなわち$\mathcal{O}(\sqrt{N}T^{3/4})$に対して,$N$はグラフ内のノード数である。 最後に,複数のデータセットとgnnモデル上で実験を行い,提案手法の評価を行った。 様々な引用グラフと画像グラフの実験結果から,我々の攻撃は効果的かつ効果的であることが示された。 ソースコードは~\url{https://github.com/M etaoblivion/Bandit_G NN_Attack} で入手できる。

Graph neural networks (GNNs) have achieved state-of-the-art performance in many graph-based tasks such as node classification and graph classification. However, many recent works have demonstrated that an attacker can mislead GNN models by slightly perturbing the graph structure. Existing attacks to GNNs are either under the less practical threat model where the attacker is assumed to access the GNN model parameters, or under the practical black-box threat model but consider perturbing node features that are shown to be not enough effective. In this paper, we aim to bridge this gap and consider black-box attacks to GNNs with structure perturbation as well as with theoretical guarantees. We propose to address this challenge through bandit techniques. Specifically, we formulate our attack as an online optimization with bandit feedback. This original problem is essentially NP-hard due to the fact that perturbing the graph structure is a binary optimization problem. We then propose an online attack based on bandit optimization which is proven to be {sublinear} to the query number $T$, i.e., $\mathcal{O}(\sqrt{N}T^{3/4})$ where $N$ is the number of nodes in the graph. Finally, we evaluate our proposed attack by conducting experiments over multiple datasets and GNN models. The experimental results on various citation graphs and image graphs show that our attack is both effective and efficient. Source code is available at~\url{https://github.com/M etaoblivion/Bandit_G NN_Attack}
公開日:2022-05-07
翻訳日:2022-05-15 11:25:48
# (参考訳) SubGraph Networksによる言語間知識グラフのためのエンティティアライメント [全文訳有]

SubGraph Networks based Entity Alignment for Cross-lingual Knowledge Graph ( http://arxiv.org/abs/2205.03557v1 )

ライセンス: CC BY 4.0
Shanqing Yu and Shihan Zhang and Jianlin Zhang and Jiajun Zhou and Qi Xuan and Bing Li and Xiaojuan Hu(参考訳) エンティティアライメントは、2つの知識グラフ(kgs)で同じ実世界オブジェクトを表すエンティティを見つけるタスクである。 言語間知識グラフの実体アライメントは、多言語KGにおける言語間リンクを発見することを目的としており、これはNLPアプリケーションと多言語KGs融合において非常に重要である。 言語間の知識グラフを整列させるタスクでは、2つのグラフの構造は非常に似ており、等価なエンティティはしばしば同じサブグラフ構造特性を持つ。 従来のGCN法は、元のグラフの代表部分を通して構造的特徴を得るのを無視しており、隣接行列の使用はグラフの構造的特徴を効果的に表すのに十分ではない。 本稿では,GCNに基づく言語間KGエンティティアライメント手法にサブグラフネットワーク(SGN)手法を導入する。 提案手法では,KGsの1次部分グラフを抽出し,元のグラフの構造的特徴を拡張し,エンティティ埋め込みの表現能力を向上し,アライメント精度を向上させる。 実験の結果,提案手法は最先端GCN法よりも優れていた。

Entity alignment is the task of finding entities representing the same real-world object in two knowledge graphs(KGs). Cross-lingual knowledge graph entity alignment aims to discover the cross-lingual links in the multi-language KGs, which is of great significance to the NLP applications and multi-language KGs fusion. In the task of aligning cross-language knowledge graphs, the structures of the two graphs are very similar, and the equivalent entities often have the same subgraph structure characteristics. The traditional GCN method neglects to obtain structural features through representative parts of the original graph and the use of adjacency matrix is not enough to effectively represent the structural features of the graph. In this paper, we introduce the subgraph network (SGN) method into the GCN-based cross-lingual KG entity alignment method. In the method, we extracted the first-order subgraphs of the KGs to expand the structural features of the original graph to enhance the representation ability of the entity embedding and improve the alignment accuracy. Experiments show that the proposed method outperforms the state-of-the-art GCN-based method.
公開日:2022-05-07
翻訳日:2022-05-15 11:07:05
# (参考訳) 数値エンティティ認識 [全文訳有]

Number Entity Recognition ( http://arxiv.org/abs/2205.03559v1 )

ライセンス: CC BY 4.0
Dhanasekar Sundararaman, Vivek Subramanian, Guoyin Wang, Liyan Xu, Lawrence Carin(参考訳) 番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。 通常、ほとんどのNLPタスクでは数値は明確に説明されていないが、NLPモデルで既に示されている数値は根底にある。 本研究では,最先端nlpモデルの潜在能力を活用し,関連するタスクにおける性能向上能力の伝達を試みる。 提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクやジョイント埋め込みを用いた質問応答,BERTとRoBERTaのベースライン分類よりも優れている。

Numbers are essential components of text, like any other word tokens, from which natural language processing (NLP) models are built and deployed. Though numbers are typically not accounted for distinctly in most NLP tasks, there is still an underlying amount of numeracy already exhibited by NLP models. In this work, we attempt to tap this potential of state-of-the-art NLP models and transfer their ability to boost performance in related tasks. Our proposed classification of numbers into entities helps NLP models perform well on several tasks, including a handcrafted Fill-In-The-Blank (FITB) task and on question answering using joint embeddings, outperforming the BERT and RoBERTa baseline classification.
公開日:2022-05-07
翻訳日:2022-05-15 10:55:34
# (参考訳) 多目的物体検出のためのグラフ融合ネットワーク [全文訳有]

Graph Fusion Network for Multi-Oriented Object Detection ( http://arxiv.org/abs/2205.03562v1 )

ライセンス: CC BY-SA 4.0
Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Xu-Cheng Yin(参考訳) オブジェクト検出では、検出された高密度ボックスの水平重複を除去して最終オブジェクトインスタンスを生成するために、非最大抑圧(NMS)法が広く採用されている。 しかしながら、密集した検出ボックスの品質が低下し、コンテキスト情報の明示的な探索は行わないため、単純なintersection-over-un ion(iou)メトリクスによる既存のnmsメソッドは、多目的および長大のオブジェクト検出に過小評価される傾向がある。 重複除去による一般的なNMS手法を駆使して,多目的物体検出のための新しいグラフ融合ネットワークGFNetを提案する。 我々のGFNetは拡張可能で適応的に高密度検出ボックスを融合し、より正確で総合的な多目的オブジェクトインスタンスを検出する。 具体的には,まず,局所性に着目したクラスタリングアルゴリズムを適用し,密度の高い検出ボックスを異なるクラスタにグループ化する。 1つのクラスタに属する検出ボックスのインスタンスサブグラフを構築します。 そこで我々は,グラフ畳み込みネットワーク(GCN)を用いたグラフベースの融合ネットワークを提案する。 マルチ指向テキストデータセット(msra-td500, icdar2015, icdar2017-mlt)とマルチ指向オブジェクトデータセット(dota)の両方において, 提案手法の有効性と頑健性を検証した。

In object detection, non-maximum suppression (NMS) methods are extensively adopted to remove horizontal duplicates of detected dense boxes for generating final object instances. However, due to the degraded quality of dense detection boxes and not explicit exploration of the context information, existing NMS methods via simple intersection-over-un ion (IoU) metrics tend to underperform on multi-oriented and long-size objects detection. Distinguishing with general NMS methods via duplicate removal, we propose a novel graph fusion network, named GFNet, for multi-oriented object detection. Our GFNet is extensible and adaptively fuse dense detection boxes to detect more accurate and holistic multi-oriented object instances. Specifically, we first adopt a locality-aware clustering algorithm to group dense detection boxes into different clusters. We will construct an instance sub-graph for the detection boxes belonging to one cluster. Then, we propose a graph-based fusion network via Graph Convolutional Network (GCN) to learn to reason and fuse the detection boxes for generating final instance boxes. Extensive experiments both on public available multi-oriented text datasets (including MSRA-TD500, ICDAR2015, ICDAR2017-MLT) and multi-oriented object datasets (DOTA) verify the effectiveness and robustness of our method against general NMS methods in multi-oriented object detection.
公開日:2022-05-07
翻訳日:2022-05-15 10:47:46
# (参考訳) 注意型クロスモーダルインタラクションと運動強調による圧縮映像動作認識のための表現学習 [全文訳有]

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement ( http://arxiv.org/abs/2205.03569v2 )

ライセンス: CC BY 4.0
Bing Li, Jiaxin Chen, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) 圧縮されたビデオアクション認識は、rgbフレームと圧縮された動きの手がかり(例えば動きベクトルと残差)によって生のビデオを置き換えることで、ストレージと計算コストを大幅に削減するため、最近注目を集めている。 しかし, この課題は不均質なrgbと運動モダリティの融合が不十分であり, 粗大でノイズの多いダイナミクスに苦しむ。 上記の2つの課題に対処するため,本論文では,動作強化を伴う注意的クロスモーダルインタラクションネットワーク(MEACI-Net)を提案する。 これは2つのストリームアーキテクチャ、すなわちrgbモダリティとモーションモダリティの2つに従う。 特に、モーションストリームは、表現学習を強化するために、デノイジングモジュールを組み込んだマルチスケールブロックを用いる。 次に、smc(selective motion complement)とcma(cross-modality addition)モジュールを導入し、smcはrgbモダリティを時空間的に注意する局所的運動特徴と補完し、cmaはさらに2つのモダリティと選択的特徴増強を組み合わせることにより、2つのストリーム間の相互作用を強化する。 ucf-101、hmdb-51およびkinetics-400ベンチマークに関する広範な実験は、meaci-netの有効性と効率を示している。

Compressed video action recognition has recently drawn growing attention, since it remarkably reduces the storage and computational cost via replacing raw videos by sparsely sampled RGB frames and compressed motion cues (e.g., motion vectors and residuals). However, this task severely suffers from the coarse and noisy dynamics and the insufficient fusion of the heterogeneous RGB and motion modalities. To address the two issues above, this paper proposes a novel framework, namely Attentive Cross-modal Interaction Network with Motion Enhancement (MEACI-Net). It follows the two-stream architecture, i.e. one for the RGB modality and the other for the motion modality. Particularly, the motion stream employs a multi-scale block embedded with a denoising module to enhance representation learning. The interaction between the two streams is then strengthened by introducing the Selective Motion Complement (SMC) and Cross-Modality Augment (CMA) modules, where SMC complements the RGB modality with spatio-temporally attentive local motion features and CMA further combines the two modalities with selective feature augmentation. Extensive experiments on the UCF-101, HMDB-51 and Kinetics-400 benchmarks demonstrate the effectiveness and efficiency of MEACI-Net.
公開日:2022-05-10
翻訳日:2022-05-15 10:27:41
# (参考訳) 注意型クロスモーダルインタラクションと運動強調による圧縮映像動作認識のための表現学習 [全文訳有]

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement ( http://arxiv.org/abs/2205.03569v1 )

ライセンス: CC BY 4.0
Bing Li, Jiaxin Chen, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) 圧縮されたビデオアクション認識は、rgbフレームと圧縮された動きの手がかり(例えば動きベクトルと残差)によって生のビデオを置き換えることで、ストレージと計算コストを大幅に削減するため、最近注目を集めている。 しかし, この課題は不均質なrgbと運動モダリティの融合が不十分であり, 粗大でノイズの多いダイナミクスに苦しむ。 上記の2つの課題に対処するため,本論文では,動作強化を伴う注意的クロスモーダルインタラクションネットワーク(MEACI-Net)を提案する。 これは2つのストリームアーキテクチャ、すなわちrgbモダリティとモーションモダリティの2つに従う。 特に、モーションストリームは、表現学習を強化するために、デノイジングモジュールを組み込んだマルチスケールブロックを用いる。 次に、smc(selective motion complement)とcma(cross-modality addition)モジュールを導入し、smcはrgbモダリティを時空間的に注意する局所的運動特徴と補完し、cmaはさらに2つのモダリティと選択的特徴増強を組み合わせることにより、2つのストリーム間の相互作用を強化する。 ucf-101、hmdb-51およびkinetics-400ベンチマークに関する広範な実験は、meaci-netの有効性と効率を示している。

Compressed video action recognition has recently drawn growing attention, since it remarkably reduces the storage and computational cost via replacing raw videos by sparsely sampled RGB frames and compressed motion cues (e.g., motion vectors and residuals). However, this task severely suffers from the coarse and noisy dynamics and the insufficient fusion of the heterogeneous RGB and motion modalities. To address the two issues above, this paper proposes a novel framework, namely Attentive Cross-modal Interaction Network with Motion Enhancement (MEACI-Net). It follows the two-stream architecture, i.e. one for the RGB modality and the other for the motion modality. Particularly, the motion stream employs a multi-scale block embedded with a denoising module to enhance representation learning. The interaction between the two streams is then strengthened by introducing the Selective Motion Complement (SMC) and Cross-Modality Augment (CMA) modules, where SMC complements the RGB modality with spatio-temporally attentive local motion features and CMA further combines the two modalities with selective feature augmentation. Extensive experiments on the UCF-101, HMDB-51 and Kinetics-400 benchmarks demonstrate the effectiveness and efficiency of MEACI-Net.
公開日:2022-05-07
翻訳日:2022-05-15 10:12:17
# (参考訳) 時空間予測のための深層学習 --太陽エネルギーへの応用

Deep learning for spatio-temporal forecasting -- application to solar energy ( http://arxiv.org/abs/2205.03571v1 )

ライセンス: CC BY 4.0
Vincent Le Guen(参考訳) この論文は、深層学習による時空間予測の主題に取り組む。 EDF(Electricity de France)のモチベーション応用は、魚眼画像による短期的な太陽エネルギー予測である。 外部の物理知識を注入して深部予測法を改善するための2つの研究方向を探る。 第1の方向は、トレーニング損失機能の役割に関するものである。 既存のモデルの性能向上のために,識別可能な形状と時間的基準を活用できることが示される。 本稿では,DILATE損失関数を用いた決定論的文脈と,STRIPEモデルによる確率的文脈の両方に対処する。 第2の方向は、正確な予測のために、不完全な物理モデルと深いデータ駆動ネットワークを強化することです。 映像予測には,テクスチャやディテールなどの予測に必要な残差情報から物理力学を分離するPhyDNetモデルを導入する。 さらに本研究では,物理・データ駆動コンポーネント間の線形分解を軽微な仮定で保証する学習フレームワーク(APHYNITY)を提案し,予測性能とパラメータ同定を向上する。

This thesis tackles the subject of spatio-temporal forecasting with deep learning. The motivating application at Electricity de France (EDF) is short-term solar energy forecasting with fisheye images. We explore two main research directions for improving deep forecasting methods by injecting external physical knowledge. The first direction concerns the role of the training loss function. We show that differentiable shape and temporal criteria can be leveraged to improve the performances of existing models. We address both the deterministic context with the proposed DILATE loss function and the probabilistic context with the STRIPE model. Our second direction is to augment incomplete physical models with deep data-driven networks for accurate forecasting. For video prediction, we introduce the PhyDNet model that disentangles physical dynamics from residual information necessary for prediction, such as texture or details. We further propose a learning framework (APHYNITY) that ensures a principled and unique linear decomposition between physical and data-driven components under mild assumptions, leading to better forecasting performances and parameter identification.
公開日:2022-05-07
翻訳日:2022-05-15 09:57:02
# (参考訳) 類似性の統計的尺度による不連続テキスト表現の学習 [全文訳有]

Learning Disentangled Textual Representations via Statistical Measures of Similarity ( http://arxiv.org/abs/2205.03589v1 )

ライセンス: CC BY 4.0
Pierre Colombo, Guillaume Staerman, Nathan Noiry, Pablo Piantanida(参考訳) テキストデータを扱うとき、不整合表現の自然な応用は、データ(例えば年齢、性別、人種など)に現れるセンシティブな属性によってバイアス(または影響)を受けずに予測を行うことを目標とする公平な分類である。 テキスト表現からセンシティブな属性をアンタングルする支配的アプローチは、敵対的損失(例えば、差別者)または情報測度(例えば、相互情報)を含む罰則化用語を同時に学習に依存する。 しかし、これらの方法は、表現モデルの更新毎にいくつかのパラメータ更新を伴うディープニューラルネットワークのトレーニングを必要とする。 実のところ、ネストした最適化ループは時間消費であり、最適化ダイナミクスに複雑さを加え、細かいハイパーパラメータの選択(学習率、アーキテクチャなど)を必要とする。 本稿では,訓練を必要としない異種表現を学習するための正規化子群について紹介する。 これらの正規化器は、感度特性に関する条件付き確率分布の類似性の統計測度に基づいている。 我々の新しい正規化器は、事前訓練とランダムに初期化されたテキストエンコーダを組み合わせると、追加のトレーニングを必要とせず、高速であり、追加のチューニングを伴わない。

When working with textual data, a natural application of disentangled representations is fair classification where the goal is to make predictions without being biased (or influenced) by sensitive attributes that may be present in the data (e.g., age, gender or race). Dominant approaches to disentangle a sensitive attribute from textual representations rely on learning simultaneously a penalization term that involves either an adversarial loss (e.g., a discriminator) or an information measure (e.g., mutual information). However, these methods require the training of a deep neural network with several parameter updates for each update of the representation model. As a matter of fact, the resulting nested optimization loop is both time consuming, adding complexity to the optimization dynamic, and requires a fine hyperparameter selection (e.g., learning rates, architecture). In this work, we introduce a family of regularizers for learning disentangled representations that do not require training. These regularizers are based on statistical measures of similarity between the conditional probability distributions with respect to the sensitive attributes. Our novel regularizers do not require additional training, are faster and do not involve additional tuning while achieving better results both when combined with pretrained and randomly initialized text encoders.
公開日:2022-05-07
翻訳日:2022-05-15 09:55:09
# (参考訳) 非パラメトリック多重クラス分類におけるクラス固有変数の決定

Determination of class-specific variables in nonparametric multiple-class classification ( http://arxiv.org/abs/2205.03623v1 )

ライセンス: CC BY 4.0
Wan-Ping Nicole Chen, Yuan-chin Ivan Chang(参考訳) 技術が進歩するにつれて、自動収集装置によるデータ収集が普及し、特に特定の研究目標を達成せずにこれらのデータセットを収集する場合に、長い変数を持つデータセットが一般的となる。 高い次元の分類問題の難しさは、分類誤差を減らすのに役立たないノイズ変数が多すぎることが本質的な原因で指摘されており、これは意思決定の便益を減らし、複雑さを増し、モデル解釈の混乱をもたらす。 特に、モデル解釈能力が不可欠である後続のアプリケーション/研究にそれらの結果を使用する場合は、優れた変数選択戦略が必要とされる。 husは、従来の分類手法、例えば精度、感度、正確さは、パフォーマンスタスクでは唯一のものではない。 本稿では,確率に基づく非パラメトリックな多重クラス分類法を提案し,個々のクラスに対して高い影響変数を識別し,その分類規則や各クラスの性格についてより詳細な情報を得ることができるようにした。 提案手法はベイズ法則とほぼ等しく予測能力を有し、「モデル解釈」の能力を維持している。 提案手法の漸近特性を報告し, 合成データと実データを用いて, 異なる分類条件下での特性を説明する。 また,変数の同定とサンプルサイズ決定のトレーニングを別々に議論し,ユーザが異なる計算言語で容易に実装できるように,それらの手順をアルゴリズムとして要約する。

As technology advanced, collecting data via automatic collection devices become popular, thus we commonly face data sets with lengthy variables, especially when these data sets are collected without specific research goals beforehand. It has been pointed out in the literature that the difficulty of high-dimensional classification problems is intrinsically caused by too many noise variables useless for reducing classification error, which offer less benefits for decision-making, and increase complexity, and confusion in model-interpretation . A good variable selection strategy is therefore a must for using such kinds of data well; especially when we expect to use their results for the succeeding applications/studies , where the model-interpretation ability is essential. hus, the conventional classification measures, such as accuracy, sensitivity, precision, cannot be the only performance tasks. In this paper, we propose a probability-based nonparametric multiple-class classification method, and integrate it with the ability of identifying high impact variables for individual class such that we can have more information about its classification rule and the character of each class as well. The proposed method can have its prediction power approximately equal to that of the Bayes rule, and still retains the ability of "model-interpretation ." We report the asymptotic properties of the proposed method, and use both synthesized and real data sets to illustrate its properties under different classification situations. We also separately discuss the variable identification, and training sample size determination, and summarize those procedures as algorithms such that users can easily implement them with different computing languages.
公開日:2022-05-07
翻訳日:2022-05-15 09:26:21
# (参考訳) 一般化画像分類のための比較知識翻訳 [全文訳有]

Comparison Knowledge Translation for Generalizable Image Classification ( http://arxiv.org/abs/2205.03633v1 )

ライセンス: CC BY 4.0
Zunlei Feng, Tian Qiu, Sai Wu, Xiaotuan Jin, Zengliang He, Mingli Song, Huiqiong Wang(参考訳) ディープラーニングは最近、大量のアノテーションに大きく依存する画像分類タスクで目覚ましいパフォーマンスを達成している。 しかし、既存のディープラーニングモデルの分類メカニズムは、人間の認識メカニズムとは対照的である。 未知のタイプの画像を見るだけで、人間は大量の画像から他の同じカテゴリーの物体を素早く正確に見つけることができ、それは様々な物体の日々の認識の恩恵を受ける。 本稿では,画像分類タスクにおける人間の認識機構を模倣する汎用フレームワークを構築し,他のカテゴリのアノテーションによる分類性能の向上を期待する。 具体的には、比較知識翻訳(CKT)と呼ばれる新しいタスクについて検討する。 CKTは、完全なラベル付きカテゴリのセットから、ラベル付きカテゴリから学んだ比較知識を、新しいカテゴリのセットに変換することを目的としている。 そこで我々は,比較分類器とマッチング判別器を組み合わせた比較分類翻訳ネットワーク(CCT-Net)を提案する。 比較分類器は、2つの画像が同一のカテゴリに属するか否かを分類するために考案され、一方、一致する判別器は、分類結果が真理に合致するかどうかを確認するために、敵対的に協力して動作する。 CCT-Netは、未確認カテゴリにおける驚くほどの一般化能力と、対象カテゴリにおけるSOTA性能を実現する。

Deep learning has recently achieved remarkable performance in image classification tasks, which depends heavily on massive annotation. However, the classification mechanism of existing deep learning models seems to contrast to humans' recognition mechanism. With only a glance at an image of the object even unknown type, humans can quickly and precisely find other same category objects from massive images, which benefits from daily recognition of various objects. In this paper, we attempt to build a generalizable framework that emulates the humans' recognition mechanism in the image classification task, hoping to improve the classification performance on unseen categories with the support of annotations of other categories. Specifically, we investigate a new task termed Comparison Knowledge Translation (CKT). Given a set of fully labeled categories, CKT aims to translate the comparison knowledge learned from the labeled categories to a set of novel categories. To this end, we put forward a Comparison Classification Translation Network (CCT-Net), which comprises a comparison classifier and a matching discriminator. The comparison classifier is devised to classify whether two images belong to the same category or not, while the matching discriminator works together in an adversarial manner to ensure whether classified results match the truth. Exhaustive experiments show that CCT-Net achieves surprising generalization ability on unseen categories and SOTA performance on target categories.
公開日:2022-05-07
翻訳日:2022-05-15 09:24:53
# (参考訳) 生体内およびシリコにおける超高速画像分類 [全文訳有]

Ultra-fast image categorization in vivo and in silico ( http://arxiv.org/abs/2205.03635v1 )

ライセンス: CC BY 4.0
Jean-Nicolas J\'er\'emie, Laurent U Perrinet(参考訳) 人間は画像のロバストな分類が可能で、例えば、120ミリ秒以内の短時間の点滅画像で動物の存在を検知することができる。最初は神経科学に触発されたディープラーニングアルゴリズムは、この10年間で文字通り、機械の正確さが現在、視覚認識タスクにおいて人間よりも優れているように花開いた。 しかし、これらの人工ネットワークは通常、imagenetの1000のカテゴリなど、非常に特定のタスクで訓練され、評価される。 その点において、生物視覚システムは、汎用生態学的タスクの人工システムよりも柔軟で効率的である。 この比較をさらに深めるため,動物の存在を検出するために定義されたタスクと人工物の存在を検出するタスクの2つの独立したタスクについて,標準的なVGG畳み込みニューラルネットワーク(CNN)を再訓練した。 ネットワークの再トレーニングは,心理物理学的タスクで報告されるような人間的なパフォーマンスレベルを達成する。 また,画像別検出の精度も比較した。 これは特に、2つのモデルが出力を組み合わせれば性能が良くなることを示した。 実際、動物(例えばライオン)は、アーティファクト(例えば建物)を含む写真では存在しがちである。 これらの再訓練されたモデルは、強靭性から回転(例えば逆さまや斜めのイメージ)やグレースケールの変換といった人間の精神物理学から予期せぬ行動観察を再現することができる。

Humans are able to robustly categorize images and can, for instance, detect the presence of an animal in a briefly flashed image in as little as 120 ms. Initially inspired by neuroscience, deep-learning algorithms literally bloomed up in the last decade such that the accuracy of machines is at present superior to humans for visual recognition tasks. However, these artificial networks are usually trained and evaluated on very specific tasks, for instance on the 1000 separate categories of ImageNet. In that regard, biological visual systems are more flexible and efficient compared to artificial systems on generic ecological tasks. In order to deepen this comparison, we re-trained the standard VGG Convolutional Neural Network (CNN) on two independent tasks which are ecologically relevant for humans: one task defined as detecting the presence of an animal and the other as detecting the presence of an artifact. We show that retraining the network achieves human-like performance level which is reported in psychophysical tasks. We also compare the accuracy of the detection on an image-by-image basis. This showed in particular that the two models perform better when combining their outputs. Indeed, animals (e.g. lions) tend to be less present in photographs containing artifacts (e.g. buildings). These re-trained models could reproduce some unexpected behavioral observations from humans psychophysics such as the robustness to rotations (e.g. upside-down or slanted image) or to a grayscale transformation.
公開日:2022-05-07
翻訳日:2022-05-15 09:08:33
# (参考訳) 強化学習の検索ベーステスト [全文訳有]

Search-Based Testing of Reinforcement Learning ( http://arxiv.org/abs/2205.04887v1 )

ライセンス: CC BY 4.0
Martin Tappler, Filip Cano C\'ordoba, Bernhard K. Aichernig and Bettina K\"onighofer(参考訳) 深部強化学習(RL)の評価は本質的に困難である。 特に学習方針の不透明さとエージェントと環境の両方の確率的性質は、深いRLエージェントの挙動をテストするのを困難にしている。 本稿では, ディープRLエージェントの安全性と性能を評価するために, 広範囲の新規解析機能を実現するための検索ベーステストフレームワークを提案する。 安全性テストには,rlタスクを解決する参照トレースを検索する検索アルゴリズムを利用する。 境界状態と呼ばれる探索のバックトラック状態は、安全クリティカルな状況を引き起こす。 我々は、RLエージェントが境界付近の安全クリティカルな状況からいかにうまく逃れるかを評価する安全テストスーツを作成する。 堅牢なパフォーマンステストのために、fuzzテストを通じてさまざまなトレースセットを作成します。 これらのファズトレースは、エージェントの平均性能がファズトレースの平均性能と比較される様々な潜在的未知の状態にエージェントを導くために使用される。 任天堂のスーパーマリオブラザーズのRLに検索ベースのテストアプローチを適用した。

Evaluation of deep reinforcement learning (RL) is inherently challenging. Especially the opaqueness of learned policies and the stochastic nature of both agents and environments make testing the behavior of deep RL agents difficult. We present a search-based testing framework that enables a wide range of novel analysis capabilities for evaluating the safety and performance of deep RL agents. For safety testing, our framework utilizes a search algorithm that searches for a reference trace that solves the RL task. The backtracking states of the search, called boundary states, pose safety-critical situations. We create safety test-suites that evaluate how well the RL agent escapes safety-critical situations near these boundary states. For robust performance testing, we create a diverse set of traces via fuzz testing. These fuzz traces are used to bring the agent into a wide variety of potentially unknown states from which the average performance of the agent is compared to the average performance of the fuzz traces. We apply our search-based testing approach on RL for Nintendo's Super Mario Bros.
公開日:2022-05-07
翻訳日:2022-05-15 08:57:18
# (参考訳) 骨格レベルから画素レベルの可変容器セグメンテーションのためのラベル逆学習 [全文訳有]

Label Adversarial Learning for Skeleton-level to Pixel-level Adjustable Vessel Segmentation ( http://arxiv.org/abs/2205.03646v1 )

ライセンス: CC BY 4.0
Mingchao Li, Kun Huang, Zetian Zhang, Xiao Ma and Qiang Chen(参考訳) ケーキを食べて食べることもできます。 光コヒーレンス断層撮影(OCTA)画像における微小血管セグメンテーションはいまだに困難である。 骨格レベルのセグメンテーションは鮮明なトポロジーを示すが、直径情報を持たないが、画素レベルのセグメンテーションは鮮明なカリバーであるが低トポロジーを示す。 このギャップを埋めるために,骨格レベルから画素レベルの調整可能な血管セグメンテーションのためのラベル逆学習(LAL)を提案する。 LALは主にラベル対向損失と組込み可能な調整層という2つの設計で構成されている。 ラベル対向損失は、2つのラベル監督者間の対向関係を確立し、調整層は異なる対向重みに一致するようにネットワークパラメータを調整する。 このような設計は、2つの監督間の変動を効率的に捉え、セグメンテーションを連続的かつ可変的にすることができる。 この連続的なプロセスにより、鮮明な口径とトポロジーを持つ高品質な容器セグメンテーションを推奨できる。 実験の結果,現在の公開データセットの手動アノテーションや従来のフィルタリング効果よりも優れていた。 さらに、そのような連続的なプロセスは、弱い容器の境界とノイズを表す不確かさマップを生成するのにも使うことができる。

You can have your cake and eat it too. Microvessel segmentation in optical coherence tomography angiography (OCTA) images remains challenging. Skeleton-level segmentation shows clear topology but without diameter information, while pixel-level segmentation shows a clear caliber but low topology. To close this gap, we propose a novel label adversarial learning (LAL) for skeleton-level to pixel-level adjustable vessel segmentation. LAL mainly consists of two designs: a label adversarial loss and an embeddable adjustment layer. The label adversarial loss establishes an adversarial relationship between the two label supervisions, while the adjustment layer adjusts the network parameters to match the different adversarial weights. Such a design can efficiently capture the variation between the two supervisions, making the segmentation continuous and tunable. This continuous process allows us to recommend high-quality vessel segmentation with clear caliber and topology. Experimental results show that our results outperform manual annotations of current public datasets and conventional filtering effects. Furthermore, such a continuous process can also be used to generate an uncertainty map representing weak vessel boundaries and noise.
公開日:2022-05-07
翻訳日:2022-05-15 08:32:10
# (参考訳) Intelligent Single-Pixel Imaging を用いたTic-Tac-Toeゲーム [全文訳有]

Playing Tic-Tac-Toe Games with Intelligent Single-pixel Imaging ( http://arxiv.org/abs/2205.03663v1 )

ライセンス: CC BY 4.0
Shuming Jiao, Jiaxiang Li, Wei Huang, Zibang Zhang(参考訳) spi(single-pixel imaging)は、2次元画素センサを1画素検出器とパターンイルミネーションに置き換えた新しい光学イメージング技術である。 SPIは画像取得や処理に関わる様々なタスクに広く利用されている。 本研究では,インタラクティブにtic-tac-toeゲームをプレイする非イメージ型タスクをspiのフレームワークに統合する。 デジタル計算が最小限の光電子人工知能(ai)プレーヤーは、ゲーム状態を検出し、最適な動きを生成し、主にパターン照明とシングルピクセル検出により出力結果を表示することができる。 シミュレーションおよび実験により,提案手法の有効性と人体に対する不当な性能を示す。

Single-pixel imaging (SPI) is a novel optical imaging technique by replacing a two-dimensional pixelated sensor with a single-pixel detector and pattern illuminations. SPI have been extensively used for various tasks related to image acquisition and processing. In this work, a novel non-image-based task of playing Tic-Tac-Toe games interactively is merged into the framework of SPI. An optoelectronic artificial intelligent (AI) player with minimal digital computation can detect the game states, generate optimal moves and display output results mainly by pattern illumination and single-pixel detection. Simulated and experimental results demonstrate the feasibility of proposed scheme and its unbeatable performance against human players.
公開日:2022-05-07
翻訳日:2022-05-15 08:25:12
# (参考訳) 学習閾値を用いた変分スパース符号化 [全文訳有]

Variational Sparse Coding with Learned Thresholding ( http://arxiv.org/abs/2205.03665v1 )

ライセンス: CC BY 4.0
Kion Fallah and Christopher J. Rozell(参考訳) スパースコーディング戦略は、低次元構造を利用するデータの控えめな表現で称賛されている。 しかし、これらの符号の推論は通常、高次元問題における計算スケーリングが不十分な最適化手順に依存する。 例えば、ディープニューラルネットワーク(dnn)の高次元中間層で学習される表現におけるスパース推論は、各トレーニングステップで反復最小化を行う必要がある。 そこで,近年,DNN を用いた分散学習により,スパース符号を推定するために,変分推論の高速な手法が提案されている。 そこで本研究では,サンプルをしきい値にすることでスパース分布を学習し,不規則な緩和を回避できる変分スパース符号化手法を提案する。 まず, 線形発生器を訓練し, その性能, 統計的効率, 勾配推定を他のスパース分布と比較して評価し, 解析を行った。 次に、Fashion MNISTおよびCelebAデータセット上のDNNジェネレータを用いた標準変分オートエンコーダと比較する。

Sparse coding strategies have been lauded for their parsimonious representations of data that leverage low dimensional structure. However, inference of these codes typically relies on an optimization procedure with poor computational scaling in high-dimensional problems. For example, sparse inference in the representations learned in the high-dimensional intermediary layers of deep neural networks (DNNs) requires an iterative minimization to be performed at each training step. As such, recent, quick methods in variational inference have been proposed to infer sparse codes by learning a distribution over the codes with a DNN. In this work, we propose a new approach to variational sparse coding that allows us to learn sparse distributions by thresholding samples, avoiding the use of problematic relaxations. We first evaluate and analyze our method by training a linear generator, showing that it has superior performance, statistical efficiency, and gradient estimation compared to other sparse distributions. We then compare to a standard variational autoencoder using a DNN generator on the Fashion MNIST and CelebA datasets
公開日:2022-05-07
翻訳日:2022-05-15 08:19:46
# (参考訳) 会話システムにおけるイディオムのベクトル表現 [全文訳有]

Vector Representations of Idioms in Conversational Systems ( http://arxiv.org/abs/2205.03666v1 )

ライセンス: CC BY 4.0
Tosin Adewumi, Foteini Liwicki and Marcus Liwicki(参考訳) 本研究では,イディオムやフィギュラティブ言語で学習したオープンドメイン会話システムがイディオムを含むプロンプトに対して,より適切な応答を生成することを示す。 イディオムは多くの言語、多くの文化において日常会話の一部であるが、会話型ai以外にも情報検索(ir)や機械翻訳(mt)といったタスクを含む多くの自然言語処理(nlp)システムにとって大きな課題となっている。 我々は,この2つの課題について,潜在的慣用表現(pie)-英語慣用表現コーパスを用いて分類と会話生成を行う。 sota t5モデルを用いて分類タスクにおける98%のマクロf1得点の最先端(sota)結果を得る。 会話生成のための対話生成事前学習型変換器(DialoGPT)の3つの例を実験した。 これらの性能は自動的メートル法と人的評価を用いて評価される。 その結果、イディオムコーパスで訓練されたモデルは、イディオムコーパスで訓練されていない類似のモデルと比較して、71.9%の時間を含むプロンプトに対してより適合した応答を生成することが示された。 私たちは、公開アクセスのためにhuggingface hubにモデルチェックポイント/デモとコードを寄贈します。

We demonstrate, in this study, that an open-domain conversational system trained on idioms or figurative language generates more fitting responses to prompts containing idioms. Idioms are part of everyday speech in many languages, across many cultures, but they pose a great challenge for many Natural Language Processing (NLP) systems that involve tasks such as Information Retrieval (IR) and Machine Translation (MT), besides conversational AI. We utilize the Potential Idiomatic Expression (PIE)-English idioms corpus for the two tasks that we investigate: classification and conversation generation. We achieve state-of-the-art (SoTA) result of 98% macro F1 score on the classification task by using the SoTA T5 model. We experiment with three instances of the SoTA dialogue model, Dialogue Generative Pre-trained Transformer (DialoGPT), for conversation generation. Their performances are evaluated using the automatic metric perplexity and human evaluation. The results show that the model trained on the idiom corpus generates more fitting responses to prompts containing idioms 71.9% of the time, compared to a similar model not trained on the idioms corpus. We contribute the model checkpoint/demo and code on the HuggingFace hub for public access.
公開日:2022-05-07
翻訳日:2022-05-15 07:55:46
# (参考訳) 状態管理による共感応答生成 [全文訳有]

Empathetic Response Generation with State Management ( http://arxiv.org/abs/2205.03676v1 )

ライセンス: CC BY 4.0
Yuhan Liu, Jun Gao, Jiachen Du, Lanjun Zhou, Ruifeng Xu(参考訳) 共感応答生成の目標は、対話システムの会話における感情を知覚し表現する能力を高めることである。 この課題に対する現在のアプローチは、主に、ユーザの感情を認識したり、ターゲットの感情を予測して応答生成モデルを改善することに焦点を当てている。 このようなモデルは部分的な情報(ユーザの感情や対象の感情)のみを利用し、複数の情報を一緒に考慮しない。 反応の感情的スタイルに加えて、反応の意図は共感的反応にも非常に重要である。 そこで本研究では,感情や意図を含む複数の状態情報を同時に考慮できる新しい共感応答生成モデルを提案する。 具体的には,ユーザの感情を最初に認識した対話状態を動的に更新し,ユーザの感情を入力として予め定義されたシフトパターンを介して対象感情と意図を求める状態管理手法を提案する。 得られた情報を用いて応答生成を制御する。 実験の結果、異なる情報を動的に管理することで、モデルがより共感的な反応を生成するのに役立つことがわかった。

The goal of empathetic response generation is to enhance the ability of dialogue systems to perceive and express emotions in conversations. Current approaches to this task mainly focus on improving the response generation model by recognizing the emotion of the user or predicting a target emotion to guide the generation of responses. Such models only exploit partial information (the user's emotion or the target emotion used as a guiding signal) and do not consider multiple information together. In addition to the emotional style of the response, the intent of the response is also very important for empathetic responding. Thus, we propose a novel empathetic response generation model that can consider multiple state information including emotions and intents simultaneously. Specifically, we introduce a state management method to dynamically update the dialogue states, in which the user's emotion is first recognized, then the target emotion and intent are obtained via predefined shift patterns with the user's emotion as input. The obtained information is used to control the response generation. Experimental results show that dynamically managing different information can help the model generate more empathetic responses compared with several baselines under both automatic and human evaluations.
公開日:2022-05-07
翻訳日:2022-05-15 07:40:57
# (参考訳) AKI-BERT : 急性腎損傷早期予測のための事前訓練型臨床言語モデル [全文訳有]

AKI-BERT: a Pre-trained Clinical Language Model for Early Prediction of Acute Kidney Injury ( http://arxiv.org/abs/2205.03695v1 )

ライセンス: CC BY 4.0
Chengsheng Mao, Liang Yao and Yuan Luo(参考訳) 急性腎障害 (aki) は、腎不全や腎障害が数時間から数日で突然発生することが特徴の一般的な臨床症状である。 ICU患者のAKIの正確な早期予測は、他者よりもAKIの介入が可能であり、AKIの合併症を軽減できる。 AKIに関連する臨床情報は、ほとんど構造化されていないテキストであり、有用な情報抽出に高度な自然言語処理(NLP)を必要とする臨床ノートに記録されている。 一方、BERT(Bidirectional Encoder Representations from Transformers)のような事前学習された文脈言語モデルは、最近、多くのNLPタスクの性能を改善している。 しかし、AKI早期予測のような疾患特異的医療領域のタスクについてBERTを探索する人は少ない。 本稿では、特定疾患にBERTを適用し、AKIの早期予測のために臨床ノートのマイニングに使用できるBERT(AKI-BERT)に基づくAKIドメイン固有の事前訓練言語モデルを提案する。 AKI-BERT(AKI-BERT)は、AKIのリスクを持つ患者の臨床ノートに事前訓練されたBERTモデルである。 集中治療のための医療情報マート(MIMIC-III)データセットを用いた実験により,AKI-BERTは早期AKI予測の性能向上を図り,BERTモデルの有用性を一般臨床領域から疾患特異的領域に拡張した。

Acute kidney injury (AKI) is a common clinical syndrome characterized by a sudden episode of kidney failure or kidney damage within a few hours or a few days. Accurate early prediction of AKI for patients in ICU who are more likely than others to have AKI can enable timely interventions, and reduce the complications of AKI. Much of the clinical information relevant to AKI is captured in clinical notes that are largely unstructured text and requires advanced natural language processing (NLP) for useful information extraction. On the other hand, pre-trained contextual language models such as Bidirectional Encoder Representations from Transformers (BERT) have improved performances for many NLP tasks in general domain recently. However, few have explored BERT on disease-specific medical domain tasks such as AKI early prediction. In this paper, we try to apply BERT to specific diseases and present an AKI domain-specific pre-trained language model based on BERT (AKI-BERT) that could be used to mine the clinical notes for early prediction of AKI. AKI-BERT is a BERT model pre-trained on the clinical notes of patients having risks for AKI. Our experiments on Medical Information Mart for Intensive Care III (MIMIC-III) dataset demonstrate that AKI-BERT can yield performance improvements for early AKI prediction, thus expanding the utility of the BERT model from general clinical domain to disease-specific domain.
公開日:2022-05-07
翻訳日:2022-05-15 07:29:24
# (参考訳) 精度収束型フィールド予測器 [全文訳有]

Accuracy Convergent Field Predictors ( http://arxiv.org/abs/2205.03712v1 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) いくつかの予測アルゴリズムについて述べる。 ハイライトは、トレーニングデータインスタンスに関連するフィールドを重畳することで予測を行う変種である。 分類的、連続的、混合的なデータでシームレスに動作する。 予測精度収束は予測アルゴリズムを評価する基準として議論される。 予測精度の収束を達成するためにアルゴリズムを適応する方法について述べる。

Several predictive algorithms are described. Highlighted are variants that make predictions by superposing fields associated to the training data instances. They operate seamlessly with categorical, continuous, and mixed data. Predictive accuracy convergence is also discussed as a criteria for evaluating predictive algorithms. Methods are described on how to adapt algorithms in order to make them achieve predictive accuracy convergence.
公開日:2022-05-07
翻訳日:2022-05-15 07:14:21
# (参考訳) UAVによる3次元再構成の視点と経路計画

A Review on Viewpoints and Path-planning for UAV-based 3D Reconstruction ( http://arxiv.org/abs/2205.03716v1 )

ライセンス: CC BY 4.0
Mehdi Maboudi, MohammadReza Homaei, Soohwan Song, Shirin Malihi, Mohammad Saadatseresht, and Markus Gerke(参考訳) 無人航空機(UAV)は、様々な用途のためのデータキャプチャーセンサーを運ぶために広く使われている。 この成功の理由は、uavの操作性の高さ、自律的なデータ取得能力、異なる高度で飛行する能力、ほぼあらゆる地点に到達できる可能性など、多くの面で見受けられる。 適切な視点の選択とUAVの最適軌道計画は、データキャプチャプロセスの自動化、効率、信頼性を高め、望ましい品質でデータセットを達成することを目的とした、新たなトピックである。 一方、UAVが捉えたデータを用いた3D再構成も研究や産業で注目を集めている。 本稿では,大規模物体の3次元再構成のための視点および経路計画のためのモデルフリーおよびモデルベースアルゴリズムについて検討する。 分析されたアプローチは、屋外3D再構築のためのデータキャプチャプラットフォームとして単一UAVを使用するものに限定される。 本稿では,評価戦略の議論に加えて,調査手法の革新と限界についても論じる。 既存の課題と今後の研究の観点を批判的に分析して結論付ける。

Unmanned aerial vehicles (UAVs) are widely used platforms to carry data capturing sensors for various applications. The reason for this success can be found in many aspects: the high maneuverability of the UAVs, the capability of performing autonomous data acquisition, flying at different heights, and the possibility to reach almost any vantage point. The selection of appropriate viewpoints and planning the optimum trajectories of UAVs is an emerging topic that aims at increasing the automation, efficiency and reliability of the data capturing process to achieve a dataset with desired quality. On the other hand, 3D reconstruction using the data captured by UAVs is also attracting attention in research and industry. This review paper investigates a wide range of model-free and model-based algorithms for viewpoint and path planning for 3D reconstruction of large-scale objects. The analyzed approaches are limited to those that employ a single-UAV as a data capturing platform for outdoor 3D reconstruction purposes. In addition to discussing the evaluation strategies, this paper also highlights the innovations and limitations of the investigated approaches. It concludes with a critical analysis of the existing challenges and future research perspectives.
公開日:2022-05-07
翻訳日:2022-05-15 07:06:58
# (参考訳) 因子グラフを用いたカテゴリー非依存調音物体追跡 [全文訳有]

Category-Independent Articulated Object Tracking with Factor Graphs ( http://arxiv.org/abs/2205.03721v1 )

ライセンス: CC BY 4.0
Nick Heppert, Toki Migimatsu, Brent Yi, Claire Chen, Jeannette Bohg(参考訳) 人間中心の環境に配備されるロボットは、ドア、食器洗い機、キャビネットなど様々な関節を持った物体を操作する必要がある。 アーティキュレートされた物体は、しばしば、カテゴリーの先行と矛盾しない予期せぬ調音機構を持つ:例えば、引き出しは、開いたままではなくヒンジジョイントの周りで回転する。 rgb-d画像のシーケンスから未知物体の調音モデルを予測するためのカテゴリ非依存フレームワークを提案する。 第1に、視覚知覚モジュールは、原画像からのオブジェクト部分のポーズを追跡し、第2に、因子グラフは、これらのポーズを取り、これらの部分間の現在の構成を含む調音モデルを6Dツイストとして推論する。 また,予測されたひねりを考慮すれば,協調型ロボットコントローラが関節オブジェクトをどの程度操作できるかという観点で,予測された関節ねじれを評価するためのマニピュレーション指向メトリックを提案する。 シミュレーションデータでは視覚知覚と因子グラフモジュールがベースラインを上回ることを実証し,実データに対する因子グラフの適用性を示す。

Robots deployed in human-centric environments may need to manipulate a diverse range of articulated objects, such as doors, dishwashers, and cabinets. Articulated objects often come with unexpected articulation mechanisms that are inconsistent with categorical priors: for example, a drawer might rotate about a hinge joint instead of sliding open. We propose a category-independent framework for predicting the articulation models of unknown objects from sequences of RGB-D images. The prediction is performed by a two-step process: first, a visual perception module tracks object part poses from raw images, and second, a factor graph takes these poses and infers the articulation model including the current configuration between the parts as a 6D twist. We also propose a manipulation-oriente d metric to evaluate predicted joint twists in terms of how well a compliant robot controller would be able to manipulate the articulated object given the predicted twist. We demonstrate that our visual perception and factor graph modules outperform baselines on simulated data and show the applicability of our factor graph on real world data.
公開日:2022-05-07
翻訳日:2022-05-15 07:05:55
# (参考訳) 縮合ベイズアルゴリズムによるログロスの高精度レグレト境界 [全文訳有]

Precise Regret Bounds for Log-loss via a Truncated Bayesian Algorithm ( http://arxiv.org/abs/2205.03728v1 )

ライセンス: CC BY 4.0
Changlong Wu, Mohsen Heidari, Ananth Grama, Wojciech Szpankowski(参考訳) 一般オンライン回帰(sequential general online regression, シーケンシャル確率割当とも呼ばれる)を、幅広い専門家と比較した場合の対数損失下で検討した。 専門家のクラスで発生する過大な損失として定義される、逐次的ミニマックスの後悔に対して、厳密で、しばしば一致し、下界と上界を得ることに集中します。 一般上界を証明した後、リプシッツ類から有界ヘッセン類への専門家の特定のクラスを考え、証明可能な最適定数を持つ下界と上界のマッチングを導出する。 私たちの境界は、データ次元とラウンド数という幅広い値に対して機能します。 下限を導出するために、情報理論(例えばシュタルコフ和)のツールを使い、上限については専門家の階級の新しい「スムース・トランケーテッド・カバー」に頼る。 これにより、単純かつ斬新なベイズアルゴリズムを適用することで、構成的証明を見つけることができる。 我々の証明は既存の証明よりもかなり単純であり、より厳密な(そしてしばしば最適な)境界を提供する。

We study the sequential general online regression, known also as the sequential probability assignments, under logarithmic loss when compared against a broad class of experts. We focus on obtaining tight, often matching, lower and upper bounds for the sequential minimax regret that are defined as the excess loss it incurs over a class of experts. After proving a general upper bound, we consider some specific classes of experts from Lipschitz class to bounded Hessian class and derive matching lower and upper bounds with provably optimal constants. Our bounds work for a wide range of values of the data dimension and the number of rounds. To derive lower bounds, we use tools from information theory (e.g., Shtarkov sum) and for upper bounds, we resort to new "smooth truncated covering" of the class of experts. This allows us to find constructive proofs by applying a simple and novel truncated Bayesian algorithm. Our proofs are substantially simpler than the existing ones and yet provide tighter (and often optimal) bounds.
公開日:2022-05-07
翻訳日:2022-05-15 06:45:12
# (参考訳) FRC-TOuNN:ニューラルネットワークを用いた連続繊維強化複合材料のトポロジー最適化 [全文訳有]

FRC-TOuNN: Topology Optimization of Continuous Fiber Reinforced Composites using Neural Network ( http://arxiv.org/abs/2205.03737v1 )

ライセンス: CC BY 4.0
Aaditya Chandrasekhar, Amir Mirzendehdel, Morad Behandish, Krishnan Suresh(参考訳) 本稿では,機能的に傾斜した連続繊維強化複合材料(frc)のマトリックストポロジーと繊維分布を同時に最適化するトポロジー最適化(to)フレームワークを提案する。 frcに対する密度に基づく現在のアプローチでは、基礎となる有限要素メッシュを解析と設計表現の両方に使っている。 これはサブエレメントファイバのスペーシングと高分解能連続ファイバの生成にいくつかの制限を課す。 対照的に,ニューラルネットワーク(NN)に基づくメッシュ非依存表現を提案し,行列トポロジとファイバー分布を捉える。 暗黙的なNNベースの表現は、メッシュの離散化よりも高い解像度で幾何学的および物質的クエリを可能にする。 これにより、機能的に劣化した連続繊維の正確な抽出に繋がる。 さらに、有限要素シミュレーションをNN計算フレームワークに統合することにより、エンドツーエンドの自動感度解析に自動微分を利用することができる。 提案手法の有効性と計算効率を,様々な目的関数を含む数値的な例を通して示す。 また, 最適化した連続繊維強化複合材料は, 高分解能で直接製造できることを示した。

In this paper, we present a topology optimization (TO) framework to simultaneously optimize the matrix topology and fiber distribution of functionally graded continuous fiber-reinforced composites (FRC). Current approaches in density-based TO for FRC use the underlying finite element mesh both for analysis and design representation. This poses several limitations while enforcing sub-element fiber spacing and generating high-resolution continuous fibers. In contrast, we propose a mesh-independent representation based on a neural network (NN) both to capture the matrix topology and fiber distribution. The implicit NN-based representation enables geometric and material queries at a higher resolution than a mesh discretization. This leads to the accurate extraction of functionally-graded continuous fibers. Further, by integrating the finite element simulations into the NN computational framework, we can leverage automatic differentiation for end-to-end automated sensitivity analysis, i.e., we no longer need to manually derive cumbersome sensitivity expressions. We demonstrate the effectiveness and computational efficiency of the proposed method through several numerical examples involving various objective functions. We also show that the optimized continuous fiber reinforced composites can be directly fabricated at high resolution using additive manufacturing.
公開日:2022-05-07
翻訳日:2022-05-15 06:21:31
# (参考訳) 生成逆ネットワークを用いたエンドツーエンドラビング修復 [全文訳有]

End-to-End Rubbing Restoration Using Generative Adversarial Networks ( http://arxiv.org/abs/2205.03743v1 )

ライセンス: CC BY 4.0
Gongbo Sun, Zijie Zheng, and Ming Zhang(参考訳) ルビング修復は世界文化史の保存に重要である。 本稿では,不完全なラビング文字の復元のためのRubbingGANモデルを提案する。 具体的には、zhang menglong beiから文字を収集し、最初のラビング復元データセットを構築する。 修復作業のための第1世代対向ネットワークを設計する。 収集したデータセットに基づいて、Zhang Menglong Beiフォントスタイルを学習し、文字を復元するためにRubbingGANを適用します。 実験の結果,rubbingganはわずかに不完全なrubingキャラクタを迅速かつ効果的に修復できることが判明した。

Rubbing restorations are significant for preserving world cultural history. In this paper, we propose the RubbingGAN model for restoring incomplete rubbing characters. Specifically, we collect characters from the Zhang Menglong Bei and build up the first rubbing restoration dataset. We design the first generative adversarial network for rubbing restoration. Based on the dataset we collect, we apply the RubbingGAN to learn the Zhang Menglong Bei font style and restore the characters. The results of experiments show that RubbingGAN can repair both slightly and severely incomplete rubbing characters fast and effectively.
公開日:2022-05-08
翻訳日:2022-05-15 05:59:50