このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220914となっている論文です。

PDF登録状況(公開日: 20220914)

TitleAuthorsAbstract論文公表日・翻訳日
# 半定値プログラムを解くためのリーマンランジュバンアルゴリズム

Riemannian Langevin Algorithm for Solving Semidefinite Programs ( http://arxiv.org/abs/2010.11176v4 )

ライセンス: Link先を確認
Mufan Bill Li, Murat A. Erdogdu(参考訳) 球面積多様体上での非凸最適化とサンプリングのためのランゲヴィン拡散に基づくアルゴリズムを提案する。 Under a logarithmic Sobolev inequality, we establish a guarantee for finite iteration convergence to the Gibbs distribution in terms of Kullback--Leibler divergence. We show that with an appropriate temperature choice, the suboptimality gap to the global minimum is guaranteed to be arbitrarily small with high probability. As an application, we consider the Burer--Monteiro approach for solving a semidefinite program (SDP) with diagonal constraints, and analyze the proposed Langevin algorithm for optimizing the non-convex objective. 特に、緩やかな局所ミニマが存在しないが、サドル点の存在下では、ブルア-モンテイロ問題に対する対数的ソボレフ不等式を確立する。 結果を組み合わせることで、SDPとMax-Cut問題に対するグローバルな最適性を保証する。 より正確には、Langevin アルゴリズムは $\epsilon$ accuracy を $\widetilde{\Omega}( \epsilon^{-5} )$ iterations で高い確率で達成することを示した。

We propose a Langevin diffusion-based algorithm for non-convex optimization and sampling on a product manifold of spheres. Under a logarithmic Sobolev inequality, we establish a guarantee for finite iteration convergence to the Gibbs distribution in terms of Kullback--Leibler divergence. We show that with an appropriate temperature choice, the suboptimality gap to the global minimum is guaranteed to be arbitrarily small with high probability. As an application, we consider the Burer--Monteiro approach for solving a semidefinite program (SDP) with diagonal constraints, and analyze the proposed Langevin algorithm for optimizing the non-convex objective. In particular, we establish a logarithmic Sobolev inequality for the Burer--Monteiro problem when there are no spurious local minima, but under the presence saddle points. Combining the results, we then provide a global optimality guarantee for the SDP and the Max-Cut problem. More precisely, we show that the Langevin algorithm achieves $\epsilon$ accuracy with high probability in $\widetilde{\Omega}( \epsilon^{-5} )$ iterations.
翻訳日:2022-10-04 23:32:51 公開日:2022-09-14
# ワークフローにおけるタスク複製決定のための強化学習の分析

Analysis of Reinforcement Learning for determining task replication in workflows ( http://arxiv.org/abs/2209.13531v1 )

ライセンス: Link先を確認
Andrew Stephen McGough, Matthew Forshaw(参考訳) 個々のタスクがリソースの一次使用のためにリソースを放棄せざるを得ない、ボランティアコンピューティングリソース上のワークフローの実行は予測不能につながり、実行時間を大幅に増加させる。 タスクレプリケーションは、この課題を改善するアプローチのひとつです。 これは、システム負荷とエネルギー消費の潜在的な増加を犠牲にしている。 そこで,本研究では,レプリカが有益でない場合にシステムに追加のワークロードを最小化しつつ,ワークフロー数を迅速に増加させるため,システムが実行すべきレプリカ数の‘ベスト’を‘学習’できる強化学習(rl)の利用を提案する。 シミュレーションにより、あらかじめ定義されたオーバーヘッドバウンダリを達成するワークフローの4%しか減少しない固定数のレプリカと比較して、RLによるエネルギー消費量の34%を節約できることが示される。

Executing workflows on volunteer computing resources where individual tasks may be forced to relinquish their resource for the resource's primary use leads to unpredictability and often significantly increases execution time. Task replication is one approach that can ameliorate this challenge. This comes at the expense of a potentially significant increase in system load and energy consumption. We propose the use of Reinforcement Learning (RL) such that a system may `learn' the `best' number of replicas to run to increase the number of workflows which complete promptly whilst minimising the additional workload on the system when replicas are not beneficial. We show, through simulation, that we can save 34% of the energy consumption using RL compared to a fixed number of replicas with only a 4% decrease in workflows achieving a pre-defined overhead bound.
翻訳日:2022-10-02 23:41:24 公開日:2022-09-14
# 機械学習犯罪共犯モデルの正確性、公平性、解釈性

Accuracy, Fairness, and Interpretability of Machine Learning Criminal Recidivism Models ( http://arxiv.org/abs/2209.14237v1 )

ライセンス: Link先を確認
Eric Ingram, Furkan Gursoy, Ioannis A. Kakadiaris(参考訳) 犯罪再犯モデル(Criminal recidivism model)は、仮釈放決定を支援するために全米の仮釈放委員会によって広く採用されているツールである。 これらのモデルは、個人に関する大量のデータを取り込み、仮釈放時に個人が犯罪を犯すかどうかを予測する。 このようなモデルは、最終的な仮釈放決定を行う唯一の要因または主要な要因ではないが、その正確性、公平性、解釈可能性に関する疑問が提起されている。 本稿では,ジョージア州における実世界の仮釈放決定データセットに基づいて,さまざまな機械学習に基づく犯罪再犯モデルを作成する。 レシディズムモデルは、その正確性、公平性、解釈性について比較評価されている。 正確さ、公平さ、本質的に解釈可能であることには、明らかな違いとトレードオフがある。 したがって、最良のモデルを選択することは、正確性、公平性、解釈可能性の間の望ましいバランスに依存する。

Criminal recidivism models are tools that have gained widespread adoption by parole boards across the United States to assist with parole decisions. These models take in large amounts of data about an individual and then predict whether an individual would commit a crime if released on parole. Although such models are not the only or primary factor in making the final parole decision, questions have been raised about their accuracy, fairness, and interpretability. In this paper, various machine learning-based criminal recidivism models are created based on a real-world parole decision dataset from the state of Georgia in the United States. The recidivism models are comparatively evaluated for their accuracy, fairness, and interpretability. It is found that there are noted differences and trade-offs between accuracy, fairness, and being inherently interpretable. Therefore, choosing the best model depends on the desired balance between accuracy, fairness, and interpretability, as no model is perfect or consistently the best across different criteria.
翻訳日:2022-10-02 23:41:10 公開日:2022-09-14
# Meta-RegGNN: グラフニューラルネットワークとメタラーニングによる言語およびフルスケールインテリジェンススコアの予測

Meta-RegGNN: Predicting Verbal and Full-Scale Intelligence Scores using Graph Neural Networks and Meta-Learning ( http://arxiv.org/abs/2209.13530v1 )

ライセンス: Link先を確認
Imen Jegham and Islem Rekik(参考訳) 人間の脳構造から知性を解読することは、特定の神経疾患の検出に不可欠である。 近年、機能的脳コネクトームは行動スコアの予測に成功している。 しかし、最先端の手法はコネクトームのトポロジカルな性質を無視し、一方、高い物体間脳の不均一性を解決するのに失敗した。 これらの制約に対処するために,脳コネクトームから行動スコアを予測するメタラーニング,メタRegGNNによる新しい回帰グラフニューラルネットワークを提案する。 提案した回帰GNNのパラメータは、少数の勾配ステップと少量のトレーニングデータを組み合わせることで、目に見えない脳コネクトームに良い一般化をもたらすよう明示的に訓練されている。 言語およびフルスケールインテリジェンスクォージェント(IQ)予測は,ニューロタイプおよび自閉症スペクトラム障害のコホートにおいて,既存の手法よりも優れていた。 さらに,本提案手法は,特に自閉症者に対して,一般化可能性を保証する。 Meta-RegGNNのソースコードはhttps://github.com/basiralab/Meta-RegGNNで公開されています。

Decrypting intelligence from the human brain construct is vital in the detection of particular neurological disorders. Recently, functional brain connectomes have been used successfully to predict behavioral scores. However, state-of-the-art methods, on one hand, neglect the topological properties of the connectomes and, on the other hand, fail to solve the high inter-subject brain heterogeneity. To address these limitations, we propose a novel regression graph neural network through meta-learning namely Meta-RegGNN for predicting behavioral scores from brain connectomes. The parameters of our proposed regression GNN are explicitly trained so that a small number of gradient steps combined with a small training data amount produces a good generalization to unseen brain connectomes. Our results on verbal and full-scale intelligence quotient (IQ) prediction outperform existing methods in both neurotypical and autism spectrum disorder cohorts. Furthermore, we show that our proposed approach ensures generalizability, particularly for autistic subjects. Our Meta-RegGNN source code is available at https://github.com/basiralab/Meta-RegGNN.
翻訳日:2022-10-02 23:32:43 公開日:2022-09-14
# 機能豊富な長期bitcoin取引アシスタント

Feature-Rich Long-term Bitcoin Trading Assistant ( http://arxiv.org/abs/2209.12664v1 )

ライセンス: Link先を確認
Jatin Nainani (1), Nirman Taterh (1), Md Ausaf Rashid (1), Ankit Khivasara (1) ((1) K. J. Somaiya College of Engineering)(参考訳) 長い間、金融指標の予測、研究、分析が金融コミュニティにとって大きな関心を集めてきた。 近年、多くの分野において過去のベンチマークの多くを上回り、強化学習を利用するためのディープラーニングコミュニティへの関心が高まっている。 提案手法は,強化学習エージェントが取り組む機能豊富な環境を提供する。 利用者に長期的利益を提供することを目標とし、最も信頼性の高い技術指標を考慮に入れた。 私たちはまた、Bitcoin市場に関するより良い洞察をユーザーに提供できるカスタム指標も開発した。 Bitcoin市場はトレーダーの感情や感情に従うため、私たちのトレーディング環境のもうひとつの要素は、Twitter上の市場全体のセンチメントスコアである。 この薬は、covid-19の揮発性期間を含む685日間にわたって試験される。 信頼性の高いレコメンデーションを提供することができ、平均利益は約69%である。 最後に、エージェントはウェブサイトを通じてユーザーに対して最適なアクションを提案することもできる。 ウェブサイトのユーザは、インジケータの視覚化にアクセスして、意思決定を強化することもできる。

For a long time predicting, studying and analyzing financial indices has been of major interest for the financial community. Recently, there has been a growing interest in the Deep-Learning community to make use of reinforcement learning which has surpassed many of the previous benchmarks in a lot of fields. Our method provides a feature rich environment for the reinforcement learning agent to work on. The aim is to provide long term profits to the user so, we took into consideration the most reliable technical indicators. We have also developed a custom indicator which would provide better insights of the Bitcoin market to the user. The Bitcoin market follows the emotions and sentiments of the traders, so another element of our trading environment is the overall daily Sentiment Score of the market on Twitter. The agent is tested for a period of 685 days which also included the volatile period of Covid-19. It has been capable of providing reliable recommendations which give an average profit of about 69%. Finally, the agent is also capable of suggesting the optimal actions to the user through a website. Users on the website can also access the visualizations of the indicators to help fortify their decisions.
翻訳日:2022-10-02 23:30:47 公開日:2022-09-14
# レコメンダシステムにおける選好操作のソリューションはメタ参照の知識を必要とする

Solutions to preference manipulation in recommender systems require knowledge of meta-preferences ( http://arxiv.org/abs/2209.11801v1 )

ライセンス: Link先を確認
Hal Ashton, Matija Franklin(参考訳) レコメンダシステムを動かすために使用される反復機械学習アルゴリズムは、学習することで人の好みを変えることが多い。 さらにリコメンデータは、ユーザがより予測しやすくすることで、ユーザが何をするかをより正確に予測できる。 ユーザの一部の好み変更は、自己誘導であり、レコメンダがそれを引き起こすかどうかを希望する。 本稿では,レコメンダシステムにおける選好操作に対する解決策として,ユーザの自律性を尊重し,操作的でないメタ参照(他の選好に対する参照)を考慮しなければならないことを提案する。

Iterative machine learning algorithms used to power recommender systems often change people's preferences by trying to learn them. Further a recommender can better predict what a user will do by making its users more predictable. Some preference changes on the part of the user are self-induced and desired whether the recommender caused them or not. This paper proposes that solutions to preference manipulation in recommender systems must take into account certain meta-preferences (preferences over another preference) in order to respect the autonomy of the user and not be manipulative.
翻訳日:2022-10-02 23:23:04 公開日:2022-09-14
# dGLI衣服座標:衣服状態の意味分類のためのトポロジ的表現

The dGLI Cloth Coordinates: A Topological Representation for Semantic Classification of Cloth States ( http://arxiv.org/abs/2209.09191v1 )

ライセンス: Link先を確認
Franco Coltraro, Josep Fontana, Jaume Amor\'os, Maria Alberich-Carrami\~nana, J\'ulia Borr\`as, Carme Torras(参考訳) 布のロボット操作は、布の状態推定を非常に困難にする無限次元の形状状態空間のため、非常に複雑な作業である。 本稿では,長方形の布の状態の低次元表現であるdGLIクロースコーディネートを導入し,折り畳み配列における重要なトポロジ的変化を効率的に識別し,効率的な布の操作計画と制御の学習方法への扉を開く。 我々の表現はガウスリンク積分の方向微分に基づいており、一貫した一貫した方法で平面構成と空間構成の両方を表現できる。 提案したdGLI衣服座標は,布の状態の分類においてより正確であり,他の古典的な形状距離法よりも把握能力の変化に非常に敏感である。 最後に,この表現を布の実像に適用し,簡単な距離ベース分類器を用いて異なる状態の識別を行う。

Robotic manipulation of cloth is a highly complex task because of its infinite-dimensional shape-state space that makes cloth state estimation very difficult. In this paper we introduce the dGLI Cloth Coordinates, a low-dimensional representation of the state of a rectangular piece of cloth that allows to efficiently distinguish key topological changes in a folding sequence, opening the door to efficient learning methods for cloth manipulation planning and control. Our representation is based on a directional derivative of the Gauss Linking Integral and allows us to represent both planar and spatial configurations in a consistent unified way. The proposed dGLI Cloth Coordinates are shown to be more accurate in the classification of cloth states and significantly more sensitive to changes in grasping affordances than other classic shape distance methods. Finally, we apply our representation to real images of a cloth, showing we can identify the different states using a simple distance-based classifier.
翻訳日:2022-09-25 17:24:20 公開日:2022-09-14
# グラフ上の深部生成モデルを用いた薬物・薬物相互作用の予測

Predicting Drug-Drug Interactions using Deep Generative Models on Graphs ( http://arxiv.org/abs/2209.09941v1 )

ライセンス: Link先を確認
Nhat Khang Ngo and Truong Son Hy and Risi Kondor(参考訳) 現代のグラフオートエンコーダモデルによって生成された薬物とその標的の潜在表現は、ドラッグドラッグ、ドラッグターゲット、ターゲット標的相互作用など、大規模ネットワーク上の多くの種類のノードペア相互作用を予測するのに有用である。 しかし、既存のアプローチのほとんどは、ノードの分布が固く非結合であるノードの潜在空間をモデル化しており、これらの制限は、ノード対間の新しいリンクを生成する方法を妨げる。 本稿では,マルチモーダルネットワーク上での潜在ノード表現のモデル化における変分グラフオートエンコーダ(VGAE)の有効性を示す。 本手法はマルチモーダルグラフの各ノードタイプに対してフレキシブルな潜在空間を生成することができる。 モデルの性能をさらに高めるために,各薬剤の分子構造を捕捉するmorgan fingerprintsを潜在埋め込みで結合し,リンク予測を行う新しい手法を提案する。 提案モデルでは,(1) 薬物ノードとタンパク質ノードからなるマルチグラフ,(2) 薬物ノードと細胞ラインノードからなるマルチグラフの2つのマルチモーダルネットワーク上での競合結果を示す。 ソースコードはhttps://github.com/hysonlab/drug-interactionsで公開しています。

Latent representations of drugs and their targets produced by contemporary graph autoencoder-based models have proved useful in predicting many types of node-pair interactions on large networks, including drug-drug, drug-target, and target-target interactions. However, most existing approaches model the node's latent spaces in which node distributions are rigid and disjoint; these limitations hinder the methods from generating new links among pairs of nodes. In this paper, we present the effectiveness of variational graph autoencoders (VGAE) in modeling latent node representations on multimodal networks. Our approach can produce flexible latent spaces for each node type of the multimodal graph; the embeddings are used later for predicting links among node pairs under different edge types. To further enhance the models' performance, we suggest a new method that concatenates Morgan fingerprints, which capture the molecular structures of each drug, with their latent embeddings before preceding them to the decoding stage for link prediction. Our proposed model shows competitive results on two multimodal networks: (1) a multi-graph consisting of drug and protein nodes, and (2) a multi-graph consisting of drug and cell line nodes. Our source code is publicly available at https://github.com/HySonLab/drug-interactions.
翻訳日:2022-09-25 17:22:47 公開日:2022-09-14
# 平衡伝播を用いたシーケンス学習

Sequence Learning using Equilibrium Propagation ( http://arxiv.org/abs/2209.09626v1 )

ライセンス: Link先を確認
Malyaban Bal and Abhronil Sengupta(参考訳) Equilibrium Propagation (EP) は、バックプロパゲーションのような従来の学習フレームワークに代わる、強力でより生物学的な代替手段である。 EPの有効性は、局所的な計算にのみ依存し、両方のトレーニングフェーズで1種類の計算ユニットだけを必要とするという事実から来ており、生物にインスパイアされたニューロモルフィックコンピューティングのような領域で適用性を高めることができる。 EPにおけるモデルの力学はエネルギー関数によって制御され、モデルの内部状態は同じで定義された状態遷移規則に従って定常状態に収束する。 しかし、EPの定義によれば、モデルの入力(収束RNN)はトレーニングの両フェーズで静的である必要がある。 したがって、LSTMやGRUのようなアーキテクチャを用いたEPを用いたシーケンス分類モデルの設計は不可能である。 本稿では,現代ホップフィールドネットワークにおける最近の発展を活用し,エネルギーベースモデルをさらに理解し,収束基準を満たしながらEPを用いた複雑なシーケンス分類タスクの解を開発し,再帰的バックプロパゲーションと理論的類似性を維持する。 本研究では,EP で使用される収束 RNN モデルに注目するメカニズムとして,現代のホップフィールドネットワークを統合する可能性を探究し,自然言語処理における2つの異なるシーケンス分類タスクに対して,その適用性を初めて拡張する。

Equilibrium Propagation (EP) is a powerful and more bio-plausible alternative to conventional learning frameworks such as backpropagation. The effectiveness of EP stems from the fact that it relies only on local computations and requires solely one kind of computational unit during both of its training phases, thereby enabling greater applicability in domains such as bio-inspired neuromorphic computing. The dynamics of the model in EP is governed by an energy function and the internal states of the model consequently converge to a steady state following the state transition rules defined by the same. However, by definition, EP requires the input to the model (a convergent RNN) to be static in both the phases of training. Thus it is not possible to design a model for sequence classification using EP with an LSTM or GRU like architecture. In this paper, we leverage recent developments in modern hopfield networks to further understand energy based models and develop solutions for complex sequence classification tasks using EP while satisfying its convergence criteria and maintaining its theoretical similarities with recurrent backpropagation. We explore the possibility of integrating modern hopfield networks as an attention mechanism with convergent RNN models used in EP, thereby extending its applicability for the first time on two different sequence classification tasks in natural language processing viz. sentiment analysis (IMDB dataset) and natural language inference (SNLI dataset).
翻訳日:2022-09-25 17:15:17 公開日:2022-09-14
# PainPoints: 言語による慢性痛の検出と専門家共同テキスト要約のためのフレームワーク

PainPoints: A Framework for Language-based Detection of Chronic Pain and Expert-Collaborative Text-Summarization ( http://arxiv.org/abs/2209.09814v1 )

ライセンス: Link先を確認
Shreyas Fadnavis, Amit Dhurandhar, Raquel Norel, Jenna M Reinen, Carla Agurto, Erica Secchettin, Vittorio Schweiger, Giovanni Perini, Guillermo Cecchi(参考訳) 慢性的な痛みは、しばしば非常に不快で、うつ病や不安などの共生と関連している広汎な障害である。 神経病理性痛 (NP) は、神経損傷によってしばしば引き起こされる一般的なサブタイプであり、既知の病態を持つ。 もう一つの一般的なサブタイプはFibromyalgia(FM)であり、体内に広がる筋骨格、びまん性痛みである。 FMの病態は理解されていないため診断は非常に困難である。 FMおよびNPの標準薬と治療は互いに異なり、誤診すると症状の重症度が増加する可能性がある。 そこで我々は,痛みのサブタイプを正確に検出し,患者インタビューを要約して臨床メモを生成する新しい枠組みPainPointsを提案する。 具体的には、大規模な言語モデルを用いて、信頼性のあるauc 0.83のfm患者とnp患者のインタビューから得られたテキストの文レベルの分類を行う。 本稿では, 患者が痛みを説明するために使用するニュアンスを, 微調整モデルで正確に把握する方法を説明する。 最後に,これらインタビューの要約を専門家による介入を通じて生成し,新しいファセットベースのアプローチを提案する。 これにより、PainPointsは、実践者がファセットを追加/ドロップし、この作業で導入された"ファセットカバレッジ"の概念に基づいたカスタムサマリを生成することができる。

Chronic pain is a pervasive disorder which is often very disabling and is associated with comorbidities such as depression and anxiety. Neuropathic Pain (NP) is a common sub-type which is often caused due to nerve damage and has a known pathophysiology. Another common sub-type is Fibromyalgia (FM) which is described as musculoskeletal, diffuse pain that is widespread through the body. The pathophysiology of FM is poorly understood, making it very hard to diagnose. Standard medications and treatments for FM and NP differ from one another and if misdiagnosed it can cause an increase in symptom severity. To overcome this difficulty, we propose a novel framework, PainPoints, which accurately detects the sub-type of pain and generates clinical notes via summarizing the patient interviews. Specifically, PainPoints makes use of large language models to perform sentence-level classification of the text obtained from interviews of FM and NP patients with a reliable AUC of 0.83. Using a sufficiency-based interpretability approach, we explain how the fine-tuned model accurately picks up on the nuances that patients use to describe their pain. Finally, we generate summaries of these interviews via expert interventions by introducing a novel facet-based approach. PainPoints thus enables practitioners to add/drop facets and generate a custom summary based on the notion of "facet-coverage" which is also introduced in this work.
翻訳日:2022-09-25 17:14:53 公開日:2022-09-14
# TASKED:Self-KnowledgE Distillationを用いたウェアラブルセンサを用いたトランスフォーマーに基づく人間行動認識のための逆学習

TASKED: Transformer-based Adversarial learning for human activity recognition using wearable sensors via Self-KnowledgE Distillation ( http://arxiv.org/abs/2209.09092v1 )

ライセンス: Link先を確認
Sungho Suh, Vitor Fortes Rey and Paul Lukowicz(参考訳) ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)が主要な研究領域として登場し、様々な用途で利用されている。 近年,人間-コンピュータインタラクションアプリケーションの開発により,深層学習に基づく手法がhar分野において著しく改善されている。 しかし、それらは標準的な畳み込みニューラルネットワークの過程において局所的にのみ動作し、身体位置上の異なるセンサ間の相関は無視される。 さらに、トレーニングデータとテストデータの分布に大きなギャップがあり、被験者間の行動の違いがあるため、パフォーマンス劣化に関する重大な課題に直面している。 本研究では, センサの向きや空間的, 時間的特徴を考慮に入れた, 自己知識蒸留(TASKED)による, ウェアラブルセンサを用いた人間行動認識のためのトランスフォーマーベース適応学習フレームワークを提案する。 提案手法は,逆学習とmmd(maximum mean discrepancy)正規化を用いて,複数の対象データからクロスドメイン埋め込み特徴表現を学習し,複数の領域にまたがるデータ分布を調整できる。 提案手法では,教師なしの自己知識蒸留を採用し,訓練手順の安定性と人間の活動認識性能を向上させる。 実験結果から,TASKEDは実世界の4つのHARデータセットにおいて,最先端の手法よりも優れるだけでなく,対象の一般化を効果的に改善することが示された。

Wearable sensor-based human activity recognition (HAR) has emerged as a principal research area and is utilized in a variety of applications. Recently, deep learning-based methods have achieved significant improvement in the HAR field with the development of human-computer interaction applications. However, they are limited to operating in a local neighborhood in the process of a standard convolution neural network, and correlations between different sensors on body positions are ignored. In addition, they still face significant challenging problems with performance degradation due to large gaps in the distribution of training and test data, and behavioral differences between subjects. In this work, we propose a novel Transformer-based Adversarial learning framework for human activity recognition using wearable sensors via Self-KnowledgE Distillation (TASKED), that accounts for individual sensor orientations and spatial and temporal features. The proposed method is capable of learning cross-domain embedding feature representations from multiple subjects datasets using adversarial learning and the maximum mean discrepancy (MMD) regularization to align the data distribution over multiple domains. In the proposed method, we adopt the teacher-free self-knowledge distillation to improve the stability of the training procedure and the performance of human activity recognition. Experimental results show that TASKED not only outperforms state-of-the-art methods on the four real-world public HAR datasets (alone or combined) but also improves the subject generalization effectively.
翻訳日:2022-09-25 17:13:23 公開日:2022-09-14
# オンライン手書き認識の精度と説明性の向上

Improving Accuracy and Explainability of Online Handwriting Recognition ( http://arxiv.org/abs/2209.09102v1 )

ライセンス: Link先を確認
Hilda Azimi, Steven Chang, Jonathan Gold, Koray Karabina(参考訳) 手書き認識技術により、所定のデータからテキストを認識できる。 認識タスクは文字、シンボル、単語をターゲットとすることができ、入力データはデジタル画像または各種センサによって記録される。 効率良く正確な手書き認識アルゴリズムを実装することにより、署名検証から電子文書処理まで幅広い応用を実現することができる。 長年にわたり、手書きデータの収集、データセットの作成、文字やシンボルを認識するアルゴリズムの開発など、さまざまなタイプのテクノロジーを実験することへの関心が高まっている。 onhw-charsデータセットは、センサーを装着したボールペンを使って収集された英語アルファベットの多変量時系列データを含む。 OnHW-charsの作者は、機械学習(ML)とディープラーニング(DL)分類器を通じて、いくつかのベースライン結果も提供した。 本論文では,OnHW-charsデータセット上で手書き認識モデルを開発し,先行モデルの精度を向上する。 具体的には、私たちのMLモデルは、以前のMLモデルよりも11.3\%$-23.56\%$改善を提供し、アンサンブル学習を備えた最適化されたDLモデルは、以前のDLモデルよりも3.08\%$-7.01\%改善を提供します。 スペクトルに対する精度の向上に加えて、選択したメソッドの背後にあるロジックと、なぜモデルがデータセットのデータタイプに意味を持つのかを、モデルに対してある程度の説明可能性を提供することを目標としています。 私たちの結果は公開リポジトリを通じて検証可能で再現可能です。

Handwriting recognition technology allows recognizing a written text from a given data. The recognition task can target letters, symbols, or words, and the input data can be a digital image or recorded by various sensors. A wide range of applications from signature verification to electronic document processing can be realized by implementing efficient and accurate handwriting recognition algorithms. Over the years, there has been an increasing interest in experimenting with different types of technology to collect handwriting data, create datasets, and develop algorithms to recognize characters and symbols. More recently, the OnHW-chars dataset has been published that contains multivariate time series data of the English alphabet collected using a ballpoint pen fitted with sensors. The authors of OnHW-chars also provided some baseline results through their machine learning (ML) and deep learning (DL) classifiers. In this paper, we develop handwriting recognition models on the OnHW-chars dataset and improve the accuracy of previous models. More specifically, our ML models provide $11.3\%$-$23.56\%$ improvements over the previous ML models, and our optimized DL models with ensemble learning provide $3.08\%$-$7.01\%$ improvements over the previous DL models. In addition to our accuracy improvements over the spectrum, we aim to provide some level of explainability for our models to provide more logic behind chosen methods and why the models make sense for the data type in the dataset. Our results are verifiable and reproducible via the provided public repository.
翻訳日:2022-09-25 17:12:57 公開日:2022-09-14
# 画像補間アルゴリズムにおける正規化重み付け方式

Normalized Weighting Schemes for Image Interpolation Algorithms ( http://arxiv.org/abs/2011.08559v4 )

ライセンス: Link先を確認
Olivier Rukundo(参考訳) 画像補間アルゴリズムは多くの現代的な画像処理と解析の応用に及んでいる。 しかし、重み付け方式が非効率に非常に非現実的な見積を生成する場合、エンドユーザーアプリケーションの性能に悪影響を及ぼす可能性がある。 そこで本研究では,デジタル画像補間操作のための幾何形状に基づく重み付けスキームを4種類導入した。 また、各形状重量の程度を表すために用いられる量は、特に面積の和が単位平方メートルを超える場合の正規化面積であった。 導入した4つの重み付けスキームは、正四角形の最小辺基径(md)、減弱基半径(hr)、三角形領域の仮想画素長基高さ(at)、円(ac)領域の減弱基半径の仮想画素長に基づく。 スケーリング比が小さくなると、hrスキームに基づく画像補間アルゴリズムは、提示される従来の画像補間アルゴリズムの中で66.6パーセントで最高となった。 しかし、より高いスケーリング率で、acスキームに基づく画像補間アルゴリズムは、提示される非伝統的なアルゴリズムの中で66.6パーセントで最高に得点し、この画像補間品質は、非伝統的なアルゴリズムと従来のアルゴリズムの両方で補間された画像の品質に匹敵するものであった。

Image interpolation algorithms pervade many modern image processing and analysis applications. However, when their weighting schemes inefficiently generate very unrealistic estimates, they may negatively affect the performance of the end user applications. Therefore, in this work, the author introduced four weighting schemes based on some geometric shapes for digital image interpolation operations. And, the quantity used to express the extent of each shape weight was the normalized area, especially when the sums of areas exceeded a unit square size. The introduced four weighting schemes are based on the minimum side based diameter (MD) of a regular tetragon, hypotenuse based radius (HR), the virtual pixel length based height for the area of the triangle (AT), and the virtual pixel length for hypotenuse based radius for the area of the circle (AC). At the smaller scaling ratio, the image interpolation algorithm based on the HR scheme scored the highest at 66.6 % among non traditional image interpolation algorithms presented. But, at the higher scaling ratio, the AC scheme based image interpolation algorithm scored the highest at 66.6 % among non traditional algorithms presented and, here, its image interpolation quality was generally superior or comparable to the quality of images interpolated by both non traditional and traditional algorithms.
翻訳日:2022-09-24 17:21:57 公開日:2022-09-14
# 正の未ラベル学習によるプロテアソーム切断予測の改善

Improved proteasomal cleavage prediction with positive-unlabeled learning ( http://arxiv.org/abs/2209.07527v1 )

ライセンス: Link先を確認
Emilio Dorigatti, Bernd Bischl, Benjamin Schubert(参考訳) 癌に対するパーソナライズされたエピトープワクチン設計を可能にするために、抗原処理経路のシリコモデリングの精度が重要である。 この経路の重要なステップは、プロテアソームによるワクチンのより小さなペプチドへの分解であり、そのうちのいくつかはMHC複合体によってT細胞に提示される。 MHC-ペプチドの提示は近年注目されているが、高出力質量分析に基づくMHCリガンドミクスの最近の進歩を踏まえ、プロテアソーム切断予測は比較的未解明領域である。 さらに、そのような実験手法では、切断できない領域を特定できないため、最新の予測器は、実際に正であるとしても、合成陰性サンプルを生成して、トレーニング時に真の負として扱う。 そこで本研究では,拡張データセットと正の未ラベル学習の確固たる理論的基盤を訓練した新しい予測器を提案する。 予測能力の向上により、エピトープベースのワクチンの有効性を向上させるより正確なワクチン開発が可能になる。 コードと事前トレーニングされたモデルはhttps://github.com/schubertlab/proteasomal-cleavage-puuplで入手できる。

Accurate in silico modeling of the antigen processing pathway is crucial to enable personalized epitope vaccine design for cancer. An important step of such pathway is the degradation of the vaccine into smaller peptides by the proteasome, some of which are going to be presented to T cells by the MHC complex. While predicting MHC-peptide presentation has received a lot of attention recently, proteasomal cleavage prediction remains a relatively unexplored area in light of recent advances in high-throughput mass spectrometry-based MHC ligandomics. Moreover, as such experimental techniques do not allow to identify regions that cannot be cleaved, the latest predictors generate synthetic negative samples and treat them as true negatives when training, even though some of them could actually be positives. In this work, we thus present a new predictor trained with an expanded dataset and the solid theoretical underpinning of positive-unlabeled learning, achieving a new state-of-the-art in proteasomal cleavage prediction. The improved predictive capabilities will in turn enable more precise vaccine development improving the efficacy of epitope-based vaccines. Code and pretrained models are available at https://github.com/SchubertLab/proteasomal-cleavage-puupl.
翻訳日:2022-09-19 13:36:20 公開日:2022-09-14
# 圧縮粒子に基づくフェデレーションベイズ学習とアンラーニング

Compressed Particle-Based Federated Bayesian Learning and Unlearning ( http://arxiv.org/abs/2209.07267v1 )

ライセンス: Link先を確認
Jinu Gong, Osvaldo Simeone, and Joonhyuk Kang(参考訳) 従来の頻度主義的FLスキームは、過度な決定を下すことが知られている。 ベイジアンFLはモデルパラメータ上の分布に符号化された不確実性情報の処理と交換を可能にすることでこの問題に対処する。 しかしこれは、イテレーション毎の通信オーバーヘッドが大きくなるというコストが伴う。 本文は,通信帯域制限時のキャリブレーションにおいて,ベイジアンFLが依然として有利であるかどうかを考察する。 本稿では,複数の粒子にまたがる量子化とスパース化を応用した,flおよびfederated "unlearning"のための圧縮粒子ベースのベイズflプロトコルを提案する。 実験の結果,ベイズFLの利点は帯域幅制約に頑健であることが確認された。

Conventional frequentist FL schemes are known to yield overconfident decisions. Bayesian FL addresses this issue by allowing agents to process and exchange uncertainty information encoded in distributions over the model parameters. However, this comes at the cost of a larger per-iteration communication overhead. This letter investigates whether Bayesian FL can still provide advantages in terms of calibration when constraining communication bandwidth. We present compressed particle-based Bayesian FL protocols for FL and federated "unlearning" that apply quantization and sparsification across multiple particles. The experimental results confirm that the benefits of Bayesian FL are robust to bandwidth constraints.
翻訳日:2022-09-16 13:41:18 公開日:2022-09-14
# グラフ畳み込み型神経常微分方程式に対するベクトル化随伴感度法

Vectorized Adjoint Sensitivity Method for Graph Convolutional Neural Ordinary Differential Equations ( http://arxiv.org/abs/2209.06886v1 )

ライセンス: Link先を確認
Jack Cai(参考訳) この文書は、題名のとおり、グラフ畳み込み型神経常微分方程式(gcde)に対する随伴力学計算のベクトル化実装を提供することを目的としている。 副次感度法は、後部伝播を置き換えるニューラルODEの勾配近似法である。 PyTorchやTensorflowのようなライブラリに実装されると、手元の式を必要とせずに、アジョイントはオートグレード関数によって計算できる。 しかし、エッジコンピューティングやmemristor Crossbarsのようなアプリケーションではオートグレードは利用できないため、ハードウェア上でシステムを効率的にマッピングするには、随伴ダイナミクスのベクトル化による導出が必要である。 この文書は基本を乗り越え、次にGCDEのベクトル化された随伴ダイナミクスを導出します。

This document, as the title stated, is meant to provide a vectorized implementation of adjoint dynamics calculation for Graph Convolutional Neural Ordinary Differential Equations (GCDE). The adjoint sensitivity method is the gradient approximation method for neural ODEs that replaces the back propagation. When implemented on libraries such as PyTorch or Tensorflow, the adjoint can be calculated by autograd functions without the need for a hand-derived formula. In applications such as edge computing and in memristor crossbars, however, autograds are not available, and therefore we need a vectorized derivation of adjoint dynamics to efficiently map the system on hardware. This document will go over the basics, then move on to derive the vectorized adjoint dynamics for GCDE.
翻訳日:2022-09-16 13:38:27 公開日:2022-09-14
# テンソルコア上の効率的な量子化スパース行列演算

Efficient Quantized Sparse Matrix Operations on Tensor Cores ( http://arxiv.org/abs/2209.06979v1 )

ライセンス: Link先を確認
Shigang Li, Kazuki Osawa, Torsten Hoefler(参考訳) 指数関数的に増加するモデルサイズは、ディープラーニングの成功を継続させるが、計算の禁止とメモリコストをもたらす。 アルゴリズムの観点からは、問題を緩和するためにモデルスパース化と量子化が研究されている。 アーキテクチャの観点からは、ハードウェアベンダーはアクセラレーションのためにテンソルコアを提供する。 しかし、データレイアウトの厳格な要件と、低精度整数を効率的に操作するサポートの欠如のため、テンソルコア上でのスパースで低精度な行列操作から実用的なスピードアップを得ることは非常に困難である。 本稿では,テンソルコア上の低精度整数に対する高性能スパース行列ライブラリMagicubeを提案する。 Magicubeは、深層学習と混合精度の2つの主要なスパース操作であるSpMMとSDDMMをサポートしている。 nvidia a100 gpuの実験結果によると、magicubeは、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを達成し、エンドツーエンドスパーストランスフォーメーションの精度に匹敵する1.43倍のスピードアップを達成している。

The exponentially growing model size drives the continued success of deep learning, but it brings prohibitive computation and memory cost. From the algorithm perspective, model sparsification and quantization have been studied to alleviate the problem. From the architecture perspective, hardware vendors provide Tensor cores for acceleration. However, it is very challenging to gain practical speedups from sparse, low-precision matrix operations on Tensor cores, because of the strict requirements for data layout and lack of support for efficiently manipulating the low-precision integers. We propose Magicube, a high-performance sparse-matrix library for low-precision integers on Tensor cores. Magicube supports SpMM and SDDMM, two major sparse operations in deep learning with mixed precision. Experimental results on an NVIDIA A100 GPU show that Magicube achieves on average 1.44x (up to 2.37x) speedup over the vendor-optimized library for sparse kernels, and 1.43x speedup over the state-of-the-art with a comparable accuracy for end-to-end sparse Transformer inference.
翻訳日:2022-09-16 13:36:17 公開日:2022-09-14
# SQLとNoSQLデータベース ソフトウェアアーキテクチャのパフォーマンス分析と評価 -- 体系的な文献レビュー

SQL and NoSQL Databases Software architectures performance analysis and assessments -- A Systematic Literature review ( http://arxiv.org/abs/2209.06977v1 )

ライセンス: Link先を確認
Wisal Khan, Teerath Kumar, Zhang Cheng, Kislay Raj, Arunabha M Roy and Bin Luo(参考訳) コンテキスト: ビッグデータの効率的な処理は、有能なソフトウェアアーキテクチャが重要な役割を担うsqlとnosqlデータベースにとって、難しいタスクです。 SQL Databasesは、データを構造化し、垂直スケーラビリティをサポートするように設計されている。 対照的に水平スケーラビリティはnosqlデータベースによって支えられ、非構造化データを効率的に処理できる。 組織のニーズに応じて適切なパラダイムを選択できるが、正しい選択を行うことは難しい場合が多い。 SQLデータベースとNoSQLデータベースは異なるアーキテクチャに従う。 また、混合モデルはNoSQLデータベースの各カテゴリに続きます。 したがって、複数のクラウドサービスプロバイダ(CSP)にわたるクラウド消費者にとって、データ移動は困難になる。 さらに、各クラウドプラットフォームIaaS、PaaS、SaaS、DBaaSも、さまざまなパラダイムを監視しています。 目的: この体系的な文献レビュー(SLR)は、SQLおよびNoSQLデータベースソフトウェアアーキテクチャに関連する記事を調査し、さまざまなクラウドプラットフォーム間でのデータポータビリティと相互運用性に取り組むことを目的としています。 state of the artは、スケーリング、パフォーマンス、可用性、一貫性、シャーディング特性を観察して、sqlとnosqlデータベースのパフォーマンス比較を行った。 研究によると、nosqlデータベースの設計した構造はビッグデータ分析に適した選択であり、sqlデータベースはoltpデータベースに適している。 研究者はクラウドにおけるデータ移動に関連する多くのアプローチを提案している。 プラットフォームベースのAPIが開発され、ユーザのデータ移動が困難になる。 したがって、複数のCSP間でのデータ移動中にデータポータビリティと相互運用性の問題に気づく。 開発者の努力と相互運用性を最小化するために、Unified APIは、さまざまなクラウドプラットフォームでデータ移動を比較的アクセスしやすいものにするよう要求されている。

Context: The efficient processing of Big Data is a challenging task for SQL and NoSQL Databases, where competent software architecture plays a vital role. The SQL Databases are designed for structuring data and supporting vertical scalability. In contrast, horizontal scalability is backed by NoSQL Databases and can process sizeable unstructured Data efficiently. One can choose the right paradigm according to the organisation's needs; however, making the correct choice can often be challenging. The SQL and NoSQL Databases follow different architectures. Also, the mixed model is followed by each category of NoSQL Databases. Hence, data movement becomes difficult for cloud consumers across multiple cloud service providers (CSPs). In addition, each cloud platform IaaS, PaaS, SaaS, and DBaaS also monitors various paradigms. Objective: This systematic literature review (SLR) aims to study the related articles associated with SQL and NoSQL Database software architectures and tackle data portability and Interoperability among various cloud platforms. State of the art presented many performance comparison studies of SQL and NoSQL Databases by observing scaling, performance, availability, consistency and sharding characteristics. According to the research studies, NoSQL Database designed structures can be the right choice for big data analytics, while SQL Databases are suitable for OLTP Databases. The researcher proposes numerous approaches associated with data movement in the cloud. Platform-based APIs are developed, which makes users' data movement difficult. Therefore, data portability and Interoperability issues are noticed during data movement across multiple CSPs. To minimize developer efforts and Interoperability, Unified APIs are demanded to make data movement relatively more accessible among various cloud platforms.
翻訳日:2022-09-16 13:27:27 公開日:2022-09-14
# ESSumm:無転写会議からの抽出音声要約

ESSumm: Extractive Speech Summarization from Untranscribed Meeting ( http://arxiv.org/abs/2209.06913v1 )

ライセンス: Link先を確認
Jun Wang(参考訳) 本稿では,中間転写テキストに依存しない教師なしモデルであるessummを,直接抽出型音声合成システムとして提案する。 従来のテキスト提示方法とは違って,音声から直接要約を生成することを目的としている。 まず、音声信号の音響特徴に基づいて、より小さな音声セグメントのセットを抽出する。 各候補音声セグメントについて、潜在音声表現尺度のための距離ベース要約信頼度スコアを設計する。 具体的には、市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。 提案手法は,目標要約長でキー情報をキャプチャする音声セグメントの最適なシーケンスを自動的に予測する。 2つのよく知られた会議データセット(AMI と ICSI コーパス)の広範囲な結果から,非転写データによる要約品質向上のための直接発話法の有効性が示された。 また, 教師なし音声ベース手法は, 追加音声認識が必要な最近の書き起こしに基づく要約手法と同等の性能を発揮することも確認した。

In this paper, we propose a novel architecture for direct extractive speech-to-speech summarization, ESSumm, which is an unsupervised model without dependence on intermediate transcribed text. Different from previous methods with text presentation, we are aimed at generating a summary directly from speech without transcription. First, a set of smaller speech segments are extracted based on speech signal's acoustic features. For each candidate speech segment, a distance-based summarization confidence score is designed for latent speech representation measure. Specifically, we leverage the off-the-shelf self-supervised convolutional neural network to extract the deep speech features from raw audio. Our approach automatically predicts the optimal sequence of speech segments that capture the key information with a target summary length. Extensive results on two well-known meeting datasets (AMI and ICSI corpora) show the effectiveness of our direct speech-based method to improve the summarization quality with untranscribed data. We also observe that our unsupervised speech-based method even performs on par with recent transcript-based summarization approaches, where extra speech recognition is required.
翻訳日:2022-09-16 13:22:22 公開日:2022-09-14
# 長期記憶を有するカスケード畳み込みニューラルネットワークを用いた肝us画像におけるランドマーク追跡

Landmark Tracking in Liver US images Using Cascade Convolutional Neural Networks with Long Short-Term Memory ( http://arxiv.org/abs/2209.06952v1 )

ライセンス: Link先を確認
Yupei Zhang, Xianjin Dai, Zhen Tian, Yang Lei, Jacob F. Wynne, Pretesh Patel, Yue Chen, Tian Liu and Xiaofeng Yang(参考訳) 本研究では,超音波画像誘導放射線治療のための深層学習に基づく追跡手法を提案する。 提案するカスケード深層学習モデルは,注目ネットワーク,マスク領域に基づく畳み込みニューラルネットワーク(マスクR-CNN),長期記憶(LSTM)ネットワークから構成される。 アテンションネットワークは、探索領域を低減するために、米国画像からランドマーク運動の疑似領域へのマッピングを学習する。 その後、マスクr-cnnは縮小領域で複数の領域間(roi)の提案を生成し、3つのネットワークヘッド(バウンディングボックス回帰、提案分類、ランドマークセグメンテーション)によって提案されているランドマークを識別する。 LSTMネットワークは、境界ボックス回帰と提案分類のための連続した画像フレーム間の時間的関係をモデル化する。 最終提案を統合するために、シーケンシャルフレーム間の類似性に応じて選択方法を設計する。 提案手法は,MICCAI (Messical Image Computing and Computer Assisted Interventions) 2015の課題で使用されている肝臓の追跡データセットでテストされた。 基底真理を持つ24のシーケンスにおける5倍のクロスバリデーションは、すべてのランドマークの平均追跡誤差が 0.65+/-0.56 mm であり、すべてのランドマークの誤差は 2 mm 以内であることを示している。 さらに,トレーニングパターンに類似した画像パターンを持つテストデータセットから,69個のランドマークに対して提案モデルをテストした結果,平均追跡誤差は0.94+/-0.83mmとなった。 実験結果は,us画像を用いた肝解剖学的ランドマーク追跡における提案手法の有効性と精度を実証し,放射線治療中の能動的運動管理のためのリアルタイム肝追跡の可能性を示唆した。

This study proposed a deep learning-based tracking method for ultrasound (US) image-guided radiation therapy. The proposed cascade deep learning model is composed of an attention network, a mask region-based convolutional neural network (mask R-CNN), and a long short-term memory (LSTM) network. The attention network learns a mapping from a US image to a suspected area of landmark motion in order to reduce the search region. The mask R-CNN then produces multiple region-of-interest (ROI) proposals in the reduced region and identifies the proposed landmark via three network heads: bounding box regression, proposal classification, and landmark segmentation. The LSTM network models the temporal relationship among the successive image frames for bounding box regression and proposal classification. To consolidate the final proposal, a selection method is designed according to the similarities between sequential frames. The proposed method was tested on the liver US tracking datasets used in the Medical Image Computing and Computer Assisted Interventions (MICCAI) 2015 challenges, where the landmarks were annotated by three experienced observers to obtain their mean positions. Five-fold cross-validation on the 24 given US sequences with ground truths shows that the mean tracking error for all landmarks is 0.65+/-0.56 mm, and the errors of all landmarks are within 2 mm. We further tested the proposed model on 69 landmarks from the testing dataset that has a similar image pattern to the training pattern, resulting in a mean tracking error of 0.94+/-0.83 mm. Our experimental results have demonstrated the feasibility and accuracy of our proposed method in tracking liver anatomic landmarks using US images, providing a potential solution for real-time liver tracking for active motion management during radiation therapy.
翻訳日:2022-09-16 13:22:05 公開日:2022-09-14
# 変化環境におけるエキスパートアドバイザによる予測の修正

Modifying Squint for Prediction with Expert Advice in a Changing Environment ( http://arxiv.org/abs/2209.06826v1 )

ライセンス: Link先を確認
Thom Neuteboom and Tim van Erven(参考訳) 変化環境におけるオンライン学習,特に専門家のアドバイスによる予測のための新しい方法を提案する。 不変でない環境では、squitアルゴリズムは少なくとも他の既知のアルゴリズムと同様に常に機能するように設計されており、特定のケースではずっとよく機能する。 しかし,従来のブラックボックスアルゴリズムを用いてSquintを環境変化に適合させると,その利点が失われる。 そこで我々は,Squint-CEという,環境変化に適した新しいアルゴリズムを提案し,Squintの特性を保存した。

We provide a new method for online learning, specifically prediction with expert advice, in a changing environment. In a non-changing environment the Squint algorithm has been designed to always function at least as well as other known algorithms and in specific cases it functions much better. However, when using a conventional black-box algorithm to make Squint suitable for a changing environment, it loses its beneficial properties. Hence, we provide a new algorithm, Squint-CE, which is suitable for a changing environment and preserves the properties of Squint.
翻訳日:2022-09-16 13:03:40 公開日:2022-09-14
# ロバスト制約付き強化学習

Robust Constrained Reinforcement Learning ( http://arxiv.org/abs/2209.06866v1 )

ライセンス: Link先を確認
Yue Wang, Fei Miao, Shaofeng Zou(参考訳) 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。 しかし、トレーニング環境は、例えば、モデリングエラー、敵対的攻撃、非定常性などにより、パフォーマンスが著しく低下し、より重大な制約違反が生じるため、テスト環境と同一ではない可能性がある。 我々は,モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。そこではmdpが固定されていないが不確実性セットにあるため,不確実性セット内のすべてのmdpに対してユーティリティ/コストの制約が満たされることを保証すること,不確実性セットに対する最悪の報奨性能を最大化することを目的とする。 我々は,強固な原始双対的アプローチを設計し,その収束性,複雑性,頑健な実現可能性の保証を理論的に開発する。 次に,$\delta$-contamination 不確かさ集合の具体例を調査し,オンラインおよびモデルフリーなアルゴリズムを設計し,そのサンプル複雑性を理論的に特徴付ける。

Constrained reinforcement learning is to maximize the expected reward subject to constraints on utilities/costs. However, the training environment may not be the same as the test one, due to, e.g., modeling error, adversarial attack, non-stationarity, resulting in severe performance degradation and more importantly constraint violation. We propose a framework of robust constrained reinforcement learning under model uncertainty, where the MDP is not fixed but lies in some uncertainty set, the goal is to guarantee that constraints on utilities/costs are satisfied for all MDPs in the uncertainty set, and to maximize the worst-case reward performance over the uncertainty set. We design a robust primal-dual approach, and further theoretically develop guarantee on its convergence, complexity and robust feasibility. We then investigate a concrete example of $\delta$-contamination uncertainty set, design an online and model-free algorithm and theoretically characterize its sample complexity.
翻訳日:2022-09-16 13:03:30 公開日:2022-09-14
# 食品持続可能性の時系列予測

Time Series Prediction for Food sustainability ( http://arxiv.org/abs/2209.06889v1 )

ライセンス: Link先を確認
Fiona Victoria Stanley Jothiraj(参考訳) 人口の指数関数的な増加に伴い、皆に餌を与えるのに十分な食料を生産することへの妥協なしに天然資源を保全することが不可欠である。 人々の生活、健康、そして将来の世代における生態系を改善することができる。 持続可能な開発は国連のパラダイムであり、食料、作物、家畜、森林、人口、さらにはガスの排出にも根ざしている。 過去に異なる国の天然資源の全体利用状況を理解することで、各国の需要を予測することができる。 提案手法は,将来特定の期間に各国の不足に耐えうるトップk製品を予測する統計的回帰モデルを用いて,機械学習システムを実装することで構成される。 絶対誤差および根平均二乗誤差の観点からの予測性能は、その低い誤差による有望な結果を示す。 このソリューションは、グローバルな需要を満たすために必要な生産性と持続可能性を理解するのに役立つだろう。

With exponential growth in the human population, it is vital to conserve natural resources without compromising on producing enough food to feed everyone. Doing so can improve people's livelihoods, health, and ecosystems for the present and future generations. Sustainable development, a paradigm of the United Nations, is rooted in food, crop, livestock, forest, population, and even the emission of gases. By understanding the overall usage of natural resources in different countries in the past, it is possible to forecast the demand in each country. The proposed solution consists of implementing a machine learning system using a statistical regression model that can predict the top k products that would endure a shortage in each country in a specific period in the future. The prediction performance in terms of absolute error and root mean square error show promising results due to its low errors. This solution could help organizations and manufacturers understand the productivity and sustainability needed to satisfy the global demand.
翻訳日:2022-09-16 13:03:13 公開日:2022-09-14
# 制限ボルツマンマシンのネットワーク勾配による最適接続性

Optimal Connectivity through Network Gradients for the Restricted Boltzmann Machine ( http://arxiv.org/abs/2209.06932v1 )

ライセンス: Link先を確認
A. C. N. de Oliveira and D. R. Figueiredo(参考訳) ディープニューラルネットワークで連続するレイヤを接続するスパースネットワークを活用することで、大規模な最先端モデルにメリットが提供されることが最近示されている。 しかし、ネットワーク接続性は、古典的な制限ボルツマン機械(rbm)のような浅いネットワークの学習曲線において重要な役割を果たす。 基本的な問題は、学習曲線を改善する接続パターンを効率的に見つけることである。 最近の原則的なアプローチでは、モデルで最適化されなければならないパラメータとしてネットワーク接続を明示的に含むが、接続を表すための連続関数や明示的なペナリゼーションに依存することが多い。 本研究は, ネットワーク勾配の考え方に基づいて, RBMの最適接続パターンを求める方法である: 特定の接続パターンを与えられたすべての接続の勾配を計算し, 接続パターンを決定するために連続接続強度パラメータを駆動する。 したがって、RBMパラメータの学習とネットワーク接続の学習は、学習速度が異なり、目的関数を変更することなく、本当に共同で行われる。 本手法をMNISTデータセットに適用することにより,サンプル生成および入力分類のベンチマークタスクにおいて,より優れたRBMモデルが見つかることを示す。

Leveraging sparse networks to connect successive layers in deep neural networks has recently been shown to provide benefits to large scale state-of-the-art models. However, network connectivity also plays a significant role on the learning curves of shallow networks, such as the classic Restricted Boltzmann Machines (RBM). A fundamental problem is efficiently finding connectivity patterns that improve the learning curve. Recent principled approaches explicitly include network connections as parameters that must be optimized in the model, but often rely on continuous functions to represent connections and on explicit penalization. This work presents a method to find optimal connectivity patterns for RBMs based on the idea of network gradients: computing the gradient of every possible connection, given a specific connection pattern, and using the gradient to drive a continuous connection strength parameter that in turn is used to determine the connection pattern. Thus, learning RBM parameters and learning network connections is truly jointly performed, albeit with different learning rates, and without changes to the objective function. The method is applied to the MNIST data set showing that better RBM models are found for the benchmark tasks of sample generation and input classification.
翻訳日:2022-09-16 13:02:58 公開日:2022-09-14
# 寄生虫負荷を伴う疾患に対する機械学習評価のためのユースケース重視メトリクス

Use case-focused metrics to evaluate machine learning for diseases involving parasite loads ( http://arxiv.org/abs/2209.06947v1 )

ライセンス: Link先を確認
Charles B. Delahunt, Noni Gachuhi, Matthew P. Horning(参考訳) アルゴリズムの性能を比較することで、コミュニティヒルクライミングはML研究を大幅に加速させることができる。 しかし、タスク関連メトリクスが必要です。 寄生虫、マラリア、分裂病などの熱帯病(NTD)にかかわる疾患については、現在ML論文(AUC、F1スコアなど)で報告されている指標が臨床に不適である。 その結果、ヒルクライミングシステムは、これらの厄介な病気に対処するソリューションへの進歩を許していない。 本稿では,マラリアとntdの事例をもとに,現在のml実践における2つのギャップを取り上げ,改善方法を提案する。 (i)臨床ユースケースにしっかりと根ざす必要があるML開発,特にパフォーマンス指標の側面を説明し,この領域の知識を得るための方法を提案する。 (II) 寄生虫負荷を伴う疾患に対するMLモデルの開発を指導するためのパフォーマンス指標を詳細に述べる。 患者レベルの視点,患者間の多様性,偽陽性率,検出限界,エラーの種類などの重要性を強調した。 また、この文脈でよく用いられるROC曲線やAUCの問題についても論じる。

Communal hill-climbing, via comparison of algorithm performances, can greatly accelerate ML research. However, it requires task-relevant metrics. For diseases involving parasite loads, e.g., malaria and neglected tropical diseases (NTDs) such as schistosomiasis, the metrics currently reported in ML papers (e.g., AUC, F1 score) are ill-suited to the clinical task. As a result, the hill-climbing system is not enabling progress towards solutions that address these dire illnesses. Drawing on examples from malaria and NTDs, this paper highlights two gaps in current ML practice and proposes methods for improvement: (i) We describe aspects of ML development, and performance metrics in particular, that need to be firmly grounded in the clinical use case, and we offer methods for acquiring this domain knowledge. (ii) We describe in detail performance metrics to guide development of ML models for diseases involving parasite loads. We highlight the importance of a patient-level perspective, interpatient variability, false positive rates, limit of detection, and different types of error. We also discuss problems with ROC curves and AUC as commonly used in this context.
翻訳日:2022-09-16 13:02:39 公開日:2022-09-14
# CAT:Fair Facial Attribute分類のための制御可能な属性変換

CAT: Controllable Attribute Translation for Fair Facial Attribute Classification ( http://arxiv.org/abs/2209.06850v1 )

ライセンス: Link先を確認
Jiazhi Li and Wael Abd-Almageed(参考訳) 視覚認識の社会的影響が精査されている中、不均衡データセットのデータセットバイアスに対処するために、いくつかの保護分布均衡データセットが出現した。 しかし、顔属性分類では、データセットバイアスは保護属性レベルと顔属性レベルの両方に由来するため、マルチ属性レベルのバランスの取れた実データセットを構築するのが難しくなる。 このギャップを埋めるため,両レベルでバランスの取れたデータセットとして元のデータセットを補完する,高品質で十分な顔画像を生成するための効果的なパイプラインを提案する。 本手法の有効性は, 性別分類および顔属性分類において, タスク性能を本来のデータセットと同等にすることで検証し, 幅広い指標を用いた総合的公正度評価における公平性の向上を図った。 さらに,本手法は,データセットバイアスに対処するための再サンプリングとバランスの取れたデータセット構築と,タスクバイアスに対処するモデルの偏りを改善する。

As the social impact of visual recognition has been under scrutiny, several protected-attribute balanced datasets emerged to address dataset bias in imbalanced datasets. However, in facial attribute classification, dataset bias stems from both protected attribute level and facial attribute level, which makes it challenging to construct a multi-attribute-level balanced real dataset. To bridge the gap, we propose an effective pipeline to generate high-quality and sufficient facial images with desired facial attributes and supplement the original dataset to be a balanced dataset at both levels, which theoretically satisfies several fairness criteria. The effectiveness of our method is verified on sex classification and facial attribute classification by yielding comparable task performance as the original dataset and further improving fairness in a comprehensive fairness evaluation with a wide range of metrics. Furthermore, our method outperforms both resampling and balanced dataset construction to address dataset bias, and debiasing models to address task bias.
翻訳日:2022-09-16 12:54:09 公開日:2022-09-14
# ハイパー相関ボリュームを用いたエンド・ツー・エンドのマルチビュー構造

End-to-End Multi-View Structure-from-Motion with Hypercorrelation Volumes ( http://arxiv.org/abs/2209.06926v1 )

ライセンス: Link先を確認
Qiao Chen, Charalambos Poullis(参考訳) 画像に基づく3D再構成はコンピュータビジョンで最も重要な課題の一つであり、過去数十年にわたって多くの解決策が提案されてきた。 目的は、画像から直接シーンオブジェクトの幾何を計測情報として抽出することである。 これらは、映画、ゲーム、バーチャルリアリティなど、幅広いアプリケーションで使用することができる。 近年,この問題に対処する深層学習技術が提案されている。 彼らは、深い畳み込みニューラルネットワークを通じて画像間の特徴を関連付けるために、膨大なデータのトレーニングに依存しており、従来の手続き技術よりも優れていることが示されている。 本稿では,より正確な特徴マッチングと再構成のために4次元相関ボリュームを組み込むことにより,[11]の動作からの2次元構造(SfM)アプローチを改善する。 さらに、これを一般的なマルチビューケースに拡張し、複雑なベンチマークデータセットDTU[4]で評価する。 現状のマルチビュー3次元再構成手法との比較により, 再現精度の点でその優位性を示す。

Image-based 3D reconstruction is one of the most important tasks in Computer Vision with many solutions proposed over the last few decades. The objective is to extract metric information i.e. the geometry of scene objects directly from images. These can then be used in a wide range of applications such as film, games, virtual reality, etc. Recently, deep learning techniques have been proposed to tackle this problem. They rely on training on vast amounts of data to learn to associate features between images through deep convolutional neural networks and have been shown to outperform traditional procedural techniques. In this paper, we improve on the state-of-the-art two-view structure-from-motion(SfM) approach of [11] by incorporating 4D correlation volume for more accurate feature matching and reconstruction. Furthermore, we extend it to the general multi-view case and evaluate it on the complex benchmark dataset DTU [4]. Quantitative evaluations and comparisons with state-of-the-art multi-view 3D reconstruction methods demonstrate its superiority in terms of the accuracy of reconstructions.
翻訳日:2022-09-16 12:53:51 公開日:2022-09-14
# 相関情報付き視覚言語モデルを用いたロバストな視覚質問応答のための微調整

Finetuning Pretrained Vision-Language Models with Correlation Information Bottleneck for Robust Visual Question Answering ( http://arxiv.org/abs/2209.06954v1 )

ライセンス: Link先を確認
Jingjing Jiang, Ziyi Liu, Nanning Zheng(参考訳) VL-PM(Pretrained Vision-Language Models)の大規模化により,VQA(Visual Question Answering)のパフォーマンスが人間のオラクルのパフォーマンスに近づき始めている。 しかしながら、VQAの限られたデータを持つ大規模VL-PMの微調整は通常、過度な適合と一般化の問題に直面し、堅牢性の欠如につながっている。 本稿では,VQA用VL-PMを微調整する場合のインフォメーション・ボトルネックの観点から,VQAシステムのロバスト性(すなわち,入力変動や人的攻撃に対する防御能力)を向上させることを目的とする。 一般に、VL-PMによって得られる内部表現は、下流のVQAタスクに必然的に無関係で冗長な情報を含む。 視覚言語学習における表現を最小限の統計量に収束させるために,入力と内部表現間の相互情報(MI)を最小化し,出力と表現の間のMIを最大化することにより,表現圧縮と冗長性のトレードオフを求める相関情報ボトルネック(CIB)原理を提案する。 一方、CIBは、対称性付き関節MI推定により、視覚的および言語的入力と表現の内的相関を測定する。 入力ロバスト性の5つのVQAベンチマークと、人間対人ロバスト性の2つのVQAベンチマークの広範な実験は、VQAシステムのロバスト性を改善するためのCIBの有効性と優位性を示している。

Benefiting from large-scale Pretrained Vision-Language Models (VL-PMs), the performance of Visual Question Answering (VQA) has started to approach human oracle performance. However, finetuning large-scale VL-PMs with limited data for VQA usually faces overfitting and poor generalization issues, leading to a lack of robustness. In this paper, we aim to improve the robustness of VQA systems (ie, the ability of the systems to defend against input variations and human-adversarial attacks) from the perspective of Information Bottleneck when finetuning VL-PMs for VQA. Generally, internal representations obtained by VL-PMs inevitably contain irrelevant and redundant information for the downstream VQA task, resulting in statistically spurious correlations and insensitivity to input variations. To encourage representations to converge to a minimal sufficient statistic in vision-language learning, we propose the Correlation Information Bottleneck (CIB) principle, which seeks a tradeoff between representation compression and redundancy by minimizing the mutual information (MI) between the inputs and internal representations while maximizing the MI between the outputs and the representations. Meanwhile, CIB measures the internal correlations among visual and linguistic inputs and representations by a symmetrized joint MI estimation. Extensive experiments on five VQA benchmarks of input robustness and two VQA benchmarks of human-adversarial robustness demonstrate the effectiveness and superiority of the proposed CIB in improving the robustness of VQA systems.
翻訳日:2022-09-16 12:53:37 公開日:2022-09-14
# 食品からの消費者受容性予測のための新しい照明条件変化画像データセット-食品ビジョンデータセット(FVD)

A novel illumination condition varied image dataset-Food Vision Dataset (FVD) for fair and reliable consumer acceptability predictions from food ( http://arxiv.org/abs/2209.06967v1 )

ライセンス: Link先を確認
Swarna Sethu (1), Dongyi Wang (1 and 2) ((1) Department of Biological & Agricultural engineering, University of Arkansas, Fayetteville, (2) Department of Food & Science and Department of Biological & Agricultural engineering, University of Arkansas, Fayetteville)(参考訳) 最近の人工知能の進歩は、様々な領域における幅広いコンピュータビジョン応用を促進する。 人間の目として機能するデジタルカメラは、形状や色などの基本的な物体特性を認識でき、画像分類や物体検出などのハイレベルなタスクの実行にも利用できる。 人間の知覚はコンピュータビジョンモデルの訓練と評価のための基礎的真実として広く認識されている。 しかし、ある場合には、人間が見たものに騙されることもある。 人間の視覚は安定した外部照明に依存し、不自然な照明は商品の本質的な特性に対する人間の認識に影響を与える。 人やコンピュータの知覚に対する照明効果を評価するため、新しいデータセットである食品ビジョンデータセット(FVD)を提示し、照明効果を定量化するための評価ベンチマークを作成し、食品の外観から公正で信頼性の高い消費者受容性予測のための照明推定方法の開発を進める。 FVDは3つの異なるパワーで撮影された675の画像と、5日ごとに異なる温度設定で構成されている。

Recent advances in artificial intelligence promote a wide range of computer vision applications in many different domains. Digital cameras, acting as human eyes, can perceive fundamental object properties, such as shapes and colors, and can be further used for conducting high-level tasks, such as image classification, and object detections. Human perceptions have been widely recognized as the ground truth for training and evaluating computer vision models. However, in some cases, humans can be deceived by what they have seen. Well-functioned human vision relies on stable external lighting while unnatural illumination would influence human perception of essential characteristics of goods. To evaluate the illumination effects on human and computer perceptions, the group presents a novel dataset, the Food Vision Dataset (FVD), to create an evaluation benchmark to quantify illumination effects, and to push forward developments of illumination estimation methods for fair and reliable consumer acceptability prediction from food appearances. FVD consists of 675 images captured under 3 different power and 5 different temperature settings every alternate day for five such days.
翻訳日:2022-09-16 12:53:08 公開日:2022-09-14
# DEANet:低照度画像強調のための分解促進調整ネットワーク

DEANet: Decomposition Enhancement and Adjustment Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2209.06823v1 )

ライセンス: Link先を確認
Yonglong Jiang, Liangliang Li, Yuan Xue, and Hongbing Ma(参考訳) 低照度条件下で得られた画像は、画像の品質に深刻な影響を与える。 低照度画像品質の問題を解くことは、画像の視覚的品質を効果的に改善し、コンピュータビジョンのユーザビリティを向上する。 加えて、多くの分野で非常に重要な応用がある。 本稿では,低光度画像強調のためのretinexに基づくデネットを提案する。 画像の周波数情報とコンテンツ情報を、分解ネットワーク、拡張ネットワーク、調整ネットワークという3つのサブネットワークに結合する。 これら3つのサブネットワークは、分解、復調、コントラスト強化、詳細保存、調整、画像生成にそれぞれ使用される。 我々のモデルは、すべての低光度画像に対して優れたロバストな結果が得られる。 このモデルは公開データセットlol上でトレーニングされ,提案手法は視覚と品質の点で既存の最先端手法よりも優れていることが示された。

Images obtained under low-light conditions will seriously affect the quality of the images. Solving the problem of poor low-light image quality can effectively improve the visual quality of images and better improve the usability of computer vision. In addition, it has very important applications in many fields. This paper proposes a DEANet based on Retinex for low-light image enhancement. It combines the frequency information and content information of the image into three sub-networks: decomposition network, enhancement network and adjustment network. These three sub-networks are respectively used for decomposition, denoising, contrast enhancement and detail preservation, adjustment, and image generation. Our model has good robust results for all low-light images. The model is trained on the public data set LOL, and the experimental results show that our method is better than the existing state-of-the-art methods in terms of vision and quality.
翻訳日:2022-09-16 12:45:02 公開日:2022-09-14
# 暗黒物質halosを用いたロバスト場レベル推論

Robust field-level inference with dark matter halos ( http://arxiv.org/abs/2209.06843v1 )

ライセンス: Link先を確認
Helen Shao, Francisco Villaescusa-Navarro, Pablo Villanueva-Domingo, Romain Teyssier, Lehman H. Garrison, Marco Gatti, Derek Inman, Yueying Ni, Ulrich P. Steinwandel, Mihir Kulkarni, Eli Visbal, Greg L. Bryan, Daniel Angles-Alcazar, Tiago Castro, Elena Hernandez-Martinez, Klaus Dolag(参考訳) ガジェットn体シミュレーションからhaloカタログ上のグラフニューラルネットワークを訓練し、宇宙パラメータのフィールドレベル確率フリー推論を行う。 カタログには$(25~h^{-1}{\rm mpc})^3$の周期体積で$\lesssim$5,000 halosと質量$\gtrsim 10^{10}~h^{-1}m_\odot$が含まれている。 我々のモデルは、置換的に、翻訳的に、そして回転的に不変に構築されており、情報を抽出するための最小スケールを課さず、それぞれ位置と速度と位置+質量を使用する場合、平均相対誤差$\sim6\%$で$\omega_{\rm m}$と$\sigma_8$の値を推測することができる。 Abacus、CUBEP$^3$M、Enzo、PKDGrav3、Ramsesの5つの異なるN-bodyコードで実行される何千ものN-bodyシミュレーションのハローカタログを使って、テストすると、$\Omega_{\rm m}$と$\sigma_8$の値を推測できる。 驚くべきことに、$\Omega_{\rm m}$を推論するよう訓練されたモデルは、何千もの最先端のCAMELS流体力学シミュレーションを4つの異なるコードとサブグリッド物理の実装で実行した場合にも機能する。 集中度や最大円速度などのhalo特性を利用することで,モデルのロバスト性を損なうことなく,より多くの情報を得ることができる。 これは、異なるN体符号がこれらのパラメータに対応する関連するスケールに収束しないからである。

We train graph neural networks on halo catalogues from Gadget N-body simulations to perform field-level likelihood-free inference of cosmological parameters. The catalogues contain $\lesssim$5,000 halos with masses $\gtrsim 10^{10}~h^{-1}M_\odot$ in a periodic volume of $(25~h^{-1}{\rm Mpc})^3$; every halo in the catalogue is characterized by several properties such as position, mass, velocity, concentration, and maximum circular velocity. Our models, built to be permutationally, translationally, and rotationally invariant, do not impose a minimum scale on which to extract information and are able to infer the values of $\Omega_{\rm m}$ and $\sigma_8$ with a mean relative error of $\sim6\%$, when using positions plus velocities and positions plus masses, respectively. More importantly, we find that our models are very robust: they can infer the value of $\Omega_{\rm m}$ and $\sigma_8$ when tested using halo catalogues from thousands of N-body simulations run with five different N-body codes: Abacus, CUBEP$^3$M, Enzo, PKDGrav3, and Ramses. Surprisingly, the model trained to infer $\Omega_{\rm m}$ also works when tested on thousands of state-of-the-art CAMELS hydrodynamic simulations run with four different codes and subgrid physics implementations. Using halo properties such as concentration and maximum circular velocity allow our models to extract more information, at the expense of breaking the robustness of the models. This may happen because the different N-body codes are not converged on the relevant scales corresponding to these parameters.
翻訳日:2022-09-16 12:35:48 公開日:2022-09-14
# マルチホップ質問応答のためのプロンプト型保存学習

Prompt-based Conservation Learning for Multi-hop Question Answering ( http://arxiv.org/abs/2209.06923v1 )

ライセンス: Link先を確認
Zhenyun Deng, Yonghua Zhu, Yang Chen, Qianqian Qi, Michael Witbrock, Patricia Riddle(参考訳) マルチホップ質問応答(qa:multi-hop question answering)は、複数の文書を推論して複雑な質問に答え、解釈可能な裏付けを提供する。 しかし、支持する証拠を提供することは、モデルが正しい答えに達するために望ましい理由を実行したことを示すのに十分ではない。 既存のマルチホップQAメソッドの多くは、たとえ親の質問が正しく答えられたとしても、少数のサブクエストに答えられない。 本稿では,マルチホップQAタスクから新しい知識を取得し,シングルホップQAタスクで学んだ古い知識を保存し,忘れを緩和する,マルチホップQAのためのPrompt-based Conservation Learning (PCL)フレームワークを提案する。 具体的には、まず既存のシングルホップQAタスクでモデルをトレーニングし、次にこのモデルを凍結し、マルチホップQAタスクのために追加のサブネットワークを割り当てることで拡張する。 さらに、特定のマルチホップ質問に必要となる推論を刺激するために事前学習言語モデルを条件付けするために、新しいサブネットワークがタイプ固有の推論を行うためのソフトプロンプトを学習する。 HotpotQAベンチマークの実験結果から,PCLはマルチホップQAに対して競争力があり,それに対応するシングルホップサブクエストに対して良好な性能を維持し,PCLが忘れることによる知識損失を軽減できることを示した。

Multi-hop question answering (QA) requires reasoning over multiple documents to answer a complex question and provide interpretable supporting evidence. However, providing supporting evidence is not enough to demonstrate that a model has performed the desired reasoning to reach the correct answer. Most existing multi-hop QA methods fail to answer a large fraction of sub-questions, even if their parent questions are answered correctly. In this paper, we propose the Prompt-based Conservation Learning (PCL) framework for multi-hop QA, which acquires new knowledge from multi-hop QA tasks while conserving old knowledge learned on single-hop QA tasks, mitigating forgetting. Specifically, we first train a model on existing single-hop QA tasks, and then freeze this model and expand it by allocating additional sub-networks for the multi-hop QA task. Moreover, to condition pre-trained language models to stimulate the kind of reasoning required for specific multi-hop questions, we learn soft prompts for the novel sub-networks to perform type-specific reasoning. Experimental results on the HotpotQA benchmark show that PCL is competitive for multi-hop QA and retains good performance on the corresponding single-hop sub-questions, demonstrating the efficacy of PCL in mitigating knowledge loss by forgetting.
翻訳日:2022-09-16 12:34:22 公開日:2022-09-14
# インスタンス依存ノイズを用いたロバスト製品分類

Robust Product Classification with Instance-Dependent Noise ( http://arxiv.org/abs/2209.06946v1 )

ライセンス: Link先を確認
Huy Nguyen and Devashish Khatwani(参考訳) 大規模なeコマース製品データ(すなわち、製品項目が間違ったカテゴリに分類される)におけるノイズの多いラベルは、製品分類タスクにおいて重要な問題である。 データ内のノイズの多いラベルに対して堅牢な製品タイトル分類モデルをトレーニングすることは、製品分類アプリケーションをより実用的なものにする上で非常に重要である。 本稿では,分類器モデルがノイズに過度に収まらないよう設計した,当社のデータ復調アルゴリズムと各種ノイズ耐性トレーニングアルゴリズムを比較して,インスタンス依存ノイズが製品タイトル分類の性能に与える影響について検討する。 我々は,ベース分類器として使用する製品タイトル分類のための,単純かつ効果的な深層ニューラルネットワークを開発した。 近年のインスタンス依存ノイズを刺激する手法とともに,製品タイトルの類似性に基づく新しい雑音刺激アルゴリズムを提案する。 実験は、複数のデータセット、様々なノイズ手法、異なるトレーニングソリューションをカバーする。 その結果、ノイズレートが無視可能で、データ分布が著しく歪んだ場合の分類タスクの限界を明らかにする。

Noisy labels in large E-commerce product data (i.e., product items are placed into incorrect categories) are a critical issue for product categorization task because they are unavoidable, non-trivial to remove and degrade prediction performance significantly. Training a product title classification model which is robust to noisy labels in the data is very important to make product classification applications more practical. In this paper, we study the impact of instance-dependent noise to performance of product title classification by comparing our data denoising algorithm and different noise-resistance training algorithms which were designed to prevent a classifier model from over-fitting to noise. We develop a simple yet effective Deep Neural Network for product title classification to use as a base classifier. Along with recent methods of stimulating instance-dependent noise, we propose a novel noise stimulation algorithm based on product title similarity. Our experiments cover multiple datasets, various noise methods and different training solutions. Results uncover the limit of classification task when noise rate is not negligible and data distribution is highly skewed.
翻訳日:2022-09-16 12:33:55 公開日:2022-09-14
# $f$-divergence GANの漸近統計的解析

Asymptotic Statistical Analysis of $f$-divergence GAN ( http://arxiv.org/abs/2209.06853v1 )

ライセンス: Link先を確認
Xinwei Shen, Kani Chen, and Tong Zhang(参考訳) generative adversarial networks (gans) はデータ生成において大きな成功を収めた。 しかし、その統計的性質は完全には理解されていない。 本稿では,最大極大原理に密接に関連するKulback-Leibler分散を含むGANの一般$f$-divergence定式化の統計的挙動について考察する。 正しく特定されたパラメトリック生成モデルの場合、同一の判別子クラスを持つすべての$f$-divergence gan は適切な正規性条件下で漸近同値である。 さらに、適切に選択された局所判別器により、それらは漸近的に最大確率推定と等価となる。 誤特定された生成モデルに対して、異なる$f$-divergences {converge to different estimator} を持つ GAN は直接比較できない。 しかし、よく使われる$f$-divergencesに対して、オリジナルの$f$-GANの定式化における判別器のトレーニングがロジスティック回帰に置き換えられたとき、オリジナルの$f$-GANはより小さな漸近分散を達成できるという点で最適ではないことが示されている。 得られた推定方法は、Adversarial Gradient Estimation (AGE)と呼ばれる。 この理論を裏付ける実証的研究が提供され、モデル不特定の下でのオリジナルの$f$-GANよりもAGEの利点を実証する。

Generative Adversarial Networks (GANs) have achieved great success in data generation. However, its statistical properties are not fully understood. In this paper, we consider the statistical behavior of the general $f$-divergence formulation of GAN, which includes the Kullback--Leibler divergence that is closely related to the maximum likelihood principle. We show that for parametric generative models that are correctly specified, all $f$-divergence GANs with the same discriminator classes are asymptotically equivalent under suitable regularity conditions. Moreover, with an appropriately chosen local discriminator, they become equivalent to the maximum likelihood estimate asymptotically. For generative models that are misspecified, GANs with different $f$-divergences {converge to different estimators}, and thus cannot be directly compared. However, it is shown that for some commonly used $f$-divergences, the original $f$-GAN is not optimal in that one can achieve a smaller asymptotic variance when the discriminator training in the original $f$-GAN formulation is replaced by logistic regression. The resulting estimation method is referred to as Adversarial Gradient Estimation (AGE). Empirical studies are provided to support the theory and to demonstrate the advantage of AGE over the original $f$-GANs under model misspecification.
翻訳日:2022-09-16 12:29:49 公開日:2022-09-14
# AdaBoostの限界サイクル

Limit Cycles of AdaBoost ( http://arxiv.org/abs/2209.06928v1 )

ライセンス: Link先を確認
Conor Snedeker(参考訳) adaboost機械学習アルゴリズムの反復重み更新は、確率単純x上の動的写像として実現することができる。 低次元データセットを学習する場合、このアルゴリズムはサイクリング行動の傾向があり、これが本論文のトピックである。 AdaBoostのサイクリングの振る舞いは、アルゴリズムの一般の非サイクリングの場合では効果の低い直接計算手法に自覚する。 これらの計算特性から,adaboostのサイクリング挙動と継続分数動量との具体的な対応を示す。 そして、この対応の結果を探索し、この周期状態におけるアルゴリズムがどのようになっているのかを概説する。 この研究の意図は、この機械学習アルゴリズムのサイクリングダイナミクスのための、新しくて自己完結した説明である。

The iterative weight update for the AdaBoost machine learning algorithm may be realized as a dynamical map on a probability simplex. When learning a low-dimensional data set this algorithm has a tendency towards cycling behavior, which is the topic of this paper. AdaBoost's cycling behavior lends itself to direct computational methods that are ineffective in the general, non-cycling case of the algorithm. From these computational properties we give a concrete correspondence between AdaBoost's cycling behavior and continued fractions dynamics. Then we explore the results of this correspondence to expound on how the algorithm comes to be in this periodic state at all. What we intend for this work is to be a novel and self-contained explanation for the cycling dynamics of this machine learning algorithm.
翻訳日:2022-09-16 12:29:24 公開日:2022-09-14
# 生成ビジュアルプロンプト:事前学習された生成モデルの分布制御の統一化

Generative Visual Prompt: Unifying Distributional Control of Pre-Trained Generative Models ( http://arxiv.org/abs/2209.06970v1 )

ライセンス: Link先を確認
Chen Henry Wu, Saman Motamed, Shaunak Srivastava, Fernando De la Torre(参考訳) 生成モデル(GANや拡散モデルなど)は、教師なしの方法で基礎となるデータ分布を学習する。 しかし、興味のある多くの応用は、生成モデルの出力空間の特定の領域からサンプリングするか、あるいは様々な特性を均等に超える必要がある。 これらのシナリオを効率的にサンプリングするために、任意のオフザシェルフモデルの知識を取り入れて、事前学習した生成モデルを分散制御するフレームワークであるGenerative Visual Prompt (PromptGen)を提案する。 PromptGenは、制御をエネルギーベースモデル(EBM)として定義し、EBMを可逆ニューラルネットワークで近似することで、フィードフォワードでイメージをサンプリングする。 筆者らは,(1)CLIPモデルを用いて,PromptGenがテキストでガイドされた画像のサンプル化,(2)画像分類器で生成モデルのデバイアス化,(3)逆グラフィックモデルで,PromptGenは異なるポーズで同一のイメージをサンプリングする,といった,さまざまなオフザシェルフモデルを用いて,PromptGenが生成モデル(StyleGAN2,StyleNeRF,拡散オートエンコーダ,NVAEなど)を制御できることを実証した。 (4) 最後に、PromptGenは、CLIPモデルがコントロールとして使用すると"バイアスのレポート"を示し、PromptGenは、この制御されたディストリビューションを反復的にデバイアスする。 私たちのコードはhttps://github.com/chenwu98/generative-visual-promptで利用可能です。

Generative models (e.g., GANs and diffusion models) learn the underlying data distribution in an unsupervised manner. However, many applications of interest require sampling from a specific region of the generative model's output space or evenly over a range of characteristics. To allow efficient sampling in these scenarios, we propose Generative Visual Prompt (PromptGen), a framework for distributional control over pre-trained generative models by incorporating knowledge of arbitrary off-the-shelf models. PromptGen defines control as an energy-based model (EBM) and samples images in a feed-forward manner by approximating the EBM with invertible neural networks, avoiding optimization at inference. We demonstrate how PromptGen can control several generative models (e.g., StyleGAN2, StyleNeRF, diffusion autoencoder, and NVAE) using various off-the-shelf models: (1) with the CLIP model, PromptGen can sample images guided by text, (2) with image classifiers, PromptGen can de-bias generative models across a set of attributes, and (3) with inverse graphics models, PromptGen can sample images of the same identity in different poses. (4) Finally, PromptGen reveals that the CLIP model shows "reporting bias" when used as control, and PromptGen can further de-bias this controlled distribution in an iterative manner. Our code is available at https://github.com/ChenWu98/Generative-Visual-Prompt.
翻訳日:2022-09-16 12:27:45 公開日:2022-09-14
# NanoFlowNet:ナノクアッドコプター上のリアルタイム高密度光フロー

NanoFlowNet: Real-time Dense Optical Flow on a Nano Quadcopter ( http://arxiv.org/abs/2209.06918v1 )

ライセンス: Link先を確認
Rik J. Bouwmeester, Federico Paredes-Vall\'es and Guido C. H. E. de Croon(参考訳) nano quadcoptersは小さくてアジャイルで安価なプラットフォームで、狭く乱雑な環境でのデプロイメントに適している。 ペイロードが限られているため、これらの車両は処理能力に非常に制約があり、安全かつ自律的なナビゲーションのための従来の視覚ベースの方法が互換性がない。 最近の機械学習開発は低レイテンシでの高性能な認識を約束しているが、専用エッジコンピューティングハードウェアはこれらの制限されたデバイスの処理能力を増強する可能性がある。 本研究では,エッジコンピューティングハードウェア上でのリアルタイムな高密度光フロー推定のための軽量畳み込みニューラルネットワークであるNanoFlowNetを提案する。 このネットワークの設計のためのセマンティックセグメンテーションの最近の進歩から着想を得た。 さらに,動き境界接地真理データを用いた光流れの学習を指導し,レイテンシに影響を与えずに性能を向上させる。 MPI-Sintelデータセットの検証結果は、その制約されたアーキテクチャから提案したネットワークの性能を示す。 さらに,超低消費電力のGAP8マイクロプロセッサにNanoFlowNetを配置し,34gナノクアッドコプターであるBitcraze Crazyflieに搭載した視覚障害回避装置に適用することにより,NanoFlowNetの能力を実証した。

Nano quadcopters are small, agile, and cheap platforms that are well suited for deployment in narrow, cluttered environments. Due to their limited payload, these vehicles are highly constrained in processing power, rendering conventional vision-based methods for safe and autonomous navigation incompatible. Recent machine learning developments promise high-performance perception at low latency, while dedicated edge computing hardware has the potential to augment the processing capabilities of these limited devices. In this work, we present NanoFlowNet, a lightweight convolutional neural network for real-time dense optical flow estimation on edge computing hardware. We draw inspiration from recent advances in semantic segmentation for the design of this network. Additionally, we guide the learning of optical flow using motion boundary ground truth data, which improves performance with no impact on latency. Validation results on the MPI-Sintel dataset show the high performance of the proposed network given its constrained architecture. Additionally, we successfully demonstrate the capabilities of NanoFlowNet by deploying it on the ultra-low power GAP8 microprocessor and by applying it to vision-based obstacle avoidance on board a Bitcraze Crazyflie, a 34 g nano quadcopter.
翻訳日:2022-09-16 12:23:33 公開日:2022-09-14
# ヒューリスティックアプローチによるロッカーボギー機構の最適化

Optimization of Rocker-Bogie Mechanism using Heuristic Approaches ( http://arxiv.org/abs/2209.06927v1 )

ライセンス: Link先を確認
Harsh Senjaliya, Pranshav Gajjar, Brijan Vaghasiya, Pooja Shah, and Paresh Gujarati(参考訳) 動的地形と環境における地球外ローバーの最適移動と効率的な移動は、惑星科学と地球物理システムの分野で重要な問題ステートメントである。 惑星ローバーのサスペンション機構のための最上級かつ効率的なアーキテクチャの設計は、堅牢なローバーへの重要なステップである。 本稿では,海外の地形に関連した標準サスペンション手法であるrocker bogie機構に着目した。 これまでの文献を精査し,様々な最適化と大域的最小化アルゴリズムを活用し,ローバーサスペンション機構の機械設計最適化に関する新しい研究を行った。 本稿では,シミュレーション・アニーリング,遺伝的アルゴリズム,スワーミング・インテリジェンス技術,ベースライン・希望と微分進化に関する広範囲なテストを行い,関連するすべてのハイパーパラメータを徹底的に評価し,有用性のある解を求める。 また、上記の課題に対して、Dual Annealingおよび補助アルゴリズムの評価を行い、倫理研究の非バイアステストの視点を維持した。 計算効率と全体の適合性は、関連するアルゴリズムを評価する上で重要な決定パラメータであると考えられており、最も適切なユーティリティ駆動戦略を見つけるために、変数入力種にも強調される。 シミュレート・アニーリングは、他のアルゴリズムよりもかなり優れ、様々な入力種と個々のパフォーマンス指標に対して一貫したパフォーマンスを提供する760の適合性を持つ、最高性能のヒューリスティック戦略として実証的に得られた。

Optimal locomotion and efficient traversal of extraterrestrial rovers in dynamic terrains and environments is an important problem statement in the field of planetary science and geophysical systems. Designing a superlative and efficient architecture for the suspension mechanism of planetary rovers is a crucial step towards robust rovers. This paper focuses on the Rocker Bogie mechanism, a standard suspension methodology associated with foreign terrains. After scrutinizing the available previous literature and by leveraging various optimization and global minimization algorithms, this paper offers a novel study on mechanical design optimization of a rovers suspension mechanism. This paper presents extensive tests on Simulated Annealing, Genetic Algorithms, Swarm Intelligence techniques, Basin Hoping and Differential Evolution, while thoroughly assessing every related hyper parameter, to find utility driven solutions. We also assess Dual Annealing and subsidiary algorithms for the aforementioned task while maintaining an unbiased testing standpoint for ethical research. Computational efficiency and overall fitness are considered key valedictory parameters for assessing the related algorithms, emphasis is also given to variable input seeds to find the most suitable utility driven strategy. Simulated Annealing was obtained empirically to be the top performing heuristic strategy, with a fitness of 760, which was considerably superior to other algorithms and provided consistent performance across various input seeds and individual performance indicators.
翻訳日:2022-09-16 12:22:47 公開日:2022-09-14
# 非線形分類のためのアンサンブルマルチエージェントシステム

An ensemble Multi-Agent System for non-linear classification ( http://arxiv.org/abs/2209.06824v1 )

ライセンス: Link先を確認
Thibault Fourez (IRIT-SMAC), Nicolas Verstaevel (IRIT-SMAC), Fr\'ed\'eric Migeon (IRIT-SMAC), Fr\'ed\'eric Schettini, Frederic Amblard (IRIT-SMAC)(参考訳) 自己適応型マルチエージェントシステム(AMAS)は、機械学習問題をエージェント間の局所的な協調の問題に変換する。 エージェントに協調ルールに加えて機械学習モデルを提供する移動予測のためのアンサンブルベースのAMAS実装であるsmapyを提案する。 詳細な手法により,協調型マルチエージェント構造に統合された場合,ベンチマークトランスポートモード検出データセットの非線形分類に線形モデルを用いることが可能であることを示す。 その結果, 非線形文脈における線形モデルの性能は, マルチエージェント手法により大幅に向上した。

Self-Adaptive Multi-Agent Systems (AMAS) transform machine learning problems into problems of local cooperation between agents. We present smapy, an ensemble based AMAS implementation for mobility prediction, whose agents are provided with machine learning models in addition to their cooperation rules. With a detailed methodology, we show that it is possible to use linear models for nonlinear classification on a benchmark transport mode detection dataset, if they are integrated in a cooperative multi-agent structure. The results obtained show a significant improvement of the performance of linear models in non-linear contexts thanks to the multi-agent approach.
翻訳日:2022-09-16 12:21:51 公開日:2022-09-14
# 学習型航空宇宙アプリケーションのための進化する入力分布におけるデータライフサイクル管理

Data Lifecycle Management in Evolving Input Distributions for Learning-based Aerospace Applications ( http://arxiv.org/abs/2209.06855v1 )

ライセンス: Link先を確認
Somrita Banerjee, Apoorva Sharma, Edward Schmerling, Max Spolaor, Michael Nemerouf, Marco Pavone(参考訳) 入力分布がミッションライフタイムに進化するにつれて,学習モデルの性能維持が困難になる。 本稿では,テスト入力のサブセットをラベルに選択することによって,モデルを漸進的に再トレーニングする枠組みを提案する。 本フレームワーク内のアルゴリズムは,(1)ミッション寿命を通してのモデル性能と(2)ラベル付けとモデル再訓練に関連する累積コストに基づいて評価される。 宇宙空間における衛星の画像に基づいて訓練され、新たなシナリオ(例えば、異なる背景や誤った画素)に展開される衛星ポーズ推定モデルのオープンソースベンチマークを提供する。 また,ベイズの不確実性定量化を用いた入力からの情報ゲインを特徴付け,バッチアクティブラーニングの概念を用いて集合情報ゲインを最大化するサブセットを選択することで,ラベル付けのための多様なサブセットを選択する新しいアルゴリズムを提案する。 我々のアルゴリズムは、例えば、100%の入力をラベル付けするアルゴリズムに匹敵する性能を達成し、50%の入力のみをラベル付けし、結果としてミッション寿命よりも低コストで高い性能が得られることを示す。

As input distributions evolve over a mission lifetime, maintaining performance of learning-based models becomes challenging. This paper presents a framework to incrementally retrain a model by selecting a subset of test inputs to label, which allows the model to adapt to changing input distributions. Algorithms within this framework are evaluated based on (1) model performance throughout mission lifetime and (2) cumulative costs associated with labeling and model retraining. We provide an open-source benchmark of a satellite pose estimation model trained on images of a satellite in space and deployed in novel scenarios (e.g., different backgrounds or misbehaving pixels), where algorithms are evaluated on their ability to maintain high performance by retraining on a subset of inputs. We also propose a novel algorithm to select a diverse subset of inputs for labeling, by characterizing the information gain from an input using Bayesian uncertainty quantification and choosing a subset that maximizes collective information gain using concepts from batch active learning. We show that our algorithm outperforms others on the benchmark, e.g., achieves comparable performance to an algorithm that labels 100% of inputs, while only labeling 50% of inputs, resulting in low costs and high performance over the mission lifetime.
翻訳日:2022-09-16 12:16:52 公開日:2022-09-14
# ニューラルフロー変形によるランドマークフリー統計形状モデリング

Landmark-free Statistical Shape Modeling via Neural Flow Deformations ( http://arxiv.org/abs/2209.06861v1 )

ライセンス: Link先を確認
David L\"udke, Tamaz Amiranashvili, Felix Ambellan, Ivan Ezhov, Bjoern Menze, Stefan Zachow(参考訳) 統計的形状モデリングは、特定の集団内で起こる解剖学的構造の形状変化を捉えることを目的としている。 形状モデルは形状再構成や画像分割など多くのタスクで用いられ、形状生成や分類も行われている。 既存の形状優先はトレーニング例間の密接な対応を必要とするか、ロバスト性やトポロジカルな保証が欠如している。 本稿では,トレーニングインスタンス間の密接な対応を必要とせず,形状変化を学習する新しい形状モデリング手法であるflowsmを提案する。 これは、ニューラルネットワークによってパラメータ化される連続的な変形フローの階層に依存する。 本モデルは,大腿骨遠位部と肝に対する表現力とロバストな形状を提供するため,最先端の手法に勝る。 また, 出現する潜伏表現は, 健康的形状と病理的形状を区別することで判別可能であることを示した。 最終的に,部分的データから2つの形状復元タスクにおいて有効性を示す。 ソースコードは公開されている(https://github.com/davecasp/flowssm)。

Statistical shape modeling aims at capturing shape variations of an anatomical structure that occur within a given population. Shape models are employed in many tasks, such as shape reconstruction and image segmentation, but also shape generation and classification. Existing shape priors either require dense correspondence between training examples or lack robustness and topological guarantees. We present FlowSSM, a novel shape modeling approach that learns shape variability without requiring dense correspondence between training instances. It relies on a hierarchy of continuous deformation flows, which are parametrized by a neural network. Our model outperforms state-of-the-art methods in providing an expressive and robust shape prior for distal femur and liver. We show that the emerging latent representation is discriminative by separating healthy from pathological shapes. Ultimately, we demonstrate its effectiveness on two shape reconstruction tasks from partial data. Our source code is publicly available (https://github.com/davecasp/flowssm).
翻訳日:2022-09-16 12:16:32 公開日:2022-09-14
# 自己スーパービジョンによる共分散表現と画像クラスタリング学習

Joint Debiased Representation and Image Clustering Learning with Self-Supervision ( http://arxiv.org/abs/2209.06941v1 )

ライセンス: Link先を確認
Shunjie-Fabian Zheng, JaeEun Nam, Emilio Dorigatti, Bernd Bischl, Shekoofeh Azizi, Mina Rezaei(参考訳) コントラスト学習は視覚表現学習において最も成功した手法の一つであり、学習した表現をクラスタリングすることでその性能をさらに向上させることができる。 しかし,従来の共同クラスタリングやコントラスト学習の手法は,多数派が少数派クラスを圧倒・歪め,意味のある表現の学習を妨げているため,長期的データ分布ではうまく機能しない。 そこで我々は,不均衡データセットの下位クラスタ化を回避するために,デバイアス付きコントラスト損失を適応させることにより,新たな共同クラスタリングとコントラスト学習の枠組みを構築した。 提案した改良型デバイアス付きコントラスト損失と分散クラスタリング損失は、複数のデータセットと学習タスクのパフォーマンスを向上させることを示す。 ソースコードはhttps://anonymous.4open.science/r/SSL-debiased-clusteringで入手できる。

Contrastive learning is among the most successful methods for visual representation learning, and its performance can be further improved by jointly performing clustering on the learned representations. However, existing methods for joint clustering and contrastive learning do not perform well on long-tailed data distributions, as majority classes overwhelm and distort the loss of minority classes, thus preventing meaningful representations to be learned. Motivated by this, we develop a novel joint clustering and contrastive learning framework by adapting the debiased contrastive loss to avoid under-clustering minority classes of imbalanced datasets. We show that our proposed modified debiased contrastive loss and divergence clustering loss improves the performance across multiple datasets and learning tasks. The source code is available at https://anonymous.4open.science/r/SSL-debiased-clustering
翻訳日:2022-09-16 12:16:18 公開日:2022-09-14
# 敵対的ロバスト性とアーキテクチャコンポーネントの相互作用について:パッチ,畳み込み,注意

On the interplay of adversarial robustness and architecture components: patches, convolution and attention ( http://arxiv.org/abs/2209.06953v1 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) 近年、画像分類のための新しいアーキテクチャコンポーネントが開発され、まずはトランスフォーマの注意とパッチが使われている。 先行研究は、アーキテクチャコンポーネントのいくつかの側面が敵の攻撃に対する堅牢性、特に視覚トランスフォーマーに与えた影響を分析しているが、主要な要因の理解はまだ限られている。 我々は、異なるアーキテクチャを持ついくつかの(非)ロバスト分類器を比較し、学習した特徴の解釈可能性に対する敵対的訓練の効果や、見当たらない脅威モデルに対する堅牢性など、それらの特性について研究する。 ResNetからConvNeXtへのアブレーションにより、キーとなるアーキテクチャ上の変更により、約10\%の高額な$\ell_\infty$-robustnessが実現した。

In recent years novel architecture components for image classification have been developed, starting with attention and patches used in transformers. While prior works have analyzed the influence of some aspects of architecture components on the robustness to adversarial attacks, in particular for vision transformers, the understanding of the main factors is still limited. We compare several (non)-robust classifiers with different architectures and study their properties, including the effect of adversarial training on the interpretability of the learnt features and robustness to unseen threat models. An ablation from ResNet to ConvNeXt reveals key architectural changes leading to almost $10\%$ higher $\ell_\infty$-robustness.
翻訳日:2022-09-16 12:16:04 公開日:2022-09-14
# クラスタリング確率分布に対するWasserstein $K$-means

Wasserstein $K$-means for clustering probability distributions ( http://arxiv.org/abs/2209.06975v1 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang(参考訳) クラスタリングは、類似性に基づいてオブジェクトをグループ化する重要な探索データ解析手法である。 広く使われている$K$-meansクラスタリング法は、データを少数のグループに分割する距離の概念に依存している。 ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。 現代の機械学習アプリケーションでは、データは確率分布として現れ、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。 ワッサーシュタイン空間の非負のアレクサンドロフ曲率のため、バリー中心は正則性や非ロバスト性の問題に悩まされる。 Wasserstein Barycenters の特異な振る舞いは、センチロイドに基づく定式化がクラスタ内のデータポイントを表現できないようにし、より直接的な距離に基づく $K$-means アプローチと半定値プログラム(SDP)緩和は真のクラスタラベルを復元することができる。 ガウス分布の特別の場合において、SDP緩和ワッサーシュタイン$K$-平均は、クラスターが2ドルワッサーシュタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。 シミュレーションおよび実データ例により、距離ベース$K$-meansは、クラスタリング確率分布と画像に対して標準セントロイドベース$K$-meansよりも優れた分類性能が得られることを示した。

Clustering is an important exploratory data analysis technique to group objects based on their similarity. The widely used $K$-means clustering method relies on some notion of distance to partition data into a fewer number of groups. In the Euclidean space, centroid-based and distance-based formulations of the $K$-means are equivalent. In modern machine learning applications, data often arise as probability distributions and a natural generalization to handle measure-valued data is to use the optimal transport metric. Due to non-negative Alexandrov curvature of the Wasserstein space, barycenters suffer from regularity and non-robustness issues. The peculiar behaviors of Wasserstein barycenters may make the centroid-based formulation fail to represent the within-cluster data points, while the more direct distance-based $K$-means approach and its semidefinite program (SDP) relaxation are capable of recovering the true cluster labels. In the special case of clustering Gaussian distributions, we show that the SDP relaxed Wasserstein $K$-means can achieve exact recovery given the clusters are well-separated under the $2$-Wasserstein metric. Our simulation and real data examples also demonstrate that distance-based $K$-means can achieve better classification performance over the standard centroid-based $K$-means for clustering probability distributions and images.
翻訳日:2022-09-16 12:13:12 公開日:2022-09-14
# 群衆数の再検討:最新技術、トレンド、今後の展望

Revisiting Crowd Counting: State-of-the-art, Trends, and Future Perspectives ( http://arxiv.org/abs/2209.07271v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar, and Ridha Hamila(参考訳) 群衆カウントは公共の場での状況認識に有効なツールである。 画像やビデオを使った自動観客カウントは興味深いが、難しい問題であり、コンピュータビジョンに大きな注目を集めている。 過去数年間、最先端の性能を達成するために様々なディープラーニング手法が開発されてきた。 時間とともに進化した手法は、モデルアーキテクチャ、入力パイプライン、学習パラダイム、計算複雑性、精度向上など、多くの面で異なる。 本稿では,群集カウントの分野における最も重要な貢献について,体系的かつ包括的に概説する。 このトピックに関する調査は少ないが、調査は最新であり、いくつかの点で異なる。 まず、モデルアーキテクチャ、学習方法(損失関数)、評価方法(評価メトリクス)による最も重要な貢献のより意味のある分類を提供する。 我々は際立った作品を選び、類似の作品を除外した。 また、よく知られたクラウドカウントモデルを、ベンチマークデータセットよりもパフォーマンスによってソートします。 この調査は、先進的な発展と貢献の時間と現在の最先端を理解する上で、初心者研究者にとって良い情報源となると信じています。

Crowd counting is an effective tool for situational awareness in public places. Automated crowd counting using images and videos is an interesting yet challenging problem that has gained significant attention in computer vision. Over the past few years, various deep learning methods have been developed to achieve state-of-the-art performance. The methods evolved over time vary in many aspects such as model architecture, input pipeline, learning paradigm, computational complexity, and accuracy gains etc. In this paper, we present a systematic and comprehensive review of the most significant contributions in the area of crowd counting. Although few surveys exist on the topic, our survey is most up-to date and different in several aspects. First, it provides a more meaningful categorization of the most significant contributions by model architectures, learning methods (i.e., loss functions), and evaluation methods (i.e., evaluation metrics). We chose prominent and distinct works and excluded similar works. We also sort the well-known crowd counting models by their performance over benchmark datasets. We believe that this survey can be a good resource for novice researchers to understand the progressive developments and contributions over time and the current state-of-the-art.
翻訳日:2022-09-16 12:06:09 公開日:2022-09-14
# 言語モデルを使って人間のサンプルをシミュレートします

Out of One, Many: Using Language Models to Simulate Human Samples ( http://arxiv.org/abs/2209.06899v1 )

ライセンス: Link先を確認
Lisa P. Argyle, Ethan C. Busby, Nancy Fulda, Joshua Gubler, Christopher Rytting, David Wingate(参考訳) 本研究では, 社会科学研究において, 特定の人間集団に対する効果的なプロキシとして言語モデルが研究できる可能性を提案し, 検討する。 人工知能ツールの実践的および研究的な応用は、しばしばモデルの均一性として扱われる問題バイアス(人種差別や性差別など)によって制限されている。 このようなツール(GPT-3言語モデル)の「アルゴリズムバイアス」は、その代わりに粒度と人口統計学的に相関があることを示し、適切な条件付けによって、様々な人間のサブグループからの応答分布を正確にエミュレートする。 我々はこの性質を「algorithmic fidelity」と呼び、gpt-3でその範囲を探究する。 我々は,米国における大規模調査において,実際の人間による数千の社会デマトグラフィー・バックストリーをモデルとして「シリコン・サンプル」を作成する。 そして、シリコンと人間のサンプルを比較して、GPT-3に含まれる情報が表面の類似性を超えていることを示す。 それはニュアンス的で多面的であり、人間の態度を特徴づける思想、態度、社会文化的文脈の間の複雑な相互作用を反映している。 そこで我々は,アルゴリズムの忠実度が十分である言語モデルが,様々な分野にわたる人間や社会の理解を深める新しい強力なツールとなることを示唆した。

We propose and explore the possibility that language models can be studied as effective proxies for specific human sub-populations in social science research. Practical and research applications of artificial intelligence tools have sometimes been limited by problematic biases (such as racism or sexism), which are often treated as uniform properties of the models. We show that the "algorithmic bias" within one such tool -- the GPT-3 language model -- is instead both fine-grained and demographically correlated, meaning that proper conditioning will cause it to accurately emulate response distributions from a wide variety of human subgroups. We term this property "algorithmic fidelity" and explore its extent in GPT-3. We create "silicon samples" by conditioning the model on thousands of socio-demographic backstories from real human participants in multiple large surveys conducted in the United States. We then compare the silicon and human samples to demonstrate that the information contained in GPT-3 goes far beyond surface similarity. It is nuanced, multifaceted, and reflects the complex interplay between ideas, attitudes, and socio-cultural context that characterize human attitudes. We suggest that language models with sufficient algorithmic fidelity thus constitute a novel and powerful tool to advance understanding of humans and society across a variety of disciplines.
翻訳日:2022-09-16 12:05:53 公開日:2022-09-14
# 条件付き拡散モデルによる損失画像圧縮

Lossy Image Compression with Conditional Diffusion Models ( http://arxiv.org/abs/2209.06950v1 )

ライセンス: Link先を確認
Ruihan Yang, Stephan Mandt(参考訳) 拡散モデルは、確固とした確率論的原理に依存しつつ、高品質な画像生成のマイルストーンとなる新しい生成モデルである。 これにより、ニューラル画像圧縮の候補モデルが期待できる。 本稿では,画像圧縮のための条件拡散モデルに基づくエンドツーエンド最適化フレームワークについて概説する。 拡散過程に固有の潜伏変数に加えて、モデルではデノナイジング過程を条件付けるために、インスタンスごとの潜伏変数を導入する。 復号時に拡散処理は、祖先サンプリングを用いて画像を条件付きで生成/再構成する。 実験の結果,この手法は2つの圧縮ベンチマークにおいて,BPGと1つのニューラルコーデックで最高の性能を示し,レートパーセプショントレードオフに着目した。 定性的には、従来のアプローチよりも減圧アーティファクトが少ない。

Diffusion models are a new class of generative models that mark a milestone in high-quality image generation while relying on solid probabilistic principles. This makes them promising candidate models for neural image compression. This paper outlines an end-to-end optimized framework based on a conditional diffusion model for image compression. Besides latent variables inherent to the diffusion process, the model introduces an additional per-instance "content" latent variable to condition the denoising process. Upon decoding, the diffusion process conditionally generates/reconstructs an image using ancestral sampling. Our experiments show that this approach outperforms one of the best-performing conventional image codecs (BPG) and one neural codec on two compression benchmarks, where we focus on rate-perception tradeoffs. Qualitatively, our approach shows fewer decompression artifacts than the classical approach.
翻訳日:2022-09-16 12:02:05 公開日:2022-09-14
# 遺伝的アルゴリズムによる進化のシミュレーション

Using Genetic Algorithms to Simulate Evolution ( http://arxiv.org/abs/2209.06822v1 )

ライセンス: Link先を確認
Manasa Josyula(参考訳) 進化は、今日、植物や動物は過去に存在した種から生まれたという説である。 チャールズ・ダーウィンやアルフレッド・ウォレスといった科学者は、種が環境とどのように相互作用し、成長し、変化するかを観察するために人生を捧げる。 将来的な変化を予測するだけでなく,遺伝的アルゴリズムによるプロセスのシミュレートも可能です。 遺伝的アルゴリズムは、複数の変数とパラメータを環境に提示し、異なる状況をシミュレートするために値を変更する機会を与えてくれる。 遺伝的アルゴリズムを環境に保持するように最適化することにより、速度、サイズ、クローニング確率などの様々な特性を、実体に割り当て、実際の自然選択と進化を短時間でシミュレートすることができる。 種がどのように成長し進化するかを学ぶことで、テクノロジーを改良し、動物が絶滅して生き残るのを助け、どのように病気が広まるか、そして環境を居住不能にする方法を見つけることができます。 遺伝的アルゴリズムや速度、サイズ、クローンの割合のパラメータを含む環境のデータを使用することで、環境内のいくつかの変化をテストし、種がどのように相互作用するかを観察することができる。 異なる環境を多量の食品で試験した後, 開始個体数を10個に抑えながら, 少人数の食品が持続可能でない環境は小さく, 遅い環境では維持できないことがわかった。 全ての環境は速度を増したが、食物に富んだ環境は、生物が50世代にわたって生きることができ、人口は大幅に増加した。

Evolution is the theory that plants and animals today have come from kinds that have existed in the past. Scientists such as Charles Darwin and Alfred Wallace dedicate their life to observe how species interact with their environment, grow, and change. We are able to predict future changes as well as simulate the process using genetic algorithms. Genetic Algorithms give us the opportunity to present multiple variables and parameters to an environment and change values to simulate different situations. By optimizing genetic algorithms to hold entities in an environment, we are able to assign varying characteristics such as speed, size, and cloning probability, to the entities to simulate real natural selection and evolution in a shorter period of time. Learning about how species grow and evolve allows us to find ways to improve technology, help animals going extinct to survive, and figure* out how diseases spread and possible ways of making an environment uninhabitable for them. Using data from an environment including genetic algorithms and parameters of speed, size, and cloning percentage, the ability to test several changes in the environment and observe how the species interacts within it appears. After testing different environments with a varied amount of food while keeping the number of starting population at 10 entities, it was found that an environment with a scarce amount of food was not sustainable for small and slow entities. All environments displayed an increase in speed, but the environments that were richer in food allowed for the entities to live for the entire duration of 50 generations, as well as allowed the population to grow significantly.
翻訳日:2022-09-16 12:01:53 公開日:2022-09-14
# ニューラルモデルへの新しいアプローチのスケッチ

Sketch of a novel approach to a neural model ( http://arxiv.org/abs/2209.06865v1 )

ライセンス: Link先を確認
Gabriele Scheler(参考訳) 本稿では,ニューラルプロセッシングの水平-垂直統合モデルとして,新しい神経可塑性モデルを提案する。 ニューラルモデリングに対する新しいアプローチは、AIの第3波に恩恵をもたらすと考えています。 水平平面は、時空間スパイクパターンを生成する伝送リンクによって接続されるニューロンの適応ネットワークからなる。 これは標準的な計算神経科学のアプローチに適合する。 さらに、個々のニューロンには、神経伝達に関与する外部の膜発現パラメータを操る内部適応パラメータからなる垂直部分がある。 各ニューロンは、対応するパラメータの垂直なモジュラーシステムを持つ (a)膜層の外部パラメーターで、区画(スペン、ブートン)に分けられる b) 膜下領域と細胞質の内部パラメータとそのタンパク質シグナルネットワーク c) 遺伝学的およびエピジェネティック情報のための核の中核パラメータ。 このようなモデルでは、水平ネットワークの各ノード(=ニューロン)は独自の内部メモリを持つ。 神経伝達と情報記憶は体系的に分離され、シナプス重みモデルよりも重要な概念的な進歩である。 本稿では, 膜に基づく(外部)フィルタリングと, 高速なゆらぎによる信号損失処理のための外部信号の選択, 細胞内タンパク質シグナルから核へのニューロン内計算戦略について論じる。 我々は、個々のニューロンが信号の計算において重要な役割を担っていること、記憶のシナプス重み調整仮説に由来する多くの仮定が実際の脳では持たないことを示したい。 全ての送信イベントがトレースを残し、ニューロンは現在の入力によって受動的に決定されるのではなく、自己プログラミングデバイスである。 最終的には、事実とイベントを自動的に処理する柔軟なメモリシステムを構築しようとしています。

In this paper, we lay out a novel model of neuroplasticity in the form of a horizontal-vertical integration model of neural processing. We believe a new approach to neural modeling will benefit the 3rd wave of AI. The horizontal plane consists of an adaptive network of neurons connected by transmission links which generates spatio-temporal spike patterns. This fits with standard computational neuroscience approaches. Additionally for each individual neuron there is a vertical part consisting of internal adaptive parameters steering the external membrane-expressed parameters which are involved in neural transmission. Each neuron has a vertical modular system of parameters corresponding to (a) external parameters at the membrane layer, divided into compartments (spines, boutons) (b) internal parameters in the submembrane zone and the cytoplasm with its protein signaling network and (c) core parameters in the nucleus for genetic and epigenetic information. In such models, each node (=neuron) in the horizontal network has its own internal memory. Neural transmission and information storage are systematically separated, an important conceptual advance over synaptic weight models. We discuss the membrane-based (external) filtering and selection of outside signals for processing vs. signal loss by fast fluctuations and the neuron-internal computing strategies from intracellular protein signaling to the nucleus as the core system. We want to show that the individual neuron has an important role in the computation of signals and that many assumptions derived from the synaptic weight adjustment hypothesis of memory may not hold in a real brain. Not every transmission event leaves a trace and the neuron is a self-programming device, rather than passively determined by current input. Ultimately we strive to build a flexible memory system that processes facts and events automatically.
翻訳日:2022-09-16 11:59:22 公開日:2022-09-14
# PointACL: 対向攻撃下でのロバスト点雲表現のための対向的コントラスト学習

PointACL:Adversarial Contrastive Learning for Robust Point Clouds Representation under Adversarial Attack ( http://arxiv.org/abs/2209.06971v1 )

ライセンス: Link先を確認
Junxuan Huang, Yatong An, Lu cheng, Bai Chen, Junsong Yuan, Chunming Qiao(参考訳) 近年の3次元点雲表現における自己教師型コントラスト学習モデルの成功にもかかわらず、事前学習されたモデルの対角的堅牢性は懸念を引き起こした。 逆比較学習(Adversarial contrastive learning, ACL)は、事前学習されたモデルの堅牢性を改善する効果的な方法と考えられている。 In contrastive learning, the projector is considered an effective component for removing unnecessary feature information during contrastive pretraining and most ACL works also use contrastive loss with projected feature representations to generate adversarial examples in pretraining, while "unprojected " feature representations are used in generating adversarial inputs during inference.Because of the distribution gap between projected and "unprojected" features, their models are constrained of obtaining robust feature representations for downstream tasks. 対照的な学習フレームワークにおける「未計画」特徴表現を用いて,仮想的対角的損失を利用して,高品質な3次元対角的学習例を生成する手法を提案する。 本稿では,自己教師付きコントラスト学習フレームワークを敵対的に学習するために,ロバストな認識損失関数を提案する。 さらに, 正規化演算子(DoN)の差分を用いた高次差分点を選択することで, 事前学習モデルの逆相関性を大幅に向上させることができることを示す。 提案手法であるPointACLを,複数のデータセットを用いた3次元分類と3次元分割を含む下流タスクで検証する。 最先端の反逆的学習法に対して、同等に頑健な精度が得られる。

Despite recent success of self-supervised based contrastive learning model for 3D point clouds representation, the adversarial robustness of such pre-trained models raised concerns. Adversarial contrastive learning (ACL) is considered an effective way to improve the robustness of pre-trained models. In contrastive learning, the projector is considered an effective component for removing unnecessary feature information during contrastive pretraining and most ACL works also use contrastive loss with projected feature representations to generate adversarial examples in pretraining, while "unprojected " feature representations are used in generating adversarial inputs during inference.Because of the distribution gap between projected and "unprojected" features, their models are constrained of obtaining robust feature representations for downstream tasks. We introduce a new method to generate high-quality 3D adversarial examples for adversarial training by utilizing virtual adversarial loss with "unprojected" feature representations in contrastive learning framework. We present our robust aware loss function to train self-supervised contrastive learning framework adversarially. Furthermore, we find selecting high difference points with the Difference of Normal (DoN) operator as additional input for adversarial self-supervised contrastive learning can significantly improve the adversarial robustness of the pre-trained model. We validate our method, PointACL on downstream tasks, including 3D classification and 3D segmentation with multiple datasets. It obtains comparable robust accuracy over state-of-the-art contrastive adversarial learning methods.
翻訳日:2022-09-16 11:59:00 公開日:2022-09-14
# 機能的作業グループとセンサチャネルを用いた車両の時間異常検知システム

A Temporal Anomaly Detection System for Vehicles utilizing Functional Working Groups and Sensor Channels ( http://arxiv.org/abs/2209.06828v1 )

ライセンス: Link先を確認
Subash Neupane, Ivan A. Fernandez, Wilson Patterson, Sudip Mittal, Shahram Rahimi(参考訳) センサー、アクチュエータ、電子制御ユニット(ECU)を装備した現代の車両は、機能作業グループ(FWG)と呼ばれるいくつかの運用サブシステムに分けられる。 これらのFWGの例としては、エンジンシステム、トランスミッション、燃料システム、ブレーキなどがある。 各FWGは、車両の運転条件を測定するセンサーチャネルを持つ。 このデータ豊富な環境は、予測保守(PdM)技術の発展に寄与する。 各種PdM技術の根底には、データの大部分から著しく逸脱する事象や観測を識別し、正常な車両の動作に関する明確に定義された概念に適合しない堅牢な異常検出モデルが必要である。 本稿では,車両性能,信頼性,運用性(vepro)データセットについて紹介し,それを用いて異常検出のための多相アプローチを作成する。 時間的畳み込みネットワーク(TCN)を用いることで、異常検出システムは96%の精度で検出でき、真の異常の91%を正確に予測できる。 複数のFWGからのセンサチャネルを利用すると,異常検出システムの性能が向上する。

A modern vehicle fitted with sensors, actuators, and Electronic Control Units (ECUs) can be divided into several operational subsystems called Functional Working Groups (FWGs). Examples of these FWGs include the engine system, transmission, fuel system, brakes, etc. Each FWG has associated sensor-channels that gauge vehicular operating conditions. This data rich environment is conducive to the development of Predictive Maintenance (PdM) technologies. Undercutting various PdM technologies is the need for robust anomaly detection models that can identify events or observations which deviate significantly from the majority of the data and do not conform to a well defined notion of normal vehicular operational behavior. In this paper, we introduce the Vehicle Performance, Reliability, and Operations (VePRO) dataset and use it to create a multi-phased approach to anomaly detection. Utilizing Temporal Convolution Networks (TCN), our anomaly detection system can achieve 96% detection accuracy and accurately predicts 91% of true anomalies. The performance of our anomaly detection system improves when sensor channels from multiple FWGs are utilized.
翻訳日:2022-09-16 11:53:10 公開日:2022-09-14
# 著作者の帰属と著作者の検証における芸術の現状について

On the State of the Art in Authorship Attribution and Authorship Verification ( http://arxiv.org/abs/2209.06869v1 )

ライセンス: Link先を確認
Jacob Tyo, Bhuwan Dhingra, Zachary C. Lipton(参考訳) オーサシップ属性(AA)とオーサシップ検証(AV)に関する何十年にもわたっての研究にもかかわらず、一貫性のないデータセットの分割/フィルタリングとミスマッチした評価手法は、アートの状態を評価することが困難である。 本稿では,フィールドの調査,混乱点の解決,A/AVデータセットとメトリクスの標準化とベンチマークを行うVallaの導入,大規模な経験的評価,既存手法間のリンゴとアプリケーションの比較を行う。 我々は15のデータセット(分散シフトチャレンジセットを含む)に対して8つの有望な手法を評価し、Project Gutenbergがアーカイブしたテキストに基づく新しい大規模データセットを導入する。 驚いたことに、従来のNgramベースのモデルは、平均的なマクロ精度を76.50セント(BERTベースのモデルでは6.71セント)で達成し、AAタスクの5つ(7つ)で最高のパフォーマンスを発揮する。 しかし、著者1人当たりの単語数が最も多い2つのAAデータセットとAVデータセットでは、BERTベースのモデルが最もよく機能する。 AV法はAAに容易に適用できるが、AA論文のベースラインには含まれない。 AV法は, 強陰性マイニングの適用により, AA法と競合する代替手段であることを示す。 Vallaとすべての実験コードはここにある。

Despite decades of research on authorship attribution (AA) and authorship verification (AV), inconsistent dataset splits/filtering and mismatched evaluation methods make it difficult to assess the state of the art. In this paper, we present a survey of the fields, resolve points of confusion, introduce Valla that standardizes and benchmarks AA/AV datasets and metrics, provide a large-scale empirical evaluation, and provide apples-to-apples comparisons between existing methods. We evaluate eight promising methods on fifteen datasets (including distribution-shifted challenge sets) and introduce a new large-scale dataset based on texts archived by Project Gutenberg. Surprisingly, we find that a traditional Ngram-based model performs best on 5 (of 7) AA tasks, achieving an average macro-accuracy of $76.50\%$ (compared to $66.71\%$ for a BERT-based model). However, on the two AA datasets with the greatest number of words per author, as well as on the AV datasets, BERT-based models perform best. While AV methods are easily applied to AA, they are seldom included as baselines in AA papers. We show that through the application of hard-negative mining, AV methods are competitive alternatives to AA methods. Valla and all experiment code can be found here: https://github.com/JacobTyo/Valla
翻訳日:2022-09-16 11:52:11 公開日:2022-09-14
# robust transferable feature extractors: 事前訓練されたネットワークをホワイトボックスの敵から守るための学習

Robust Transferable Feature Extractors: Learning to Defend Pre-Trained Networks Against White Box Adversaries ( http://arxiv.org/abs/2209.06931v1 )

ライセンス: Link先を確認
Alexander Cann, Ian Colbert, Ihab Amer(参考訳) コンピュータビジョンアプリケーションにおけるディープニューラルネットワークの広範な採用は、敵対的ロバスト性に大きな関心をもたらした。 既存の研究では、特定のモデル(例えば逆例)用に特別に調整された悪質な摂動入力は、予測エラーを誘発するために別の独立した訓練されたモデルにうまく転送できることが示されている。 さらに、この逆例の特性は、データ分布の予測パターンから派生した特徴に起因している。 敵の防御(adversarial defense)は、敵の例のように、他の独立した訓練されたモデルにうまく移行できるか? そこで本研究では,ロバストな特徴抽出器(rtfe)と呼ぶ深層学習に基づく前処理機構を提案する。 理論的な動機と意味を検証した結果,本手法は適応型ホワイトボックス敵に対して有効ではない複数の個別学習済み分類器に対して,逆ロバスト性を提供することができることを実験的に示した。 さらに、RTFEは、異なるデータセットで個別に訓練されたモデルに対して、ワンショットの対逆ロバスト性を提供できることを示す。

The widespread adoption of deep neural networks in computer vision applications has brought forth a significant interest in adversarial robustness. Existing research has shown that maliciously perturbed inputs specifically tailored for a given model (i.e., adversarial examples) can be successfully transferred to another independently trained model to induce prediction errors. Moreover, this property of adversarial examples has been attributed to features derived from predictive patterns in the data distribution. Thus, we are motivated to investigate the following question: Can adversarial defenses, like adversarial examples, be successfully transferred to other independently trained models? To this end, we propose a deep learning-based pre-processing mechanism, which we refer to as a robust transferable feature extractor (RTFE). After examining theoretical motivation and implications, we experimentally show that our method can provide adversarial robustness to multiple independently pre-trained classifiers that are otherwise ineffective against an adaptive white box adversary. Furthermore, we show that RTFEs can even provide one-shot adversarial robustness to models independently trained on different datasets.
翻訳日:2022-09-16 11:51:47 公開日:2022-09-14
# ヒューマンモビリティ予測のための言語基盤モデルの活用

Leveraging Language Foundation Models for Human Mobility Forecasting ( http://arxiv.org/abs/2209.05479v2 )

ライセンス: Link先を確認
Hao Xue, Bhanu Prakash Voutharoja, Flora D. Salim(参考訳) 本稿では,人間の移動予測タスクなどの時間的連続パターンマイニングに言語基盤モデルを活用する新しいパイプラインを提案する。 例えば、poi(place-of-interest)顧客フローを予測するタスクでは、通常、履歴ログから訪問回数を抽出し、訪問者フローを予測する数値データのみを使用する。 本研究では,数値値や文脈意味情報など,あらゆる種類の情報を含む自然言語入力に対して,予測タスクを直接実施する。 数値時間列を文に変換することで、既存の言語モデルを直接適用できるようにする。 我々は,各POIのビジター数を予測するためのAuxMobLCastパイプラインを設計し,補助的なPOIカテゴリ分類タスクとエンコーダ・デコーダアーキテクチャを統合する。 本研究は,AuxMobLCastパイプラインの有効性を実証的に証明し,移動予測タスクにおける逐次パターンの探索を行う。 実世界の3つのデータセットで評価した結果、事前学習された言語基盤モデルもまた、時間的シーケンスを予測する上で優れた性能を示した。 この研究は、視覚的な洞察を与え、人間の移動を予測するための新しい研究の方向性をもたらす可能性がある。

In this paper, we propose a novel pipeline that leverages language foundation models for temporal sequential pattern mining, such as for human mobility forecasting tasks. For example, in the task of predicting Place-of-Interest (POI) customer flows, typically the number of visits is extracted from historical logs, and only the numerical data are used to predict visitor flows. In this research, we perform the forecasting task directly on the natural language input that includes all kinds of information such as numerical values and contextual semantic information. Specific prompts are introduced to transform numerical temporal sequences into sentences so that existing language models can be directly applied. We design an AuxMobLCast pipeline for predicting the number of visitors in each POI, integrating an auxiliary POI category classification task with the encoder-decoder architecture. This research provides empirical evidence of the effectiveness of the proposed AuxMobLCast pipeline to discover sequential patterns in mobility forecasting tasks. The results, evaluated on three real-world datasets, demonstrate that pre-trained language foundation models also have good performance in forecasting temporal sequences. This study could provide visionary insights and lead to new research directions for predicting human mobility.
翻訳日:2022-09-16 11:48:14 公開日:2022-09-14
# Antention-based BiLSTM Network を用いた無許可NOMAのユーザ・データ同時検出

Joint User and Data Detection in Grant-Free NOMA with Attention-based BiLSTM Network ( http://arxiv.org/abs/2209.06392v1 )

ライセンス: Link先を確認
Saud Khan, Salman Durrani, Muhammad Basit Shahab, Sarah J. Johnson, Seyit Camtepe(参考訳) マルチユーザ検出(MUD)問題は、アクセスポイントがアクティブなモノのインターネット(IoT)デバイスの総数と正当性を識別し、送信されたデータをデコードする必要がある、アップリンク許可のない非直交多重アクセス(NOMA)において考慮する。 我々は、IoTデバイスが複雑な拡散シーケンスを使用し、バーストスパーシティモデルに従ってランダムに情報を送信すると仮定する。 MUD問題を解くために,時間的相関を突破し,注目に基づく双方向長短期メモリ(BiLSTM)ネットワークを提案する。 BiLSTMネットワークは、フォワードとリバースパスLSTMを使用してデバイスアクティベーション履歴のパターンを生成するが、アテンションメカニズムはデバイスアクティベーションポイントに必須のコンテキストを提供する。 これにより、許可のないシナリオでアクティブデバイスを検出するために階層的な経路が続く。 そして、複雑な拡散シーケンスを利用して、推定されたアクティブデバイスに対するブラインドデータ検出を行う。 提案するフレームワークは、MUDを実行するためのデバイス間隔レベルやチャネルの事前知識を必要としない。 その結果,提案するネットワークは,既存のベンチマーク方式に比べて性能がよいことがわかった。

We consider the multi-user detection (MUD) problem in uplink grant-free non-orthogonal multiple access (NOMA), where the access point has to identify the total number and correct identity of the active Internet of Things (IoT) devices and decode their transmitted data. We assume that IoT devices use complex spreading sequences and transmit information in a random-access manner following the burst-sparsity model, where some IoT devices transmit their data in multiple adjacent time slots with a high probability, while others transmit only once during a frame. Exploiting the temporal correlation, we propose an attention-based bidirectional long short-term memory (BiLSTM) network to solve the MUD problem. The BiLSTM network creates a pattern of the device activation history using forward and reverse pass LSTMs, whereas the attention mechanism provides essential context to the device activation points. By doing so, a hierarchical pathway is followed for detecting active devices in a grant-free scenario. Then, by utilising the complex spreading sequences, blind data detection for the estimated active devices is performed. The proposed framework does not require prior knowledge of device sparsity levels and channels for performing MUD. The results show that the proposed network achieves better performance compared to existing benchmark schemes.
翻訳日:2022-09-15 14:06:25 公開日:2022-09-14
# IoTと機械学習を用いたパーソナライズされた感情検出

Personalized Emotion Detection using IoT and Machine Learning ( http://arxiv.org/abs/2209.06464v1 )

ライセンス: Link先を確認
Fiona Victoria Stanley Jothiraj and Afra Mashhadi(参考訳) 最近の医療技術の進歩である医療のインターネットは、健康指標のリアルタイムモニタリングを提供するのに非常に役立ちます。 本稿では,特に自閉症スペクトラム障害患者の感情を追跡する非侵襲型iotシステムを提案する。 安価なセンサーとクラウドコンピューティングサービスによって、個人の心拍数をモニターし分析し、異なる感情に対する1分間の汗と心拍の変化の影響を研究する。 被験者の通常の休息条件下では、提案システムは最大92%の精度で機械学習アルゴリズムを使用して適切な感情を検出することができる。 提案されたアプローチの結果は、医療用IoTの最先端ソリューションに匹敵するものだ。

The Medical Internet of Things, a recent technological advancement in medicine, is incredibly helpful in providing real-time monitoring of health metrics. This paper presents a non-invasive IoT system that tracks patients' emotions, especially those with autism spectrum disorder. With a few affordable sensors and cloud computing services, the individual's heart rates are monitored and analyzed to study the effects of changes in sweat and heartbeats per minute for different emotions. Under normal resting conditions of the individual, the proposed system could detect the right emotion using machine learning algorithms with a performance of up to 92% accuracy. The result of the proposed approach is comparable with the state-of-the-art solutions in medical IoT.
翻訳日:2022-09-15 14:06:02 公開日:2022-09-14
# コラボレーティブフィルタリングによる初期アクセスの効率的なビーム探索

Efficient Beam Search for Initial Access Using Collaborative Filtering ( http://arxiv.org/abs/2209.06669v1 )

ライセンス: Link先を確認
George Yammine, Georgios Kontes, Norbert Franke, Axel Plinge, Christopher Mutschler(参考訳) ビームフォーミング可能なアンテナアレイは、キャリア周波数の高い自由空間パス損失を克服する。 しかし、最も高い電力がユーザ機器(ue)に向かって放射されるように、ビームを適切に整列させなければならない。 何らかの階層探索によって最適なビームの徹底的な探索を改善する方法はあるが、小さなビームゲインを持つ局所最適解のみを返す傾向にある。 他のアプローチでは、UEの位置や近隣基地局(BS)の情報といったコンテキスト情報を活用することでこの問題に対処するが、計算と通信の負担は高い。 これまでの機械学習に基づく手法は、大規模なアプリケーションの障害となるトレーニング、パフォーマンス監視、デプロイメントの複雑さに悩まされている。 本稿では,初期ビーム発見問題の解法を提案する。 スケーラブルで、チューニングが容易で、実装も容易です。 我々のアルゴリズムは、トレーニングデータセットに基づいてグループ(UE)と好み(コードブックからのビーム)を関連付けるレコメンデータシステムに基づいている。 新しいUEを提供する必要があるときはいつでも、アルゴリズムがこのユーザクラスタで最高のビームを返す。 シミュレーションの結果,単一BSセットアップだけでなく,複数のBS間の協調を必要とするセットアップにおいても,我々のアプローチの効率性と堅牢性を示す。 提案手法は与えられたタスクにおける標準ベースラインアルゴリズムを一貫して上回る。

Beamforming-capable antenna arrays overcome the high free-space path loss at higher carrier frequencies. However, the beams must be properly aligned to ensure that the highest power is radiated towards (and received by) the user equipment (UE). While there are methods that improve upon an exhaustive search for optimal beams by some form of hierarchical search, they can be prone to return only locally optimal solutions with small beam gains. Other approaches address this problem by exploiting contextual information, e.g., the position of the UE or information from neighboring base stations (BS), but the burden of computing and communicating this additional information can be high. Methods based on machine learning so far suffer from the accompanying training, performance monitoring and deployment complexity that hinders their application at scale. This paper proposes a novel method for solving the initial beam-discovery problem. It is scalable, and easy to tune and to implement. Our algorithm is based on a recommender system that associates groups (i.e., UEs) and preferences (i.e., beams from a codebook) based on a training data set. Whenever a new UE needs to be served our algorithm returns the best beams in this user cluster. Our simulation results demonstrate the efficiency and robustness of our approach, not only in single BS setups but also in setups that require a coordination among several BSs. Our method consistently outperforms standard baseline algorithms in the given task.
翻訳日:2022-09-15 14:05:37 公開日:2022-09-14
# ベイズ最適化によるサイバー物理システムの改ざん

Falsification of Cyber-Physical Systems using Bayesian Optimization ( http://arxiv.org/abs/2209.06735v1 )

ライセンス: Link先を確認
Zahra Ramezani, Kenan \v{S}ehic, Luigi Nardi, Knut {\AA}kesson(参考訳) サイバー物理システム(CPS)は通常複雑で安全に重要なものであるため、システムの要求、すなわち仕様が満たされることを保証することは困難かつ重要である。 シミュレーションに基づくcpssの改ざんは、テスト中のシステムをシミュレートするだけで、システムの正確性に対する信頼性を高めるために使用できる実用的なテスト手法である。 各シミュレーションは一般に計算集約的であるため、仕様を偽造するのに必要なシミュレーションの数を減らすことが重要なステップである。 本研究では,入力信号のパラメトリゼーションと仕様評価の関係を記述したサロゲートモデルを,サンプル効率で学習するベイズ最適化(BO)について検討する。 本稿では,boを用いた偽造の改善について述べる。まず,boメソッドを2つ導入し,1つはローカルサーロゲートモデルに適合し,もう1つはユーザの事前知識を悪用する。 次に, ファルシフィケーションのための獲得関数の定式化について述べる。 ベンチマーク評価は、以前は偽造が困難であったベンチマーク例を偽造するためにBOの局所代理モデルを使用することで、大幅な改善を示している。 ファルシフィケーションプロセスにおける事前知識の使用は、シミュレーション予算が限られている場合に特に重要である。 ベンチマーク問題のいくつかでは、取得関数の選択は、偽造成功に必要なシミュレーション数に明らかに影響を及ぼす。

Cyber-physical systems (CPSs) are usually complex and safety-critical; hence, it is difficult and important to guarantee that the system's requirements, i.e., specifications, are fulfilled. Simulation-based falsification of CPSs is a practical testing method that can be used to raise confidence in the correctness of the system by only requiring that the system under test can be simulated. As each simulation is typically computationally intensive, an important step is to reduce the number of simulations needed to falsify a specification. We study Bayesian optimization (BO), a sample-efficient method that learns a surrogate model that describes the relationship between the parametrization of possible input signals and the evaluation of the specification. In this paper, we improve the falsification using BO by; first adopting two prominent BO methods, one fits local surrogate models, and the other exploits the user's prior knowledge. Secondly, the formulation of acquisition functions for falsification is addressed in this paper. Benchmark evaluation shows significant improvements in using local surrogate models of BO for falsifying benchmark examples that were previously hard to falsify. Using prior knowledge in the falsification process is shown to be particularly important when the simulation budget is limited. For some of the benchmark problems, the choice of acquisition function clearly affects the number of simulations needed for successful falsification.
翻訳日:2022-09-15 14:05:17 公開日:2022-09-14
# 生成逆ネットワークに基づく高効率低推力軌道データ生成

Efficient low-thrust trajectory data generation based on generative adversarial network ( http://arxiv.org/abs/2209.06427v1 )

ライセンス: Link先を確認
Ruida Xie, Andrew G. Dempster(参考訳) 近年,軌道最適化の分野に深層学習技術が取り入れられている。 ディープニューラルネットワーク(DNN)は、従来の最適化プロセスのサロゲートとして訓練され、使用される。 低推力(lt)転送コストの推定を提供し、より複雑な予備ミッション設計を可能にする。 しかし,学習に必要な軌跡データを効率的に取得することは困難である。 GAN(Generative Adversarial Network)を適応して、実現可能なLT軌道データを生成する。 GANは発電機と識別器で構成され、どちらもディープネットワークである。 ジェネレータは、ランダムノイズを入力として偽LT転送特徴を生成し、判別器は、ジェネレータの偽LT転送特徴を実際のLT転送特徴と区別する。 GANは、ジェネレータが識別できない偽のLT転送を生成するまで訓練される。 これは、ジェネレータが実際の転写特性と同じ分布を持つ低推力伝達特性を生成することを示している。 生成された低推力伝達データは高い収束率を持ち、ディープラーニングモデルのトレーニングデータを効率的に生成することができる。 提案手法は、地球近傍小惑星(NEA)ミッションシナリオにおいて、実現可能なLT転送を生成することによって検証される。 GAN生成試料の収束率は84.3%である。

Deep learning-based techniques have been introduced into the field of trajectory optimization in recent years. Deep Neural Networks (DNNs) are trained and used as the surrogates of conventional optimization process. They can provide low thrust (LT) transfer cost estimation and enable more complex preliminary mission designs. However, it is a challenge to efficiently obtain the required amount of trajectory data for training. A Generative Adversarial Network (GAN) is adapted to generate the feasible LT trajectory data efficiently. The GAN consists of a generator and a discriminator, both of which are deep networks. The generator generates fake LT transfer features using random noise as input, while the discriminator distinguishes the generator's fake LT transfer features from real LT transfer features. The GAN is trained until the generator generates fake LT transfers that the discriminator cannot identify. This indicates the generator generates low thrust transfer features that have the same distribution as the real transfer features. The generated low thrust transfer data have a high convergence rate, and they can be used to efficiently produce training data for deep learning models. The proposed approach is validated by generating feasible LT transfers in a Near-Earth Asteroid (NEA) mission scenario. The convergence rate of GAN-generated samples is 84.3%.
翻訳日:2022-09-15 14:04:55 公開日:2022-09-14
# 座屈型衣服における人体形状のニューラルポイントモデル

Neural Point-based Shape Modeling of Humans in Challenging Clothing ( http://arxiv.org/abs/2209.06814v1 )

ライセンス: Link先を確認
Qianli Ma, Jinlong Yang, Michael J. Black, Siyu Tang(参考訳) SMPLのようなパラメトリックな3Dボディモデルは、最小限の服装しか表現せず、メッシュトポロジと解像度が固定されているため、衣服に拡張するのは難しい。 これらの制限に対処するために、最近の研究は暗黙の面や点雲を使って布を被った物体をモデル化している。 トポロジーによって制限されるわけではないが、このような方法はスカートやドレスなど、身体から著しく逸脱する衣服のモデル化に苦しむ。 これは、着用面を基準形状に再現することで、体に頼って正準化させるためである。 残念なことに、このプロセスは衣服が身体から遠く離れているときにはあまり定義されていない。 また、リニア・ブレンド・スキンを使用して身体を装い、肌の重みを下層の身体部分と結び付ける。 対照的に, 正準化を伴わない局所座標空間における衣服変形をモデル化する。 また、皮膚の重みを緩和して、複数の体部が表面に影響を与えるようにします。 具体的には,洋服の粗い表面形状を捉えられるポーズ非依存の「コアス形状」で正準化を置き換える粗い段階を点ベース法に拡張した。 次に、線形ブレンドスキンウェイトを推定し、粗い表現から依存変位を生じさせるネットワークを用いてこれを洗練する。 このアプローチは、身体に適合し、脱落する衣服に対してうまく機能する。 事例から個人固有のアバターを学習し,新たなポーズや動作でどのようにアニメーション化できるかを示すことで,このアプローチの有用性を実証する。 また,データの欠落を生のスキャンから直接学習し,リアルなアバターを作成するプロセスを大幅に単純化できることを示した。 コードは、研究目的で {\small\url{https://qianlim.github.io/SkiRT}}で利用可能である。

Parametric 3D body models like SMPL only represent minimally-clothed people and are hard to extend to clothing because they have a fixed mesh topology and resolution. To address these limitations, recent work uses implicit surfaces or point clouds to model clothed bodies. While not limited by topology, such methods still struggle to model clothing that deviates significantly from the body, such as skirts and dresses. This is because they rely on the body to canonicalize the clothed surface by reposing it to a reference shape. Unfortunately, this process is poorly defined when clothing is far from the body. Additionally, they use linear blend skinning to pose the body and the skinning weights are tied to the underlying body parts. In contrast, we model the clothing deformation in a local coordinate space without canonicalization. We also relax the skinning weights to let multiple body parts influence the surface. Specifically, we extend point-based methods with a coarse stage, that replaces canonicalization with a learned pose-independent "coarse shape" that can capture the rough surface geometry of clothing like skirts. We then refine this using a network that infers the linear blend skinning weights and pose dependent displacements from the coarse representation. The approach works well for garments that both conform to, and deviate from, the body. We demonstrate the usefulness of our approach by learning person-specific avatars from examples and then show how they can be animated in new poses and motions. We also show that the method can learn directly from raw scans with missing data, greatly simplifying the process of creating realistic avatars. Code is available for research purposes at {\small\url{https://qianlim.github.io/SkiRT}}.
翻訳日:2022-09-15 14:03:28 公開日:2022-09-14
# seek: ハイブリッドセキュアな推論プロトコルに対するモデル抽出攻撃

SEEK: model extraction attack against hybrid secure inference protocols ( http://arxiv.org/abs/2209.06373v1 )

ライセンス: Link先を確認
Si Chen and Junfeng Fan(参考訳) 予測・アズ・ア・サービスで使用される機械学習モデルに関するセキュリティ上の懸念には、モデルのプライバシ、クエリ、結果が含まれる。 機密情報を保護するため,同相暗号(HE)や多要素計算(MPC)に基づくセキュア推論ソリューションを開発した。 最も効率的な解の1つは、線形層にhe、非線形層にmpcを用いる。 しかし、半正直なセキュリティを持つハイブリッドプロトコルでは、敵は推論プロセスの中間的特徴を拡大し、平文での推論サービスに対する手法よりも効率的にモデル情報を抽出することができる。 本稿では,クラスラベルのみを出力するハイブリッドセキュア推論サービスの汎用抽出手法であるSEEKを提案する。 本手法は,対象モデルの各層を独立に抽出することができ,モデルの深さの影響を受けない。 ResNet-18では、SEEKは平均50クエリ未満のパラメータを抽出でき、平均エラーは0.03\%$以下である。

Security concerns about a machine learning model used in a prediction-as-a-service include the privacy of the model, the query and the result. Secure inference solutions based on homomorphic encryption (HE) and/or multiparty computation (MPC) have been developed to protect all the sensitive information. One of the most efficient type of solution utilizes HE for linear layers, and MPC for non-linear layers. However, for such hybrid protocols with semi-honest security, an adversary can malleate the intermediate features in the inference process, and extract model information more effectively than methods against inference service in plaintext. In this paper, we propose SEEK, a general extraction method for hybrid secure inference services outputing only class labels. This method can extract each layer of the target model independently, and is not affected by the depth of the model. For ResNet-18, SEEK can extract a parameter with less than 50 queries on average, with average error less than $0.03\%$.
翻訳日:2022-09-15 14:02:42 公開日:2022-09-14
# TSFool: フールリカレントニューラルネットワーク分類器への多目的最適化による高品質逆数時系列作成

TSFool: Crafting High-quality Adversarial Time Series through Multi-objective Optimization to Fool Recurrent Neural Network Classifiers ( http://arxiv.org/abs/2209.06388v1 )

ライセンス: Link先を確認
Yanyun Wang, Dehui Du, Yuanhao Liu(参考訳) ディープニューラルネットワーク(DNN)分類器は敵攻撃に対して脆弱である。 既存の勾配に基づく攻撃はフィードフォワードモデルや画像認識タスクにおいて優れた性能を達成しているが、RNNの循環構造が直接モデルの分化を防ぎ、時系列データの摂動に対する視覚感度を抑えるため、リカレントニューラルネットワーク(RNN)における時系列分類の拡張は依然としてジレンマである。 本稿では,RNN分類器の高品質な逆時系列作成のためのTSFoolという,効率的かつ広く適用可能な手法を提案する。 本研究では,クラスクラスタ内における対向サンプルの隠れ度を考慮し,高次対向攻撃を多目的最適化問題として再定義するため,カモフラージュ係数(Camouflage Coefficient)という新たなグローバル最適化目標を提案する。 また, 分割重み付き有限オートマトン (IWFA) を用いて, 特徴量と潜在多様体との相違点を有する弱い試料を捕捉し, 近似を最適化解に導く方法を提案する。 TSFoolは局所摂動率93.22%、グローバルカモフラージュ32.33%、既存の手法の1.12倍のスピードアップで、広く効率的で効率的で高品質なアプローチであることを確認した22のUCRデータセットの実験が行われた。

Deep neural network (DNN) classifiers are vulnerable to adversarial attacks. Although the existing gradient-based attacks have achieved good performance in feed-forward model and image recognition tasks, the extension for time series classification in the recurrent neural network (RNN) remains a dilemma, because the cyclical structure of RNN prevents direct model differentiation and the visual sensitivity to perturbations of time series data challenges the traditional local optimization objective to minimize perturbation. In this paper, an efficient and widely applicable approach called TSFool for crafting high-quality adversarial time series for the RNN classifier is proposed. We propose a novel global optimization objective named Camouflage Coefficient to consider how well the adversarial samples hide in class clusters, and accordingly redefine the high-quality adversarial attack as a multi-objective optimization problem. We also propose a new idea to use intervalized weighted finite automata (IWFA) to capture deeply embedded vulnerable samples having otherness between features and latent manifold to guide the approximation to the optimization solution. Experiments on 22 UCR datasets are conducted to confirm that TSFool is a widely effective, efficient and high-quality approach with 93.22% less local perturbation, 32.33% better global camouflage, and 1.12 times speedup to existing methods.
翻訳日:2022-09-15 14:02:27 公開日:2022-09-14
# データプライバシと信頼できる機械学習

Data Privacy and Trustworthy Machine Learning ( http://arxiv.org/abs/2209.06529v1 )

ライセンス: Link先を確認
Martin Strobel and Reza Shokri(参考訳) 機械学習モデルのプライバシーリスクは、機密データと個人データをトレーニングする際の大きな懸念事項である。 データプライバシと、信頼できる機械学習(特に公正性、堅牢性、説明可能性)の残りの目標とのトレードオフについて議論する。

The privacy risks of machine learning models is a major concern when training them on sensitive and personal data. We discuss the tradeoffs between data privacy and the remaining goals of trustworthy machine learning (notably, fairness, robustness, and explainability).
翻訳日:2022-09-15 14:01:53 公開日:2022-09-14
# マルチGPUプラットフォーム上での細粒度通信パイプライニングによるGNNの強化

Empowering GNNs with Fine-grained Communication-Computation Pipelining on Multi-GPU Platforms ( http://arxiv.org/abs/2209.06800v1 )

ライセンス: Link先を確認
Yuke Wang, Boyuan Feng, Zheng Wang, Tong Geng, Kevin Barker, Ang Li, and Yufei Ding(参考訳) グラフニューラルネットワーク(GNN)の入力グラフサイズの増加は、マルチGPUプラットフォームの使用需要を浮き彫りにしている。 しかし、既存のマルチGPU GNNソリューションは、不均衡な計算と非効率な通信のために性能が劣る。 そこで我々は,GPU中心のソフトウェアパイプラインを通じて,マルチGPUプラットフォーム上でGNNを高速化するためのシステム設計であるMGGを提案する。 MGGは、微粒な計算通信パイプラインによるGNNワークロードにおけるリモートメモリアクセスレイテンシの隠蔽の可能性を探っている。 特に、mggは、パイプライン対応のワークロード管理戦略とハイブリッドデータレイアウト設計を導入し、通信・計算の重複を容易にする。 MGGはパイプライン中心の最適化カーネルを実装している。 効率的なgpuカーネル操作パイプラインのためのワークロードインターリーブとwarpベースのマッピング、データアクセスパフォーマンスを改善するための特別なメモリ設計と最適化が含まれている。 さらに、MGGは軽量な解析モデルと最適化ヒューリスティックを導入し、実行時に異なる設定でGNNの実行性能を動的に改善する。 総合的な実験では、MGGは様々なGNN設定で最先端のマルチGPUシステムより優れており、仮想メモリを統一したマルチGPUシステムより平均3.65倍、DGCLフレームワークより平均7.38倍高速である。

The increasing size of input graphs for graph neural networks (GNNs) highlights the demand for using multi-GPU platforms. However, existing multi-GPU GNN solutions suffer from inferior performance due to imbalanced computation and inefficient communication. To this end, we propose MGG, a novel system design to accelerate GNNs on multi-GPU platforms via a GPU-centric software pipeline. MGG explores the potential of hiding remote memory access latency in GNN workloads through fine-grained computation-communication pipelining. Specifically, MGG introduces a pipeline-aware workload management strategy and a hybrid data layout design to facilitate communication-computation overlapping. MGG implements an optimized pipeline-centric kernel. It includes workload interleaving and warp-based mapping for efficient GPU kernel operation pipelining and specialized memory designs and optimizations for better data access performance. Besides, MGG incorporates lightweight analytical modeling and optimization heuristics to dynamically improve the GNN execution performance for different settings at runtime. Comprehensive experiments demonstrate that MGG outperforms state-of-the-art multi-GPU systems across various GNN settings: on average 3.65X faster than multi-GPU systems with a unified virtual memory design and on average 7.38X faster than the DGCL framework.
翻訳日:2022-09-15 14:01:48 公開日:2022-09-14
# raterとシステムメタデータを用いたvoicemos challenge 2022データセットのばらつき説明

Using Rater and System Metadata to Explain Variance in the VoiceMOS Challenge 2022 Dataset ( http://arxiv.org/abs/2209.06358v1 )

ライセンス: Link先を確認
Michael Chinen, Jan Skoglund, Chandan K A Reddy, Alessandro Ragano, Andrew Hines(参考訳) 非参照音声品質モデルは、多くのアプリケーションにとって重要である。 VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。 本研究では,メタデータからの音声品質の主観的評価とデータセットの分布不均衡から説明できる分散量について検討する。 音声品質モデルはwav2vec 2.0を用いて,レーダ群とシステム識別子を含むメタデータを付加し,システムレベルでは0.934,MSEが0.088,発話レベルでは0.877,0.198といった競合指標を得た。 テストが制限あるいは無視したデータとメタデータを使用することで、メトリクスはさらに改善された。 メタデータ分析により、検証およびテストデータセット上で各システムで使用される発話数の変化が広範に変化した結果、システムレベルのメトリクスはモデルのシステムレベルの予測を表現していないことが示された。 一般に、条件はサンプル平均誤差を束縛するのに十分な発話しか持たず、システム間での発話数で相対的にバランスが取れ、そうでなければ、発話レベルのメトリクスはより信頼性が高く解釈可能である。

Non-reference speech quality models are important for a growing number of applications. The VoiceMOS 2022 challenge provided a dataset of synthetic voice conversion and text-to-speech samples with subjective labels. This study looks at the amount of variance that can be explained in subjective ratings of speech quality from metadata and the distribution imbalances of the dataset. Speech quality models were constructed using wav2vec 2.0 with additional metadata features that included rater groups and system identifiers and obtained competitive metrics including a Spearman rank correlation coefficient (SRCC) of 0.934 and MSE of 0.088 at the system-level, and 0.877 and 0.198 at the utterance-level. Using data and metadata that the test restricted or blinded further improved the metrics. A metadata analysis showed that the system-level metrics do not represent the model's system-level prediction as a result of the wide variation in the number of utterances used for each system on the validation and test datasets. We conclude that, in general, conditions should have enough utterances in the test set to bound the sample mean error, and be relatively balanced in utterance count between systems, otherwise the utterance-level metrics may be more reliable and interpretable.
翻訳日:2022-09-15 14:00:39 公開日:2022-09-14
# 医用画像分割のための合成誤差増大によるラベルリファインメントネットワーク

Label Refinement Network from Synthetic Error Augmentation for Medical Image Segmentation ( http://arxiv.org/abs/2209.06353v1 )

ライセンス: Link先を確認
Shuai Chen, Antonio Garcia Uceda, Jiahang Su, Gijs van Tulder, Lennard Wolff, Theo van Walsum, Marleen de Bruijne(参考訳) 画像分割のための深い畳み込みニューラルネットワークはラベル構造を明示的に学習せず、例えば、気道や血管のような木のような構造のセグメント化において、切り離された円筒構造を持つ不正確な構造を持つセグメンテーションを生成する。 本稿では,ラベル構造に関する情報を暗黙的に組み込んで,初期セグメント化から誤りを訂正する新しいラベル改良手法を提案する。 この方法には2つの新しい部分がある。 1) 合成構造エラーを発生させるモデル、及び 2) 実初期セグメンテーションの外観に類似した合成セグメンテーション(誤りを伴う)を生成するラベル出現シミュレーションネットワーク。 これらの合成セグメンテーションと元の画像を用いてラベルリファインメントネットワークを訓練し、エラーを訂正し、初期セグメンテーションを改善する。 本手法は,胸部CTスキャンによる気道セグメンテーションと脳の3次元CTアンギオグラフィー(CTA)画像による脳血管セグメンテーションの2つのセグメンテーション課題に対して検証された。 どちらのアプリケーションにおいても,本手法は標準の3次元U-Netや他の改良手法よりも優れていた。 モデルトレーニングに未ラベルのデータを追加すると、改善はさらに大きくなる。 アブレーション研究において,提案手法の異なる成分の値を示す。

Deep convolutional neural networks for image segmentation do not learn the label structure explicitly and may produce segmentations with an incorrect structure, e.g., with disconnected cylindrical structures in the segmentation of tree-like structures such as airways or blood vessels. In this paper, we propose a novel label refinement method to correct such errors from an initial segmentation, implicitly incorporating information about label structure. This method features two novel parts: 1) a model that generates synthetic structural errors, and 2) a label appearance simulation network that produces synthetic segmentations (with errors) that are similar in appearance to the real initial segmentations. Using these synthetic segmentations and the original images, the label refinement network is trained to correct errors and improve the initial segmentations. The proposed method is validated on two segmentation tasks: airway segmentation from chest computed tomography (CT) scans and brain vessel segmentation from 3D CT angiography (CTA) images of the brain. In both applications, our method significantly outperformed a standard 3D U-Net and other previous refinement approaches. Improvements are even larger when additional unlabeled data is used for model training. In an ablation study, we demonstrate the value of the different components of the proposed method.
翻訳日:2022-09-15 13:57:07 公開日:2022-09-14
# DASH: ユーザ駆動合成データ拡張による画像分類の曖昧化のためのビジュアル分析

DASH: Visual Analytics for Debiasing Image Classification via User-Driven Synthetic Data Augmentation ( http://arxiv.org/abs/2209.06357v1 )

ライセンス: Link先を確認
Bum Chul Kwon, Jungsoo Lee, Chaeyeon Chung, Nyoungwoo Lee, Ho-Jin Choi, Jaegul Choo(参考訳) 画像分類モデルは、訓練データにおける入力特徴と出力クラスの間の無関係な共起に基づいてクラスを予測することをしばしば学習する。 我々は不必要な相関を「データバイアス」と呼び、データバイアスの原因となる視覚的特徴を「バイアス要因」と呼ぶ。 人的介入なしに自動的にバイアスを識別し緩和することは困難である。 そこで我々は,ループ内ヒューマンソリューションを探索する設計研究を行った。 まず,3人の専門家による画像分類モデルのバイアス緩和過程を捉えるユーザタスクを特定した。 そこで我々は,そのタスクを支援するため,視覚分析システムdashを開発し,バイアス要因を視覚的に識別し,最先端の画像から画像への翻訳モデルを用いて合成画像を繰り返し生成し,分類精度を向上させるためのモデルトレーニングプロセスを監督する。 10名の被験者による定量的評価と質的研究は,DASHの有用性を示し,今後の研究の教訓を提供する。

Image classification models often learn to predict a class based on irrelevant co-occurrences between input features and an output class in training data. We call the unwanted correlations "data biases," and the visual features causing data biases "bias factors." It is challenging to identify and mitigate biases automatically without human intervention. Therefore, we conducted a design study to find a human-in-the-loop solution. First, we identified user tasks that capture the bias mitigation process for image classification models with three experts. Then, to support the tasks, we developed a visual analytics system called DASH that allows users to visually identify bias factors, to iteratively generate synthetic images using a state-of-the-art image-to-image translation model, and to supervise the model training process for improving the classification accuracy. Our quantitative evaluation and qualitative study with ten participants demonstrate the usefulness of DASH and provide lessons for future work.
翻訳日:2022-09-15 13:56:43 公開日:2022-09-14
# 深層埋め込み自己組織化マップを用いた画像抽出データの自己監視クラスタリング

Self-Supervised Clustering on Image-Subtracted Data with Deep-Embedded Self-Organizing Map ( http://arxiv.org/abs/2209.06375v1 )

ライセンス: Link先を確認
Y. -L. Mong, K. Ackley, T. L. Killestein, D. K. Galloway, M. Dyer, R. Cutter, M. J. I. Brown, J. Lyman, K. Ulaczyk, D. Steeghs, V. Dhillon, P. O'Brien, G. Ramsay, K. Noysena, R. Kotak, R. Breton, L. Nuttall, E. Palle, D. Pollacco, E. Thrane, S. Awiphan, U. Burhanudin, P. Chote, A. Chrimes, E. Daw, C. Duffy, R. Eyles-Ferris, B. P. Gompertz, T. Heikkila, P. Irawati, M. Kennedy, A. Levan, S. Littlefair, L. Makrygianni, T. Marsh, D. Mata Sanchez, S. Mattila, J. R. Maund, J. McCormac, D. Mkrtichian, J. Mullaney, E. Rol, U. Sawangwit, E. Stanway, R. Starling, P. Strom, S. Tooke, K. Wiersema(参考訳) 広視野光学サーベイの過渡的追従には,実物と人工物を切り離す効果的な自動分類器の開発が不可欠である。 画像差分処理後の減算アーティファクトからの過渡検出の同定は、実ボグス分類問題として知られる分類器において重要なステップである。 自己教師付き機械学習モデルである深層埋め込み型自己組織化マップ(desom)を,この"リアルボガス"分類問題に適用する。 desomはオートエンコーダと自己組織化マップを組み合わせることで、実際の検出とボガス検出を区別するためにクラスタリングを行う。 我々はDESOMの入力として32x32正規化検出サムネイルを用いる。 我々は異なるモデルトレーニングアプローチを実証し、最良のDESOM分類器は検出率6.6%、偽陽性率1.5%を示した。 desomは、ニューラルネットワークや意思決定ツリーなど、他のタイプの分類器と組み合わせて使用する場合の実際の検出可能性を示す、決定境界を微調整するよりニュアンス的な方法を提供する。 また、DESOMの潜在的な使用法とその制限についても論じる。

Developing an effective automatic classifier to separate genuine sources from artifacts is essential for transient follow-ups in wide-field optical surveys. The identification of transient detections from the subtraction artifacts after the image differencing process is a key step in such classifiers, known as real-bogus classification problem. We apply a self-supervised machine learning model, the deep-embedded self-organizing map (DESOM) to this "real-bogus" classification problem. DESOM combines an autoencoder and a self-organizing map to perform clustering in order to distinguish between real and bogus detections, based on their dimensionality-reduced representations. We use 32x32 normalized detection thumbnails as the input of DESOM. We demonstrate different model training approaches, and find that our best DESOM classifier shows a missed detection rate of 6.6% with a false positive rate of 1.5%. DESOM offers a more nuanced way to fine-tune the decision boundary identifying likely real detections when used in combination with other types of classifiers, for example built on neural networks or decision trees. We also discuss other potential usages of DESOM and its limitations.
翻訳日:2022-09-15 13:56:27 公開日:2022-09-14
# isimloc:シミュレート画像を用いた未発見環境の視覚的グローバルローカライズ

iSimLoc: Visual Global Localization for Previously Unseen Environments with Simulated Images ( http://arxiv.org/abs/2209.06376v1 )

ライセンス: Link先を確認
Peng Yin, Ivan Cisneros, Ji Zhang, Howie Choset, and Sebastian Scherer(参考訳) 視覚カメラは、サイズ、重量、電力、コストが低く、GPSの故障に対して冗長なモダリティを提供するため、視覚的視線(B-VLOS)ドローン操作以上の魅力的なデバイスである。 しかし、最先端のビジュアルローカライゼーションアルゴリズムは、照度や視点によって外観が著しく異なる視覚データと一致できない。 本稿では,条件/視点整合階層型グローバル再局在化手法である isimloc を提案する。 iSimLocの場所特徴は、外観や視点の変化の下でターゲット画像の検索に利用することができる。 さらに、階層的なグローバルな再ローカライゼーションモジュールは粗い方法で洗練され、iSimLocは高速かつ正確に推定できる。 本研究では,複雑な環境での長時間飛行における大規模マッチングの実証に焦点をあてた,出現変動のあるデータセットとデータセットについて評価を行った。 2つのデータセットで、iSimLoc は 88.7\% と 83.8\% の検索速度を 1.5s の推論時間で達成し、次のベストメソッドでは 45.8% と 39.7% である。 これらの結果は,様々な環境におけるロバストな局在を示す。

The visual camera is an attractive device in beyond visual line of sight (B-VLOS) drone operation, since they are low in size, weight, power, and cost, and can provide redundant modality to GPS failures. However, state-of-the-art visual localization algorithms are unable to match visual data that have a significantly different appearance due to illuminations or viewpoints. This paper presents iSimLoc, a condition/viewpoint consistent hierarchical global re-localization approach. The place features of iSimLoc can be utilized to search target images under changing appearances and viewpoints. Additionally, our hierarchical global re-localization module refines in a coarse-to-fine manner, allowing iSimLoc to perform a fast and accurate estimation. We evaluate our method on one dataset with appearance variations and one dataset that focuses on demonstrating large-scale matching over a long flight in complicated environments. On our two datasets, iSimLoc achieves 88.7\% and 83.8\% successful retrieval rates with 1.5s inferencing time, compared to 45.8% and 39.7% using the next best method. These results demonstrate robust localization in a range of environments.
翻訳日:2022-09-15 13:56:06 公開日:2022-09-14
# 暗黙的神経表現による経時的胎児脳房構築

Continuous longitudinal fetus brain atlas construction via implicit neural representation ( http://arxiv.org/abs/2209.06413v1 )

ライセンス: Link先を確認
Lixuan Chen, Jiangjie Wu, Qing Wu, Hongjiang Wei, Yuyao Zhang(参考訳) 胎児の脳房は胎児の脳発達の複雑な過程を理解し、特徴づける強力なツールである。 既存の胎児脳アトラスは通常、時間とともに個別の時間軸で平均された脳画像によって構築される。 異なる時刻におけるサンプルのオンジェネティックな傾向の違いにより、結果として生じるアトラスは時間的不整合に悩まされ、時間軸に沿った脳の発達特性パラメータの誤差を推定する。 この目的のために,4次元脳容積+1次元年齢)画像データデノージングタスクとして,時間的不整合問題に取り組むための多段階ディープラーニングフレームワークを提案する。 暗黙的神経表現を用いて, 4次元空間-時空間座標の関数として, 連続的・無雑音縦型胎児脳アトラスを構築する。 2つの胎児脳アトラス(crlとfba- chinese atlas)の実験結果から,本手法は良好な胎児脳構造表現を維持しつつ,アトラス時間的一貫性を著しく改善できることが示された。 さらに、連続的な胎児脳アトラスを用いて、空間分解能と時間分解能の両方においてより細かい4dアトラスを生成することもできる。

Longitudinal fetal brain atlas is a powerful tool for understanding and characterizing the complex process of fetus brain development. Existing fetus brain atlases are typically constructed by averaged brain images on discrete time points independently over time. Due to the differences in onto-genetic trends among samples at different time points, the resulting atlases suffer from temporal inconsistency, which may lead to estimating error of the brain developmental characteristic parameters along the timeline. To this end, we proposed a multi-stage deep-learning framework to tackle the time inconsistency issue as a 4D (3D brain volume + 1D age) image data denoising task. Using implicit neural representation, we construct a continuous and noise-free longitudinal fetus brain atlas as a function of the 4D spatial-temporal coordinate. Experimental results on two public fetal brain atlases (CRL and FBA-Chinese atlases) show that the proposed method can significantly improve the atlas temporal consistency while maintaining good fetus brain structure representation. In addition, the continuous longitudinal fetus brain atlases can also be extensively applied to generate finer 4D atlases in both spatial and temporal resolution.
翻訳日:2022-09-15 13:55:41 公開日:2022-09-14
# 画像情報と自己相似性を考慮した合成情報ネットワーク

Considering Image Information and Self-similarity: A Compositional Denoising Network ( http://arxiv.org/abs/2209.06417v1 )

ライセンス: Link先を確認
Jiahong Zhang, Yonggui Zhu, Wenshu Yu, Jingning Ma(参考訳) 近年,畳み込みニューラルネットワーク (CNN) は画像認知に広く利用されている。 既存の手法は残差学習の恩恵を受け、高い性能を達成した。 CNNのネットワークアーキテクチャの最適化に多くの研究が注がれているが、残留学習の限界は無視されている。 この論文は2つの限界を示唆する。 1つは、残差学習はノイズを推定することに焦点を当て、画像情報を見渡すことである。 もうひとつは、画像の自己相似性を効果的に考慮していないことだ。 本稿では,画像情報経路 (IIP) と雑音推定経路 (NEP) の2つの問題をそれぞれ解決する構成記述ネットワーク (CDN) を提案する。 IIPは画像情報抽出のためのイメージ・ツー・イメージ方式で訓練される。 NEPでは、トレーニングの観点から画像の自己相似性を利用する。 この類似性に基づく訓練方法は、nepを制約し、特定の種類のノイズを伴う異なる画像パッチに対して同様の推定ノイズ分布を出力する。 最後に,画像情報と雑音分布情報を総合的に検討し,画像評価を行う。 実験によると、cdnは合成画像と実世界画像で最先端の結果を得る。 私たちのコードはhttps://github.com/jiahongz/cdnでリリースします。

Recently, convolutional neural networks (CNNs) have been widely used in image denoising. Existing methods benefited from residual learning and achieved high performance. Much research has been paid attention to optimizing the network architecture of CNN but ignored the limitations of residual learning. This paper suggests two limitations of it. One is that residual learning focuses on estimating noise, thus overlooking the image information. The other is that the image self-similarity is not effectively considered. This paper proposes a compositional denoising network (CDN), whose image information path (IIP) and noise estimation path (NEP) will solve the two problems, respectively. IIP is trained by an image-to-image way to extract image information. For NEP, it utilizes the image self-similarity from the perspective of training. This similarity-based training method constrains NEP to output a similar estimated noise distribution for different image patches with a specific kind of noise. Finally, image information and noise distribution information will be comprehensively considered for image denoising. Experiments show that CDN achieves state-of-the-art results in synthetic and real-world image denoising. Our code will be released on https://github.com/JiaHongZ/CDN.
翻訳日:2022-09-15 13:55:19 公開日:2022-09-14
# マルチモーダル・セマンティクス・ローカライゼーションの性能評価のための学習

Learning to Evaluate Performance of Multi-modal Semantic Localization ( http://arxiv.org/abs/2209.06515v1 )

ライセンス: Link先を確認
Zhiqiang Yuan, Wenkai Zhang, Chongyang Li, Zhaoying Pan, Yongqiang Mao, Jialiang Chen, Shouke Li, Hongqi Wang, and Xian Sun(参考訳) セマンティックローカライゼーション(Semantic Localization、SeLo)とは、テキストなどの意味情報を用いて、大規模リモートセンシング(RS)画像の最も関連性の高い位置を求めるタスクである。 クロスモーダル検索に基づく新たなタスクとして、セローはキャプションレベルのアノテーションだけでセマンティックレベルの検索を実現し、下流タスクを統合する大きな可能性を示している。 seloは連続して実施されているが、この緊急方向を体系的に探究し分析した成果はない。 本稿では、この分野を徹底的に研究し、SeLoタスクを進めるためのメトリクスとテストデータの観点から完全なベンチマークを提供する。 まず,本課題の特徴に基づき,SeLoタスクの性能を定量化するために,複数の識別評価指標を提案する。 生成したセロマップを画素レベルと領域レベルから評価するために,有意な面積比,注意シフト距離,離散的注意距離を考案した。 次に,SeLoタスクの標準的な評価データを提供するために,多言語多目的セマンティックローカライゼーションテストセット(AIR-SLT)を提案する。 AIR-SLTは22個の大規模なRS画像と59個のテストケースで構成され、検索モデルに対する包括的な評価を提供することを目的としている。 最後に,rsクロスモーダル検索モデルのslo性能を詳細に解析し,このタスクに対する異なる変数の影響を調査し,sloタスクの完全なベンチマークを提供する。 また,表現理解のための新しいパラダイムを構築し,意味論におけるSeLoの利点を,検出や道路抽出といったタスクと組み合わせることで実証した。 提案した評価指標,セマンティックローカライゼーションテストセット,およびそれに対応するスクリプトはgithub.com/xiaoyuan 1996/SemanticLocalizationMetricsで公開されている。

Semantic localization (SeLo) refers to the task of obtaining the most relevant locations in large-scale remote sensing (RS) images using semantic information such as text. As an emerging task based on cross-modal retrieval, SeLo achieves semantic-level retrieval with only caption-level annotation, which demonstrates its great potential in unifying downstream tasks. Although SeLo has been carried out successively, but there is currently no work has systematically explores and analyzes this urgent direction. In this paper, we thoroughly study this field and provide a complete benchmark in terms of metrics and testdata to advance the SeLo task. Firstly, based on the characteristics of this task, we propose multiple discriminative evaluation metrics to quantify the performance of the SeLo task. The devised significant area proportion, attention shift distance, and discrete attention distance are utilized to evaluate the generated SeLo map from pixel-level and region-level. Next, to provide standard evaluation data for the SeLo task, we contribute a diverse, multi-semantic, multi-objective Semantic Localization Testset (AIR-SLT). AIR-SLT consists of 22 large-scale RS images and 59 test cases with different semantics, which aims to provide a comprehensive evaluations for retrieval models. Finally, we analyze the SeLo performance of RS cross-modal retrieval models in detail, explore the impact of different variables on this task, and provide a complete benchmark for the SeLo task. We have also established a new paradigm for RS referring expression comprehension, and demonstrated the great advantage of SeLo in semantics through combining it with tasks such as detection and road extraction. The proposed evaluation metrics, semantic localization testsets, and corresponding scripts have been open to access at github.com/xiaoyuan1996/SemanticLocalizationMetrics .
翻訳日:2022-09-15 13:55:02 公開日:2022-09-14
# データ効率の良い協調型熱慣性オドメトリー

Data-Efficient Collaborative Decentralized Thermal-Inertial Odometry ( http://arxiv.org/abs/2209.06588v1 )

ライセンス: Link先を確認
Vincenzo Polizzi, Robert Hewitt, Javier Hidalgo-Carri\'o, Jeff Delaune and Davide Scaramuzza(参考訳) 熱画像と慣性測定を用いた飛行ロボットのチームに対して,データ効率,分散状態推定を実現するシステムソリューションを提案する。 各ロボットは独立して飛行し、可能な限りデータを交換して状態を推定する。 本システムでは,熱画像の精細化にオンライン測光キャリブレーションを適用し,特徴追跡と位置認識を強化した。 システムバックエンドでは, エージェント間の相互相関を無視し, メモリ使用量と計算コストを削減している。 通信パイプラインは、Vector of Locally Aggregated Descriptors (VLAD)を使用して、低帯域幅の使用を必要とする要求応答ポリシーを構築する。 合成データと実世界データの両方で共同手法をテストする。 その結果,提案手法は,個人間通信を最大89%削減しつつ,個人間通信方式の軌道推定を最大46 %改善できることがわかった。 データセットとコードは公開され、すでにパブリックなJPL xVIOライブラリが拡張されている。

We propose a system solution to achieve data-efficient, decentralized state estimation for a team of flying robots using thermal images and inertial measurements. Each robot can fly independently, and exchange data when possible to refine its state estimate. Our system front-end applies an online photometric calibration to refine the thermal images so as to enhance feature tracking and place recognition. Our system back-end uses a covariance-intersection fusion strategy to neglect the cross-correlation between agents so as to lower memory usage and computational cost. The communication pipeline uses Vector of Locally Aggregated Descriptors (VLAD) to construct a request-response policy that requires low bandwidth usage. We test our collaborative method on both synthetic and real-world data. Our results show that the proposed method improves by up to 46 % trajectory estimation with respect to an individual-agent approach, while reducing up to 89 % the communication exchange. Datasets and code are released to the public, extending the already-public JPL xVIO library.
翻訳日:2022-09-15 13:54:31 公開日:2022-09-14
# 非コヒーレントホーン表現のための共通グラウンドの発見

Finding Common Ground for Incoherent Horn Expressions ( http://arxiv.org/abs/2209.06455v1 )

ライセンス: Link先を確認
Ana Ozaki, Anum Rehman, Philip Turk and Marija Slavkovik(参考訳) 人々と共有環境で動作する自律システムは、彼らが占める社会のルールに従うことができる必要があります。 法律は一つの社会に固有のものであるが、異なる人々や機関は異なる規則を使って行動の指導を行う。 我々は,行動規則の不整合性の中で共通点に達する問題を研究する。 我々は正式に共通基底の概念を定義し、この概念の主な性質について議論する。 次に,共通基底が存在することを保証したHhorn表現のクラス上で,3つの十分条件を同定する。 これらの条件下で共通グラウンドを計算する多項式時間アルゴリズムを提供する。 また、3つの条件のいずれかが削除された場合、結果の(より大きい)クラスに対する共通の根拠が存在しないことも示します。

Autonomous systems that operate in a shared environment with people need to be able to follow the rules of the society they occupy. While laws are unique for one society, different people and institutions may use different rules to guide their conduct. We study the problem of reaching a common ground among possibly incoherent rules of conduct. We formally define a notion of common ground and discuss the main properties of this notion. Then, we identify three sufficient conditions on the class of Horn expressions for which common grounds are guaranteed to exist. We provide a polynomial time algorithm that computes common grounds, under these conditions. We also show that if any of the three conditions is removed then common grounds for the resulting (larger) class may not exist.
翻訳日:2022-09-15 13:50:38 公開日:2022-09-14
# マルチパス審議によるコメント自動生成

Automatic Comment Generation via Multi-Pass Deliberation ( http://arxiv.org/abs/2209.06634v1 )

ライセンス: Link先を確認
Fangwen Mu, Xiao Chen, Lin Shi, Song Wang, Qing Wang(参考訳) 議論は人間の日常生活において一般的で自然な行動である。 例えば、論文や記事を書くとき、私たちは通常、ドラフトを書き、それを満足するまで反復的に磨く。 このような人間の認知プロセスを考慮して,自動コメント生成のためのマルチパス検討フレームワークであるDECOMを提案する。 DECOMは複数の検討モデルと1つの評価モデルで構成される。 コードスニペットが与えられたら、まずコードからキーワードを抽出し、事前定義されたコーパスから同様のコードフラグメントを取得します。 次に、検索したコードのコメントを初期ドラフトとして扱い、コードとキーワードをDeCOMに入力し、反復的な検討プロセスを開始する。 各審議において、審議モデルは草案を磨き、新たなコメントを生成する。 評価モデルは、新たに生成されたコメントの品質を測定し、反復処理を終了するか否かを決定する。 反復処理が終了すると、最適生成されたコメントが対象コメントとして選択される。 提案手法は,Java (87K) とPython (108K) の2つの実世界のデータセットで評価され,実験結果から,我々のアプローチが最先端のベースラインより優れていることが示された。 人間の評価調査では、DeCOMが生成したコメントはより読みやすく、情報的で、役に立つ傾向があることも確認されている。

Deliberation is a common and natural behavior in human daily life. For example, when writing papers or articles, we usually first write drafts, and then iteratively polish them until satisfied. In light of such a human cognitive process, we propose DECOM, which is a multi-pass deliberation framework for automatic comment generation. DECOM consists of multiple Deliberation Models and one Evaluation Model. Given a code snippet, we first extract keywords from the code and retrieve a similar code fragment from a pre-defined corpus. Then, we treat the comment of the retrieved code as the initial draft and input it with the code and keywords into DECOM to start the iterative deliberation process. At each deliberation, the deliberation model polishes the draft and generates a new comment. The evaluation model measures the quality of the newly generated comment to determine whether to end the iterative process or not. When the iterative process is terminated, the best-generated comment will be selected as the target comment. Our approach is evaluated on two real-world datasets in Java (87K) and Python (108K), and experiment results show that our approach outperforms the state-of-the-art baselines. A human evaluation study also confirms the comments generated by DECOM tend to be more readable, informative, and useful.
翻訳日:2022-09-15 13:50:28 公開日:2022-09-14
# リスク価値の学習と期待する欠点

Learning Value-at-Risk and Expected Shortfall ( http://arxiv.org/abs/2209.06476v1 )

ライセンス: Link先を確認
D Barrera (UNIANDES), S Cr\'epey (LPSM, UPCit\'e), E Gobet (CMAP, X), Hoang-Dung Nguyen (LPSM, UPCit\'e), B Saadeddine (UPS)(参考訳) 本稿では,RadecherとVapnik-Chervonenkis境界を用いた非パラメトリック設定において,条件付き値-リスク(VaR)と期待不足(ES)を学習するための2段階アプローチの非漸近収束解析を提案する。 我々のVaRに対するアプローチは、異なる量子レベルに対応する複数のVaRを同時に学習する問題にまで拡張されている。 これにより、ニューラルネットワークの量子化と最小二乗回帰に基づく効率的な学習方式が得られる。 後部モンテカルロ法(非ネステッド法)を導入し、VaRとESとの距離を後者へのアクセスなしで推定する。 このことは、ガウスの玩具モデルと金融ケーススタディの数値実験を用いて、動的初期マージンを学習することを目的とする。

We propose a non-asymptotic convergence analysis of a two-step approach to learn a conditional value-at-risk (VaR) and expected shortfall (ES) in a nonparametric setting using Rademacher and Vapnik-Chervonenkis bounds. Our approach for the VaR is extended to the problem of learning at once multiple VaRs corresponding to different quantile levels. This results in efficient learning schemes based on neural network quantile and least-squares regressions. An a posteriori Monte Carlo (non-nested) procedure is introduced to estimate distances to the ground-truth VaR and ES without access to the latter. This is illustrated using numerical experiments in a Gaussian toy-model and a financial case-study where the objective is to learn a dynamic initial margin.
翻訳日:2022-09-15 13:50:09 公開日:2022-09-14
# 離散イベント時間に対するモデルベース再帰的パーティショニング

Model-based recursive partitioning for discrete event times ( http://arxiv.org/abs/2209.06592v1 )

ライセンス: Link先を確認
Cynthia Huber, Matthias Schmid, Tim Friede(参考訳) モデルベースの再帰的分割(MOB)は半パラメトリックな統計手法であり、連続的な時間と結果を含む幅広い結果の尺度と組み合わせることができる。 離散的なスケールで時間を測定するとき、他の部分群が刺激的であり、影響が偏っているため、方法やモデルはこの違いを考慮する必要がある。 Mゆらぎ試験(M-fluctuation test)であるMOBの分裂基準に基づく試験は、独立した観測を前提としている。 しかしながら、離散時間-イベントモデルを適用するためには、独立性仮定に違反する拡張データ行列を生成するために、データ行列を変更する必要がある。 本稿では,データ分割に使用するテストのタイプiエラー率を制御する離散サバイバルデータ(mob-ds)に対するモブを提案する。 MOB-dsは、拡張された時間から時間へのデータの依存関係を考慮に入れた置換アプローチを用いて、非部分群のnull仮説の下で分布を得る。 シミュレーションにより,新たなモブdと標準モブのタイプiエラー率を調査し,サバイバル曲線とイベント率の異なるパターンについて検討した。 テストのI型誤差率はMOB-dSに対してよく制御されているが,MOBの誤差率のかなりのインフレーションが観察されている。 提案手法を説明するために,MOB-dSを失業期間のデータに適用した。

Model-based recursive partitioning (MOB) is a semi-parametric statistical approach allowing the identification of subgroups that can be combined with a broad range of outcome measures including continuous time-to-event outcomes. When time is measured on a discrete scale, methods and models need to account for this discreetness as otherwise subgroups might be spurious and effects biased. The test underlying the splitting criterion of MOB, the M-fluctuation test, assumes independent observations. However, for fitting discrete time-to-event models the data matrix has to be modified resulting in an augmented data matrix violating the independence assumption. We propose MOB for discrete Survival data (MOB-dS) which controls the type I error rate of the test used for data splitting and therefore the rate of identifying subgroups although none is present. MOB-ds uses a permutation approach accounting for dependencies in the augmented time-to-event data to obtain the distribution under the null hypothesis of no subgroups being present. Through simulations we investigate the type I error rate of the new MOB-dS and the standard MOB for different patterns of survival curves and event rates. We find that the type I error rates of the test is well controlled for MOB-dS, but observe some considerable inflations of the error rate for MOB. To illustrate the proposed methods, MOB-dS is applied to data on unemployment duration.
翻訳日:2022-09-15 13:49:52 公開日:2022-09-14
# convnextベースのアンチスプーフィング用ニューラルネットワーク

ConvNext Based Neural Network for Anti-Spoofing ( http://arxiv.org/abs/2209.06434v1 )

ライセンス: Link先を確認
Qiaowei Ma, Jinghui Zhong, Yitao Yang, Weiheng Liu, Ying Gao and Wing W.Y. Ng(参考訳) 自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。 しかし, 音声変換, 音声合成アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。 近年,合成・再生音声検出に関する研究が数多く行われており,合成・再生音声検出システムの精度とロバスト性を向上させるために,手作りの特徴に基づく数多くのアンチスプーフィング手法が提案されている。 しかし、生の波形ではなく手作りの特徴を用いると、スプーフィングの特定の情報を失うため、システムの検出性能が低下する。 画像分類タスクにおけるconvnextの有望な性能に触発されて,spoof攻撃検出タスクに応じてconvnextネットワークアーキテクチャを拡張し,エンドツーエンドのアンチスプーフィングモデルを提案する。 拡張されたアーキテクチャをチャネルアテンションブロックと統合することにより,提案手法は音声表現の最も有益なサブバンドに着目し,スプーフィング防止性能を向上させる。 実験により,提案する最良単一システムは,2019年la評価データセットとpa評価データセットにおいて,それぞれ1.88%と2.79%の誤差率を達成できることが分かった。

Automatic speaker verification (ASV) has been widely used in the real life for identity authentication. However, with the rapid development of speech conversion, speech synthesis algorithms and the improvement of the quality of recording devices, ASV systems are vulnerable for spoof attacks. In recent years, there have many works about synthetic and replay speech detection, researchers had proposed a number of anti-spoofing methods based on hand-crafted features to improve the accuracy and robustness of synthetic and replay speech detection system. However, using hand-crafted features rather than raw waveform would lose certain information for anti-spoofing, which will reduce the detection performance of the system. Inspired by the promising performance of ConvNext in image classification tasks, we extend the ConvNext network architecture accordingly for spoof attacks detection task and propose an end-to-end anti-spoofing model. By integrating the extended architecture with the channel attention block, the proposed model can focus on the most informative sub-bands of speech representations to improve the anti-spoofing performance. Experiments show that our proposed best single system could achieve an equal error rate of 1.88% and 2.79% for the ASVSpoof 2019 LA evaluation dataset and PA evaluation dataset respectively, which demonstrate the model's capacity for anti-spoofing.
翻訳日:2022-09-15 13:49:28 公開日:2022-09-14
# ParaTTS:Paragraph-based TTSにおける言語・韻律横断情報学習

ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in Paragraph-based TTS ( http://arxiv.org/abs/2209.06484v1 )

ライセンス: Link先を確認
Liumeng Xue, Frank K. Soong, Shaofei Zhang, Lei Xie(参考訳) ニューラルエンド・ツー・エンドTSモデルの最近の進歩は、従来の文ベースTSにおいて高品質で自然な合成音声を示している。 しかし, TTSモデルを構築する際には, 大量の文脈情報を考慮する必要があるTTSにおいて, 同様に高い品質を再現することは依然として困難である。 学習の難易度を緩和するために,訓練におけるクロスセンテンス,組込み構造を考慮した言語情報および韻律情報のモデル化を提案する。 言語学認識、韻律認識、文配置ネットワークを含む3つのサブモジュールがタコトロン2の修正と共に訓練される。 具体的には,段落に埋め込まれた情報と対応する文間の関係を学習するために,言語認識ネットワークと韻律認識ネットワークを利用する。 段落内の情報はエンコーダによってキャプチャされ、段落内の相互情報には多元的注意機構を用いて学習される。 段落内の相対的な文位置は、文位置ネットワークによって明示的に悪用される。 マンダリン系女性話者が記録したストーリーテリング音声ブックコーパス(4.08時間)で学習し、提案したTSモデルは、かなり自然で良質な音声節を生産できることを実証する。 連続文間のブレークや韻律の変動といったクロスセンテンス文脈情報は、文ベースモデルよりも予測やレンダリングが容易である。 訓練データの典型的段落長よりも長さが長く長い段落テキストでテストした場合、主観的テストにおいて、新しいモデルによって生成されたtts音声は、文ベースモデルよりも一貫して好まれ、客観的な尺度で確認される。

Recent advancements in neural end-to-end TTS models have shown high-quality, natural synthesized speech in a conventional sentence-based TTS. However, it is still challenging to reproduce similar high quality when a whole paragraph is considered in TTS, where a large amount of contextual information needs to be considered in building a paragraph-based TTS model. To alleviate the difficulty in training, we propose to model linguistic and prosodic information by considering cross-sentence, embedded structure in training. Three sub-modules, including linguistics-aware, prosody-aware and sentence-position networks, are trained together with a modified Tacotron2. Specifically, to learn the information embedded in a paragraph and the relations among the corresponding component sentences, we utilize linguistics-aware and prosody-aware networks. The information in a paragraph is captured by encoders and the inter-sentence information in a paragraph is learned with multi-head attention mechanisms. The relative sentence position in a paragraph is explicitly exploited by a sentence-position network. Trained on a storytelling audio-book corpus (4.08 hours), recorded by a female Mandarin Chinese speaker, the proposed TTS model demonstrates that it can produce rather natural and good-quality speech paragraph-wise. The cross-sentence contextual information, such as break and prosodic variations between consecutive sentences, can be better predicted and rendered than the sentence-based model. Tested on paragraph texts, of which the lengths are similar to, longer than, or much longer than the typical paragraph length of the training data, the TTS speech produced by the new model is consistently preferred over the sentence-based model in subjective tests and confirmed in objective measures.
翻訳日:2022-09-15 13:49:04 公開日:2022-09-14
# オーダーディオーダ:ブラックボックスニューラルランクモデルに対する模倣逆攻撃

Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models ( http://arxiv.org/abs/2209.06506v1 )

ライセンス: Link先を確認
Jiawei Liu, Yangyang Kang, Di Tang, Kaisong Song, Changlong Sun, Xiaofeng Wang, Wei Lu, Xiaozhong Liu(参考訳) ニューラルテキストランキングモデルは、大幅な進歩を目撃し、実際にデプロイされている。 残念なことに、彼らは一般的な神経モデルの敵対的脆弱性も継承している。 さらに、ブラックハットSEOにより、より保護された検索エンジンを倒すために、継承された敵の脆弱性を利用することができる。 本研究では,ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。 まず,重要クエリ/候補を列挙することで,対象パスのランキングモデルが透過的かつ模倣可能であることを示し,ランキング模倣モデルを訓練する。 ランキング模倣モデルを利用することで、ランキング結果を巧みに操作し、操作攻撃をターゲットランキングモデルに移すことができる。 そこで本研究では,対向目標関数を応用し,極めて少ないトークンで前処理された障害ラインを発生させる逆トリガーを生成する,革新的な勾配に基づく攻撃手法を提案する。 トリガーカモフラージュを導入するために、次の文予測損失と言語モデルフルエンシー制約を目的関数に追加する。 パスランキングにおける実験結果は,様々な sota ニューラルランキングモデルに対するランキング模倣攻撃モデルと敵意トリガーの有効性を示す。 さらに, 種々の緩和分析と人的評価により, 潜在的な緩和アプローチに対するカモフラージュの有効性が示された。 他の研究者がこの新しく重要な問題をさらに調査する動機づけるために、実験データとコードを一般公開する。

Neural text ranking models have witnessed significant advancement and are increasingly being deployed in practice. Unfortunately, they also inherit adversarial vulnerabilities of general neural models, which have been detected but remain underexplored by prior studies. Moreover, the inherit adversarial vulnerabilities might be leveraged by blackhat SEO to defeat better-protected search engines. In this study, we propose an imitation adversarial attack on black-box neural passage ranking models. We first show that the target passage ranking model can be transparentized and imitated by enumerating critical queries/candidates and then train a ranking imitation model. Leveraging the ranking imitation model, we can elaborately manipulate the ranking results and transfer the manipulation attack to the target ranking model. For this purpose, we propose an innovative gradient-based attack method, empowered by the pairwise objective function, to generate adversarial triggers, which causes premeditated disorderliness with very few tokens. To equip the trigger camouflages, we add the next sentence prediction loss and the language model fluency constraint to the objective function. Experimental results on passage ranking demonstrate the effectiveness of the ranking imitation attack model and adversarial triggers against various SOTA neural ranking models. Furthermore, various mitigation analyses and human evaluation show the effectiveness of camouflages when facing potential mitigation approaches. To motivate other scholars to further investigate this novel and important problem, we make the experiment data and code publicly available.
翻訳日:2022-09-15 13:48:37 公開日:2022-09-14
# タプルパッキング:グラフニューラルネットワークにおける小さなグラフの効率的なバッチ化

Tuple Packing: Efficient Batching of Small Graphs in Graph Neural Networks ( http://arxiv.org/abs/2209.06354v1 )

ライセンス: Link先を確認
Mario Michael Krell, Manuel Lopez, Sreenidhi Anand, Hatem Helal, Andrew William Fitzgibbon(参考訳) グラフニューラルネットワーク(GNN)のような機械学習モデルでグラフのバッチを処理する場合、複数の小さなグラフを1つのグラフに組み合わせて処理を高速化し、パディングのオーバーヘッドを低減することが一般的である。 これは例えば、PyGライブラリでサポートされている。 しかし、小さなグラフのサイズはノード数やエッジ数によって大きく異なるため、特に小さなバッチサイズでは、結合グラフのサイズが依然として大きく変化する可能性がある。 したがって、過剰なパディングと無駄な計算のコストはいまだに発生しています。 本稿では,最小のオーバヘッドを発生させるバッチ生成のための新しいアプローチであるタプルパッキングを提案する。 このアルゴリズムは(|nodes|, |edges|)の2dタプルに取り組むために最近導入されたシーケンスパッキングアプローチを拡張している。 タプル値の2次元ヒストグラムにモノトンヒューリスティックを適用し、ヒストグラムビンをパックする優先事項と、ノード数とエッジ数に限界に達する目的を定義する。 実験は、複数のデータセットにおけるアルゴリズムの有効性を検証する。

When processing a batch of graphs in machine learning models such as Graph Neural Networks (GNN), it is common to combine several small graphs into one overall graph to accelerate processing and reduce the overhead of padding. This is for example supported in the PyG library. However, the sizes of small graphs can vary substantially with respect to the number of nodes and edges, and hence the size of the combined graph can still vary considerably, especially for small batch sizes. So the costs of excessive padding and wasted compute are still incurred. This paper proposes a new approach -- tuple packing -- for generating batches that cause minimal overhead. The algorithm extends recently introduced sequence packing approaches to work on the 2D tuples of (|nodes|, |edges|). A monotone heuristic is applied to the 2D histogram of tuple values to define a priority for packing histogram bins together with the objective to reach a limit on the number of nodes as well as the number of edges. Experiments verify the effectiveness of the algorithm on multiple datasets.
翻訳日:2022-09-15 13:46:08 公開日:2022-09-14
# meta pattern concern score: カスタマイズ可能なマルチクラス化評価のための新しいメトリクス

Meta Pattern Concern Score: A Novel Metric for Customizable Evaluation of Multi-classification ( http://arxiv.org/abs/2209.06408v1 )

ライセンス: Link先を確認
Yanyun Wang, Dehui Du, Yuanhao Liu(参考訳) 分類器は実際に広く実装されているが、適切に評価する方法は問題である。 一般に、混乱行列と損失関数に基づく2種類のメトリクスは、柔軟性と数学的完全性において異なる利点を持つが、わずかな改善に対する無感や、異なるタスクでのカスタマイズ性の欠如といった異なるジレンマに苦しむ。 本稿では,確率的予測の抽象的表現に基づくメタパターン関心度スコアと,多クラス化における負クラス処理のターゲット設計と,メトリクス値の離散性を低減し,両者の利点を享受し,その弱点を回避するための新しい指標であるメタパターン関心度スコアを提案する。 当社のメトリクスは、異なるプラクティスの特定の要求に対してモデルを選択し、従来のメトリクスの下でも、同時に正常であることを確認するためのカスタマイズ性を提供します。 4種類のモデルと6つのデータセットによる評価は、我々のメトリックの有効性と効率を実証し、ケーススタディでは、トレーニング精度の0.04%を犠牲にして、危険な誤分類の0.53%を削減するモデルを選択することができる。

Classifiers have been widely implemented in practice, while how to evaluate them properly remains a problem. Commonly used two types of metrics respectively based on confusion matrix and loss function have different advantages in flexibility and mathematical completeness, while they struggle in different dilemmas like the insensitivity to slight improvements or the lack of customizability in different tasks. In this paper, we propose a novel metric named Meta Pattern Concern Score based on the abstract representation of the probabilistic prediction, as well as the targeted design for processing negative classes in multi-classification and reducing the discreteness of metric value, to achieve advantages of both the two kinds of metrics and avoid their weaknesses. Our metric provides customizability to pick out the model for specific requirements in different practices, and make sure it is also fine under traditional metrics at the same time. Evaluation in four kinds of models and six datasets demonstrates the effectiveness and efficiency of our metric, and a case study shows it can select a model to reduce 0.53% of dangerous misclassifications by sacrificing only 0.04% of training accuracy.
翻訳日:2022-09-15 13:45:49 公開日:2022-09-14
# Graph Perceiver IO: グラフ構造化データの汎用アーキテクチャ

Graph Perceiver IO: A General Architecture for Graph Structured Data ( http://arxiv.org/abs/2209.06418v1 )

ライセンス: Link先を確認
Seyun Bae, Hoyoon Byun, Changdae Oh, Yoon-Sik Cho, Kyungwoo Song(参考訳) マルチモーダル機械学習は、汎用知能の開発のために広く研究されてきた。 近年、注目すべきマルチモーダルアルゴリズムであるperceiverとperceiver ioが、さまざまなデータセットドメインとタスクの競合結果を示している。 しかし、最近の研究であるPerceiverとPerceiver IOは、画像、テキスト、音声を含む不均一なモダリティに焦点を当てており、グラフ構造化データセットの研究は少ない。 グラフは最も一般的なデータセットの1つであり、画像、テキスト、音声を含む他のデータセットをグラフ構造化データとして表現することができる。 グラフは、テキストや画像などの他のデータセットドメインとは異なる隣接行列を持ち、トポロジ情報、関係情報、標準位置情報を扱うのは簡単ではない。 本研究では,グラフ構造化データセット用の知覚器ioであるgraph perceiver ioを提案する。 Perceiver IOはグラフ構造化データセットを除いて、すでにさまざまなデータセットをうまく処理しているので、Graph Perceiver IOの主要構造をPerceiver IOとして保持しています。 Graph Perceiver IOは一般的な方法であり、グラフ構造化データやテキストや画像などの多様なデータセットを扱うことができる。 グラフニューラルネットワークと比較すると、Graph Perceiver IOはより低い複雑さを必要とし、ローカルおよびグローバル情報を効率的に組み込むことができる。 グラフ知覚型IOは,ノード分類,グラフ分類,リンク予測など,様々なグラフ関連タスクに対する競合結果を示す。

Multimodal machine learning has been widely studied for the development of general intelligence. Recently, the remarkable multimodal algorithms, the Perceiver and Perceiver IO, show competitive results for diverse dataset domains and tasks. However, recent works, Perceiver and Perceiver IO, have focused on heterogeneous modalities, including image, text, and speech, and there are few research works for graph structured datasets. A graph is one of the most generalized dataset structures, and we can represent the other dataset, including images, text, and speech, as graph structured data. A graph has an adjacency matrix different from other dataset domains such as text and image, and it is not trivial to handle the topological information, relational information, and canonical positional information. In this study, we provide a Graph Perceiver IO, the Perceiver IO for the graph structured dataset. We keep the main structure of the Graph Perceiver IO as the Perceiver IO because the Perceiver IO already handles the diverse dataset well, except for the graph structured dataset. The Graph Perceiver IO is a general method, and it can handle diverse datasets such as graph structured data as well as text and images. Comparing the graph neural networks, the Graph Perceiver IO requires a lower complexity, and it can incorporate the local and global information efficiently. We show that Graph Perceiver IO shows competitive results for diverse graph-related tasks, including node classification, graph classification, and link prediction.
翻訳日:2022-09-15 13:45:27 公開日:2022-09-14
# 分解パターンクラスタリングを用いたreedリレーのハイブリッド型ディープラーニングモデルに基づく有効寿命推定

A Hybrid Deep Learning Model-based Remaining Useful Life Estimation for Reed Relay with Degradation Pattern Clustering ( http://arxiv.org/abs/2209.06429v1 )

ライセンス: Link先を確認
Chinthaka Gamanayake, Yan Qin, Chau Yuen, Lahiru Jayasinghe, Dominique-Ea Tan and Jenny Low(参考訳) リードリレーは、電子機器の品質検査の成功に密接に関連している機能テストの基本部品である。 リードリレーの有効寿命(RUL)を正確に推定するために、以下の3つの考察に基づいて、劣化パターンクラスタリングを伴うハイブリッドディープラーニングネットワークを提案する。 まず, リードリレーにおいて複数の劣化挙動が観察され, 動的時間ラッピングに基づく$K$-meansクラスタリングが提供され, 劣化パターンを区別する。 第二に、適切な特徴の選択は極めて重要であるが、その選択を導く研究はほとんどない。 提案手法は,実装が容易な運用ルールを推奨する。 第3に,畳み込み動作の高レベル特徴表現後の時間相関能力を取り入れた逐次データの時間情報取得における畳み込みニューラルネットワーク(cnn)の弱点に対処するために,rulnet(convolutional life estimation)を継続するニューラルネットワークを提案する。 このようにして、rulnetの3つの変種は健康指標、自己組織化マップのある特徴、カーブフィットのある特徴で構築される。 最終的に、提案したハイブリッドモデルは、CNNと長期記憶ネットワーク(LSTM)を含む典型的なベースラインモデルと比較され、実用的なリードリレーデータセットを2つの異なる分解方式で実現している。 その結果,提案手法は指数根平均二乗誤差に関してCNNとLSTMより優れていた。

Reed relay serves as the fundamental component of functional testing, which closely relates to the successful quality inspection of electronics. To provide accurate remaining useful life (RUL) estimation for reed relay, a hybrid deep learning network with degradation pattern clustering is proposed based on the following three considerations. First, multiple degradation behaviors are observed for reed relay, and hence a dynamic time wrapping-based $K$-means clustering is offered to distinguish degradation patterns from each other. Second, although proper selections of features are of great significance, few studies are available to guide the selection. The proposed method recommends operational rules for easy implementation purposes. Third, a neural network for remaining useful life estimation (RULNet) is proposed to address the weakness of the convolutional neural network (CNN) in capturing temporal information of sequential data, which incorporates temporal correlation ability after high-level feature representation of convolutional operation. In this way, three variants of RULNet are constructed with health indicators, features with self-organizing map, or features with curve fitting. Ultimately, the proposed hybrid model is compared with the typical baseline models, including CNN and long short-term memory network (LSTM), through a practical reed relay dataset with two distinct degradation manners. The results from both degradation cases demonstrate that the proposed method outperforms CNN and LSTM regarding the index root mean squared error.
翻訳日:2022-09-15 13:45:02 公開日:2022-09-14
# 個人化強化によるグラフコントラスト学習

Graph Contrastive Learning with Personalized Augmentation ( http://arxiv.org/abs/2209.06560v1 )

ライセンス: Link先を確認
Xin Zhang, Qiaoyu Tan, Xiao Huang, Bo Li(参考訳) グラフの教師なし表現を学習するための有効なツールとして,グラフコントラスト学習(GCL)が登場した。 重要なアイデアは、データ拡張によって各グラフの2つの拡張ビュー間の合意を最大化することです。 既存のGCLモデルは、主に与えられたシナリオ内のすべてのグラフに対して \textit{identical augmentation Strategy} を適用することに焦点を当てている。 しかし、実世界のグラフはしばしば単相ではなく、多様な性質の抽象である。 同じシナリオ(例えばマクロ分子やオンラインコミュニティ)でも、異なるグラフは効果的なgclを実行するために多様な拡張を必要とするかもしれない。 Thus, blindly augmenting all graphs without considering their individual characteristics may undermine the performance of GCL arts.To deal with this, we propose the first principled framework, termed as \textit{G}raph contrastive learning with \textit{P}ersonalized \textit{A}ugmentation (GPA), to advance conventional GCL by allowing each graph to choose its own suitable augmentation operations.In essence, GPA infers tailored augmentation strategies for each graph based on its topology and node attributes via a learnable augmentation selector, which is a plug-and-play module and can be effectively trained with downstream GCL models end-to-end. 異なるタイプやドメインの11のベンチマークグラフに対する広範な実験は、最先端の競合相手に対するGPAの優位性を実証するものであり、さらに、学習された拡張分布を異なるタイプのデータセットで可視化することにより、GPAはその特性に基づいて、各グラフに最適な拡張を効果的に特定できることが示される。

Graph contrastive learning (GCL) has emerged as an effective tool for learning unsupervised representations of graphs. The key idea is to maximize the agreement between two augmented views of each graph via data augmentation. Existing GCL models mainly focus on applying \textit{identical augmentation strategies} for all graphs within a given scenario. However, real-world graphs are often not monomorphic but abstractions of diverse natures. Even within the same scenario (e.g., macromolecules and online communities), different graphs might need diverse augmentations to perform effective GCL. Thus, blindly augmenting all graphs without considering their individual characteristics may undermine the performance of GCL arts.To deal with this, we propose the first principled framework, termed as \textit{G}raph contrastive learning with \textit{P}ersonalized \textit{A}ugmentation (GPA), to advance conventional GCL by allowing each graph to choose its own suitable augmentation operations.In essence, GPA infers tailored augmentation strategies for each graph based on its topology and node attributes via a learnable augmentation selector, which is a plug-and-play module and can be effectively trained with downstream GCL models end-to-end. Extensive experiments across 11 benchmark graphs from different types and domains demonstrate the superiority of GPA against state-of-the-art competitors.Moreover, by visualizing the learned augmentation distributions across different types of datasets, we show that GPA can effectively identify the most suitable augmentations for each graph based on its characteristics.
翻訳日:2022-09-15 13:44:34 公開日:2022-09-14
# 素数を用いた効率的なマルチリレーショナルネットワーク表現

Efficient multi-relational network representation using primes ( http://arxiv.org/abs/2209.06575v1 )

ライセンス: Link先を確認
Konstantinos Bougiatiotis, Georgios Paliouras(参考訳) マルチリレーショナルネットワークは、今日の世界で重要な役割を担い、データ間の複雑な関係を捉えるために利用される。 彼らのアプリケーションは、バイオメディカル、ファイナンシャル、ソーシャルなど多くのドメインにまたがっており、ユーザビリティが向上しているため、複数のレイヤーの複雑さを増やすための効率的な方法を見つけることが重要になっている。 本研究では, 1 つの集約された隣接行列を用いてこれらの複雑なネットワークを表現するための新しい手法を提案する。 算術の基本定理により、これは単一の隣接行列を用いて、多重関係グラフ全体の損失のないコンパクトな表現を可能にする。 さらに、この表現はマルチホップ隣接行列の高速計算を可能にし、様々な下流タスクに有用である。 我々は,この表現が有用であるような単純で複雑なタスクを提示し,その効率性と性能を示す。 最後に、取り組まなければならないメリットとオープンな課題についての洞察を提供し、将来の仕事のモチベーションを与えます。

Multi-relational networks play an important role in today's world and are utilized to capture complex relationships between the data. Their applications span many domains such as biomedical, financial, social, etc., and because of their increasing usability, it becomes crucial to find efficient ways to deal with the added complexity of multiple layers. In this work, we propose a novel approach to represent these complex networks using a single aggregated adjacency matrix, by utilizing primes as surrogates for the relations. Due to the fundamental theorem of arithmetic, this allows for a lossless, compact representation of the whole multi-relational graph, using a single adjacency matrix. Moreover, this representation enables the fast computation of multi-hop adjacency matrices, that can be useful for a variety of downstream tasks. We present simple and complex tasks in which this representation can be useful and showcase its efficiency and performance. Finally, we also provide insights on the advantages and the open challenges that still need to be addressed and motivate future work.
翻訳日:2022-09-15 13:44:08 公開日:2022-09-14
# 無線ネットワークを用いた連合学習における情報化時代

Age of Information in Federated Learning over Wireless Networks ( http://arxiv.org/abs/2209.06623v1 )

ライセンス: Link先を確認
Kaidi Wang, Yi Ma, Mahdi Boloursaz Mashhadi, Chuan Heng Foh, Rahim Tafazolli and Zhi Ding(参考訳) 本稿では,無線ネットワーク上でのフェデレーション学習(fl)について検討する。 各通信ラウンドでは、装置のサブセットが選択され、限られた時間とエネルギーでアグリゲーションに参加する。 収束時間を最小化するために、グローバルロスとレイテンシをstackelbergゲームベースのフレームワークで共同で検討する。 具体的には,情報化時代(aoi)に基づくデバイス選択を,グローバル損失最小化問題としてリーダレベル,サブチャネル割り当て,計算資源割り当て,電力割り当てを,レイテンシ最小化問題としてフォロワーレベルとする。 従者レベルの問題を2つのサブ問題に分割することにより、一調最適化に基づくリソース割当アルゴリズムとマッチングベースのサブチャネル割当アルゴリズムにより、従者のベストレスポンスを得る。 収束率の上限を導出することにより、リーダーレベルの問題を再構成し、スタックルバーグ平衡を達成するためにリストベースのデバイス選択アルゴリズムを提案する。 シミュレーションの結果,提案手法はグローバルな損失の点で他の手法よりも優れており,開発したアルゴリズムは計算と通信の時間消費を大幅に削減できることがわかった。

In this paper, federated learning (FL) over wireless networks is investigated. In each communication round, a subset of devices is selected to participate in the aggregation with limited time and energy. In order to minimize the convergence time, global loss and latency are jointly considered in a Stackelberg game based framework. Specifically, age of information (AoI) based device selection is considered at leader-level as a global loss minimization problem, while sub-channel assignment, computational resource allocation, and power allocation are considered at follower-level as a latency minimization problem. By dividing the follower-level problem into two sub-problems, the best response of the follower is obtained by a monotonic optimization based resource allocation algorithm and a matching based sub-channel assignment algorithm. By deriving the upper bound of convergence rate, the leader-level problem is reformulated, and then a list based device selection algorithm is proposed to achieve Stackelberg equilibrium. Simulation results indicate that the proposed device selection scheme outperforms other schemes in terms of the global loss, and the developed algorithms can significantly decrease the time consumption of computation and communication.
翻訳日:2022-09-15 13:43:51 公開日:2022-09-14
# 建設がありますか。 不均質時空間データに基づく道路構造予測

Will there be a construction? Predicting road constructions based on heterogeneous spatiotemporal data ( http://arxiv.org/abs/2209.06813v1 )

ライセンス: Link先を確認
Amin Karimi Monsefi, Sobhan Moosavi, Rajiv Ramnath(参考訳) 道路建設プロジェクトは交通インフラを維持している。 これらのプロジェクトは、短期(例えば、ポットホールの復活や固定など)から長期(例えば、肩の追加や橋の建設など)まで様々である。 次の建設計画といつ予定されるかは、伝統的に特殊装備を用いて人間による検査によって決定される。 このアプローチは費用がかかり、スケールが難しい。 別の方法として、複数の種類の過去のデータと現在の時空間データを統合分析し、将来の道路建設の場所と時刻を予測する計算手法の利用がある。 本稿では,深層神経ネットワークモデルを用いて将来の構成を予測する手法について報告する。 本モデルでは,建設,気象,地図,道路網のデータからなる異種データセットに対して,畳み込み成分と繰り返し成分の両方を適用した。 私たちはまた、2016年から2021年にかけて米国(us)で収集された様々な時空間属性と道路ネットワーク機能によって拡張された620万の道路建設を含む、"us-constructions"という名の大規模データセットを構築することで、適切な公開データの欠如に対する対処方法を報告します。 米国内のいくつかの主要都市で大規模な実験を行い、平均的なf1スコアと82.2%の精度でベースラインを上回り、将来の建設を正確に予測できることを示す。 さらに、トレーニングパイプラインがデータの空間的スパーシティに対処する方法を示す。

Road construction projects maintain transportation infrastructures. These projects range from the short-term (e.g., resurfacing or fixing potholes) to the long-term (e.g., adding a shoulder or building a bridge). Deciding what the next construction project is and when it is to be scheduled is traditionally done through inspection by humans using special equipment. This approach is costly and difficult to scale. An alternative is the use of computational approaches that integrate and analyze multiple types of past and present spatiotemporal data to predict location and time of future road constructions. This paper reports on such an approach, one that uses a deep-neural-network-based model to predict future constructions. Our model applies both convolutional and recurrent components on a heterogeneous dataset consisting of construction, weather, map and road-network data. We also report on how we addressed the lack of adequate publicly available data - by building a large scale dataset named "US-Constructions", that includes 6.2 million cases of road constructions augmented by a variety of spatiotemporal attributes and road-network features, collected in the contiguous United States (US) between 2016 and 2021. Using extensive experiments on several major cities in the US, we show the applicability of our work in accurately predicting future constructions - an average f1-score of 0.85 and accuracy 82.2% - that outperform baselines. Additionally, we show how our training pipeline addresses spatial sparsity of data.
翻訳日:2022-09-15 13:43:19 公開日:2022-09-14
# 語彙外課題報告

Out-of-Vocabulary Challenge Report ( http://arxiv.org/abs/2209.06717v1 )

ライセンス: Link先を確認
Sergi Garcia-Bordils, Andr\'es Mafla, Ali Furkan Biten, Oren Nuriel, Aviad Aberdam, Shai Mazor, Ron Litman, Dimosthenis Karatzas(参考訳) 本稿では,Of-Vocabulary 2022(OOV)チャレンジの最終結果を示す。 OOVコンテストは、光学文字認識(OCR)モデルで一般的に研究されていない重要な側面、すなわちトレーニング時に見えないシーンテキストインスタンスの認識を導入する。 コンペティションは、326,385枚の画像と4,864,405のシーンテキストインスタンスからなる公開シーンテキストデータセットのコレクションをコンパイルし、幅広いデータ分布をカバーする。 新たな独立したバリデーションとテストセットは、トレーニング時に語彙を欠いたシーンテキストインスタンスで形成される。 コンペティションはそれぞれ、エンドツーエンドとトリミングされたシーンテキスト認識という2つのタスクで構成された。 ベースラインと異なる参加者からの結果を徹底的に分析する。 興味深いことに、現在の最先端のモデルでは、新しく研究された設定下で大きなパフォーマンスの差が見られる。 この課題で提案したOOVデータセットは、より堅牢で一般化された予測を実現するシーンテキストモデルを開発するために、検討すべき重要な領域である。

This paper presents final results of the Out-Of-Vocabulary 2022 (OOV) challenge. The OOV contest introduces an important aspect that is not commonly studied by Optical Character Recognition (OCR) models, namely, the recognition of unseen scene text instances at training time. The competition compiles a collection of public scene text datasets comprising of 326,385 images with 4,864,405 scene text instances, thus covering a wide range of data distributions. A new and independent validation and test set is formed with scene text instances that are out of vocabulary at training time. The competition was structured in two tasks, end-to-end and cropped scene text recognition respectively. A thorough analysis of results from baselines and different participants is presented. Interestingly, current state-of-the-art models show a significant performance gap under the newly studied setting. We conclude that the OOV dataset proposed in this challenge will be an essential area to be explored in order to develop scene text models that achieve more robust and generalized predictions.
翻訳日:2022-09-15 13:38:26 公開日:2022-09-14
# must-vqa: 多言語シーン-テキストvqa

MUST-VQA: MUltilingual Scene-text VQA ( http://arxiv.org/abs/2209.06730v1 )

ライセンス: Link先を確認
Emanuele Vivoli, Ali Furkan Biten, Andres Mafla, Dimosthenis Karatzas, Lluis Gomez(参考訳) 本稿では,ゼロショット方式で新しい言語を扱う多言語シーンテキストビジュアル質問応答のためのフレームワークを提案する。 具体的には、異なる言語で質問できるシーンテキストの視覚的質問応答(stvqa)のタスクについて検討し、シーンテキスト言語と必ずしも一致しないことを示す。 そこで我々はまず,より一般化されたSTVQA:MUST-VQAに向けた自然なステップを紹介する。 そこで本研究では,制約設定における2つの評価シナリオ,すなわち iid と 0-shot について検討し,モデルが 0-shot 設定で1対1で実行可能であることを示す。 さらに,多言語言語モデルをstvqaタスクに適応させる効果を示す実験を行った。

In this paper, we present a framework for Multilingual Scene Text Visual Question Answering that deals with new languages in a zero-shot fashion. Specifically, we consider the task of Scene Text Visual Question Answering (STVQA) in which the question can be asked in different languages and it is not necessarily aligned to the scene text language. Thus, we first introduce a natural step towards a more generalized version of STVQA: MUST-VQA. Accounting for this, we discuss two evaluation scenarios in the constrained setting, namely IID and zero-shot and we demonstrate that the models can perform on a par on a zero-shot setting. We further provide extensive experimentation and show the effectiveness of adapting multilingual language models into STVQA tasks.
翻訳日:2022-09-15 13:38:11 公開日:2022-09-14
# 口腔・咽頭癌治療後の音声の調音的変化に関する事前登録プロトコル : 体系的検討

Preregistered protocol for: Articulatory changes in speech following treatment for oral or oropharyngeal cancer: a systematic review ( http://arxiv.org/abs/2209.06521v1 )

ライセンス: Link先を確認
Thomas B. Tienkamp, Teja Rebernik, Defne Abur, Rob J.J.H. van Son, Sebastiaan A.H.J. de Visscher, Max J.H. Witjes, and Martijn Wieling(参考訳) 本論文は,口腔癌および口腔咽頭癌治療後の音声の調音変化に関する体系的レビューのための,隆盛した事前登録プロトコルについて概説する。 口腔内の腫瘍の治療は生理的変化をもたらし、関節の難易度につながる可能性がある。 舌は傷痕組織および/または放射線療法(術後)により可動性が低下する。 さらに、組織損失は気流のバイパスや収縮の可能性を制限する可能性がある。 音声問題の性質をよりよく理解するためには、知覚的・音響的情報のみに間接的な調音変化の証拠を与えるため、調音器の動きに関する情報が必要である。 そこで本研究は,口腔・咽頭癌治療後の舌・顎・唇の関節運動を直接測定する研究を概観する。

This document outlines a PROSPERO pre-registered protocol for a systematic review regarding articulatory changes in speech following oral or orophayrngeal cancer treatment. Treatment of tumours in the oral cavity may result in physiological changes that could lead to articulatory difficulties. The tongue becomes less mobile due to scar tissue and/or potential (postoperative) radiation therapy. Moreover, tissue loss may create a bypass for airflow or limit constriction possibilities. In order to gain a better understanding of the nature of the speech problems, information regarding the movement of the articulators is needed since perceptual or acoustic information provide only indirect evidence of articulatory changes. Therefore, this systematic review will review studies that directly measured the articulatory movements of the tongue, jaw, and lips following treatment for oral or oropharyngeal cancer.
翻訳日:2022-09-15 13:37:58 公開日:2022-09-14
# 形式と意味の統合:音響単語埋め込みのためのマルチタスク学習モデル

Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic Word Embeddings ( http://arxiv.org/abs/2209.06633v1 )

ライセンス: Link先を確認
Badr M. Abdullah, Bernd M\"obius, Dietrich Klakow(参考訳) 音響単語埋め込みモデル(AWEs)は、可変長の音声単語セグメントを、同じ単語の異なる音響例が埋め込み空間の近傍に投影されるような固定次元ベクトル表現にマッピングすることを学習する。 音声技術の応用に加え、AWEモデルは様々な聴覚語彙処理タスクにおいて人間のパフォーマンスを予測することが示されている。 現在のAWEモデルはニューラルネットワークに基づいており、音響的手がかりを統合するボトムアップアプローチでトレーニングされ、音響的または象徴的な監視信号が与えられたワード表現を構築する。 したがって、これらのモデルは学習過程において高レベルな語彙知識を活用または取り込みません。 %と低レベルな単語形式情報をキャプチャする。 本稿では,トップダウンの語彙知識をAWEの学習手順に組み込んだマルチタスク学習モデルを提案する。 本モデルは,音声入力と語彙表現のマッピングを学習し,ボトムアップ形式に基づく監視に加えて,単語の意味などの高レベル情報を符号化する。 3つの言語を実験し,語彙知識を組み込むことで埋め込み空間の識別性が向上し,モデルの語彙カテゴリの分離性が向上することを示す。

Models of acoustic word embeddings (AWEs) learn to map variable-length spoken word segments onto fixed-dimensionality vector representations such that different acoustic exemplars of the same word are projected nearby in the embedding space. In addition to their speech technology applications, AWE models have been shown to predict human performance on a variety of auditory lexical processing tasks. Current AWE models are based on neural networks and trained in a bottom-up approach that integrates acoustic cues to build up a word representation given an acoustic or symbolic supervision signal. Therefore, these models do not leverage or capture high-level lexical knowledge during the learning process. % and capture low-level information about word forms. In this paper, we propose a multi-task learning model that incorporates top-down lexical knowledge into the training procedure of AWEs. Our model learns a mapping between the acoustic input and a lexical representation that encodes high-level information such as word semantics in addition to bottom-up form-based supervision. We experiment with three languages and demonstrate that incorporating lexical knowledge improves the embedding space discriminability and encourages the model to better separate lexical categories.
翻訳日:2022-09-15 13:37:48 公開日:2022-09-14
# 言語クラスタリングについて:非パラメトリック統計的アプローチ

On Language Clustering: A Non-parametric Statistical Approach ( http://arxiv.org/abs/2209.06720v1 )

ライセンス: Link先を確認
Anagh Chattopadhyay, Soumya Sankar Ghosh, Samir Karmakar(参考訳) 特定の現象を解析・定量化するためには、データ解析に頑健な統計手法を使う必要がある。 本研究の目的は,非パラメトリックな非均一データフレームワークに適用可能な統計的アプローチを提案するとともに,自然言語処理や言語クラスタリングの分野におけるそれらの応用を検討することである。 本稿では,言語データマイニングと処理における非パラメトリック手法の多用について述べる。 データ深度の概念は任意の次元の点の中心から外側への順序付けを可能にし、新しい非パラメトリックな多変量統計解析をもたらす。 階層の概念は、歴史的言語分類と構造化に使われ、同じ前提で言語とクラスタをサブファミリーに編成することを目的としている。 そこで本研究では,多言語における単語の類型構造から生成される非パラメトリックなアプローチに基づく,言語家族構造への新たなアプローチを,MDSを用いてカルテシアンフレームワークに変換する。 この統計深度に基づくアーキテクチャは、データ深度に基づく手法を堅牢な外れ値検出に利用することができ、多様な境界言語の分類を理解するのに非常に有用であり、既存の分類システムの再評価を可能にする。 他のディープベースアプローチは、教師なしクラスタリングや教師なしクラスタリングといったプロセスにも適用される。 そこで本稿では,非パラメトリックフレームワークにおける非均一言語分類システムに適用可能な手順の概要について述べる。

Any approach aimed at pasteurizing and quantifying a particular phenomenon must include the use of robust statistical methodologies for data analysis. With this in mind, the purpose of this study is to present statistical approaches that may be employed in nonparametric nonhomogeneous data frameworks, as well as to examine their application in the field of natural language processing and language clustering. Furthermore, this paper discusses the many uses of nonparametric approaches in linguistic data mining and processing. The data depth idea allows for the centre-outward ordering of points in any dimension, resulting in a new nonparametric multivariate statistical analysis that does not require any distributional assumptions. The concept of hierarchy is used in historical language categorisation and structuring, and it aims to organise and cluster languages into subfamilies using the same premise. In this regard, the current study presents a novel approach to language family structuring based on non-parametric approaches produced from a typological structure of words in various languages, which is then converted into a Cartesian framework using MDS. This statistical-depth-based architecture allows for the use of data-depth-based methodologies for robust outlier detection, which is extremely useful in understanding the categorization of diverse borderline languages and allows for the re-evaluation of existing classification systems. Other depth-based approaches are also applied to processes such as unsupervised and supervised clustering. This paper therefore provides an overview of procedures that can be applied to nonhomogeneous language classification systems in a nonparametric framework.
翻訳日:2022-09-15 13:37:28 公開日:2022-09-14
# 文脈自由言語と正規言語の交叉について

On the Intersection of Context-Free and Regular Languages ( http://arxiv.org/abs/2209.06809v1 )

ライセンス: Link先を確認
Clemente Pasti, Andreas Opedal, Tiago Pimentel, Tim Vieira, Jason Eisner, Ryan Cotterell(参考訳) バーヒルル構成は形式言語理論の古典的な結果である。 構成上、文脈自由言語と正規言語との交点自体が文脈自由であることを示している。 しかし、オリジナルの定式化(Bar-Hillel et al., 1961)や重み付き拡張(Nederhof and Satta, 2003)は、$\epsilon$-arcsでオートマトンを扱うことはできない。 本稿では,オートマトンが$\epsilon$-arcsを含む場合でも,Bar-Hillel構造を一般化して交差点を正しく計算する。 さらに、一般化された構成は、入力オートマトンと文法の両方の構造を符号化し、元の構成の漸近的な大きさを維持している文法につながることを証明した。

The Bar-Hillel construction is a classic result in formal language theory. It shows, by construction, that the intersection between a context-free language and a regular language is itself context-free. However, neither its original formulation (Bar-Hillel et al., 1961) nor its weighted extension (Nederhof and Satta, 2003) can handle automata with $\epsilon$-arcs. In this short note, we generalize the Bar-Hillel construction to correctly compute the intersection even when the automaton contains $\epsilon$-arcs. We further prove that our generalized construction leads to a grammar that encodes the structure of both the input automaton and grammar while retaining the asymptotic size of the original construction.
翻訳日:2022-09-15 13:37:06 公開日:2022-09-14
# SCULPTOR:学習したパラメトリックジェネレータを用いた骨格型顔生成

SCULPTOR: Skeleton-Consistent Face Creation Using a Learned Parametric Generator ( http://arxiv.org/abs/2209.06423v1 )

ライセンス: Link先を確認
Zesong Qiu, Yuwei Li, Dongming He, Qixuan Zhang, Longwen Zhang, Yinghao Zhang, Jingya Wang, Lan Xu, Xudong Wang, Yuyao Zhang, Jingyi Yu(参考訳) 近年、デジタル人間、キャラクター生成、アニメーションに広く応用されているため、人間の3次元顔モデリングへの関心が高まっている。 既存のアプローチは、顔の外観形状、テクスチャ、皮膚特性のモデル化に圧倒的に重点を置いており、内骨格構造と外観との固有の相関を無視している。 そこで,本稿では,学習型パラメトリック顔生成器を用いて立体的一貫性を持つ3次元顔生成器を製作し,ハイブリッドパラメトリック・フィジカル表現による解剖学的に正確かつ視覚的に説得力のある顔モデルの作成を容易にすることを目的とした。 SCULPTORのコアとなるLUCYは、プラスチック外科医とコラボレーションした最初の大規模な形状骨格顔データセットである。 最も古い人類の祖先の化石に因んで命名されたこのLUCYデータセットは、整形外科手術前後のヒト完全頭部の高画質CTスキャンを含んでおり、手術結果の評価に欠かせない。 LUCYは、72名(男性31名、女性41名)の144件のスキャンからなり、各被験者は、術前および術後の2回のCTスキャンを行う。 LUCYデータセットに基づいて、新しい骨格整合パラメトリック顔生成器SCULPTORを学習し、文字を定義するのに役立ち、生理的健全性を維持するのに役立ち、ユニークでニュアンスな顔の特徴を生成できる。 我々のSCULPTORは,3次元顔の描写を形状のブレンド形状に分離し,ブレンド形状と表情のブレンド形状を合成することにより,頭蓋骨,顔形状,顔の外観を統一されたデータ駆動の枠組みの下で共同でモデル化する。 SCULPTORは、既存の方法と比較して、顔生成タスクにおける解剖学的正当性と視覚的リアリズムの両方を保っている。 最後に, 彫刻者の頑健さと有効性について, 以前には見当たらなかった様々な応用例で紹介する。

Recent years have seen growing interest in 3D human faces modelling due to its wide applications in digital human, character generation and animation. Existing approaches overwhelmingly emphasized on modeling the exterior shapes, textures and skin properties of faces, ignoring the inherent correlation between inner skeletal structures and appearance. In this paper, we present SCULPTOR, 3D face creations with Skeleton Consistency Using a Learned Parametric facial generaTOR, aiming to facilitate easy creation of both anatomically correct and visually convincing face models via a hybrid parametric-physical representation. At the core of SCULPTOR is LUCY, the first large-scale shape-skeleton face dataset in collaboration with plastic surgeons. Named after the fossils of one of the oldest known human ancestors, our LUCY dataset contains high-quality Computed Tomography (CT) scans of the complete human head before and after orthognathic surgeries, critical for evaluating surgery results. LUCY consists of 144 scans of 72 subjects (31 male and 41 female) where each subject has two CT scans taken pre- and post-orthognathic operations. Based on our LUCY dataset, we learn a novel skeleton consistent parametric facial generator, SCULPTOR, which can create the unique and nuanced facial features that help define a character and at the same time maintain physiological soundness. Our SCULPTOR jointly models the skull, face geometry and face appearance under a unified data-driven framework, by separating the depiction of a 3D face into shape blend shape, pose blend shape and facial expression blend shape. SCULPTOR preserves both anatomic correctness and visual realism in facial generation tasks compared with existing methods. Finally, we showcase the robustness and effectiveness of SCULPTOR in various fancy applications unseen before.
翻訳日:2022-09-15 13:34:08 公開日:2022-09-14
# セマンティックな視覚的同時配置とマッピング:サーベイ

Semantic Visual Simultaneous Localization and Mapping: A Survey ( http://arxiv.org/abs/2209.06428v1 )

ライセンス: Link先を確認
Kaiqi Chen, Jianhua Zhang, Jialing Liu, Qiyi Tong, Ruyu Liu, Shengyong Chen(参考訳) VSLAM(Visual Simultaneous Localization and Mapping)はコンピュータビジョンやロボティクスのコミュニティにおいて大きな進歩を遂げており、自律型ロボットナビゲーションやAR/VRといった多くの分野で成功している。 しかし、vSLAMは動的で複雑な環境ではうまく局在化できない。 多くの出版物が、セマンティック情報とvSLAMを組み合わせることで、近年、セマンティックvSLAMシステムは上記の問題を解決する能力を持っていると報告している。 それにもかかわらず、セマンティックvslamに関する包括的な調査はない。 このギャップを埋めるために,本論文はまずセマンティックvSLAMの開発をレビューし,その強みと相違点に着目した。 次に,意味的情報抽出と関連付け,意味的情報の応用,意味的vslamの利点という,semantic vslamの3つの主要な課題について考察する。 次に、セマンティックvSLAMシステムで広く使われている最先端SLAMデータセットを収集し、分析する。 最後に,セマンティックvSLAMの今後の発展に向けた青写真を提供する今後の方向性について論じる。

Visual Simultaneous Localization and Mapping (vSLAM) has achieved great progress in the computer vision and robotics communities, and has been successfully used in many fields such as autonomous robot navigation and AR/VR. However, vSLAM cannot achieve good localization in dynamic and complex environments. Numerous publications have reported that, by combining with the semantic information with vSLAM, the semantic vSLAM systems have the capability of solving the above problems in recent years. Nevertheless, there is no comprehensive survey about semantic vSLAM. To fill the gap, this paper first reviews the development of semantic vSLAM, explicitly focusing on its strengths and differences. Secondly, we explore three main issues of semantic vSLAM: the extraction and association of semantic information, the application of semantic information, and the advantages of semantic vSLAM. Then, we collect and analyze the current state-of-the-art SLAM datasets which have been widely used in semantic vSLAM systems. Finally, we discuss future directions that will provide a blueprint for the future development of semantic vSLAM.
翻訳日:2022-09-15 13:33:36 公開日:2022-09-14
# CLIP-ViP:ビデオ言語表現アライメントへの事前学習画像テキストモデルの適用

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment ( http://arxiv.org/abs/2209.06430v1 )

ライセンス: Link先を確認
Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo(参考訳) clipのような事前学習された画像テキストモデルは、大規模な画像テキストデータから学習された視覚言語表現の強力なパワーを実証している。 十分に学習された視覚的特徴から、既存の作品では画像表現をビデオ領域に転送し、良好な結果が得られる。 しかし、ビデオ言語事前学習(ポストプレトレーニング)に画像言語事前学習モデル(例えばCLIP)を利用する方法はまだ検討中である。 本稿では2つの質問について考察する。 1) ビデオ言語タスクのパフォーマンス向上のために,CLIPの事前学習を妨げている要因は何か? そして 2) これらの要因の影響を軽減するには? 比較実験と分析によって、データスケールと言語ソース間のドメイン間ギャップに大きな影響があることが分かりました。 そこで本研究では,CLIPに基づくビデオプロキシ機構を備えたOmnisourceクロスモーダル学習手法を提案する。 以上の結果から,CLIPによるビデオテキスト検索の性能は,大きなマージンで向上することが示唆された。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。 コードと事前トレーニングされたCLIP-ViPモデルをhttps://github.com/microsoft/XPretrain/tree/main/CLIP-ViPでリリースします。

The pre-trained image-text models, like CLIP, have demonstrated the strong power of vision-language representation learned from a large scale of web-collected image-text data. In light of the well-learned visual features, some existing works transfer image representation to video domain and achieve good results. However, how to utilize image-language pre-trained model (e.g., CLIP) for video-language pre-training (post-pretraining) is still under explored. In this paper, we investigate two questions: 1) what are the factors hindering post-pretraining CLIP to further improve the performance on video-language tasks? and 2) how to mitigate the impact of these factors? Through a series of comparative experiments and analyses, we find that the data scale and domain gap between language sources have great impacts. Motivated by these, we propose a Omnisource Cross-modal Learning method equipped with a Video Proxy mechanism on the basis of CLIP, namely CLIP-ViP. Extensive results show that our approach improves the performance of CLIP on video-text retrieval by a large margin. Our model also achieves SOTA results on a variety of datasets, including MSR-VTT, DiDeMo, LSMDC, and ActivityNet. We release our code and pre-trained CLIP-ViP models at https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.
翻訳日:2022-09-15 13:33:19 公開日:2022-09-14
# 映像中のサリエント特徴抽出による実世界ビデオ異常検出

Real-world Video Anomaly Detection by Extracting Salient Features in Videos ( http://arxiv.org/abs/2209.06435v1 )

ライセンス: Link先を確認
Yudai Watanabe, Makoto Okabe, Yasunori Harada, Naoji Kashima(参考訳) ビデオ中の異常を検出するための軽量で高精度な手法を提案する。 既存の手法では、mil(multiple-instance learning)を使用して、ビデオの各セグメントの正常/異常状態を決定する。 最近の成功した研究は、1つのセグメントのみに焦点を当てるのではなく、高い精度を達成するためにセグメント間の時間的関係を学ぶことが重要であると主張している。 そこで,近年成功している手法を分析した結果,全てのセグメントを同時に学習することが本当に重要であるが,時間的順序は高い精度を達成するには無関係であることがわかった。 この発見に基づいて、我々はMILフレームワークを使うのではなく、全ての入力セグメントから正常/異常を決定するのに重要な特徴を自動的に抽出する自己認識機構を備えた軽量モデルを提案する。 その結果,ニューラルネットワークモデルは既存手法のパラメータ数の1.3\%を占めることがわかった。 我々は,3つのベンチマークデータセット(UCF-Crime, ShanghaiTech, XD-Violence)を用いて,本手法のフレームレベル検出精度を評価し,その精度が最先端手法よりも高いことを示す。

We propose a lightweight and accurate method for detecting anomalies in videos. Existing methods used multiple-instance learning (MIL) to determine the normal/abnormal status of each segment of the video. Recent successful researches argue that it is important to learn the temporal relationships among segments to achieve high accuracy, instead of focusing on only a single segment. Therefore we analyzed the existing methods that have been successful in recent years, and found that while it is indeed important to learn all segments together, the temporal orders among them are irrelevant to achieving high accuracy. Based on this finding, we do not use the MIL framework, but instead propose a lightweight model with a self-attention mechanism to automatically extract features that are important for determining normal/abnormal from all input segments. As a result, our neural network model has 1.3\% of the number of parameters of the existing method. We evaluated the frame-level detection accuracy of our method on three benchmark datasets (UCF-Crime, ShanghaiTech, and XD-Violence) and demonstrate that our method can achieve the comparable or better accuracy than state-of-the-art methods.
翻訳日:2022-09-15 13:32:55 公開日:2022-09-14
# Sinkhorn Divergencesを用いたDeep Optimal Embeddingsの学習

Learning Deep Optimal Embeddings with Sinkhorn Divergences ( http://arxiv.org/abs/2209.06469v1 )

ライセンス: Link先を確認
Soumava Kumar Roy, Yan Han, Mehrtash Harandi, Lars Petersson(参考訳) ディープメトリック学習アルゴリズムは、入力データ間の類似性を保つために効率的な埋め込み空間を学習することを目的としている。 これらのアルゴリズムは幅広いタスクにおいて大きなパフォーマンス向上を達成したが、包括的な類似性制約を考慮・増やすことができず、埋め込み空間における準最適計量を学習した。 また、これまでは、騒々しいラベルの存在下での演奏についての研究はほとんど行われていない。 本稿では,各クラス間の埋め込み点の類似性分布(クラス単位の離散性を導入)を分離する,新しい,しかし効果的なDeep Class-wise Discrepancy Loss (DCDL) 関数を設計することで,識別可能な深層埋め込み空間を学習するという課題に対処する。 3つの標準画像分類データセットと2つの細粒度画像認識データセットにおけるノイズの有無に関する実験結果から,分類的埋め込み空間を学習しながら,従来のアルゴリズムと類型的類似性関係を組み込む必要性が明らかとなった。

Deep Metric Learning algorithms aim to learn an efficient embedding space to preserve the similarity relationships among the input data. Whilst these algorithms have achieved significant performance gains across a wide plethora of tasks, they have also failed to consider and increase comprehensive similarity constraints; thus learning a sub-optimal metric in the embedding space. Moreover, up until now; there have been few studies with respect to their performance in the presence of noisy labels. Here, we address the concern of learning a discriminative deep embedding space by designing a novel, yet effective Deep Class-wise Discrepancy Loss (DCDL) function that segregates the underlying similarity distributions (thus introducing class-wise discrepancy) of the embedding points between each and every class. Our empirical results across three standard image classification datasets and two fine-grained image recognition datasets in the presence and absence of noise clearly demonstrate the need for incorporating such class-wise similarity relationships along with traditional algorithms while learning a discriminative embedding space.
翻訳日:2022-09-15 13:32:35 公開日:2022-09-14
# fcdsn-dc:深度完備ステレオ推定のための高精度で軽量な畳み込みニューラルネットワーク

FCDSN-DC: An Accurate and Lightweight Convolutional Neural Network for Stereo Estimation with Depth Completion ( http://arxiv.org/abs/2209.06525v1 )

ライセンス: Link先を確認
Dominik Hirner, Friedrich Fraundorfer(参考訳) 本研究では,立体推定のための高精度で軽量な畳み込みニューラルネットワークを提案する。 本手法をFCDSN-DCを用いた完全畳み込み変形可能な類似性ネットワークと呼ぶ。 本手法は,特徴抽出器の改良によりFC-DCNNを拡張し,高精度な類似性関数を訓練するためのネットワーク構造と不一致の異性推定を補うネットワーク構造を付加する。 全体は3つの部分からなる。 第1部は完全畳み込みの密結合層で構成され、整列された画像対の表現的特徴を計算する。 ネットワークの第2部は、これらの学習機能間の高精度な類似性関数を学習する。 重結合の畳み込み層と変形可能な畳み込みブロックから構成され、結果の精度をさらに向上する。 このステップの後、初期不一致マップを作成し、不整合点を除去するために左右一貫性チェックを行う。 ネットワークの最後の部分は、この入力と対応する左RGBイメージを使用して、不足した測定値を満たすネットワークをトレーニングする。 一致深さ推定は無効な点を中心に収集され、RGBポイントと共に浅いCNNネットワーク構造に解析され、欠落した値を復元する。 本研究では,室内・屋外のシーン,特にミドルベリー,キッティ,ETH3Dが競合する結果を得た場合の課題について評価した。 さらに,本手法が一般化され,さらなるトレーニングを必要とせず,多くのアプリケーションに適していることを示す。 完全なフレームワークのコードは、https://github.com/thedodo/FCDSN-DCで利用可能です。

We propose an accurate and lightweight convolutional neural network for stereo estimation with depth completion. We name this method fully-convolutional deformable similarity network with depth completion (FCDSN-DC). This method extends FC-DCNN by improving the feature extractor, adding a network structure for training highly accurate similarity functions and a network structure for filling inconsistent disparity estimates. The whole method consists of three parts. The first part consists of fully-convolutional densely connected layers that computes expressive features of rectified image pairs. The second part of our network learns highly accurate similarity functions between this learned features. It consists of densely-connected convolution layers with a deformable convolution block at the end to further improve the accuracy of the results. After this step an initial disparity map is created and the left-right consistency check is performed in order to remove inconsistent points. The last part of the network then uses this input together with the corresponding left RGB image in order to train a network that fills in the missing measurements. Consistent depth estimations are gathered around invalid points and are parsed together with the RGB points into a shallow CNN network structure in order to recover the missing values. We evaluate our method on challenging real world indoor and outdoor scenes, in particular Middlebury, KITTI and ETH3D were it produces competitive results. We furthermore show that this method generalizes well and is well suited for many applications without the need of further training. The code of our full framework is available at: https://github.com/thedodo/FCDSN-DC
翻訳日:2022-09-15 13:32:18 公開日:2022-09-14
# 単一ラベルアノテーションによるマルチラベル分類のためのパッチベースアーキテクチャ

A patch-based architecture for multi-label classification from single label annotations ( http://arxiv.org/abs/2209.06530v1 )

ライセンス: Link先を確認
Warren Jouanneau and Aur\'elie Bugeau and Marc Palyart and Nicolas Papadakis and Laurent V\'ezard(参考訳) 本稿では,データセットのイメージに単一の正のラベルのみを観測するマルチラベル分類問題に対するパッチベースアーキテクチャを提案する。 私たちの貢献は2倍です。 まず,注意機構に基づくライトパッチアーキテクチャを提案する。 次に,パッチ埋め込み自己相似性を活用して,負の例を推定し,肯定的かつラベルなしの学習問題に対処するための新しい戦略を提案する。 同様のデータベースで事前トレーニングを行うには,文献から関連する方法が必要となるが,実験によりアーキテクチャをスクラッチからトレーニングできることが示されている。

In this paper, we propose a patch-based architecture for multi-label classification problems where only a single positive label is observed in images of the dataset. Our contributions are twofold. First, we introduce a light patch architecture based on the attention mechanism. Next, leveraging on patch embedding self-similarities, we provide a novel strategy for estimating negative examples and deal with positive and unlabeled learning problems. Experiments demonstrate that our architecture can be trained from scratch, whereas pre-training on similar databases is required for related methods from the literature.
翻訳日:2022-09-15 13:31:54 公開日:2022-09-14
# INV-Flow2PoseNet:画像・正常・頂点を用いたRGB-D画像の光学的流れからの光抵抗剛体オブジェクトポス

INV-Flow2PoseNet: Light-Resistant Rigid Object Pose from Optical Flow of RGB-D Images using Images, Normals and Vertices ( http://arxiv.org/abs/2209.06562v1 )

ライセンス: Link先を確認
Torben Fetzer, Gerd Reis and Didier Stricker(参考訳) 本稿では,明度仮定が強い陰影変化に違反する困難なシナリオに対して,高精度な光流と剛性のあるシーン変換を同時に推定する新しいアーキテクチャを提案する。 暗闇の中で車の運転に遭遇したような回転物体や移動光源の場合、シーンの外観は1つの視点から次の視点へ大きく変化することが多い。 残念ながら、光学フローやポーズの標準的な計算方法は、シーンの特徴の出現がビュー間で一定であるという期待に基づいている。 これらの手法は、調査ケースで頻繁に失敗する可能性がある。 画像と頂点と正規データを組み合わせてテクスチャと幾何学情報を融合し、照明不変光流を計算する。 粗い対極戦略を用いることで、グローバルにアンカーされた光の流れを学習し、誤ったシェーディングに基づく擬似相関の影響を低減させる。 学習した光の流れに基づいて、歪められた頂点と正規写像からのロバストな剛性変換を予測する2つ目のアーキテクチャが提案されている。 特に強い回転の状況に注意が払われ、しばしばそのような陰影の変化を引き起こす。 したがって、正規項と頂点の相関関係を有利に活用する3段階の手順が提案される。 この方法は,強い回転とシェーディング効果を有する合成データと実データの両方を含むデータセット上で評価されている。 このデータは3次元再構成における典型的なユースケースであり、部分再構成の間の大きなステップでオブジェクトが回転することが多い。 さらに,この手法をよく知られたKitti Odometryデータセットに適用する。 たとえ、厳密な前提を満たすために、この手法の典型的なユースケースではないとしても、標準的な状況への適用性や他の方法との関係が確立される。

This paper presents a novel architecture for simultaneous estimation of highly accurate optical flows and rigid scene transformations for difficult scenarios where the brightness assumption is violated by strong shading changes. In the case of rotating objects or moving light sources, such as those encountered for driving cars in the dark, the scene appearance often changes significantly from one view to the next. Unfortunately, standard methods for calculating optical flows or poses are based on the expectation that the appearance of features in the scene remain constant between views. These methods may fail frequently in the investigated cases. The presented method fuses texture and geometry information by combining image, vertex and normal data to compute an illumination-invariant optical flow. By using a coarse-to-fine strategy, globally anchored optical flows are learned, reducing the impact of erroneous shading-based pseudo-correspondences. Based on the learned optical flows, a second architecture is proposed that predicts robust rigid transformations from the warped vertex and normal maps. Particular attention is payed to situations with strong rotations, which often cause such shading changes. Therefore a 3-step procedure is proposed that profitably exploits correlations between the normals and vertices. The method has been evaluated on a newly created dataset containing both synthetic and real data with strong rotations and shading effects. This data represents the typical use case in 3D reconstruction, where the object often rotates in large steps between the partial reconstructions. Additionally, we apply the method to the well-known Kitti Odometry dataset. Even if, due to fulfillment of the brighness assumption, this is not the typical use case of the method, the applicability to standard situations and the relation to other methods is therefore established.
翻訳日:2022-09-15 13:31:44 公開日:2022-09-14
# 高精度・効率的なマルチラベル画像分類のためのメトリクス学習と注意ヘッドの組み合わせ

Combining Metric Learning and Attention Heads For Accurate and Efficient Multilabel Image Classification ( http://arxiv.org/abs/2209.06585v1 )

ライセンス: Link先を確認
Kirill Prokofiev and Vladislav Sovrasov(参考訳) マルチラベル画像分類では、与えられた画像からラベルのセットを予測することができる。 画像ごとに1つのラベルが割り当てられるマルチクラス分類とは異なり、そのような設定は幅広いアプリケーションに適用できる。 本稿では,マルチラベル分類における2つの一般的なアプローチについて再検討する。 トランスフォーマティブベースのヘッドはグラフベースのブランチよりも優れた結果が得られると考えられているが、適切なトレーニング戦略により、グラフベースのメソッドは、計算リソースを推論に費やすことなく、ほんのわずかな精度低下を示すことができる。 トレーニング戦略では、マルチラベル分類のデファクト標準である非対称損失(ASL)の代わりに、アングル空間に作用する修正を導入する。 クラスごとにユニットハイパースフィア上のプロキシ特徴ベクトルを暗黙的に学習し、非正規化特徴に対するバイナリクロスエントロピー損失よりも優れた識別能力を提供する。 提案手法により,MS-COCO,PASCAL-VOC,NUS-Wide,Visual Genome 500などの多言語分類ベンチマークにおいて,単一モダリティ手法のSOTA結果を得た。 ソースコードはOpenVINO Training Extensions https://github.com/openvinotoolkit/deep-object-reid/tree/multilabelの一部として公開されている。

Multi-label image classification allows predicting a set of labels from a given image. Unlike multiclass classification, where only one label per image is assigned, such setup is applicable for a broader range of applications. In this work we revisit two popular approaches to multilabel classification: transformer-based heads and labels relations information graph processing branches. Although transformer-based heads are considered to achieve better results than graph-based branches, we argue that with the proper training strategy graph-based methods can demonstrate just a small accuracy drop, while spending less computational resources on inference. In our training strategy, instead of Asymmetric Loss (ASL), which is the de-facto standard for multilabel classification, we introduce its modification acting in the angle space. It implicitly learns a proxy feature vector on the unit hypersphere for each class, providing a better discrimination ability, than binary cross entropy loss does on unnormalized features. With the proposed loss and training strategy, we obtain SOTA results among single modality methods on widespread multilabel classification benchmarks such as MS-COCO, PASCAL-VOC, NUS-Wide and Visual Genome 500. Source code of our method is available as a part of the OpenVINO Training Extensions https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel
翻訳日:2022-09-15 13:30:54 公開日:2022-09-14
# 組み込み世界と人工知能

The Embeddings World and Artificial General Intelligence ( http://arxiv.org/abs/2209.06569v1 )

ライセンス: Link先を確認
Mostafa Haghir Chehreghani(参考訳) 人工知能コミュニティ内では、初期のころから、人工知能(agi: artificial general intelligence)が実現可能かどうかという議論があった。 AGIは、機械やコンピュータプログラムが人間レベルの知性を達成し、人間ができる限りのタスクを遂行する能力である。 AGIを実現すると主張する文献には多くのシステムが存在するが、他の研究者はそれを達成することは不可能であると主張している。 本稿では,この問題に対する考え方を異にする。 まず、AGIを実現するためには、知的な機械やプログラムを構築するとともに、我々の世界の正確な近似である知的な世界を構築すべきであり、他方では、知的な機械の推論のかなりの部分は、既にこの世界に埋め込まれている。 そして、AGIは製品やアルゴリズムではなく、時間の経過とともに(人間の文明や知恵のような)より成熟する継続的プロセスである、ということについて議論する。 そして、このインテリジェントな世界を構築する上で、事前学習された埋め込みが重要な役割を担い、結果としてAGIを実現する。 本稿では,人間レベルの知性,例えばエンボディメント,常識知識,無意識の知識,学習の連続性といった特徴を機械によって実現するための,事前学習型埋め込みについて論じる。

From early days, a key and controversial question inside the artificial intelligence community was whether Artificial General Intelligence (AGI) is achievable. AGI is the ability of machines and computer programs to achieve human-level intelligence and do all tasks that a human being can. While there exist a number of systems in the literature claiming they realize AGI, several other researchers argue that it is impossible to achieve it. In this paper, we take a different view to the problem. First, we discuss that in order to realize AGI, along with building intelligent machines and programs, an intelligent world should also be constructed which is on the one hand, an accurate approximation of our world and on the other hand, a significant part of reasoning of intelligent machines is already embedded in this world. Then we discuss that AGI is not a product or algorithm, rather it is a continuous process which will become more and more mature over time (like human civilization and wisdom). Then, we argue that pre-trained embeddings play a key role in building this intelligent world and as a result, realizing AGI. We discuss how pre-trained embeddings facilitate achieving several characteristics of human-level intelligence, such as embodiment, common sense knowledge, unconscious knowledge and continuality of learning, by machines.
翻訳日:2022-09-15 13:27:28 公開日:2022-09-14
# DevNet: 密度ボリューム構築による自己教師型単眼深度学習

DevNet: Self-supervised Monocular Depth Learning via Density Volume Construction ( http://arxiv.org/abs/2209.06351v1 )

ライセンス: Link先を確認
Kaichen Zhou, Lanqing Hong, Changhao Chen, Hang Xu, Chaoqiang Ye, Qingyong Hu, and Zhenguo Li(参考訳) 単眼画像からの自己教師付き深度学習は通常、時間的に隣接した画像フレーム間の2Dピクセル単位の光度関係に依存する。 しかし、彼らは3次元のポイントワイドな幾何学的対応を完全に活用したり、オクルージョンや照明の不整合によって引き起こされる測光歪みの曖昧さに効果的に対処したりはしなかった。 これらの問題に対処するために, 近接するカメラフラストタル間の強い幾何学的制約を生かし, 3次元空間情報を考慮した自己教師付き単眼深度学習フレームワークDevNetを提案する。 私たちのDevNetは、1枚の画像からピクセル値を直接回帰する代わりに、カメラフラストレーションを複数の平行平面に分割し、各平面上のポイントワイド閉塞確率密度を予測する。 最終深度マップは、対応する光線に沿って密度を統合することによって生成される。 トレーニング過程では、光量曖昧さと過剰フィッティングを緩和するために、新しい正規化戦略と損失関数が導入される。 明らかにモデルパラメータのサイズや実行時間を大きくすることなく、DevNetは、KITTI-2015屋外データセットとNYU-V2屋内データセットの両方において、いくつかの代表的ベースラインを上回っている。 特に、深さ推定のタスクでは、KITTI-2015とNYU-V2の両方でDevNetにより、ルート平均平方偏差が約4%減少する。 コードはhttps://github.com/gitkaichenzhou/devnetで入手できる。

Self-supervised depth learning from monocular images normally relies on the 2D pixel-wise photometric relation between temporally adjacent image frames. However, they neither fully exploit the 3D point-wise geometric correspondences, nor effectively tackle the ambiguities in the photometric warping caused by occlusions or illumination inconsistency. To address these problems, this work proposes Density Volume Construction Network (DevNet), a novel self-supervised monocular depth learning framework, that can consider 3D spatial information, and exploit stronger geometric constraints among adjacent camera frustums. Instead of directly regressing the pixel value from a single image, our DevNet divides the camera frustum into multiple parallel planes and predicts the pointwise occlusion probability density on each plane. The final depth map is generated by integrating the density along corresponding rays. During the training process, novel regularization strategies and loss functions are introduced to mitigate photometric ambiguities and overfitting. Without obviously enlarging model parameters size or running time, DevNet outperforms several representative baselines on both the KITTI-2015 outdoor dataset and NYU-V2 indoor dataset. In particular, the root-mean-square-deviation is reduced by around 4% with DevNet on both KITTI-2015 and NYU-V2 in the task of depth estimation. Code is available at https://github.com/gitkaichenzhou/DevNet.
翻訳日:2022-09-15 13:26:10 公開日:2022-09-14
# MLPに基づく視覚モデルにおける量子化の解析

Analysis of Quantization on MLP-based Vision Models ( http://arxiv.org/abs/2209.06383v1 )

ライセンス: Link先を確認
Lingran Zhao, Zhen Dong, Kurt Keutzer(参考訳) 量子化は、ニューラルネットワークの浮動小数点重みとアクティベーションを低ビット整数に変換することにより、効率的なモデルを得るためのモデル圧縮技術として、大いに取り上げられている。 量子化は畳み込みニューラルネットワークやトランスフォーマーモデルでうまく機能することが証明されている。 これらのモデルの遅れにもかかわらず、最近の研究により、MLPベースのモデルは、コンピュータビジョン、NLPから3Dポイントクラウドまでの様々なタスクにおいて、並列性とネットワークの単純さにより高いスループットを達成できることが示された。 しかし,本論文で示すように,MLPモデルに直接量子化を適用すると,精度が著しく低下する。 分析結果から, 精度の差には2つの大きな問題点がある。 1) MLPモデルにおけるアクティベーションの範囲は、定量化するには大きすぎる。 2) MLPモデルにおける特定の成分は量子化に敏感である。 そのため,我々は提案する。 1) layernorm を適用してアクティベーションの量子化範囲を制御する。 2)有界活性化関数を利用する。 3)活性化にパーセンタイル量子化を適用する。 4) 複数のトークンミキシング MLP という改良モジュールを使用します。 5) 感度演算に線形非対称量子化器を適用する。 上記の技術を備えており、8ビット一様量子化(モデルサイズ30mb)と78.47%、4ビット量子化(15mb)のイメージネットで79.68%の精度が得られる。

Quantization is wildly taken as a model compression technique, which obtains efficient models by converting floating-point weights and activations in the neural network into lower-bit integers. Quantization has been proven to work well on convolutional neural networks and transformer-based models. Despite the decency of these models, recent works have shown that MLP-based models are able to achieve comparable results on various tasks ranging from computer vision, NLP to 3D point cloud, while achieving higher throughput due to the parallelism and network simplicity. However, as we show in the paper, directly applying quantization to MLP-based models will lead to significant accuracy degradation. Based on our analysis, two major issues account for the accuracy gap: 1) the range of activations in MLP-based models can be too large to quantize, and 2) specific components in the MLP-based models are sensitive to quantization. Consequently, we propose to 1) apply LayerNorm to control the quantization range of activations, 2) utilize bounded activation functions, 3) apply percentile quantization on activations, 4) use our improved module named multiple token-mixing MLPs, and 5) apply linear asymmetric quantizer for sensitive operations. Equipped with the abovementioned techniques, our Q-MLP models can achieve 79.68% accuracy on ImageNet with 8-bit uniform quantization (model size 30 MB) and 78.47% with 4-bit quantization (15 MB).
翻訳日:2022-09-15 13:25:48 公開日:2022-09-14
# 反射誘導コントラスト付加ヒストグラム等化

Reflectance-Guided, Contrast-Accumulated Histogram Equalization ( http://arxiv.org/abs/2209.06405v1 )

ライセンス: Link先を確認
Xiaomeng Wu, Takahito Kawanishi, Kunio Kashino(参考訳) 既存の画像強調手法は,グローバルコントラストとローカルコントラストを同時に改善することが困難であるため,期待できない。 そこで本研究では,輝度向上のためのデータ依存要求に適応し,グローバルコントラストを損なうことなく詳細視認性を向上させるヒストグラム等化法を提案する。 この方法は、画像コンテキストによって提供される空間情報を、識別的ヒストグラム等化のための密度推定に組み込む。 非均一照明の悪影響を最小限に抑えるため,エッジ保存平滑化により推定される画像反射率に基づいて空間情報を定義することを提案する。 本手法は,背景輝度を適応的に調整する方法や,暗に隠れた有用な画像詳細を明らかにするのに特に有効である。

Existing image enhancement methods fall short of expectations because with them it is difficult to improve global and local image contrast simultaneously. To address this problem, we propose a histogram equalization-based method that adapts to the data-dependent requirements of brightness enhancement and improves the visibility of details without losing the global contrast. This method incorporates the spatial information provided by image context in density estimation for discriminative histogram equalization. To minimize the adverse effect of non-uniform illumination, we propose defining spatial information on the basis of image reflectance estimated with edge preserving smoothing. Our method works particularly well for determining how the background brightness should be adaptively adjusted and for revealing useful image details hidden in the dark.
翻訳日:2022-09-15 13:25:26 公開日:2022-09-14
# 画像強調のための反射指向確率等化

Reflectance-Oriented Probabilistic Equalization for Image Enhancement ( http://arxiv.org/abs/2209.06406v1 )

ライセンス: Link先を確認
Xiaomeng Wu, Yongqing Sun, Akisato Kimura, Kunio Kashino(参考訳) 近年の画像エンハンスメントの進歩にもかかわらず、既存の手法では低光度画像と常光画像の両方の輝度とコントラストを適応的に改善することは困難である。 そこで本稿では,新しい2次元ヒストグラム等化手法を提案する。 強度発生と共起は互いに依存していると仮定し、強度共起(2Dヒストグラム)の分布に差をつけることによって強度発生の分布(1Dヒストグラム)を導出する。 この方式は、グローバルコントラストをより効果的に改善し、ノイズ増幅を低減する。 2Dヒストグラムは、画像反射率の局所的な画素値差を密度推定に組み込んで、暗い照明条件の悪影響を軽減することで定義される。 500以上の画像が評価に使われ、既存の研究よりも優れたアプローチを示しました。 低照度画像の輝度を十分に向上させ、通常光画像の過剰な強調を回避することができる。

Despite recent advances in image enhancement, it remains difficult for existing approaches to adaptively improve the brightness and contrast for both low-light and normal-light images. To solve this problem, we propose a novel 2D histogram equalization approach. It assumes intensity occurrence and co-occurrence to be dependent on each other and derives the distribution of intensity occurrence (1D histogram) by marginalizing over the distribution of intensity co-occurrence (2D histogram). This scheme improves global contrast more effectively and reduces noise amplification. The 2D histogram is defined by incorporating the local pixel value differences in image reflectance into the density estimation to alleviate the adverse effects of dark lighting conditions. Over 500 images were used for evaluation, demonstrating the superiority of our approach over existing studies. It can sufficiently improve the brightness of low-light images while avoiding over-enhancement in normal-light images.
翻訳日:2022-09-15 13:25:13 公開日:2022-09-14
# 3次元物体検出における教師なし領域適応のためのビューア中心表面補完

Viewer-Centred Surface Completion for Unsupervised Domain Adaptation in 3D Object Detection ( http://arxiv.org/abs/2209.06407v1 )

ライセンス: Link先を確認
Darren Tsai, Julie Stephany Berrio, Mao Shan, Eduardo Nebot, Stewart Worrall(参考訳) 各自動運転データセットは、異なる地理的領域から派生し、さまざまなシナリオをカバーする、異なるセンサー構成を持っている。 その結果、3D検出器はトレーニング対象のデータセットに過度に適合する傾向にある。 これにより、検出器が1つのデータセットでトレーニングされ、別のデータセットでテストされると、大幅に精度が低下する。 lidarスキャンパターンの違いは、この性能低下の大きな要素を形成することを観察する。 本稿では,新しいビューア中心表面補完ネットワーク(VCN, Viewer-centred surface completion network)を設計し,教師なしドメイン適応フレームワーク(SEE)内で関心のあるオブジェクトの表面を補完する手法であるSEE-VCNを提案する。 SEE-VCNにより、データセット間のオブジェクトの統一表現が得られ、ネットワークはスキャンパターンに過度に適合するのではなく、幾何学の学習に集中することができる。 ドメイン不変表現を採用することで、SEE-VCNは、新しいスキャンパターンの3D検出を得るためにアノテーションや再トレーニングを必要としないマルチターゲットドメイン適応アプローチに分類することができる。 本研究では,複数のドメイン適応設定において,従来のドメイン適応手法よりも優れた性能を示す。 私たちのコードとデータはhttps://github.com/darrenjkt/see-vcnで入手できます。

Every autonomous driving dataset has a different configuration of sensors, originating from distinct geographic regions and covering various scenarios. As a result, 3D detectors tend to overfit the datasets they are trained on. This causes a drastic decrease in accuracy when the detectors are trained on one dataset and tested on another. We observe that lidar scan pattern differences form a large component of this reduction in performance. We address this in our approach, SEE-VCN, by designing a novel viewer-centred surface completion network (VCN) to complete the surfaces of objects of interest within an unsupervised domain adaptation framework, SEE. With SEE-VCN, we obtain a unified representation of objects across datasets, allowing the network to focus on learning geometry, rather than overfitting on scan patterns. By adopting a domain-invariant representation, SEE-VCN can be classed as a multi-target domain adaptation approach where no annotations or re-training is required to obtain 3D detections for new scan patterns. Through extensive experiments, we show that our approach outperforms previous domain adaptation methods in multiple domain adaptation settings. Our code and data are available at https://github.com/darrenjkt/SEE-VCN.
翻訳日:2022-09-15 13:24:58 公開日:2022-09-14
# SPACE-3:タスク指向ダイアログ理解と生成のための統一ダイアログモデル事前学習

SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation ( http://arxiv.org/abs/2209.06664v1 )

ライセンス: Link先を確認
Wanwei He, Yinpei Dai, Min Yang, Jian Sun, Fei Huang, Luo Si, Yongbin Li(参考訳) 近年,タスク指向ダイアログ(tod)システムにおいて,事前学習手法が顕著に成功している。 しかし、既存のTODのトレーニング済みモデルのほとんどは、ダイアログの理解やダイアログ生成に重点を置いている。 本稿では,アノテーションを限定した大規模対話コーパスから,新たな半教師付き事前学習型会話モデルであるSPACE-3を提案する。 具体的には、space-3は1つのトランスフォーマーの4つの連続したコンポーネントで構成され、todシステムでタスクフローを維持する。 (i)ダイアログ履歴を符号化するダイアログ符号化モジュール (ii)ユーザクエリまたはシステム応答から意味ベクトルを抽出するためのダイアログ理解モジュール (iii)応答の高レベルセマンティクスを含むポリシーベクタを生成するためのダイアログポリシーモジュール、及び (iv)適切な応答を生成するための対話生成モジュール。 各コンポーネントに対して専用の事前学習目標を設計する。 具体的には,スパンマスク言語モデルを用いたダイアログ符号化モジュールを事前学習し,コンテキスト化ダイアログ情報を学習する。 構造化ダイアログのセマンティクスをキャプチャするために,新たなツリー誘導半教師付きコントラスト学習目標を付加ダイアログアノテーションの助けを借りて,ダイアログ理解モジュールを事前訓練する。 さらに,その出力ポリシベクトルと応答の意味ベクトルとのL2距離を最小化し,ポリシー最適化のためのダイアログポリシモジュールを事前訓練する。 最後に、ダイアログ生成モデルは言語モデリングによって事前訓練される。 その結果、space-3はインテント予測、ダイアログ状態追跡、エンドツーエンドのダイアログモデリングを含む8つのダウンストリームダイアログベンチマークで最先端のパフォーマンスを達成している。 また,SPACE-3は,低リソース環境下での既存モデルよりも高機能であることを示す。

Recently, pre-training methods have shown remarkable success in task-oriented dialog (TOD) systems. However, most existing pre-trained models for TOD focus on either dialog understanding or dialog generation, but not both. In this paper, we propose SPACE-3, a novel unified semi-supervised pre-trained conversation model learning from large-scale dialog corpora with limited annotations, which can be effectively fine-tuned on a wide range of downstream dialog tasks. Specifically, SPACE-3 consists of four successive components in a single transformer to maintain a task-flow in TOD systems: (i) a dialog encoding module to encode dialog history, (ii) a dialog understanding module to extract semantic vectors from either user queries or system responses, (iii) a dialog policy module to generate a policy vector that contains high-level semantics of the response, and (iv) a dialog generation module to produce appropriate responses. We design a dedicated pre-training objective for each component. Concretely, we pre-train the dialog encoding module with span mask language modeling to learn contextualized dialog information. To capture the structured dialog semantics, we pre-train the dialog understanding module via a novel tree-induced semi-supervised contrastive learning objective with the help of extra dialog annotations. In addition, we pre-train the dialog policy module by minimizing the L2 distance between its output policy vector and the semantic vector of the response for policy optimization. Finally, the dialog generation model is pre-trained by language modeling. Results show that SPACE-3 achieves state-of-the-art performance on eight downstream dialog benchmarks, including intent prediction, dialog state tracking, and end-to-end dialog modeling. We also show that SPACE-3 has a stronger few-shot ability than existing models under the low-resource setting.
翻訳日:2022-09-15 13:22:30 公開日:2022-09-14
# UIT-ViCoV19QA: ベトナム語に関するコミュニティベースの質問回答データセット

UIT-ViCoV19QA: A Dataset for COVID-19 Community-based Question Answering on Vietnamese Language ( http://arxiv.org/abs/2209.06668v1 )

ライセンス: Link先を確認
Triet Minh Thai, Ngan Ha-Thao Chu, Anh Tuan Vo, Son T. Luu(参考訳) 2020年から2021年までの2年間、新型コロナウイルスはベトナムを含む多くの国で疾病予防対策を破り、人命や社会社会の様々な側面に悪影響を及ぼしてきた。 また、地域社会の誤解を招く情報や、パンデミックに関するフェイクニュースも深刻な状況である。 そこで本研究では,ベトナム人コミュニティを基盤とした初の質問応答データセット uit-vicov19qa を提案する。 データセットは、信頼できる医療ソースから収集された4,500の質問応答ペアから成り、少なくとも1つの回答と、少なくとも1つの質問に4つの独特なパラフレーズ回答がある。 データセットとともに、データセットの品質を評価し、BLEU、METEOR、ROUGE-Lといった一般的なメトリクスを通じてさらなる研究を行うためのベンチマーク結果を開始するために、さまざまなディープラーニングモデルをベースラインとして設定しました。 また,これらのモデル,特に研究分野において支配的なアーキテクチャであるトランスフォーマ(transformer)に対して,複数のパラフラッシド回答を実験した結果,肯定的な効果を示す。

For the last two years, from 2020 to 2021, COVID-19 has broken disease prevention measures in many countries, including Vietnam, and negatively impacted various aspects of human life and the social community. Besides, the misleading information in the community and fake news about the pandemic are also serious situations. Therefore, we present the first Vietnamese community-based question answering dataset for developing question answering systems for COVID-19 called UIT-ViCoV19QA. The dataset comprises 4,500 question-answer pairs collected from trusted medical sources, with at least one answer and at most four unique paraphrased answers per question. Along with the dataset, we set up various deep learning models as baseline to assess the quality of our dataset and initiate the benchmark results for further research through commonly used metrics such as BLEU, METEOR, and ROUGE-L. We also illustrate the positive effects of having multiple paraphrased answers experimented on these models, especially on Transformer - a dominant architecture in the field of study.
翻訳日:2022-09-15 13:21:58 公開日:2022-09-14
# テキストにおける対人ダイナミクスの次元:グループメンバーシップと微粒な対人感情

Dimensions of Interpersonal Dynamics in Text: Group Membership and Fine-grained Interpersonal Emotion ( http://arxiv.org/abs/2209.06687v1 )

ライセンス: Link先を確認
Venkata S Govindarajan, Katherine Atwell, Barea Sinno, Malihe Alikhani, David I. Beaver, Junyi Jessy Li(参考訳) 言語が不平等を持続する能力は、個人が発話の中で他の個人を参照したり、話したりする際に最も明らかである。 現在NLPにおける偏見の研究は、主にヘイトスピーチや特定のグループに対する偏見の同定に頼っているが、話者、テキスト、テキストのターゲットをモデル化することで、偏見と言語使用の相互作用をより微妙に理解することができると考えている。 本稿では,米国議会議員が対人感情にアノテートした3033個の英語ツイートのデータセットと,対人グループメンバーラベルの'found supervisor'を提案する。 怒りや嫌悪感といった否定的な感情は主に集団外の状況で使われ、反対派のリーダーに主に向けられている。 人間は、発話によって対人グループメンバーシップを識別する機会よりも優れたパフォーマンスを発揮できる一方で、ニューラルモデルは、対人グループメンバーシップと対人認知感情との共有符号化により、後者のパフォーマンス向上を実現している。 この研究は、NLPにおける偏見の研究を、特定の偏見の事例から、話者、テキスト、ターゲット、社会的ダイナミクスの関係をカプセル化したものへと再調整することを目的としている。 本論文のデータとコードはhttps://github.com/venkatasg/interpersonal-dynamicsで利用可能である。

The ability of language to perpetuate inequality is most evident when individuals refer to, or talk about, other individuals in their utterances. While current studies of bias in NLP rely mainly on identifying hate speech or bias towards a specific group, we believe we can reach a more subtle and nuanced understanding of the interaction between bias and language use by modeling the speaker, the text, and the target in the text. In this paper, we introduce a dataset of 3033 English tweets by US Congress members annotated for interpersonal emotion, and `found supervision' for interpersonal group membership labels. We find that negative emotions such as anger and disgust are used predominantly in out-group situations, and directed predominantly at leaders of opposite parties. While humans can perform better than chance at identifying interpersonal group membership given an utterance, neural models perform much better; furthermore, a shared encoding between interpersonal group membership and interpersonal perceived emotion enabled some performance gains in the latter. This work aims to re-align the study of bias in NLP away from specific instances of bias to one which encapsulates the relationship between speaker, text, target and social dynamics. Data and code for this paper are available at https://github.com/venkatasg/Interpersonal-Dynamics
翻訳日:2022-09-15 13:21:41 公開日:2022-09-14
# マルチツリーバンク解析評価のフレーバビリティ

The Fragility of Multi-Treebank Parsing Evaluation ( http://arxiv.org/abs/2209.06699v1 )

ライセンス: Link先を確認
Iago Alonso-Alonso, David Vilares, Carlos G\'omez-Rodr\'iguez(参考訳) パース評価のためのツリーバンクの選択と偏りのある選択から生じるスプリアス効果については、詳細は検討されていない。 本稿では,木々バンクの単一部分集合に対する評価が弱結論にどのようにつながるかを考察する。 まず、いくつかの対照的なパーサーを取り、それらを以前の研究で提案されたツリーバンクのサブセットで実行します。 第2に、この実験の大規模バージョンを実行し、大量の木バンクのランダムなサブセットを作成し、スコアが利用可能なパーサーを多く比較する。 その結果, 木バンク選択に関するガイドラインの確立は困難であるが, 潜在的に有害な戦略を検出することは可能であることがわかった。

Treebank selection for parsing evaluation and the spurious effects that might arise from a biased choice have not been explored in detail. This paper studies how evaluating on a single subset of treebanks can lead to weak conclusions. First, we take a few contrasting parsers, and run them on subsets of treebanks proposed in previous work, whose use was justified (or not) on criteria such as typology or data scarcity. Second, we run a large-scale version of this experiment, create vast amounts of random subsets of treebanks, and compare on them many parsers whose scores are available. The results show substantial variability across subsets and that although establishing guidelines for good treebank selection is hard, it is possible to detect potentially harmful strategies.
翻訳日:2022-09-15 13:21:17 公開日:2022-09-14
# コーパス横断テキストにおけるゼロショット感情分類のための自然言語推論

Natural Language Inference Prompts for Zero-shot Emotion Classification in Text across Corpora ( http://arxiv.org/abs/2209.06701v1 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Mar\'ia-Teresa Mart\'in-Valdivia, Roman Klinger(参考訳) テキスト感情分類では、関連するラベルのセットはドメインとアプリケーションシナリオに依存しており、モデル開発の時点では知られていないかもしれない。 これはラベルを事前に定義する必要がある教師付き学習の古典的なパラダイムと矛盾する。 ラベルの柔軟な集合を持つモデルを得るための解決策は、ゼロショット学習のパラダイムを自然言語推論タスクとして使うことである。 これはゼロショット学習感情分類のための自然言語推論モデルをどのように促すかという疑問を提起する。 迅速な定式化の選択肢には、感情名「怒り」のみ、あるいは「このテキストは怒りを表す」という文がある。 本稿では,自然言語推論に基づくゼロショット学習分類器が,コーパスを考慮したプロンプトの変更にどれほど敏感かを分析する。 3つの自然言語推論モデルを用いて、異なる言語レジスタ(ツイート、イベント、ブログ)を示す感情データセットの確立されたセットで実験を行い、実際に特定のプロンプト定式化の選択がコーパスに適合することを示す。 この課題は複数のプロンプトの組み合わせで対処可能であることを示す。 このようなアンサンブルはコーパス全体において個々のプロンプトよりも堅牢であり、特定のコーパスに対する個々の最良プロンプトとほぼ同じパフォーマンスを示す。

Within textual emotion classification, the set of relevant labels depends on the domain and application scenario and might not be known at the time of model development. This conflicts with the classical paradigm of supervised learning in which the labels need to be predefined. A solution to obtain a model with a flexible set of labels is to use the paradigm of zero-shot learning as a natural language inference task, which in addition adds the advantage of not needing any labeled training data. This raises the question how to prompt a natural language inference model for zero-shot learning emotion classification. Options for prompt formulations include the emotion name anger alone or the statement "This text expresses anger". With this paper, we analyze how sensitive a natural language inference-based zero-shot-learning classifier is to such changes to the prompt under consideration of the corpus: How carefully does the prompt need to be selected? We perform experiments on an established set of emotion datasets presenting different language registers according to different sources (tweets, events, blogs) with three natural language inference models and show that indeed the choice of a particular prompt formulation needs to fit to the corpus. We show that this challenge can be tackled with combinations of multiple prompts. Such ensemble is more robust across corpora than individual prompts and shows nearly the same performance as the individual best prompt for a particular corpus.
翻訳日:2022-09-15 13:21:03 公開日:2022-09-14
# ニューラルマシン翻訳モデルを用いた患者教材の健康リテラシー向上に向けて

Toward Improving Health Literacy in Patient Education Materials with Neural Machine Translation Models ( http://arxiv.org/abs/2209.06723v1 )

ライセンス: Link先を確認
David Oniani, Sreekanth Sreekumar, Renuk DeAlmeida, Dinuk DeAlmeida, Vivian Hui, Young Ji Lee, Yiye Zhang, Leming Zhou, Yanshan Wang(参考訳) 健康リテラシー(Health literacy)は、2030年のアメリカ国民の目標と目標の5回目の反復である。 健康リテラシーが低い人は、通常、健康情報を理解するのに苦労し、訪問後の指示に従い、処方薬を使用することで、健康状態が悪化し、深刻な健康格差が生じる。 そこで本研究では,自然言語処理手法を活用し,与えられた文中の発音言語を自動翻訳することにより,患者教育教材の健康リテラシーを向上させることを提案する。 MedlinePlus.gov, Drugs.com, Mayoclinic.org, Reddit.comの4つのオンライン健康情報サイトから患者教育資料を抽出した。 我々は,銀標準トレーニングデータセットと金標準テストデータセットを用いて,最先端のニューラルネットワーク翻訳(NMT)モデルをそれぞれトレーニングし,テストした。 実験結果から, Bidirectional Long Short-Term Memory (BiLSTM) NMTモデルは, 変換器 (BERT) を用いたNMTモデルよりも優れていた。 また, 文中の健康照明言語の割合を比較することで, 健康照明言語の翻訳におけるNMTモデルの有効性を検証した。 提案するnmtモデルは, 正しい複雑な単語を識別し, レイマン語に簡略化すると同時に, 文完全性, フルエンシー, 可読性, 特定の医学用語の翻訳が困難であった。

Health literacy is the central focus of Healthy People 2030, the fifth iteration of the U.S. national goals and objectives. People with low health literacy usually have trouble understanding health information, following post-visit instructions, and using prescriptions, which results in worse health outcomes and serious health disparities. In this study, we propose to leverage natural language processing techniques to improve health literacy in patient education materials by automatically translating illiterate languages in a given sentence. We scraped patient education materials from four online health information websites: MedlinePlus.gov, Drugs.com, Mayoclinic.org and Reddit.com. We trained and tested the state-of-the-art neural machine translation (NMT) models on a silver standard training dataset and a gold standard testing dataset, respectively. The experimental results showed that the Bidirectional Long Short-Term Memory (BiLSTM) NMT model outperformed Bidirectional Encoder Representations from Transformers (BERT)-based NMT models. We also verified the effectiveness of NMT models in translating health illiterate languages by comparing the ratio of health illiterate language in the sentence. The proposed NMT models were able to identify the correct complicated words and simplify into layman language while at the same time the models suffer from sentence completeness, fluency, readability, and have difficulty in translating certain medical terms.
翻訳日:2022-09-15 13:20:43 公開日:2022-09-14
# 自然言語処理を用いた入院リハビリテーションにおける戦略訓練のための自動忠実度評価

Automated Fidelity Assessment for Strategy Training in Inpatient Rehabilitation using Natural Language Processing ( http://arxiv.org/abs/2209.06727v1 )

ライセンス: Link先を確認
Hunter Osterhoudt, Courtney E. Schneider, Haneef A Mohammad, Minmei Shih, Alexandra E. Harper, Leming Zhou, Elizabeth R Skidmore, Yanshan Wang(参考訳) 戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすスキルを教える多分野リハビリテーションのアプローチである。 戦略訓練は、ランダム化された制御された臨床試験において、従来のリハビリテーションアプローチよりも独立性を促進するための、より実現可能で効果的な介入であることが示されている。 標準化された忠実度評価は、リハビリテーションセッションのビデオ記録における指導的および指示的手掛かりを調べることによって、治療原則の遵守度を測定するために使用される。 指導的および指示的言語的手がかりを検出するための忠実度評価は, 単一サイト研究において有効であり, 有効であるが, 大規模多地点実用試験では, 労働集約的, 時間消費的, 高価になる可能性がある。 この課題を広範に実施するために,我々は自然言語処理(nlp)技術を活用して,戦略訓練の忠実度評価,すなわちリハビリテーションセッションのビデオ記録から指導と指示の手がかりを自動的に識別する手法を開発した。 本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。 最高の性能は bert モデルで 0.8075 f1-score で達成された。 本研究の成果は心理学およびリハビリテーション介入研究および実践において広く期待されている。

Strategy training is a multidisciplinary rehabilitation approach that teaches skills to reduce disability among those with cognitive impairments following a stroke. Strategy training has been shown in randomized, controlled clinical trials to be a more feasible and efficacious intervention for promoting independence than traditional rehabilitation approaches. A standardized fidelity assessment is used to measure adherence to treatment principles by examining guided and directed verbal cues in video recordings of rehabilitation sessions. Although the fidelity assessment for detecting guided and directed verbal cues is valid and feasible for single-site studies, it can become labor intensive, time consuming, and expensive in large, multi-site pragmatic trials. To address this challenge to widespread strategy training implementation, we leveraged natural language processing (NLP) techniques to automate the strategy training fidelity assessment, i.e., to automatically identify guided and directed verbal cues from video recordings of rehabilitation sessions. We developed a rule-based NLP algorithm, a long-short term memory (LSTM) model, and a bidirectional encoder representation from transformers (BERT) model for this task. The best performance was achieved by the BERT model with a 0.8075 F1-score. The findings from this study hold widespread promise in psychology and rehabilitation intervention research and practice.
翻訳日:2022-09-15 13:20:20 公開日:2022-09-14
# LibertyMFD:自由の道徳的基盤を評価するためのレキシコン

LibertyMFD: A Lexicon to Assess the Moral Foundation of Liberty ( http://arxiv.org/abs/2209.06750v1 )

ライセンス: Link先を確認
Oscar Araque, Lorenzo Gatti and Kyriaki Kalimeri(参考訳) ユーザ生成テキスト、ニュース、あるいは公開談話に表される道徳的物語を定量化することは、個人の関心や視点を理解し、暴力的な抗議や社会的分極を防ぐのに不可欠である。 Moral Foundation Theory (MFT) は5次元のシステムで道徳を運用するために開発された。 この理論の最近の発展は、新しい基礎であるリバティ財団の導入を促した。 この理論に最近加わったばかりであるため、テキストコーパスに自由が存在するかどうかを評価するための言語資源は存在しない。 予防接種の議論のような現在の社会問題にその重要性を考慮し、異なる世界観を持つオンラインニュースソースからの文書に基づく2つの候補レキシコンを導出する2つのデータ駆動アプローチを提案する。 広範にわたる実験の後、我々は研究コミュニティに、対照的な視点を持つ個人が文章によって自己を表現する方法において、自由な道徳的基盤を評価する新しいレキシコンを貢献する。 リバティMFD辞書は、ワクチン接種、中絶、さらには暴動など、様々な議論を巻き起こす社会問題に対する様々な視点を理解するための、政策立案者にとって貴重なツールとなり得る。

Quantifying the moral narratives expressed in the user-generated text, news, or public discourses is fundamental for understanding individuals' concerns and viewpoints and preventing violent protests and social polarisation. The Moral Foundation Theory (MFT) was developed to operationalise morality in a five-dimensional scale system. Recent developments of the theory urged for the introduction of a new foundation, the Liberty Foundation. Being only recently added to the theory, there are no available linguistic resources to assess whether liberty is present in text corpora. Given its importance to current social issues such as the vaccination debate, we propose two data-driven approaches, deriving two candidate lexicons generated based on aligned documents from online news sources with different worldviews. After extensive experimentation, we contribute to the research community a novel lexicon that assesses the liberty moral foundation in the way individuals with contrasting viewpoints express themselves through written text. The LibertyMFD dictionary can be a valuable tool for policymakers to understand diverse viewpoints on controversial social issues such as vaccination, abortion, or even uprisings, as they happen and on a large scale.
翻訳日:2022-09-15 13:19:57 公開日:2022-09-14
# 頑健な連続多言語学習のためのパラメータ効率の良いファインタニング

Parameter-Efficient Finetuning for Robust Continual Multilingual Learning ( http://arxiv.org/abs/2209.06767v1 )

ライセンス: Link先を確認
Kartikeya Badola, Shachi Dave, Partha Talukdar(参考訳) 現実世界にデプロイされたnluシステムは、基礎となるニューラルネットワークを時間とともに蓄積された新しいトレーニング例に再トレーニングまたは微調整することで、定期的に更新されることが期待される。 本研究では,前述したモデルが既にトレーニング済みのnluタスクと同じタスクに対して,新たなトレーニングデータに対して,多言語モデルをさらに微調整したい多言語環境に着目した。 また, ある条件下では, 複数言語モデルの更新により, 性能が向上するにもかかわらず, 言語のサブセットよりも性能が低下することが示唆された。 この現象を3つのタスクファミリー(token-level, sentence-level, seq2seq)に属する4つのタスクにまたがって確立し,そのベースラインが手元の設定に理想的とはほど遠いことを突き止めた。 次に,パラメータ効率の高いファインタニングの最近の進歩を生かして,破滅的な忘れを共同で最小化しつつ,肯定的な言語間移動を奨励し,様々な言語での利得の拡大を促進し,この設定で生じる損失を低減できる新しい微調整パイプラインを開発した。

NLU systems deployed in the real world are expected to be regularly updated by retraining or finetuning the underlying neural network on new training examples accumulated over time. In our work, we focus on the multilingual setting where we would want to further finetune a multilingual model on new training data for the same NLU task on which the aforementioned model has already been trained for. We show that under certain conditions, naively updating the multilingual model can lead to losses in performance over a subset of languages although the aggregated performance metric shows an improvement. We establish this phenomenon over four tasks belonging to three task families (token-level, sentence-level and seq2seq) and find that the baseline is far from ideal for the setting at hand. We then build upon recent advances in parameter-efficient finetuning to develop novel finetuning pipelines that allow us to jointly minimize catastrophic forgetting while encouraging positive cross-lingual transfer, hence improving the spread of gains over different languages while reducing the losses incurred in this setup.
翻訳日:2022-09-15 13:19:35 公開日:2022-09-14
# nlpにおけるパフォーマンス効果に関する因果推論

Drawing Causal Inferences About Performance Effects in NLP ( http://arxiv.org/abs/2209.06790v1 )

ライセンス: Link先を確認
Sandra Wankm\"uller(参考訳) 本稿は,NLPが自然言語処理に1つの方法(他の手法と比較)を適用することによって生じる性能効果について,科学としてのNLPが推論することを強調する。 しかし、NLP研究は通常、この目標を達成できない: NLP研究論文では、通常、少数のモデルしか比較されない。 各モデルは、前処理、事前トレーニング、ハイパーパラメータチューニング、ターゲットタスクのトレーニングに使用される特定のメソッドの集合からなる、特定の手続きパイプライン(以下、処理システムと名づける)から生じる。 あるメソッドAと他のメソッドBを適用して生じる性能効果に関する推論を一般化するには、いくつかの特定の(おそらくは非互換な)処理システムによって生成されるいくつかの特定のモデルを比較するだけでは不十分である。 むしろ、以下の手順では、手法のパフォーマンス効果に関する推論が可能である: (1) 研究者が推論する処理システムの集団を定義する必要がある。 2) この集団からのランダムな処理システムのサンプルを抽出する。 (サンプル内の描画処理系は、手続き的パイプラインに沿って適用される方法によって異なり、また、トレーニングや評価に使用されるトレーニングデータセットやテストデータセットの構成も異なる。)(3)各処理系は、メソッドAで1回、メソッドBで1回適用される。(4)適用された処理系のサンプルに基づいて、メソッドAとメソッドBの予測一般化誤差を近似する。 (5) 法Aと法Bの予測一般化誤差の違いは, 処理系の集団における方法Bと比較して, 法Aの適用による平均処理効果を推定するものである。

This article emphasizes that NLP as a science seeks to make inferences about the performance effects that result from applying one method (compared to another method) in the processing of natural language. Yet NLP research in practice usually does not achieve this goal: In NLP research articles, typically only a few models are compared. Each model results from a specific procedural pipeline (here named processing system) that is composed of a specific collection of methods that are used in preprocessing, pretraining, hyperparameter tuning, and training on the target task. To make generalizing inferences about the performance effect that is caused by applying some method A vs. another method B, it is not sufficient to compare a few specific models that are produced by a few specific (probably incomparable) processing systems. Rather, the following procedure would allow drawing inferences about methods' performance effects: (1) A population of processing systems that researchers seek to infer to has to be defined. (2) A random sample of processing systems from this population is drawn. (The drawn processing systems in the sample will vary with regard to the methods they apply along their procedural pipelines and also will vary regarding the compositions of their training and test data sets used for training and evaluation.) (3) Each processing system is applied once with method A and once with method B. (4) Based on the sample of applied processing systems, the expected generalization errors of method A and method B are approximated. (5) The difference between the expected generalization errors of method A and method B is the estimated average treatment effect due to applying method A compared to method B in the population of processing systems.
翻訳日:2022-09-15 13:19:13 公開日:2022-09-14
# language chameleon: 事前学習された言語モデルに基づく言語間ポストトレーニングによる言語間の変換解析

Language Chameleon: Transformation analysis between languages using Cross-lingual Post-training based on Pre-trained language models ( http://arxiv.org/abs/2209.06422v1 )

ライセンス: Link先を確認
Suhyune Son, Chanjun Park, Jungseob Lee, Midan Shim, Chanhee Lee, Yoonna Jang, Jaehyung Seo, Heuiseok Lim(参考訳) 事前学習された言語モデルがよりリソース需要を増すにつれ、英語や資源不足言語のようなリソースに富む言語間の不平等は悪化している。 これは、各言語で利用可能なトレーニングデータの量は、パワーロー分布に従っており、ほとんどの言語は、分布のロングテールに属するという事実に起因することができる。 この問題を緩和しようとする研究領域もある。 例えば、言語間移動学習や多言語学習では、リソース豊富な言語から得られる知識を通じて長期言語に利益をもたらすことが目標である。 成功したとはいえ、既存の作業は主にできるだけ多くの言語を試すことに集中しています。 その結果、標的とした深度分析はほとんど欠落している。 本研究では,単一低リソース言語に着目し,言語間後学習(XPT)を用いた広範囲な評価と探索実験を行う。 移行シナリオを困難にするため,韓国語を対象言語として選択する。 その結果、xptは1桁以上のデータで訓練された単言語モデルに匹敵する性能を持つだけでなく、転送プロセスにおいて非常に効率的であることが判明した。

As pre-trained language models become more resource-demanding, the inequality between resource-rich languages such as English and resource-scarce languages is worsening. This can be attributed to the fact that the amount of available training data in each language follows the power-law distribution, and most of the languages belong to the long tail of the distribution. Some research areas attempt to mitigate this problem. For example, in cross-lingual transfer learning and multilingual training, the goal is to benefit long-tail languages via the knowledge acquired from resource-rich languages. Although being successful, existing work has mainly focused on experimenting on as many languages as possible. As a result, targeted in-depth analysis is mostly absent. In this study, we focus on a single low-resource language and perform extensive evaluation and probing experiments using cross-lingual post-training (XPT). To make the transfer scenario challenging, we choose Korean as the target language, as it is a language isolate and thus shares almost no typology with English. Results show that XPT not only outperforms or performs on par with monolingual models trained with orders of magnitudes more data but also is highly efficient in the transfer process.
翻訳日:2022-09-15 13:15:29 公開日:2022-09-14
# sun: text-to-sqlパーサに内在する不確実性を探る

SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers ( http://arxiv.org/abs/2209.06442v1 )

ライセンス: Link先を確認
Bowen Qin, Lihan Wang, Binyuan Hui, Bowen Li, Xiangpeng Wei, Binhua Li, Fei Huang, Luo Si, Min Yang, Yongbin Li(参考訳) 本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストからSQLへの解析性能を向上させることを目的とする。 データ不確実性の観点からは、1つのSQLが複数の意味論的等価な質問から学習できることは疑わしいが、従来の1対1のマッピングに限られていた手法とは違い、複数の意味論的等価な質問(多対1)の基盤となる相補的意味情報を探究するデータ不確実性制約を提案し、刺激的関連を減らした頑健な特徴表現を学習する。 このようにして、学習した表現の感度を低減し、パーサのロバスト性を向上させることができる。 モデル不確実性の観点から、ニューラルネットワークの重みには構造情報(依存性)がしばしば存在する。 ニューラルテキストからSQLへのパーサの一般化性と安定性を向上させるため,異なる摂動符号化ネットワークの出力表現を互いに整合させることにより,クエリ表現を洗練するためのモデル不確実性制約を提案する。 5つのベンチマークデータセットの大規模な実験により、我々の手法は強力な競争相手を著しく上回り、新しい最先端の結果が得られることを示した。 再現性のために、コードとデータはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/sunsql.comで公開しています。

This paper aims to improve the performance of text-to-SQL parsing by exploring the intrinsic uncertainties in the neural network based approaches (called SUN). From the data uncertainty perspective, it is indisputable that a single SQL can be learned from multiple semantically-equivalent questions.Different from previous methods that are limited to one-to-one mapping, we propose a data uncertainty constraint to explore the underlying complementary semantic information among multiple semantically-equivalent questions (many-to-one) and learn the robust feature representations with reduced spurious associations. In this way, we can reduce the sensitivity of the learned representations and improve the robustness of the parser. From the model uncertainty perspective, there is often structural information (dependence) among the weights of neural networks. To improve the generalizability and stability of neural text-to-SQL parsers, we propose a model uncertainty constraint to refine the query representations by enforcing the output representations of different perturbed encoding networks to be consistent with each other. Extensive experiments on five benchmark datasets demonstrate that our method significantly outperforms strong competitors and achieves new state-of-the-art results. For reproducibility, we release our code and data at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/sunsql.
翻訳日:2022-09-15 13:15:08 公開日:2022-09-14
# Prompt Combines Paraphrase: バイオメディカルな言葉を理解するための事前学習モデル

Prompt Combines Paraphrase: Teaching Pre-trained Models to Understand Rare Biomedical Words ( http://arxiv.org/abs/2209.06453v1 )

ライセンス: Link先を確認
Haochun Wang, Chi Liu, Nuwa Xi, Sendong Zhao, Meizhi Ju, Shiwei Zhang, Ziheng Zhang, Yefeng Zheng, Bing Qin and Ting Liu(参考訳) 事前訓練されたモデルに対するプロンプトに基づく微調整は、汎用ドメインにおける数ショット設定の下で多くの自然言語処理タスクに有効であることが証明されている。 しかし, バイオメディカル領域におけるプロンプトによるチューニングは十分に検討されていない。 バイオメディカルワードは一般的なドメインではまれであるが、バイオメディカルコンテキストにおいて非常にユビキタスであり、特に低リソースシナリオにおいて、微調整後にも下流のバイオメディカルアプリケーションで事前訓練されたモデルの性能が劇的に低下する。 提案手法は, モデルがレアなバイオメディカルな単語を学習し, プロンプトで学習するのを支援する。 実験の結果,バニラプロンプト設定による追加パラメータやトレーニング手順を使わずに,生物医学的自然言語推論タスクを最大6%改善できることがわかった。

Prompt-based fine-tuning for pre-trained models has proven effective for many natural language processing tasks under few-shot settings in general domain. However, tuning with prompt in biomedical domain has not been investigated thoroughly. Biomedical words are often rare in general domain, but quite ubiquitous in biomedical contexts, which dramatically deteriorates the performance of pre-trained models on downstream biomedical applications even after fine-tuning, especially in low-resource scenarios. We propose a simple yet effective approach to helping models learn rare biomedical words during tuning with prompt. Experimental results show that our method can achieve up to 6% improvement in biomedical natural language inference task without any extra parameters or training steps using few-shot vanilla prompt settings.
翻訳日:2022-09-15 13:14:41 公開日:2022-09-14
# 強固な要約コヒーレンス対策を見つけるには? 要約コヒーレンス尺度評価のためのツールボックスと比較研究

How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation ( http://arxiv.org/abs/2209.06517v1 )

ライセンス: Link先を確認
Julius Steen and Katja Markert(参考訳) 要約のコヒーレンスを自動的に評価することは、コスト効率のよい要約者評価を可能にすることと、ハイスコア候補要約を選択してコヒーレンスを改善するツールとして重要である。 要約コヒーレンスをモデル化するために多くの異なるアプローチが提案されているが、異なるデータセットとメトリクスを使って評価されることが多い。 これにより、相対的なパフォーマンスを理解し、より優れた要約コヒーレンスモデリングへの道を見出すのが難しくなります。 本研究では,球面上でのコヒーレンスをモデル化する様々な手法を大規模に検討する。 さらに,システム内相関とバイアス行列という2つの新しい分析手法を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。 現在利用可能なすべての自動コヒーレンス尺度は、システムサマリーに信頼できるコヒーレンススコアを割り当てることができないが、自己教師付きタスクで微調整された大規模言語モデルは、異なるサマリー長にわたって一般化する必要があることを考慮し、有望な結果を示す。

Automatically evaluating the coherence of summaries is of great significance both to enable cost-efficient summarizer evaluation and as a tool for improving coherence by selecting high-scoring candidate summaries. While many different approaches have been suggested to model summary coherence, they are often evaluated using disparate datasets and metrics. This makes it difficult to understand their relative performance and identify ways forward towards better summary coherence modelling. In this work, we conduct a large-scale investigation of various methods for summary coherence modelling on an even playing field. Additionally, we introduce two novel analysis measures, intra-system correlation and bias matrices, that help identify biases in coherence measures and provide robustness against system-level confounders. While none of the currently available automatic coherence measures are able to assign reliable coherence scores to system summaries across all evaluation metrics, large-scale language models fine-tuned on self-supervised tasks show promising results, as long as fine-tuning takes into account that they need to generalize across different summary lengths.
翻訳日:2022-09-15 13:14:26 公開日:2022-09-14
# 遠隔地を監視できるクリーンなインスタンスはほとんどない

Few Clean Instances Help Denoising Distant Supervision ( http://arxiv.org/abs/2209.06596v1 )

ライセンス: Link先を確認
Yufang Liu, Ziyin Huang, Yijun Wang, Changzhi Sun, Man Lan, Yuanbin Wu, Xiaofeng Mou and Ding Wang(参考訳) 既存の遠隔教師付き関係抽出器は、通常、モデルトレーニングと評価の両方にノイズデータに依存しているため、ガベージ・イン・ガベージ・アウトシステムにつながる可能性がある。 この問題を軽減するために,小型のクリーンデータセットが遠隔教師付きモデルの品質向上に役立つか検討した。 モデルのより説得力のある評価に加えて、小さなクリーンなデータセットは、より堅牢なデノーミングモデルの構築にも役立ちます。 具体的には,影響関数に基づくクリーンインスタンス選択の新しい基準を提案する。 良い事例を認識するためのサンプルレベルの証拠を収集する(損失レベルの証拠よりも有益である)。 また,クリーンセットのブートストラップ時に中間結果の純度を制御するための教師学生機構を提案する。 アプローチ全体はモデルに依存しず、実(NYT)と合成ノイズデータセットの両方で強力なパフォーマンスを示す。

Existing distantly supervised relation extractors usually rely on noisy data for both model training and evaluation, which may lead to garbage-in-garbage-out systems. To alleviate the problem, we study whether a small clean dataset could help improve the quality of distantly supervised models. We show that besides getting a more convincing evaluation of models, a small clean dataset also helps us to build more robust denoising models. Specifically, we propose a new criterion for clean instance selection based on influence functions. It collects sample-level evidence for recognizing good instances (which is more informative than loss-level evidence). We also propose a teacher-student mechanism for controlling purity of intermediate results when bootstrapping the clean set. The whole approach is model-agnostic and demonstrates strong performances on both denoising real (NYT) and synthetic noisy datasets.
翻訳日:2022-09-15 13:14:06 公開日:2022-09-14
# ベイズ近似を用いた領域外検出のための分布校正

Distribution Calibration for Out-of-Domain Detection with Bayesian Approximation ( http://arxiv.org/abs/2209.06612v1 )

ライセンス: Link先を確認
Yanan Wu, Zhiyuan Zeng, Keqing He, Yutao Mou, Pei Wang, Weiran Xu(参考訳) Out-of-Domain (OOD) 検出はタスク指向のダイアログシステムにおいて重要なコンポーネントである。 従来のソフトマックスに基づく検出アルゴリズムはOODサンプルに対して過信的であることが証明された。 本稿では,トレーニング分布とテスト分布のミスマッチによる分布不確実性から生じる過信なOODを分析し,そのモデルが不確実なソフトマックススコアを生じさせるような予測を確実にできないようにする。 モンテカルロドロップアウトを用いた分布の不確かさを校正するベイズ型ood検出フレームワークを提案する。 本手法は,既存のソフトマックスベースラインに柔軟かつ容易に接続可能であり,OOD F1の改善率は33.33 %であり,MSPと比較して0.41 %の推論時間しか増加しない。 さらに分析した結果,OOD検出におけるベイズ学習の有効性が示唆された。

Out-of-Domain (OOD) detection is a key component in a task-oriented dialog system, which aims to identify whether a query falls outside the predefined supported intent set. Previous softmax-based detection algorithms are proved to be overconfident for OOD samples. In this paper, we analyze overconfident OOD comes from distribution uncertainty due to the mismatch between the training and test distributions, which makes the model can't confidently make predictions thus probably causing abnormal softmax scores. We propose a Bayesian OOD detection framework to calibrate distribution uncertainty using Monte-Carlo Dropout. Our method is flexible and easily pluggable into existing softmax-based baselines and gains 33.33\% OOD F1 improvements with increasing only 0.41\% inference time compared to MSP. Further analyses show the effectiveness of Bayesian learning for OOD detection.
翻訳日:2022-09-15 13:13:51 公開日:2022-09-14
# SPACE-2:タスク指向対話理解のための木構造半教師付きコントラスト事前学習

SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for Task-Oriented Dialog Understanding ( http://arxiv.org/abs/2209.06638v1 )

ライセンス: Link先を確認
Wanwei He, Yinpei Dai, Binyuan Hui, Min Yang, Zheng Cao, Jianbo Dong, Fei Huang, Luo Si, Yongbin Li(参考訳) 比較学習目的の事前学習手法は,対話理解タスクにおいて顕著な成功を収めている。 しかし、現在のコントラスト学習は、自己提示されたダイアログサンプルを正のサンプルとしてのみ考慮し、他のすべてのダイアログサンプルを負のサンプルとして扱う。 本稿では,限定ラベル付きダイアログと大規模ラベルなしダイアログコーパスから,半教師付きコントラストプレトレーニングを通じてダイアログ表現を学習する,木構造事前学習会話モデルspace-2を提案する。 具体的には、まず一般的な意味木構造(STS)を定義し、異なるダイアログデータセット間で一貫性のないアノテーションスキーマを統合することにより、ラベル付きデータに格納された豊富な構造情報を活用できるようにする。 そこで,同種のSTSを共有するダイアログの関連性を高めるために,教師付きコントラスト事前学習時にのみ,他の全く異なるダイアログをプッシュする新しいマルチビュースコア関数を提案する。 ラベルなしダイアログを完全に活用するために、学習した表現を洗練させるために、基本的な自己教師付きコントラスト損失も追加される。 実験の結果,提案手法は7つのデータセットと4つのダイアログ理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られることがわかった。 再現性のために、コードとデータはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/space-2でリリースします。

Pre-training methods with contrastive learning objectives have shown remarkable success in dialog understanding tasks. However, current contrastive learning solely considers the self-augmented dialog samples as positive samples and treats all other dialog samples as negative ones, which enforces dissimilar representations even for dialogs that are semantically related. In this paper, we propose SPACE-2, a tree-structured pre-trained conversation model, which learns dialog representations from limited labeled dialogs and large-scale unlabeled dialog corpora via semi-supervised contrastive pre-training. Concretely, we first define a general semantic tree structure (STS) to unify the inconsistent annotation schema across different dialog datasets, so that the rich structural information stored in all labeled data can be exploited. Then we propose a novel multi-view score function to increase the relevance of all possible dialogs that share similar STSs and only push away other completely different dialogs during supervised contrastive pre-training. To fully exploit unlabeled dialogs, a basic self-supervised contrastive loss is also added to refine the learned representations. Experiments show that our method can achieve new state-of-the-art results on the DialoGLUE benchmark consisting of seven datasets and four popular dialog understanding tasks. For reproducibility, we release the code and data at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/space-2.
翻訳日:2022-09-15 13:13:38 公開日:2022-09-14
# CoHS-CQG:会話型質問生成のための文脈と履歴の選択

CoHS-CQG: Context and History Selection for Conversational Question Generation ( http://arxiv.org/abs/2209.06652v1 )

ライセンス: Link先を確認
Xuan Long Do, Bowei Zou, Liangming Pan, Nancy F. Chen, Shafiq Joty, Ai Ti Aw(参考訳) 対話型質問生成(cqg)は、対話型読書理解などの人間を支援する機械にとって、会話を通じて重要なタスクである。 従来のsqg(single-turn question generation)と比較して、cqgは、生成された質問が意味を持つだけでなく、発生した会話履歴と整合する必要があるという意味では、より困難である。 これまでの研究では、主に会話の流れとアライメントをモデル化する方法に焦点が当てられているが、モデルに必要なコンテキストと履歴に関する詳細な研究は行われていない。 文脈と歴史の短縮は、モデルが会話のアライメント特性をより最適化するのに役立つため、重要であると我々は主張する。 そこで本研究では,入力の文脈と履歴を短縮するcohsモジュールを採用する2段階cqgフレームワークであるcohs-cqgを提案する。 特に、CoHSは、関連度に応じて連続した文と履歴をトップp戦略で選択する。 本モデルは,応答認識と応答認識の両方の設定において,CoQAの最先端性能を実現する。

Conversational question generation (CQG) serves as a vital task for machines to assist humans, such as interactive reading comprehension, through conversations. Compared to traditional single-turn question generation (SQG), CQG is more challenging in the sense that the generated question is required not only to be meaningful, but also to align with the occurred conversation history. While previous studies mainly focus on how to model the flow and alignment of the conversation, there has been no thorough study to date on which parts of the context and history are necessary for the model. We argue that shortening the context and history is crucial as it can help the model to optimise more on the conversational alignment property. To this end, we propose CoHS-CQG, a two-stage CQG framework, which adopts a CoHS module to shorten the context and history of the input. In particular, CoHS selects contiguous sentences and history turns according to their relevance scores by a top-p strategy. Our model achieves state-of-the-art performances on CoQA in both the answer-aware and answer-unaware settings.
翻訳日:2022-09-15 13:13:15 公開日:2022-09-14
# 異なる可変パラダイムにおける深層学習因果発見の概観とロードマップ

A Review and Roadmap of Deep Learning Causal Discovery in Different Variable Paradigms ( http://arxiv.org/abs/2209.06367v1 )

ライセンス: Link先を確認
Hang Chen, Keqing Du, Xinyu Yang, Chenguang Li(参考訳) 因果関係を理解することは、特定の目標を達成するために介入を構築するのに役立つ。 因果関係の学習の重要性が高まるにつれて、因果発見タスクは従来の手法から、観察データから深層学習に関わるパターン認識の分野へと移行してきた。 大規模データの急速な蓄積は,スケーラビリティに優れた因果探索手法の出現を促進する。 既存の因果発見手法の要約は、制約、スコア、FCMに基づく従来の手法に重点を置いているが、深層学習に基づく手法には完全なソートや実験が欠如しており、また、変数パラダイムの観点から因果発見手法の考察や探求が欠如している。 そこで,本研究では,3種類の因果発見タスクを変数パラダイムに従って分割し,それぞれに3つのタスクの定義を与え,各タスクの関連するデータセットと,同時に構築された最終因果モデルを定義してインスタンス化し,各タスクの主要な因果発見手法をレビューする。 最後に、因果発見分野における現在の研究ギャップに対する異なる視点からのロードマップを提案し、今後の研究方向性を指摘する。

Understanding causality helps to structure interventions to achieve specific goals and enables predictions under interventions. With the growing importance of learning causal relationships, causal discovery tasks have transitioned from using traditional methods to infer potential causal structures from observational data to the field of pattern recognition involved in deep learning. The rapid accumulation of massive data promotes the emergence of causal search methods with brilliant scalability. Existing summaries of causal discovery methods mainly focus on traditional methods based on constraints, scores and FCMs, there is a lack of perfect sorting and elaboration for deep learning-based methods, also lacking some considers and exploration of causal discovery methods from the perspective of variable paradigms. Therefore, we divide the possible causal discovery tasks into three types according to the variable paradigm and give the definitions of the three tasks respectively, define and instantiate the relevant datasets for each task and the final causal model constructed at the same time, then reviews the main existing causal discovery methods for different tasks. Finally, we propose some roadmaps from different perspectives for the current research gaps in the field of causal discovery and point out future research directions.
翻訳日:2022-09-15 13:09:44 公開日:2022-09-14
# 多目的フライングフィン水中車両制御システムのためのデータ駆動機械学習モデル

Data-Driven Machine Learning Models for a Multi-Objective Flapping Fin Unmanned Underwater Vehicle Control System ( http://arxiv.org/abs/2209.06369v1 )

ライセンス: Link先を確認
Julian Lee and Kamal Viswanath and Jason Geder and Alisha Sharma and Marius Pruessner and Brian Zhou(参考訳) 浮動小数点無人水中車両(UUV)推進システムは、監視や地形探査などの海軍任務に高い操作性を提供する。 最近の研究は、車両設計とフィン運動学からの推力を予測するために時系列ニューラルネットワークサロゲートモデルの使用を探求している。 本研究では,制御系設計にキネマティック・ツー・スラストニューラルネットワークモデルを利用する探索型逆モデルを開発した。 我々の逆モデルは、目標推力に達する多目的目標を持つフィンキネマティクスの集合を見つけ、フラッピングサイクル間の滑らかなキネマティクス遷移を生成する。 この逆モデルを統合した制御系が、オンラインのサイクル・ツー・サイクルの調整を行い、異なるシステムの目的を優先順位付けする方法を実証する。

Flapping-fin unmanned underwater vehicle (UUV) propulsion systems provide high maneuverability for naval tasks such as surveillance and terrain exploration. Recent work has explored the use of time-series neural network surrogate models to predict thrust from vehicle design and fin kinematics. We develop a search-based inverse model that leverages a kinematics-to-thrust neural network model for control system design. Our inverse model finds a set of fin kinematics with the multi-objective goal of reaching a target thrust and creating a smooth kinematic transition between flapping cycles. We demonstrate how a control system integrating this inverse model can make online, cycle-to-cycle adjustments to prioritize different system objectives.
翻訳日:2022-09-15 13:09:23 公開日:2022-09-14
# 次の項目からの学習を超えて:パーソナライズされた関心の持続可能性によるシーケンスレコメンデーション

Beyond Learning from Next Item: Sequential Recommendation via Personalized Interest Sustainability ( http://arxiv.org/abs/2209.06644v1 )

ライセンス: Link先を確認
Dongmin Hyun, Chanyoung Park, Junsu Cho, and Hwanjo Yu(参考訳) シークエンシャルレコメンデータシステムは,ユーザの関心の流出を捉えて効果的な提案を行っている。 既存のシーケンシャルモデルには、ユーザ中心モデルとアイテム中心モデルという2つのグループがある。 ユーザ中心のモデルは、各ユーザのシーケンシャルな消費履歴に基づいてパーソナライズされた関心のドリフトをキャプチャするが、アイテムに対するユーザの関心がトレーニング時間、すなわち関心持続時間を超えて持続するかどうかを明示的に考慮しない。 一方,アイテム中心モデルは,ユーザの一般関心がトレーニング時間後に持続するか否かを検討するが,パーソナライズされていない。 本研究では,両カテゴリのモデルの利点を活かしたレコメンダシステムを提案する。 提案モデルでは,アイテムに対する各ユーザの関心がトレーニング時間を超えて持続するかどうかを示す,パーソナライズされた関心持続性が把握される。 まず、利用者の消費履歴に基づいて、各利用者が最近の学習期間に消費するアイテムを予測しなければならないタスクを定式化する。 次に,利用者の少ない消費履歴を増大させるための簡易かつ効果的なスキームを提案する。 広範な実験により、提案モデルが11の現実世界のデータセット上で10のベースラインモデルを上回ることが示された。 コードはhttps://github.com/dmhyun/perisで入手できる。

Sequential recommender systems have shown effective suggestions by capturing users' interest drift. There have been two groups of existing sequential models: user- and item-centric models. The user-centric models capture personalized interest drift based on each user's sequential consumption history, but do not explicitly consider whether users' interest in items sustains beyond the training time, i.e., interest sustainability. On the other hand, the item-centric models consider whether users' general interest sustains after the training time, but it is not personalized. In this work, we propose a recommender system taking advantages of the models in both categories. Our proposed model captures personalized interest sustainability, indicating whether each user's interest in items will sustain beyond the training time or not. We first formulate a task that requires to predict which items each user will consume in the recent period of the training time based on users' consumption history. We then propose simple yet effective schemes to augment users' sparse consumption history. Extensive experiments show that the proposed model outperforms 10 baseline models on 11 real-world datasets. The codes are available at https://github.com/dmhyun/PERIS.
翻訳日:2022-09-15 13:08:47 公開日:2022-09-14
# scrna-seqデータのスケーラブルなgplvmによるモデリング技術と生物学的効果

Modelling Technical and Biological Effects in scRNA-seq data with Scalable GPLVMs ( http://arxiv.org/abs/2209.06716v1 )

ライセンス: Link先を確認
Vidhi Lalchand, Aditya Ravuri, Emma Dann, Natsuhiko Kumasaka, Dinithi Sumanaweera, Rik G.H. Lindeboom, Shaista Madad, Sarah A. Teichmann, Neil D. Lawrence(参考訳) 単細胞RNA-seqデータセットはサイズと複雑さが増しており、様々な生物学的・臨床的文脈における細胞組成の変化を研究することができる。 スケーラブルな次元削減技術は、技術的および生物学的共同設立者を考慮しつつ、生物学的変異を解消する必要がある。 本研究では, 確率的非線形次元低減のための一般的な手法であるガウス過程潜在変数モデルを拡張し, 技術的および生物学的共同創設者を明示的に考慮しながら, 大規模単一セルデータセットに拡張する。 鍵となる考え方は、高速な確率的変動推論を可能にする下界の分解可能性を保存する拡張カーネルを使用することである。 熊坂ら(2021年)で回収された自然免疫の潜在性シグネチャを9倍のトレーニング時間で再構築する能力を示す。 我々はさらに、新型コロナウイルスデータセットを分析し、130人のコホートを通して、このフレームワークが感染の解釈可能なシグネチャをキャプチャしながらデータ統合を可能にすることを実証する。 具体的には、患者の階層化を洗練し、疾患特異的な遺伝子発現を捉えるための潜伏次元として、新型コロナウイルスの重症度を探求する。

Single-cell RNA-seq datasets are growing in size and complexity, enabling the study of cellular composition changes in various biological/clinical contexts. Scalable dimensionality reduction techniques are in need to disentangle biological variation in them, while accounting for technical and biological confounders. In this work, we extend a popular approach for probabilistic non-linear dimensionality reduction, the Gaussian process latent variable model, to scale to massive single-cell datasets while explicitly accounting for technical and biological confounders. The key idea is to use an augmented kernel which preserves the factorisability of the lower bound allowing for fast stochastic variational inference. We demonstrate its ability to reconstruct latent signatures of innate immunity recovered in Kumasaka et al. (2021) with 9x lower training time. We further analyze a COVID dataset and demonstrate across a cohort of 130 individuals, that this framework enables data integration while capturing interpretable signatures of infection. Specifically, we explore COVID severity as a latent dimension to refine patient stratification and capture disease-specific gene expression.
翻訳日:2022-09-15 13:08:14 公開日:2022-09-14
# noise2sr: 超解像単発蛍光画像からの発声学習

Noise2SR: Learning to Denoise from Super-Resolved Single Noisy Fluorescence Image ( http://arxiv.org/abs/2209.06411v1 )

ライセンス: Link先を確認
Xuanyu Tian, Qing Wu, Hongjiang Wei, Yuyao Zhang(参考訳) 蛍光顕微鏡は生物医学研究の発見を促進する重要な要因である。 しかし, 顕微鏡装置の限界と観察試料の特性により, 蛍光顕微鏡像はノイズに影響を受けやすい。 近年,自己教師型深層学習(DL)法が提案されている。 しかし,実環境騒音除去では,既存手法の訓練効率と騒音低減性能は比較的低い。 そこで本稿では,単発雑音観測に基づく簡易かつ効果的な画像雑音モデルを訓練するために,自己教師付き画像雑音化方式のノイズ2sr(n2sr)を提案する。 noise2srのデノイジングモデルは、異なる次元のノイズ画像のペアトレーニング用に設計されています。 このトレーニング戦略の利点により、ノイズ2srはより効率的に自己監視され、単一のノイズ観測からより多くの画像詳細を復元することができる。 シミュレーションノイズと実顕微鏡ノイズ除去実験の結果,ノイズ2SRは2つの盲点に基づく自己教師型ディープラーニング画像復調法より優れていた。 noise2srは、他の種類の科学的画像品質を改善する可能性を期待する。

Fluorescence microscopy is a key driver to promote discoveries of biomedical research. However, with the limitation of microscope hardware and characteristics of the observed samples, the fluorescence microscopy images are susceptible to noise. Recently, a few self-supervised deep learning (DL) denoising methods have been proposed. However, the training efficiency and denoising performance of existing methods are relatively low in real scene noise removal. To address this issue, this paper proposed self-supervised image denoising method Noise2SR (N2SR) to train a simple and effective image denoising model based on single noisy observation. Our Noise2SR denoising model is designed for training with paired noisy images of different dimensions. Benefiting from this training strategy, Noise2SR is more efficiently self-supervised and able to restore more image details from a single noisy observation. Experimental results of simulated noise and real microscopy noise removal show that Noise2SR outperforms two blind-spot based self-supervised deep learning image denoising methods. We envision that Noise2SR has the potential to improve more other kind of scientific imaging quality.
翻訳日:2022-09-15 13:07:55 公開日:2022-09-14
# PlaStIL: プラスチックで安定なメモリフリーなクラスインクリメンタルラーニング

PlaStIL: Plastic and Stable Memory-Free Class-Incremental Learning ( http://arxiv.org/abs/2209.06606v1 )

ライセンス: Link先を確認
Gr\'egoire Petit, Adrian Popescu, Eden Belouadah, David Picard, Bertrand Delezoide(参考訳) 過去の知識を保ちながら新しいデータから学ぶためには、クラス増分学習において塑性と安定性が必要である。 破滅的な忘れ方のため、メモリバッファがない場合、これら2つのプロパティ間の妥協を見つけることは特に難しい。 従来のインクリメンタルな状態からの知識蒸留と微調整を使って新しいクラスを統合するため、主流のメソッドは2つの深いモデルを保存する必要がある。 そこで本稿では, 可塑性と安定性のバランスを良くするために, パラメータ数に類似する手法を提案する。 転送ベースのインクリメンタルメソッドですでにデプロイされているアプローチに従って,初期状態後の特徴抽出器を凍結する。 最も古い段階的な状態のクラスは、安定性を確保するためにこの凍結抽出器で訓練される。 最近のクラスは塑性を導入するために部分的に微調整されたモデルを用いて予測される。 提案する塑性層は, メモリフリーインクリメンタルラーニング用に設計された任意の転送方式に組み込むことができ, これら2つの手法に適用できる。 評価は3つの大規模データセットで行う。 その結果、既存の方法と比較して、すべてのテスト済み構成でパフォーマンスが向上することが示された。

Plasticity and stability are needed in class-incremental learning in order to learn from new data while preserving past knowledge. Due to catastrophic forgetting, finding a compromise between these two properties is particularly challenging when no memory buffer is available. Mainstream methods need to store two deep models since they integrate new classes using fine tuning with knowledge distillation from the previous incremental state. We propose a method which has similar number of parameters but distributes them differently in order to find a better balance between plasticity and stability. Following an approach already deployed by transfer-based incremental methods, we freeze the feature extractor after the initial state. Classes in the oldest incremental states are trained with this frozen extractor to ensure stability. Recent classes are predicted using partially fine-tuned models in order to introduce plasticity. Our proposed plasticity layer can be incorporated to any transfer-based method designed for memory-free incremental learning, and we apply it to two such methods. Evaluation is done with three large-scale datasets. Results show that performance gains are obtained in all tested configurations compared to existing methods.
翻訳日:2022-09-15 13:03:31 公開日:2022-09-14
# scate: 非構造化環境における自己教師ありトラバーサビリティ推定のためのスケーラブルなフレームワーク

ScaTE: A Scalable Framework for Self-Supervised Traversability Estimation in Unstructured Environments ( http://arxiv.org/abs/2209.06522v1 )

ライセンス: Link先を確認
Junwon Seo, Taekyung Kim, Kiho Kwak, Jihong Min, Inwook Shim(参考訳) 非構造環境における自動運転車の安全かつ良好なナビゲーションのためには、地形の移動性は車両の運転能力によって異なるべきである。 実際の運転経験は、自制的な方法で車両固有の走行性を学ぶために利用することができる。 しかし、既存の自己監督的トラバータビリティの学習方法は、様々な車両のトラバータビリティを学習するのには非常にスケーラブルではない。 本研究では,人間を介さずに,車と地形の相互作用から直接トラバーサビリティを学習できる,自己監督的トラバーサビリティ学習のためのスケーラブルなフレームワークを提案する。 我々は,車両が3dポイントの雲から受ける固有体験を予測するニューラルネットワークを訓練する。 ネットワークは,新しいPU学習手法を用いて,信頼度が過大な領域を同時に同定する。 シミュレーションと実世界から収集した各種車両の運転データを用いて,我々は様々な車両の自己監視トラバーサビリティを学習できることを実証する。 このフレームワークをモデル予測コントローラと統合することにより、推定トラバーサビリティは、車両の走行特性に基づいて異なる操作を可能にする効果的なナビゲーションをもたらすことを実証する。 また,本手法の有効性を実験的に検証し,非可逆領域の同定と回避を行った。

For the safe and successful navigation of autonomous vehicles in unstructured environments, the traversability of terrain should vary based on the driving capabilities of the vehicles. Actual driving experience can be utilized in a self-supervised fashion to learn vehicle-specific traversability. However, existing methods for learning self-supervised traversability are not highly scalable for learning the traversability of various vehicles. In this work, we introduce a scalable framework for learning self-supervised traversability, which can learn the traversability directly from vehicle-terrain interaction without any human supervision. We train a neural network that predicts the proprioceptive experience that a vehicle would undergo from 3D point clouds. Using a novel PU learning method, the network simultaneously identifies non-traversable regions where estimations can be overconfident. With driving data of various vehicles gathered from simulation and the real world, we show that our framework is capable of learning the self-supervised traversability of various vehicles. By integrating our framework with a model predictive controller, we demonstrate that estimated traversability results in effective navigation that enables distinct maneuvers based on the driving characteristics of the vehicles. In addition, experimental results validate the ability of our method to identify and avoid non-traversable regions.
翻訳日:2022-09-15 13:03:13 公開日:2022-09-14
# 時空間融合トランスフォーマによるカメララーダ3次元物体検出

CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion Transformer ( http://arxiv.org/abs/2209.06535v1 )

ライセンス: Link先を確認
Youngseok Kim, Sanmin Kim, Jun Won Choi, Dongsuk Kum(参考訳) カメラとレーダーセンサーはlidarに比べてコスト、信頼性、メンテナンスにおいて大きな利点がある。 既存の融合法はしばしば、後期融合戦略と呼ばれる結果レベルで単一モードの出力を融合させる。 これは、市販の単一センサー検出アルゴリズムを使用することで恩恵を受けることができるが、後期融合はセンサーの補完的特性を完全に活用することはできない。 本稿では,3次元物体検出にカメラとレーダーの空間的・文脈的特性を効果的に活用する,新しい提案レベルの早期融合手法を提案する。 まず,画像提案と極座標系におけるレーダ点を関連付け,座標系と空間特性の相違を効率的に処理する。 これを第1段階として、連続的なクロスアテンションに基づく特徴融合層が、カメラとレーダーの間で時空間情報を適応的に交換し、堅牢で注意深い融合をもたらす。 我々は,カメラ専用ベースラインよりも8.7および10.8ポイント高いnuScenesテストセットにおいて,41.1% mAPと52.3% NDSの最先端化を実現し,LiDAR法における競合性能を得る。

Camera and radar sensors have significant advantages in cost, reliability, and maintenance compared to LiDAR. Existing fusion methods often fuse the outputs of single modalities at the result-level, called the late fusion strategy. This can benefit from using off-the-shelf single sensor detection algorithms, but late fusion cannot fully exploit the complementary properties of sensors, thus having limited performance despite the huge potential of camera-radar fusion. Here we propose a novel proposal-level early fusion approach that effectively exploits both spatial and contextual properties of camera and radar for 3D object detection. Our fusion framework first associates image proposal with radar points in the polar coordinate system to efficiently handle the discrepancy between the coordinate system and spatial properties. Using this as a first stage, following consecutive cross-attention based feature fusion layers adaptively exchange spatio-contextual information between camera and radar, leading to a robust and attentive fusion. Our camera-radar fusion approach achieves the state-of-the-art 41.1% mAP and 52.3% NDS on the nuScenes test set, which is 8.7 and 10.8 points higher than the camera-only baseline, as well as yielding competitive performance on the LiDAR method.
翻訳日:2022-09-15 13:02:53 公開日:2022-09-14
# トランスフォーマーとCNNがSBIRで人間に勝つ

Transformers and CNNs both Beat Humans on SBIR ( http://arxiv.org/abs/2209.06629v1 )

ライセンス: Link先を確認
Omar Seddati, St\'ephane Dupont, Sa\"id Mahmoudi, Thierry Dutoit(参考訳) スケッチベースの画像検索(SBIR)は、手書きスケッチクエリのセマンティクスと空間的構成に一致する自然画像(写真)を検索するタスクである。 スケッチの普遍性はアプリケーションの範囲を広げ、効率的なSBIRソリューションの需要を増加させる。 本稿では,古典的三重項系SBIR法について検討し,水平フリップに対する持続的不変性が性能に悪影響を及ぼすことを示す。 この制限を克服するために,複数のアプローチを提案し,それぞれの有効性を深く評価する。 我々は、より優れたフリップ等価性を持つSBIRソリューションを構築するための直感的な修正をいくつか提案し、評価する。 我々は、視覚変換器がSBIRタスクに適しており、CNNよりも大きなマージンで優れていることを示す。 我々は,大規模sbirベンチマーク(sketchy)において,人間のパフォーマンスを上回る最初のモデルを紹介した。 我々の最良のモデルは、従来の最先端手法の46.2%と比較して、スケッチなベンチマークで62.25%(k = 1)のリコールを達成する。

Sketch-based image retrieval (SBIR) is the task of retrieving natural images (photos) that match the semantics and the spatial configuration of hand-drawn sketch queries. The universality of sketches extends the scope of possible applications and increases the demand for efficient SBIR solutions. In this paper, we study classic triplet-based SBIR solutions and show that a persistent invariance to horizontal flip (even after model finetuning) is harming performance. To overcome this limitation, we propose several approaches and evaluate in depth each of them to check their effectiveness. Our main contributions are twofold: We propose and evaluate several intuitive modifications to build SBIR solutions with better flip equivariance. We show that vision transformers are more suited for the SBIR task, and that they outperform CNNs with a large margin. We carried out numerous experiments and introduce the first models to outperform human performance on a large-scale SBIR benchmark (Sketchy). Our best model achieves a recall of 62.25% (at k = 1) on the sketchy benchmark compared to previous state-of-the-art methods 46.2%.
翻訳日:2022-09-15 13:02:28 公開日:2022-09-14
# ImageArg:イメージ説得性マイニングのためのマルチモーダルツイートデータセット

ImageArg: A Multi-modal Tweet Dataset for Image Persuasiveness Mining ( http://arxiv.org/abs/2209.06416v1 )

ライセンス: Link先を確認
Zhexiong Liu, Meiqi Guo, Yue Dai, Diane Litman(参考訳) 説得力のあるテキストのコーパスの開発への関心が高まり、例えば議論やエッセイの採点システムなどの自動化システムへの応用が促進されているが、議論的な観点からは以前の作業採鉱イメージの説得性はほとんどない。 マルチモーダル領域にパーサシブネスマイニングを拡張するために,つぶやきにおける画像説得性のアノテーションからなるマルチモーダルデータセットであるImageArgを提案する。 このアノテーションは、画像機能と説得方法を探るために開発した説得分類に基づいています。 マルチモーダル学習法を用いて,imageargにおける画像知覚タスクのベンチマークを行った。 実験の結果,我々のデータセットは,この豊かで挑戦的なトピックに有用なリソースを提供しており,モデリングの改善の余地は十分にあることがわかった。

The growing interest in developing corpora of persuasive texts has promoted applications in automated systems, e.g., debating and essay scoring systems; however, there is little prior work mining image persuasiveness from an argumentative perspective. To expand persuasiveness mining into a multi-modal realm, we present a multi-modal dataset, ImageArg, consisting of annotations of image persuasiveness in tweets. The annotations are based on a persuasion taxonomy we developed to explore image functionalities and the means of persuasion. We benchmark image persuasiveness tasks on ImageArg using widely-used multi-modal learning methods. The experimental results show that our dataset offers a useful resource for this rich and challenging topic, and there is ample room for modeling improvement.
翻訳日:2022-09-15 12:58:03 公開日:2022-09-14
# 情報検索のための事前トレーニング:ハイパーリンクは完全に探索されているか?

Pre-training for Information Retrieval: Are Hyperlinks Fully Explored? ( http://arxiv.org/abs/2209.06583v1 )

ライセンス: Link先を確認
Jiawen Wu, Xinyu Zhang, Yutao Zhu, Zheng Liu, Zikai Guo, Zhaoye Fei, Ruofei Lai, Yongkang Wu, Zhao Cao, Zhicheng Dou(参考訳) 近年では、情報検索(IR)タスクに、BERTなどの事前学習言語モデルを適用するという大きな進歩が見られる。 ウェブページで一般的に使用されるハイパーリンクは、事前学習目的の設計に活用されている。 例えば、ハイパーリンクのアンカーテキストはクエリをシミュレートするために使われており、事前トレーニングのための巨大なクエリドキュメントペアを構築している。 しかし、2つのWebページにまたがるブリッジとして、ハイパーリンクの可能性は完全には検討されていない。 本研究では,ハイパーリンクで接続された2つの文書間の関係をモデル化し,アドホック検索のための新しい事前学習目標を設計する。 具体的には、文書間の関係を、リンクなし、一方向リンク、対称リンク、最も関連する対称リンクの4つのグループに分類する。 隣接するグループからサンプリングされた2つの文書を比較することで、マッチング信号のキャプチャ能力が徐々に向上する。 我々は,事前学習におけるハイパーリンクの利用を検討するために,プログレッシブハイパーリンク述語({php})フレームワークを提案する。 2つの大規模アドホック検索データセットと6つの質問回答データセットの実験結果は、既存の事前学習手法よりも優れていることを示す。

Recent years have witnessed great progress on applying pre-trained language models, e.g., BERT, to information retrieval (IR) tasks. Hyperlinks, which are commonly used in Web pages, have been leveraged for designing pre-training objectives. For example, anchor texts of the hyperlinks have been used for simulating queries, thus constructing tremendous query-document pairs for pre-training. However, as a bridge across two web pages, the potential of hyperlinks has not been fully explored. In this work, we focus on modeling the relationship between two documents that are connected by hyperlinks and designing a new pre-training objective for ad-hoc retrieval. Specifically, we categorize the relationships between documents into four groups: no link, unidirectional link, symmetric link, and the most relevant symmetric link. By comparing two documents sampled from adjacent groups, the model can gradually improve its capability of capturing matching signals. We propose a progressive hyperlink predication ({PHP}) framework to explore the utilization of hyperlinks in pre-training. Experimental results on two large-scale ad-hoc retrieval datasets and six question-answering datasets demonstrate its superiority over existing pre-training methods.
翻訳日:2022-09-15 12:57:49 公開日:2022-09-14
# 学習MDP準同型を用いた状態-作用抽象化の一手法

A Simple Approach for State-Action Abstraction using a Learned MDP Homomorphism ( http://arxiv.org/abs/2209.06356v1 )

ライセンス: Link先を確認
Augustine N. Mavor-Parker, Andrea Banino, Lewis D. Griffin, Caswell Barry(参考訳) 状態アクションペアのセットが等価な報酬と遷移ダイナミクスを持つ場合、動物は限られた経験から素早く推測することができる。 On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples from their environment. MDP homomorphisms have been proposed that reduce the observed MDP of an environment to an abstract MDP, which can enable more sample efficient policy learning. Consequently, impressive improvements in sample efficiency have been achieved when a suitable MDP homomorphism can be constructed a priori -- usually by exploiting a practioner's knowledge of environment symmetries. 本研究では, 離散的作用空間における準同型を構築するための新しい手法を提案する。この手法では, 状態作用対が同じ状態につながるかを推定するために, 環境力学の偏モデルを用い, 状態-作用空間の大きさを作用空間の濃度に等しい係数で減少させる。 我々はこのメソッドを等価エフェクト抽象化と呼ぶ。 グリッドワールド環境では、等価効果抽象化がモデルベースアプローチのモデルフリー設定と計画効率においてサンプル効率を向上させることを実証的に実証する。 さらに,本手法は33倍のトレーニングデータを用いながら,既存の準同型学習法よりも優れていることを示す。

Animals are able to rapidly infer from limited experience when sets of state action pairs have equivalent reward and transition dynamics. On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples from their environment. MDP homomorphisms have been proposed that reduce the observed MDP of an environment to an abstract MDP, which can enable more sample efficient policy learning. Consequently, impressive improvements in sample efficiency have been achieved when a suitable MDP homomorphism can be constructed a priori -- usually by exploiting a practioner's knowledge of environment symmetries. We propose a novel approach to constructing a homomorphism in discrete action spaces, which uses a partial model of environment dynamics to infer which state action pairs lead to the same state -- reducing the size of the state-action space by a factor equal to the cardinality of the action space. We call this method equivalent effect abstraction. In a gridworld setting, we demonstrate empirically that equivalent effect abstraction can improve sample efficiency in a model-free setting and planning efficiency for modelbased approaches. Furthermore, we show on cartpole that our approach outperforms an existing method for learning homomorphisms, while using 33x less training data.
翻訳日:2022-09-15 12:57:15 公開日:2022-09-14
# Federated Pruning: フェデレーション学習によるニューラルネットワークの効率向上

Federated Pruning: Improving Neural Network Efficiency with Federated Learning ( http://arxiv.org/abs/2209.06359v1 )

ライセンス: Link先を確認
Rongmei Lin, Yonghui Xiao, Tien-Ju Yang, Ding Zhao, Li Xiong, Giovanni Motta, Fran\c{c}oise Beaufays(参考訳) 自動音声認識モデルは、トレーニングのために大量の音声データを必要とし、そのようなデータの収集は、しばしばプライバシー上の懸念につながる。 フェデレーション学習は広く使われており、異なるクライアントデバイス上でデータをローカルに保ちながら共有予測モデルを協調的に学習することで、効果的な分散技術であると考えられている。 しかし、クライアントデバイス上の限られた計算資源と通信資源は、大規模モデルでは実用上困難である。 このような課題を克服するため,我々は,フェデレーション条件下での縮小モデルを訓練するためのフェデレートプルーニングを提案する。 さらに、膨大なクライアントデータを活用することで、集中トレーニングと比較して、刈り取り結果を改善することもできる。 異なる刈り取り方式を探索し,提案手法の有効性の実証的証拠を提供する。

Automatic Speech Recognition models require large amount of speech data for training, and the collection of such data often leads to privacy concerns. Federated learning has been widely used and is considered to be an effective decentralized technique by collaboratively learning a shared prediction model while keeping the data local on different clients devices. However, the limited computation and communication resources on clients devices present practical difficulties for large models. To overcome such challenges, we propose Federated Pruning to train a reduced model under the federated setting, while maintaining similar performance compared to the full model. Moreover, the vast amount of clients data can also be leveraged to improve the pruning results compared to centralized training. We explore different pruning schemes and provide empirical evidence of the effectiveness of our methods.
翻訳日:2022-09-15 12:56:57 公開日:2022-09-14
# スケーラブル時空間グラフニューラルネットワーク

Scalable Spatiotemporal Graph Neural Networks ( http://arxiv.org/abs/2209.06520v1 )

ライセンス: Link先を確認
Andrea Cini, Ivan Marisca, Filippo Maria Bianchi, Cesare Alippi(参考訳) 時空間時系列の神経予測は、いくつかの関連するアプリケーション領域における研究と産業の革新を駆動する。 グラフニューラルネットワーク(GNN)は、しばしば予測アーキテクチャのコアコンポーネントである。 しかし、ほとんどの時空間GNNでは、計算複雑性はグラフ内のリンクの回数のシーケンスの倍の長さの二次的因子までスケールするため、これらのモデルを大きなグラフや長い時間的シーケンスに適用することを妨げる。 静的グラフの文脈ではスケーラビリティを改善する手法が提案されているが、時空間の場合の研究は少ない。 このギャップを埋めるために,時間的および空間的ダイナミクスを効率的にエンコーディングするスケーラブルなアーキテクチャを提案する。 特に、ランダム化されたリカレントニューラルネットワークを用いて、入力時系列の歴史をマルチスケール時間力学を含む高次元状態表現に埋め込む。 このような表現は、グラフ隣接行列の異なるパワーを用いて空間次元に沿って伝播し、時空間の特徴の豊富なプールによって特徴づけられるノード埋め込みを生成する。 結果として得られるノードの埋め込みは、マルチスケールの時空間表現を予測にマッピングする方法を学ぶフィードフォワードデコーダに送られる前に、教師なしの方法で効率的に事前計算することができる。 そして、依存関係を壊さずにノード埋め込みをサンプリングすることで、トレーニング手順をノード単位で並列化することができる。 関連するデータセットに対する実験結果から,我々の手法は,計算負担を劇的に減らしながら,技術状況と競合する結果が得られることが示された。

Neural forecasting of spatiotemporal time series drives both research and industrial innovation in several relevant application domains. Graph neural networks (GNNs) are often the core component of the forecasting architecture. However, in most spatiotemporal GNNs, the computational complexity scales up to a quadratic factor with the length of the sequence times the number of links in the graph, hence hindering the application of these models to large graphs and long temporal sequences. While methods to improve scalability have been proposed in the context of static graphs, few research efforts have been devoted to the spatiotemporal case. To fill this gap, we propose a scalable architecture that exploits an efficient encoding of both temporal and spatial dynamics. In particular, we use a randomized recurrent neural network to embed the history of the input time series into high-dimensional state representations encompassing multi-scale temporal dynamics. Such representations are then propagated along the spatial dimension using different powers of the graph adjacency matrix to generate node embeddings characterized by a rich pool of spatiotemporal features. The resulting node embeddings can be efficiently pre-computed in an unsupervised manner, before being fed to a feed-forward decoder that learns to map the multi-scale spatiotemporal representations to predictions. The training procedure can then be parallelized node-wise by sampling the node embeddings without breaking any dependency, thus enabling scalability to large networks. Empirical results on relevant datasets show that our approach achieves results competitive with the state of the art, while dramatically reducing the computational burden.
翻訳日:2022-09-15 12:56:42 公開日:2022-09-14
# 臨床・遠隔医療応用のための説明可能なAI:表と時系列データに関する調査

Explainable AI for clinical and remote health applications: a survey on tabular and time series data ( http://arxiv.org/abs/2209.06528v1 )

ライセンス: Link先を確認
Flavio Di Martino, Franca Delmastro(参考訳) 現在、人工知能(AI)は、臨床と遠隔の両方で医療アプリケーションの基本コンポーネントとなっているが、最高のAIシステムは、しばしば複雑すぎて自己説明できない。 説明可能なai(xai)技術は、システムの予測と決定の背後にある理由を明らかにするために定義され、機密性の高い個人的健康データを扱う場合にさらに重要になる。 XAIは、特に医療において、さまざまな研究領域やデータタイプに同じ関心を集めていない点に注意が必要だ。 特に、多くの臨床および遠隔医療アプリケーションは、それぞれ表データと時系列データに基づいており、xaiはこれらのデータ型について一般的に分析されていないが、コンピュータビジョンと自然言語処理(nlp)は参照アプリケーションである。 医療領域における表や時系列データに最も適したXAI手法の概要について,本論文では,過去5年間の文献を概観し,生成した説明のタイプとそれらの関連性や品質を評価するための取り組みについて述べる。 具体的には, 臨床検証, 一貫性評価, 客観的および標準化された品質評価, および人間中心品質評価を, エンドユーザの効果的な説明を確保するための重要な特徴として特定する。 最後に、この分野における主な研究課題と既存のXAI手法の限界について述べる。

Nowadays Artificial Intelligence (AI) has become a fundamental component of healthcare applications, both clinical and remote, but the best performing AI systems are often too complex to be self-explaining. Explainable AI (XAI) techniques are defined to unveil the reasoning behind the system's predictions and decisions, and they become even more critical when dealing with sensitive and personal health data. It is worth noting that XAI has not gathered the same attention across different research areas and data types, especially in healthcare. In particular, many clinical and remote health applications are based on tabular and time series data, respectively, and XAI is not commonly analysed on these data types, while computer vision and Natural Language Processing (NLP) are the reference applications. To provide an overview of XAI methods that are most suitable for tabular and time series data in the healthcare domain, this paper provides a review of the literature in the last 5 years, illustrating the type of generated explanations and the efforts provided to evaluate their relevance and quality. Specifically, we identify clinical validation, consistency assessment, objective and standardised quality evaluation, and human-centered quality assessment as key features to ensure effective explanations for the end users. Finally, we highlight the main research challenges in the field as well as the limitations of existing XAI methods.
翻訳日:2022-09-15 12:56:19 公開日:2022-09-14
# 多モジュールグラフニューラルネットワークのフレキシブル表現による一般化に向けて

Towards Better Generalization with Flexible Representation of Multi-Module Graph Neural Networks ( http://arxiv.org/abs/2209.06589v1 )

ライセンス: Link先を確認
Hyungeun Lee, Hyunmok Park, Kijung Yoon(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ上で学習と推論を行うように設計された魅力的なモデルとなっているが、GNNの基本的限界を理解して大きなグラフに拡張し、アウト・オブ・ディストリビューション・インプットに一般化する作業はほとんど行われていない。 本稿では,gnnの予測性能にグラフサイズと構造特性がどのように影響するかを系統的に調査できるランダムグラフ生成器について述べる。 多くのグラフ特性のうち、ノード次数分布の平均とモダリティが、GNNが目に見えないグラフに一般化できるかどうかを決定する重要な特徴であることを示す。 そこで我々は,複数のノード更新関数と内部ループ最適化を用いて,集約された入力に対する単一タイプの正準非線形変換を一般化し,ネットワークが新しいグラフに柔軟に対応できるようにするフレキシブルGNNを提案する。 Flex-GNNフレームワークは、いくつかの推論タスクのトレーニングセットから一般化を改善します。

Graph neural networks (GNNs) have become compelling models designed to perform learning and inference on graph-structured data, but little work has been done on understanding the fundamental limitations of GNNs to be scalable to larger graphs and generalized to out-of-distribution inputs. In this paper, we use a random graph generator that allows us to systematically investigate how the graph size and structural properties affect the predictive performance of GNNs. We present specific evidence that, among the many graph properties, the mean and modality of the node degree distribution are the key features that determine whether GNNs can generalize to unseen graphs. Accordingly, we propose flexible GNNs (Flex-GNNs), using multiple node update functions and the inner loop optimization as a generalization to the single type of canonical nonlinear transformation over aggregated inputs, allowing the network to adapt flexibly to new graphs. The Flex-GNN framework improves the generalization out of the training set on several inference tasks.
翻訳日:2022-09-15 12:55:43 公開日:2022-09-14
# 知識伝達のための強化学習タスクの学習状態対応

Learning state correspondence of reinforcement learning tasks for knowledge transfer ( http://arxiv.org/abs/2209.06604v1 )

ライセンス: Link先を確認
Marko Ruman and Tatiana V. Guy(参考訳) 深層強化学習は、複雑な強化学習(RL)タスクを原画素のみから解く際に、超人的性能を達成する能力を示した。 しかし、学習済みのタスクから知識を再利用して、新しい未知のタスクを解決することに失敗する。 知識の一般化と再利用は、真にインテリジェントなエージェントを作成するための基本的な要件である。 本研究では,RLタスクに適した生成逆ネットワークモデルに基づく1対1の伝達学習法を提案する。

Deep reinforcement learning has shown an ability to achieve super-human performance in solving complex reinforcement learning (RL) tasks only from raw-pixels. However, it fails to reuse knowledge from previously learnt tasks to solve new, unseen ones. Generalizing and reusing knowledge are the fundamental requirements for creating a truly intelligent agent. This work proposes a general method for one-to-one transfer learning based on generative adversarial network model tailored to RL task.
翻訳日:2022-09-15 12:55:24 公開日:2022-09-14
# WildQA:Wildビデオの質問に答える

WildQA: In-the-Wild Video Question Answering ( http://arxiv.org/abs/2209.06650v1 )

ライセンス: Link先を確認
Santiago Castro, Naihao Deng, Pingxuan Huang, Mihai Burzo, Rada Mihalcea(参考訳) 既存のビデオ理解データセットは、主に人間のインタラクションに焦点を当てており、ビデオが屋外に記録される"野生"設定にはほとんど注意が払われていない。 本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また,ビデオ質問応答(ビデオQA)に加えて,与えられた質問と回答に対する視覚的支援(ビデオエビデンス選択)を識別するタスクも導入した。 幅広いベースラインモデルを用いた評価を通じて、WILDQAはビジョンと言語研究コミュニティに新たな課題をもたらすことを示す。 データセットはhttps://lit.eecs.umich.edu/wildqa/で利用可能である。

Existing video understanding datasets mostly focus on human interactions, with little attention being paid to the "in the wild" settings, where the videos are recorded outdoors. We propose WILDQA, a video understanding dataset of videos recorded in outside settings. In addition to video question answering (Video QA), we also introduce the new task of identifying visual support for a given question and answer (Video Evidence Selection). Through evaluations using a wide range of baseline models, we show that WILDQA poses new challenges to the vision and language research communities. The dataset is available at https://lit.eecs.umich.edu/wildqa/.
翻訳日:2022-09-15 12:52:12 公開日:2022-09-14
# PaLI: 共同スケール多言語画像モデル

PaLI: A Jointly-Scaled Multilingual Language-Image Model ( http://arxiv.org/abs/2209.06794v1 )

ライセンス: Link先を確認
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut(参考訳) 効果的なスケーリングと柔軟なタスクインタフェースにより、大きな言語モデルが多くのタスクで優れている。pali(pathwayslanguage andimage model)はこのアプローチを言語とビジョンの合同モデリングに拡張する。 paliは視覚とテキストの入力に基づいてテキストを生成し、このインターフェイスは多くの言語で多くの視覚、言語、マルチモーダルタスクを実行する。 PaLIのトレーニングには、トレーニング済みのエンコーダ-デコーダ言語モデルとビジョントランスフォーマー(ViT)を利用する。 これにより、既存の能力を活用し、トレーニングのかなりのコストを活用できます。 ビジョンと言語コンポーネントのジョイントスケーリングが重要であることが分かりました。 既存の言語用トランスフォーマーはビジョンモデルよりもはるかに大きいので、これまでで最大のViT(ViT-e)をトレーニングして、より大きな容量のビジョンモデルの利点を定量化します。 PaLIをトレーニングするために、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。 PaLIは、複数の視覚と言語タスク(キャプション、視覚的質問応答、シーンテキスト理解など)において最先端を達成しつつ、シンプルでモジュラーでスケーラブルな設計を維持している。

Effective scaling and a flexible task interface enable large language models to excel at many tasks.PaLI(PathwaysLanguage andImage model) extends this approach to the joint modeling of language and vision. PaLI generates text based on visual and textual inputs, and with this interface performs many vision, language, and multimodal tasks, in many languages. To train PaLI, we make use of large pretrained encoder-decoder language models and Vision Transformers (ViTs). This allows us to capitalize on their existing capabilities and leverage the substantial cost of training them. We find that joint scaling of the vision and language components is important. Since existing Transformers for language are much larger than their vision counterparts, we train the largest ViT to date (ViT-e) to quantify the benefits from even larger-capacity vision models. To train PaLI, we create a large multilingual mix of pretraining tasks, based on a new image-text training set containing 10B images and texts in over 100 languages. PaLI achieves state-of-the-art in multiple vision and language tasks (such as captioning, visual question-answering, scene-text understanding), while retaining a simple, modular, and scalable design.
翻訳日:2022-09-15 12:52:02 公開日:2022-09-14
# 3d siameseオブジェクトトラッキングのためのポイントクラウド登録駆動ロバスト機能マッチング

Point Cloud Registration-Driven Robust Feature Matching for 3D Siamese Object Tracking ( http://arxiv.org/abs/2209.06395v1 )

ライセンス: Link先を確認
Haobo Jiang, Kaihao Lan, Le Hui, Guangyu Li, Jin Xie, and Jian Yang(参考訳) テンプレートと検索エリア間のロバストな機能マッチングを学習することは、3d siameseトラッキングに不可欠である。 Siamese特徴マッチングのコアは、テンプレートと検索領域の間の対応する点に高い特徴類似性を割り当てて、正確なオブジェクトローカライゼーションを行う方法である。 本稿では,空間的対応点(3次元登録による)が一貫した特徴表現を実現する傾向にあるという直感を持つ,新しいクラウド登録駆動のシームズ追跡フレームワークを提案する。 具体的には,追跡固有の非局所登録モジュールと,登録支援シンクホーンテンプレート特徴集約モジュールの2つのモジュールからなる。 登録モジュールは、テンプレートと検索エリアの正確な空間的アライメントを目標とする。 識別的特徴学習のための非局所モジュールにおける空間的距離制限法を提案する。 次に,重み付きSVDを用いてテンプレートと探索領域間の剛性変換を計算し,それらを整列させて所望の空間整合対応点を実現する。 特徴集約モデルでは,変換されたテンプレートと探索領域間の特徴マッチングを最適輸送問題として定式化し,アウトリエロバストマッチング解の探索にシンクホーン最適化を利用する。 また、識別不能領域(例えば、滑らかな表面)の整合性を改善するために、登録支援空間距離マップを構築する。 最後に、得られた特徴マッチングマップを誘導して、テンプレートから対象情報を検索領域に集約し、対象固有の特徴を構築し、オブジェクトのローカライゼーションのためのセンターポイントライクな検出ヘッドに供給する。 kitti,nuscenes,waymoデータセットに関する広範な実験により,提案手法の有効性が検証された。

Learning robust feature matching between the template and search area is crucial for 3D Siamese tracking. The core of Siamese feature matching is how to assign high feature similarity on the corresponding points between the template and search area for precise object localization. In this paper, we propose a novel point cloud registration-driven Siamese tracking framework, with the intuition that spatially aligned corresponding points (via 3D registration) tend to achieve consistent feature representations. Specifically, our method consists of two modules, including a tracking-specific nonlocal registration module and a registration-aided Sinkhorn template-feature aggregation module. The registration module targets at the precise spatial alignment between the template and search area. The tracking-specific spatial distance constraint is proposed to refine the cross-attention weights in the nonlocal module for discriminative feature learning. Then, we use the weighted SVD to compute the rigid transformation between the template and search area, and align them to achieve the desired spatially aligned corresponding points. For the feature aggregation model, we formulate the feature matching between the transformed template and search area as an optimal transport problem and utilize the Sinkhorn optimization to search for the outlier-robust matching solution. Also, a registration-aided spatial distance map is built to improve the matching robustness in indistinguishable regions (e.g., smooth surface). Finally, guided by the obtained feature matching map, we aggregate the target information from the template into the search area to construct the target-specific feature, which is then fed into a CenterPoint-like detection head for object localization. Extensive experiments on KITTI, NuScenes and Waymo datasets verify the effectiveness of our proposed method.
翻訳日:2022-09-15 12:51:40 公開日:2022-09-14
# FreeGaze: 周波数領域のコントラスト学習による資源効率のガゼ推定

FreeGaze: Resource-efficient Gaze Estimation via Frequency Domain Contrastive Learning ( http://arxiv.org/abs/2209.06692v1 )

ライセンス: Link先を確認
Lingyu Du, Guohao Lan(参考訳) 視線推定は、認知心理学の基礎研究から注意を意識したモバイルシステムまで、多くの科学分野や日々の応用において非常に重要である。 近年の深層学習の進歩は、高精度な視線推定システムの構築において顕著な成功を収めている一方で、既存のソリューションの実用性に対する教師付き学習場所課題に対する計算コストと大規模ラベル付き視線データへの依存は顕著である。 これらの制限を超えて、教師なしの視線表現学習のためのリソース効率の高いフレームワークFreeGazeを提案する。 FreeGazeは周波数領域の視線推定と対照的な視線表現学習を設計に取り入れている。 前者はシステムキャリブレーションと視線推定の両方の計算負担を大幅に軽減し、システム遅延を劇的に低減し、後者は既存の教師付き学習ベースのデータラベリングハードルを克服し、視線ラベルのない効率的な視線表現学習を保証する。 2つの視線推定データセットを用いて評価したところ,FreeGazeは既存の教師付き学習手法と同等の視線推定精度を達成でき,システムキャリブレーションと視線推定の最大6.81倍と1.67倍の高速化が可能であった。

Gaze estimation is of great importance to many scientific fields and daily applications, ranging from fundamental research in cognitive psychology to attention-aware mobile systems. While recent advancements in deep learning have yielded remarkable successes in building highly accurate gaze estimation systems, the associated high computational cost and the reliance on large-scale labeled gaze data for supervised learning place challenges on the practical use of existing solutions. To move beyond these limitations, we present FreeGaze, a resource-efficient framework for unsupervised gaze representation learning. FreeGaze incorporates the frequency domain gaze estimation and the contrastive gaze representation learning in its design. The former significantly alleviates the computational burden in both system calibration and gaze estimation, and dramatically reduces the system latency; while the latter overcomes the data labeling hurdle of existing supervised learning-based counterparts, and ensures efficient gaze representation learning in the absence of gaze label. Our evaluation on two gaze estimation datasets shows that FreeGaze can achieve comparable gaze estimation accuracy with existing supervised learning-based approach, while enabling up to 6.81 and 1.67 times speedup in system calibration and gaze estimation, respectively.
翻訳日:2022-09-15 12:51:11 公開日:2022-09-14
# クラシック・シーケンシャルマッチは、競争相手の少ない一級学習者

Classical Sequence Match is a Competitive Few-Shot One-Class Learner ( http://arxiv.org/abs/2209.06394v1 )

ライセンス: Link先を確認
Mengting Hu, Hang Gao, Yinhao Bai, Mingming Liu(参考訳) 現在、トランスフォーマーベースのモデルは徐々に人工知能の先駆者にとってデフォルトの選択肢となっている。 モデルは、数ショットのシナリオでも優位性を示す。 本稿では,古典的手法を再検討し,新しい選択肢を提案する。 具体的には、未知のインスタンスが同じクラスに属するかどうかを検出するために、実際に既知のサンプルを参照として取得する。 この問題はシーケンスマッチングの観点から研究することができる。 メタラーニングでは、古典列マッチング法、すなわち比較集約法がトランスフォーマー法を大幅に上回っていることが示されている。 古典的なアプローチは、トレーニングコストを大幅に削減する。 さらに,簡単な微調整とメタラーニングによる2種類のシーケンスマッチング手法の比較を行った。 メタラーニングはトランスフォーマーモデルの特徴を高相関次元にする。 その理由はトランスモデルのレイヤ数とヘッド数に密接に関係している。 実験的なコードとデータはhttps://github.com/hmt2014/fewoneで入手できる。

Nowadays, transformer-based models gradually become the default choice for artificial intelligence pioneers. The models also show superiority even in the few-shot scenarios. In this paper, we revisit the classical methods and propose a new few-shot alternative. Specifically, we investigate the few-shot one-class problem, which actually takes a known sample as a reference to detect whether an unknown instance belongs to the same class. This problem can be studied from the perspective of sequence match. It is shown that with meta-learning, the classical sequence match method, i.e. Compare-Aggregate, significantly outperforms transformer ones. The classical approach requires much less training cost. Furthermore, we perform an empirical comparison between two kinds of sequence match approaches under simple fine-tuning and meta-learning. Meta-learning causes the transformer models' features to have high-correlation dimensions. The reason is closely related to the number of layers and heads of transformer models. Experimental codes and data are available at https://github.com/hmt2014/FewOne
翻訳日:2022-09-15 12:50:32 公開日:2022-09-14
# BERTに基づくヘイト音声検出のためのアンサンブルアプローチ

BERT-based Ensemble Approaches for Hate Speech Detection ( http://arxiv.org/abs/2209.06505v1 )

ライセンス: Link先を確認
Khouloud Mnassri, Praboda Rajapaksha, Reza Farahbakhsh, Noel Crespi(参考訳) オンラインソーシャルメディアにおけるコミュニケーションの自由により、ヘイトスピーチはますます発生しつつある。 これは個人や国家レベルでの社会生活に影響を与えるサイバー紛争につながる。 その結果、ヘイトフルコンテンツ分類は、ソーシャルネットワークに送られる前にヘイトコンテンツをフィルタリングする必要性が高まっている。 本稿では,ソーシャルメディアにおけるヘイトスピーチの分類について,bertやニューラルネットワークといった最近のトランスフォーマーベースの言語モデルを統合した,複数の深層モデルを用いて検討する。 分類性能を向上させるため,ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いた評価を行った。 私たちは、攻撃的な言語を特定するために生成される3つの公開Twitterデータセット(Davidson、HatEval2019、OLID)を使用しました。 これらのデータセットをすべて融合して、異なるラベル間でよりバランスの取れた単一のデータセット(dhoデータセット)を生成し、複数のラベルの分類を行います。 私たちの実験はdavidsonデータセットとdho corporaで行われました。 結果として、特にF1マクロスコアは、より多くのリソース(実行時間とメモリ)を必要とした。 実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。

With the freedom of communication provided in online social media, hate speech has increasingly generated. This leads to cyber conflicts affecting social life at the individual and national levels. As a result, hateful content classification is becoming increasingly demanded for filtering hate content before being sent to the social networks. This paper focuses on classifying hate speech in social media using multiple deep models that are implemented by integrating recent transformer-based language models such as BERT, and neural networks. To improve the classification performances, we evaluated with several ensemble techniques, including soft voting, maximum value, hard voting and stacking. We used three publicly available Twitter datasets (Davidson, HatEval2019, OLID) that are generated to identify offensive languages. We fused all these datasets to generate a single dataset (DHO dataset), which is more balanced across different labels, to perform multi-label classification. Our experiments have been held on Davidson dataset and the DHO corpora. The later gave the best overall results, especially F1 macro score, even it required more resources (time execution and memory). The experiments have shown good results especially the ensemble models, where stacking gave F1 score of 97% on Davidson dataset and aggregating ensembles 77% on the DHO dataset.
翻訳日:2022-09-15 12:50:19 公開日:2022-09-14
# ラウンドトリップ翻訳によるvec2text

vec2text with Round-Trip Translations ( http://arxiv.org/abs/2209.06792v1 )

ライセンス: Link先を確認
Geoffrey Cideron, Sertan Girgin, Anton Raichuk, Olivier Pietquin, Olivier Bachem, L\'eonard Hussenot(参考訳) 本研究では,任意の自然言語文(例えばすべての英語文)を,有界で凸な制御空間から生成できるモデルについて検討する。 これをuniversal vec2textモデルと呼びます。 このようなモデルはベクトル空間(例えば強化学習)における意味決定を可能にし、自然言語生成はvec2textモデルによって処理される。 我々は,このようなvec2textモデルが持つべき普遍性,多様性,流動性,意味構造という4つの望ましい特性を提案し,それらの評価のための定量的・質的手法を提供する。 我々は,250mパラメータトランスフォーマーモデルにボトルネックを追加して,大規模なwebコーパスから抽出した400m文(10bトークン)に対して,自動エンコード目標で学習することにより,vec2textモデルを実装した。 本稿では,ラウンドトリップ翻訳に基づく単純なデータ拡張手法を提案し,その結果得られたvec2textモデルが,我々の求める4つの特性を満たすベクトル空間を驚くほど引き起こすことを示す。

We investigate models that can generate arbitrary natural language text (e.g. all English sentences) from a bounded, convex and well-behaved control space. We call them universal vec2text models. Such models would allow making semantic decisions in the vector space (e.g. via reinforcement learning) while the natural language generation is handled by the vec2text model. We propose four desired properties: universality, diversity, fluency, and semantic structure, that such vec2text models should possess and we provide quantitative and qualitative methods to assess them. We implement a vec2text model by adding a bottleneck to a 250M parameters Transformer model and training it with an auto-encoding objective on 400M sentences (10B tokens) extracted from a massive web corpus. We propose a simple data augmentation technique based on round-trip translations and show in extensive experiments that the resulting vec2text model surprisingly leads to vector spaces that fulfill our four desired properties and that this model strongly outperforms both standard and denoising auto-encoders.
翻訳日:2022-09-15 12:49:57 公開日:2022-09-14
# コンピュータビジョンと画像解析のための進化的計算に関する調査--過去・現在・未来の動向

A Survey on Evolutionary Computation for Computer Vision and Image Analysis: Past, Present, and Future Trends ( http://arxiv.org/abs/2209.06399v1 )

ライセンス: Link先を確認
Ying Bi, Bing Xue, Pablo Mesejo, Stefano Cagnoni, Mengjie Zhang(参考訳) コンピュータビジョン(CV)は、幅広い応用をカバーする人工知能において、大きく重要な分野である。 画像分析は,画像の視覚的内容の抽出,解析,理解を目的としたCVの主要な課題である。 しかし、画像間のバリエーション、高次元、ドメインの専門知識要件、画像歪みなど、多くの要因により、画像関連のタスクは非常に困難である。 進化的計算(ec)のアプローチは、大きな成果を持つ画像解析に広く使われている。 しかし、画像解析への既存のECアプローチに関する包括的な調査は行われていない。 このギャップを埋めるため,本稿では,エッジ検出,画像分割,画像特徴解析,画像分類,オブジェクト検出など,重要な画像解析タスクに対するecのすべての重要なアプローチに関する総合的な調査を行う。 この調査は、様々なアプローチの貢献について議論し、なぜECがCVや画像解析に使われているのかを探求することで、進化的コンピュータビジョン(ECV)をよりよく理解することを目的としている。 この研究分野に関連する応用、課題、課題、トレンドについても議論し、今後の研究にさらなるガイドラインと機会を提供するために要約する。

Computer vision (CV) is a big and important field in artificial intelligence covering a wide range of applications. Image analysis is a major task in CV aiming to extract, analyse and understand the visual content of images. However, image-related tasks are very challenging due to many factors, e.g., high variations across images, high dimensionality, domain expertise requirement, and image distortions. Evolutionary computation (EC) approaches have been widely used for image analysis with significant achievement. However, there is no comprehensive survey of existing EC approaches to image analysis. To fill this gap, this paper provides a comprehensive survey covering all essential EC approaches to important image analysis tasks including edge detection, image segmentation, image feature analysis, image classification, object detection, and others. This survey aims to provide a better understanding of evolutionary computer vision (ECV) by discussing the contributions of different approaches and exploring how and why EC is used for CV and image analysis. The applications, challenges, issues, and trends associated to this research field are also discussed and summarised to provide further guidelines and opportunities for future research.
翻訳日:2022-09-15 12:46:27 公開日:2022-09-14
# naap-440 ネットワークアーキテクチャ精度予測のためのデータセットとベースライン

NAAP-440 Dataset and Baseline for Network Architecture Accuracy Prediction ( http://arxiv.org/abs/2209.06626v1 )

ライセンス: Link先を確認
Tal Hakim(参考訳) ネットワークアーキテクチャサーチ(NAS)は、異なるターゲットプラットフォームと目的のための新しいニューラルアーキテクチャの開発と発見のための一般的なアプローチとなっている。 しかし,探索空間の走査は,多くの候補アーキテクチャの長期学習プロセスから成り,計算資源や時間の観点からコストがかかる。 回帰アルゴリズムは、候補アーキテクチャの精度を予測する一般的なツールであり、検索手順を劇的に加速することができる。 我々は、アーキテクチャの精度をそのスキームから予測できる回帰アルゴリズムの開発をサポートする新しいベースラインの提案や、最小限のエポック数だけをトレーニングすることを目的としている。 そこで本研究では,CIFAR10を用いた440のニューラルネットワークのNAAP-440データセットを提案する。 実験の結果, 既成の回帰アルゴリズムを用い, 最大10%のトレーニングプロセスを実行することで, アーキテクチャの精度を精度良く予測できるだけでなく, アーキテクチャで予測される値も, 最小限のモノトニック性違反で精度を維持していることが示唆された。 このアプローチは、nasベースの研究を加速し、その効率を劇的に向上させる強力なツールとなり得る。 研究で使用されたデータセットとコードは公開されています。

Network architecture search (NAS) has become a common approach to developing and discovering new neural architectures for different target platforms and purposes. However, scanning the search space is comprised of long training processes of many candidate architectures, which is costly in terms of computational resources and time. Regression algorithms are a common tool to predicting a candidate architecture's accuracy, which can dramatically accelerate the search procedure. We aim at proposing a new baseline that will support the development of regression algorithms that can predict an architecture's accuracy just from its scheme, or by only training it for a minimal number of epochs. Therefore, we introduce the NAAP-440 dataset of 440 neural architectures, which were trained on CIFAR10 using a fixed recipe. Our experiments indicate that by using off-the-shelf regression algorithms and running up to 10% of the training process, not only is it possible to predict an architecture's accuracy rather precisely, but that the values predicted for the architectures also maintain their accuracy order with a minimal number of monotonicity violations. This approach may serve as a powerful tool for accelerating NAS-based studies and thus dramatically increase their efficiency. The dataset and code used in the study have been made public.
翻訳日:2022-09-15 12:46:07 公開日:2022-09-14
# 小形変圧器計算ユニバーサルメトリック埋め込み

Small Transformers Compute Universal Metric Embeddings ( http://arxiv.org/abs/2209.06788v1 )

ライセンス: Link先を確認
Anastasis Kratsios, Valentin Debarnot, Ivan Dokmani\'c(参考訳) 任意の計量空間 $\mathcal{X}$ からのデータの表現を、輸送計量を持つ単変量ガウス混合空間において研究する(Delon and Desolneux 2020)。 我々は,小さなニューラルネットワークによって実装された特徴写像の組込み保証を導出する。 我々の保証は記憶型である: 深さ約$n\log(n)$と幅約$n^2$ can bi-H\"{o}lder の確率変換器が、計量の歪みが低い$\mathcal{X}$から$n$ポイントのデータセットを埋め込むので、次元の呪いを避ける。 さらに,確率論的bi-lipschitzは歪みの量とランダムに選択された一対の点がその歪みに埋め込まれる確率とをトレードオフする保証を導出する。 もし$\mathcal{X}$の幾何が十分正則であれば、データセットのすべての点についてより強いバイリプシッツ保証が得られる。 応用として、リーマン多様体、計量木、ある種の組合せグラフからデータセットに対する神経組込み保証を得る。

We study representations of data from an arbitrary metric space $\mathcal{X}$ in the space of univariate Gaussian mixtures with a transport metric (Delon and Desolneux 2020). We derive embedding guarantees for feature maps implemented by small neural networks called \emph{probabilistic transformers}. Our guarantees are of memorization type: we prove that a probabilistic transformer of depth about $n\log(n)$ and width about $n^2$ can bi-H\"{o}lder embed any $n$-point dataset from $\mathcal{X}$ with low metric distortion, thus avoiding the curse of dimensionality. We further derive probabilistic bi-Lipschitz guarantees which trade off the amount of distortion and the probability that a randomly chosen pair of points embeds with that distortion. If $\mathcal{X}$'s geometry is sufficiently regular, we obtain stronger, bi-Lipschitz guarantees for all points in the dataset. As applications we derive neural embedding guarantees for datasets from Riemannian manifolds, metric trees, and certain types of combinatorial graphs.
翻訳日:2022-09-15 12:45:45 公開日:2022-09-14
# 線形関数近似を用いた分布ロバストオフライン強化学習

Distributionally Robust Offline Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2209.06620v1 )

ライセンス: Link先を確認
Xiaoteng Ma, Zhipeng Liang, Li Xia, Jiheng Zhang, Jose Blanchet, Mingwen Liu, Qianchuan Zhao and Zhengyuan Zhou(参考訳) 現実世界の問題に対する強化学習(rl)の適用を妨げる理由として,データ制限とテスト環境のミスマッチという2つの要因が重要である。 本稿では,分散ロバストなオフラインrlの問題設定と同時に,これらの問題に対処することを試みる。 特に、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。 さらに,本アルゴリズムを大規模問題に適用するために線形関数近似を考える。 我々のアルゴリズムは、線形関数次元 $d$ に依存して、$o(1/\sqrt{k})$ の部分最適化性を達成できることを証明します。 提案手法が非ロバストアルゴリズムよりも優れていることを示すため,様々な実験を行った。

Among the reasons that hinder the application of reinforcement learning (RL) to real-world problems, two factors are critical: limited data and the mismatch of the testing environment compared to training one. In this paper, we attempt to address these issues simultaneously with the problem setup of distributionally robust offline RL. Particularly, we learn an RL agent with the historical data obtained from the source environment and optimize it to perform well in the perturbed one. Moreover, we consider the linear function approximation to apply the algorithm to large-scale problems. We prove our algorithm can achieve the suboptimality of $O(1/\sqrt{K})$ depending on the linear function dimension $d$, which seems to be the first result with sample complexity guarantee in this setting. Diverse experiments are conducted to demonstrate our theoretical findings, showing the superiority of our algorithm against the non-robust one.
翻訳日:2022-09-15 12:45:07 公開日:2022-09-14
# 道路網と軌道上の連立コントラスト表現学習

Jointly Contrastive Representation Learning on Road Network and Trajectory ( http://arxiv.org/abs/2209.06389v1 )

ライセンス: Link先を確認
Zhenyu Mao, Ziyue Li, Dedong Li, Lei Bai, Rui Zhao(参考訳) 道路網と軌道表現学習は、学習された表現が様々な下流タスク(例えば、交通速度推定や旅行時間推定)で直接使用できるため、交通システムにとって不可欠である。 しかし,既存の手法では,道路網と軌道を別々に扱い,重要な相互関係を無視する手法がほとんどである。 本稿では,道路網と軌道表現のエンドツーエンド化を共同で学習する統合フレームワークを提案する。 道路のコントラストと軌道-軌道のコントラストのドメイン固有の拡張をそれぞれ分離して設計する。 さらに,道路軌道のクロススケールコントラストを導入し,全相互情報の最大化により2つのスケールを橋渡しする。 グラフとその属ノードを対比するグラフ上の既存のクロススケールなコントラスト学習法とは異なり、道路セグメントと軌道のコントラストは、新しい正のサンプリングと適応重み付け戦略によって精巧に調整される。 4つのダウンストリームタスクを含む2つの実世界のデータセットに基づく慎重な実験を行い、パフォーマンスと有効性の向上を実証した。 コードはhttps://github.com/mzy94/jclrntで入手できる。

Road network and trajectory representation learning are essential for traffic systems since the learned representation can be directly used in various downstream tasks (e.g., traffic speed inference, and travel time estimation). However, most existing methods only contrast within the same scale, i.e., treating road network and trajectory separately, which ignores valuable inter-relations. In this paper, we aim to propose a unified framework that jointly learns the road network and trajectory representations end-to-end. We design domain-specific augmentations for road-road contrast and trajectory-trajectory contrast separately, i.e., road segment with its contextual neighbors and trajectory with its detour replaced and dropped alternatives, respectively. On top of that, we further introduce the road-trajectory cross-scale contrast to bridge the two scales by maximizing the total mutual information. Unlike the existing cross-scale contrastive learning methods on graphs that only contrast a graph and its belonging nodes, the contrast between road segment and trajectory is elaborately tailored via novel positive sampling and adaptive weighting strategies. We conduct prudent experiments based on two real-world datasets with four downstream tasks, demonstrating improved performance and effectiveness. The code is available at https://github.com/mzy94/JCLRNT.
翻訳日:2022-09-15 12:44:51 公開日:2022-09-14
# TrADe Re-ID -- 追跡と異常検出を用いたライブ人物再同定

TrADe Re-ID -- Live Person Re-Identification using Tracking and Anomaly Detection ( http://arxiv.org/abs/2209.06452v1 )

ライセンス: Link先を確認
Luigy Machaca, F. Oliver Sumari H, Jose Huaman, Esteban Clua, Joris Guerin(参考訳) Person Re-Identification (Re-ID) は、カメラネットワーク内の興味ある人物(クエリー)を検索することを目的としている。 古典的なRe-ID設定では、クエリは、全体の適切な収穫画像を含むギャラリーで検索される。 近年、Re-IDの実践的な適用状況を表すために、ライブRe-ID設定が導入されている。 クェリは短いビデオで検索され、シーン全体のフレームを含む。 最初のライブのRe-IDベースラインは、大型の検索ギャラリーを構築するために歩行者検出器と古典的なRe-IDモデルを使用してギャラリーでクエリーを見つけた。 しかし、生成したギャラリーは大きすぎ、低画質の画像を含んでいたため、ライブの再現性能は低下した。 そこで,我々はTrADeと呼ばれる新しいライブRe-ID手法を提案し,高品質なギャラリーを創出する。 TrADeはまず追跡アルゴリズムを使用して、ギャラリー内の同じ個人の画像のシーケンスを識別する。 次に、各トラックレットの単一の優れた代表を選択するために、異常検出モデルを用いる。 TrADeはPRID-2011データセットのライブRe-IDバージョンで検証されており、ベースラインよりも大幅に改善されている。

Person Re-Identification (Re-ID) aims to search for a person of interest (query) in a network of cameras. In the classic Re-ID setting the query is sought in a gallery containing properly cropped images of entire bodies. Recently, the live Re-ID setting was introduced to represent the practical application context of Re-ID better. It consists in searching for the query in short videos, containing whole scene frames. The initial live Re-ID baseline used a pedestrian detector to build a large search gallery and a classic Re-ID model to find the query in the gallery. However, the galleries generated were too large and contained low-quality images, which decreased the live Re-ID performance. Here, we present a new live Re-ID approach called TrADe, to generate lower high-quality galleries. TrADe first uses a Tracking algorithm to identify sequences of images of the same individual in the gallery. Following, an Anomaly Detection model is used to select a single good representative of each tracklet. TrADe is validated on the live Re-ID version of the PRID-2011 dataset and shows significant improvements over the baseline.
翻訳日:2022-09-15 12:44:27 公開日:2022-09-14
# プランクトン画像の効率的な教師なし学習

Efficient Unsupervised Learning for Plankton Images ( http://arxiv.org/abs/2209.06726v1 )

ライセンス: Link先を確認
Paolo Didier Alfano, Marco Rando, Marco Letizia, Francesca Odone, Lorenzo Rosasco, Vito Paolo Pastore(参考訳) 水生生態系の保全には,シチューにおけるプランクトン群集のモニタリングが不可欠である。 プランクトン微生物は、実際には小さな環境摂動の影響を受けやすく、形態学的および動的変化に反映される。 今日では、高度な自動的または半自動的な取得システムが利用可能になり、ますます大量のプランクトン画像データの生産が可能になった。 このようなデータを分類するための機械学習アルゴリズムの採用は、大量の取得データとプランクトンの種数の両方のため、手動アノテーションの大幅なコストに影響される可能性がある。 これらの課題に対処するために,プランクトン微生物の正確な分類を行うための効率的な教師なし学習パイプラインを提案する。 2段階の手順を利用する画像記述子群を構築する。 まず、予め訓練されたニューラルネットワークによって抽出された特徴に基づいて変分オートエンコーダ(vae)を訓練する。 次に、学習した潜在空間をクラスタリングのイメージ記述子として使用します。 提案手法を最先端の教師なし手法と比較し,プランクトン画像のクラスタリングに予め定義された手作り特徴セットを用いる。 提案するパイプラインは,解析に含まれるすべてのプランクトンデータセットのベンチマークアルゴリズムよりも優れており,画像埋め込み特性が向上している。

Monitoring plankton populations in situ is fundamental to preserve the aquatic ecosystem. Plankton microorganisms are in fact susceptible of minor environmental perturbations, that can reflect into consequent morphological and dynamical modifications. Nowadays, the availability of advanced automatic or semi-automatic acquisition systems has been allowing the production of an increasingly large amount of plankton image data. The adoption of machine learning algorithms to classify such data may be affected by the significant cost of manual annotation, due to both the huge quantity of acquired data and the numerosity of plankton species. To address these challenges, we propose an efficient unsupervised learning pipeline to provide accurate classification of plankton microorganisms. We build a set of image descriptors exploiting a two-step procedure. First, a Variational Autoencoder (VAE) is trained on features extracted by a pre-trained neural network. We then use the learnt latent space as image descriptor for clustering. We compare our method with state-of-the-art unsupervised approaches, where a set of pre-defined hand-crafted features is used for clustering of plankton images. The proposed pipeline outperforms the benchmark algorithms for all the plankton datasets included in our analysis, providing better image embedding properties.
翻訳日:2022-09-15 12:44:07 公開日:2022-09-14
# 確率プロファイルに基づく記号回帰モデルの予測間隔と信頼領域

Prediction Intervals and Confidence Regions for Symbolic Regression Models based on Likelihood Profiles ( http://arxiv.org/abs/2209.06454v1 )

ライセンス: Link先を確認
Fabricio Olivetti de Franca and Gabriel Kronberger(参考訳) シンボリック回帰(英: symbolic regression)は、遺伝的プログラミングのような進化的計算法によって一般的に実行される非線形回帰法である。 回帰モデルの不確かさの定量化は、モデルの解釈と意思決定のために重要である。 線形近似といわゆる確率プロファイルは、非線形回帰モデルに対する信頼度と予測間隔の計算によく知られた可能性である。 これらの単純で効果的な手法は、遺伝子プログラミングの文献で完全に無視されている。 本研究では,2つの異なるデータセット上に3つの異なる記号回帰アルゴリズムを用いて生成したモデルを用いて,確率プロファイルの計算を詳細に記述する。 これらの例は、象徴的回帰モデルの限界を理解し、ユーザが予測後決定を下す手助けをする可能性プロファイルの重要性を強調している。

Symbolic regression is a nonlinear regression method which is commonly performed by an evolutionary computation method such as genetic programming. Quantification of uncertainty of regression models is important for the interpretation of models and for decision making. The linear approximation and so-called likelihood profiles are well-known possibilities for the calculation of confidence and prediction intervals for nonlinear regression models. These simple and effective techniques have been completely ignored so far in the genetic programming literature. In this work we describe the calculation of likelihood profiles in details and also provide some illustrative examples with models created with three different symbolic regression algorithms on two different datasets. The examples highlight the importance of the likelihood profiles to understand the limitations of symbolic regression models and to help the user taking an informed post-prediction decision.
翻訳日:2022-09-15 12:43:50 公開日:2022-09-14
# COMMA:言語に基づく人間活動における動機・感情・行動のモデル化

COMMA: Modeling Relationship among Motivations, Emotions and Actions in Language-based Human Activities ( http://arxiv.org/abs/2209.06470v1 )

ライセンス: Link先を確認
Yuqiang Xie and Yue Hu and Wei Peng and Guanqun Bi and Luxi Xing(参考訳) 動機、感情、行動は人間の活動において相互に関係する重要な要素である。 動機づけや感情は、人々が人間の活動でどのように行動するかを探索するコアとして長い間検討されてきたが、人間の精神状態と行動の関係を分析する研究は比較的少ない。 本研究は,言語に基づく人間活動におけるモチベーション,感情,行動のモデル化の有効性を検討する最初の研究であるcomma(cognitive framework of human activity)について述べる。 COMMAによって導かれた3つの自然言語処理タスク(感情理解,モチベーション理解,条件付き行動生成)を定義し,Story Commonsenseからサンプルを自動的に抽出することで,挑戦的なデータセットHailを構築する。 NLPアプリケーションの実験結果から, 関係のモデル化の有効性が証明された。 さらに,コンマにインスパイアされたモデルでは,モチベーションや感情,行動に必要不可欠な関係を明らかにすることができる。

Motivations, emotions, and actions are inter-related essential factors in human activities. While motivations and emotions have long been considered at the core of exploring how people take actions in human activities, there has been relatively little research supporting analyzing the relationship between human mental states and actions. We present the first study that investigates the viability of modeling motivations, emotions, and actions in language-based human activities, named COMMA (Cognitive Framework of Human Activities). Guided by COMMA, we define three natural language processing tasks (emotion understanding, motivation understanding and conditioned action generation), and build a challenging dataset Hail through automatically extracting samples from Story Commonsense. Experimental results on NLP applications prove the effectiveness of modeling the relationship. Furthermore, our models inspired by COMMA can better reveal the essential relationship among motivations, emotions and actions than existing methods.
翻訳日:2022-09-15 12:43:38 公開日:2022-09-14
# 潜在特徴表現学習によるネットワーク型インターネット検閲の検出

Detecting Network-based Internet Censorship via Latent Feature Representation Learning ( http://arxiv.org/abs/2209.05152v2 )

ライセンス: Link先を確認
Shawn P. Duncan and Hui Chen(参考訳) インターネット検閲は社会的重要性の現象であり、複数の分野から調査を引き寄せている。 Censored Planetなどいくつかの研究グループが、大規模なインターネット計測プラットフォームを運用して、ネットワークの到達可能性データを収集している。 しかし、既存の研究は通常、データからネットワークベースのインターネット検閲を検出するために手動で設計された規則(検閲指紋を使用する)に依存している。 このルールに基づくアプローチは、真の正の検知率が高いが、それはいくつかの課題に悩まされている。 これらの課題を克服するために、潜在特徴表現学習に基づく分類モデルと、ネットワークベースのインターネット検閲を検出する画像に基づく分類モデルの設計と評価を行う。 ネットワーク到達性データから潜在特徴表現を推定するために,データ中のデータ要素の構造と順序をキャプチャするシーケンシャル・ツー・シーケンス・オートエンコーダを提案する。 推定潜在特徴から検閲イベントの確率を推定するために、密結合型多層ニューラルネットワークモデルを用いる。 画像ベース分類モデルは、ネットワーク到達性データレコードをグレースケール画像として符号化し、高密度畳み込みニューラルネットワークを用いて画像が検閲されているか否かを分類する。 我々は,Censored Planetのデータセットを用いて,両アプローチを比較し,評価する。 どちらの分類モデルも、既知の指紋で検出されない検閲の事例を識別できるため、ネットワークベースのインターネット検閲を検出することができる。 潜在特徴表現は、潜在特徴学習アプローチが新しい検閲インスタンスの量とより多様なセットを発見して以来、データ内のニュアンスを符号化する可能性が高い。

Internet censorship is a phenomenon of societal importance and attracts investigation from multiple disciplines. Several research groups, such as Censored Planet, have deployed large scale Internet measurement platforms to collect network reachability data. However, existing studies generally rely on manually designed rules (i.e., using censorship fingerprints) to detect network-based Internet censorship from the data. While this rule-based approach yields a high true positive detection rate, it suffers from several challenges: it requires human expertise, is laborious, and cannot detect any censorship not captured by the rules. Seeking to overcome these challenges, we design and evaluate a classification model based on latent feature representation learning and an image-based classification model to detect network-based Internet censorship. To infer latent feature representations from network reachability data, we propose a sequence-to-sequence autoencoder to capture the structure and the order of data elements in the data. To estimate the probability of censorship events from the inferred latent features, we rely on a densely connected multi-layer neural network model. Our image-based classification model encodes a network reachability data record as a gray-scale image and classifies the image as censored or not using a dense convolutional neural network. We compare and evaluate both approaches using data sets from Censored Planet via a hold-out evaluation. Both classification models are capable of detecting network-based Internet censorship as we were able to identify instances of censorship not detected by the known fingerprints. Latent feature representations likely encode more nuances in the data since the latent feature learning approach discovers a greater quantity, and a more diverse set, of new censorship instances.
翻訳日:2022-09-15 11:08:36 公開日:2022-09-14
# APTx: 深層学習におけるMISH, SWISH, ReLUの変種よりも優れた活性化機能

APTx: better activation function than MISH, SWISH, and ReLU's variants used in deep learning ( http://arxiv.org/abs/2209.06119v2 )

ライセンス: Link先を確認
Ravin Kumar(参考訳) Activation Functionsはディープニューラルネットワークに非線形性を導入する。 この非線形性は、データセットからニューラルネットワークを高速かつ効率的に学習するのに役立つ。 ディープラーニングでは、多くのアクティベーション関数が、問題ステートメントのタイプに基づいて開発され、使用される。 ReLUの変種であるSWISHとMISHはgotoアクティベーション機能である。 MISH関数はSWISHと同等かそれ以上の性能があり、ReLUよりずっと優れていると考えられている。 本稿では,MISHとよく似た動作をするアクティベーション関数 APTx を提案する。 APTxのより少ない計算要件は、モデルのトレーニングを高速化し、深層学習モデルのハードウェア要件を低減します。

Activation Functions introduce non-linearity in the deep neural networks. This nonlinearity helps the neural networks learn faster and efficiently from the dataset. In deep learning, many activation functions are developed and used based on the type of problem statement. ReLU's variants, SWISH, and MISH are goto activation functions. MISH function is considered having similar or even better performance than SWISH, and much better than ReLU. In this paper, we propose an activation function named APTx which behaves similar to MISH, but requires lesser mathematical operations to compute. The lesser computational requirements of APTx does speed up the model training, and thus also reduces the hardware requirement for the deep learning model.
翻訳日:2022-09-15 11:08:09 公開日:2022-09-14
# sancl: 選択的注意と自然コントラスト学習によるマルチモーダルレビュー支援性予測

SANCL: Multimodal Review Helpfulness Prediction with Selective Attention and Natural Contrastive Learning ( http://arxiv.org/abs/2209.05040v3 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Zhen Hai, Soujanya Poria, Lidong Bing(参考訳) 電子商取引のブームに伴い、製品レビューを予測された有用度スコアに従ってソートすることを目的としたMRHP(Multimodal Review Helpfulness Prediction)が研究ホットスポットとなっている。 このタスクに関する以前の仕事は、注意に基づくモダリティ融合、情報統合、関係モデリングに焦点を当てている。 1) モデルは,無差別な注意定式化のために本質的な情報を把握できない場合がある。 2) 提供データ間の相関を最大限に活用する適切なモデリング手法が欠如している。 本稿では,MRHPのためのSANCL: Selective Attention and Natural Contrastive Learningを提案する。 SANCLは、より重要な領域に高い注意重みを強制するためのプローブベースの戦略を採用している。 また、データセット内の自然マッチングプロパティに基づいたコントラスト学習フレームワークも構築している。 3つのカテゴリを持つ2つのベンチマークデータセットの実験結果から、SANCLはメモリ消費を抑えながら最先端のベースライン性能を達成することが示された。

With the boom of e-commerce, Multimodal Review Helpfulness Prediction (MRHP), which aims to sort product reviews according to the predicted helpfulness scores has become a research hotspot. Previous work on this task focuses on attention-based modality fusion, information integration, and relation modeling, which primarily exposes the following drawbacks: 1) the model may fail to capture the really essential information due to its indiscriminate attention formulation; 2) lack appropriate modeling methods that take full advantage of correlation among provided data. In this paper, we propose SANCL: Selective Attention and Natural Contrastive Learning for MRHP. SANCL adopts a probe-based strategy to enforce high attention weights on the regions of greater significance. It also constructs a contrastive learning framework based on natural matching properties in the dataset. Experimental results on two benchmark datasets with three categories show that SANCL achieves state-of-the-art baseline performance with lower memory consumption.
翻訳日:2022-09-15 11:07:58 公開日:2022-09-14
# 分布外ロバスト性を有する病変分割のためのクロスエントロピーとソフトディス損失の最適組み合わせについて

On the Optimal Combination of Cross-Entropy and Soft Dice Losses for Lesion Segmentation with Out-of-Distribution Robustness ( http://arxiv.org/abs/2209.06078v2 )

ライセンス: Link先を確認
Adrian Galdran, Gustavo Carneiro, Miguel \'Angel Gonz\'alez Ballester(参考訳) 医用画像の病変セグメント化に対する異なる損失関数の影響について検討した。 自然画像を扱う際には、クロスエントロピー(CE)損失が最も一般的な選択肢であるが、バイオメディカル画像のセグメンテーションでは、不均衡なシナリオを処理できるため、ソフトディス損失が好まれる。 一方で、この2つの関数の組み合わせは、この種のタスクでもうまく適用されている。 研究の少ない問題は、アウト・オブ・ディストリビューション(OoD)データの存在下でのこれらの損失の一般化能力である。 これは、トレーニング画像とは異なる分布から抽出されたテスト時間に現れるサンプルを指す。 私たちの場合、常に病変を含む画像でモデルをトレーニングしますが、テスト時には病変のないサンプルも持っています。 各種損失関数の最小化がin-distriionパフォーマンスに与える影響を解析するとともに,OoDデータに一般化する能力を,内視鏡画像からのポリプセグメンテーションと糖尿病足部画像からの潰瘍セグメンテーションの総合的な実験により分析した。 CE-Dice損失の組み合わせは,OoDデータを扱う場合のセグメンテーション・イン・ディストリビューション・イメージに優れており,その堅牢性やOoDサンプルへの一般化能力から,このような問題に対するCE損失の導入を推奨する。 実験に関連するコードは、https://github.com/agaldran/lesion_losses_ood にある。

We study the impact of different loss functions on lesion segmentation from medical images. Although the Cross-Entropy (CE) loss is the most popular option when dealing with natural images, for biomedical image segmentation the soft Dice loss is often preferred due to its ability to handle imbalanced scenarios. On the other hand, the combination of both functions has also been successfully applied in this kind of tasks. A much less studied problem is the generalization ability of all these losses in the presence of Out-of-Distribution (OoD) data. This refers to samples appearing in test time that are drawn from a different distribution than training images. In our case, we train our models on images that always contain lesions, but in test time we also have lesion-free samples. We analyze the impact of the minimization of different loss functions on in-distribution performance, but also its ability to generalize to OoD data, via comprehensive experiments on polyp segmentation from endoscopic images and ulcer segmentation from diabetic feet images. Our findings are surprising: CE-Dice loss combinations that excel in segmenting in-distribution images have a poor performance when dealing with OoD data, which leads us to recommend the adoption of the CE loss for this kind of problems, due to its robustness and ability to generalize to OoD samples. Code associated to our experiments can be found at https://github.com/agaldran/lesion_losses_ood .
翻訳日:2022-09-15 11:07:41 公開日:2022-09-14
# 雑音拡散確率モデルに基づくpet画像の雑音化

PET image denoising based on denoising diffusion probabilistic models ( http://arxiv.org/abs/2209.06167v2 )

ライセンス: Link先を確認
Kuang Gong, Keith A. Johnson, Georges El Fakhri, Quanzheng Li, Tinsu Pan(参考訳) 様々な物理的劣化要因と受信回数の制限により、PET画像の品質はさらなる改善が必要である。 denoising diffusion probabilistic models (ddpm) は、正規分布を反復的な改良に基づいて特定のデータ分布に変換する分布学習に基づくモデルである。 そこで本研究では,PET画像復調のためのDDPM法の提案と評価を行った。 DDPMフレームワークでは,PET画像のデノナイズを行う一つの方法は,ネットワーク入力としてPET画像および/または先行画像を提供することである。 別の方法は、改良ステップに含まれるPET画像の入力として事前画像を供給することで、異なるノイズレベルのシナリオに適合する。 120個の18F-FDGデータセットと140個の18F-MK-6240データセットを用いて提案手法の評価を行った。 定量化により,PET情報を含むDDPMベースのフレームワークは,非局所平均およびUnetベースのデノナイジング法よりも優れた結果が得られることが示された。 モデルにさらにmrを追加することで、パフォーマンスが向上し、画像デノイジング中の不確実性をさらに低減することができる。 PET情報を無視しながらMRを頼りにすると、大きなバイアスが発生する。 領域的および表面的定量化は,PET画像を推論時のデータ一貫性制約として埋め込んだ上で,ネットワーク入力としてMRを用いることで,最高の性能が得られることを示す。 まとめると、ddpmベースのpet画像デノイジングは、非局所平均およびunetベースのデノイジング法よりも効率的に先行情報を活用し、優れたパフォーマンスを達成するための柔軟なフレームワークである。

Due to various physical degradation factors and limited counts received, PET image quality needs further improvements. The denoising diffusion probabilistic models (DDPM) are distribution learning-based models, which try to transform a normal distribution into a specific data distribution based on iterative refinements. In this work, we proposed and evaluated different DDPM-based methods for PET image denoising. Under the DDPM framework, one way to perform PET image denoising is to provide the PET image and/or the prior image as the network input. Another way is to supply the prior image as the input with the PET image included in the refinement steps, which can fit for scenarios of different noise levels. 120 18F-FDG datasets and 140 18F-MK-6240 datasets were utilized to evaluate the proposed DDPM-based methods. Quantification show that the DDPM-based frameworks with PET information included can generate better results than the nonlocal mean and Unet-based denoising methods. Adding additional MR prior in the model can help achieve better performance and further reduce the uncertainty during image denoising. Solely relying on MR prior while ignoring the PET information can result in large bias. Regional and surface quantification shows that employing MR prior as the network input while embedding PET image as a data-consistency constraint during inference can achieve the best performance. In summary, DDPM-based PET image denoising is a flexible framework, which can efficiently utilize prior information and achieve better performance than the nonlocal mean and Unet-based denoising methods.
翻訳日:2022-09-15 11:07:15 公開日:2022-09-14
# 知識ベース質問応答:意味的パーシングの視点から

Knowledge Base Question Answering: A Semantic Parsing Perspective ( http://arxiv.org/abs/2209.04994v2 )

ライセンス: Link先を確認
Yu Gu, Vardaan Pahuja, Gong Cheng, Yu Su(参考訳) 近年のディープラーニングの進歩は意味解析の研究を大いに推進している。 web apiへの自然言語インターフェース、テキストからsqlへの生成など、多くのダウンストリームタスクで改善がなされている。 しかし,これらの課題と密接な関係にあるにもかかわらず,知識ベース(KBQA)に対する質問応答の研究は比較的緩やかに進んでいる。 KBQAには,スキーマレベルの複雑性とファクトレベルの複雑性という2つのユニークな課題があります。 本調査では,KBQAを意味解析の幅広い文献に位置づけ,既存のKBQAアプローチがどのような課題に対処しようとしているのかを包括的に説明する。 独特な課題にかかわらず、KBQAに関する既存の研究で見過ごされている意味解析の文献から、いまだ多くのインスピレーションを得ることができると論じる。 議論から,KBQA研究のボトルネックをよりよく理解し,特に事前学習された言語モデルの時代において,KBQAが意味解析の文献に沿うための将来性のある方向性に光を当てることができた。

Recent advances in deep learning have greatly propelled the research on semantic parsing. Improvement has since been made in many downstream tasks, including natural language interface to web APIs, text-to-SQL generation, among others. However, despite the close connection shared with these tasks, research on question answering over knowledge bases (KBQA) has comparatively been progressing slowly. We identify and attribute this to two unique challenges of KBQA, schema-level complexity and fact-level complexity. In this survey, we situate KBQA in the broader literature of semantic parsing and give a comprehensive account of how existing KBQA approaches attempt to address the unique challenges. Regardless of the unique challenges, we argue that we can still take much inspiration from the literature of semantic parsing, which has been overlooked by existing research on KBQA. Based on our discussion, we can better understand the bottleneck of current KBQA research and shed light on promising directions for KBQA to keep up with the literature of semantic parsing, particularly in the era of pre-trained language models.
翻訳日:2022-09-15 11:06:18 公開日:2022-09-14
# r\'{e}nyiダイバージェンス深層相互学習

R\'{e}nyi Divergence Deep Mutual Learning ( http://arxiv.org/abs/2209.05732v2 )

ライセンス: Link先を確認
Weipeng Huang, Junjie Tao, Changbo Deng, Ming Fan, Wenqiang Wan, Qi Xiong, Guangyuan Piao(参考訳) 本稿では,非常に単純だが極めて効果的な計算パラダイムであるDeep Mutual Learning (DML)を再考する。 有効性はその優れた一般化品質に高い相関関係があることを観察する。 本稿では,DMLによる性能改善を,ほぼ近似したベイズ後方サンプリング法である,という新たな視点から解釈する。 これはまた、以前の(DMLの文脈における)分散制御をもたらすため、元のDMLを改善するためにR\'{e}nyiの発散を適用する基盤も確立する。 そこで我々はR\'{e}nyi Divergence Deep Mutual Learning (RDML)を提案する。 我々の経験的結果は、DMLと‘renyi{} divergence’の結婚の利点を表している。 R\'{e}nyi divergence によって課される柔軟な制御により、DMLをさらに改善し、より一般化されたモデルを学ぶことができる。

This paper revisits an incredibly simple yet exceedingly effective computing paradigm, Deep Mutual Learning (DML). We observe that the effectiveness correlates highly to its excellent generalization quality. In the paper, we interpret the performance improvement with DML from a novel perspective that it is roughly an approximate Bayesian posterior sampling procedure. This also establishes the foundation for applying the R\'{e}nyi divergence to improve the original DML, as it brings in the variance control of the prior (in the context of DML). Therefore, we propose R\'{e}nyi Divergence Deep Mutual Learning (RDML). Our empirical results represent the advantage of the marriage of DML and the \renyi{} divergence. The flexible control imposed by the R\'{e}nyi divergence is able to further improve DML to learn better generalized models.
翻訳日:2022-09-15 11:05:58 公開日:2022-09-14
# 暗号通貨取引のための深層強化学習--バックテストオーバーフィッティングへの実践的アプローチ

Deep Reinforcement Learning for Cryptocurrency Trading: Practical Approach to Address Backtest Overfitting ( http://arxiv.org/abs/2209.05559v2 )

ライセンス: Link先を確認
Berend Jelmer Dirk Gort, Xiao-Yang Liu, Xinghang Sun, Jiechao Gao, Shuaiyu Chen, Christina Dan Wang(参考訳) 非常に不安定な暗号通貨市場では、利益と信頼性の高いトレーディング戦略を設計することは困難である。 既存の研究は深層強化学習法を適用し、過剰適合による偽陽性の問題に苦しむバックテストの利益を楽観的に報告している。 本稿では,深層強化学習を用いた暗号通貨取引のバックテストオーバーフィットに対処する実践的アプローチを提案する。 まず, 仮説テストとして, バックテストオーバーフィットの検出を定式化する。 そして、DRLエージェントを訓練し、過適合の確率を推定し、過適合のエージェントを拒絶し、良好な取引性能の可能性が高まる。 最後に、05/01/2022から06/27/2022(暗号市場が2回クラッシュしている間に)までの試験期間における10の暗号について、未適合の深層強化学習エージェントは、過適合のエージェントよりもシャープ比が高く、均等な重量戦略、S&P DBM指数(市場ベンチマーク)が示され、実際の市場への展開の信頼性を提供する。

Designing profitable and reliable trading strategies is challenging in the highly volatile cryptocurrency market. Existing works applied deep reinforcement learning methods and optimistically reported increased profits in backtesting, which may suffer from the false positive issue due to overfitting. In this paper, we propose a practical approach to address backtest overfitting for cryptocurrency trading using deep reinforcement learning. First, we formulate the detection of backtest overfitting as a hypothesis test. Then, we train the DRL agents, estimate the probability of overfitting, and reject the overfitted agents, increasing the chance of good trading performance. Finally, on 10 cryptocurrencies over a testing period from 05/01/2022 to 06/27/2022 (during which the crypto market crashed two times), we show that the less overfitted deep reinforcement learning agents have a higher Sharpe ratio than that of more over-fitted agents, an equal weight strategy, and the S&P DBM Index (market benchmark), offering confidence in possible deployment to a real market.
翻訳日:2022-09-15 11:05:28 公開日:2022-09-14
# Fact-Checked Claim 検出のためのハラスティング抽象要約法

Harnessing Abstractive Summarization for Fact-Checked Claim Detection ( http://arxiv.org/abs/2209.04612v2 )

ライセンス: Link先を確認
Varad Bhatnagar, Diptesh Kanojia, Kameswari Chebrolu(参考訳) ソーシャルメディアプラットフォームは反社会的要素の新たな戦場となり、誤った情報が選択の武器となっている。 ファクトチェック組織は、報道プロセスに忠実でありながら、できるだけ多くの主張を否定しようとするが、その急速な普及には対処できない。 このソリューションは、事実チェックのライフサイクルを部分的に自動化し、高い認識を必要とするタスクに人間の時間を節約することにあると信じています。 本稿では,抽象的な要約を用いたクェリを効率的に検出するワークフローを提案する。 これらのクエリは、以前ファクトチェックされたクレームのコレクションに関連する汎用検索システム上で実行される。 我々は,Twitterとそのゴールドサマリーからのノイズの多いクレームを含む抽象テキスト要約データセットをキュレートする。 検索性能は,市販の要約モデルを用いて2倍,付随するデータセット上で3倍の微調整を行うことで2倍向上することを示した。 提案手法では,Recall@5 と MRR が 35% と 0.3 であり,ベースライン値は 10% と 0.1 である。 データセット、コード、モデルは公開されています。 https://github.com/varadhbhatnagar/FC-Claim-Det/

Social media platforms have become new battlegrounds for anti-social elements, with misinformation being the weapon of choice. Fact-checking organizations try to debunk as many claims as possible while staying true to their journalistic processes but cannot cope with its rapid dissemination. We believe that the solution lies in partial automation of the fact-checking life cycle, saving human time for tasks which require high cognition. We propose a new workflow for efficiently detecting previously fact-checked claims that uses abstractive summarization to generate crisp queries. These queries can then be executed on a general-purpose retrieval system associated with a collection of previously fact-checked claims. We curate an abstractive text summarization dataset comprising noisy claims from Twitter and their gold summaries. It is shown that retrieval performance improves 2x by using popular out-of-the-box summarization models and 3x by fine-tuning them on the accompanying dataset compared to verbatim querying. Our approach achieves Recall@5 and MRR of 35% and 0.3, compared to baseline values of 10% and 0.1, respectively. Our dataset, code, and models are available publicly: https://github.com/varadhbhatnagar/FC-Claim-Det/
翻訳日:2022-09-15 11:05:05 公開日:2022-09-14
# インクリメンタルビデオハイライト検出のためのグローバルプロトタイプ符号化

Global Prototype Encoding for Incremental Video Highlights Detection ( http://arxiv.org/abs/2209.05166v2 )

ライセンス: Link先を確認
Sen Pei, Shixiong Xu, Ye Yuan, and Xiaojie Jin(参考訳) ビデオハイライト検出は、コンピュータビジョンタスクにおけるトピックとして長い間研究されてきた。 しかし、ほとんどの場合、この研究の主流となる手法は、あらかじめ一定の数のハイライトカテゴリを適切に定義し、同時にすべてのトレーニングデータを利用できるようにし、結果として、ハイライトカテゴリとデータセットのサイズの両方に関してスケーラビリティの低下につながるという、クローズドワールドの前提に基づいて構築されている。 本稿では,上記の問題に対処するために,拡張データセットで新たに定義された映像ハイライトを対応するプロトタイプを用いてキャプチャし,段階的に学習可能なビデオハイライト検出器を提案する。 同時に,5.1k以上のグルメビデオを含む,注釈付きで費用がかかる「emph{ByteFood}」というデータセットを,それぞれ「emph{cooking}」,「emph{eating}」,「emph{food material}」,「emph{presentation}」の4つの異なるドメインに属している。 私たちの知る限り、インクリメンタルな学習設定がビデオハイライト検出に導入されたのはこれが初めてであり、それによってビデオ入力のトレーニングの負担が軽減され、データセットのサイズとドメインの量の両方に比例して従来のニューラルネットワークのスケーラビリティが向上する。 さらに、提案したGPEは、現在のemph{ByteFood}の漸進的な学習方法を超え、少なくとも1.57\% mAPの改善を報告している。 コードとデータセットはすぐに利用可能になる。

Video highlights detection has been long researched as a topic in computer vision tasks, digging the user-appealing clips out given unexposed raw video inputs. However, in most case, the mainstream methods in this line of research are built on the closed world assumption, where a fixed number of highlight categories is defined properly in advance and need all training data to be available at the same time, and as a result, leads to poor scalability with respect to both the highlight categories and the size of the dataset. To tackle the problem mentioned above, we propose a video highlights detector that is able to learn incrementally, namely \textbf{G}lobal \textbf{P}rototype \textbf{E}ncoding (GPE), capturing newly defined video highlights in the extended dataset via their corresponding prototypes. Alongside, we present a well annotated and costly dataset termed \emph{ByteFood}, including more than 5.1k gourmet videos belongs to four different domains which are \emph{cooking}, \emph{eating}, \emph{food material}, and \emph{presentation} respectively. To the best of our knowledge, this is the first time the incremental learning settings are introduced to video highlights detection, which in turn relieves the burden of training video inputs and promotes the scalability of conventional neural networks in proportion to both the size of the dataset and the quantity of domains. Moreover, the proposed GPE surpasses current incremental learning methods on \emph{ByteFood}, reporting an improvement of 1.57\% mAP at least. The code and dataset will be made available sooner.
翻訳日:2022-09-15 11:04:45 公開日:2022-09-14
# 一般画面コンテンツ品質評価のための深層特徴統計マッピング

Deep Feature Statistics Mapping for Generalized Screen Content Image Quality Assessment ( http://arxiv.org/abs/2209.05321v2 )

ライセンス: Link先を確認
Baoliang Chen, Hanwei Zhu, Lingyu Zhu, Shiqi Wang, Sam Kwong(参考訳) 自然画像の統計正則性は自然シーン統計と呼ばれ、非参照画像の品質評価において重要な役割を果たす。 しかし、通常コンピュータ生成されるスクリーンコンテンツ画像(SCI)はそのような統計を持っていないことが広く認識されている。 ここでは,SCIの質を効果的に決定できる指標に基づいて,SCIの統計を学習するための最初の試みを行う。 提案手法の基盤となるメカニズムは、物理的に取得されていないSCIが、学習方法で理解可能な統計に従うという野放な仮定に基づいている。 本研究では, 統計的偏差が品質評価において有効に活用できることを実証的に示し, 異なる設定で評価した場合, 提案手法の方が優れていることを示す。 SCI品質評価モデル(DFSS-IQA)は、既存のNR-IQAモデルと比較して有望な性能を示し、データセット間設定において高い一般化能力を示す。 本手法の実装はhttps://github.com/Baoliang93/DFSS-IQAで公開されている。

The statistical regularities of natural images, referred to as natural scene statistics, play an important role in no-reference image quality assessment. However, it has been widely acknowledged that screen content images (SCIs), which are typically computer generated, do not hold such statistics. Here we make the first attempt to learn the statistics of SCIs, based upon which the quality of SCIs can be effectively determined. The underlying mechanism of the proposed approach is based upon the wild assumption that the SCIs, which are not physically acquired, still obey certain statistics that could be understood in a learning fashion. We empirically show that the statistics deviation could be effectively leveraged in quality assessment, and the proposed method is superior when evaluated in different settings. Extensive experimental results demonstrate the Deep Feature Statistics based SCI Quality Assessment (DFSS-IQA) model delivers promising performance compared with existing NR-IQA models and shows a high generalization capability in the cross-dataset settings. The implementation of our method is publicly available at https://github.com/Baoliang93/DFSS-IQA.
翻訳日:2022-09-15 11:04:14 公開日:2022-09-14
# 自律検査のための仮想水中データセット

Virtual Underwater Datasets for Autonomous Inspections ( http://arxiv.org/abs/2209.06013v2 )

ライセンス: Link先を確認
Ioannis Polymenis, Maryam Haroutunian, Rose Norman, David Trodden(参考訳) 水中車両は、オフショア部門と科学コミュニティの水中運用の急速な進歩によって、より洗練されたものになっている。 特に、海底インフラの評価を含む多くの水中作業は、自律型水中車両(AUV)の助けを借りて行われる。 人工知能(AI)や、特にDeep Learning(DL)モデルやアプリケーションは、無人航空機、自律走行車ナビゲーションなど、さまざまな分野で広く利用されている。 しかし、特定のアプリケーションで水中データセットを取得するのが困難であるため、水中アプリケーションではあまり普及していない。 この意味で,本研究では, 実験室で収集したアイテムの写真から生成したベスポークデータセットを構築するために, DL領域の最近の進歩を活用している。 ジェネレーティブ・Adversarial Networks (GAN) を用いて, 収集した画像と水中環境を含む写真を組み合わせて, 実験対象のデータセットを水中領域に翻訳した。 その結果、実際の水中船体画像と比較すると、画像は実際の水中環境とよく似ているため、このようなデータセットを作成する可能性を示した。 したがって、水中環境の人工データセットは、現実世界の水中画像へのアクセス制限による困難を克服することができ、水中物体の分類と検出を通じて水中操作を強化するために使用される。

Underwater Vehicles have become more sophisticated, driven by the off-shore sector and the scientific community's rapid advancements in underwater operations. Notably, many underwater tasks, including the assessment of subsea infrastructure, are performed with the assistance of Autonomous Underwater Vehicles (AUVs). There have been recent breakthroughs in Artificial Intelligence (AI) and, notably, Deep Learning (DL) models and applications, which have widespread usage in a variety of fields, including aerial unmanned vehicles, autonomous car navigation, and other applications. However, they are not as prevalent in underwater applications due to the difficulty of obtaining underwater datasets for a specific application. In this sense, the current study utilises recent advancements in the area of DL to construct a bespoke dataset generated from photographs of items captured in a laboratory environment. Generative Adversarial Networks (GANs) were utilised to translate the laboratory object dataset into the underwater domain by combining the collected images with photographs containing the underwater environment. The findings demonstrated the feasibility of creating such a dataset, since the resulting images closely resembled the real underwater environment when compared with real-world underwater ship hull images. Therefore, the artificial datasets of the underwater environment can overcome the difficulties arising from the limited access to real-world underwater images and are used to enhance underwater operations through underwater object image classification and detection.
翻訳日:2022-09-15 11:03:56 公開日:2022-09-14
# 責任あるAIパターンカタログ:多言語文献レビュー

Responsible AI Pattern Catalogue: A Multivocal Literature Review ( http://arxiv.org/abs/2209.04963v2 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, Didar Zowghi, Aurelie Jacquet(参考訳) 責任あるAIは、我々の時代における最大の科学的課題の1つであり、AIの採用を促進する鍵であると考えられてきた。 最近、多くのAI倫理原則フレームワークが公開された。 しかし、それ以上のベストプラクティスの指導がなければ、実践者は残らず残される。 また、システムレベルよりもアルゴリズムレベルに重要な取り組みがなされており、主に数学に適応可能な倫理原則(公正性など)のサブセットに焦点を当てている。 それでも、倫理的な問題は、AIアルゴリズムやモデル以外のシステムの多くのAIおよび非AIコンポーネントを横断する開発ライフサイクルの任意のステップで起こりうる。 本稿では,システムの観点から責任あるAIを運用するために,MLR(Multivocal Literature Review)の結果に基づく責任あるAIパターンカタログを提案する。 原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。 Responsible AI Pattern Catalogueは、パターンを3つのグループに分類する。 これらのパターンは、ステークホルダーが責任あるAIを実装するための体系的で実行可能なガイダンスを提供する。

Responsible AI has been widely considered as one of the greatest scientific challenges of our time and the key to increase the adoption of AI. A number of AI ethics principles frameworks have been published recently. However, without further best practice guidance, practitioners are left with nothing much beyond truisms. Also, significant efforts have been placed at algorithm-level rather than system-level, mainly focusing on a subset of mathematics-amenable ethical principles (such as fairness). Nevertheless, ethical issues can occur at any step of the development lifecycle crosscutting many AI and non-AI components of systems beyond AI algorithms and models. To operationalize responsible AI from a system perspective, in this paper, we present a Responsible AI Pattern Catalogue based on the results of a Multivocal Literature Review (MLR). Rather than staying at the principle or algorithm level, we focus on patterns that AI system stakeholders can undertake in practice to ensure that the developed AI systems are responsible throughout the entire governance and engineering lifecycle. The Responsible AI Pattern Catalogue classifies the patterns into three groups: multi-level governance patterns, trustworthy process patterns, and responsible-AI-by-design product patterns. These patterns provide a systematic and actionable guidance for stakeholders to implement responsible AI.
翻訳日:2022-09-15 11:03:18 公開日:2022-09-14