このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220503となっている論文です。

PDF登録状況(公開日: 20220503)

TitleAuthorsAbstract論文公表日・翻訳日
# 信頼度を有する熱星系の多層特性評価

Multi-layered characterization of hot stellar systems with confidence ( http://arxiv.org/abs/2003.05777v5 )

ライセンス: Link先を確認
Souradeep Chattopadhyay and Steven D. Kawaler and Ranjan Maitra(参考訳) ホットステラー系(HSS)の物理的および進化的性質を理解することは天文学における大きな課題である。 恒星質量 (m_s$), 有効半径 (r_e$), 質量対光度比 (m_s/l_\nu$) を用いた12763個の球状星団を含むミスゲルドとヒルカー (2011) の13456 hss のデータセットを解析し、これら恒星系間での多層均質なグループ化を発見した。 本手法は, 最上級の部分群レベルで8つの均質な楕円型群を導出する。 これらの群のいくつかは高い重なり合いを持ち、Almod\'ovar-Rivera と Maitra (2020) から動機付けられた多相同期アルゴリズムによってマージされた。 第一段階では5つの群が合併し、3つの群が複合構造となった。 アルゴリズムにより,さらに複雑な構造が決定され,融合相が認められた。 グループ割り当ての信頼度を推定するためにも,非パラメトリックブートストラップ法が用いられた。 これらの割り当ては一般に分類に高い信頼を持ち、hss割り当ての複素構造群への確実性を示している。 両群の物理的および運動的性質は, m_s$, $r_e$, surface density, $m_s/l_\nu$で評価した。 第1群は、より古く、小さく、より明るく、第2群は、より明るく、より若いHSSであった。 本解析は,hssの物理的および進化的性質に関する新たな知見を与え,候補球状星団の物理的および進化的特性の理解にも寄与する。 さらに、候補球状クラスター(gcs)は、互いに非常に異なることが示される準小楕円体や準楕円体ではなく、実際にgcである可能性が非常に高いと考えられている。

Understanding the physical and evolutionary properties of Hot Stellar Systems (HSS) is a major challenge in astronomy. We studied the dataset on 13456 HSS of Misgeld and Hilker (2011) that includes 12763 candidate globular clusters using stellar mass ($M_s$), effective radius ($R_e$) and mass-to-luminosity ratio ($M_s/L_\nu$), and found multi-layered homogeneous grouping among these stellar systems. Our methods elicited eight homogeneous ellipsoidal groups at the finest sub-group level. Some of these groups have high overlap and were merged through a multi-phased syncytial algorithm motivated from Almod\'ovar-Rivera and Maitra (2020). Five groups were merged in the first phase, resulting in three complex-structured groups. Our algorithm determined further complex structure and permitted another merging phase, revealing two complex-structured groups at the highest level. A nonparametric bootstrap procedure was also used to estimate the confidence of each of our group assignments. These assignments generally had high confidence in classification, indicating great degree of certainty of the HSS assignments into our complex-structured groups. The physical and kinematic properties of the two groups were assessed in terms of $M_s$, $R_e$, surface density and $M_s/L_\nu$. The first group consisted of older, smaller and less bright HSS while the second group consisted of brighter and younger HSS. Our analysis provides novel insight into the physical and evolutionary properties of HSS and also helps understand physical and evolutionary properties of candidate globular clusters. Further, the candidate globular clusters (GCs) are seen to have very high chance of really being GCs rather than dwarfs or dwarf ellipticals that are also indicated to be quite distinct from each other.
翻訳日:2022-12-24 15:44:24 公開日:2022-05-03
# 忘れられた物の幽霊:忘れ去られた後の大きさの研究

The ghosts of forgotten things: A study on size after forgetting ( http://arxiv.org/abs/2005.04123v3 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) forttingは、他の変数の制約を保ちながら、論理式から変数を除去する。 還元の形式であるにもかかわらず、必ずしも公式のサイズを減少させるわけではなく、時には増加させることもある。 本稿では,このような増加の影響を論じ,その現象の計算的性質を分析する。 命題のホルン公式、変数の集合、最大許容サイズが与えられたとき、そのサイズで式から変数を忘れることは$D^p$-hard in $\Sigma^p_2$である。 非制限命題公式の同じ問題は$D^p_2$-hard in $\Sigma^p_3$である。

Forgetting is removing variables from a logical formula while preserving the constraints on the other variables. In spite of being a form of reduction, it does not always decrease the size of the formula and may sometimes increase it. This article discusses the implications of such an increase and analyzes the computational properties of the phenomenon. Given a propositional Horn formula, a set of variables and a maximum allowed size, deciding whether forgetting the variables from the formula can be expressed in that size is $D^p$-hard in $\Sigma^p_2$. The same problem for unrestricted propositional formulae is $D^p_2$-hard in $\Sigma^p_3$.
翻訳日:2022-12-05 13:10:11 公開日:2022-05-03
# Coin-BettingのためのODE更新によるパラメータフリー確率最適化

Better Parameter-free Stochastic Optimization with ODE Updates for Coin-Betting ( http://arxiv.org/abs/2006.07507v3 )

ライセンス: Link先を確認
Keyi Chen, John Langford, Francesco Orabona(参考訳) パラメータフリー確率勾配勾配(PFSGD)アルゴリズムは最適理論性能を達成しながら学習速度の設定を必要としない。 しかし、実際の応用では、チューニング確率勾配降下(SGD)とFSGDの間には経験的なギャップが残っている。 そこで本稿では, トランク型モデル上での連続時間Coin-Bettingに基づく新しいパラメータフリーアルゴリズムにより, 経験的ギャップを埋める。 新しい更新は、正規微分方程式(ODE)の解を用いて導出され、閉じた形で解かれる。 この新しいパラメータフリーアルゴリズムは「最良のデフォルト」学習率でアルゴリズムを上回り、チューニングの必要なく微調整されたベースラインの性能とほぼ一致していることを示す。

Parameter-free stochastic gradient descent (PFSGD) algorithms do not require setting learning rates while achieving optimal theoretical performance. In practical applications, however, there remains an empirical gap between tuned stochastic gradient descent (SGD) and PFSGD. In this paper, we close the empirical gap with a new parameter-free algorithm based on continuous-time Coin-Betting on truncated models. The new update is derived through the solution of an Ordinary Differential Equation (ODE) and solved in a closed form. We show empirically that this new parameter-free algorithm outperforms algorithms with the "best default" learning rates and almost matches the performance of finely tuned baselines without anything to tune.
翻訳日:2022-11-22 03:06:28 公開日:2022-05-03
# ディープ条件適応ネットワークによるドメイン適応と画像分類

Domain Adaptation and Image Classification via Deep Conditional Adaptation Network ( http://arxiv.org/abs/2006.07776v2 )

ライセンス: Link先を確認
Pengfei Ge, Chuan-Xian Ren, Dao-Qing Dai, Hong Yan(参考訳) 教師なしドメイン適応は、ソースドメインでトレーニングされた教師付きモデルをラベルなしターゲットドメインに一般化することを目的としている。 特徴空間のマージ分布アライメントは、ソースとターゲットドメイン間のドメイン差を低減するために広く用いられている。 しかし、ソースとターゲットドメインは同じラベルの分布を共有し、アプリケーションの範囲を制限していると仮定する。 本稿では、ソースドメインとターゲットドメインのラベル分布が同じではない、より一般的なアプリケーションシナリオについて考察する。 このシナリオでは、限界分布アライメントに基づく手法は負の転送に対して脆弱である。 そこで本稿では,特徴空間の条件分布アライメントに基づく非教師なし領域適応手法であるDeep Conditional Adaptation Network (DCAN)を提案する。 具体的には、ソース領域とターゲット領域の深い特徴の条件的分布の条件的最大平均偏差を最小化し、サンプルと予測ラベル間の相互情報を最大化することにより、対象領域から判別情報を抽出することにより、ドメイン不一致を低減させる。 さらに、DCANは、ターゲットドメインカテゴリがソースドメインカテゴリのサブセットである部分的教師なしドメイン適応という特別なシナリオに対処するために使用することができる。 非教師なし領域適応と部分教師なし領域適応の両方の実験により、DCANは最先端手法よりも優れた分類性能が得られることが示された。

Unsupervised domain adaptation aims to generalize the supervised model trained on a source domain to an unlabeled target domain. Marginal distribution alignment of feature spaces is widely used to reduce the domain discrepancy between the source and target domains. However, it assumes that the source and target domains share the same label distribution, which limits their application scope. In this paper, we consider a more general application scenario where the label distributions of the source and target domains are not the same. In this scenario, marginal distribution alignment-based methods will be vulnerable to negative transfer. To address this issue, we propose a novel unsupervised domain adaptation method, Deep Conditional Adaptation Network (DCAN), based on conditional distribution alignment of feature spaces. To be specific, we reduce the domain discrepancy by minimizing the Conditional Maximum Mean Discrepancy between the conditional distributions of deep features on the source and target domains, and extract the discriminant information from target domain by maximizing the mutual information between samples and the prediction labels. In addition, DCAN can be used to address a special scenario, Partial unsupervised domain adaptation, where the target domain category is a subset of the source domain category. Experiments on both unsupervised domain adaptation and Partial unsupervised domain adaptation show that DCAN achieves superior classification performance over state-of-the-art methods.
翻訳日:2022-11-21 13:05:58 公開日:2022-05-03
# プライベート情報とオフパシティを用いた人手決定のためのバンドモデル

A Bandit Model for Human-Machine Decision Making with Private Information and Opacity ( http://arxiv.org/abs/2007.04800v3 )

ライセンス: Link先を確認
Sebastian Bordt, Ulrike von Luxburg(参考訳) 機械学習の応用は、人間の意思決定者に幅広いタスクを知らせる。 結果の問題は、通常は単一の意思決定者によって定式化される。 1人のプレイヤーがマシンであり、もう1人が人間である2人のプレイヤーが学習する問題として表現すべきである。 両プレイヤーは最終決定を最適化しようとするが、(1)個人情報の存在と(2)不透明さ、すなわち意思決定者間の不完全な理解が特徴であることが多い。 どちらの性質も意思決定をかなり複雑にすることを証明する。 下限は、不透明または私的情報へのアクセスを有する意思決定者に対して最適に助言する最悪の場合の硬さを定量化する。 上界は単純な協調戦略がほとんどミニマックス最適であることを示す。 より効率的な学習は、例えば両方のプレイヤーが独立して行動を取ることを学ぶなど、特定の仮定の下で可能となる。 このような仮定は、例えば機械学習の医学的応用において、既存の文献では暗黙的であるが、理論上は説明されていない。

Applications of machine learning inform human decision makers in a broad range of tasks. The resulting problem is usually formulated in terms of a single decision maker. We argue that it should rather be described as a two-player learning problem where one player is the machine and the other the human. While both players try to optimize the final decision, the setup is often characterized by (1) the presence of private information and (2) opacity, that is imperfect understanding between the decision makers. We prove that both properties can complicate decision making considerably. A lower bound quantifies the worst-case hardness of optimally advising a decision maker who is opaque or has access to private information. An upper bound shows that a simple coordination strategy is nearly minimax optimal. More efficient learning is possible under certain assumptions on the problem, for example that both players learn to take actions independently. Such assumptions are implicit in existing literature, for example in medical applications of machine learning, but have not been described or justified theoretically.
翻訳日:2022-11-12 03:31:33 公開日:2022-05-03
# 深部形状を用いた多目的3次元シーン分割の弱教師付き学習

Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors ( http://arxiv.org/abs/2010.04030v5 )

ライセンス: Link先を確認
Cathrin Elich, Martin R. Oswald, Marc Pollefeys, Joerg Stueckler(参考訳) オブジェクトの粒度のシーンを表現することは、シーンの理解と意思決定の前提となる。 本稿では,複数対象の3次元シーンの分解と表現を学習するための事前形状知識に基づく新しいアプローチであるprismonetを提案する。 提案手法では,平面面上に複数の物体を配置した合成シーンの画像を合成シーンに分解し,その3次元特性を単一視点から推定する。 リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。 異なるレンダリングにより、RGB-D画像からシーンを自己管理的に分解するようにモデルを訓練する。 3次元形状は, 実例形状から教師付き方法で事前学習した符号付き距離関数として, 連続的に関数空間で表現される。 これらの形状は、難易度の高い総合的な学習課題を改善するために、弱い監視信号を提供する。 本研究では,3次元シーンレイアウトを推定するモデルの精度を評価し,生成能力を示し,実画像への一般化を評価し,学習表現の利点を指摘する。

Representing scenes at the granularity of objects is a prerequisite for scene understanding and decision making. We propose PriSMONet, a novel approach based on Prior Shape knowledge for learning Multi-Object 3D scene decomposition and representations from single images. Our approach learns to decompose images of synthetic scenes with multiple objects on a planar surface into its constituent scene objects and to infer their 3D properties from a single view. A recurrent encoder regresses a latent representation of 3D shape, pose and texture of each object from an input RGB image. By differentiable rendering, we train our model to decompose scenes from RGB-D images in a self-supervised way. The 3D shapes are represented continuously in function-space as signed distance functions which we pre-train from example shapes in a supervised way. These shape priors provide weak supervision signals to better condition the challenging overall learning task. We evaluate the accuracy of our model in inferring 3D scene layout, demonstrate its generative capabilities, assess its generalization to real images, and point out benefits of the learned representation.
翻訳日:2022-10-09 12:35:28 公開日:2022-05-03
# 一階および二階擬ミラー降下による正関数のスパース表現

Sparse Representations of Positive Functions via First and Second-Order Pseudo-Mirror Descent ( http://arxiv.org/abs/2011.07142v4 )

ライセンス: Link先を確認
Abhishek Chakraborty, Ketan Rajawat, Alec Koppel(参考訳) 我々は、推定器の範囲が非負であることを要求する場合、最大推定(MLE)と軌道最適化の設定により、予測されるリスク最小化の問題を考える。 非線形補間を容易にするために、探索空間は再生カーネルヒルベルト空間(RKHS)であると仮定する。 我々は,確率的ミラー降下の1次および2次変種を開発した。 i) \emph{pseudo-gradients} および (II)複雑性低減プロジェクション。 1次スキームの圧縮射影はカーネル直交マッチング追従 (KOMP) によって実行され、これはバニラRKHSパラメータ化が確率的設定の反復指数と無拘束に大きくなるという事実を克服する。 さらに、コストの勾配推定が何らかの数値誤差(例えば積分近似)によってのみ計算できる場合、擬似勾配が必要となる。 一定のステップサイズおよび圧縮予算の下で、予測されるサブ最適度と予測予算パラメータの収束半径のトレードオフと、モデル複雑性の非漸近境界を確立する。 解の精度を向上させるために,再帰的に平均化された疑似勾配外積を用いて,平均収束が最適な rkhs 要素のヘッシアン上で追加の固有値減衰条件の下で確立されるヘッシアン逆積を近似する二階拡張法を開発した。 実験では,不均質ポアソン過程の強度推定に好適な性能を示す。

We consider expected risk minimization problems when the range of the estimator is required to be nonnegative, motivated by the settings of maximum likelihood estimation (MLE) and trajectory optimization. To facilitate nonlinear interpolation, we hypothesize that the search space is a Reproducing Kernel Hilbert Space (RKHS). We develop first and second-order variants of stochastic mirror descent employing (i) \emph{pseudo-gradients} and (ii) complexity-reducing projections. Compressive projection in the first-order scheme is executed via kernel orthogonal matching pursuit (KOMP), which overcomes the fact that the vanilla RKHS parameterization grows unbounded with the iteration index in the stochastic setting. Moreover, pseudo-gradients are needed when gradient estimates for cost are only computable up to some numerical error, which arise in, e.g., integral approximations. Under constant step-size and compression budget, we establish tradeoffs between the radius of convergence of the expected sub-optimality and the projection budget parameter, as well as non-asymptotic bounds on the model complexity. To refine the solution's precision, we develop a second-order extension which employs recursively averaged pseudo-gradient outer-products to approximate the Hessian inverse, whose convergence in mean is established under an additional eigenvalue decay condition on the Hessian of the optimal RKHS element, which is unique to this work. Experiments demonstrate favorable performance on inhomogeneous Poisson Process intensity estimation in practice.
翻訳日:2022-09-25 23:16:59 公開日:2022-05-03
# (参考訳) リモートセンシングデータを用いた都市水消費の理解

Understanding Urban Water Consumption using Remotely Sensed Data ( http://arxiv.org/abs/2205.02932v1 )

ライセンス: CC BY 4.0
Shaswat Mohanty, Anirudh Vijay, Shailesh Deshpande(参考訳) 都市代謝は、都市部からの排出と資源消費を推定する研究の活発な分野である。 この分析は、エレガントな機械学習アルゴリズムを実装することで、手動で実施することができる。 本研究は,衛星画像で捉えた地域の建物による水消費量を推定するものである。 この目的のために、分析を3つの部分に分けます。 一 衛星画像が与えられ、次に続く建物画素の識別 二 建物の種類(居住/非居住)を建物画素から識別し、最後 三 都道府県の調査結果から得られた建物の種類別に、建物ピクセルとそれらのタイプを用いて、単位面積当たりの平均水消費量を推定すること。

Urban metabolism is an active field of research that deals with the estimation of emissions and resource consumption from urban regions. The analysis could be carried out through a manual surveyor by the implementation of elegant machine learning algorithms. In this exploratory work, we estimate the water consumption by the buildings in the region captured by satellite imagery. To this end, we break our analysis into three parts: i) Identification of building pixels, given a satellite image, followed by ii) identification of the building type (residential/non-residential) from the building pixels, and finally iii) using the building pixels along with their type to estimate the water consumption using the average per unit area consumption for different building types as obtained from municipal surveys.
翻訳日:2022-05-16 01:22:13 公開日:2022-05-03
# 主観的耳鳴診断のための側面認識メタラーニング

Side-aware Meta-Learning for Cross-Dataset Listener Diagnosis with Subjective Tinnitus ( http://arxiv.org/abs/2205.03231v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Molly Lucas, Jessica J.M.Monaghan, and Yu Zhang(参考訳) デジタル技術の発展により、機械学習は次世代のティンニタス診断への道を開いた。 機械学習はEEGベースのチニタス分析に広く応用されているが、現在のモデルのほとんどはデータセット固有のものである。 各データセットは、特定の種類の症状、全体的な病気の重症度、人口統計属性に限定される可能性がある。 本稿では,異なるデータ収集プロセスから発散年齢,性別の被験者に対して,効果的にチンニタスを分類できる,クロスデータセット・ティンニタス診断のための側面認識メタラーニングを提案する。 メタ学習の優位性のため,本手法は従来のディープラーニングモデルのような大規模データセットに依存しない。 さらに,異なる患者や健常者のデータパターンを適合させるために,モデル支援のための主題別トレーニングプロセスをデザインする。 本手法は,クロスデータセット分類において73.8 %の精度を実現する。 本研究では,耳の側面情報によるモデル性能の向上と,学習特徴の質向上における側面認識メタラーニングの効果を広範囲に分析する。

With the development of digital technology, machine learning has paved the way for the next generation of tinnitus diagnoses. Although machine learning has been widely applied in EEG-based tinnitus analysis, most current models are dataset-specific. Each dataset may be limited to a specific range of symptoms, overall disease severity, and demographic attributes; further, dataset formats may differ, impacting model performance. This paper proposes a side-aware meta-learning for cross-dataset tinnitus diagnosis, which can effectively classify tinnitus in subjects of divergent ages and genders from different data collection processes. Owing to the superiority of meta-learning, our method does not rely on large-scale datasets like conventional deep learning models. Moreover, we design a subject-specific training process to assist the model in fitting the data pattern of different patients or healthy people. Our method achieves a high accuracy of 73.8\% in the cross-dataset classification. We conduct an extensive analysis to show the effectiveness of side information of ears in enhancing model performance and side-aware meta-learning in improving the quality of the learned features.
翻訳日:2022-05-16 01:14:54 公開日:2022-05-03
# (参考訳) ミームにおけるビジュオリンガルメタファーにおけるプロパガンダの検出

Detection of Propaganda Techniques in Visuo-Lingual Metaphor in Memes ( http://arxiv.org/abs/2205.02937v1 )

ライセンス: CC BY 4.0
Sunil Gundapu, Radhika Mamidi(参考訳) ソーシャルメディアネットワークの急激な増加は、データの生産、流通、消費を驚くべき速度で可能にしている。 さらに、ソーシャルメディア革命は、インターネットミームと呼ばれるソーシャルメディアプラットフォームにユニークな現象をもたらした。 インターネットミームは、ソーシャルメディアで使われる最も人気のあるコンテンツの1つであり、機知に富み、キャッチー、または風刺的なテキスト記述を持つ画像の形をとることができる。 本稿では,近年のインターネットミームでよく見られるプロパガンダを扱う。 プロパガンダとはコミュニケーションであり、プロパガンディストが欲しがる行動や反応を観客に操作または影響を与える心理的・修辞的手法をしばしば含む。 インターネットミーム中のプロパガンダを検出するために,テキストと画像の特徴表現を融合し,テキストと画像のモダリティのみに基づいて個々のモデルを上回るマルチモーダルディープラーニング融合システムを提案する。

The exponential rise of social media networks has allowed the production, distribution, and consumption of data at a phenomenal rate. Moreover, the social media revolution has brought a unique phenomenon to social media platforms called Internet memes. Internet memes are one of the most popular contents used on social media, and they can be in the form of images with a witty, catchy, or satirical text description. In this paper, we are dealing with propaganda that is often seen in Internet memes in recent times. Propaganda is communication, which frequently includes psychological and rhetorical techniques to manipulate or influence an audience to act or respond as the propagandist wants. To detect propaganda in Internet memes, we propose a multimodal deep learning fusion system that fuses the text and image feature representations and outperforms individual models based solely on either text or image modalities.
翻訳日:2022-05-16 01:08:54 公開日:2022-05-03
# 関数データを用いた説明可能な多クラス異常検出

Explainable multi-class anomaly detection on functional data ( http://arxiv.org/abs/2205.02935v1 )

ライセンス: Link先を確認
Mathieu Cura and Katarina Firdova and C\'eline Labart and Arthur Martel(参考訳) 本稿では,多変量関数データにおける異常検出とその説明可能性について述べる。 異常検出手順は、系列を特徴のベクトルに変換し、分離森林アルゴリズムを用いて構成する。 説明可能な手順は、shap係数の計算と教師付き決定木の使用に基づいている。 シミュレーションデータに適用して,本手法の性能を測定し,産業から得られた実データに適用する。

In this paper we describe an approach for anomaly detection and its explainability in multivariate functional data. The anomaly detection procedure consists of transforming the series into a vector of features and using an Isolation forest algorithm. The explainable procedure is based on the computation of the SHAP coefficients and on the use of a supervised decision tree. We apply it on simulated data to measure the performance of our method and on real data coming from industry.
翻訳日:2022-05-16 00:52:28 公開日:2022-05-03
# Assurance 2.0による信頼性の評価

Assessing Confidence with Assurance 2.0 ( http://arxiv.org/abs/2205.04522v1 )

ライセンス: Link先を確認
John Rushby and Robin Bloomfield(参考訳) アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。 自然な疑問は、このケースがどの程度の信頼を提供するのか、ということです。 信頼は単一の属性や測定に還元できない、と我々は主張する。 代わりに、それは3つの異なる視点、すなわち正、負、および残余の疑念に基づくべきだと提案する。 ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。 私たちは正当化のために高い基準を設定しました。 これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。 証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。 さらに、確率論理を用いて議論のステップを通じて証拠から確率を集約して、我々がクレームの確率的評価と呼ぶものを得ることもできる。 否定的な視点は、典型的には敗者として表現される事件に対する疑念と挑戦とその探索と解決を記録している。 保証開発者は、確認バイアスを回避し、ケースを開発する際に、潜在的な敗者を探究し、再作業を避けてレビュアーを助けるために、それらとその解決を記録すべきである。 Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。 リスクを探求し、受け入れがたい、あるいは避けられないと判断する。 しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。 本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援するか,その視点を詳細に検討する。

An assurance case is intended to provide justifiable confidence in the truth of its top claim, which typically concerns safety or security. A natural question is then "how much" confidence does the case provide? We argue that confidence cannot be reduced to a single attribute or measurement. Instead, we suggest it should be based on attributes that draw on three different perspectives: positive, negative, and residual doubts. Positive Perspectives consider the extent to which the evidence and overall argument of the case combine to make a positive statement justifying belief in its claims. We set a high bar for justification, requiring it to be indefeasible. The primary positive measure for this is soundness, which interprets the argument as a logical proof. Confidence in evidence can be expressed probabilistically and we use confirmation measures to ensure that the "weight" of evidence crosses some threshold. In addition, probabilities can be aggregated from evidence through the steps of the argument using probability logics to yield what we call probabilistic valuations for the claims. Negative Perspectives record doubts and challenges to the case, typically expressed as defeaters, and their exploration and resolution. Assurance developers must guard against confirmation bias and should vigorously explore potential defeaters as they develop the case, and should record them and their resolution to avoid rework and to aid reviewers. Residual Doubts: the world is uncertain so not all potential defeaters can be resolved. We explore risks and may deem them acceptable or unavoidable. It is crucial however that these judgments are conscious ones and that they are recorded in the assurance case. This report examines the perspectives in detail and indicates how Clarissa, our prototype toolset for Assurance 2.0, assists in their evaluation.
翻訳日:2022-05-16 00:52:05 公開日:2022-05-03
# リカレントニューラルネットワークを用いた生体信号検証

Biometric Signature Verification Using Recurrent Neural Networks ( http://arxiv.org/abs/2205.02934v1 )

ライセンス: Link先を確認
Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez and Javier Ortega-Garcia(参考訳) リカレントニューラルネットワーク(RNN)に基づくアーキテクチャは、最先端の結果を用いた音声や手書き認識など、さまざまなタスクにうまく適用されている。 この研究の主な貢献は、実運用シナリオにおけるオンライン署名検証におけるRNNの可能性を分析することである。 我々は,一対のシグネチャから類似度を学習することを目的とした,Siameseアーキテクチャを用いたLong Short-Term Memory(LSTM)に基づくシステムを検討した。 実験では,400名のユーザと4名の個別取得セッションからなるBiosecurIDデータベースについて検討した。 提案するlstm rnnシステムは、17.76%から28.00%の有能な偽造の相対的検証性能向上率において,最近発表されたバイオセキュリドベンチマークの結果を上回っている。

Architectures based on Recurrent Neural Networks (RNNs) have been successfully applied to many different tasks such as speech or handwriting recognition with state-of-the-art results. The main contribution of this work is to analyse the feasibility of RNNs for on-line signature verification in real practical scenarios. We have considered a system based on Long Short-Term Memory (LSTM) with a Siamese architecture whose goal is to learn a similarity metric from pairs of signatures. For the experimental work, the BiosecurID database comprised of 400 users and 4 separated acquisition sessions are considered. Our proposed LSTM RNN system has outperformed the results of recent published works on the BiosecurID benchmark in figures ranging from 17.76% to 28.00% relative verification performance improvement for skilled forgeries.
翻訳日:2022-05-16 00:51:36 公開日:2022-05-03
# クロスセット型主観的耳鳴診断のための非教師付き領域適応

Disentangled and Side-aware Unsupervised Domain Adaptation for Cross-dataset Subjective Tinnitus Diagnosis ( http://arxiv.org/abs/2205.03230v1 )

ライセンス: Link先を確認
Zhe Liu, Yun Li, Lina Yao, Jessica J.M.Monaghan, and David McAlpine(参考訳) 脳波に基づく耳鳴分類は耳鳴の診断、研究、治療に有用である。 現在の作業のほとんどは、データパターンが似ている単一のデータセットに限定されている。 しかし、EEG信号は非常に非定常的であり、結果としてモデルが新しいユーザやセッション、データセットにあまり一般化されていない。 したがって、新しいデータセットに一般化できるモデルを設計することは有益であり、不可欠である。 本研究では,データセット間の分布差を軽減するために,DSUDA(Disentangled and Side-aware Unsupervised Domain Adaptation)を提案する。 クラス非関連情報を脳波信号から切り離し、分類能力を向上させるために、絡み合ったオートエンコーダを開発した。 サイドアウェア非教師付きドメイン適応モジュールは、クラス非関連情報を新しいデータセットへのドメイン分散として適応させ、分散を除外して、新しいデータセット分類のためのクラス希釈特徴を得る。 また、左右の耳の信号を調整して、脳波パターンの違いを克服する。 我々はDSUDAを最先端の手法と比較し,総合評価基準に関する競争相手よりも大幅に改善した。 その結果,本モデルは新たなデータセットに一般化し,チニタスを効果的に診断できることを示した。

EEG-based tinnitus classification is a valuable tool for tinnitus diagnosis, research, and treatments. Most current works are limited to a single dataset where data patterns are similar. But EEG signals are highly non-stationary, resulting in model's poor generalization to new users, sessions or datasets. Thus, designing a model that can generalize to new datasets is beneficial and indispensable. To mitigate distribution discrepancy across datasets, we propose to achieve Disentangled and Side-aware Unsupervised Domain Adaptation (DSUDA) for cross-dataset tinnitus diagnosis. A disentangled auto-encoder is developed to decouple class-irrelevant information from the EEG signals to improve the classifying ability. The side-aware unsupervised domain adaptation module adapts the class-irrelevant information as domain variance to a new dataset and excludes the variance to obtain the class-distill features for the new dataset classification. It also align signals of left and right ears to overcome inherent EEG pattern difference. We compare DSUDA with state-of-the-art methods, and our model achieves significant improvements over competitors regarding comprehensive evaluation criteria. The results demonstrate our model can successfully generalize to a new dataset and effectively diagnose tinnitus.
翻訳日:2022-05-16 00:51:10 公開日:2022-05-03
# (参考訳) データとAIモデルによる健康不平等の定量化

Quantifying Health Inequalities Induced by Data and AI Models ( http://arxiv.org/abs/2205.01066v2 )

ライセンス: CC BY 4.0
Honghan Wu, Minhong Wang, Aneeta Sylolypavan, Sarah Wild(参考訳) AI技術はますますテストされ、医療を含む重要な環境に適用されている。 AIによって誘導される不平等を検出し緩和する効果的な方法がなければ、AIは善よりも害が大きい可能性がある。 本稿では,aiによる不等式の検出と定量化のための汎用的割当劣化フレームワークを提案する。 具体的には、AI誘起不等式を2つのアロケーション劣化曲線の間の領域として定量化する。 フレームワークの性能を評価するため,実世界集中ケアユニット(ICU)データセットであるHiRIDから生成された10種類の合成データセット(N>33,000)を用いて実験を行った。 健康の不平等を定量化するために広範な分析が行われた (a)2つの実世界のICUデータセットに埋め込まれている。 b) 2つのリソース割り当てシナリオでトレーニングされたAIモデルによって誘導される。 その結果,HiRID ICUを受診した女性の予後指標は,男性に比べて最大で33%低下していた。 評価された4つのAIモデルは、ホワイト患者と比較して、ホワイトでない患者に対して大きな不平等(2.45%から43.2%)を引き起こすことが示されている。 モデルでは,8例中3例において,データ埋込み不平等が有意に悪化し,そのうち1例が9倍に悪化した。 コードベースはhttps://github.com/knowlab/DAindex-Frameworkにある。

AI technologies are being increasingly tested and applied in critical environments including healthcare. Without an effective way to detect and mitigate AI induced inequalities, AI might do more harm than good, potentially leading to the widening of underlying inequalities. This paper proposes a generic allocation-deterioration framework for detecting and quantifying AI induced inequality. Specifically, AI induced inequalities are quantified as the area between two allocation-deterioration curves. To assess the framework's performance, experiments were conducted on ten synthetic datasets (N>33,000) generated from HiRID - a real-world Intensive Care Unit (ICU) dataset, showing its ability to accurately detect and quantify inequality proportionally to controlled inequalities. Extensive analyses were carried out to quantify health inequalities (a) embedded in two real-world ICU datasets; (b) induced by AI models trained for two resource allocation scenarios. Results showed that compared to men, women had up to 33% poorer deterioration in markers of prognosis when admitted to HiRID ICUs. All four AI models assessed were shown to induce significant inequalities (2.45% to 43.2%) for non-White compared to White patients. The models exacerbated data embedded inequalities significantly in 3 out of 8 assessments, one of which was >9 times worse. The codebase is at https://github.com/knowlab/DAindex-Framework.
翻訳日:2022-05-09 01:49:44 公開日:2022-05-03
# Brainish: インテリジェンスと意識のためのマルチモーダル言語を形式化する

Brainish: Formalizing A Multimodal Language for Intelligence and Consciousness ( http://arxiv.org/abs/2205.00001v2 )

ライセンス: Link先を確認
Paul Pu Liang(参考訳) リッチなマルチモーダル内言語を持つことは、多モーダル予測、翻訳、生成といったいくつかのコア認知機能を可能にする人間の知性の重要な構成要素である。 blum and blum (2021) によって提案された意識のための機械モデルである conscious turing machine (ctm) に基づいて、ctm のプロセッサが相互に通信するために使用する表現において、単語、画像、音声、感覚を組み合わせたbrainish と呼ばれるマルチモーダル言語のデシデラタを記述する。 我々は,異種信号から情報を処理するのに必要な計算ツールを研究する活発な研究分野であるマルチモーダル人工知能のレンズを用いて,この言語を操作する前に,ブレイディッシュの構文と意味を定義する。 Brainishを学習するための一般的なフレームワークは、(1)非モーダルエンコーダをセグメント化し、非モーダルデータを表現するための設計、(2)多モーダル入力の全体的意味を導出するための一モーダル特徴を関連づけ、構成するコーディネート表現空間、(3)多モーダル表現を予測(融合)や生データ(翻訳や生成)にマッピングするデコーダである。 ブレインシッシュがCTMにおける意識を達成するためにいかにコミュニケーションと調整に不可欠であるかを議論し、ブレインシッシュのシンプルなバージョンを実装し、実世界の複数の画像、テキスト、オーディオデータセット上でのマルチモーダル予測および検索タスクにおけるインテリジェンスを示す能力を評価することによって、そのようなインテリジェンス言語は、インテリジェンスと意識のマシンモデルの発展にとって重要であると論じる。

Having a rich multimodal inner language is an important component of human intelligence that enables several necessary core cognitive functions such as multimodal prediction, translation, and generation. Building upon the Conscious Turing Machine (CTM), a machine model for consciousness proposed by Blum and Blum (2021), we describe the desiderata of a multimodal language called Brainish, comprising words, images, audio, and sensations combined in representations that the CTM's processors use to communicate with each other. We define the syntax and semantics of Brainish before operationalizing this language through the lens of multimodal artificial intelligence, a vibrant research area studying the computational tools necessary for processing and relating information from heterogeneous signals. Our general framework for learning Brainish involves designing (1) unimodal encoders to segment and represent unimodal data, (2) a coordinated representation space that relates and composes unimodal features to derive holistic meaning across multimodal inputs, and (3) decoders to map multimodal representations into predictions (for fusion) or raw data (for translation or generation). Through discussing how Brainish is crucial for communication and coordination in order to achieve consciousness in the CTM, and by implementing a simple version of Brainish and evaluating its capability of demonstrating intelligence on multimodal prediction and retrieval tasks on several real-world image, text, and audio datasets, we argue that such an inner language will be important for advances in machine models of intelligence and consciousness.
翻訳日:2022-05-09 00:09:57 公開日:2022-05-03
# (参考訳) 貯留層コンピュータの規模削減に向けた時間シフト

Time Shifts to Reduce the Size of Reservoir Computers ( http://arxiv.org/abs/2205.02267v1 )

ライセンス: CC BY 4.0
Thomas L. Carroll and Joseph D. Hart(参考訳) 貯水池コンピュータは計算を行うための力学系の一種である。 通常、貯水池コンピュータは、繰り返し接続を含むネットワーク内の多数の非線形ノードを接続することによって構成される。 正確な結果を得るために、貯水池は通常数百から数千のノードを含む。 この高次元性は、動的システム理論のツールを用いて貯水池コンピュータを分析するのを難しくする。 さらに、多数の非線形ノードを作成して接続する必要があるため、デジタル貯水池コンピュータよりも高速で消費電力が少ないアナログ貯水池コンピュータの設計と構築が困難になる。 そこで我々は,貯水池コンピュータを,小さな非線形ノード(貯水池)と時間シフト型貯水池出力信号の2つの部分に分けられることを示した。 時間シフトされた出力信号は貯水池コンピュータのランクとメモリを増加させ、非線形ノードの集合は入力力学系の埋め込みを生成する。 我々は,この時間シフト技術を用いて,仮想ノード数が少ない光電子遅延型リザーバコンピュータから優れた性能を得る。 少数の非線形ノードが必要なため、リザーバコンピュータの構築はずっと簡単になり、遅延ベースのリザーバコンピュータはより高速に動作することができる。

A reservoir computer is a type of dynamical system arranged to do computation. Typically, a reservoir computer is constructed by connecting a large number of nonlinear nodes in a network that includes recurrent connections. In order to achieve accurate results, the reservoir usually contains hundreds to thousands of nodes. This high dimensionality makes it difficult to analyze the reservoir computer using tools from dynamical systems theory. Additionally, the need to create and connect large numbers of nonlinear nodes makes it difficult to design and build analog reservoir computers that can be faster and consume less power than digital reservoir computers. We demonstrate here that a reservoir computer may be divided into two parts; a small set of nonlinear nodes (the reservoir), and a separate set of time-shifted reservoir output signals. The time-shifted output signals serve to increase the rank and memory of the reservoir computer, and the set of nonlinear nodes may create an embedding of the input dynamical system. We use this time-shifting technique to obtain excellent performance from an opto-electronic delay-based reservoir computer with only a small number of virtual nodes. Because only a few nonlinear nodes are required, construction of a reservoir computer becomes much easier, and delay-based reservoir computers can operate at much higher speeds.
翻訳日:2022-05-07 10:44:34 公開日:2022-05-03
# (参考訳) 物理からレスキューへ:高速イメージングのための深部非視線再構成

Physics to the Rescue: Deep Non-line-of-sight Reconstruction for High-speed Imaging ( http://arxiv.org/abs/2205.01679v1 )

ライセンス: CC BY 4.0
Fangzhou Mu, Sicheng Mo, Jiayong Peng, Xiaochun Liu, Ji Hyun Nam, Siddeshwar Raghavan, Andreas Velten and Yin Li(参考訳) nlos(non-line-of-sight)イメージング(non-line-of-sight (nlos) imaging)は、画像ハードウェアとリコンストラクションアルゴリズムの大きな進歩によって現実のものになりつつある。 実用的nlosイメージングに向けた最近の開発であるnamらは、以前の技術よりも100倍速い5hzの高速非共焦点イメージングシステムを実証した。 しかし、この買収率の大きな向上は光輸送における多くの近似を必要とし、理想化された画像形成モデルを想定した既存のNLOS再構成手法を破る。 このギャップを埋めるために,ニューラルネットに波動伝播とボリュームレンダリングの相補的物理学的先行を組み込んだ,高品質でロバストなnlos再構成のための新しい深層モデルを提案する。 このオーケストレーションされた設計は、画像形成モデルを緩和することで解空間を定式化し、合成データのみを訓練したにもかかわらず、実際のキャプチャーをうまく一般化する深いモデルとなる。 さらに、ターゲット強度画像や生のNLOSトランジェント測定を含む多様な監視信号を用いて、モデルを柔軟に訓練できる統一学習フレームワークを考案した。 トレーニングされたモデルでは,1回のフォワードパスにおいて,インテンシティと深度の両方の画像を推論時にレンダリングし,ハイエンドGPU上で毎秒5回以上のキャプチャを処理できる。 定性的および定量的な実験を通じて,本手法は,合成および実測値の両方に基づく先行物理および学習手法より優れていることを示す。 我々は,高速撮像システムとともに,高速撮像を必要とする実世界のアプリケーションに向けたNLOSイメージングの開発を加速することを期待している。

Computational approach to imaging around the corner, or non-line-of-sight (NLOS) imaging, is becoming a reality thanks to major advances in imaging hardware and reconstruction algorithms. A recent development towards practical NLOS imaging, Nam et al. demonstrated a high-speed non-confocal imaging system that operates at 5Hz, 100x faster than the prior art. This enormous gain in acquisition rate, however, necessitates numerous approximations in light transport, breaking many existing NLOS reconstruction methods that assume an idealized image formation model. To bridge the gap, we present a novel deep model that incorporates the complementary physics priors of wave propagation and volume rendering into a neural network for high-quality and robust NLOS reconstruction. This orchestrated design regularizes the solution space by relaxing the image formation model, resulting in a deep model that generalizes well on real captures despite being exclusively trained on synthetic data. Further, we devise a unified learning framework that enables our model to be flexibly trained using diverse supervision signals, including target intensity images or even raw NLOS transient measurements. Once trained, our model renders both intensity and depth images at inference time in a single forward pass, capable of processing more than 5 captures per second on a high-end GPU. Through extensive qualitative and quantitative experiments, we show that our method outperforms prior physics and learning based approaches on both synthetic and real measurements. We anticipate that our method along with the fast capturing system will accelerate future development of NLOS imaging for real world applications that require high-speed imaging.
翻訳日:2022-05-06 06:22:40 公開日:2022-05-03
# (参考訳) spinenetv2:臨床用mrスキャンの自動検出、ラベリング、放射線診断

SpineNetV2: Automated Detection, Labelling and Radiological Grading Of Clinical MR Scans ( http://arxiv.org/abs/2205.01683v1 )

ライセンス: CC BY 4.0
Rhydian Windsor, Amir Jamaludin, Timor Kadir and Andrew Zisserman(参考訳) 本報告では,自動化ツールであるspinernetv2について述べる。 (i) 臨床脊髄磁気共鳴(mr)スキャンにおいて、広く使用される一連の配列をまたいで、椎体を検出し、標識する。 (ii) 腰椎椎間板をt2強調スキャンでラジオロジカルグレーティングし, 様々な変性変化について検討した。 SpineNetV2は、オリジナルのSpineNetソフトウェアよりも2つの方法で改善されている。(1) 脊椎体検出ステージは、はるかに高速で、より正確で、(単に腰椎スキャンとは対照的に)視野の広い範囲で機能する。 2)ラジオロジカルグレーディングはより強力なアーキテクチャを採用し,性能を損なうことなく,新たなグレーディングスキームをいくつか追加する。 ソフトウェアのデモはプロジェクトのwebサイト(http://zeus.robots.ox.ac.uk/spinenet2/)で公開されている。

This technical report presents SpineNetV2, an automated tool which: (i) detects and labels vertebral bodies in clinical spinal magnetic resonance (MR) scans across a range of commonly used sequences; and (ii) performs radiological grading of lumbar intervertebral discs in T2-weighted scans for a range of common degenerative changes. SpineNetV2 improves over the original SpineNet software in two ways: (1) The vertebral body detection stage is significantly faster, more accurate and works across a range of fields-of-view (as opposed to just lumbar scans). (2) Radiological grading adopts a more powerful architecture, adding several new grading schemes without loss in performance. A demo of the software is available at the project website: http://zeus.robots.ox.ac.uk/spinenet2/.
翻訳日:2022-05-06 06:01:02 公開日:2022-05-03
# (参考訳) 深層学習を用いた乳房石灰化解析におけるランダムヒストグラム等化の効果

Effect of Random Histogram Equalization on Breast Calcification Analysis Using Deep Learning ( http://arxiv.org/abs/2205.01684v1 )

ライセンス: CC BY 4.0
Adarsh Bhandary Panambur, Prathmesh Madhu, Andreas Maier(参考訳) 乳腺画像における石灰化の早期検出と解析は乳癌診断ワークフローにおいて重要である。 即時フォローアップを必要とし、その良性または悪性を解析する石灰化の管理は、より良い予後をもたらす。 最近の研究では、深層学習に基づくアルゴリズムは、マンモグラフィの疑わしい石灰化を分析するためにロバスト表現を学習できることが示されている。 本研究では,不審な石灰化を解析するための分類性能を大幅に向上させるデータ拡張手法として,石灰化パッチのヒストグラムをランダムに等化できることを実証する。 2つの分類タスクをcbis-ddsmデータセットを用いて検証した。 その結果,提案手法はヒストグラム等化を用いない場合と比較して,0.4の確率でデータを等化した場合の平均精度が1%以上,F1スコアが得られた。 これはさらにt検定によって支持され、p<0.0001のp値が得られるため、このアプローチの統計的意義を示す。

Early detection and analysis of calcifications in mammogram images is crucial in a breast cancer diagnosis workflow. Management of calcifications that require immediate follow-up and further analyzing its benignancy or malignancy can result in a better prognosis. Recent studies have shown that deep learning-based algorithms can learn robust representations to analyze suspicious calcifications in mammography. In this work, we demonstrate that randomly equalizing the histograms of calcification patches as a data augmentation technique can significantly improve the classification performance for analyzing suspicious calcifications. We validate our approach by using the CBIS-DDSM dataset for two classification tasks. The results on both the tasks show that the proposed methodology gains more than 1% mean accuracy and F1-score when equalizing the data with a probability of 0.4 when compared to not using histogram equalization. This is further supported by the t-tests, where we obtain a p-value of p<0.0001, thus showing the statistical significance of our approach.
翻訳日:2022-05-06 05:45:24 公開日:2022-05-03
# (参考訳) 異常ISPトラフィック予測のためのディープシーケンスモデリング

Deep Sequence Modeling for Anomalous ISP Traffic Prediction ( http://arxiv.org/abs/2205.01685v1 )

ライセンス: CC BY-SA 4.0
Sajal Saha, Anwar Haque, and Greg Sidebottom(参考訳) 現実世界のインターネットトラフィックは、通常のトラフィックの流れを突然変える可能性のある様々な外部および内部要因に影響を受けやすい。 これらの予期せぬ変更は、トラフィックの異常と見なされる。 しかし、複雑なipトラフィックを予測するためにディープシーケンスモデルが用いられてきたが、その異常なトラフィックに対する比較性能は広く研究されていない。 本稿では,異常トラフィック予測のための異なるディープシーケンスモデルの性能について検討し,評価を行った。 いくつかのディープシーケンスモデルが実際のトラフィックを予測するために実装され、実際のトラフィック予測において、アウトラヤ検出の重要性が示された。 まず, 3-シグマ則や孤立林といった2つの異なる異常検出手法を適用し, 異常を同定した。 第2に,モデルトレーニング前に後方充填法を用いて異常データ点を調整した。 最後に,異なるモデルの性能を,異常および調整されたトラヒックと比較した。 LSTM_Encoder_Decoder (LSTM_En_De) は我々の実験で最高の予測モデルである。 Recurrent Neural Network (RNN)、Long Short-Term Memory (LSTM)、LSTM_En_De with Attention Layer (LSTM_En_De_Atn)、Gated Recurrent Unit (GRU)を含む他のモデルでは、それぞれ29%、24%、19%、10%以上の予測誤差を減少させる。 実験の結果,データの異常値が予測の質に大きく影響する可能性が示唆された。 したがって、外乱検出と緩和は、一般的な傾向を学習し、より良い予測を行う際に、ディープシーケンスモデルを支援する。

Internet traffic in the real world is susceptible to various external and internal factors which may abruptly change the normal traffic flow. Those unexpected changes are considered outliers in traffic. However, deep sequence models have been used to predict complex IP traffic, but their comparative performance for anomalous traffic has not been studied extensively. In this paper, we investigated and evaluated the performance of different deep sequence models for anomalous traffic prediction. Several deep sequences models were implemented to predict real traffic without and with outliers and show the significance of outlier detection in real-world traffic prediction. First, two different outlier detection techniques, such as the Three-Sigma rule and Isolation Forest, were applied to identify the anomaly. Second, we adjusted those abnormal data points using the Backward Filling technique before training the model. Finally, the performance of different models was compared for abnormal and adjusted traffic. LSTM_Encoder_Decoder (LSTM_En_De) is the best prediction model in our experiment, reducing the deviation between actual and predicted traffic by more than 11\% after adjusting the outliers. All other models, including Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM), LSTM_En_De with Attention layer (LSTM_En_De_Atn), Gated Recurrent Unit (GRU), show better prediction after replacing the outliers and decreasing prediction error by more than 29%, 24%, 19%, and 10% respectively. Our experimental results indicate that the outliers in the data can significantly impact the quality of the prediction. Thus, outlier detection and mitigation assist the deep sequence model in learning the general trend and making better predictions.
翻訳日:2022-05-06 05:40:02 公開日:2022-05-03
# (参考訳) Smart City Intersections: 将来のメトロポリスのためのインテリジェンスノード

Smart City Intersections: Intelligence Nodes for Future Metropolises ( http://arxiv.org/abs/2205.01686v1 )

ライセンス: CC BY 4.0
Zoran Kosti\'c, Alex Angus, Zhengye Yang, Zhuoxu Duan, Ivan Seskar, Gil Zussman, Dipankar Raychaudhuri(参考訳) 交通交差点は、未来のスマートシティのためのコンピューティング、通信、情報サービスの展開に最も適した場所である。 収集および処理されるデータの豊富さとプライバシとセキュリティの懸念が組み合わさって、メトロポリスの物理的な交差点と整合するエッジコンピューティングパラダイムの使用を動機付けている。 本稿では,高帯域幅,低レイテンシのアプリケーションについて述べる。 (i)スマートシティ交差点情報ノードのシステム設計に関する考察 (II)センサー、ネットワーク、エッジコンピューティング、低レイテンシ設計、AIベースのインテリジェンスを含む重要な技術コンポーネント (iii)プライバシ保護、クラウド接続車両、リアルタイム「レーダースクリーン」、交通管理、パンデミック時の歩行者行動の監視といったアプリケーション。 ニューヨーク市のCOSMOSテストベッドで実施した実験結果について概説した。 人間中心のスマートシティ交差点の設計における今後の課題を要約する。

Traffic intersections are the most suitable locations for the deployment of computing, communications, and intelligence services for smart cities of the future. The abundance of data to be collected and processed, in combination with privacy and security concerns, motivates the use of the edge-computing paradigm which aligns well with physical intersections in metropolises. This paper focuses on high-bandwidth, low-latency applications, and in that context it describes: (i) system design considerations for smart city intersection intelligence nodes; (ii) key technological components including sensors, networking, edge computing, low latency design, and AI-based intelligence; and (iii) applications such as privacy preservation, cloud-connected vehicles, a real-time "radar-screen", traffic management, and monitoring of pedestrian behavior during pandemics. The results of the experimental studies performed on the COSMOS testbed located in New York City are illustrated. Future challenges in designing human-centered smart city intersections are summarized.
翻訳日:2022-05-06 05:29:17 公開日:2022-05-03
# (参考訳) 量子近似最適化のための回路奥行きスケーリングについて

On Circuit Depth Scaling For Quantum Approximate Optimization ( http://arxiv.org/abs/2205.01698v1 )

ライセンス: CC BY 4.0
V. Akshay and H. Philathong and E. Campos and D. Rabinovich and I. Zacharov and Xiao-Ming Zhang and J. Biamonte(参考訳) 変分量子アルゴリズムは現代の量子プログラミングの中心である。 これらのアルゴリズムは、古典的なコプロセッサを使ってパラメータ化された量子回路を訓練する。 量子ハードウェアの組合せ最適化のために設計されたこれらのアルゴリズムの重要なサブクラスは、量子近似最適化アルゴリズム(qaoa)である。 問題密度(変数比に対する問題制約)は固定深度qaoaにおいて非パラメータ化を引き起こすことが知られている。 文献では密度依存性能が報告されているが、固定性能を達成するのに必要な回路深度(臨界深度と呼ばれる)は分かっていない。 本稿では,密度に対する臨界深度スケーリングのためのロジスティック飽和予想に基づく予測モデルを提案する。 MAX-2-SATのランダムなインスタンスに着目し,最大15キュービットのシミュレーションデータに対して予測モデルを検証した。 平均臨界深度は0.7の確率に達するのに必要であり、密度が4を超えると10の値で飽和する。 シミュレーションデータを記述するために予測モデルを観察し, 信頼区間を$3\sigma$に設定した。 さらに,本モデルに基づいて,5~15キュービットの範囲において,問題サイズを考慮した臨界深さの線形トレンドを復元する。

Variational quantum algorithms are the centerpiece of modern quantum programming. These algorithms involve training parameterized quantum circuits using a classical co-processor, an approach adapted partly from classical machine learning. An important subclass of these algorithms, designed for combinatorial optimization on currrent quantum hardware, is the quantum approximate optimization algorithm (QAOA). It is known that problem density - a problem constraint to variable ratio - induces under-parametrization in fixed depth QAOA. Density dependent performance has been reported in the literature, yet the circuit depth required to achieve fixed performance (henceforth called critical depth) remained unknown. Here, we propose a predictive model, based on a logistic saturation conjecture for critical depth scaling with respect to density. Focusing on random instances of MAX-2-SAT, we test our predictive model against simulated data with up to 15 qubits. We report the average critical depth, required to attain a success probability of 0.7, saturates at a value of 10 for densities beyond 4. We observe the predictive model to describe the simulated data within a $3\sigma$ confidence interval. Furthermore, based on the model, a linear trend for the critical depth with respect problem size is recovered for the range of 5 to 15 qubits.
翻訳日:2022-05-06 05:13:21 公開日:2022-05-03
# (参考訳) 自己監督型トレーニングによるインテクスト・ファウショット学習の改善

Improving In-Context Few-Shot Learning via Self-Supervised Training ( http://arxiv.org/abs/2205.01703v1 )

ライセンス: CC BY 4.0
Mingda Chen, Jingfei Du, Ramakanth Pasunuru, Todor Mihaylov, Srini Iyer, Veselin Stoyanov, Zornitsa Kozareva(参考訳) 自己教師付き事前学習は、多くのnlpタスクでわずかなショット学習を可能にした。 しかし、事前学習の目的は通常、コンテキスト内少数ショット学習に特化されていない。 本稿では,事前学習と下流における数ショット使用の中間訓練段階における自己監督を,テキスト内数ショット学習を行うためのモデルを教えることを目的として提案する。 2つのベンチマークで4つの自己監督目標を提案し評価する。 中間の自己スーパービジョンステージは強いベースラインを上回るモデルを生成する。 アブレーション研究は、訓練データの量や自己監督対象の多様性など、下流のパフォーマンスに影響するいくつかの要因を示している。 人間の注釈によるクロスタスクの監督と自己監督は補完的だ。 質的分析は、自己教師付き学習モデルがタスク要求に従うのに優れていることを示唆する。

Self-supervised pretraining has made few-shot learning possible for many NLP tasks. But the pretraining objectives are not typically adapted specifically for in-context few-shot learning. In this paper, we propose to use self-supervision in an intermediate training stage between pretraining and downstream few-shot usage with the goal to teach the model to perform in-context few shot learning. We propose and evaluate four self-supervised objectives on two benchmarks. We find that the intermediate self-supervision stage produces models that outperform strong baselines. Ablation study shows that several factors affect the downstream performance, such as the amount of training data and the diversity of the self-supervised objectives. Human-annotated cross-task supervision and self-supervision are complementary. Qualitative analysis suggests that the self-supervised-trained models are better at following task requirements.
翻訳日:2022-05-06 05:03:19 公開日:2022-05-03
# (参考訳) 時空間認識のための画像事前学習の防御

In Defense of Image Pre-Training for Spatiotemporal Recognition ( http://arxiv.org/abs/2205.01721v1 )

ライセンス: CC BY 4.0
Xianhang Li, Huiyu Wang, Chen Wei, Jieru Mei, Alan Yuille, Yuyin Zhou, and Cihang Xie(参考訳) 視覚タスクにおける現在のデファクトパラダイムである画像事前学習は、一般的にビデオ認識の分野ではあまり好まれない。 対照的に、一般的な戦略は、時空間畳み込みニューラルネットワーク(cnns)をスクラッチから直接トレーニングすることである。 しかし、興味深いことに、これらの非スクラッチ学習されたCNNをよく見ると、他のカーネルよりもはるかに強力な外観モデリング能力を示す3Dカーネルが存在することが分かる。 この観察に触発されて、画像事前学習を効果的に活用するための鍵は、空間的および時間的特徴の学習の分解と、画像事前学習を3dカーネルの初期化前に外観として再検討することにあると仮定した。 さらに,特徴チャネルを空間的・時間的グループに明確に分割し,詳細な3次元CNNのための時空間的特徴のより詳細な分解を可能にする,時空間分離(STS)畳み込みを提案する。 実験の結果, 3次元畳み込みをstsに置き換えれば, パラメータを増加させることなく, 広い範囲の3d cnnを改善できることがわかった。 さらに、この新しいトレーニングパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。 例えば、Kinetics-400上でのSlowfastのトップ1は256エポックの128-GPUベースラインで、微調整は50エポックと4GPUでしか行いません。 コードとモデルはhttps://github.com/ucsc-vlaa/image-pretraining-for-videoで入手できる。

Image pre-training, the current de-facto paradigm for a wide range of visual tasks, is generally less favored in the field of video recognition. By contrast, a common strategy is to directly train with spatiotemporal convolutional neural networks (CNNs) from scratch. Nonetheless, interestingly, by taking a closer look at these from-scratch learned CNNs, we note there exist certain 3D kernels that exhibit much stronger appearance modeling ability than others, arguably suggesting appearance information is already well disentangled in learning. Inspired by this observation, we hypothesize that the key to effectively leveraging image pre-training lies in the decomposition of learning spatial and temporal features, and revisiting image pre-training as the appearance prior to initializing 3D kernels. In addition, we propose Spatial-Temporal Separable (STS) convolution, which explicitly splits the feature channels into spatial and temporal groups, to further enable a more thorough decomposition of spatiotemporal features for fine-tuning 3D CNNs. Our experiments show that simply replacing 3D convolution with STS notably improves a wide range of 3D CNNs without increasing parameters and computation on both Kinetics-400 and Something-Something V2. Moreover, this new training pipeline consistently achieves better results on video recognition with significant speedup. For instance, we achieve +0.6% top-1 of Slowfast on Kinetics-400 over the strong 256-epoch 128-GPU baseline while fine-tuning for only 50 epochs with 4 GPUs. The code and models are available at https://github.com/UCSC-VLAA/Image-Pretraining-for-Video.
翻訳日:2022-05-06 04:37:04 公開日:2022-05-03
# (参考訳) リベンジのテーマ:テキストデータにおける残響内容の自動識別

Themes of Revenge: Automatic Identification of Vengeful Content in Textual Data ( http://arxiv.org/abs/2205.01731v1 )

ライセンス: CC BY 4.0
Yair Neuman, Eden Shalom Erez, Joshua Tschantret, Hayden Weiss(参考訳) リベンジは、学校銃撃犯から右翼テロリストまで、様々なソロ犯の行動に弱いと報告された強力な動機づけ力である。 本稿では,テキストデータ中の復讐的テーマを識別する自動手法を開発する。 4つのデータセット(ソーシャルメディア、学校銃撃犯、右翼テロリスト、イスラムテロリストの復讐的なテキスト)でモデルをテストし、極めて不均衡なデータセットで方法論がテストされたとしても、有望な結果を示す。 この論文は、単独の加害者のスクリーニングに使用できる単純で強力な方法論を提示するだけでなく、復讐のシンプルな理論モデルを検証する。

Revenge is a powerful motivating force reported to underlie the behavior of various solo perpetrators, from school shooters to right wing terrorists. In this paper, we develop an automated methodology for identifying vengeful themes in textual data. Testing the model on four datasets (vengeful texts from social media, school shooters, Right Wing terrorist and Islamic terrorists), we present promising results, even when the methodology is tested on extremely imbalanced datasets. The paper not only presents a simple and powerful methodology that may be used for the screening of solo perpetrators but also validate the simple theoretical model of revenge.
翻訳日:2022-05-06 04:21:41 公開日:2022-05-03
# (参考訳) CoModGANs, LaMa, GLIDEのアートインペインティング-M.C Escher's Print Galleryにおける比較

Comparison of CoModGANs, LaMa and GLIDE for Art Inpainting- Completing M.C Escher's Print Gallery ( http://arxiv.org/abs/2205.01741v1 )

ライセンス: CC BY 4.0
Lucia Cipolina-Kun and Simone Caenazzo and Gaston Mazzei(参考訳) デジタルアート修復は、絵画の劣化または欠落部分を修正するための塗装モデルの恩恵を受けている。 この研究は、大きな欠損領域の塗装に関する3つの最先端技術モデルと比較する。 画像のぼやけた部分や欠落部分の塗装におけるCoModGAN,LaMa,GLIDEの性能の質的,定量的比較を行う。 エッシャーの不完全な絵画 印刷ギャラリーは、修復インペイントでよく見られる課題のいくつかを提示するので、テストスタディとして使用しています。

Digital art restoration has benefited from inpainting models to correct the degradation or missing sections of a painting. This work compares three current state-of-the art models for inpainting of large missing regions. We provide qualitative and quantitative comparison of the performance by CoModGANs, LaMa and GLIDE in inpainting of blurry and missing sections of images. We use Escher's incomplete painting Print Gallery as our test study since it presents several of the challenges commonly present in restorative inpainting.
翻訳日:2022-05-06 04:14:25 公開日:2022-05-03
# (参考訳) 病理画像分割のためのマルチスケールU-Netアーキテクチャとノイズロバストトレーニング戦略

Deep Multi-Scale U-Net Architecture and Noise-Robust Training Strategies for Histopathological Image Segmentation ( http://arxiv.org/abs/2205.01777v1 )

ライセンス: CC BY 4.0
Nikhil Cherian Kurian, Amit Lohan, Gregory Verghese, Nimish Dharamshi, Swati Meena, Mengyuan Li, Fangfang Liu, Cheryl Gillet, Swapnil Rane, Anita Grigoriadis, Amit Sethi(参考訳) U-Netアーキテクチャは医用画像のセグメンテーションに広く用いられているが、本研究における欠点の2つに対処する。 第一に, セグメンテーション対象領域が形状や大きさに有意な変化を示す場合, バニラU-Netの精度は低下する。 U-Netはすでに様々なスケールで機能を解析する能力を持っているが、U-Netエンコーダの各畳み込みモジュールにマルチスケールの特徴マップを明示的に追加し、ヒストロジー画像のセグメンテーションを改善することを提案する。 第二に、教師付き学習のためのアノテーションがノイズや不完全である場合、u-netモデルの精度も低下する。 これは、人間の専門家が特定の病理の全ての事例を正確に正確に特定し、記述することが困難であるために起こりうる。 我々は、与えられた対象領域の境界を強調しない補助信頼度マップを導入することで、この課題に対処します。 さらに,ディープネットワークのブートストラップ特性を利用して,不足しているアノテーション問題をインテリジェントに解決する。 本研究は, 乳がんリンパ節のプライベートデータセットを用いて, 胚性中心と副鼻腔組織球症の分節化を主目的とし, 提案した2つの拡張に基づいて, U-Netベースラインの大幅な改善が認められた。

Although the U-Net architecture has been extensively used for segmentation of medical images, we address two of its shortcomings in this work. Firstly, the accuracy of vanilla U-Net degrades when the target regions for segmentation exhibit significant variations in shape and size. Even though the U-Net already possesses some capability to analyze features at various scales, we propose to explicitly add multi-scale feature maps in each convolutional module of the U-Net encoder to improve segmentation of histology images. Secondly, the accuracy of a U-Net model also suffers when the annotations for supervised learning are noisy or incomplete. This can happen due to the inherent difficulty for a human expert to identify and delineate all instances of specific pathology very precisely and accurately. We address this challenge by introducing auxiliary confidence maps that emphasize less on the boundaries of the given target regions. Further, we utilize the bootstrapping properties of the deep network to address the missing annotation problem intelligently. In our experiments on a private dataset of breast cancer lymph nodes, where the primary task was to segment germinal centres and sinus histiocytosis, we observed substantial improvement over a U-Net baseline based on the two proposed augmentations.
翻訳日:2022-05-06 04:03:03 公開日:2022-05-03
# (参考訳) オピニオンマイニングと情報検索技術の統合によるベースラインレコメンデーションシステムの限界の推進に関するレビュー

A Review on Pushing the Limits of Baseline Recommendation Systems with the integration of Opinion Mining & Information Retrieval Techniques ( http://arxiv.org/abs/2205.01802v1 )

ライセンス: CC BY 4.0
Dinuka Ravijaya Piyadigama, Guhanathan Poravi(参考訳) レコメンデーションシステムでは,ユーザの期待にタイムリーで関連性のあるコミュニティ内のトレンドアイテムを識別することができる。 様々なレコメンデーションシステムの目的が異なる場合、各ユースケースごとに必要なタイプのレコメンデーションも異なる。 あるレコメンデーションシステムは人気アイテムを推薦することに集中するが、別のレコメンデーションシステムはユーザーの興味に匹敵するアイテムを推薦することに焦点を当てる。 コンテンツベースのフィルタリング,ユーザ間およびアイテム間協調フィルタリング,さらに最近では,より高品質な推薦を実現するために,ディープラーニング手法が研究者によって提案されている。 これらの手法は、それぞれが個々にうまく機能することが証明されているが、制限の境界を押し上げる試みがある。 幅広い方法に従い、研究者はビジネスの観点から利益を上げつつ、ユーザに最も効果的なレコメンデーションを提供する標準レコメンデーションシステムの能力を拡大しようと試みている。 これはレコメンデーションシステムのためのモデルとアーキテクチャを構築する際にハイブリッドアプローチをとることによって達成された。 本稿では,ハイブリッドレコメンデーションシステムの新しいモデルとアーキテクチャについて概観する。 このレビューでは,ベースラインモデルの能力を拡大する可能性と,各モデルの利点と欠点を,選択したユースケースで検証する。

Recommendations Systems allow users to identify trending items among a community while being timely and relevant to the user's expectations. When the purpose of various Recommendation Systems differs, the required type of recommendations also differs for each use case. While one Recommendation System may focus on recommending popular items, another may focus on recommending items that are comparable to the user's interests. Content-based filtering, user-to-user & item-to-item Collaborative filtering, and more recently; Deep Learning methods have been brought forward by the researchers to achieve better quality recommendations. Even though each of these methods has proven to perform well individually, there have been attempts to push the boundaries of their limitations. Following a wide range of methods, researchers have tried to expand on the capabilities of standard recommendation systems to provide the most effective recommendations to users while being more profitable from a business's perspective. This has been achieved by taking a hybrid approach when building models and architectures for Recommendation Systems. This paper is a review of the novel models & architectures of hybrid Recommendation Systems. The author identifies possibilities of expanding the capabilities of baseline models & the advantages and drawbacks of each model with selected use cases in this review.
翻訳日:2022-05-06 03:54:26 公開日:2022-05-03
# (参考訳) コンピュータビジョンにおけるデータセットバイアスの評価

Assessing Dataset Bias in Computer Vision ( http://arxiv.org/abs/2205.01811v1 )

ライセンス: CC BY 4.0
Athiya Deviyani(参考訳) バイアスデータセットは、一般に不均一なクラス分布を持つ属性を持つデータセットである。 これらのバイアスは、それらを訓練するモデルに伝播する傾向があり、マイノリティクラスではパフォーマンスが低下することが多い。 このプロジェクトでは,データセット内の内在バイアスを緩和するさまざまなデータ拡張手法について検討する。 我々は、アンダーサンプリング、幾何変換、変分オートエンコーダ(vaes)、生成逆ネットワーク(gans)など、utkfaceデータセットのサンプルにいくつかの拡張技術を適用する。 次に,拡張データセット毎に分類器をトレーニングし,ネイティブテストセットと外部顔認識データセットでの性能評価を行った。 また、FairFaceデータセットでトレーニングされた最先端の属性分類器と比較した。 実験により、StarGAN生成画像上でモデルをトレーニングすることで、全体的なパフォーマンスが最高のものになったことがわかった。 また、幾何変換画像のトレーニングは、より高速にトレーニングできる同様のパフォーマンスをもたらすことが分かりました。 さらに、最高のパフォーマンスモデルは、各属性内のクラス全体で均一なパフォーマンスを示す。 これは、モデルが元のトレーニングセットでトレーニングされたベースラインモデルに存在するバイアスを軽減することができたことを示している。 最後に、FairFaceモデルと比較して、我々のモデルは、複数のデータセット上の年齢と民族の分類において、より優れた全体的なパフォーマンスと一貫性を持つことを示した。 我々の最終モデルは、それぞれ性別、年齢、民族属性に対して91.75%、91.30%、87.20%のUTKFaceテストセットの精度を持ち、各属性のクラス間の標準偏差は0.1未満である。

A biased dataset is a dataset that generally has attributes with an uneven class distribution. These biases have the tendency to propagate to the models that train on them, often leading to a poor performance in the minority class. In this project, we will explore the extent to which various data augmentation methods alleviate intrinsic biases within the dataset. We will apply several augmentation techniques on a sample of the UTKFace dataset, such as undersampling, geometric transformations, variational autoencoders (VAEs), and generative adversarial networks (GANs). We then trained a classifier for each of the augmented datasets and evaluated their performance on the native test set and on external facial recognition datasets. We have also compared their performance to the state-of-the-art attribute classifier trained on the FairFace dataset. Through experimentation, we were able to find that training the model on StarGAN-generated images led to the best overall performance. We also found that training on geometrically transformed images lead to a similar performance with a much quicker training time. Additionally, the best performing models also exhibit a uniform performance across the classes within each attribute. This signifies that the model was also able to mitigate the biases present in the baseline model that was trained on the original training set. Finally, we were able to show that our model has a better overall performance and consistency on age and ethnicity classification on multiple datasets when compared with the FairFace model. Our final model has an accuracy on the UTKFace test set of 91.75%, 91.30%, and 87.20% for the gender, age, and ethnicity attribute respectively, with a standard deviation of less than 0.1 between the accuracies of the classes of each attribute.
翻訳日:2022-05-06 03:44:59 公開日:2022-05-03
# メタ認知。 認知レーダのための逆逆強化学習手法

Meta-Cognition. An Inverse-Inverse Reinforcement Learning Approach for Cognitive Radars ( http://arxiv.org/abs/2205.01794v1 )

ライセンス: Link先を確認
Kunal Pattanayak and Vikram Krishnamurthy and Christopher Berry(参考訳) 本稿では,メタ認知レーダを対角的に検討する。 認知レーダは、その波形(応答)を、潜在的に対向する移動ターゲットの操作(プローブ)に応じて最適に適応させる。 メタ認知レーダーは、標的の対向性を認識し、対向目標を緩和しようとする。 メタ認知レーダはどのようにしてその応答を選択して敵を混乱させ、レーダの効用関数を推定すべきか? 本稿では、状態のスペクトル(固有値)と観測ノイズの共分散行列を用いてレーダーのメタ認知問題を抽象化し、代数的リカティ方程式を経済ベースのユーティリティ最大化設定に組み込む。 この敵の標的は逆強化学習者だ レーダーの応答(波形)のノイズの連続を観測することにより、敵ターゲットは統計的仮説テストを使用して、レーダーが実用最大値であるかどうかを検出する。 メタ認知レーダーは、敵検出器のType-Iエラー確率を増加させる準最適応答を意図的に選択する。 メタ認知レーダによる反逆ステップを逆逆強化学習(i-irl)と呼ぶ。 本稿では,本論文のメタ認知結果を簡単な数値例で示す。 本論文におけるメタ認知のアプローチは,ミクロ経済学における選好理論の解明と,機械学習における差分プライバシと敵対的難読化の結果から着想を得たものである。

This paper considers meta-cognitive radars in an adversarial setting. A cognitive radar optimally adapts its waveform (response) in response to maneuvers (probes) of a possibly adversarial moving target. A meta-cognitive radar is aware of the adversarial nature of the target and seeks to mitigate the adversarial target. How should the meta-cognitive radar choose its responses to sufficiently confuse the adversary trying to estimate the radar's utility function? This paper abstracts the radar's meta-cognition problem in terms of the spectra (eigenvalues) of the state and observation noise covariance matrices, and embeds the algebraic Riccati equation into an economics-based utility maximization setup. This adversarial target is an inverse reinforcement learner. By observing a noisy sequence of radar's responses (waveforms), the adversarial target uses a statistical hypothesis test to detect if the radar is a utility maximizer. In turn, the meta-cognitive radar deliberately chooses sub-optimal responses that increasing its Type-I error probability of the adversary's detector. We call this counter-adversarial step taken by the meta-cognitive radar as inverse inverse reinforcement learning (I-IRL). We illustrate the meta-cognition results of this paper via simple numerical examples. Our approach for meta-cognition in this paper is based on revealed preference theory in micro-economics and inspired by results in differential privacy and adversarial obfuscation in machine learning.
翻訳日:2022-05-05 16:28:27 公開日:2022-05-03
# 成長する等方性神経細胞オートマトン

Growing Isotropic Neural Cellular Automata ( http://arxiv.org/abs/2205.01681v1 )

ライセンス: Link先を確認
Alexander Mordvintsev, Ettore Randazzo and Craig Fouts(参考訳) 個々の細胞間の局所的な相互作用(形態形成)を通じて体を構築し維持する多細胞生物の能力のモデル化は、発達生物学の長年の課題である。 近年、ニューラルネットワークオートマタ(NCA)モデルは、単一セルから始まるグリッドに同じルールを繰り返し適用することにより、予め定義されたパターンを成長、持続するなど、望ましいグローバルな振る舞いを生成するローカルシステムルールを見つける方法として提案されている。 この研究では、元のncaモデルには重要な制限があると主張する: 学習された更新規則の異方性。 これは、細胞を特定の方向に向き付ける外部因子の存在を意味する。 言い換えれば、基礎となるシステムの「物理的」規則は回転に不変ではないため、同じ格子上にターゲットパターンの異なる向きのインスタンスが存在しない。 我々は,この制限を満たさない等方性ncaモデルを提案する。 細胞系は, 構造種子を用いた対称性の破断や, 回転反射不変な学習目標の導入, 非同期セル更新による対称性の破断に依存することにより, 高精度な非対称パターンを育成できることを示す。

Modeling the ability of multicellular organisms to build and maintain their bodies through local interactions between individual cells (morphogenesis) is a long-standing challenge of developmental biology. Recently, the Neural Cellular Automata (NCA) model was proposed as a way to find local system rules that produce a desired global behaviour, such as growing and persisting a predefined pattern, by repeatedly applying the same rule over a grid starting from a single cell. In this work we argue that the original Growing NCA model has an important limitation: anisotropy of the learned update rule. This implies the presence of an external factor that orients the cells in a particular direction. In other words, 'physical' rules of the underlying system are not invariant to rotation, thus prohibiting the existence of differently oriented instances of the target pattern on the same grid. We propose a modified Isotropic NCA model that does not have this limitation. We demonstrate that cell systems can be trained to grow accurate asymmetrical patterns through either of two methods: by breaking symmetries using structured seeds; or by introducing a rotation-reflection invariant training objective and relying on symmetry breaking caused by asynchronous cell updates.
翻訳日:2022-05-05 16:23:42 公開日:2022-05-03
# MemSE: ノイズの多いMemristorベースのDNN加速器の高速MSE予測

MemSE: Fast MSE Prediction for Noisy Memristor-Based DNN Accelerators ( http://arxiv.org/abs/2205.01707v1 )

ライセンス: Link先を確認
Jonathan Kern, S\'ebastien Henwood, Gon\c{c}alo Mordido, Elsa Dupraz, Abdeldjalil A\"issa-El-Bey, Yvon Savaria and Fran\c{c}ois Leduc-Primeau(参考訳) メモリにおける行列ベクトル乗算(MVM)の計算を可能にするため、ディープニューラルネットワーク(DNN)推論加速器のエネルギー効率を高く向上させる大きな可能性を示す。 しかし、memristorsの計算はハードウェアの非理想性に苦しめられ、システム性能に悪影響を及ぼす可能性のある異なるノイズの源となる。 本研究では,メムリスタクロスバーを用いてMVMを計算するDNNの平均二乗誤差を理論的に解析する。 メミスタンス値のプログラミングにおける可変性に起因する,dnnモデルサイズを小さくする必要性から,量子化ノイズとプログラミングノイズの両方を考慮に入れる。 事前学習したdnnモデルのシミュレーションは解析予測の精度を示す。 さらに,提案手法はモンテカルロシミュレーションよりも約2桁高速であり,与えられたパワー制約に対する最小誤差を達成するために実装パラメータを最適化することができる。

Memristors enable the computation of matrix-vector multiplications (MVM) in memory and, therefore, show great potential in highly increasing the energy efficiency of deep neural network (DNN) inference accelerators. However, computations in memristors suffer from hardware non-idealities and are subject to different sources of noise that may negatively impact system performance. In this work, we theoretically analyze the mean squared error of DNNs that use memristor crossbars to compute MVM. We take into account both the quantization noise, due to the necessity of reducing the DNN model size, and the programming noise, stemming from the variability during the programming of the memristance value. Simulations on pre-trained DNN models showcase the accuracy of the analytical prediction. Furthermore the proposed method is almost two order of magnitude faster than Monte-Carlo simulation, thus making it possible to optimize the implementation parameters to achieve minimal error for a given power constraint.
翻訳日:2022-05-05 16:23:18 公開日:2022-05-03
# ソフトマルチボディシステムの微分可能シミュレーション

Differentiable Simulation of Soft Multi-body Systems ( http://arxiv.org/abs/2205.01758v1 )

ライセンス: Link先を確認
Yi-Ling Qiao, Junbang Liang, Vladlen Koltun, Ming C. Lin(参考訳) 本稿では,軟関節物体の可微分シミュレーション法を提案する。 私たちの仕事は、微分可能な物理的ダイナミクスを勾配ベースのパイプラインに統合することを可能にします。 我々は,プロジェクティブ・ダイナミクス内でトップダウン行列組立アルゴリズムを開発し,新しい行列分割戦略を用いてソフト連続体に対する一般的なドライ摩擦モデルを導出する。 筋肉,関節トルク,空気圧チューブによって駆動される軟関節体に対する微分可能な制御枠組みを導出する。 実験により, ソフトボディシミュレーションを他のフレームワークと比較してより安定し, 現実的なものにした。 本手法は,システム識別問題の解法を桁違いに高速化し,ソフトロボットによる動作制御の勾配に基づく効率的な学習を可能にする。

We present a method for differentiable simulation of soft articulated bodies. Our work enables the integration of differentiable physical dynamics into gradient-based pipelines. We develop a top-down matrix assembly algorithm within Projective Dynamics and derive a generalized dry friction model for soft continuum using a new matrix splitting strategy. We derive a differentiable control framework for soft articulated bodies driven by muscles, joint torques, or pneumatic tubes. The experiments demonstrate that our designs make soft body simulation more stable and realistic compared to other frameworks. Our method accelerates the solution of system identification problems by more than an order of magnitude, and enables efficient gradient-based learning of motion control with soft robots.
翻訳日:2022-05-05 16:21:44 公開日:2022-05-03
# icml 2022 表現的発声ワークショップとコンペティション:発声バーストの認識、生成、パーソナライズ

The ICML 2022 Expressive Vocalizations Workshop and Competition: Recognizing, Generating, and Personalizing Vocal Bursts ( http://arxiv.org/abs/2205.01780v1 )

ライセンス: Link先を確認
Alice Baird, Panagiotis Tzirakis, Gauthier Gidel, Marco Jiralerspong, Eilif B. Muller, Kory Mathewson, Bj\"orn Schuller, Erik Cambria, Dacher Keltner, Alan Cowen(参考訳) icml expressive vocalization (exvo) コンペティションは、笑い、腹痛、泣き声、そして感情的な表現とコミュニケーションの中心的な非言語的な発声の理解と生成に焦点を当てている。 ExVo 2022には,1,702人の話者による59,201人の音声データセットを使用した,3つの競合トラックが含まれている。 最初のExVo-MultiTaskは、参加者が声のバーストから表現された感情や人口特性を認識するためにマルチタスクモデルをトレーニングする必要がある。 第2のExVo-Generateは、参加者が10種類の感情を伝達する声のバーストを生成する生成モデルを訓練する必要がある。 第3のExVo-FewShotは、参加者がスピーカーアイデンティティを組み込んだ数発の学習を活用して、声のバーストによって伝達される10の感情を認識するモデルを訓練する必要がある。 本稿では,3つのトラックについて述べるとともに,最先端の機械学習戦略を用いたベースラインモデルの性能評価を行う。 exvo-multitask, a combined score, computing the harmonic mean of concordance correlation coefficient (ccc), unweighted average recall (uar), and inverted mean absolute error (mae) (s_{mtl}$) is least is least, 0.335 $s_{mtl}$; exvo-generateでは、トレーニングセットと生成されたサンプルの間の4.81から8.27のスコア(感情に依存する)を報告する。 次に、逆FIDと生成されたサンプルの知覚評価(S_{Gen}$)を組み合わせ、0.174ドルのS_{Gen}$を得る。

The ICML Expressive Vocalization (ExVo) Competition is focused on understanding and generating vocal bursts: laughs, gasps, cries, and other non-verbal vocalizations that are central to emotional expression and communication. ExVo 2022, includes three competition tracks using a large-scale dataset of 59,201 vocalizations from 1,702 speakers. The first, ExVo-MultiTask, requires participants to train a multi-task model to recognize expressed emotions and demographic traits from vocal bursts. The second, ExVo-Generate, requires participants to train a generative model that produces vocal bursts conveying ten different emotions. The third, ExVo-FewShot, requires participants to leverage few-shot learning incorporating speaker identity to train a model for the recognition of 10 emotions conveyed by vocal bursts. This paper describes the three tracks and provides performance measures for baseline models using state-of-the-art machine learning strategies. The baseline for each track is as follows, for ExVo-MultiTask, a combined score, computing the harmonic mean of Concordance Correlation Coefficient (CCC), Unweighted Average Recall (UAR), and inverted Mean Absolute Error (MAE) ($S_{MTL}$) is at best, 0.335 $S_{MTL}$; for ExVo-Generate, we report Fr\'echet inception distance (FID) scores ranging from 4.81 to 8.27 (depending on the emotion) between the training set and generated samples. We then combine the inverted FID with perceptual ratings of the generated samples ($S_{Gen}$) and obtain 0.174 $S_{Gen}$; and for ExVo-FewShot, a mean CCC of 0.444 is obtained.
翻訳日:2022-05-05 16:21:33 公開日:2022-05-03
# 空いている駐車空間アベイラビリティーゾーンの予測--グラフに基づく時空間予測手法

Predicting vacant parking space availability zone-wisely: a graph based spatio-temporal prediction approach ( http://arxiv.org/abs/2205.02113v1 )

ライセンス: Link先を確認
Yajing Feng, Qian Hu, Zhenzhou Tang(参考訳) バカント駐車スペース(VPS)予測は、インテリジェント駐車誘導システムにおいて重要な問題の一つである。 正確なVPS情報の予測は、ドライバーが駐車スペースを素早く見つけ、不要な時間の無駄を省き、環境汚染を過度に軽減するインテリジェントな駐車誘導システムにおいて重要な役割を果たす。 履歴データの簡易解析により,各駐車場に明らかな時間的相関が存在するだけでなく,異なる駐車場間の空間的相関も明らかであることがわかった。 そこで本稿では,グラフデータに基づくモデルst-gbgru(spatial-temporal graph based gated recurrent unit)を提案する。 一方、歴史的VPSデータの時間的相関はGRUにより抽出され、一方、歴史的VPSデータの空間的相関はGRU内部のGCNによって抽出される。 直接予測と反復予測という2つの予測手法を,提案モデルと組み合わせた。 最後に,サンタモニカの公共駐車場8カ所のVPS数を予測するために予測モデルを適用した。 その結果,st-gbgruモデルは短期的および長期的予測タスクにおいて高い精度を達成でき,良好な応用可能性が得られることがわかった。

Vacant parking space (VPS) prediction is one of the key issues of intelligent parking guidance systems. Accurately predicting VPS information plays a crucial role in intelligent parking guidance systems, which can help drivers find parking space quickly, reducing unnecessary waste of time and excessive environmental pollution. Through the simple analysis of historical data, we found that there not only exists a obvious temporal correlation in each parking lot, but also a clear spatial correlation between different parking lots. In view of this, this paper proposed a graph data-based model ST-GBGRU (Spatial-Temporal Graph Based Gated Recurrent Unit), the number of VPSs can be predicted both in short-term (i.e., within 30 min) and in long-term (i.e., over 30min). On the one hand, the temporal correlation of historical VPS data is extracted by GRU, on the other hand, the spatial correlation of historical VPS data is extracted by GCN inside GRU. Two prediction methods, namely direct prediction and iterative prediction, are combined with the proposed model. Finally, the prediction model is applied to predict the number VPSs of 8 public parking lots in Santa Monica. The results show that in the short-term and long-term prediction tasks, ST-GBGRU model can achieve high accuracy and have good application prospects.
翻訳日:2022-05-05 15:17:08 公開日:2022-05-03
# 混合不変学習を用いた実雑音音声認識のための単声音声強調について

On monoaural speech enhancement for automatic recognition of real noisy speech using mixture invariant training ( http://arxiv.org/abs/2205.01751v1 )

ライセンス: Link先を確認
Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker(参考訳) 本稿では,ロバストな音声認識のためのモノオーラルニューラルエンハンスメントモデルをトレーニングするための改良フレームワークについて検討する。 設計されたトレーニングフレームワークは、既存の混合不変トレーニング基準を拡張して、不適切なクリーン音声と実雑音データの両方を活用する。 実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。 提案手法は,処理アーチファクトを緩和するために,処理信号と未処理信号の再混合も行う。 シングルチャネルchime-3実テストセットを用いた実験により,教師あり方式で不整合シミュレーションデータか教師なし方式でマッチング実データのいずれかを用いて学習した強調システムよりも音声認識性能が大幅に向上したことを示す。 16%から39%の相対 wer 削減が提案方式によって達成されており、歪んだデータを再訓練することなく、エンドツーエンドおよびハイブリッド音響モデルを用いた未処理信号と比較できる。

In this paper, we explore an improved framework to train a monoaural neural enhancement model for robust speech recognition. The designed training framework extends the existing mixture invariant training criterion to exploit both unpaired clean speech and real noisy data. It is found that the unpaired clean speech is crucial to improve quality of separated speech from real noisy speech. The proposed method also performs remixing of processed and unprocessed signals to alleviate the processing artifacts. Experiments on the single-channel CHiME-3 real test sets show that the proposed method improves significantly in terms of speech recognition performance over the enhancement system trained either on the mismatched simulated data in a supervised fashion or on the matched real data in an unsupervised fashion. Between 16% and 39% relative WER reduction has been achieved by the proposed system compared to the unprocessed signal using end-to-end and hybrid acoustic models without retraining on distorted data.
翻訳日:2022-05-05 15:16:35 公開日:2022-05-03
# 交通現場の協調的視覚分析におけるライセンスプレートプライバシ

License Plate Privacy in Collaborative Visual Analysis of Traffic Scenes ( http://arxiv.org/abs/2205.01724v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar, Korcan Uyanik, and Ivan V. Baji\'c(参考訳) 交通現場分析は、スマート交通管理や自動運転車といった新興技術にとって重要である。 しかし、そのような分析は潜在的なプライバシーの脅威を引き起こす。 例えば、ナンバープレートを認識できるシステムは、対応する車両所有者の行動パターンを構築し、様々な違法な目的に使用することができる。 本稿では,ライセンスプレートのプライバシーを保護しながら,交通シーンの分析を可能にするシステムを提案する。 このシステムは、特定の特徴が分析タスクやプライベート情報にもたらす情報量に応じて、潜在空間を選択的に圧縮するマルチタスクモデルに基づいている。 提案手法の有効性は,Cityscapesデータセットの実験によって説明され,ライセンスプレートアノテーションも提供する。

Traffic scene analysis is important for emerging technologies such as smart traffic management and autonomous vehicles. However, such analysis also poses potential privacy threats. For example, a system that can recognize license plates may construct patterns of behavior of the corresponding vehicles' owners and use that for various illegal purposes. In this paper we present a system that enables traffic scene analysis while at the same time preserving license plate privacy. The system is based on a multi-task model whose latent space is selectively compressed depending on the amount of information the specific features carry about analysis tasks and private information. Effectiveness of the proposed method is illustrated by experiments on the Cityscapes dataset, for which we also provide license plate annotations.
翻訳日:2022-05-05 15:13:03 公開日:2022-05-03
# 動的MR画像再構成のためのデータ一貫性非カルテアン深部学習

Data-Consistent Non-Cartesian Deep Subspace Learning for Efficient Dynamic MR Image Reconstruction ( http://arxiv.org/abs/2205.01770v1 )

ライセンス: Link先を確認
Zihao Chen, Yuhua Chen, Yibin Xie, Debiao Li, Anthony G. Christodoulou(参考訳) 部分空間制約画像再構成を用いた非カルテシアンサンプリングは、ダイナミックMRIに対する一般的なアプローチであるが、反復的再構成が遅いことで臨床応用が制限される。 Data-Consistent (DC) 深層学習は画像品質のよい再構成を加速するが、非カルテシアン部分空間イメージングでは定式化されていない。 本研究では,高速で高精度な動的mr画像再構成のためのdc非カルテ的深部空間学習フレームワークを提案する。 4つの新しい直流定式化が開発・評価され, 2つの勾配的アプローチ, 直接解法, 共役的勾配的アプローチが得られた。 心MRマルチタスキングにおけるT1強調画像の再構成には, 直流層と非直流層を併用したU-Netモデルを適用した。 実験の結果,提案手法は直流のないU-Netモデルの復元精度を著しく向上する一方で,従来の反復的再構成よりも大幅な高速化を図っている。

Non-Cartesian sampling with subspace-constrained image reconstruction is a popular approach to dynamic MRI, but slow iterative reconstruction limits its clinical application. Data-consistent (DC) deep learning can accelerate reconstruction with good image quality, but has not been formulated for non-Cartesian subspace imaging. In this study, we propose a DC non-Cartesian deep subspace learning framework for fast, accurate dynamic MR image reconstruction. Four novel DC formulations are developed and evaluated: two gradient decent approaches, a directly solved approach, and a conjugate gradient approach. We applied a U-Net model with and without DC layers to reconstruct T1-weighted images for cardiac MR Multitasking (an advanced multidimensional imaging method), comparing our results to the iteratively reconstructed reference. Experimental results show that the proposed framework significantly improves reconstruction accuracy over the U-Net model without DC, while significantly accelerating the reconstruction over conventional iterative reconstruction.
翻訳日:2022-05-05 15:12:52 公開日:2022-05-03
# アクティブデザイン空間プルーニングによる自己焦点仮想スクリーニング

Self-focusing virtual screening with active design space pruning ( http://arxiv.org/abs/2205.01753v1 )

ライセンス: Link先を確認
David E. Graff, Matteo Aldeghi, Joseph A. Morrone, Kirk E. Jordan, Edward O. Pyzer-Knapp and Connor W. Coley(参考訳) 高スループット仮想スクリーニングは、小さな分子の発見に必要とされるテクニックである。 分子のライブラリーが極端に大きい場合、網羅的な仮想スクリーンのコストは禁じられるかもしれない。 モデル誘導最適化は、ランダム選択に比べてサンプル効率が劇的に向上し、これらのコストを下げるために用いられる。 しかしながら、これらのテクニックは、代理モデルトレーニングと推論ステップを通じてワークフローに新たなコストをもたらす。 本研究では,設計空間プルーニング (design space pruning, dsp) と呼ばれる手法を用いて, 予測コストの低減を図るモデル誘導最適化の枠組みの拡張を提案する。 DSPの様々な最適化タスクへの適用について検討し、ベースライン最適化に類似した性能を示しながら、オーバーヘッドコストの大幅な削減を観察する。 DSPは、ドッキングのような客観的なコストに対してこれらのコストが無視できない最適化設定におけるオーバーヘッドコストを制限することができるモデル誘導最適化の魅力的な拡張である。

High-throughput virtual screening is an indispensable technique utilized in the discovery of small molecules. In cases where the library of molecules is exceedingly large, the cost of an exhaustive virtual screen may be prohibitive. Model-guided optimization has been employed to lower these costs through dramatic increases in sample efficiency compared to random selection. However, these techniques introduce new costs to the workflow through the surrogate model training and inference steps. In this study, we propose an extension to the framework of model-guided optimization that mitigates inferences costs using a technique we refer to as design space pruning (DSP), which irreversibly removes poor-performing candidates from consideration. We study the application of DSP to a variety of optimization tasks and observe significant reductions in overhead costs while exhibiting similar performance to the baseline optimization. DSP represents an attractive extension of model-guided optimization that can limit overhead costs in optimization settings where these costs are non-negligible relative to objective costs, such as docking.
翻訳日:2022-05-05 15:09:08 公開日:2022-05-03
# Quiz Design Task: 教師が質問の自動生成によるクイズ作成を支援する

Quiz Design Task: Helping Teachers Create Quizzes with Automated Question Generation ( http://arxiv.org/abs/2205.01730v1 )

ライセンス: Link先を確認
Philippe Laban and Chien-Sheng Wu and Lidiya Murakhovs'ka and Wenhao Liu and Caiming Xiong(参考訳) 質問生成(QGen)モデルは、n-gramオーバーラップに基づく標準化されたNLGメトリクスで評価されることが多い。 本稿では,教師が読解クイズを自動生成する際のユースケースに焦点をあてて,これらの指標の改善が実践的な場面で得られるかどうかを計測する。 本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否する。 近年のQGenの進歩は質問受理率を大幅に向上させるが、改善の余地は依然として広く、最高のモデルでは、調査に参加した10人の教師が受け入れた質問の68.4%しか持たない。 次に、収集したアノテーションを利用して標準のNLGメトリクスを分析し、モデルパフォーマンスが予測上界に達したことを発見し、QGen研究を先導するために新しい自動メトリクスが必要であることを示唆します。

Question generation (QGen) models are often evaluated with standardized NLG metrics that are based on n-gram overlap. In this paper, we measure whether these metric improvements translate to gains in a practical setting, focusing on the use case of helping teachers automate the generation of reading comprehension quizzes. In our study, teachers building a quiz receive question suggestions, which they can either accept or refuse with a reason. Even though we find that recent progress in QGen leads to a significant increase in question acceptance rates, there is still large room for improvement, with the best model having only 68.4% of its questions accepted by the ten teachers who participated in our study. We then leverage the annotations we collected to analyze standard NLG metrics and find that model performance has reached projected upper-bounds, suggesting new automatic metrics are needed to guide QGen research forward.
翻訳日:2022-05-05 14:51:20 公開日:2022-05-03
# 新型コロナウイルスワクチン論争の分析のための全体的枠組み

A Holistic Framework for Analyzing the COVID-19 Vaccine Debate ( http://arxiv.org/abs/2205.01817v1 )

ライセンス: Link先を確認
Maria Leonor Pacheco, Tunazzina Islam, Monal Mahajan, Andrey Shor, Ming Yin, Lyle Ungar, Dan Goldwasser(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、低品質な情報のインフォデミックをもたらし、健康判断の低さにつながる。 このインフォデミックの結果と戦うことは、虚偽のクレームを特定することだけでなく、個人の意思決定に関する推論である。 本研究では,スタンスと理性分析を結合する包括的分析フレームワークと,詳細な実体レベルの道徳的感情分析を提案する。 異なるレベルの分析間の依存関係をモデル化する方法を検討し、人間の洞察を学習プロセスに取り入れる。 実験の結果,我々のフレームワークは低解像度設定でも信頼性の高い予測を提供することがわかった。

The Covid-19 pandemic has led to infodemic of low quality information leading to poor health decisions. Combating the outcomes of this infodemic is not only a question of identifying false claims, but also reasoning about the decisions individuals make. In this work we propose a holistic analysis framework connecting stance and reason analysis, and fine-grained entity level moral sentiment analysis. We study how to model the dependencies between the different level of analysis and incorporate human insights into the learning process. Experiments show that our framework provides reliable predictions even in the low-supervision settings.
翻訳日:2022-05-05 14:50:01 公開日:2022-05-03
# 階層適応のための混合効果変換器

Mixed-effects transformers for hierarchical adaptation ( http://arxiv.org/abs/2205.01749v1 )

ライセンス: Link先を確認
Julia White and Noah Goodman and Robert Hawkins(参考訳) 言語の使用は文脈によって劇的に異なる。 ある程度、gpt-3のような現代の言語モデルは、以前の入力テキストの文字列やプロンプトを条件付けすることで、そのようなばらつきを考慮できる。 しかし、コンテキストが疎かったり、サンプル外だったり、テキストがいつどこで作成されたか、誰が生成したかなど、プロンプトは効果がない。 本稿では,階層的に構造化されたプレフィックス(入力に前置した軽量モジュール)を学習するための新しい手法であるMixed-effects Transformer(MET)を紹介する。 具体的には,混合効果モデルの一般的なクラスを,ドロップアウトを伴う正規化プレフィックスチューニング手順を用いてトランスフォーマティブベースのアーキテクチャに拡張する方法を示す。 このアプローチをいくつかのドメイン適応ベンチマークで評価し、最小限のデータを持つ新しいコンテキストに効率よく適応すると同時に、見当たらないコンテキストに効果的に適応することを示した。

Language use differs dramatically from context to context. To some degree, modern language models like GPT-3 are able to account for such variance by conditioning on a string of previous input text, or prompt. Yet prompting is ineffective when contexts are sparse, out-of-sample, or extra-textual; for instance, accounting for when and where the text was produced or who produced it. In this paper, we introduce the mixed-effects transformer (MET), a novel approach for learning hierarchically-structured prefixes -- lightweight modules prepended to the input -- to account for structured variation. Specifically, we show how the popular class of mixed-effects models may be extended to transformer-based architectures using a regularized prefix-tuning procedure with dropout. We evaluate this approach on several domain-adaptation benchmarks, finding that it efficiently adapts to novel contexts with minimal data while still effectively generalizing to unseen contexts.
翻訳日:2022-05-05 14:31:01 公開日:2022-05-03
# 微分ポーズ最適化を用いたEnd2Endマルチビュー特徴マッチング

End2End Multi-View Feature Matching using Differentiable Pose Optimization ( http://arxiv.org/abs/2205.01694v1 )

ライセンス: Link先を確認
Barbara Roessle and Matthias Nie{\ss}ner(参考訳) カメラポーズ推定には学習ベースのアプローチが不可欠である。 しかし、特徴検出、記述、マッチング、ポーズ最適化は、しばしば孤立した方法でアプローチされる。 特に、誤った特徴一致は、その後のカメラポーズ推定に深刻な影響を与え、しばしばアウター・リジェクションのような追加の措置を必要とする。 まず、複数のフレームにまたがるグラフアテンションネットワークにまたがって、複数のビューからの情報をマッチングに統合し、それらのマッチングを予測します。 第二に、結果の一致とその予測された信頼度は、微分可能なガウス・ニュートン解法を用いて頑健なポーズ最適化に使用される。 エンドツーエンドのトレーニングとマルチビュー機能マッチングを組み合わせることで、ScanNetではSuperGlueが8.9%、MegaDepthでは10.7%向上した。 提案手法は,最先端のマッチングネットワーク上でのポーズ推定とマッチング精度を改善する。 複数のビューにわたるトレーニング機能と、ポーズ最適化からの勾配とのマッチングは、自然に外れ値を無視して学習し、追加の外れ値処理を不要にする。

Learning-based approaches have become indispensable for camera pose estimation. However, feature detection, description, matching, and pose optimization are often approached in an isolated fashion. In particular, erroneous feature matches have severe impact on subsequent camera pose estimation and often require additional measures such as outlier rejection. Our method tackles this challenge by addressing feature matching and pose optimization jointly: first, we integrate information from multiple views into the matching by spanning a graph attention network across multiple frames to predict their matches all at once. Second, the resulting matches along with their predicted confidences are used for robust pose optimization with a differentiable Gauss-Newton solver. End-to-end training combined with multi-view feature matching boosts the pose estimation metrics compared to SuperGlue by 8.9% on ScanNet and 10.7% on MegaDepth on average. Our approach improves both pose estimation and matching accuracy over state-of-the-art matching networks. Training feature matching across multiple views with gradients from pose optimization naturally learns to disregard outliers, thereby rendering additional outlier handling unnecessary, which is highly desirable for pose estimation systems.
翻訳日:2022-05-05 14:25:56 公開日:2022-05-03
# 信仰機能の医療イメージセグメンテーションへの応用:展望

Application of belief functions to medical image segmentation: A review ( http://arxiv.org/abs/2205.01733v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan(参考訳) 不確実性解析と多重証拠融合のための形式的枠組みである信念関数理論は、特に深層学習の発展以来、医学領域において大きな貢献をしている。 信念機能理論を用いた医用画像分割は臨床診断や医用画像研究において有益である。 本稿では,信念関数理論を用いた医用画像分割法について概説する。 我々は,融合段階に従って手法を分類し,不確実性や不正確な情報がどのようにモデル化され,信念関数理論と融合するかを説明する。 さらに,現在の信念機能に基づく医療画像セグメント化の課題と限界について考察し,今後の研究に向けた方向性を提案する。 将来の研究は、より有望で信頼性の高いセグメンテーション結果を達成するために、信念関数理論とディープラーニングの両方を調べることができる。

Belief function theory, a formal framework for uncertainty analysis and multiple evidence fusion, has made significant contributions in the medical domain, especially since the development of deep learning. Medical image segmentation with belief function theory has shown significant benefits in clinical diagnosis and medical image research. In this paper, we provide a review of medical image segmentation methods using belief function theory. We classify the methods according to the fusion step and explain how information with uncertainty or imprecision is modeled and fused with belief function theory. In addition, we discuss the challenges and limitations of present belief function-based medical image segmentation and propose orientations for future research. Future research could investigate both belief function theory and deep learning to achieve more promising and reliable segmentation results.
翻訳日:2022-05-05 14:25:36 公開日:2022-05-03
# グラウンデッドスタイルによる多様な画像キャプション

Diverse Image Captioning with Grounded Style ( http://arxiv.org/abs/2205.01813v1 )

ライセンス: Link先を確認
Franz Klein, Shweta Mahajan, Stefan Roth(参考訳) 先行研究で示された様式化された画像キャプションは、感情などのシーン構成の実際の記述を超えた特徴を反映したキャプションを作成することを目的としている。 このような先行的な作業は、例えば肯定的や否定的といったキャプションにおける特定のグローバルなスタイルを表現するために使用される、与えられた感情の識別子に依存するが、視覚シーンのスタイル的内容は考慮しない。 この欠点に対処するために、我々はまず、現在のスタイル化されたキャプションデータセットの限界を分析し、COCOアノテーションから様々なスタイル化されたキャプションを得るためのCOCO属性ベースの拡張を提案する。 さらに,スタイライゼーション情報を変分オートエンコーダの潜在空間にエンコードする。具体的には,抽出された画像属性を利用して,異なる局所的スタイル特性に従って逐次的潜在空間を明示的に構築する。 Senticap と COCO のデータセットを用いた実験は、画像に接するスタイルの多様性のある正確なキャプションを生成するためのアプローチの能力を示している。

Stylized image captioning as presented in prior work aims to generate captions that reflect characteristics beyond a factual description of the scene composition, such as sentiments. Such prior work relies on given sentiment identifiers, which are used to express a certain global style in the caption, e.g. positive or negative, however without taking into account the stylistic content of the visual scene. To address this shortcoming, we first analyze the limitations of current stylized captioning datasets and propose COCO attribute-based augmentations to obtain varied stylized captions from COCO annotations. Furthermore, we encode the stylized information in the latent space of a Variational Autoencoder; specifically, we leverage extracted image attributes to explicitly structure its sequential latent space according to different localized style characteristics. Our experiments on the Senticap and COCO datasets show the ability of our approach to generate accurate captions with diversity in styles that are grounded in the image.
翻訳日:2022-05-05 14:09:43 公開日:2022-05-03
# Os Dados dos Brasileiros sob Risco na era da Intelig\^encia Artificial?

Os Dados dos Brasileiros sob Risco na Era da Intelig\^encia Artificial? ( http://arxiv.org/abs/2205.01772v1 )

ライセンス: Link先を確認
Raoni F. da S. Teixeira, Rafael B. Januzi, Fabio A. Faria(参考訳) 画像処理と分析の進歩と機械学習技術は、日常生活のタスクにおける生体認証システムの利用に寄与している。 これらのタスクは、モバイル機器への簡単なアクセスから、ソーシャルネットワークで共有されている写真に友達をタグ付けすること、銀行取引のためのセルフサービスデバイス上で複雑な金融オペレーションまで幅広い。 中国では、これらのシステムの使用は、個人の利用を超えて、人口の行動を監視することを目的として、国家の政策となる。 2021年7月05日、ブラジル政府は全国で使用される生体認証システムの買収を発表した。 中国やヨーロッパ、一部のアメリカの都市では、公共の場所で生体認証システムを使用することの合法性に関する議論がすでに始まっている。 これらのシステムを使用するリスクと合法性についてより深く議論するために、この研究は生体認証システムの脆弱性を明らかにし、顔のモダリティに焦点をあてる。 さらに, モーフィング (morphing) と呼ばれる文献におけるよく知られた提示攻撃手法により, 生体認証システムを騙すことが可能であることを示す。 最後に、人工知能時代(AI)における市民データとデータプライバシー法のセキュリティに関する議論を始めるために、10の懸念事項のリストが作成されました。

Advances in image processing and analysis as well as machine learning techniques have contributed to the use of biometric recognition systems in daily people tasks. These tasks range from simple access to mobile devices to tagging friends in photos shared on social networks and complex financial operations on self-service devices for banking transactions. In China, the use of these systems goes beyond personal use becoming a country's government policy with the objective of monitoring the behavior of its population. On July 05th 2021, the Brazilian government announced acquisition of a biometric recognition system to be used nationwide. In the opposite direction to China, Europe and some American cities have already started the discussion about the legality of using biometric systems in public places, even banning this practice in their territory. In order to open a deeper discussion about the risks and legality of using these systems, this work exposes the vulnerabilities of biometric recognition systems, focusing its efforts on the face modality. Furthermore, it shows how it is possible to fool a biometric system through a well-known presentation attack approach in the literature called morphing. Finally, a list of ten concerns was created to start the discussion about the security of citizen data and data privacy law in the Age of Artificial Intelligence (AI).
翻訳日:2022-05-05 14:08:31 公開日:2022-05-03
# 小さなものを汗まみれにし、他のものを分類する: テキスト分類器を敵の攻撃から守るためのサンプルシールド

Don't sweat the small stuff, classify the rest: Sample Shielding to protect text classifiers against adversarial attacks ( http://arxiv.org/abs/2205.01714v1 )

ライセンス: Link先を確認
Jonathan Rusert, Padmini Srinivasan(参考訳) ディープラーニング(DL)はテキスト分類に広く使われている。 しかし、研究者はそのような分類器の敵の攻撃に対する脆弱性を実証した。 攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。 State-of-the-art(SOTA)攻撃アルゴリズムは、セマンティクスを危険にさらすことなくテキストに最小限の変更を加えるという一般的な原則に従っている。 これを生かして,サンプルシールドという,新規で直感的な防衛戦略を提案する。 攻撃者や分類器に依存せず、分類器や外部リソースの再設定を必要とせず、実装も容易である。 基本的に、入力テキストのサブセットをサンプリングして分類し、それらを最終決定にまとめます。 一般的な3つのDLテキスト分類器をサンプルシールドで遮蔽し、3つのデータセットにわたる4つのSOTA攻撃に対して、現実的な脅威設定でレジリエンスをテストする。 遮蔽戦略を知る利点があるとしても、敵の攻撃成功率はたった1つの例外を除いて10%であり、しばしば5%である。 さらに、Sample Shieldingはオリジナルのテキストに適用した場合、ほぼオリジナルの精度を維持している。 重要なことは、SOTA攻撃者の「最小限の変更」アプローチは、直感的なサンプリング戦略で防御できる致命的な脆弱性をもたらすことを示している。

Deep learning (DL) is being used extensively for text classification. However, researchers have demonstrated the vulnerability of such classifiers to adversarial attacks. Attackers modify the text in a way which misleads the classifier while keeping the original meaning close to intact. State-of-the-art (SOTA) attack algorithms follow the general principle of making minimal changes to the text so as to not jeopardize semantics. Taking advantage of this we propose a novel and intuitive defense strategy called Sample Shielding. It is attacker and classifier agnostic, does not require any reconfiguration of the classifier or external resources and is simple to implement. Essentially, we sample subsets of the input text, classify them and summarize these into a final decision. We shield three popular DL text classifiers with Sample Shielding, test their resilience against four SOTA attackers across three datasets in a realistic threat setting. Even when given the advantage of knowing about our shielding strategy the adversary's attack success rate is <=10% with only one exception and often < 5%. Additionally, Sample Shielding maintains near original accuracy when applied to original texts. Crucially, we show that the `make minimal changes' approach of SOTA attackers leads to critical vulnerabilities that can be defended against with an intuitive sampling strategy.
翻訳日:2022-05-05 14:08:12 公開日:2022-05-03
# 畳み込み変換を用いた分光分析による合成音声検出

Synthesized Speech Detection Using Convolutional Transformer-Based Spectrogram Analysis ( http://arxiv.org/abs/2205.01800v1 )

ライセンス: Link先を確認
Emily R. Bartusiak, Edward J. Delp(参考訳) 合成音声は、バーチャルアシスタントの普及、音声信号の生成と修正のための使いやすいツール、リモートワークプラクティスなどにより、今日では一般的である。 合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的にも使用することができる。 音声信号が合成されるかどうかを検出する方法が必要である。 本稿では,合成音声検出のためのコンパクト畳み込み変換器(CCT)を用いて,スペクトル形音声信号の解析を行う。 CCTは、帰納バイアスと共有重み付けをネットワークに導入する畳み込み層を使用し、トランスフォーマーアーキテクチャはトレーニングに使用するデータサンプルが少なくてうまく機能する。 CCTはアテンションメカニズムを使用して、分析対象の信号のすべての部分からの情報を取り込む。 実音声信号と合成音声信号の両方に基づいて学習し, 実音声信号と合成音声信号の区別に成功していることを示す。

Synthesized speech is common today due to the prevalence of virtual assistants, easy-to-use tools for generating and modifying speech signals, and remote work practices. Synthesized speech can also be used for nefarious purposes, including creating a purported speech signal and attributing it to someone who did not speak the content of the signal. We need methods to detect if a speech signal is synthesized. In this paper, we analyze speech signals in the form of spectrograms with a Compact Convolutional Transformer (CCT) for synthesized speech detection. A CCT utilizes a convolutional layer that introduces inductive biases and shared weights into a network, allowing a transformer architecture to perform well with fewer data samples used for training. The CCT uses an attention mechanism to incorporate information from all parts of a signal under analysis. Trained on both genuine human voice signals and synthesized human voice signals, we demonstrate that our CCT approach successfully differentiates between genuine and synthesized speech signals.
翻訳日:2022-05-05 14:02:23 公開日:2022-05-03
# 条件付きgansを用いた衛星画像のスプライシング検出と局在化

Splicing Detection and Localization In Satellite Imagery Using Conditional GANs ( http://arxiv.org/abs/2205.01805v1 )

ライセンス: Link先を確認
Emily R. Bartusiak, Sri Kalyan Yarlagadda, David G\"uera, Paolo Bestagini, Stefano Tubaro, Fengqing M. Zhu, Edward J. Delp(参考訳) 画像編集ツールの普及と画像処理技術の改善により、画像操作は非常に簡単になった。 頻繁で使いやすい、かつ高度な画像操作ツールは、人間の観察者に知覚できない歪みや変化をもたらす。 偽造画像の分布は、特にインターネットの速度と広さと相まって、著しく分岐する可能性がある。 したがって、画像の完全性を検証することは、デジタル法医学コミュニティにとって非常に重要な課題である。 衛星画像は、既存のシーンや構造を隠すためにオブジェクトを挿入するなど、様々な方法で修正することができる。 本稿では,衛星画像中に存在するこのような偽造物の存在を識別するために,条件付き生成支援ネットワーク(cGAN)を用いることについて述べる。 さらに,その位置と形状を識別する。 画像の改ざんと改ざんを訓練し,これらの検出と局所化を高い成功率で達成した。

The widespread availability of image editing tools and improvements in image processing techniques allow image manipulation to be very easy. Oftentimes, easy-to-use yet sophisticated image manipulation tools yields distortions/changes imperceptible to the human observer. Distribution of forged images can have drastic ramifications, especially when coupled with the speed and vastness of the Internet. Therefore, verifying image integrity poses an immense and important challenge to the digital forensic community. Satellite images specifically can be modified in a number of ways, including the insertion of objects to hide existing scenes and structures. In this paper, we describe the use of a Conditional Generative Adversarial Network (cGAN) to identify the presence of such spliced forgeries within satellite images. Additionally, we identify their locations and shapes. Trained on pristine and falsified images, our method achieves high success on these detection and localization objectives.
翻訳日:2022-05-05 14:02:06 公開日:2022-05-03
# 周波数領域に基づく生成音声の検出

Frequency Domain-Based Detection of Generated Audio ( http://arxiv.org/abs/2205.01806v1 )

ライセンス: Link先を確認
Emily R. Bartusiak, Edward J. Delp(参考訳) 攻撃者は、偽レポートの提示、公的な人物の意見の変更、影響力と権力の獲得を意図して音声を操作することができる。 非正統なマルチメディアが普及し続けているため、メディアの正当性を決定する一連のツールを開発することが不可欠である。 本稿では,実際の人間の声と偽の人間の声(ニューラル・アコースティック・波形モデルによる音声)を含むか否かを判断するために,音声信号を解析する手法を提案する。 提案手法は,音声信号を直接解析する代わりに,周波数,強度,時間的内容を示す分光画像に変換し,畳み込みニューラルネットワーク(CNN)を用いて評価する。 実音声信号と合成音声信号の両方を学習することにより,本分類作業において高い精度を実現することを示す。

Attackers may manipulate audio with the intent of presenting falsified reports, changing an opinion of a public figure, and winning influence and power. The prevalence of inauthentic multimedia continues to rise, so it is imperative to develop a set of tools that determines the legitimacy of media. We present a method that analyzes audio signals to determine whether they contain real human voices or fake human voices (i.e., voices generated by neural acoustic and waveform models). Instead of analyzing the audio signals directly, the proposed approach converts the audio signals into spectrogram images displaying frequency, intensity, and temporal content and evaluates them with a Convolutional Neural Network (CNN). Trained on both genuine human voice signals and synthesized voice signals, we show our approach achieves high accuracy on this classification task.
翻訳日:2022-05-05 14:01:52 公開日:2022-05-03
# ハイブリッド物体検出ネットワークによる自動車レーダの配向推定と検出の改善

Improved Orientation Estimation and Detection with Hybrid Object Detection Networks for Automotive Radar ( http://arxiv.org/abs/2205.02111v1 )

ライセンス: Link先を確認
Michael Ulrich, Sascha Braun, Daniel K\"ohler, Daniel Niederl\"ohner, Florian Faion, Claudius Gl\"aser and Holger Blume(参考訳) 本稿では,レーダに基づく物体検出ネットワークの検出性能と方向推定を改善するために,グリッドとポイントを併用した新しいハイブリッドアーキテクチャを提案する。 純粋なグリッドベースの検出モデルは、入力点雲の鳥眼ビュー(BEV)投影で動作する。 これらのアプローチは、離散グリッド解決を通じて詳細な情報が失われることに悩まされる。 これはレーダー物体検出に特に当てはまるが、比較的粗いグリッド解像度はレーダー点雲の空間性を説明するために一般的に用いられる。 対照的に、ポイントベースモデルは、ポイントクラウドを継続的に処理するため、この問題の影響を受けない。 しかし、一般的にはグリッドベースの手法よりも検出性能が劣る。 格子描画の前に、点の正確な相対位置を利用して、点ベースモデルが近傍の特徴を抽出できることを示す。 これは、以下の畳み込み検出バックボーンに大きな利点がある。 公開nuScenesデータセットの実験では、我々のハイブリッドアーキテクチャは、以前の文献からのネットワークに対する検出性能と配向推定の点で改善された。

This paper presents novel hybrid architectures that combine grid- and point-based processing to improve the detection performance and orientation estimation of radar-based object detection networks. Purely grid-based detection models operate on a bird's-eye-view (BEV) projection of the input point cloud. These approaches suffer from a loss of detailed information through the discrete grid resolution. This applies in particular to radar object detection, where relatively coarse grid resolutions are commonly used to account for the sparsity of radar point clouds. In contrast, point-based models are not affected by this problem as they continuously process point clouds. However, they generally exhibit worse detection performances than grid-based methods. We show that a point-based model can extract neighborhood features, leveraging the exact relative positions of points, before grid rendering. This has significant benefits for a following convolutional detection backbone. In experiments on the public nuScenes dataset our hybrid architecture achieves improvements in terms of detection performance and orientation estimates over networks from previous literature.
翻訳日:2022-05-05 13:38:44 公開日:2022-05-03
# 説明と質問:パーソナライズされたテキストベースのレビュー

Explain and Conquer: Personalised Text-based Reviews to Achieve Transparency ( http://arxiv.org/abs/2205.01759v1 )

ライセンス: Link先を確認
I\~nigo L\'opez-Riob\'oo Botana (1), Ver\'onica Bol\'on-Canedo (1), Bertha Guijarro-Berdi\~nas (1), Amparo Alonso-Betanzos (1) ((1) University of A Coru\~na - Research Center on Information and Communication Technologies (CITIC))(参考訳) dyadicデータが存在する多くのコンテキストがあります。 ソーシャルネットワーキングは、透明性が重要視されているよく知られた例だ。 これらの文脈では、相互作用が重要な役割を果たすネットワークを構築するために、アイテムのペアがリンクされます。 これらの関係が確立されている理由を説明することは、透明性に対処する上で核心である。 これらの説明は、自然言語理解タスクの普及により、しばしばテキストを使って提示される。 他のdyadicデータコンテキストの適用性を考慮して、tripadvisorプラットフォームにフォーカスしています。 アイテムはユーザーとレストランのサブセットであり、これらのユーザーが投稿したレビューとのインタラクションである。 エージェントによって確立されたペア(ユーザ、レストラン)の表現と説明(レコメンダシステムや有料プロモーション機構など)を目的として、パーソナライズを考慮に入れます。 PTER(Personalized TExt-based Reviews)モデルを提案する。 私たちは、あるレストランの利用可能なレビューから、特定のユーザーインタラクションに合ったレビューを予測します。 PTERはBERT(Bidirectional Encoders Representations from Transformers)言語モデルを利用している。 機能ベースのアプローチに従って、ディープニューラルネットワークをカスタマイズしました。 性能指標はラベル付け提案の有効性を示す。 パーソナライズした表現を評価するために,クラスタリングプロセスに基づいた評価フレームワークを定義した。 PTERは6つのデータセットのうち5つで提案された敵よりも明らかに優れている。

There are many contexts where dyadic data is present. Social networking is a well-known example, where transparency has grown on importance. In these contexts, pairs of items are linked building a network where interactions play a crucial role. Explaining why these relationships are established is core to address transparency. These explanations are often presented using text, thanks to the spread of the natural language understanding tasks. We have focused on the TripAdvisor platform, considering the applicability to other dyadic data contexts. The items are a subset of users and restaurants and the interactions the reviews posted by these users. Our aim is to represent and explain pairs (user, restaurant) established by agents (e.g., a recommender system or a paid promotion mechanism), so that personalisation is taken into account. We propose the PTER (Personalised TExt-based Reviews) model. We predict, from the available reviews for a given restaurant, those that fit to the specific user interactions. PTER leverages the BERT (Bidirectional Encoders Representations from Transformers) language model. We customised a deep neural network following the feature-based approach. The performance metrics show the validity of our labelling proposal. We defined an evaluation framework based on a clustering process to assess our personalised representation. PTER clearly outperforms the proposed adversary in 5 of the 6 datasets, with a minimum ratio improvement of 4%.
翻訳日:2022-05-05 13:38:05 公開日:2022-05-03
# 科学的説明と自然言語: 説明可能なAIのための統一認識言語学的視点

Scientific Explanation and Natural Language: A Unified Epistemological-Linguistic Perspective for Explainable AI ( http://arxiv.org/abs/2205.01809v1 )

ライセンス: Link先を確認
Marco Valentino, Andr\'e Freitas(参考訳) 説明可能なAI(XAI)の基本的な研究目標は、自然言語の説明の生成を通じて推論可能なモデルを構築することである。 しかしながら、説明に基づく推論モデルの設計と評価の方法論は、説明の性質に関する理論的な説明によってはまだ不十分である。 本稿では,xaiの認識論的基盤化の試みとして,科学的領域に着目し,理論と実践のギャップを科学的な説明の概念に橋渡しすることを目的とした。 具体的には、科学哲学における科学的説明の現代的説明と自然言語説明のコーパスの体系的分析を組み合わせ、トップダウン(カテゴリー)とボトムアップ(コーパスベース)の両方の観点から説明論の性質と機能を明らかにする。 Through a mixture of quantitative and qualitative methodologies, the presented study allows deriving the following main conclusions: (1) Explanations cannot be entirely characterised in terms of inductive or deductive arguments as their main function is to perform unification; (2) An explanation must cite causes and mechanisms that are responsible for the occurrence of the event to be explained; (3) While natural language explanations possess an intrinsic causal-mechanistic nature, they are not limited to causes and mechanisms, also accounting for pragmatic elements such as definitions, properties and taxonomic relations (4) Patterns of unification naturally emerge in corpora of explanations even if not intentionally modelled; (5) Unification is realised through a process of abstraction, whose function is to provide the inference substrate for subsuming the event to be explained under recurring patterns and high-level regularities.

A fundamental research goal for Explainable AI (XAI) is to build models that are capable of reasoning through the generation of natural language explanations. However, the methodologies to design and evaluate explanation-based inference models are still poorly informed by theoretical accounts on the nature of explanation. As an attempt to provide an epistemologically grounded characterisation for XAI, this paper focuses on the scientific domain, aiming to bridge the gap between theory and practice on the notion of a scientific explanation. Specifically, the paper combines a detailed survey of the modern accounts of scientific explanation in Philosophy of Science with a systematic analysis of corpora of natural language explanations, clarifying the nature and function of explanatory arguments from both a top-down (categorical) and a bottom-up (corpus-based) perspective. Through a mixture of quantitative and qualitative methodologies, the presented study allows deriving the following main conclusions: (1) Explanations cannot be entirely characterised in terms of inductive or deductive arguments as their main function is to perform unification; (2) An explanation must cite causes and mechanisms that are responsible for the occurrence of the event to be explained; (3) While natural language explanations possess an intrinsic causal-mechanistic nature, they are not limited to causes and mechanisms, also accounting for pragmatic elements such as definitions, properties and taxonomic relations (4) Patterns of unification naturally emerge in corpora of explanations even if not intentionally modelled; (5) Unification is realised through a process of abstraction, whose function is to provide the inference substrate for subsuming the event to be explained under recurring patterns and high-level regularities.
翻訳日:2022-05-05 13:37:46 公開日:2022-05-03
# 画像翻訳によるオブジェクトクラス認識ビデオ異常検出

Object Class Aware Video Anomaly Detection through Image Translation ( http://arxiv.org/abs/2205.01706v1 )

ライセンス: Link先を確認
Mohammad Baradaran, Robert Bergevin(参考訳) 半教師付きビデオ異常検出(vad)法は、学習した正規パターンからのずれ検出として異常検出のタスクを定式化する。 現場での以前の作業(再構成や予測に基づく手法)は2つの欠点に悩まされる。 1)低レベルの機能に焦点を当てており、(特に全体論的アプローチ)オブジェクトクラスを効果的に考慮していません。 2) オブジェクト中心のアプローチは、いくつかのコンテキスト情報(位置など)を無視します。 そこで,本稿では,画像翻訳の課題を通して正常な外観と運動パターンを学習する2ストリーム物体認識vad法を提案する。 外観枝は、入力画像から mask-rcnn が生成した目標意味セグメンテーションマップに変換し、動き枝は各フレームに期待される光学的流れの大きさを関連付ける。 推測段階における期待された外観や動きからの偏差は、潜在的な異常の程度を示す。 提案手法を上海技術, UCSD-Ped1, UCSD-Ped2データセットで評価し, 現状の成果と比較した。 以上の結果から,従来の手法の大幅な改善により,本手法による検出は完全に説明可能となり,異常がフレーム内で正確に局所化されることが示唆された。

Semi-supervised video anomaly detection (VAD) methods formulate the task of anomaly detection as detection of deviations from the learned normal patterns. Previous works in the field (reconstruction or prediction-based methods) suffer from two drawbacks: 1) They focus on low-level features, and they (especially holistic approaches) do not effectively consider the object classes. 2) Object-centric approaches neglect some of the context information (such as location). To tackle these challenges, this paper proposes a novel two-stream object-aware VAD method that learns the normal appearance and motion patterns through image translation tasks. The appearance branch translates the input image to the target semantic segmentation map produced by Mask-RCNN, and the motion branch associates each frame with its expected optical flow magnitude. Any deviation from the expected appearance or motion in the inference stage shows the degree of potential abnormality. We evaluated our proposed method on the ShanghaiTech, UCSD-Ped1, and UCSD-Ped2 datasets and the results show competitive performance compared with state-of-the-art works. Most importantly, the results show that, as significant improvements to previous methods, detections by our method are completely explainable and anomalies are localized accurately in the frames.
翻訳日:2022-05-05 13:35:19 公開日:2022-05-03
# XLTime:時間的表現抽出のための言語間知識伝達フレームワーク

XLTime: A Cross-Lingual Knowledge Transfer Framework for Temporal Expression Extraction ( http://arxiv.org/abs/2205.01757v1 )

ライセンス: Link先を確認
Yuwei Cao, William Groves, Tanay Kumar Saha, Joel R. Tetreault, Alex Jaimes, Hao Peng, and Philip S. Yu(参考訳) テンポラル表現抽出(TEE)は自然言語の時間理解に不可欠である。 自然言語処理(NLP)タスクには、質問応答、情報検索、因果推論などの応用がある。 現在、この領域での作業は、他の言語に対するラベル付きデータが不足しているため、主に英語に焦点を当てている。 多言語TEEのための新しいフレームワークであるXLTimeを提案する。 XLTimeは事前訓練された言語モデル上で動作し、マルチタスク学習を活用して、英語と非英語の両方から言語間の知識の伝達を促す。 XLTimeは、ターゲット言語におけるデータの不足に起因する問題を緩和する。 我々は、XLTimeを異なる言語モデルで適用し、フランス語、スペイン語、ポルトガル語、バスク語における従来のSOTAメソッドよりも大きなマージンで優れていることを示す。 XLTimeは、手作りのHeidelTimeメソッドのギャップをかなり埋める。

Temporal Expression Extraction (TEE) is essential for understanding time in natural language. It has applications in Natural Language Processing (NLP) tasks such as question answering, information retrieval, and causal inference. To date, work in this area has mostly focused on English as there is a scarcity of labeled data for other languages. We propose XLTime, a novel framework for multilingual TEE. XLTime works on top of pre-trained language models and leverages multi-task learning to prompt cross-language knowledge transfer both from English and within the non-English languages. XLTime alleviates problems caused by a shortage of data in the target language. We apply XLTime with different language models and show that it outperforms the previous automatic SOTA methods on French, Spanish, Portuguese, and Basque, by large margins. XLTime also closes the gap considerably on the handcrafted HeidelTime method.
翻訳日:2022-05-05 13:33:52 公開日:2022-05-03
# B\'ezier Curve Gaussian Processs

B\'ezier Curve Gaussian Processes ( http://arxiv.org/abs/2205.01754v1 )

ライセンス: Link先を確認
Ronny Hug, Stefan Becker, Wolfgang H\"ubner, Michael Arens, J\"urgen Beyerer(参考訳) シーケンシャルデータに対する確率モデルは、タイムリーに順序付けられた情報を処理する様々なアプリケーションの基礎となる。 この領域における主要なアプローチは、確率的ユニットまたはコンポーネントを組み込んだニューラルネットワークによって与えられる。 本稿では,確率b\'ezier曲線に基づく確率列モデルを提案する。 ガウス分布制御点を用いると、これらのパラメトリック曲線はガウス過程(GP)の特別なケースとなる。 混合密度ネットワークと組み合わせることで、平均場変動近似やモンテカルロシミュレーションを必要とせずにベイズ条件推論を行うことができる。 このハイブリッドモデルの生存性を評価するために、模範的なシーケンス予測タスクに適用する。 この場合、このモデルは歩行者軌跡予測に使用され、生成した予測はGP先行としても機能する。 これに続いて、観測された軌道セグメントにさらに適応するために、異なる後続分布を計算することにより、GPフレームワークを用いて初期予測を洗練することができる。

Probabilistic models for sequential data are the basis for a variety of applications concerned with processing timely ordered information. The predominant approach in this domain is given by neural networks, which incorporate either stochastic units or components. This paper proposes a new probabilistic sequence model building on probabilistic B\'ezier curves. Using Gaussian distributed control points, these parametric curves pose a special case for Gaussian processes (GP). Combined with a Mixture Density network, Bayesian conditional inference can be performed without the need for mean field variational approximation or Monte Carlo simulation, which is a requirement of common approaches. For assessing this hybrid model's viability, it is applied to an exemplary sequence prediction task. In this case the model is used for pedestrian trajectory prediction, where a generated prediction also serves as a GP prior. Following this, the initial prediction can be refined using the GP framework by calculating different posterior distributions, in order to adapt more towards a given observed trajectory segment.
翻訳日:2022-05-05 13:31:10 公開日:2022-05-03
# 矛盾学習に必要となる負のサンプルは多いか?

Do More Negative Samples Necessarily Hurt in Contrastive Learning? ( http://arxiv.org/abs/2205.01789v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Nishanth Dikkala, Pritish Kamath(参考訳) 最近のノイズコントラスト推定の研究では、経験的および理論的に、コントラスト損失においてより「負のサンプル」を持つが、最初は閾値を超えて下流分類性能が向上するが、"コリシオン・カバー"のトレードオフにより下流分類性能が低下することを示唆している。 しかし、このような現象は対照的な学習に固有ののか? 基礎となる潜在クラス(saunshi et al. (icml 2019) によるサンプリングによって正のペアが生成される単純な理論設定において、(人口)コントラスト損失を最適化する表現の下流性能は、実際には負のサンプル数に低下しないことを示した。 その過程で,ノイズコントラスト推定のための枠組みにおける最適表現の構造的特徴付けを行う。 また,CIFAR-10およびCIFAR-100データセットの理論的結果に対する実証的支援を行った。

Recent investigations in noise contrastive estimation suggest, both empirically as well as theoretically, that while having more "negative samples" in the contrastive loss improves downstream classification performance initially, beyond a threshold, it hurts downstream performance due to a "collision-coverage" trade-off. But is such a phenomenon inherent in contrastive learning? We show in a simple theoretical setting, where positive pairs are generated by sampling from the underlying latent class (introduced by Saunshi et al. (ICML 2019)), that the downstream performance of the representation optimizing the (population) contrastive loss in fact does not degrade with the number of negative samples. Along the way, we give a structural characterization of the optimal representation in our framework, for noise contrastive estimation. We also provide empirical support for our theoretical results on CIFAR-10 and CIFAR-100 datasets.
翻訳日:2022-05-05 13:30:54 公開日:2022-05-03
# i-Code: 統合的で構成可能なマルチモーダル学習フレームワーク

i-Code: An Integrative and Composable Multimodal Learning Framework ( http://arxiv.org/abs/2205.01818v1 )

ライセンス: Link先を確認
Ziyi Yang, Yuwei Fang, Chenguang Zhu, Reid Pryzant, Dongdong Chen, Yu Shi, Yichong Xu, Yao Qian, Mei Gao, Yi-Ling Chen, Liyang Lu, Yujia Xie, Robert Gmyr, Noel Codella, Naoyuki Kanda, Bin Xiao, Yuan Lu, Takuya Yoshioka, Michael Zeng, Xuedong Huang(参考訳) 人間の知性は多様であり、視覚、言語、音響信号を統合して全体観を維持する。 しかし、現在の事前訓練法のほとんどは、1つまたは2つのモードに制限されている。 視覚・音声・言語を統一的・汎用的なベクトル表現に柔軟に組み合わせた自己教師付き事前学習フレームワークであるi-codeを提案する。 このフレームワークでは、各モダリティからのデータは、まずプリトレーニングされたシングルモダリティエンコーダに与えられる。 エンコーダ出力はマルチモーダル融合ネットワークと統合され、新しいアテンション機構と他のアーキテクチャ上の革新を用いて、異なるモダリティからの情報を効果的に結合する。 システム全体は、マスクモダリティユニットモデリングとクロスモダリティコントラスト学習を含む新しい目的により、エンドツーエンドで事前訓練されている。 事前トレーニングのためにビデオのみを使用した以前の研究とは異なり、i-Codeフレームワークはトレーニングと推論中に動的にシングル、ダブル、トリプルのモダリティデータを処理し、異なるモダリティの組み合わせを柔軟に単一の表現空間に投影する。 実験により、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善し、統合的マルチモーダル事前学習のパワーを示す。

Human intelligence is multimodal; we integrate visual, linguistic, and acoustic signals to maintain a holistic worldview. Most current pretraining methods, however, are limited to one or two modalities. We present i-Code, a self-supervised pretraining framework where users may flexibly combine the modalities of vision, speech, and language into unified and general-purpose vector representations. In this framework, data from each modality are first given to pretrained single-modality encoders. The encoder outputs are then integrated with a multimodal fusion network, which uses novel attention mechanisms and other architectural innovations to effectively combine information from the different modalities. The entire system is pretrained end-to-end with new objectives including masked modality unit modeling and cross-modality contrastive learning. Unlike previous research using only video for pretraining, the i-Code framework can dynamically process single, dual, and triple-modality data during training and inference, flexibly projecting different combinations of modalities into a single representation space. Experimental results demonstrate how i-Code can outperform state-of-the-art techniques on five video understanding tasks and the GLUE NLP benchmark, improving by as much as 11% and demonstrating the power of integrative multimodal pretraining.
翻訳日:2022-05-05 13:08:58 公開日:2022-05-03
# 談話レベルの計画と美的特徴を備えたゼロショットソネット生成

Zero-shot Sonnet Generation with Discourse-level Planning and Aesthetics Features ( http://arxiv.org/abs/2205.01821v1 )

ライセンス: Link先を確認
Yufei Tian and Nanyun Peng(参考訳) 詩生成と創造的な言語生成は、通常、大規模なトレーニングデータの欠如に悩まされる。 本稿では,詩の訓練を必要としないソネットを生成するための新しい枠組みを提案する。 我々はデコードする前に詩のスケッチを計画する階層的フレームワークを設計する。 具体的には、コンテンツプランニングモジュールを非ポティックテキストで訓練し、談話レベルのコヒーレンスを得る。次に、rhymeモジュールがrhymeワードを生成し、研磨モジュールが美的目的のために画像とsimilesを導入する。 最後に、生成されたソネットのメートルとリズムの制約を課す制約付き復号アルゴリズムを設計する。 自動的・人的評価により,詩コーパスの訓練を行わない多段階的アプローチは,いくつかの強固なベースラインよりも,コヒーレントで詩的,創造的なソネットを生成することが示された。

Poetry generation, and creative language generation in general, usually suffers from the lack of large training data. In this paper, we present a novel framework to generate sonnets that does not require training on poems. We design a hierarchical framework which plans the poem sketch before decoding. Specifically, a content planning module is trained on non-poetic texts to obtain discourse-level coherence; then a rhyme module generates rhyme words and a polishing module introduces imagery and similes for aesthetics purposes. Finally, we design a constrained decoding algorithm to impose the meter-and-rhyme constraint of the generated sonnets. Automatic and human evaluation show that our multi-stage approach without training on poem corpora generates more coherent, poetic, and creative sonnets than several strong baselines.
翻訳日:2022-05-05 13:08:36 公開日:2022-05-03
# (参考訳) 放射線学品質保証(QA)の再定義 -- 不平等スコア(Aquarius)の制限調査による人工知能(AI)ベースのQA

Re-defining Radiology Quality Assurance (QA) -- Artificial Intelligence (AI)-Based QA by Restricted Investigation of Unequal Scores (AQUARIUS) ( http://arxiv.org/abs/2205.00629v2 )

ライセンス: CC BY 4.0
Axel Wismueller, Larry Stockmaster, Ali Vosoughi(参考訳) ラジオロジー品質保証(qa)プログラムをより良く、より速くするために、緊急に合理化する必要がある。 本稿では, 従来のアプローチに比べて, 人的労力を最大数桁削減する放射線学QAを再定義するための, ユネススコアの制限による人工知能に基づくQUality Assurance(AI)を提案する。 AQUARIUSは通常、放射線学レポートにおけるAIベースの画像解析と自然言語処理(NLP)の自動比較を含む。 通常、不協和性読み出しを持つケースの小さな部分のみ、その後、人間の専門家によってレビューされる。 AQUARIUSの臨床応用を実証するため,1936年1月1日,大大学病院の頭部CT検査で頭蓋内出血(ICH)の臨床的QA調査を行った。 画像取得直後、ICHのスキャンは商用ソフトウェア(イスラエルのテルアビブ、Aidoc)を使って自動的に分析された。 AIによるICH陽性例(ICH-AI+)は、放射線学者の読み書きリストに自動的にフラグ付けされ、フラグ付けは確率50%でランダムにオフにされた。 AQUARIUS と NLP を用いた最終放射線学報告と29件の専門的神経放射線学検査により、ヒトのQA活動は98.5%減少し、報告されていない真の ICH+ 症例は6件、放射線学者はフラグ付き症例は0.52%、非フラグ付き症例は2.5%減少していた。 我々は,AIによる画像解析とNLPによる人体鑑定の事前選択を組み合わせることで,放射線学研究の欠落した発見を効果的に識別し,人と機械の相互運用のハイブリッドアプローチによる放射線学QAプログラムを著しく高速化することができると結論付けた。

There is an urgent need for streamlining radiology Quality Assurance (QA) programs to make them better and faster. Here, we present a novel approach, Artificial Intelligence (AI)-Based QUality Assurance by Restricted Investigation of Unequal Scores (AQUARIUS), for re-defining radiology QA, which reduces human effort by up to several orders of magnitude over existing approaches. AQUARIUS typically includes automatic comparison of AI-based image analysis with natural language processing (NLP) on radiology reports. Only the usually small subset of cases with discordant reads is subsequently reviewed by human experts. To demonstrate the clinical applicability of AQUARIUS, we performed a clinical QA study on Intracranial Hemorrhage (ICH) detection in 1936 head CT scans from a large academic hospital. Immediately following image acquisition, scans were automatically analyzed for ICH using a commercially available software (Aidoc, Tel Aviv, Israel). Cases rated positive for ICH by AI (ICH-AI+) were automatically flagged in radiologists' reading worklists, where flagging was randomly switched off with probability 50%. Using AQUARIUS with NLP on final radiology reports and targeted expert neuroradiology review of only 29 discordantly classified cases reduced the human QA effort by 98.5%, where we found a total of six non-reported true ICH+ cases, with radiologists' missed ICH detection rates of 0.52% and 2.5% for flagged and non-flagged cases, respectively. We conclude that AQUARIUS, by combining AI-based image analysis with NLP-based pre-selection of cases for targeted human expert review, can efficiently identify missed findings in radiology studies and significantly expedite radiology QA programs in a hybrid human-machine interoperability approach.
翻訳日:2022-05-05 13:06:07 公開日:2022-05-03
# (参考訳) セマンティックセグメンテーションにおける半監督領域適応のためのソースドメインサブセットサンプリング

Source Domain Subset Sampling for Semi-Supervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2205.00312v2 )

ライセンス: CC BY 4.0
Daehan Kim, Minseok Seo, Jinsun Park, Dong-Geol Choi(参考訳) 本稿では,半教師付き領域適応の新しい視点として,ソースドメインサブセットサンプリング(sdss)を提案する。 トレーニング用ソースデータから有意義なサブセットのみをサンプリング・活用してドメイン適応を提案する。 私たちの重要な前提は、ソースドメインデータ全体が、適応に役に立たないサンプルを含んでいるかもしれないということです。 したがって、ドメイン適応は有用なサンプルと関連するサンプルのみからなるソースデータのサブセットの恩恵を受けることができる。 提案手法は,効率よく全ソースデータをサブサンプリングし,小規模で意味のあるサブセットを生成する。 そのため、トレーニング時間が短縮され、サブサンプルソースデータにより性能が向上する。 提案手法のスケーラビリティをさらに検証するため,500個の実画像と200K個の合成サンプル画像からなるOcean Shipという新しいデータセットを構築した。 SDSSは、GTA5をCityscapesに適用し、SynTHIAをCityscapesの公開ベンチマークデータセットに適用し、ベースラインモデルによるOcean Shipデータセットの9.13mIoUの改善を達成した。

In this paper, we introduce source domain subset sampling (SDSS) as a new perspective of semi-supervised domain adaptation. We propose domain adaptation by sampling and exploiting only a meaningful subset from source data for training. Our key assumption is that the entire source domain data may contain samples that are unhelpful for the adaptation. Therefore, the domain adaptation can benefit from a subset of source data composed solely of helpful and relevant samples. The proposed method effectively subsamples full source data to generate a small-scale meaningful subset. Therefore, training time is reduced, and performance is improved with our subsampled source data. To further verify the scalability of our method, we construct a new dataset called Ocean Ship, which comprises 500 real and 200K synthetic sample images with ground-truth labels. The SDSS achieved a state-of-the-art performance when applied on GTA5 to Cityscapes and SYNTHIA to Cityscapes public benchmark datasets and a 9.13 mIoU improvement on our Ocean Ship dataset over a baseline model.
翻訳日:2022-05-05 05:43:28 公開日:2022-05-03
# (参考訳) 関連データ適応による否定対話の応答モデル

Opponent Modeling in Negotiation Dialogues by Related Data Adaptation ( http://arxiv.org/abs/2205.00344v2 )

ライセンス: CC BY 4.0
Kushal Chawla, Gale M. Lucas, Jonathan May, Jonathan Gratch(参考訳) 相手のモデリングは、社会的相互作用の文脈の中で相手の精神状態を推測するタスクである。 多問題交渉では、相手が議論中の各問題に割り当てる相対的な重要性を推測し、これは高価値な取引を見つけるのに不可欠である。 このタスクの実用的なモデルは、トレーニングのための追加アノテーションを必要とせず、部分的な対話を入力として、相手の優先順位をオンザフライで推測する必要がある。 本研究では,交渉対話からこれらの優先順位を識別するためのランク付け手法を提案する。 モデルは、部分的な対話を入力として、相手の優先順位を予測します。 我々はさらに,関連するデータソースをこのタスクに適用する方法を考案し,相手の好みや提案を,細かな発話レベルのアノテーションに依存する代理として組み込むための,より明示的な監督を提供する。 2つの対話データセットに基づく広範囲な実験により,提案手法の有用性を示す。 提案したデータ適応は、ゼロショットと少数ショットのシナリオで高いパフォーマンスをもたらす。 さらに、モデルがベースラインよりもパフォーマンスが良くなると同時に、相手からの発話が少なくなる。 この方向で今後の作業をサポートするためにコードをリリースします。

Opponent modeling is the task of inferring another party's mental state within the context of social interactions. In a multi-issue negotiation, it involves inferring the relative importance that the opponent assigns to each issue under discussion, which is crucial for finding high-value deals. A practical model for this task needs to infer these priorities of the opponent on the fly based on partial dialogues as input, without needing additional annotations for training. In this work, we propose a ranker for identifying these priorities from negotiation dialogues. The model takes in a partial dialogue as input and predicts the priority order of the opponent. We further devise ways to adapt related data sources for this task to provide more explicit supervision for incorporating the opponent's preferences and offers, as a proxy to relying on granular utterance-level annotations. We show the utility of our proposed approach through extensive experiments based on two dialogue datasets. We find that the proposed data adaptations lead to strong performance in zero-shot and few-shot scenarios. Moreover, they allow the model to perform better than baselines while accessing fewer utterances from the opponent. We release our code to support future work in this direction.
翻訳日:2022-05-05 05:32:28 公開日:2022-05-03
# (参考訳) 言語間対話要約の課題

The Cross-lingual Conversation Summarization Challenge ( http://arxiv.org/abs/2205.00379v2 )

ライセンス: CC BY 4.0
Yulong Chen, Ming Zhong, Xuefeng Bai, Naihao Deng, Jing Li, Xianchao Zhu, Yue Zhang(参考訳) 本稿では,会話要約と機械翻訳を統合した解を研究者が研究するための新たな方法として,言語間会話要約の共有タスクである「emph{ConvSumX Challenge」を提案する。 このタスクは、オンライン会議やカンファレンスの出現によって特に役に立ちます。 2つの実世界のシナリオと3つの言語方向をカバーする新しいベンチマークを構築した。 我々は,「emph{ConvSumX}」が,英語以外の研究を動機づけ,近年の会話要約の進歩の恩恵を受けるために,非英語話者の障壁を破ることを望む。

We propose the shared task of cross-lingual conversation summarization, \emph{ConvSumX Challenge}, opening new avenues for researchers to investigate solutions that integrate conversation summarization and machine translation. This task can be particularly useful due to the emergence of online meetings and conferences. We construct a new benchmark, covering 2 real-world scenarios and 3 language directions, including a low-resource language. We hope that \emph{ConvSumX} can motivate researches to go beyond English and break the barrier for non-English speakers to benefit from recent advances of conversation summarization.
翻訳日:2022-05-05 05:10:40 公開日:2022-05-03
# (参考訳) 複数の言語を対象としたマスキング言語モデルにおけるジェンダーバイアス

Gender Bias in Masked Language Models for Multiple Languages ( http://arxiv.org/abs/2205.00551v2 )

ライセンス: CC BY 4.0
Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, Naoaki Okazaki(参考訳) 大型コーパスのマスクトークンを予測して事前学習したマスク言語モデル(mlms)は、様々な言語での自然言語処理タスクでうまく使われている。 残念ながら、MLMは性別や人種などの属性に関する差別バイアスも学習していると報告されている。 ほとんどの研究は英語のMLMに焦点を当てているため、他の言語でのMLMのバイアスはめったに研究されていない。 英語以外の言語に対する評価データのマニュアルアノテーションは、アノテータの採用コストと難しさのために困難である。 さらに、既存のバイアス評価手法では、属性語と同じ文脈(例えばHe/Sheは看護婦)のステレオタイプ文対を必要とする。 手動で注釈付きデータを必要とすることなく、英語の属性単語リストと英語のパラレルコーパスのみを用いて、様々な言語のバイアスを評価するための多言語バイアス評価(MBE)スコアを提案する。 MBEを用いて8言語でのMLMの評価を行い、これらの言語に対して性別関連バイアスがMLMにエンコードされていることを確認した。 MBEの有効性を評価するために、日本語とロシア語の性別バイアスのためのデータセットを手作業で作成した。 その結果、MBEが報告したバイアススコアは、上記の手作業で作成したデータセットと、既存の英語のジェンダーバイアスのデータセットと大きく相関していることがわかった。

Masked Language Models (MLMs) pre-trained by predicting masked tokens on large corpora have been used successfully in natural language processing tasks for a variety of languages. Unfortunately, it was reported that MLMs also learn discriminative biases regarding attributes such as gender and race. Because most studies have focused on MLMs in English, the bias of MLMs in other languages has rarely been investigated. Manual annotation of evaluation data for languages other than English has been challenging due to the cost and difficulty in recruiting annotators. Moreover, the existing bias evaluation methods require the stereotypical sentence pairs consisting of the same context with attribute words (e.g. He/She is a nurse). We propose Multilingual Bias Evaluation (MBE) score, to evaluate bias in various languages using only English attribute word lists and parallel corpora between the target language and English without requiring manually annotated data. We evaluated MLMs in eight languages using the MBE and confirmed that gender-related biases are encoded in MLMs for all those languages. We manually created datasets for gender bias in Japanese and Russian to evaluate the validity of the MBE. The results show that the bias scores reported by the MBE significantly correlates with that computed from the above manually created datasets and the existing English datasets for gender bias.
翻訳日:2022-05-05 04:44:43 公開日:2022-05-03
# (参考訳) 集合関数による推論の構成規則に対するモダスポネンスとモダストレン

Modus ponens and modus tollens for the compositional rule of inference with aggregation functions ( http://arxiv.org/abs/2205.01269v1 )

ライセンス: CC BY 4.0
Dechao Li and Qingxue Zeng(参考訳) zadehによって提案された構成規則(cri)は、人工知能、制御、データマイニング、画像処理、意思決定などに広く適用されている。 近年,LiとZeng [Li, D., Zeng, Q. Approximate reasoning with aggregate function satisfying GMP rules, Artificial Intelligence Review (2022), https://doi.org/10.1007/s10462-022-10136-1] では, t-ノルムをCRI法における任意のアグリゲーション関数に一般化するA-compositional rule of inference (ACRI) 法が示されており,その妥当性をGMPルールを用いて検証している。 本稿では,論理的視点と補間的視点からACRI法の有効性について検討する。 具体的には、アグリゲーション関数によるよく知られたファジィ含意に基づくACRI法のモダスポネン(MP)およびモダストレング(MT)特性について論じる。

The compositional rule of inference (CRI) proposed by Zadeh has been widely applied in artificial intelligence, control, data mining, image processing, decision making and so on. Recently, Li and Zeng [Li, D., Zeng, Q. Approximate reasoning with aggregation functions satisfying GMP rules, Artificial Intelligence Review (2022), https://doi.org/10.1007/s10462-022-10136-1] shown an A-compositional rule of inference (ACRI) method in which generalizes the t-norm to any aggregation function in CRI method and studied its validity using GMP rules. In this paper, we continue to investigate the validity of ACRI method from a logical view and an interpolative view. Specifically, to discuss the modus ponens (MP) and modus tollens (MT) properties of ACRI method based on well-known fuzzy implications with aggregation functions.
翻訳日:2022-05-05 00:25:34 公開日:2022-05-03
# (参考訳) SemAttack:異なるセマンティック空間による自然なテキスト攻撃

SemAttack: Natural Textual Attacks via Different Semantic Spaces ( http://arxiv.org/abs/2205.01287v1 )

ライセンス: CC BY 4.0
Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li(参考訳) 近年の研究では、事前学習言語モデル(LM)がテキストの敵対攻撃に弱いことが示されている。 しかし、既存の攻撃方法は攻撃の成功率が低いか、指数的に大きな摂動空間で効率的に探索できないかのいずれかである。 本研究では,異なる意味摂動関数を構築することで,自然な逆文を生成するための効率的かつ効果的なフレームワークSemAttackを提案する。 特にSemAttackは、入力空間、知識空間(WordNetなど)、文脈化された意味空間(BERTクラスタリングの埋め込み空間など)、あるいはこれらの空間の組み合わせを含む、ジェネリックな意味空間に制約された生成された摂動を最適化する。 したがって、生成した対数テキストは、元の入力にもっと意味的に近い。 大規模な実験により、最先端(SOTA)の大規模LM(例えばDeBERTa-v2)と防衛戦略(例えばFreeLB)がセムアタックに対して脆弱であることが判明した。 さらに,セマタックは汎用的であり,高い攻撃成功率で異なる言語(英語や中国語など)の自然敵文を生成することができることを示した。 人間の評価は、生成した敵対的テキストが自然であり、人間のパフォーマンスにはほとんど影響しないことも確認します。 私たちのコードはhttps://github.com/AI-secure/SemAttack.comで公開されています。

Recent studies show that pre-trained language models (LMs) are vulnerable to textual adversarial attacks. However, existing attack methods either suffer from low attack success rates or fail to search efficiently in the exponentially large perturbation space. We propose an efficient and effective framework SemAttack to generate natural adversarial text by constructing different semantic perturbation functions. In particular, SemAttack optimizes the generated perturbations constrained on generic semantic spaces, including typo space, knowledge space (e.g., WordNet), contextualized semantic space (e.g., the embedding space of BERT clusterings), or the combination of these spaces. Thus, the generated adversarial texts are more semantically close to the original inputs. Extensive experiments reveal that state-of-the-art (SOTA) large-scale LMs (e.g., DeBERTa-v2) and defense strategies (e.g., FreeLB) are still vulnerable to SemAttack. We further demonstrate that SemAttack is general and able to generate natural adversarial texts for different languages (e.g., English and Chinese) with high attack success rates. Human evaluations also confirm that our generated adversarial texts are natural and barely affect human performance. Our code is publicly available at https://github.com/AI-secure/SemAttack.
翻訳日:2022-05-05 00:03:48 公開日:2022-05-03
# (参考訳) drugehrqa: 医療関連質問に対する構造化および非構造化電子健康記録の質問応答データセット

DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related Queries ( http://arxiv.org/abs/2205.01290v1 )

ライセンス: CC BY 4.0
Jayetri Bardhan, Anthony Colas, Kirk Roberts, Daisy Zhe Wang(参考訳) 本稿では、構造化表と電子健康記録(EHR)からの非構造化ノートの両方から質問対を含む質問応答データセット(DrugEHRQA)を開発した。 EHRには患者の記録が含まれており、構造化されたテーブルに格納されている。 構造化された、非構造化された EHR の情報は厳密には不一致ではない:情報は重複、矛盾、あるいはこれらのソース間で追加のコンテキストを提供することができる。 当社のデータセットには,70,000以上の質問と回答のペアを含む,薬剤関連クエリがあります。 ベースラインモデルを提供し,データセットの分析を支援するために,モダリティ選択ネットワークの予測を用いてehlテーブルと臨床ノートのどちらを選択して質問に答える簡易モデル (multimodalehrqa) を用いた。 これは質問をテーブルベースまたはテキストベースの最先端QAモデルに誘導するために使用される。 複雑でネストしたクエリから生じる問題に対処するために、EHRデータにおけるクエリテンプレートの構造をテストするために、RAT-SQLパーサのためのRelation-Aware Schema Encoding and Linkingが使用されるのはこれが初めてである。 我々の目標は、マルチモーダルQAシステムのためのベンチマークデータセットを提供することであり、構造化されていない臨床データからコンテキストを用いて、EHR構造化データに対する質問応答を改善するための新たな研究の道を開くことである。

This paper develops the first question answering dataset (DrugEHRQA) containing question-answer pairs from both structured tables and unstructured notes from a publicly available Electronic Health Record (EHR). EHRs contain patient records, stored in structured tables and unstructured clinical notes. The information in structured and unstructured EHRs is not strictly disjoint: information may be duplicated, contradictory, or provide additional context between these sources. Our dataset has medication-related queries, containing over 70,000 question-answer pairs. To provide a baseline model and help analyze the dataset, we have used a simple model (MultimodalEHRQA) which uses the predictions of a modality selection network to choose between EHR tables and clinical notes to answer the questions. This is used to direct the questions to the table-based or text-based state-of-the-art QA model. In order to address the problem arising from complex, nested queries, this is the first time Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers (RAT-SQL) has been used to test the structure of query templates in EHR data. Our goal is to provide a benchmark dataset for multi-modal QA systems, and to open up new avenues of research in improving question answering over EHR structured data by using context from unstructured clinical data.
翻訳日:2022-05-04 23:23:46 公開日:2022-05-03
# (参考訳) 人工知能を用いた視覚知識発見:課題と今後の展望

Visual Knowledge Discovery with Artificial Intelligence: Challenges and Future Directions ( http://arxiv.org/abs/2205.01296v1 )

ライセンス: CC BY 4.0
Boris Kovalerchuk, R\u{a}zvan Andonie, Nuno Datia, Kawa Nazemi(参考訳) このボリュームは、人工知能/マシンラーニング(AI/ML)と可視化/ビジュアルアナリティクスの進歩を組み合わせた、統合ビジュアル知識発見の新興分野に特化している。 章に含まれるのは、選ばれたAIおよびビジュアルアナリティクス論文の拡張版と、最近の国際情報可視化会議(IV2019、IV2020)の関連シンポジウムである。 AI/MLは、人間にモデルを説明するという長年にわたる課題に直面している。 モデルの説明は基本的に人間の活動であり、アルゴリズムによるものではない。 この章では、ビジュアル分析、ビジュアル知識発見、AI/MLの分野における課題と今後の方向性を示し、ビジュアルAI/MLにおける可視化の役割について議論する。 さらに,視覚支援による多次元データにおける新たな2次元ml,自然言語処理,ai/mlの進歩について述べる。

This volume is devoted to the emerging field of Integrated Visual Knowledge Discovery that combines advances in Artificial Intelligence/Machine Learning (AI/ML) and Visualization/Visual Analytics. Chapters included are extended versions of the selected AI and Visual Analytics papers and related symposia at the recent International Information Visualization Conferences (IV2019 and IV2020). AI/ML face a long-standing challenge of explaining models to humans. Models explanation is fundamentally human activity, not only an algorithmic one. In this chapter we aim to present challenges and future directions within the field of Visual Analytics, Visual Knowledge Discovery and AI/ML, and to discuss the role of visualization in visual AI/ML. In addition, we describe progress in emerging Full 2D ML, natural language processing, and AI/ML in multidimensional data aided by visual means.
翻訳日:2022-05-04 23:06:38 公開日:2022-05-03
# (参考訳) RU-Net: シーングラフ生成のための正規化アンロールネットワーク

RU-Net: Regularized Unrolling Network for Scene Graph Generation ( http://arxiv.org/abs/2205.01297v1 )

ライセンス: CC BY-SA 4.0
Xin Lin, Changxing Ding, Jing Zhang, Yibing Zhan, Dacheng Tao(参考訳) シーングラフ生成(SGG)は、オブジェクトを検出し、各オブジェクト間の関係を予測することを目的としている。 既存のSGGメソッドは通常、いくつかの問題に悩まされる。 1) グラフニューラルネットワークを用いたメッセージパッシング(GMP)モジュールは、通常、突発的なノード間相関に敏感であり、曖昧なオブジェクト表現 2) 厳密なクラス不均衡と多数の欠落アノテーションによる関係予測の多様性が低かった。 本稿では,両問題に対処するため,正規化アンローリングネットワーク(RU-Net)を提案する。 我々はまず,GMPとグラフラプラシアン復調法(GLD)の関係を解法の観点から検討し,GMPをGLDの解法として定式化できることを決定した。 この観察に基づいて、未ロールメッセージパッシングモジュールを提案し、ノード間のスプリアス接続を抑制するために$\ell_p$ベースのグラフ正規化を導入する。 第2に,ランク最大化による関係性の予測を促進するグループ多様性拡張モジュールを提案する。 システム実験では、RU-Netは様々な設定やメトリクスの下で有効であることを示した。 さらに、ru-netはvg、vrd、oiという3つの人気のあるデータベースで最新技術を実現している。 コードはhttps://github.com/siml3/ru-netで入手できる。

Scene graph generation (SGG) aims to detect objects and predict the relationships between each pair of objects. Existing SGG methods usually suffer from several issues, including 1) ambiguous object representations, as graph neural network-based message passing (GMP) modules are typically sensitive to spurious inter-node correlations, and 2) low diversity in relationship predictions due to severe class imbalance and a large number of missing annotations. To address both problems, in this paper, we propose a regularized unrolling network (RU-Net). We first study the relation between GMP and graph Laplacian denoising (GLD) from the perspective of the unrolling technique, determining that GMP can be formulated as a solver for GLD. Based on this observation, we propose an unrolled message passing module and introduce an $\ell_p$-based graph regularization to suppress spurious connections between nodes. Second, we propose a group diversity enhancement module that promotes the prediction diversity of relationships via rank maximization. Systematic experiments demonstrate that RU-Net is effective under a variety of settings and metrics. Furthermore, RU-Net achieves new state-of-the-arts on three popular databases: VG, VRD, and OI. Code is available at https://github.com/siml3/RU-Net.
翻訳日:2022-05-04 22:42:59 公開日:2022-05-03
# (参考訳) 異常ISPトラフィック予測のためのアンサンブル回帰モデルに向けて

Towards an Ensemble Regressor Model for Anomalous ISP Traffic Prediction ( http://arxiv.org/abs/2205.01300v1 )

ライセンス: CC BY-SA 4.0
Sajal Saha, Anwar Haque, and Greg Sidebottom(参考訳) 現代の通信ネットワークの効率的な管理には,ネットワークトラフィックの予測が重要である。 しかし、管理経験と市場分析データを用いたネットワークトラフィック予測の直感的なアプローチは、効率的な予測フレームワークには不十分である。 その結果、ネットワークトラフィックの一般的な傾向を捉え、それに応じて予測するために、様々な数学的モデルが研究されている。 しかし,様々な回帰モデルとそのアンサンブルの包括的性能解析は,実世界の異常なトラフィックを解析するための研究は行われていない。 本稿では,光グラディエントブースト(XGBoost),光グラディエントブーストマシン(LightGBM),Stochastic Gradient Descent(SGD),グラディエントブーストレスタ(GBR),CatBoost Regressor(CatBoost Regressor)などのレグレッションモデルを用いて,外乱のない実際のトラフィックを予測し,実際の交通予測における外乱検出の重要性を明らかにした。 また,個々の予測モデルに対して,アンサンブル回帰モデルの有効性を示した。 長さ6,9,12,15,18の5つの異なる特徴集合に基づいて,回帰モデルの性能を比較した。 我々のアンサンブル回帰モデルは、実際のトラフィックと予測トラフィックの5.04%の最小平均ギャップを9つの外乱調整入力で達成した。 実験結果から,データの異常値が予測精度に大きな影響を及ぼす可能性が示唆された。 これにより,一般的な傾向を学習し,より良い予測を行う上で,回帰モデルを支援する。

Prediction of network traffic behavior is significant for the effective management of modern telecommunication networks. However, the intuitive approach of predicting network traffic using administrative experience and market analysis data is inadequate for an efficient forecast framework. As a result, many different mathematical models have been studied to capture the general trend of the network traffic and predict accordingly. But the comprehensive performance analysis of varying regression models and their ensemble has not been studied before for analyzing real-world anomalous traffic. In this paper, several regression models such as Extra Gradient Boost (XGBoost), Light Gradient Boosting Machine (LightGBM), Stochastic Gradient Descent (SGD), Gradient Boosting Regressor (GBR), and CatBoost Regressor were analyzed to predict real traffic without and with outliers and show the significance of outlier detection in real-world traffic prediction. Also, we showed the outperformance of the ensemble regression model over the individual prediction model. We compared the performance of different regression models based on five different feature sets of lengths 6, 9, 12, 15, and 18. Our ensemble regression model achieved the minimum average gap of 5.04% between actual and predicted traffic with nine outlier-adjusted inputs. In general, our experimental results indicate that the outliers in the data can significantly impact the quality of the prediction. Thus, outlier detection and mitigation assist the regression model in learning the general trend and making better predictions.
翻訳日:2022-05-04 22:42:00 公開日:2022-05-03
# (参考訳) Martingale と Converse Lyapunov 法による確率近似の収束

Convergence of Stochastic Approximation via Martingale and Converse Lyapunov Methods ( http://arxiv.org/abs/2205.01303v1 )

ライセンス: CC BY 4.0
M. Vidyasagar(参考訳) この論文はエドゥアルド・ソンタグ教授の70歳の誕生日に捧げられている。 本稿では、Gladyshev (1965) で最初に提案されたアイデアに基づいて、ほぼ確実な有界性と確率近似アルゴリズムの収束性を証明するための非常に一般的な枠組みを構築する。 これらのアイデアはマーチンゲール法に基づいており、例えば Borkar-Meyn (2000) など ODE 法に基づく収束証明よりも単純である。 まず、ロビンス・モンロ(1951)で導入されたSAアルゴリズムの原版について検討し、関数の雑音測定しかできないとき、関数の零点を決定することが目的である。 この証明は、ここで開発された一般の枠組みを利用し、逆リアプノフ安定性に関する新しい定理は独立に興味を持つかもしれない。 次に、Kiefer-Wolfowitz (1952) で最初に導入された SA の代替版について研究する。 ここでの目標は、一階差を使って勾配を近似してスカラー値関数の定常点を見つけることである。 この問題は Blum (1954) で解析されるが、非常に不透明な証明である。 提案手法を用いてBlumの結論を再現する。

This paper is dedicated to Prof. Eduardo Sontag on the occasion of his seventieth birthday. In this paper, we build upon the ideas first proposed in Gladyshev (1965) to develop a very general framework for proving the almost sure boundedness and the convergence of stochastic approximation algorithms. These ideas are based on martingale methods and are in some ways simpler than convergence proofs based on the ODE method, e.g., Borkar-Meyn (2000). First we study the original version of the SA algorithm introduced in Robbins-Monro (1951), where the objective is to determine a zero of a function, when only noisy measurements of the function are available. The proof makes use of the general framework developed here, together with a new theorem on converse Lyapunov stability, which might be of independent interest. Next we study an alternate version of SA, first introduced in Kiefer-Wolfowitz (1952). The objective here is to find a stationary point of a scalar-valued function, using first-order differences to approximate its gradient. This problem is analyzed in Blum (1954), but with a very opaque proof. We reproduce Blum's conclusions using the proposed framework.
翻訳日:2022-05-04 22:31:25 公開日:2022-05-03
# (参考訳) ビデオからの動的システムにおけるオーバニング法則とソース入力

Distilling Governing Laws and Source Input for Dynamical Systems from Videos ( http://arxiv.org/abs/2205.01314v1 )

ライセンス: CC BY 4.0
Lele Luan, Yang Liu, Hao Sun(参考訳) ビデオから解釈可能な物理法則を抽出することで、近年、ディープラーニングの進歩によりコンピュータビジョンコミュニティへの関心が高まりつつあるが、それでもなお大きな課題だ。 本稿では,移動物体が提示するダイナミックスの明示的な支配方程式を明らかにするための,エンドツーエンドの教師なしディープラーニングフレームワークを提案する。 画像空間のピクセル座標系(空間座標系)において、物理法則は、物理状態が潜在的に明示的な支配方程式に従う回帰的な物理座標系でモデル化される。 数値積分器に基づくスパース回帰モジュールは、オートエンコーダと座標系回帰の物理的制約として設計され、一方、学習された物理状態から擬似閉形式支配方程式を明らかにする。 シミュレーションされた動的シーンにおける実験により,提案手法は閉形式支配方程式を蒸留し,ビデオによって記録された複数の動的システムに対して未知の励起入力を同時に同定できることを示す。

Distilling interpretable physical laws from videos has led to expanded interest in the computer vision community recently thanks to the advances in deep learning, but still remains a great challenge. This paper introduces an end-to-end unsupervised deep learning framework to uncover the explicit governing equations of dynamics presented by moving object(s), based on recorded videos. Instead in the pixel (spatial) coordinate system of image space, the physical law is modeled in a regressed underlying physical coordinate system where the physical states follow potential explicit governing equations. A numerical integrator-based sparse regression module is designed and serves as a physical constraint to the autoencoder and coordinate system regression, and, in the meanwhile, uncover the parsimonious closed-form governing equations from the learned physical states. Experiments on simulated dynamical scenes show that the proposed method is able to distill closed-form governing equations and simultaneously identify unknown excitation input for several dynamical systems recorded by videos, which fills in the gap in literature where no existing methods are available and applicable for solving this type of problem.
翻訳日:2022-05-04 22:14:50 公開日:2022-05-03
# (参考訳) HL-Net:Scene Graph Generatioのためのヘテロフィリー学習ネットワーク

HL-Net: Heterophily Learning Network for Scene Graph Generatio ( http://arxiv.org/abs/2205.01316v1 )

ライセンス: CC BY-SA 4.0
Xin Lin, Changxing Ding, Yibing Zhan, Zijian Li, Dacheng Tao(参考訳) シーングラフ生成(SGG)は、オブジェクトを検出し、画像内のペア関係を予測することを目的としている。 現在のSGG法は通常、グラフニューラルネットワーク(GNN)を使用して、オブジェクト/リレーショナル間のコンテキスト情報を取得する。 しかし、その効果にもかかわらず、現在のSGG法は、ヘテロフィリーを無視しながらシーングラフをホモフィリーに仮定するのみである。 そこで本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを包括的に探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。 具体的には、HL-Netは以下の通りである。 1) 異なる層からの情報を適応的に統合して、対象物のヘテロフィリー及びホモフィリーの両方を利用する適応的再加重変圧器モジュール 2) 関係表現を洗練するために,ヘテロフィリーを考慮し,関係間の関係を効率的に探索する関係特徴伝達モジュール 3) オブジェクト/リレーショナル間のヘテロフィリとホモフィリをさらに区別するヘテロフィリ対応メッセージパッシング方式により,グラフにおけるメッセージパッシングの改善が容易になる。 visual genome (vg) とopen images (oi) の2つの公開データセットについて広範な実験を行った。 実験結果から,提案するhl-netは,従来手法よりも優れていることが示された。 より詳しくは、HL-Netは、シーングラフ分類用のVGデータセットで2.1$\%、最終スコア用のIOデータセットで1.2$\%という2番目に高い競合より優れている。 コードはhttps://github.com/siml3/HL-Netで入手できる。

Scene graph generation (SGG) aims to detect objects and predict their pairwise relationships within an image. Current SGG methods typically utilize graph neural networks (GNNs) to acquire context information between objects/relationships. Despite their effectiveness, however, current SGG methods only assume scene graph homophily while ignoring heterophily. Accordingly, in this paper, we propose a novel Heterophily Learning Network (HL-Net) to comprehensively explore the homophily and heterophily between objects/relationships in scene graphs. More specifically, HL-Net comprises the following 1) an adaptive reweighting transformer module, which adaptively integrates the information from different layers to exploit both the heterophily and homophily in objects; 2) a relationship feature propagation module that efficiently explores the connections between relationships by considering heterophily in order to refine the relationship representation; 3) a heterophily-aware message-passing scheme to further distinguish the heterophily and homophily between objects/relationships, thereby facilitating improved message passing in graphs. We conducted extensive experiments on two public datasets: Visual Genome (VG) and Open Images (OI). The experimental results demonstrate the superiority of our proposed HL-Net over existing state-of-the-art approaches. In more detail, HL-Net outperforms the second-best competitors by 2.1$\%$ on the VG dataset for scene graph classification and 1.2$\%$ on the IO dataset for the final score. Code is available at https://github.com/siml3/HL-Net.
翻訳日:2022-05-04 22:01:35 公開日:2022-05-03
# (参考訳) attitudinal surveysにおけるオープン質問とクローズド質問 --自然言語処理を用いた比較・組み合わせ・解釈-

Open vs Closed-ended questions in attitudinal surveys -- comparing, combining, and interpreting using natural language processing ( http://arxiv.org/abs/2205.01317v1 )

ライセンス: CC BY 4.0
Vishnu Baburajan, Jo\~ao de Abreu e Silva, Francisco Camara Pereira(参考訳) 旅行体験を改善するため、研究者は旅行行動モデリングにおける態度の役割を分析してきた。 ほとんどの研究者は閉ざされた調査を使っているが、姿勢を測定する適切な方法は議論の余地がある。 トピックモデリングは、オープンな応答から情報を抽出する時間を著しく短縮し、主観的バイアスを排除し、アナリストの懸念を軽減する。 本研究はトピックモデリングを用いて,オープンエンド質問から情報を抽出し,その性能をクローズドエンド応答と比較する。 さらに, 好みのアンケート型を用いた回答が好まれる場合もある。 そこで本研究では,回答者が好みのアンケートタイプを使って回答し,アナリストが選択したモデルフレームワークを使って行動を予測するためのモデリングフレームワークを提案する。 我々は、米国から収集されたデータを用いて、通勤に自動運転車を使う意図を測定する。 回答には別のアンケート版(オープン・アンド・クローズ・エンド)が提示された。 本研究の目的は,代替アンケート版の性能を比較することであり,提案手法,行動フレームワーク,選択実験から得られた影響を排除することであった。 以上の結果から, トピック・モデリングを用いてオープンエンド応答から情報を抽出する方法が適していることが示されたが, クローズドエンド質問を用いて推定したモデルの方が, より優れた性能を示した。 さらに,提案モデルの性能は,現在使用されているモデルよりも良好である。 さらに,提案フレームワークでは,質問票のタイプを選択できるため,音声ベースのアンケートを用いた場合,特に有益であると考えられる。

To improve the traveling experience, researchers have been analyzing the role of attitudes in travel behavior modeling. Although most researchers use closed-ended surveys, the appropriate method to measure attitudes is debatable. Topic Modeling could significantly reduce the time to extract information from open-ended responses and eliminate subjective bias, thereby alleviating analyst concerns. Our research uses Topic Modeling to extract information from open-ended questions and compare its performance with closed-ended responses. Furthermore, some respondents might prefer answering questions using their preferred questionnaire type. So, we propose a modeling framework that allows respondents to use their preferred questionnaire type to answer the survey and enable analysts to use the modeling frameworks of their choice to predict behavior. We demonstrate this using a dataset collected from the USA that measures the intention to use Autonomous Vehicles for commute trips. Respondents were presented with alternative questionnaire versions (open- and closed- ended). Since our objective was also to compare the performance of alternative questionnaire versions, the survey was designed to eliminate influences resulting from statements, behavioral framework, and the choice experiment. Results indicate the suitability of using Topic Modeling to extract information from open-ended responses; however, the models estimated using the closed-ended questions perform better compared to them. Besides, the proposed model performs better compared to the models used currently. Furthermore, our proposed framework will allow respondents to choose the questionnaire type to answer, which could be particularly beneficial to them when using voice-based surveys.
翻訳日:2022-05-04 22:00:34 公開日:2022-05-03
# (参考訳) 道路衝突リスク評価のための予測に基づく到達可能性解析

Prediction-Based Reachability Analysis for Collision Risk Assessment on Highways ( http://arxiv.org/abs/2205.01357v1 )

ライセンス: CC BY 4.0
Xinwei Wang, Zirui Li, Javier Alonso-Mora, Meng Wang(参考訳) リアルタイム安全システムは知的車両の重要な構成要素である。 本稿では,高速道路における衝突リスク評価手法を提案する。 点質量車両力学系が与えられた場合、車両状態分布の2次元運動を考慮した確率的前方到達セットが最初に確立される。 そこで我々は,車両状態を伝搬する多モード確率加速度分布を提供する加速度予測モデルを開発した。 衝突確率は、2台の車両が空間的に重なる状態の確率を和算して算出する。 シミュレーションの結果,車両の走行位置の誤差から予測モデルの性能が向上し,衝突検出手法がアジャイルであり,衝突事故の特定に有効であることが示唆された。

Real-time safety systems are crucial components of intelligent vehicles. This paper introduces a prediction-based collision risk assessment approach on highways. Given a point mass vehicle dynamics system, a stochastic forward reachable set considering two-dimensional motion with vehicle state probability distributions is firstly established. We then develop an acceleration prediction model, which provides multi-modal probabilistic acceleration distributions to propagate vehicle states. The collision probability is calculated by summing up the probabilities of the states where two vehicles spatially overlap. Simulation results show that the prediction model has superior performance in terms of vehicle motion position errors, and the proposed collision detection approach is agile and effective to identify the collision in cut-in crash events.
翻訳日:2022-05-04 21:57:40 公開日:2022-05-03
# (参考訳) 時間依存調和拡張のための学習ラベル初期化

Learning Label Initialization for Time-Dependent Harmonic Extension ( http://arxiv.org/abs/2205.01358v1 )

ライセンス: CC BY 4.0
Amitoz Azad(参考訳) グラフ上のノード分類は、ラベル付きノードで信号が与えられるグラフ上のディリクレ問題として定式化することができ、調和拡張はラベル付きノード上で行われる。 本稿では,グラフ上のディリクレ問題の時間依存バージョンを考察し,未ラベルノード上の固有初期化ベクトルを学習することで解法を改善する方法を示す。 さらに、改良された解はノード分類に使用される最先端の手法と同等であることを示す。 最後に,パラメータt,pros,および今後の方向性の重要性について論じる。

Node classification on graphs can be formulated as the Dirichlet problem on graphs where the signal is given at the labeled nodes, and the harmonic extension is done on the unlabeled nodes. This paper considers a time-dependent version of the Dirichlet problem on graphs and shows how to improve its solution by learning the proper initialization vector on the unlabeled nodes. Further, we show that the improved solution is at par with state-of-the-art methods used for node classification. Finally, we conclude this paper by discussing the importance of parameter t, pros, and future directions.
翻訳日:2022-05-04 21:43:46 公開日:2022-05-03
# (参考訳) イベント引数抽出のためのテクスチュアルエンターメント:マルチソース学習によるゼロショットとファウショット

Textual Entailment for Event Argument Extraction: Zero- and Few-Shot with Multi-Source Learning ( http://arxiv.org/abs/2205.01376v1 )

ライセンス: CC BY-SA 4.0
Oscar Sainz, Itziar Gonzalez-Dios, Oier Lopez de Lacalle, Bonan Min and Eneko Agirre(参考訳) 近年の研究では、リレーション抽出(re)のようなnlpタスクは、事前訓練されたインテリメントモデルにより、ゼロショット設定と少数ショット設定で強力なパフォーマンスを持つ、動詞化を用いたテキストによるインテリメントタスクとして再キャスト可能であることが示されている。 現在のREデータセットの関係が口頭でわかりやすいという事実は、エンテーメントがより複雑なタスクに有効かどうかを疑っている。 本研究は,イベント引数抽出(eae)においても補足が有効であることを示し,手動アノテーションの必要性をaceとwikieventsでそれぞれ50%,20%に低減するとともに,フルトレーニングで同等のパフォーマンスを実現している。 さらに重要なことは、EAEをentailmentとして再キャストすることで、ドメイン間でアノテーションを転送するためのロードブロックであるスキーマへの依存が軽減されることを示している。 この追加により、ACEとWikiEvents間のマルチソース転送により、アノテーションは、転送なしでの完全なトレーニングの10%と5%(ふりかえり)に削減される。 分析の結果,複数の補足データセットを用いて補足モデルの事前学習を行うことが得られた。 従来の手法と同様に,本手法では手作業による言語化にわずかな労力を要する。イベント引数タイプあたり15分未満で,異なるレベルの専門知識を持つユーザでも同等の結果が得られます。

Recent work has shown that NLP tasks such as Relation Extraction (RE) can be recasted as Textual Entailment tasks using verbalizations, with strong performance in zero-shot and few-shot settings thanks to pre-trained entailment models. The fact that relations in current RE datasets are easily verbalized casts doubts on whether entailment would be effective in more complex tasks. In this work we show that entailment is also effective in Event Argument Extraction (EAE), reducing the need of manual annotation to 50% and 20% in ACE and WikiEvents respectively, while achieving the same performance as with full training. More importantly, we show that recasting EAE as entailment alleviates the dependency on schemas, which has been a road-block for transferring annotations between domains. Thanks to the entailment, the multi-source transfer between ACE and WikiEvents further reduces annotation down to 10% and 5% (respectively) of the full training without transfer. Our analysis shows that the key to good results is the use of several entailment datasets to pre-train the entailment model. Similar to previous approaches, our method requires a small amount of effort for manual verbalization: only less than 15 minutes per event argument type is needed, and comparable results can be achieved with users with different level of expertise.
翻訳日:2022-05-04 21:31:13 公開日:2022-05-03
# (参考訳) 屋外単分子深度推定:研究レビュー

Outdoor Monocular Depth Estimation: A Research Review ( http://arxiv.org/abs/2205.01399v1 )

ライセンス: CC BY 4.0
Pulkit Vyas, Chirag Saxena, Anwesh Badapanda, Anurag Goswami(参考訳) 奥行き推定はコンピュータビジョンの様々な方法や応用に適用される重要なタスクである。 従来の深さ推定手法は深さの手がかりに基づいており、ステレオカメラのような特定の機器や、使用方法に応じて入力を設定する必要があるが、現在の焦点は単一のソース、すなわち単眼的な深度推定である。 畳み込みニューラルネットワークの最近の発展と、これらのディープラーニングアプローチにおける古典的手法の統合は、深さ推定問題において多くの進歩をもたらした。 野外での深さ推定や野生の深さ推定の問題は、非常に研究対象の少ない分野である。 本稿では, 利用可能なデータセット, 深度推定方法, 研究成果, トレンド, 課題, およびオープンリサーチに必要な機会について概説する。 我々の知る限り、オープンに利用可能な調査作業は、屋外深度推定技術と研究範囲の包括的な収集を提供しておらず、この分野への参入を目指す人々にとって本研究は不可欠な貢献となる。

Depth estimation is an important task, applied in various methods and applications of computer vision. While the traditional methods of estimating depth are based on depth cues and require specific equipment such as stereo cameras and configuring input according to the approach being used, the focus at the current time is on a single source, or monocular, depth estimation. The recent developments in Convolution Neural Networks along with the integration of classical methods in these deep learning approaches have led to a lot of advancements in the depth estimation problem. The problem of outdoor depth estimation, or depth estimation in wild, is a very scarcely researched field of study. In this paper, we give an overview of the available datasets, depth estimation methods, research work, trends, challenges, and opportunities that exist for open research. To our knowledge, no openly available survey work provides a comprehensive collection of outdoor depth estimation techniques and research scope, making our work an essential contribution for people looking to enter this field of study.
翻訳日:2022-05-04 21:11:52 公開日:2022-05-03
# (参考訳) ニューラル言語タスクノミー:どのNLPタスクがfMRI脳活動の最も予測可能なタスクか?

Neural Language Taskonomy: Which NLP Tasks are the most Predictive of fMRI Brain Activity? ( http://arxiv.org/abs/2205.01404v1 )

ライセンス: CC BY 4.0
Subba Reddy Oota, Jashn Arora, Veeral Agarwal, Mounika Marreddy, Manish Gupta and Bapi Raju Surampudi(参考訳) 人気のTransformerベースの言語モデルは、テキスト駆動型ブレインエンコーディングで成功している。 しかし、既存の文献は事前訓練されたテキストトランスフォーマーモデルのみを活用しており、タスク固有の学習されたトランスフォーマー表現の有効性を探求していない。 本研究では,10種類の自然言語処理タスク(統語論と8意味論)から学習した表現から,ペレイラ(節から文章を読み取る主語)とナラティブ(話を聞く主語)の2つの多様なデータセットから脳の反応を予測する伝達学習について検討する。 タスク特徴に基づくモデルエンコーディングは、脳全体の異なる領域での活動を予測するために使用される。 coreference resolution, ner, shallow syntax parsingの特徴は、読み込みアクティビティのばらつきを説明している。 一方,リスニングアクティビティでは,パラフレーズ生成や要約,自然言語推論といったタスクの方が高いエンコーディング性能を示す。 10のタスク表現にまたがる実験は、以下の認知的洞察を与えます。 (i)言語左半球は、言語右半球よりも高い予測脳活動を有する。 (ii)後中葉,側頭頂後頭葉,背側前頭葉は早期聴覚および聴覚関連皮質より高い相関性を有する。 (iii)統語的・意味的タスクは、脳領域をまたいで、聴覚刺激のrespを読み取るための優れた予測性能を示す。

Several popular Transformer based language models have been found to be successful for text-driven brain encoding. However, existing literature leverages only pretrained text Transformer models and has not explored the efficacy of task-specific learned Transformer representations. In this work, we explore transfer learning from representations learned for ten popular natural language processing tasks (two syntactic and eight semantic) for predicting brain responses from two diverse datasets: Pereira (subjects reading sentences from paragraphs) and Narratives (subjects listening to the spoken stories). Encoding models based on task features are used to predict activity in different regions across the whole brain. Features from coreference resolution, NER, and shallow syntax parsing explain greater variance for the reading activity. On the other hand, for the listening activity, tasks such as paraphrase generation, summarization, and natural language inference show better encoding performance. Experiments across all 10 task representations provide the following cognitive insights: (i) language left hemisphere has higher predictive brain activity versus language right hemisphere, (ii) posterior medial cortex, temporo-parieto-occipital junction, dorsal frontal lobe have higher correlation versus early auditory and auditory association cortex, (iii) syntactic and semantic tasks display a good predictive performance across brain regions for reading and listening stimuli resp.
翻訳日:2022-05-04 21:01:13 公開日:2022-05-03
# (参考訳) 人間-AIチームにおける予測セットの有用性について

On the Utility of Prediction Sets in Human-AI Teams ( http://arxiv.org/abs/2205.01411v1 )

ライセンス: CC BY 4.0
Varun Babbar, Umang Bhatt, Adrian Weller(参考訳) 人間-AIチームの研究は通常、モデル推奨の不確実性を無視した単一のラベルを専門家に提供する。 コンフォーマル予測 (CP) は、理論上の基礎と校正された予測セットの構築に焦点を当てた、確立された研究のラインである。 このような予測がAIチームにおける専門家の意思決定にどのように影響するかを考察する。 評価の結果,有意な予測が有意な影響を与えることがわかった。 しかし、CPが提供する予測セットが非常に大きくなり、不必要なAIアシスタントにつながることに気が付く。 これを緩和するために,いくつかの例でcpを実行し,専門家に提案する手法であるd-cpを紹介する。 D-CPが非遅延例の予測セットサイズを削減できることを実証する。 D-CPの定量的および人体実験における性能を示す(n=120$)。 以上の結果から,CP予測セットはトップ1の予測のみよりも人間とAIのチームパフォーマンスが向上し,D-CP予測セットがCP予測セットよりも有用であることが示唆された。

Research on human-AI teams usually provides experts with a single label, which ignores the uncertainty in a model's recommendation. Conformal prediction (CP) is a well established line of research that focuses on building a theoretically grounded, calibrated prediction set, which may contain multiple labels. We explore how such prediction sets impact expert decision-making in human-AI teams. Our evaluation on human subjects finds that set valued predictions positively impact experts. However, we notice that the predictive sets provided by CP can be very large, which leads to unhelpful AI assistants. To mitigate this, we introduce D-CP, a method to perform CP on some examples and defer to experts. We prove that D-CP can reduce the prediction set size of non-deferred examples. We show how D-CP performs in quantitative and in human subject experiments ($n=120$). Our results suggest that CP prediction sets improve human-AI team performance over showing the top-1 prediction alone, and that experts find D-CP prediction sets are more useful than CP prediction sets.
翻訳日:2022-05-04 20:46:23 公開日:2022-05-03
# (参考訳) 自動運転のための道路上の未知物体のマルチモーダル検出

Multimodal Detection of Unknown Objects on Roads for Autonomous Driving ( http://arxiv.org/abs/2205.01414v1 )

ライセンス: CC BY 4.0
Daniel Bogdoll and Enrico Eisen and Maximilian Nitsche and Christin Scheib and J. Marius Z\"ollner(参考訳) 過去数年間のディープラーニングの飛躍的な進歩は、自動運転車が道を走る未来へと繋がった。 それでも、認識システムの性能は、利用したトレーニングデータの品質に強く依存している。 これらは通常、自動運転システムが直面するすべてのオブジェクトクラスのほんの一部しかカバーしないため、このようなシステムは予期しない問題に対処するのに苦労する。 公道で安全に運用するためには、未知のクラスからの物体の識別が重要な課題である。 本稿では,未知の物体を検出する新しいパイプラインを提案する。 単一センサのモダリティに焦点をあてるのではなく,最先端のアート検出モデルを逐次的に組み合わせることで,ライダーとカメラのデータを活用する。 waymoオープン知覚データセットのアプローチを評価し,異常検出における現在の研究ギャップを指摘する。

Tremendous progress in deep learning over the last years has led towards a future with autonomous vehicles on our roads. Nevertheless, the performance of their perception systems is strongly dependent on the quality of the utilized training data. As these usually only cover a fraction of all object classes an autonomous driving system will face, such systems struggle with handling the unexpected. In order to safely operate on public roads, the identification of objects from unknown classes remains a crucial task. In this paper, we propose a novel pipeline to detect unknown objects. Instead of focusing on a single sensor modality, we make use of lidar and camera data by combining state-of-the art detection models in a sequential manner. We evaluate our approach on the Waymo Open Perception Dataset and point out current research gaps in anomaly detection.
翻訳日:2022-05-04 20:29:14 公開日:2022-05-03
# (参考訳) 構造的テスト統計のための完全対置換テスト

Exact Paired-Permutation Testing for Structured Test Statistics ( http://arxiv.org/abs/2205.01416v1 )

ライセンス: CC BY 4.0
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 重要なテスト(特にペア置換テスト)は、NLPシステムの開発において重要な役割を担い、2つのシステムのパフォーマンスの違い(すなわち、テスト統計)が運のせいではないことを確信する。 しかし、実践者は適切な厳密なアルゴリズムが欠如しているため、このテストを実行するためにモンテカルロ近似に頼る。 本稿では,構造化テスト統計の族に対して,ペア置換テストのための効率的な厳密アルゴリズムを提案する。 我々のアルゴリズムは$\mathcal{O}(GN)(\log GN )(\log N ))$timeで実行され、$N$はデータセットのサイズ、$G$はテスト統計の範囲である。 われわれの正確なアルゴリズムはモンテカルロ近似より10ドル高速で、共通のデータセット上に20000ドルのサンプルがあることがわかった。

Significance testing -- especially the paired-permutation test -- has played a vital role in developing NLP systems to provide confidence that the difference in performance between two systems (i.e., the test statistic) is not due to luck. However, practitioners rely on Monte Carlo approximation to perform this test due to a lack of a suitable exact algorithm. In this paper, we provide an efficient exact algorithm for the paired-permutation test for a family of structured test statistics. Our algorithm runs in $\mathcal{O}(GN (\log GN )(\log N ))$ time where $N$ is the dataset size and $G$ is the range of the test statistic. We found that our exact algorithm was $10$x faster than the Monte Carlo approximation with $20000$ samples on a common dataset.
翻訳日:2022-05-04 20:09:03 公開日:2022-05-03
# (参考訳) 身体は人間の創造性認知にどのように影響するか? 実験的研究枠組み

How Does Embodiment Affect the Human Perception of Computational Creativity? An Experimental Study Framework ( http://arxiv.org/abs/2205.01418v1 )

ライセンス: CC BY 4.0
Simo Linkola and Christian Guckelsberger and Tomi M\"annist\"o and Anna Kantosalo(参考訳) 計算システムによる人間の創造性評価に影響を与える要因は、計算創造性(CC)研究の中核的な問題である。 近年、このような要因としてシステムの実施が進められているが、その効果に関する実証的研究は乏しい。 そこで本研究では,創造性に対する具体化の効果を,創造性に対するその影響から分離する実験的な枠組みを提案する。 我々は,人間の創造性評価の基礎として,システムの具体化を操作するだけでなく,知覚的証拠も操作する。 我々は,身体的・知覚的証拠を独立に,創造的プロセスを制御変数として,中心的枠組みをモチベーションとし,創造性評価を依存変数として評価することを推奨する。 我々は、この枠組みが他の人に、具体化ccの人間の知覚を原則的に研究するよう促すことを望んでいる。

Which factors influence the human assessment of creativity exhibited by a computational system is a core question of computational creativity (CC) research. Recently, the system's embodiment has been put forward as such a factor, but empirical studies of its effect are lacking. To this end, we propose an experimental framework which isolates the effect of embodiment on the perception of creativity from its effect on creativity per se. We not only manipulate the system's embodiment, but also the perceptual evidence as the basis for the human creativity assessment. We motivate the core framework with embodiment and perceptual evidence as independent and the creative process as controlled variable, and we provide recommendations on measuring the assessment of creativity as dependent variable. We hope the framework will inspire others to study the human perception of embodied CC in a principled manner.
翻訳日:2022-05-04 19:53:40 公開日:2022-05-03
# (参考訳) 自動運転車の安全確保のためのリアルタイム到達可能性の利用に関する実証分析

An Empirical Analysis of the Use of Real-Time Reachability for the Safety Assurance of Autonomous Vehicles ( http://arxiv.org/abs/2205.01419v1 )

ライセンス: CC BY 4.0
Patrick Musau, Nathaniel Hamilton, Diego Manzanas Lopez, Preston Robinette, Taylor T. Johnson(参考訳) 機械学習技術とセンシングの最近の進歩は、安全で、アクセス可能で、便利な自動運転車が近い将来実現されるという信念への道を開いた。 この状況において大きな進歩にもかかわらず、安全性と信頼性に関する根本的な課題は、彼らの到着と包括的採用を制限している。 自律走行車は、しばしば動的で不確定な環境での運用を任務とする。 その結果、センサー、アクティベーション、制御のニュアンスを扱うために、機械学習アプローチのような非常に複雑なコンポーネントを利用することが多い。 これらの方法は非常に効果的であるが、保証するのが非常に困難である。 さらに、不確実でダイナミックな環境では、設計時間保証分析は安全性を保証するには不十分かもしれない。 したがって、これらのシステムの実行時の正確性を監視することが重要である。 形式解析に適さないコンポーネントを持つシステムの実行時保証を提供するアプローチの1つは、安全コントローラと危険な動作を防ぐために設計されたスイッチングロジックで検証されていないコンポーネントをラップする単純なアーキテクチャである。 本稿では,F1/10として知られる1/10スケールのオープンソース自動運転車プラットフォームの安全性を確保するために,シンプルなアーキテクチャの実装にリアルタイムリーチビリティアルゴリズムを提案する。 私たちが活用する到達可能性アルゴリズム (a)安全性の保証を提供する、及び b) 潜在的に安全でないシナリオを検出するために使用される。 提案手法では,システムの将来状態に対するコントローラの判断の影響に着目して,基盤となるコントローラを解析する必要性を抽象化する。 シミュレーションと組込みハードウェアプラットフォームの両方で実施した膨大な実験を通じて,アーキテクチャの有効性を実証した。

Recent advances in machine learning technologies and sensing have paved the way for the belief that safe, accessible, and convenient autonomous vehicles may be realized in the near future. Despite tremendous advances within this context, fundamental challenges around safety and reliability are limiting their arrival and comprehensive adoption. Autonomous vehicles are often tasked with operating in dynamic and uncertain environments. As a result, they often make use of highly complex components, such as machine learning approaches, to handle the nuances of sensing, actuation, and control. While these methods are highly effective, they are notoriously difficult to assure. Moreover, within uncertain and dynamic environments, design time assurance analyses may not be sufficient to guarantee safety. Thus, it is critical to monitor the correctness of these systems at runtime. One approach for providing runtime assurance of systems with components that may not be amenable to formal analysis is the simplex architecture, where an unverified component is wrapped with a safety controller and a switching logic designed to prevent dangerous behavior. In this paper, we propose using a real-time reachability algorithm for the implementation of the simplex architecture to assure the safety of a 1/10 scale open source autonomous vehicle platform known as F1/10. The reachability algorithm that we leverage (a) provides provable guarantees of safety, and (b) is used to detect potentially unsafe scenarios. In our approach, the need to analyze an underlying controller is abstracted away, instead focusing on the effects of the controller's decisions on the system's future states. We demonstrate the efficacy of our architecture through a vast set of experiments conducted both in simulation and on an embedded hardware platform.
翻訳日:2022-05-04 19:46:46 公開日:2022-05-03
# (参考訳) ニューラルネットワークのFalsificationistによる考察

A Falsificationist Account of Artificial Neural Networks ( http://arxiv.org/abs/2205.01421v1 )

ライセンス: CC BY 4.0
Oliver Buchholz and Eric Raidl(参考訳) 機械学習は統計学と計算機科学の交点で動作する。 これにより、基礎となる方法論に関する疑問が持ち上がる。 データから学習するプロセスと帰納的学習の密接な結びつきが強調されているが、機械学習のファルシフィズム的なコンポーネントは、あまり注目されていない。 本稿では,ファリシフィケーションの考え方が機械学習の方法論の中心であることを論じる。 機械学習アルゴリズムは、過去の観測から一般的な予測規則を推論すると考えられている。 これは、データのサンプルから推定値を取得する統計的手順に類似している。 しかし、機械学習アルゴリズムは、関数のクラス全体から1つの予測ルールを選択することもできる。 特に、ニューラルネットワークの重みを決定するアルゴリズムは、経験的リスク最小化によって動作し、経験的妥当性に欠ける予測ルールを拒否する。 また、暗黙の規則化の振る舞いを示し、仮説の選択を単純な予測規則へと押し上げる。 我々は、両方の側面をまとめることで、人工ニューラルネットワークのファルシフィズム的説明が生まれると論じている。

Machine learning operates at the intersection of statistics and computer science. This raises the question as to its underlying methodology. While much emphasis has been put on the close link between the process of learning from data and induction, the falsificationist component of machine learning has received minor attention. In this paper, we argue that the idea of falsification is central to the methodology of machine learning. It is commonly thought that machine learning algorithms infer general prediction rules from past observations. This is akin to a statistical procedure by which estimates are obtained from a sample of data. But machine learning algorithms can also be described as choosing one prediction rule from an entire class of functions. In particular, the algorithm that determines the weights of an artificial neural network operates by empirical risk minimization and rejects prediction rules that lack empirical adequacy. It also exhibits a behavior of implicit regularization that pushes hypothesis choice toward simpler prediction rules. We argue that taking both aspects together gives rise to a falsificationist account of artificial neural networks.
翻訳日:2022-05-04 19:45:36 公開日:2022-05-03
# (参考訳) RLFlow: 世界モデルによるニューラルネットワークサブグラフ変換の最適化

RLFlow: Optimising Neural Network Subgraph Transformation with World Models ( http://arxiv.org/abs/2205.01435v1 )

ライセンス: CC BY 4.0
Sean Parker, Sami Alabed and Eiko Yoneki(参考訳) 我々は、ニューラルネットワークのサブグラフ変換を学習できる強化学習(rl)エージェントの使用について、高いレベルのパフォーマンスを達成するために、専門的に設計されたヒューリスティックスを必要とせずに検討した。 ディープラーニングモデルの計算要求の削減は、広範な研究と多くのシステム、最適化、ジャスト・イン・タイム(JIT)コンパイラに焦点が当てられている。 最近の研究は強化学習をコンピュータシステムに適用することを目的としており、特にモデルフリーのrl技術を用いて成功している。 モデルに基づく強化学習法は、環境の遷移ダイナミクスを学ぶために使用できるため、研究の焦点が増えている。 さらに、ワールドモデルをシミュレーション環境として使用する場合、バッチロールアウトは安全に並列に発生し、特にシステム環境では、ビデオゲームの単純なエミュレータと比較して、アクションの実行に桁違いに時間がかかるシステム環境の更新による遅延の影響を克服する。 本稿では,モデル実行時間を削減するために,サブグラフ変換のシーケンスを実行することによってニューラルネットワークのアーキテクチャを最適化することを学ぶモデルベースエージェントの設計を提案する。 提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。

We explored the use of reinforcement learning (RL) agents that can learn to perform neural network subgraph transformations, without the need of expertly designed heuristics to achieve a high level of performance. Reducing compute requirements of deep learning models is a focus of extensive research and many systems, optimisations and just-in-time (JIT) compilers have been proposed to decrease runtime. Recent work has aimed to apply reinforcement learning to computer systems with some success, especially using model-free RL techniques. Model-based reinforcement learning methods have seen an increased focus in research as they can be used to learn the transition dynamics of the environment; this can be leveraged to train an agent using the hallucinogenic environment, thereby increasing sample efficiency compared to model-free approaches. Furthermore, when using a world model as a simulated environment, batch rollouts can occur safely in parallel and, especially in systems environments, it overcomes the latency impact of updating system environments that can take orders of magnitude longer to perform an action compared to simple emulators for video games. We propose a design for a model-based agent which learns to optimise the architecture of neural networks by performing a sequence of subgraph transformations to reduce model runtime. We show our approach can match the performance of state of the art on common convolutional networks and outperform those by up to 5% on transformer-style architectures.
翻訳日:2022-05-04 19:09:13 公開日:2022-05-03
# (参考訳) モデルフリー応答整形

Model-Free Opponent Shaping ( http://arxiv.org/abs/2205.01447v1 )

ライセンス: CC BY 4.0
Chris Lu, Timon Willi, Christian Schroeder de Witt, Jakob Foerster(参考訳) 一般のゲームでは、自己関心の学習エージェントの相互作用は、一般的に、反復された囚人のジレンマ(IPD)の欠陥欠陥など、最悪の結果をもたらす。 これを克服するために、対人学習意識(lola)による学習などいくつかの方法は、対人学習プロセスを形作る。 しかしながら、これらの方法は、わずかなステップしか予測できないため、非対称であり、他のエージェントをナイーブな学習者として扱うためであり、敵の微分学習アルゴリズムへのホワイトボックスアクセスによって計算される高階微分を用いる必要がある。 これらの問題に対処するため,M-FOS(Model-Free Opponent Shaping)を提案する。 M-FOSはメタゲームで学習し、各メタステップは根底にある「インナー」ゲームのエピソードである。 メタステートは内部ポリシーで構成され、メタポリシーは次のエピソードで使用される新しい内部ポリシーを生成する。 次に、M-FOSはモデルなし最適化法を用いて、長軸対向の整形を実現するメタポリケーションを学習する。 実証的には、M-FOSは、文学の単純学習者やその他のより洗練されたアルゴリズムをほぼ最適に活用する。 例えば、私たちの知る限りでは、IDDにおいてよく知られたゼロ行列法(ZD)の歪曲戦略を学ぶための最初の方法である。 同じ設定で、M-FOSはメタセルフプレイの下で社会的に最適な結果をもたらす。 最後に,M-FOSを高次元設定に拡張可能であることを示す。

In general-sum games, the interaction of self-interested learning agents commonly leads to collectively worst-case outcomes, such as defect-defect in the iterated prisoner's dilemma (IPD). To overcome this, some methods, such as Learning with Opponent-Learning Awareness (LOLA), shape their opponents' learning process. However, these methods are myopic since only a small number of steps can be anticipated, are asymmetric since they treat other agents as naive learners, and require the use of higher-order derivatives, which are calculated through white-box access to an opponent's differentiable learning algorithm. To address these issues, we propose Model-Free Opponent Shaping (M-FOS). M-FOS learns in a meta-game in which each meta-step is an episode of the underlying ("inner") game. The meta-state consists of the inner policies, and the meta-policy produces a new inner policy to be used in the next episode. M-FOS then uses generic model-free optimisation methods to learn meta-policies that accomplish long-horizon opponent shaping. Empirically, M-FOS near-optimally exploits naive learners and other, more sophisticated algorithms from the literature. For example, to the best of our knowledge, it is the first method to learn the well-known Zero-Determinant (ZD) extortion strategy in the IPD. In the same settings, M-FOS leads to socially optimal outcomes under meta-self-play. Finally, we show that M-FOS can be scaled to high-dimensional settings.
翻訳日:2022-05-04 18:46:46 公開日:2022-05-03
# (参考訳) 漸進的近位点法の効率的な実装

Efficient implementation of incremental proximal-point methods ( http://arxiv.org/abs/2205.01457v1 )

ライセンス: CC BY 4.0
Alex Shtoff(参考訳) 各計算ステップでトレーニングセットのごく一部を監視するモデルトレーニングアルゴリズムは、実用的な機械学習においてユビキタスであり、確率的およびオンラインの最適化方法の両方を含んでいる。 ほとんどの場合、そのようなアルゴリズムは、通常、サンプルが生み出すコスト関数の勾配を通して、トレーニングサンプルを観察する。 したがって、これらの手法はコスト関数の1次近似によるemph{slope}である。 確率的設定におけるステップサイズ選択に対する感度や、オンライン設定における小さな関数変数を活用できないといった勾配に基づく手法の制限に対処するために、いくつかの研究ストリームは、よく知られた最適化の近近フレームワークを通じて、勾配よりもコスト関数に関するより多くの情報を活用しようと試みている。 しかし、そのような手法を実際に実装することは、各反復ステップが、近位演算子を計算することに沸騰するため、難しい。 本研究では,研究論文における理論的記述と実践的使用とのギャップを埋めることにより,研究者や実践者のより大きな聴衆が利用できる漸進的近位最適化アルゴリズムの実験を行うために,効率的なアルゴリズムとそれに対応する近位演算子の実装を提供する。 対応するコードはhttps://github.com/alexshtf/inc_prox_ptで公開される。

Model training algorithms which observe a small portion of the training set in each computational step are ubiquitous in practical machine learning, and include both stochastic and online optimization methods. In the vast majority of cases, such algorithms typically observe the training samples via the gradients of the cost functions the samples incur. Thus, these methods exploit are the \emph{slope} of the cost functions via their first-order approximations. To address limitations of gradient-based methods, such as sensitivity to step-size choice in the stochastic setting, or inability to exploit small function variability in the online setting, several streams of research attempt to exploit more information about the cost functions than just their gradients via the well-known proximal framework of optimization. However, implementing such methods in practice poses a challenge, since each iteration step boils down to computing a proximal operator, which may not be easy. In this work we provide efficient algorithms and corresponding implementations of proximal operators in order to make experimentation with incremental proximal optimization algorithms accessible to a larger audience of researchers and practitioners, and in particular to promote additional theoretical research into these methods by closing the gap between their theoretical description in research papers and their use in practice. The corresponding code is published at https://github.com/alexshtf/inc_prox_pt.
翻訳日:2022-05-04 18:28:13 公開日:2022-05-03
# (参考訳) 架空の遊びの収束について:分解的アプローチ

On the Convergence of Fictitious Play: A Decomposition Approach ( http://arxiv.org/abs/2205.01469v1 )

ライセンス: CC BY 4.0
Yurong Chen, Xiaotie Deng, Chenchen Li, David Mguni, Jun Wang, Xiang Yan, Yaodong Yang(参考訳) Fictitious Play (FP)は、現代のマルチエージェント学習アルゴリズムの基礎を築いた、$n$-playerゲームにおけるナッシュ均衡を計算するための最も基本的なゲーム理論学習フレームワークの1つである。 FP はゼロサムゲームやポテンシャルゲームにおいて証明可能な収束を保証するが、実世界の問題の多くは両者の混合であり、FP の収束性はまだ十分に研究されていない。 本稿では,FPの収束結果を,そのようなゲームとそれ以上の組み合わせに拡張する。 具体的には、ゲーム分解技術を利用してFPが収束する新しい条件を導出する。 さらに,これら2種類のゲームが相互に転送可能であるという意味で,協調と競争を統一する線形関係を発達させる。 最後に、FPの非収束例であるShapleyゲームを分析し、FPが収束するのに十分な条件を開発する。

Fictitious play (FP) is one of the most fundamental game-theoretical learning frameworks for computing Nash equilibrium in $n$-player games, which builds the foundation for modern multi-agent learning algorithms. Although FP has provable convergence guarantees on zero-sum games and potential games, many real-world problems are often a mixture of both and the convergence property of FP has not been fully studied yet. In this paper, we extend the convergence results of FP to the combinations of such games and beyond. Specifically, we derive new conditions for FP to converge by leveraging game decomposition techniques. We further develop a linear relationship unifying cooperation and competition in the sense that these two classes of games are mutually transferable. Finally, we analyze a non-convergent example of FP, the Shapley game, and develop sufficient conditions for FP to converge.
翻訳日:2022-05-04 18:27:04 公開日:2022-05-03
# (参考訳) 自己組織化マップ(SOMs)と確率近傍埋め込み(SNE)の統一的視点

A unified view on Self-Organizing Maps (SOMs) and Stochastic Neighbor Embedding (SNE) ( http://arxiv.org/abs/2205.01492v1 )

ライセンス: CC BY 4.0
Thibaut Kulak, Anthony Fillion, Fran\c{c}ois Blayo(参考訳) 本稿では,SOM (Self-Organizing Maps) とSNE (Stochastic Neighbor Embedding) という,広く利用されている2つのデータ可視化技術について統一的な視点を提案する。 両者が共通の数学的枠組みから導出可能であることを示す。 この定式化を活用して,SOMとSNEを2つのデータセットで定量的に比較し,両手法の活用に向けた今後の課題について議論する。

We propose a unified view on two widely used data visualization techniques: Self-Organizing Maps (SOMs) and Stochastic Neighbor Embedding (SNE). We show that they can both be derived from a common mathematical framework. Leveraging this formulation, we propose to compare SOM and SNE quantitatively on two datasets, and discuss possible avenues for future work to take advantage of both approaches.
翻訳日:2022-05-04 18:00:11 公開日:2022-05-03
# (参考訳) ニューラルネットワークの不確実性原理について

On the uncertainty principle of neural networks ( http://arxiv.org/abs/2205.01493v1 )

ライセンス: CC BY 4.0
Jun-Jie Zhang, Dong-Xiao Zhang, Jian-Nan Chen, Long-Gang Pang(参考訳) 多くの分野での成功にもかかわらず、ニューラルネットワークは脆弱性であり、正確かつ堅牢であることは困難である(robustは、訓練されたネットワークの予測が、敵の攻撃によって引き起こされる非ランダムな摂動を持つ入力に対して変化しないことを意味する)。 様々な経験的および分析的な研究は、ニューラルネットワークの正確性と堅牢性の間には、多かれ少なかれトレードオフがあることを示唆している。 トレードオフが本質的にある場合、ニューラルネットワークに基づくアプリケーションは信頼できない予測で脆弱である。 したがって、トレードオフが固有の性質であるかどうかを問うことが不可欠である。 本稿では,量子力学における不確実性原理に深く関連する機構を持つ本質的性質として,精度・ロバスト性トレードオフを示す。 ニューラルネットワークが正確かつ堅牢であるためには、共役部分である$x$(入力)と$\delta$(正規化損失関数$j$の導出は$x$)の2つの特徴を解決する必要がある。 量子力学における位置運動共役と同様に、入力とその共役はニューラルネットワークによって同時に解決できないことを示す。

Despite the successes in many fields, it is found that neural networks are vulnerability and difficult to be both accurate and robust (robust means that the prediction of the trained network stays unchanged for inputs with non-random perturbations introduced by adversarial attacks). Various empirical and analytic studies have suggested that there is more or less a trade-off between the accuracy and robustness of neural networks. If the trade-off is inherent, applications based on the neural networks are vulnerable with untrustworthy predictions. It is then essential to ask whether the trade-off is an inherent property or not. Here, we show that the accuracy-robustness trade-off is an intrinsic property whose underlying mechanism is deeply related to the uncertainty principle in quantum mechanics. We find that for a neural network to be both accurate and robust, it needs to resolve the features of the two conjugated parts $x$ (the inputs) and $\Delta$ (the derivatives of the normalized loss function $J$ with respect to $x$), respectively. Analogous to the position-momentum conjugation in quantum mechanics, we show that the inputs and their conjugates cannot be resolved by a neural network simultaneously.
翻訳日:2022-05-04 17:51:19 公開日:2022-05-03
# (参考訳) 自然言語推論と対話における意味的多様性

Semantic Diversity in Dialogue with Natural Language Inference ( http://arxiv.org/abs/2205.01497v1 )

ライセンス: CC BY 4.0
Katherine Stasaski and Marti A. Hearst(参考訳) chitchat会話に対する多様な興味深い応答を生成することは、神経会話エージェントの問題である。 本稿では,対話生成における多様性向上に2つの大きな貢献をする。 まず,自然言語推論(NLI)を用いて,会話に対するモデル応答の集合の意味的多様性を測定する手法を提案する。 この指標を確立されたフレームワーク(tevet and berant, 2021)を用いて評価し,nli多様性が意味的多様性と相関していることを示す強い証拠を見出した。 具体的には,この多様性を測定するための中立関係よりも矛盾関係の方が有用であり,nliモデルの信頼度を組み込むことで最先端の結果が得られることを示す。 第2に,NLIの多様性を標準生成法と比較して平均137%向上する「多様性閾値生成」と呼ばれる新しい生成法を用いて,サンプル集合のセマンティック多様性を反復的に改善する方法を示す。

Generating diverse, interesting responses to chitchat conversations is a problem for neural conversational agents. This paper makes two substantial contributions to improving diversity in dialogue generation. First, we propose a novel metric which uses Natural Language Inference (NLI) to measure the semantic diversity of a set of model responses for a conversation. We evaluate this metric using an established framework (Tevet and Berant, 2021) and find strong evidence indicating NLI Diversity is correlated with semantic diversity. Specifically, we show that the contradiction relation is more useful than the neutral relation for measuring this diversity and that incorporating the NLI model's confidence achieves state-of-the-art results. Second, we demonstrate how to iteratively improve the semantic diversity of a sampled set of responses via a new generation procedure called Diversity Threshold Generation, which results in an average 137% increase in NLI Diversity compared to standard generation procedures.
翻訳日:2022-05-04 17:31:51 公開日:2022-05-03
# (参考訳) subs:構文解析のためのサブツリー置換

SUBS: Subtree Substitution for Compositional Semantic Parsing ( http://arxiv.org/abs/2205.01538v1 )

ライセンス: CC BY 4.0
Jingfeng Yang, Le Zhang, Diyi Yang(参考訳) sequence-to-sequenceモデルはしばしばデータの意味解析において優れた性能を発揮するが、その性能は合成の一般化において依然として劣っている。 この問題を解決するために、いくつかのデータ拡張手法が提案されている。 しかし、事前の作業は表面文法やデータ拡張のルールのみを活用し、改善は限定された。 本稿では,類似のセマンティック関数を持つサブツリーを交換可能と考える合成データ拡張にサブツリー置換を用いることを提案する。 実験の結果,SCANとGeoQueryのパフォーマンスは大幅に向上し,GeoQueryの合成分割に関して新たなSOTAに達した。

Although sequence-to-sequence models often achieve good performance in semantic parsing for i.i.d. data, their performance is still inferior in compositional generalization. Several data augmentation methods have been proposed to alleviate this problem. However, prior work only leveraged superficial grammar or rules for data augmentation, which resulted in limited improvement. We propose to use subtree substitution for compositional data augmentation, where we consider subtrees with similar semantic functions as exchangeable. Our experiments showed that such augmented data led to significantly better performance on SCAN and GeoQuery, and reached new SOTA on compositional split of GeoQuery.
翻訳日:2022-05-04 17:15:20 公開日:2022-05-03
# (参考訳) エッジ上のBERTモデルの効率的な微調整

Efficient Fine-Tuning of BERT Models on the Edge ( http://arxiv.org/abs/2205.01541v1 )

ライセンス: CC BY 4.0
Danilo Vucetic, Mohammadreza Tayaranian, Maryam Ziaeefard, James J. Clark, Brett H. Meyer and Warren J. Gross(参考訳) リソース制約のあるデバイスは、ますます機械学習アプリケーションのデプロイターゲットとなっている。 しかし、静的モデルは動的環境に必ずしも十分ではない。 モデルのオンデバイストレーニングは、新しいシナリオへの迅速な適応を可能にする。 bertなどの自然言語処理モデルで指摘されているように、ディープニューラルネットワークのサイズが大きくなると、メモリ、計算、エネルギー、時間といったリソース要件が増加する。 さらに、トレーニングは推論よりもはるかにリソース集約的です。 したがって、特に大きなBERTのようなモデルでは、リソース制約のあるオンデバイス学習は2倍に困難である。 微調整のメモリ使用量を減らすことで、事前訓練されたBERTモデルは、リソース制約されたデバイス上での微調整に十分な効率を発揮できる。 本稿では,不必要なパラメータ更新を回避して,微調整時のアクティベーションマップのメモリ使用量を削減する,BERTライクなモデルのためのメモリ効率のトレーニングシステムであるFreeze And Reconfigure(FAR)を提案する。 FARはDistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やす時間を47%削減する。 さらに広い範囲で、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。

Resource-constrained devices are increasingly the deployment targets of machine learning applications. Static models, however, do not always suffice for dynamic environments. On-device training of models allows for quick adaptability to new scenarios. With the increasing size of deep neural networks, as noted with the likes of BERT and other natural language processing models, comes increased resource requirements, namely memory, computation, energy, and time. Furthermore, training is far more resource intensive than inference. Resource-constrained on-device learning is thus doubly difficult, especially with large BERT-like models. By reducing the memory usage of fine-tuning, pre-trained BERT models can become efficient enough to fine-tune on resource-constrained devices. We propose Freeze And Reconfigure (FAR), a memory-efficient training regime for BERT-like models that reduces the memory usage of activation maps during fine-tuning by avoiding unnecessary parameter updates. FAR reduces fine-tuning time on the DistilBERT model and CoLA dataset by 30%, and time spent on memory operations by 47%. More broadly, reductions in metric performance on the GLUE and SQuAD datasets are around 1% on average.
翻訳日:2022-05-04 17:07:16 公開日:2022-05-03
# (参考訳) learn to remember: 文書レベルの機械翻訳のためのリカレントメモリ付きトランスフォーマー

Learn To Remember: Transformer with Recurrent Memory for Document-Level Machine Translation ( http://arxiv.org/abs/2205.01546v1 )

ライセンス: CC BY 4.0
Yukun Feng, Feng Li, Ziang Song, Boyuan Zheng, Philipp Koehn(参考訳) Transformerアーキテクチャは機械翻訳において大きな進歩をもたらした。 しかし、ほとんどの研究は文書内の文脈依存を考慮せずに文レベルの翻訳のみに焦点を当てており、文書レベルの一貫性の欠如につながっている。 最近の研究では、追加のコンテキストエンコーダを導入するか、複数の文やドキュメント全体を翻訳することでこの問題を緩和しようと試みている。 このような手法は、ターゲット側の情報を失うか、ドキュメントが長くなるにつれて計算の複雑さが増す可能性がある。 このような問題に対処するため,バニラ変換器にリカレントメモリユニットを導入し,文と前のコンテキスト間の情報交換をサポートする。 メモリユニットは、文から情報を取得し、集約された知識をその後の文状態に戻して再更新する。 まず、文レベルでモデルをトレーニングし、次に文書レベルの翻訳のために微調整する2段階のトレーニング戦略に従う。 我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。 我々はTEDとNewsの最先端の成果も達成し、これまでの成果を平均0.36 s-BLEUと1.49 d-BLEUで上回った。

The Transformer architecture has led to significant gains in machine translation. However, most studies focus on only sentence-level translation without considering the context dependency within documents, leading to the inadequacy of document-level coherence. Some recent research tried to mitigate this issue by introducing an additional context encoder or translating with multiple sentences or even the entire document. Such methods may lose the information on the target side or have an increasing computational complexity as documents get longer. To address such problems, we introduce a recurrent memory unit to the vanilla Transformer, which supports the information exchange between the sentence and previous context. The memory unit is recurrently updated by acquiring information from sentences, and passing the aggregated knowledge back to subsequent sentence states. We follow a two-stage training strategy, in which the model is first trained at the sentence level and then finetuned for document-level translation. We conduct experiments on three popular datasets for document-level machine translation and our model has an average improvement of 0.91 s-BLEU over the sentence-level baseline. We also achieve state-of-the-art results on TED and News, outperforming the previous work by 0.36 s-BLEU and 1.49 d-BLEU on average.
翻訳日:2022-05-04 16:56:02 公開日:2022-05-03
# (参考訳) RAFT-MSF:リカレントオプティマイザを用いた自己監督単眼シーンフロー

RAFT-MSF: Self-Supervised Monocular Scene Flow using Recurrent Optimizer ( http://arxiv.org/abs/2205.01568v1 )

ライセンス: CC BY 4.0
Bayram Bayramli, Junhwa Hur, Hongtao Lu(参考訳) 単眼カメラからのシーンフローの学習は、その不備や注釈付きデータの欠如など、依然として困難な課題である。 自己教師付き手法はラベルのないデータからシーンフローを推定するが、その精度は半教師付き手法に遅れる。 本稿では,従来の手法よりも精度が大幅に向上する自己教師付き単眼シーンフロー手法を提案する。 現状の光学フローモデルであるRAFTに基づいて、3次元運動場と不均一マップを同時に更新する新しいデコーダを設計する。 さらに,改良されたアップサンプリング層と不均一初期化手法を提案し,精度を7.2%まで向上させる。 本手法は, 自己教師付き単眼フロー法における最先端精度を実現し, 精度を34.2%向上させた。 我々の微調整モデルは、228倍高速な実行時間で、最も優れた半教師付き手法より優れています。 コードは公開されます。

Learning scene flow from a monocular camera still remains a challenging task due to its ill-posedness as well as lack of annotated data. Self-supervised methods demonstrate learning scene flow estimation from unlabeled data, yet their accuracy lags behind (semi-)supervised methods. In this paper, we introduce a self-supervised monocular scene flow method that substantially improves the accuracy over the previous approaches. Based on RAFT, a state-of-the-art optical flow model, we design a new decoder to iteratively update 3D motion fields and disparity maps simultaneously. Furthermore, we propose an enhanced upsampling layer and a disparity initialization technique, which overall further improves accuracy up to 7.2%. Our method achieves state-of-the-art accuracy among all self-supervised monocular scene flow methods, improving accuracy by 34.2%. Our fine-tuned model outperforms the best previous semi-supervised method with 228 times faster runtime. Code will be publicly available.
翻訳日:2022-05-04 16:40:47 公開日:2022-05-03
# (参考訳) よりシンプルに - トレーニング済みのバックボーンによる既成の継続的学習

Simpler is Better: off-the-shelf Continual Learning Through Pretrained Backbones ( http://arxiv.org/abs/2205.01586v1 )

ライセンス: CC BY 4.0
Francesco Pelosin(参考訳) 本稿では,事前学習モデルのパワーを活用し,コンピュータビジョン問題の連続学習のためのベースライン(オフ・ザ・シェルフ)を提案する。 これにより、一般的なベンチマークの多くに対して、強力なパフォーマンスを実現するためのシンプルなアプローチを考案する。 パラメータ更新を必要とせず、最小限のメモリ要件(KByteの順序)を持つため、私たちのアプローチは高速です。 特に「トレーニング」フェーズはデータを再順序付けし、事前訓練されたモデルのパワーを利用してクラスプロトタイプを計算し、メモリバンクを満たします。 推論時には、最も近いプロトタイプをknnのようなアプローチでマッチングし、予測します。 このナイーブなソリューションが,既成の継続的学習システムとしてどのように機能するかを確認します。 そこで,提案するパイプラインを一般的なcnnモデルと比較し,視覚トランスフォーマーの優位性を示すことにより,高品質な特徴を実現できることを示唆する。 さらに、この単純なパイプラインは、CLコミュニティが特に検討したデータセットや事前学習されたモデルの使用において行った効果的な進歩について、以前の研究によって提起されたのと同じ疑問を提起する。 コードはhttps://github.com/francesco-p/off-the-shelf-clにある。

In this short paper, we propose a baseline (off-the-shelf) for Continual Learning of Computer Vision problems, by leveraging the power of pretrained models. By doing so, we devise a simple approach achieving strong performance for most of the common benchmarks. Our approach is fast since requires no parameters updates and has minimal memory requirements (order of KBytes). In particular, the "training" phase reorders data and exploit the power of pretrained models to compute a class prototype and fill a memory bank. At inference time we match the closest prototype through a knn-like approach, providing us the prediction. We will see how this naive solution can act as an off-the-shelf continual learning system. In order to better consolidate our results, we compare the devised pipeline with common CNN models and show the superiority of Vision Transformers, suggesting that such architectures have the ability to produce features of higher quality. Moreover, this simple pipeline, raises the same questions raised by previous works \cite{gdumb} on the effective progresses made by the CL community especially in the dataset considered and the usage of pretrained models. Code is live at https://github.com/francesco-p/off-the-shelf-cl
翻訳日:2022-05-04 16:28:31 公開日:2022-05-03
# (参考訳) 統計的転がりモデルを用いたインターネットトラフィック予測に関する実証的研究

An Empirical Study on Internet Traffic Prediction Using Statistical Rolling Model ( http://arxiv.org/abs/2205.01590v1 )

ライセンス: CC BY-SA 4.0
Sajal Saha, Anwar Haque, and Greg Sidebottom(参考訳) 現実世界のIPネットワークトラフィックは、新しいインターネットサービス統合、トラフィックマイグレーション、インターネットアプリケーションなど、外部および内部の要因に影響を受けやすい。 これらの要因により、実際のインターネットトラフィックは非線形であり、将来の予測のために統計モデルを用いて分析することが困難である。 本稿では,実IPネットワークトラフィックに対する異なる統計的予測モデルの性能について検討,評価し,ローリング予測手法を用いて予測精度を大幅に向上させた。 まず、トラフィック特性を分析し、最小アカイケ情報基準(aic)に基づくグリッド探索アルゴリズムを実装することにより、対応する予測モデルの最適なハイパーパラメータのセットを特定する。 次に,自動回帰統合移動平均 (ARIMA), 季節アリマ (SARIMA), eXogenous factor (SARIMAX), ホルトワート (Holt-Winter) の比較解析を行った。 我々の交通の季節性は、SARIMAを用いて明確にモデル化されており、ARIMA(季節性に対応できない)と比較して平均平均過度誤差(MAPE)が4%以上減少する。 さらに,SARIMAXを用いた交通予測を改良し,元の交通から抽出した異種要因を学習し,MAPEの6.83%で最高の転がり予測結果を得た。 最後に,ARIMA (約1.5%少ないMAPE) よりも優れた予測値を示したHolt-Winterモデルに従って, トラフィック変動に対する指数的スムーシング手法を適用した。 ローリング予測手法は,isp(real internet service provider)トラフィックデータを用いた予測誤差を,標準予測法と比較して50%以上低減した。

Real-world IP network traffic is susceptible to external and internal factors such as new internet service integration, traffic migration, internet application, etc. Due to these factors, the actual internet traffic is non-linear and challenging to analyze using a statistical model for future prediction. In this paper, we investigated and evaluated the performance of different statistical prediction models for real IP network traffic; and showed a significant improvement in prediction using the rolling prediction technique. Initially, a set of best hyper-parameters for the corresponding prediction model is identified by analyzing the traffic characteristics and implementing a grid search algorithm based on the minimum Akaike Information Criterion (AIC). Then, we performed a comparative performance analysis among AutoRegressive Integrated Moving Average (ARIMA), Seasonal ARIMA (SARIMA), SARIMA with eXogenous factors (SARIMAX), and Holt-Winter for single-step prediction. The seasonality of our traffic has been explicitly modeled using SARIMA, which reduces the rolling prediction Mean Average Percentage Error (MAPE) by more than 4% compared to ARIMA (incapable of handling the seasonality). We further improved traffic prediction using SARIMAX to learn different exogenous factors extracted from the original traffic, which yielded the best rolling prediction results with a MAPE of 6.83%. Finally, we applied the exponential smoothing technique to handle the variability in traffic following the Holt-Winter model, which exhibited a better prediction than ARIMA (around 1.5% less MAPE). The rolling prediction technique reduced prediction error using real Internet Service Provider (ISP) traffic data by more than 50\% compared to the standard prediction method.
翻訳日:2022-05-04 16:21:39 公開日:2022-05-03
# (参考訳) 運動量に基づく分散低減による局所確率的二段階最適化

Local Stochastic Bilevel Optimization with Momentum-Based Variance Reduction ( http://arxiv.org/abs/2205.01608v1 )

ライセンス: CC BY 4.0
Junyi Li, Feihu Huang, Heng Huang(参考訳) バイレベル最適化は最近、新たな効率的なアルゴリズムで顕著な進歩を目撃し、データクリーニング、少数ショット学習、ニューラルネットワーク検索など、多くの機械学習タスクに適用されている。 しかし,分散環境下での2レベル問題の解法にはほとんど注意が払われていない。 フェデレートラーニング(FL)は、分散ロケーションデータによる機械学習タスクを解決する新しいパラダイムである。 FL問題は不均一性と通信ボトルネックのため解決が難しい。 しかし、これらの課題がバイレベル最適化アルゴリズムの収束にどう影響するかは不明である。 本稿では,フェデレーテッド・バイレベル最適化問題について検討する。 具体的には、まず、決定論的勾配に基づくアルゴリズムであるFedBiOを提案し、$O(\epsilon^{-2})$の反復数で$\epsilon$-stationary点に達することを示した。 次に,FedBiOAccを提案し,確率的シナリオ下での運動量に基づく分散還元手法を用いてFedBiOを高速化する。 fedbioaccの複雑性は$o(\epsilon^{-1.5})である。 最後に,Fair Federated Learningタスクを通じて提案したアルゴリズムを検証する。 より具体的には、bilevel-based group fair fl objectiveを定義する。 数値実験において,本アルゴリズムは他のベースラインと比較して優れた性能を示す。

Bilevel Optimization has witnessed notable progress recently with new emerging efficient algorithms and has been applied to many machine learning tasks such as data cleaning, few-shot learning, and neural architecture search. However, little attention has been paid to solve the bilevel problems under distributed setting. Federated learning (FL) is an emerging paradigm which solves machine learning tasks over distributed-located data. FL problems are challenging to solve due to the heterogeneity and communication bottleneck. However, it is unclear how these challenges will affect the convergence of Bilevel Optimization algorithms. In this paper, we study Federated Bilevel Optimization problems. Specifically, we first propose the FedBiO, a deterministic gradient-based algorithm and we show it requires $O(\epsilon^{-2})$ number of iterations to reach an $\epsilon$-stationary point. Then we propose FedBiOAcc to accelerate FedBiO with the momentum-based variance-reduction technique under the stochastic scenario. We show FedBiOAcc has complexity of $O(\epsilon^{-1.5})$. Finally, we validate our proposed algorithms via the important Fair Federated Learning task. More specifically, we define a bilevel-based group fair FL objective. Our algorithms show superior performances compared to other baselines in numerical experiments.
翻訳日:2022-05-04 16:11:42 公開日:2022-05-03
# 効率的・収束型フェデレーション学習

Efficient and Convergent Federated Learning ( http://arxiv.org/abs/2205.01438v1 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) フェデレーション学習はここ数年で進歩を見せているが、アルゴリズムがコミュニケーションリソースを節約する方法、計算コストの削減方法、収束するかどうかなど、多くの課題に直面している。 これらの問題に対処するため,乗算器の勾配降下と不正確な交互方向法を組み合わせた新しいフェデレーション学習アルゴリズム(FedGiA)を提案する。 FedGiAは温和な条件下で線形に計算・通信効率・収束性を示す。

Federated learning has shown its advances over the last few years but is facing many challenges, such as how algorithms save communication resources, how they reduce computational costs, and whether they converge. To address these issues, this paper proposes a new federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. It is shown that FedGiA is computation and communication-efficient and convergent linearly under mild conditions.
翻訳日:2022-05-04 16:07:55 公開日:2022-05-03
# 大型量子ドットアレイにおけるクーロンダイヤモンドの学習

Learning Coulomb Diamonds in Large Quantum Dot Arrays ( http://arxiv.org/abs/2205.01443v1 )

ライセンス: Link先を確認
Oswin Krause, Anasua Chatterjee, Ferdinand Kuemmeth, Evert van Nieuwenburg(参考訳) 本稿では,量子ドットアレイ内のクーロンダイヤモンドのフェセットを探索するアルゴリズムを提案する。 これらのアレイを定常相互作用モデルを用いてシミュレートし,1次元ラスタスキャン(rays)のみに依存して,正則化最大確率推定を用いてデバイスモデルの学習を行う。 これにより、デバイスの所定の電荷状態に対して、どの遷移が存在し、これらに対する補償ゲート電圧が何であるかを決定することができる。 小型デバイスの場合、シミュレーターはクーロンダイヤモンドの正確な境界を計算するのにも使用できます。

We introduce an algorithm that is able to find the facets of Coulomb diamonds in quantum dot arrays. We simulate these arrays using the constant-interaction model, and rely only on one-dimensional raster scans (rays) to learn a model of the device using regularized maximum likelihood estimation. This allows us to determine, for a given charge state of the device, which transitions exist and what the compensated gate voltages for these are. For smaller devices the simulator can also be used to compute the exact boundaries of the Coulomb diamonds, which we use to assess that our algorithm correctly finds the vast majority of transitions with high precision.
翻訳日:2022-05-04 16:07:45 公開日:2022-05-03
# フェデレーション学習におけるランダム参加によるプライバシ増幅

Privacy Amplification via Random Participation in Federated Learning ( http://arxiv.org/abs/2205.01556v1 )

ライセンス: Link先を確認
Burak Hasircioglu and Deniz Gunduz(参考訳) データセット全体ではなく、サブサンプルデータセットでランダム化アルゴリズムを実行することで、差分プライバシー保証が増幅される。 本研究では,フェデレーション環境では,ローカルデータセットのサブサンプリングに加えて,クライアントのランダムな参加も検討する。 このようなクライアントのランダムな参加は、サブサンプリングにおける同一クライアントのサンプル間で相関関係を生じさせるので、非一様サブサンプリングによる対応するプライバシ増幅を分析する。 ローカルデータセットのサイズが小さい場合、ランダムな参加によるプライバシ保証は、データセット全体が単一のホストに配置されてサブサンプリングされる集中的な設定に近くなることを示す。 一方、ローカルデータセットが大きい場合には、アルゴリズムの出力を観察することで、サンプリングされたクライアントのアイデンティティを高い信頼性で開示することができる。 私たちの分析では、たとえこの場合であっても、ランダムな参加によるプライバシー保証は、ローカルなサブサンプリングによってのみより優れています。

Running a randomized algorithm on a subsampled dataset instead of the entire dataset amplifies differential privacy guarantees. In this work, in a federated setting, we consider random participation of the clients in addition to subsampling their local datasets. Since such random participation of the clients creates correlation among the samples of the same client in their subsampling, we analyze the corresponding privacy amplification via non-uniform subsampling. We show that when the size of the local datasets is small, the privacy guarantees via random participation is close to those of the centralized setting, in which the entire dataset is located in a single host and subsampled. On the other hand, when the local datasets are large, observing the output of the algorithm may disclose the identities of the sampled clients with high confidence. Our analysis reveals that, even in this case, privacy guarantees via random participation outperform those via only local subsampling.
翻訳日:2022-05-04 16:07:33 公開日:2022-05-03
# BioTouchPass: タッチスクリーンバイオメトリクスのための手書きパスワード

BioTouchPass: Handwritten Passwords for Touchscreen Biometrics ( http://arxiv.org/abs/2205.01353v1 )

ライセンス: Link先を確認
Ruben Tolosana, Ruben Vera-Rodriguez and Julian Fierrez(参考訳) 本研究は,PIN(Personal Identification Numbers)とOTP(One-Time Passwords)に基づく従来の認証システムを強化する。 提案手法では,通常どおり入力するのではなく,端末のタッチスクリーン上にパスワードの各桁を描画する。 提案する生体認証システムについて,パスワード長とエンローメントサンプル数を増加させる際の手書き桁の識別力とロバスト性について,完全解析を行った。 0から9までのオンライン手書き桁からなる新しいe-BioDigitデータベースが,モバイル端末の入力として指を用いて取得された。 このデータベースは、この研究で報告された実験で使用され、GitHubのベンチマーク結果と一緒に利用できる。 最後に、提案手法を現在のPINおよびOPPシステムに展開し、EER(Equal Error Rates)で結果を得るための具体的な詳細について論じる。 攻撃者がパスワードを知っている場合の4.0%。 これらの結果は,提案手法を従来のpinシステムやotpシステムと比較し,同じインポスタットシナリオで攻撃が100%成功した場合と比較し,展開を促すものである。

This work enhances traditional authentication systems based on Personal Identification Numbers (PIN) and One-Time Passwords (OTP) through the incorporation of biometric information as a second level of user authentication. In our proposed approach, users draw each digit of the password on the touchscreen of the device instead of typing them as usual. A complete analysis of our proposed biometric system is carried out regarding the discriminative power of each handwritten digit and the robustness when increasing the length of the password and the number of enrolment samples. The new e-BioDigit database, which comprises on-line handwritten digits from 0 to 9, has been acquired using the finger as input on a mobile device. This database is used in the experiments reported in this work and it is available together with benchmark results in GitHub. Finally, we discuss specific details for the deployment of our proposed approach on current PIN and OTP systems, achieving results with Equal Error Rates (EERs) ca. 4.0% when the attacker knows the password. These results encourage the deployment of our proposed approach in comparison to traditional PIN and OTP systems where the attack would have 100% success rate under the same impostor scenario.
翻訳日:2022-05-04 16:07:18 公開日:2022-05-03
# ARCADE: ネットワーク異常検出のための逆正則畳み込みオートエンコーダ

ARCADE: Adversarially Regularized Convolutional Autoencoder for Network Anomaly Detection ( http://arxiv.org/abs/2205.01432v1 )

ライセンス: Link先を確認
Willian T. Lunardi, Martin Andreoni Lopez, Jean-Pierre Giacalone(参考訳) 異種IP接続デバイスの数とトラフィック量の増加に伴い、セキュリティ侵害の可能性がある。 未発見の侵入は、サイバーセキュリティとプライバシーの重大なリスクをもたらす可能性がある。 本稿では, ARCADE (Adversarially Regularized Convolutional Autoencoder for unsupervised network Anomaly Detection) と呼ばれる, 実用的な教師なし異常に基づくディープラーニング検出システムを提案する。 ARCADEは1D Convolutional Neural Networks (CNN) とGenerative Adversarial Networks (GAN) の特性を利用して、ネットワークフローのいくつかの初期パケットの生バイトのサブセットに基づいて、通常のトラフィックのプロファイルを自動構築する。 リソース制約のある環境でのオンライン検出に適した畳み込みオートエンコーダ (AE) が提案され, 計算能力の高い環境でも容易に改善できる。 正規分布から外れたネットワークフローを再構築し,異常検出能力を向上させるために,AEの正規化と縮小を図るための対角的トレーニング戦略を提案する。 提案手法は,ネットワーク異常検出のための最先端のディープラーニング手法よりも有効であり,検出時間を大幅に短縮する。 評価結果から,提案手法はRaspberry Piなどのリソース制約のあるハードウェアプラットフォーム上での異常検出に適していることが示された。

As the number of heterogenous IP-connected devices and traffic volume increase, so does the potential for security breaches. The undetected exploitation of these breaches can bring severe cybersecurity and privacy risks. In this paper, we present a practical unsupervised anomaly-based deep learning detection system called ARCADE (Adversarially Regularized Convolutional Autoencoder for unsupervised network anomaly DEtection). ARCADE exploits the property of 1D Convolutional Neural Networks (CNNs) and Generative Adversarial Networks (GAN) to automatically build a profile of the normal traffic based on a subset of raw bytes of a few initial packets of network flows so that potential network anomalies and intrusions can be effectively detected before they could cause any more damage to the network. A convolutional Autoencoder (AE) is proposed that suits online detection in resource-constrained environments, and can be easily improved for environments with higher computational capabilities. An adversarial training strategy is proposed to regularize and decrease the AE's capabilities to reconstruct network flows that are out of the normal distribution, and thereby improve its anomaly detection capabilities. The proposed approach is more effective than existing state-of-the-art deep learning approaches for network anomaly detection and significantly reduces detection time. The evaluation results show that the proposed approach is suitable for anomaly detection on resource-constrained hardware platforms such as Raspberry Pi.
翻訳日:2022-05-04 16:04:39 公開日:2022-05-03
# グローバル・ローカル・アップデートのバランスによるコミュニケーション効率の良いフェデレーション学習の見直し

Revisiting Communication-Efficient Federated Learning with Balanced Global and Local Updates ( http://arxiv.org/abs/2205.01470v1 )

ライセンス: Link先を確認
Zhigang Yan, Dong Li, Zhichao Zhang and Jiguang He(参考訳) federated learning(fl)では、多くのデバイスがローカルモデルをトレーニングし、対応するパラメータや勾配をベースステーション(bs)にアップロードして、データプライバシを保護しながらグローバルモデルを更新する。 しかし、計算と通信資源が限られているため、ローカルトレーニング(ローカル更新)とアグリゲーション(グローバル更新)の数を慎重に選択する必要がある。 本稿では,局所訓練数とグローバルアグリゲーションの数との最適トレードオフを調査し,既存の作業に対する収束の高速化と予測精度の向上を図る。 我々の目標は、遅延とエネルギー消費の制約の両方の下で、グローバル損失関数を最小化することである。 最適化問題をトラクタブルにするために、ロス関数に新たに厳密な上限を導出し、局所的なトレーニング数と大域的な集約数のクローズドフォーム式を得られるようにする。 シミュレーションの結果,提案手法により予測精度が向上し,ベースライン方式よりもはるかに高速に収束できることが示唆された。

In federated learning (FL), a number of devices train their local models and upload the corresponding parameters or gradients to the base station (BS) to update the global model while protecting their data privacy. However, due to the limited computation and communication resources, the number of local trainings (a.k.a. local update) and that of aggregations (a.k.a. global update) need to be carefully chosen. In this paper, we investigate and analyze the optimal trade-off between the number of local trainings and that of global aggregations to speed up the convergence and enhance the prediction accuracy over the existing works. Our goal is to minimize the global loss function under both the delay and the energy consumption constraints. In order to make the optimization problem tractable, we derive a new and tight upper bound on the loss function, which allows us to obtain closed-form expressions for the number of local trainings and that of global aggregations. Simulation results show that our proposed scheme can achieve a better performance in terms of the prediction accuracy, and converge much faster than the baseline schemes.
翻訳日:2022-05-04 16:04:13 公開日:2022-05-03
# ExSpliNet: 解釈可能な表現型スプラインベースニューラルネットワーク

ExSpliNet: An interpretable and expressive spline-based neural network ( http://arxiv.org/abs/2205.01510v1 )

ライセンス: Link先を確認
Daniele Fakhoury, Emanuele Fakhoury and Hendrik Speleers(参考訳) 本稿では,解釈可能な表現型ニューラルネットワークモデルであるExSpliNetを提案する。 このモデルはコルモゴロフニューラルネットワークのアイデア、確率木のアンサンブル、多変量B-スプライン表現を組み合わせたものである。 我々はモデルを確率論的に解釈し、その普遍近似特性を示す。 また、B-スプライン特性を利用して効率的に符号化する方法についても論じる。 最後に,提案モデルが合成近似問題および古典的機械学習ベンチマークデータセットに与える影響を検証する。

In this paper we present ExSpliNet, an interpretable and expressive neural network model. The model combines ideas of Kolmogorov neural networks, ensembles of probabilistic trees, and multivariate B-spline representations. We give a probabilistic interpretation of the model and show its universal approximation properties. We also discuss how it can be efficiently encoded by exploiting B-spline properties. Finally, we test the effectiveness of the proposed model on synthetic approximation problems and classical machine learning benchmark datasets.
翻訳日:2022-05-04 16:03:54 公開日:2022-05-03
# (参考訳) マルチビュー幾何学:代数的特性に基づく対応強化

Multi-view Geometry: Correspondences Refinement Based on Algebraic Properties ( http://arxiv.org/abs/2205.01634v1 )

ライセンス: CC BY 4.0
Trung-Kien Le, Ping Li(参考訳) 対応推定や特徴マッチングは、画像に基づく3D再構成問題において重要なステップである。 本稿では,対応に対する2つの代数的性質を提案する。 1つは2つの画像上の少なくとも9つのキーポイントの対応から構成された階数不足行列であり、2つ目は少なくとも5つの画像上の6つのキーポイントの他の対応から構築された階数不足行列である。 本論文に先立っては,複数ビュー対応に関する理論的結果は得られなかった。 正確な対応を得るためには、多視点対応は2視点対応よりも有用であると考えられる。 これら2つの代数的性質から,対応に関する改良アルゴリズムを提案する。 このアルゴリズムは対応の洗練、外れ値の認識、キーポイントの回復の欠如を組み合わせたものである。 仏像再建計画による実実験の結果,提案手法は,対応推定において77画素から55画素までの平均誤差を低減できることがわかった。 この落ち込みは相当なもので、その結果を検証します。

Correspondences estimation or feature matching is a key step in the image-based 3D reconstruction problem. In this paper, we propose two algebraic properties for correspondences. The first is a rank deficient matrix construct from the correspondences of at least nine key-points on two images (two-view correspondences) and the second is also another rank deficient matrix built from the other correspondences of six key-points on at least five images (multi-view correspondences). To our knowledge, there are no theoretical results for multi-view correspondences prior to this paper. To obtain accurate correspondences, multi-view correspondences seem to be more useful than two-view correspondences. From these two algebraic properties, we propose an refinement algorithm for correspondences. This algorithm is a combination of correspondences refinement, outliers recognition and missing key-points recovery. Real experiments from the project of reconstructing Buddha statue show that the proposed refinement algorithm can reduce the average error from 77 pixels to 55 pixels on the correspondences estimation. This drop is substantial and it validates our results.
翻訳日:2022-05-04 16:01:31 公開日:2022-05-03
# Neural Combinatorial Optimization: この分野の新しいプレイヤー

Neural Combinatorial Optimization: a New Player in the Field ( http://arxiv.org/abs/2205.01356v1 )

ライセンス: Link先を確認
Andoni I. Garmendia, Josu Ceberio, Alexander Mendiburu(参考訳) Neural Combinatorial Optimizationは、ニューラルネットワークモデルと強化学習を使用して、一連の問題を解決するための優れたヒューリスティックを学習しようとする。 近年、その優れたパフォーマンスは、多くの実践者が様々な組合せ問題に対するニューラルアーキテクチャの開発を奨励している。 しかしながら、従来の最適化フレームワークにおけるそのようなアルゴリズムの導入は、その性能や、厳密なアルゴリズム、ヒューリスティックス、メタヒューリスティックスといった他の手法との実験的比較に関する多くの疑問を提起している。 本稿では,ニューラルネットワークに基づくアルゴリズムの古典的組合せ最適化フレームワークへの組み入れに関する批判的分析を行う。 その後, 大規模インスタンスへの性能, 転送可能性, 計算コスト, 一般化など, アルゴリズムの基本的側面を分析するための総合的研究を行った。 そこで本研究では,np-hard問題である線形順序問題を選択し,最適化のためのニューラルコンビネート最適化モデルを構築する。 最後に、解析された側面が一般的な学習フレームワークにどのように適用されるかについて議論し、Neural Combinatorial Optimizationアルゴリズムの領域における今後の研究の新たな方向性を提案する。

Neural Combinatorial Optimization attempts to learn good heuristics for solving a set of problems using Neural Network models and Reinforcement Learning. Recently, its good performance has encouraged many practitioners to develop neural architectures for a wide variety of combinatorial problems. However, the incorporation of such algorithms in the conventional optimization framework has raised many questions related to their performance and the experimental comparison with other methods such as exact algorithms, heuristics and metaheuristics. This paper presents a critical analysis on the incorporation of algorithms based on neural networks into the classical combinatorial optimization framework. Subsequently, a comprehensive study is carried out to analyse the fundamental aspects of such algorithms, including performance, transferability, computational cost and generalization to larger-sized instances. To that end, we select the Linear Ordering Problem as a case of study, an NP-hard problem, and develop a Neural Combinatorial Optimization model to optimize it. Finally, we discuss how the analysed aspects apply to a general learning framework, and suggest new directions for future work in the area of Neural Combinatorial Optimization algorithms.
翻訳日:2022-05-04 14:59:10 公開日:2022-05-03
# 人間-AIチームにおける情報非対称性の影響について

On the Effect of Information Asymmetry in Human-AI Teams ( http://arxiv.org/abs/2205.01467v1 )

ライセンス: Link先を確認
Patrick Hemmer and Max Schemmer and Niklas K\"uhl and Michael V\"ossing and Gerhard Satzger(参考訳) 過去数年間、人工知能(AI)の能力は、多くの応用分野における人間の意思決定を改善してきた。 AIと人間とのチーム化は、補完的なチームパフォーマンス(CTP)、つまりAIや人間によって個別に到達できるものを超えるレベルのパフォーマンスにつながる可能性がある。 多くの研究者が説明可能なAI(XAI)を使用して、人間がAIアドバイスを適切に頼り、CTPに到達できるように提案している。 しかし、ctpは説明可能性の設計に焦点が当てられることが少なく、人間とaiの間に相補性が存在するという基本的な前提条件はしばしば無視される。 そこで我々は,人間とAIの効果的な意思決定のためのこの可能性の存在に焦点をあてる。 具体的には,情報非対称性を相補性ポテンシャルの必須源として認識し,実世界の多くの状況において,人間が異なる文脈情報にアクセスできるようにしている。 オンライン実験を行うことで、人間はそのような文脈情報を用いてAIの決定を調整し、最終的にCTPとなることを示した。

Over the last years, the rising capabilities of artificial intelligence (AI) have improved human decision-making in many application areas. Teaming between AI and humans may even lead to complementary team performance (CTP), i.e., a level of performance beyond the ones that can be reached by AI or humans individually. Many researchers have proposed using explainable AI (XAI) to enable humans to rely on AI advice appropriately and thereby reach CTP. However, CTP is rarely demonstrated in previous work as often the focus is on the design of explainability, while a fundamental prerequisite -- the presence of complementarity potential between humans and AI -- is often neglected. Therefore, we focus on the existence of this potential for effective human-AI decision-making. Specifically, we identify information asymmetry as an essential source of complementarity potential, as in many real-world situations, humans have access to different contextual information. By conducting an online experiment, we demonstrate that humans can use such contextual information to adjust the AI's decision, finally resulting in CTP.
翻訳日:2022-05-04 14:58:50 公開日:2022-05-03
# オントロジーを用いた自動運転における臨界点の形式化と認識

Using Ontologies for the Formalization and Recognition of Criticality for Automated Driving ( http://arxiv.org/abs/2205.01532v1 )

ライセンス: Link先を確認
Lukas Westhofen, Christian Neurohr, Martin Butz, Maike Scholtes, Michael Schuldes(参考訳) 知識表現と推論は、機械によって知識がどのように形式化され、解釈され、意味的に分析されるかを調べる長い歴史を持つ。 自動運転車の分野では、交通世界の本質的にオープンで複雑なコンテキストを扱う上で、関連する知識を形式化し活用する能力が提案されている。 本稿では,オントロジーが強力なツールであることを示す。 a)モデリングと形式化、及び b) 自動運転車の環境における臨界性に関連する要因に関する推論 このため、よく知られた6層モデルを用いて、環境コンテキストの形式表現を作成する。 この表現の中で、オントロジーはドメイン知識を論理公理としてモデル化し、交通シーンやシナリオにおける重要な要因の存在を推論する。 自動分析を行うには、a-priori述語拡張と組み合わせて、合同記述論理と規則推論器を用いる。 本稿では, 都市交通シナリオの大規模ドローンデータセットを用いて, モジュール方式を詳しく検討し, 実装を公開し, 提案手法の評価を行う。

Knowledge representation and reasoning has a long history of examining how knowledge can be formalized, interpreted, and semantically analyzed by machines. In the area of automated vehicles, recent advances suggest the ability to formalize and leverage relevant knowledge as a key enabler in handling the inherently open and complex context of the traffic world. This paper demonstrates ontologies to be a powerful tool for a) modeling and formalization of and b) reasoning about factors associated with criticality in the environment of automated vehicles. For this, we leverage the well-known 6-Layer Model to create a formal representation of the environmental context. Within this representation, an ontology models domain knowledge as logical axioms, enabling deduction on the presence of critical factors within traffic scenes and scenarios. For executing automated analyses, a joint description logic and rule reasoner is used in combination with an a-priori predicate augmentation. We elaborate on the modular approach, present a publicly available implementation, and evaluate the method by means of a large-scale drone data set of urban traffic scenarios.
翻訳日:2022-05-04 14:58:34 公開日:2022-05-03
# 微生物単一細胞解析のためのモデルベースbスプラインを用いたハイブリッドマルチオブジェクトセグメンテーションフレームワーク

A hybrid multi-object segmentation framework with model-based B-splines for microbial single cell analysis ( http://arxiv.org/abs/2205.01367v1 )

ライセンス: Link先を確認
Karina Ruzaeva, Katharina N\"oh, Benjamin Berkels(参考訳) 本稿では,多目的微生物細胞セグメンテーションのためのハイブリッドアプローチを提案する。 このアプローチは、MLに基づく検出と、細胞形状の幾何学モデルに基づいてパラメータ化されるB-スプラインを用いた幾何学的変動に基づくセグメンテーションを組み合わせる。 この検出はまずYOLOv5を使って行われる。 第2のステップでは、検出された各細胞を個別に分割する。 したがって、セグメンテーションはセル単位でのみ行わなければならないため、幾何学に関する事前の知識を取り入れた変分的なアプローチが可能である。 ここで、セグメンテーションの輪郭は、既知のセル幾何学を用いて制御点をパラメトリゼーションする閉均一な立方体B-スプラインとしてモデル化される。 学習データとして正確なセグメンテーションマップを必要とする純粋にMLベースのセグメンテーションアプローチと比較して,本手法では,トレーニングデータとしてボックスを限定する。 それでも,提案手法はMLに基づくセグメンテーション手法と同等に機能する。 コリネバクテリウムグルタミカムの時間分解顕微鏡データにおける提案手法の性能について検討した。

In this paper, we propose a hybrid approach for multi-object microbial cell segmentation. The approach combines an ML-based detection with a geometry-aware variational-based segmentation using B-splines that are parametrized based on a geometric model of the cell shape. The detection is done first using YOLOv5. In a second step, each detected cell is segmented individually. Thus, the segmentation only needs to be done on a per-cell basis, which makes it amenable to a variational approach that incorporates prior knowledge on the geometry. Here, the contour of the segmentation is modelled as closed uniform cubic B-spline, whose control points are parametrized using the known cell geometry. Compared to purely ML-based segmentation approaches, which need accurate segmentation maps as training data that are very laborious to produce, our method just needs bounding boxes as training data. Still, the proposed method performs on par with ML-based segmentation approaches usually used in this context. We study the performance of the proposed method on time-lapse microscopy data of Corynebacterium glutamicum.
翻訳日:2022-05-04 14:57:50 公開日:2022-05-03
# ニューラルレイディアンスフィールド(NeRF)におけるサンプリングフリー障害物勾配と反応性計画

Sampling-free obstacle gradients and reactive planning in Neural Radiance Fields (NeRF) ( http://arxiv.org/abs/2205.01389v1 )

ライセンス: Link先を確認
Michael Pantic, Cesar Cadena, Roland Siegwart and Lionel Ott(参考訳) 本研究では,ニューラルな暗黙表現,特にNeural Radiance Fields (NeRF) を幾何学的クエリや運動計画に用いることを検討する。 予め訓練したNeRFに半径の占有率を推定する能力を加えることで、ユークリッド符号距離場(ESDF)への近似を効果的に学習していることを示す。 拡張ネットワークの後方微分を用いて,RMP(Riemannian Motion Policies)フレームワークに基づく障害物回避ポリシーに統合された障害物勾配を求める。 その結果,暗黙的な表現において,非常に高速にサンプリング不要な障害物回避計画が可能となった。

This work investigates the use of Neural implicit representations, specifically Neural Radiance Fields (NeRF), for geometrical queries and motion planning. We show that by adding the capacity to infer occupancy in a radius to a pre-trained NeRF, we are effectively learning an approximation to a Euclidean Signed Distance Field (ESDF). Using backward differentiation of the augmented network, we obtain an obstacle gradient that is integrated into an obstacle avoidance policy based on the Riemannian Motion Policies (RMP) framework. Thus, our findings allow for very fast sampling-free obstacle avoidance planning in the implicit representation.
翻訳日:2022-05-04 14:55:47 公開日:2022-05-03
# 点雲の周波数選択幾何アップサンプリング

Frequency-Selective Geometry Upsampling of Point Clouds ( http://arxiv.org/abs/2205.01458v1 )

ライセンス: Link先を確認
Viktoria Heimann, Andreas Spruck, Andr\'e Kaup(参考訳) 近年,高解像度点雲の需要が増加している。 しかし、高解像度の点雲の捕獲は高価であり、しばしば低解像度データのアップサンプリングに置き換えられる。 ほとんどの最先端のメソッドは、ラスタグリッドに制限され、通常のベクトルを組み込むか、単一のユースケースのために訓練される。 点雲の表面を近似する周波数モデルを局所的に推定する周波数選択性原理を用いることを提案する。 そして、近似面に付加点を挿入する。 新しい周波数選択型幾何アップサンプリングは,2および4のスケーリング因子に対する最先端手法と比較して主観的および客観的品質の面で優れた結果を示す。 提案手法は平均して4.4倍のポイント・ツー・ポイント誤差を,2番目に優れたpu-netよりも4。

The demand for high-resolution point clouds has increased throughout the last years. However, capturing high-resolution point clouds is expensive and thus, frequently replaced by upsampling of low-resolution data. Most state-of-the-art methods are either restricted to a rastered grid, incorporate normal vectors, or are trained for a single use case. We propose to use the frequency selectivity principle, where a frequency model is estimated locally that approximates the surface of the point cloud. Then, additional points are inserted into the approximated surface. Our novel frequency-selective geometry upsampling shows superior results in terms of subjective as well as objective quality compared to state-of-the-art methods for scaling factors of 2 and 4. On average, our proposed method shows a 4.4 times smaller point-to-point error than the second best state-of-the-art PU-Net for a scale factor of 4.
翻訳日:2022-05-04 14:55:35 公開日:2022-05-03
# 分散スマートエッジセンサを用いた3次元セマンティックシーン知覚

3D Semantic Scene Perception using Distributed Smart Edge Sensors ( http://arxiv.org/abs/2205.01460v1 )

ライセンス: Link先を確認
Simon Bultmann and Sven Behnke(参考訳) 本稿では,分散スマートエッジセンサのネットワークからなる3次元セマンティックシーン認識システムを提案する。 センサーノードは、組み込みCNN推論アクセラレータとRGB-Dおよびサーマルカメラに基づいている。 オブジェクト検出、セマンティックセグメンテーション、人間のポーズ推定のための効率的な視覚CNNモデルは、デバイス上でリアルタイムで実行される。 RGB-D深度推定を付加した2次元人間のキーポイント推定と、センサから中央のバックエンドに意味的注釈付きポイントクラウドをストリームし、複数の視点を同中心の3Dセマンティックシーンモデルに融合させる。 画像解釈をローカルに計算すると、意味情報だけがネットワーク経由で送信される。 生の画像はセンサーボードに残され、必要な帯域幅を大幅に削減し、観察された人のプライバシーリスクを軽減する。 本実験では,実世界の多人数場面に挑戦して提案システムを評価する。 提案システムでは,複数の人物の3次元ポーズをリアルタイムで推定し,意味的アノテーションを付加したシーンビューを提供する。

We present a system for 3D semantic scene perception consisting of a network of distributed smart edge sensors. The sensor nodes are based on an embedded CNN inference accelerator and RGB-D and thermal cameras. Efficient vision CNN models for object detection, semantic segmentation, and human pose estimation run on-device in real time. 2D human keypoint estimations, augmented with the RGB-D depth estimate, as well as semantically annotated point clouds are streamed from the sensors to a central backend, where multiple viewpoints are fused into an allocentric 3D semantic scene model. As the image interpretation is computed locally, only semantic information is sent over the network. The raw images remain on the sensor boards, significantly reducing the required bandwidth, and mitigating privacy risks for the observed persons. We evaluate the proposed system in challenging real-world multi-person scenes in our lab. The proposed perception system provides a complete scene view containing semantically annotated 3D geometry and estimates 3D poses of multiple persons in real time.
翻訳日:2022-05-04 14:55:22 公開日:2022-05-03
# MS病変セグメンテーション:フェデレーション学習における重み付け機構の再検討

MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated Learning ( http://arxiv.org/abs/2205.01509v1 )

ライセンス: Link先を確認
Dongnan Liu, Mariano Cabezas, Dongang Wang, Zihao Tang, Lei Bai, Geng Zhan, Yuling Luo, Kain Kyle, Linda Ly, James Yu, Chun-Chien Shieh, Aria Nguyen, Ettikan Kandasamy Karuppiah, Ryan Sullivan, Fernando Calamante, Michael Barnett, Wanli Ouyang, Weidong Cai, Chenyu Wang(参考訳) フェデレーション学習(fl)は,生データを共有することなくマルチクライアント協調学習を容易にするため,医用画像解析に広く用いられている。 大きな成功にもかかわらず、FLのパフォーマンスは、異なるスキャナーと取得パラメータによって付与される病変特性のばらつきにより、多発性硬化症(MS)病変セグメンテーションタスクに制限される。 本研究では,2つの効果的な再重み付け機構を用いたFLMS病変分割フレームワークを提案する。 具体的には、そのセグメンテーション性能に基づいて、集約プロセス中に各ローカルノードに学習可能な重みを割り当てる。 また、各クライアントのセグメンテーション損失関数は、トレーニング中のデータに対する病巣容積に応じて再重み付けされる。 公共および臨床データセットを用いた2つのFLMSセグメンテーションシナリオの比較実験により,他のFL法を著しく上回る結果が得られた。 さらに,提案する集約機構を組み込んだflのセグメンテーション性能は,全生データを用いた集中トレーニングを上回ることができる。 また, 病変拡大後の脳容積差の推定において, 広範囲な評価を行った。

Federated learning (FL) has been widely employed for medical image analysis to facilitate multi-client collaborative learning without sharing raw data. Despite great success, FL's performance is limited for multiple sclerosis (MS) lesion segmentation tasks, due to variance in lesion characteristics imparted by different scanners and acquisition parameters. In this work, we propose the first FL MS lesion segmentation framework via two effective re-weighting mechanisms. Specifically, a learnable weight is assigned to each local node during the aggregation process, based on its segmentation performance. In addition, the segmentation loss function in each client is also re-weighted according to the lesion volume for the data during training. Comparison experiments on two FL MS segmentation scenarios using public and clinical datasets have demonstrated the effectiveness of the proposed method by outperforming other FL methods significantly. Furthermore, the segmentation performance of FL incorporating our proposed aggregation mechanism can exceed centralised training with all the raw data. The extensive evaluation also indicated the superiority of our method when estimating brain volume differences estimation after lesion inpainting.
翻訳日:2022-05-04 14:55:04 公開日:2022-05-03
# マルチスケールスパース畳み込み点クラウドセマンティックセグメンテーションニューラルネットワーク

Multi Scale Sparse Convolution Point Cloud Semantic Segmentation Neural Network ( http://arxiv.org/abs/2205.01550v1 )

ライセンス: Link先を確認
Yunzheng Su(参考訳) 画像処理における畳み込みニューラルネットワークの優れた性能のおかげで、点雲の非構造的性質の問題から、2次元畳み込みニューラルネットワークに基づいて点雲の特徴を抽出する。 The three-dimensional information carried in the point cloud can be converted to two-dimensional, and then processed by a two-dimensional convolutional neural network, and finally back-projected to three-dimensional.In the process of projecting 3D information to 2D and back-projection, certain information loss will inevitably be caused to the point cloud and category inconsistency will be introduced in the back-projection stage;Another solution is the voxel-based point cloud segmentation method, which divides the point cloud into small grids one by one.However, the point cloud is sparse, and the direct use of 3D convolutional neural network inevitably wastes computing resources. 本稿では,マルチスケール超スパース畳み込みに基づく特徴抽出モジュールとチャネルアテンションに基づく特徴選択モジュールを提案し,これに基づくポイントクラウドセグメンテーションネットワークフレームワークを構築し,マルチスケールスパース畳み込みを導入することにより,ネットワークは,異なるサイズのコンボリューションカーネルに基づくよりリッチな特徴情報をキャプチャし,ポイントクラウドセグメンテーションのセグメンテーション結果を改善する。

Point clouds have the characteristics of disorder, unstructured and sparseness.Aiming at the problem of the non-structural nature of point clouds, thanks to the excellent performance of convolutional neural networks in image processing, one of the solutions is to extract features from point clouds based on two-dimensional convolutional neural networks. The three-dimensional information carried in the point cloud can be converted to two-dimensional, and then processed by a two-dimensional convolutional neural network, and finally back-projected to three-dimensional.In the process of projecting 3D information to 2D and back-projection, certain information loss will inevitably be caused to the point cloud and category inconsistency will be introduced in the back-projection stage;Another solution is the voxel-based point cloud segmentation method, which divides the point cloud into small grids one by one.However, the point cloud is sparse, and the direct use of 3D convolutional neural network inevitably wastes computing resources. In this paper, we propose a feature extraction module based on multi-scale ultra-sparse convolution and a feature selection module based on channel attention, and build a point cloud segmentation network framework based on this.By introducing multi-scale sparse convolution, network could capture richer feature information based on convolution kernels of different sizes, improving the segmentation result of point cloud segmentation.
翻訳日:2022-05-04 14:54:48 公開日:2022-05-03
# 道路交差点におけるリアルタイム協調車両協調

Real-time Cooperative Vehicle Coordination at Unsignalized Road Intersections ( http://arxiv.org/abs/2205.01278v1 )

ライセンス: Link先を確認
Jiping Luo, Tingting Zhang, Rui Hao, Donglin Li, Chunsheng Chen, Zhenyu Na, and Qinyu Zhang(参考訳) 近年,連結車両と自動車両の運転安全性と交通スループットの向上を目的とした未署名道路交差点での協調作業が注目されている。 しかし、既存の調査の多くは計算の複雑さに苦しむか、道路インフラの可能性を最大限に活用できない。 この目的のために、我々はまず専用の交差点調整フレームワークを提示し、関連する車両が制御当局を手渡し、中央集権コーディネータからの指示に従う。 そして、協調運転システムの運転安全性と長期安定性を確保しつつ、交通スループットを最大化する統合協調軌道最適化問題を定式化する。 実世界の展開における重要な計算課題に対処するため、この非凸シーケンシャルな決定問題をモデルのないマルコフ決定プロセス(MDP)に再構成し、深層強化学習(DRL)フレームワークにおける双遅延深層決定主義政策勾配(TD3)に基づく戦略を考案する。 シミュレーションおよび実実験により,提案手法が準定常協調シナリオにおいてほぼ最適性能を達成し,現実的な連続交通流における交通スループットを著しく向上できることを示した。 最も顕著な利点は、我々の戦略が計算の時間的複雑さをミリ秒に短縮し、ロードレーンが増加するとスケーラブルになることです。

Cooperative coordination at unsignalized road intersections, which aims to improve the driving safety and traffic throughput for connected and automated vehicles, has attracted increasing interests in recent years. However, most existing investigations either suffer from computational complexity or cannot harness the full potential of the road infrastructure. To this end, we first present a dedicated intersection coordination framework, where the involved vehicles hand over their control authorities and follow instructions from a centralized coordinator. Then a unified cooperative trajectory optimization problem will be formulated to maximize the traffic throughput while ensuring the driving safety and long-term stability of the coordination system. To address the key computational challenges in the real-world deployment, we reformulate this non-convex sequential decision problem into a model-free Markov Decision Process (MDP) and tackle it by devising a Twin Delayed Deep Deterministic Policy Gradient (TD3)-based strategy in the deep reinforcement learning (DRL) framework. Simulation and practical experiments show that the proposed strategy could achieve near-optimal performance in sub-static coordination scenarios and significantly improve the traffic throughput in the realistic continuous traffic flow. The most remarkable advantage is that our strategy could reduce the time complexity of computation to milliseconds, and is shown scalable when the road lanes increase.
翻訳日:2022-05-04 14:54:00 公開日:2022-05-03
# 構造的コード理解のためのディープラーニングモデルの検討

A Survey of Deep Learning Models for Structural Code Understanding ( http://arxiv.org/abs/2205.01293v1 )

ライセンス: Link先を確認
Ruoting Wu, Yuxin Zhang, Qibiao Peng, Liang Chen and Zibin Zheng(参考訳) 近年、ソフトウェア産業におけるディープラーニングと自動化の要件が高まり、インテリジェントなソフトウェアエンジニアリングが新たな高みに上昇している。 コード理解におけるアプローチやアプリケーションの数は増えており、深層学習技術の多くは、コードデータの情報をよりよく捉えるために使用されている。 本稿では,コードデータから形成される構造の包括的概要について述べる。 近年のコード理解モデルについては,シーケンスベースモデルとグラフベースモデルという2つのグループに分類し,要約と比較を行った。 メトリクスやデータセット、下流タスクも導入しています。 最後に,構造コード理解分野における今後の研究について提案する。

In recent years, the rise of deep learning and automation requirements in the software industry has elevated Intelligent Software Engineering to new heights. The number of approaches and applications in code understanding is growing, with deep learning techniques being used in many of them to better capture the information in code data. In this survey, we present a comprehensive overview of the structures formed from code data. We categorize the models for understanding code in recent years into two groups: sequence-based and graph-based models, further make a summary and comparison of them. We also introduce metrics, datasets and the downstream tasks. Finally, we make some suggestions for future research in structural code understanding field.
翻訳日:2022-05-04 14:53:35 公開日:2022-05-03
# ris-noma支援マルチロボット通信のためのインテリジェント軌道設計

Intelligent Trajectory Design for RIS-NOMA aided Multi-robot Communications ( http://arxiv.org/abs/2205.01647v1 )

ライセンス: Link先を確認
Xinyu Gao, Xidong Mu, Wenqiang Yi, Yuanwei Liu(参考訳) 複数の移動ロボットが非直交多重アクセス(noma)を介してアクセスポイント(ap)によってサービスされる、新しい再構成可能なインテリジェント表面支援マルチロボットネットワークが提案されている。 本研究の目的は,ロボットの軌道とNOMA復号順序,RISの位相シフト係数,APのパワーアロケーションを共同最適化することで,ロボットの初期および最終位置と各ロボットのサービス品質(QoS)を推定することにより,マルチロボットシステムにおける軌道全体の総和率を最大化することである。 この問題を解決するために,long short-term memory (lstm)-autoregressive integrated moving average (arima) モデルと dueling double deep q-network (d$^{3}$qn) アルゴリズムを組み合わせた統合機械学習 (ml) 方式を提案する。 ロボットの初期および最終位置予測のために、LSTM-ARIMAは、非定常および非線形データ列の勾配消滅の問題を克服することができる。 位相シフト行列とロボットの軌道を共同で決定するために、D$^{3}$QNはアクション値過大評価の問題を解決するために呼び出される。 提案手法に基づいて,各ロボットは,全軌道の最大総和率に基づいて,全軌道設計における長期的利益を追求するグローバルな最適軌道を保持する。 数値的な結果は、 1)LSTM-ARIMAモデルは高精度な予測モデルを提供する。 2) 提案する d$^{3}$qn アルゴリズムは高速平均収束を実現することができる。 3)高分解能ビットのRISは低分解能ビットよりもトラジェクトリの合計レートが大きい。 4)RIS-NOMAネットワークはRIS支援直交ネットワークに比べてネットワーク性能が優れている。

A novel reconfigurable intelligent surface-aided multi-robot network is proposed, where multiple mobile robots are served by an access point (AP) through non-orthogonal multiple access (NOMA). The goal is to maximize the sum-rate of whole trajectories for multi-robot system by jointly optimizing trajectories and NOMA decoding orders of robots, phase-shift coefficients of the RIS, and the power allocation of the AP, subject to predicted initial and final positions of robots and the quality of service (QoS) of each robot. To tackle this problem, an integrated machine learning (ML) scheme is proposed, which combines long short-term memory (LSTM)-autoregressive integrated moving average (ARIMA) model and dueling double deep Q-network (D$^{3}$QN) algorithm. For initial and final position prediction for robots, the LSTM-ARIMA is able to overcome the problem of gradient vanishment of non-stationary and non-linear sequences of data. For jointly determining the phase shift matrix and robots' trajectories, D$^{3}$QN is invoked for solving the problem of action value overestimation. Based on the proposed scheme, each robot holds a global optimal trajectory based on the maximum sum-rate of a whole trajectory, which reveals that robots pursue long-term benefits for whole trajectory design. Numerical results demonstrated that: 1) LSTM-ARIMA model provides high accuracy predicting model; 2) The proposed D$^{3}$QN algorithm can achieve fast average convergence; 3) The RIS with higher resolution bits offers a bigger sum-rate of trajectories than lower resolution bits; and 4) RIS-NOMA networks have superior network performance compared to RIS-aided orthogonal counterparts.
翻訳日:2022-05-04 14:52:54 公開日:2022-05-03
# CANShield: 制御領域ネットワークにおける信号による侵入検出

CANShield: Signal-based Intrusion Detection for Controller Area Networks ( http://arxiv.org/abs/2205.01306v1 )

ライセンス: Link先を確認
Md Hasan Shahriar, Yang Xiao, Pablo Moriano, Wenjing Lou, and Y. Thomas Hou(参考訳) 現代の車両は、重要な車両制御のためにコントロールエリアネットワーク(CAN)バスを介して接続される電子制御ユニット(ECU)群に依存している。 しかし、自動車における高度な接続機能の拡大と内部システム露出のリスクの増大により、CANバスは侵入や注入攻撃の傾向が増している。 通常のインジェクション攻撃はCANデータストリームの典型的なタイミング特性を妨害し、ルールベースの侵入検知システム(IDS)はそれらを容易に検出できる。 しかし、先進的な攻撃者は、CANメッセージのパターン/周波数に無害に見えながら、時系列の知覚データ(信号)に偽データを注入することができる。 このような攻撃は、ルールベースのIDSやバイナリペイロードデータ上に構築された任意の異常ベースのIDSをバイパスすることができる。 このような知的攻撃に対して車両を堅牢化するために,CANバス用の信号ベースの侵入検知フレームワークであるCANShieldを提案する。 CANShieldは、信号レベルで高次元CANデータストリームを処理し、深層学習モデルに適合させるデータ前処理モジュール、複数の深層オートエンコーダ(AE)ネットワークからなるデータアナライザモジュール、それぞれ異なる時間的視点から時系列データを解析するデータアナライザモジュール、最後にアンサンブルメソッドを使用して最終決定を行う攻撃検出モジュールの3つのモジュールから構成される。 2つの高忠実度信号ベースcan攻撃データセットの評価結果から,canshieldの広範囲な侵入攻撃検出における精度と応答性が示された。

Modern vehicles rely on a fleet of electronic control units (ECUs) connected through controller area network (CAN) buses for critical vehicular control. However, with the expansion of advanced connectivity features in automobiles and the elevated risks of internal system exposure, the CAN bus is increasingly prone to intrusions and injection attacks. The ordinary injection attacks disrupt the typical timing properties of the CAN data stream, and the rule-based intrusion detection systems (IDS) can easily detect them. However, advanced attackers can inject false data to the time series sensory data (signal), while looking innocuous by the pattern/frequency of the CAN messages. Such attacks can bypass the rule-based IDS or any anomaly-based IDS built on binary payload data. To make the vehicles robust against such intelligent attacks, we propose CANShield, a signal-based intrusion detection framework for the CAN bus. CANShield consists of three modules: a data preprocessing module that handles the high-dimensional CAN data stream at the signal level and makes them suitable for a deep learning model; a data analyzer module consisting of multiple deep autoencoder (AE) networks, each analyzing the time-series data from a different temporal perspective; and finally an attack detection module that uses an ensemble method to make the final decision. Evaluation results on two high-fidelity signal-based CAN attack datasets show the high accuracy and responsiveness of CANShield in detecting wide-range of advanced intrusion attacks.
翻訳日:2022-05-04 14:50:58 公開日:2022-05-03
# (参考訳) 平均教師変換器を用いたクロスドメイン物体検出

Cross-Domain Object Detection with Mean-Teacher Transformer ( http://arxiv.org/abs/2205.01643v1 )

ライセンス: CC BY 4.0
Jinze Yu, Jiaming Liu, Xiaobao Wei, Haoyi Zhou, Yohei Nakata, Denis Gudovskiy, Tomoyuki Okuno, Jianxin Li, Kurt Keutzer, Shanghang Zhang(参考訳) 近年,エンドツーエンドのオブジェクト検出パイプラインであるDetection TRansformer (DETR) が有望な性能を達成した。 しかし、大規模なラベル付きデータが必要であり、特にターゲットドメインでラベル付きデータが利用できない場合、ドメインシフトに苦しむ。 この問題を解決するために,擬似ラベルを用いてドメイン間で知識を伝達する平均教師知識伝達(MTKT)に基づくエンドツーエンドのクロスドメイン検出変換器を提案する。 対象領域における擬似ラベルの品質を向上させるため,我々は,ドメインクエリに基づく機能アライメント (dqfa),bi-level-graph-based prototype alignment (bgpa),token-wise image feature alignment (tifa) という,トランスフォーマのアーキテクチャに基づく3段階のソースターゲット機能アライメント戦略を設計する。 これら3つのレベルの機能アライメントは、それぞれソースとターゲットのグローバル、ローカル、インスタンスの特徴にマッチする。 これらの戦略により、より正確な擬似ラベルを得ることができ、知識をソースからターゲットへよりよく転送できるため、検出トランスのクロスドメイン能力が向上する。 広範な実験により,提案手法が3つのドメイン適応シナリオにおいて最先端の性能を実現することを実証した。特にシム10kのシティスケープシナリオの結果は,52.6マップから57.9マップに著しく向上した。 コードはリリースされる。

Recently, DEtection TRansformer (DETR), an end-to-end object detection pipeline, has achieved promising performance. However, it requires large-scale labeled data and suffers from domain shift, especially when no labeled data is available in the target domain. To solve this problem, we propose an end-to-end cross-domain detection transformer based on the mean teacher knowledge transfer (MTKT), which transfers knowledge between domains via pseudo labels. To improve the quality of pseudo labels in the target domain, which is a crucial factor for better domain adaptation, we design three levels of source-target feature alignment strategies based on the architecture of the Transformer, including domain query-based feature alignment (DQFA), bi-level-graph-based prototype alignment (BGPA), and token-wise image feature alignment (TIFA). These three levels of feature alignment match the global, local, and instance features between source and target, respectively. With these strategies, more accurate pseudo labels can be obtained, and knowledge can be better transferred from source to target, thus improving the cross-domain capability of the detection transformer. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance on three domain adaptation scenarios, especially the result of Sim10k to Cityscapes scenario is remarkably improved from 52.6 mAP to 57.9 mAP. Code will be released.
翻訳日:2022-05-04 14:50:01 公開日:2022-05-03
# (参考訳) GeoRefine: 正確なデンスマッピングのための自己監督型オンライン奥行きリファインメント

GeoRefine: Self-Supervised Online Depth Refinement for Accurate Dense Mapping ( http://arxiv.org/abs/2205.01656v1 )

ライセンス: CC BY 4.0
Pan Ji, Qingan Yan, Yuxin Ma, and Yi Xu(参考訳) 単分子配列からの幾何的に一貫性のある高密度マッピングを実現するために,GeoRefineという,頑健で高精度な深度補正システムを提案する。 GeoRefineは3つのモジュールで構成されている: 学習ベースの事前処理を用いたハイブリッドSLAMモジュール、セルフスーパービジョンを活用したオンライン深度改善モジュール、TSDF融合によるグローバルマッピングモジュール。 提案するシステムは, 設計によってオンライン化されており, 高い堅牢性と正確性を実現している。 (i)学習型光学フロー及び/又は深度を組み込んだ強化されたハイブリッドSLAM (II)SLAM出力を利用して長期的幾何整合を強制する自己監督的損失 三 オンライン深度改善における退化事件を回避するための注意深いシステム設計。 複数の公開データセット上でGeoRefineを広範囲に評価し、絶対相対深度誤差が5\%$である。

We present a robust and accurate depth refinement system, named GeoRefine, for geometrically-consistent dense mapping from monocular sequences. GeoRefine consists of three modules: a hybrid SLAM module using learning-based priors, an online depth refinement module leveraging self-supervision, and a global mapping module via TSDF fusion. The proposed system is online by design and achieves great robustness and accuracy via: (i) a robustified hybrid SLAM that incorporates learning-based optical flow and/or depth; (ii) self-supervised losses that leverage SLAM outputs and enforce long-term geometric consistency; (iii) careful system design that avoids degenerate cases in online depth refinement. We extensively evaluate GeoRefine on multiple public datasets and reach as low as $5\%$ absolute relative depth errors.
翻訳日:2022-05-04 14:33:04 公開日:2022-05-03
# わかりやすいキーワードと暗黙的に虐待的な言葉をソーシャルメディアに隠す

Hidden behind the obvious: misleading keywords and implicitly abusive language on social media ( http://arxiv.org/abs/2205.01374v1 )

ライセンス: Link先を確認
Wenjie Yin, Arkaitz Zubiaga(参考訳) ソーシャルメディアは自己表現の自由を提供するが、虐待的な言語は大きな社会的影響をもたらす。 問題の重要性によって、虐待言語の自動検出の研究は、成長と改善を目撃している。 しかし、これらの検出モデルは、スラリーやプロファニティのような強い指示的キーワードに依存する。 つまり、1a)そのようなキーワードを使わずに誤用、または(1b)そのようなキーワードを伴わないフラグを誤用でき、(2)見当たらないデータでは性能が低下する。 これらの問題の認識にもかかわらず、ギャップと矛盾は文献に残されている。 本研究では,データセット構築からモデル行動へのキーワードの影響を詳細に分析し,モデルが (1a) と (1b) をどのようにミスするか, (1a) と (1b) が (2) とどのように相互作用するかに注目した。 分析を通じて,3つの問題すべてに対処するための今後の研究への提案を行う。

While social media offers freedom of self-expression, abusive language carry significant negative social impact. Driven by the importance of the issue, research in the automated detection of abusive language has witnessed growth and improvement. However, these detection models display a reliance on strongly indicative keywords, such as slurs and profanity. This means that they can falsely (1a) miss abuse without such keywords or (1b) flag non-abuse with such keywords, and that (2) they perform poorly on unseen data. Despite the recognition of these problems, gaps and inconsistencies remain in the literature. In this study, we analyse the impact of keywords from dataset construction to model behaviour in detail, with a focus on how models make mistakes on (1a) and (1b), and how (1a) and (1b) interact with (2). Through the analysis, we provide suggestions for future research to address all three problems.
翻訳日:2022-05-04 14:31:16 公開日:2022-05-03
# fedrn: k-reliable neighborsを堅牢な連合学習に活用する

FedRN: Exploiting k-Reliable Neighbors Towards Robust Federated Learning ( http://arxiv.org/abs/2205.01310v1 )

ライセンス: Link先を確認
SangMook Kim, Wonyoung Shin, Soohyuk Jang, Hwanjun Song, Se-Young Yun(参考訳) それぞれのクライアントのデータ収集プロセスには、ノイズの多いラベルが自然に伴っているため、堅牢性は連合学習の重要な課題となっている。 しかし、クライアント上のさまざまなレベルのデータの均一性とノイズにより、クライアントからクライアントへのパフォーマンスの相違が悪化するため、はるかに複雑で難しい。 本研究では,k-reliable neighbors with high data expertise or similarity(k-reliable neighbors)を利用する,FedRNと呼ばれる堅牢なフェデレーション学習手法を提案する。 本手法は, 組み合わされた混合モデルによって識別されたクリーンなサンプルセットのみをトレーニングすることで, 低性能クライアントと高性能クライアントのギャップを緩和する。 3つの実世界または合成ベンチマークデータセットの広範な評価を通じて、federnの優位性を実証する。 既存の頑健なトレーニング手法と比較して,FedRNはノイズラベルの存在下でテスト精度を著しく向上することが示された。

Robustness is becoming another important challenge of federated learning in that the data collection process in each client is naturally accompanied by noisy labels. However, it is far more complex and challenging owing to varying levels of data heterogeneity and noise over clients, which exacerbates the client-to-client performance discrepancy. In this work, we propose a robust federated learning method called FedRN, which exploits k-reliable neighbors with high data expertise or similarity. Our method helps mitigate the gap between low- and high-performance clients by training only with a selected set of clean examples, identified by their ensembled mixture models. We demonstrate the superiority of FedRN via extensive evaluations on three real-world or synthetic benchmark datasets. Compared with existing robust training methods, the results show that FedRN significantly improves the test accuracy in the presence of noisy labels.
翻訳日:2022-05-04 14:30:29 公開日:2022-05-03
# TracInAD:異常検出への影響の測定

TracInAD: Measuring Influence for Anomaly Detection ( http://arxiv.org/abs/2205.01362v1 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Li\^en Doan and Fabrice Daniel(参考訳) 他の多くのタスクと同様に、ニューラルネットワークは異常検出に非常に効果的である。 しかし、テーブル型データセットで異常を検出するのに適したディープラーニングモデルはほとんどない。 本稿では,本研究で最初に導入したインフルエンス指標であるtracinに基づく異常をフラグする新しい手法を提案する。 提案手法は, 教師なし深部異常検出手法の強化に有効である。 提案手法は変動型オートエンコーダを用いてテストし,実験点に対する訓練点のサブサンプルの平均的影響が異常の指標となりうることを示した。 我々のモデルは、最先端のアプローチと比較して競争力があることを証明している。医療およびサイバーセキュリティの表型ベンチマークデータに対する検出精度において、同等またはより良いパフォーマンスを達成する。

As with many other tasks, neural networks prove very effective for anomaly detection purposes. However, very few deep-learning models are suited for detecting anomalies on tabular datasets. This paper proposes a novel methodology to flag anomalies based on TracIn, an influence measure initially introduced for explicability purposes. The proposed methods can serve to augment any unsupervised deep anomaly detection method. We test our approach using Variational Autoencoders and show that the average influence of a subsample of training points on a test point can serve as a proxy for abnormality. Our model proves to be competitive in comparison with state-of-the-art approaches: it achieves comparable or better performance in terms of detection accuracy on medical and cyber-security tabular benchmark data.
翻訳日:2022-05-04 14:30:13 公開日:2022-05-03
# (参考訳) 生成済みアーティストによるエンド・ツー・エンドのビジュアル編集

End-to-End Visual Editing with a Generatively Pre-Trained Artist ( http://arxiv.org/abs/2205.01668v1 )

ライセンス: CC BY 4.0
Andrew Brown, Cheng-Yang Fu, Omkar Parkhi, Tamara L. Berg, Andrea Vedaldi(参考訳) 対象画像編集の問題として、ソース画像内の領域と、所望の変化を示すドライバ画像とをブレンドする。 先行研究とは違って,編集の条件付き確率分布をエンドツーエンドで学習することで,この問題を解消する。 このようなモデルのトレーニングには、基本的な技術的課題に対処する必要がある。 そこで本研究では,対象領域の既定画像の付加により編集をシミュレートする自己教師付き手法を提案する。 最先端のオートリグレッシブトランスフォーマーとして実装されたこのアプローチは単純であり、ganライクなプリミティブに基づいた以前のメソッドの難しさを回避し、編集が大幅に改善され、効率的です。 さらに,モデルアーキテクチャに他の変更を加えることなく,拡張プロセスの直感的な制御によって異なるブレンディング効果を学習できることを示した。 我々は、人間の研究を含む広範囲な量的および質的な実験において、複数のデータセットにまたがるこのアプローチの優位性を実証した。

We consider the targeted image editing problem: blending a region in a source image with a driver image that specifies the desired change. Differently from prior works, we solve this problem by learning a conditional probability distribution of the edits, end-to-end. Training such a model requires addressing a fundamental technical challenge: the lack of example edits for training. To this end, we propose a self-supervised approach that simulates edits by augmenting off-the-shelf images in a target domain. The benefits are remarkable: implemented as a state-of-the-art auto-regressive transformer, our approach is simple, sidesteps difficulties with previous methods based on GAN-like priors, obtains significantly better edits, and is efficient. Furthermore, we show that different blending effects can be learned by an intuitive control of the augmentation process, with no other changes required to the model architecture. We demonstrate the superiority of this approach across several datasets in extensive quantitative and qualitative experiments, including human studies, significantly outperforming prior work.
翻訳日:2022-05-04 14:28:23 公開日:2022-05-03
# Lite Pose: 人間の2次元姿勢推定のための効率的なアーキテクチャ設計

Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation ( http://arxiv.org/abs/2205.01271v1 )

ライセンス: Link先を確認
Yihan Wang, Muyang Li, Han Cai, Wei-Ming Chen, and Song Han(参考訳) ポーズ推定は、人間中心の視覚応用において重要な役割を果たす。 しかし、計算コストが高い(フレーム当たり150GMAC以上)ため、最先端のHRNetベースのポーズ推定モデルをリソース制約エッジデバイスに展開することは困難である。 本稿では,エッジ上でのリアルタイム多人数ポーズ推定のための効率的なアーキテクチャ設計について検討する。 HRNetの高分解能分岐は、段階的に縮小する実験を通して低計算領域のモデルに対して冗長であることを明らかにした。 取り除くことで効率と性能が向上する。 この発見に触発されて、ポーズ推定のための効率的なシングルブランチアーキテクチャであるLitePoseを設計し、Fusion Deconv HeadとLarge Kernel Convsを含むLitePoseのキャパシティを向上させるための2つの簡単なアプローチを導入する。 fusion deconvヘッドは高解像度ブランチの冗長性を取り除き、オーバーヘッドの低いスケールアウェア機能融合を可能にする。 大きなカーネル・コンブは、計算コストを低く保ちながら、モデルの容量と受容領域を大幅に改善した。 25%の計算インクリメントで、7x7カーネルはクラウドポスデータセットの3x3カーネルよりも+14.0のマップを実現できる。 モバイルプラットフォームでは、従来の最先端の効率的なポーズ推定モデルと比較して、LitePoseはパフォーマンスを犠牲にすることなく、レイテンシを最大5.0倍に削減し、リアルタイム多人数ポーズ推定のフロンティアをエッジにプッシュする。 私たちのコードとトレーニング済みモデルはhttps://github.com/mit-han-lab/liteposeでリリースしています。

Pose estimation plays a critical role in human-centered vision applications. However, it is difficult to deploy state-of-the-art HRNet-based pose estimation models on resource-constrained edge devices due to the high computational cost (more than 150 GMACs per frame). In this paper, we study efficient architecture design for real-time multi-person pose estimation on edge. We reveal that HRNet's high-resolution branches are redundant for models at the low-computation region via our gradual shrinking experiments. Removing them improves both efficiency and performance. Inspired by this finding, we design LitePose, an efficient single-branch architecture for pose estimation, and introduce two simple approaches to enhance the capacity of LitePose, including Fusion Deconv Head and Large Kernel Convs. Fusion Deconv Head removes the redundancy in high-resolution branches, allowing scale-aware feature fusion with low overhead. Large Kernel Convs significantly improve the model's capacity and receptive field while maintaining a low computational cost. With only 25% computation increment, 7x7 kernels achieve +14.0 mAP better than 3x3 kernels on the CrowdPose dataset. On mobile platforms, LitePose reduces the latency by up to 5.0x without sacrificing performance, compared with prior state-of-the-art efficient pose estimation models, pushing the frontier of real-time multi-person pose estimation on edge. Our code and pre-trained models are released at https://github.com/mit-han-lab/litepose.
翻訳日:2022-05-04 14:25:47 公開日:2022-05-03
# 二重分岐蒸留によるクロスドメイン物体検出

Cross Domain Object Detection by Target-Perceived Dual Branch Distillation ( http://arxiv.org/abs/2205.01291v1 )

ライセンス: Link先を確認
Mengzhe He, Yali Wang, Jiaxi Wu, Yiru Wang, Hanqing Li, Bo Li, Weihao Gan, Wei Wu, Yu Qiao(参考訳) クロスドメインオブジェクト検出は、現実的には現実的で挑戦的なタスクです。 データ分散の大きなシフトと、ターゲットドメインにおけるインスタンスレベルのアノテーションの欠如により、パフォーマンスが低下する。 既存のアプローチは主に、クロスドメインオブジェクト検出に密結合しているにもかかわらず、これらの2つの困難のいずれかに焦点を当てています。 この問題を解決するために, 新規な目標パーセプション型デュアルブランチ蒸留(tdd)フレームワークを提案する。 情報源と対象ドメインの両方の検出ブランチを統合学習方式に統合することにより、ドメインシフトを低減し、信頼性の高い監視を効果的に生成することができる。 特に、まず2つのドメイン間で異なるターゲット提案受理器を導入する。 反復的クロスアテンションからターゲット提案コンテキストを活用することにより、対象画像内のオブジェクトを知覚するソース検出器を適応的に強化することができる。 その後, 2つの分野の自己蒸留を通じて, 異なる領域からの補完的対象知識を段階的に統合できるモデル学習のための簡潔な二重分岐自己蒸留戦略を考案する。 最後に、クロスドメインオブジェクト検出において広く使われているシナリオを広範囲に実験する。 その結果、TDDはすべてのベンチマークで最先端のメソッドよりも大幅に優れています。 私たちのコードとモデルはhttps://github.com/Feobi 1999/TDDで公開されます。

Cross domain object detection is a realistic and challenging task in the wild. It suffers from performance degradation due to large shift of data distributions and lack of instance-level annotations in the target domain. Existing approaches mainly focus on either of these two difficulties, even though they are closely coupled in cross domain object detection. To solve this problem, we propose a novel Target-perceived Dual-branch Distillation (TDD) framework. By integrating detection branches of both source and target domains in a unified teacher-student learning scheme, it can reduce domain shift and generate reliable supervision effectively. In particular, we first introduce a distinct Target Proposal Perceiver between two domains. It can adaptively enhance source detector to perceive objects in a target image, by leveraging target proposal contexts from iterative cross-attention. Afterwards, we design a concise Dual Branch Self Distillation strategy for model training, which can progressively integrate complementary object knowledge from different domains via self-distillation in two branches. Finally, we conduct extensive experiments on a number of widely-used scenarios in cross domain object detection. The results show that our TDD significantly outperforms the state-of-the-art methods on all the benchmarks. Our code and model will be available at https://github.com/Feobi1999/TDD.
翻訳日:2022-05-04 14:25:23 公開日:2022-05-03
# 深層学習のための画像拡張技術の包括的調査

A Comprehensive Survey of Image Augmentation Techniques for Deep Learning ( http://arxiv.org/abs/2205.01491v1 )

ライセンス: Link先を確認
Mingle Xu and Sook Yoon and Alvaro Fuentes and Dong Sun Park(参考訳) ディープラーニングは、大量の画像を必要とするコンピュータビジョンでまともなパフォーマンスを達成しているが、画像の収集は多くのシナリオにおいて高価で困難である。 この問題を解決するために、多くの画像拡張アルゴリズムが効率的かつ効率的な戦略として提案されている。 現在のアルゴリズムを理解することは、与えられたタスクに適した方法を見つけたり、新しい技術を開発するのに不可欠である。 本稿では,深層学習のための画像拡張に関する包括的調査を行い,新しい情報的分類法を提案する。 画像拡張がなぜ必要かという基本的な理解を得るために,コンピュータビジョンタスクと周辺分布における課題を紹介する。 次に、アルゴリズムはモデルフリー、モデルベース、ポリシーベース最適化の3つのカテゴリに分けられる。 モデルフリーカテゴリは画像処理手法を、モデルベースカテゴリはトレーニング可能な画像生成モデルを利用する。 対照的に、ポリシーベースアプローチの最適化は、最適なオペレーションやそれらの組み合わせを見つけることを目的としている。 さらに,よりアクティブなトピックとして,グループやカーネル理論などの画像拡張の理解方法の相違,教師なし学習のための画像拡張の展開など,共通アプリケーションの現状について論じる。 この分析から,本調査は,実践的な応用に最適な手法の選択や,新しいアルゴリズムの設計に有効であると考えられる。

Deep learning has been achieving decent performance in computer vision requiring a large volume of images, however, collecting images is expensive and difficult in many scenarios. To alleviate this issue, many image augmentation algorithms have been proposed as effective and efficient strategies. Understanding current algorithms is essential to find suitable methods or develop novel techniques for given tasks. In this paper, we perform a comprehensive survey on image augmentation for deep learning with a novel informative taxonomy. To get the basic idea why we need image augmentation, we introduce the challenges in computer vision tasks and vicinity distribution. Then, the algorithms are split into three categories; model-free, model-based, and optimizing policy-based. The model-free category employs image processing methods while the model-based method leverages trainable image generation models. In contrast, the optimizing policy-based approach aims to find the optimal operations or their combinations. Furthermore, we discuss the current trend of common applications with two more active topics, leveraging different ways to understand image augmentation, such as group and kernel theory, and deploying image augmentation for unsupervised learning. Based on the analysis, we believe that our survey gives a better understanding helpful to choose suitable methods or design novel algorithms for practical applications.
翻訳日:2022-05-04 14:25:04 公開日:2022-05-03
# 車載監視における複合物体検出・意味セグメンテーション・人間のポーズ推定のためのマルチタスクネットワーク

Multitask Network for Joint Object Detection, Semantic Segmentation and Human Pose Estimation in Vehicle Occupancy Monitoring ( http://arxiv.org/abs/2205.01515v1 )

ライセンス: Link先を確認
Nikolas Ebert, Patrick Mangat, Oliver Wasenm\"uller(参考訳) 安全な自動運転を確保するためには、車両内および周辺環境に関する正確な情報が必要である。 そのため、車両内の乗員や物体の監視は極めて重要である。 最先端では、オブジェクト認識、セマンティックセグメンテーション、または人間のポーズ推定に単一または複数のディープニューラルネットワークが使用される。 これとは対照的に,我々は,これらの3つのタスクを,占有監視領域で共同で解決する最初のマルチタスクネットワークであるMDSP(Multitask Detection, Segmentation and Pose Estimation Network)を提案する。 共有アーキテクチャのため、メモリとコンピューティングのコストは高い精度を実現しながら節約できる。 さらに,我々のアーキテクチャでは,簡単なエンドツーエンドトレーニングで3つのタスクを柔軟に組み合わせられる。 本研究では,公開データセットSVIROとTiCaMの総合評価を行い,優れた性能を示す。

In order to ensure safe autonomous driving, precise information about the conditions in and around the vehicle must be available. Accordingly, the monitoring of occupants and objects inside the vehicle is crucial. In the state-of-the-art, single or multiple deep neural networks are used for either object recognition, semantic segmentation, or human pose estimation. In contrast, we propose our Multitask Detection, Segmentation and Pose Estimation Network (MDSP) -- the first multitask network solving all these three tasks jointly in the area of occupancy monitoring. Due to the shared architecture, memory and computing costs can be saved while achieving higher accuracy. Furthermore, our architecture allows a flexible combination of the three mentioned tasks during a simple end-to-end training. We perform comprehensive evaluations on the public datasets SVIRO and TiCaM in order to demonstrate the superior performance.
翻訳日:2022-05-04 14:24:45 公開日:2022-05-03
# マスク生成蒸留

Masked Generative Distillation ( http://arxiv.org/abs/2205.01529v1 )

ライセンス: Link先を確認
Zhendong Yang, Zhe Li, Mingqi Shao, Dachuan Shi, Zehuan Yuan, Chun Yuan(参考訳) 知識蒸留は様々なタスクにうまく適用されている。 現在の蒸留アルゴリズムは、通常、教師の出力を模倣して生徒のパフォーマンスを向上させる。 本稿では,教師が生徒の特徴回復を指導することで,生徒の表現力を向上できることを示す。 この観点からは,学生の特徴のランダムな画素をマスキングし,教師の完全な特徴を単純なブロックで生成させる,マスク生成蒸留(mgd)を提案する。 MGDは, 画像分類, オブジェクト検出, セマンティックセグメンテーション, インスタンスセグメンテーションなど, 様々なタスクに利用することができる, 真の汎用的特徴ベース蒸留法である。 広範囲なデータセットで異なるモデルで実験を行い、その結果、すべての学生が優れた改善を達成できたことを示す。 特に、ResNet-18を69.90%から71.69%に、ImageNet top-1精度、ResNet-50バックボーンを37.4から41.0に、SoLOを33.1から36.2に、Mask mAPを36.2に、DeepLabV3を73.20から76.02 mIoUに強化しました。 私たちのコードはhttps://github.com/yzd-v/mgdで利用可能です。

Knowledge distillation has been applied to various tasks successfully. The current distillation algorithm usually improves students' performance by imitating the output of the teacher. This paper shows that teachers can also improve students' representation power by guiding students' feature recovery. From this point of view, we propose Masked Generative Distillation (MGD), which is simple: we mask random pixels of the student's feature and force it to generate the teacher's full feature through a simple block. MGD is a truly general feature-based distillation method, which can be utilized on various tasks, including image classification, object detection, semantic segmentation and instance segmentation. We experiment on different models with extensive datasets and the results show that all the students achieve excellent improvements. Notably, we boost ResNet-18 from 69.90% to 71.69% ImageNet top-1 accuracy, RetinaNet with ResNet-50 backbone from 37.4 to 41.0 Boundingbox mAP, SOLO based on ResNet-50 from 33.1 to 36.2 Mask mAP and DeepLabV3 based on ResNet-18 from 73.20 to 76.02 mIoU. Our codes are available at https://github.com/yzd-v/MGD.
翻訳日:2022-05-04 14:23:29 公開日:2022-05-03
# クロスビュー・クロスシーン・マルチビュー・クラウドカウント

Cross-View Cross-Scene Multi-View Crowd Counting ( http://arxiv.org/abs/2205.01551v1 )

ライセンス: Link先を確認
Qi Zhang, Wei Lin, Antoni B. Chan(参考訳) マルチビュー・群衆計数法は,複数カメラを用いて1台のカメラの視野を拡大し,シーン内のより多くの人を捕捉し,隠蔽された人や低解像度の人のカウント性能を向上させることが提案されている。 しかし、現在のマルチビュー・パラダイム・トレインとテストは同じシーンとカメラ・ビューで行われ、実用性は制限されている。 本稿では,任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウントパラダイムを提案する。 シーン下での最適視界融合とカメラレイアウト変化, カメラキャリブレーション誤差や誤特徴による非対応ノイズの問題を動的に処理するために, カメラレイアウト形状を用いて複数のビューを注意深く選択・融合するCVCSモデルと, 非対応誤差を扱うようにモデルを訓練するノイズビュー正規化手法を提案する。 また,多数のシーンとカメラビューを持つ大規模な合成マルチカメラ群数データセットを生成し,可能なバリエーションをキャプチャすることで,このような大規模なデータセットの収集と注釈付けの困難さを回避した。 次に、教師なしドメイン転送を用いて、実際のマルチビューカウントデータセット上でトレーニングされたCVCSモデルをテストする。 合成データに基づいてトレーニングされたCVCSモデルは、実データのみに基づいてトレーニングされた同じモデルより優れており、同一のシーンでトレーニングおよびテストを行う完全に教師された方法と比較して、有望な性能を達成する。

Multi-view crowd counting has been previously proposed to utilize multi-cameras to extend the field-of-view of a single camera, capturing more people in the scene, and improve counting performance for occluded people or those in low resolution. However, the current multi-view paradigm trains and tests on the same single scene and camera-views, which limits its practical application. In this paper, we propose a cross-view cross-scene (CVCS) multi-view crowd counting paradigm, where the training and testing occur on different scenes with arbitrary camera layouts. To dynamically handle the challenge of optimal view fusion under scene and camera layout change and non-correspondence noise due to camera calibration errors or erroneous features, we propose a CVCS model that attentively selects and fuses multiple views together using camera layout geometry, and a noise view regularization method to train the model to handle non-correspondence errors. We also generate a large synthetic multi-camera crowd counting dataset with a large number of scenes and camera views to capture many possible variations, which avoids the difficulty of collecting and annotating such a large real dataset. We then test our trained CVCS model on real multi-view counting datasets, by using unsupervised domain transfer. The proposed CVCS model trained on synthetic data outperforms the same model trained only on real data, and achieves promising performance compared to fully supervised methods that train and test on the same single scene.
翻訳日:2022-05-04 14:23:01 公開日:2022-05-03
# ImageNet-1k のプレーン ViT ベースラインの改善

Better plain ViT baselines for ImageNet-1k ( http://arxiv.org/abs/2205.01580v1 )

ライセンス: Link先を確認
Lucas Beyer, Xiaohua Zhai, Alexander Kolesnikov(参考訳) Vision Transformer モデルは ImageNet-1k スケールのデータに精通するために高度な正規化技術を必要とすることが一般的である。 驚いたことに、これは正しくなく、標準のデータ拡張だけでは十分である。 このノートは、オリジナルのViT(Vision Transformer)バニラトレーニング設定にいくつかの小さな変更を加え、平易なViTモデルの性能を劇的に改善した。 tpuv3-8では、90エポックのトレーニングが7時間以内に76%のtop-1精度を越え、従来のresnet50ベースラインと同様、300エポックのトレーニングは1日未満で80%に達する。

It is commonly accepted that the Vision Transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation is sufficient. This note presents a few minor modifications to the original Vision Transformer (ViT) vanilla training setting that dramatically improve the performance of plain ViT models. Notably, 90 epochs of training surpass 76% top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.
翻訳日:2022-05-04 14:22:32 公開日:2022-05-03
# クロススペクトル顔認識のための双方向変換ネットワーク

A Bidirectional Conversion Network for Cross-Spectral Face Recognition ( http://arxiv.org/abs/2205.01595v1 )

ライセンス: Link先を確認
Zhicheng Cao, Jiaxuan Zhang, Liaojun Pang(参考訳) 赤外線(IR)帯域における顔の認識は、暗黒光、強い透過性、夜間、雨、霧などの厳しい環境下での撮像能力などの利点により、可視光の認識にとって重要な補助となる。 しかし、可視光と赤外線画像の劇的な違いと、ペアのトレーニングデータの欠如により、クロススペクトル顔認識(すなわちVISからIR)は非常に困難である。 本稿では、異種顔画像間の双方向クロススペクトル変換(BCSC-GAN)の枠組みを提案し、情報融合理論に基づく適応重み付き融合機構を設計する。 ネットワークは、クロススペクトル認識問題をスペクトル内問題に還元し、双方向情報を用いて性能を向上させる。 具体的には、顔のアイデンティティ保持モジュール(IRM)に、識別特性を保存できる機能を導入し、異なるスペクトル特性によるモード差を克服するために、新しい複合損失関数を設計する。 ティンダーとcasiaの2つのデータセットをテストし,fidの性能指標,認識率,誤差率,正規化距離を比較した。 その結果,提案ネットワークは他の最先端手法よりも優れていることがわかった。 さらに, 自己適応型重み付き融合 (sawf) のルールは, 一般に用いられる非融解例や従来型融合規則の認識結果よりも優れており, 提案する双方向変換手法の有効性と優位性をさらに正当化している。

Face recognition in the infrared (IR) band has become an important supplement to visible light face recognition due to its advantages of independent background light, strong penetration, ability of imaging under harsh environments such as nighttime, rain and fog. However, cross-spectral face recognition (i.e., VIS to IR) is very challenging due to the dramatic difference between the visible light and IR imageries as well as the lack of paired training data. This paper proposes a framework of bidirectional cross-spectral conversion (BCSC-GAN) between the heterogeneous face images, and designs an adaptive weighted fusion mechanism based on information fusion theory. The network reduces the cross-spectral recognition problem into an intra-spectral problem, and improves performance by fusing bidirectional information. Specifically, a face identity retaining module (IRM) is introduced with the ability to preserve identity features, and a new composite loss function is designed to overcome the modal differences caused by different spectral characteristics. Two datasets of TINDERS and CASIA were tested, where performance metrics of FID, recognition rate, equal error rate and normalized distance were compared. Results show that our proposed network is superior than other state-of-the-art methods. Additionally, the proposed rule of Self Adaptive Weighted Fusion (SAWF) is better than the recognition results of the unfused case and other traditional fusion rules that are commonly used, which further justifies the effectiveness and superiority of the proposed bidirectional conversion approach.
翻訳日:2022-05-04 14:22:20 公開日:2022-05-03
# ゼロショット行動認識のためのクロスモーダル表現学習

Cross-modal Representation Learning for Zero-shot Action Recognition ( http://arxiv.org/abs/2205.01657v1 )

ライセンス: Link先を確認
Chung-Ching Lin, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu(参考訳) 本稿では,ゼロショット動作認識(zsar)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマティブフレームワークを提案する。 我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。 モデル設計は、視覚的および意味的表現を共有知識空間で学習するための自然なメカニズムを提供する。 ゼロショット推論では,目に見えるクラスと目に見えないクラス間の意味的関連情報を複合的な視覚プロトタイプに組み込む単純な意味伝達スキームを考案する。 したがって、視覚構造における識別的特徴を保存し、情報損失、意味ギャップ、ハブネス問題の典型的なゼロショット問題を軽減するために活用することができる。 追加データセットの事前トレーニングを行わない厳密なゼロショット設定の下で,実験結果から,本モデルはzsarのarts状態において大幅に改善され,utf101,hmdb51, activitynetベンチマークデータセットにおいてtop-1精度が高まることが示された。 コードは利用可能になる。

We present a cross-modal Transformer-based framework, which jointly encodes video data and text labels for zero-shot action recognition (ZSAR). Our model employs a conceptually new pipeline by which visual representations are learned in conjunction with visual-semantic associations in an end-to-end manner. The model design provides a natural mechanism for visual and semantic representations to be learned in a shared knowledge space, whereby it encourages the learned visual embedding to be discriminative and more semantically consistent. In zero-shot inference, we devise a simple semantic transfer scheme that embeds semantic relatedness information between seen and unseen classes to composite unseen visual prototypes. Accordingly, the discriminative features in the visual structure could be preserved and exploited to alleviate the typical zero-shot issues of information loss, semantic gap, and the hubness problem. Under a rigorous zero-shot setting of not pre-training on additional datasets, the experiment results show our model considerably improves upon the state of the arts in ZSAR, reaching encouraging top-1 accuracy on UCF101, HMDB51, and ActivityNet benchmark datasets. Code will be made available.
翻訳日:2022-05-04 14:21:56 公開日:2022-05-03
# DANBO: グラフニューラルネットワークによる遠方関節型ニューラルネットワーク表現

DANBO: Disentangled Articulated Neural Body Representations via Graph Neural Networks ( http://arxiv.org/abs/2205.01666v1 )

ライセンス: Link先を確認
Shih-Yang Su, Timur Bagautdinov, Helge Rhodin(参考訳) 深層学習は、3Dスキャン、テンプレートメッシュ、マルチビュー画像の集合から幾何学と外観を学ぶことによって、アニマタブルな人間モデルのリアリズムを大幅に改善した。 高解像度モデルは写真リアリスティックなアバターを可能にするが、エンドユーザーには利用できないスタジオ設定を必要とするコストがかかる。 私たちの目標は、高価なスタジオ設定や表面追跡に頼ることなく、生の画像から直接アバターを作ることです。 このようなアプローチはいくつか存在するが、一般化能力は限られており、無関係な身体部分間の急激な(チャンス)相関を学習する傾向があるため、不明瞭な変形や、見えないポーズの身体部分の欠落が生じる。 本稿では,2つの帰納バイアスを誘導する3段階の手法を提案する。 まず,身体部位の相関をグラフニューラルネットワークと明示的にモデル化する。 第2に, 確率相関の効果をさらに下げるために, 因子化された体積表現と新しい集計関数を用いた骨単位の局所化特徴を導入する。 本モデルでは,難解なポーズで現実的な身体形状を再現し,高品質な画像合成を示す。 提案する表現は,競合する手法よりもモデルキャパシティ,表現性,堅牢性とのトレードオフが優れている。 プロジェクトサイト: https://lemonatsu.github.io/danbo。

Deep learning greatly improved the realism of animatable human models by learning geometry and appearance from collections of 3D scans, template meshes, and multi-view imagery. High-resolution models enable photo-realistic avatars but at the cost of requiring studio settings not available to end users. Our goal is to create avatars directly from raw images without relying on expensive studio setups and surface tracking. While a few such approaches exist, those have limited generalization capabilities and are prone to learning spurious (chance) correlations between irrelevant body parts, resulting in implausible deformations and missing body parts on unseen poses. We introduce a three-stage method that induces two inductive biases to better disentangled pose-dependent deformation. First, we model correlations of body parts explicitly with a graph neural network. Second, to further reduce the effect of chance correlations, we introduce localized per-bone features that use a factorized volumetric representation and a new aggregation function. We demonstrate that our model produces realistic body shapes under challenging unseen poses and shows high-quality image synthesis. Our proposed representation strikes a better trade-off between model capacity, expressiveness, and robustness than competing methods. Project website: https://lemonatsu.github.io/danbo.
翻訳日:2022-05-04 14:21:35 公開日:2022-05-03
# (参考訳) OmniKnight:言語特異的自己蒸留を用いた多言語ニューラルマシン翻訳

OmniKnight: Multilingual Neural Machine Translation with Language-Specific Self-Distillation ( http://arxiv.org/abs/2205.01620v1 )

ライセンス: CC BY 4.0
Yichong Huang and Xiaocheng Feng and Xinwei Geng and Bing Qin(参考訳) オールインワンモデル多言語ニューラルネットワーク翻訳(MNMT)は近年顕著な進歩を遂げているが、その選択された全体的なチェックポイントは、すべての言語ペアで最高のパフォーマンスを達成できなかった。 それは、個々の言語ペア(すなわち言語固有のベストチェックポイント)のベストチェックポイントが、異なるエポックに散らばっているからである。 本稿では,言語固有の最良チェックポイントと全体的な最良チェックポイントのギャップを埋めるための,Language-Specific Self-Distillation (LSSD)と呼ばれる新たなトレーニング戦略を提案する。 詳しくは、各言語固有のベストチェックポイントを教師として、全体的なベストチェックポイントを蒸留する。 さらに, 静的, 選択的, 適応的に蒸留を行う3種類のlssdを体系的に検討した。 広く使われている2つのベンチマークにおける実験結果から、lssdはすべての言語対に対して一貫した改善を達成し、最先端を達成することが示されている。

Although all-in-one-model multilingual neural machine translation (MNMT) has achieved remarkable progress in recent years, its selected best overall checkpoint fails to achieve the best performance simultaneously in all language pairs. It is because that the best checkpoints for each individual language pair (i.e., language-specific best checkpoints) scatter in different epochs. In this paper, we present a novel training strategy dubbed Language-Specific Self-Distillation (LSSD) for bridging the gap between language-specific best checkpoints and the overall best checkpoint. In detail, we regard each language-specific best checkpoint as a teacher to distill the overall best checkpoint. Moreover, we systematically explore three variants of our LSSD, which perform distillation statically, selectively, and adaptively. Experimental results on two widely-used benchmarks show that LSSD obtains consistent improvements towards all language pairs and achieves the state-of-the-art
翻訳日:2022-05-04 14:19:25 公開日:2022-05-03
# 点雲内における航空機歯列の自動分割

Automatic Segmentation of Aircraft Dents in Point Clouds ( http://arxiv.org/abs/2205.01614v1 )

ライセンス: Link先を確認
Pasquale Lafiosca and Ip-Shing Fan and Nicolas P. Avdelidis(参考訳) 航空機の皮膚の象牙は頻繁であり、検査プロセスは退屈で、人的要因や環境条件に非常に左右されるため、空力チェックの間は容易に検出されない可能性がある。 今日では、より信頼性が高く、人間に依存しない計測のために3Dスキャン技術が提案されているが、データ取得と検証はまだエンジニアによって行われているため、検査と報告のプロセスは残酷で時間を要する。 デント検査の完全自動化のためには、取得したポイントクラウドデータは信頼できるセグメンテーションアルゴリズムによって分析され、人間を損傷の探索と評価から解放する必要がある。 自動歯列検査における2つの進歩について報告する。 1つ目は、完全畳み込みニューラルネットワークを訓練するために、デント面の合成データセットを生成する方法である。 機械学習アルゴリズムのトレーニングには大量のデントデータが必要であるが、すぐには利用できない。 したがって、デントはボーイング737の構造修理マニュアルの基準と定義の中でランダムな位置と形状でシミュレートされる。 そして、スキャン装置からの雑音分布を加算し、トレーニングにおける3Dポイント取得の完了過程を反映する。 2つ目の提案は、3Dポイントの雲を2.5Dに変換する表面フィッティング戦略である。 これにより、3Dサンプリング手法を含む最先端の手法と比較して、高解像度の点雲を少量のメモリで処理できる。 地上真実データを用いたシミュレーションにより,提案手法が80%以上の交叉結合に達することが示された。 デント試料に対する実験は、毎秒50万ポイント以上の速度でデントを効果的に検出することを証明する。

Dents on the aircraft skin are frequent and may easily go undetected during airworthiness checks, as their inspection process is tedious and extremely subject to human factors and environmental conditions. Nowadays, 3D scanning technologies are being proposed for more reliable, human-independent measurements, yet the process of inspection and reporting remains laborious and time consuming because data acquisition and validation are still carried out by the engineer. For full automation of dent inspection, the acquired point cloud data must be analysed via a reliable segmentation algorithm, releasing humans from the search and evaluation of damage. This paper reports on two developments towards automated dent inspection. The first is a method to generate a synthetic dataset of dented surfaces to train a fully convolutional neural network. The training of machine learning algorithms needs a substantial volume of dent data, which is not readily available. Dents are thus simulated in random positions and shapes, within criteria and definitions of a Boeing 737 structural repair manual. The noise distribution from the scanning apparatus is then added to reflect the complete process of 3D point acquisition on the training. The second proposition is a surface fitting strategy to convert 3D point clouds to 2.5D. This allows higher resolution point clouds to be processed with a small amount of memory compared with state-of-the-art methods involving 3D sampling approaches. Simulations with available ground truth data show that the proposed technique reaches an intersection-over-union of over 80%. Experiments over dent samples prove an effective detection of dents with a speed of over 500 000 points per second.
翻訳日:2022-05-04 14:05:37 公開日:2022-05-03
# 逐次評価におけるバイアスのモデル化と補正

Modeling and Correcting Bias in Sequential Evaluation ( http://arxiv.org/abs/2205.01607v1 )

ライセンス: Link先を確認
Jingyan Wang and Ashwin Pananjady(参考訳) 本研究では, 逐次評価の問題点について考察し, 評価者が複数の候補を連続的に観察し, それらの候補に得点を割り当てる手法を提案する。 このような状況における逐次バイアス、すなわち、評価結果と候補者が現れる順序の依存関係を研究する心理学文献に動機づけられた我々は、そのような課題に固有の校正の欠如を捉えた評価者の評価過程の自然なモデルを提案する。 クラウドソーシング実験を行い,モデルのさまざまな側面を実証する。 そして、これを統計的推論問題として、モデルの下でシーケンシャルバイアスを補正する方法を研究する。 本稿では,この課題に対する近似時間オンラインアルゴリズムを提案し,その最適性を示す下限値と一致する2つの正準ランキング指標について検証する。 提案アルゴリズムは,報告されたスコアによって誘導されるランキングを使用するデファクト手法よりも優れる。

We consider the problem of sequential evaluation, in which an evaluator observes candidates in a sequence and assigns scores to these candidates in an online, irrevocable fashion. Motivated by the psychology literature that has studied sequential bias in such settings -- namely, dependencies between the evaluation outcome and the order in which the candidates appear -- we propose a natural model for the evaluator's rating process that captures the lack of calibration inherent to such a task. We conduct crowdsourcing experiments to demonstrate various facets of our model. We then proceed to study how to correct sequential bias under our model by posing this as a statistical inference problem. We propose a near-linear time, online algorithm for this task and prove guarantees in terms of two canonical ranking metrics, matched with lower bounds demonstrating optimality in a certain sense. Our algorithm outperforms the de facto method of using the rankings induced by the reported scores.
翻訳日:2022-05-04 14:05:14 公開日:2022-05-03
# Kompetencer:Danish Job Postingsにおける遠隔スーパービジョンとトランスファーラーニングによるきめ細かいスキル分類

Kompetencer: Fine-grained Skill Classification in Danish Job Postings via Distant Supervision and Transfer Learning ( http://arxiv.org/abs/2205.01381v1 )

ライセンス: Link先を確認
Mike Zhang, Kristian N{\o}rgaard Jensen, Barbara Plank(参考訳) スキル分類(Skill Classification、SC)は、求職者から求職者を分類するタスクである。 この研究はデンマークのジョブ空席データに適用された最初のscである。 私たちはデンマーク初の求職データセット、Kompetencer(en: competences)をリリースした。 粗粒度アノテーションを改善するため,欧州スキル,能力,資格,職業 (ESCO; le Vrang et al., 2014) の分類APIを用いて,遠隔監視を通じて詳細なラベルを取得する。 ゼロショットと少数ショットの分類設定の2つの設定について検討する。 英語ベースのモデルとrembert(chung et al., 2020)を微調整し、言語内デンマークモデルと比較する。 その結果、RemBERTはゼロショットと少数ショットの両方で他のモデルよりも大幅に優れていた。

Skill Classification (SC) is the task of classifying job competences from job postings. This work is the first in SC applied to Danish job vacancy data. We release the first Danish job posting dataset: Kompetencer (en: competences), annotated for nested spans of competences. To improve upon coarse-grained annotations, we make use of The European Skills, Competences, Qualifications and Occupations (ESCO; le Vrang et al., 2014) taxonomy API to obtain fine-grained labels via distant supervision. We study two setups: The zero-shot and few-shot classification setting. We fine-tune English-based models and RemBERT (Chung et al., 2020) and compare them to in-language Danish models. Our results show RemBERT significantly outperforms all other models in both the zero-shot and the few-shot setting.
翻訳日:2022-05-04 14:04:58 公開日:2022-05-03
# 遷移型AMR解析のためのアライメントの導入と利用

Inducing and Using Alignments for Transition-based AMR Parsing ( http://arxiv.org/abs/2205.01464v1 )

ライセンス: Link先を確認
Andrew Drozdov, Jiawei Zhou, Radu Florian, Andrew McCallum, Tahira Naseem, Yoon Kim, Ramon Fernandez Astudillo(参考訳) AMR(Abstract Meaning Representation)のトランジションベースのパーサはノード間アライメントに依存している。 これらのアライメントはパーサトレーニングから独立して学習され、ドメイン固有の制約を満たすためにルールベースのコンポーネント、前処理、後処理の複雑なパイプラインが必要です。 パーサーはアライメントパイプラインの点推定も行っており、アライメントの本来の曖昧さのために不確実性を無視している。 この研究では、これらの制限を克服するための2つの道を探る。 まず,複雑なパイプラインに依存することなく,ノード間アライメントを学習するamr用ニューラルネットワークアライナーを提案する。 その後、整合性の不確実性に起因するオラクル行動系列の分布を考慮し、整合性およびパーサ訓練のより緊密な統合を検討する。 実験により、このアプローチはAMR2.0からAMR3.0コーパスへのより正確なアライメントと一般化をもたらすことが示された。 我々は,AMR3.0のビームサーチを必要とせず,銀トレーニングされた性能に適合する金専用訓練モデルの新たな最先端技術を得る。

Transition-based parsers for Abstract Meaning Representation (AMR) rely on node-to-word alignments. These alignments are learned separately from parser training and require a complex pipeline of rule-based components, pre-processing, and post-processing to satisfy domain-specific constraints. Parsers also train on a point-estimate of the alignment pipeline, neglecting the uncertainty due to the inherent ambiguity of alignment. In this work we explore two avenues for overcoming these limitations. First, we propose a neural aligner for AMR that learns node-to-word alignments without relying on complex pipelines. We subsequently explore a tighter integration of aligner and parser training by considering a distribution over oracle action sequences arising from aligner uncertainty. Empirical results show this approach leads to more accurate alignments and generalization better from the AMR2.0 to AMR3.0 corpora. We attain a new state-of-the art for gold-only trained models, matching silver-trained performance without the need for beam search on AMR3.0.
翻訳日:2022-05-04 14:04:42 公開日:2022-05-03
# ElitePLM:事前学習言語モデルの一般言語能力評価に関する実証的研究

ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models ( http://arxiv.org/abs/2205.01523v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Zheng Gong, Lixin Yang, Zhuohao Yu, Zhipeng Chen, Jingyuan Wang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 現在、プレトレーニング言語モデル(PLM)がNLPタスクの大部分を占めている。 PLMの言語能力を体系的に評価する研究はほとんど行われていない。 本稿では,PLM(ElitePLM)の汎用言語能力評価に関する大規模な実証的研究を行う。 本研究では, 記憶, 理解, 推論, 構成の4つの評価次元を設計し, 広く利用されている10個のPLMを5つのカテゴリで測定した。 その結果,(1)訓練目標や戦略の異なるplmは能力テストに適しており,(2)下流タスクにおけるplmの微調整はデータサイズや分布に敏感であり,(3)plmは類似したタスク間の転送性に優れることがわかった。 さらに,本実験におけるPLMの予測結果は,PLMの言語能力についてより深く詳細な分析を行うためのオープンリソースとしてリリースされた。 本稿では, PLM の選択, 適用, 設計を行うための今後の課題について紹介する。 実験の詳細はhttps://github.com/RUCAIBox/ElitePLM.comで公開しています。

Nowadays, pretrained language models (PLMs) have dominated the majority of NLP tasks. While, little research has been conducted on systematically evaluating the language abilities of PLMs. In this paper, we present a large-scale empirical study on general language ability evaluation of PLMs (ElitePLM). In our study, we design four evaluation dimensions, i.e. memory, comprehension, reasoning, and composition, to measure ten widely-used PLMs within five categories. Our empirical results demonstrate that: (1) PLMs with varying training objectives and strategies are good at different ability tests; (2) fine-tuning PLMs in downstream tasks is usually sensitive to the data size and distribution; (3) PLMs have excellent transferability between similar tasks. Moreover, the prediction results of PLMs in our experiments are released as an open resource for more deep and detailed analysis on the language abilities of PLMs. This paper can guide the future work to select, apply, and design PLMs for specific tasks. We have made all the details of experiments publicly available at https://github.com/RUCAIBox/ElitePLM.
翻訳日:2022-05-04 14:04:25 公開日:2022-05-03
# テキスト生成のためのプロンプト転送の学習

Learning to Transfer Prompts for Text Generation ( http://arxiv.org/abs/2205.01543v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Jian-Yun Nie, Ji-Rong Wen and Wayne Xin Zhao(参考訳) 事前訓練言語モデル(PLM)は微調整によってテキスト生成タスクを著しく進歩させた。 しかし,plmをデータ収集時に微調整することは困難である。 したがって、PLMに基づく様々なテキスト生成タスクに適応できる汎用的で軽量なモデルを開発するのは簡単ではない。 この目的を達成するために、最近のプロンプトベースの学習は潜在的な解決策を提供する。 本稿では,この手法を改良し,転送可能なテキスト生成のための新しいプロンプトベース手法(PTG)を提案する。 まず、ptgは様々なソース生成タスクのソースプロンプトのセットを学習し、ターゲットがターゲット生成タスクを実行するプロンプトとしてこれらのプロンプトを転送する。 タスクレベルとインスタンスレベルの情報の両方を考慮するため、ターゲットプロンプトを導出するための適応的注意機構を設計する。 各データインスタンスに対して、PTGは、非常に関連性の高いソースプロンプトに参加することで、特定のターゲットプロンプトを学習する。 広範な実験では、PTGは微調整法よりも競争力または優れた結果が得られる。 ソースプロンプトをオープンリソースとしてリリースし、ユーザはそれを追加または再利用して、将来の研究のために新しいテキスト生成タスクを改善することができます。 コードとデータはhttps://github.com/RUCAIBox/Transfer-Prompts-for-Text-Generationで入手できる。

Pretrained language models (PLMs) have made remarkable progress in text generation tasks via fine-tuning. While, it is challenging to fine-tune PLMs in a data-scarce situation. Therefore, it is non-trivial to develop a general and lightweight model that can adapt to various text generation tasks based on PLMs. To fulfill this purpose, the recent prompt-based learning offers a potential solution. In this paper, we improve this technique and propose a novel prompt-based method (PTG) for text generation in a transferable setting. First, PTG learns a set of source prompts for various source generation tasks and then transfers these prompts as target prompts to perform target generation tasks. To consider both task- and instance-level information, we design an adaptive attention mechanism to derive the target prompts. For each data instance, PTG learns a specific target prompt by attending to highly relevant source prompts. In extensive experiments, PTG yields competitive or better results than fine-tuning methods. We release our source prompts as an open resource, where users can add or reuse them to improve new text generation tasks for future research. Code and data can be available at https://github.com/RUCAIBox/Transfer-Prompts-for-Text-Generation.
翻訳日:2022-05-04 14:02:19 公開日:2022-05-03
# フェデレートラーニングによる混合ドメイン翻訳モデルの訓練

Training Mixed-Domain Translation Models via Federated Learning ( http://arxiv.org/abs/2205.01557v1 )

ライセンス: Link先を確認
Peyman Passban, Tanya Roosta, Rahul Gupta, Ankit Chadha, Clement Chung(参考訳) 混合ドメイン翻訳モデルのトレーニングは、カスタマイズされたアーキテクチャと高価なデータ準備技術を必要とする複雑なタスクである。 本研究では,この問題に取り組むために,連合学習(fl)を活用する。 本研究は, トレーニングプロセスのわずかな変更により, FLをベースとしたアグリゲーションを適用すると, ニューラルネットワーク変換(NMT)エンジンが容易に適用可能であることを示す。 実験の結果、flで構築されたエンジンは、集中トレーニング技術に依存する最先端のベースラインと同等の性能を発揮することが示されている。 異なるドメインから異なるサイズの5つのデータセットが存在する場合の仮説を評価し、ドイツ語から英語に翻訳し、FLとNMTが相互に利益を得る方法について論じる。 また,FLとNMTの結合に関するベンチマーク結果を提供するとともに,FL更新時に影響のあるパラメータを選択することで通信帯域幅を動的に制御する手法を提案する。 FLパーティ間で交換する必要があるNMTエンジンの大型化を考えると、これは大きな成果である。

Training mixed-domain translation models is a complex task that demands tailored architectures and costly data preparation techniques. In this work, we leverage federated learning (FL) in order to tackle the problem. Our investigation demonstrates that with slight modifications in the training process, neural machine translation (NMT) engines can be easily adapted when an FL-based aggregation is applied to fuse different domains. Experimental results also show that engines built via FL are able to perform on par with state-of-the-art baselines that rely on centralized training techniques. We evaluate our hypothesis in the presence of five datasets with different sizes, from different domains, to translate from German into English and discuss how FL and NMT can mutually benefit from each other. In addition to providing benchmarking results on the union of FL and NMT, we also propose a novel technique to dynamically control the communication bandwidth by selecting impactful parameters during FL updates. This is a significant achievement considering the large size of NMT engines that need to be exchanged between FL parties.
翻訳日:2022-05-04 14:02:02 公開日:2022-05-03
# ctm --大規模マルチビューツイートトピック分類のためのモデル

CTM -- A Model for Large-Scale Multi-View Tweet Topic Classification ( http://arxiv.org/abs/2205.01603v1 )

ライセンス: Link先を確認
Vivek Kulkarni, Kenny Leung, Aria Haghighi(参考訳) ソーシャルメディアの投稿とトピックを自動的に関連付けることは、多くのソーシャルメディアプラットフォームで効果的な検索と推薦のための重要な前提条件である。 しかし、そのようなポストのトピック分類は非常に難しい。 a)大きな話題空間 (b)弱局所的手がかりのある短文、及び (c)投稿毎の複数の話題関連 ポスト分類のみを少数のトピック($10$-$20$)に限定した以前のほとんどの作業とは対照的に、Twitterのコンテキストにおいて、トピック空間が10ドル規模で、つぶやきあたりの複数のトピック関連付けが考えられるという、大規模なトピック分類の課題について検討する。 上記の課題に対処するために,新しいニューラルモデルであるctmを提案する。 (a)300ドルのトピックからなる大きなトピックスペースをサポートします。 b) ツイート内のマルチモーダルコンテンツ、著者コンテキスト、より深いセマンティックキューを活用する。 提案手法は,他の手法(平均精度スコアの中央値で$\mathbf{20}\%$)に対して優れたパフォーマンスを与えることで,トピックを大規模に分類する効果的な方法を提供し,twitterで運用に成功している。

Automatically associating social media posts with topics is an important prerequisite for effective search and recommendation on many social media platforms. However, topic classification of such posts is quite challenging because of (a) a large topic space (b) short text with weak topical cues, and (c) multiple topic associations per post. In contrast to most prior work which only focuses on post classification into a small number of topics ($10$-$20$), we consider the task of large-scale topic classification in the context of Twitter where the topic space is $10$ times larger with potentially multiple topic associations per Tweet. We address the challenges above by proposing a novel neural model, CTM that (a) supports a large topic space of $300$ topics and (b) takes a holistic approach to tweet content modeling -- leveraging multi-modal content, author context, and deeper semantic cues in the Tweet. Our method offers an effective way to classify Tweets into topics at scale by yielding superior performance to other approaches (a relative lift of $\mathbf{20}\%$ in median average precision score) and has been successfully deployed in production at Twitter.
翻訳日:2022-05-04 14:01:45 公開日:2022-05-03
# GRAPHYP:Manifold Subnetworks of Communitiesによる科学知識グラフ。 敵対的情報経路における学際問題の検出

GRAPHYP: A Scientific Knowledge Graph with Manifold Subnetworks of Communities. Detection of Scholarly Disputes in Adversarial Information Routes ( http://arxiv.org/abs/2205.01331v1 )

ライセンス: Link先を確認
Renaud Fabre (LED), Otmane Azeroual (DZHW), Patrice Bellot (LIS), Joachim Sch\"opfel (GERIICO), Daniel Egret (PSL)(参考訳) 公開コンテンツの認知多様体は、現在科学のあらゆる分野に拡大している。 しかしながら、SKG(Scientific Knowledge Graphs)は、知識の生産を養う敵対的な方向や科学的論争の悪い写真のみを提供する。 本稿では,構造化対象のグラフへのマッピングにおいて,研究活動の認知的表現における情報空間の設計と,検索インタフェースに影響を与える関連するボトルネックについて理解することに取り組む。 我々はskg graphypを用いて,「認知的コミュニティ」の知識多様体の検出と,例えば学術的論争の文脈において,研究課題に対する敵意的回答に対する代替経路の表現の両方を最適化した,新しいグラフ設計幾何学的アーキテクチャを提案する。 グラミーPは「認知コミュニティの多角的サブネットワーク」を設計する手法を用いて、研究分野における異なる探索経路の分類を提供する。 ユーザは,検索の実践の多様性から検出され,科学文書のログの検索履歴の分析から,認知コミュニティに分類される。 プラクティスの多様体は、対称グラフサブネットワークに形づくられたノードの三重項によって区別された用途のメトリクスから表現され、以下の3つのパラメータ:質量、強度、変数。

The cognitive manifold of published content is currently expanding in all areas of science. However, Scientific Knowledge Graphs (SKGs) only provide poor pictures of the adversarial directions and scientific controversies that feed the production of knowledge. In this Article, we tackle the understanding of the design of the information space of a cognitive representation of research activities, and of related bottlenecks that affect search interfaces, in the mapping of structured objects into graphs. We propose, with SKG GRAPHYP, a novel graph designed geometric architecture which optimizes both the detection of the knowledge manifold of "cognitive communities", and the representation of alternative paths to adversarial answers to a research question, for instance in the context of academic disputes. With a methodology for designing "Manifold Subnetworks of Cognitive Communities", GRAPHYP provides a classification of distinct search paths in a research field. Users are detected from the variety of their search practices and classified in "Cognitive communities" from the analysis of the search history of their logs of scientific documentation. The manifold of practices is expressed from metrics of differentiated uses by triplets of nodes shaped into symmetrical graph subnetworks, with the following three parameters: Mass, Intensity, and Variety.
翻訳日:2022-05-04 14:01:02 公開日:2022-05-03
# (参考訳) SparCAssist: Sparse Generated Counterfactualsに基づくモデルリスクアセスメントアシスタント

SparCAssist: A Model Risk Assessment Assistant Based on Sparse Generated Counterfactuals ( http://arxiv.org/abs/2205.01588v1 )

ライセンス: CC BY-SA 4.0
Zijian Zhang, Vinay Setty and Avishek Anand(参考訳) 言語タスク用にトレーニングされた機械学習モデルのための汎用リスクアセスメントツールであるsparcassistを紹介する。 与えられたデータインスタンスに基づいて生成された分散インスタンスを偽物として検査することで、モデルのリスクを評価する。 逆事実はexpredによって識別された合理的なサブシーケンスでトークンを置換することで生成され、置換はhotflipまたはマスクド言語モデルベースのアルゴリズムで検索される。 私たちのシステムの主な目的は、人間のアノテータがモデルのデプロイメントリスクを評価するのを支援することです。 評価中に生成された反実例は副産物であり、将来より堅牢なNLPモデルのトレーニングに使用できる。

We introduce SparcAssist, a general-purpose risk assessment tool for the machine learning models trained for language tasks. It evaluates models' risk by inspecting their behavior on counterfactuals, namely out-of-distribution instances generated based on the given data instance. The counterfactuals are generated by replacing tokens in rational subsequences identified by ExPred, while the replacements are retrieved using HotFlip or Masked-Language-Model-based algorithms. The main purpose of our system is to help the human annotators to assess the model's risk on deployment. The counterfactual instances generated during the assessment are the by-product and can be used to train more robust NLP models in the future.
翻訳日:2022-05-04 13:58:24 公開日:2022-05-03
# Few-Shot Language Fine-tuningのための埋め込み幻覚

Embedding Hallucination for Few-Shot Language Fine-tuning ( http://arxiv.org/abs/2205.01307v1 )

ライセンス: Link先を確認
Yiren Jian and Chongyang Gao and Soroush Vosoughi(参考訳) 言語学習者は、事前訓練されたモデルから知識を適応させ、いくつかのラベル付き文から新しいクラスを認識する。 このような設定では、事前訓練された言語モデルの微調整が深刻なオーバーフィットを引き起こす可能性がある。 本稿では,細調整データセットを拡張するために補助埋め込みラベル対を生成する埋め込み幻覚(embedhalluc)法を提案する。 幻覚埋め込みは、微調整データセットの実際のものと無差別であるように、判別器と敵対ゲームをすることで、幻覚器を訓練する。 拡張データセットでトレーニングすることで、言語学習者は、過剰フィッティング問題を克服するために、多様な幻覚埋め込みから効果的に学習する。 実験により,提案手法は幅広い言語タスクにおいて有効であることを示し,現在の微調整法を上回っている。 さらに、embedhallucは、共通データ拡張、半教師付き擬似ラベル、正規化など、この過剰フィッティング問題に対処する他のメソッドよりも優れています。 コードは、https://github.com/yiren-jian/EmbedHalluc.comで入手できる。

Few-shot language learners adapt knowledge from a pre-trained model to recognize novel classes from a few-labeled sentences. In such settings, fine-tuning a pre-trained language model can cause severe over-fitting. In this paper, we propose an Embedding Hallucination (EmbedHalluc) method, which generates auxiliary embedding-label pairs to expand the fine-tuning dataset. The hallucinator is trained by playing an adversarial game with the discriminator, such that the hallucinated embedding is indiscriminative to the real ones in the fine-tuning dataset. By training with the extended dataset, the language learner effectively learns from the diverse hallucinated embeddings to overcome the over-fitting issue. Experiments demonstrate that our proposed method is effective in a wide range of language tasks, outperforming current fine-tuning methods. Further, we show that EmbedHalluc outperforms other methods that address this over-fitting problem, such as common data augmentation, semi-supervised pseudo-labeling, and regularization. The code will be made available at: https://github.com/yiren-jian/EmbedHalluc.
翻訳日:2022-05-04 13:47:40 公開日:2022-05-03
# プロンプトに基づくFew-Shot言語学習者のコントラスト学習

Contrastive Learning for Prompt-Based Few-Shot Language Learners ( http://arxiv.org/abs/2205.01308v1 )

ライセンス: Link先を確認
Yiren Jian and Chongyang Gao and Soroush Vosoughi(参考訳) 自然言語のプロンプトと文脈内学習を用いたGPT-3の印象的な性能は、このパラダイムの下で中程度のサイズのモデルをより微調整する作業に影響を与えた。 そこで,本研究では,同一クラスからの入力をクラスタ化して,限定的なサンプルのみをトレーニングしたモデルの汎用性を向上させる,コントラスト学習フレームワークを提案する。 具体的には、異なる拡張された"ビュー"の下で同じクラスから入力をクラスタリングし、異なるクラスから入力を撃退する教師付きコントラストフレームワークを提案する。 異なる言語プロンプトとコンテキストデモを追加することで、サンプルの異なる"ビュー"を作成します。 提案手法は,プロンプトベースの数ショット学習者におけるMLMの損失と対照的な相関関係を組み合わさって,15種類の言語タスクにおいて,最先端の手法よりも改善できることを示す。 我々のフレームワークはタスクやベースモデルに対して最小限の仮定をしており、修正の少ない最近の多くの手法に適用することができる。 コードは、https://github.com/yiren-jian/LM-SupConで利用可能になる。

The impressive performance of GPT-3 using natural language prompts and in-context learning has inspired work on better fine-tuning of moderately-sized models under this paradigm. Following this line of work, we present a contrastive learning framework that clusters inputs from the same class for better generality of models trained with only limited examples. Specifically, we propose a supervised contrastive framework that clusters inputs from the same class under different augmented "views" and repel the ones from different classes. We create different "views" of an example by appending it with different language prompts and contextual demonstrations. Combining a contrastive loss with the standard masked language modeling (MLM) loss in prompt-based few-shot learners, the experimental results show that our method can improve over the state-of-the-art methods in a diverse set of 15 language tasks. Our framework makes minimal assumptions on the task or the base model, and can be applied to many recent methods with little modification. The code will be made available at: https://github.com/yiren-jian/LM-SupCon.
翻訳日:2022-05-04 13:47:23 公開日:2022-05-03
# BasqueParl:Basque Parliamentary Transcriptionsのバイリンガルコーパス

BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions ( http://arxiv.org/abs/2205.01506v1 )

ライセンス: Link先を確認
Nayla Escribano, Jon Ander Gonz\'alez, Julen Orbegozo-Terradillos, Ainara Larrondo-Ureta, Sim\'on Pe\~na-Fern\'andez, Olatz Perez-de-Vi\~naspre and Rodrigo Agerri(参考訳) 議会の書き起こしは、現実を理解し、我々の社会で時間とともに起こる最も重要な事実を知る貴重な情報源となります。 さらに、これらの書き起こしで得られた政治論争は、計算社会科学の観点から政治談話の研究を促進する。 本稿ではバスク州議会文書から新たに編纂されたコーパスの最初のバージョンをリリースする。 このコーパスは、バスク語とスペイン語を対比する言語で政治的談話を研究するための興味深い資料として、バスク語とスペイン語のコード交換が特徴である。 コーパスには、話者と発話(言語、性別、パーティ...)の関連属性に関連するメタデータを付加し、テキストを処理して名前付きエンティティと補題を取得します。 得られたメタデータを使用して詳細なコーパス分析を行い、時間、パーティー、性別を通じてバスクの政治代表者の言語使用に関する興味深い洞察を提供する。

Parliamentary transcripts provide a valuable resource to understand the reality and know about the most important facts that occur over time in our societies. Furthermore, the political debates captured in these transcripts facilitate research on political discourse from a computational social science perspective. In this paper we release the first version of a newly compiled corpus from Basque parliamentary transcripts. The corpus is characterized by heavy Basque-Spanish code-switching, and represents an interesting resource to study political discourse in contrasting languages such as Basque and Spanish. We enrich the corpus with metadata related to relevant attributes of the speakers and speeches (language, gender, party...) and process the text to obtain named entities and lemmas. The obtained metadata is then used to perform a detailed corpus analysis which provides interesting insights about the language use of the Basque political representatives across time, parties and gender.
翻訳日:2022-05-04 13:47:03 公開日:2022-05-03
# アダプタ

Adaptable Adapters ( http://arxiv.org/abs/2205.01549v1 )

ライセンス: Link先を確認
Nafise Sadat Moosavi, Quentin Delfosse, Kristian Kersting, Iryna Gurevych(参考訳) 最先端のNLPモデルには1億から1兆のパラメータが含まれる。 アダプタは、事前訓練された重みの上に軽量ニューラルネットワーク層のみを微調整できる、完全な微調整のためのパラメーター効率のよい代替手段を提供する。 アダプタ層はランダムに初期化される。 しかしながら、既存の作業では、データセットの特性や利用可能なトレーニングデータの量に関わらず、データセット毎に、同じアダプタアーキテクチャ、すなわち、事前トレーニングされたモデルの各レイヤの上に同じアダプタレイヤを使用する。 本研究では,(1)異なるレイヤと異なる入力データに対して異なるアクティベーション関数を学習する,(2)学習可能なスイッチを選択・使用するための適応可能なアダプタを提案する。 アダプタ層をかなり少ない数で使用しながら,標準アダプタアーキテクチャと同等の性能を実現できることを示す。 さらに,適応可能なアダプタによって選択されたアダプタアーキテクチャが,異なるデータ設定や同様のタスク間でうまく転送されることを示す。 本稿では,適応型アダプタを,効率的かつ効率的なアダプタアーキテクチャの設計に用いることを提案する。 結果として生じるアダプタ (a)標準アダプタの学習パラメータの約50%を含み、訓練や推論において効率が良く、ストレージスペースも少ない。 b)低データ設定でかなり高い性能を達成する。

State-of-the-art pretrained NLP models contain a hundred million to trillion parameters. Adapters provide a parameter-efficient alternative for the full finetuning in which we can only finetune lightweight neural network layers on top of pretrained weights. Adapter layers are initialized randomly. However, existing work uses the same adapter architecture -- i.e., the same adapter layer on top of each layer of the pretrained model -- for every dataset, regardless of the properties of the dataset or the amount of available training data. In this work, we introduce adaptable adapters that contain (1) learning different activation functions for different layers and different input data, and (2) a learnable switch to select and only use the beneficial adapter layers. We show that adaptable adapters achieve on-par performances with the standard adapter architecture while using a considerably smaller number of adapter layers. In addition, we show that the selected adapter architecture by adaptable adapters transfers well across different data settings and similar tasks. We propose to use adaptable adapters for designing efficient and effective adapter architectures. The resulting adapters (a) contain about 50% of the learning parameters of the standard adapter and are therefore more efficient at training and inference, and require less storage space, and (b) achieve considerably higher performances in low-data settings.
翻訳日:2022-05-04 13:46:48 公開日:2022-05-03
# 動画をコピーする「fake motion video generation」

Copy Motion From One to Another: Fake Motion Video Generation ( http://arxiv.org/abs/2205.01373v1 )

ライセンス: Link先を確認
Zhenguang Liu, Sifan Wu, Chejian Xu, Xiang Wang, Lei Zhu, Shuang Wu, Fuli Feng(参考訳) 人工知能の説得力のある応用の1つは、(ソースから)任意の所望の動作を行う対象者のビデオを生成することである。 最先端の手法は、同様の広いストロークの動きの詳細を示すビデオを合成することができるが、テクスチャの詳細は一般的に欠けている。 ゆがみのある顔、足、手のように見えるが、そのような欠陥は人間の観察者によって非常に敏感に認識されている。 さらに、現在の手法では、通常、生成されたビデオの信頼性を評価するためにL2損失のGANを使用し、ビデオ生成に必要なテクスチャの詳細を学ぶために、大量のトレーニングサンプルを必要とする。 この作業では、これらの課題に3つの側面から取り組みます。 1) 各映像フレームを前景(人物)と背景に切り離し, ネットワーク出力の基礎となる寸法を減らすために前景を生成することに集中する。 2) ポーズから前景画像へのマッピングの学習を容易にする理論的動機づけたGromov-Wasserstein損失を提案する。 3) テクスチャの詳細性を高めるため, 顔の特徴を幾何学的ガイダンスでエンコードし, 顔, 足, 手を改良するために局所的なGANを用いる。 広範に実験した結果,本手法は対象人物の複雑な動きを忠実に再現し,現実的な対象人物映像を生成できることがわかった。 私たちのコードとデータセットはhttps://github.com/Sifann/FakeMotionで公開されています。

One compelling application of artificial intelligence is to generate a video of a target person performing arbitrary desired motion (from a source person). While the state-of-the-art methods are able to synthesize a video demonstrating similar broad stroke motion details, they are generally lacking in texture details. A pertinent manifestation appears as distorted face, feet, and hands, and such flaws are very sensitively perceived by human observers. Furthermore, current methods typically employ GANs with a L2 loss to assess the authenticity of the generated videos, inherently requiring a large amount of training samples to learn the texture details for adequate video generation. In this work, we tackle these challenges from three aspects: 1) We disentangle each video frame into foreground (the person) and background, focusing on generating the foreground to reduce the underlying dimension of the network output. 2) We propose a theoretically motivated Gromov-Wasserstein loss that facilitates learning the mapping from a pose to a foreground image. 3) To enhance texture details, we encode facial features with geometric guidance and employ local GANs to refine the face, feet, and hands. Extensive experiments show that our method is able to generate realistic target person videos, faithfully copying complex motions from a source person. Our code and datasets are released at https://github.com/Sifann/FakeMotion
翻訳日:2022-05-04 13:46:29 公開日:2022-05-03
# エピソード記憶問題への回答

Episodic Memory Question Answering ( http://arxiv.org/abs/2205.01652v1 )

ライセンス: Link先を確認
Samyak Datta, Sameer Dharur, Vincent Cartillier, Ruta Desai, Mukul Khanna, Dhruv Batra, Devi Parikh(参考訳) ウェアラブルグラスのようなエゴセントリックな拡張現実デバイスは、人間の着用者がホーム環境をツアーするとき、受動的に視覚データをキャプチャする。 我々は、人間がそのようなデバイスを動かすAIエージェントと対話するシナリオを思い描いている(例えば、最後に私のキーを見たのは? このタスクを成功させるために、エゴセントリックなAIアシスタントは、(1)ツアー中に見たオブジェクトの時空間情報をエンコードするセマンティックにリッチで効率的なシーンメモリを構築し、(2)質問を理解し、その回答をセマンティックメモリ表現に基礎付ける能力を有する必要がある。 Towards that end, we introduce (1) a new task - Episodic Memory Question Answering (EMQA) wherein an egocentric AI assistant is provided with a video sequence (the tour) and a question as an input and is asked to localize its answer to the question within the tour, (2) a dataset of grounded questions designed to probe the agent's spatio-temporal understanding of the tour, and (3) a model for the task that encodes the scene as an allocentric, top-down semantic feature map and grounds the question into the map to localize the answer. 我々は,シーンメモリの選択が,タスクの単純で既成のソリューションよりも優れており,非常に競争力のあるベースラインのホストであり,奥行きのノイズやポーズ,カメラジッタに頑健であることを示す。 プロジェクトページはhttps://samyak-268.github.io/emqa。

Egocentric augmented reality devices such as wearable glasses passively capture visual data as a human wearer tours a home environment. We envision a scenario wherein the human communicates with an AI agent powering such a device by asking questions (e.g., where did you last see my keys?). In order to succeed at this task, the egocentric AI assistant must (1) construct semantically rich and efficient scene memories that encode spatio-temporal information about objects seen during the tour and (2) possess the ability to understand the question and ground its answer into the semantic memory representation. Towards that end, we introduce (1) a new task - Episodic Memory Question Answering (EMQA) wherein an egocentric AI assistant is provided with a video sequence (the tour) and a question as an input and is asked to localize its answer to the question within the tour, (2) a dataset of grounded questions designed to probe the agent's spatio-temporal understanding of the tour, and (3) a model for the task that encodes the scene as an allocentric, top-down semantic feature map and grounds the question into the map to localize the answer. We show that our choice of episodic scene memory outperforms naive, off-the-shelf solutions for the task as well as a host of very competitive baselines and is robust to noise in depth, pose as well as camera jitter. The project page can be found at: https://samyak-268.github.io/emqa .
翻訳日:2022-05-04 13:46:03 公開日:2022-05-03
# 変圧器の知識属性におけるパターンの探索

Finding patterns in Knowledge Attribution for Transformers ( http://arxiv.org/abs/2205.01366v1 )

ライセンス: Link先を確認
Jeevesh Juneja and Ritu Agarwal(参考訳) トランスフォーマーネットワーク内の特定のニューロンに対する事実的および関係的知識の帰属のための知識ニューロンフレームワークの解析を行う。 実験には12層多言語BERTモデルを用いる。 我々の研究は様々な興味深い現象を明らかにした。 事実的知識の大部分は、ネットワークの中層と上位層($\ge 6$)に起因する。 さらなる分析により、中間層($6-9$)が関係情報に責任を負うことが判明し、これが事実知識や最後の数層($10-12$)の「正しい答え」にさらに洗練される。 実験の結果,モデルが異なる言語でのプロンプトを処理することも確認できたが,同じ事実を表わすことで,多言語事前学習の有効性がさらに証明された。 文法知識に対する帰属スキームを適用すると、文法知識は事実知識よりもニューロン間ではるかに分散していることがわかる。

We analyze the Knowledge Neurons framework for the attribution of factual and relational knowledge to particular neurons in the transformer network. We use a 12-layer multi-lingual BERT model for our experiments. Our study reveals various interesting phenomena. We observe that mostly factual knowledge can be attributed to middle and higher layers of the network($\ge 6$). Further analysis reveals that the middle layers($6-9$) are mostly responsible for relational information, which is further refined into actual factual knowledge or the "correct answer" in the last few layers($10-12$). Our experiments also show that the model handles prompts in different languages, but representing the same fact, similarly, providing further evidence for effectiveness of multi-lingual pre-training. Applying the attribution scheme for grammatical knowledge, we find that grammatical knowledge is far more dispersed among the neurons than factual knowledge.
翻訳日:2022-05-04 13:45:35 公開日:2022-05-03
# 多段階交通流予測のための残差グラフ畳み込みリカレントネットワーク

Residual Graph Convolutional Recurrent Networks For Multi-step Traffic Flow Forecasting ( http://arxiv.org/abs/2205.01480v1 )

ライセンス: Link先を確認
Wei Zhao, Shiqi Zhang, Bing Zhou and Bei Wang(参考訳) 交通流量予測は交通計画、制御、管理に不可欠である。 交通予測タスクの主な課題は、交通ネットワークの空間的および時間的相関を正確に把握することである。 交通予測手法は数多く存在するが、そのほとんどは時間的・空間的相関を捉えることに制限がある。 交通予測精度を向上させるため,Residual Graph Convolutional Recurrent Network (RGCRN) と呼ばれる新しい時空間予測モデルを提案する。 このモデルでは,提案したResidual Graph Convolutional Network (ResGCN) を用いて,交通路網の微細な空間相関を捉えるとともに,双方向Gated Recurrent Unit (BiGRU) を用いて時系列を空間情報でモデル化し,時系列データの前後のニューロン間の情報伝達の変化を分析して時間的相関を求める。 2つの実データを用いた比較実験の結果, rgcrnは, 最良ベースラインモデルと比較して平均20.66%改善した。 ソースコードとデータはhttps://github.com/zhangshqii/RGCRN.comから取得できます。

Traffic flow forecasting is essential for traffic planning, control and management. The main challenge of traffic forecasting tasks is accurately capturing traffic networks' spatial and temporal correlation. Although there are many traffic forecasting methods, most of them still have limitations in capturing spatial and temporal correlations. To improve traffic forecasting accuracy, we propose a new Spatial-temporal forecasting model, namely the Residual Graph Convolutional Recurrent Network (RGCRN). The model uses our proposed Residual Graph Convolutional Network (ResGCN) to capture the fine-grained spatial correlation of the traffic road network and then uses a Bi-directional Gated Recurrent Unit (BiGRU) to model time series with spatial information and obtains the temporal correlation by analysing the change in information transfer between the forward and reverse neurons of the time series data. Our comparative experimental results on two real datasets show that RGCRN improves on average by 20.66% compared to the best baseline model. You can get our source code and data through https://github.com/zhangshqii/RGCRN.
翻訳日:2022-05-04 13:44:32 公開日:2022-05-03
# 分析のための関連文書検索の文脈における不均衡分類問題に対するアプローチの比較

A Comparison of Approaches for Imbalanced Classification Problems in the Context of Retrieving Relevant Documents for an Analysis ( http://arxiv.org/abs/2205.01600v1 )

ライセンス: Link先を確認
Sandra Wankm\"uller(参考訳) 多くのテキストベースの社会科学研究における最初のステップの1つは、無関係な文書の大きなコーパスから分析に関連する文書を回収することである。 この検索課題に対処する社会科学の従来のアプローチは、キーワードの集合を適用し、それらの文書が少なくとも1つのキーワードを含む関連性のあるものと考えることである。 しかし、不完全キーワードの応用はバイアス付き推論のリスクを列挙している。 クエリ拡張手法、トピックモデルに基づく分類規則、アクティブおよび受動的教師付き学習といった、より複雑でコストのかかる手法は、無関係な文書から関連するものをより正確に分離し、バイアスの潜在的なサイズを減らす可能性を秘めている。 しかし、これらの高価なアプローチを適用するとキーワードリストと比較して検索性能が向上し、また、これらのアプローチの比較が不足しているため、どの程度で明らかでない場合も少なくない。 本研究は,ドイツのツイートのデータセット(linder, 2017),sbic(sap et al., 2020),reuters-21578コーパス(lewis, 1997)に関連する3つの検索タスクでこれらの方法を比較することで,このギャップを解消する。 その結果,検索性能の向上よりもクエリ拡張手法やトピックモデルに基づく分類規則が減少する傾向がみられた。 しかし、アクティブ教師付き学習がラベル付きトレーニングインスタンス(例えば1000文書)のセットにあまり当てはまらない場合、キーワードリストよりもはるかに高い検索性能に達する。

One of the first steps in many text-based social science studies is to retrieve documents that are relevant for the analysis from large corpora of otherwise irrelevant documents. The conventional approach in social science to address this retrieval task is to apply a set of keywords and to consider those documents to be relevant that contain at least one of the keywords. But the application of incomplete keyword lists risks drawing biased inferences. More complex and costly methods such as query expansion techniques, topic model-based classification rules, and active as well as passive supervised learning could have the potential to more accurately separate relevant from irrelevant documents and thereby reduce the potential size of bias. Yet, whether applying these more expensive approaches increases retrieval performance compared to keyword lists at all, and if so, by how much, is unclear as a comparison of these approaches is lacking. This study closes this gap by comparing these methods across three retrieval tasks associated with a data set of German tweets (Linder, 2017), the Social Bias Inference Corpus (SBIC) (Sap et al., 2020), and the Reuters-21578 corpus (Lewis, 1997). Results show that query expansion techniques and topic model-based classification rules in most studied settings tend to decrease rather than increase retrieval performance. Active supervised learning, however, if applied on a not too small set of labeled training instances (e.g. 1,000 documents), reaches a substantially higher retrieval performance than keyword lists.
翻訳日:2022-05-04 13:44:12 公開日:2022-05-03
# 部分空間拡散生成モデル

Subspace Diffusion Generative Models ( http://arxiv.org/abs/2205.01490v1 )

ライセンス: Link先を確認
Bowen Jing, Gabriele Corso, Renato Berlinghieri, Tommi Jaakkola(参考訳) スコアベースモデルは、高次元拡散過程を通じて、ノイズをデータにマッピングすることでサンプルを生成する。 我々は、このプロセス全体を高次元で実行し、その不便さを全て引き起こす必要があるか疑問である。 代わりに、データ分布がノイズに向かって進化するにつれて、部分空間への射影による拡散を制限する。 現状のモデルに適用すると、我々のフレームワークは同時にサンプルの品質を向上し、無条件のCIFAR-10で2.17のFIDに達し、同じ数のデノナイジングステップに対する推論の計算コストを削減します。 我々のフレームワークは、連続時間拡散と完全に互換性があり、正確なログや制御可能な生成を含む柔軟な能力を維持しています。 コードはhttps://github.com/bjing2016/subspace-diffusionで入手できる。

Score-based models generate samples by mapping noise to data (and vice versa) via a high-dimensional diffusion process. We question whether it is necessary to run this entire process at high dimensionality and incur all the inconveniences thereof. Instead, we restrict the diffusion via projections onto subspaces as the data distribution evolves toward noise. When applied to state-of-the-art models, our framework simultaneously improves sample quality -- reaching an FID of 2.17 on unconditional CIFAR-10 -- and reduces the computational cost of inference for the same number of denoising steps. Our framework is fully compatible with continuous-time diffusion and retains its flexible capabilities, including exact log-likelihoods and controllable generation. Code is available at https://github.com/bjing2016/subspace-diffusion.
翻訳日:2022-05-04 13:42:48 公開日:2022-05-03
# BiOcularGAN:眼画像のバイモーダル合成とアノテーション

BiOcularGAN: Bimodal Synthesis and Annotation of Ocular Images ( http://arxiv.org/abs/2205.01536v1 )

ライセンス: Link先を確認
Darian Toma\v{s}evi\'c, Peter Peer, Vitomir \v{S}truc(参考訳) 現在の眼画像の最先端のセグメンテーション技術は、収集に手間がかかり、しばしばプライバシー上の懸念を提起する大規模な注釈付きデータセットに極めて依存している。 本稿では,フォトリアリスティック(可視光および近赤外)眼画像の合成大規模データセットを,対応するセグメンテーションラベルとともに生成し,これらの問題に対処するための新しい枠組みであるbiocularganを提案する。 このフレームワークの中核は、バイモーダル画像生成を容易にする新しいDual-Branch StyleGAN2(DB-StyleGAN2)モデルと、DB-StyleGAN2の機能空間を利用してセマンティックなアノテーションを生成するセマンティックマスクジェネレータ(SMG)に依存している。 5つの多様な眼球データセットにわたる広範囲な実験を通してBiOcularGANを評価し,バイモーダルデータ生成が画像品質および生成アノテーションに与える影響を解析した。 実験結果から,biocularganは,複数の実世界のデータセットでうまく機能する高度に競争力のある(深い)セグメンテーションモデルのトレーニングに使用できる,高品質な2モード画像とアノテーション(最小限の介入で)を生成できることがわかった。 ソースコードは一般公開される予定だ。

Current state-of-the-art segmentation techniques for ocular images are critically dependent on large-scale annotated datasets, which are labor-intensive to gather and often raise privacy concerns. In this paper, we present a novel framework, called BiOcularGAN, capable of generating synthetic large-scale datasets of photorealistic (visible light and near infrared) ocular images, together with corresponding segmentation labels to address these issues. At its core, the framework relies on a novel Dual-Branch StyleGAN2 (DB-StyleGAN2) model that facilitates bimodal image generation, and a Semantic Mask Generator (SMG) that produces semantic annotations by exploiting DB-StyleGAN2's feature space. We evaluate BiOcularGAN through extensive experiments across five diverse ocular datasets and analyze the effects of bimodal data generation on image quality and the produced annotations. Our experimental results show that BiOcularGAN is able to produce high-quality matching bimodal images and annotations (with minimal manual intervention) that can be used to train highly competitive (deep) segmentation models that perform well across multiple real-world datasets. The source code will be made publicly available.
翻訳日:2022-05-04 13:42:36 公開日:2022-05-03
# アルゴリズム絵画のための創造的プロセスのモデリングに向けて

Toward Modeling Creative Processes for Algorithmic Painting ( http://arxiv.org/abs/2205.01605v1 )

ライセンス: Link先を確認
Aaron Hertzmann(参考訳) 本稿では,人間の創造的実践に触発された芸術的絵画アルゴリズムの計算モデルを提案する。 専門家の例や著者自身の経験に基づくこの論文は、創造的プロセスには、曖昧でハイレベルな目標(例えば「よい絵を描く」)と、新しいアイデアを発見する探索的過程の2つの重要な要素が含まれていると論じている。 そこで本研究では,不特定損失関数や明示的なタスク分解を伴う反復的塗装手順を含む,図面過程のこれらの要素を模倣するための計算機構をスケッチする。

This paper proposes a framework for computational modeling of artistic painting algorithms, inspired by human creative practices. Based on examples from expert artists and from the author's own experience, the paper argues that creative processes often involve two important components: vague, high-level goals (e.g., "make a good painting"), and exploratory processes for discovering new ideas. This paper then sketches out possible computational mechanisms for imitating those elements of the painting process, including underspecified loss functions and iterative painting procedures with explicit task decompositions.
翻訳日:2022-05-04 13:42:11 公開日:2022-05-03
# seBERTによる課題タイプ予測

Predicting Issue Types with seBERT ( http://arxiv.org/abs/2205.01335v1 )

ライセンス: Link先を確認
Alexander Trautsch, Steffen Herbold(参考訳) 事前訓練されたトランスフォーマーモデルは、自然言語モデル処理の最先端技術である。 seBERTは、BERTアーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。 このモデルを問題型予測タスクのためのnlbseチャレンジ用に微調整した。 私たちのモデルは、recallとprecisioの3つのイシュータイプすべてでベースラインのfasttextを支配しており、全体のf1-scoreは85.7%で、ベースラインよりも4.1%増加しています。

Pre-trained transformer models are the current state-of-the-art for natural language models processing. seBERT is such a model, that was developed based on the BERT architecture, but trained from scratch with software engineering data. We fine-tuned this model for the NLBSE challenge for the task of issue type prediction. Our model dominates the baseline fastText for all three issue types in both recall and precisio} to achieve an overall F1-score of 85.7%, which is an increase of 4.1% over the baseline.
翻訳日:2022-05-04 13:41:26 公開日:2022-05-03
# ブロック型ビジュアルプログラミングタスクのための {solution synthesis} から {student attempt synthesis} へ

From {Solution Synthesis} to {Student Attempt Synthesis} for Block-Based Visual Programming Tasks ( http://arxiv.org/abs/2205.01265v1 )

ライセンス: Link先を確認
Adish Singla, Nikitas Theodoropoulos(参考訳) ブロックベースのビジュアルプログラミング環境は、初心者にコンピューティングの概念を導入するためにますます使われている。 プログラミングタスクがオープンで概念的であることを考えると、初心者の学生はこれらの環境で学習する際に苦労することが多い。 AIによるプログラミングの家庭教師は、苦労している学生を自動で支援し、この可能性を実現するためにいくつかのコンポーネントを必要としている。 学生モデルの重要な構成要素,特に生徒の行動予測(合成)に対する誤解を自動的に推測する能力について検討した。 そこで,本研究では,ある学生に対して,一定の参照課題に対する学生の試みを観察した後,新たな目標課題に対する学生の試みを合成する,という課題に着目した,新しいベンチマーク「snsyn」を提案する。 この課題は、プログラム合成と類似しているが、 {solution} (すなわち、専門家が書くプログラム)を合成するのではなく、 {student attempt} (すなわち、ある学生が書くプログラム)を合成することが目的である。 まず、人間の専門家(TutorSS)がベンチマークで高いパフォーマンスを達成できることを示し、一方、単純なベースラインでは性能が低かった。 そこで我々は、TutorSSとのギャップを埋めるため、2つのニューラル/シンボリック技術(NeurSSとSymSS)を開発した。 この分野での今後の研究を促進するため、ベンチマークを公開します。

Block-based visual programming environments are increasingly used to introduce computing concepts to beginners. Given that programming tasks are open-ended and conceptual, novice students often struggle when learning in these environments. AI-driven programming tutors hold great promise in automatically assisting struggling students, and need several components to realize this potential. We investigate the crucial component of student modeling, in particular, the ability to automatically infer students' misconceptions for predicting (synthesizing) their behavior. We introduce a novel benchmark, StudentSyn, centered around the following challenge: For a given student, synthesize the student's attempt on a new target task after observing the student's attempt on a fixed reference task. This challenge is akin to that of program synthesis; however, instead of synthesizing a {solution} (i.e., program an expert would write), the goal here is to synthesize a {student attempt} (i.e., program that a given student would write). We first show that human experts (TutorSS) can achieve high performance on the benchmark, whereas simple baselines perform poorly. Then, we develop two neuro/symbolic techniques (NeurSS and SymSS) in a quest to close this gap with TutorSS. We will publicly release the benchmark to facilitate future research in this area.
翻訳日:2022-05-04 13:41:17 公開日:2022-05-03
# コンピューティング継続における自律性とインテリジェンス - オーケストレーションの課題、実現可能性、今後の方向性

Autonomy and Intelligence in the Computing Continuum: Challenges, Enablers, and Future Directions for Orchestration ( http://arxiv.org/abs/2205.01423v1 )

ライセンス: Link先を確認
Henna Kokkonen, Lauri Lov\'en, Naser Hossein Motlagh, Juha Partala, Alfonso Gonz\'alez-Gil, Ester Sola, I\~nigo Angulo, Madhusanka Liyanage, Teemu Lepp\"anen, Tri Nguyen, Panos Kostakos, Mehdi Bennis, Sasu Tarkoma, Schahram Dustdar, Susanna Pirttikangas, Jukka Riekki(参考訳) 将来のAIアプリケーションは、既存のクラウド依存システムアーキテクチャが提供できないパフォーマンス、信頼性、プライバシを必要とする。 本稿では、デバイスエッジクラウド連続体におけるオーケストレーションを研究し、エッジのためのAI、すなわちリソースオーケストレーションで使用されるAIメソッドに焦点を当てる。 デバイス-エッジ-クラウドコンピューティング連続体におけるインテリジェントなアプリケーションの継続的な要求をサポートするためには、リソースオーケストレーションはエッジAIを採用し、ローカルな自律性とインテリジェンスを強調する必要がある、と私たちは主張する。 この主張を正当化するために、我々は連続体オーケストレーションの一般的な定義を提供し、現在の新しいオーケストレーションパラダイムが計算連続体にどのように適合するかを検討する。 今後のオーケストレーションに影響を与える可能性のあるいくつかの主要な研究テーマを説明し、これらの研究テーマを取り入れたオーケストレーションパラダイムの早期ビジョンを提供する。 最後に、現在のキーエッジAI手法を調査し、将来の連続オーケストレーションのビジョンの実現にどのように貢献するかを検討する。

Future AI applications require performance, reliability and privacy that the existing, cloud-dependant system architectures cannot provide. In this article, we study orchestration in the device-edge-cloud continuum, and focus on AI for edge, that is, the AI methods used in resource orchestration. We claim that to support the constantly growing requirements of intelligent applications in the device-edge-cloud computing continuum, resource orchestration needs to embrace edge AI and emphasize local autonomy and intelligence. To justify the claim, we provide a general definition for continuum orchestration, and look at how current and emerging orchestration paradigms are suitable for the computing continuum. We describe certain major emerging research themes that may affect future orchestration, and provide an early vision of an orchestration paradigm that embraces those research themes. Finally, we survey current key edge AI methods and look at how they may contribute into fulfilling the vision of future continuum orchestration.
翻訳日:2022-05-04 13:40:56 公開日:2022-05-03
# 自然進化戦略を用いた離散構造変分オートエンコーダの学習

Learning Discrete Structured Variational Auto-Encoder using Natural Evolution Strategies ( http://arxiv.org/abs/2205.01324v1 )

ライセンス: Link先を確認
Alon Berliner, Guy Rotman, Yossi Adi, Roi Reichart, Tamir Hazan(参考訳) 離散変分オートエンコーダ(VAE)は、生成学習において意味的な潜在空間を表現することができる。 多くの実生活において、離散潜在空間は高次元構造で構成され、関連する構造を伝播する勾配は指数関数的に大きい潜在空間を数えることを必要とすることが多い。 近年, 可能な構造空間を列挙することなく, 近似勾配を伝播する様々な手法が考案された。 本研究では,勾配なしブラックボックス最適化アルゴリズムのクラスである自然進化戦略(nes)を用いて離散構造vaesを学習する。 NESアルゴリズムは、フォワードパス評価のみで勾配を推定するので、離散構造を通して勾配を伝播する必要がないため、計算的に魅力的である。 NES を用いた離散構造型VAE の最適化は勾配に基づく近似と同じくらい効果的であることを示す。 最後に、離散構造付きVAEに現れるような非Lipschitz関数に対するNES収束を証明した。

Discrete variational auto-encoders (VAEs) are able to represent semantic latent spaces in generative learning. In many real-life settings, the discrete latent space consists of high-dimensional structures, and propagating gradients through the relevant structures often requires enumerating over an exponentially large latent space. Recently, various approaches were devised to propagate approximated gradients without enumerating over the space of possible structures. In this work, we use Natural Evolution Strategies (NES), a class of gradient-free black-box optimization algorithms, to learn discrete structured VAEs. The NES algorithms are computationally appealing as they estimate gradients with forward pass evaluations only, thus they do not require to propagate gradients through their discrete structures. We demonstrate empirically that optimizing discrete structured VAEs using NES is as effective as gradient-based approximations. Lastly, we prove NES converges for non-Lipschitz functions as appear in discrete structured VAEs.
翻訳日:2022-05-04 13:40:10 公開日:2022-05-03
# 非スムース構造最適化のための滑らかなオーバーパラメータソルバ

Smooth over-parameterized solvers for non-smooth structured optimization ( http://arxiv.org/abs/2205.01385v1 )

ライセンス: Link先を確認
Clarice Poon and Gabriel Peyr\'e(参考訳) 非滑らかな最適化は多くのイメージングや機械学習パイプラインの中核的な要素である。 非滑らか性 (non-smoothness) は、空間性、群空間性、低ランク、鋭いエッジなどの解の構造的制約を符号化する。 これはまた、ロバスト損失関数や平方根ラッソのようなスケールフリー函数の定義の基礎でもある。 非滑らか性を扱う標準的なアプローチは、近位分裂または座標降下を利用する。 これらのアプローチは効果的だが、通常はパラメータチューニング、プレコンディショニング、あるいはある種のサポートプルーニングを必要とする。 本研究では, 基礎となる非スムース最適化問題の非凸だが滑らかな超パラメータ化を行う, 異なる経路を提唱し, 検討する。 これは、人気のある反復的再重み付け最小平方形(irls)の中心にある二次変分形式を一般化する。 我々の主な理論的貢献は、この改質の勾配降下と、ヘッセン計量の異なるミラー降下流を結びつけることである。 この解析は次元のない収束境界を導出するために重要である。 これは、イメージングにおいて小さなグリッドサイズを使用する場合の方法の効率を説明する。 我々の主な貢献は変数の一部を明示的に最小化することで新しい定式化を定義する可変射影法(VarPro)を適用することである。 これにより最小化関数の条件付けが向上し、例えば準ニュートン解法のような単純だが非常に効率的な勾配法が収束する。 我々は,逆問題や教師付き学習における正規化回帰問題の解法として,この新たな解法を用いることを実証する。

Non-smooth optimization is a core ingredient of many imaging or machine learning pipelines. Non-smoothness encodes structural constraints on the solutions, such as sparsity, group sparsity, low-rank and sharp edges. It is also the basis for the definition of robust loss functions and scale-free functionals such as square-root Lasso. Standard approaches to deal with non-smoothness leverage either proximal splitting or coordinate descent. These approaches are effective but usually require parameter tuning, preconditioning or some sort of support pruning. In this work, we advocate and study a different route, which operates a non-convex but smooth over-parametrization of the underlying non-smooth optimization problems. This generalizes quadratic variational forms that are at the heart of the popular Iterative Reweighted Least Squares (IRLS). Our main theoretical contribution connects gradient descent on this reformulation to a mirror descent flow with a varying Hessian metric. This analysis is crucial to derive convergence bounds that are dimension-free. This explains the efficiency of the method when using small grid sizes in imaging. Our main algorithmic contribution is to apply the Variable Projection (VarPro) method which defines a new formulation by explicitly minimizing over part of the variables. This leads to a better conditioning of the minimized functional and improves the convergence of simple but very efficient gradient-based methods, for instance quasi-Newton solvers. We exemplify the use of this new solver for the resolution of regularized regression problems for inverse problems and supervised learning, including total variation prior and non-convex regularizers.
翻訳日:2022-05-04 13:39:54 公開日:2022-05-03
# 特徴学習の高次元漸近:1つの段階が表現をいかに改善するか

High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation ( http://arxiv.org/abs/2205.01445v1 )

ライセンス: Link先を確認
Jimmy Ba, Murat A. Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu, Greg Yang(参考訳) 第一層パラメータ $\boldsymbol{W}$ の勾配降下ステップを二層ニューラルネットワークで研究する: $f(\boldsymbol{x}) = \frac{1}{\sqrt{N}}\boldsymbol{a}^\top\sigma(\boldsymbol{W}^\top\boldsymbol{x})$ ここで、$\boldsymbol{W}\in\mathbb{R}^{d\times N}, \boldsymbol{a}\in\mathbb{R}^{N}$ はランダムに初期化され、トレーニング目的は経験的MSE損失である。 同じ速度で$n,d,N\to\infty$と理想化された学生-教師設定の比例漸近極限において、第1次勾配更新は階数1"スパイク"を含み、第1層重みと教師モデル$f^*$の線形成分との整合をもたらすことを示す。 このアライメントの影響を特徴づけるために、$f^*$が単一インデックスモデルである場合、学習レート$\eta$で$\boldsymbol{W}$上の1段階の勾配ステップ後の共役カーネル上のリッジ回帰の予測リスクを計算する。 最初のステップの学習レートは$\eta$の2つのスケーリングを考えます。 小さい$\eta$の場合、訓練された特徴写像のガウス同値性を確立し、学習されたカーネルが初期ランダム特徴モデルにより改善されるが、入力における最良の線形モデルを打ち破ることができないことを証明する。 十分に大きな$\eta$に対して、ある$f^*$の場合、訓練された特徴に対する同じリッジ推定器は、この「線形な状態」を超えて、幅広いランダムな特徴や回転不変カーネルより優れていることを証明します。 以上の結果から,1段階のグラデーションステップでもランダムな特徴よりも大きな優位性を示し,学習の初期段階における学習速度のスケーリングの役割を強調した。

We study the first gradient descent step on the first-layer parameters $\boldsymbol{W}$ in a two-layer neural network: $f(\boldsymbol{x}) = \frac{1}{\sqrt{N}}\boldsymbol{a}^\top\sigma(\boldsymbol{W}^\top\boldsymbol{x})$, where $\boldsymbol{W}\in\mathbb{R}^{d\times N}, \boldsymbol{a}\in\mathbb{R}^{N}$ are randomly initialized, and the training objective is the empirical MSE loss: $\frac{1}{n}\sum_{i=1}^n (f(\boldsymbol{x}_i)-y_i)^2$. In the proportional asymptotic limit where $n,d,N\to\infty$ at the same rate, and an idealized student-teacher setting, we show that the first gradient update contains a rank-1 "spike", which results in an alignment between the first-layer weights and the linear component of the teacher model $f^*$. To characterize the impact of this alignment, we compute the prediction risk of ridge regression on the conjugate kernel after one gradient step on $\boldsymbol{W}$ with learning rate $\eta$, when $f^*$ is a single-index model. We consider two scalings of the first step learning rate $\eta$. For small $\eta$, we establish a Gaussian equivalence property for the trained feature map, and prove that the learned kernel improves upon the initial random features model, but cannot defeat the best linear model on the input. Whereas for sufficiently large $\eta$, we prove that for certain $f^*$, the same ridge estimator on trained features can go beyond this "linear regime" and outperform a wide range of random features and rotationally invariant kernels. Our results demonstrate that even one gradient step can lead to a considerable advantage over random features, and highlight the role of learning rate scaling in the initial phase of training.
翻訳日:2022-05-04 13:39:27 公開日:2022-05-03
# スケーラブル正規化ジョイント混合モデル

Scalable Regularised Joint Mixture Models ( http://arxiv.org/abs/2205.01486v1 )

ライセンス: Link先を確認
Thomas Lartigue, Sach Mukherjee(参考訳) 多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。 このようなデータに予測モデルを適用すると、不均一性は予測性能と解釈可能性の両方に影響を及ぼす。 教師なし学習と正規化回帰の交差点における発展を基盤として,共同学習が可能な異種データへのアプローチを提案する。 (i)明示的な多変量特徴分布 (ii)高次元回帰モデル及び (iii)両方の潜在グループラベル (i)および (ii)潜伏する群に特有な要素 (iii) このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。 我々はこれらの側面と、EM収束を含むモデリングと計算への影響を詳細に論じる。 このアプローチはモジュラーであり、特定のアプリケーションに適したデータ還元と高次元推定器を組み込むことができる。 非ゲージデータを含む広範囲なシミュレーションと実データ実験の結果を示す。 その結果, バイオメディシンなどの高次元データの効率的かつ効果的な分析が可能となり, 解釈可能な予測と明示的な特徴空間モデルが必要であるが, 隠れた不均一性が懸念される可能性がある。

In many applications, data can be heterogeneous in the sense of spanning latent groups with different underlying distributions. When predictive models are applied to such data the heterogeneity can affect both predictive performance and interpretability. Building on developments at the intersection of unsupervised learning and regularised regression, we propose an approach for heterogeneous data that allows joint learning of (i) explicit multivariate feature distributions, (ii) high-dimensional regression models and (iii) latent group labels, with both (i) and (ii) specific to latent groups and both elements informing (iii). The approach is demonstrably effective in high dimensions, combining data reduction for computational efficiency with a re-weighting scheme that retains key signals even when the number of features is large. We discuss in detail these aspects and their impact on modelling and computation, including EM convergence. The approach is modular and allows incorporation of data reductions and high-dimensional estimators that are suitable for specific applications. We show results from extensive simulations and real data experiments, including highly non-Gaussian data. Our results allow efficient, effective analysis of high-dimensional data in settings, such as biomedicine, where both interpretable prediction and explicit feature space models are needed but hidden heterogeneity may be a concern.
翻訳日:2022-05-04 13:37:35 公開日:2022-05-03
# 骨駆動型運動ネットワークを用いたゆるい衣服変形の予測

Predicting Loose-Fitting Garment Deformations Using Bone-Driven Motion Networks ( http://arxiv.org/abs/2205.01355v1 )

ライセンス: Link先を確認
Xiaoyu Pan, Jiaming Mai, Xinwei Jiang, Dongxue Tang, Jingxiang Li, Tianjia Shao, Kun Zhou, Xiaogang Jin and Dinesh Manocha(参考訳) 本稿では,骨駆動型運動ネットワークを用いて,着着メッシュの変形をインタラクティブな速度で予測する学習アルゴリズムを提案する。 衣服を用いてシミュレーションデータベースを作成し,皮膚分解を用いてシミュレーションメッシュ配列から仮想骨を抽出する。 実行時,低周波および高周波の変形を逐次的に計算する。 身体運動を仮想骨の動きに伝達して低周波変形を予測し、低周波メッシュから抽出した仮想骨の動きのグローバル情報と局所情報を利用して高周波変形を推定する。 さらに,シミュレーションパラメータのバリエーション(例えば織物の曲げ剛性)によって生じる衣服の変形を,シミュレーションパラメータの異なる集合に対してRBFカーネルを組み込んだネットワークを用いて推定することができる。 本研究では,メッシュ変形の予測精度をRMSEで約20%,ハウスドルフ距離とSTEDで約10%向上させる手法を提案する。 コードとデータはhttps://github.com/non-void/virtualbonesで入手できる。

We present a learning algorithm that uses bone-driven motion networks to predict the deformation of loose-fitting garment meshes at interactive rates. Given a garment, we generate a simulation database and extract virtual bones from simulated mesh sequences using skin decomposition. At runtime, we separately compute low- and high-frequency deformations in a sequential manner. The low-frequency deformations are predicted by transferring body motions to virtual bones' motions, and the high-frequency deformations are estimated leveraging the global information of virtual bones' motions and local information extracted from low-frequency meshes. In addition, our method can estimate garment deformations caused by variations of the simulation parameters (e.g., fabric's bending stiffness) using an RBF kernel ensembling trained networks for different sets of simulation parameters. Through extensive comparisons, we show that our method outperforms state-of-the-art methods in terms of prediction accuracy of mesh deformations by about 20% in RMSE and 10% in Hausdorff distance and STED. The code and data are available at https://github.com/non-void/VirtualBones.
翻訳日:2022-05-04 13:36:41 公開日:2022-05-03
# マルチモーダルリモートセンシングデータ融合における深層学習

Deep Learning in Multimodal Remote Sensing Data Fusion: A Comprehensive Review ( http://arxiv.org/abs/2205.01380v1 )

ライセンス: Link先を確認
Jiaxin Li, Danfeng Hong, Lianru Gao, Jing Yao, Ke Zheng, Bing Zhang, Jocelyn Chanussot(参考訳) リモートセンシング(rs)技術の急速な進歩により、大量の地球観測データ(eo)が、非常に複雑で複雑な異質性を特徴とするものになってきている。 eoデータの共同利用により、近年はマルチモーダルrsデータ融合の研究が盛んに進んでいるが、これらの強力な異種データを総合的に分析し解釈する能力の欠如により、従来のアルゴリズムは性能ボトルネックを必然的に満たしている。 したがって、この非無視的な制限により、強力な処理能力を持つ代替ツールの需要はさらに高まる。 最先端技術であるdeep learning(dl)は、データ表現と再構成の素晴らしい能力によって、多くのコンピュータビジョンタスクにおいて驚くべきブレークスルーを目撃している。 当然、マルチモーダルRSデータ融合の分野にも適用され、従来の手法に比べて大幅に改善されている。 本調査は,DLに基づくマルチモーダルRSデータ融合の体系的概要を示すことを目的としている。 より具体的には、このトピックに関する基本的な知識が最初に与えられる。 その後、この分野の動向を分析するために文献調査が行われる。 マルチモーダルRSデータ融合におけるいくつかの代表的なサブフィールドは、ト・バイ・フュージョン(to-be-fused)データモダリティ(spatiospectral, spatiotemporal, light detection and range-optical, synthetic aperture radar-optical, RS-Geospatial Big Data fusion)でレビューされる。 さらに,マルチモーダルrsデータ融合における開発のために,貴重な資源を収集し,まとめる。 最後に、残る課題と今後の方向性が強調される。

With the extremely rapid advances in remote sensing (RS) technology, a great quantity of Earth observation (EO) data featuring considerable and complicated heterogeneity is readily available nowadays, which renders researchers an opportunity to tackle current geoscience applications in a fresh way. With the joint utilization of EO data, much research on multimodal RS data fusion has made tremendous progress in recent years, yet these developed traditional algorithms inevitably meet the performance bottleneck due to the lack of the ability to comprehensively analyse and interpret these strongly heterogeneous data. Hence, this non-negligible limitation further arouses an intense demand for an alternative tool with powerful processing competence. Deep learning (DL), as a cutting-edge technology, has witnessed remarkable breakthroughs in numerous computer vision tasks owing to its impressive ability in data representation and reconstruction. Naturally, it has been successfully applied to the field of multimodal RS data fusion, yielding great improvement compared with traditional methods. This survey aims to present a systematic overview in DL-based multimodal RS data fusion. More specifically, some essential knowledge about this topic is first given. Subsequently, a literature survey is conducted to analyse the trends of this field. Some prevalent sub-fields in the multimodal RS data fusion are then reviewed in terms of the to-be-fused data modalities, i.e., spatiospectral, spatiotemporal, light detection and ranging-optical, synthetic aperture radar-optical, and RS-Geospatial Big Data fusion. Furthermore, We collect and summarize some valuable resources for the sake of the development in multimodal RS data fusion. Finally, the remaining challenges and potential future directions are highlighted.
翻訳日:2022-05-04 13:36:24 公開日:2022-05-03
# (参考訳) 自然言語処理のためのメタ学習:調査

Meta Learning for Natural Language Processing: A Survey ( http://arxiv.org/abs/2205.01500v1 )

ライセンス: CC BY 4.0
Hung-yi Lee, Shang-Wen Li, Ngoc Thang Vu(参考訳) ディープラーニングは自然言語処理(NLP)分野において主要な技術である。 しかし、この技術には多くのラベル付きデータが必要であり、ドメイン間での一般化は少ない。 メタ学習は機械学習の分野であり、より良い学習アルゴリズムを学ぶためのアプローチを研究する。 データ効率や一般化可能性など,さまざまな面でアルゴリズムの改善を目指している。 多くのNLPタスクにおいてアプローチの有効性が示されているが、NLPにおけるこれらのアプローチの体系的な調査は行われておらず、より多くの研究者がこの分野に参加するのを妨げている。 本研究の目的は,NLPにおけるメタラーニングに関する研究を研究者に提供し,NLPコミュニティから注目を惹きつけ,今後のイノベーションを推進することである。 本稿ではまずメタラーニングの一般的な概念と一般的なアプローチを紹介する。 次に,NLP問題に対するタスク構築設定とメタラーニングの適用を要約し,NLPコミュニティにおけるメタラーニングの展開を概観する。

Deep learning has been the mainstream technique in natural language processing (NLP) area. However, the techniques require many labeled data and are less generalizable across domains. Meta-learning is an arising field in machine learning studying approaches to learn better learning algorithms. Approaches aim at improving algorithms in various aspects, including data efficiency and generalizability. Efficacy of approaches has been shown in many NLP tasks, but there is no systematic survey of these approaches in NLP, which hinders more researchers from joining the field. Our goal with this survey paper is to offer researchers pointers to relevant meta-learning works in NLP and attract more attention from the NLP community to drive future innovation. This paper first introduces the general concepts of meta-learning and the common approaches. Then we summarize task construction settings and application of meta-learning for various NLP problems and review the development of meta-learning in NLP community.
翻訳日:2022-05-04 13:34:23 公開日:2022-05-03
# (参考訳) 設計基本単位の積み重ねによるコンパクトニューラルネットワーク

Compact Neural Networks via Stacking Designed Basic Units ( http://arxiv.org/abs/2205.01508v1 )

ライセンス: CC BY 4.0
Weichao Lan, Yiu-ming Cheung, Juyong Jiang(参考訳) 非構造化プルーニングはスパースウェイトと不規則ウェイトを扱う限界がある。 対照的に、構造化プルーニングは、この欠点を取り除くのに役立つが、どのコンポーネントをプルーニングするかを決定する複雑な基準を必要とする。 そこで本研究では,設計の基本単位を独立に積み重ねることで,重みパラメータの少ないコンパクトニューラルネットワークを直接構築する新しい手法である tissuenet を提案する。 様々なアーキテクチャの基本単位を考えると、それらは結合され、ある種の形で積み上げられ、コンパクトなニューラルネットワークを構築する。 我々は、さまざまなベンチマークデータセットの最先端プルーニング手法と比較するために、さまざまな人気バックボーンでTOTYNetを定式化する。 さらに,圧縮性能を評価するために2つの新しい指標を提案する。 実験の結果、t tissuenetは80%のフロップと89.7%のパラメータを節約しながら、同等の分類精度を達成できることがわかった。 つまり、基本ユニットの積み重ねは、ネットワーク圧縮に新しい有望な方法を提供する。

Unstructured pruning has the limitation of dealing with the sparse and irregular weights. By contrast, structured pruning can help eliminate this drawback but it requires complex criterion to determine which components to be pruned. To this end, this paper presents a new method termed TissueNet, which directly constructs compact neural networks with fewer weight parameters by independently stacking designed basic units, without requiring additional judgement criteria anymore. Given the basic units of various architectures, they are combined and stacked in a certain form to build up compact neural networks. We formulate TissueNet in diverse popular backbones for comparison with the state-of-the-art pruning methods on different benchmark datasets. Moreover, two new metrics are proposed to evaluate compression performance. Experiment results show that TissueNet can achieve comparable classification accuracy while saving up to around 80% FLOPs and 89.7% parameters. That is, stacking basic units provides a new promising way for network compression.
翻訳日:2022-05-04 13:04:08 公開日:2022-05-03
# (参考訳) 高信頼のための対人訓練

Adversarial Training for High-Stakes Reliability ( http://arxiv.org/abs/2205.01663v1 )

ライセンス: CC BY 4.0
Daniel M. Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Ben Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas(参考訳) 将来的には、単一の障害が大惨事になるような、強力なAIシステムが、ハイテイクな設定で展開される可能性がある。 ハイステイク設定でai安全性を改善するテクニックのひとつが、逆トレーニングである。これは、逆者を使って、最悪の場合のパフォーマンスを改善するためにトレーニングするサンプルを生成する。 本研究では,言語生成タスクをテストベッドとして使用し,対人訓練による高い信頼性を実現する。 私たちは、ジェネレータが提案するテキスト補完をフィルタリングする分類器の障害を見つけて排除するために、人間の敵を支援するツールを含む、一連の敵のトレーニングテクニックを作成しました。 簡単な「アビドケイン」タスクでは,フィルタ出力の品質に大きな影響を及ぼすことなく,極めて保守的な分類器閾値を設定することができると判断した。 私たちの選択したしきい値では、ベースライン分類器によるフィルタリングは、分散データにおける安全でない完了率を約2.4%から0.003%まで低下させます。 その結果, 対人訓練は, 対人攻撃に対するロバスト性を有意に高め, 分配性能に影響を与えないことがわかった。 強力なモデルの壊滅的なデプロイメントタイムの失敗の可能性を排除することができるまで、人間の敵性を高めるためのより強力なツールや高いレベルの信頼性を測定するより良い方法など、高い信頼性設定でさらなる作業が期待できる。

In the future, powerful AI systems may be deployed in high-stakes settings, where a single failure could be catastrophic. One technique for improving AI safety in high-stakes settings is adversarial training, which uses an adversary to generate examples to train on in order to achieve better worst-case performance. In this work, we used a language generation task as a testbed for achieving high reliability through adversarial training. We created a series of adversarial training techniques -- including a tool that assists human adversaries -- to find and eliminate failures in a classifier that filters text completions suggested by a generator. In our simple "avoid injuries" task, we determined that we can set very conservative classifier thresholds without significantly impacting the quality of the filtered outputs. With our chosen thresholds, filtering with our baseline classifier decreases the rate of unsafe completions from about 2.4% to 0.003% on in-distribution data, which is near the limit of our ability to measure. We found that adversarial training significantly increased robustness to the adversarial attacks that we trained on, without affecting in-distribution performance. We hope to see further work in the high-stakes reliability setting, including more powerful tools for enhancing human adversaries and better ways to measure high levels of reliability, until we can confidently rule out the possibility of catastrophic deployment-time failures of powerful models.
翻訳日:2022-05-04 13:02:12 公開日:2022-05-03
# Norm-Agnostic Linear Bandits

Norm-Agnostic Linear Bandits ( http://arxiv.org/abs/2205.01257v1 )

ライセンス: Link先を確認
Spencer (Brady) Gales, Sunder Sethuraman, Kwang-Sung Jun(参考訳) 線形帯域は、リコメンデーションシステムを含む幅広い応用を持つが、強い仮定を下す: アルゴリズムは、報酬生成を支配する未知のパラメータ $\theta^*$ のノルム上で上限の$S$を知っていなければならない。 そのような仮定は、実践者が信頼境界に関わった$S$を推測することを強制し、$\|\theta^*\|\le S$が後悔が低いことを保証してくれることを願う以外選択肢を残さない。 本稿では,そのような知識を初めて必要としない新しいアルゴリズムを提案する。 具体的には,2つのアルゴリズムを提案し,その後悔の限界を分析する。1つはアームセットの変更,もう1つは固定アームセットの設定である。 我々の前者に対する後悔は、S$を知らないという価格が後悔境界の先頭項に影響せず、下位項のみを膨らませていることを示している。 後者については、現在S$を知っていることを後悔して、いかなる代償も払わない。 我々の数値実験では、$s$ の知識を仮定した標準的なアルゴリズムは、$\|\theta^*\|\le s$ が正しくないときに破滅的に失敗する可能性がある。

Linear bandits have a wide variety of applications including recommendation systems yet they make one strong assumption: the algorithms must know an upper bound $S$ on the norm of the unknown parameter $\theta^*$ that governs the reward generation. Such an assumption forces the practitioner to guess $S$ involved in the confidence bound, leaving no choice but to wish that $\|\theta^*\|\le S$ is true to guarantee that the regret will be low. In this paper, we propose novel algorithms that do not require such knowledge for the first time. Specifically, we propose two algorithms and analyze their regret bounds: one for the changing arm set setting and the other for the fixed arm set setting. Our regret bound for the former shows that the price of not knowing $S$ does not affect the leading term in the regret bound and inflates only the lower order term. For the latter, we do not pay any price in the regret for now knowing $S$. Our numerical experiments show standard algorithms assuming knowledge of $S$ can fail catastrophically when $\|\theta^*\|\le S$ is not true whereas our algorithms enjoy low regret.
翻訳日:2022-05-04 13:00:21 公開日:2022-05-03
# 比較言語画像事前学習(CLIP)における分布ロバスト性の決定

Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP) ( http://arxiv.org/abs/2205.01397v1 )

ライセンス: Link先を確認
Alex Fang, Gabriel Ilharco, Mitchell Wortsman, Yuhao Wan, Vaishaal Shankar, Achal Dave, Ludwig Schmidt(参考訳) CLIP、ALIGN、BASICといった対照的に訓練された画像テキストモデルは、複数の挑戦的な自然分布シフトに対して前例のない堅牢性を示している。 これらの画像テキストモデルは、以前のトレーニング手法といくつかの点で異なるため、重要な疑問は、大きなロバスト性の増加の原因である。 我々は体系的な実験によってこの疑問に答える。 具体的には、ロバスト性向上の5つの要因について検討する。 (i)トレーニングセットのサイズ。 (ii)訓練分布 (iii)訓練時間における言語監督 (四)試験時の言語監督、及び (v) 対照的な損失関数。 我々の実験は、より多様なトレーニング分布がロバスト性向上の主な原因であることを示し、他の要因はロバスト性にはほとんど寄与しない。 実験結果以外にも、Flickrのオリジナルテキストアノテーションを備えたImageNetのバージョンであるImageNet-Captionsを導入し、言語イメージトレーニングのさらなる制御実験を可能にした。

Contrastively trained image-text models such as CLIP, ALIGN, and BASIC have demonstrated unprecedented robustness to multiple challenging natural distribution shifts. Since these image-text models differ from previous training approaches in several ways, an important question is what causes the large robustness gains. We answer this question via a systematic experimental investigation. Concretely, we study five different possible causes for the robustness gains: (i) the training set size, (ii) the training distribution, (iii) language supervision at training time, (iv) language supervision at test time, and (v) the contrastive loss function. Our experiments show that the more diverse training distribution is the main cause for the robustness gains, with the other factors contributing little to no robustness. Beyond our experimental results, we also introduce ImageNet-Captions, a version of ImageNet with original text annotations from Flickr, to enable further controlled experiments of language-image training.
翻訳日:2022-05-04 12:59:59 公開日:2022-05-03
# (参考訳) VICE:概念埋め込みのための変分推論

VICE: Variational Inference for Concept Embeddings ( http://arxiv.org/abs/2205.00756v2 )

ライセンス: CC BY-SA 4.0
Lukas Muttenthaler and Charles Y. Zheng and Patrick McClure and Robert A. Vandermeulen and Martin N. Hebart and Francisco Pereira(参考訳) 本稿では, ランダムな3重項タスクにおいて, 人間の行動から物体概念を埋め込み学習するためのベイズ的手法である, 概念埋め込みのための変分推論(VICE)を提案する。 変動推論を用いて,各埋め込み値に対する不確かさを推定した,ばらばらで非負の解を求める。 これらの推定値を利用して、再現可能な埋め込みを生成しながら、データを説明する次元を自動的に選択する。 本稿では,VICEのためのPAC学習バウンダリを導入し,一般化性能を推定したり,異なる実験設計のための十分なサンプルサイズを決定する。 3倍のタスクで人間の行動を予測することで、その前任者のスポスをライバルあるいは上回っている。 VICEオブジェクト表現は、より再現性が高く、異なるランダム初期化に対して一貫性がある。

In this paper, we introduce Variational Inference for Concept Embeddings (VICE), an approximate Bayesian method for learning object concept embeddings from human behavior in an odd-one-out triplet task. We use variational inference to obtain a sparse, non-negative solution with uncertainty estimates about each embedding value. We exploit these estimates to automatically select the dimensions that explain the data while yielding reproducible embeddings. We introduce a PAC learning bound for VICE that can be used to estimate generalization performance or determine a sufficient sample size for different experimental designs. VICE rivals or outperforms its predecessor, SPoSE, at predicting human behavior in a triplet task. VICE object representations are substantially more reproducible and consistent across different random initializations.
翻訳日:2022-05-04 12:57:26 公開日:2022-05-03
# (参考訳) cclf:サンプル効率強化学習のためのコントラスト・キュリオシティ駆動学習フレームワーク

CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2205.00943v2 )

ライセンス: CC BY 4.0
Chenyu Sun, Hangwei Qian, Chunyan Miao(参考訳) 強化学習(RL)では,高次元の観測から直接学習することが困難である。 それにもかかわらず、すべてのサンプルが同等に重要であるわけではないため、単により多くのインプットを注入するだけで、Q-ラーニングの不安定が生じる可能性がある。 本稿では,モデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発し,サンプルの重要度を完全に活用し,自己管理的な学習効率を向上させることにより,この問題を体系的に解決する。 提案するコントラスト・キュリオシティにより、cclfは経験のリプレイを優先順位付けし、最も有意義な拡張入力を選択し、より重要なq関数とエンコーダを定式化し、未学習のデータに集中することができる。 さらに、エージェントが好奇心に基づく報酬で探索することを奨励する。 その結果、エージェントはより有益なサンプルに焦点を合わせ、より効率的に表現不変性を学び、拡張された入力を大幅に削減することができる。 CCLFをいくつかの基本RLアルゴリズムに適用し,DeepMind Control Suite,Atari,MiniGridベンチマークで評価した。

In reinforcement learning (RL), it is challenging to learn directly from high-dimensional observations, where data augmentation has recently been shown to remedy this via encoding invariances from raw pixels. Nevertheless, we empirically find that not all samples are equally important and hence simply injecting more augmented inputs may instead cause instability in Q-learning. In this paper, we approach this problem systematically by developing a model-agnostic Contrastive-Curiosity-Driven Learning Framework (CCLF), which can fully exploit sample importance and improve learning efficiency in a self-supervised manner. Facilitated by the proposed contrastive curiosity, CCLF is capable of prioritizing the experience replay, selecting the most informative augmented inputs, and more importantly regularizing the Q-function as well as the encoder to concentrate more on under-learned data. Moreover, it encourages the agent to explore with a curiosity-based reward. As a result, the agent can focus on more informative samples and learn representation invariances more efficiently, with significantly reduced augmented inputs. We apply CCLF to several base RL algorithms and evaluate on the DeepMind Control Suite, Atari, and MiniGrid benchmarks, where our approach demonstrates superior sample efficiency and learning performances compared with other state-of-the-art methods.
翻訳日:2022-05-04 12:30:01 公開日:2022-05-03
# (参考訳) 漸進的変化のオンライン検出のための変化動的モデル

A Change Dynamic Model for the Online Detection of Gradual Change ( http://arxiv.org/abs/2205.01054v2 )

ライセンス: CC BY 4.0
Chris Browne(参考訳) 確率過程の統計的性質における変化検出の分野では、典型的には変化点(change-points)を介して起こると仮定される。 対照的に、多くの現実世界のプロセスは、行動に徐々に変化をもたらす。 この観測を念頭に置いて,段階変化のオンライン検出のための新しい変化力学モデルを導入し,階層モデル内で変化点を用いて段階変化の開始や終了の瞬間を示す。 我々はこのモデルをてんかん発作中に描かれた合成データや脳波に応用し、従来の変化点モデルよりも早く、より正確に変化を識別できることを見出した。

In the field of change-detection changes in the statistical properties of a stochastic process are typically assumed to occur via change-points, which demark instantaneous moments of complete and total change in distribution. In contrast, many real world processes undergo more gradual change in their behavior. With this observation in mind, we introduce a novel change-dynamic model for the online detection of gradual change in which change-points are used within a hierarchical model to indicate moments of gradual change onset or termination. We apply this model to synthetic data and EEG readings drawn during epileptic seizure, finding that our model can afford faster and more accurate identification of gradual change than traditional change-point models allow.
翻訳日:2022-05-04 11:59:40 公開日:2022-05-03
# (参考訳) OPT: 事前学習型トランスフォーマー言語モデル

OPT: Open Pre-trained Transformer Language Models ( http://arxiv.org/abs/2205.01068v2 )

ライセンス: CC BY 4.0
Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer(参考訳) 数十万日にわたって訓練されている大規模な言語モデルは、ゼロショットと少数ショットの学習に顕著な能力を示している。 計算コストを考えると、これらのモデルは大金なしで複製することは困難である。 APIを通じて利用できる少数の人にとっては、完全なモデルウェイトへのアクセスは許可されていないため、研究は困難である。 我々は,125mから175bのパラメータを持つデコーダ専用プリトレーニングトランスのスイートであるopen pre-trained transformers (opt)を提案する。 OPT-175BはGPT-3と同等であり, 炭素フットプリントの1/7しか必要としない。 また、私たちが直面したインフラストラクチャの課題の詳細と、リリースしたすべてのモデルを試すためのコードもリリースしています。

Large language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these models are difficult to replicate without significant capital. For the few that are available through APIs, no access is granted to the full model weights, making them difficult to study. We present Open Pre-trained Transformers (OPT), a suite of decoder-only pre-trained transformers ranging from 125M to 175B parameters, which we aim to fully and responsibly share with interested researchers. We show that OPT-175B is comparable to GPT-3, while requiring only 1/7th the carbon footprint to develop. We are also releasing our logbook detailing the infrastructure challenges we faced, along with code for experimenting with all of the released models.
翻訳日:2022-05-04 11:58:46 公開日:2022-05-03
# DeepGraviLens: 重力レンズデータの分類のためのマルチモーダルアーキテクチャ

DeepGraviLens: a Multi-Modal Architecture for Classifying Gravitational Lensing Data ( http://arxiv.org/abs/2205.00701v2 )

ライセンス: Link先を確認
Nicol\`o Oreste Pinciroli Vago, Piero Fraternali(参考訳) 重力レンズ(Gravitational Lensing)は、巨大な物体によって生じる相対論的効果で、周囲の時空を曲げる。 これは天体物理学において深く研究されたトピックであり、理論的相対論的な結果の検証と、それ以外は見えないようなかすかな天体の研究を可能にする。 近年,輝度変動時系列画像を用いたデータセットにおけるレンズ効果の検出により,重力レンズ現象の分析を支援する機械学習手法が提案されている。 しかし、最先端のアプローチでは画像のみを考慮し、時系列データを無視するか、最も難しいデータセットで比較的低い精度を達成する。 本稿では1つの非レンズ系と3つのレンズ系に属する時空間データを分類する新しいマルチモーダルネットワークであるDeepGraviLensを紹介する。 検討されたデータセットによって、アート精度の現在の状態を$\approx$19%から$\approx$43%に越えている。 このような改良により、次の天体物理調査におけるレンズ天体の分析が加速され、例えばベラ・C・ルービン天文台から収集されたペタバイトのデータを利用することができる。

Gravitational lensing is the relativistic effect generated by massive bodies, which bend the space-time surrounding them. It is a deeply investigated topic in astrophysics and allows validating theoretical relativistic results and studying faint astrophysical objects that would not be visible otherwise. In recent years Machine Learning methods have been applied to support the analysis of the gravitational lensing phenomena by detecting lensing effects in data sets consisting of images associated with brightness variation time series. However, the state-of-art approaches either consider only images and neglect time-series data or achieve relatively low accuracy on the most difficult data sets. This paper introduces DeepGraviLens, a novel multi-modal network that classifies spatio-temporal data belonging to one non-lensed system type and three lensed system types. It surpasses the current state of the art accuracy results by $\approx$ 19% to $\approx$ 43%, depending on the considered data set. Such an improvement will enable the acceleration of the analysis of lensed objects in upcoming astrophysical surveys, which will exploit the petabytes of data collected, e.g., from the Vera C. Rubin Observatory.
翻訳日:2022-05-04 11:20:21 公開日:2022-05-03
# 文書レベル関係抽出のためのクラスランキングロス

None Class Ranking Loss for Document-Level Relation Extraction ( http://arxiv.org/abs/2205.00476v2 )

ライセンス: Link先を確認
Yang Zhou and Wee Sun Lee(参考訳) 文書レベルの関係抽出(RE)は,複数の文にまたがって表現されるエンティティ間の関係を抽出することを目的とする。 典型的な文書では、ほとんどの実体対は事前定義された関係を表現せず、"none" や "no relation" とラベル付けされる。 ドキュメントレベルの優れたリパフォーマンスでは、そのようなクラスインスタンス(エンティティペア)と事前定義されたクラス(リレーション)を区別することが重要です。 しかし、既存のほとんどの手法は「非関係」の確率を考慮せずに、事前定義された関係の確率を独立に見積もるだけである。 これはエンティティペアのコンテキストを無視し、非クラスと事前定義されたクラス間のラベル相関を無視し、サブ最適化予測につながる。 この問題に対処するため,各定義クラスと非定義クラス間のラベル信頼度スコアの大きなマージンを促進できる新しいマルチラベル損失を提案し,ラベルの相関とラベル予測の文脈依存しきい値付けを可能にする。 実世界の再データセットに現れる正負の不均衡や誤ラベルデータに対するさらなる堅牢性を得るために,マージン正規化とマージンシフト手法を提案する。 実験結果から,本手法は文書レベルREにおける既存のマルチラベル損失を著しく上回り,クラスインスタンスをトレーニングできない場合の感情分類など,他のマルチラベルタスクでも有効であることが示された。

Document-level relation extraction (RE) aims at extracting relations among entities expressed across multiple sentences, which can be viewed as a multi-label classification problem. In a typical document, most entity pairs do not express any pre-defined relation and are labeled as "none" or "no relation". For good document-level RE performance, it is crucial to distinguish such none class instances (entity pairs) from those of pre-defined classes (relations). However, most existing methods only estimate the probability of pre-defined relations independently without considering the probability of "no relation". This ignores the context of entity pairs and the label correlations between the none class and pre-defined classes, leading to sub-optimal predictions. To address this problem, we propose a new multi-label loss that encourages large margins of label confidence scores between each pre-defined class and the none class, which enables captured label correlations and context-dependent thresholding for label prediction. To gain further robustness against positive-negative imbalance and mislabeled data that could appear in real-world RE datasets, we propose a margin regularization and a margin shifting technique. Experimental results demonstrate that our method significantly outperforms existing multi-label losses for document-level RE and works well in other multi-label tasks such as emotion classification when none class instances are available for training.
翻訳日:2022-05-04 11:20:01 公開日:2022-05-03
# UTC:視覚対話のためのタスク間コントラスト学習を備えた統一変換器

UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog ( http://arxiv.org/abs/2205.00423v2 )

ライセンス: Link先を確認
Cheng Chen, Yudong Zhu, Zhenshan Tan, Qingrong Cheng, Xin Jiang, Qun Liu, Xiaodong Gu(参考訳) visual dialogは、ダイアログ履歴と画像コンテンツに基づいて、マルチラウンド、インタラクティブな質問に答えることを目的としている。 既存の方法は、解答ランキングを考慮し、個別に生成するか、2つの異なるモデルによって暗黙的に2つのタスク間の関係を弱く捉えるだけである。 一つのモデルでランク付けと解答を共同で学習する普遍的な枠組みの研究はめったに行われない。 本稿では,視覚対話における識別的タスクと生成的タスクの両方を単一モデルで統一し,促進するための比較学習ベースのフレームワークutcを提案する。 具体的には,従来の学習パラダイムの固有の限界を考慮し,コンテクストコントラストロスと回答コントラストロスという2つのタスク間コントラストロスを考案し,識別的タスクと生成的タスクを相互に強化する。 これら2つの補完的コントラスト損失は、異なる視点から表現学習信号を提供するアンカーポイントとしてダイアログコンテキストとターゲット回答を利用する。 提案するutcをvisdial v1.0データセット上で評価し,本手法は判別処理と生成処理の両方において最先端を上回り,recall@1の2以上の絶対点を上回った。

Visual Dialog aims to answer multi-round, interactive questions based on the dialog history and image content. Existing methods either consider answer ranking and generating individually or only weakly capture the relation across the two tasks implicitly by two separate models. The research on a universal framework that jointly learns to rank and generate answers in a single model is seldom explored. In this paper, we propose a contrastive learning-based framework UTC to unify and facilitate both discriminative and generative tasks in visual dialog with a single model. Specifically, considering the inherent limitation of the previous learning paradigm, we devise two inter-task contrastive losses i.e., context contrastive loss and answer contrastive loss to make the discriminative and generative tasks mutually reinforce each other. These two complementary contrastive losses exploit dialog context and target answer as anchor points to provide representation learning signals from different perspectives. We evaluate our proposed UTC on the VisDial v1.0 dataset, where our method outperforms the state-of-the-art on both discriminative and generative tasks and surpasses previous state-of-the-art generative methods by more than 2 absolute points on Recall@1.
翻訳日:2022-05-04 11:19:38 公開日:2022-05-03
# ludiiゲーム記述言語は普遍的です

The Ludii Game Description Language is Universal ( http://arxiv.org/abs/2205.00451v2 )

ライセンス: Link先を確認
Dennis J. N. J. Soemers and \'Eric Piette and Matthew Stephenson and Cameron Browne(参考訳) いくつかの異なるゲーム記述言語(GDL)があり、それらは汎用プログラミング言語よりも単一の高レベル言語で記述できる幅広い任意のゲーム(一般ゲーム)を意図している。 このような形式で記述されたゲームは、その後、ゲームに関する事前の知識なしに、そのような言語で記述された任意のゲームをプレイできると期待される、自動化された一般的なゲームプレイエージェントの挑戦として提示することができる。 ludii general game systemで使われる言語は、任意の、有限、決定論的、完全に観測可能な拡張形式のゲームに対して同等のゲームを表現できることが以前にも示されていた。 本稿では,これを有限個の非決定的かつ不完全情報ゲームに拡張することで,その普遍性を証明する。

There are several different game description languages (GDLs), each intended to allow wide ranges of arbitrary games (i.e., general games) to be described in a single higher-level language than general-purpose programming languages. Games described in such formats can subsequently be presented as challenges for automated general game playing agents, which are expected to be capable of playing any arbitrary game described in such a language without prior knowledge about the games to be played. The language used by the Ludii general game system was previously shown to be capable of representing equivalent games for any arbitrary, finite, deterministic, fully observable extensive-form game. In this paper, we prove its universality by extending this to include finite non-deterministic and imperfect-information games.
翻訳日:2022-05-04 11:19:13 公開日:2022-05-03
# ペーパーリビューア・アサインメントはどのような要因を考慮すべきか? コンファレンスピーアレビューにおける課題と理念に関するコミュニティの展望

What Factors Should Paper-Reviewer Assignments Rely On? Community Perspectives on Issues and Ideals in Conference Peer-Review ( http://arxiv.org/abs/2205.01005v2 )

ライセンス: Link先を確認
Terne Sasha Thorn Jakobsen and Anna Rogers(参考訳) 科学的進歩と個々の研究者のキャリアは、ピアレビューの品質に依存しており、結果として、ペーパーリビューアマッチングに依存する。 驚いたことに、この問題は主に、異なるステークホルダー(エリアチェア、レビュアー、著者)が考慮に値する経験を蓄積した問題ではなく、自動化されたレコメンデーションの問題として扱われてきた。 本稿では,nlpコミュニティにおける第1次調査の結果について,紙レビュー者マッチングシステムにおいて考慮すべき要因の共通点と展望を明らかにする。 本研究は,今後のnlpカンファレンスの改善に有効な推奨事項と,解釈可能なピアレビュー課題に対するデシデラタを提案する。

Both scientific progress and individual researcher careers depend on the quality of peer review, which in turn depends on paper-reviewer matching. Surprisingly, this problem has been mostly approached as an automated recommendation problem rather than as a matter where different stakeholders (area chairs, reviewers, authors) have accumulated experience worth taking into account. We present the results of the first survey of the NLP community, identifying common issues and perspectives on what factors should be considered by paper-reviewer matching systems. This study contributes actionable recommendations for improving future NLP conferences, and desiderata for interpretable peer review assignments.
翻訳日:2022-05-04 11:17:09 公開日:2022-05-03