このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220623となっている論文です。

PDF登録状況(公開日: 20220623)

TitleAuthorsAbstract論文公表日・翻訳日
# 単連結経路図における部分共分散の因子化

Factorization of the Partial Covariance in Singly-Connected Path Diagrams ( http://arxiv.org/abs/2002.05226v6 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) 単連結経路図では、2つの確率変数の部分的共分散が各変数間の経路のノードとエッジを分解することを示し、経路解析を拡張した。 この結果、各ノードとエッジが部分共分散に寄与することを決定することができる。 また、シンプソンのパラドックスが単独で連結された経路図では起こらないことを示すこともできる。

We extend path analysis by showing that, for a singly-connected path diagram, the partial covariance of two random variables factorizes over the nodes and edges in the path between the variables. This result allows us to determine the contribution of each node and edge to the partial covariance. It also allows us to show that Simpson's paradox cannot occur in singly-connected path diagrams.
翻訳日:2023-01-01 19:57:48 公開日:2022-06-23
# 言語条件フィルタによるボトムアップ・トップダウン視覚処理の変調

Modulating Bottom-Up and Top-Down Visual Processing via Language-Conditional Filters ( http://arxiv.org/abs/2003.12739v3 )

ライセンス: Link先を確認
\.Ilker Kesen, Ozan Arkan Can, Erkut Erdem, Aykut Erdem, Deniz Yuret(参考訳) 言語と視覚を含むマルチモーダルタスクにおいて、言語処理と知覚処理を最もうまく統合する方法は、重要なオープン問題である。 本研究では,ハイレベルな視覚的特徴に対して視覚的注意を向ける上で,トップダウン方式で言語を使用するという一般的な実践は最適ではない,と論じる。 画素から高レベル機能へのボトムアップ処理を条件とする言語の使用は、全体的なパフォーマンスに利益をもたらすと仮定する。 そこで我々は,U-Netに基づくモデルを提案し,表現セグメント化と言語誘導画像のカラー化という2つの言語ビジョン高密度予測タスクの実験を行った。 トップダウンとボトムアップの両方の視覚枝が言語で条件付けされている結果と比較する。 実験の結果,トップダウンの注意に加えて,ボトムアップ・ビジュアル・プロセッシングのためのフィルタの制御に言語を用いることで,両タスクの精度が向上し,競争性能が向上することがわかった。 ボトムアップ・コンディショニングは、特に入力テキストが低レベルの視覚概念を参照する場合に、オブジェクトのセグメンテーションを改善することを示唆する。 コードはhttps://github.com/ilkerkesen/bvprで入手できる。

How to best integrate linguistic and perceptual processing in multi-modal tasks that involve language and vision is an important open problem. In this work, we argue that the common practice of using language in a top-down manner, to direct visual attention over high-level visual features, may not be optimal. We hypothesize that the use of language to also condition the bottom-up processing from pixels to high-level features can provide benefits to the overall performance. To support our claim, we propose a U-Net-based model and perform experiments on two language-vision dense-prediction tasks: referring expression segmentation and language-guided image colorization. We compare results where either one or both of the top-down and bottom-up visual branches are conditioned on language. Our experiments reveal that using language to control the filters for bottom-up visual processing in addition to top-down attention leads to better results on both tasks and achieves competitive performance. Our linguistic analysis suggests that bottom-up conditioning improves segmentation of objects especially when input text refers to low-level visual concepts. Code is available at https://github.com/ilkerkesen/bvpr.
翻訳日:2022-12-18 23:20:23 公開日:2022-06-23
# KQA Pro:知識ベースに関する複雑な質問応答のための明示的な構成プログラムを用いたデータセット

KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base ( http://arxiv.org/abs/2007.03875v4 )

ライセンス: Link先を確認
Shulin Cao, Jiaxin Shi, Liangming Pan, Lunyiu Nie, Yutong Xiang, Lei Hou, Juanzi Li, Bin He, Hanwang Zhang(参考訳) 知識ベース(複雑KBQA)に対する複雑な質問応答は、マルチホップ推論、属性比較、セット演算など、様々な構成的推論能力を必要とするため困難である。 既存のベンチマークには、複雑なKBQAの開発を制限するいくつかの欠点がある。 1) 明確な推論プロセスなしではQAペアのみを提供する。 2)質問は多様性や規模が乏しい。 そこで我々はKQA Proを紹介した。KQA Proは複雑なKBQAのためのデータセットで、120万の多種多様な自然言語質問を含む。 複雑な質問の推論過程を表現するために,構成的で解釈可能なプログラミング言語KoPLを提案する。 各質問に対して、対応するKoPLプログラムとSPARQLクエリを提供するので、KQA ProはKBQAとセマンティック解析の両方に役立ちます。 実験の結果,SOTA KBQA法は現在のデータセットのようにKQA Pro上で有望な結果を達成できないことが示され,KQA Proは困難であり,複雑なKBQAにはさらなる研究が必要であることが示唆された。 また、複数の推論スキルをテストするための診断データセットとしてKQA Proを扱い、既存のモデルの徹底的な評価を行い、複雑なKBQAのさらなる方向性について議論する。 コードとデータセットはhttps://github.com/shijx12/KQAPro_Baselinesから取得できます。

Complex question answering over knowledge base (Complex KBQA) is challenging because it requires various compositional reasoning capabilities, such as multi-hop inference, attribute comparison, set operation. Existing benchmarks have some shortcomings that limit the development of Complex KBQA: 1) they only provide QA pairs without explicit reasoning processes; 2) questions are poor in diversity or scale. To this end, we introduce KQA Pro, a dataset for Complex KBQA including ~120K diverse natural language questions. We introduce a compositional and interpretable programming language KoPL to represent the reasoning process of complex questions. For each question, we provide the corresponding KoPL program and SPARQL query, so that KQA Pro serves for both KBQA and semantic parsing tasks. Experimental results show that SOTA KBQA methods cannot achieve promising results on KQA Pro as on current datasets, which suggests that KQA Pro is challenging and Complex KBQA requires further research efforts. We also treat KQA Pro as a diagnostic dataset for testing multiple reasoning skills, conduct a thorough evaluation of existing models and discuss further directions for Complex KBQA. Our codes and datasets can be obtained from https://github.com/shijx12/KQAPro_Baselines.
翻訳日:2022-11-12 13:06:29 公開日:2022-06-23
# 集約状態を用いた政策勾配法の近似効果

Approximation Benefits of Policy Gradient Methods with Aggregated States ( http://arxiv.org/abs/2007.11684v3 )

ライセンス: Link先を確認
Daniel Russo(参考訳) Folklore氏は、ポリシー勾配は、相対的な、近似的なポリシー反復よりも、誤った仕様化に対してより堅牢である、と示唆している。 本稿では、状態空間を分割し、ポリシーあるいは値関数近似を分割上で一定に保持する状態集約表現のケースについて検討する。 本稿では、ポリシー勾配法が、周期毎の後悔が共通分割に属する状態-作用値関数の2つの要素の最大の差である$\epsilon$で束縛されたポリシーに収束することを示す。 同じ表現で、近似ポリシー反復と近似値反復の両方が、周期毎の後悔度が$\epsilon/(1-\gamma)$とスケールしたポリシーを生成することができる。 固有の近似誤差に直面して、真の意思決定対象を局所的に最適化するメソッドは、はるかに堅牢である。

Folklore suggests that policy gradient can be more robust to misspecification than its relative, approximate policy iteration. This paper studies the case of state-aggregated representations, where the state space is partitioned and either the policy or value function approximation is held constant over partitions. This paper shows a policy gradient method converges to a policy whose regret per-period is bounded by $\epsilon$, the largest difference between two elements of the state-action value function belonging to a common partition. With the same representation, both approximate policy iteration and approximate value iteration can produce policies whose per-period regret scales as $\epsilon/(1-\gamma)$, where $\gamma$ is a discount factor. Faced with inherent approximation error, methods that locally optimize the true decision-objective can be far more robust.
翻訳日:2022-11-07 22:31:08 公開日:2022-06-23
# 高次元非線形後方確率微分方程式の深層学習アルゴリズム

Deep learning algorithms for solving high dimensional nonlinear backward stochastic differential equations ( http://arxiv.org/abs/2010.01319v3 )

ライセンス: Link先を確認
Lorenc Kapllani and Long Teng(参考訳) 本研究では,高次元非線形逆確率微分方程式(bsdes)を解くための深層学習に基づく新しい手法を提案する。 この考え方は、局所的損失関数を含むグローバル最適化として問題を再構成することである。 基本的には、ディープニューラルネットワークとその勾配と自動微分を用いたbsdeの未知解を近似する。 この近似は、終端条件を常に含む各時間ステップで定義される二次局所損失関数を世界規模で最小化する。 このような損失関数は、時間積分のオイラー離散化を終端条件と反復して得られる。 この定式化により, 確率的勾配降下アルゴリズムは, 各時間層の精度を考慮に入れるだけでなく, 良好な局所的最小値に収束する。 提案アルゴリズムの性能を示すために,金融価格問題を含む複数の高次元非線形BSDEを提案する。

In this work, we propose a new deep learning-based scheme for solving high dimensional nonlinear backward stochastic differential equations (BSDEs). The idea is to reformulate the problem as a global optimization, where the local loss functions are included. Essentially, we approximate the unknown solution of a BSDE using a deep neural network and its gradient with automatic differentiation. The approximations are performed by globally minimizing the quadratic local loss function defined at each time step, which always includes the terminal condition. This kind of loss functions are obtained by iterating the Euler discretization of the time integrals with the terminal condition. Our formulation can prompt the stochastic gradient descent algorithm not only to take the accuracy at each time layer into account, but also converge to a good local minima. In order to demonstrate performances of our algorithm, several high-dimensional nonlinear BSDEs including pricing problems in finance are provided.
翻訳日:2022-10-11 09:01:06 公開日:2022-06-23
# 船舶自動識別システムデータに基づく時空間トラックアソシエーションアルゴリズム

A Spatio-temporal Track Association Algorithm Based on Marine Vessel Automatic Identification System Data ( http://arxiv.org/abs/2010.15921v2 )

ライセンス: Link先を確認
Imtiaz Ahmed, Mikyoung Jun, Yu Ding(参考訳) 動的脅威環境で複数の移動物体をリアルタイムで追跡することは、国家安全保障と監視システムにおいて重要な要素である。 他の正常な物体から脅威を装う候補を特定・識別し、介入まで異常な軌跡を監視するのに役立つ。 動きの異常パターンを見つけるためには、位置や動きの逐次的な観察を下にある移動物体と関連付けることができる正確なデータアソシエーションアルゴリズムが必要である。 本研究では,船舶の位置と動きの観測が自動識別システムによって収集されるため,海上船舶の追跡のための時空間的アプローチを開発する。 提案手法は, 脅威環境下での実際の運用上の複雑さを模倣するために, 船舶数と船舶識別を意図的に保持し, データセット内に時間ギャップを生じさせるデータアソシエーションの課題に対処するために開発された。 課題には3つのトレーニングデータセットと5つのテストセットが提供され、参加者が開発した結果の方法を評価し比較するためのデータチャレンジオーガナイザによって一連の定量的パフォーマンスメトリクスが考案される。 提案するトラックアソシエーションアルゴリズムを5つのテストセットに適用した場合,そのアルゴリズムは非常に競争力が高い。

Tracking multiple moving objects in real-time in a dynamic threat environment is an important element in national security and surveillance system. It helps pinpoint and distinguish potential candidates posing threats from other normal objects and monitor the anomalous trajectories until intervention. To locate the anomalous pattern of movements, one needs to have an accurate data association algorithm that can associate the sequential observations of locations and motion with the underlying moving objects, and therefore, build the trajectories of the objects as the objects are moving. In this work, we develop a spatio-temporal approach for tracking maritime vessels as the vessel's location and motion observations are collected by an Automatic Identification System. The proposed approach is developed as an effort to address a data association challenge in which the number of vessels as well as the vessel identification are purposely withheld and time gaps are created in the datasets to mimic the real-life operational complexities under a threat environment. Three training datasets and five test sets are provided in the challenge and a set of quantitative performance metrics is devised by the data challenge organizer for evaluating and comparing resulting methods developed by participants. When our proposed track association algorithm is applied to the five test sets, the algorithm scores a very competitive performance.
翻訳日:2022-10-01 23:29:29 公開日:2022-06-23
# LEAN:長鎖抽出による畳み込みニューラルネットワークのためのグラフベースプルーニング

LEAN: graph-based pruning for convolutional neural networks by extracting longest chains ( http://arxiv.org/abs/2011.06923v3 )

ライセンス: Link先を確認
Richard Schoonhoven, Allard A. Hendriksen, Dani\"el M. Pelt, K. Joost Batenburg(参考訳) ニューラルネットワークのプルーニング技術は、畳み込みニューラルネットワーク(cnns)を適用する計算コストを大幅に削減することができる。 一般的なプルーニング法は、フィルタを個別にランク付けすることで、どの畳み込みフィルタを除去すべきかを決定する。 本稿では,一連の連続演算子間の相互依存性をプルーニングが考慮すべきという視点を提唱する。 本稿では、グラフベースのアルゴリズムを用いてCNNをプルークするLongEst-chAiN(LEAN)法を提案する。 CNNはグラフとして解釈され、各演算子の演算ノルムをエッジの距離メートル法とする。 LEANプルーニングは、保持するグラフから最も高い値パスを反復的に抽出する。 実験では、よく知られたCamVidデータセットや実世界のX線CTデータセットなど、画像と画像のタスクでLEANプルーニングをテストする。 その結果、LEANプルーニングは1.7~12倍の畳み込みフィルタを用いることで、ネットワークの精度が良くなることが示された。

Neural network pruning techniques can substantially reduce the computational cost of applying convolutional neural networks (CNNs). Common pruning methods determine which convolutional filters to remove by ranking the filters individually, i.e., without taking into account their interdependence. In this paper, we advocate the viewpoint that pruning should consider the interdependence between series of consecutive operators. We propose the LongEst-chAiN (LEAN) method that prunes CNNs by using graph-based algorithms to select relevant chains of convolutions. A CNN is interpreted as a graph, with the operator norm of each operator as distance metric for the edges. LEAN pruning iteratively extracts the highest value path from the graph to keep. In our experiments, we test LEAN pruning on several image-to-image tasks, including the well-known CamVid dataset, and a real-world X-ray CT dataset. Results indicate that LEAN pruning can result in networks with similar accuracy, while using 1.7-12x fewer convolutional filters than existing approaches.
翻訳日:2022-09-25 23:19:35 公開日:2022-06-23
# 敵の攻撃と防御に隠れたレイヤ表現を組み込む

Incorporating Hidden Layer representation into Adversarial Attacks and Defences ( http://arxiv.org/abs/2011.14045v2 )

ライセンス: Link先を確認
Haojing Shen, Sihong Chen, Ran Wang and Xizhao Wang(参考訳) 本稿では,隠れレイヤ表現を取り入れることで,敵のロバスト性を改善する防衛戦略を提案する。 この防衛戦略の鍵は、逆摂動を含む入力情報を圧縮またはフィルタリングすることである。 そして、この防御戦略は、どんな種類のニューラルネットワークにも適用可能な活性化関数と見なすことができる。 また,ある条件下では,この防衛戦略の有効性を理論的に証明する。 さらに,隠蔽層表現を取り入れた3種類の逆攻撃を提案し,それぞれに3種類の逆攻撃例を生成する。 実験により,本手法は,敵の訓練を適用せずとも最先端のパフォーマンスを実現する深層ニューラルネットワークの強固性を大幅に向上できることを示した。

In this paper, we propose a defence strategy to improve adversarial robustness by incorporating hidden layer representation. The key of this defence strategy aims to compress or filter input information including adversarial perturbation. And this defence strategy can be regarded as an activation function which can be applied to any kind of neural network. We also prove theoretically the effectiveness of this defense strategy under certain conditions. Besides, incorporating hidden layer representation we propose three types of adversarial attacks to generate three types of adversarial examples, respectively. The experiments show that our defence method can significantly improve the adversarial robustness of deep neural networks which achieves the state-of-the-art performance even though we do not adopt adversarial training.
翻訳日:2022-09-19 19:46:05 公開日:2022-06-23
# 分類問題における新しい機械学習の提案と検証

Proposal and Verification of Novel Machine Learning on Classification Problems ( http://arxiv.org/abs/2207.04884v1 )

ライセンス: Link先を確認
Chikako Dozono, Mina Aragaki, Hana Hebishima, Shin-ichi Inage(参考訳) 本稿では,分類問題に対する新しい機械学習を提案する。 分類問題には幅広い応用があり、決定木、ニューラルネットワーク、ベイズネットなど多くのアプローチがある。 本稿では,脳内のニューロンの作用,特に興奮性シナプスと抑制性シナプス間のEPSP/IPSPキャンセルに着目し,従来の手法に属さない機械学習を提案する。 この特徴は1つのニューロンを考慮し、入力層へのデータとして多変数Xj(j = 1, 2,.)とその関数値F(Xj)を与えることである。 多変数入力層と処理ニューロンは、各可変ノードに2つの線でリンクされる。 1行をepspエッジと呼び、もう1行をipspエッジと呼び、各エッジに共通するパラメータ {\delta}jを導入する。 処理ニューロンは、前後に2つの部分に分割され、前面には、幅2{\Delta}jと高さ1を有するパルスが入力Xの周囲に定義される。 処理ニューロンの後半は、F(Xj)の入力層から得られる値に基づいて、入力Xjを中心とする幅2{\Delta}jと高さF(Xj)とを有するパルスを定義する。 この情報はグループiに属するものと定義されている。 言い換えると、入力 xj を中心とする 2{\delta}j の幅を持つ群 i は高さ f(xj) の領域で定義され、変数範囲内の xi のすべての出力は f(xi) である。 このグループは、指導信号の数分で学習され、記憶され、TEST信号の出力は、TEST信号が属するグループによって予測される。 パラメータ {\Delta}j は、予測の精度が最大になるように最適化される。 提案手法は,アイリスの花種分類問題,中古車のランク分類問題,アワビの環分類問題に適用し,ニューラルネットワークと比較した。

This paper aims at proposing a new machine learning for classification problems. The classification problem has a wide range of applications, and there are many approaches such as decision trees, neural networks, and Bayesian nets. In this paper, we focus on the action of neurons in the brain, especially the EPSP/IPSP cancellation between excitatory and inhibitory synapses, and propose a Machine Learning that does not belong to any conventional method. The feature is to consider one neuron and give it a multivariable Xj (j = 1, 2,.) and its function value F(Xj) as data to the input layer. The multivariable input layer and processing neuron are linked by two lines to each variable node. One line is called an EPSP edge, and the other is called an IPSP edge, and a parameter {\Delta}j common to each edge is introduced. The processing neuron is divided back and forth into two parts, and at the front side, a pulse having a width 2{\Delta}j and a height 1 is defined around an input X . The latter half of the processing neuron defines a pulse having a width 2{\Delta}j centered on the input Xj and a height F(Xj) based on a value obtained from the input layer of F(Xj). This information is defined as belonging to group i. In other words, the group i has a width of 2{\Delta}j centered on the input Xj, is defined in a region of height F(Xj), and all outputs of xi within the variable range are F(Xi). This group is learned and stored by a few minutes of the Teaching signals, and the output of the TEST signals is predicted by which group the TEST signals belongs to. The parameter {\Delta}j is optimized so that the accuracy of the prediction is maximized. The proposed method was applied to the flower species classification problem of Iris, the rank classification problem of used cars, and the ring classification problem of abalone, and the calculation was compared with the neural networks.
翻訳日:2022-07-17 17:08:56 公開日:2022-06-23
# MuSe 2022 マルチモーダル感性分析の課題: 覚醒, 感情反応, ストレス

The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress ( http://arxiv.org/abs/2207.05691v1 )

ライセンス: Link先を確認
Lukas Christ, Shahin Amiriparian, Alice Baird, Panagiotis Tzirakis, Alexander Kathan, Niklas M\"uller, Lukas Stappen, Eva-Maria Me{\ss}ner, Andreas K\"onig, Alan Cowen, Erik Cambria, Bj\"orn W. Schuller(参考訳) マルチモーダル感情分析チャレンジ(muse 2022)は、マルチモーダル感情と感情認識に特化している。 今年の課題には、3つのデータセットがあります。 (i)ドイツサッカー指導者の音声・視覚記録を含むパストー・自発サッカーコーチ・フモール(パッサウ・SFCH)データセット 二 感情的刺激に対する個人の反応が、7つの感情的表現強度に対して注釈付けされたヒューム反応データセット 3)Ulm-Trier Social Stress Test (Ulm-TSST) データセットは,ストレスを伴う状態の人々の連続的な感情値(覚醒と価)をラベル付けした音声視覚データからなる。 ユーモア検出サブチャンジ(MuSe-Humor)では、自発的ユーモアが認識され、感情反応サブチャンジ(MuSe-Reaction)では7つの微粒な「in-the-wild」感情が予測され、感情ストレスサブチャンジ(MuSe-Stress)では、ストレスされた感情値の継続的な予測が特徴付けられる。 この課題は、異なる研究コミュニティを惹きつけ、彼らの規律の融合を促すように設計されている。 主に、muse 2022は音声・視覚感情認識、健康情報学、象徴的感情分析のコミュニティをターゲットにしている。 本稿では,データセットとそれらから抽出した特徴点について述べる。 LSTM細胞を用いたリカレントニューラルネットワークを用いて、各サブチャレンジのテストパーティションの競争ベースライン結果を設定する。 本報告ではmuse-humor の .8480 の曲線(auc)、muse-reaction の pearson の相関係数 .2801 と、muse-stress の valence と arousal の .4931 一致相関係数 (ccc) と .4761 について報告する。

The Multimodal Sentiment Analysis Challenge (MuSe) 2022 is dedicated to multimodal sentiment and emotion recognition. For this year's challenge, we feature three datasets: (i) the Passau Spontaneous Football Coach Humor (Passau-SFCH) dataset that contains audio-visual recordings of German football coaches, labelled for the presence of humour; (ii) the Hume-Reaction dataset in which reactions of individuals to emotional stimuli have been annotated with respect to seven emotional expression intensities, and (iii) the Ulm-Trier Social Stress Test (Ulm-TSST) dataset comprising of audio-visual data labelled with continuous emotion values (arousal and valence) of people in stressful dispositions. Using the introduced datasets, MuSe 2022 2022 addresses three contemporary affective computing problems: in the Humor Detection Sub-Challenge (MuSe-Humor), spontaneous humour has to be recognised; in the Emotional Reactions Sub-Challenge (MuSe-Reaction), seven fine-grained `in-the-wild' emotions have to be predicted; and in the Emotional Stress Sub-Challenge (MuSe-Stress), a continuous prediction of stressed emotion values is featured. The challenge is designed to attract different research communities, encouraging a fusion of their disciplines. Mainly, MuSe 2022 targets the communities of audio-visual emotion recognition, health informatics, and symbolic sentiment analysis. This baseline paper describes the datasets as well as the feature sets extracted from them. A recurrent neural network with LSTM cells is used to set competitive baseline results on the test partitions for each sub-challenge. We report an Area Under the Curve (AUC) of .8480 for MuSe-Humor; .2801 mean (from 7-classes) Pearson's Correlations Coefficient for MuSe-Reaction, as well as .4931 Concordance Correlation Coefficient (CCC) and .4761 for valence and arousal in MuSe-Stress, respectively.
翻訳日:2022-07-17 17:08:22 公開日:2022-06-23
# (参考訳) 人工知能とアルゴリズム医学の時代の悪いニュースを破る--ヘドニック計算を用いた開示の探索とその倫理的正当性

Breaking Bad News in the Era of Artificial Intelligence and Algorithmic Medicine: An Exploration of Disclosure and its Ethical Justification using the Hedonic Calculus ( http://arxiv.org/abs/2207.01431v1 )

ライセンス: CC BY 4.0
Benjamin Post, Cosmin Badea, Aldo Faisal, Stephen J. Brett(参考訳) 医療における人工知能(AI)の利用に関する適切な倫理的枠組みは、この技術の普及が進むにつれて、重要視されている。 AIの進歩は、個人のレベルで結果予測の精度を改善するという約束を持っている。 しかし、これらの技術を患者と気候の相互作用に加えることは、人間の複雑な相互作用と同様に、潜在的な落とし穴がある。 医師は常に倫理的背景と行動の意義を慎重に検討しなければならなかったが、迅速な技術進歩に関する詳細な審議は追い付かなかったかもしれない。 私たちは18世紀にJeremy Bentham氏によって開発された哲学的な枠組みが、AIの時代において、いかに時間的に準定量的に応用されているかを説明するために、医療相互作用において共通の、しかし重要な課題、悪いニュース(おそらくは差し迫った死)を公開しています。 この倫理的アルゴリズムが、7つの排他的かつ徹底的なドメインをまたいで、aiが支援する行動が道徳的に正当化できるかどうかを評価するのにどのように役立つかを示す。

An appropriate ethical framework around the use of Artificial Intelligence (AI) in healthcare has become a key desirable with the increasingly widespread deployment of this technology. Advances in AI hold the promise of improving the precision of outcome prediction at the level of the individual. However, the addition of these technologies to patient-clinician interactions, as with any complex human interaction, has potential pitfalls. While physicians have always had to carefully consider the ethical background and implications of their actions, detailed deliberations around fast-moving technological progress may not have kept up. We use a common but key challenge in healthcare interactions, the disclosure of bad news (likely imminent death), to illustrate how the philosophical framework of the 'Felicific Calculus' developed in the 18th century by Jeremy Bentham, may have a timely quasi-quantitative application in the age of AI. We show how this ethical algorithm can be used to assess, across seven mutually exclusive and exhaustive domains, whether an AI-supported action can be morally justified.
翻訳日:2022-07-10 15:18:25 公開日:2022-06-23
# 人工知能教育における公平性の課題とニーズに関する専門家の見解

Experts' View on Challenges and Needs for Fairness in Artificial Intelligence for Education ( http://arxiv.org/abs/2207.01490v1 )

ライセンス: Link先を確認
Gianni Fenu, Roberta Galici, Mirko Marras(参考訳) 近年,人工知能(ai)が知的教育応用の科学と工学をどのように支援できるかという議論が活発化している。 この分野の多くの研究が、学習関連データによって駆動される行動可能なデータマイニングパイプラインと機械学習モデルを提案している。 これらのパイプラインやモデルが学生の特定のカテゴリーで不公平さを増幅する可能性には注目が集まっている。 もしAIアプリケーションが教育に肯定的な影響を与えるのであれば、その設計があらゆるステップにおいて公平性を考慮することが重要です。 昨年、トップレベルの教育カンファレンスで研究を発表した専門家(研究者や実践者)の匿名調査やインタビューを通じて、AIに基づく教育システムの開発を通じて公正に対応するための課題とニーズについて、専門家主導の初めての体系的研究を行った。 我々は,教育技術の専門家が実際に直面している課題やニーズについて,コミュニティが疑問を提起する主要な疑問を明確に理解する上で,共通かつ多角的な見解を明らかにした。 これらの結果を踏まえて,fairer ai for educationに向けた現在進行中の研究を支援する方向性を強調した。

In recent years, there has been a stimulating discussion on how artificial intelligence (AI) can support the science and engineering of intelligent educational applications. Many studies in the field are proposing actionable data mining pipelines and machine-learning models driven by learning-related data. The potential of these pipelines and models to amplify unfairness for certain categories of students is however receiving increasing attention. If AI applications are to have a positive impact on education, it is crucial that their design considers fairness at every step. Through anonymous surveys and interviews with experts (researchers and practitioners) who have published their research at top-tier educational conferences in the last year, we conducted the first expert-driven systematic investigation on the challenges and needs for addressing fairness throughout the development of educational systems based on AI. We identified common and diverging views about the challenges and the needs faced by educational technologies experts in practice, that lead the community to have a clear understanding on the main questions raising doubts in this topic. Based on these findings, we highlighted directions that will facilitate the ongoing research towards fairer AI for education.
翻訳日:2022-07-10 12:00:38 公開日:2022-06-23
# LBDMIDS:IoTネットワークへの侵入検知システムのためのLSTMに基づくディープラーニングモデル

LBDMIDS: LSTM Based Deep Learning Model for Intrusion Detection Systems for IoT Networks ( http://arxiv.org/abs/2207.00424v1 )

ライセンス: Link先を確認
Kumar Saurabh, Saksham Sood, P. Aditya Kumar, Uphar Singh, Ranjana Vyas, O.P. Vyas, Rahamatullah Khondoker(参考訳) 近年では,IoT(Internet of Things,モノのインターネット)やエッジデバイスが日常的な活動で広く利用されているのを目の当たりにしています。 これにより、これらのデバイスのセキュリティをサイバー攻撃から保護するために改善する必要がある。 機械学習(ML)技術は,ネットワーク侵入検知システム(NIDS)の開発に長年使われてきた。 初期のMLテクニックの中で、DTはうまく機能した。 近年、より信頼性の高いシステムを構築するために、ディープラーニング(DL)技術が使われています。 本論文では,UNSW-NB15 と Bot-IoT のダットセットの精度向上を目的とした,Long Short Term Memory (LSTM) Autoencoder と13-Feature Deep Neural Network (DNN) モデルを開発した。 そこでLBDMIDSを提案し,LSTMの変種,すなわちLSTMと双方向LSTMを積み重ねたNIDSモデルを開発し,UNSW\_NB15およびBoT\-IoTデータセット上での性能を検証した。 本稿では,LBDMIDSにおけるこれらの変種が従来のML技術より優れており,過去に提案されたDNNモデルと類似していることを示す。

In the recent years, we have witnessed a huge growth in the number of Internet of Things (IoT) and edge devices being used in our everyday activities. This demands the security of these devices from cyber attacks to be improved to protect its users. For years, Machine Learning (ML) techniques have been used to develop Network Intrusion Detection Systems (NIDS) with the aim of increasing their reliability/robustness. Among the earlier ML techniques DT performed well. In the recent years, Deep Learning (DL) techniques have been used in an attempt to build more reliable systems. In this paper, a Deep Learning enabled Long Short Term Memory (LSTM) Autoencoder and a 13-feature Deep Neural Network (DNN) models were developed which performed a lot better in terms of accuracy on UNSW-NB15 and Bot-IoT datsets. Hence we proposed LBDMIDS, where we developed NIDS models based on variants of LSTMs namely, stacked LSTM and bidirectional LSTM and validated their performance on the UNSW\_NB15 and BoT\-IoT datasets. This paper concludes that these variants in LBDMIDS outperform classic ML techniques and perform similarly to the DNN models that have been suggested in the past.
翻訳日:2022-07-10 12:00:21 公開日:2022-06-23
# (参考訳) 識別モデルとマルコフ決定過程を用いた流行制御モデル

Epidemic Control Modeling using Parsimonious Models and Markov Decision Processes ( http://arxiv.org/abs/2206.13910v1 )

ライセンス: CC BY 4.0
Edilson F. Arruda, Tarun Sharma, Rodrigo e A. Alexandre, Sinnu Susan Thomas(参考訳) 多くの国が新型コロナウイルスのパンデミックの少なくとも2つの波を経験した。 第2の波は、人間の健康に有害に見えるため、はるかに危険であるが、第1の波に関する矛盾に起因する。 本稿では, 遅延や回復時間分布によらず, 病気の拡散をシミュレートする, 仮に代表的確率的流行モデルを提案する。 また,医療システムの利用と流行の経済コストとの間に最適なトレードオフを求めるためのマルコフ決定プロセスを提案する。 私たちはこのモデルをインドのニューデリーのcovid-19データに適用し、異なる政策レビュータイムで拡散する流行をシミュレートします。 その結果,第1波の流行抑制に最適な政策が迅速に作用し,医療システムの崩壊や後発感染の今後のコストを回避できた。 新型コロナウイルス(COVID-19)第2波によるインドの医療システムの崩壊を分析したところ、第1波の後に迅速な緩和が促進された場合、多くの命が保存された可能性があることが示唆された。

Many countries have experienced at least two waves of the COVID-19 pandemic. The second wave is far more dangerous as distinct strains appear more harmful to human health, but it stems from the complacency about the first wave. This paper introduces a parsimonious yet representative stochastic epidemic model that simulates the uncertain spread of the disease regardless of the latency and recovery time distributions. We also propose a Markov decision process to seek an optimal trade-off between the usage of the healthcare system and the economic costs of an epidemic. We apply the model to COVID-19 data from New Delhi, India and simulate the epidemic spread with different policy review times. The results show that the optimal policy acts swiftly to curb the epidemic in the first wave, thus avoiding the collapse of the healthcare system and the future costs of posterior outbreaks. An analysis of the recent collapse of the healthcare system of India during the second COVID-19 wave suggests that many lives could have been preserved if swift mitigation was promoted after the first wave.
翻訳日:2022-07-04 01:42:38 公開日:2022-06-23
# 生成的特許言語モデルの評価

Evaluating Generative Patent Language Models ( http://arxiv.org/abs/2206.14578v1 )

ライセンス: Link先を確認
Jieh-Sheng Lee(参考訳) 本研究は,特許領域に生成言語モデルを構築し,人間中心の観点から評価することを目的とする。 評価基準は、生成モデルの予測に基づいて、ユーザが自己完結したコンテキストで保存できるキーストロークの比率を計算することである。 異なるサイズのモデルの性能は、新たに付与された多数の特許を測定することで、そのような計量で評価することもできる。 計量に基づいて、最大のモデルが必ずしも最良のモデルではないことが分かる。 いくつかのモデルは、特許コーパスでスクラッチから事前トレーニングされ、リリースされます。 この原稿の実験は特許請求に重点を置いているが、そのアイデアと実装は特許文書の他の部分に応用することができる。 さらに、本研究は、事前学習された言語モデルが新たに認められた特許クレームをどの程度作成できるかを測定する動機付けである。 あるいは逆に、新しく認められた特許クレームが与えられた場合、モデルが各トークンテキストを生成する確率を測定すること。 さらに、この写本は将来的な学際研究のための特許法に関するいくつかの法的意義を提起している。 特に、モデル予測に基づく計量は、特許法における不服従性要件を測定するための指標となるか?

This research aims to build generative language models in the patent domain and to evaluate the models from a human-centric perspective. The evaluation metric is to calculate the ratio of keystrokes that can be saved for a user in an autocomplete context based on the prediction of the generative models. The performance of models in different sizes can also be evaluated in such a metric by measuring a number of newly granted patents. On the basis of the metric, it is found that the largest model is not necessarily the best. Several models are pre-trained from scratch with patent corpus and are released. The experiments in this manuscript focus on patent claims, but the ideas and implementation can be applied to other parts of a patent document. Furthermore, this research is motivated to measure how close the pre-trained language model can generate a newly granted patent claim. Or, conversely, the task is to measure the probabilities for the model to generate each token text given the newly granted patent claim. In addition, this manuscript raises several legal implications on patent law for potential interdisciplinary research in the future. In particular, can the metric based on model prediction be a metric to measure the nonobviousness requirement in the patent law?
翻訳日:2022-07-04 01:23:25 公開日:2022-06-23
# (参考訳) 食事情報領域におけるNLGチャットボットとグラフィカルアプリの情報性の比較

Comparing informativeness of an NLG chatbot vs graphical app in diet-information domain ( http://arxiv.org/abs/2206.13435v1 )

ライセンス: CC BY 4.0
Simone Balloccu and Ehud Reiter(参考訳) グラフやテーブルのようなデータのビジュアル表現は、読者にとって理解するのが難しい。 これまでの研究では、視覚化とテキストを組み合わせることで、静的な文脈における洞察のコミュニケーションを改善することができた。 本研究では,自然言語クエリを処理し,チャートとテキストの組み合わせによる洞察を提供するNLGチャットボットを提案する。 栄養学に応用しますが、ドメイン間のコミュニケーションの質は重要です。 クラウドソースによる評価を通じて、チャットボットの情報を従来の静的ダイエットアプリと比較する。 会話の文脈は,様々なタスクにおける食事データに対するユーザの理解を著しく改善し,チャットボットを従来のアプリよりも有用かつ迅速に利用することができると考えた。

Visual representation of data like charts and tables can be challenging to understand for readers. Previous work showed that combining visualisations with text can improve the communication of insights in static contexts, but little is known about interactive ones. In this work we present an NLG chatbot that processes natural language queries and provides insights through a combination of charts and text. We apply it to nutrition, a domain communication quality is critical. Through crowd-sourced evaluation we compare the informativeness of our chatbot against traditional, static diet-apps. We find that the conversational context significantly improved users' understanding of dietary data in various tasks, and that users considered the chatbot as more useful and quick to use than traditional apps.
翻訳日:2022-07-03 13:55:26 公開日:2022-06-23
# (参考訳) 高速・メモリ効率ASRトレーニングのためのPruned RNN-T

Pruned RNN-T for fast, memory-efficient ASR training ( http://arxiv.org/abs/2206.13236v1 )

ライセンス: CC BY 4.0
Fangjun Kuang, Liyong Guo, Wei Kang, Long Lin, Mingshuang Luo, Zengwei Yao, Daniel Povey(参考訳) 音声認識のためのRNN-Transducer(RNN-T)フレームワークは、特にリアルタイムのASRシステムにおいて、高い精度と自然なストリーミング認識を組み合わせることで人気が高まっている。 RNN-Tの欠点の1つは、損失関数の計算が比較的遅く、多くのメモリを使用することができることである。 過剰なGPUメモリの使用は、例えば中国語文字ベースのASRの場合、語彙サイズが大きい場合、RNN-Tロスを非現実的に使用することができる。 本稿では,より高速でメモリ効率のよいRNN-T損失計算手法を提案する。 まず、エンコーダとデコーダの埋め込みに線形な単純な結合ネットワークを用いて、RNN-T再帰のプルーニング境界を求める。 次に、それらのプルーニングバウンダリを使用して、完全な非線形結合ネットワークを評価する。

The RNN-Transducer (RNN-T) framework for speech recognition has been growing in popularity, particularly for deployed real-time ASR systems, because it combines high accuracy with naturally streaming recognition. One of the drawbacks of RNN-T is that its loss function is relatively slow to compute, and can use a lot of memory. Excessive GPU memory usage can make it impractical to use RNN-T loss in cases where the vocabulary size is large: for example, for Chinese character-based ASR. We introduce a method for faster and more memory-efficient RNN-T loss computation. We first obtain pruning bounds for the RNN-T recursion using a simple joiner network that is linear in the encoder and decoder embeddings; we can evaluate this without using much memory. We then use those pruning bounds to evaluate the full, non-linear joiner network.
翻訳日:2022-07-03 13:54:19 公開日:2022-06-23
# (参考訳) 瞬時点過程を用いた間欠的観測による連続時系列のモデル化

Modeling Continuous Time Sequences with Intermittent Observations using Marked Temporal Point Processes ( http://arxiv.org/abs/2206.12414v1 )

ライセンス: CC BY 4.0
Vinayak Gupta and Srikanta Bedathur and Sourangshu Bhattacharya and Abir De(参考訳) オンライン購入、健康記録、空間移動など、人間の活動を通じて生成される大量のデータは、連続した時間の一連の出来事として表現することができる。 これらの連続的なイベントシーケンス上でディープラーニングモデルを学ぶことは、継続的に増加するイベントタイムスタンプ、イベント間時間ギャップ、イベントタイプ、および異なるシーケンス内と異なるイベント間の影響をモデル化することを含む、簡単なタスクである。 近年,非同期イベントを連続的に局所的に生成するメカニズムをモデル化するための強力なフレームワークとして,MTPPへのニューラル拡張が出現している。 しかし、mtppフレームワークの既存のモデルや推論メソッドの多くは、完全な観察シナリオのみを考慮する。つまり、モデル化されるイベントシーケンスは、欠落したイベントなしで完全に観察される。 mtppのトレーニング中に欠落したイベントを考察する最近の一連の研究では、シーケンス内の各イベントに対する欠落あるいは観測されたラベルの追加知識を必要とする教師付き学習技術が使用されている。 本研究では,イベントシーケンスが欠落している場合にMTPPを学習するための新しい教師なしモデルと推論手法を提案する。 具体的には、2つのmtppを用いて観測された事象と欠落事象の生成過程をモデル化し、欠落した事象を潜在確率変数として表現した。 そこで,変分推論を用いてMTPPを併用して学習する教師なし学習手法を考案した。 このような定式化は、観測されたイベントのうち欠落したデータを効果的にインプットすることができ、シーケンス内の欠落したイベントの最適な位置を特定することができる。

A large fraction of data generated via human activities such as online purchases, health records, spatial mobility etc. can be represented as a sequence of events over a continuous-time. Learning deep learning models over these continuous-time event sequences is a non-trivial task as it involves modeling the ever-increasing event timestamps, inter-event time gaps, event types, and the influences between different events within and across different sequences. In recent years neural enhancements to marked temporal point processes (MTPP) have emerged as a powerful framework to model the underlying generative mechanism of asynchronous events localized in continuous time. However, most existing models and inference methods in the MTPP framework consider only the complete observation scenario i.e. the event sequence being modeled is completely observed with no missing events -- an ideal setting that is rarely applicable in real-world applications. A recent line of work which considers missing events while training MTPP utilizes supervised learning techniques that require additional knowledge of missing or observed label for each event in a sequence, which further restricts its practicability as in several scenarios the details of missing events is not known apriori. In this work, we provide a novel unsupervised model and inference method for learning MTPP in presence of event sequences with missing events. Specifically, we first model the generative processes of observed events and missing events using two MTPP, where the missing events are represented as latent random variables. Then, we devise an unsupervised training method that jointly learns both the MTPP by means of variational inference. Such a formulation can effectively impute the missing data among the observed events and can identify the optimal position of missing events in a sequence.
翻訳日:2022-07-03 13:41:42 公開日:2022-06-23
# アルツハイマー病検出のためのコンフォーマー型高齢者音声認識システム

Conformer Based Elderly Speech Recognition System for Alzheimer's Disease Detection ( http://arxiv.org/abs/2206.13232v1 )

ライセンス: Link先を確認
Tianzi Wang, Jiajun Deng, Mengzhe Geng, Zi Ye, Shoukang Hu, Yi Wang, Mingyu Cui, Zengrui Jin, Xunying Liu, Helen Meng(参考訳) アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。 本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。 The baseline Conformer system trained with speed perturbation and SpecAugment based data augmentation is significantly improved by incorporating a set of purposefully designed modeling features, including neural architecture search based auto-configuration of domain-specific Conformer hyper-parameters in addition to parameter fine-tuning; fine-grained elderly speaker adaptation using learning hidden unit contributions (LHUC); and two-pass cross-system rescoring based combination with hybrid TDNN systems. 高齢者48名を対象に, 単語誤り率 (WER) の絶対値 (34.8%) を13.6%削減した。 最終システムの認識出力を用いてテキストの特徴を抽出し,最高の音声認識に基づくAD検出精度91.7%を得た。

Early diagnosis of Alzheimer's disease (AD) is crucial in facilitating preventive care to delay further progression. This paper presents the development of a state-of-the-art Conformer based speech recognition system built on the DementiaBank Pitt corpus for automatic AD detection. The baseline Conformer system trained with speed perturbation and SpecAugment based data augmentation is significantly improved by incorporating a set of purposefully designed modeling features, including neural architecture search based auto-configuration of domain-specific Conformer hyper-parameters in addition to parameter fine-tuning; fine-grained elderly speaker adaptation using learning hidden unit contributions (LHUC); and two-pass cross-system rescoring based combination with hybrid TDNN systems. An overall word error rate (WER) reduction of 13.6% absolute (34.8% relative) was obtained on the evaluation data of 48 elderly speakers. Using the final systems' recognition outputs to extract textual features, the best-published speech recognition based AD detection accuracy of 91.7% was obtained.
翻訳日:2022-06-28 17:18:11 公開日:2022-06-23
# debs 2022大チャレンジ:金融ダニデータにおけるトレーディングトレンドの検出

The DEBS 2022 Grand Challenge: Detecting Trading Trends in Financial Tick Data ( http://arxiv.org/abs/2206.13237v1 )

ライセンス: Link先を確認
Sebastian Frischbier, Jawad Tahir, Christoph Doblander, Arne Hormann, Ruben Mayer, Hans-Arno Jacobsen(参考訳) DEBSグランドチャレンジ(英語: DEBS Grand Challenge、GC)は、学界と産業界の両方で開催されるプログラミングコンペティションである。 GC 2022エディションは、Infront Financial Technology GmbHが提供する高ボリュームのTickデータのリアルタイム複合イベント処理に焦点を当てている。 課題の目的は、特定のトレンド指標を効率的に計算し、実際のトレーダーが金融市場で売買を決めるために使用するような指標のパターンを検出することである。 ベンチマークに使用されるデータには、アムステルダム(NL)、パリ(FR)、フランクフルト・アム・メイン(GER)の3大取引所で2021年の1週間に取引された約5500以上の金融商品の2億9900万件のイベントが含まれている。 データセットは公開されています。 正確性とパフォーマンスに加えて、提出は再利用性と実用性に明示的に焦点を合わせる必要がある。 したがって、参加者は特定の非機能要件に対処し、オープンソースプラットフォーム上に構築するよう求められる。 本稿では,要求されるシナリオとデータセットのトレーディングデータについて述べ,問題文のクエリを定義し,データ配信,動的サブスクリプション,サブミットの遠隔評価を扱う評価プラットフォームであるchallerへの拡張について説明する。

The DEBS Grand Challenge (GC) is an annual programming competition open to practitioners from both academia and industry. The GC 2022 edition focuses on real-time complex event processing of high-volume tick data provided by Infront Financial Technology GmbH. The goal of the challenge is to efficiently compute specific trend indicators and detect patterns in these indicators like those used by real-life traders to decide on buying or selling in financial markets. The data set Trading Data used for benchmarking contains 289 million tick events from approximately 5500+ financial instruments that had been traded on the three major exchanges Amsterdam (NL), Paris (FR), and Frankfurt am Main (GER) over the course of a full week in 2021. The data set is made publicly available. In addition to correctness and performance, submissions must explicitly focus on reusability and practicability. Hence, participants must address specific nonfunctional requirements and are asked to build upon open-source platforms. This paper describes the required scenario and the data set Trading Data, defines the queries of the problem statement, and explains the enhancements made to the evaluation platform Challenger that handles data distribution, dynamic subscriptions, and remote evaluation of the submissions.
翻訳日:2022-06-28 17:17:58 公開日:2022-06-23
# サプライチェーン崩壊時の生産計画適応のための新しいマルチエージェントスケジューリング機構

A Novel Multi-Agent Scheduling Mechanism for Adaptation of Production Plans in Case of Supply Chain Disruptions ( http://arxiv.org/abs/2206.12413v1 )

ライセンス: Link先を確認
Jing Tan and Lars Braubach and Kai Jander and Rongjun Xu and Kai Chen(参考訳) 製造業は通常、生産工程を最適化する高度な生産計画システムを使用し、しばしば最適に近いソリューションを提供する。 ほぼ最適スケジュールを提供するための欠点として、計画システムには高い計算要求があり、数時間の計算結果が得られる。 通常の状況では、スケジュールの実装の前に十分なバッファ時間がある場合(例えば、夜は翌日)、これは問題にならない。 しかし、部品の納入遅延や不良品などの予期せぬ混乱が発生した場合、予定日程が無効となり、迅速な再計画が必要となる。 このような即時再計画は、計算要件のために既存の最適プランナーには不向きである。 本稿では,既存の計画を用いて異なる種類の障害が発生した場合に,効果的かつ効率的に再計画を行うことのできる新しい解を提案する。 アプローチは、既存のスケジュールに可能な限り準拠するという考えに基づいており、限定的なローカル変更に基づいて適応する。 この目的のために、エージェントが材料と生産現場を表現し、局所最適化技術と交渉を使って適応した(不十分だが最適でない)スケジュールを生成するエージェントベースのスケジューリングメカニズムが考案された。 この手法はHuaweiの実際の生産データを用いて評価され、効率的なスケジュールが短時間で作成されることが示されている。 このシステムは概念実証として実装され、現在はJadexエージェントプラットフォームに基づいたプロダクションシステムに再実装されている。

Manufacturing companies typically use sophisticated production planning systems optimizing production steps, often delivering near-optimal solutions. As a downside for delivering a near-optimal schedule, planning systems have high computational demands resulting in hours of computation. Under normal circumstances this is not issue if there is enough buffer time before implementation of the schedule (e.g. at night for the next day). However, in case of unexpected disruptions such as delayed part deliveries or defectively manufactured goods, the planned schedule may become invalid and swift replanning becomes necessary. Such immediate replanning is unsuited for existing optimal planners due to the computational requirements. This paper proposes a novel solution that can effectively and efficiently perform replanning in case of different types of disruptions using an existing plan. The approach is based on the idea to adhere to the existing schedule as much as possible, adapting it based on limited local changes. For that purpose an agent-based scheduling mechanism has been devised, in which agents represent materials and production sites and use local optimization techniques and negotiations to generate an adapted (sufficient, but non-optimal) schedule. The approach has been evaluated using real production data from Huawei, showing that efficient schedules are produced in short time. The system has been implemented as proof of concept and is currently reimplemented and transferred to a production system based on the Jadex agent platform.
翻訳日:2022-06-28 16:24:15 公開日:2022-06-23
# QbyE-MLPMixer:MLPMixerを用いたオープン語彙キーワードスポッティング

QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using MLPMixer ( http://arxiv.org/abs/2206.13231v1 )

ライセンス: Link先を確認
Jinmiao Huang, Waseem Gharbieh, Qianhui Wan, Han Suk Shim, Chul Lee(参考訳) 現在のキーワードスポッティングシステムは、通常、大量の事前定義されたキーワードで訓練される。 スマートデバイスインタラクションのパーソナライズには,オープン語彙設定でのキーワード認識が不可欠である。 この目的に向けて、視覚変換器の注意機構を効果的に置き換えるMLPMixer(MLPMixer)に基づく純粋なMLPベースのニューラルネットワークを提案する。 MLPMixerアーキテクチャをQbyEオープン語彙キーワードスポッティングタスクに適用する方法について検討する。 現状のRNNモデルとCNNモデルとの比較により,400人の話者によるHey-Snipsデータセットと大規模内部データセットの両方において,挑戦的な状況(10dB環境と6dB環境)において,我々の手法がより良い性能を達成することが示された。 提案モデルでは,ベースラインモデルと比較してパラメータやMACも少ない。

Current keyword spotting systems are typically trained with a large amount of pre-defined keywords. Recognizing keywords in an open-vocabulary setting is essential for personalizing smart device interaction. Towards this goal, we propose a pure MLP-based neural network that is based on MLPMixer - an MLP model architecture that effectively replaces the attention mechanism in Vision Transformers. We investigate different ways of adapting the MLPMixer architecture to the QbyE open-vocabulary keyword spotting task. Comparisons with the state-of-the-art RNN and CNN models show that our method achieves better performance in challenging situations (10dB and 6dB environments) on both the publicly available Hey-Snips dataset and a larger scale internal dataset with 400 speakers. Our proposed model also has a smaller number of parameters and MACs compared to the baseline models.
翻訳日:2022-06-28 13:58:33 公開日:2022-06-23
# (参考訳) K-12オンライン学習における簡易かつ効果的なエクササイズレコメンデーションシステムの設計

A Design of A Simple Yet Effective Exercise Recommendation System in K-12 Online Learning ( http://arxiv.org/abs/2206.12291v1 )

ライセンス: CC BY 4.0
Shuyan Huang, Qiongqiong Liu, Jiahao Chen, Xiangen Hu, Zitao Liu, Weiqi Luo(参考訳) 本稿では,学生に高品質で多様性のあるエクササイズを推奨する簡易かつ効果的な方法を提案する。 本手法は,(1)候補生成モジュール,(2)多様性促進モジュール,(3)範囲制限モジュールの3つの主要コンポーネントから構成される。 提案手法は,リコールの観点で全体のレコメンデーション性能を向上し,レコメンデーション候補の多様性をベースラインと比較して0.81\%向上させる。

We propose a simple but effective method to recommend exercises with high quality and diversity for students. Our method is made up of three key components: (1) candidate generation module; (2) diversity-promoting module; and (3) scope restriction module. The proposed method improves the overall recommendation performance in terms of recall, and increases the diversity of the recommended candidates by 0.81\% compared to the baselines.
翻訳日:2022-06-28 09:00:43 公開日:2022-06-23
# (参考訳) InfoAT:Information Bottleneck Principle を用いた対人訓練の改善

InfoAT: Improving Adversarial Training Using the Information Bottleneck Principle ( http://arxiv.org/abs/2206.12292v1 )

ライセンス: CC BY 4.0
Mengting Xu, Tao Zhang, Zhongnian Li, Daoqiang Zhang(参考訳) 対人訓練 (AT) は, 対人訓練に対して優れた成績を示した。 近年の研究では、AT中のモデルの最終ロバスト性には例が等しく重要でないことが示されており、いわゆるハード例は最終ロバスト性に対するロバスト性よりも容易に攻撃できる。 したがって、モデルの最終的な堅牢性を改善するためには、ハードサンプルの堅牢性を保証することが不可欠である。 しかし、難しい例を探すための効果的なヒューリスティックスを定義することは依然として難しい。 本稿では、情報ボトルネック(IB)の原則に着想を得て、入力と関連する潜伏表現の相互情報が高い例が攻撃されやすいことを明らかにする。 そこで本研究では,新しい効果的な対人訓練法(InfoAT)を提案する。 infoatは、高い相互情報を持つ例を見つけ、それらを効率的に活用してモデルの最終的な堅牢性を改善することを推奨されている。 実験の結果,InfoATはいくつかの最先端手法と比較して,異なるデータセットやモデル間で最高の堅牢性を達成していることがわかった。

Adversarial training (AT) has shown excellent high performance in defending against adversarial examples. Recent studies demonstrate that examples are not equally important to the final robustness of models during AT, that is, the so-called hard examples that can be attacked easily exhibit more influence than robust examples on the final robustness. Therefore, guaranteeing the robustness of hard examples is crucial for improving the final robustness of the model. However, defining effective heuristics to search for hard examples is still difficult. In this article, inspired by the information bottleneck (IB) principle, we uncover that an example with high mutual information of the input and its associated latent representation is more likely to be attacked. Based on this observation, we propose a novel and effective adversarial training method (InfoAT). InfoAT is encouraged to find examples with high mutual information and exploit them efficiently to improve the final robustness of models. Experimental results show that InfoAT achieves the best robustness among different datasets and models in comparison with several state-of-the-art methods.
翻訳日:2022-06-28 08:55:56 公開日:2022-06-23
# (参考訳) マニフォールドに基づく翼形状特徴抽出と離散データ融合学習法

A Manifold-based Airfoil Geometric-feature Extraction and Discrepant Data Fusion Learning Method ( http://arxiv.org/abs/2206.12254v1 )

ライセンス: CC BY 4.0
Yu Xiang, Guangbo Zhang, Liwei Hu, Jun Zhang, Wenyong Wang(参考訳) 翼の幾何学的形状は、対応する飛行条件とともに、空気力学的性能予測の重要な要素である。 得られた翼の幾何学的特徴(例えば幾何学的パラメータ抽出、多項式記述、深層学習)はユークリッド空間にある。 最先端の研究は、翼の曲線や曲面がリーマン空間の多様体を形成することを示した。 したがって、既存の方法で抽出した特徴は、翼の幾何学的特徴を反映するのに十分ではない。 一方、飛行条件と幾何学的特徴は異なる種類と大きく異なっており、これら2つの要因の影響に関する関連する知識は、最終的な空力性能予測を評価・学習し、予測精度を向上させる必要がある。 本稿では,多様体理論とマルチタスク学習の利点に動機づけられ,リーマン空間における翼の幾何学的特徴を抽出するための多様体型翼型幾何学的特徴抽出・離散化データ融合学習法(mdf)を提案し,さらにその特徴を飛行条件と融合して空力性能を予測する。 実験結果から,本手法は従来手法よりも高精度に翼の幾何学的特徴を抽出し,再建翼の平均MSEを56.33%削減し,CLの予測精度を維持しつつ,MDFにより予測されるCDのMSEをさらに35.37%削減できることが示唆された。

Geometrical shape of airfoils, together with the corresponding flight conditions, are crucial factors for aerodynamic performances prediction. The obtained airfoils geometrical features in most existing approaches (e.g., geometrical parameters extraction, polynomial description and deep learning) are in Euclidean space. State-of-the-art studies showed that curves or surfaces of an airfoil formed a manifold in Riemannian space. Therefore, the features extracted by existing methods are not sufficient to reflect the geometric-features of airfoils. Meanwhile, flight conditions and geometric features are greatly discrepant with different types, the relevant knowledge of the influence of these two factors that on final aerodynamic performances predictions must be evaluated and learned to improve prediction accuracy. Motivated by the advantages of manifold theory and multi-task learning, we propose a manifold-based airfoil geometric-feature extraction and discrepant data fusion learning method (MDF) to extract geometric-features of airfoils in Riemannian space (we call them manifold-features) and further fuse the manifold-features with flight conditions to predict aerodynamic performances. Experimental results show that our method could extract geometric-features of airfoils more accurately compared with existing methods, that the average MSE of re-built airfoils is reduced by 56.33%, and while keeping the same predicted accuracy level of CL, the MSE of CD predicted by MDF is further reduced by 35.37%.
翻訳日:2022-06-28 08:33:22 公開日:2022-06-23
# (参考訳) indecision tree: 量化不確実性下での議論に基づく推論の学習

Indecision Trees: Learning Argument-Based Reasoning under Quantified Uncertainty ( http://arxiv.org/abs/2206.12252v1 )

ライセンス: CC BY-SA 4.0
Jonathan S. Kent, David H. Menager(参考訳) 現実世界での機械学習システムの使用は、しばしば問題となり、説明不能なブラックボックスモデル、不完全な測定の仮定された確実性、確率分布の代わりに単一の分類を提供する。 本稿では,不確実性の下で学習し,不確実性の下で推論を行い,可能なラベル上で強固な分布を提供し,他の推論システムで使用する論理的な引数の集合に分解できる決定木の改良であるindecision treeを提案する。

Using Machine Learning systems in the real world can often be problematic, with inexplicable black-box models, the assumed certainty of imperfect measurements, or providing a single classification instead of a probability distribution. This paper introduces Indecision Trees, a modification to Decision Trees which learn under uncertainty, can perform inference under uncertainty, provide a robust distribution over the possible labels, and can be disassembled into a set of logical arguments for use in other reasoning systems.
翻訳日:2022-06-28 08:10:00 公開日:2022-06-23
# (参考訳) agriculture-vision challenge 2022 --transformer-based modelによる農業パターン認識の次点ソリューション

Agriculture-Vision Challenge 2022 -- The Runner-Up Solution for Agricultural Pattern Recognition via Transformer-based Models ( http://arxiv.org/abs/2206.11920v1 )

ライセンス: CC BY 4.0
Zhicheng Yang, Jui-Hsin Lai, Jun Zhou, Hang Zhou, Chen Du, Zhongcheng Lai(参考訳) CVPRにおける農業ビジョンチャレンジは、地球規模の研究者がコンピュータビジョンと農業セクターの境界を破り、空中画像から農業パターンの認識を目指す最も有名で競争の激しい課題の1つである。 本稿では,CVPR 2022の第3回農業ビジョンチャレンジの解決策を提案する。 我々は,データ前処理方式とトランスフォーマーベースモデル,およびデータ拡張技術を活用して0.582mIoUを実現し,この課題において2位となる。

The Agriculture-Vision Challenge in CVPR is one of the most famous and competitive challenges for global researchers to break the boundary between computer vision and agriculture sectors, aiming at agricultural pattern recognition from aerial images. In this paper, we propose our solution to the third Agriculture-Vision Challenge in CVPR 2022. We leverage a data pre-processing scheme and several Transformer-based models as well as data augmentation techniques to achieve a mIoU of 0.582, accomplishing the 2nd place in this challenge.
翻訳日:2022-06-28 08:00:03 公開日:2022-06-23
# (参考訳) 世界規模のAI倫理:AIガバナンスに関する200のガイドラインと勧告のレビュー

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance ( http://arxiv.org/abs/2206.11922v1 )

ライセンス: CC BY 4.0
Nicholas Kluge Corr\^ea, Camila Galv\~ao, James William Santos, Carolina Del Pino, Edson Pontes Pinto, Camila Barbosa, Diogo Massmann, Rodrigo Mambrini, Luiza Galv\~ao, Edmund Terem(参考訳) 過去10年間で、多くの組織が規範的な意味で標準化を意図したドキュメントを作成し、最近のAI開発へのガイダンスを促進してきました。 しかし、これらの文書で提示されるアイデアの完全な内容とばらつきは、いくつかのメタ分析と批判的レビューを除いてまだ分析されていない。 本研究では,過去の研究者による作業の拡大と,これらの文書の内容と性質をよりよく視覚化するツールの開発を目的とする。 また、本ツールの適用により得られた結果を200文書のサンプルサイズに分析する。

In the last decade, a great number of organizations have produced documents intended to standardize, in the normative sense, and promote guidance to our recent and rapid AI development. However, the full content and divergence of ideas presented in these documents have not yet been analyzed, except for a few meta-analyses and critical reviews of the field. In this work, we seek to expand on the work done by past researchers and create a tool for better data visualization of the contents and nature of these documents. We also provide our critical analysis of the results acquired by the application of our tool into a sample size of 200 documents.
翻訳日:2022-06-28 07:56:00 公開日:2022-06-23
# (参考訳) トラジェクトリは動詞の意味をコード化するか?

Do Trajectories Encode Verb Meaning? ( http://arxiv.org/abs/2206.11953v1 )

ライセンス: CC BY 4.0
Dylan Ebert, Chen Sun, Ellie Pavlick(参考訳) 分布モデルは、テキストから単語の表現を学習するが、基礎の欠如や非言語的世界へのテキストのリンクが批判される。 接地言語モデルは、画像やビデオを通して名詞や形容詞といった具体的なカテゴリーを世界に結びつけることに成功したが、動詞自体の意味を通常発生する文脈から分離するのに苦労することがある。 本稿では, 動詞意味論を自然にエンコードするトラジェクタ(つまり, 物体の位置と回転)の程度について検討する。 我々は、手続き的に生成されたエージェントオブジェクト-相互作用データセットを構築し、このデータで発生する動詞に対する人間のアノテーションを取得し、軌跡から学習を表現するためのいくつかの方法と比較する。 トラジェクトリは、いくつかの動詞(例えば、転倒)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンスな違い(例えば、ロール対スライド)をさらに捉えることができる。

Distributional models learn representations of words from text, but are criticized for their lack of grounding, or the linking of text to the non-linguistic world. Grounded language models have had success in learning to connect concrete categories like nouns and adjectives to the world via images and videos, but can struggle to isolate the meaning of the verbs themselves from the context in which they typically occur. In this paper, we investigate the extent to which trajectories (i.e. the position and rotation of objects over time) naturally encode verb semantics. We build a procedurally generated agent-object-interaction dataset, obtain human annotations for the verbs that occur in this data, and compare several methods for representation learning given the trajectories. We find that trajectories correlate as-is with some verbs (e.g., fall), and that additional abstraction via self-supervised pretraining can further capture nuanced differences in verb meaning (e.g., roll vs. slide).
翻訳日:2022-06-28 07:31:21 公開日:2022-06-23
# (参考訳) 対話型量子古典変動アルゴリズムによる量子対称性の学習

Learning quantum symmetries with interactive quantum-classical variational algorithms ( http://arxiv.org/abs/2206.11970v1 )

ライセンス: CC BY 4.0
Jonathan Z. Lu, Rodrigo A. Bravo, Kaiying Hou, Gebremedhin A. Dagnew, Susanne F. Yelin, Khadijeh Najafi(参考訳) 状態の対称性$\lvert \psi \rangle$ はユニタリ作用素であり、$\lvert \psi \rangle$ は固有ベクトルである。 もし$\lvert \psi \rangle$ がブラックボックスのオラクルから供給される未知の状態であるとき、州の対称性はそれを特徴付けるのに役立ち、しばしば$\lvert \psi \rangle$に関する望ましい情報の多くを再送する。 本稿では,その状態に関する前提条件のない$\lvert \psi \rangle$の対称性を体系的に探索する変動型ハイブリッド量子古典学習手法を開発する。 この手順は様々な対称性を同時に学習するために使用することができる。 既知の対称性の再学習を避けるため,古典的なディープニューラルネットワークを用いた対話型プロトコルを提案する。 これにより、古典ネットは反復的な発見に対して規則化され、我々のアルゴリズムは可能なすべての対称性で経験的に終了する。 提案手法は非局所的なSWAPゲートで平均的に効率よく実装でき、局所的な演算しか持たないより効率の悪いアルゴリズムも提案する。 我々は、国家の代表的家族にアルゴリズムを実演する。

A symmetry of a state $\lvert \psi \rangle$ is a unitary operator of which $\lvert \psi \rangle$ is an eigenvector. When $\lvert \psi \rangle$ is an unknown state supplied by a black-box oracle, the state's symmetries serve to characterize it, and often relegate much of the desired information about $\lvert \psi \rangle$. In this paper, we develop a variational hybrid quantum-classical learning scheme to systematically probe for symmetries of $\lvert \psi \rangle$ with no a priori assumptions about the state. This procedure can be used to learn various symmetries at the same time. In order to avoid re-learning already known symmetries, we introduce an interactive protocol with a classical deep neural net. The classical net thereby regularizes against repetitive findings and allows our algorithm to terminate empirically with all possible symmetries found. Our scheme can be implemented efficiently on average with non-local SWAP gates; we also give a less efficient algorithm with only local operations, which may be more appropriate for current noisy quantum devices. We demonstrate our algorithm on representative families of states.
翻訳日:2022-06-28 07:17:32 公開日:2022-06-23
# (参考訳) タスク適応型Few-shotノード分類

Task-Adaptive Few-shot Node Classification ( http://arxiv.org/abs/2206.11972v1 )

ライセンス: CC BY 4.0
Song Wang, Kaize Ding, Chuxu Zhang, Chen Chen, Jundong Li(参考訳) ノード分類は様々なグラフマイニングタスクにおいて非常に重要である。 実際、実世界のグラフは一般にロングテール分布に従い、多くのクラスは制限されたラベル付きノードのみで構成される。 グラフニューラルネットワーク(gnns)はノード分類を大幅に改善したが、そのような少数のシナリオでは性能が大幅に低下する。 主な理由は、メタタスクにおける異なるノード/クラス分布(ノードレベルとクラスレベルの分散)に起因するタスクの分散に起因する、メタトレーニングとメタテストの間の大きな一般化ギャップに起因する。 そこで本研究では,タスク分散の影響を効果的に緩和するために,タスク適応型ノード分類フレームワークを提案する。 具体的には,ラベル付きノードが豊富なクラスにメタ知識を蓄積する。 次に,提案するタスク適応モジュールを通じて,制限されたラベル付きノードを持つクラスにその知識を転送する。 特に、メタタスク間の異なるノード/クラス分布に対応するために、各メタタスクにそれぞれ \emph{node-level} と \emph{class-level} と \emph{task-level} を適応させる3つの必須モジュールを提案する。 このようにして、我々のフレームワークは異なるメタタスクに適応し、メタテストタスクにおけるモデル一般化性能を前進させることができる。 4つのノード分類データセットに対する大規模な実験は、我々のフレームワークが最先端のベースラインよりも優れていることを示す。 我々のコードはhttps://github.com/SongW-SW/TENT.comで提供されている。

Node classification is of great importance among various graph mining tasks. In practice, real-world graphs generally follow the long-tail distribution, where a large number of classes only consist of limited labeled nodes. Although Graph Neural Networks (GNNs) have achieved significant improvements in node classification, their performance decreases substantially in such a few-shot scenario. The main reason can be attributed to the vast generalization gap between meta-training and meta-test due to the task variance caused by different node/class distributions in meta-tasks (i.e., node-level and class-level variance). Therefore, to effectively alleviate the impact of task variance, we propose a task-adaptive node classification framework under the few-shot learning setting. Specifically, we first accumulate meta-knowledge across classes with abundant labeled nodes. Then we transfer such knowledge to the classes with limited labeled nodes via our proposed task-adaptive modules. In particular, to accommodate the different node/class distributions among meta-tasks, we propose three essential modules to perform \emph{node-level}, \emph{class-level}, and \emph{task-level} adaptations in each meta-task, respectively. In this way, our framework can conduct adaptations to different meta-tasks and thus advance the model generalization performance on meta-test tasks. Extensive experiments on four prevalent node classification datasets demonstrate the superiority of our framework over the state-of-the-art baselines. Our code is provided at https://github.com/SongW-SW/TENT.
翻訳日:2022-06-28 06:56:28 公開日:2022-06-23
# (参考訳) 最適輸送を全ての外れ値に頑健なものにすること

On making optimal transport robust to all outliers ( http://arxiv.org/abs/2206.11988v1 )

ライセンス: CC BY 4.0
Kilian Fatras(参考訳) 最適輸送(OT)は、限界制約のため、外れ値に敏感であることが知られている。 外れ値のロバストなot変種は、外れ値が移動に費用がかかるサンプルであるという定義に基づいて提案されている。 本稿では, クリーンサンプルよりも外周が目標値に近い場合を考えることで, この定義が制限されていることを示す。 より堅牢なOTは,これらのアウトレーラを完全に輸送し,実際のパフォーマンスが低下することを示す。 これらの異常値に対処するために, 対象サンプルを分類するために, 敵の訓練で訓練された分類器を頼りに検出する。 すると、分類器からの予測が割り当てられたラベルと異なる場合、サンプルは外れ値と見なされる。 輸送問題におけるこれらの外れ値の影響を低減するため,分類器予測を用いて,問題から除去するか,移動コストを増大させるかを提案する。 我々は,これらの異常値の検出に成功し,勾配流,生成モデル,ラベル伝搬などの実験において輸送問題に影響を及ぼさないことを示す。

Optimal transport (OT) is known to be sensitive against outliers because of its marginal constraints. Outlier robust OT variants have been proposed based on the definition that outliers are samples which are expensive to move. In this paper, we show that this definition is restricted by considering the case where outliers are closer to the target measure than clean samples. We show that outlier robust OT fully transports these outliers leading to poor performances in practice. To tackle these outliers, we propose to detect them by relying on a classifier trained with adversarial training to classify source and target samples. A sample is then considered as an outlier if the prediction from the classifier is different from its assigned label. To decrease the influence of these outliers in the transport problem, we propose to either remove them from the problem or to increase the cost of moving them by using the classifier prediction. We show that we successfully detect these outliers and that they do not influence the transport problem on several experiments such as gradient flows, generative models and label propagation.
翻訳日:2022-06-28 06:37:40 公開日:2022-06-23
# (参考訳) Equiformer: 3D Atomistic Graphs用の同変グラフアテンション変換器

Equiformer: Equivariant Graph Attention Transformer for 3D Atomistic Graphs ( http://arxiv.org/abs/2206.11990v1 )

ライセンス: CC BY 4.0
Yi-Lun Liao and Tess Smidt(参考訳) 翻訳不変性や回転等価性のような3D関連帰納バイアスは、分子のような3次元原子論グラフで動くグラフニューラルネットワークには不可欠である。 様々な領域におけるトランスフォーマーの成功に触発されて,これらのインダクティブバイアスをトランスフォーマーに組み込む方法について検討する。 本稿では,Transformerアーキテクチャの強みを利用したグラフニューラルネットワークであるEquiformerを提案し,既約表現(不整形)に基づく$SE(3)/E(3)$-equivariant特徴を取り入れた。 irrepsの特徴は、グラフ構造を複雑にすることなく、チャネル次元の同変情報を符号化する。 単純さによって、元の操作を等価な操作に置き換えることで、それらを直接組み込むことができます。 さらに,トランスフォーマティブを3次元グラフにうまく適応させるため,irreps特徴に含まれる相対位置などの内容情報と幾何学的情報の両方を考慮した,新しい等変グラフ注目法を提案する。 注意の表現性を向上させるため,dot製品注目を多層パーセプトロン注目に置き換え,非線形メッセージパッシングを含む。 我々はEquiformerを2つの量子特性予測データセット、QM9とOC20でベンチマークした。 QM9の場合、同じデータパーティションでトレーニングされたモデルの中で、Equiformerは12の回帰タスクのうち11で最高の結果を得る。 OC20では、IS2REデータとオプションでIS2RSデータを使用したトレーニングの設定の下で、Equiformerは最先端のモデルを改善する。 主要な結果をすべて再現するコードも近く公開される。

3D-related inductive biases like translational invariance and rotational equivariance are indispensable to graph neural networks operating on 3D atomistic graphs such as molecules. Inspired by the success of Transformers in various domains, we study how to incorporate these inductive biases into Transformers. In this paper, we present Equiformer, a graph neural network leveraging the strength of Transformer architectures and incorporating $SE(3)/E(3)$-equivariant features based on irreducible representations (irreps). Irreps features encode equivariant information in channel dimensions without complicating graph structures. The simplicity enables us to directly incorporate them by replacing original operations with equivariant counterparts. Moreover, to better adapt Transformers to 3D graphs, we propose a novel equivariant graph attention, which considers both content and geometric information such as relative position contained in irreps features. To improve expressivity of the attention, we replace dot product attention with multi-layer perceptron attention and include non-linear message passing. We benchmark Equiformer on two quantum properties prediction datasets, QM9 and OC20. For QM9, among models trained with the same data partition, Equiformer achieves best results on 11 out of 12 regression tasks. For OC20, under the setting of training with IS2RE data and optionally IS2RS data, Equiformer improves upon state-of-the-art models. Code reproducing all main results will be available soon.
翻訳日:2022-06-28 06:03:40 公開日:2022-06-23
# (参考訳) GPT-3生成自由言語におけるビアーゼに向けた障害レンズ

A Disability Lens towards Biases in GPT-3 Generated Open-Ended Languages ( http://arxiv.org/abs/2206.11993v1 )

ライセンス: CC BY 4.0
Akhter Al Amin, Kazi Sinthia Kabir(参考訳) 言語モデル(LM)は、世界中の多くの言語ベースのアプリケーション空間で普及している。 これらのlmsは私たちの日々のデジタル製品とのインタラクションを改善していますが、これらのモデルから生成されたオープンエンド言語やテキストが特定のグループに対するバイアスを明らかにしているかどうかについては、依然として懸念があります。 これらのモデルが、これらのモデルの公平性を改善するためにバイアスを持っているかどうかを特定する必要がある。 このギャップは、障害レンズによるGPT-3生成テキストにおけるバイアスの2つの側面を計測する、現在進行中の作業のモチベーションとなる。

Language models (LM) are becoming prevalent in many language-based application spaces globally. Although these LMs are improving our day-to-day interactions with digital products, concerns remain whether open-ended languages or text generated from these models reveal any biases toward a specific group of people, thereby risking the usability of a certain product. There is a need to identify whether these models possess bias to improve the fairness in these models. This gap motivates our ongoing work, where we measured the two aspects of bias in GPT-3 generated text through a disability lens.
翻訳日:2022-06-28 05:28:49 公開日:2022-06-23
# (参考訳) リアルディール:現実に向けての強化学習に基づく交通信号制御システムへの移行における課題と機会

The Real Deal: A Review of Challenges and Opportunities in Moving Reinforcement Learning-Based Traffic Signal Control Systems Towards Reality ( http://arxiv.org/abs/2206.11996v1 )

ライセンス: CC BY 4.0
Rex Chen, Fei Fang, Norman Sadeh(参考訳) 交通信号制御 (TSC) は, 交通量の増加に伴い, 重要度の高い領域である。 TSCに強化学習(RL)を適用する作業が増えており、RLは信号処理効率を向上させるために大量のトラフィックデータを描画することができる。 しかし、rlベースの信号制御装置はデプロイされていない。 本稿では,RTLがTSCにデプロイされる前に対処しなければならない課題について,最初のレビューを行う。 我々は,(1)検知の不確実性,(2)コミュニケーションの信頼性,(3)コンプライアンスと解釈可能性,(4)異種道路利用者の4つの課題に焦点を当てた。 RL ベースの TSC に関する文献は,各課題の解決に向けてある程度進展している。 しかしながら、他のパイプラインコンポーネントがRLに与える影響を考慮したシステム思考アプローチは、より多くの作業が必要になる。

Traffic signal control (TSC) is a high-stakes domain that is growing in importance as traffic volume grows globally. An increasing number of works are applying reinforcement learning (RL) to TSC; RL can draw on an abundance of traffic data to improve signalling efficiency. However, RL-based signal controllers have never been deployed. In this work, we provide the first review of challenges that must be addressed before RL can be deployed for TSC. We focus on four challenges involving (1) uncertainty in detection, (2) reliability of communications, (3) compliance and interpretability, and (4) heterogeneous road users. We show that the literature on RL-based TSC has made some progress towards addressing each challenge. However, more work should take a systems thinking approach that considers the impacts of other pipeline components on RL.
翻訳日:2022-06-28 05:19:29 公開日:2022-06-23
# (参考訳) STREAMLINE: データ分析とアルゴリズムの比較を専門とする、シンプルで透明でエンドツーエンドの機械学習パイプライン

STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning Pipeline Facilitating Data Analysis and Algorithm Comparison ( http://arxiv.org/abs/2206.12002v1 )

ライセンス: CC BY 4.0
Ryan J. Urbanowicz, Robert Zhang, Yuhan Cui, Pranshu Suri(参考訳) 機械学習(ML)は、大きな特徴空間と複雑な関連を持つデータにおいて、関連を検出し、モデル化するための強力な方法を提供する。 多くの便利なツール/パッケージ(例えばscikit-learn)が、データの処理、処理、モデリング、そして解釈の様々な要素をアクセスできるように開発されている。 しかし、ほとんどの研究者がこれらの要素を厳格で複製可能で、偏りがなく、効果的なデータ分析パイプラインに組み立てるのは簡単ではない。 Automated Machine Learning (AutoML)は、ML分析のプロセスをシンプルにすることで、これらの問題に対処しようとしている。 本稿では、厳密なMLモデリングと分析(当初はバイナリ分類に限られる)を容易に行うためのフレームワークとして設計された、シンプルで透明でエンドツーエンドのAutoMLパイプラインであるSTREAMLINEを紹介する。 STREAMLINEは、データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。 It is unique among other autoML tools by offering a fully transparent and consistent baseline of comparison using a carefully designed series of pipeline elements including: (1) exploratory analysis, (2) basic data cleaning, (3) cross validation partitioning, (4) data scaling and imputation, (5) filter-based feature importance estimation, (6) collective feature selection, (7) ML modeling with `Optuna' hyperparameter optimization across 15 established algorithms (including less well-known Genetic Programming and rule-based ML), (8) evaluation across 16 classification metrics, (9) model feature importance estimation, (10) statistical significance comparisons, and (11) automatically exporting all results, plots, a PDF summary report, and models that can be easily applied to replication data.

Machine learning (ML) offers powerful methods for detecting and modeling associations often in data with large feature spaces and complex associations. Many useful tools/packages (e.g. scikit-learn) have been developed to make the various elements of data handling, processing, modeling, and interpretation accessible. However, it is not trivial for most investigators to assemble these elements into a rigorous, replicatable, unbiased, and effective data analysis pipeline. Automated machine learning (AutoML) seeks to address these issues by simplifying the process of ML analysis for all. Here, we introduce STREAMLINE, a simple, transparent, end-to-end AutoML pipeline designed as a framework to easily conduct rigorous ML modeling and analysis (limited initially to binary classification). STREAMLINE is specifically designed to compare performance between datasets, ML algorithms, and other AutoML tools. It is unique among other autoML tools by offering a fully transparent and consistent baseline of comparison using a carefully designed series of pipeline elements including: (1) exploratory analysis, (2) basic data cleaning, (3) cross validation partitioning, (4) data scaling and imputation, (5) filter-based feature importance estimation, (6) collective feature selection, (7) ML modeling with `Optuna' hyperparameter optimization across 15 established algorithms (including less well-known Genetic Programming and rule-based ML), (8) evaluation across 16 classification metrics, (9) model feature importance estimation, (10) statistical significance comparisons, and (11) automatically exporting all results, plots, a PDF summary report, and models that can be easily applied to replication data.
翻訳日:2022-06-28 04:40:53 公開日:2022-06-23
# (参考訳) 指導助手の重み付けアンサンブルによる知識蒸留

Knowledge Distillation via Weighted Ensemble of Teaching Assistants ( http://arxiv.org/abs/2206.12005v1 )

ライセンス: CC BY 4.0
Durga Prasad Ganta, Himel Das Gupta, Victor S. Sheng(参考訳) 機械学習における知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を伝達する過程である。 知識蒸留(英: knowledge distillation)は、大規模ネットワーク(教師)をより小さなネットワーク(学生)に圧縮し、携帯電話などの小型デバイスにデプロイする技術の一つである。 教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。 この問題を解決するために、教師モデルと教師アシスタントモデルとして知られる学生モデルとの間の中間モデルを用いて、教師と生徒のギャップを埋める。 本研究では,複数の指導支援モデルを用いて,学生モデル(より小さいモデル)をさらに改良できることを実証した。 重み付きアンサンブル学習を用いて、重み値を生成するために差分評価最適化アルゴリズムを用いて、これらの複数の指導支援モデルを組み合わせる。

Knowledge distillation in machine learning is the process of transferring knowledge from a large model called the teacher to a smaller model called the student. Knowledge distillation is one of the techniques to compress the large network (teacher) to a smaller network (student) that can be deployed in small devices such as mobile phones. When the network size gap between the teacher and student increases, the performance of the student network decreases. To solve this problem, an intermediate model is employed between the teacher model and the student model known as the teaching assistant model, which in turn bridges the gap between the teacher and the student. In this research, we have shown that using multiple teaching assistant models, the student model (the smaller model) can be further improved. We combined these multiple teaching assistant models using weighted ensemble learning where we have used a differential evaluation optimization algorithm to generate the weight values.
翻訳日:2022-06-28 04:18:12 公開日:2022-06-23
# (参考訳) マンモグラフィにおける乳房密度のコンフォメーション予測の3つの応用

Three Applications of Conformal Prediction for Rating Breast Density in Mammography ( http://arxiv.org/abs/2206.12008v1 )

ライセンス: CC BY 4.0
Charles Lu, Ken Chang, Praveer Singh, Jayashree Kalpathy-Cramer(参考訳) 乳癌は最も一般的ながんであり、マンモグラフィスクリーニングによる早期発見は患者の予後改善に不可欠である。 乳房密度の評価は, 乳房密度が高いほど臨床的に重要であり, 腫瘍を閉塞する可能性も高い。 専門家による手動評価は、時間的消費とレート間変動の両方がある。 このように、乳房の乳房密度評価のための深層学習手法の開発への関心が高まっている。 深層学習は、マンモグラフィーの応用のためのいくつかの予測タスクにおいて印象的な性能を示したが、ディープラーニングシステムの臨床展開はまだ比較的稀であり、歴史的にコンピュータ支援診断(CAD)は過度に進歩し、提供に失敗している。 これは部分的には、臨床医のアルゴリズムの不確かさを直感的に定量化できないためであり、ユーザビリティが大幅に向上する。 共形予測は、ディープラーニングツールの信頼性と信頼性を高めるのに適しているが、医療データセットでの現実的な評価には欠けている。 本稿では, 医用画像診断における適合予測の応用について, 分布シフト特性, 予測品質改善, サブグループフェアネス分析の3つの応用の可能性について詳細に分析する。 本研究は,AIアルゴリズムの信頼度を高め,使用法への翻訳を迅速化するための,分布のない不確実性定量化手法の可能性を示す。

Breast cancer is the most common cancers and early detection from mammography screening is crucial in improving patient outcomes. Assessing mammographic breast density is clinically important as the denser breasts have higher risk and are more likely to occlude tumors. Manual assessment by experts is both time-consuming and subject to inter-rater variability. As such, there has been increased interest in the development of deep learning methods for mammographic breast density assessment. Despite deep learning having demonstrated impressive performance in several prediction tasks for applications in mammography, clinical deployment of deep learning systems in still relatively rare; historically, mammography Computer-Aided Diagnoses (CAD) have over-promised and failed to deliver. This is in part due to the inability to intuitively quantify uncertainty of the algorithm for the clinician, which would greatly enhance usability. Conformal prediction is well suited to increase reliably and trust in deep learning tools but they lack realistic evaluations on medical datasets. In this paper, we present a detailed analysis of three possible applications of conformal prediction applied to medical imaging tasks: distribution shift characterization, prediction quality improvement, and subgroup fairness analysis. Our results show the potential of distribution-free uncertainty quantification techniques to enhance trust on AI algorithms and expedite their translation to usage.
翻訳日:2022-06-28 04:08:47 公開日:2022-06-23
# 信頼せず、常に検証する : 信頼できるAIのロードマップ

Never trust, always verify : a roadmap for Trustworthy AI? ( http://arxiv.org/abs/2206.11981v1 )

ライセンス: Link先を確認
Lionel Nganyewou Tidjon and Foutse Khomh(参考訳) 人工知能(AI)は、自動運転車、医療システム、無人航空機システムなど、私たちの日常生活で使われている多くのシステムの基盤となっている。 機械学習はAIの分野であり、システムはデータから学び、モデルに基づいた新しいデータに基づいて決定を行い、与えられた目標を達成することができる。 aiモデルの確率的性質は検証と検証のタスクを困難にする。 さらに、aiモデルには、再生産性バイアス、選択バイアス(人種、性別、色など)、報告バイアス(現実を反映しない結果)といった本質的なバイアスがある。 また、AIの倫理的、法的、社会的影響にも注意が向けられている。 AIシステムはブラックボックスの性質のため、監査と認証が難しい。 信頼できないデータが与えられたとき、AIシステムは誤った振る舞いをする可能性があるため、安全で安全ではない。 政府、国家、国際機関はこれらの課題を克服するためのいくつかの原則を提案してきたが、実際には適用範囲は限られており、実装を偏見できる原則には異なる解釈がある。 本稿では,AIシステムが信頼に値することの意味を理解するために,AIベースのシステムのコンテキストにおける信頼を検証し,AIシステムが信頼に値することを保証するために実施すべき行動を特定する。 この目標を達成するために、我々は、信頼に値するAIが何であるかを理解するための潜在的な概念的ギャップを特定するために、AIシステムの信頼性を保証するために提案された既存のアプローチを最初にレビューする。 そして、AIのための信頼モデルを提案し、AIシステムの信頼性を確保するために満足すべき特性のセットを提案する。

Artificial Intelligence (AI) is becoming the corner stone of many systems used in our daily lives such as autonomous vehicles, healthcare systems, and unmanned aircraft systems. Machine Learning is a field of AI that enables systems to learn from data and make decisions on new data based on models to achieve a given goal. The stochastic nature of AI models makes verification and validation tasks challenging. Moreover, there are intrinsic biaises in AI models such as reproductibility bias, selection bias (e.g., races, genders, color), and reporting bias (i.e., results that do not reflect the reality). Increasingly, there is also a particular attention to the ethical, legal, and societal impacts of AI. AI systems are difficult to audit and certify because of their black-box nature. They also appear to be vulnerable to threats; AI systems can misbehave when untrusted data are given, making them insecure and unsafe. Governments, national and international organizations have proposed several principles to overcome these challenges but their applications in practice are limited and there are different interpretations in the principles that can bias implementations. In this paper, we examine trust in the context of AI-based systems to understand what it means for an AI system to be trustworthy and identify actions that need to be undertaken to ensure that AI systems are trustworthy. To achieve this goal, we first review existing approaches proposed for ensuring the trustworthiness of AI systems, in order to identify potential conceptual gaps in understanding what trustworthy AI is. Then, we suggest a trust (resp. zero-trust) model for AI and suggest a set of properties that should be satisfied to ensure the trustworthiness of AI systems.
翻訳日:2022-06-27 14:28:23 公開日:2022-06-23
# 推薦システムにおけるインテリジェント要求戦略設計

Intelligent Request Strategy Design in Recommender System ( http://arxiv.org/abs/2206.12296v1 )

ライセンス: Link先を確認
Xufeng Qian, Yue Xu, Fuyu Lv, Shengyu Zhang, Ziwen Jiang, Qingwen Liu, Xiaoyi Zeng, Tat-Seng Chua, Fei Wu(参考訳) ウォーターフォール・リコメンダー・システム(Waterfall Recommender System, RS)は、モバイルアプリケーションで一般的なRSの形式であり、スクロールで閲覧できる連続したページからなる推奨項目のストリームである。 ウォーターフォールrsでは、ユーザがページブラウジングを終えると、エッジ(例えば携帯電話)がクラウドサーバにリクエストを送り、ページング要求メカニズムとして知られる新しいレコメンデーションページを取得する。 RSは典型的には大量のアイテムを1ページに配置して、多数のページング要求から過剰なリソース消費を減らすが、RSがユーザのリアルタイムの関心に応じてリコメンデーションをタイムリに更新する能力は低下し、ユーザエクスペリエンスが低下する。 直感的には、レコメンデーションを高い頻度で更新するためにページ内に追加のリクエストを挿入することで、問題を軽減することができる。 しかし、非適応戦略(例えば、リクエストを均一に挿入する)のみを含む以前の試みは、最終的にリソースの消費過剰につながる。 この目的のために我々は、Intelligent Request Strategy Design (IRSD)というエッジインテリジェンスの新しい学習タスクを構想する。 ユーザのリアルタイム意図に基づいて、リクエスト挿入の適切なタイミングを決定することにより、ウォーターフォールrssの有効性を向上させることを目的としている。 さらに,uplift-based on-edge smart request framework (adarequest) という,適応型要求挿入戦略の新しいパラダイムを提案する。 AdaRequest 1)注目型ニューラルネットワークに基づくリアルタイム行動と過去の関心とをマッチングすることにより,ユーザの意図の動的変化を捉える。 2) 因果推論に基づいて,挿入要求によって引き起こされるユーザ購入の反実的上昇を推定する。 3)オンラインリソース制約下でユーティリティ機能を最大化することにより,最終要求挿入戦略を決定する。 AdaRequestの有効性を検証するために、オフラインデータセットとオンラインA/Bテストの両方で広範な実験を行う。

Waterfall Recommender System (RS), a popular form of RS in mobile applications, is a stream of recommended items consisting of successive pages that can be browsed by scrolling. In waterfall RS, when a user finishes browsing a page, the edge (e.g., mobile phones) would send a request to the cloud server to get a new page of recommendations, known as the paging request mechanism. RSs typically put a large number of items into one page to reduce excessive resource consumption from numerous paging requests, which, however, would diminish the RSs' ability to timely renew the recommendations according to users' real-time interest and lead to a poor user experience. Intuitively, inserting additional requests inside pages to update the recommendations with a higher frequency can alleviate the problem. However, previous attempts, including only non-adaptive strategies (e.g., insert requests uniformly), would eventually lead to resource overconsumption. To this end, we envision a new learning task of edge intelligence named Intelligent Request Strategy Design (IRSD). It aims to improve the effectiveness of waterfall RSs by determining the appropriate occasions of request insertion based on users' real-time intention. Moreover, we propose a new paradigm of adaptive request insertion strategy named Uplift-based On-edge Smart Request Framework (AdaRequest). AdaRequest 1) captures the dynamic change of users' intentions by matching their real-time behaviors with their historical interests based on attention-based neural networks. 2) estimates the counterfactual uplift of user purchase brought by an inserted request based on causal inference. 3) determines the final request insertion strategy by maximizing the utility function under online resource constraints. We conduct extensive experiments on both offline dataset and online A/B test to verify the effectiveness of AdaRequest.
翻訳日:2022-06-27 14:27:57 公開日:2022-06-23
# ハイブリッドコントラスト学習によるGalaxy Foundationモデルに向けて

Towards Galaxy Foundation Models with Hybrid Contrastive Learning ( http://arxiv.org/abs/2206.11927v1 )

ライセンス: Link先を確認
Mike Walmsley, Inigo Val Slijepcevic, Micah Bowles, Anna M. M. Scaife(参考訳) 新しい天文学的なタスクは、ラベルが既に収集されている以前のタスクとしばしば関連がある。 我々は、これらのラベルを事前学習タスクとして活用し、拡張不変性も強化する対照的なフレームワークであるBYOLを適用した。 大規模な事前トレーニングのために、GZ-Evo v0.1は、552kの銀河画像に対する96.5Mのボランティア応答と、さらに1.34Mの非競合銀河を導入した。 206 GZ-Evoの解答のほとんどは、任意の銀河で未知であるため、我々の事前学習タスクは、未知の解答を自然に処理するディリクレ損失を使用する。 GZ-Evoプレトレーニングは、ハイブリッド学習の有無にかかわらず、豊富な下流ラベル(44kラベルで+4%精度)でも直接トレーニングを改善する。 我々のハイブリッドプレトレーニング/コントラスト法は、特に低ラベル転送方式(750ラベルで+6%の精度)において、下流の精度を向上する。

New astronomical tasks are often related to earlier tasks for which labels have already been collected. We adapt the contrastive framework BYOL to leverage those labels as a pretraining task while also enforcing augmentation invariance. For large-scale pretraining, we introduce GZ-Evo v0.1, a set of 96.5M volunteer responses for 552k galaxy images plus a further 1.34M comparable unlabelled galaxies. Most of the 206 GZ-Evo answers are unknown for any given galaxy, and so our pretraining task uses a Dirichlet loss that naturally handles unknown answers. GZ-Evo pretraining, with or without hybrid learning, improves on direct training even with plentiful downstream labels (+4% accuracy with 44k labels). Our hybrid pretraining/contrastive method further improves downstream accuracy vs. pretraining or contrastive learning, especially in the low-label transfer regime (+6% accuracy with 750 labels).
翻訳日:2022-06-27 14:26:49 公開日:2022-06-23
# TIAger : TiGERチャレンジのための乳癌における腫瘍浸潤リンパ球スコーリング

TIAger: Tumor-Infiltrating Lymphocyte Scoring in Breast Cancer for the TiGER Challenge ( http://arxiv.org/abs/2206.11943v1 )

ライセンス: Link先を確認
Adam Shephard, Mostafa Jahanifar, Ruoyu Wang, Muhammad Dawood, Simon Graham, Kastytis Sidlauskas, Syed Ali Khurram, Nasir Rajpoot, Shan E Ahmed Raza(参考訳) 腫瘍浸潤リンパ球(TIL)の定量化は乳癌患者の予後予測因子として独立している。 通常、病理学者はtilsスコアを得るためにtilsを含む間質領域の比率を推定する。 乳がん(tiger)における腫瘍浸潤リンパ球は、cox比例ハザードモデル(英語版)の一部として生存予測のためのコンピュータ生成tilsスコアの予後の意義を評価することを目的としている。 この課題に対して, TIL検出のための腫瘍バルク領域の局在化に先立ち, TIAger チームとして腫瘍を第1セグメントに分割するアルゴリズムを開発した。 最後に、これらの出力を使用して各ケースのtilsスコアを生成します。 予備試験では, 腫瘍間質重み付きdiceスコア0.791, frocスコア0.572のリンパ節検出が可能であった。 生存予測では,C-インデックス0.719。 これらの結果は、TiGERチャレンジの予備テストのリーダーボードで1位を獲得した。

The quantification of tumor-infiltrating lymphocytes (TILs) has been shown to be an independent predictor for prognosis of breast cancer patients. Typically, pathologists give an estimate of the proportion of the stromal region that contains TILs to obtain a TILs score. The Tumor InfiltratinG lymphocytes in breast cancER (TiGER) challenge, aims to assess the prognostic significance of computer-generated TILs scores for predicting survival as part of a Cox proportional hazards model. For this challenge, as the TIAger team, we have developed an algorithm to first segment tumor vs. stroma, before localising the tumor bulk region for TILs detection. Finally, we use these outputs to generate a TILs score for each case. On preliminary testing, our approach achieved a tumor-stroma weighted Dice score of 0.791 and a FROC score of 0.572 for lymphocytic detection. For predicting survival, our model achieved a C-index of 0.719. These results achieved first place across the preliminary testing leaderboards of the TiGER challenge.
翻訳日:2022-06-27 14:26:32 公開日:2022-06-23
# UNeRF: ニューラルネットワーク分野のトレーニングのための時間と記憶に関するU字型ネットワーク

UNeRF: Time and Memory Conscious U-Shaped Network for Training Neural Radiance Fields ( http://arxiv.org/abs/2206.11952v1 )

ライセンス: Link先を確認
Abiramy Kuganesan, Shih-yang Su, James J. Little, Helge Rhodin(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成とシーン再構成のための再構築の詳細を増大させ、大きな静的シーンから動的な人間の動きまで応用する。 しかし、そのようなニューラルフィールドの分解能とモデルフリーの性質は、高いトレーニング時間と過剰なメモリ要求のコストにかかっている。 近年では補完的なデータ構造を用いて推論時間を改善しているが,これらの手法は動的シーンに不適であり,メモリ消費の増加も少なくない。 訓練時間に必要なリソースを減らすためにはほとんど行われていない。 本稿では,nerfのサンプルベース計算の冗長性を,隣接するサンプルポイント間で部分的な評価共有によって活用する手法を提案する。 我々のUNeRFアーキテクチャはUNetにインスパイアされ、ネットワークの中央で空間分解能が減少し、隣接するサンプル間で情報を共有する。 この変化は、NeRF法におけるビュー依存の外観とビュー非依存の密度推定の厳密かつ意識的な分離に反するが、新規なビュー合成を改善することを示す。 また、ビュー不変性の違反を最小限に抑えながら計算を共有する代替サブサンプリング戦略を導入する。 UNeRFは元々のNeRFネットワーク用のプラグインモジュールである。 私たちの大きな貢献は、メモリフットプリントの削減、精度の向上、トレーニングと推論の両方における償却処理時間の短縮です。 局所性に関する仮定が弱いだけで、様々なニューラルラディアンスフィールドタスクにおける資源利用の改善を実現する。 静的なシーンの新規なビュー合成と動的な人間の形状と動きへの応用を実証する。

Neural Radiance Fields (NeRFs) increase reconstruction detail for novel view synthesis and scene reconstruction, with applications ranging from large static scenes to dynamic human motion. However, the increased resolution and model-free nature of such neural fields come at the cost of high training times and excessive memory requirements. Recent advances improve the inference time by using complementary data structures yet these methods are ill-suited for dynamic scenes and often increase memory consumption. Little has been done to reduce the resources required at training time. We propose a method to exploit the redundancy of NeRF's sample-based computations by partially sharing evaluations across neighboring sample points. Our UNeRF architecture is inspired by the UNet, where spatial resolution is reduced in the middle of the network and information is shared between adjacent samples. Although this change violates the strict and conscious separation of view-dependent appearance and view-independent density estimation in the NeRF method, we show that it improves novel view synthesis. We also introduce an alternative subsampling strategy which shares computation while minimizing any violation of view invariance. UNeRF is a plug-in module for the original NeRF network. Our major contributions include reduction of the memory footprint, improved accuracy, and reduced amortized processing time both during training and inference. With only weak assumptions on locality, we achieve improved resource utilization on a variety of neural radiance fields tasks. We demonstrate applications to the novel view synthesis of static scenes as well as dynamic human shape and motion.
翻訳日:2022-06-27 14:26:04 公開日:2022-06-23
# 選択データからの効率良く正確なトップ$k$リカバリ

Efficient and Accurate Top-$K$ Recovery from Choice Data ( http://arxiv.org/abs/2206.11995v1 )

ライセンス: Link先を確認
Duc Nguyen(参考訳) ランクと選択のモデリングへの学習の交わりは、電子商取引、情報検索、社会科学における研究の活発な領域である。 推薦システムなどのいくつかのアプリケーションにおいて、統計学者は、受動的に収集された個別選択データ、すなわち、ユーザが複数のアイテムの集合から1つのアイテムを選択することで、できるだけ効率的に上位項目の集合を回収することに関心がある。 この実践的考察に動機づけられ,上位$k$-recovery,すなわち上位$k$項目を正しく識別する高速かつ正確なランキングアルゴリズムとして,選択に基づくボルダカウントアルゴリズムを提案する。 選択に基づくボルダカウントアルゴリズムは,多種多様なランダム効用モデルの下で,上位$Kの回収に最適なサンプル複雑性を有することを示す。 この限界において、選択に基づくボルダカウントアルゴリズムは、一般的に使用される最大類似度推定法と同じ上位$Kの見積もりを生成するが、前者の速度と単純さは実際にかなりの利点をもたらす。 合成データセットと実データセットの両方の実験により、カウントアルゴリズムは精度の点でよく使われるランキングアルゴリズムと競合し、桁違いに高速であることが示された。

The intersection of learning to rank and choice modeling is an active area of research with applications in e-commerce, information retrieval and the social sciences. In some applications such as recommendation systems, the statistician is primarily interested in recovering the set of the top ranked items from a large pool of items as efficiently as possible using passively collected discrete choice data, i.e., the user picks one item from a set of multiple items. Motivated by this practical consideration, we propose the choice-based Borda count algorithm as a fast and accurate ranking algorithm for top $K$-recovery i.e., correctly identifying all of the top $K$ items. We show that the choice-based Borda count algorithm has optimal sample complexity for top-$K$ recovery under a broad class of random utility models. We prove that in the limit, the choice-based Borda count algorithm produces the same top-$K$ estimate as the commonly used Maximum Likelihood Estimate method but the former's speed and simplicity brings considerable advantages in practice. Experiments on both synthetic and real datasets show that the counting algorithm is competitive with commonly used ranking algorithms in terms of accuracy while being several orders of magnitude faster.
翻訳日:2022-06-27 14:21:54 公開日:2022-06-23
# リンク予測のためのサンプリング・エンクロース・サブグラフ

Sampling Enclosing Subgraphs for Link Prediction ( http://arxiv.org/abs/2206.12004v1 )

ライセンス: Link先を確認
Paul Louis, Shweta Ann Jacob and Amirali Salehi-Abari(参考訳) リンク予測は、グラフ構造化データ(例えば、ソーシャルネットワーク、薬物副作用ネットワークなど)の基本的な問題である。 グラフニューラルネットワークは、ターゲットリンク(すなわち、ノード対)を囲むサブグラフの表現を学習することで、この問題に対して堅牢なソリューションを提供する。 しかし、これらの解は、特に大きなグラフの場合、囲む部分グラフの抽出と操作が計算コストが高いため、大きなグラフに対してうまくスケールしない。 本稿では,sparse enclosing subgraphsを用いて予測を行うscaledと呼ばれるスケーラブルなリンク予測ソリューションを提案する。 スパース囲いサブグラフを抽出するために、ScaLedはターゲットのノードから複数のランダムウォークを行い、訪問したすべてのノードによって誘導されるサンプル囲いサブグラフを操作する。 ScaLedはより小さなサンプル封入サブグラフを活用することで、高い精度を維持しながらオーバーヘッドをはるかに少なく大きなグラフにスケールすることができる。 ScaLedはさらに、計算オーバーヘッドと精度の間のトレードオフを制御する柔軟性を提供する。 包括的実験により,ScaLedは既存のサブグラフ表現学習フレームワークで報告されているものと同等の精度で,計算能力の低下を図っている。

Link prediction is a fundamental problem for graph-structured data (e.g., social networks, drug side-effect networks, etc.). Graph neural networks have offered robust solutions for this problem, specifically by learning the representation of the subgraph enclosing the target link (i.e., pair of nodes). However, these solutions do not scale well to large graphs as extraction and operation on enclosing subgraphs are computationally expensive, especially for large graphs. This paper presents a scalable link prediction solution, that we call ScaLed, which utilizes sparse enclosing subgraphs to make predictions. To extract sparse enclosing subgraphs, ScaLed takes multiple random walks from a target pair of nodes, then operates on the sampled enclosing subgraph induced by all visited nodes. By leveraging the smaller sampled enclosing subgraph, ScaLed can scale to larger graphs with much less overhead while maintaining high accuracy. ScaLed further provides the flexibility to control the trade-off between computation overhead and accuracy. Through comprehensive experiments, we have shown that ScaLed can produce comparable accuracy to those reported by the existing subgraph representation learning frameworks while being less computationally demanding.
翻訳日:2022-06-27 14:21:33 公開日:2022-06-23
# 集合ノルムと同変スキップ接続:深部集合に深部を置く

Set Norm and Equivariant Skip Connections: Putting the Deep in Deep Sets ( http://arxiv.org/abs/2206.11925v1 )

ライセンス: Link先を確認
Lily H. Zhang, Veronica Tozzo, John M. Higgins, and Rajesh Ranganath(参考訳) 置換不変ニューラルネットワークは、集合から予測を行うための有望なツールである。 しかし,既存の変分不変アーキテクチャであるDeep SetsとSet Transformerは,深部における勾配の消失や爆発に悩まされる可能性がある。 さらに、Set Transformerにおける選択の正規化であるレイヤノルムは、予測に有用な情報を削除することでパフォーマンスを損なう可能性がある。 これらの問題に対処するため、同変残差接続に対するクリーンパス原理を導入し、集合に適した正規化である集合ノルムを開発する。 これにより、さまざまなタスクスイートで、元のものと同等あるいはそれ以上のパフォーマンスで、高い深さに達するモデルである、deep set++とset transformer++を構築します。 さらに,新しい単一セルデータセットflow-rbcと置換不変量予測の実世界応用について紹介する。 https://github.com/rajesh-lab/deep_permutation_invariant。

Permutation invariant neural networks are a promising tool for making predictions from sets. However, we show that existing permutation invariant architectures, Deep Sets and Set Transformer, can suffer from vanishing or exploding gradients when they are deep. Additionally, layer norm, the normalization of choice in Set Transformer, can hurt performance by removing information useful for prediction. To address these issues, we introduce the clean path principle for equivariant residual connections and develop set norm, a normalization tailored for sets. With these, we build Deep Sets++ and Set Transformer++, models that reach high depths with comparable or better performance than their original counterparts on a diverse suite of tasks. We additionally introduce Flow-RBC, a new single-cell dataset and real-world application of permutation invariant prediction. We open-source our data and code here: https://github.com/rajesh-lab/deep_permutation_invariant.
翻訳日:2022-06-27 13:58:16 公開日:2022-06-23
# フォグ無線アクセスネットワークにおける量子化フェデレーションベイズ学習に基づくコンテンツ人気予測

Content Popularity Prediction Based on Quantized Federated Bayesian Learning in Fog Radio Access Networks ( http://arxiv.org/abs/2206.12258v1 )

ライセンス: Link先を確認
Yunwei Tao, Yanxiang Jiang, Fu-Chun Zheng, Pengcheng Zhu, Dusit Niyato, Xiaohu You(参考訳) 本稿では,キャッシュ対応フォグ無線アクセスネットワーク(f-rans)におけるコンテンツ人気予測問題について検討する。 コンテンツの人気度を高精度・低複雑性で予測するために,コンテンツ要求パターンをモデル化するガウス過程に基づくレグレッセプタを提案する。 まず,提案モデルでは,コンテンツ特徴と人気度の関係を捉えた。 次に,ベイズ学習を用いてモデルパラメータをトレーニングする。 しかし、ベイズ法は通常、後方分布の閉形式表現を見つけることができない。 この問題に対処するために, 確率的分散低減勾配勾配型モンテカルロ (svrg-hmc) 法を適用し, 後方分布を近似する。 その他のフォグアクセスポイント(F-AP)の計算資源を活用し,通信オーバーヘッドを低減するために,ベイズ学習と組み合わせた量子化フェデレーションラーニング(FL)フレームワークを提案する。 量子化されたベイズ学習フレームワークにより、各F-APは量子化およびエンコーディング後にクラウドサーバに勾配を送信することができる。 予測精度と通信オーバーヘッドのトレードオフを効果的に達成することができる。 シミュレーションの結果,提案手法の性能は既存の政策よりも優れていた。

In this paper, we investigate the content popularity prediction problem in cache-enabled fog radio access networks (F-RANs). In order to predict the content popularity with high accuracy and low complexity, we propose a Gaussian process based regressor to model the content request pattern. Firstly, the relationship between content features and popularity is captured by our proposed model. Then, we utilize Bayesian learning to train the model parameters, which is robust to overfitting. However, Bayesian methods are usually unable to find a closed-form expression of the posterior distribution. To tackle this issue, we apply a stochastic variance reduced gradient Hamiltonian Monte Carlo (SVRG-HMC) method to approximate the posterior distribution. To utilize the computing resources of other fog access points (F-APs) and to reduce the communications overhead, we propose a quantized federated learning (FL) framework combining with Bayesian learning. The quantized federated Bayesian learning framework allows each F-AP to send gradients to the cloud server after quantizing and encoding. It can achieve a tradeoff between prediction accuracy and communications overhead effectively. Simulation results show that the performance of our proposed policy outperforms the existing policies.
翻訳日:2022-06-27 13:55:32 公開日:2022-06-23
# ASTERYX : symbolic と score-based eXplanations のためのモデル非依存型 SaT-basEd appRoach

ASTERYX : A model-Agnostic SaT-basEd appRoach for sYmbolic and score-based eXplanations ( http://arxiv.org/abs/2206.11900v1 )

ライセンス: Link先を確認
Ryma Boumazouza (CRIL), Fahima Cheikh-Alili (CRIL), Bertrand Mazure (CRIL), Karim Tabia (CRIL)(参考訳) 機械学習の技術がますます複雑になるにつれて、ブラックボックスとしてよく使われるこれらのモデルの予測と決定を説明する必要性が高まる。 説明可能なAIアプローチは、予測における各特徴の寄与を定量化することを目的とした数値的特徴ベースか、あるいは、反事実のようなある種の記号的説明を提供する象徴的手法である。 本稿では,記号的説明とスコアに基づく説明の両方を生成できるasteryxという汎用的非依存アプローチを提案する。 我々のアプローチは宣言的であり、等価な象徴表現で説明すべきモデルの符号化に基づいているが、後者は十分な理由と反事実である、特に2種類の象徴的説明を生成するのに役立つ。 次に、いくつかの特性に対する説明と特徴の関連性を反映したスコアを関連付ける。 本研究は,提案手法の有効性と,シンボリックおよびスコアベースによる説明の有効性を示す。

The ever increasing complexity of machine learning techniques used more and more in practice, gives rise to the need to explain the predictions and decisions of these models, often used as black-boxes. Explainable AI approaches are either numerical feature-based aiming to quantify the contribution of each feature in a prediction or symbolic providing certain forms of symbolic explanations such as counterfactuals. This paper proposes a generic agnostic approach named ASTERYX allowing to generate both symbolic explanations and score-based ones. Our approach is declarative and it is based on the encoding of the model to be explained in an equivalent symbolic representation, this latter serves to generate in particular two types of symbolic explanations which are sufficient reasons and counterfactuals. We then associate scores reflecting the relevance of the explanations and the features w.r.t to some properties. Our experimental results show the feasibility of the proposed approach and its effectiveness in providing symbolic and score-based explanations.
翻訳日:2022-06-27 13:26:16 公開日:2022-06-23
# CoSP:ポケットとリガンドの協調事前訓練

CoSP: Co-supervised pretraining of pocket and ligand ( http://arxiv.org/abs/2206.12241v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Lirong Wu, Stan Z. Li(参考訳) ポケット・リガンド相互作用の知識を事前訓練したモデルに注入し、共同して化学空間を学べるか? プリトレーニング分子とタンパク質は近年注目されているが、これらのアプローチのほとんどは化学空間の1つを学習し、生物学的知識の注入を欠くことに焦点を当てている。 本論文では,3次元ポケット表現とリガンド表現を同時に学習するcospフレームワークを提案する。 我々はゲート型幾何学的メッセージパッシング層を用いて3次元ポケットとリガンドの両方をモデル化し,各ノードの化学的特徴,幾何学的位置,配向を考慮した。 生物学的意味のある埋め込みを学ぶために、ポケットリガンド相互作用の知識をコントラスト損失を通じて事前学習モデルに注入する。 分子の特異性を考慮して, コントラスト学習性能を向上させるために, 化学類似性強化負サンプリング戦略を提案する。 広範な実験を通じて,CoSPはポケットマッチング,分子特性予測,仮想スクリーニングにおいて競合する結果が得られると結論付けた。

Can we inject the pocket-ligand interaction knowledge into the pre-trained model and jointly learn their chemical space? Pretraining molecules and proteins has attracted considerable attention in recent years, while most of these approaches focus on learning one of the chemical spaces and lack the injection of biological knowledge. We propose a co-supervised pretraining (CoSP) framework to simultaneously learn 3D pocket and ligand representations. We use a gated geometric message passing layer to model both 3D pockets and ligands, where each node's chemical features, geometric position and orientation are considered. To learn biological meaningful embeddings, we inject the pocket-ligand interaction knowledge into the pretraining model via contrastive loss. Considering the specificity of molecules, we further propose a chemical similarity-enhanced negative sampling strategy to improve the contrastive learning performance. Through extensive experiments, we conclude that CoSP can achieve competitive results in pocket matching, molecule property predictions, and virtual screening.
翻訳日:2022-06-27 13:02:53 公開日:2022-06-23
# アフィニティ認識グラフネットワーク

Affinity-Aware Graph Networks ( http://arxiv.org/abs/2206.11941v1 )

ライセンス: Link先を確認
Ameya Velingker, Ali Kemal Sinop, Ira Ktena, Petar Veli\v{c}kovi\'c, Sreenivas Gollapudi(参考訳) グラフニューラルネットワーク(GNN)は、リレーショナルデータを学ぶための強力なテクニックとして登場した。 彼らが実行するメッセージパッシングステップが比較的限られているため、より小さな受容フィールドのおかげで、基盤となるグラフの構造的側面を取り入れることで、表現力の向上に大きな関心が寄せられている。 本稿では,グラフニューラルネットワークの特徴として,特にランダムウォーク,効果的な抵抗,打撃時間,通勤時間などに起因する親和性尺度の利用について検討する。 本稿では,これらの特徴に基づくメッセージパッシングネットワークを提案し,その性能を様々なノードおよびグラフ特性予測タスクで評価する。 我々のアーキテクチャは計算複雑性が低く、我々の特徴は基礎となるグラフの置換に不変である。 この方法では、ネットワークがグラフの接続特性を活用できるため、さまざまなタスクにおいて関連するベンチマークよりもパフォーマンスが向上し、メッセージパッシングのステップが大幅に少なくなります。 OGB-LSC-PCQM4Mv1 のグラフ回帰データセットでは,書き込み時に最もよく知られた単一モデル検証MAE が得られる。

Graph Neural Networks (GNNs) have emerged as a powerful technique for learning on relational data. Owing to the relatively limited number of message passing steps they perform -- and hence a smaller receptive field -- there has been significant interest in improving their expressivity by incorporating structural aspects of the underlying graph. In this paper, we explore the use of affinity measures as features in graph neural networks, in particular measures arising from random walks, including effective resistance, hitting and commute times. We propose message passing networks based on these features and evaluate their performance on a variety of node and graph property prediction tasks. Our architecture has lower computational complexity, while our features are invariant to the permutations of the underlying graph. The measures we compute allow the network to exploit the connectivity properties of the graph, thereby allowing us to outperform relevant benchmarks for a wide variety of tasks, often with significantly fewer message passing steps. On one of the largest publicly available graph regression datasets, OGB-LSC-PCQM4Mv1, we obtain the best known single-model validation MAE at the time of writing.
翻訳日:2022-06-27 13:02:36 公開日:2022-06-23
# 共有不変性によるニューラルネットワークの表現ロバスト性の測定

Measuring Representational Robustness of Neural Networks Through Shared Invariances ( http://arxiv.org/abs/2206.11939v1 )

ライセンス: Link先を確認
Vedant Nanda and Till Speicher and Camila Kolling and John P. Dickerson and Krishna P. Gummadi and Adrian Weller(参考訳) 深層学習におけるロバスト性の研究における大きな課題は、与えられたニューラルネットワーク(nn)が不変であるべき `meaningless'' 摂動の集合を定義することである。 ほとんどの作業は暗黙的に人間を参照モデルとして使用し、そのような摂動を定義する。 我々の研究は、あるNNが不変であるべき摂動の集合を定義するために、別のリファレンスNNを使用することで、ロバストネスに関する新しい見解を提供する。 これにより、2つのNNが共分散の度合いを測ることと等価なロバスト性の測定が可能となり、STIRと呼ばれる測度を提案する。 STIRは既存の表現類似度対策を再利用し、共有不変度を測定するのに適している。 我々の測定値を用いて、重み付け初期化、アーキテクチャ、損失関数、トレーニングデータセットの変化に伴う共有不変性の変化について、洞察を得ることができる。 実装は \url{https://github.com/nvedant07/stir} で利用可能です。

A major challenge in studying robustness in deep learning is defining the set of ``meaningless'' perturbations to which a given Neural Network (NN) should be invariant. Most work on robustness implicitly uses a human as the reference model to define such perturbations. Our work offers a new view on robustness by using another reference NN to define the set of perturbations a given NN should be invariant to, thus generalizing the reliance on a reference ``human NN'' to any NN. This makes measuring robustness equivalent to measuring the extent to which two NNs share invariances, for which we propose a measure called STIR. STIR re-purposes existing representation similarity measures to make them suitable for measuring shared invariances. Using our measure, we are able to gain insights into how shared invariances vary with changes in weight initialization, architecture, loss functions, and training dataset. Our implementation is available at: \url{https://github.com/nvedant07/STIR}.
翻訳日:2022-06-27 12:46:09 公開日:2022-06-23
# 世界価値関数:学習と計画のための知識表現

World Value Functions: Knowledge Representation for Learning and Planning ( http://arxiv.org/abs/2206.11940v1 )

ライセンス: Link先を確認
Geraud Nangue Tasse, Benjamin Rosman, Steven James(参考訳) 我々は,与えられたタスクだけでなく,エージェントの環境における他の目標達成タスクの解決方法を表す,ゴール指向の汎用値関数である世界価値関数(WVF)を提案する。 これはエージェントが終端遷移を経験するすべての世界状態として定義された内部ゴール空間を備えることで達成される。 エージェントは、通常のタスク報酬を変更して、独自の報酬関数を定義することで、到達可能なすべての内部目標を達成する方法と、現在のタスクでそれを行う価値を学習することが可能になる。 学習と計画の文脈におけるWVFの2つの重要な利点を示す。 特に学習したWVFが与えられた場合、エージェントはタスクの報酬関数を単純に推定することで、新しいタスクで最適なポリシーを計算できる。 さらに,WVFは環境の遷移ダイナミクスを暗黙的にエンコードするので,計画の実行にも利用できることを示す。 実験結果から,WVFは通常の値関数よりも高速に学習でき,環境のダイナミクスを推測する能力は,学習と計画の手法を統合してサンプル効率をさらに向上させることができることがわかった。

We propose world value functions (WVFs), a type of goal-oriented general value function that represents how to solve not just a given task, but any other goal-reaching task in an agent's environment. This is achieved by equipping an agent with an internal goal space defined as all the world states where it experiences a terminal transition. The agent can then modify the standard task rewards to define its own reward function, which provably drives it to learn how to achieve all reachable internal goals, and the value of doing so in the current task. We demonstrate two key benefits of WVFs in the context of learning and planning. In particular, given a learned WVF, an agent can compute the optimal policy in a new task by simply estimating the task's reward function. Furthermore, we show that WVFs also implicitly encode the transition dynamics of the environment, and so can be used to perform planning. Experimental results show that WVFs can be learned faster than regular value functions, while their ability to infer the environment's dynamics can be used to integrate learning and planning methods to further improve sample efficiency.
翻訳日:2022-06-27 12:45:53 公開日:2022-06-23
# グラフコントラスト事前学習のための類似性を考慮した正のインスタンスサンプリング

Similarity-aware Positive Instance Sampling for Graph Contrastive Pre-training ( http://arxiv.org/abs/2206.11959v1 )

ライセンス: Link先を確認
Xueyi Liu, Yu Rong, Tingyang Xu, Fuchun Sun, Wenbing Huang, Junzhou Huang(参考訳) グラフインスタンスのコントラスト学習は、グラフニューラルネットワーク(GNN)事前トレーニングに有効なタスクとして証明されている。 現行の手法によって生成された正のインスタンスは、しばしばグラフの重要な情報を見逃したり、違法なインスタンス(例えば分子生成における非化学的なグラフ)を産み出すことさえある。 この問題を解決するため、トレーニングセット内の既存グラフから直接正のグラフインスタンスを選択し、最終的に対象グラフの合法性と類似性を維持することを提案する。 我々の選択は、特定のドメイン固有のペアワイズ類似度測定と、グラフ間の類似度関係をコードする階層グラフからのサンプリングに基づいている。 さらに,ノードを動的にマスキングしてグラフ上に均等に分配する適応ノードレベルの事前学習手法を開発した。 さまざまなドメインから13ドルのグラフ分類とノード分類ベンチマークデータセットを広範囲に実験した。 その結果,本手法で事前学習したgnnモデルは,既存の手法で得られた変種と同様に,スクラッチモデルよりも優れていることがわかった。

Graph instance contrastive learning has been proved as an effective task for Graph Neural Network (GNN) pre-training. However, one key issue may seriously impede the representative power in existing works: Positive instances created by current methods often miss crucial information of graphs or even yield illegal instances (such as non-chemically-aware graphs in molecular generation). To remedy this issue, we propose to select positive graph instances directly from existing graphs in the training set, which ultimately maintains the legality and similarity to the target graphs. Our selection is based on certain domain-specific pair-wise similarity measurements as well as sampling from a hierarchical graph encoding similarity relations among graphs. Besides, we develop an adaptive node-level pre-training method to dynamically mask nodes to distribute them evenly in the graph. We conduct extensive experiments on $13$ graph classification and node classification benchmark datasets from various domains. The results demonstrate that the GNN models pre-trained by our strategies can outperform those trained-from-scratch models as well as the variants obtained by existing methods.
翻訳日:2022-06-27 12:45:35 公開日:2022-06-23
# 逆ズームレンズ:DNNに対する新たな物理世界攻撃

Adversarial Zoom Lens: A Novel Physical-World Attack to DNNs ( http://arxiv.org/abs/2206.12251v1 )

ライセンス: Link先を確認
Chengyin Hu and Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は脆弱であることが知られているが、物理世界における画像のズームインとズームアウトがDNNのパフォーマンスに与える影響は研究されていない。 本稿では,対象物体の特性を変化させることなくdnnを騙し,ズームレンズを用いて物理世界の画像をズームイン/アウトし,dnnを騙す,adversarial zoom lens(advzl)と呼ばれる新しい物理敵攻撃手法を提案する。 提案手法は,DNNの物理的摂動を加味しない唯一の逆攻撃手法である。 デジタル環境では,AdvZLに基づくデータセットを構築し,DNNに対する等スケール拡大画像の対角性を検証する。 物理環境では、ズームレンズを操作して、対象オブジェクトをズームイン/アウトし、逆のサンプルを生成します。 実験により,デジタルおよび物理環境におけるAdvZLの有効性が示された。 さらに、改良されたDNNに対して提案したデータセットの敵意を解析する。 一方,我々は,advzlに対する攻撃訓練による防衛指針を提供する。 最後に、将来の自動運転と、提案された攻撃に類似した異種攻撃のアイデアに対する提案手法の脅威の可能性を検討する。

Although deep neural networks (DNNs) are known to be fragile, no one has studied the effects of zooming-in and zooming-out of images in the physical world on DNNs performance. In this paper, we demonstrate a novel physical adversarial attack technique called Adversarial Zoom Lens (AdvZL), which uses a zoom lens to zoom in and out of pictures of the physical world, fooling DNNs without changing the characteristics of the target object. The proposed method is so far the only adversarial attack technique that does not add physical adversarial perturbation attack DNNs. In a digital environment, we construct a data set based on AdvZL to verify the antagonism of equal-scale enlarged images to DNNs. In the physical environment, we manipulate the zoom lens to zoom in and out of the target object, and generate adversarial samples. The experimental results demonstrate the effectiveness of AdvZL in both digital and physical environments. We further analyze the antagonism of the proposed data set to the improved DNNs. On the other hand, we provide a guideline for defense against AdvZL by means of adversarial training. Finally, we look into the threat possibilities of the proposed approach to future autonomous driving and variant attack ideas similar to the proposed attack.
翻訳日:2022-06-27 12:31:55 公開日:2022-06-23
# (参考訳) multi-lexsum: 複数の粒度で公民権訴訟の現実の要約

Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities ( http://arxiv.org/abs/2206.10883v2 )

ライセンス: CC BY 4.0
Zejiang Shen, Kyle Lo, Lauren Yu, Nathan Dahlberg, Margo Schlanger, Doug Downey(参考訳) 大規模な言語モデルが登場し、抽象的な要約の手法が大きな進歩を遂げ、知識労働者が文書コレクションを処理するのに使える可能性を生み出した。 そのような設定の1つが公民権解放クリアリングハウス (CRLC) (https://clearinghouse.net) であり、大規模な公民権訴訟に関する情報を投稿し、弁護士、学者、一般大衆に奉仕している。 今日、CRLCの要約は、重要な出来事や成果の高品質な要約を作成するために、1件あたり何時間もの関連文書を理解する弁護士や法学生の広範な訓練を必要とする。 この実世界の要約に触発されたMulti-LexSumは、現在進行中のCRLCによる9,280名の専門家による要約集である。 Multi-LexSumは、ソースドキュメントの長さを考慮し、1ケースあたり200ページを超える、挑戦的なマルチドキュメント要約タスクを示す。 さらに、multi-lexsumは、複数のターゲットサマリーの他のデータセットとは、それぞれ異なる粒度("extreme"サマリーから500語以上のマルチパラグラフナレーションまで)で区別される。 学習データ(厳格なコンテンツとスタイルガイドラインに準拠)の質の高い要約にもかかわらず、最先端の要約モデルは、このタスクではうまく機能しないことを示す広範な分析を行う。 要約手法のさらなる研究と https://multilexsum.github.io での CRLC のミッションを支援するアプリケーションの開発を容易にするため,Multi-LexSum をリリースする。

With the advent of large language models, methods for abstractive summarization have made great strides, creating potential for use in applications to aid knowledge workers processing unwieldy document collections. One such setting is the Civil Rights Litigation Clearinghouse (CRLC) (https://clearinghouse.net),which posts information about large-scale civil rights lawsuits, serving lawyers, scholars, and the general public. Today, summarization in the CRLC requires extensive training of lawyers and law students who spend hours per case understanding multiple relevant documents in order to produce high-quality summaries of key events and outcomes. Motivated by this ongoing real-world summarization effort, we introduce Multi-LexSum, a collection of 9,280 expert-authored summaries drawn from ongoing CRLC writing. Multi-LexSum presents a challenging multi-document summarization task given the length of the source documents, often exceeding two hundred pages per case. Furthermore, Multi-LexSum is distinct from other datasets in its multiple target summaries, each at a different granularity (ranging from one-sentence "extreme" summaries to multi-paragraph narrations of over five hundred words). We present extensive analysis demonstrating that despite the high-quality summaries in the training data (adhering to strict content and style guidelines), state-of-the-art summarization models perform poorly on this task. We release Multi-LexSum for further research in summarization methods as well as to facilitate development of applications to assist in the CRLC's mission at https://multilexsum.github.io.
翻訳日:2022-06-27 09:33:07 公開日:2022-06-23
# (参考訳) 子どもの健康改善のための進化的時間利用最適化

Evolutionary Time-Use Optimization for Improving Children's Health Outcomes ( http://arxiv.org/abs/2206.11505v1 )

ライセンス: CC BY 4.0
Yue Xie, Aneta Neumann, Ty Stanford, Charlotte Lund Rasmussen, Dorothea Dumuid, Frank Neumann(参考訳) 誰かがどのように時間を割くかは、健康と幸福のために重要です。 本稿では,時間利用の最適化による健康と幸福の促進に,進化的アルゴリズムがいかに役立つかを示す。 人口をベースとした子どもコホートのデータに基づいて、健康状態を説明するフィットネス機能を設計し、実行可能な時間計画の制約を導入する。 次に,異なる日構造を持つ仮説的子どもの4つの健康結果に対する時間的利用を最適化するための進化的アルゴリズムの性能について検討した。 4つの健康結果が時間割当を競う中、多目的最適化問題の形で複数の健康結果の同時最適化方法について検討する。 進化的多目的アルゴリズムを用いて1週間の時間利用計画を最適化し、異なる健康結果に関して達成可能なトレードオフを指摘する。

How someone allocates their time is important to their health and well-being. In this paper, we show how evolutionary algorithms can be used to promote health and well-being by optimizing time usage. Based on data from a large population-based child cohort, we design fitness functions to explain health outcomes and introduce constraints for viable time plans. We then investigate the performance of evolutionary algorithms to optimize time use for four individual health outcomes with hypothetical children with different day structures. As the four health outcomes are competing for time allocations, we study how to optimize multiple health outcomes simultaneously in the form of a multi-objective optimization problem. We optimize one-week time-use plans using evolutionary multi-objective algorithms and point out the trade-offs achievable with respect to different health outcomes.
翻訳日:2022-06-26 12:53:40 公開日:2022-06-23
# (参考訳) 自動テスト生成への機械学習の統合: 体系的文献レビュー

The Integration of Machine Learning into Automated Test Generation: A Systematic Literature Review ( http://arxiv.org/abs/2206.10210v2 )

ライセンス: CC BY 4.0
Afonso Fontes and Gregory Gay(参考訳) コンテキスト: 機械学習(ML)は効果的な自動テスト生成を可能にする。 目的:我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づけます。 方法: 97冊の出版物について体系的な文献レビューを行う。 結果:MLはシステム,GUI,ユニット,パフォーマンス,組合せテストの入力を生成したり,既存の生成メソッドのパフォーマンスを向上する。 MLはまた、テストの検証、プロパティベース、期待される出力オラクルを生成するためにも使用される。 監視された学習(ニューラルネットワークと強化学習をベースとすることが多い)は一般的であり、一部の出版物では教師なしあるいは半教師なしの学習も採用されている。 (Semi-/Un-) 従来のテストメトリクスとML関連のメトリクス(例えば精度)の両方を用いて改善されたアプローチを評価する一方、強化学習は報酬関数に関連するテストメトリクスを用いてしばしば評価される。 結論: Work-to-dateは素晴らしい将来性を示していますが、トレーニングデータ、リトレーニング、スケーラビリティ、評価の複雑さ、採用するMLアルゴリズム、ベンチマーク、複製性に関するオープンな課題があります。 私たちの発見は、この分野の研究者にとってロードマップとインスピレーションとなり得る。

Context: Machine learning (ML) may enable effective automated test generation. Objective: We characterize emerging research, examining testing practices, researcher goals, ML techniques applied, evaluation, and challenges. Methods: We perform a systematic literature review on a sample of 97 publications. Results: ML generates input for system, GUI, unit, performance, and combinatorial testing or improves the performance of existing generation methods. ML is also used to generate test verdicts, property-based, and expected output oracles. Supervised learning - often based on neural networks - and reinforcement learning - often based on Q-learning - are common, and some publications also employ unsupervised or semi-supervised learning. (Semi-/Un-)Supervised approaches are evaluated using both traditional testing metrics and ML-related metrics (e.g., accuracy), while reinforcement learning is often evaluated using testing metrics tied to the reward function. Conclusion: Work-to-date shows great promise, but there are open challenges regarding training data, retraining, scalability, evaluation complexity, ML algorithms employed - and how they are applied - benchmarks, and replicability. Our findings can serve as a roadmap and inspiration for researchers in this field.
翻訳日:2022-06-25 07:06:20 公開日:2022-06-23
# (参考訳) 廃刊ニュース:新聞に印刷障害を与える

Broken News: Making Newspapers Accessible to Print-Impaired ( http://arxiv.org/abs/2206.10225v2 )

ライセンス: CC BY 4.0
Vishal Agarwal, Tanuja Ganu, Saikat Guha(参考訳) 毎日のニュースコンテンツにアクセスすることは、印刷コンテンツの不透明さやオンラインソースからの障害のため、盲目や視力の低い人たちにとって依然として大きな課題だ。 本稿では,印刷新聞をHTMLなどのアクセス可能なファイル形式にデジタル化する手法を提案する。 新聞のレイアウト分析には,事例分割と検出のフレームワークのアンサンブルを使用し,見出しや記事テキストなどのテキスト要素をOCRで認識する。 さらに,mask-rcnnフレームワークのエッジマスク損失関数を提案し,セグメンテーションマスク境界を改善し,従って下流のocrタスクの精度を向上させる。 実験により,提案した損失関数は,ニュース記事の単語誤り率(WER)を32.5%削減することを示した。

Accessing daily news content still remains a big challenge for people with print-impairment including blind and low-vision due to opacity of printed content and hindrance from online sources. In this paper, we present our approach for digitization of print newspaper into an accessible file format such as HTML. We use an ensemble of instance segmentation and detection framework for newspaper layout analysis and then OCR to recognize text elements such as headline and article text. Additionally, we propose EdgeMask loss function for Mask-RCNN framework to improve segmentation mask boundary and hence accuracy of downstream OCR task. Empirically, we show that our proposed loss function reduces the Word Error Rate (WER) of news article text by 32.5 %.
翻訳日:2022-06-25 07:05:03 公開日:2022-06-23
# (参考訳) HealNet -- 自己監督型急性創傷治癒段階分類

HealNet -- Self-Supervised Acute Wound Heal-Stage Classification ( http://arxiv.org/abs/2206.10536v2 )

ライセンス: CC BY 4.0
H\'ector Carri\'on, Mohammad Jafari, Hsin-Ya Yang, Roslyn Rivkah Isseroff, Marco Rolandi, Marcella Gomez, Narges Norouzi(参考訳) 創傷治癒段階の進行の特定、追跡、予測は、適切な診断、効果的な治療、治癒の促進、痛みの軽減に向けた基本的な課題である。 伝統的に、医療専門家は傷を観察し、現在の治癒状態を特定し、治療を推奨する。 しかし、そのような診断を視覚的指標のみから作成できるソーシングの専門家は、困難で時間がかかり、費用がかかる。 さらに、病変は治癒過程に数週間を要し、継続的に監視と診断を行うリソースが要求される。 開始から成熟までの傷の進行に従うデータセットは小さく、まれであり、コンピュータビジョンを念頭に置いて収集されることが多い。 そこで我々は,これらの課題に取り組むために,自己教師付き学習方式を提案する。 (a)創の時間力学の埋め込みを学習すること (b)自動段階発見のためのクラスタリング、及び (c)微調整分類。 提案された自己教師付き柔軟な学習フレームワークは、生物学的にインスパイアされ、人間のラベルがゼロの小さなデータセットで訓練されている。 HealNetフレームワークは、高い事前テキストと下流の分類精度を達成し、ホールドアウトテストデータで評価すると、97.7%の事前テキストの精度と90.62%の修復段階の分類精度を達成した。

Identifying, tracking, and predicting wound heal-stage progression is a fundamental task towards proper diagnosis, effective treatment, facilitating healing, and reducing pain. Traditionally, a medical expert might observe a wound to determine the current healing state and recommend treatment. However, sourcing experts who can produce such a diagnosis solely from visual indicators can be difficult, time-consuming and expensive. In addition, lesions may take several weeks to undergo the healing process, demanding resources to monitor and diagnose continually. Automating this task can be challenging; datasets that follow wound progression from onset to maturation are small, rare, and often collected without computer vision in mind. To tackle these challenges, we introduce a self-supervised learning scheme composed of (a) learning embeddings of wound's temporal dynamics, (b) clustering for automatic stage discovery, and (c) fine-tuned classification. The proposed self-supervised and flexible learning framework is biologically inspired and trained on a small dataset with zero human labeling. The HealNet framework achieved high pre-text and downstream classification accuracy; when evaluated on held-out test data, HealNet achieved 97.7% pre-text accuracy and 90.62% heal-stage classification accuracy.
翻訳日:2022-06-25 06:23:45 公開日:2022-06-23
# (参考訳) TiCo:自己監督型視覚表現学習のための変換不変性と共分散コントラスト

TiCo: Transformation Invariance and Covariance Contrast for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2206.10698v2 )

ライセンス: CC0 1.0
Jiachen Zhu, Rafael M. Moraes, Serkan Karakulak, Vlad Sobol, Alfredo Canziani, Yann LeCun(参考訳) 自己教師型視覚表現学習のための変換不変性と共分散コントラスト(TiCo)を提案する。 近年の自己教師あり学習法と同様に,同じ画像の歪曲された異なるバージョンの埋め込み間の一致を最大化することで,エンコーダを変換不変表現へと押し上げる。 エンコーダが定数ベクトルを生成する自明な解を避けるために、異なる画像からの埋め込みの共分散行列を低ランク解をペナライズすることで正則化する。 変換不変損失と共分散コントラスト損失を共同で最小化することにより、下流タスクに有用な表現を生成できるエンコーダを得る。 提案手法を解析し,メモリ容量無制限の暗黙的なメモリバンクを持つmocoの変種として,余分なメモリコストを要しないことを示す。 これにより、バッチサイズが小さい場合、代替メソッドよりも優れた性能が得られる。 TiCoはバーロウ・ツインズの改造とも見ることができる。 コントラストメソッドと冗長リダクションメソッドを結合することで、tico氏はジョイント埋め込みメソッドの動作に関する新たな洞察を与えてくれる。

We present Transformation Invariance and Covariance Contrast (TiCo) for self-supervised visual representation learning. Similar to other recent self-supervised learning methods, our method is based on maximizing the agreement among embeddings of different distorted versions of the same image, which pushes the encoder to produce transformation invariant representations. To avoid the trivial solution where the encoder generates constant vectors, we regularize the covariance matrix of the embeddings from different images by penalizing low rank solutions. By jointly minimizing the transformation invariance loss and covariance contrast loss, we get an encoder that is able to produce useful representations for downstream tasks. We analyze our method and show that it can be viewed as a variant of MoCo with an implicit memory bank of unlimited size at no extra memory cost. This makes our method perform better than alternative methods when using small batch sizes. TiCo can also be seen as a modification of Barlow Twins. By connecting the contrastive and redundancy-reduction methods together, TiCo gives us new insights into how joint embedding methods work.
翻訳日:2022-06-25 04:51:30 公開日:2022-06-23
# (参考訳) lidarmutlinet:単一マルチタスクネットワークにおけるlidar意味セグメンテーション、3dオブジェクト検出、およびpanopticセグメンテーションの統合

LidarMutliNet: Unifying LiDAR Semantic Segmentation, 3D Object Detection, and Panoptic Segmentation in a Single Multi-task Network ( http://arxiv.org/abs/2206.11428v1 )

ライセンス: CC BY 4.0
Dongqiangzi Ye, Weijia Chen, Zixiang Zhou, Yufei Xie, Yu Wang, Panqu Wang and Hassan Foroosh(参考訳) 本報告では,waymo open dataset 3d semantic segmentation challenge 2022の1位入賞ソリューションを提案する。 我々のネットワークはLidarMultiNetと呼ばれ、3Dセマンティックセグメンテーション、オブジェクト検出、単眼セグメンテーションといったLiDARの主要な認識タスクを単一のフレームワークに統合する。 LidarMultiNetのコアには、強力な3Dボクセルベースのエンコーダ-デコーダネットワークがあり、そのローカル機能を補完するためにLiDARフレームからグローバルなコンテキスト特徴を抽出する新しいGCPモジュールがある。 任意の第2段階が提案され、第1段階のセグメンテーションを洗練したり、正確なパノプティクスセグメンテーション結果を生成する。 私たちのソリューションは71.13のmiouを実現し、waymo 3dセマンティックセグメンテーションテストセットの22クラスの大半で最良であり、公式のリーダーボード上の他の3dセマンティックセグメンテーションメソッドよりも優れています。 私たちは初めて、主要なLiDAR知覚タスクを、エンドツーエンドでトレーニング可能な単一の強力なネットワークに統合できることを示します。

This technical report presents the 1st place winning solution for the Waymo Open Dataset 3D semantic segmentation challenge 2022. Our network, termed LidarMultiNet, unifies the major LiDAR perception tasks such as 3D semantic segmentation, object detection, and panoptic segmentation in a single framework. At the core of LidarMultiNet is a strong 3D voxel-based encoder-decoder network with a novel Global Context Pooling (GCP) module extracting global contextual features from a LiDAR frame to complement its local features. An optional second stage is proposed to refine the first-stage segmentation or generate accurate panoptic segmentation results. Our solution achieves a mIoU of 71.13 and is the best for most of the 22 classes on the Waymo 3D semantic segmentation test set, outperforming all the other 3D semantic segmentation methods on the official leaderboard. We demonstrate for the first time that major LiDAR perception tasks can be unified in a single strong network that can be trained end-to-end.
翻訳日:2022-06-25 01:00:15 公開日:2022-06-23
# (参考訳) 公平性のための文脈問題 -空間分布シフトの影響を事例として-

Context matters for fairness -- a case study on the effect of spatial distribution shifts ( http://arxiv.org/abs/2206.11436v1 )

ライセンス: CC BY 4.0
Siamak Ghodsi, Harith Alani, and Eirini Ntoutsi(参考訳) データ駆動型AIに基づく意思決定技術が日々の社会生活にますます関与している中、これらのシステムの公正性は重要な現象になりつつある。 しかしながら、これらのシステムを利用する上で重要かつしばしば挑戦的な側面は、特に分布シフトの際のアプリケーションの範囲の妥当性、すなわち、トレーニングセットとは異なる分散データにモデルがデプロイされる場合の妥当性を区別することである。 本稿では,米国国勢調査データセット(american census datasets, a reconstruction of the popular adult dataset, a reconstruction of the popular adult dataset)について事例研究を行い,フェアネスに対する文脈の重要性を明らかにし,空間分布シフトがモデルの予測およびフェアネス関連性能にどのように影響するかを示す。 この問題は、各州と異なる集団間で異なる文脈固有の公平な介入の効果を持つフェアネス認識学習モデルに対して持続する。 本研究は,モデルを他のコンテキストにデプロイする前に,分散シフトへのロバスト性が必要であることを示唆する。

With the ever growing involvement of data-driven AI-based decision making technologies in our daily social lives, the fairness of these systems is becoming a crucial phenomenon. However, an important and often challenging aspect in utilizing such systems is to distinguish validity for the range of their application especially under distribution shifts, i.e., when a model is deployed on data with different distribution than the training set. In this paper, we present a case study on the newly released American Census datasets, a reconstruction of the popular Adult dataset, to illustrate the importance of context for fairness and show how remarkably can spatial distribution shifts affect predictive- and fairness-related performance of a model. The problem persists for fairness-aware learning models with the effects of context-specific fairness interventions differing across the states and different population groups. Our study suggests that robustness to distribution shifts is necessary before deploying a model to another context.
翻訳日:2022-06-25 00:45:14 公開日:2022-06-23
# (参考訳) pyKT: ディープラーニングベースの知識追跡モデルをベンチマークするPythonライブラリ

pyKT: A Python Library to Benchmark Deep Learning based Knowledge Tracing Models ( http://arxiv.org/abs/2206.11460v1 )

ライセンス: CC BY 4.0
Zitao Liu, Qiongqiong Liu, Jiahao Chen, Shuyan Huang, Jiliang Tang, Weiqi Luo(参考訳) 知識追跡(KT)は、学生の履歴学習インタラクションデータを用いて、将来的なインタラクションパフォーマンスを予測するために、時間とともに知識熟達をモデル化するタスクである。 近年,様々な深層学習技術を用いてKT問題の解法が目覚ましい進歩を遂げている。 しかし、深層学習に基づく知識追跡(DLKT)手法の成功はいまだに謎めいたものであり、これらのDLKT手法の適切な測定と分析は依然として課題である。 まず、既存の作業におけるデータ前処理手順は、しばしばプライベートまたはカスタムであり、実験的な標準化を制限する。 さらに、既存のDLKT研究は評価プロトコルの点でしばしば異なり、現実世界の教育状況は遠く離れている。 これらの問題に対処するために,pythonベースの総合ベンチマークプラットフォーム \textsc{pykt} を導入し,完全な評価を通じてdlktメソッド間の有効な比較を保証する。 \textsc{pyKT}ライブラリは、異なるドメインにまたがる7つの一般的なデータセットに対する統合データ前処理手順の標準化セットと、透過的な実験のためのDLKTモデル実装を10回頻繁に比較する。 本研究の結果は, DLKTの有効性に関する一連の考察と提案, 例えば, 誤評価設定は, 一般に性能インフレーションにつながるラベルリークを引き起こす可能性があり, かつPiechらによって提案された最初のDLKTモデルと比較して, DLKTの多くのアプローチの改善は最小限である。 略称は「2015deep」。 我々は \textsc{pykt} をオープンソース化し、実験結果を \url{https://pykt.org/} で行った。 他の研究グループや実践者からの貢献を歓迎します。

Knowledge tracing (KT) is the task of using students' historical learning interaction data to model their knowledge mastery over time so as to make predictions on their future interaction performance. Recently, remarkable progress has been made of using various deep learning techniques to solve the KT problem. However, the success behind deep learning based knowledge tracing (DLKT) approaches is still left somewhat mysterious and proper measurement and analysis of these DLKT approaches remain a challenge. First, data preprocessing procedures in existing works are often private and/or custom, which limits experimental standardization. Furthermore, existing DLKT studies often differ in terms of the evaluation protocol and are far away real-world educational contexts. To address these problems, we introduce a comprehensive python based benchmark platform, \textsc{pyKT}, to guarantee valid comparisons across DLKT methods via thorough evaluations. The \textsc{pyKT} library consists of a standardized set of integrated data preprocessing procedures on 7 popular datasets across different domains, and 10 frequently compared DLKT model implementations for transparent experiments. Results from our fine-grained and rigorous empirical KT studies yield a set of observations and suggestions for effective DLKT, e.g., wrong evaluation setting may cause label leakage that generally leads to performance inflation; and the improvement of many DLKT approaches is minimal compared to the very first DLKT model proposed by Piech et al. \cite{piech2015deep}. We have open sourced \textsc{pyKT} and our experimental results at \url{https://pykt.org/}. We welcome contributions from other research groups and practitioners.
翻訳日:2022-06-25 00:31:35 公開日:2022-06-23
# (参考訳) icme 2022 少数ショットのロゴ検出トップ9ソリューション

ICME 2022 Few-shot LOGO detection top 9 solution ( http://arxiv.org/abs/2206.11462v1 )

ライセンス: CC BY 4.0
Ka Ho Tong, Ka Wai Cheung and Xiaochuan Yu(参考訳) ICME-2022 数発のロゴ検出競技が2022年5月に開催される。 参加者は、小さなロゴインスタンス、類似のブランド、および敵対的なイメージをアノテーションで同時に扱うことで、ロゴを検出する単一のモデルを開発する必要がある。 我々のチームは、それぞれ第1ラウンドと第2ラウンドで16位と11位を獲得し、最終順位は9位となった。 この技術レポートでは、この競争で使用される主要なテクニックと潜在的な改善について要約しています。

ICME-2022 few-shot logo detection competition is held in May, 2022. Participants are required to develop a single model to detect logos by handling tiny logo instances, similar brands, and adversarial images at the same time, with limited annotations. Our team achieved rank 16 and 11 in the first and second round of the competition respectively, with a final rank of 9th. This technical report summarized our major techniques used in this competitions, and potential improvement.
翻訳日:2022-06-25 00:03:11 公開日:2022-06-23
# (参考訳) モジュラー共形キャリブレーション

Modular Conformal Calibration ( http://arxiv.org/abs/2206.11468v1 )

ライセンス: CC BY 4.0
Charles Marx, Shengjia Zhou, Willie Neiswanger, Stefano Ermon(参考訳) 不確実性推定は、有用性を得るために、校正(すなわち正確性)と鋭敏(すなわち情報的)でなければならない。 これは、キャリブレーションされていないモデルをキャリブレーションされたモデルに変換するために、ホールドアウトデータを使用する様々なリカレーションの手法を動機付けている。 しかし,既存手法の適用性は,原モデルも確率モデルであるという仮定から制限されている。 そこで我々は, Modular Conformal Calibration (MCC) と呼ぶ回帰再校正アルゴリズムを提案する。 このフレームワークにより、どんな回帰モデルも校正された確率モデルに変換できる。 MCCのモジュラー設計により、分布予測をうまく行うことができる既存のアルゴリズムを簡易に調整できる。 また,MCCアルゴリズムの有限サンプル校正保証も提供する。 提案手法は等張リカバリ,等調校正,等角区間の予測を復元し,理論的な結果がそれらの手法にも適用できることを示す。 最後に,17の回帰データセットに対するMCCの実証的研究を行った。 その結果,提案手法で設計した新しいアルゴリズムは,ほぼ完全な校正を達成し,既存の手法と比較してシャープさが向上することがわかった。

Uncertainty estimates must be calibrated (i.e., accurate) and sharp (i.e., informative) in order to be useful. This has motivated a variety of methods for recalibration, which use held-out data to turn an uncalibrated model into a calibrated model. However, the applicability of existing methods is limited due to their assumption that the original model is also a probabilistic model. We introduce a versatile class of algorithms for recalibration in regression that we call Modular Conformal Calibration (MCC). This framework allows one to transform any regression model into a calibrated probabilistic model. The modular design of MCC allows us to make simple adjustments to existing algorithms that enable well-behaved distribution predictions. We also provide finite-sample calibration guarantees for MCC algorithms. Our framework recovers isotonic recalibration, conformal calibration, and conformal interval prediction, implying that our theoretical results apply to those methods as well. Finally, we conduct an empirical study of MCC on 17 regression datasets. Our results show that new algorithms designed in our framework achieve near-perfect calibration and improve sharpness relative to existing methods.
翻訳日:2022-06-24 23:59:19 公開日:2022-06-23
# (参考訳) オブジェクト検出のためのCOCOへの補完データセット

Complementary datasets to COCO for object detection ( http://arxiv.org/abs/2206.11473v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) COCOデータセットは10年近くにわたって、オブジェクト検出の研究の中心的なテストベッドとなっている。 しかし、最近のベンチマークによると、このデータセットのパフォーマンスは飽和し始めているようだ。 考えられる理由の1つは、おそらく深層モデルのトレーニングに十分な大きさではないということだ。 この制限に対処するために、COCOに2つの補完的データセットを紹介します。 1 COCO_OIは、COCO及びOpenImages(共通クラス80枚)の画像からなり、380,111枚以上の訓練用バウンディングボックス1,418,978枚、18,299枚以上の検証用バウンディングボックス41,893枚 二 日常生活状況におけるオブジェクトを含むObjectNet_D(本来、ObjectNetとして知られるオブジェクト認識のために作成され、COCOと共通する29のカテゴリ) 後者は物体検出器の一般化能力をテストするために用いられる。 これらのデータセット上でいくつかのモデルを評価し、エラーの原因を特定する。 我々は、これらのデータセットをオブジェクト検出モデルのトレーニングとテストに利用することをコミュニティに推奨する。 コードとデータはhttps://github.com/aliborji/coco_oiで入手できる。

For nearly a decade, the COCO dataset has been the central test bed of research in object detection. According to the recent benchmarks, however, it seems that performance on this dataset has started to saturate. One possible reason can be that perhaps it is not large enough for training deep models. To address this limitation, here we introduce two complementary datasets to COCO: i) COCO_OI, composed of images from COCO and OpenImages (from their 80 classes in common) with 1,418,978 training bounding boxes over 380,111 images, and 41,893 validation bounding boxes over 18,299 images, and ii) ObjectNet_D containing objects in daily life situations (originally created for object recognition known as ObjectNet; 29 categories in common with COCO). The latter can be used to test the generalization ability of object detectors. We evaluate some models on these datasets and pinpoint the source of errors. We encourage the community to utilize these datasets for training and testing object detection models. Code and data is available at https://github.com/aliborji/COCO_OI.
翻訳日:2022-06-24 23:37:21 公開日:2022-06-23
# (参考訳) 完全凹殻抽出のための新しいアルゴリズム

A Novel Algorithm for Exact Concave Hull Extraction ( http://arxiv.org/abs/2206.11481v1 )

ライセンス: CC BY 4.0
Kevin Christopher VanHorn, Murat Can \c{C}obano\u{g}lu(参考訳) 領域抽出は、自律運転における物体検出から細胞生物学における細胞内形態解析まで、幅広い用途で必要とされる。 完全かつ効率的なアルゴリズムが存在する凸包の抽出と、実世界の形状を捉えるのに優れているが単一の解を持たない凸包の2つの方法がある。 特に一様格子の文脈では、凹凸船体アルゴリズムは概ね近似的であり、空間的および時間的効率のために領域の整合性を犠牲にする。 本研究では,頂点最小の凹体を最大分解能(ピクセル完全)で提供し,速度効率のトレードオフを調整可能な新しいアルゴリズムを提案する。 提案手法は,データ圧縮,検索,可視化,解析を含む複数のダウンストリームアプリケーションにおいて利点を提供する。 提案手法の実用性を実証するため,画像圧縮に着目した。 単一画像内の異なる領域における文脈依存圧縮(ノイズのエントロピーエンコーディングと構造化領域の予測エンコーディング)による顕著な改善を示す。 これらの改良は生物医学的画像から自然画像まで多岐にわたる。 画像圧縮以外にも、我々のアルゴリズムはより広範囲に応用でき、データ検索、可視化、分析のための幅広い実用的な応用に役立つ。

Region extraction is necessary in a wide range of applications, from object detection in autonomous driving to analysis of subcellular morphology in cell biology. There exist two main approaches: convex hull extraction, for which exact and efficient algorithms exist and concave hulls, which are better at capturing real-world shapes but do not have a single solution. Especially in the context of a uniform grid, concave hull algorithms are largely approximate, sacrificing region integrity for spatial and temporal efficiency. In this study, we present a novel algorithm that can provide vertex-minimized concave hulls with maximal (i.e. pixel-perfect) resolution and is tunable for speed-efficiency tradeoffs. Our method provides advantages in multiple downstream applications including data compression, retrieval, visualization, and analysis. To demonstrate the practical utility of our approach, we focus on image compression. We demonstrate significant improvements through context-dependent compression on disparate regions within a single image (entropy encoding for noisy and predictive encoding for the structured regions). We show that these improvements range from biomedical images to natural images. Beyond image compression, our algorithm can be applied more broadly to aid in a wide range of practical applications for data retrieval, visualization, and analysis.
翻訳日:2022-06-24 23:25:52 公開日:2022-06-23
# (参考訳) winoqueerに向けて - 大規模言語モデルにおける反クエリバイアスのベンチマークの開発

Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large Language Models ( http://arxiv.org/abs/2206.11484v1 )

ライセンス: CC BY 4.0
Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May(参考訳) 本稿では,queer や trans に対するバイアスが bert のような大規模言語モデル (llm) にどのようにコード化されているか,その程度について検討する。 また、下流タスクにおけるこれらのバイアスを減らす方法を提案する。 そこで我々は,新しいベンチマークデータセットであるwinoqueerを,他のバイアス検出ベンチマークをモデルとし,ホモフォビアバイアスとトランスフォビアバイアスを扱いながら導入する。 LGBTQ+ コミュニティのメンバーによって書かれた自然言語コーパス上で BERT を微調整することにより,このバイアスを緩和することができることがわかった。

This paper presents exploratory work on whether and to what extent biases against queer and trans people are encoded in large language models (LLMs) such as BERT. We also propose a method for reducing these biases in downstream tasks: finetuning the models on data written by and/or about queer people. To measure anti-queer bias, we introduce a new benchmark dataset, WinoQueer, modeled after other bias-detection benchmarks but addressing homophobic and transphobic biases. We found that BERT shows significant homophobic bias, but this bias can be mostly mitigated by finetuning BERT on a natural language corpus written by members of the LGBTQ+ community.
翻訳日:2022-06-24 23:24:48 公開日:2022-06-23
# (参考訳) 細粒度oct分類のための患者認識能動学習

Patient Aware Active Learning for Fine-Grained OCT Classification ( http://arxiv.org/abs/2206.11485v1 )

ライセンス: CC BY 4.0
Yash-yee Logan, Ryan Benkert, Ahmad Mustafa, Gukyeong Kwon and Ghassan AlRegib(参考訳) 本稿では,医学的観点から積極的学習をより合理的にすることを検討する。 実際には、疾患は患者のコホートにまたがって異なる形で現れる。 既存のフレームワークは、主に不確実性や多様性に基づく方法で最も有益なサンプルを選択するために数学的構造を使用してきた。 しかし、そのようなアルゴリズムは、医療コミュニティや医療提供者にとって自然に使えるものではない。 したがって、臨床環境での展開は非常に限られている。 そこで本研究では,既存のアルゴリズムに組み込むことができるアクティブラーニングのサンプル選択プロセスに臨床知見を取り入れたフレームワークを提案する。 医学的に解釈可能な能動学習フレームワークは, OCT分類の一般化性能を向上させるために, 患者から多様な疾患を抽出する。 包括的実験の結果、アクティブラーニングフレームワークに患者の洞察を組み込むことで、2つのアーキテクチャでよく使われる5つのパラダイムに一致または超える性能が得られることが報告された。 また、このフレームワークは既存の医療プラクティスに統合されており、医療提供者が利用できる。

This paper considers making active learning more sensible from a medical perspective. In practice, a disease manifests itself in different forms across patient cohorts. Existing frameworks have primarily used mathematical constructs to engineer uncertainty or diversity-based methods for selecting the most informative samples. However, such algorithms do not present themselves naturally as usable by the medical community and healthcare providers. Thus, their deployment in clinical settings is very limited, if any. For this purpose, we propose a framework that incorporates clinical insights into the sample selection process of active learning that can be incorporated with existing algorithms. Our medically interpretable active learning framework captures diverse disease manifestations from patients to improve generalization performance of OCT classification. After comprehensive experiments, we report that incorporating patient insights within the active learning framework yields performance that matches or surpasses five commonly used paradigms on two architectures with a dataset having imbalanced patient distributions. Also, the framework integrates within existing medical practices and thus can be used by healthcare providers.
翻訳日:2022-06-24 23:15:28 公開日:2022-06-23
# (参考訳) 正規化フローによる直交領域適応

Gradual Domain Adaptation via Normalizing Flows ( http://arxiv.org/abs/2206.11492v1 )

ライセンス: CC BY 4.0
Shogo Sagawa, Hideitsu Hino(参考訳) 従来のドメイン適応手法は、ソースとターゲットドメインの間に大きなギャップがある場合、うまく動作しません。 段階的ドメイン適応(gradual domain adaptation)は、ソースから対象ドメインへと徐々に移行する中間ドメインを活用することで、この問題に対処するアプローチの1つである。 先行研究では,中間領域の数が多く,隣接領域の距離が小さいと仮定し,ラベルなしデータセットを用いた自己学習による段階的領域適応アルゴリズムが適用可能であった。 しかし実際には、中間領域の数が限られ、隣接する領域の距離が大きいため、段階的な自己学習は失敗する。 本稿では,教師なしドメイン適応の枠組みを維持しつつ,この問題を緩和するための正規化フローの利用を提案する。 フローの正規化から擬似中間ドメインを生成し、段階的ドメイン適応に使用する。 実世界のデータセットを用いて実験を行い,提案手法が上記の問題を緩和し,分類性能を向上させることを確認する。

Conventional domain adaptation methods do not work well when a large gap exists between the source and the target domain. Gradual domain adaptation is one of the approaches to address the problem by leveraging the intermediate domain, which gradually shifts from the source to the target domain. The previous work assumed that the number of the intermediate domains is large and the distance of the adjacent domains is small; hence, the gradual domain adaptation algorithm by self-training with unlabeled datasets was applicable. In practice, however, gradual self-training will fail because the number of the intermediate domains is limited, and the distance of the adjacent domains is large. We propose using normalizing flows to mitigate this problem while maintaining the framework of unsupervised domain adaptation. We generate pseudo intermediate domains from normalizing flows and then use them for gradual domain adaptation. We evaluate our method by experiments with real-world datasets and confirm that our proposed method mitigates the above explained problem and improves the classification performance.
翻訳日:2022-06-24 23:07:19 公開日:2022-06-23
# (参考訳) CGAR: 強化リーンにおける批判的指導的行動再分配

CGAR: Critic Guided Action Redistribution in Reinforcement Leaning ( http://arxiv.org/abs/2206.11494v1 )

ライセンス: CC BY 4.0
Tairan Huang, Xu Li, Hao Li, Mingming Sun, Ping Li(参考訳) ゲームプレイング強化学習エージェントのトレーニングには,環境との対話が複数必要である。 未知のランダム探索は時間と資源の無駄を引き起こす可能性がある。 そんな無駄を和らげるのが不可欠だ。 本稿では,オフ・ポリティカル・アクタ・リタクタのアルゴリズムの設定において,批評家は俳優よりも,あるいは少なくとも俳優と同等の報酬を期待できることを示す。 したがって、批評家が予測したq値は、アクタが予測したポリシー分布からもともとサンプリングしたアクションを再分配するより良い信号となる。 本稿では,CGAR(Critic Guided Action Redistribution)アルゴリズムを導入し,OpenAI MuJoCoタスク上でテストする。 実験の結果,本手法はサンプル効率が向上し,最新性能が得られた。 私たちのコードはhttps://github.com/tairanhuang/cgarにあります。

Training a game-playing reinforcement learning agent requires multiple interactions with the environment. Ignorant random exploration may cause a waste of time and resources. It's essential to alleviate such waste. As discussed in this paper, under the settings of the off-policy actor critic algorithms, we demonstrate that the critic can bring more expected discounted rewards than or at least equal to the actor. Thus, the Q value predicted by the critic is a better signal to redistribute the action originally sampled from the policy distribution predicted by the actor. This paper introduces the novel Critic Guided Action Redistribution (CGAR) algorithm and tests it on the OpenAI MuJoCo tasks. The experimental results demonstrate that our method improves the sample efficiency and achieves state-of-the-art performance. Our code can be found at https://github.com/tairanhuang/CGAR.
翻訳日:2022-06-24 22:54:06 公開日:2022-06-23
# (参考訳) 重み付き連結ドミネートセットによるUAV画像の運動からの並列構造

Parallel Structure from Motion for UAV Images via Weighted Connected Dominating Set ( http://arxiv.org/abs/2206.11499v1 )

ライセンス: CC BY 4.0
San Jiang, Qingquan Li, Wanshou Jiang, Wu Chen(参考訳) 運動からのインクリメンタル構造 (ISfM) は、UAV画像の向き付けに広く用いられている。 しかし、その効率は連続的な制約のために劇的に低下する。 分割・分割戦略は効率改善に利用されてきたが、クラスタマージは困難か、あるいは真剣に設計されたオーバーラップ構造に依存している。 本稿では,クラスタマージのための大域的モデルを抽出し,効率よく正確なUAV画像配向を実現するために並列SfMソリューションを設計するアルゴリズムを提案する。 まず、語彙木検索に基づいてマッチペアを選択し、特徴マッチングの数と分布の両方を考慮してエッジ重みを計算した非指向重み付きマッチグラフを構築する。 第2に、マッチグラフの簡略化と、グラフノード選択におけるエッジ重みを組み込んだグローバルモデルの構築を実現するために、重み付き連結支配集合(wcds)と呼ばれるアルゴリズムが設計されている。 第3に、マッチグラフは同時にコンパクトクラスタと非オーバーラップクラスタに分割される。 並列再構築後、グローバルモデルとクラスタモデルの間の共通の3dポイントの助けを借りてクラスタマージを行う。 最後に,古典斜めの3つのUAVデータセットと近年最適化されたビュー・フォトグラム法を用いて,包括的解析と比較により提案手法の有効性を検証する。 実験の結果,提案する並列sfmは17.4倍の効率向上と配向精度を両立できることがわかった。 絶対baでは、地理参照精度は水平方向と垂直方向のgsd値の約2.0倍と3.0倍である。 並列SfMの場合、提案手法はより信頼性の高い代替手段である。

Incremental Structure from Motion (ISfM) has been widely used for UAV image orientation. Its efficiency, however, decreases dramatically due to the sequential constraint. Although the divide-and-conquer strategy has been utilized for efficiency improvement, cluster merging becomes difficult or depends on seriously designed overlap structures. This paper proposes an algorithm to extract the global model for cluster merging and designs a parallel SfM solution to achieve efficient and accurate UAV image orientation. First, based on vocabulary tree retrieval, match pairs are selected to construct an undirected weighted match graph, whose edge weights are calculated by considering both the number and distribution of feature matches. Second, an algorithm, termed weighted connected dominating set (WCDS), is designed to achieve the simplification of the match graph and build the global model, which incorporates the edge weight in the graph node selection and enables the successful reconstruction of the global model. Third, the match graph is simultaneously divided into compact and non-overlapped clusters. After the parallel reconstruction, cluster merging is conducted with the aid of common 3D points between the global and cluster models. Finally, by using three UAV datasets that are captured by classical oblique and recent optimized views photogrammetry, the validation of the proposed solution is verified through comprehensive analysis and comparison. The experimental results demonstrate that the proposed parallel SfM can achieve 17.4 times efficiency improvement and comparative orientation accuracy. In absolute BA, the geo-referencing accuracy is approximately 2.0 and 3.0 times the GSD (Ground Sampling Distance) value in the horizontal and vertical directions, respectively. For parallel SfM, the proposed solution is a more reliable alternative.
翻訳日:2022-06-24 22:44:56 公開日:2022-06-23
# (参考訳) protocolling radiology imagingにおける機械学習自然言語処理応用の現状と展望

A Review of Published Machine Learning Natural Language Processing Applications for Protocolling Radiology Imaging ( http://arxiv.org/abs/2206.11502v1 )

ライセンス: CC BY 4.0
Nihal Raju (5), Michael Woodburn (1 and 5), Stefan Kachel (2 and 3), Jack O'Shaughnessy (5), Laurence Sorace (5), Natalie Yang (2), Ruth P Lim (2 and 4) ((1) Harvard University, Extension School, Cambridge, MA, USA, (2) Department of Radiology, The University of Melbourne, Parkville, (3) Department of Radiology, Columbia University in the City of New York, (4) Department of Surgery, Austin, The University of Melbourne, (5) Austin Hospital, Austin Health, Melbourne, Australia)(参考訳) 機械学習(ML)は人工知能(AI)のサブフィールドであり、放射線学におけるその応用は絶えず加速している。 最も研究されているMLアプリケーションは画像の自動解釈である。 しかし、自然言語処理(NLP)は、テキスト解釈タスクのMLと組み合わせることができるため、放射線学にも多くの応用がある。 そのような応用の1つは、臨床放射線学参照を解釈し、適切な撮像技術を選択することを含む放射線学プロトコルの自動化である。 撮影が正しいことを確実にするための重要な課題である。 しかしながら、放射線科医がプロトコル作成に専念しなければならない時間は、レファレンスやレファラーとのコミュニケーション、教育に費やすことができる。 現在、臨床テキストを用いてプロトコル選択を自動化するMLモデルが開発されている出版物は少ない。 本稿では,この分野の文献を概観する。 公開モデルの体系的な評価は、機械学習の慣例によって提案されたベストプラクティスを参照して行われる。 臨床現場における自動プロトコル導入の進展について述べる。

Machine learning (ML) is a subfield of Artificial intelligence (AI), and its applications in radiology are growing at an ever-accelerating rate. The most studied ML application is the automated interpretation of images. However, natural language processing (NLP), which can be combined with ML for text interpretation tasks, also has many potential applications in radiology. One such application is automation of radiology protocolling, which involves interpreting a clinical radiology referral and selecting the appropriate imaging technique. It is an essential task which ensures that the correct imaging is performed. However, the time that a radiologist must dedicate to protocolling could otherwise be spent reporting, communicating with referrers, or teaching. To date, there have been few publications in which ML models were developed that use clinical text to automate protocol selection. This article reviews the existing literature in this field. A systematic assessment of the published models is performed with reference to best practices suggested by machine learning convention. Progress towards implementing automated protocolling in a clinical setting is discussed.
翻訳日:2022-06-24 22:19:35 公開日:2022-06-23
# (参考訳) 正規化Schattenノルムの量子近似と学習への応用

Quantum Approximation of Normalized Schatten Norms and Applications to Learning ( http://arxiv.org/abs/2206.11506v1 )

ライセンス: CC BY 4.0
Yiyou Chen and Hideyuki Miyahara and Louis-S. Bouchard and Vwani Roychowdhury(参考訳) 忠実度計量のような量子状態の類似性を決定する効率的な尺度は広く研究されている。 本稿では,量子演算における類似度尺度の定義の問題に対処する。 u_1$ と $u_2$ という2つの量子演算が回路形式で表現されると、我々はまず、それらの差の正規化されたシャッテン2-ノルム(\| u_1-u_2 \|_{s_2}$)を精度$\epsilon$で推定する量子サンプリング回路を開発した。 量子系の大きさとは無関係に、サンプル複雑性の上限が poly$(\frac{1}{\epsilon})$ であることが証明される。 We then show that such a similarity metric is directly related to a functional definition of similarity of unitary operations using the conventional fidelity metric of quantum states ($F$): If $\| U_1-U_2 \|_{S_2}$ is sufficiently small (e.g. $ \leq \frac{\epsilon}{1+\sqrt{2(1/\delta - 1)}}$) then the fidelity of states obtained by processing the same randomly and uniformly picked pure state, $|\psi \rangle$, is as high as needed ($F({U}_1 |\psi \rangle, {U}_2 |\psi \rangle)\geq 1-\epsilon$) with probability exceeding $1-\delta$. この効率的な類似度メトリック推定フレームワークを、与えられたユニタリ操作の平方根を見つけるなど、量子回路学習タスクに適用する例を示す。

Efficient measures to determine similarity of quantum states, such as the fidelity metric, have been widely studied. In this paper, we address the problem of defining a similarity measure for quantum operations that can be \textit{efficiently estimated}. Given two quantum operations, $U_1$ and $U_2$, represented in their circuit forms, we first develop a quantum sampling circuit to estimate the normalized Schatten 2-norm of their difference ($\| U_1-U_2 \|_{S_2}$) with precision $\epsilon$, using only one clean qubit and one classical random variable. We prove a Poly$(\frac{1}{\epsilon})$ upper bound on the sample complexity, which is independent of the size of the quantum system. We then show that such a similarity metric is directly related to a functional definition of similarity of unitary operations using the conventional fidelity metric of quantum states ($F$): If $\| U_1-U_2 \|_{S_2}$ is sufficiently small (e.g. $ \leq \frac{\epsilon}{1+\sqrt{2(1/\delta - 1)}}$) then the fidelity of states obtained by processing the same randomly and uniformly picked pure state, $|\psi \rangle$, is as high as needed ($F({U}_1 |\psi \rangle, {U}_2 |\psi \rangle)\geq 1-\epsilon$) with probability exceeding $1-\delta$. We provide example applications of this efficient similarity metric estimation framework to quantum circuit learning tasks, such as finding the square root of a given unitary operation.
翻訳日:2022-06-24 22:18:39 公開日:2022-06-23
# (参考訳) ICOSタンパク質発現セグメンテーション:トランスフォーマーネットワークはより良い結果を得られるか?

ICOS Protein Expression Segmentation: Can Transformer Networks Give Better Results? ( http://arxiv.org/abs/2206.11520v1 )

ライセンス: CC0 1.0
Vivek Kumar Singh, Paul O Reilly, Jacqueline James, Manuel Salto Tellez, Perry Maxwell(参考訳) バイオマーカーは治療に反応する患者を識別する。 トランスフォーマーネットワークに基づく人工知能の最近の進歩により、挑戦的な病理画像のパフォーマンスを測定するための限られた研究しか行われていない。 本稿では,免疫組織化学(ihc)による大腸癌における免疫チェックポイントバイオマーカー,誘導型t細胞共刺激因子(icos)蛋白の分節化に対する,最先端のトランスフォーマーネットワークの有効性について検討した。 大規模かつ包括的な実験結果から、MiSSFormerはトランスフォーマーおよび効率的なU-Net法よりも74.85%高いDiceスコアを達成したことが確認された。

Biomarkers identify a patients response to treatment. With the recent advances in artificial intelligence based on the Transformer networks, there is only limited research has been done to measure the performance on challenging histopathology images. In this paper, we investigate the efficacy of the numerous state-of-the-art Transformer networks for immune-checkpoint biomarker, Inducible Tcell COStimulator (ICOS) protein cell segmentation in colon cancer from immunohistochemistry (IHC) slides. Extensive and comprehensive experimental results confirm that MiSSFormer achieved the highest Dice score of 74.85% than the rest evaluated Transformer and Efficient U-Net methods.
翻訳日:2022-06-24 21:47:57 公開日:2022-06-23
# (参考訳) 協調的メトリクス学習の再考:負のサンプリングを伴わない効率的な代替手段を目指して

Rethinking Collaborative Metric Learning: Toward an Efficient Alternative without Negative Sampling ( http://arxiv.org/abs/2206.11549v1 )

ライセンス: CC BY 4.0
Shilong Bao, Qianqian Xu, Zhiyong Yang, Xiaochun Cao, Qingming Huang(参考訳) 最近提案されたCML(Collaborative Metric Learning)パラダイムは,その単純さと有効性から,レコメンデーションシステム(RS)の領域に広く関心を集めている。 典型的には、cmlの既存の文献は、ペアワイズ計算の時間を消費する負担を軽減するための \textit{negative sampling} 戦略に大きく依存している。 しかし、この研究において、理論的解析により、負のサンプリングが一般化誤差のバイアス付き推定につながることが判明した。 具体的には, サンプルベースCMLは, 偏差項を一般化境界に導入し, 負のサンプリングによって誘導される分布と基底の真理分布の間のユーザあたりのtextit{Total Variance} (TV) で定量化することを示した。 このことから,サンプルベースCML損失関数の最適化は,十分なトレーニングデータであっても,小さな一般化誤差を保証できないことが示唆された。 さらに, 負のサンプリング戦略を使わずにバイアス項が消滅することを示す。 そこで本研究では,SFCML (textit{Sampling-Free Collaborative Metric Learning}) と呼ばれる CML に対して,サンプルバイアスを効果的に除去する手法を提案する。 最後に、7つのベンチマークデータセットに対する包括的な実験は、提案アルゴリズムの優位性を示す。

The recently proposed Collaborative Metric Learning (CML) paradigm has aroused wide interest in the area of recommendation systems (RS) owing to its simplicity and effectiveness. Typically, the existing literature of CML depends largely on the \textit{negative sampling} strategy to alleviate the time-consuming burden of pairwise computation. However, in this work, by taking a theoretical analysis, we find that negative sampling would lead to a biased estimation of the generalization error. Specifically, we show that the sampling-based CML would introduce a bias term in the generalization bound, which is quantified by the per-user \textit{Total Variance} (TV) between the distribution induced by negative sampling and the ground truth distribution. This suggests that optimizing the sampling-based CML loss function does not ensure a small generalization error even with sufficiently large training data. Moreover, we show that the bias term will vanish without the negative sampling strategy. Motivated by this, we propose an efficient alternative without negative sampling for CML named \textit{Sampling-Free Collaborative Metric Learning} (SFCML), to get rid of the sampling bias in a practical sense. Finally, comprehensive experiments over seven benchmark datasets speak to the superiority of the proposed algorithm.
翻訳日:2022-06-24 21:44:30 公開日:2022-06-23
# (参考訳) リアルタイム不確かさ推定のための幾何学的手法

A Geometric Method for Improved Uncertainty Estimation in Real-time ( http://arxiv.org/abs/2206.11562v1 )

ライセンス: CC BY 4.0
Gabriella Chouraqui, Liron Cohen, Gil Einziger, Liel Leman(参考訳) 機械学習分類器は本質的に確率的であり、必然的に不確実性を伴う。 正しい入力の確率を予測することは不確実性(あるいは信頼)推定と呼ばれ、リスク管理に不可欠である。 ポストホックモデルキャリブレーションはモデルの再訓練を必要とせず、モデルを変更することなくモデルの不確実性推定を改善することができる。 我々の研究は不確実性推定のための幾何学的アプローチを推し進めている。 大まかに言えば、既存のトレーニング入力から入力された電流の幾何学的距離を不確実性を推定する信号として使用し、標準的なポストホックキャリブレーション手法を用いて(モデルの推定の代わりに)その信号を校正する。 提案手法は,複数のデータセットとモデルを広範囲に評価することにより,最近提案されている手法よりも不確実性推定精度が向上することを示す。 さらに、ほぼリアルタイムなアプリケーションでこのアプローチを実行する可能性も示しています。 コードはgithubのhttps://github.com/nosleepdeveloper/geometric-calibratorで入手できます。

Machine learning classifiers are probabilistic in nature, and thus inevitably involve uncertainty. Predicting the probability of a specific input to be correct is called uncertainty (or confidence) estimation and is crucial for risk management. Post-hoc model calibrations can improve models' uncertainty estimations without the need for retraining, and without changing the model. Our work puts forward a geometric-based approach for uncertainty estimation. Roughly speaking, we use the geometric distance of the current input from the existing training inputs as a signal for estimating uncertainty and then calibrate that signal (instead of the model's estimation) using standard post-hoc calibration techniques. We show that our method yields better uncertainty estimations than recently proposed approaches by extensively evaluating multiple datasets and models. In addition, we also demonstrate the possibility of performing our approach in near real-time applications. Our code is available at our Github https://github.com/NoSleepDeveloper/Geometric-Calibrator.
翻訳日:2022-06-24 21:42:14 公開日:2022-06-23
# (参考訳) LED:潜時変量に基づく密度推定

LED: Latent Variable-based Estimation of Density ( http://arxiv.org/abs/2206.11563v1 )

ライセンス: CC BY 4.0
Omri Ben-Dov, Pravir Singh Gupta, Victoria Fernandez Abrevaya, Michael J. Black, Partha Ghosh(参考訳) 現代の生成モデルは、(1)高品質なランダムサンプルを生成できるが、新しいデータポイントの正確な密度を推定できないモデル、(2)サンプルの品質と潜在空間のコンパクトさを犠牲にして正確な密度推定を行うモデル、の2つの主要なカテゴリに分けられる。 本研究は, GANと密接に関連する新しい生成モデルであるLEDを提案し, 効率的なサンプリングだけでなく, 効率的な密度推定を可能にする。 判別器の出力に対数様態を最大化することにより、生成したデータの多様性を促進する代替の対数最適化目標に到達する。 この定式化は、いくつかの一般的な生成モデルの間の関係に関する洞察を与える。 さらに,低次元潜伏変数を入力として許容しながら,生成したサンプルの正確な確率を計算できるフローベースジェネレータを構築した。 実験の結果, 各種データセットにおいて, 推定精度の高い推定値が得られたが, 生成した試料の質は良好であった。

Modern generative models are roughly divided into two main categories: (1) models that can produce high-quality random samples, but cannot estimate the exact density of new data points and (2) those that provide exact density estimation, at the expense of sample quality and compactness of the latent space. In this work we propose LED, a new generative model closely related to GANs, that allows not only efficient sampling but also efficient density estimation. By maximizing log-likelihood on the output of the discriminator, we arrive at an alternative adversarial optimization objective that encourages generated data diversity. This formulation provides insights into the relationships between several popular generative models. Additionally, we construct a flow-based generator that can compute exact probabilities for generated samples, while allowing low-dimensional latent variables as input. Our experimental results, on various datasets, show that our density estimator produces accurate estimates, while retaining good quality in the generated samples.
翻訳日:2022-06-24 21:24:16 公開日:2022-06-23
# (参考訳) ディープ潜在変数モデルを用いた少数ショット非パラメトリック学習

Few-Shot Non-Parametric Learning with Deep Latent Variable Model ( http://arxiv.org/abs/2206.11573v1 )

ライセンス: CC BY 4.0
Zhiying Jiang, Yiqin Dai, Ji Xin, Ming Li, Jimmy Lin(参考訳) 機械学習アルゴリズムが解決するであろう現実世界のほとんどの問題は、状況に直面する。 1) 未知のデータ分布 2)ドメイン固有の知識は少ない。 3) 限定アノテーション付きデータセット。 ラベル付きデータが多いがラベル付きデータが少ないデータセットの学習フレームワークである潜在変数(npc-lv)を用いた圧縮による非パラメトリック学習を提案する。 生成モデルを教師なしの方法でトレーニングするだけで、フレームワークはデータ分散を利用して圧縮機を構築する。 コルモゴロフ複雑性から導かれる圧縮機による距離測定とラベル付きデータの少ないデータを用いて、NPC-LVはさらなる訓練をせずに分類する。 画像分類ではnpc-lvが3つのデータセットの教師あり学習法を上回り,cifar-10では半教師あり学習法を上回った。 負のエビデンスの下限値(nelbo)を分類の近似圧縮長として用いる方法と方法を示す。 圧縮速度と分類精度の相関関係を明らかにすることにより,npc-lvでは,生成モデルの改良により下流分類精度が向上することを示す。

Most real-world problems that machine learning algorithms are expected to solve face the situation with 1) unknown data distribution; 2) little domain-specific knowledge; and 3) datasets with limited annotation. We propose Non-Parametric learning by Compression with Latent Variables (NPC-LV), a learning framework for any dataset with abundant unlabeled data but very few labeled ones. By only training a generative model in an unsupervised way, the framework utilizes the data distribution to build a compressor. Using a compressor-based distance metric derived from Kolmogorov complexity, together with few labeled data, NPC-LV classifies without further training. We show that NPC-LV outperforms supervised methods on all three datasets on image classification in low data regime and even outperform semi-supervised learning methods on CIFAR-10. We demonstrate how and when negative evidence lowerbound (nELBO) can be used as an approximate compressed length for classification. By revealing the correlation between compression rate and classification accuracy, we illustrate that under NPC-LV, the improvement of generative models can enhance downstream classification accuracy.
翻訳日:2022-06-24 21:06:00 公開日:2022-06-23
# (参考訳) ワークステーションの大規模保守

Human-in-the-Loop Large-Scale Predictive Maintenance of Workstations ( http://arxiv.org/abs/2206.11574v1 )

ライセンス: CC BY 4.0
Alexander Nikitin and Samuel Kaski(参考訳) 予測保守(英: Predictive maintenance, PdM)とは、システムの状態の統計的解析に基づいて、保守作業のスケジューリングを行うタスクである。 本稿では,機械学習システムによるワークステーション(コンピュータ,ラップトップ,サーバ)の今後の課題を予測できるPdM手法を提案する。 我々のシステムはドメインエキスパートと対話し、予測を改善し、知識を引き出す。 私たちのアプローチでは、ドメインの専門家は、従来のアクティブラーニングのように正しいラベルのプロバイダとしてだけでなく、明示的な決定ルールのフィードバックのソースとしてループに含まれています。 システムは自動化され、いくつかの組織のワークステーションのメンテナンスなど、新しいドメインに簡単に拡張できるように設計されている。 さらに,制御された環境で再現可能な実験を行うシミュレータを開発し,数十の企業を対象とした数千のワークステーションを備えた実生活ワークステーションpdmを大規模に運用する。

Predictive maintenance (PdM) is the task of scheduling maintenance operations based on a statistical analysis of the system's condition. We propose a human-in-the-loop PdM approach in which a machine learning system predicts future problems in sets of workstations (computers, laptops, and servers). Our system interacts with domain experts to improve predictions and elicit their knowledge. In our approach, domain experts are included in the loop not only as providers of correct labels, as in traditional active learning, but as a source of explicit decision rule feedback. The system is automated and designed to be easily extended to novel domains, such as maintaining workstations of several organizations. In addition, we develop a simulator for reproducible experiments in a controlled environment and deploy the system in a large-scale case of real-life workstations PdM with thousands of workstations for dozens of companies.
翻訳日:2022-06-24 20:40:54 公開日:2022-06-23
# (参考訳) 計算コスト低減によるユニバーサル学習画像圧縮

Universal Learned Image Compression With Low Computational Cost ( http://arxiv.org/abs/2206.11599v1 )

ライセンス: CC BY 4.0
Bowen Li, Yao Xin, Youneng Bao, Fanyang Meng, Yongsheng Liang, Wen Tan(参考訳) 近年, JPEG, JPEG2000, BPGなどの従来の規格と比較して, 画像圧縮法が急速に発展し, 高い速度歪み性能を示した。 しかし、学習ベースの手法は高い計算コストに苦しむため、リソースの少ないデバイスへのデプロイには役に立たない。 そこで本研究では,エンコーダのSAPM-E,デコーダのSAPM-Dを含むシフト付加並列モジュール(SAPM)を提案する。 具体的には、既存のCNNベースのアーキテクチャをアップグレードするためのプラグイン・アンド・プレイコンポーネントとして利用することができる。 さらに,潜伏表現の確率分布を徹底的に解析し,より正確なエントロピー推定のためにラプラス混合推定法を提案する。 実験の結果,psnr と ms-ssim の指標を約 2 倍のエネルギー削減で畳み込み法と比較し,同等あるいはそれ以上の性能が得られることがわかった。

Recently, learned image compression methods have developed rapidly and exhibited excellent rate-distortion performance when compared to traditional standards, such as JPEG, JPEG2000 and BPG. However, the learning-based methods suffer from high computational costs, which is not beneficial for deployment on devices with limited resources. To this end, we propose shift-addition parallel modules (SAPMs), including SAPM-E for the encoder and SAPM-D for the decoder, to largely reduce the energy consumption. To be specific, they can be taken as plug-and-play components to upgrade existing CNN-based architectures, where the shift branch is used to extract large-grained features as compared to small-grained features learned by the addition branch. Furthermore, we thoroughly analyze the probability distribution of latent representations and propose to use Laplace Mixture Likelihoods for more accurate entropy estimation. Experimental results demonstrate that the proposed methods can achieve comparable or even better performance on both PSNR and MS-SSIM metrics to that of the convolutional counterpart with an about 2x energy reduction.
翻訳日:2022-06-24 20:23:06 公開日:2022-06-23
# (参考訳) 敵を伴わない制限ボルツマン機械におけるアンテングリング表現

Disentangling representations in Restricted Boltzmann Machines without adversaries ( http://arxiv.org/abs/2206.11600v1 )

ライセンス: CC BY 4.0
Jorge Fernandez-de-Cossio-Diaz, Simona Cocco, Remi Monasson(参考訳) 教師なし機械学習の目標は、複雑な高次元データの表現を分離することであり、データのばらつきの重要な潜在要因を解釈し、それらを操作して望ましい特徴を持つ新しいデータを生成することである。 これらの手法は、識別者が特定のデータ情報(ラベル)を再構成するのを避けるために、表現をチューニングする敵のスキームにしばしば依存する。 本稿では,敵判別器の訓練を必要とせず,表現の分離を簡便かつ効果的に行う方法を提案し,最も単純な表現ベース生成モデルの一つである制限ボルツマンマシン(rbm)に適用する。 提案手法では,学習中の重み付けに適切な制約を導入することで,潜在変数の小さなサブセットにラベルに関する情報を集中させることができる。 アプローチの有効性は,MNISTデータセット,二次元Isingモデル,およびタンパク質ファミリーの分類で示される。 さらに,当社のフレームワークが,データのログ類似性という観点から,それらの表現の絡み合いに伴うコストの計算を可能にしていることを示す。

A goal of unsupervised machine learning is to disentangle representations of complex high-dimensional data, allowing for interpreting the significant latent factors of variation in the data as well as for manipulating them to generate new data with desirable features. These methods often rely on an adversarial scheme, in which representations are tuned to avoid discriminators from being able to reconstruct specific data information (labels). We propose a simple, effective way of disentangling representations without any need to train adversarial discriminators, and apply our approach to Restricted Boltzmann Machines (RBM), one of the simplest representation-based generative models. Our approach relies on the introduction of adequate constraints on the weights during training, which allows us to concentrate information about labels on a small subset of latent variables. The effectiveness of the approach is illustrated on the MNIST dataset, the two-dimensional Ising model, and taxonomy of protein families. In addition, we show how our framework allows for computing the cost, in terms of log-likelihood of the data, associated to the disentanglement of their representations.
翻訳日:2022-06-24 20:13:20 公開日:2022-06-23
# (参考訳) 比較可能なユーザ生成コンテンツからの単語埋め込みによる言語間消費者健康語彙の構築

Constructing Cross-lingual Consumer Health Vocabulary with Word-Embedding from Comparable User Generated Content ( http://arxiv.org/abs/2206.11612v1 )

ライセンス: CC BY 4.0
Chia-Hsuan Chang, Lei Wang, Christopher C. Yang(参考訳) オンライン健康コミュニティ(OHC)は、平民が健康情報を共有するための主要なチャンネルである。 OHCsから健康消費者生成コンテンツ(HCGC)を解析するためには、一般人が使用する口語医療表現を特定することが重要な課題である。 open-access and collaborative consumer health vocabulary (oac chv)はそのような課題に対処するための制御された語彙である。 それでも、OAC CHVは英語でのみ利用可能であり、他の言語にも適用可能である。 本研究では,英語のoac chvを言語横断言語に拡張するための言語間自動認識フレームワークを提案する。 本研究の枠組みは,英語HCGCコーパスと非英語HCGCコーパス(中国語)を入力として必要とする。 2つの単言語単語ベクトル空間をスキップグラムアルゴリズムを用いて決定し、各空間が言語内の在来人からの共通単語関連を符号化する。 アイソメトリの仮定に基づいて、2つの単言語空間をバイリンガルワードベクトル空間に整列し、コサイン類似性を言語間で意味論的に類似した単語を識別するための計量として用いる。 実験では,言語間の共通表現を含む類似の医療用語を効果的に検索し,さらに言語間CHVのコンパイルを容易にすることを実証した。

The online health community (OHC) is the primary channel for laypeople to share health information. To analyze the health consumer-generated content (HCGC) from the OHCs, identifying the colloquial medical expressions used by laypeople is a critical challenge. The open-access and collaborative consumer health vocabulary (OAC CHV) is the controlled vocabulary for addressing such a challenge. Nevertheless, OAC CHV is only available in English, limiting the applicability to other languages. This research aims to propose a cross-lingual automatic term recognition framework for extending the English OAC CHV into a cross-lingual one. Our framework requires an English HCGC corpus and a non-English (i.e., Chinese in this study) HCGC corpus as inputs. Two monolingual word vector spaces are determined using skip-gram algorithm so that each space encodes common word associations from laypeople within a language. Based on isometry assumption, the framework align two monolingual spaces into a bilingual word vector space, where we employ cosine similarity as a metric for identifying semantically similar words across languages. In the experiments, our framework demonstrates that it can effectively retrieve similar medical terms, including colloquial expressions, across languages and further facilitate compilation of cross-lingual CHV.
翻訳日:2022-06-24 19:22:22 公開日:2022-06-23
# (参考訳) 画像圧縮センシングのためのグローバルセンシングと計測再利用

Global Sensing and Measurements Reuse for Image Compressed Sensing ( http://arxiv.org/abs/2206.11629v1 )

ライセンス: CC BY 4.0
Zi-En Fan, Feng Lian, Jia-Ni Quan(参考訳) 近年,ディープネットワークを用いた画像圧縮センシング手法は,従来の手法に比べて高い再構成品質を達成し,計算オーバーヘッドを低減している。 しかし,既存の手法では,ネットワーク内の部分的特徴のみから計測値を取得し,画像再構成に一度だけ使用する。 彼らはネットワークに低、中、高レベルの特徴を無視する。cite{zeiler2014visualizing} は、これらすべてが高品質な再構築に不可欠である。 さらに、測定値を使用することは、測定値からよりリッチな情報を抽出するのに十分ではないかもしれない。 そこで本研究では,全レベル特徴の収集にglobal sensing module (gsm) を用いる新しい計測器再利用畳み込み型圧縮センシングネットワーク (mr-ccsnet) を提案し,マルチスケールで複数回計測を再利用する効率的なセンシング・測定再利用ブロック (mrb) を実現する。 最後に、3つのベンチマークデータセットの実験結果から、我々のモデルは最先端の手法を大幅に上回ることを示す。

Recently, deep network-based image compressed sensing methods achieved high reconstruction quality and reduced computational overhead compared with traditional methods. However, existing methods obtain measurements only from partial features in the network and use them only once for image reconstruction. They ignore there are low, mid, and high-level features in the network\cite{zeiler2014visualizing} and all of them are essential for high-quality reconstruction. Moreover, using measurements only once may not be enough for extracting richer information from measurements. To address these issues, we propose a novel Measurements Reuse Convolutional Compressed Sensing Network (MR-CCSNet) which employs Global Sensing Module (GSM) to collect all level features for achieving an efficient sensing and Measurements Reuse Block (MRB) to reuse measurements multiple times on multi-scale. Finally, experimental results on three benchmark datasets show that our model can significantly outperform state-of-the-art methods.
翻訳日:2022-06-24 19:02:18 公開日:2022-06-23
# (参考訳) エンドツーエンドフレームワークによる双方向部分AUCの最適化

Optimizing Two-way Partial AUC with an End-to-end Framework ( http://arxiv.org/abs/2206.11655v1 )

ライセンス: CC BY 4.0
Zhiyong Yang, Qianqian Xu, Shilong Bao, Yuan He, Xiaochun Cao, Qingming Huang(参考訳) ROC曲線下の領域(AUC)は機械学習にとって重要な指標であり、可能なすべての正の値(TPR)と偽の正の値(FPR)の平均性能を評価する。 熟練な分類器は高いTPRと低いFPRを同時に受け入れるべきであるという知識に基づいて、より一般的なTPAUC (Two-way partial AUC) の研究をし、この領域には$\mathsf{TPR} \ge \alpha, \mathsf{FPR} \le \beta$ がある。 さらに、最近の研究では、TPAUCはFPR範囲のみを制限している既存の部分AUCメトリクスと本質的に矛盾していることが示されており、高いTPAUCを活用するための解決策を求める新たな課題が開けている。 そこで本論文では,この新しい計量を最適化する最初の試みを提案する。 このコースにおける重要な課題は、エンドツーエンドの確率的トレーニングで勾配ベースの最適化を行うことが困難であり、代理損失を適切に選択することさえ困難である。 この問題に対処するために,ディープラーニングを用いた効率的なエンドツーエンドトレーニングを支援するサロゲート最適化問題を構築するための汎用フレームワークを提案する。 さらに、我々の理論分析は次のように示している。 1) サーロゲート問題の目的関数は, 軽度条件下で元の問題の上界に達する。 2)サロゲート問題を最適化すると,高い確率でTPAUCの一般化性能が向上する。 最後に、いくつかのベンチマークデータセットに関する実証研究は、我々のフレームワークの有効性について述べる。

The Area Under the ROC Curve (AUC) is a crucial metric for machine learning, which evaluates the average performance over all possible True Positive Rates (TPRs) and False Positive Rates (FPRs). Based on the knowledge that a skillful classifier should simultaneously embrace a high TPR and a low FPR, we turn to study a more general variant called Two-way Partial AUC (TPAUC), where only the region with $\mathsf{TPR} \ge \alpha, \mathsf{FPR} \le \beta$ is included in the area. Moreover, recent work shows that the TPAUC is essentially inconsistent with the existing Partial AUC metrics where only the FPR range is restricted, opening a new problem to seek solutions to leverage high TPAUC. Motivated by this, we present the first trial in this paper to optimize this new metric. The critical challenge along this course lies in the difficulty of performing gradient-based optimization with end-to-end stochastic training, even with a proper choice of surrogate loss. To address this issue, we propose a generic framework to construct surrogate optimization problems, which supports efficient end-to-end training with deep learning. Moreover, our theoretical analyses show that: 1) the objective function of the surrogate problems will achieve an upper bound of the original problem under mild conditions, and 2) optimizing the surrogate problems leads to good generalization performance in terms of TPAUC with a high probability. Finally, empirical studies over several benchmark datasets speak to the efficacy of our framework.
翻訳日:2022-06-24 19:01:27 公開日:2022-06-23
# (参考訳) 深層学習による気象予報を用いた地球降水量の短期予測

Short-range forecasts of global precipitation using using deep learning-augmented numerical weather prediction ( http://arxiv.org/abs/2206.11669v1 )

ライセンス: CC BY 4.0
Manmeet Singh, Vaisakh S B, Nachiketa Acharya, Suryachandra A Rao, Bipin Kumar, Zong-Liang Yang, Dev Niyogi(参考訳) 降水は地球の水気候を支配し、その日々の時空間変動は社会経済に大きな影響を与える。 数値気象予測(NWP)の進歩は、温度や圧力などの様々な物理分野の予測の改善によって測定されてきたが、降水予測には大きなバイアスが存在する。 我々は,有名なNWPモデルであるCFSv2の出力を深層学習により増強し,1日,2日,3日のリードタイムで短距離のグローバル降水量を改善するハイブリッドモデルを作成する。 本研究では,全フィールドを立方体球投影に変換するDLWP-CSアーキテクチャを用いて,大域データの球状性に対処する。 動的モデル降水と表面温度出力を改良DLWP-CS (UNET) に供給し, 地中真実降水を予測する。 cfsv2の平均バイアスは地上で+5から+7mm/日であるが、多変量ディープラーニングモデルは1から+1mm/日以内に減少する。 2005年のハリケーン・カトリーナ、2004年のハリケーン・イヴァン、2010年の中国洪水、2005年のインド洪水、2008年のミャンマーの嵐ナルジは、ハイブリッド動的深層学習モデルのスキルの大幅な向上を確認するために使用されている。 CFSv2は通常、空間パターンの適度から大きなバイアスを示し、短距離の時間スケールで降水量を過大評価する。 深層学習拡張nwpモデルは,これらのバイアスに対処し,予測降水の空間パターンと大きさを大幅に改善することができる。 深層学習の強化 CFSv2 は CFSv2 と比較して 1 日間,重要な土地領域に対する平均バイアスを 8 倍削減する。 時空間深層学習システムは,地球規模の短距離降水予測の精度と精度を高めるために経路を開く。

Precipitation governs Earth's hydroclimate, and its daily spatiotemporal fluctuations have major socioeconomic effects. Advances in Numerical weather prediction (NWP) have been measured by the improvement of forecasts for various physical fields such as temperature and pressure; however, large biases exist in precipitation prediction. We augment the output of the well-known NWP model CFSv2 with deep learning to create a hybrid model that improves short-range global precipitation at 1-, 2-, and 3-day lead times. To hybridise, we address the sphericity of the global data by using modified DLWP-CS architecture which transforms all the fields to cubed-sphere projection. Dynamical model precipitation and surface temperature outputs are fed into a modified DLWP-CS (UNET) to forecast ground truth precipitation. While CFSv2's average bias is +5 to +7 mm/day over land, the multivariate deep learning model decreases it to within -1 to +1 mm/day. Hurricane Katrina in 2005, Hurricane Ivan in 2004, China floods in 2010, India floods in 2005, and Myanmar storm Nargis in 2008 are used to confirm the substantial enhancement in the skill for the hybrid dynamical-deep learning model. CFSv2 typically shows a moderate to large bias in the spatial pattern and overestimates the precipitation at short-range time scales. The proposed deep learning augmented NWP model can address these biases and vastly improve the spatial pattern and magnitude of predicted precipitation. Deep learning enhanced CFSv2 reduces mean bias by 8x over important land regions for 1 day lead compared to CFSv2. The spatio-temporal deep learning system opens pathways to further the precision and accuracy in global short-range precipitation forecasts.
翻訳日:2022-06-24 18:59:50 公開日:2022-06-23
# (参考訳) EFFGAN: 細調整された連合GANの集合体

EFFGAN: Ensembles of fine-tuned federated GANs ( http://arxiv.org/abs/2206.11682v1 )

ライセンス: CC BY 4.0
Ebba Ekblom, Edvin Listo Zec, Olof Mogren(参考訳) 生成的敵ネットワークは、複雑で高次元のデータ分布を学習するための強力なツールであることが証明されているが、モード崩壊などの問題は、それらを訓練することを困難にしている。 これは、クライアントのドリフトや非IDデータのような問題によって、フェデレーション平均化が難しくなるため、フェデレーション付き学習設定でデータが複数のクライアントに分散化される場合、さらに難しい問題である。 本研究では,クライアント上で不均一に分散化され,共有できないデータ分散学習の課題について検討する。 当社の目標は、このディストリビューションを集中的にサンプルすることですが、データはクライアントを離れません。 この設定では、既存のアプローチが失敗する標準的なベンチマーク画像データセットを使用することで、局所的なエポック数が大きくなると、いわゆるクライアントドリフトが発生します。 そこで我々はEFFGAN: Ensembles of fine-tuned Federated GANsを提案する。 ローカルなエキスパートジェネレータの集合体であるEFFGANは、すべてのクライアント上のデータの分散を学習し、クライアントのドリフトを軽減することができる。 多数の局所的なエポックで訓練することができ、以前の作業よりも通信効率が良い。

Generative adversarial networks have proven to be a powerful tool for learning complex and high-dimensional data distributions, but issues such as mode collapse have been shown to make it difficult to train them. This is an even harder problem when the data is decentralized over several clients in a federated learning setup, as problems such as client drift and non-iid data make it hard for federated averaging to converge. In this work, we study the task of how to learn a data distribution when training data is heterogeneously decentralized over clients and cannot be shared. Our goal is to sample from this distribution centrally, while the data never leaves the clients. We show using standard benchmark image datasets that existing approaches fail in this setting, experiencing so-called client drift when the local number of epochs becomes to large. We thus propose a novel approach we call EFFGAN: Ensembles of fine-tuned federated GANs. Being an ensemble of local expert generators, EFFGAN is able to learn the data distribution over all clients and mitigate client drift. It is able to train with a large number of local epochs, making it more communication efficient than previous works.
翻訳日:2022-06-24 18:48:45 公開日:2022-06-23
# (参考訳) ntire 2022 画像の知覚的品質評価に関する挑戦

NTIRE 2022 Challenge on Perceptual Image Quality Assessment ( http://arxiv.org/abs/2206.11695v1 )

ライセンス: CC BY 4.0
Jinjin Gu, Haoming Cai, Chao Dong, Jimmy S. Ren, Radu Timofte(参考訳) 本稿では, cvpr 2022における画像復元・強調ワークショップ(ntire)ワークショップにおいて, 画像の知覚的品質評価(iqa)に関するntire 2022チャレンジについて報告する。 この課題は、知覚画像処理アルゴリズムによるiqaの新たな挑戦に対処するためである。 これらのアルゴリズムの出力画像は、従来の歪みとは全く異なる特徴を持ち、この課題で使用されるピパールデータセットに含まれる。 この課題は、NTIRE IQAチャレンジに似た完全な参照IQAトラックと、非参照IQAメソッドに焦点を当てた新しいトラックの2つのトラックに分けられる。 参加登録者192名と登録者179名。 最終テスト段階では、7チームと8チームがモデルとファクトシートを提出した。 ほぼ全員が既存のIQA法よりも優れた結果を得ており、勝利法は最先端の性能を示すことができる。

This paper reports on the NTIRE 2022 challenge on perceptual image quality assessment (IQA), held in conjunction with the New Trends in Image Restoration and Enhancement workshop (NTIRE) workshop at CVPR 2022. This challenge is held to address the emerging challenge of IQA by perceptual image processing algorithms. The output images of these algorithms have completely different characteristics from traditional distortions and are included in the PIPAL dataset used in this challenge. This challenge is divided into two tracks, a full-reference IQA track similar to the previous NTIRE IQA challenge and a new track that focuses on the no-reference IQA methods. The challenge has 192 and 179 registered participants for two tracks. In the final testing stage, 7 and 8 participating teams submitted their models and fact sheets. Almost all of them have achieved better results than existing IQA methods, and the winning method can demonstrate state-of-the-art performance.
翻訳日:2022-06-24 18:35:33 公開日:2022-06-23
# (参考訳) 教師なし音響ユニット発見のための潜伏ディリクレ配置の時間拡張

A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit Discovery ( http://arxiv.org/abs/2206.11706v1 )

ライセンス: CC BY-SA 4.0
Werner van der Merwe, Herman Kamper, Johan du Preez(参考訳) latent dirichlet allocation (lda) は文書集合の教師なしトピックモデリングに広く使われている。 モデルでは時間情報は使用されない。 しかし、連続するトークンの対応するトピックの間にはしばしば関係がある。 本稿では,マルコフ連鎖を用いて時間情報をモデル化するLDAの拡張について述べる。 音声からの音響単位発見にはこの新しいモデルを用いる。 入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。 目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。 基本LDAとは対照的に、VQ符号が発話(文書)内でどのように共起するかのみを考慮し、マルコフ連鎖LDAは連続するコードが相互に後続する様子をキャプチャする。 この拡張により、ベースとなるldaと比較してクラスタ品質と電話セグメンテーション結果が向上する。 50単位も学習する最近のベクトル量子ニューラルネットワークアプローチと比較して、拡張LDAモデルは電話セグメンテーションでは優れているが、相互情報では悪い。

Latent Dirichlet allocation (LDA) is widely used for unsupervised topic modelling on sets of documents. No temporal information is used in the model. However, there is often a relationship between the corresponding topics of consecutive tokens. In this paper, we present an extension to LDA that uses a Markov chain to model temporal information. We use this new model for acoustic unit discovery from speech. As input tokens, the model takes a discretised encoding of speech from a vector quantised (VQ) neural network with 512 codes. The goal is then to map these 512 VQ codes to 50 phone-like units (topics) in order to more closely resemble true phones. In contrast to the base LDA, which only considers how VQ codes co-occur within utterances (documents), the Markov chain LDA additionally captures how consecutive codes follow one another. This extension leads to an increase in cluster quality and phone segmentation results compared to the base LDA. Compared to a recent vector quantised neural network approach that also learns 50 units, the extended LDA model performs better in phone segmentation but worse in mutual information.
翻訳日:2022-06-24 18:13:26 公開日:2022-06-23
# (参考訳) AST-Probe: 事前訓練された言語モデルの隠された表現から抽象構文木を復元する

AST-Probe: Recovering abstract syntax trees from hidden representations of pre-trained language models ( http://arxiv.org/abs/2206.11719v1 )

ライセンス: CC BY 4.0
Jos\'e Antonio Hern\'andez L\'opez, Martin Weyssow, Jes\'us S\'anchez Cuadrado, Houari Sahraoui(参考訳) 事前訓練された言語モデルの目的は、テキストデータの文脈表現を学習することである。 事前訓練された言語モデルは自然言語処理やコードモデリングにおいて主流になっている。 隠れベクトル空間の言語特性を研究する手法であるプローブを用いて、これらの事前学習された言語モデルは、隠れ表現に単純な言語特性をエンコードすることを示した。 しかし、以前の研究では、これらのモデルがプログラミング言語の文法構造全体をエンコードしているかどうかを評価しなかった。 本稿では,プログラム言語の構文情報を含む事前学習された言語モデルの隠れた表現にある,\textit{syntactic subspace} の存在を証明する。 このサブスペースはモデルの表現から抽出でき、入力コードスニペットの抽象構文木(AST)全体の復元を可能にする新しい探索手法AST-Probeを定義する。 実験では,この構文的部分空間が5つの最先端事前学習言語モデルに存在することを示す。 さらに、モデルの中間層がAST情報のほとんどをエンコードしている層であることを強調します。 最後に、この合成部分空間の最適サイズを推定し、その次元がモデルの表現空間のそれよりもかなり小さいことを示す。 このことは、事前訓練された言語モデルがその表現空間のごく一部を使って、プログラミング言語の構文情報をエンコードしていることを示唆している。

The objective of pre-trained language models is to learn contextual representations of textual data. Pre-trained language models have become mainstream in natural language processing and code modeling. Using probes, a technique to study the linguistic properties of hidden vector spaces, previous works have shown that these pre-trained language models encode simple linguistic properties in their hidden representations. However, none of the previous work assessed whether these models encode the whole grammatical structure of a programming language. In this paper, we prove the existence of a \textit{syntactic subspace}, lying in the hidden representations of pre-trained language models, which contain the syntactic information of the programming language. We show that this subspace can be extracted from the models' representations and define a novel probing method, the AST-Probe, that enables recovering the whole abstract syntax tree (AST) of an input code snippet. In our experimentations, we show that this syntactic subspace exists in five state-of-the-art pre-trained language models. In addition, we highlight that the middle layers of the models are the ones that encode most of the AST information. Finally, we estimate the optimal size of this syntactic subspace and show that its dimension is substantially lower than those of the models' representation spaces. This suggests that pre-trained language models use a small part of their representation spaces to encode syntactic information of the programming languages.
翻訳日:2022-06-24 18:01:28 公開日:2022-06-23
# (参考訳) 視覚異常検出のためのオートエンコーダによる自己教師付きトレーニング

Self-Supervised Training with Autoencoders for Visual Anomaly Detection ( http://arxiv.org/abs/2206.11723v1 )

ライセンス: CC BY 4.0
Alexander Bauer(参考訳) 深層畳み込みオートエンコーダは、教師なしの方法で非線形次元の減少を学習するための効果的なツールを提供する。 近年,視覚領域における異常検出作業に用いられている。 異常のない例を用いて再構成誤差を最適化することにより、トレーニングされたネットワークはテストフェーズ中に異常部分の再構成が困難になる、という考え方が一般的である。 これは通常、ボトルネック層のサイズを縮小するか、そのアクティベーションに間隔制限を課すことによってネットワークの容量を制御することによって行われる。 しかし、どちらの手法も異常信号の再構成を明示的に罰しないため、しばしば検出が不十分になる。 モデルが修正された再構成誤差を用いてデータ多様体に集中するように規則化しながら、トレーニング中に識別情報を利用できる自己教師型学習システムを適用することにより、正確な検出が可能となる。 関連する手法とは違って,トレーニングと予測における提案手法の推論は,入力画像全体をひとつのステップで効率的に処理する。 MVTec異常検出データセットに対する実験により,提案手法の高精度な認識と局所化性能を示す。 特にテクスチャ・サブセットでは,本手法は最近の異常検出手法を大きなマージンで一貫して上回っている。

Deep convolutional autoencoders provide an effective tool for learning non-linear dimensionality reduction in an unsupervised way. Recently, they have been used for the task of anomaly detection in the visual domain. By optimising for the reconstruction error using anomaly-free examples, the common belief is that a trained network will have difficulties to reconstruct anomalous parts during the test phase. This is usually done by controlling the capacity of the network by either reducing the size of the bottleneck layer or enforcing sparsity constraints on its activations. However, neither of these techniques does explicitly penalise reconstruction of anomalous signals often resulting in a poor detection. We tackle this problem by adapting a self-supervised learning regime which allows to use discriminative information during training while regularising the model to focus on the data manifold by means of a modified reconstruction error resulting in an accurate detection. Unlike related approaches, the inference of the proposed method during training and prediction is very efficient processing the whole input image in one single step. Our experiments on the MVTec Anomaly Detection dataset demonstrate high recognition and localisation performance of the proposed method. On the texture-subset, in particular, our approach consistently outperforms a bunch of recent anomaly detection methods by a big margin.
翻訳日:2022-06-24 17:41:24 公開日:2022-06-23
# (参考訳) BERTランキングは弱く、敵対的文書摂動を用いた研究

BERT Rankers are Brittle: a Study using Adversarial Document Perturbations ( http://arxiv.org/abs/2206.11724v1 )

ライセンス: CC BY 4.0
Yumeng Wang, Lijun Lyu, Avishek Anand(参考訳) BERTに基づくコンテキストランキングモデルは現在、幅広いパスと文書ランキングタスクのために十分に確立されている。 しかし, 逆入力によるBERTに基づくランキングモデルの堅牢性は低い。 本稿では,検索した文書を対象とする敵攻撃に対して,BERT-rankersは無害である,と論じる。 まず, 勾配に基づく最適化手法を用いて, 関連性の高い文書, 非関連文書の逆摂動アルゴリズムを提案する。 我々のアルゴリズムの目的は、少数のトークンを関連性の高い文書や非関連文書に追加/置換することで、大きなランクの低下や昇進を引き起こすことである。 私たちの実験では、少数のトークンがドキュメントのランクに大きな変化をもたらす可能性があることを示しています。 さらに, bert-rankers は, 相関予測に文書の開始/先頭に大きく依存しており, 文書の最初の部分は敵の攻撃の影響を受けやすいことがわかった。 より興味深いことに、文書に付加された場合、関連文書や非関連文書のランク降下/プロモージョンが成功するような、連続する敵語の小さなセットが見つかる。 最後に、当社の敵トークンはデータセット内の特定のトピックの好みを示し、BERT事前トレーニングまたは下流データセットの潜在的なバイアスを露呈します。

Contextual ranking models based on BERT are now well established for a wide range of passage and document ranking tasks. However, the robustness of BERT-based ranking models under adversarial inputs is under-explored. In this paper, we argue that BERT-rankers are not immune to adversarial attacks targeting retrieved documents given a query. Firstly, we propose algorithms for adversarial perturbation of both highly relevant and non-relevant documents using gradient-based optimization methods. The aim of our algorithms is to add/replace a small number of tokens to a highly relevant or non-relevant document to cause a large rank demotion or promotion. Our experiments show that a small number of tokens can already result in a large change in the rank of a document. Moreover, we find that BERT-rankers heavily rely on the document start/head for relevance prediction, making the initial part of the document more susceptible to adversarial attacks. More interestingly, we find a small set of recurring adversarial words that when added to documents result in successful rank demotion/promotion of any relevant/non-relevant document respectively. Finally, our adversarial tokens also show particular topic preferences within and across datasets, exposing potential biases from BERT pre-training or downstream datasets.
翻訳日:2022-06-24 17:24:06 公開日:2022-06-23
# (参考訳) 複雑性を用いた類推伝達の可能性の測定

Measuring the Feasibility of Analogical Transfer using Complexity ( http://arxiv.org/abs/2206.11753v1 )

ライセンス: CC BY 4.0
Pierre-Alexandre Murena(参考訳) アナロジーは "A is to B as C is to D" という形式の4項関係である。 A, B, C が与えられた D の正しい値を見つける方法に焦点が当てられているが、そのような類似の解法が実際に実現可能かどうかについては注目されていない。 本稿では,対象問題cを解決するために,ソースケース(a,b)の転送可能性の定量化を提案する。この定量化は,アナログの解法として効率的であることが証明された複雑性最小化原理に基づいている。 これらの概念を形態学的アナロジーに説明し,機械学習,特に教師なしドメイン適応との関連性を示す。

Analogies are 4-ary relations of the form "A is to B as C is to D". While focus has been mostly on how to solve an analogy, i.e. how to find correct values of D given A, B and C, less attention has been drawn on whether solving such an analogy was actually feasible. In this paper, we propose a quantification of the transferability of a source case (A and B) to solve a target problem C. This quantification is based on a complexity minimization principle which has been demonstrated to be efficient for solving analogies. We illustrate these notions on morphological analogies and show its connections with machine learning, and in particular with Unsupervised Domain Adaptation.
翻訳日:2022-06-24 17:13:40 公開日:2022-06-23
# (参考訳) 多元静止衛星リモートセンシングデータストリームを用いた山火事エアロゾルプロセスの物理インフォームド統計的モデリング

Physics-Informed Statistical Modeling for Wildfire Aerosols Process Using Multi-Source Geostationary Satellite Remote-Sensing Data Streams ( http://arxiv.org/abs/2206.11766v1 )

ライセンス: CC BY 4.0
Guanzhou Wei, Venkat Krishnan, Yu Xie, Manajit Sengupta, Yingchen Zhang, Haitao Liao, Xiao Liu(参考訳) 頻繁に発生する山火事は、大気エアロゾルが地球への太陽放射を減少させるため、太陽エネルギー生産に大きな影響を及ぼす。 大気エアロゾルはエアロゾル光学深度(AOD)によって測定され、AODデータストリームは静止衛星によって取得および監視される。 しかし、マルチソースリモートセンシングデータストリームは、異なるデータ欠落率、測定誤差、系統的バイアスなどを含む不均一な特徴を持つことが多い。 基礎となるAOD伝搬過程を正確に推定し,予測するために,複数ソースの異種衛星リモートセンシングデータストリームを同時に利用し,物理インフォームドなAOD伝搬をモデル化するための統計的アプローチを提案する実践的ニーズと理論的関心がある。 スペクトルアプローチを活用することで、AOD伝搬過程を管理する基本対流拡散方程式とマルチソース衛星データストリームを統合する。 統計モデルには、物理モデルのバイアスとフーリエ級数の切断誤差を考慮したバイアス補正プロセスが組み込まれている。 提案手法は、米国海洋大気庁から得られたAODデータストリームをカリフォルニア州の山火事に適用する。 提案手法の予測能力とモデル解釈可能性を示すための総合的な数値例を提供する。 コンピュータコードはGitHubで公開されている。

Increasingly frequent wildfires significantly affect solar energy production as the atmospheric aerosols generated by wildfires diminish the incoming solar radiation to the earth. Atmospheric aerosols are measured by Aerosol Optical Depth (AOD), and AOD data streams can be retrieved and monitored by geostationary satellites. However, multi-source remote-sensing data streams often present heterogeneous characteristics, including different data missing rates, measurement errors, systematic biases, and so on. To accurately estimate and predict the underlying AOD propagation process, there exist practical needs and theoretical interests to propose a physics-informed statistical approach for modeling wildfire AOD propagation by simultaneously utilizing, or fusing, multi-source heterogeneous satellite remote-sensing data streams. Leveraging a spectral approach, the proposed approach integrates multi-source satellite data streams with a fundamental advection-diffusion equation that governs the AOD propagation process. A bias correction process is included in the statistical model to account for the bias of the physics model and the truncation error of the Fourier series. The proposed approach is applied to California wildfires AOD data streams obtained from the National Oceanic and Atmospheric Administration. Comprehensive numerical examples are provided to demonstrate the predictive capabilities and model interpretability of the proposed approach. Computer code has been made available on GitHub.
翻訳日:2022-06-24 16:58:08 公開日:2022-06-23
# (参考訳) イオン液体中の溶質の温度依存性活動係数予測のためのグラフニューラルネットワーク

Graph Neural Networks for Temperature-Dependent Activity Coefficient Prediction of Solutes in Ionic Liquids ( http://arxiv.org/abs/2206.11776v1 )

ライセンス: CC BY 4.0
Jan G. Rittig, Karim Ben Hicham, Artur M. Schweidtmann, Manuel Dahmen, Alexander Mitsos(参考訳) イオン液体 (ils) は持続的プロセスにとって重要な溶媒であり, ils中の溶質の活性係数 (acs) を予測する必要がある。 近年、行列補完法(MCM)、変換器、グラフニューラルネットワーク(GNN)は、COSMO-RSやUNIFACといった確立したモデルよりも優れた二成分混合系の交流を予測する上で高い精度を示している。 GNNは、通常トランスフォーマーに必要な事前訓練なしに、分子間グラフ関係を学習するので、特に有望であり、MCMとは異なり、トレーニングに含まれない分子に適用できる。 しかし、ILでは、現在GNNアプリケーションは欠落している。 本稿では, IL中の溶質の温度依存性無限希釈交流を予測するためのGNNを提案する。 我々は、GNNを4万以上のAC値を含むデータベース上でトレーニングし、最先端のMCMと比較する。 GNNとMCMも同様に高い予測性能を達成し、GNNはトレーニング中に考慮されていないILと溶質を含む溶液のACに対して高品質な予測を可能にする。

Ionic liquids (ILs) are important solvents for sustainable processes and predicting activity coefficients (ACs) of solutes in ILs is needed. Recently, matrix completion methods (MCMs), transformers, and graph neural networks (GNNs) have shown high accuracy in predicting ACs of binary mixtures, superior to well-established models, e.g., COSMO-RS and UNIFAC. GNNs are particularly promising here as they learn a molecular graph-to-property relationship without pretraining, typically required for transformers, and are, unlike MCMs, applicable to molecules not included in training. For ILs, however, GNN applications are currently missing. Herein, we present a GNN to predict temperature-dependent infinite dilution ACs of solutes in ILs. We train the GNN on a database including more than 40,000 AC values and compare it to a state-of-the-art MCM. The GNN and MCM achieve similar high prediction performance, with the GNN additionally enabling high-quality predictions for ACs of solutions that contain ILs and solutes not considered during training.
翻訳日:2022-06-24 16:34:00 公開日:2022-06-23
# (参考訳) ブラックボックスアドバイスによる凸体追尾と機能

Chasing Convex Bodies and Functions with Black-Box Advice ( http://arxiv.org/abs/2206.11780v1 )

ライセンス: CC BY 4.0
Nicolas Christianson, Tinashe Handina, Adam Wierman(参考訳) 我々は,オンライン意思決定者が,標準ベクトル空間における意思決定と切り換えのコストを最小化することを目的とした,ブラックボックスアドバイスによる凸関数追跡の問題について考察する。 意思決定者は、$\textit{consistency}$として知られる、うまく機能するときにアドバイスに匹敵するコストを求めると同時に、アドバイスが敵対的である場合でも最悪の場合$\textit{robustness}$を保証する。 まず,提案の判断と競争アルゴリズムを切り替えるアルゴリズムの共通パラダイムを考察し,このクラスでは頑健なまま3-consistencyではアルゴリズムが改善できないことを示した。 次に,この問題の凸性を利用した2つの新しいアルゴリズムを提案する。 最初の interp は、任意の $\epsilon > 0$ に対して $(\sqrt{2}+\epsilon)$-consistency と $\mathcal{o}(\frac{c}{\epsilon^2})$-robustness を達成する。 2つめのbdinterpは、1+\epsilon)$-consistencyと$\mathcal{o}(\frac{cd}{\epsilon})$-robustnessを達成する。 さらに,BDINTERPは,コスト関数が$\alpha$-polyhedralである特別な場合に対して,ほぼ最適の整合性-損耗性トレードオフを実現することを示す。

We consider the problem of convex function chasing with black-box advice, where an online decision-maker aims to minimize the total cost of making and switching between decisions in a normed vector space, aided by black-box advice such as the decisions of a machine-learned algorithm. The decision-maker seeks cost comparable to the advice when it performs well, known as $\textit{consistency}$, while also ensuring worst-case $\textit{robustness}$ even when the advice is adversarial. We first consider the common paradigm of algorithms that switch between the decisions of the advice and a competitive algorithm, showing that no algorithm in this class can improve upon 3-consistency while staying robust. We then propose two novel algorithms that bypass this limitation by exploiting the problem's convexity. The first, INTERP, achieves $(\sqrt{2}+\epsilon)$-consistency and $\mathcal{O}(\frac{C}{\epsilon^2})$-robustness for any $\epsilon > 0$, where $C$ is the competitive ratio of an algorithm for convex function chasing or a subclass thereof. The second, BDINTERP, achieves $(1+\epsilon)$-consistency and $\mathcal{O}(\frac{CD}{\epsilon})$-robustness when the problem has bounded diameter $D$. Further, we show that BDINTERP achieves near-optimal consistency-robustness trade-off for the special case where cost functions are $\alpha$-polyhedral.
翻訳日:2022-06-24 16:12:17 公開日:2022-06-23
# (参考訳) MLPerf TinyベンチマークのためのオープンソースFPGA-ML符号

Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark ( http://arxiv.org/abs/2206.11791v1 )

ライセンス: CC BY 4.0
Hendrik Borras and Giuseppe Di Guglielmo and Javier Duarte and Nicol\`o Ghielmetti and Ben Hawks and Scott Hauck and Shih-Chieh Hsu and Ryan Kastner and Jason Liang and Andres Meza and Jules Muhizi and Tai Nguyen and Rushil Roy and Nhan Tran and Yaman Umuroglu and Olivia Weng and Aidan Yokuda and Michaela Blott(参考訳) 本稿では,フィールドプログラマブルゲートアレイ(FPGA)上でのMLPerf Tiny Inference Benchmarkの開発経験と最近の結果を紹介する。 我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコードサインを民主化することを目的として、オープンソースのhls4mlとFINNワークフローを使用している。 本稿では,キーワードスポッティング,異常検出,画像分類ベンチマークタスクの設計と実装について述べる。 結果のハードウェア実装は、スピードと効率のために調整された量子化され、構成可能で、空間データフローアーキテクチャであり、この作業の一部として開発された新しい汎用最適化と共通ワークフローを導入している。 完全なワークフローは量子化対応のトレーニングからFPGA実装までである。 ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。 その結果、レイテンシーは20$\mu$s、エネルギー消費は推論あたり30$\mu$jとなる。 異種ハードウェアプラットフォーム上でのMLベンチマークが、新しい技術とよりアクセスしやすいツールの開発とコラボレーションを促進する方法を示す。

We present our development experience and recent results for the MLPerf Tiny Inference Benchmark on field-programmable gate array (FPGA) platforms. We use the open-source hls4ml and FINN workflows, which aim to democratize AI-hardware codesign of optimized neural networks on FPGAs. We present the design and implementation process for the keyword spotting, anomaly detection, and image classification benchmark tasks. The resulting hardware implementations are quantized, configurable, spatial dataflow architectures tailored for speed and efficiency and introduce new generic optimizations and common workflows developed as a part of this work. The full workflow is presented from quantization-aware training to FPGA implementation. The solutions are deployed on system-on-chip (Pynq-Z2) and pure FPGA (Arty A7-100T) platforms. The resulting submissions achieve latencies as low as 20 $\mu$s and energy consumption as low as 30 $\mu$J per inference. We demonstrate how emerging ML benchmarks on heterogeneous hardware platforms can catalyze collaboration and the development of new techniques and more accessible tools.
翻訳日:2022-06-24 16:11:00 公開日:2022-06-23
# (参考訳) 条件付き生成逆数ネットワークを用いた2次元全吸収分光

Two-dimensional total absorption spectroscopy with conditional generative adversarial networks ( http://arxiv.org/abs/2206.11792v1 )

ライセンス: CC BY 4.0
Cade Dembski, Michelle P. Kuchera, Sean Liddick, Raghu Ramanujan, Artemis Spyrou(参考訳) 実験スペクトルから大量の$\gamma$-ray検出器の応答を除去するために、機械学習技術の利用を検討する。 分割された$\gamma$-ray total absorption spectrometers (tas) により、個々の$\gamma$-ray energy (e$_\gamma$) と全励起エネルギー (e$_x$) を同時に測定することができる。 TAS検出器データの解析は、E$_x$とE$_\gamma$の量とが相関しているという事実により複雑であり、E$_x$とE$_\gamma$の応答関数を独立に展開する技術は正確ではない。 本研究では,条件付き生成逆数ネットワーク(cGAN)を用いて,TAS検出器における$E_{x}$と$E_{\gamma}$データを同時に展開する。 具体的には、画像から画像への変換問題として$(E_x, E_{\gamma})$ matrix unfoldingを扱うために、ディープラーニングの最近の進歩に基づく生成モデリング技術Pix2Pix cGANを用いる。 本研究は, 1-$\gamma$ および double-$\gamma$ 崩壊カスケードのシミュレーションおよび実験行列に関する結果である。 本モデルでは, 最大90\%の模擬テストケースに対して, 検出器分解能限界内のキャラクタリゼーション能力を示す。

We explore the use of machine learning techniques to remove the response of large volume $\gamma$-ray detectors from experimental spectra. Segmented $\gamma$-ray total absorption spectrometers (TAS) allow for the simultaneous measurement of individual $\gamma$-ray energy (E$_\gamma$) and total excitation energy (E$_x$). Analysis of TAS detector data is complicated by the fact that the E$_x$ and E$_\gamma$ quantities are correlated, and therefore, techniques that simply unfold using E$_x$ and E$_\gamma$ response functions independently are not as accurate. In this work, we investigate the use of conditional generative adversarial networks (cGANs) to simultaneously unfold $E_{x}$ and $E_{\gamma}$ data in TAS detectors. Specifically, we employ a Pix2Pix cGAN, a generative modeling technique based on recent advances in deep learning, to treat $(E_x, E_{\gamma})$ matrix unfolding as an image-to-image translation problem. We present results for simulated and experimental matrices of single-$\gamma$ and double-$\gamma$ decay cascades. Our model demonstrates characterization capabilities within detector resolution limits for upwards of $90\%$ of simulated test cases.
翻訳日:2022-06-24 15:43:45 公開日:2022-06-23
# (参考訳) 副作用回避問題の定式化

Formalizing the Problem of Side-Effect Avoidance ( http://arxiv.org/abs/2206.11812v1 )

ライセンス: CC BY 4.0
Alexander Matt Turner, Aseem Saxena, Prasad Tadepalli(参考訳) aiの目的はしばしば適切な指定が難しい。 エージェントは、不完全に指定されたプロキシの目標で“どれだけ混乱させるか”を重み付ける必要があります。 補助ゲームフレームワークによる副作用正規化の形式的基準を提案する。 これらのゲームでは、エージェントは最適化すべき目的関数の不確実性を表す部分的に観測可能なマルコフ決定プロセス(POMDP)を解く。 我々は,次のステップで真の目的がエージェントに明らかにされるような設定を考える。 このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。 2つのグリッドワールド環境における地中評価を通じて問題形式化の合理的さを実証する。

AI objectives are often hard to specify properly. Some approaches tackle this problem by regularizing the AI's side effects: Agents must weigh off "how much of a mess they make" with an imperfectly specified proxy objective. We propose a formal criterion for side effect regularization via the assistance game framework. In these games, the agent solves a partially observable Markov decision process (POMDP) representing its uncertainty about the objective function it should optimize. We consider the setting where the true objective is revealed to the agent at a later time step. We show that this POMDP is solved by trading off the proxy reward with the agent's ability to achieve a range of future tasks. We empirically demonstrate the reasonableness of our problem formalization via ground-truth evaluation in two gridworld environments.
翻訳日:2022-06-24 15:14:52 公開日:2022-06-23
# (参考訳) 非決定論とMLコードの無法性

Non-Determinism and the Lawlessness of ML Code ( http://arxiv.org/abs/2206.11834v1 )

ライセンス: CC BY 4.0
A. Feder Cooper and Jonathan Frankle and Christopher De Sa(参考訳) 機械学習(ML)に関する法的文献は害に焦点をあてる傾向があり、その結果、個々のモデルの結果と要約エラー率について推論する傾向にある。 このモデルレベルの結果とエラーは、その固有の非決定論に根ざしたMLの重要な側面を隠蔽している。 その結果, ml出力を確率分布として推定する観点からは, 非決定性の影響やその法則への影響がより明確になることが示された。 この分布的視点は、MLの可能な結果を強調することで非決定論を説明できる。 重要なことは、この種の推論は、現在の法的推論に排他的ではなく、特定の自動決定のための個々の具体的な結果に関する分析を補完する(そして、実際に強化することができる)。 非決定論の重要な役割を明らかにすることで、mlコードは「法則としてのコード」を扱うというサイバールールの枠の外にあることを実証する。 我々は、MLが非決定主義の潜在的害をもたらす影響を抑えるために何ができるかを簡潔に議論し、法が現在の個人利益の焦点と我々が推奨する分散的アプローチとのギャップを埋めるためにどこで機能すべきかを明らかにする。

Legal literature on machine learning (ML) tends to focus on harms, and as a result tends to reason about individual model outcomes and summary error rates. This focus on model-level outcomes and errors has masked important aspects of ML that are rooted in its inherent non-determinism. We show that the effects of non-determinism, and consequently its implications for the law, instead become clearer from the perspective of reasoning about ML outputs as probability distributions over possible outcomes. This distributional viewpoint accounts for non-determinism by emphasizing the possible outcomes of ML. Importantly, this type of reasoning is not exclusive with current legal reasoning; it complements (and in fact can strengthen) analyses concerning individual, concrete outcomes for specific automated decisions. By clarifying the important role of non-determinism, we demonstrate that ML code falls outside of the cyberlaw frame of treating "code as law," as this frame assumes that code is deterministic. We conclude with a brief discussion of what work ML can do to constrain the potentially harm-inducing effects of non-determinism, and we clarify where the law must do work to bridge the gap between its current individual-outcome focus and the distributional approach that we recommend.
翻訳日:2022-06-24 14:55:06 公開日:2022-06-23
# 偽ユーザープロファイル生成学習によるブラックボックス推薦システム

Shilling Black-box Recommender Systems by Learning to Generate Fake User Profiles ( http://arxiv.org/abs/2206.11433v1 )

ライセンス: Link先を確認
Chen Lin, Si Chen, Meifang Zeng, Sheng Zhang, Min Gao, Hui Li(参考訳) 顧客を購入へと導く上で、レコメンダシステム(rs)が重要な役割を担っているため、不正な当事者が利益のためにrsをスプーフする自然の動機がある。 本稿では,敵が不適切な目的のために複数の偽ユーザープロフィールを注入するシリング攻撃について検討する。 従来のシリングアタックアプローチでは、攻撃の転送可能性(例えば、一部のRSモデルでは攻撃は有効ではない)と攻撃の可視性(すなわち、注入されたプロファイルを容易に検出できる)が欠如している。 これらの問題を克服するために,ジェネレーティブ・アドバイサル・ネットワークに基づく新たな攻撃モデルLeg-UPを提案する。 Leg-UPはサンプルの ``templates'' で実際のユーザからユーザ行動パターンを学び、偽のユーザプロファイルを構築する。 実際のユーザをシミュレートするために、Leg-UPのジェネレータは個別のレーティングを直接出力する。 攻撃伝達性を高めるために、サロゲートrsモデルの攻撃性能を最大化することにより、ジェネレータのパラメータを最適化する。 攻撃の可視性を改善するため、Leg-UPはジェネレータを誘導する識別器を採用し、検出不能な偽ユーザープロファイルを生成する。 ベンチマーク実験により、Leg-UPは幅広い犠牲者RSモデルにおいて最先端のシリング攻撃法を超えることが示された。 私たちの作業のソースコードは、https://github.com/XMUDM/ShillingAttack.comで公開されています。

Due to the pivotal role of Recommender Systems (RS) in guiding customers towards the purchase, there is a natural motivation for unscrupulous parties to spoof RS for profits. In this paper, we study Shilling Attack where an adversarial party injects a number of fake user profiles for improper purposes. Conventional Shilling Attack approaches lack attack transferability (i.e., attacks are not effective on some victim RS models) and/or attack invisibility (i.e., injected profiles can be easily detected). To overcome these issues, we present Leg-UP, a novel attack model based on the Generative Adversarial Network. Leg-UP learns user behavior patterns from real users in the sampled ``templates'' and constructs fake user profiles. To simulate real users, the generator in Leg-UP directly outputs discrete ratings. To enhance attack transferability, the parameters of the generator are optimized by maximizing the attack performance on a surrogate RS model. To improve attack invisibility, Leg-UP adopts a discriminator to guide the generator to generate undetectable fake user profiles. Experiments on benchmarks have shown that Leg-UP exceeds state-of-the-art Shilling Attack methods on a wide range of victim RS models. The source code of our work is available at: https://github.com/XMUDM/ShillingAttack.
翻訳日:2022-06-24 14:41:57 公開日:2022-06-23
# 確率的ランゲヴィン差分包と機械学習への応用

Stochastic Langevin Differential Inclusions with Applications to Machine Learning ( http://arxiv.org/abs/2206.11533v1 )

ライセンス: Link先を確認
Fabio V. Difonzo and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) ランゲヴィン拡散形式の確率微分方程式は、ベイズサンプリングアルゴリズムと機械学習における最適化の両方において基礎的な役割を担っているため、近年顕著に受け入れられている。 後者では、超パラメータモデルの訓練における確率的勾配流の概念モデルとして機能する。 しかしながら、文献は通常、勾配がドリフト項であるポテンシャルの滑らかさを仮定する。 それでも、ポテンシャル関数が連続的に微分可能ではなく、したがってドリフトがリプシッツ連続性でないという多くの問題がある。 これは回帰問題におけるロバストな損失と整列線形単位によって例示される。 本稿では,ランジュバン型確率微分包含物の流れと漸近特性について,機械学習環境に適した仮定下での基礎的な結果を示す。 特に、解の存在が強く、また標準自由エネルギー汎関数の漸近的最小化も示されている。

Stochastic differential equations of Langevin-diffusion form have received significant recent, thanks to their foundational role in both Bayesian sampling algorithms and optimization in machine learning. In the latter, they serve as a conceptual model of the stochastic gradient flow in training over-parametrized models. However, the literature typically assumes smoothness of the potential, whose gradient is the drift term. Nevertheless, there are many problems, for which the potential function is not continuously differentiable, and hence the drift is not Lipschitz-continuous everywhere. This is exemplified by robust losses and Rectified Linear Units in regression problems. In this paper, we show some foundational results regarding the flow and asymptotic properties of Langevin-type Stochastic Differential Inclusions under assumptions appropriate to the machine-learning settings. In particular, we show strong existence of the solution, as well as asymptotic minimization of the canonical Free Energy Functional.
翻訳日:2022-06-24 14:41:32 公開日:2022-06-23
# 長フレームとSTFTマグニチュードを用いた効率的な変圧器ベース音声強調

Efficient Transformer-based Speech Enhancement Using Long Frames and STFT Magnitudes ( http://arxiv.org/abs/2206.11703v1 )

ライセンス: Link先を確認
Danilo de Oliveira, Tal Peer, Timo Gerkmann(参考訳) SepFormerアーキテクチャは、音声分離において非常に良い結果を示す。 他の学習エンコーダモデルと同様に、短フレームを使用し、これらのケースでパフォーマンスが向上することが示されている。 sepformerはトランスフォーマーベースであるため、計算の複雑さは長いシーケンスで劇的に増加する。 本稿では,音声強調タスクにおいてsepformerを用い,学習エンコーダの特徴を最大短時間フーリエ変換(stft)表現に置き換えることで,知覚強調性能を損なうことなく長フレームを使用できることを示す。 10秒の発話に対して,操作回数を約8倍に減らしながら,等価品質とインテリジェンス評価スコアを得た。

The SepFormer architecture shows very good results in speech separation. Like other learned-encoder models, it uses short frames, as they have been shown to obtain better performance in these cases. This results in a large number of frames at the input, which is problematic; since the SepFormer is transformer-based, its computational complexity drastically increases with longer sequences. In this paper, we employ the SepFormer in a speech enhancement task and show that by replacing the learned-encoder features with a magnitude short-time Fourier transform (STFT) representation, we can use long frames without compromising perceptual enhancement performance. We obtained equivalent quality and intelligibility evaluation scores while reducing the number of operations by a factor of approximately 8 for a 10-second utterance.
翻訳日:2022-06-24 14:41:18 公開日:2022-06-23
# 皮質皮質ネットワークにおける単相深層学習

Single-phase deep learning in cortico-cortical networks ( http://arxiv.org/abs/2206.11769v1 )

ライセンス: Link先を確認
Will Greedy, Heng Wei Zhu, Joseph Pemberton, Jack Mellor and Rui Ponte Costa(参考訳) error-backpropagation (backprop) アルゴリズムは、ニューラルネットワークにおけるクレジット割り当て問題の最も一般的な解である。 神経科学において、脳がシナプスを正しく修正する同様の戦略を採用できるかどうかは不明である。 最近のモデルは、様々な実験的な観測と一致しつつ、このギャップを橋渡ししようと試みている。 しかし、これらのモデルは、複数の層にまたがるエラー信号を効果的にバックプロパゲートできないか、多相学習プロセスを必要とする。 本稿では、バースト活動、短期可塑性(stp)、デンドライト標的間ニューロンといった皮質ネットワークの既知の特性を統合することで、これらの問題を解決する新しいモデルであるburstccn(bursting cortico-cortical network)を紹介する。 BurstCCNは、深い皮質ネットワーク内のバックプロップのようなエラー信号を伝達するために、接続タイプ固有のSTPを介してバースト多重化に依存する。 これらのエラー信号は遠位デンドライトで符号化され、興奮抑制トップダウン入力の結果バースト依存可塑性を引き起こす。 まず, 単相学習プロセスを用いて, エラーを複数の層で効果的に再現できることを実証する。 次に、我々のモデルにおける学習がバックプロップ由来の勾配に近似することを示す。 最後に,本モデルは複雑な画像分類タスク(mnistとcifar-10)を学習できることを示す。 以上の結果から,脳内の単相効率な深層学習は,細胞下,細胞下,マイクロサーキット,システムレベルでの皮質的特徴が強いことが示唆された。

The error-backpropagation (backprop) algorithm remains the most common solution to the credit assignment problem in artificial neural networks. In neuroscience, it is unclear whether the brain could adopt a similar strategy to correctly modify its synapses. Recent models have attempted to bridge this gap while being consistent with a range of experimental observations. However, these models are either unable to effectively backpropagate error signals across multiple layers or require a multi-phase learning process, neither of which are reminiscent of learning in the brain. Here, we introduce a new model, bursting cortico-cortical networks (BurstCCN), which solves these issues by integrating known properties of cortical networks namely bursting activity, short-term plasticity (STP) and dendrite-targeting interneurons. BurstCCN relies on burst multiplexing via connection-type-specific STP to propagate backprop-like error signals within deep cortical networks. These error signals are encoded at distal dendrites and induce burst-dependent plasticity as a result of excitatory-inhibitory topdown inputs. First, we demonstrate that our model can effectively backpropagate errors through multiple layers using a single-phase learning process. Next, we show both empirically and analytically that learning in our model approximates backprop-derived gradients. Finally, we demonstrate that our model is capable of learning complex image classification tasks (MNIST and CIFAR-10). Overall, our results suggest that cortical features across sub-cellular, cellular, microcircuit and systems levels jointly underlie single-phase efficient deep learning in the brain.
翻訳日:2022-06-24 14:41:04 公開日:2022-06-23
# (参考訳) 人工知能による電力探索の回避について

On Avoiding Power-Seeking by Artificial Intelligence ( http://arxiv.org/abs/2206.11831v1 )

ライセンス: CC BY 4.0
Alexander Matt Turner(参考訳) 私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。 このaiアライメント問題に対する完全な解決策がなくても、世界への影響が限られ、自律的に権力を求めることができないスマートaiエージェントを構築できるかどうかを調査します。 本論文では,実現可能な実用性維持法(AUP)を紹介する。 私は、AUPが、おもちゃのグリッドワールドやコンウェイのゲーム・オブ・ライフに基づく複雑な環境の中で、保守的でオプションを保存する行動を生成することを実証する。 エージェントが世界に与えた副作用を定量化する手段を提供する副作用回避問題の形式化を行う。 また、AIエージェントの文脈でパワーサーキングの正式な定義を与え、最適なポリシーが力を求める傾向があることを示す。 特に、ほとんどの報酬関数は不活性化を避ける最適なポリシーを持つ。 デプロイ後にインテリジェントエージェントを非活性化または修正したい場合、これは問題になります。 私の定理では、ほとんどのエージェントの目標が私たちの目標と矛盾するので、エージェントはおそらく修正に抵抗するでしょう。 これらの定理を拡張して、電力を求めるインセンティブは最適な意思決定者だけでなく、幅広い意思決定手順の下で起こることを示す。

We do not know how to align a very intelligent AI agent's behavior with human interests. I investigate whether -- absent a full solution to this AI alignment problem -- we can build smart AI agents which have limited impact on the world, and which do not autonomously seek power. In this thesis, I introduce the attainable utility preservation (AUP) method. I demonstrate that AUP produces conservative, option-preserving behavior within toy gridworlds and within complex environments based off of Conway's Game of Life. I formalize the problem of side effect avoidance, which provides a way to quantify the side effects an agent had on the world. I also give a formal definition of power-seeking in the context of AI agents and show that optimal policies tend to seek power. In particular, most reward functions have optimal policies which avoid deactivation. This is a problem if we want to deactivate or correct an intelligent agent after we have deployed it. My theorems suggest that since most agent goals conflict with ours, the agent would very probably resist correction. I extend these theorems to show that power-seeking incentives occur not just for optimal decision-makers, but under a wide range of decision-making procedures.
翻訳日:2022-06-24 14:39:47 公開日:2022-06-23
# モデル抽出攻撃と防御の理解のための枠組み

A Framework for Understanding Model Extraction Attack and Defense ( http://arxiv.org/abs/2206.11480v1 )

ライセンス: Link先を確認
Xun Xian, Mingyi Hong, Jie Ding(参考訳) 機械学習モデルのプライバシは、多くの新興のMachine-Learning-as-a-Serviceアプリケーションにおいて重要な関心事となっている。 防御機構の欠如は、いくつかの「良い」データポイントのみをクエリすることで、敵が効率的にモデルを盗むことができるため、サーバモデルのプライバシに高いリスクを課す可能性がある。 サーバーの防御と敵の攻撃の間の相互作用は必然的に武器競争のジレンマにつながり、敵の機械学習でよく見られる。 敵の視点からモデルユーティリティとプライバシの基本的なトレードオフを研究するために,このようなトレードオフを定量化し,理論的特性を分析し,最適な敵攻撃・防衛戦略を理解するための最適化問題を開発する。 開発された概念と理論は、プライバシとユーティリティの‘平衡’に関する経験的知見と一致する。 最適化の面では,攻撃防御問題をmin-maxバイレベル問題として統一的に表現することが重要な要素である。 開発結果は実例と実験によって実証される。

The privacy of machine learning models has become a significant concern in many emerging Machine-Learning-as-a-Service applications, where prediction services based on well-trained models are offered to users via pay-per-query. The lack of a defense mechanism can impose a high risk on the privacy of the server's model since an adversary could efficiently steal the model by querying only a few `good' data points. The interplay between a server's defense and an adversary's attack inevitably leads to an arms race dilemma, as commonly seen in Adversarial Machine Learning. To study the fundamental tradeoffs between model utility from a benign user's view and privacy from an adversary's view, we develop new metrics to quantify such tradeoffs, analyze their theoretical properties, and develop an optimization problem to understand the optimal adversarial attack and defense strategies. The developed concepts and theory match the empirical findings on the `equilibrium' between privacy and utility. In terms of optimization, the key ingredient that enables our results is a unified representation of the attack-defense problem as a min-max bi-level problem. The developed results will be demonstrated by examples and experiments.
翻訳日:2022-06-24 14:35:58 公開日:2022-06-23
# 非滑らかかつ低ランク行列最適化問題に対する低ランクミラープロキシ

Low-Rank Mirror-Prox for Nonsmooth and Low-Rank Matrix Optimization Problems ( http://arxiv.org/abs/2206.11523v1 )

ライセンス: Link先を確認
Dan Garber, Atara Kaplan(参考訳) 低ランクおよび非滑らかな行列最適化問題は統計学や機械学習における多くの基本的なタスクを捉えている。 近年,高階行列の維持や高価な高階SVDの計算が困難になるような低階最適化問題に対する効率的な手法の開発が進んでいるが,非滑らかな問題の進歩は遅れている。 本稿では,このような問題に対する標準凸緩和について考察する。 Mainly, we prove that under a \textit{strict complementarity} condition and under the relatively mild assumption that the nonsmooth objective can be written as a maximum of smooth functions, approximated variants of two popular \textit{mirror-prox} methods: the Euclidean \textit{extragradient method} and mirror-prox with \textit{matrix exponentiated gradient updates}, when initialized with a "warm-start", converge to an optimal solution with rate $O(1/t)$, while requiring only two \textit{low-rank} SVDs per iteration. さらに, 厳密な相補性の緩和版も検討し, 必要なSVDのランクと, 初期化が必要なボール半径とのトレードオフを導出する。 我々は, 厳密な相補性仮定の妥当性と提案する低階ミラープロキシの効率的な収束の両立を実証し, 非滑らかな低階行列復元タスクを実験的に実験し, 理論的結果を支持した。

Low-rank and nonsmooth matrix optimization problems capture many fundamental tasks in statistics and machine learning. While significant progress has been made in recent years in developing efficient methods for \textit{smooth} low-rank optimization problems that avoid maintaining high-rank matrices and computing expensive high-rank SVDs, advances for nonsmooth problems have been slow paced. In this paper we consider standard convex relaxations for such problems. Mainly, we prove that under a \textit{strict complementarity} condition and under the relatively mild assumption that the nonsmooth objective can be written as a maximum of smooth functions, approximated variants of two popular \textit{mirror-prox} methods: the Euclidean \textit{extragradient method} and mirror-prox with \textit{matrix exponentiated gradient updates}, when initialized with a "warm-start", converge to an optimal solution with rate $O(1/t)$, while requiring only two \textit{low-rank} SVDs per iteration. Moreover, for the extragradient method we also consider relaxed versions of strict complementarity which yield a trade-off between the rank of the SVDs required and the radius of the ball in which we need to initialize the method. We support our theoretical results with empirical experiments on several nonsmooth low-rank matrix recovery tasks, demonstrating both the plausibility of the strict complementarity assumption, and the efficient convergence of our proposed low-rank mirror-prox variants.
翻訳日:2022-06-24 14:35:40 公開日:2022-06-23
# 電力市場におけるロバストな短期事業需要予測のための深層強化学習支援フェデレーションラーニング

Deep Reinforcement Learning-Assisted Federated Learning for Robust Short-term Utility Demand Forecasting in Electricity Wholesale Markets ( http://arxiv.org/abs/2206.11715v1 )

ライセンス: Link先を確認
Chenghao Huang, Weilong Chen, Xiaoyi Wang, Feng Hong, Shunji Yang, Yuxi Chen, Shengrong Bu, Changkun Jiang, Yingjie Zhou, Yanru Zhang(参考訳) 短期負荷予測(STLF)は電気取引市場の運営において重要な役割を果たしている。 データプライバシの懸念が高まる中、近年の研究では、federated learning (fl) がユーティリティ企業(ucs)向けのstlfモデルのトレーニングに採用されている。 問屋市場では、電力プラント(PP)がUCのデータに直接アクセスするのは現実的ではないので、FLは確実にPPの正確なSTLFモデルを得るための実現可能なソリューションである。 しかし、FLの分散性とUC間の激しい競争により、欠陥がますます発生し、STLFモデルの性能が低下し、単にFLを採用するだけでは不十分であることが示されている。 本稿では,ppsのstlモデルを正確に学習し,短時間の電力需要を高精度に予測するための,drl支援型フェデレート・ソフト・アクタ・クリティック(dearfsac)を提案する。 まず第一に 従来の負荷データと時間データのみを用いて,長期記憶(LSTM)に基づくSTLFモデルを設計する。 さらに、欠陥発生の不確実性を考慮すると、欠陥によるモデル劣化を緩和してFLを支援するディープ強化学習(DRL)アルゴリズムを採用する。 さらに,FLトレーニングの高速化のために,アップロードしたモデルの次元の縮小と品質評価のために自動エンコーダを設計した。 シミュレーションでは,2019年のヘルシンキのUCの実データに対するアプローチを検証する。 その結果,DearFSACは欠陥の発生の有無に関わらず,他のアプローチよりも優れていることがわかった。

Short-term load forecasting (STLF) plays a significant role in the operation of electricity trading markets. Considering the growing concern of data privacy, federated learning (FL) is increasingly adopted to train STLF models for utility companies (UCs) in recent research. Inspiringly, in wholesale markets, as it is not realistic for power plants (PPs) to access UCs' data directly, FL is definitely a feasible solution of obtaining an accurate STLF model for PPs. However, due to FL's distributed nature and intense competition among UCs, defects increasingly occur and lead to poor performance of the STLF model, indicating that simply adopting FL is not enough. In this paper, we propose a DRL-assisted FL approach, DEfect-AwaRe federated soft actor-critic (DearFSAC), to robustly train an accurate STLF model for PPs to forecast precise short-term utility electricity demand. Firstly. we design a STLF model based on long short-term memory (LSTM) using just historical load data and time data. Furthermore, considering the uncertainty of defects occurrence, a deep reinforcement learning (DRL) algorithm is adopted to assist FL by alleviating model degradation caused by defects. In addition, for faster convergence of FL training, an auto-encoder is designed for both dimension reduction and quality evaluation of uploaded models. In the simulations, we validate our approach on real data of Helsinki's UCs in 2019. The results show that DearFSAC outperforms all the other approaches no matter if defects occur or not.
翻訳日:2022-06-24 14:35:15 公開日:2022-06-23
# マーケットプレース検索エンジンにおける位置バイアスの測定と応用

Measurement and applications of position bias in a marketplace search engine ( http://arxiv.org/abs/2206.11720v1 )

ライセンス: Link先を確認
Richard Demsyn-Jones(参考訳) 検索エンジンはユーザー行動に意図的に影響を与え、検索結果のリストを選定してランク付けする。 ユーザは、目立った配置と、最も関係のあるドキュメントであるため、最も高い結果に関わります。 検索エンジンランキングアルゴリズムは、検索エンジン自体の影響を取り入れつつ、関連性を識別する必要がある。 本稿では,ランダム化プログラムの実証結果を含むランキングの影響を理解するため,thummtackにおける取り組みについて述べる。 消費者市場の文脈では,モデル選択,実験設計,バイアス計算,機械学習モデルの適応に関する実践的詳細について論じる。 ランキングバイアスがラベルだけでなく,モデル機能にどのように影響するか,という新たな議論も含んでいます。 ランダム化プログラムは、モデルの改善、内的シナリオ分析の動機付け、ユーザ向けシナリオツールの有効化につながった。

Search engines intentionally influence user behavior by picking and ranking the list of results. Users engage with the highest results both because of their prominent placement and because they are typically the most relevant documents. Search engine ranking algorithms need to identify relevance while incorporating the influence of the search engine itself. This paper describes our efforts at Thumbtack to understand the impact of ranking, including the empirical results of a randomization program. In the context of a consumer marketplace we discuss practical details of model choice, experiment design, bias calculation, and machine learning model adaptation. We include a novel discussion of how ranking bias may not only affect labels, but also model features. The randomization program led to improved models, motivated internal scenario analysis, and enabled user-facing scenario tooling.
翻訳日:2022-06-24 14:34:48 公開日:2022-06-23
# 機械学習攻撃におけるコピー検出パターンの認証--教師付きアプローチ

Authentication of Copy Detection Patterns under Machine Learning Attacks: A Supervised Approach ( http://arxiv.org/abs/2206.11793v1 )

ライセンス: Link先を確認
Brian Pulfer, Roman Chaban, Yury Belousov, Joakim Tutt, Taras Holotyak, Slava Voloshynovskiy(参考訳) コピー検出パターン(CDP)は、メーカーが偽造から製品を守るための魅力的な技術である。 CDPの保護機構の背後にある主な前提は、産業用プリンタ上で最小のシンボルサイズ(1x1)で印刷されたこれらのコードは、データ処理の不平等のために十分な精度でコピーまたは複製できないことである。 しかし、以前の研究では機械学習(ML)ベースの攻撃が高品質なフェイクを発生させ、従来の特徴ベースの認証システムに基づく認証の精度を低下させることを示した。 ディープ・ラーニング(DL)は認証システムの一部として利用できるが、これまでの研究では1x1のシンボルサイズを持つMLベースのCDP攻撃に対するDLベースの認証システムの性能は研究されていない。 本研究では,教師付き学習(SL)の設定を前提とした,そのような性能について検討する。

Copy detection patterns (CDP) are an attractive technology that allows manufacturers to defend their products against counterfeiting. The main assumption behind the protection mechanism of CDP is that these codes printed with the smallest symbol size (1x1) on an industrial printer cannot be copied or cloned with sufficient accuracy due to data processing inequality. However, previous works have shown that Machine Learning (ML) based attacks can produce high-quality fakes, resulting in decreased accuracy of authentication based on traditional feature-based authentication systems. While Deep Learning (DL) can be used as a part of the authentication system, to the best of our knowledge, none of the previous works has studied the performance of a DL-based authentication system against ML-based attacks on CDP with 1x1 symbol size. In this work, we study such a performance assuming a supervised learning (SL) setting.
翻訳日:2022-06-24 14:31:48 公開日:2022-06-23
# 連続グルコースモニターによる食餌栄養成分の予測

Predicting the meal macronutrient composition from continuous glucose monitors ( http://arxiv.org/abs/2206.11878v1 )

ライセンス: Link先を確認
Zepeng Huo, Bobak J. Mortazavi, Theodora Chaspari, Nicolaas Deutz, Laura Ruebush, Ricardo Gutierrez-Osuna(参考訳) 2型糖尿病(T2DM)における血糖値の持続は、破滅的な長期的健康に影響を及ぼす可能性がある。 T2DMの臨床介入の重要な要素は、血漿グルコース濃度を許容範囲内に維持するために食事摂取を監視することである。 しかし、食事の摂取をモニターする現在の技術は、時間とエラーの傾向が強い。 この問題に対処するため,我々は連続グルコースモニター(CGM)を用いて食品の摂取状況と組成を自動的に監視する技術を開発している。 本報告では, CGMを装着したまま, 9種類のマクロ栄養素(炭水化物, タンパク質, 脂肪)を摂取した臨床研究の結果について述べる。 我々は,CGM信号からマクロ栄養成分を推定するマルチタスクニューラルネットワークを構築し,ベースライン線形回帰と比較した。 最適な予測結果は,平均相対誤差と相関係数で測定した被験者依存データを用いて学習したニューラルネットワークから得られた。 これらの結果から, cgm信号から栄養素組成を推定することが可能であり, 食品摂取量を追跡する自動的手法の開発が可能であることが示唆された。

Sustained high levels of blood glucose in type 2 diabetes (T2DM) can have disastrous long-term health consequences. An essential component of clinical interventions for T2DM is monitoring dietary intake to keep plasma glucose levels within an acceptable range. Yet, current techniques to monitor food intake are time intensive and error prone. To address this issue, we are developing techniques to automatically monitor food intake and the composition of those foods using continuous glucose monitors (CGMs). This article presents the results of a clinical study in which participants consumed nine standardized meals with known macronutrients amounts (carbohydrate, protein, and fat) while wearing a CGM. We built a multitask neural network to estimate the macronutrient composition from the CGM signal, and compared it against a baseline linear regression. The best prediction result comes from our proposed neural network, trained with subject-dependent data, as measured by root mean squared relative error and correlation coefficient. These findings suggest that it is possible to estimate macronutrient composition from CGM signals, opening the possibility to develop automatic techniques to track food intake.
翻訳日:2022-06-24 14:31:16 公開日:2022-06-23
# 上咽頭癌放射線治療における放射線脳症評価のための重み付きconcordance index loss-based multimodal survival modeling

Weighted Concordance Index Loss-based Multimodal Survival Modeling for Radiation Encephalopathy Assessment in Nasopharyngeal Carcinoma Radiotherapy ( http://arxiv.org/abs/2206.11458v1 )

ライセンス: Link先を確認
Jiansheng Fang, Anwei Li, Pu-Yun OuYang, Jiajian Li, Jingwen Wang, Hongbo Liu, Fang-Yun Xie, Jiang Liu(参考訳) 放射線脳症(REP)は鼻咽頭癌(NPC)放射線治療の合併症として最も多い。 放射線治療による側頭葉損傷(rtli)を発症確率に応じて軽減するためにnpc放射線療法の最適化を臨床医に支援することが極めて望ましい。 我々の知る限り、NPC放射線療法における画像と非画像データを併用することにより、放射線治療によるREPの予測を初めて行う。 我々はREP予測を生存分析タスクとし、一致指数(CI)の観点から予測精度を評価する。 我々は2つの特徴抽出器を備えた深層マルチモーダルサバイバルネットワーク(MSN)を設計し、マルチモーダルデータから識別的特徴を学習する。 1つの特徴抽出器は非画像データに特徴選択を課し、もう1つは画像から視覚特徴を学習する。 予めバランスのとれたCI(BCI)損失関数がCIを直接最大化するので、バッチ毎に不均一なサンプリングに敏感である。 そこで本研究では,異なる重みを2重平均演算で割り当てることで,すべてのREPサンプルを効果的に活用する,新しい重み付きCI損失関数を提案する。 さらに、WCIの温度ハイパーパラメータを導入し、サンプルペアのリスク差を鋭くし、モデル収束を支援する。 我々は、WCIをプライベートデータセットで広範囲に評価し、そのデータセットに対する好適性を実証した。 実験の結果,NPC放射線治療のマルチモーダルデータはREPリスク予測により多くの利益をもたらすことが示された。

Radiation encephalopathy (REP) is the most common complication for nasopharyngeal carcinoma (NPC) radiotherapy. It is highly desirable to assist clinicians in optimizing the NPC radiotherapy regimen to reduce radiotherapy-induced temporal lobe injury (RTLI) according to the probability of REP onset. To the best of our knowledge, it is the first exploration of predicting radiotherapy-induced REP by jointly exploiting image and non-image data in NPC radiotherapy regimen. We cast REP prediction as a survival analysis task and evaluate the predictive accuracy in terms of the concordance index (CI). We design a deep multimodal survival network (MSN) with two feature extractors to learn discriminative features from multimodal data. One feature extractor imposes feature selection on non-image data, and the other learns visual features from images. Because the priorly balanced CI (BCI) loss function directly maximizing the CI is sensitive to uneven sampling per batch. Hence, we propose a novel weighted CI (WCI) loss function to leverage all REP samples effectively by assigning their different weights with a dual average operation. We further introduce a temperature hyper-parameter for our WCI to sharpen the risk difference of sample pairs to help model convergence. We extensively evaluate our WCI on a private dataset to demonstrate its favourability against its counterparts. The experimental results also show multimodal data of NPC radiotherapy can bring more gains for REP risk prediction.
翻訳日:2022-06-24 14:30:51 公開日:2022-06-23
# コンピュータグラフィックスとビジョンにおけるより良いユーザー研究を目指して

Towards Better User Studies in Computer Graphics and Vision ( http://arxiv.org/abs/2206.11461v1 )

ライセンス: Link先を確認
Zoya Bylinskii, Laura Herman, Aaron Hertzmann, Stefanie Hutka, Yile Zhang(参考訳) オンラインのクラウドソーシングプラットフォームは、"どの画像が良いのか、AかBか"といった質問をすることで、アルゴリズムのアウトプットの評価を簡単にする。 コンピュータビジョンとグラフィック論文におけるユーザ研究の設計と報告により多くの注意を払う必要があると我々は主張する。 ユーザエクスペリエンス研究(UXR)やヒューマン・コンピュータ・インタラクション(HCI)など,実践者の知識を向上し,ユーザ研究の信頼性と再現性を高めるために,ユーザエクスペリエンス研究(UXR)やヒューマン・コンピュータ・インタラクション(HCI),関連分野の方法論の概要を紹介する。 本稿では,現在,コンピュータビジョンやグラフィックス研究で活用されていないが,研究プロジェクトにおいて有用なガイダンスを提供する基礎的ユーザリサーチ手法(例えば,ニードルフィング)について検討する。 我々は、他のUXR方法論を探求することに興味のある読者のために、文献へのさらなる注記を提供する。 最後に,研究コミュニティに対する幅広いオープンイシューとレコメンデーションについて述べる。 著者やレビュアーには,すべての研究貢献がユーザ調査を必要とするわけではないこと,不注意に実施した研究よりも研究がまったくない方がよいことを認識するように勧める。

Online crowdsourcing platforms make it easy to perform evaluations of algorithm outputs with surveys that ask questions like "which image is better, A or B?") The proliferation of these "user studies" in vision and graphics research papers has led to an increase of hastily conducted studies that are sloppy and uninformative at best, and potentially harmful and misleading. We argue that more attention needs to be paid to both the design and reporting of user studies in computer vision and graphics papers. In an attempt to improve practitioners' knowledge and increase the trustworthiness and replicability of user studies, we provide an overview of methodologies from user experience research (UXR), human-computer interaction (HCI), and related fields. We discuss foundational user research methods (e.g., needfinding) that are presently underutilized in computer vision and graphics research, but can provide valuable guidance for research projects. We provide further pointers to the literature for readers interested in exploring other UXR methodologies. Finally, we describe broader open issues and recommendations for the research community. We encourage authors and reviewers alike to recognize that not every research contribution requires a user study, and that having no study at all is better than having a carelessly conducted one.
翻訳日:2022-06-24 14:30:25 公開日:2022-06-23
# (参考訳) VRKitchen2.0-IndoorKit:Omniverseの屋内シーンビルのためのチュートリアル

VRKitchen2.0-IndoorKit: A Tutorial for Augmented Indoor Scene Building in Omniverse ( http://arxiv.org/abs/2206.11887v1 )

ライセンス: CC BY 4.0
Yizhou Zhao, Steven Gong, Xiaofeng Gao, Wensi Ai, Song-Chun Zhu(参考訳) 最近の3Dモデリングソフトウェアとゲームエンジンによるシミュレーションの進歩により、多くの研究者が仮想環境におけるエボダイドAIタスクに焦点を当てている。 しかし、研究コミュニティには屋内シーン合成と様々なアルゴリズムによるモデルベンチマークの両方を容易に行えるプラットフォームがない。 一方、コンピュータグラフィックス関連のタスクは高度な合成技術を実装するためのツールキットを必要とする。 屋内シーン構築手法とそのロボット応用の可能性を研究するため、屋内シーン構築、シーンランダム化、アニメーション制御に柔軟なパイプラインを提供するnvidia omniverseの組み込みツールキットであるindokitを紹介する。 さらに、アニメーションソフトウェアINDOORKITにPythonのコーディングを組み合わせることで、研究者がリアルタイムトレーニングを作成し、アバターやロボティクスを制御するのを助ける。 このツールキットのソースコードはhttps://github.com/realvcla/VRKitchen2.0-Tutorialで入手できる。

With the recent progress of simulations by 3D modeling software and game engines, many researchers have focused on Embodied AI tasks in the virtual environment. However, the research community lacks a platform that can easily serve both indoor scene synthesis and model benchmarking with various algorithms. Meanwhile, computer graphics-related tasks need a toolkit for implementing advanced synthesizing techniques. To facilitate the study of indoor scene building methods and their potential robotics applications, we introduce INDOORKIT: a built-in toolkit for NVIDIA OMNIVERSE that provides flexible pipelines for indoor scene building, scene randomizing, and animation controls. Besides, combining Python coding in the animation software INDOORKIT assists researchers in creating real-time training and controlling avatars and robotics. The source code for this toolkit is available at https://github.com/realvcla/VRKitchen2.0-Tutorial, and the tutorial along with the toolkit is available at https://vrkitchen20-tutorial.readthedocs.io/en/
翻訳日:2022-06-24 14:28:32 公開日:2022-06-23
# 手術器具のセグメンテーションを再考:背景画像は必要なものすべて

Rethinking Surgical Instrument Segmentation: A Background Image Can Be All You Need ( http://arxiv.org/abs/2206.11804v1 )

ライセンス: Link先を確認
An Wang, Mobarakol Islam, Mengya Xu and Hongliang Ren(参考訳) データ多様性とボリュームはディープラーニングモデルのトレーニングの成功に不可欠であるが、医療画像分野では、データ収集とアノテーションの困難さとコストが特に大きい。 特にロボット手術において、データの不足と不均衡はモデルの精度に大きく影響を与え、手術器具のセグメンテーションのような深層学習に基づく手術アプリケーションの設計と展開を制限している。 本稿では,手術器具分割作業を再考し,ロボット手術からデータ収集とアノテーションを複雑かつ高価なプロセスから取り除いた1対多のデータ生成ソリューションを提案する。 本手法では,単一の外科的背景組織画像といくつかのオープンソース機器画像のみをシード画像として使用し,複数の増補およびブレンド技術を用いて画像変動量の合成を行う。 さらに,データ多様性をさらに向上するため,トレーニング中に連鎖強化ミキシングを導入する。 提案手法は,EndoVis-2018とEndoVis-2017の手術シーンセグメンテーションの実際のデータセットに基づいて評価される。 経験的分析から,高コストなデータ収集とアノテーションがなければ,適切な手術器具のセグメンテーション性能が達成できることが示唆された。 さらに,本手法がデプロイメント領域において新たな計測器予測に対処できることも確認した。 私たちは、データ不均衡、ドメイン適応、漸進的学習などのデータ不足に加えて、データ中心の手法が要求される深層学習の制限を克服する上で、データ中心の方法を強調することを期待しています。

Data diversity and volume are crucial to the success of training deep learning models, while in the medical imaging field, the difficulty and cost of data collection and annotation are especially huge. Specifically in robotic surgery, data scarcity and imbalance have heavily affected the model accuracy and limited the design and deployment of deep learning-based surgical applications such as surgical instrument segmentation. Considering this, in this paper, we rethink the surgical instrument segmentation task and propose a one-to-many data generation solution that gets rid of the complicated and expensive process of data collection and annotation from robotic surgery. In our method, we only utilize a single surgical background tissue image and a few open-source instrument images as the seed images and apply multiple augmentations and blending techniques to synthesize amounts of image variations. In addition, we also introduce the chained augmentation mixing during training to further enhance the data diversities. The proposed approach is evaluated on the real datasets of the EndoVis-2018 and EndoVis-2017 surgical scene segmentation. Our empirical analysis suggests that without the high cost of data collection and annotation, we can achieve decent surgical instrument segmentation performance. Moreover, we also observe that our method can deal with novel instrument prediction in the deployment domain. We hope our inspiring results would encourage researchers to emphasize data-centric methods to overcome demanding deep learning limitations besides data shortage, such as class imbalance, domain adaptation, and incremental learning.
翻訳日:2022-06-24 14:22:03 公開日:2022-06-23
# 構造的クロスモーダル表現による大腸ポリープ認識に向けて

Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-modal Representation Consistency ( http://arxiv.org/abs/2206.11826v1 )

ライセンス: Link先を確認
Weijie Ma, Ye Zhu, Ruimao Zhang, Jie Yang, Yiwen Hu, Zhen Li, Li Xiang(参考訳) 大腸ポリープ分類は重要な臨床検査である。 分類精度を向上させるため,ほとんどのコンピュータ支援診断アルゴリズムはNarrow-Band Imaging (NBI) を用いて大腸ポリープを認識する。 しかし、NBIは通常、White-Light (WL)画像を用いてポリプが検出された場合、この特定の画像を取得するには、手動で光モードを切り替える必要があるため、実際の臨床シナリオで利用できない。 以上のような状況を避けるため,構造的クロスモーダル表現の一貫性を生かして,正確な白目大腸内視鏡像の分類を行う新しい方法を提案する。 実際には、NBIとWLの2つのマルチモーダル画像が共有トランスフォーマーに入力され、階層的特徴表現を抽出する。 次に、クラストークンとパッチトークンの類似性を、特定のモダリティ画像のマルチレベルから計算するために、新しく設計された空間注意モジュール(SAM)を採用する。 NBIとWLのペア画像のクラストークンと空間アテンションマップを異なるレベルで整列させることで、トランスフォーマーは上記の2つのモードに対してグローバルおよび局所的な表現整合性を維持することができる。 大規模な実験結果から,提案手法は,WL画像のみを用いた分類精度を大幅に向上させつつ,単一トランスフォーマを用いたマルチモーダル予測を実現し,近年の研究よりも優れた性能を示した。

The colorectal polyps classification is a critical clinical examination. To improve the classification accuracy, most computer-aided diagnosis algorithms recognize colorectal polyps by adopting Narrow-Band Imaging (NBI). However, the NBI usually suffers from missing utilization in real clinic scenarios since the acquisition of this specific image requires manual switching of the light mode when polyps have been detected by using White-Light (WL) images. To avoid the above situation, we propose a novel method to directly achieve accurate white-light colonoscopy image classification by conducting structured cross-modal representation consistency. In practice, a pair of multi-modal images, i.e. NBI and WL, are fed into a shared Transformer to extract hierarchical feature representations. Then a novel designed Spatial Attention Module (SAM) is adopted to calculate the similarities between the class token and patch tokens %from multi-levels for a specific modality image. By aligning the class tokens and spatial attention maps of paired NBI and WL images at different levels, the Transformer achieves the ability to keep both global and local representation consistency for the above two modalities. Extensive experimental results illustrate the proposed method outperforms the recent studies with a margin, realizing multi-modal prediction with a single Transformer while greatly improving the classification accuracy when only with WL images.
翻訳日:2022-06-24 14:21:36 公開日:2022-06-23
# EventNeRF: 単一カラーイベントカメラからのニューラル放射場

EventNeRF: Neural Radiance Fields from a Single Colour Event Camera ( http://arxiv.org/abs/2206.11896v1 )

ライセンス: Link先を確認
Viktor Rudnev and Mohamed Elgharib and Christian Theobalt and Vladislav Golyanik(参考訳) ニューラルレイディアンスフィールド(NeRF)のような座標に基づく3次元シーンの3次元シーン表現の学習について,RGBやRGB-Dの画像を入力として検討した。 同時に、人間の視覚系(HVS)は、ナビゲーションと生存のために周囲の精神的な3D表現を構築し、継続的に更新するために、同期RGB画像よりも非同期の明るさ変化を処理するように調整されていることが神経科学文献から知られている。 HVS原則にインスパイアされた視覚センサは、イベントカメラである。 したがって、イベントはスパースであり、ピクセルごとの明るさ(またはカラーチャネル)の変化信号である。 ニューラル3次元シーン表現学習における既存の研究とは対照的に,本論文は新たな視点から問題にアプローチする。 非同期イベントストリームからRGB空間の新規ビュー合成に適したNeRFを学習できることを実証する。 我々のモデルは、RGB画像で訓練された既存のNeRFモデルよりも、かなり少ないデータ(例えば、オブジェクトの周りを移動する単一イベントカメラからのイベントストリーム)とより効率的にトレーニングされているにもかかわらず、RGB空間における挑戦シーンのレンダリングされた新しいビューの視覚的精度を高く達成している。 データセットとソースコードはhttps://4dqv.mpi-inf.mpg.de/EventNeRF/で公開します。

Learning coordinate-based volumetric 3D scene representations such as neural radiance fields (NeRF) has been so far studied assuming RGB or RGB-D images as inputs. At the same time, it is known from the neuroscience literature that human visual system (HVS) is tailored to process asynchronous brightness changes rather than synchronous RGB images, in order to build and continuously update mental 3D representations of the surroundings for navigation and survival. Visual sensors that were inspired by HVS principles are event cameras. Thus, events are sparse and asynchronous per-pixel brightness (or colour channel) change signals. In contrast to existing works on neural 3D scene representation learning, this paper approaches the problem from a new perspective. We demonstrate that it is possible to learn NeRF suitable for novel-view synthesis in the RGB space from asynchronous event streams. Our models achieve high visual accuracy of the rendered novel views of challenging scenes in the RGB space, even though they are trained with substantially fewer data (i.e., event streams from a single event camera moving around the object) and more efficiently (due to the inherent sparsity of event streams) than the existing NeRF models trained with RGB images. We will release our datasets and the source code, see https://4dqv.mpi-inf.mpg.de/EventNeRF/.
翻訳日:2022-06-24 14:21:08 公開日:2022-06-23
# 線形関数近似を用いた最短最適強化学習

Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2206.11489v1 )

ライセンス: Link先を確認
Pihe Hu, Yu Chen, Longbo Huang(参考訳) 本稿では,遷移確率と報酬関数が線形となる線形関数近似を用いた強化学習について,特徴写像 $\boldsymbol{\phi}(s,a)$ について検討する。 具体的には、エピソード不均一な線形マルコフ決定過程(MDP)を検討し、新しい計算効率のアルゴリズムLSVI-UCB$^+$を提案し、$\widetilde{O}(Hd\sqrt{T})$ regret bound、$H$はエピソード長、$d$は特徴次元、$T$はステップ数である。 lsvi-ucb$^+$ は、重み付きリッジ回帰と、ベルンシュタイン型探索ボーナスによる高信頼値反復に基づいている。 本研究では,新しい解析ツールを用いて,楕円ポテンシャルの保存性を持つベルンシュタイン自己正規化バウンドと補正項の洗練された解析を行った。 我々の知る限り、これは線形 MDP に対する最初の極小極小アルゴリズムであり、これは線型 MDP に対して$\sqrt{Hd}$ の最もよく知られた上限である $\widetilde{O}(\sqrt{H^3d^3T})$ と $\Omega(Hd\sqrt{T})$ とのギャップを埋めるものである。

We study reinforcement learning with linear function approximation where the transition probability and reward functions are linear with respect to a feature mapping $\boldsymbol{\phi}(s,a)$. Specifically, we consider the episodic inhomogeneous linear Markov Decision Process (MDP), and propose a novel computation-efficient algorithm, LSVI-UCB$^+$, which achieves an $\widetilde{O}(Hd\sqrt{T})$ regret bound where $H$ is the episode length, $d$ is the feature dimension, and $T$ is the number of steps. LSVI-UCB$^+$ builds on weighted ridge regression and upper confidence value iteration with a Bernstein-type exploration bonus. Our statistical results are obtained with novel analytical tools, including a new Bernstein self-normalized bound with conservatism on elliptical potentials, and refined analysis of the correction term. To the best of our knowledge, this is the first minimax optimal algorithm for linear MDPs up to logarithmic factors, which closes the $\sqrt{Hd}$ gap between the best known upper bound of $\widetilde{O}(\sqrt{H^3d^3T})$ in \cite{jin2020provably} and lower bound of $\Omega(Hd\sqrt{T})$ for linear MDPs.
翻訳日:2022-06-24 14:18:35 公開日:2022-06-23
# Quant-BnB:連続的な特徴を持つ最適決定木のためのスケーラブル分岐境界法

Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees with Continuous Features ( http://arxiv.org/abs/2206.11844v1 )

ライセンス: Link先を確認
Rahul Mazumder, Xiang Meng, Haoyue Wang(参考訳) 決定木は機械学習ツールボックスで最も有用で一般的な方法の1つである。 本稿では,大規模に解決が難しい組合せ最適化問題である最適決定木を学習する問題を考察する。 文学における一般的なアプローチは、最適でないかもしれない欲求的ヒューリスティックを使うことである。 最近、計算のスケーラビリティを達成するために様々なアプローチ(例えば整数プログラミング、動的プログラミング)を使って最適な決定木を学習することに大きな関心が寄せられ、これらのアプローチのほとんどはバイナリ機能を持つ分類タスクに焦点を当てている。 本稿では,分枝結合(bnb)に基づく最適決定木を得るための新しい離散最適化手法を提案する。 既存のカスタマイズアプローチとは異なり、回帰タスクと分類タスクの両方を連続的な特徴で検討する。 提案手法の根底にある基本的な考え方は,BnBイテレーションに沿った最適化問題に対して,特徴分布の量子化に基づいて探索空間を分割することである。 提案アルゴリズムのQuant-BnBは,様々な実データセット上の浅い最適木に対する既存手法と比較して,大幅な高速化を示す。

Decision trees are one of the most useful and popular methods in the machine learning toolbox. In this paper, we consider the problem of learning optimal decision trees, a combinatorial optimization problem that is challenging to solve at scale. A common approach in the literature is to use greedy heuristics, which may not be optimal. Recently there has been significant interest in learning optimal decision trees using various approaches (e.g., based on integer programming, dynamic programming) -- to achieve computational scalability, most of these approaches focus on classification tasks with binary features. In this paper, we present a new discrete optimization method based on branch-and-bound (BnB) to obtain optimal decision trees. Different from existing customized approaches, we consider both regression and classification tasks with continuous features. The basic idea underlying our approach is to split the search space based on the quantiles of the feature distribution -- leading to upper and lower bounds for the underlying optimization problem along the BnB iterations. Our proposed algorithm Quant-BnB shows significant speedups compared to existing approaches for shallow optimal trees on various real datasets.
翻訳日:2022-06-24 14:18:05 公開日:2022-06-23
# 対角状態空間モデルのパラメータ化と初期化について

On the Parameterization and Initialization of Diagonal State Space Models ( http://arxiv.org/abs/2206.11893v1 )

ライセンス: Link先を確認
Albert Gu, Ankit Gupta, Karan Goel, Christopher R\'e(参考訳) 状態空間モデル(SSM)は、最近、RNN、CNN、Transformerといったシーケンスモデルに代わる有望な代替として、ディープラーニング層として非常に効果的であることが示されている。 この可能性を示す最初のバージョンはS4モデルであり、特にHiPPO行列と呼ばれる所定の状態行列を使用することで、長距離依存を含むタスクに有効である。 これは長い依存関係をモデル化するための解釈可能な数学的メカニズムを持っているが、実装が難しいカスタム表現とアルゴリズムを導入している。 一方、DSSと呼ばれる最近のS4の変種は、S4の行列を近似した特定の初期化を使用する場合、状態行列を完全に斜めにする制限が元のモデルの性能を保てることを示した。 この研究は、このような対角状態空間モデルのパラメータ化と初期化の方法を体系的に理解しようとする。 古典的な結果から、ほぼ全てのSSMは対角線形式を持つが、初期化は性能上重要であることを示す。 dssが数学的に働く理由を, s4 行列の対角制限が無限状態次元の極限において, 驚くほど同じ核を回復することを示した。 また,パラメータ化や対角 SSM の計算において,様々な設計選択を体系的に記述し,これらの選択の効果を裏付ける制御実験を行った。 我々の最終モデルであるS4Dは、S4の単純な対角バージョンであり、カーネル計算はたった2行のコードしか必要とせず、ほぼすべての設定でS4と互換性があり、画像、オーディオ、医療時系列ドメインの最先端結果と、Long Range Arenaベンチマークで平均85\%である。

State space models (SSM) have recently been shown to be very effective as a deep learning layer as a promising alternative to sequence models such as RNNs, CNNs, or Transformers. The first version to show this potential was the S4 model, which is particularly effective on tasks involving long-range dependencies by using a prescribed state matrix called the HiPPO matrix. While this has an interpretable mathematical mechanism for modeling long dependencies, it introduces a custom representation and algorithm that can be difficult to implement. On the other hand, a recent variant of S4 called DSS showed that restricting the state matrix to be fully diagonal can still preserve the performance of the original model when using a specific initialization based on approximating S4's matrix. This work seeks to systematically understand how to parameterize and initialize such diagonal state space models. While it follows from classical results that almost all SSMs have an equivalent diagonal form, we show that the initialization is critical for performance. We explain why DSS works mathematically, by showing that the diagonal restriction of S4's matrix surprisingly recovers the same kernel in the limit of infinite state dimension. We also systematically describe various design choices in parameterizing and computing diagonal SSMs, and perform a controlled empirical study ablating the effects of these choices. Our final model S4D is a simple diagonal version of S4 whose kernel computation requires just 2 lines of code and performs comparably to S4 in almost all settings, with state-of-the-art results for image, audio, and medical time-series domains, and averaging 85\% on the Long Range Arena benchmark.
翻訳日:2022-06-24 14:17:46 公開日:2022-06-23
# スケーラブル多目的最適化のための学習可能な進化的アルゴリズムの検討

A Survey on Learnable Evolutionary Algorithms for Scalable Multiobjective Optimization ( http://arxiv.org/abs/2206.11526v1 )

ライセンス: Link先を確認
Songbai Liu(参考訳) 近年,多目的最適化問題 (mops) の解法として採用されている多目的進化アルゴリズム (moeas) が注目されている。 しかし、これらの改善されたMOEAは、高額な関数評価、多くの目的、大規模検索空間、時間変化環境、マルチタスクを含む様々な側面から、複雑さやスケールを継続的に増加させながら、スケールアップMOPによってもたらされる、高度にスケーラブルで学習可能な問題解決戦略を必ずしも備えていない。 異なるシナリオの下では、効果的に解決するための新しい強力なMOEAを設計する必要がある。 この文脈では、MOPをスケールアップするための機械学習技術で自身を操る学習可能なMOEAの研究が、進化計算の分野で広く注目を集めている。 本稿では,スケーラブルモップと学習可能なモエイトの分類から始めて,モップのスケールアップが従来のモエイにもたらした課題について分析する。 そして, 学習可能なMOEAの最近の進歩を総合的に概説し, 主に魅力的な3つの方向(環境選択のための学習可能な進化的判別器, 再生のための学習可能な進化的生成器, 異なる問題領域間での最適化経験の共有や再利用のための学習可能な進化的移動)に焦点を当てた。 本論文の全体を通しての学習可能なMOEAに関する洞察は,本分野における取り組みの概略を参考に,読者に提供される。

Recent decades have witnessed remarkable advancements in multiobjective evolutionary algorithms (MOEAs) that have been adopted to solve various multiobjective optimization problems (MOPs). However, these progressively improved MOEAs have not necessarily been equipped with sophisticatedly scalable and learnable problem-solving strategies that are able to cope with new and grand challenges brought by the scaling-up MOPs with continuously increasing complexity or scale from diverse aspects, mainly including expensive function evaluations, many objectives, large-scale search space, time-varying environments, and multitask. Under different scenarios, it requires divergent thinking to design new powerful MOEAs for solving them effectively. In this context, research into learnable MOEAs that arm themselves with machine learning techniques for scaling-up MOPs has received extensive attention in the field of evolutionary computation. In this paper, we begin with a taxonomy of scalable MOPs and learnable MOEAs, followed by an analysis of the challenges that scaling up MOPs pose to traditional MOEAs. Then, we synthetically overview recent advances of learnable MOEAs in solving various scaling up MOPs, focusing primarily on three attractive and promising directions (i.e., learnable evolutionary discriminators for environmental selection, learnable evolutionary generators for reproduction, and learnable evolutionary transfer for sharing or reusing optimization experience between different problem domains). The insight into learnable MOEAs held throughout this paper is offered to the readers as a reference to the general track of the efforts in this field.
翻訳日:2022-06-24 14:17:08 公開日:2022-06-23
# エンド・ツー・エンド・コンバータとハイブリッドTDNN ASRシステムを組み合わせた2パス復号とクロス・アダプテーションに基づくシステム

Two-pass Decoding and Cross-adaptation Based System Combination of End-to-end Conformer and Hybrid TDNN ASR Systems ( http://arxiv.org/abs/2206.11596v1 )

ライセンス: Link先を確認
Mingyu Cui, Jiajun Deng, Shoukang Hu, Xurong Xie, Tianzi Wang, Shujie Hu, Mengzhe Geng, Boyang Xue, Xunying Liu, Helen Meng(参考訳) ハイブリッドとエンド・ツー・エンド(E2E)自動音声認識(ASR)システム間の基本的なモデリングの違いは、その間に大きな多様性と相補性をもたらす。 本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。 高速摂動, SpecAugment および Bayesian 学習隠れユニットコントリビューション (LHUC) を用いた CNN-TDNN システムを用いて, 話者適応型コンフォーマーシステムにより2ウェイクロスシステムスコア補間を施す前に, 初期 N-best 出力を生成する。 クロス適応では、ハイブリッドcnn-tdnnシステムはコンフォーマーシステムの1-best出力に適応した。 300時間におよぶスイッチボード・コーパスの実験では、2つのシステムの組み合わせによる組み合わせシステムが個々のシステムよりも優れていることが示唆された。 NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。

Fundamental modelling differences between hybrid and end-to-end (E2E) automatic speech recognition (ASR) systems create large diversity and complementarity among them. This paper investigates multi-pass rescoring and cross adaptation based system combination approaches for hybrid TDNN and Conformer E2E ASR systems. In multi-pass rescoring, state-of-the-art hybrid LF-MMI trained CNN-TDNN system featuring speed perturbation, SpecAugment and Bayesian learning hidden unit contributions (LHUC) speaker adaptation was used to produce initial N-best outputs before being rescored by the speaker adapted Conformer system using a 2-way cross system score interpolation. In cross adaptation, the hybrid CNN-TDNN system was adapted to the 1-best output of the Conformer system or vice versa. Experiments on the 300-hour Switchboard corpus suggest that the combined systems derived using either of the two system combination approaches outperformed the individual systems. The best combined system obtained using multi-pass rescoring produced statistically significant word error rate (WER) reductions of 2.5% to 3.9% absolute (22.5% to 28.9% relative) over the stand alone Conformer system on the NIST Hub5'00, Rt03 and Rt02 evaluation data.
翻訳日:2022-06-24 14:16:39 公開日:2022-06-23
# 医用画像分類のための新しい敵対的学習戦略

A novel adversarial learning strategy for medical image classification ( http://arxiv.org/abs/2206.11501v1 )

ライセンス: Link先を確認
Zong Fan, Xiaohui Zhang, Jacob A. Gasienica, Jennifer Potts, Su Ruan, Wade Thorstad, Hiram Gay, Xiaowei Wang, Hua Li(参考訳) 深層学習(DL)技術は医用画像分類に広く利用されている。 ほとんどのDLベースの分類ネットワークは階層的に構成され、ネットワークの終端で測定される単一損失関数の最小化によって最適化される。 しかし、そのような単一損失設計は、ある特定の関心の値を最適化する可能性があるが、分類性能の恩恵を受け、過度に適合するリスクを減らす可能性のある中間層からの情報的特徴を活用することができない。 近年,従来の分類ネットワーク上には補助畳み込みニューラルネットワーク(auxcnns)が用いられ,中間層の訓練が促進され,分類性能とロバスト性が向上している。 本研究では,医用画像分類のための深層ニューラルネットワークのトレーニングを支援するための,対角学習に基づくAuxCNNを提案する。 AuxCNN分類フレームワークでは、2つの主要なイノベーションが採用されました。 まず, 画像生成装置と, 医用画像分類のためのより情報的な画像特徴を抽出する画像判別装置と, 生成型逆ネットワーク (gan) の概念と, その目標データ分布の近似化能力に動機づけられた。 第2に,分類ネットワークとauxcnnの異なる目的を組み込むことにより,モデルトレーニングを導くハイブリッド損失関数を考案した。 包括的実験により,提案モデルの分類性能が向上した。 ネットワーク関連因子が分類性能に及ぼす影響を検討した。

Deep learning (DL) techniques have been extensively utilized for medical image classification. Most DL-based classification networks are generally structured hierarchically and optimized through the minimization of a single loss function measured at the end of the networks. However, such a single loss design could potentially lead to optimization of one specific value of interest but fail to leverage informative features from intermediate layers that might benefit classification performance and reduce the risk of overfitting. Recently, auxiliary convolutional neural networks (AuxCNNs) have been employed on top of traditional classification networks to facilitate the training of intermediate layers to improve classification performance and robustness. In this study, we proposed an adversarial learning-based AuxCNN to support the training of deep neural networks for medical image classification. Two main innovations were adopted in our AuxCNN classification framework. First, the proposed AuxCNN architecture includes an image generator and an image discriminator for extracting more informative image features for medical image classification, motivated by the concept of generative adversarial network (GAN) and its impressive ability in approximating target data distribution. Second, a hybrid loss function is designed to guide the model training by incorporating different objectives of the classification network and AuxCNN to reduce overfitting. Comprehensive experimental studies demonstrated the superior classification performance of the proposed model. The effect of the network-related factors on classification performance was investigated.
翻訳日:2022-06-24 14:14:56 公開日:2022-06-23
# あなたは何者ですか。 顔部交換による認識分析

What makes you, you? Analyzing Recognition by Swapping Face Parts ( http://arxiv.org/abs/2206.11759v1 )

ライセンス: Link先を確認
Claudio Ferrari, Matteo Serpentoni, Stefano Berretti, Alberto Del Bimbo(参考訳) ディープラーニングは顔認識を前例のない精度に進化させた。 しかし、顔の局所的な部分が全体の認識性能にどのように影響するかは、いまだに不明である。 中でも、顔スワップはこの目的のために実験されてきたが、顔全体のためだけである。 本稿では,目,鼻,口などの異なる顔部位の認識関係を解消する手段として,顔部品の交換を提案する。 本方法では、3dプリファレンスを嵌合させてソース面からターゲット面への部品交換を行い、部品間の密な画素対応を確立しつつポーズの差異も処理する。 次にシームレスなクローニングを行い、マッピングされたソース領域と対象の顔の形状と肌色の間のスムーズな遷移を得る。 画像が深層ネットワークで分類された場合の予備的な結論を導出する実験プロトコルを考案し,目とまぶた領域の隆起を示唆した。 https://github.com/clferrari/FacePartsSwapで利用可能なコード

Deep learning advanced face recognition to an unprecedented accuracy. However, understanding how local parts of the face affect the overall recognition performance is still mostly unclear. Among others, face swap has been experimented to this end, but just for the entire face. In this paper, we propose to swap facial parts as a way to disentangle the recognition relevance of different face parts, like eyes, nose and mouth. In our method, swapping parts from a source face to a target one is performed by fitting a 3D prior, which establishes dense pixels correspondence between parts, while also handling pose differences. Seamless cloning is then used to obtain smooth transitions between the mapped source regions and the shape and skin tone of the target face. We devised an experimental protocol that allowed us to draw some preliminary conclusions when the swapped images are classified by deep networks, indicating a prominence of the eyes and eyebrows region. Code available at https://github.com/clferrari/FacePartsSwap
翻訳日:2022-06-24 14:11:48 公開日:2022-06-23
# Unseen Object 6D Pose Estimation: ベンチマークとベースライン

Unseen Object 6D Pose Estimation: A Benchmark and Baselines ( http://arxiv.org/abs/2206.11808v1 )

ライセンス: Link先を確認
Minghao Gou, Haolin Pan, Hao-Shu Fang, Ziyuan Liu, Cewu Lu, Ping Tan(参考訳) 見えないオブジェクトに対する6dのポーズの推定は、多くの実世界のアプリケーションにとって大きな需要である。 しかし、現在の最先端のポーズ推定手法は、以前に訓練されたオブジェクトのみを扱うことができる。 本稿では,テスト中の新規物体の6次元ポーズ推定をアルゴリズムにより推定し,提案するタスクを提案する。 テストセット内の実画像と合成画像の両方と48個の未認識オブジェクトでデータセットを収集します。 平均的に、異なる種類のポーズあいさを持つ対象に対する不変測定であるInfimum ADD (IADD) という新しい計量を提案する。 このタスクのための2段階のベースラインソリューションも提供される。 エンド・ツー・エンドの3d対応ネットワークを訓練することにより、対象物と部分表示rgbd画像との対応点を正確にかつ効率的に見つける。 そして、オブジェクト対称性に頑健なアルゴリズムを用いて、対応から6Dポーズを計算する。 実験の結果,本手法は直感的ベースラインよりも優れており,その有効性が検証された。 すべてのデータ、コード、モデルは公開される予定だ。 プロジェクトページ:www.graspnet.net/unseen6d

Estimating the 6D pose for unseen objects is in great demand for many real-world applications. However, current state-of-the-art pose estimation methods can only handle objects that are previously trained. In this paper, we propose a new task that enables and facilitates algorithms to estimate the 6D pose estimation of novel objects during testing. We collect a dataset with both real and synthetic images and up to 48 unseen objects in the test set. In the mean while, we propose a new metric named Infimum ADD (IADD) which is an invariant measurement for objects with different types of pose ambiguity. A two-stage baseline solution for this task is also provided. By training an end-to-end 3D correspondences network, our method finds corresponding points between an unseen object and a partial view RGBD image accurately and efficiently. It then calculates the 6D pose from the correspondences using an algorithm robust to object symmetry. Extensive experiments show that our method outperforms several intuitive baselines and thus verify its effectiveness. All the data, code and models will be made publicly available. Project page: www.graspnet.net/unseen6d
翻訳日:2022-06-24 14:11:30 公開日:2022-06-23
# リニアモデルによるミニマックス最適フェア回帰

Minimax Optimal Fair Regression under Linear Model ( http://arxiv.org/abs/2206.11546v1 )

ライセンス: Link先を確認
Kazuto Fukuchi, Jun Sakuma(参考訳) 人口統計学的パリティを公平性制約として用いた線形モデルの下での公平回帰問題の最小最適誤差について検討する。 トラクタブルな人口パーティ制約として、$(\alpha,\delta)$-fairness一貫性を導入する。つまり、量子化された不公平性は、少なくとも1-\delta$の確率で少なくとも$n^{-\alpha}$レートで減少し、$n$はサンプルサイズである。 言い換えると、一貫性のある公平なアルゴリズムは最終的に、n$が無限大になりがちである高い確率で人口差パリティ制約を満たすレグレッサーを出力する。 解析の結果,$(\alpha,\delta)$-fairness一貫性制約の下での最小誤差は$\Theta(\frac{dM}{n})$であり,$d$は次元であり,$M$は感度特性から誘導される群の数であることがわかった。 これは線形モデルの下での公正回帰問題に対するミニマックス最適性を明らかにする最初の研究である。

We investigate the minimax optimal error of a fair regression problem under a linear model employing the demographic parity as a fairness constraint. As a tractable demographic parity constraint, we introduce $(\alpha,\delta)$-fairness consistency, meaning that the quantified unfairness is decreased at most $n^{-\alpha}$ rate with at least probability $1-\delta$, where $n$ is the sample size. In other words, the consistently fair algorithm eventually outputs a regressor satisfying the demographic parity constraint with high probability as $n$ tends to infinity. As a result of our analyses, we found that the minimax optimal error under the $(\alpha,\delta)$-fairness consistency constraint is $\Theta(\frac{dM}{n})$ provided that $\alpha \le \frac{1}{2}$, where $d$ is the dimensionality, and $M$ is the number of groups induced from the sensitive attributes. This is the first study revealing minimax optimality for the fair regression problem under a linear model.
翻訳日:2022-06-24 14:10:50 公開日:2022-06-23
# 機械学習によるCMEのジオエフェクトの予測

Predicting the Geoeffectiveness of CMEs Using Machine Learning ( http://arxiv.org/abs/2206.11472v1 )

ライセンス: Link先を確認
Andreea-Clara Pricopi, Alin Razvan Paraschiv, Diana Besliu-Ionescu, and Anca-Nicoleta Marginean(参考訳) コロナ質量放出(英語: coronal mass ejection, cmes)は、大規模な地磁気嵐と関連し、通信障害、衛星ネットワークの破壊、電力網の損傷、故障を引き起こす可能性がある、最も地球効率の良い宇宙気象現象である。 したがって、これらの嵐が人間の活動に与える影響を考えると、CMEのジオエフェクト性の正確な予測が最重要である。 この研究は、太陽に近いCMEのホワイトライトコロナグラフデータセットに基づいて訓練されたさまざまな機械学習手法の実験に焦点をあて、新たに噴出する噴出物が地磁気活動を引き起こす可能性を推定する。 我々は,ロジスティック回帰,k-ネアレスト近傍,サポートベクターマシン,フィードフォワードニューラルネットワーク,アンサンブルモデルを用いたバイナリ分類モデルを開発した。 この時点で、当社の予測は、警告時間の延長を保証するために、ソーラーオンセットパラメータのみを使用するように制限しました。 このタスクの主な課題、すなわち、我々のデータセットにおけるジオエフェクトイベントの数と非効率イベントの数と、その多くの類似点と利用可能な変数の数との極端な不均衡について論じる。 このような条件下であっても、これらのモデルで適切なヒット率が得られることを示す。

Coronal mass ejections (CMEs) are the most geoeffective space weather phenomena, being associated with large geomagnetic storms, having the potential to cause disturbances to telecommunication, satellite network disruptions, power grid damages and failures. Thus, considering these storms' potential effects on human activities, accurate forecasts of the geoeffectiveness of CMEs are paramount. This work focuses on experimenting with different machine learning methods trained on white-light coronagraph datasets of close to sun CMEs, to estimate whether such a newly erupting ejection has the potential to induce geomagnetic activity. We developed binary classification models using logistic regression, K-Nearest Neighbors, Support Vector Machines, feed forward artificial neural networks, as well as ensemble models. At this time, we limited our forecast to exclusively use solar onset parameters, to ensure extended warning times. We discuss the main challenges of this task, namely the extreme imbalance between the number of geoeffective and ineffective events in our dataset, along with their numerous similarities and the limited number of available variables. We show that even in such conditions, adequate hit rates can be achieved with these models.
翻訳日:2022-06-24 14:09:49 公開日:2022-06-23
# (参考訳) MaskViT: ビデオ予測のためのマズークビジュアル事前トレーニング

MaskViT: Masked Visual Pre-Training for Video Prediction ( http://arxiv.org/abs/2206.11894v1 )

ライセンス: CC BY 4.0
Agrim Gupta, Stephen Tian, Yunzhi Zhang, Jiajun Wu, Roberto Mart\'in-Mart\'in, Li Fei-Fei(参考訳) 過去の観測とモーターコマンドに照らされた将来の視覚的観察を予測する能力により、複雑な環境で様々なタスクに対するソリューションを計画できる。 本研究は,マスク付き視覚モデルを用いてトランスフォーマーを事前学習することで,優れた映像予測モデルを作成することができることを示す。 われわれのアプローチはMaskViTと呼ばれ、2つのシンプルな設計決定に基づいている。 まず、記憶と訓練の効率化のために、空間的および時空間的な2種類のウィンドウアテンションを使用する。 第2に、トレーニング中に、固定マスク比の代わりにトークンの変動割合をマスクする。 推測のために、MaskViTは反復精算により全てのトークンを生成し、マスクスケジューリング関数に従ってマスキング比を漸進的に減少させる。 いくつかのデータセットにおいて、MaskViTはビデオ予測の先行処理に優れ、パラメータ効率が良く、高解像度動画(256x256)を生成することができることを示した。 さらに,MaskViTを実ロボットの計画に用いることにより,反復復号化による推論高速化(最大512倍)の利点を示す。 我々の研究は、マスク付き視覚モデリングの一般的なフレームワークを最小限のドメイン知識で活用することで、強力な予測モデルでエンボディされたエージェントを支持できることを示唆している。

The ability to predict future visual observations conditioned on past observations and motor commands can enable embodied agents to plan solutions to a variety of tasks in complex environments. This work shows that we can create good video prediction models by pre-training transformers via masked visual modeling. Our approach, named MaskViT, is based on two simple design decisions. First, for memory and training efficiency, we use two types of window attention: spatial and spatiotemporal. Second, during training, we mask a variable percentage of tokens instead of a fixed mask ratio. For inference, MaskViT generates all tokens via iterative refinement where we incrementally decrease the masking ratio following a mask scheduling function. On several datasets we demonstrate that MaskViT outperforms prior works in video prediction, is parameter efficient, and can generate high-resolution videos (256x256). Further, we demonstrate the benefits of inference speedup (up to 512x) due to iterative decoding by using MaskViT for planning on a real robot. Our work suggests that we can endow embodied agents with powerful predictive models by leveraging the general framework of masked visual modeling with minimal domain knowledge.
翻訳日:2022-06-24 14:08:14 公開日:2022-06-23
# 品質予測を含む機械運転者支援システムの構築によるデジタル化による紙生産の最適化:概念

Optimization paper production through digitalization by developing an assistance system for machine operators including quality forecast: a concept ( http://arxiv.org/abs/2206.11581v1 )

ライセンス: Link先を確認
Moritz Schroth, Felix Hake, Konstantin Merker, Alexander Becher, Tilman Klaeger, Robin Huesmann, Detlef Eichhorn, Lukas Oehm(参考訳) 現在、産業横断の課題は、温室効果ガス排出量の削減と循環経済の実現である。 しかし, 廃紙からの紙の生産は, 特にエネルギー消費の観点から, 資源集約的な課題である。 紙製機械は大量のデータを生成する一方で,その利用の欠如を認識し,オペレータ支援システムと最先端機械学習技術(分類,予測,警報洪水処理など)を用いて日常業務を支援する概念を実装した。 私たちの主な目的は、利用可能なデータを利用するマシンオペレーターに状況固有の知識を提供することです。 これにより、調整パラメータが向上し、紙マシンのフットプリントが低下することを期待している。

Nowadays cross-industry ranging challenges include the reduction of greenhouse gas emission and enabling a circular economy. However, the production of paper from waste paper is still a highly resource intensive task, especially in terms of energy consumption. While paper machines produce a lot of data, we have identified a lack of utilization of it and implement a concept using an operator assistance system and state-of-the-art machine learning techniques, e.g., classification, forecasting and alarm flood handling algorithms, to support daily operator tasks. Our main objective is to provide situation-specific knowledge to machine operators utilizing available data. We expect this will result in better adjusted parameters and therefore a lower footprint of the paper machines.
翻訳日:2022-06-24 13:45:11 公開日:2022-06-23
# 符号付き一様不変系におけるOAMPの容量最適性

Capacity Optimality of OAMP in Coded Large Unitarily Invariant Systems ( http://arxiv.org/abs/2206.11680v1 )

ライセンス: Link先を確認
Lei Liu, Shansuo Liang, and Li Ping(参考訳) 本稿では,ユニタリ不変なセンシング行列,任意の固定信号分布,フォワードエラー制御(fec)符号化を含む大単位不変量系(luis)について検討する。 非符号化LUISにおける直交近似メッセージパッシング(OAMP)の状態進化に基づいて,いくつかの領域特性を確立する。 共振器OAMPとFECデコードのための状態進化が正しいと仮定し、レプリカ法が信頼性が高いという仮定の下で、OAMPの達成可能な速度を解析する。 我々は,一致したFEC符号化に基づく任意の信号分布を持つLUISの複製法により予測される制約容量に達することを証明した。 一方,不規則な低密度パリティチェック(LDPC)符号をシミュレーション結果のバイナリシグナリングに最適化したLUISの制約付きキャパシティ達成符号原理を詳しく検討する。 最適化符号を用いたOAMPは、最適化されていない符号とよく知られたTurbo linear MMSEアルゴリズムよりも大幅に性能が向上していることを示す。 二次位相シフト鍵(QPSK)変調では、様々なチャネル条件下で制限容量適応ビット誤り率(BER)のパフォーマンスが観察される。

This paper investigates a large unitarily invariant system (LUIS) involving a unitarily invariant sensing matrix, an arbitrary fixed signal distribution, and forward error control (FEC) coding. Several area properties are established based on the state evolution of orthogonal approximate message passing (OAMP) in an un-coded LUIS. Under the assumptions that the state evolution for joint OAMP and FEC decoding is correct and the replica method is reliable, we analyze the achievable rate of OAMP. We prove that OAMP reaches the constrained capacity predicted by the replica method of the LUIS with an arbitrary signal distribution based on matched FEC coding. Meanwhile, we elaborate a constrained capacity-achieving coding principle for LUIS, based on which irregular low-density parity-check (LDPC) codes are optimized for binary signaling in the simulation results. We show that OAMP with the optimized codes has significant performance improvement over the un-optimized ones and the well-known Turbo linear MMSE algorithm. For quadrature phase-shift keying (QPSK) modulation, constrained capacity-approaching bit error rate (BER) performances are observed under various channel conditions.
翻訳日:2022-06-24 13:44:57 公開日:2022-06-23
# 十分な統計メモリ近似メッセージパッシング

Sufficient Statistic Memory Approximate Message Passing ( http://arxiv.org/abs/2206.11674v1 )

ライセンス: Link先を確認
Lei Liu, Shunqi Huang, and Brian M. Kurkoski(参考訳) 近似メッセージパッシング(AMP)型アルゴリズムは、ある大きなランダム線形系の信号再構成に広く用いられている。 amp型アルゴリズムの重要な特徴は、そのダイナミクスが状態進化によって正しく記述できることである。 しかし、状態進化は反復アルゴリズムの収束を必ずしも保証しない。 本稿では,AMP型アルゴリズムの収束問題を原理として,十分な統計条件下でのメモリAMP(MAMP)を提案する。 SS-MAMPの共分散行列はLバンドで収束することを示す。 任意のマンプが与えられると、減衰によって ss-mamp を構成することができ、これは収束を保証するだけでなく、直交性、すなわちそのダイナミクスを状態進化によって正しく記述できる。

Approximate message passing (AMP) type algorithms have been widely used in the signal reconstruction of certain large random linear systems. A key feature of the AMP-type algorithms is that their dynamics can be correctly described by state evolution. However, state evolution does not necessarily guarantee the convergence of iterative algorithms. To solve the convergence problem of AMP-type algorithms in principle, this paper proposes a memory AMP (MAMP) under a sufficient statistic condition, named sufficient statistic MAMP (SS-MAMP). We show that the covariance matrices of SS-MAMP are L-banded and convergent. Given an arbitrary MAMP, we can construct the SS-MAMP by damping, which not only ensures the convergence, but also preserves the orthogonality, i.e., its dynamics can be correctly described by state evolution.
翻訳日:2022-06-24 13:44:36 公開日:2022-06-23
# 文法的誤り訂正のためのマイニングエラーテンプレート

Mining Error Templates for Grammatical Error Correction ( http://arxiv.org/abs/2206.11569v1 )

ライセンス: Link先を確認
Yue Zhang, Haochen Jiang, Zuyi Bao, Bo Zhang, Chen Li, Zhenghua Li(参考訳) いくつかの文法的誤り訂正(GEC)システムは手作りの規則を取り入れ、肯定的な結果を得る。 しかし、手動でルールを定義するのは時間と労力を要する。 そこで本研究では,GCCのエラーテンプレートを自動マイニングする手法を提案する。 エラーテンプレートはテキストエラーの特定を目的とした正規表現である。 インターネットからこのようなエラーテンプレートを取得するために、Webクローラを使用します。 各テンプレートに対して、言語モデルパープレクシリティを基準として、対応する補正アクションを更に選択する。 本手法に基づいて,中国GECの1,119個のエラーテンプレートを蓄積した。 新たに提案するctc-2021中国gecベンチマーク実験の結果,誤りテンプレートを組み合わせることで,特にトレーニングデータが少ない2つのエラータイプにおいて,強力なgecシステムの性能が効果的に向上することが示された。 エラーテンプレートは \url{https://github.com/HillZhang 1999/gec_error_template} で利用可能です。

Some grammatical error correction (GEC) systems incorporate hand-crafted rules and achieve positive results. However, manually defining rules is time-consuming and laborious. In view of this, we propose a method to mine error templates for GEC automatically. An error template is a regular expression aiming at identifying text errors. We use the web crawler to acquire such error templates from the Internet. For each template, we further select the corresponding corrective action by using the language model perplexity as a criterion. We have accumulated 1,119 error templates for Chinese GEC based on this method. Experimental results on the newly proposed CTC-2021 Chinese GEC benchmark show that combing our error templates can effectively improve the performance of a strong GEC system, especially on two error types with very little training data. Our error templates are available at \url{https://github.com/HillZhang1999/gec_error_template}.
翻訳日:2022-06-24 13:44:24 公開日:2022-06-23
# 英語モデルにおける米国社会ステレオタイプの理論的計測

Theory-Grounded Measurement of U.S. Social Stereotypes in English Language Models ( http://arxiv.org/abs/2206.11684v1 )

ライセンス: Link先を確認
Yang Trista Cao, Anna Sotnikova, Hal Daum\'e III, Rachel Rudinger, Linda Zou(参考訳) テキストでトレーニングされたNLPモデルは人間のステレオタイプを再現することが示されている。 我々は,言語モデル(LM)におけるステレオタイプグループ・トレーディング・アソシエーションの体系的研究と発見の枠組みとして,コッホら(2016)のABCステレオタイプモデルを社会心理学から適応する。 言語モデルからステレオタイプ関係を測定するための感度テスト(SeT)を導入する。 abcモデルを用いて集合およびその他の尺度を評価するために,米国を対象とする集団特性判断を収集し,英語のlmステレオタイプと比較した。 最後に、この枠組みを拡張し、交叉idのlmステレオタイプを測定する。

NLP models trained on text have been shown to reproduce human stereotypes, which can magnify harms to marginalized groups when systems are deployed at scale. We adapt the Agency-Belief-Communion (ABC) stereotype model of Koch et al. (2016) from social psychology as a framework for the systematic study and discovery of stereotypic group-trait associations in language models (LMs). We introduce the sensitivity test (SeT) for measuring stereotypical associations from language models. To evaluate SeT and other measures using the ABC model, we collect group-trait judgments from U.S.-based subjects to compare with English LM stereotypes. Finally, we extend this framework to measure LM stereotyping of intersectional identities.
翻訳日:2022-06-24 13:44:13 公開日:2022-06-23
# plingo:lpmlnに基づくclingoの確率論的推論システム

plingo: A system for probabilistic reasoning in clingo based on lpmln ( http://arxiv.org/abs/2206.11515v1 )

ライセンス: Link先を確認
Susana Hahn (1), Tomi Janhunen (2), Roland Kaminski (1), Javier Romero (1), Nicolas R\"uhling (1), Torsten Schaub (1) ((1) University of Potsdam, Germany, (2) Tampere University, Finland)(参考訳) 様々な確率論的推論モードを備えたASPシステムクリンゴの拡張であるplingoを提案する。 Plingoは、Markov Logicの重みスキームに基づくASPの確率的拡張であるLP^MLNを中心にしている。 この選択は、コア確率論的推論モードが最適化問題にマッピング可能であることと、LP^MLNが他の確率論的アプローチと接続する中間的な形式として機能するという事実によって動機づけられる。 その結果、plingoはLP^MLN、P-log、ProbLogの3つの代替フロントエンドを提供する。 対応する入力言語と推論モードは、クリンゴのマルチショットおよび理論解決能力によって実装される。 plingoのコアは、最新のasp技術によるlp^mlnの再実装であり、最適化順の解集合列挙法に基づく近似技術によって拡張される。 他の確率システムと比較し,plingoの性能を実証的に評価した。

We present plingo, an extension of the ASP system clingo with various probabilistic reasoning modes. Plingo is centered upon LP^MLN, a probabilistic extension of ASP based on a weight scheme from Markov Logic. This choice is motivated by the fact that the core probabilistic reasoning modes can be mapped onto optimization problems and that LP^MLN may serve as a middle-ground formalism connecting to other probabilistic approaches. As a result, plingo offers three alternative frontends, for LP^MLN, P-log, and ProbLog. The corresponding input languages and reasoning modes are implemented by means of clingo's multi-shot and theory solving capabilities. The core of plingo amounts to a re-implementation of LP^MLN in terms of modern ASP technology, extended by an approximation technique based on a new method for answer set enumeration in the order of optimality. We evaluate plingo's performance empirically by comparing it to other probabilistic systems.
翻訳日:2022-06-24 13:43:57 公開日:2022-06-23
# モデル非依存なsatに基づく記号的説明列挙法

A Model-Agnostic SAT-based Approach for Symbolic Explanation Enumeration ( http://arxiv.org/abs/2206.11539v1 )

ライセンス: Link先を確認
Ryma Boumazouza (CRIL), Fahima Cheikh-Alili (CRIL), Bertrand Mazure (CRIL), Karim Tabia (CRIL)(参考訳) A Model-Agnostic SAT-based approach for Symbolic Explanation Enumeration と題された論文では、記号的説明の異なる型と相補的な型を生成するための一般的な非依存的アプローチを提案する。 より正確には,特徴量と出力の関係を解析することにより,単一予測を局所的に説明するための説明を生成する。 提案手法は予測モデルの命題符号化とsatに基づく設定を用いて,十分な理由と反事実の2種類の記号的説明を生成する。 画像分類タスクにおける実験結果は,提案手法の有効性と,十分な理由と反事実説明を提供することの有効性を示している。

In this paper titled A Model-Agnostic SAT-based approach for Symbolic Explanation Enumeration we propose a generic agnostic approach allowing to generate different and complementary types of symbolic explanations. More precisely, we generate explanations to locally explain a single prediction by analyzing the relationship between the features and the output. Our approach uses a propositional encoding of the predictive model and a SAT-based setting to generate two types of symbolic explanations which are Sufficient Reasons and Counterfactuals. The experimental results on image classification task show the feasibility of the proposed approach and its effectiveness in providing Sufficient Reasons and Counterfactuals explanations.
翻訳日:2022-06-24 13:42:36 公開日:2022-06-23
# 画像に基づく安定性定量化

Image-based Stability Quantification ( http://arxiv.org/abs/2206.11443v1 )

ライセンス: Link先を確認
Jesse Scott, John Challis, Robert T. Collins, Yanxi Liu(参考訳) 足圧/力測定ハードウェアとモーションキャプチャ(モキャップ)技術を用いた人間の安定性の定量的評価は、高価で、時間がかかり、実験室(ラボベース)に限られている。 本稿では,安定度計算の3つの重要な要素であるCenter of Mass(CoM),Base of Support(BoS),Center of Pressure(CoP)を画像ベースで推定する手法を提案する。 さらに,本手法を定量的に検証し,実験系センサ出力(接地真理)から直接生成する2つの古典的安定性尺度を,公開可能なマルチモダリティ(モキャップ,足圧,2ビュービデオ)と10サブジェクトヒューマンモーションデータセットを用いて定量的に検証した。 leave-one-subject-out cross Validation を用いて実験結果が得られた。 1)CoM推定法(CoMNet)は,最先端の慣性センサを用いたCoM推定法より一貫して優れている。 2) 画像ベース法と不規則な足圧のみを併用すると, 地上の真理安定度(CoMtoCoP R=0.79 P<0.001, CoMtoBoS R=0.75 P<0.001)と一貫した統計的に有意な相関が生じる。 3) 完全画像に基づく安定性メトリック推定は, 2つの安定性メトリクス(comtocop r=0.31 p<0.001, comtobos r=0.22 p<0.001)について一貫性, 正, 統計的に有意な相関をもたらす。 本研究は,自然環境における安定計算とモニタリングの定量的な証拠を提供する。

Quantitative evaluation of human stability using foot pressure/force measurement hardware and motion capture (mocap) technology is expensive, time consuming, and restricted to the laboratory (lab-based). We propose a novel image-based method to estimate three key components for stability computation: Center of Mass (CoM), Base of Support (BoS), and Center of Pressure (CoP). Furthermore, we quantitatively validate our image-based methods for computing two classic stability measures against the ones generated directly from lab-based sensory output (ground truth) using a publicly available multi-modality (mocap, foot pressure, 2-view videos), ten-subject human motion dataset. Using leave-one-subject-out cross validation, our experimental results show: 1) our CoM estimation method (CoMNet) consistently outperforms state-of-the-art inertial sensor-based CoM estimation techniques; 2) our image-based method combined with insole foot-pressure alone produces consistent and statistically significant correlation with ground truth stability measures (CoMtoCoP R=0.79 P<0.001, CoMtoBoS R=0.75 P<0.001); 3) our fully image-based stability metric estimation produces consistent, positive, and statistically significant correlation on the two stability metrics (CoMtoCoP R=0.31 P<0.001, CoMtoBoS R=0.22 P<0.001). Our study provides promising quantitative evidence for stability computations and monitoring in natural environments.
翻訳日:2022-06-24 13:41:45 公開日:2022-06-23
# insubstantial object detectionのための時空間アグリゲーションの検討:ベンチマークデータセットとベースライン

Explore Spatio-temporal Aggregation for Insubstantial Object Detection: Benchmark Dataset and Baseline ( http://arxiv.org/abs/2206.11459v1 )

ライセンス: Link先を確認
Kailai Zhou, Yibo Wang, Tao Lv, Yunqian Li, Linsen Chen, Qiu Shen, Xun Cao(参考訳) 我々は,(1)不連続な境界を持つアモルファス形状,(2)周囲との類似性,(3)色彩の欠如という特徴をもって物体を局在化することを目的とした,不連続物体検出(insubstantial object detection,iod)という稀な課題に取り組んでいる。 したがって、単一の静的フレームで非実体オブジェクトを区別することがより困難であり、空間的および時間的情報の協調的表現が不可欠である。 そこで我々は,様々な距離,サイズ,可視性,および異なるスペクトル範囲で捉えたシーンを含む600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。 さらに,様々なバックボーンをデプロイし,時間軸に沿った一貫性を活用するために時空間集約損失(staloss)を精巧に設計したiodのための時空間集約フレームワークを開発した。 IOD-Videoデータセットを用いて行った実験により、時空間アグリゲーションはIODの性能を大幅に向上することが示された。 私たちの研究が、この価値ある、そして挑戦的なタスクにさらなる研究を惹きつけることを願っています。 コードは次の通り。 \url{https://github.com/CalayZhou/IOD-Video}。

We endeavor on a rarely explored task named Insubstantial Object Detection (IOD), which aims to localize the object with following characteristics: (1) amorphous shape with indistinct boundary; (2) similarity to surroundings; (3) absence in color. Accordingly, it is far more challenging to distinguish insubstantial objects in a single static frame and the collaborative representation of spatial and temporal information is crucial. Thus, we construct an IOD-Video dataset comprised of 600 videos (141,017 frames) covering various distances, sizes, visibility, and scenes captured by different spectral ranges. In addition, we develop a spatio-temporal aggregation framework for IOD, in which different backbones are deployed and a spatio-temporal aggregation loss (STAloss) is elaborately designed to leverage the consistency along the time axis. Experiments conducted on IOD-Video dataset demonstrate that spatio-temporal aggregation can significantly improve the performance of IOD. We hope our work will attract further researches into this valuable yet challenging task. The code will be available at: \url{https://github.com/CalayZhou/IOD-Video}.
翻訳日:2022-06-24 13:41:19 公開日:2022-06-23
# 条件付き拡散生成のためのエントロピー駆動サンプリングとトレーニング手法

Entropy-driven Sampling and Training Scheme for Conditional Diffusion Generation ( http://arxiv.org/abs/2206.11474v1 )

ライセンス: Link先を確認
Shengming Li, Guangcong Zheng, Hui Wang, Taiping Yao, Yang Chen, Shoudong Ding, Xi Li(参考訳) Denoising Diffusion Probabilistic Model (DDPM) は、独立ノイズ認識分類器を導入し、デノナイズプロセスの各段階で条件勾配ガイダンスを提供することにより、事前ノイズから実データへのフレキシブルな条件画像生成を可能にする。 しかし、分類器が不完全生成画像を高レベル構造のみで容易に判別できるため、クラス情報指導の一種である勾配は早期に消失する傾向にあり、条件生成プロセスから無条件プロセスへの崩壊に繋がる。 この問題に対処するために,2つの観点から,単純だが効果的なアプローチを提案する。 サンプリング手順では,予測分布のエントロピーをガイダンスの消失レベルとして導入し,条件付きセマンティックガイダンスを適応的に復元するエントロピー対応スケーリング手法を提案する。 %であった。 imagenet1000 256x256では,提案するサンプリングスキームと訓練された分類器を用いて,プリトレーニング条件付きddpmモデルがそれぞれ10.89% (4.59から4.09) と43.5% (12から6.78) のfid改善を達成できる。

Denoising Diffusion Probabilistic Model (DDPM) is able to make flexible conditional image generation from prior noise to real data, by introducing an independent noise-aware classifier to provide conditional gradient guidance at each time step of denoising process. However, due to the ability of classifier to easily discriminate an incompletely generated image only with high-level structure, the gradient, which is a kind of class information guidance, tends to vanish early, leading to the collapse from conditional generation process into the unconditional process. To address this problem, we propose two simple but effective approaches from two perspectives. For sampling procedure, we introduce the entropy of predicted distribution as the measure of guidance vanishing level and propose an entropy-aware scaling method to adaptively recover the conditional semantic guidance. % for each generated sample. For training stage, we propose the entropy-aware optimization objectives to alleviate the overconfident prediction for noisy data.On ImageNet1000 256x256, with our proposed sampling scheme and trained classifier, the pretrained conditional and unconditional DDPM model can achieve 10.89% (4.59 to 4.09) and 43.5% (12 to 6.78) FID improvement respectively.
翻訳日:2022-06-24 13:40:57 公開日:2022-06-23
# 連続クロスレイヤーアテンション伝送における動的シーンデブラリングベース

Dynamic Scene Deblurring Base on Continuous Cross-Layer Attention Transmission ( http://arxiv.org/abs/2206.11476v1 )

ライセンス: Link先を確認
Xia Hua, Junxiong Fei, Mingxin Li, ZeZheng Li, Yu Shi, JiangGuo Liu and Hanyu Hong(参考訳) 注意機構を用いた深層畳み込みニューラルネットワーク(CNN)は、動的シーンデブロアリングにおいて大きな成功を収めている。 これらのネットワークの多くは、アテンションマップによって改良された特徴のみを次のレイヤに渡すことができ、異なるレイヤのアテンションマップを分離することで、CNN内の異なるレイヤからのアテンション情報をフル活用することができない。 この問題に対処するために,すべての畳み込み層からの階層的注意情報を活用するための,新しい連続的層間注意伝達(CCLAT)機構を導入する。 CCLAT機構に基づき、我々は非常に単純な注意モジュールを用いて、新しい高密度注意融合ブロック(RDAFB)を構築する。 RDAFBでは、前のRDAFBの出力から推定される注目マップと各レイヤとが直接接続され、CRLAT機構が導かれる。 RDAFB をビルディングブロックとし,RDAFNet という動的シーン分離のための効果的なアーキテクチャを設計する。 ベンチマークデータセットの実験により,提案手法は最先端のデブロアリング手法よりも優れており,CCLAT機構の有効性が示された。 ソースコードはhttps://github.com/xjmz6/rdafnet。

The deep convolutional neural networks (CNNs) using attention mechanism have achieved great success for dynamic scene deblurring. In most of these networks, only the features refined by the attention maps can be passed to the next layer and the attention maps of different layers are separated from each other, which does not make full use of the attention information from different layers in the CNN. To address this problem, we introduce a new continuous cross-layer attention transmission (CCLAT) mechanism that can exploit hierarchical attention information from all the convolutional layers. Based on the CCLAT mechanism, we use a very simple attention module to construct a novel residual dense attention fusion block (RDAFB). In RDAFB, the attention maps inferred from the outputs of the preceding RDAFB and each layer are directly connected to the subsequent ones, leading to a CRLAT mechanism. Taking RDAFB as the building block, we design an effective architecture for dynamic scene deblurring named RDAFNet. The experiments on benchmark datasets show that the proposed model outperforms the state-of-the-art deblurring approaches, and demonstrate the effectiveness of CCLAT mechanism. The source code is available on: https://github.com/xjmz6/RDAFNet.
翻訳日:2022-06-24 13:39:10 公開日:2022-06-23
# 時間的行動定位のための行動のリファクタリングと共起特徴の学習

Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization ( http://arxiv.org/abs/2206.11493v1 )

ライセンス: Link先を確認
Kun Xia, Le Wang, Sanping Zhou, Nanning Zheng, Wei Tang(参考訳) 時間的行動の局所化の主な課題は、コンテキストや背景など、共生するさまざまな成分から微妙な人間の行動を取り出すことである。 従来のアプローチは高度なアクション検出装置を考案することで大きな進歩を遂げてきたが、ビデオ内の実際のアクションコンテンツを支配するような共起成分にはまだ苦しめられている。 本稿では,ビデオスニペットの2つの直交的・相補的側面,すなわちアクション特徴と共起的特徴について検討する。 特に,これらの2種類の特徴をビデオスニペット内に分離し,それらを組み換えて,より適切な行動情報を持つ新たな特徴表現を生成し,正確な行動ローカライゼーションを行う。 refactornetというメソッドは、まずアクションの内容を明確に分解し、その共起機能を定式化し、次にアクションが支配する新しいビデオ表現を合成する。 thumos14 と activitynet v1.3 に関する広範囲な実験結果とアブレーション研究により,新しい表現と単純な動作検出器が組み合わさることで,行動局在性能が著しく向上することが示された。

The main challenge of Temporal Action Localization is to retrieve subtle human actions from various co-occurring ingredients, e.g., context and background, in an untrimmed video. While prior approaches have achieved substantial progress through devising advanced action detectors, they still suffer from these co-occurring ingredients which often dominate the actual action content in videos. In this paper, we explore two orthogonal but complementary aspects of a video snippet, i.e., the action features and the co-occurrence features. Especially, we develop a novel auxiliary task by decoupling these two types of features within a video snippet and recombining them to generate a new feature representation with more salient action information for accurate action localization. We term our method RefactorNet, which first explicitly factorizes the action content and regularizes its co-occurrence features, and then synthesizes a new action-dominated video representation. Extensive experimental results and ablation studies on THUMOS14 and ActivityNet v1.3 demonstrate that our new representation, combined with a simple action detector, can significantly improve the action localization performance.
翻訳日:2022-06-24 13:38:46 公開日:2022-06-23
# 将来の宇宙探査ミッションにおけるロバスト相対位置のニューロモルフィック・ビジョンに基づく測定

A Neuromorphic Vision-Based Measurement for Robust Relative Localization in Future Space Exploration Missions ( http://arxiv.org/abs/2206.11541v1 )

ライセンス: Link先を確認
Mohammed Salah, Mohammed Chehadah, Muhammed Humais, Mohammed Wahbah, Abdulla Ayyad, Rana Azzam, Lakmal Senevirante, and Yahya Zweiri(参考訳) 宇宙探査では、火星表面へのパーセヴァンスローバーの着陸や、火星のヘリコプター「インジェニュティ」による初の地球外飛行の実証など、革命的な変化が見られた。 火星でのミッションの間、Perseverance RoverとIngenuityは共同で火星表面を探索し、Ingenuityはローバーの安全な移動性のために地形情報を偵察する。 したがって、両プラットフォーム間の相対的なポーズを決定することは、このミッションの成功にとって最重要事項である。 そこで本研究では,nvbms(neuromorphic vision-based measurement)と慣性計測の融合に基づくロバストな相対的位置推定システムを提案する。 ニューロモルフィック視覚の出現は、シーンで発生する光強度の変動によって引き起こされる非同期イベントに起因した、ユニークな動作原理によって、コンピュータビジョンコミュニティのパラダイムシフトを引き起こした。 これは、照明のばらつきのため、静的な場面では観測が得られないことを意味する。 この制限を回避するため、高頻度のアクティブなランドマークがシーンに挿入され、一貫したイベントの発射が保証される。 これらのランドマークは、相対的ローカライゼーションを容易にするために、突出した特徴として採用されている。 ガウス混合モデル(GMM)を用いた新しい事象に基づくランドマーク識別アルゴリズムを開発し,NVBMを定式化したランドマーク対応をマッチングする。 NVBMは、提案された状態推定器、ランドマーク追跡カルマンフィルタ(LTKF)および翻訳分離カルマンフィルタ(TDKF)でそれぞれ慣性測定と融合し、ランドマーク追跡と相対的な局所化を行う。 提案システムは様々な実験でテストされ、精度と範囲において最先端のアプローチよりも優れていた。

Space exploration has witnessed revolutionary changes upon landing of the Perseverance Rover on the Martian surface and demonstrating the first flight beyond Earth by the Mars helicopter, Ingenuity. During their mission on Mars, Perseverance Rover and Ingenuity collaboratively explore the Martian surface, where Ingenuity scouts terrain information for rover's safe traversability. Hence, determining the relative poses between both the platforms is of paramount importance for the success of this mission. Driven by this necessity, this work proposes a robust relative localization system based on a fusion of neuromorphic vision-based measurements (NVBMs) and inertial measurements. The emergence of neuromorphic vision triggered a paradigm shift in the computer vision community, due to its unique working principle delineated with asynchronous events triggered by variations of light intensities occurring in the scene. This implies that observations cannot be acquired in static scenes due to illumination invariance. To circumvent this limitation, high frequency active landmarks are inserted in the scene to guarantee consistent event firing. These landmarks are adopted as salient features to facilitate relative localization. A novel event-based landmark identification algorithm using Gaussian Mixture Models (GMM) is developed for matching the landmarks correspondences formulating our NVBMs. The NVBMs are fused with inertial measurements in proposed state estimators, landmark tracking Kalman filter (LTKF) and translation decoupled Kalman filter (TDKF) for landmark tracking and relative localization, respectively. The proposed system was tested in a variety of experiments and has outperformed state-of-the-art approaches in accuracy and range.
翻訳日:2022-06-24 13:38:25 公開日:2022-06-23
# 頭から尾までシーングラフを生成するための学習

Learning To Generate Scene Graph from Head to Tail ( http://arxiv.org/abs/2206.11653v1 )

ライセンス: Link先を確認
Chaofan Zheng, Xinyu Lyu, Yuyu Guo, Pengpeng Zeng, Jingkuan Song, Lianli Gao(参考訳) scene graph generation (sgg) はオブジェクトとその相互作用をグラフ構造で表現する。 近年、SGGにおける不均衡問題の解決に多くの研究が費やされている。 しかし、訓練過程全体において頭部述語を過小評価すると、尾部述語に一般的な特徴を与える頭部述語の特徴を損なう。 さらに、尾の述語に過剰な注意を向けると意味の偏りが生じる。 そこで本研究では,Curriculum Re-weight Mechanism (CRM) とSemantic Context Module (SCM) を含む,Head to Tail (SGG-HT) からシーングラフを生成する新しいSGGフレームワークを提案する。 CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。 SCMは,大域的および局所的な表現において生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。 実験により、SGG-HTはバイアス問題を大幅に軽減し、Visual Genomeの最先端性能を向上することが示された。

Scene Graph Generation (SGG) represents objects and their interactions with a graph structure. Recently, many works are devoted to solving the imbalanced problem in SGG. However, underestimating the head predicates in the whole training process, they wreck the features of head predicates that provide general features for tail ones. Besides, assigning excessive attention to the tail predicates leads to semantic deviation. Based on this, we propose a novel SGG framework, learning to generate scene graphs from Head to Tail (SGG-HT), containing Curriculum Re-weight Mechanism (CRM) and Semantic Context Module (SCM). CRM learns head/easy samples firstly for robust features of head predicates and then gradually focuses on tail/hard ones. SCM is proposed to relieve semantic deviation by ensuring the semantic consistency between the generated scene graph and the ground truth in global and local representations. Experiments show that SGG-HT significantly alleviates the biased problem and chieves state-of-the-art performances on Visual Genome.
翻訳日:2022-06-24 13:37:53 公開日:2022-06-23
# ホログラフィー推定のためのワープ畳み込みネットワーク

Warped Convolution Networks for Homography Estimation ( http://arxiv.org/abs/2206.11657v1 )

ライセンス: Link先を確認
Xinrui Zhan, Yang Li, Wenyu Liu, Jianke Zhu(参考訳) ホモグラフ変換は特殊線型群と埋め込みリー代数構造と本質的な関係を持つ。 リー代数の表現はエレガントであるが、ホモグラフィ推定と代数表現の関連性を確立する研究者はほとんどいない。 本稿では,群畳み込みを伴うsl(3)群とsl(3)代数によるホモグラフィ変換を効果的に推定するために,warped convolution networks (wcn)を提案する。 この目的のために、SL(3) 群内の6つの可換部分群はホモグラフィ変換を形成するために構成される。 各部分群に対して、トモグラフィーにおいてリー代数構造を対応するパラメータにブリッジするワープ関数が提案される。 歪んだ畳み込みを利用して、ホモグラフィー推定はいくつかの単純な擬似翻訳回帰に定式化される。 リー位相に沿って歩くことで、提案したWCNはホモグラフィ変換に不変な特徴を学習することができる。 他の一般的なCNNベースのメソッドに簡単にプラグインできる。 POTベンチマークとMNIST-Projデータセットの大規模な実験により,本手法はホモグラフィー推定と分類の両方に有効であることが示された。

Homography transformation has an essential relationship with special linear group and the embedding Lie algebra structure. Although the Lie algebra representation is elegant, few researchers have established the connection between homography estimation and algebra expression. In this paper, we propose Warped Convolution Networks (WCN) to effectively estimate the homography transformation by SL(3) group and sl(3) algebra with group convolution. To this end, six commutative subgroups within SL(3) group are composed to form a homography transformation. For each subgroup, a warping function is proposed to bridge the Lie algebra structure to its corresponding parameters in tomography. By taking advantage of the warped convolution, homography estimation is formulated into several simple pseudo-translation regressions. By walking along the Lie topology, our proposed WCN is able to learn the features that are invariant to homography transformation. It can be easily plugged into other popular CNN-based methods. Extensive experiments on POT benchmark and MNIST-Proj dataset show that our proposed method is effective for both homography estimation and classification.
翻訳日:2022-06-24 13:37:33 公開日:2022-06-23
# blazepose ghum holistic:リアルタイム3d人間のランドマークとポーズ推定

BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation ( http://arxiv.org/abs/2206.11678v1 )

ライセンス: Link先を確認
Ivan Grishchenko, Valentin Bazarevsky, Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, Richard Yee, Karthik Raveendran, Matsvei Zhdanovich, Matthias Grundmann, Cristian Sminchisescu(参考訳) 本稿では,3次元人体ランドマークとポーズ推定のための軽量ニューラルネットワークパイプラインであるblazepose ghum holisticを提案する。 BlazePose GHUM Holisticは、アバターコントロール、フィットネストラッキング、AR/VRエフェクトを含む単一のRGBイメージからのモーションキャプチャを可能にする。 私たちの主な貢献は 一 3次元地中データ取得のための新規な方法 二 追加のハンドランドマーク及び追加の3dボディトラッキングの更新 三 単眼像からの全身ポーズの推定

We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.
翻訳日:2022-06-24 13:37:17 公開日:2022-06-23
# マルチモダリティ医用画像分割のためのコンテクストディスカウントによるエビデンス融合

Evidence fusion with contextual discounting for multi-modality medical image segmentation ( http://arxiv.org/abs/2206.11739v1 )

ライセンス: Link先を確認
Ling Huang, Thierry Denoeux, Pierre Vera, Su Ruan(参考訳) 情報ソースは通常不完全であるため、マルチソース情報融合タスクにおける信頼性を考慮する必要がある。 本稿では,dempster-shafer理論の形式化を用いて,異なるクラスに対する異なるモダリティの信頼性を考慮しつつ,マルチmr画像分割結果の統合を可能にする新しい深層フレームワークを提案する。 このフレームワークは、エンコーダ・デコーダ特徴抽出モジュールと、各モダリティに対する各ボクセルにおける信念関数を計算する明示的セグメンテーションモジュールと、各モダリティエビデンスに割引率のベクトルを割り当て、デンプスターの規則を用いて割引エビデンスを組み合わせる多モードエビデンス融合モジュールとから構成される。 フレームワーク全体のトレーニングは、ディスカウントされたDiceインデックスに基づいて新しい損失関数を最小化し、セグメント化精度と信頼性を向上させる。 この方法は脳腫瘍1251例のBraTs 2021データベース上で評価された。 定量的および定性的な結果から,本手法は最先端技術よりも優れており,深層ニューラルネットワーク内での多情報統合に有効な新しいアイデアが実現されている。

As information sources are usually imperfect, it is necessary to take into account their reliability in multi-source information fusion tasks. In this paper, we propose a new deep framework allowing us to merge multi-MR image segmentation results using the formalism of Dempster-Shafer theory while taking into account the reliability of different modalities relative to different classes. The framework is composed of an encoder-decoder feature extraction module, an evidential segmentation module that computes a belief function at each voxel for each modality, and a multi-modality evidence fusion module, which assigns a vector of discount rates to each modality evidence and combines the discounted evidence using Dempster's rule. The whole framework is trained by minimizing a new loss function based on a discounted Dice index to increase segmentation accuracy and reliability. The method was evaluated on the BraTs 2021 database of 1251 patients with brain tumors. Quantitative and qualitative results show that our method outperforms the state of the art, and implements an effective new idea for merging multi-information within deep neural networks.
翻訳日:2022-06-24 13:37:07 公開日:2022-06-23
# PromptPose: 言語プロンプトは動物のポス推定に役立つ

PromptPose: Language Prompt Helps Animal Pose Estimation ( http://arxiv.org/abs/2206.11752v1 )

ライセンス: Link先を確認
Xu Zhang, Wen Wang, Zhe Chen, Jing Zhang, Dacheng Tao(参考訳) 近年,動物行動の理解に焦点をあてた学界(野生生物・保全生物学など)から,動物のポーズ推定への関心が高まっている。 しかし、現在の動物のポーズ推定は、小さなデータセットと大きなデータ分散に苦しむため、堅牢なパフォーマンスを得るのが困難である。 この問題に対処するために,言語モデルによって学習されたポーズ関連セマンティクスの関係に関する豊富な知識を利用して,動物のポーズ推定を改善することを提案する。 そこで本研究では,動物のポーズをよりよく理解するために,言語モデルを効果的に適用するための新しいPromptPoseフレームワークを提案する。 そこで本研究では,視覚動物のポーズに対する言語知識の適応が効果的なポーズ推定の鍵であることを示す。 そこで本研究ではまず,テキスト意味記述と動物キーポイント機能との接続を構築するためのテキストプロンプトを導入する。 さらに,テキスト記述と局所画像特徴の密接な関係を構築するための画素レベルのコントラスト損失や,言語画像のクロスモーダル事前学習における大域的コントラストと密接な予測における局所的コントラストとのギャップを埋める意味レベルのコントラスト損失も考案する。 実際には、PromptPoseは動物のポーズ推定を改善する大きな利点を示している。 広範に実験を行った結果,PromptPoseは教師付き設定と少数ショット設定の両方で優れた性能を達成し,代表手法よりも大きなマージンで優れることがわかった。 ソースコードとモデルは一般公開される予定だ。

Recently, animal pose estimation is attracting increasing interest from the academia (e.g., wildlife and conservation biology) focusing on animal behavior understanding. However, currently animal pose estimation suffers from small datasets and large data variances, making it difficult to obtain robust performance. To tackle this problem, we propose that the rich knowledge about relations between pose-related semantics learned by language models can be utilized to improve the animal pose estimation. Therefore, in this study, we introduce a novel PromptPose framework to effectively apply language models for better understanding the animal poses based on prompt training. In PromptPose, we propose that adapting the language knowledge to the visual animal poses is key to achieve effective animal pose estimation. To this end, we first introduce textual prompts to build connections between textual semantic descriptions and supporting animal keypoint features. Moreover, we further devise a pixel-level contrastive loss to build dense connections between textual descriptions and local image features, as well as a semantic-level contrastive loss to bridge the gap between global contrasts in language-image cross-modal pre-training and local contrasts in dense prediction. In practice, the PromptPose has shown great benefits for improving animal pose estimation. By conducting extensive experiments, we show that our PromptPose achieves superior performance under both supervised and few-shot settings, outperforming representative methods by a large margin. The source code and models will be made publicly available.
翻訳日:2022-06-24 13:36:42 公開日:2022-06-23
# FitGAN:ファッションのためのフィット・リレーショナル・ジェネレーション・ネットワーク

FitGAN: Fit- and Shape-Realistic Generative Adversarial Networks for Fashion ( http://arxiv.org/abs/2206.11768v1 )

ライセンス: Link先を確認
Sonia Pecenakova, Nour Karessli, Reza Shirvany(参考訳) ファッションeコマースの急速な成長の中で、ファッション商品のリモートフィッティングは複雑で困難な問題であり、顧客のフラストレーションの主な要因である。 3Dバーチャルトライオンソリューションの最近の進歩にもかかわらず、そのようなアプローチは依然として、記事の選択に限らず、そのファッションアイテムのたった1つのサイズに限られている。 顧客がオンラインにフィットするものを見つけるのを支援する他の最先端のアプローチは、主に高いレベルの顧客エンゲージメントとプライバシーに敏感なデータ(身長、体重、年齢、性別、腹の形など)を必要とするか、あるいはタイトな服装で顧客の身体の画像を必要とする。 また、サイズが顧客の身体的属性に最もよく合致する順に指示するだけで、衣服のフィットや見た目に関する情報を一切提供せずに、縮尺や形状を意識した視覚的なガイダンスを大規模に作成する能力が欠如していることも少なくない。 本稿では,現在のアプローチの限界を乗り越えるために,衣服の絡み合ったサイズと大規模オンラインファッションの特徴を明示的に考慮した,生成的敵意モデルであるfitganを提案する。 論文の適合性と形状を条件として,不連続な項目表現を学習し,ファッション記事の真の適合性と形状特性を反映した現実的な画像を生成する。 実世界の大規模データに関する実験を通じて,我々のアプローチは,ファッションアイテムの視覚的かつ多彩な適合を視覚的に合成し,数千のオンライン衣料品に対する画像の適合性と形状を制御できることを実証する。

Amidst the rapid growth of fashion e-commerce, remote fitting of fashion articles remains a complex and challenging problem and a main driver of customers' frustration. Despite the recent advances in 3D virtual try-on solutions, such approaches still remain limited to a very narrow - if not only a handful - selection of articles, and often for only one size of those fashion items. Other state-of-the-art approaches that aim to support customers find what fits them online mostly require a high level of customer engagement and privacy-sensitive data (such as height, weight, age, gender, belly shape, etc.), or alternatively need images of customers' bodies in tight clothing. They also often lack the ability to produce fit and shape aware visual guidance at scale, coming up short by simply advising which size to order that would best match a customer's physical body attributes, without providing any information on how the garment may fit and look. Contributing towards taking a leap forward and surpassing the limitations of current approaches, we present FitGAN, a generative adversarial model that explicitly accounts for garments' entangled size and fit characteristics of online fashion at scale. Conditioned on the fit and shape of the articles, our model learns disentangled item representations and generates realistic images reflecting the true fit and shape properties of fashion articles. Through experiments on real world data at scale, we demonstrate how our approach is capable of synthesizing visually realistic and diverse fits of fashion items and explore its ability to control fit and shape of images for thousands of online garments.
翻訳日:2022-06-24 13:36:12 公開日:2022-06-23
# (参考訳) 離散拡散確率モデルを用いたリモートセンシング変化検出(セグメンテーション)

Remote Sensing Change Detection (Segmentation) using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2206.11892v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara, Nithin Gopalakrishnan Nair, Vishal M. Patel(参考訳) 人類文明は地球系にますます強力な影響を及ぼし、地球観測は負の影響を評価し緩和するための貴重なツールである。 そのために,地球表面の精密な変化を観測することが不可欠であり,この目的を達成するための効果的な方法を提案する。 特に, 変化検出(cd)/セグメンテーション手法は, 異なる地球観測プログラムで利用可能な数百万のオフ・ザ・セット, ラベルなし, リモートセンシング画像を, 拡散確率モデルから学習プロセスに組み込む新しい手法を提案する。 まず, 既成のデノイジング拡散確率モデルを用いて, 既定, 未登録, ラベル付きリモートセンシング画像からの情報を活用し, 拡散モデルデコーダからのマルチスケール特徴表現を用いて, 軽量cd分類器を訓練し, 正確な変化を検出する。 4つの公開CDデータセットで実施された実験により、提案手法はF1, IoUの最先端手法よりも驚くほど優れた結果が得られることが示された。 コードと事前訓練されたモデルは以下の通りである。

Human civilization has an increasingly powerful influence on the earth system, and earth observations are an invaluable tool for assessing and mitigating the negative impacts. To this end, observing precisely defined changes on Earth's surface is essential, and we propose an effective way to achieve this goal. Notably, our change detection (CD)/ segmentation method proposes a novel way to incorporate the millions of off-the-shelf, unlabeled, remote sensing images available through different earth observation programs into the training process through denoising diffusion probabilistic models. We first leverage the information from these off-the-shelf, uncurated, and unlabeled remote sensing images by using a pre-trained denoising diffusion probabilistic model and then employ the multi-scale feature representations from the diffusion model decoder to train a lightweight CD classifier to detect precise changes. The experiments performed on four publically available CD datasets show that the proposed approach achieves remarkably better results than the state-of-the-art methods in F1, IoU, and overall accuracy. Code and pre-trained models are available at: https://github.com/wgcban/ddpm-cd
翻訳日:2022-06-24 13:34:44 公開日:2022-06-23
# 学習環境モデルによる部分観測可能性に基づく強化学習

Reinforcement Learning under Partial Observability Guided by Learned Environment Models ( http://arxiv.org/abs/2206.11708v1 )

ライセンス: Link先を確認
Edi Muskardin, Martin Tappler, Bernhard K. Aichernig, Ingo Pill(参考訳) 実際の応用では、反応制御システムの環境との正確な相互作用を決定する上で重要な知識にもかかわらず、システムの環境の完全な可観測性を仮定することはめったにない。 そこで本稿では,部分観測可能な環境における強化学習(RL)のアプローチを提案する。 環境が部分的に観察可能なマルコフ決定プロセスのように振る舞うことを仮定するが、その構造や遷移確率についての知識は想定しない。 提案手法は,マルコフ決定過程(MDP)の学習方法であるIoAlergiaとQ-ラーニングを組み合わせたものである。 RL エージェントのエピソードから環境の MDP モデルを学習することにより、部分可観測性から生じるあいまいさに対処するために、明示的で追加的なメモリを使用せずに、部分可観測領域での RL を可能にする。 その代わり、学習環境モデルの新たな経験をシミュレートして探索した状態を追跡することで、rlに抽象環境状態という形で追加の観察を提供する。 本評価では,ニューラルネットワークと固定メモリを用いた6つの最先端深部RL技術と比較して,本手法の有効性と有望な性能について報告する。

In practical applications, we can rarely assume full observability of a system's environment, despite such knowledge being important for determining a reactive control system's precise interaction with its environment. Therefore, we propose an approach for reinforcement learning (RL) in partially observable environments. While assuming that the environment behaves like a partially observable Markov decision process with known discrete actions, we assume no knowledge about its structure or transition probabilities. Our approach combines Q-learning with IoAlergia, a method for learning Markov decision processes (MDP). By learning MDP models of the environment from episodes of the RL agent, we enable RL in partially observable domains without explicit, additional memory to track previous interactions for dealing with ambiguities stemming from partial observability. We instead provide RL with additional observations in the form of abstract environment states by simulating new experiences on learned environment models to track the explored states. In our evaluation, we report on the validity of our approach and its promising performance in comparison to six state-of-the-art deep RL techniques with recurrent neural networks and fixed memory.
翻訳日:2022-06-24 13:18:20 公開日:2022-06-23
# Video PreTraining (VPT):未ラベルオンラインビデオの視聴による行動学習

Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos ( http://arxiv.org/abs/2206.11795v1 )

ライセンス: Link先を確認
Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, Jeff Clune(参考訳) ノイズの多いインターネットスケールのデータセットを事前学習することは、テキスト、画像、その他のモダリティの幅広い一般的な能力を持つモデルをトレーニングするための技術として、非常に研究されている。 しかしながら、ロボット工学、ビデオゲーム、コンピュータ利用といった多くのシーケンシャルな決定領域では、公開データは、行動の事前を同じ方法で訓練するために必要なラベルを含まない。 我々は,インターネット規模の事前学習パラダイムを準教師付き模倣学習を通じて逐次決定ドメインに拡張し,エージェントはオンラインのラベルなし動画を視聴することで行動することを学ぶ。 具体的には、少量のラベル付きデータによって、オンラインデータの巨大なラベル付けされていないソース(ここではMinecraftをプレイしている人々のオンラインビデオ)をラベル付けするのに十分な正確な逆ダイナミクスモデルをトレーニングできることを示します。 ネイティブなヒューマンインタフェース(マウスとキーボードは20Hz)を用いているにもかかわらず、この動作は、非自明なゼロショット能力を持ち、模倣学習と強化学習の両方で微調整が可能で、強化学習によってゼロから学習できないハード探索タスクまでできることを示す。 多くのタスクにおいて、我々のモデルは人間レベルのパフォーマンスを示しており、私たちはダイヤモンドツールを作ることができるコンピュータエージェントを最初に報告します。

Pretraining on noisy, internet-scale datasets has been heavily studied as a technique for training models with broad, general capabilities for text, images, and other modalities. However, for many sequential decision domains such as robotics, video games, and computer use, publicly available data does not contain the labels required to train behavioral priors in the same way. We extend the internet-scale pretraining paradigm to sequential decision domains through semi-supervised imitation learning wherein agents learn to act by watching online unlabeled videos. Specifically, we show that with a small amount of labeled data we can train an inverse dynamics model accurate enough to label a huge unlabeled source of online data -- here, online videos of people playing Minecraft -- from which we can then train a general behavioral prior. Despite using the native human interface (mouse and keyboard at 20Hz), we show that this behavioral prior has nontrivial zero-shot capabilities and that it can be fine-tuned, with both imitation learning and reinforcement learning, to hard-exploration tasks that are impossible to learn from scratch via reinforcement learning. For many tasks our models exhibit human-level performance, and we are the first to report computer agents that can craft diamond tools, which can take proficient humans upwards of 20 minutes (24,000 environment actions) of gameplay to accomplish.
翻訳日:2022-06-24 13:17:58 公開日:2022-06-23
# 分布マッチングによる不変因果機構

Invariant Causal Mechanisms through Distribution Matching ( http://arxiv.org/abs/2206.11646v1 )

ライセンス: Link先を確認
Mathieu Chevalley, Charlotte Bunne, Andreas Krause, Stefan Bauer(参考訳) 基盤となるデータ生成プロセスをキャプチャする学習表現は、ニューラルネットワークの効率的で堅牢な使用において重要な問題である。 学習表現が捉えるべき頑健性と最近注目を浴びるべきことの1つの重要な特性は、不変性の概念によって説明される。 本研究では,不変表現を学習するための因果的視点と新しいアルゴリズムを提案する。 実験により,本アルゴリズムは多種多様なタスクに対して有効であり,特にドメイン一般化における最先端のパフォーマンスを観察し,既存のモデルのスコアを大幅に向上できることを示した。

Learning representations that capture the underlying data generating process is a key problem for data efficient and robust use of neural networks. One key property for robustness which the learned representation should capture and which recently received a lot of attention is described by the notion of invariance. In this work we provide a causal perspective and new algorithm for learning invariant representations. Empirically we show that this algorithm works well on a diverse set of tasks and in particular we observe state-of-the-art performance on domain generalization, where we are able to significantly boost the score of existing models.
翻訳日:2022-06-24 13:16:49 公開日:2022-06-23
# 後方ベースライン: 過去を予測するモデルはありますか?

Backward baselines: Is your model predicting the past? ( http://arxiv.org/abs/2206.11673v1 )

ライセンス: Link先を確認
Moritz Hardt and Michael P. Kim(参考訳) 機械学習モデルはいつ、個人の将来を予測し、いつ、個人より前のパターンを引用するのか? 本研究では,この2つの予測経路を理論的,経験的,規範的の2つで区別する手法を提案する。 提案の中央にあるのは,後方ベースラインと呼ばれる,単純かつ効率的な統計テストのファミリで,モデルが過去を振り返るかどうかを実証するものです。 我々の統計理論は、下位のベースラインを解釈し、異なるベースラインと慣れ親しんだ統計概念の間の等価性を確立するためのガイダンスを提供する。 具体的には、背景変数とシステムの予測のみを考慮し、ブラックボックスとして予測システムを監査するための意味のある後方ベースラインを導出する。 実験により,縦断パネル調査から得られた様々な予測タスクの枠組みを評価し,機械学習の実践に後方ベースラインを組み込むことの容易さと有効性を示した。

When does a machine learning model predict the future of individuals and when does it recite patterns that predate the individuals? In this work, we propose a distinction between these two pathways of prediction, supported by theoretical, empirical, and normative arguments. At the center of our proposal is a family of simple and efficient statistical tests, called backward baselines, that demonstrate if, and to which extent, a model recounts the past. Our statistical theory provides guidance for interpreting backward baselines, establishing equivalences between different baselines and familiar statistical concepts. Concretely, we derive a meaningful backward baseline for auditing a prediction system as a black box, given only background variables and the system's predictions. Empirically, we evaluate the framework on different prediction tasks derived from longitudinal panel surveys, demonstrating the ease and effectiveness of incorporating backward baselines into the practice of machine learning.
翻訳日:2022-06-24 13:16:40 公開日:2022-06-23
# ガウス過程の重なり合った混合を用いた構造の均質な集団の一般化形式

A generalised form for a homogeneous population of structures using an overlapping mixture of Gaussian processes ( http://arxiv.org/abs/2206.11683v1 )

ライセンス: Link先を確認
Tina A. Dardeno, Lawrence A. Bull, Nikolaos Dervilis, Keith Worden(参考訳) 自然周波数の低減は、しばしば構造的健康モニタリング(SHM)の目的に対する損傷指標として用いられる。 しかし, 操作条件や環境条件の変動, 境界条件の変化, 名目上の構造の違いは, 硬さに影響を与え, 仮面の損傷を模倣する周波数変化を引き起こす。 この可変性はSHM技術の実践的実装と一般化を制限している。 本研究の目的は,正常な変動の影響を調査し,その結果の不確実性を考慮した手法を同定することである。 本研究は, 健全な4種類の複合ヘリコプターブレードから収集した振動データについて考察する。 羽根は名目上は同一だが区別され、材料特性と形状のわずかな違いが周波数応答関数に大きな変動を引き起こし、入力空間を4つの別々の軌道として表した。 本稿では,ガウス過程(omgp)の重なり混合を用いてラベルを生成し,ヘリコプター羽根からの正常条件周波数応答データの不確かさを定量化した。 集団に基づくアプローチを用いて、OMGPモデルは、刃の正常な状態を特徴づけるために、形式と呼ばれる一般的な表現を提供した。 追加のシミュレーションデータをフォームと比較し,辺縁類似のノベルティ指標を用いて損傷評価を行った。

Reductions in natural frequency are often used as a damage indicator for structural health monitoring (SHM) purposes. However, fluctuations in operational and environmental conditions, changes in boundary conditions, and slight differences among nominally-identical structures can also affect stiffness, producing frequency changes that mimic or mask damage. This variability has limited the practical implementation and generalisation of SHM technologies. The aim of this work is to investigate the effects of normal variation, and to identify methods that account for the resulting uncertainty. This work considers vibration data collected from a set of four healthy full-scale composite helicopter blades. The blades were nominally-identical but distinct, and slight differences in material properties and geometry among the blades caused significant variability in the frequency response functions, which presented as four separate trajectories across the input space. In this paper, an overlapping mixture of Gaussian processes (OMGP), was used to generate labels and quantify the uncertainty of normal-condition frequency response data from the helicopter blades. Using a population-based approach, the OMGP model provided a generic representation, called a form, to characterise the normal condition of the blades. Additional simulated data were then compared against the form and evaluated for damage using a marginal-likelihood novelty index.
翻訳日:2022-06-24 13:16:23 公開日:2022-06-23
# 帰納的共形予測: pythonの例で簡単に紹介する

Inductive Conformal Prediction: A Straightforward Introduction with Examples in Python ( http://arxiv.org/abs/2206.11810v1 )

ライセンス: Link先を確認
Martim Sousa(参考訳) Inductive Conformal Prediction (ICP) は、ユーザ定義の信頼性とカバレッジを保証するために考案された、分布のないモデルに依存しないアルゴリズムのセットである。 textit{point predictions}、すなわち回帰の場合は実数か、多クラス分類では1つのクラスを持つ代わりに、icpを使ってキャリブレーションされたモデルは、それぞれインターバルまたはクラスの集合を出力する。 ICPは、実際の出力が高い確率で設定された予測セットに属することを望む高リスク設定において特に重要である。 例えば、分類モデルは、患者が報告すべき潜在疾患を持たない磁気共鳴画像が与えられたときに出力する。 しかし、このモデル出力は最も可能性の高いクラスに基づいており、第2の最も可能性の高いクラスは、患者が脳腫瘍または他の重篤な疾患の確率が15\%であることを示す可能性がある。 したがって、ICPの使用はより情報的であり、予測作成の標準的な方法であるべきだと考えています。 本論文は,その理論を紹介する際に,実例を提示するものである。

Inductive Conformal Prediction (ICP) is a set of distribution-free and model agnostic algorithms devised to predict with a user-defined confidence with coverage guarantee. Instead of having \textit{point predictions}, i.e., a real number in the case of regression or a single class in multi class classification, models calibrated using ICP output an interval or a set of classes, respectively. ICP takes special importance in high-risk settings where we want the real output to belong to the prediction set with high probability. As an example, a classification model might output that given a magnetic resonance image a patient has no latent diseases to report. However, this model output was based on the most likely class, the second most likely class might tell that the patient has a 15\% chance of brain tumor or other severe disease and therefore further exams should be conducted. Using ICP is therefore way more informative and we believe that should be the standard way of producing forecasts. This paper is a hands-on introduction, this means that we will provide examples as we introduce the theory.
翻訳日:2022-06-24 13:15:13 公開日:2022-06-23
# Weisfeiler-Leman同値類の位相的特徴付け

A Topological characterisation of Weisfeiler-Leman equivalence classes ( http://arxiv.org/abs/2206.11876v1 )

ライセンス: Link先を確認
Jacob Bamberger(参考訳) グラフニューラルネットワーク(GNN)は、グラフや信号を処理するための学習モデルである。 最も人気があり、成功したGNNはメッセージパッシング方式に基づいている。 そのようなスキームは本質的に2つの非同型グラフの区別に関して限定的な表現力を持つ。 本稿では、GNNが区別できないグラフのクラスを完全に特徴づけるために、被覆空間の理論に依存する。 そして、GNNでは区別できない非同型グラフを任意に生成し、GraphCoversデータセットを生成する。 また,データセット内の識別不能グラフの数は,ノード数とともに指数関数的に増加することを示す。 最後に、いくつかのGNNアーキテクチャ上でGraphCoversデータセットをテストする。

Graph Neural Networks (GNNs) are learning models aimed at processing graphs and signals on graphs. The most popular and successful GNNs are based on message passing schemes. Such schemes inherently have limited expressive power when it comes to distinguishing two non-isomorphic graphs. In this article, we rely on the theory of covering spaces to fully characterize the classes of graphs that GNNs cannot distinguish. We then generate arbitrarily many non-isomorphic graphs that cannot be distinguished by GNNs, leading to the GraphCovers dataset. We also show that the number of indistinguishable graphs in our dataset grows super-exponentially with the number of nodes. Finally, we test the GraphCovers dataset on several GNN architectures, showing that none of them can distinguish any two graphs it contains.
翻訳日:2022-06-24 13:14:53 公開日:2022-06-23
# 大規模マージンへの学習

Learning Towards the Largest Margins ( http://arxiv.org/abs/2206.11589v1 )

ライセンス: Link先を確認
Xiong Zhou, Xianming Liu, Deming Zhai, Junjun Jiang, Xin Gao, Xiangyang Ji(参考訳) ディープラーニングに基づく分類における特徴表現の主な課題の1つは、強力な識別能力を示す適切な損失関数の設計である。 古典的なソフトマックス損失は、特徴の識別学習を明示的に奨励しない。 研究の一般的な方向は、厳密な数学的原理とは対照的に、余分なクラス内コンパクト性とクラス間分離性を強制するために、確立された損失にマージンを組み込むことである。 本研究では,原理最適化目標を最大マージンへの学習として定式化することで,この制限に対処しようとする。 具体的には、クラスマージンをクラス間分離性の尺度として定義し、サンプルマージンをクラス内コンパクト性の尺度として定義する。 したがって、特徴の識別的表現を促進するために、損失関数はクラスとサンプルの両方の最大のマージンを促進するべきである。 さらに、既存のマージンベース損失に対する一般的な結論を引き出すために、一般化したマージンソフトマックス損失を導出する。 この原則付きフレームワークは、既存のマージンベースの損失を理解し、解釈するための新しい視点を提供するだけでなく、サンプルマージンの正規化やクラスバランスケースの最大マージンのソフトマックス損失、クラスバランスのとれたケースのゼロセンタロイドの正規化など、新しいツールの設計を導く新たな洞察を提供する。 実験の結果,視覚分類,不均衡分類,人物再同定,顔認証など,様々なタスクにおける戦略の有効性が示された。

One of the main challenges for feature representation in deep learning-based classification is the design of appropriate loss functions that exhibit strong discriminative power. The classical softmax loss does not explicitly encourage discriminative learning of features. A popular direction of research is to incorporate margins in well-established losses in order to enforce extra intra-class compactness and inter-class separability, which, however, were developed through heuristic means, as opposed to rigorous mathematical principles. In this work, we attempt to address this limitation by formulating the principled optimization objective as learning towards the largest margins. Specifically, we firstly define the class margin as the measure of inter-class separability, and the sample margin as the measure of intra-class compactness. Accordingly, to encourage discriminative representation of features, the loss function should promote the largest possible margins for both classes and samples. Furthermore, we derive a generalized margin softmax loss to draw general conclusions for the existing margin-based losses. Not only does this principled framework offer new perspectives to understand and interpret existing margin-based losses, but it also provides new insights that can guide the design of new tools, including sample margin regularization and largest margin softmax loss for the class-balanced case, and zero-centroid regularization for the class-imbalanced case. Experimental results demonstrate the effectiveness of our strategy on a variety of tasks, including visual classification, imbalanced classification, person re-identification, and face verification.
翻訳日:2022-06-24 13:14:39 公開日:2022-06-23
# 不完全アノテーションを用いた学習のためのプロトタイプ学習

Prototype-Anchored Learning for Learning with Imperfect Annotations ( http://arxiv.org/abs/2206.11602v1 )

ライセンス: Link先を確認
Xiong Zhou, Xianming Liu, Deming Zhai, Junjun Jiang, Xin Gao, Xiangyang Ji(参考訳) ディープニューラルネットワークの成功は、大量の高品質な注釈付きデータの可用性に大きく依存している。 結果のラベルは、クラス不均衡、ノイズ、あるいは人間の偏りがある。 不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶのは困難です。 本研究では,一般的なソフトマックス損失とマージンベース損失を徹底的に検討し,最小サンプルマージンを最大化することで,一般化誤差を締め付けるための実現可能なアプローチを提案する。 この目的のために、我々はさらに、クラスプロトタイプのアンカー方法を示す最適条件を導出する。 理論解析により,不完全なアノテーションを扱うために,様々な学習に基づく分類手法に容易に組み込むことができる簡易かつ効果的な手法であるPALを提案する。 我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。

The success of deep neural networks greatly relies on the availability of large amounts of high-quality annotated data, which however are difficult or expensive to obtain. The resulting labels may be class imbalanced, noisy or human biased. It is challenging to learn unbiased classification models from imperfectly annotated datasets, on which we usually suffer from overfitting or underfitting. In this work, we thoroughly investigate the popular softmax loss and margin-based loss, and offer a feasible approach to tighten the generalization error bound by maximizing the minimal sample margin. We further derive the optimality condition for this purpose, which indicates how the class prototypes should be anchored. Motivated by theoretical analysis, we propose a simple yet effective method, namely prototype-anchored learning (PAL), which can be easily incorporated into various learning-based classification schemes to handle imperfect annotation. We verify the effectiveness of PAL on class-imbalanced learning and noise-tolerant learning by extensive experiments on synthetic and real-world datasets.
翻訳日:2022-06-24 13:14:12 公開日:2022-06-23
# 3次元空間におけるトークンの復元による視点非依存視覚表現の学習

Learning Viewpoint-Agnostic Visual Representations by Recovering Tokens in 3D Space ( http://arxiv.org/abs/2206.11895v1 )

ライセンス: Link先を確認
Jinghuan Shang, Srijan Das, Michael S. Ryoo(参考訳) 人間は3次元構造の知覚を支える視覚野による視点変化の理解に非常に柔軟である。 対照的に、2D画像のプールから視覚表現を学習するコンピュータビジョンモデルの多くは、新しいカメラ視点を一般化するのに失敗することが多い。 近年、視覚アーキテクチャは、画像パッチから派生したトークンを操作する畳み込みフリーアーキテクチャである視覚トランスフォーマーへとシフトしている。 しかし、これらのトランスフォーマーや2次元畳み込みネットワークは、視覚的理解のために視点に依存しない表現を学ぶために明示的な操作を行わない。 この目的のために,視覚トークンの3次元位置情報を推定し,視点非依存表現の学習に活用する3次元トークン表現層(3dtrl)を提案する。 3DTRLの鍵となる要素は、トークンに幾何変換を課すための擬似深度推定器と学習カメラマトリックスである。 これにより、3DTRLはトークンの3D位置情報を2Dパッチから復元できる。 実際には、3DTRL は Transformer に簡単にプラグインされる。 画像分類,多視点映像アライメント,行動認識など,視覚タスクにおける3DTRLの有効性を実証した。 3DTRLのモデルは、最小限の計算量ですべてのタスクにおいてバックボーントランスフォーマーより優れている。 私たちのプロジェクトページはhttps://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.htmlです。

Humans are remarkably flexible in understanding viewpoint changes due to visual cortex supporting the perception of 3D structure. In contrast, most of the computer vision models that learn visual representation from a pool of 2D images often fail to generalize over novel camera viewpoints. Recently, the vision architectures have shifted towards convolution-free architectures, visual Transformers, which operate on tokens derived from image patches. However, neither these Transformers nor 2D convolutional networks perform explicit operations to learn viewpoint-agnostic representation for visual understanding. To this end, we propose a 3D Token Representation Layer (3DTRL) that estimates the 3D positional information of the visual tokens and leverages it for learning viewpoint-agnostic representations. The key elements of 3DTRL include a pseudo-depth estimator and a learned camera matrix to impose geometric transformations on the tokens. These enable 3DTRL to recover the 3D positional information of the tokens from 2D patches. In practice, 3DTRL is easily plugged-in into a Transformer. Our experiments demonstrate the effectiveness of 3DTRL in many vision tasks including image classification, multi-view video alignment, and action recognition. The models with 3DTRL outperform their backbone Transformers in all the tasks with minimal added computation. Our project page is at https://www3.cs.stonybrook.edu/~jishang/3dtrl/3dtrl.html
翻訳日:2022-06-24 13:13:57 公開日:2022-06-23
# rxr-habitat vision-and-language navigation competition (cvpr 2022) の第1位

1st Place Solutions for RxR-Habitat Vision-and-Language Navigation Competition (CVPR 2022) ( http://arxiv.org/abs/2206.11610v1 )

ライセンス: Link先を確認
Dong An, Zun Wang, Yangguang Li, Yi Wang, Yicong Hong, Yan Huang, Liang Wang, Jing Shao(参考訳) 本稿では,CVPR2022におけるRxR-Habitatコンペティションの入賞方法を紹介する。 このコンペでは、連続環境(vln-ce)における視覚言語ナビゲーションの問題に対処し、エージェントが目標に到達するにはステップバイステップの自然言語命令に従う必要がある。 我々は,このタスクに対してモジュール型計画制御手法を提案する。 本モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。 各決定ループにおいて、CWPはまず、複数の視点からの深度観測に基づいて、候補となる経路の集合を予測する。 アクションスペースの複雑さを低減し、計画を容易にする。 そして、ヒストリ強化プランナーを採用し、候補の1つをサブゴールとして選択する。 プランナーは、特に長距離航法に有効である航法進捗を追跡するために、履歴記憶を符号化する。 最後に、提案するサブゴールに到達するための低レベル動作を実行するためのトライアウトと呼ばれる非パラメトリックヒューリスティックコントローラを提案する。 これは、エージェントが障害を回避し、立ち往生を避けるのに役立つ試行錯誤機構に基づいている。 3つのモジュールはすべて、エージェントが停止するまで階層的に動作する。 さらに,vln(vision-and-language navigation)の最近の進歩により,大規模合成インドメインデータセットに基づく事前学習,環境レベルのデータ拡張,スナップショットモデルアンサンブルなどの性能が向上している。 rxr-habitat competition 2022 では,既存のndtw と sr の指標に対してそれぞれ 48% と 90% の相対的改善がみられた。

This report presents the methods of the winning entry of the RxR-Habitat Competition in CVPR 2022. The competition addresses the problem of Vision-and-Language Navigation in Continuous Environments (VLN-CE), which requires an agent to follow step-by-step natural language instructions to reach a target. We present a modular plan-and-control approach for the task. Our model consists of three modules: the candidate waypoints predictor (CWP), the history enhanced planner and the tryout controller. In each decision loop, CWP first predicts a set of candidate waypoints based on depth observations from multiple views. It can reduce the complexity of the action space and facilitate planning. Then, a history-enhanced planner is adopted to select one of the candidate waypoints as the subgoal. The planner additionally encodes historical memory to track the navigation progress, which is especially effective for long-horizon navigation. Finally, we propose a non-parametric heuristic controller named tryout to execute low-level actions to reach the planned subgoal. It is based on the trial-and-error mechanism which can help the agent to avoid obstacles and escape from getting stuck. All three modules work hierarchically until the agent stops. We further take several recent advances of Vision-and-Language Navigation (VLN) to improve the performance such as pretraining based on large-scale synthetic in-domain dataset, environment-level data augmentation and snapshot model ensemble. Our model won the RxR-Habitat Competition 2022, with 48% and 90% relative improvements over existing methods on NDTW and SR metrics respectively.
翻訳日:2022-06-24 13:13:33 公開日:2022-06-23
# モデル非依存的説明に対する説明因果効果

Explanatory causal effects for model agnostic explanations ( http://arxiv.org/abs/2206.11529v1 )

ライセンス: Link先を確認
Jiuyong Li and Ha Xuan Tran and Thuc Duy Le and Lin Liu and Kui Yu and Jixue Liu(参考訳) 本稿では、機械学習モデルによる特定のインスタンスの予測に対する特徴の寄与度の推定問題と、そのモデルに対する特徴の全体的な貢献について述べる。 予測結果に対する特徴(変数)の因果効果は、その特徴の予測への寄与を非常によく反映している。 課題は、既存の因果効果が既知の因果グラフなしではデータから推定できないことである。 本稿では,仮説的理想実験に基づいて説明的因果効果を定義する。 この定義はモデルに依存しない説明にいくつかの利点をもたらす。 まず、説明は透明で因果的意味を持つ。 第二に、説明因果効果推定はデータ駆動である。 第三に、因果効果は特定の予測に対する局所的な説明と、予測モデルにおける特徴の全体的重要性を示す全体的説明の両方を提供する。 さらに,説明のための説明因果効果に基づく個別変数と複合変数を用いた手法を提案する。 提案手法は,実世界のデータセットを用いて実験を行う。

This paper studies the problem of estimating the contributions of features to the prediction of a specific instance by a machine learning model and the overall contribution of a feature to the model. The causal effect of a feature (variable) on the predicted outcome reflects the contribution of the feature to a prediction very well. A challenge is that most existing causal effects cannot be estimated from data without a known causal graph. In this paper, we define an explanatory causal effect based on a hypothetical ideal experiment. The definition brings several benefits to model agnostic explanations. First, explanations are transparent and have causal meanings. Second, the explanatory causal effect estimation can be data driven. Third, the causal effects provide both a local explanation for a specific prediction and a global explanation showing the overall importance of a feature in a predictive model. We further propose a method using individual and combined variables based on explanatory causal effects for explanations. We show the definition and the method work with experiments on some real-world data sets.
翻訳日:2022-06-24 13:11:20 公開日:2022-06-23
# 悪意のある部分的なデモの模倣によるアジャイルスキルの学習

Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations ( http://arxiv.org/abs/2206.11693v1 )

ライセンス: Link先を確認
Chenhao Li, Marin Vlastelica, Sebastian Blaes, Jonas Frey, Felix Grimminger, Georg Martius(参考訳) アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。 この目的のために、強化学習アプローチは印象的な結果を得た。 これらの方法は、対象制御出力を提供するためにシミュレーションで照会できる報酬関数や専門家の観点で明示的なタスク情報を必要とするため、適用性は制限される。 本研究では,参照や専門家によるデモンストレーションが容易にアクセスできない技術習得のために,部分的かつ物理的に互換性のない実演から報酬関数を推定する生成的逆算法を提案する。 さらに,粗大かつ部分的な情報を入力として,wasserstein ganの定式化とデモからの遷移を用いて,実演行動の模倣が可能なロバストなポリシを抽出することができることを示した。 最後に、得られたバックフリップなどのスキルをsolo 8と呼ばれるアジャイルの四足ロボットでテストし、手持ちの人間のデモンストレーションを忠実に再現する。

Learning agile skills is one of the main challenges in robotics. To this end, reinforcement learning approaches have achieved impressive results. These methods require explicit task information in terms of a reward function or an expert that can be queried in simulation to provide a target control output, which limits their applicability. In this work, we propose a generative adversarial method for inferring reward functions from partial and potentially physically incompatible demonstrations for successful skill acquirement where reference or expert demonstrations are not easily accessible. Moreover, we show that by using a Wasserstein GAN formulation and transitions from demonstrations with rough and partial information as input, we are able to extract policies that are robust and capable of imitating demonstrated behaviors. Finally, the obtained skills such as a backflip are tested on an agile quadruped robot called Solo 8 and present faithful replication of hand-held human demonstrations.
翻訳日:2022-06-24 13:11:06 公開日:2022-06-23
# ランダムウォーク:スーパービジョンなしでゴールの発見と解決を学ぶ

Walk the Random Walk: Learning to Discover and Reach Goals Without Supervision ( http://arxiv.org/abs/2206.11733v1 )

ライセンス: Link先を確認
Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Karteek Alahari(参考訳) 外部の監督なしに環境と対話することで多様なスキルを学ぶことは重要な課題である。 特に、任意の状態に到達可能な目標条件エージェントを取得することは、多くのアプリケーションで有用である。 本稿では,外部報酬やドメイン知識を必要とせず,目標条件エージェントを訓練するための新しい手法を提案する。 2つの状態間の類似性を予測できる到達可能性ネットワークをトレーニングするためにランダムウォークを使用する。 この到達可能性ネットワークは、様々なバランスの取れた過去の観測を含むゴールメモリの構築に使用される。 最後に,目標メモリから抽出した目標を到達可能性ネットワークと目標メモリで報奨する,目標条件付きポリシネットワークをトレーニングする。 エージェントが新しい目標を発見し、学習すると、すべてのコンポーネントがトレーニングを通じて更新される。 本手法を連続制御ナビゲーションおよびロボット操作タスクに適用する。

Learning a diverse set of skills by interacting with an environment without any external supervision is an important challenge. In particular, obtaining a goal-conditioned agent that can reach any given state is useful in many applications. We propose a novel method for training such a goal-conditioned agent without any external rewards or any domain knowledge. We use random walk to train a reachability network that predicts the similarity between two states. This reachability network is then used in building goal memory containing past observations that are diverse and well-balanced. Finally, we train a goal-conditioned policy network with goals sampled from the goal memory and reward it by the reachability network and the goal memory. All the components are kept updated throughout training as the agent discovers and learns new goals. We apply our method to a continuous control navigation and robotic manipulation tasks.
翻訳日:2022-06-24 13:10:51 公開日:2022-06-23
# 量子学習モデルのための古典的サロゲート

Classical surrogates for quantum learning models ( http://arxiv.org/abs/2206.11740v1 )

ライセンス: Link先を確認
Franz J. Schreiber, Jens Eisert and Johannes Jakob Meyer(参考訳) ノイズの多い中間スケール量子コンピュータの出現により、量子情報科学の最前線で考えられる応用が探されている。 短期量子コンピュータによる利点を期待する分野の一つに量子機械学習があり、パラメタライズド量子回路に基づく変分量子学習モデルが議論されている。 本研究では,量子学習モデルから効率的に得られ,その入出力関係を再現できる古典モデルである古典的サロゲートの概念を紹介する。 古典的に推論を行うことができるため、古典的なサロゲートの存在は量子学習戦略の適用性を大幅に向上させる。 しかし、古典的なサロゲートは量子スキームの利点にも挑戦する。 古典的なサロゲートのアンサッツを直接最適化できるので、量子モデルは性能を上回る自然のベンチマークを作成することができる。 解析された再載荷モデルの大規模なクラスは古典的なサロゲートを持つことを示す。 我々は数値実験を行い、これらの量子モデルは解析した問題において性能や訓練性に優位性がないことを示した。 これは量子アドバンテージの可能な点として一般化能力のみを残し、量子学習モデルの帰納バイアスをよりよく理解する必要性を強調している。

The advent of noisy intermediate-scale quantum computers has put the search for possible applications to the forefront of quantum information science. One area where hopes for an advantage through near-term quantum computers are high is quantum machine learning, where variational quantum learning models based on parametrized quantum circuits are discussed. In this work, we introduce the concept of a classical surrogate, a classical model which can be efficiently obtained from a trained quantum learning model and reproduces its input-output relations. As inference can be performed classically, the existence of a classical surrogate greatly enhances the applicability of a quantum learning strategy. However, the classical surrogate also challenges possible advantages of quantum schemes. As it is possible to directly optimize the ansatz of the classical surrogate, they create a natural benchmark the quantum model has to outperform. We show that large classes of well-analyzed re-uploading models have a classical surrogate. We conducted numerical experiments and found that these quantum models show no advantage in performance or trainability in the problems we analyze. This leaves only generalization capability as possible point of quantum advantage and emphasizes the dire need for a better understanding of inductive biases of quantum learning models.
翻訳日:2022-06-24 13:10:37 公開日:2022-06-23
# リコメンダシステムの一般化可能性と予測可能性について

On the Generalizability and Predictability of Recommender Systems ( http://arxiv.org/abs/2206.11886v1 )

ライセンス: Link先を確認
Duncan McElfresh, Sujay Khandagale, Jonathan Valverde, John P. Dickerson, Colin White(参考訳) 機械学習の他の分野はますます自動化されているが、ハイパフォーマンスなレコメンデーションシステムの設計には高いレベルの人的努力が必要だ。 さらに、最近の研究により、現代のレコメンデータシステムアルゴリズムは、よく調整されたベースラインよりも常に改善されるとは限らないことが示されている。 自然なフォローアップの質問は、“新しいデータセットとパフォーマンスメトリクスの適切なアルゴリズムをどのように選択すればよいか? 本研究では,85のデータセットと315のメトリクスにまたがる18のアルゴリズムと100のハイパーパラメータを比較し,推奨システムアプローチに関する大規模な研究から始める。 最適なアルゴリズムとハイパーパラメータはデータセットと性能指標に大きく依存するが、各アルゴリズムのパフォーマンスとデータセットの様々なメタ機能との間には強い相関関係がある。 これらの発見に触発されたRecZillaは、モデルを使用して最適なアルゴリズムとハイパーパラメータを予測し、新しい未知のデータセットを推薦するメタ学習アプローチです。 以前の作業よりもはるかに多くのメタトレーニングデータを使用することで、RecZillaは、新しいレコメンデータシステムアプリケーションに直面した際の人間の関与レベルを大幅に削減することができる。 コードとプリトレーニングされたreczillaモデルのリリースだけでなく、すべての生の実験結果も公開しているので、実践者は望ましいパフォーマンスメトリクスのためにreczillaモデルをトレーニングすることができます。

While other areas of machine learning have seen more and more automation, designing a high-performing recommender system still requires a high level of human effort. Furthermore, recent work has shown that modern recommender system algorithms do not always improve over well-tuned baselines. A natural follow-up question is, "how do we choose the right algorithm for a new dataset and performance metric?" In this work, we start by giving the first large-scale study of recommender system approaches by comparing 18 algorithms and 100 sets of hyperparameters across 85 datasets and 315 metrics. We find that the best algorithms and hyperparameters are highly dependent on the dataset and performance metric, however, there are also strong correlations between the performance of each algorithm and various meta-features of the datasets. Motivated by these findings, we create RecZilla, a meta-learning approach to recommender systems that uses a model to predict the best algorithm and hyperparameters for new, unseen datasets. By using far more meta-training data than prior work, RecZilla is able to substantially reduce the level of human involvement when faced with a new recommender system application. We not only release our code and pretrained RecZilla models, but also all of our raw experimental results, so that practitioners can train a RecZilla model for their desired performance metric: https://github.com/naszilla/reczilla.
翻訳日:2022-06-24 13:10:20 公開日:2022-06-23
# リスクベースアクティブラーニングによる意思決定の改善:確率的判別分類器

Improving decision-making via risk-based active learning: Probabilistic discriminative classifiers ( http://arxiv.org/abs/2206.11616v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Paul Gardner, Lawrence A. Bull, Nikolaos Dervilis, Keith Worden(参考訳) 構造物の運用と維持に関する情報的決定を行う能力を得ることは、構造的健康モニタリング(SHM)システムの実装の動機となる。 しかし、モニタリングされたシステムの健康状態に対応する測定データの記述ラベルは、しばしば利用できない。 この問題は、SHMシステムにおける決定支援に使用される統計分類器の開発のために、完全に教師付き機械学習パラダイムの適用性を制限する。 この問題に対処する1つのアプローチは、リスクベースのアクティブラーニングである。 このようなアプローチでは、初期データポイントに対する完全情報の期待値に応じてデータラベルクエリを誘導する。 shmにおけるリスクベースのアクティブラーニングでは、メンテナンス決定プロセスに関して情報の価値を評価し、データラベルクエリは、その健康状態を決定するための構造の検査に対応する。 SHMの文脈では、リスクベースのアクティブラーニングは生成型分類器としてのみ考慮されている。 本論文では,識別モデルを用いた代替型分類器の利点について述べる。 z24ブリッジデータセットをケーススタディとして使用することにより,scm決定支援の文脈において,サンプリングバイアスに対するロバスト性の向上や構造検査への支出削減など,識別分類器のメリットが示された。

Gaining the ability to make informed decisions on operation and maintenance of structures provides motivation for the implementation of structural health monitoring (SHM) systems. However, descriptive labels for measured data corresponding to health-states of the monitored system are often unavailable. This issue limits the applicability of fully-supervised machine learning paradigms for the development of statistical classifiers to be used in decision-support in SHM systems. One approach to dealing with this problem is risk-based active learning. In such an approach, data-label querying is guided according to the expected value of perfect information for incipient data points. For risk-based active learning in SHM, the value of information is evaluated with respect to a maintenance decision process, and the data-label querying corresponds to the inspection of a structure to determine its health state. In the context of SHM, risk-based active learning has only been considered for generative classifiers. The current paper demonstrates several advantages of using an alternative type of classifier -- discriminative models. Using the Z24 Bridge dataset as a case study, it is shown that discriminative classifiers have benefits, in the context of SHM decision-support, including improved robustness to sampling bias, and reduced expenditure on structural inspections.
翻訳日:2022-06-24 13:09:38 公開日:2022-06-23
# (参考訳) NovelCraft: オープンワールドにおけるノベルティ検出と発見のためのデータセット

NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds ( http://arxiv.org/abs/2206.11736v1 )

ライセンス: CC BY 4.0
Patrick Feeney (1), Sarah Schneider (1 and 2), Panagiotis Lymperopoulos (1), Liping Liu (1), Matthias Scheutz (1), Michael C. Hughes (1) ((1) Dept. of Computer Science, Tufts University, (2) Center for Vision, Automation and Control, Austrian Institute of Technology)(参考訳) 人工エージェントが環境の変化において有用なタスクを行うためには、新規性の検出と適応が可能である必要がある。 しかし、視覚的ノベルティ検出の研究は、CIFAR-10のような元来オブジェクト分類を意図した再使用データセットでのみ評価されることが多い。 この慣行は、新奇性は異なるオブジェクトタイプの精巧な画像に制限される。 オープンワールドをナビゲートする上で,新たなベンチマークが必要であることを示唆する。 新しいノベルクラフトデータセットは、コンピュータゲームの世界においてポゴスティックアセンブリタスクを完了させるエージェントが見る画像と象徴的な世界状態のマルチモーダルエピソディックデータを含む。 いくつかのエピソードでは、ゲームプレイに影響を与える可能性のある新しいオブジェクトを挿入する。 新規性は、複雑なシーン内でサイズ、位置、および咬合によって異なる。 包括的評価に着目し,最先端のノベルティ検出と一般化したカテゴリ発見モデルの性能評価を行った。 さまざまなタイプのミスのタスク固有のコストを認識するモデルは、オープンな世界での新規性をより効果的に検出し、適応することができる。

In order for artificial agents to perform useful tasks in changing environments, they must be able to both detect and adapt to novelty. However, visual novelty detection research often only evaluates on repurposed datasets such as CIFAR-10 originally intended for object classification. This practice restricts novelties to well-framed images of distinct object types. We suggest that new benchmarks are needed to represent the challenges of navigating an open world. Our new NovelCraft dataset contains multi-modal episodic data of the images and symbolic world-states seen by an agent completing a pogo-stick assembly task within a video game world. In some episodes, we insert novel objects that can impact gameplay. Novelty can vary in size, position, and occlusion within complex scenes. We benchmark state-of-the-art novelty detection and generalized category discovery models with a focus on comprehensive evaluation. Results suggest an opportunity for future research: models aware of task-specific costs of different types of mistakes could more effectively detect and adapt to novelty in open worlds.
翻訳日:2022-06-24 13:07:10 公開日:2022-06-23
# 時系列表現のコントラスト学習におけるエキスパート機能の利用

Utilizing Expert Features for Contrastive Learning of Time-Series Representations ( http://arxiv.org/abs/2206.11517v1 )

ライセンス: Link先を確認
Manuel Nonnenmacher, Lukas Oldenburg, Ingo Steinwart, David Reeb(参考訳) 時系列表現学習に専門知識を取り入れた手法を提案する。 本手法は,従来のコントラスト学習手法における一般的なデータ変換を置き換えるために,専門的特徴を用いる。 時系列データは、一般的に時系列データには変換が当てはまらないが、ドメインの専門家が専門的な特徴をしばしば利用できる産業や医療分野に由来しているため、私たちはこれを行ないます。 まず、有用な時系列表現が満たすべき2つの特性を提案し、現在の表現学習アプローチがこれらの特性を確実にしないことを示す。 そこで我々はexpclrを考案した。expclrは、学習した表現に対して両方の特性を奨励するために専門家の特徴を利用する目的に基づいて構築された、新しいコントラスト学習手法である。 最後に、ExpCLRが教師なしと半教師なしの両方の表現学習において最先端の手法を超越した3つの実世界の時系列データセットを実証する。

We present an approach that incorporates expert knowledge for time-series representation learning. Our method employs expert features to replace the commonly used data transformations in previous contrastive learning approaches. We do this since time-series data frequently stems from the industrial or medical field where expert features are often available from domain experts, while transformations are generally elusive for time-series data. We start by proposing two properties that useful time-series representations should fulfill and show that current representation learning approaches do not ensure these properties. We therefore devise ExpCLR, a novel contrastive learning approach built on an objective that utilizes expert features to encourage both properties for the learned representation. Finally, we demonstrate on three real-world time-series datasets that ExpCLR surpasses several state-of-the-art methods for both unsupervised and semi-supervised representation learning.
翻訳日:2022-06-24 12:43:52 公開日:2022-06-23
# フェデレーション学習のための事前学習について

On Pre-Training for Federated Learning ( http://arxiv.org/abs/2206.11488v1 )

ライセンス: Link先を確認
Hong-You Chen, Cheng-Hao Tu, Ziwei Li, Han-Wei Shen, Wei-Lun Chao(参考訳) 連合学習(FL)に関する文献のほとんどでは、ニューラルネットワークはランダムウェイトで初期化されている。 本稿では,プレトレーニングがFLに及ぼす影響について実証的研究を行った。 具体的には,クライアントの分散化データが非IIDである場合に,事前学習が大幅な精度低下を軽減できるかどうかを検討する。 flアルゴリズムの基本かつ最も広く使われているfedavgに注目する。 事前学習は、FedAvgと非IIDデータに基づく集中学習のギャップをほとんど埋めるが、これはFedAvgのローカルトレーニングにおいてよく知られたモデルドリフト問題を緩和することによるものではない。 むしろ、FedAvgのグローバルアグリゲーションをより安定させることで、事前トレーニングがFedAvgの助けになる。 FLでは,実データによる事前学習が不可能な場合,合成データを用いた事前学習手法を提案する。 様々な画像データセット(セグメンテーションを含む)において、我々の合成事前学習のアプローチは顕著な利益をもたらし、実質的には現実世界のアプリケーションにフェデレーション学習を拡大するための重要なステップである。

In most of the literature on federated learning (FL), neural networks are initialized with random weights. In this paper, we present an empirical study on the effect of pre-training on FL. Specifically, we aim to investigate if pre-training can alleviate the drastic accuracy drop when clients' decentralized data are non-IID. We focus on FedAvg, the fundamental and most widely used FL algorithm. We found that pre-training does largely close the gap between FedAvg and centralized learning under non-IID data, but this does not come from alleviating the well-known model drifting problem in FedAvg's local training. Instead, how pre-training helps FedAvg is by making FedAvg's global aggregation more stable. When pre-training using real data is not feasible for FL, we propose a novel approach to pre-train with synthetic data. On various image datasets (including one for segmentation), our approach with synthetic pre-training leads to a notable gain, essentially a critical step toward scaling up federated learning for real-world applications.
翻訳日:2022-06-24 12:43:19 公開日:2022-06-23
# オンライン連続学習におけるサンプル凝縮

Sample Condensation in Online Continual Learning ( http://arxiv.org/abs/2206.11849v1 )

ライセンス: Link先を確認
Mattia Sangermano, Antonio Carta, Andrea Cossu, Davide Bacciu(参考訳) オンライン連続学習は、モデルが非定常なデータストリームから学び、各サンプルが一度しか見ることができない、難しい学習シナリオである。 主な課題は、破滅的な忘れることを避けながら段階的に学習すること、すなわち、新しいデータから学びながら、事前に獲得した知識を忘れてしまう問題である。 このようなシナリオで一般的な解決策は、小さなメモリを使って古いデータを保存し、時間とともにリハーサルすることだ。 残念ながら、メモリサイズが制限されているため、メモリの品質は時間とともに低下する。 本稿では,知識凝縮技術を用いて連続的に記憶を圧縮し,その限られたサイズをより有効活用する,新しいリプレイ型連続学習戦略 olcgm を提案する。 サンプル凝縮ステップは、古いサンプルを他の再生戦略のように取り除くのではなく、圧縮する。 その結果,データの複雑さに対してメモリ予算が制限される場合,olcgmは最先端のリプレイ戦略と比較して最終精度が向上することを示した。

Online Continual learning is a challenging learning scenario where the model must learn from a non-stationary stream of data where each sample is seen only once. The main challenge is to incrementally learn while avoiding catastrophic forgetting, namely the problem of forgetting previously acquired knowledge while learning from new data. A popular solution in these scenario is to use a small memory to retain old data and rehearse them over time. Unfortunately, due to the limited memory size, the quality of the memory will deteriorate over time. In this paper we propose OLCGM, a novel replay-based continual learning strategy that uses knowledge condensation techniques to continuously compress the memory and achieve a better use of its limited size. The sample condensation step compresses old samples, instead of removing them like other replay strategies. As a result, the experiments show that, whenever the memory budget is limited compared to the complexity of the data, OLCGM improves the final accuracy compared to state-of-the-art replay strategies.
翻訳日:2022-06-24 12:42:59 公開日:2022-06-23
# 深層学習とコントラストクラスタリングによる露地作物のウェイポイント生成

Waypoint Generation in Row-based Crops with Deep Learning and Contrastive Clustering ( http://arxiv.org/abs/2206.11623v1 )

ライセンス: Link先を確認
Francesco Salvetti, Simone Angarano, Mauro Martini, Simone Cerrato, Marcello Chiaberge(参考訳) 精密農業の発展は、現場管理に関連するすべての活動を支援し合理化するために、農業プロセスにおける自動化を徐々に導入してきた。 特に、サービスロボティクスは、監視、噴霧、収穫といった人間の介入なしに、異なるタスクを実行しながらフィールドをナビゲートできる自律エージェントを配置することで、この進化において主要な役割を果たす。 この文脈では、グローバルパスプランニングは、すべてのロボットミッションにおいて最初の必要なステップであり、ナビゲーションが効率的かつ完全なフィールドカバレッジで実行されることを保証する。 そこで,本論文では,行ベースの作物のナビゲーション経路を計画するための経路ポイント生成のための学習的アプローチを提案する。 本稿では,各点を分離可能な潜在空間に投影できる,コントラスト損失に基づく新たなウェイポイントクラスタリング手法を提案する。 提案したディープニューラルネットワークは、単一のフォワードパスで2つの特別なヘッドによるウェイポイント位置とクラスタ割り当てを同時に予測することができる。 シミュレーションおよび実世界の画像に対する広範な実験により,提案手法は,従来の最先端手法の限界を克服し,直線的および湾曲した行ベースの作物の経路点生成問題を効果的に解決することを示した。

The development of precision agriculture has gradually introduced automation in the agricultural process to support and rationalize all the activities related to field management. In particular, service robotics plays a predominant role in this evolution by deploying autonomous agents able to navigate in fields while executing different tasks without the need for human intervention, such as monitoring, spraying and harvesting. In this context, global path planning is the first necessary step for every robotic mission and ensures that the navigation is performed efficiently and with complete field coverage. In this paper, we propose a learning-based approach to tackle waypoint generation for planning a navigation path for row-based crops, starting from a top-view map of the region-of-interest. We present a novel methodology for waypoint clustering based on a contrastive loss, able to project the points to a separable latent space. The proposed deep neural network can simultaneously predict the waypoint position and cluster assignment with two specialized heads in a single forward pass. The extensive experimentation on simulated and real-world images demonstrates that the proposed approach effectively solves the waypoint generation problem for both straight and curved row-based crops, overcoming the limitations of previous state-of-the-art methodologies.
翻訳日:2022-06-24 12:42:42 公開日:2022-06-23
# 線形関数近似を用いた効率的モデルフリー制約付きrl

Provably Efficient Model-Free Constrained RL with Linear Function Approximation ( http://arxiv.org/abs/2206.11889v1 )

ライセンス: Link先を確認
Arnob Ghosh, Xingyu Zhou, Ness Shroff(参考訳) 本研究では,実効関数の期待総値に対する制約による期待累積報酬を最大化することを目的とした,制約付き強化学習問題について検討する。 モデルベースアプローチやモデルフリーな手法に‘simulator’が付随する手法とは対照的に,大規模システムにおいてもサブリニア後悔とサブリニア制約違反を実現する,モデルフリーでシミュレータフリーなアルゴリズムを開発することを目指している。 この目的のために,線形関数近似を用いたマルコフ決定過程を考察し,遷移ダイナミクスと報酬関数を既知の特徴写像の線形関数として表現することができる。 我々は、$\tilde{\mathcal{O}}(\sqrt{d^3H^3T})$ regret and $\tilde{\mathcal{O}}(\sqrt{d^3H^3T})$ constraint violation boundsを達成できることを示し、$d$は特徴写像の次元であり、$H$はエピソードの長さであり、$T$はステップの総数である。 我々の境界は、未知の遷移モデルを明示的に推定したり、シミュレータを必要とすることなく達成され、それらは特徴マッピングの次元を通してのみ状態空間に依存する。 したがって、状態の数が無限になるときでさえ、我々の境界は保たれる。 本研究の主な成果は,標準LSVI-UCBアルゴリズムの新規適応によるものである。 特に,後悔と制約違反のバランスをとるために,LSVI-UCBアルゴリズムに初期双対最適化を導入する。 さらに、LSVI-UCBにおける状態作用関数に対する標準グリーディ選択をソフトマックスポリシーで置き換える。 これは、その近似-滑らか性トレードオフを通じて制約されたケースの均一な濃度を確立する上で鍵となる。 また、$t$に関して同じ順序を維持しながら、ゼロの制約違反をも達成できることも示しています。

We study the constrained reinforcement learning problem, in which an agent aims to maximize the expected cumulative reward subject to a constraint on the expected total value of a utility function. In contrast to existing model-based approaches or model-free methods accompanied with a `simulator', we aim to develop the first model-free, simulator-free algorithm that achieves a sublinear regret and a sublinear constraint violation even in large-scale systems. To this end, we consider the episodic constrained Markov decision processes with linear function approximation, where the transition dynamics and the reward function can be represented as a linear function of some known feature mapping. We show that $\tilde{\mathcal{O}}(\sqrt{d^3H^3T})$ regret and $\tilde{\mathcal{O}}(\sqrt{d^3H^3T})$ constraint violation bounds can be achieved, where $d$ is the dimension of the feature mapping, $H$ is the length of the episode, and $T$ is the total number of steps. Our bounds are attained without explicitly estimating the unknown transition model or requiring a simulator, and they depend on the state space only through the dimension of the feature mapping. Hence our bounds hold even when the number of states goes to infinity. Our main results are achieved via novel adaptations of the standard LSVI-UCB algorithms. In particular, we first introduce primal-dual optimization into the LSVI-UCB algorithm to balance between regret and constraint violation. More importantly, we replace the standard greedy selection with respect to the state-action function in LSVI-UCB with a soft-max policy. This turns out to be key in establishing uniform concentration for the constrained case via its approximation-smoothness trade-off. We also show that one can achieve an even zero constraint violation while still maintaining the same order with respect to $T$.
翻訳日:2022-06-24 12:42:19 公開日:2022-06-23
# YOLOSA:2次元局所特徴重畳自己注意に基づく物体検出

YOLOSA: Object detection based on 2D local feature superimposed self-attention ( http://arxiv.org/abs/2206.11825v1 )

ライセンス: Link先を確認
Weisheng Li and Lin Huang(参考訳) 実時間物体検出モデルのネットワーク構造を解析した結果,特徴連結段階の特徴が豊富であることが判明した。 ここで注意モジュールを適用することで、モデルの検出精度が効果的に向上する。 しかし、一般的に使用されるアテンションモジュールや自己アテンションモジュールは、検出精度と推論効率が低い。 そこで本研究では,ネックネットワークの特徴結合段階に2次元局所特徴重畳自己結合と呼ばれる新しい自己結合モジュールを提案する。 この自己認識モジュールは、局所的な特徴と局所的な受容場を通してグローバルな特徴を反映する。 また、効率の良い疎結合ヘッドとAB-OTAを提案し、SOTA結果を得る。 提案手法を用いた大規模・中小型モデルにおいて, 平均精度は49.0\% (66.2 fps), 46.1\% (80.6 fps), 39.1\% (100 fps) であった。 我々のモデルは平均精度で YOLOv5 を0.8 % -- 3.1 % 上回った。

We analyzed the network structure of real-time object detection models and found that the features in the feature concatenation stage are very rich. Applying an attention module here can effectively improve the detection accuracy of the model. However, the commonly used attention module or self-attention module shows poor performance in detection accuracy and inference efficiency. Therefore, we propose a novel self-attention module, called 2D local feature superimposed self-attention, for the feature concatenation stage of the neck network. This self-attention module reflects global features through local features and local receptive fields. We also propose and optimize an efficient decoupled head and AB-OTA, and achieve SOTA results. Average precisions of 49.0\% (66.2 FPS), 46.1\% (80.6 FPS), and 39.1\% (100 FPS) were obtained for large, medium, and small-scale models built using our proposed improvements. Our models exceeded YOLOv5 by 0.8\% -- 3.1\% in average precision.
翻訳日:2022-06-24 12:40:25 公開日:2022-06-23
# 再帰的強化学習

Recursive Reinforcement Learning ( http://arxiv.org/abs/2206.11430v1 )

ライセンス: Link先を確認
Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi, Dominik Wojtczak(参考訳) 再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。 最先端強化学習(RL)アルゴリズムは直接再帰を推論できないため、環境の「平らな」表現を設計する際には実践者の創造性に頼る必要がある。 結果として、手動の機能構成と近似は、面倒でエラーを起こし、透明性の欠如がスケーラビリティを損なう。 これらの課題を克服するため、我々はマルコフ決定プロセス(MDP)の集合として記述された環境下で最適なポリシーを計算できるRLアルゴリズムを開発した。 各構成MDPは、これらの呼び出しの入力および出力値に対応するいくつかのエントリおよび出口ポイントによって特徴づけられる。 これらの再帰的MDP(RMDP)は確率的プッシュダウンシステム(コールスタックがプッシュダウンスタックの役割を担っている)と表現的に等価であり、再帰的手続き的呼び出しで確率的プログラムをモデル化することができる。 RMDPのモデルフリーなRLアルゴリズムであるRecursive Q-learningを導入し、軽度な仮定の下で有限で単項かつ決定論的なRMDPに収束することを証明した。

Recursion is the fundamental paradigm to finitely describe potentially infinite objects. As state-of-the-art reinforcement learning (RL) algorithms cannot directly reason about recursion, they must rely on the practitioner's ingenuity in designing a suitable "flat" representation of the environment. The resulting manual feature constructions and approximations are cumbersome and error-prone; their lack of transparency hampers scalability. To overcome these challenges, we develop RL algorithms capable of computing optimal policies in environments described as a collection of Markov decision processes (MDPs) that can recursively invoke one another. Each constituent MDP is characterized by several entry and exit points that correspond to input and output values of these invocations. These recursive MDPs (or RMDPs) are expressively equivalent to probabilistic pushdown systems (with call-stack playing the role of the pushdown stack), and can model probabilistic programs with recursive procedural calls. We introduce Recursive Q-learning -- a model-free RL algorithm for RMDPs -- and prove that it converges for finite, single-exit and deterministic multi-exit RMDPs under mild assumptions.
翻訳日:2022-06-24 12:39:33 公開日:2022-06-23
# iot用フェデレーション学習の効率的な適応フェデレーション最適化

Efficient Adaptive Federated Optimization of Federated Learning for IoT ( http://arxiv.org/abs/2206.11448v1 )

ライセンス: Link先を確認
Zunming Chen, Hongyan Cui, Ensen Wu, Yu Xi(参考訳) IoT(Internet of Things)の普及と、センサー、コンピューティング、通信機能を備えたデバイスの普及は、人工知能によって強化されたインテリジェントなアプリケーションを動機付けている。 古典的な人工知能アルゴリズムは、データプライバシの懸念と分散データセットの増加により、現実的なインテリジェントなIoTアプリケーションでは困難な、集中的なデータ収集と処理を必要とする。 フェデレートラーニング(FL)は、IoTデバイスがモデルパラメータを共有することでグローバルモデルのトレーニングを可能にする分散プライバシ保護学習フレームワークとして登場した。 しかし、頻繁なパラメータ伝達による不効率はFL性能を著しく低下させる。 既存の加速度アルゴリズムは、通信と計算の間のトレードオフを考慮したローカル更新と、通信と精度の間のトレードオフを考慮したパラメータ圧縮の2つの主型からなる。 これら2つのトレードオフを共同で考慮し、収束への影響を適応的にバランスさせることは未解決のままである。 そこで本研究では,局所的な更新とパラメータ圧縮を含む2変数を共同で検討することにより,学習誤差を最小化し,計算,通信,精度の両変数を適応的に調整し,トレードオフのバランスをとることにより,FLの効率を向上する新しい適応型フェデレーション最適化(EAFO)アルゴリズムを提案する。 実験結果は、最先端のアルゴリズムと比較すると、提案したEAFOはより高速な精度を実現することができることを示している。

The proliferation of the Internet of Things (IoT) and widespread use of devices with sensing, computing, and communication capabilities have motivated intelligent applications empowered by artificial intelligence. The classical artificial intelligence algorithms require centralized data collection and processing which are challenging in realistic intelligent IoT applications due to growing data privacy concerns and distributed datasets. Federated Learning (FL) has emerged as a distributed privacy-preserving learning framework that enables IoT devices to train global model through sharing model parameters. However, inefficiency due to frequent parameters transmissions significantly reduce FL performance. Existing acceleration algorithms consist of two main type including local update considering trade-offs between communication and computation and parameter compression considering trade-offs between communication and precision. Jointly considering these two trade-offs and adaptively balancing their impacts on convergence have remained unresolved. To solve the problem, this paper proposes a novel efficient adaptive federated optimization (EAFO) algorithm to improve efficiency of FL, which minimizes the learning error via jointly considering two variables including local update and parameter compression and enables FL to adaptively adjust the two variables and balance trade-offs among computation, communication and precision. The experiment results illustrate that comparing with state-of-the-art algorithms, the proposed EAFO can achieve higher accuracies faster.
翻訳日:2022-06-24 12:39:10 公開日:2022-06-23
# RetroGraph: グラフ検索による再合成計画

RetroGraph: Retrosynthetic Planning with Graph Search ( http://arxiv.org/abs/2206.11477v1 )

ライセンス: Link先を確認
Shufang Xie, Rui Yan, Peng Han, Yingce Xia, Lijun Wu, Chenjuan Guo, Bin Yang, Tao Qin(参考訳) 標的分子を合成する反応経路を見つけることを目的とした再合成計画は、化学や薬物発見において重要な役割を果たす。 このタスクは通常、検索問題としてモデル化される。 近年,データ駆動型手法は多くの研究関心を集め,レトロシンセシス計画に有望な結果を示している。 我々は、同じ中間分子が探索過程で何度も訪問されることを観察し、それらは通常、以前の木に基づく方法(例えば、AND-OR木探索、モンテカルロ木探索)で独立に扱われる。 このような冗長性は、探索プロセスを非効率にする。 我々は,任意の中間分子の冗長な探索を排除できるグラフ検索ポリシーを提案する。 グラフ上の検索は木よりも複雑であるため、グラフ上の検索を導くためにグラフニューラルネットワークも採用している。 一方,本手法では,グラフ内の複数のターゲットを検索し,木に基づく探索手法のターゲット間重複を除去できる。 2つのデータセットの実験結果から,本手法の有効性が示された。 特に広く使用されているusptoベンチマークでは,検索成功率を99.47%に向上し,前回のパフォーマンスを2.6ポイント向上した。

Retrosynthetic planning, which aims to find a reaction pathway to synthesize a target molecule, plays an important role in chemistry and drug discovery. This task is usually modeled as a search problem. Recently, data-driven methods have attracted many research interests and shown promising results for retrosynthetic planning. We observe that the same intermediate molecules are visited many times in the searching process, and they are usually independently treated in previous tree-based methods (e.g., AND-OR tree search, Monte Carlo tree search). Such redundancies make the search process inefficient. We propose a graph-based search policy that eliminates the redundant explorations of any intermediate molecules. As searching over a graph is more complicated than over a tree, we further adopt a graph neural network to guide the search over graphs. Meanwhile, our method can search a batch of targets together in the graph and remove the inter-target duplication in the tree-based search methods. Experimental results on two datasets demonstrate the effectiveness of our method. Especially on the widely used USPTO benchmark, we improve the search success rate to 99.47%, advancing previous state-of-the-art performance for 2.6 points.
翻訳日:2022-06-24 12:38:47 公開日:2022-06-23
# (参考訳) derivative-informed neural operator:高次元パラメトリック微分学習のための効率的な枠組み

Derivative-Informed Neural Operator: An Efficient Framework for High-Dimensional Parametric Derivative Learning ( http://arxiv.org/abs/2206.10745v2 )

ライセンス: CC BY 4.0
Thomas O'Leary-Roseberry, Peng Chen, Umberto Villa, and Omar Ghattas(参考訳) ニューラル演算子は最近、関数空間間の高次元パラメトリックマップを近似する能力により、大きな注目を集めている。 現在、神経オペレーターの文献ではパラメトリック関数近似のみが扱われている。 本研究では,ニューラル演算子訓練におけるパラメトリック微分情報の導入について検討する。この情報は関数近似を改善できるだけでなく,高次元外ループ問題(ベイズ逆問題など)のスケーラブルな解の鍵となるパラメータに対する微分の近似を改善するためにも利用できる。 パラメトリックジャコビアン情報は,その高次元性から組み込むことができ,SVDの削減,スケッチのランダム化,ベースサロゲートの削減に基づく戦略を提案する。 これらの戦略は、ジャコビアンデータのサンプルを構成するためにのみ$O(r)$のジャコビアン作用を必要とし、ジャコビアントレーニングに関連する線形代数とメモリコストを入力と出力の次元の積から$O(r^2)$に下げることができる。 パラメトリックPDE問題に対する数値計算の結果、特に少ないデータの場合、トレーニング問題への微分情報の追加はパラメトリックマップ近似を大幅に改善することを示した。 ヤコビアン行動がパラメトリックマップに比べて安価であれば、この情報はパラメトリックマップデータに経済的に置き換えることができる。 さらに,jacob型トレーニングデータの導入により,jacob型エラー近似が大幅に改善することを示す。 この結果は、外部ループアルゴリズムにおける微分型ニューラルネットワーク(dinos)の使用への扉を開き、繰り返し評価することで追加のトレーニングデータコストを償却することができる。

Neural operators have gained significant attention recently due to their ability to approximate high-dimensional parametric maps between function spaces. At present, only parametric function approximation has been addressed in the neural operator literature. In this work we investigate incorporating parametric derivative information in neural operator training; this information can improve function approximations, additionally it can be used to improve the approximation of the derivative with respect to the parameter, which is often the key to scalable solution of high-dimensional outer-loop problems (e.g. Bayesian inverse problems). Parametric Jacobian information is formally intractable to incorporate due to its high-dimensionality, to address this concern we propose strategies based on reduced SVD, randomized sketching and the use of reduced basis surrogates. All of these strategies only require only $O(r)$ Jacobian actions to construct sample Jacobian data, and allow us to reduce the linear algebra and memory costs associated with the Jacobian training from the product of the input and output dimensions down to $O(r^2)$, where $r$ is the dimensionality associated with the dimension reduction technique. Numerical results for parametric PDE problems demonstrate that the addition of derivative information to the training problem can significantly improve the parametric map approximation, particularly given few data. When Jacobian actions are inexpensive compared to the parametric map, this information can be economically substituted for parametric map data. Additionally we show that Jacobian error approximations improve significantly with the introduction of Jacobian training data. This result opens the door to the use of derivative-informed neural operators (DINOs) in outer-loop algorithms where they can amortize the additional training data cost via repeated evaluations.
翻訳日:2022-06-24 12:37:18 公開日:2022-06-23
# (参考訳) スタイリスティックメトリクスを用いた欠陥予測

Defect Prediction Using Stylistic Metrics ( http://arxiv.org/abs/2206.10959v2 )

ライセンス: CC BY 4.0
Rafed Muhammad Yasir, Moumita Asad, Dr. Ahmedul Kabir(参考訳) 欠陥予測は、ソフトウェア品質保証の努力を最小限に抑えるために最も人気のある研究トピックの1つである。 既存のアプローチでは、複雑性や開発者のメトリクスなど、さまざまな観点から欠陥予測を調査している。 しかし、いずれも欠陥予測にはプログラミングスタイルを考慮しない。 本稿では,プロジェクト内およびプロジェクト間の欠陥予測におけるスタイル指標の影響を分析することを目的とした。 予測には、Naive Bayes、Support Vector Machine、Decision Tree、Logistic Regressionという4つの機械学習アルゴリズムが広く使用されている。 この実験は5つの人気のあるオープンソースプロジェクトの14のリリースで実施されている。 F1、精度、リコールを検査して結果を評価する。 その結果、スタイリスティックなメトリクスは欠陥のよい予測要因であることが判明した。

Defect prediction is one of the most popular research topics due to its potential to minimize software quality assurance efforts. Existing approaches have examined defect prediction from various perspectives such as complexity and developer metrics. However, none of these consider programming style for defect prediction. This paper aims at analyzing the impact of stylistic metrics on both within-project and crossproject defect prediction. For prediction, 4 widely used machine learning algorithms namely Naive Bayes, Support Vector Machine, Decision Tree and Logistic Regression are used. The experiment is conducted on 14 releases of 5 popular, open source projects. F1, Precision and Recall are inspected to evaluate the results. Results reveal that stylistic metrics are a good predictor of defects.
翻訳日:2022-06-24 12:07:27 公開日:2022-06-23
# (参考訳) correct and certify: 自己教師付き3dオブジェクト知覚への新しいアプローチ

Correct and Certify: A New Approach to Self-Supervised 3D-Object Perception ( http://arxiv.org/abs/2206.11215v2 )

ライセンス: CC BY 4.0
Rajat Talak, Lisa Peng, and Luca Carlone(参考訳) 対象のポーズ推定とモデルフィッティングの問題を考える。対象の部分点クラウドは、cadモデルをセンサデータに適合させることで、対象ポーズを推定することを目的としている。 私たちはこの問題を組み合わせて解決する (i)意味的キーポイントに基づくポーズ推定モデル (二)新しい自己指導型研修方法、及び (iii) モデルが生成した出力が正しいか否かを検証できるだけでなく、生成した解の独特さをフラグする認証手続。 セマンティクスキーポイント検出器モデルは、当初はシミュレーションで訓練されており、ドメインギャップのため実データではうまく動作しない。 自己監督訓練では,検出装置の改良に補正器と認証モジュールを用いる。 修正モジュールは検出されたキーポイントを補正してドメインギャップを補償し、宣言層として実装し、簡単な微分則を開発する。 認証モジュールは、モデルによって生成された補正された出力が証明可能であるか否か(すなわち正しい)を宣言する。 各イテレーションでは、検証可能な入出力ペアのみによって引き起こされる損失を最適化する。 トレーニングが進むにつれて、検証可能なアウトプットのごく一部が増加し、多くの場合、100ドル=$近くに達する。 また、予測対象モデルが一意であるか否かをモデルが判断できる強力な証明可能性の概念も導入する。 検出されたセマンティックキーポイントは、フォワードパスでこれを実装するのに役立つ。 提案手法は,シェープネットとycbデータセットを用いて,修正者,認証者,提案する自己教師付きトレーニングの性能を評価するための広範囲な実験を行い,実データに対してポーズやキーポイントの監督を必要とせず,完全に教師付きベースラインと同等のパフォーマンスを実現する。

We consider an object pose estimation and model fitting problem, where - given a partial point cloud of an object - the goal is to estimate the object pose by fitting a CAD model to the sensor data. We solve this problem by combining (i) a semantic keypoint-based pose estimation model, (ii) a novel self-supervised training approach, and (iii) a certification procedure, that not only verifies whether the output produced by the model is correct or not, but also flags uniqueness of the produced solution. The semantic keypoint detector model is initially trained in simulation and does not perform well on real-data due to the domain gap. Our self-supervised training procedure uses a corrector and a certification module to improve the detector. The corrector module corrects the detected keypoints to compensate for the domain gap, and is implemented as a declarative layer, for which we develop a simple differentiation rule. The certification module declares whether the corrected output produced by the model is certifiable (i.e. correct) or not. At each iteration, the approach optimizes over the loss induced only by the certifiable input-output pairs. As training progresses, we see that the fraction of outputs that are certifiable increases, eventually reaching near $100\%$ in many cases. We also introduce the notion of strong certifiability wherein the model can determine if the predicted object model fit is unique or not. The detected semantic keypoints help us implement this in the forward pass. We conduct extensive experiments to evaluate the performance of the corrector, the certification, and the proposed self-supervised training using the ShapeNet and YCB datasets, and show the proposed approach achieves performance comparable to fully supervised baselines while not requiring pose or keypoint supervision on real data.
翻訳日:2022-06-24 11:58:59 公開日:2022-06-23
# ロバスト飛行制御のためのニューラル移動水平推定

Neural Moving Horizon Estimation for Robust Flight Control ( http://arxiv.org/abs/2206.10397v3 )

ライセンス: Link先を確認
Bingheng Wang, Zhengtian Ma, Shupeng Lai, and Lin Zhao(参考訳) 外乱に対する推定と反応は、クワッドローターのロバストな飛行制御に不可欠である。 既存の推定器は通常、満足な性能を達成するために、特定の飛行シナリオの大幅なチューニングや、広範な実世界のデータによるトレーニングを必要とする。 本稿では,ニューラルネットワークによってモデル化されたMHEパラメータを自動的に調整し,異なる飛行シナリオに適応できるニューロ移動地平線推定器を提案する。 本研究では,mheのパラメータに関する推定値の解析勾配を導出し,mheを層としてニューラルネットワークにシームレスに埋め込み,高効率な学習を実現する。 最も興味深いのは、カルマンフィルタから再帰的に勾配を効率的に解くことができることである。 さらに, 軌道追従誤差から直接ニューロメエを訓練するモデルベースポリシー勾配アルゴリズムを, 地中外乱を必要とせずに開発した。 ニューロMHEの有効性は、様々な挑戦飛行において四重極子上でのシミュレーションと物理実験を通じて広範囲に検証される。 特に、ニューロマッハは2.5%のパラメータしか使わず、強制推定誤差を最大49.4%まで削減することで最先端の推定器を上回る。 提案手法は汎用的であり,他のロボットシステムのロバスト適応制御に適用可能である。

Estimating and reacting to external disturbances is crucial for robust flight control of quadrotors. Existing estimators typically require significant tuning for a specific flight scenario or training with extensive real-world data to achieve satisfactory performance. In this paper, we propose a neural moving horizon estimator (NeuroMHE) that can automatically tune the MHE parameters modeled by a neural network and adapt to different flight scenarios. We achieve this by deriving the analytical gradient of the MHE estimates with respect to the tunable parameters, enabling a seamless embedding of MHE as a layer into the neural network for highly effective learning. Most interestingly, we show that the gradient can be solved efficiently from a Kalman filter in a recursive form. Moreover, we develop a model-based policy gradient algorithm to train NeuroMHE directly from the trajectory tracking error without the need for the ground-truth disturbance. The effectiveness of NeuroMHE is verified extensively via both simulations and physical experiments on a quadrotor in various challenging flights. Notably, NeuroMHE outperforms the state-of-the-art estimator with force estimation error reductions of up to 49.4% by using only a 2.5% amount of parameters. The proposed method is general and can be applied to robust adaptive control for other robotic systems.
翻訳日:2022-06-24 11:20:22 公開日:2022-06-23
# (参考訳) GEMv2: 1行のコードによる多言語NLGベンチマーク

GEMv2: Multilingual NLG Benchmarking in a Single Line of Code ( http://arxiv.org/abs/2206.11249v2 )

ライセンス: CC BY 4.0
Sebastian Gehrmann, Abhik Bhattacharjee, Abinaya Mahendiran, Alex Wang, Alexandros Papangelis, Aman Madaan, Angelina McMillan-Major, Anna Shvets, Ashish Upadhyay, Bingsheng Yao, Bryan Wilie, Chandra Bhagavatula, Chaobin You, Craig Thomson, Cristina Garbacea, Dakuo Wang, Daniel Deutsch, Deyi Xiong, Di Jin, Dimitra Gkatzia, Dragomir Radev, Elizabeth Clark, Esin Durmus, Faisal Ladhak, Filip Ginter, Genta Indra Winata, Hendrik Strobelt, Hiroaki Hayashi, Jekaterina Novikova, Jenna Kanerva, Jenny Chim, Jiawei Zhou, Jordan Clive, Joshua Maynez, Jo\~ao Sedoc, Juraj Juraska, Kaustubh Dhole, Khyathi Raghavi Chandu, Laura Perez-Beltrachini, Leonardo F. R. Ribeiro, Lewis Tunstall, Li Zhang, Mahima Pushkarna, Mathias Creutz, Michael White, Mihir Sanjay Kale, Moussa Kamal Eddine, Nico Daheim, Nishant Subramani, Ondrej Dusek, Paul Pu Liang, Pawan Sasanka Ammanamanchi, Qi Zhu, Ratish Puduppully, Reno Kriz, Rifat Shahriyar, Ronald Cardenas, Saad Mahamood, Salomey Osei, Samuel Cahyawijaya, Sanja \v{S}tajner, Sebastien Montella, Shailza, Shailza Jolly, Simon Mille, Tahmid Hasan, Tianhao Shen, Tosin Adewumi, Vikas Raunak, Vipul Raheja, Vitaly Nikolaev, Vivian Tsai, Yacine Jernite, Ying Xu, Yisi Sang, Yixin Liu, Yufang Hou(参考訳) 機械学習の評価は通常、データセットやメトリクスなど、過去の選択によって通知される。 この標準化により、リーダーボードを用いた均等な足場の比較が可能となるが、より良い選択肢が生まれるにつれて、評価選択は準最適となる。 この問題は、断定的な主張をするためにデータセット、メトリクス、人間の評価を継続的に改善する必要がある自然言語生成において特に重要となる。 モデル評価のベストプラクティスをより容易にするために、GEMv2を導入します。 新バージョンのGeneration, Evaluation, Metrics Benchmarkでは、データセット、モデル、メトリック開発者が互いに作業の恩恵を受けるためのモジュラーインフラストラクチャが導入されている。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。

Evaluation in machine learning is usually informed by past choices, for example which datasets or metrics to use. This standardization enables the comparison on equal footing using leaderboards, but the evaluation choices become sub-optimal as better alternatives arise. This problem is especially pertinent in natural language generation which requires ever-improving suites of datasets, metrics, and human evaluation to make definitive claims. To make following best model evaluation practices easier, we introduce GEMv2. The new version of the Generation, Evaluation, and Metrics Benchmark introduces a modular infrastructure for dataset, model, and metric developers to benefit from each others work. GEMv2 supports 40 documented datasets in 51 languages. Models for all datasets can be evaluated online and our interactive data card creation and rendering tools make it easier to add new datasets to the living benchmark.
翻訳日:2022-06-24 11:18:59 公開日:2022-06-23
# 適応マスクによる分散ネットワーク上のノード分類学習

Propagation with Adaptive Mask then Training for Node Classification on Attributed Networks ( http://arxiv.org/abs/2206.10142v2 )

ライセンス: Link先を確認
Jinsong Chen, Boyu Li, Qiuting He, Kun He(参考訳) 属性ネットワーク上のノード分類は、ネットワーク分析に不可欠な半教師付きタスクである。 グラフ畳み込みネットワーク(GCN)における2つの重要な操作、すなわち特徴変換と近傍集約を分離することにより、分離されたGCNの最近の研究は、より深く伝播し、高度なパフォーマンスを達成するための情報を支援することができる。 しかし、gcnsの伝統的な構造認識伝播戦略に従い、ノードの属性相関を捉えることは難しく、2つのエンドポイントが異なるカテゴリに属するエッジによって記述される構造ノイズに敏感である。 そこで本研究では,適応マスクによるitshape propagation with adaptive mask then training (pamt) という手法を提案する。 重要なアイデアは、属性類似性マスクを構造認識伝播プロセスに統合することです。 このようにして、PAMTは伝搬中の隣接ノードの属性相関を保ち、構造ノイズの影響を効果的に低減できる。 さらに,トレーニングプロセス中に類似性マスクを更新し,トレーニング性能を向上させるための反復改良機構を開発する。 4つの実世界のデータセットに対する大規模な実験は、PAMTの優れた性能と堅牢性を示している。

Node classification on attributed networks is a semi-supervised task that is crucial for network analysis. By decoupling two critical operations in Graph Convolutional Networks (GCNs), namely feature transformation and neighborhood aggregation, some recent works of decoupled GCNs could support the information to propagate deeper and achieve advanced performance. However, they follow the traditional structure-aware propagation strategy of GCNs, making it hard to capture the attribute correlation of nodes and sensitive to the structure noise described by edges whose two endpoints belong to different categories. To address these issues, we propose a new method called the itshape Propagation with Adaptive Mask then Training (PAMT). The key idea is to integrate the attribute similarity mask into the structure-aware propagation process. In this way, PAMT could preserve the attribute correlation of adjacent nodes during the propagation and effectively reduce the influence of structure noise. Moreover, we develop an iterative refinement mechanism to update the similarity mask during the training process for improving the training performance. Extensive experiments on four real-world datasets demonstrate the superior performance and robustness of PAMT.
翻訳日:2022-06-24 10:50:09 公開日:2022-06-23
# FedorAS: システムの異質性の下でのフェデレーションアーキテクチャ検索

FedorAS: Federated Architecture Search under system heterogeneity ( http://arxiv.org/abs/2206.11239v2 )

ライセンス: Link先を確認
Lukasz Dudziak, Stefanos Laskaridis, Javier Fernandez-Marques(参考訳) federated learning(fl)は最近、プライバシを維持しながら分散データを使用する能力により、かなりの注目を集めている。 しかし、これはまた、その計算能力とコントリビューションデータの両方の観点から、参加するデバイスの不均一性に関する追加の課題を引き起こす。 一方、Neural Architecture Search(NAS)は中央集権的なデータセットでうまく利用されており、制約付き(ハードウェア対応)と制約なしの設定で最先端の結果を生成する。 しかしながら、NASとFLの交差点に位置する最新の研究でさえ、データセンターグレードのハードウェアで同質な計算環境を前提としており、制約のある異種デバイスを扱う際の問題には対処していない。 その結果、フェデレーション環境でのnasの実用的利用は、我々の仕事において解決されるオープンな問題です。 本システムであるFedorASを設計し,非IID分散データを持つ様々な機能を持つデバイスに対処する際の有望なアーキテクチャの発見と訓練を行い,その有効性を示す実証的証拠を示す。 具体的には、3つの異なるモード(ビジョン、スピーチ、テキスト)にまたがるデータセット間でFedorASを評価し、リソース効率を維持しながら、最先端のフェデレーションソリューションよりも優れたパフォーマンスを示す。

Federated learning (FL) has recently gained considerable attention due to its ability to use decentralised data while preserving privacy. However, it also poses additional challenges related to the heterogeneity of the participating devices, both in terms of their computational capabilities and contributed data. Meanwhile, Neural Architecture Search (NAS) has been successfully used with centralised datasets, producing state-of-the-art results in constrained (hardware-aware) and unconstrained settings. However, even the most recent work laying at the intersection of NAS and FL assumes homogeneous compute environment with datacenter-grade hardware and does not address the issues of working with constrained, heterogeneous devices. As a result, practical usage of NAS in a federated setting remains an open problem that we address in our work. We design our system, FedorAS, to discover and train promising architectures when dealing with devices of varying capabilities holding non-IID distributed data, and present empirical evidence of its effectiveness across different settings. Specifically, we evaluate FedorAS across datasets spanning three different modalities (vision, speech, text) and show its better performance compared to state-of-the-art federated solutions, while maintaining resource efficiency.
翻訳日:2022-06-24 10:49:26 公開日:2022-06-23