このサイトではarxivで発表された論文のメタデータを翻訳しています。(arxivのメタデータは CC 0です) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。 技術的な詳細は開発者のBlogで紹介します。

下表は最大200件を表示しています。

PDF登録状況(最新200件)


TitleAuthorsAbstract論文公表日・翻訳日
# 埋め込み場における方向多重グラフの入射 一般化

The Immersion of Directed Multi-graphs in Embedding Fields. Generalisations ( http://arxiv.org/abs/2004.13384v1 )

ライセンス: Link先を確認
Bogdan Bocse and Ioan Radu Jinga(参考訳) 本研究の目的は,同一のアーキテクチャデータ層において,入力,出力,潜時テンソルの表現を具現化するために,関係分類,記号,知覚感覚,知覚遅延データのハイブリッド表現の一般化モデルを概説することである。 この表現は、コンピュータビジョンにおける様々な機械学習モデル、NLP/NLU、クロスドメインクエリと関数を直接適用可能な強化学習で現在使用されている。 これは、視覚的、言語的、聴覚的な潜在表現を含むテンソル形式間の新しい類似性と距離関係を定義し、構築し、計算するために、様々な潜在空間からの埋め込みを表す少なくともいくつかのエッジ属性を持つ有向テンソル型多グラフを付与することにより達成される。

The purpose of this paper is to outline a generalised model for representing hybrids of relational-categorical, symbolic, perceptual-sensory and perceptual-latent data, so as to embody, in the same architectural data layer, representations for the input, output and latent tensors. This variety of representation is currently used by various machine-learning models in computer vision, NLP/NLU, reinforcement learning which allows for direct application of cross-domain queries and functions. This is achieved by endowing a directed Tensor-Typed Multi-Graph with at least some edge attributes which represent the embeddings from various latent spaces, so as to define, construct and compute new similarity and distance relationships between and across tensorial forms, including visual, linguistic, auditory latent representations, thus stitching the logical-categorical view of the observed universe to the Bayesian/statistical view.
公開日:2020-04-28
翻訳日:2022-12-08 21:50:19
# 花びのレインボーdqn剤の未発見パートナーによる評価

Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners ( http://arxiv.org/abs/2004.13291v1 )

ライセンス: Link先を確認
Rodrigo Canaan, Xianbo Gao, Youjin Chung, Julian Togelius, Andy Nealen and Stefan Menzel(参考訳) ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。 共有戦略によってゲームでほぼ完全なスコアを達成できるエージェントは存在するが、パートナーと戦略が事前に分かっていないアドホックな協調設定では、比較的進歩がほとんど行われていない。 本稿では,人気のあるレインボーdqnアーキテクチャを用いた自己遊びによって訓練されたエージェントは,トレーニング中に見られなかった単純なルールベースエージェントとうまく連携できず,逆に,個々のルールベースエージェント,あるいはこれらのエージェントの混合でさえも,優れた自己プレイスコアを達成することができないことを示す。

Hanabi is a cooperative game that challenges exist-ing AI techniques due to its focus on modeling the mental states ofother players to interpret and predict their behavior. While thereare agents that can achieve near-perfect scores in the game byagreeing on some shared strategy, comparatively little progresshas been made in ad-hoc cooperation settings, where partnersand strategies are not known in advance. In this paper, we showthat agents trained through self-play using the popular RainbowDQN architecture fail to cooperate well with simple rule-basedagents that were not seen during training and, conversely, whenthese agents are trained to play with any individual rule-basedagent, or even a mix of these agents, they fail to achieve goodself-play scores.
公開日:2020-04-28
翻訳日:2022-12-08 21:50:00
# 画像分類における訓練可能な活性化関数

Trainable Activation Function in Image Classification ( http://arxiv.org/abs/2004.13271v2 )

ライセンス: Link先を確認
Zhaohe Liao(参考訳) 現在のニューラルネットワークの研究では、アクティベーション機能は人間が手動で指定し、トレーニング中に自分自身を変えることができない。 本稿では,ニューラルネットワークのアクティベーション関数を学習可能にする方法について述べる。 アクティベーション関数の連続および線形結合は、アクティベーション関数を連続的に変動させる。 また,CNNとFourier-CNNを併用したCNNと,Cifar-10データセット上でのLC-CNNの性能試験を行った。 その結果、トレーニング可能なアクティベーション関数は、最もよく使われるreluアクティベーション関数よりも優れたパフォーマンスを示しています。 最後に、オートエンコーダによるフーリエCNNの性能向上と、ネットワークパラメータの最適化におけるPSOアルゴリズムの性能試験を行う。

In the current research of neural networks, the activation function is manually specified by human and not able to change themselves during training. This paper focus on how to make the activation function trainable for deep neural networks. We use series and linear combination of different activation functions make activation functions continuously variable. Also, we test the performance of CNNs with Fourier series simulated activation(Fourier-CNN) and CNNs with linear combined activation function (LC-CNN) on Cifar-10 dataset. The result shows our trainable activation function reveals better performance than the most used ReLU activation function. Finally, we improves the performance of Fourier-CNN with Autoencoder, and test the performance of PSO algorithm in optimizing the parameters of networks
公開日:2020-06-05
翻訳日:2022-12-08 21:49:44
# ニューラルアーキテクチャ探索のための角度に基づく探索空間縮小

Angle-based Search Space Shrinking for Neural Architecture Search ( http://arxiv.org/abs/2004.13431v3 )

ライセンス: Link先を確認
Yiming Hu, Yuding Liang, Zichao Guo, Ruosi Wan, Xiangyu Zhang, Yichen Wei, Qingyi Gu, Jian Sun(参考訳) 本研究では,ニューラルネットワーク探索(NAS)のためのアングルベース探索空間シュライキング(ABS)と呼ばれる,単純で汎用的な探索空間縮小手法を提案する。 提案手法は, 従来のNAS手法が優れたアーキテクチャを見つけることの難しさを軽減し, 探索空間を段階的に単純化する。 特に,縮小過程を導くために,角度に基づく計量法を提案する。 重み付けスーパーネットにおいて,提案手法は,子モデルの能力を予測するために,精度ベースおよび等級ベースの指標よりも安定かつ正確であることを示す。 また,超ネットの学習中に角度に基づくメトリックが高速に収束し,有望な探索空間を効率的に獲得できることを示した。 ABSは、ほとんどのNASアプローチ(例えば、SPOS、FairNAS、ProxylessNAS、DARTS、PDARTS)に容易に適用できる。 包括的実験により、ABSは有望なスランク検索空間を提供することで既存のNASアプローチを劇的に強化できることが示された。

In this work, we present a simple and general search space shrinking method, called Angle-Based search space Shrinking (ABS), for Neural Architecture Search (NAS). Our approach progressively simplifies the original search space by dropping unpromising candidates, thus can reduce difficulties for existing NAS methods to find superior architectures. In particular, we propose an angle-based metric to guide the shrinking process. We provide comprehensive evidences showing that, in weight-sharing supernet, the proposed metric is more stable and accurate than accuracy-based and magnitude-based metrics to predict the capability of child models. We also show that the angle-based metric can converge fast while training supernet, enabling us to get promising shrunk search spaces efficiently. ABS can easily apply to most of NAS approaches (e.g. SPOS, FairNAS, ProxylessNAS, DARTS and PDARTS). Comprehensive experiments show that ABS can dramatically enhance existing NAS approaches by providing a promising shrunk search space.
公開日:2020-07-16
翻訳日:2022-12-08 21:49:31
# マルチリレーショナルグラフのためのサンプル外表現学習

Out-of-Sample Representation Learning for Multi-Relational Graphs ( http://arxiv.org/abs/2004.13230v2 )

ライセンス: Link先を確認
Marjan Albooyeh, Rishab Goel, Seyed Mehran Kazemi(参考訳) 多くの重要な問題は知識グラフの推論として定式化できる。 表現学習はトランスダクティブ推論において極めて効果的であることが証明されており、すでに観察されている実体に対する新しい予測を行う必要がある。 これは、(各エンティティが初期特徴ベクトルを持つ)帰属グラフと(他のエンティティとの既知の関係から唯一の初期情報を引き出す)非帰属グラフの両方に当てはまる。 トレーニング時に見つからないエンティティの予測を行う必要がある、サンプル外推論では、以前の作業は属性付きグラフを考慮する。 しかし、この問題は非帰属グラフに対して驚くほど未解決である。 本稿では,非帰属ナレッジグラフのサンプル表現学習問題を調査し,このタスクのためのベンチマークデータセットを作成し,いくつかのモデルとベースラインを開発し,提案するモデルとベースラインの実証的分析と比較を行う。

Many important problems can be formulated as reasoning in knowledge graphs. Representation learning has proved extremely effective for transductive reasoning, in which one needs to make new predictions for already observed entities. This is true for both attributed graphs(where each entity has an initial feature vector) and non-attributed graphs (where the only initial information derives from known relations with other entities). For out-of-sample reasoning, where one needs to make predictions for entities that were unseen at training time, much prior work considers attributed graph. However, this problem is surprisingly under-explored for non-attributed graphs. In this paper, we study the out-of-sample representation learning problem for non-attributed knowledge graphs, create benchmark datasets for this task, develop several models and baselines, and provide empirical analyses and comparisons of the proposed models and baselines.
公開日:2020-10-23
翻訳日:2022-12-08 21:49:11
# r^3$:コモンセンス知識を用いたサーカズム生成のためのリバース、レトリバー、ランク

$R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with Commonsense Knowledge ( http://arxiv.org/abs/2004.13248v4 )

ライセンス: Link先を確認
Tuhin Chakrabarty, and Debanjan Ghosh, and Smaranda Muresan, and Nanyun Peng(参考訳) 非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。 提案手法では,話者とリスナー間の共有常識や世界知識を含むコンテキストと,有意性逆転と意味的不整合の2つの主要な特徴をキャラクタリゼーションするために,検索と編集の枠組みを用いる。 先行研究のサルカズム生成は主に文脈不合理性に焦点をあてる一方で,共通感覚知識に基づく価率反転と意味不合理性の組み合わせが高品質のサルカズムを生み出すことを示した。 人体評価の結果,ヒトのアノテータの34%がサルカズムを,その90%が強化されたハイブリッドベースラインよりも優れていることがわかった。

We propose an unsupervised approach for sarcasm generation based on a non-sarcastic input sentence. Our method employs a retrieve-and-edit framework to instantiate two major characteristics of sarcasm: reversal of valence and semantic incongruity with the context which could include shared commonsense or world knowledge between the speaker and the listener. While prior works on sarcasm generation predominantly focus on context incongruity, we show that combining valence reversal and semantic incongruity based on the commonsense knowledge generates sarcasm of higher quality. Human evaluation shows that our system generates sarcasm better than human annotators 34% of the time, and better than a reinforced hybrid baseline 90% of the time.
公開日:2020-06-17
翻訳日:2022-12-08 21:48:56
# KACC: 知識抽象化,要約,補完のためのマルチタスクベンチマーク

KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization and Completion ( http://arxiv.org/abs/2004.13631v2 )

ライセンス: Link先を確認
Jie Zhou, Shengding Hu, Xin Lv, Cheng Yang, Zhiyuan Liu, Wei Xu, Jie Jiang, Juanzi Li, Maosong Sun(参考訳) 包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。 二視点のKGは、人間が世界を認識し、学習した知識を管理するのに不可欠である知識抽象化、包括、完成(KACC)に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。 現存する研究は主にKACCの部分的な側面に焦点を当てている。 モデルのKACC能力の詳細な分析を促進するため,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。 具体的には、より大きな概念グラフ、豊富なクロスビューリンク、そして密度の高いエンティティグラフを含む新しいデータセットを収集する。 このデータセットに基づいて,マルチホップ知識抽象化(MKA)やマルチホップ知識強調化(MKC)といった新しいタスクを提案し,総合的なベンチマークを設計する。 mkaとmkcのタスクでは、より難しいサンプルとしてマルチホップ階層トリプルをアノテートします。 既存の手法の実験結果は,ベンチマークの課題を示すものである。 リソースはhttps://github.com/thunlp/KACCで入手できる。

A comprehensive knowledge graph (KG) contains an instance-level entity graph and an ontology-level concept graph. The two-view KG provides a testbed for models to "simulate" human's abilities on knowledge abstraction, concretization, and completion (KACC), which are crucial for human to recognize the world and manage learned knowledge. Existing studies mainly focus on partial aspects of KACC. In order to promote thorough analyses for KACC abilities of models, we propose a unified KG benchmark by improving existing benchmarks in terms of dataset scale, task coverage, and difficulty. Specifically, we collect new datasets that contain larger concept graphs, abundant cross-view links as well as dense entity graphs. Based on the datasets, we propose novel tasks such as multi-hop knowledge abstraction (MKA), multi-hop knowledge concretization (MKC) and then design a comprehensive benchmark. For MKA and MKC tasks, we further annotate multi-hop hierarchical triples as harder samples. The experimental results of existing methods demonstrate the challenges of our benchmark. The resource is available at https://github.com/thunlp/KACC.
公開日:2021-06-04
翻訳日:2022-12-08 21:48:41
# 二重遷移損失に基づく雑音ラベルによる関係抽出の実践的枠組み

A Practical Framework for Relation Extraction with Noisy Labels Based on Doubly Transitional Loss ( http://arxiv.org/abs/2004.13786v1 )

ライセンス: Link先を確認
Shanchan Wu and Kai Fan(参考訳) 人間のアノテーションやルールに基づく自動ラベリングは関係抽出のためのデータ強化に有効な方法である。 しかし、例えば遠方の監督による不注意なラベル付け問題は、既存の多くの手法の性能を悪化させる可能性がある。 この問題に対処するために,提案する2つの遷移機構を備えた標準特徴抽出器と新しい雑音分類器を含む,実用的なエンドツーエンドディープラーニングフレームワークを導入する。 1つの遷移は基本的に、真と雑音のラベル間の変換を暗黙的に表す隠された層間の非線形変換によってパラメータ化され、他のモデルパラメータと共に容易に最適化できる。 もう1つは、ラベル間の直接変換をキャプチャする明示的な確率遷移行列であるが、EMアルゴリズムから導出する必要がある。 私たちはNYTデータセットとSemEval 2018 Task 7で実験を行います。 実験の結果は、最先端の手法よりも同等か良い性能を示している。

Either human annotation or rule based automatic labeling is an effective method to augment data for relation extraction. However, the inevitable wrong labeling problem for example by distant supervision may deteriorate the performance of many existing methods. To address this issue, we introduce a practical end-to-end deep learning framework, including a standard feature extractor and a novel noisy classifier with our proposed doubly transitional mechanism. One transition is basically parameterized by a non-linear transformation between hidden layers that implicitly represents the conversion between the true and noisy labels, and it can be readily optimized together with other model parameters. Another is an explicit probability transition matrix that captures the direct conversion between labels but needs to be derived from an EM algorithm. We conduct experiments on the NYT dataset and SemEval 2018 Task 7. The empirical results show comparable or better performance over state-of-the-art methods.
公開日:2020-04-28
翻訳日:2022-12-08 21:48:21
# Deep Conversational Recommender Systems: ゴール指向対話システムのための新しいフロンティア

Deep Conversational Recommender Systems: A New Frontier for Goal-Oriented Dialogue Systems ( http://arxiv.org/abs/2004.13245v1 )

ライセンス: Link先を確認
Dai Hoang Tran, Quan Z. Sheng, Wei Emma Zhang, Salma Abdalla Hamad, Munazza Zaib, Nguyen H. Tran, Lina Yao, Nguyen Lu Dang Khoa(参考訳) 近年,自然言語処理技術を活用したレコメンデータシステムの新たな話題が注目され,その応用例としてConversational Recommender System (CRS)がある。 コンテンツベースで協調的なフィルタリングアプローチを持つ従来のレコメンデータシステムとは異なり、CRSは対話型対話を通じてユーザの好みを学習し、モデル化する。 本研究では,最近のCRSの進化を要約し,深層学習アプローチをCRSに適用し,実りある結果を得た。 まず,深層会話型レコメンダシステム(deep conversational recommender systems, dcrs)の開発において,研究課題を分析し,その課題を提示する。 最後に、この活気ある地域の今後の方向性について論じる。

In recent years, the emerging topics of recommender systems that take advantage of natural language processing techniques have attracted much attention, and one of their applications is the Conversational Recommender System (CRS). Unlike traditional recommender systems with content-based and collaborative filtering approaches, CRS learns and models user's preferences through interactive dialogue conversations. In this work, we provide a summarization of the recent evolution of CRS, where deep learning approaches are applied to CRS and have produced fruitful results. We first analyze the research problems and present key challenges in the development of Deep Conversational Recommender Systems (DCRS), then present the current state of the field taken from the most recent researches, including the most common deep learning models that benefit DCRS. Finally, we discuss future directions for this vibrant area.
公開日:2020-04-28
翻訳日:2022-12-08 21:48:08
# テキスト文書における教師なし意味文ランキング方式

An Unsupervised Semantic Sentence Ranking Scheme for Text Documents ( http://arxiv.org/abs/2005.02158v1 )

ライセンス: Link先を確認
Hao Zhang, Jie Wang(参考訳) 本稿では,ssr (semantic sentencerank) について述べる。ssr (unsupervised scheme, unsupervised scheme) は,その相対的重要性に応じて1つの文書中の文章を自動的にランク付けする手法である。 特に、ssrは、テキスト文書から本質的な単語と句を抽出し、それぞれ、句と単語についての意味句グラフと、文上の意味文グラフを構築するための意味尺度を用いる。 記事構造バイアスのPageRankの2つの変種を適用し、第1グラフのフレーズと単語、第2グラフの文をスコアする。 そしてこれらのスコアを組み合わせて、各文の最終スコアを生成する。 最後に、ssrは、意味サブトピッククラスタリングによる最終スコアとトピックの多様性に基づいて、文章をランク付けするための多目的最適化問題を解く。 2次時間で実行されるSSRの実装が提示され、SummBankベンチマークでは、各審査員のランキングよりも優れ、すべての審査員の合計ランキングと好意的に比較される。

This paper presents Semantic SentenceRank (SSR), an unsupervised scheme for automatically ranking sentences in a single document according to their relative importance. In particular, SSR extracts essential words and phrases from a text document, and uses semantic measures to construct, respectively, a semantic phrase graph over phrases and words, and a semantic sentence graph over sentences. It applies two variants of article-structure-biased PageRank to score phrases and words on the first graph and sentences on the second graph. It then combines these scores to generate the final score for each sentence. Finally, SSR solves a multi-objective optimization problem for ranking sentences based on their final scores and topic diversity through semantic subtopic clustering. An implementation of SSR that runs in quadratic time is presented, and it outperforms, on the SummBank benchmarks, each individual judge's ranking and compares favorably with the combined ranking of all judges.
公開日:2020-04-28
翻訳日:2022-12-08 21:47:53
# リンクストリーム解析のための周波数構造アプローチ

A Frequency-Structure Approach for Link Stream Analysis ( http://arxiv.org/abs/2212.03804v1 )

ライセンス: Link先を確認
Esteban Bautista and Matthieu Latapy(参考訳) リンクストリームは、$(t, u, v)$というトリプレットのセットで、$u$と$v$がt$でやりとりされたことを示す。 リンクストリームモデル 多数のデータセットとその適切な研究は多くのアプリケーションで不可欠である。 実際には、生のリンクストリームは、しばしば集約されるか、決定が行われる時系列やグラフに変換される。 しかし、生のリンクストリームの動的および構造的情報が変換対象にどう影響するかは、まだ不明である。 本研究では,代数線形グラフと信号演算子を用いたリンクストリームの研究により,この問題に光を当てることが可能であることを示す。 また,その線形性から,信号処理の手法の多くはリンクストリームの時間・周波数情報の解析に容易に適用できることを示す。 しかし,リレーショナル/構造情報を解析するための線形グラフ法は限られている。 我々は開発によるこの制限に対処する (i)異なる解像度レベルで構造に分解できるグラフの新たな基盤 (ii) 制御された方法で構造情報を変更可能なグラフのフィルタ。 これらの開発とその時間ドメインを私たちのフレームワークにプラグインすることで、私たちは、 (i)周波数構造領域でそれらを表現できるリンクストリームの新しい基底を取得し、 (ii) 相互作用の集約やユークリッド空間への埋め込みなど、リンクストリームに対する多くの興味深い変換は、周波数構造領域における単純なフィルタと見なすことができる。

A link stream is a set of triplets $(t, u, v)$ indicating that $u$ and $v$ interacted at time $t$. Link streams model numerous datasets and their proper study is crucial in many applications. In practice, raw link streams are often aggregated or transformed into time series or graphs where decisions are made. Yet, it remains unclear how the dynamical and structural information of a raw link stream carries into the transformed object. This work shows that it is possible to shed light into this question by studying link streams via algebraically linear graph and signal operators, for which we introduce a novel linear matrix framework for the analysis of link streams. We show that, due to their linearity, most methods in signal processing can be easily adopted by our framework to analyze the time/frequency information of link streams. However, the availability of linear graph methods to analyze relational/structural information is limited. We address this limitation by developing (i) a new basis for graphs that allow us to decompose them into structures at different resolution levels; and (ii) filters for graphs that allow us to change their structural information in a controlled manner. By plugging-in these developments and their time-domain counterpart into our framework, we are able to (i) obtain a new basis for link streams that allow us to represent them in a frequency-structure domain; and (ii) show that many interesting transformations to link streams, like the aggregation of interactions or their embedding into a euclidean space, can be seen as simple filters in our frequency-structure domain.
公開日:2022-12-07
翻訳日:2022-12-08 17:31:18
# 多様体の線形切断の計算:量子絡み合い、テンソル分解など

Computing linear sections of varieties: quantum entanglement, tensor decompositions and beyond ( http://arxiv.org/abs/2212.03851v1 )

ライセンス: Link先を確認
Nathaniel Johnston, Benjamin Lovitz and Aravindan Vijayaraghavan(参考訳) 我々は、与えられた線型部分空間(ここで$\mathbb{F}$は実あるいは複素体)との任意の円錐多様体の交叉における元を見つける問題を研究する。 この問題は、多種多様な選択の下でアルゴリズムの問題の豊富な族を捉えている。 ランク1行列からなる多様体の特殊ケースは、量子情報理論やテンソル分解など、様々な領域における中心問題と強く結びついている。 この問題は、ランク1の様々な行列であっても最悪の場合においてNPハードであることが知られている。 驚くべきことに、これらの困難さにもかかわらず、我々は「典型的な」部分空間でこの問題を解決する効率的なアルゴリズムを与える。 ここで、部分空間 $u \subseteq \mathbb{f}^n$ は、ある次元のジェネリックに選択され、その多様体のいくつかのジェネリック要素がそれに含まれる可能性がある。 我々のアルゴリズムの主な結果は多項式時間アルゴリズムであり、多様体上の穏やかな非退化仮定の下で、多様体に存在する$u$のすべての要素を回復する。 以下の結果が得られる: $\bullet$ uniqueness results and polynomial time algorithms for generic instance of a broad class of low-rank decomposition problems which goes beyond tensor decompositions。 ここでは、$\sum_{i=1}^R v_i \otimes w_i$ という形の分解を復元する。 これはテンソル分解の特別な場合においても新しいアルゴリズムによる結果を意味する。 量子エンタングルメントにおけるいくつかのエンタングル部分空間問題に対する$\bullet$多項式時間アルゴリズムは、$r$エンタングルメント、完全エンタングルメント、真の部分空間のエンタングルメントの決定を含む。 これらの問題はすべて最悪の場合np-hardであるが、本アルゴリズムは最大値の定数倍までの次元の一般部分空間に対して多項式時間で解く。

We study the problem of finding elements in the intersection of an arbitrary conic variety in $\mathbb{F}^n$ with a given linear subspace (where $\mathbb{F}$ can be the real or complex field). This problem captures a rich family of algorithmic problems under different choices of the variety. The special case of the variety consisting of rank-1 matrices already has strong connections to central problems in different areas like quantum information theory and tensor decompositions. This problem is known to be NP-hard in the worst-case, even for the variety of rank-1 matrices. Surprisingly, despite these hardness results we give efficient algorithms that solve this problem for "typical" subspaces. Here, the subspace $U \subseteq \mathbb{F}^n$ is chosen generically of a certain dimension, potentially with some generic elements of the variety contained in it. Our main algorithmic result is a polynomial time algorithm that recovers all the elements of $U$ that lie in the variety, under some mild non-degeneracy assumptions on the variety. As corollaries, we obtain the following results: $\bullet$ Uniqueness results and polynomial time algorithms for generic instances of a broad class of low-rank decomposition problems that go beyond tensor decompositions. Here, we recover a decomposition of the form $\sum_{i=1}^R v_i \otimes w_i$, where the $v_i$ are elements of the given variety $X$. This implies new algorithmic results even in the special case of tensor decompositions. $\bullet$ Polynomial time algorithms for several entangled subspaces problems in quantum entanglement, including determining $r$-entanglement, complete entanglement, and genuine entanglement of a subspace. While all of these problems are NP-hard in the worst case, our algorithm solves them in polynomial time for generic subspaces of dimension up to a constant multiple of the maximum possible.
公開日:2022-12-07
翻訳日:2022-12-08 17:30:36
# veriFIRE: 産業用学習型山火事検知システム検証

veriFIRE: Verifying an Industrial, Learning-Based Wildfire Detection System ( http://arxiv.org/abs/2212.03287v1 )

ライセンス: Link先を確認
Guy Amir, Ziv Freund, Guy Katz, Elad Mandelbaum, Idan Refaeli(参考訳) 本稿では,産業とアカデミアのコラボレーションであるverifireプロジェクトについて,実世界の安全クリティカルシステムの信頼性向上のための検証を目標とした,現在進行中の課題について述べる。 対象とするシステムは,2つのディープニューラルネットワークを組み込んだ,山火事検出のための空中プラットフォームである。 本稿では,システムとその興味特性について述べるとともに,ワイルドファイアが強度の増大を表現していても,システムの一貫性,すなわち,入力を継続し,正しく分類する能力を検証する試みについて述べる。 我々は,本研究を,学術指向の検証ツールを実世界の興味あるシステムに組み込むための一歩と考えている。

In this short paper, we present our ongoing work on the veriFIRE project -- a collaboration between industry and academia, aimed at using verification for increasing the reliability of a real-world, safety-critical system. The system we target is an airborne platform for wildfire detection, which incorporates two deep neural networks. We describe the system and its properties of interest, and discuss our attempts to verify the system's consistency, i.e., its ability to continue and correctly classify a given input, even if the wildfire it describes increases in intensity. We regard this work as a step towards the incorporation of academic-oriented verification tools into real-world systems of interest.
公開日:2022-12-06
翻訳日:2022-12-08 17:29:09
# 類似性維持型知識蒸留による低密度脳波型脳コンピューターインタフェースの強化

Enhancing Low-Density EEG-Based Brain-Computer Interfaces with Similarity-Keeping Knowledge Distillation ( http://arxiv.org/abs/2212.03329v1 )

ライセンス: Link先を確認
Xin-Yao Huang, Sung-Yu Chen, Chun-Shu Wei(参考訳) 脳電図(EEG)は、非侵襲性、低コスト、高時間分解能のため、現実世界の脳-コンピュータインターフェース(BCI)の一般的な神経モニタリング法の一つである。 近年,低密度モンタージュに基づく軽量でポータブルなEEGウェアラブルデバイスは,BCIアプリケーションの利便性とユーザビリティを高めている。 しかし,低密度脳波モンタージュの電極数減少と頭皮領域の被覆のため,脳波復号性能の低下は避けられないことが多い。 そこで本研究では,ニューラルネットワークモデル間の知識・情報伝達のための学習機構である知識蒸留(kd)を導入し,低密度脳波復号の性能を向上させる。 高密度脳波データに基づいて学習した教師モデルのように、低密度脳波学生モデルがサンプル間類似性を取得することを奨励する、新たに提案された類似性保持(SK)教師学生KDスキームを含む。 実験の結果,入力された脳波データに対して電極数が減少すると,SK-KDフレームワークは運動画像の脳波復号精度を一貫して向上することがわかった。 一般的な低密度ヘッドホンとヘッドバンドライクなモンタージュでは,脳波復号モデルアーキテクチャにおける最先端KD法よりも優れる。 脳波復号化のための最初のKDスキームとして、現実世界のアプリケーションにおける低密度脳波BCIの実現を容易にするために提案されているSK-KDフレームワークを予見する。

Electroencephalogram (EEG) has been one of the common neuromonitoring modalities for real-world brain-computer interfaces (BCIs) because of its non-invasiveness, low cost, and high temporal resolution. Recently, light-weight and portable EEG wearable devices based on low-density montages have increased the convenience and usability of BCI applications. However, loss of EEG decoding performance is often inevitable due to reduced number of electrodes and coverage of scalp regions of a low-density EEG montage. To address this issue, we introduce knowledge distillation (KD), a learning mechanism developed for transferring knowledge/information between neural network models, to enhance the performance of low-density EEG decoding. Our framework includes a newly proposed similarity-keeping (SK) teacher-student KD scheme that encourages a low-density EEG student model to acquire the inter-sample similarity as in a pre-trained teacher model trained on high-density EEG data. The experimental results validate that our SK-KD framework consistently improves motor-imagery EEG decoding accuracy when number of electrodes deceases for the input EEG data. For both common low-density headphone-like and headband-like montages, our method outperforms state-of-the-art KD methods across various EEG decoding model architectures. As the first KD scheme developed for enhancing EEG decoding, we foresee the proposed SK-KD framework to facilitate the practicality of low-density EEG-based BCI in real-world applications.
公開日:2022-12-06
翻訳日:2022-12-08 17:28:58
# 氷河氷モデルのベイズ推定への応用による多段階スタイン変分勾配降下のさらなる解析

Further analysis of multilevel Stein variational gradient descent with an application to the Bayesian inference of glacier ice models ( http://arxiv.org/abs/2212.03366v1 )

ライセンス: Link先を確認
Terrence Alsup and Tucker Hartland and Benjamin Peherstorfer and Noemi Petra(参考訳) 多レベルスタイン変分勾配降下 (multilevel stein variational gradient descent) は、目標分布の近似の階層を、様々なコストと計算速度アップに対する忠実度で活用する、粒子ベースの変分推定の手法である。 この研究は、従来の結果よりも軽度の条件で適用され、特に離散時間的状態や、指数関数的に高速な収束を達成するような限定的な条件を超えて、多レベルスタイン変分勾配勾配のコスト複雑性解析を提供する。 解析の結果、スタイン変分勾配降下の収束速度は、マルチレベルバージョンにおけるコスト複雑性の定数因子としてのみ入ることを示し、これは、スタイン変分勾配降下の収束速度とは無関係に、マルチレベルバージョンスケールのコストが1つのレベルにあることを示している。 アロラ氷河の離散基底すべり係数場を推定するベイズ逆問題による数値実験により,多レベルスタイン変分勾配勾配は,その単層版に比べて桁違いの速度アップを達成することが示された。

Multilevel Stein variational gradient descent is a method for particle-based variational inference that leverages hierarchies of approximations of target distributions with varying costs and fidelity to computationally speed up inference. This work provides a cost complexity analysis of multilevel Stein variational gradient descent that applies under milder conditions than previous results, especially in discrete-in-time regimes and beyond the limited settings where Stein variational gradient descent achieves exponentially fast convergence. The analysis shows that the convergence rate of Stein variational gradient descent enters only as a constant factor for the cost complexity of the multilevel version, which means that the costs of the multilevel version scale independently of the convergence rate of Stein variational gradient descent on a single level. Numerical experiments with Bayesian inverse problems of inferring discretized basal sliding coefficient fields of the Arolla glacier ice demonstrate that multilevel Stein variational gradient descent achieves orders of magnitude speedups compared to its single-level version.
公開日:2022-12-06
翻訳日:2022-12-08 17:28:36
# スマートグリッドにおけるサイバーアタック検出とローカライズのための時間グラフニューラルネットワーク

A Temporal Graph Neural Network for Cyber Attack Detection and Localization in Smart Grids ( http://arxiv.org/abs/2212.03390v1 )

ライセンス: Link先を確認
Seyed Hamed Haghshenas, Md Abul Hasnat, Mia Naeini(参考訳) 本稿では,スマートグリッドのシステム状態に対する偽データインジェクションとランプ攻撃の検出とローカライズを行うための時間グラフニューラルネットワーク(TGNN)フレームワークを提案する。 GNNフレームワークによるシステムのトポロジ情報と状態測定を同時に取得することで,検出機構の性能を向上させることができる。 この問題は、異常測定を識別するメッセージパッシング機構を備えたGNNを介して分類問題として定式化される。 メッセージパッシングの集約プロセスで使用される残差ブロックとゲートリカレントユニットは、計算時間と性能を改善することができる。 提案モデルの性能は,電力系統状態と有望な性能を示す攻撃シナリオの広範なシミュレーションにより評価されている。 また、攻撃の強度と位置に対するモデルの感度と、モデルの検出遅延と検出精度についても評価した。

This paper presents a Temporal Graph Neural Network (TGNN) framework for detection and localization of false data injection and ramp attacks on the system state in smart grids. Capturing the topological information of the system through the GNN framework along with the state measurements can improve the performance of the detection mechanism. The problem is formulated as a classification problem through a GNN with message passing mechanism to identify abnormal measurements. The residual block used in the aggregation process of message passing and the gated recurrent unit can lead to improved computational time and performance. The performance of the proposed model has been evaluated through extensive simulations of power system states and attack scenarios showing promising performance. The sensitivity of the model to intensity and location of the attacks and model's detection delay versus detection accuracy have also been evaluated.
公開日:2022-12-07
翻訳日:2022-12-08 17:28:14
# MIMO-DBnet:音声分離のためのマルチチャネル入力と複数出力DOA対応ビームフォーミングネットワーク

MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware Beamforming Network for Speech Separation ( http://arxiv.org/abs/2212.03401v1 )

ライセンス: Link先を確認
Yanjie Fu, Haoran Yin, Meng Ge, Longbiao Wang, Gaoyan Zhang, Jianwu Dang, Chengyun Deng, Fei Wang(参考訳) 近年,多チャンネル音声分離のための深層学習型ビームフォーマが提案されている。 それでも、そのほとんどは、スピーカーの特徴、顔画像、方向情報など、事前に知られている余分な手がかりに依存している。 本稿では,MIMO-DBnetという混合信号のみを与えられた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。 具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを予測する。 正確に推定された方向埋め込みは、神経ビームフォーマーが位相ラッピングの効果を相殺するため、より正確な2つの音源の音声信号の再構成を可能にする非常に効果的な空間的識別ガイダンスを提供する。 実験の結果,提案するMIMO-DBnetは,ベースラインシステムに比べて網羅的な改善を達成できるだけでなく,位相ラップ時の高周波帯の性能も維持できることがわかった。

Recently, many deep learning based beamformers have been proposed for multi-channel speech separation. Nevertheless, most of them rely on extra cues known in advance, such as speaker feature, face image or directional information. In this paper, we propose an end-to-end beamforming network for direction guided speech separation given merely the mixture signal, namely MIMO-DBnet. Specifically, we design a multi-channel input and multiple outputs architecture to predict the direction-of-arrival based embeddings and beamforming weights for each source. The precisely estimated directional embedding provides quite effective spatial discrimination guidance for the neural beamformer to offset the effect of phase wrapping, thus allowing more accurate reconstruction of two sources' speech signals. Experiments show that our proposed MIMO-DBnet not only achieves a comprehensive decent improvement compared to baseline systems, but also maintain the performance on high frequency bands when phase wrapping occurs.
公開日:2022-12-07
翻訳日:2022-12-08 17:28:03
# 注意機構に基づくBi-LSTM価格予測

Bi-LSTM Price Prediction based on Attention Mechanism ( http://arxiv.org/abs/2212.03443v1 )

ライセンス: Link先を確認
Jiashu Lou, Leyi Cui, Ye Li(参考訳) 金融デリバティブ市場の拡大と発展に伴い、取引の頻度もより速く、より速くなります。 人間の限界により、最近はアルゴリズムと自動トレーディングが議論の中心となっている。 本稿では,金とビットコインという2つの一般的な資産をベースとした,注目機構に基づく双方向LSTMニューラルネットワークを提案する。 機能工学の面では,従来の技術要素を付加すると同時に,時系列モデルを組み合わせることで,要因の開発も行います。 モデルパラメータの選択において、我々は最終的に2層深層学習ネットワークを選択した。 aucの測定によれば、bitcoinと金の正確性はそれぞれ71.94%と73.03%である。 予測結果を用いて,2年間で1089.34%のリターンを達成した。 同時に,本論文で提案した Bi-LSTM モデルと従来のモデルとの比較を行い,本モデルがデータセット上で最高の性能を示すことを示す。 最後に, モデルの重要性と実験結果, 今後の改善方向性について考察する。

With the increasing enrichment and development of the financial derivatives market, the frequency of transactions is also faster and faster. Due to human limitations, algorithms and automatic trading have recently become the focus of discussion. In this paper, we propose a bidirectional LSTM neural network based on an attention mechanism, which is based on two popular assets, gold and bitcoin. In terms of Feature Engineering, on the one hand, we add traditional technical factors, and at the same time, we combine time series models to develop factors. In the selection of model parameters, we finally chose a two-layer deep learning network. According to AUC measurement, the accuracy of bitcoin and gold is 71.94% and 73.03% respectively. Using the forecast results, we achieved a return of 1089.34% in two years. At the same time, we also compare the attention Bi-LSTM model proposed in this paper with the traditional model, and the results show that our model has the best performance in this data set. Finally, we discuss the significance of the model and the experimental results, as well as the possible improvement direction in the future.
公開日:2022-12-07
翻訳日:2022-12-08 17:27:48
# 幾何学的深層学習が事前学習されたタンパク質言語モデルと出会うとき

When Geometric Deep Learning Meets Pretrained Protein Language Models ( http://arxiv.org/abs/2212.03447v1 )

ライセンス: Link先を確認
Fang Wu, Yu Tao, Dragomir Radev, Jinbo Xu(参考訳) 幾何学的深層学習は、最近、非ユークリッド領域で大きな成功を収め、大きな生体分子の3次元構造を学習することが、別の研究領域として浮上している。 しかし、その有効性は構造データが限られているため、大きく制約されている。 一方、1Dシークエンスで訓練されたタンパク質言語モデルでは、広範囲のアプリケーションで拡張性を示す。 それにもかかわらず、幾何学的ニューラルネットワークの表現力を促進するためにこれらの異なるタンパク質のモダリティを組み合わせることを検討する以前の研究はない。 このギャップに対処するため、よく訓練されたタンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する最善の一歩を踏み出した。 実験は、タンパク質-タンパク質界面予測、モデル品質評価、タンパク質-タンパク質剛体ドッキング、結合親和性予測など、さまざまなタンパク質表現学習ベンチマークで評価され、ベースラインよりも20%改善され、新しい最先端のパフォーマンスが得られた。 強い証拠は、タンパク質言語モデルの知識の組み入れが幾何ネットワークの能力を大幅に向上させ、複雑なタスクに一般化できることを示唆している。

Geometric deep learning has recently achieved great success in non-Euclidean domains, and learning on 3D structures of large biomolecules is emerging as a distinct research area. However, its efficacy is largely constrained due to the limited quantity of structural data. Meanwhile, protein language models trained on substantial 1D sequences have shown burgeoning capabilities with scale in a broad range of applications. Nevertheless, no preceding studies consider combining these different protein modalities to promote the representation power of geometric neural networks. To address this gap, we make the foremost step to integrate the knowledge learned by well-trained protein language models into several state-of-the-art geometric networks. Experiments are evaluated on a variety of protein representation learning benchmarks, including protein-protein interface prediction, model quality assessment, protein-protein rigid-body docking, and binding affinity prediction, leading to an overall improvement of 20% over baselines and the new state-of-the-art performance. Strong evidence indicates that the incorporation of protein language models' knowledge enhances geometric networks' capacity by a significant margin and can be generalized to complex tasks.
公開日:2022-12-07
翻訳日:2022-12-08 17:27:34
# データにアルゴリズムを導入する --personal health train(pht-medic)を使用したセキュアな分散医療分析

Bringing the Algorithms to the Data -- Secure Distributed Medical Analytics using the Personal Health Train (PHT-meDIC) ( http://arxiv.org/abs/2212.03481v1 )

ライセンス: Link先を確認
Marius de Arruda Botelho Herr, Michael Graf, Peter Placzek, Florian K\"onig, Felix B\"otte, Tyra Stickel, David Hieber, Lukas Zimmermann, Michael Slupina, Christopher Mohr, Stephanie Biergans, Mete Akg\"un, Nico Pfeifer, Oliver Kohlbacher(参考訳) データプライバシとセキュリティ – ますます厳格なデータ保護規則によって実施される – の必要性は、マシンラーニングに医療データを使用することを困難にしている。 特に、異なる病院間でのデータ転送は許可されないことが多く、したがってデータのクロスサイトプールはオプションではない。 GO-FAIRイニシアチブで提案されているPersonal Health Train(PHT)パラダイムは、機密データを転送することなく、分析のために分散データにアクセスできるようにする、"データへのアルゴリズム"パラダイムを実装している。 本稿では,PHT概念のオープンソース実装であるPHT-meDICを提案する。 コンテナ化により、複雑なデータ分析パイプライン(ゲノムや画像解析など)を、セキュアでスケーラブルな方法で複数のサイトに容易にデプロイすることができます。 基盤となる技術的概念、セキュリティモデル、ガバナンスプロセスについて論じる。 この実装は、医用画像データへのディープニューラルネットワークの適用を含む、大規模データの分散分析にうまく適用されている。

The need for data privacy and security -- enforced through increasingly strict data protection regulations -- renders the use of healthcare data for machine learning difficult. In particular, the transfer of data between different hospitals is often not permissible and thus cross-site pooling of data not an option. The Personal Health Train (PHT) paradigm proposed within the GO-FAIR initiative implements an 'algorithm to the data' paradigm that ensures that distributed data can be accessed for analysis without transferring any sensitive data. We present PHT-meDIC, a productively deployed open-source implementation of the PHT concept. Containerization allows us to easily deploy even complex data analysis pipelines (e.g, genomics, image analysis) across multiple sites in a secure and scalable manner. We discuss the underlying technological concepts, security models, and governance processes. The implementation has been successfully applied to distributed analyses of large-scale data, including applications of deep neural networks to medical image data.
公開日:2022-12-07
翻訳日:2022-12-08 17:27:12
# グリッド接続インバータの故障診断のためのディジタルツインの最適化 -ベイズ的アプローチ-

Optimizing a Digital Twin for Fault Diagnosis in Grid Connected Inverters -- A Bayesian Approach ( http://arxiv.org/abs/2212.03564v1 )

ライセンス: Link先を確認
Pavol Mulinka, Subham Sahoo, Charalampos Kalalas, Pedro H. J. Nardelli(参考訳) 本稿では,グリッド接続インバータの様々な故障を診断するために,ハイパーパラメータチューニングに基づくディジタルツインのベイズ最適化を行う。 障害検出と診断は非常に高い精度を必要とするため、デジタル双生児のオンライン最適化に向けた取り組みを軸に、限られたデータ量で柔軟な実装を可能にします。 その結果、提案フレームワークは、限られたデータを持つディジタルツインの設計のモデルバージョニングやデプロイの実用的なソリューションとなるだけでなく、ディープラーニングツールの統合により、ハイパーパラメータチューニング機能を改善することができる。 分類性能評価では,仮想同期発電機(VSG)制御グリッドフォーミングコンバータの異なる故障事例について検討し,本手法の有効性を実証する。 我々の研究結果は、従来のハイパーパラメータチューニング手法の欠点を克服し、ディジタルツイン設計によって達成された精度と忠実度の向上を明らかにした。

In this paper, a hyperparameter tuning based Bayesian optimization of digital twins is carried out to diagnose various faults in grid connected inverters. As fault detection and diagnosis require very high precision, we channelize our efforts towards an online optimization of the digital twins, which, in turn, allows a flexible implementation with limited amount of data. As a result, the proposed framework not only becomes a practical solution for model versioning and deployment of digital twins design with limited data, but also allows integration of deep learning tools to improve the hyperparameter tuning capabilities. For classification performance assessment, we consider different fault cases in virtual synchronous generator (VSG) controlled grid-forming converters and demonstrate the efficacy of our approach. Our research outcomes reveal the increased accuracy and fidelity levels achieved by our digital twin design, overcoming the shortcomings of traditional hyperparameter tuning methods.
公開日:2022-12-07
翻訳日:2022-12-08 17:26:54
# ランダム力学系に対する濃度現象:作用素論的アプローチ

Concentration Phenomenon for Random Dynamical Systems: An Operator Theoretic Approach ( http://arxiv.org/abs/2212.03670v1 )

ライセンス: Link先を確認
Muhammad Abdullah Naeem(参考訳) 作用素論的手法により、離散時間マルコフ連鎖の与えられた観測可能な `$r$' の濃度現象を「$\mu_{\pi}$' を不変エルゴード測度として定式化し、おそらく非有界状態空間への支持を持つ。 この論文の主な貢献は、マルコフ遷移作用素 $P$ の合成と、$e^{r}$ で定義される乗算作用素の研究によって、退屈な確率的方法を回避することである。 観測可能/報酬関数が非有界であるとしても、ある$q>2$, $\|e^{r}\|_{q \rightarrow 2} \propto \exp\big(\mu_{\pi}(r) +\frac{2q}{q-2}\big) $ and $P$ is hyperbounded with norm control $\|P\|_{2 \rightarrow q }< e^{\frac{1}{2}[\frac{1}{2}-\frac{1}{q}]} の場合、シャープな非漸近濃度境界は従う。 emph{transport-entropy} 不等式は、上述の乗算作用素上の上限をすべての$q>2$に対して保証する。 濃度現象における 'emph{reversibility} の役割は脱線化される。 これらの結果は、システムに関する正確な知識が得られていないような、集中不等式 w.r.t 標準の非有界オブザーバブル/逆関数を許容するコミュニティの強化学習や制御に特に有用である。

Via operator theoretic methods, we formalize the concentration phenomenon for a given observable `$r$' of a discrete time Markov chain with `$\mu_{\pi}$' as invariant ergodic measure, possibly having support on an unbounded state space. The main contribution of this paper is circumventing tedious probabilistic methods with a study of a composition of the Markov transition operator $P$ followed by a multiplication operator defined by $e^{r}$. It turns out that even if the observable/ reward function is unbounded, but for some for some $q>2$, $\|e^{r}\|_{q \rightarrow 2} \propto \exp\big(\mu_{\pi}(r) +\frac{2q}{q-2}\big) $ and $P$ is hyperbounded with norm control $\|P\|_{2 \rightarrow q }< e^{\frac{1}{2}[\frac{1}{2}-\frac{1}{q}]}$, sharp non-asymptotic concentration bounds follow. \emph{Transport-entropy} inequality ensures the aforementioned upper bound on multiplication operator for all $q>2$. The role of \emph{reversibility} in concentration phenomenon is demystified. These results are particularly useful for the reinforcement learning and controls communities as they allow for concentration inequalities w.r.t standard unbounded obersvables/reward functions where exact knowledge of the system is not available, let alone the reversibility of stationary measure.
公開日:2022-12-07
翻訳日:2022-12-08 17:26:38
# 蛍光望遠鏡データにおけるトラック状事象選択のためのニューラルネットワークアプローチ

A Neural Network Approach for Selecting Track-like Events in Fluorescence Telescope Data ( http://arxiv.org/abs/2212.03787v1 )

ライセンス: Link先を確認
Mikhail Zotov, Denis Sokolinskii(参考訳) 2016-2017年、地球大気中の蛍光放射によって超高エネルギー宇宙線(UHECR)を登録する可能性をテストする世界初の実験が行われた。 2019年以降、ロシア・イタリアの蛍光望遠鏡(FT)ミニEUSO(UV Atmosphere)がISSで運用されている。 UHECRの登録にFTを使用する成層圏実験EUSO-SPB2は2023年に予定されている。 本稿では,単純な畳み込みニューラルネットワークを用いて,そのような機器を用いて得られる様々なデータからトラック状事象を効果的に発見する方法を示す。

In 2016-2017, TUS, the world's first experiment for testing the possibility of registering ultra-high energy cosmic rays (UHECRs) by their fluorescent radiation in the night atmosphere of Earth was carried out. Since 2019, the Russian-Italian fluorescence telescope (FT) Mini-EUSO ("UV Atmosphere") has been operating on the ISS. The stratospheric experiment EUSO-SPB2, which will employ an FT for registering UHECRs, is planned for 2023. We show how a simple convolutional neural network can be effectively used to find track-like events in the variety of data obtained with such instruments.
公開日:2022-12-07
翻訳日:2022-12-08 17:19:21
# 公正性と説明可能性:公正なモデル説明に向けてギャップを埋める

Fairness and Explainability: Bridging the Gap Towards Fair Model Explanations ( http://arxiv.org/abs/2212.03840v1 )

ライセンス: Link先を確認
Yuying Zhao, Yu Wang, Tyler Derr(参考訳) 機械学習モデルは現実世界のアプリケーションでは前例のない成功を収めてきたが、特定の人口集団に対して偏り/不公平な決定を下し、差別的な結果をもたらす可能性がある。 バイアスの測定と緩和に研究努力が注がれているが、主に意思決定手順で符号化されたバイアスを無視しながら、結果指向の観点からバイアスを研究する。 これにより、プロシージャ指向バイアスをキャプチャできないため、完全なデバイアス法を持つ能力が制限される。 幸いなことに、説明可能な機械学習の急速な開発により、予測に関する説明が利用できるようになった。 本研究では,説明に基づく手続き指向公正の新たな視点を提示することにより,公正性と説明可能性のギャップを埋める。 本研究では,Ratio と Value-based Explanation Fairness の異なるグループ間の説明品質のギャップを測定することで,手順に基づくバイアスを同定する。 新たなメトリクスは、予測からバイアスを緩和するだけでなく、手順に基づくバイアスを軽減するための最適化目標の設計をさらに動機付けます。 設計した最適化目標に基づいて,従来の公正性の向上,説明公正性の向上,実用性能の維持など,複数の目標を同時に達成する包括的公正性アルゴリズム(CFA)を提案する。 実世界のデータセットに関する広範な実験は,提案するcfaの有効性を示し,説明可能性の観点から公平性を検討することの重要性を強調した。 私たちのコードはhttps://github.com/YuyingZhao/FairExplanations-CFAで公開されています。

While machine learning models have achieved unprecedented success in real-world applications, they might make biased/unfair decisions for specific demographic groups and hence result in discriminative outcomes. Although research efforts have been devoted to measuring and mitigating bias, they mainly study bias from the result-oriented perspective while neglecting the bias encoded in the decision-making procedure. This results in their inability to capture procedure-oriented bias, which therefore limits the ability to have a fully debiasing method. Fortunately, with the rapid development of explainable machine learning, explanations for predictions are now available to gain insights into the procedure. In this work, we bridge the gap between fairness and explainability by presenting a novel perspective of procedure-oriented fairness based on explanations. We identify the procedure-based bias by measuring the gap of explanation quality between different groups with Ratio-based and Value-based Explanation Fairness. The new metrics further motivate us to design an optimization objective to mitigate the procedure-based bias where we observe that it will also mitigate bias from the prediction. Based on our designed optimization objective, we propose a Comprehensive Fairness Algorithm (CFA), which simultaneously fulfills multiple objectives - improving traditional fairness, satisfying explanation fairness, and maintaining the utility performance. Extensive experiments on real-world datasets demonstrate the effectiveness of our proposed CFA and highlight the importance of considering fairness from the explainability perspective. Our code is publicly available at https://github.com/YuyingZhao/FairExplanations-CFA .
公開日:2022-12-07
翻訳日:2022-12-08 17:19:12
# ソーシャルメディアプラットフォームから残した二重圧縮ビデオフィンガープリントの学習

Learning Double-Compression Video Fingerprints Left from Social-Media Platforms ( http://arxiv.org/abs/2212.03658v1 )

ライセンス: Link先を確認
Irene Amerini, Aris Anagnostopoulos, Luca Maiano, Lorenzo Ricciardi Celsi(参考訳) ソーシャルメディアやメッセージングアプリが主要なコミュニケーションプラットフォームになりつつある。 マルチメディアコンテンツはユーザのエンゲージメントを向上させ、非常に重要なコミュニケーションツールとなっている。 しかし、フェイクニュースや操作されたコンテンツは容易にバイラルになり、ビデオや画像のソースを検証できるだけでなく、ネイティブコンテンツとダウンロードコンテンツの区別も必要になる。 そこで本稿では,映像コンテンツを分析して,動画を生来のソーシャルネットワークに遡るCNNアーキテクチャを提案する。 実験の結果,ビデオだけでなく,画像の精度も極めて良好であることがわかった。

Social media and messaging apps have become major communication platforms. Multimedia contents promote improved user engagement and have thus become a very important communication tool. However, fake news and manipulated content can easily go viral, so, being able to verify the source of videos and images as well as to distinguish between native and downloaded content becomes essential. Most of the work performed so far on social media provenance has concentrated on images; in this paper, we propose a CNN architecture that analyzes video content to trace videos back to their social network of origin. The experiments demonstrate that stating platform provenance is possible for videos as well as images with very good accuracy.
公開日:2022-12-07
翻訳日:2022-12-08 17:18:47
# マジック:マルチアートの知能コレオグラフィーデータセットと3Dダンス生成のためのネットワーク

Magic: Multi Art Genre Intelligent Choreography Dataset and Network for 3D Dance Generation ( http://arxiv.org/abs/2212.03741v1 )

ライセンス: Link先を確認
Ronghui Li, Junfan Zhao, Yachao Zhang, Mingyang Su, Zeping Ren, Han Zhang, Xiu Li(参考訳) マルチジャンルのデータセットが欠如しているため、与えられた音楽から複数のジャンルと長期の振付シーケンスを取得することは難しい課題である。 この問題に対処するため,マルチアート・インテリジェント・コレオグラフィー・データセット(MagicDance)を提案する。 MagicDanceのデータは、モーションキャプチャの技術者が支援するプロのダンサーから取得される。 計8時間の3Dモーションキャプチャー・ヒューマン・ダンスとペア・ミュージックがあり、16種類のダンスジャンルがある。 われわれの知る限りでは、MagicDanceは最も多くのジャンルの3Dダンスデータセットだ。 また,既存の2種類の手法 (ジェネレーションベース法と合成ベース法) は多様性と持続時間のうち1つしか満たせないが,ある程度補完できることがわかった。 この観察に基づいて,拡散に基づく3次元多様なダンスフラグメント生成ネットワーク(3dgnet)とジャンル・コヒーレント認識検索モジュール(gcrm)をカスケードする生成合成振付ネットワーク(magicnet)を提案する。 前者は1つの音楽クリップから様々なダンスの断片を生成できる。 後者は、3DGNetが生成した最高のダンスフラグメントを選択し、ジャンルとコヒーレントマッチングスコアに応じて、それらを完全なダンスに切り替える。 定量的かつ定性的な実験はMagicDanceの品質とMagicNetの最先端性能を示している。

Achieving multiple genres and long-term choreography sequences from given music is a challenging task, due to the lack of a multi-genre dataset. To tackle this problem,we propose a Multi Art Genre Intelligent Choreography Dataset (MagicDance). The data of MagicDance is captured from professional dancers assisted by motion capture technicians. It has a total of 8 hours 3D motioncapture human dances with paired music, and 16 different dance genres. To the best of our knowledge, MagicDance is the 3D dance dataset with the most genres. In addition, we find that the existing two types of methods (generation-based method and synthesis-based method) can only satisfy one of the diversity and duration, but they can complement to some extent. Based on this observation, we also propose a generation-synthesis choreography network (MagicNet), which cascades a Diffusion-based 3D Diverse Dance fragments Generation Network (3DGNet) and a Genre&Coherent aware Retrieval Module (GCRM). The former can generate various dance fragments from only one music clip. The latter is utilized to select the best dance fragment generated by 3DGNet and switch them into a complete dance according to the genre and coherent matching score. Quantitative and qualitative experiments demonstrate the quality of MagicDance, and the state-of-the-art performance of MagicNet.
公開日:2022-12-07
翻訳日:2022-12-08 17:18:36
# iQuery:オーディオ・ビジュアル・サウンド分離のためのクエリーとしてのインスツルメンツ

iQuery: Instruments as Queries for Audio-Visual Sound Separation ( http://arxiv.org/abs/2212.03814v1 )

ライセンス: Link先を確認
Jiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo Shi(参考訳) 現在の音声-視覚分離方式は、オーディオエンコーダ・デコーダネットワークがエンコーダボトルネックの視覚的符号化機能と融合した標準的なアーキテクチャ設計を共有する。 この設計は、音声分離のための頑健な音声復号化を伴うマルチモーダル特徴符号化の学習と相反する。 新しい楽器に一般化するには、すべての楽器の視覚と音声のネットワーク全体を微調整しなければならない。 視覚-音分離タスクを再構成し、柔軟なクエリ拡張機構を備えたインスツルメンツ・アズ・クエリー(iQuery)を提案する。 当社のアプローチは, クロスモーダル整合性とクロスインストラクションの絡み合いを保証する。 我々は「視覚的に命名された」クエリを用いて、音声クエリの学習を開始し、モーダルな注意を用いて推定波形における潜在的な音源干渉を取り除く。 テキストプロンプト設計からインスピレーションを得て,新しい楽器やイベントクラスに一般化するために,注意機構を凍結しながら音声プロンプトとして追加クエリを挿入する。 3つのベンチマークによる実験結果から,iqueryは音源分離性能が向上した。

Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
公開日:2022-12-07
翻訳日:2022-12-08 17:18:15
# NeRFEditor: フル3Dシーン編集のための微分可能なスタイル分解

NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing ( http://arxiv.org/abs/2212.03848v1 )

ライセンス: Link先を確認
Chunyi Sun, Yanbing Liu, Junlin Han, Stephen Gould(参考訳) 我々は,360{\deg} で撮影された映像を入力とし,高品質でアイデンティティを保った3Dシーンを出力する3Dシーン編集のための効率的な学習フレームワークであるNeRFEditorを提案する。 本手法は,参照画像やテキストプロンプト,ユーザインタラクションなど,さまざまな種類の編集を支援する。 我々は,事前学習されたスタイルガンモデルと nerf モデルに相互学習を促すことにより,これを実現する。 具体的には、NeRFモデルを用いて多数の画像アングルペアを生成して調整器を訓練し、StyleGAN潜伏符号を調整して任意の角度で高忠実なスタイリング画像を生成する。 GANアウトオブドメインビューに編集を外挿するために、自己教師付き学習方法でトレーニングされた別のモジュールを考案する。 このモジュールは、新しいビューの画像をStyleGANの隠された空間にマッピングし、StyleGANが新しいビューでスタイリングされたイメージを生成する。 この2つのモジュールは360{\deg}ビューでガイド画像を生成し、nerfを微調整してスタイライゼーション効果を生じさせ、そこでは安定した微調整戦略が提案されている。 実験の結果、NeRFEditorは、より優れた編集性、忠実性、アイデンティティ保存を備えた、ベンチマークや実世界のシーンの先行作業よりも優れていた。

We present NeRFEditor, an efficient learning framework for 3D scene editing, which takes a video captured over 360{\deg} as input and outputs a high-quality, identity-preserving stylized 3D scene. Our method supports diverse types of editing such as guided by reference images, text prompts, and user interactions. We achieve this by encouraging a pre-trained StyleGAN model and a NeRF model to learn from each other mutually. Specifically, we use a NeRF model to generate numerous image-angle pairs to train an adjustor, which can adjust the StyleGAN latent code to generate high-fidelity stylized images for any given angle. To extrapolate editing to GAN out-of-domain views, we devise another module that is trained in a self-supervised learning manner. This module maps novel-view images to the hidden space of StyleGAN that allows StyleGAN to generate stylized images on novel views. These two modules together produce guided images in 360{\deg}views to finetune a NeRF to make stylization effects, where a stable fine-tuning strategy is proposed to achieve this. Experiments show that NeRFEditor outperforms prior work on benchmark and real-world scenes with better editability, fidelity, and identity preservation.
公開日:2022-12-07
翻訳日:2022-12-08 17:17:56
# 混合現実感を用いたスパース3dスキャンにおける非剛性物体のポイントクラウド登録

Point Cloud Registration of non-rigid objects in sparse 3D Scans with applications in Mixed Reality ( http://arxiv.org/abs/2212.03856v1 )

ライセンス: Link先を確認
Manorama Jha(参考訳) ポイントクラウド登録は、同じオブジェクトを参照する2つの3Dポイントクラウドの対応するポイントを整列する問題である。 課題は、ノイズの処理と現実世界の3dスキャンの部分マッチングだ。 非剛性物体に対しては、2つの3dスキャンの間に生じる物体形状の変形を考慮に入れるという別の課題がある。 そこで本研究では,拡張現実/混合現実領域のユースケースにおける非剛性ポイントクラウド登録の問題について検討する。 我々は、関節について互いに相対的に動く部品を持つ剛体物体で起こる特殊な非剛体変形、例えば、手とヒンジを持つロボットとヒンジを持つ機械に注意を向ける。 我々は,このようなオブジェクトに対する効率的かつロバストなポイントクラウド登録ワークフローを提案し,microsoft hololens 2 を用いて収集した実世界データを用いて評価する。

Point Cloud Registration is the problem of aligning the corresponding points of two 3D point clouds referring to the same object. The challenges include dealing with noise and partial match of real-world 3D scans. For non-rigid objects, there is an additional challenge of accounting for deformations in the object shape that happen to the object in between the two 3D scans. In this project, we study the problem of non-rigid point cloud registration for use cases in the Augmented/Mixed Reality domain. We focus our attention on a special class of non-rigid deformations that happen in rigid objects with parts that move relative to one another about joints, for example, robots with hands and machines with hinges. We propose an efficient and robust point-cloud registration workflow for such objects and evaluate it on real-world data collected using Microsoft Hololens 2, a leading Mixed Reality Platform.
公開日:2022-12-07
翻訳日:2022-12-08 17:17:33
# 慣性航法システムにおけるオイラー角決定支援ベクターマシン

Support Vector Machine for Determining Euler Angles in an Inertial Navigation System ( http://arxiv.org/abs/2212.03550v1 )

ライセンス: Link先を確認
Aleksandr N. Grekov (1) (2), Aleksei A. Kabanov (2), Sergei Yu. Alekseev (1), ((1) Institute of Natural and Technical Systems, (2) Sevastopol State University)(参考訳) 本稿では,機械学習(ML)法を用いたMEMSセンサを用いた慣性ナビゲーションシステムの精度向上について論じる。 分類器の入力データとして,MEMSセンサを密閉プラットフォーム上に設置した実験室で得られたインフォメーションを用いて傾斜角を調整した。 モデルの有効性を評価するため、線形多項式半径基底関数の場合、各コアに対するこれらのモデルのパラメータの異なる値で試験曲線を構築した。 逆正則化パラメータをパラメータとして用いた。 提案アルゴリズムは,MEMSセンサに典型的なノイズの存在を正しく分類し,ハイパラメータの最適値を選択すると良好な分類結果が得られることを示した。

The paper discusses the improvement of the accuracy of an inertial navigation system created on the basis of MEMS sensors using machine learning (ML) methods. As input data for the classifier, we used infor-mation obtained from a developed laboratory setup with MEMS sensors on a sealed platform with the ability to adjust its tilt angles. To assess the effectiveness of the models, test curves were constructed with different values of the parameters of these models for each core in the case of a linear, polynomial radial basis function. The inverse regularization parameter was used as a parameter. The proposed algorithm based on MO has demonstrated its ability to correctly classify in the presence of noise typical for MEMS sensors, where good classification results were obtained when choosing the optimal values of hyperpa-rameters.
公開日:2022-12-07
翻訳日:2022-12-08 17:17:19
# 可聴空間地図

Audio Latent Space Cartography ( http://arxiv.org/abs/2212.02610v2 )

ライセンス: Link先を確認
Nicolas Jonason, Bob L.T. Sturm(参考訳) 音声画像生成パイプラインを用いた音声潜在空間の可視化について検討する。 これは音声潜在空間の解釈可能性に役立つと信じている。 我々は、nsynthデータセットで様々な結果を示す。 Webデモが公開されている。

We explore the generation of visualisations of audio latent spaces using an audio-to-image generation pipeline. We believe this can help with the interpretability of audio latent spaces. We demonstrate a variety of results on the NSynth dataset. A web demo is available.
公開日:2022-12-07
翻訳日:2022-12-08 17:17:08
# 連続学習の統計力学--変動原理と平均場ポテンシャル

Statistical mechanics of continual learning: variational principle and mean-field potential ( http://arxiv.org/abs/2212.02846v2 )

ライセンス: Link先を確認
Chan Li and Zhenye Huang and Wenxuan Zou and Haiping Huang(参考訳) 人工知能への障害は、異なる性質の複数のタスクの継続的な学習によって設定される。 近年、機械学習と神経科学のアングルの両方から様々なヒューリスティックなトリックが提案されているが、それらは統一された理論基盤を欠いている。 本稿では,重み付き単層および多層ニューラルネットワークにおける連続学習に着目した。 そこで, ニューラルネットワークは, 勾配が定義する離散重み空間ではなく, フィールド空間で訓練され, さらに, 重みの不確かさが自然に組み込まれ, タスク間のシナプス資源を調節する, 変分ベイズ学習環境を提案する。 物理学的な観点からは、変分連続学習をフランツ・パリシ熱力学ポテンシャルフレームワークに翻訳し、そこでは以前のタスク知識が事前および参照としても作用する。 したがって, 学習性能を平均場次数パラメータを用いて解析し, その予測は確率勾配降下法による数値実験と一致する。 提案する原理的フレームワークは弾性重み強化にもつながり,神経科学はメタ塑性に触発され,深層ネットワークを用いた実世界のマルチタスク学習に理論に基づく手法を提供する。

An obstacle to artificial general intelligence is set by the continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on the continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural network is trained in a field-space, rather than the gradient-ill-defined discrete-weight space, and furthermore, the weight uncertainty is naturally incorporated, and modulates the synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into the Franz-Parisi thermodynamic potential framework, where the previous task knowledge acts as a prior and a reference as well. Therefore, the learning performance can be analytically studied with mean-field order parameters, whose predictions coincide with the numerical experiments using stochastic gradient descent methods. Our proposed principled frameworks also connect to elastic weight consolidation, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
公開日:2022-12-07
翻訳日:2022-12-08 17:17:06
# ゲートトランスを用いた無接触酸素モニタリング

Contactless Oxygen Monitoring with Gated Transformer ( http://arxiv.org/abs/2212.03357v1 )

ライセンス: Link先を確認
Hao He, Yuan Yuan, Ying-Cong Chen, Peng Cao and Dina Katabi(参考訳) 遠隔医療の普及に伴い、患者のオーバーヘッドを最小限に抑えながら、自宅で基礎的な生理的信号を正確に監視できることが重要となる。 本稿では、室内の無線信号を分析するだけで、ウェアラブル装置を使わずに、自宅での血液酸素濃度をモニタリングする非接触型アプローチを提案する。 我々は、患者の呼吸を体から反射する電波信号から抽出し、呼吸信号から患者の酸素推定を推測する新しいニューラルネットワークを考案する。 我々のモデルは「emph{Gated BERT-UNet}」と呼ばれ、患者の医療指標(例えば、性別、睡眠段階)に適応するよう設計されている。 複数の予測ヘッドを持ち、人の生理指標によって制御されるゲートを介して最も適した頭を選択する。 実験結果から, 医療用および無線用両方のデータセットにおいて, 精度の高いモデルが得られた。

With the increasing popularity of telehealth, it becomes critical to ensure that basic physiological signals can be monitored accurately at home, with minimal patient overhead. In this paper, we propose a contactless approach for monitoring patients' blood oxygen at home, simply by analyzing the radio signals in the room, without any wearable devices. We extract the patients' respiration from the radio signals that bounce off their bodies and devise a novel neural network that infers a patient's oxygen estimates from their breathing signal. Our model, called \emph{Gated BERT-UNet}, is designed to adapt to the patient's medical indices (e.g., gender, sleep stages). It has multiple predictive heads and selects the most suitable head via a gate controlled by the person's physiological indices. Extensive empirical results show that our model achieves high accuracy on both medical and radio datasets.
公開日:2022-12-06
翻訳日:2022-12-08 17:12:00
# 気候モデルエミュレーションのためのランダム有線ニューラルネットワークの検討

Exploring Randomly Wired Neural Networks for Climate Model Emulation ( http://arxiv.org/abs/2212.03369v1 )

ライセンス: Link先を確認
William Yik, Sam J. Silva, Andrew Geiss, Duncan Watson-Parris(参考訳) 様々な人為的排出シナリオの気候影響を探索することは、気候変動の緩和と適応のための情報的な決定を下す鍵となる。 最先端の地球システムモデルは、これらの影響について詳細な知見を提供することができるが、シナリオごとに計算コストが大きい。 この膨大な計算負荷は、気候モデルエミュレーションのタスクのための安価な機械学習モデルの開発に近年の関心を惹き付けている。 本稿では,この課題に対するランダム配線ニューラルネットワークの有効性について検討する。 本稿では、climatebenchデータセットを用いて、それらの構築方法を記述し、標準feedforwardと比較する。 具体的には,多層パーセプトロン,畳み込みニューラルネットワーク,畳み込み型長期記憶ネットワークの直列接続層をランダムに結合した密集層で置き換え,100万から1000万のパラメータを持つモデルにおけるモデル性能への影響を評価する。 平均的な性能改善はモデルの複雑さと予測タスクで4.2%となり、場合によっては16.4%まで向上した。 さらに,標準フィードフォワード密度層を有するネットワークとランダムな有線層を有するネットワークとの間には,予測速度に有意な差は認められない。 これらの結果は、ランダムに配線されたニューラルネットワークが、多くの標準モデルにおいて従来の高密度層を直接置き換えるのに適していることを示唆している。

Exploring the climate impacts of various anthropogenic emissions scenarios is key to making informed decisions for climate change mitigation and adaptation. State-of-the-art Earth system models can provide detailed insight into these impacts, but have a large associated computational cost on a per-scenario basis. This large computational burden has driven recent interest in developing cheap machine learning models for the task of climate model emulation. In this manuscript, we explore the efficacy of randomly wired neural networks for this task. We describe how they can be constructed and compare them to their standard feedforward counterparts using the ClimateBench dataset. Specifically, we replace the serially connected dense layers in multilayer perceptrons, convolutional neural networks, and convolutional long short-term memory networks with randomly wired dense layers and assess the impact on model performance for models with 1 million and 10 million parameters. We find average performance improvements of 4.2% across model complexities and prediction tasks, with substantial performance improvements of up to 16.4% in some cases. Furthermore, we find no significant difference in prediction speed between networks with standard feedforward dense layers and those with randomly wired layers. These findings indicate that randomly wired neural networks may be suitable direct replacements for traditional dense layers in many standard models.
公開日:2022-12-06
翻訳日:2022-12-08 17:11:46
# SDRM3: 動的リアルタイムマルチモデルMLワークロードのための動的スケジューリング

SDRM3: A Dynamic Scheduler for Dynamic Real-time Multi-model ML Workloads ( http://arxiv.org/abs/2212.03414v1 )

ライセンス: Link先を確認
Seah Kim, Hyoukjun Kwon, Jinook Song, Jihyuck Jo, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra(参考訳) AR/VRやドローン制御といったリアルタイムマルチモデルML(RTMM)ワークロードは、モデル内のタスク、モデル、レイヤ(あるいはMLオペレータ)など、さまざまなレベルでの動的な振る舞いを伴います。 このような動的な振る舞いは、システム全体の負荷が従来のMLワークロードとは異なり予測不可能であるため、MLシステムにおけるシステムソフトウェアにとって新たな課題である。 また、リアルタイム処理は期限を満たす必要があり、マルチモデルワークロードは極めて異質なモデルを含む。 RTMMワークロードはリソース制約のあるデバイス(例えばVRヘッドセット)で実行されることが多いため、効果的なスケジューラの開発は重要な研究課題である。 そこで本研究では,マルチアクセラレータをターゲットとしたrtmm方式ワークロードの動的処理を効果的に行う新しいスケジューラsdrm3を提案する。 スケジューリング決定を行うために、sdrm3はrtmmワークロードのユニークな要求を定量化し、定量化されたスコアを使用して、異なるモデルや入力フレーム上の現在のシステム負荷やその他の推論ジョブを考慮してスケジューリング決定を駆動する。 SDRM3には調整可能なパラメータがあり、勾配降下のようなオンライン最適化に基づいて動的ワークロードの変更に高速な適応性を提供する。 また,システム負荷に基づいて,スーパーネット内の適切なサブネットワークを動的に選択するスケジューリング効率とモデル性能(例えば,精度)のトレードオフを利用するために,スーパーネットに基づくモデルレベルの動的性を利用する手法を提案する。 5つの現実的RTMMワークロードシナリオに対する評価において、SDRM3は、エネルギ遅延積(EDP)等価メトリックであるUXCost全体の37.7%と53.2%を幾何学平均(97.6%と97.1%)で削減し、我々のスケジューリング手法の有効性を示している。

Emerging real-time multi-model ML (RTMM) workloads such as AR/VR and drone control often involve dynamic behaviors in various levels; task, model, and layers (or, ML operators) within a model. Such dynamic behaviors are new challenges to the system software in an ML system because the overall system load is unpredictable unlike traditional ML workloads. Also, the real-time processing requires to meet deadlines, and multi-model workloads involve highly heterogeneous models. As RTMM workloads often run on resource-constrained devices (e.g., VR headset), developing an effective scheduler is an important research problem. Therefore, we propose a new scheduler, SDRM3, that effectively handles various dynamicity in RTMM style workloads targeting multi-accelerator systems. To make scheduling decisions, SDRM3 quantifies the unique requirements for RTMM workloads and utilizes the quantified scores to drive scheduling decisions, considering the current system load and other inference jobs on different models and input frames. SDRM3 has tunable parameters that provide fast adaptivity to dynamic workload changes based on a gradient descent-like online optimization, which typically converges within five steps for new workloads. In addition, we also propose a method to exploit model level dynamicity based on Supernet for exploiting the trade-off between the scheduling effectiveness and model performance (e.g., accuracy), which dynamically selects a proper sub-network in a Supernet based on the system loads. In our evaluation on five realistic RTMM workload scenarios, SDRM3 reduces the overall UXCost, which is a energy-delay-product (EDP)-equivalent metric for real-time applications defined in the paper, by 37.7% and 53.2% on geometric mean (up to 97.6% and 97.1%) compared to state-of-the-art baselines, which shows the efficacy of our scheduling methodology.
公開日:2022-12-07
翻訳日:2022-12-08 17:11:24
# 時間拡張による動的グラフノード分類

Dynamic Graph Node Classification via Time Augmentation ( http://arxiv.org/abs/2212.03449v1 )

ライセンス: Link先を確認
Jiarui Sun, Mengting Gu, Chin-Chia Michael Yeh, Yujie Fan, Girish Chowdhary, Wei Zhang(参考訳) グラフ構造化データのノード分類は、ラベルが不明なノードを分類することを目的としている。 静的グラフの研究は一般的であるが、動的グラフノードの分類に焦点を当てた研究はほとんどない。 動的グラフのノード分類は2つの理由から難しい。 第一に、モデルは構造的情報と時間的情報の両方、特に長い歴史を持つ動的グラフにおいて、大きな受容場を必要とする。 第二に、動的グラフのサイズが大きくなるにつれて、モデルのスケーラビリティが重要な関心事になる。 これらの問題に対処するために,時間拡張動的グラフニューラルネットワーク(TADGNN)フレームワークを提案する。 TADGNNは2つのモジュールから構成される。 1)時間的拡張モジュールは、時間的時間的変化を構造的に捉え、時間的増分時空間グラフを作成し、 2)構築した時間拡張グラフを用いて各ノードの動的表現を時間にわたって学習する情報伝達モジュール。 4つの動的グラフベンチマークでノード分類実験を行う。 実験により,TADGNNフレームワークは,高いスケーラビリティを示しながら,静的かつ動的なSOTAGNNモデルよりも優れた性能を示した。 また,提案手法の有効性を検証するための理論的および経験的分析を行った。 私たちのコードはhttps://sites.google.com/view/tadgnnで入手できる。

Node classification for graph-structured data aims to classify nodes whose labels are unknown. While studies on static graphs are prevalent, few studies have focused on dynamic graph node classification. Node classification on dynamic graphs is challenging for two reasons. First, the model needs to capture both structural and temporal information, particularly on dynamic graphs with a long history and require large receptive fields. Second, model scalability becomes a significant concern as the size of the dynamic graph increases. To address these problems, we propose the Time Augmented Dynamic Graph Neural Network (TADGNN) framework. TADGNN consists of two modules: 1) a time augmentation module that captures the temporal evolution of nodes across time structurally, creating a time-augmented spatio-temporal graph, and 2) an information propagation module that learns the dynamic representations for each node across time using the constructed time-augmented graph. We perform node classification experiments on four dynamic graph benchmarks. Experimental results demonstrate that TADGNN framework outperforms several static and dynamic state-of-the-art (SOTA) GNN models while demonstrating superior scalability. We also conduct theoretical and empirical analyses to validate the efficiency of the proposed method. Our code is available at https://sites.google.com/view/tadgnn.
公開日:2022-12-07
翻訳日:2022-12-08 17:10:47
# Fallen Angelが手動モデルと自動機械学習による投資と破産予測を実施

Fallen Angel Bonds Investment and Bankruptcy Predictions Using Manual Models and Automated Machine Learning ( http://arxiv.org/abs/2212.03454v1 )

ライセンス: Link先を確認
Harrison Mateika, Juannan Jia, Linda Lillard, Noah Cronbaugh, and Will Shin(参考訳) この研究の主な目的は、どのエンジェル債が下落するかが投資適格債に逆戻りするか、どれが倒産するかを最も予測するモデルを見つけることだった。 このソリューションを実装するためには、倒産を予測できる最適な機械学習モデルを作成するのが理想的な方法だと考えた。 そこで私たちは、ロジスティック回帰(logistic regression)、kn、svm、nnの4つの分類方法を選択することにしました。 Google Cloudの機械学習の自動化方法も利用しました。 モデル比較の結果、google cloudの機械学習が精度の高いスコアを持つことを除けば、モデルが元のデータセットで破産を予測できなかったことが分かりました。 しかし、過剰にサンプリングされた機能選択データセットは、非常にうまく機能しました。 これは、このモデルが過剰にサンプリングされたデータの物語に合致するように過度に適合しているためかもしれない(このデータセットの外部のデータを正確に予測できないように)。 したがって、破産を予測できると確信するモデルを作ることができなかったのです。 しかし、このプロジェクトから価値を2つの重要な方法で見つけることができた。 ひとつは、google cloudの機械学習モデルが、すべてのメトリックとすべてのデータセットにおいて、他のモデルに匹敵するか、あるいは同等に実行されることだ。 2つ目は、機能選択を利用することで予測能力がそれほど低下しないことである。 これは、倒産予測に関する将来の実験のために収集するデータ量を削減できることを意味します。

The primary aim of this research was to find a model that best predicts which fallen angel bonds would either potentially rise up back to investment grade bonds and which ones would fall into bankruptcy. To implement the solution, we thought that the ideal method would be to create an optimal machine learning model that could predict bankruptcies. Among the many machine learning models out there we decided to pick four classification methods: logistic regression, KNN, SVM, and NN. We also utilized an automated methods of Google Cloud's machine learning. The results of our model comparisons showed that the models did not predict bankruptcies very well on the original data set with the exception of Google Cloud's machine learning having a high precision score. However, our over-sampled and feature selection data set did perform very well. This could likely be due to the model being over-fitted to match the narrative of the over-sampled data (as in, it does not accurately predict data outside of this data set quite well). Therefore, we were not able to create a model that we are confident that would predict bankruptcies. However, we were able to find value out of this project in two key ways. The first is that Google Cloud's machine learning model in every metric and in every data set either outperformed or performed on par with the other models. The second is that we found that utilizing feature selection did not reduce predictive power that much. This means that we can reduce the amount of data to collect for future experimentation regarding predicting bankruptcies.
公開日:2022-12-07
翻訳日:2022-12-08 17:10:30
# Dock2D:分子認識問題のための合成データ

Dock2D: Synthetic data for the molecular recognition problem ( http://arxiv.org/abs/2212.03456v1 )

ライセンス: Link先を確認
Siddharth Bhadra-Lobo and Georgy Derevyanko and Guillaume Lamoureux(参考訳) タンパク質の物理的相互作用を予測することは、計算生物学における基礎的な問題である。 学習に基づく新しいアルゴリズムのクラスが積極的に開発され、タンパク質データバンクから抽出されたタンパク質複合体のエンドツーエンドで訓練されている。 これらのトレーニングデータセットは、プロトタイピングに使用するのが難しく、画像や自然言語のデータセットとは異なり、非専門家によって容易に解釈できない。 Dock2D-IPとDock2D-IFは2つの"toy"データセットで、タンパク質とタンパク質の相互作用を予測するアルゴリズムを選択できる。 dock2d-ip(interaction pose)のそれぞれの例では、相互作用が知られている2つの形状の相互作用ポーズと、dock2d-if(interaction fact)のそれぞれの例が、2つの形状が安定な複合体を形成するかどうかを示している。 本稿では,この問題に対する基礎的解法をいくつか提案し,相互作用ポーズ課題(エネルギー最小化「ドッキング問題」として定式化)や相互作用の事実(拘束自由エネルギー推定問題として定式化)を解いて,その基礎的エネルギー関数を学習できることを示す。

Predicting the physical interaction of proteins is a cornerstone problem in computational biology. New classes of learning-based algorithms are actively being developed, and are typically trained end-to-end on protein complex structures extracted from the Protein Data Bank. These training datasets tend to be large and difficult to use for prototyping and, unlike image or natural language datasets, they are not easily interpretable by non-experts. We present Dock2D-IP and Dock2D-IF, two "toy" datasets that can be used to select algorithms predicting protein-protein interactions$\unicode{x2014}$or any other type of molecular interactions. Using two-dimensional shapes as input, each example from Dock2D-IP ("interaction pose") describes the interaction pose of two shapes known to interact and each example from Dock2D-IF ("interaction fact") describes whether two shapes form a stable complex or not. We propose a number of baseline solutions to the problem and show that the same underlying energy function can be learned either by solving the interaction pose task (formulated as an energy-minimization "docking" problem) or the fact-of-interaction task (formulated as a binding free energy estimation problem).
公開日:2022-12-07
翻訳日:2022-12-08 17:10:04
# プライバシ保護フェデレーション学習による風車条件情報のフリートワイド共有に向けて

Towards Fleet-wide Sharing of Wind Turbine Condition Information through Privacy-preserving Federated Learning ( http://arxiv.org/abs/2212.03529v1 )

ライセンス: Link先を確認
Lorin Jenkel, Stefan Jonas, Angela Meyer(参考訳) テラバイトのデータは、風力タービンメーカーが艦隊から毎日収集している。 データにはタービンの健康診断や性能モニタリングのための貴重なリアルタイム情報が含まれており、まれな故障や重要な部品の残りのサービス寿命を予測する。 しかし、風力タービンの艦隊から得られた豊富なデータは、製造会社がビジネス上の戦略的理由からタービンデータのプライバシーを優先しているため、オペレーター、ユーティリティ企業、研究者にはアクセスできないままです。 データアクセスの欠如は、データ駆動型タービンの運用とメンテナンス戦略の改善、ダウンタイムの削減といった機会の活用を妨げる。 本稿では,風力タービンにデータを残して,製造業者が望むようなデータのプライバシを保ちながら,そのローカルデータに対するフリートワイドな学習を可能にする分散フェデレーション機械学習手法を提案する。 本研究では, 汎用訓練データに乏しい風力タービンが, フェデレート学習を伴うより正確な故障検出モデルから恩恵を受ける一方で, フェデレーション学習プロセスに参加することでモデル性能を損なうタービンは存在しないことを示す。 従来のトレーニングプロセスとフェデレーショントレーニングプロセスを比較すると,コミュニケーションやオーバヘッド操作の増加により,フェデレーショントレーニングにおける平均モデルトレーニング時間は7倍に向上する。 したがって、モデル訓練時間は、特に大型の風力タービン車両において、連合学習アプリケーションにおいてさらに探求され、緩和される必要がある障害を構成する可能性がある。

Terabytes of data are collected every day by wind turbine manufacturers from their fleets. The data contain valuable real-time information for turbine health diagnostics and performance monitoring, for predicting rare failures and the remaining service life of critical parts. And yet, this wealth of data from wind turbine fleets remains inaccessible to operators, utility companies, and researchers as manufacturing companies prefer the privacy of their fleets' turbine data for business strategic reasons. The lack of data access impedes the exploitation of opportunities, such as improving data-driven turbine operation and maintenance strategies and reducing downtimes. We present a distributed federated machine learning approach that leaves the data on the wind turbines to preserve the data privacy, as desired by manufacturers, while still enabling fleet-wide learning on those local data. We demonstrate in a case study that wind turbines which are scarce in representative training data benefit from more accurate fault detection models with federated learning, while no turbine experiences a loss in model performance by participating in the federated learning process. When comparing conventional and federated training processes, the average model training time rises significantly by a factor of 7 in the federated training due to increased communication and overhead operations. Thus, model training times might constitute an impediment that needs to be further explored and alleviated in federated learning applications, especially for large wind turbine fleets.
公開日:2022-12-07
翻訳日:2022-12-08 17:09:42
# グラフニューラルネットワークのためのノード指向スペクトルフィルタリング

Node-oriented Spectral Filtering for Graph Neural Networks ( http://arxiv.org/abs/2212.03654v1 )

ライセンス: Link先を確認
Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Youru Li, and Yao Zhao(参考訳) グラフニューラルネットワーク(GNN)は、GNNの固有のローパスフィルタリング特性により、非ホモフィルグラフデータを扱う場合、好ましくないグラフデータに対して顕著な性能を示した。 一般に、実世界のグラフは多彩なサブグラフパターンの複雑な混合であることが多いので、現在のほとんどの作品のように、グローバルの観点からグラフ上の普遍的スペクトルフィルタを学ぶことは、局所的なパターンの変化に適応するのが非常に困難である。 局所パターンに関する理論的解析に基づいて, 既存のスペクトルフィルタリング法を再考し, \textbf{\underline{n}}ode-oriented spectral \textbf{\underline{f}}iltering for \textbf{\underline{g}}raph \textbf{\underline{n}}eural \textbf{\underline{n}}etwork (nfgnn)を提案する。 各ノードのノード指向のスペクトルフィルタを推定することにより、nfgnnは一般化された変換演算子を介して正確な局所ノード位置決め機能を備えることにより、局所ホモフィリパターンのバリエーションを適応的に判別する。 一方、再パラメータ化の利用は、ノード指向スペクトルフィルタを学習するための大域的一貫性と局所感度のトレードオフをもたらす。 さらに,NFGNNの局所化特性を理論的に解析し,適応フィルタリング後の信号が対応するノードの周囲に留まっていることを示す。 実験の結果,提案したNFGNNの方が良好な性能を示した。

Graph neural networks (GNNs) have shown remarkable performance on homophilic graph data while being far less impressive when handling non-homophilic graph data due to the inherent low-pass filtering property of GNNs. In general, since the real-world graphs are often a complex mixture of diverse subgraph patterns, learning a universal spectral filter on the graph from the global perspective as in most current works may still suffer from great difficulty in adapting to the variation of local patterns. On the basis of the theoretical analysis on local patterns, we rethink the existing spectral filtering methods and propose the \textbf{\underline{N}}ode-oriented spectral \textbf{\underline{F}}iltering for \textbf{\underline{G}}raph \textbf{\underline{N}}eural \textbf{\underline{N}}etwork (namely NFGNN). By estimating the node-oriented spectral filter for each node, NFGNN is provided with the capability of precise local node positioning via the generalized translated operator, thus discriminating the variations of local homophily patterns adaptively. Meanwhile, the utilization of re-parameterization brings a good trade-off between global consistency and local sensibility for learning the node-oriented spectral filters. Furthermore, we theoretically analyze the localization property of NFGNN, demonstrating that the signal after adaptive filtering is still positioned around the corresponding node. Extensive experimental results demonstrate that the proposed NFGNN achieves more favorable performance.
公開日:2022-12-07
翻訳日:2022-12-08 17:09:18
# BeMi Stardust:二元化ニューラルネットワークの構造的アンサンブル

The BeMi Stardust: a Structured Ensemble of Binarized Neural Networks ( http://arxiv.org/abs/2212.03659v1 )

ライセンス: Link先を確認
Ambrogio Maria Bernardelli, Stefano Gualandi, Hoong Chuin Lau, Simone Milanesi(参考訳) バイナリニューラルネットワーク(BNN)は、その軽量アーキテクチャと低消費電力デバイス上での動作能力により、注目を集めている。 少数ショット学習に限定されたBNNの訓練技術は、MIP(Mixed Integer Programming)アプローチに基づいている。 本稿では,bnnの構造化アーキテクチャであるbemiアンサンブルを提案する。bnnを1組のクラス毎にトレーニングし,最終結果を予測するために多数決方式を適用する。 2つのクラスを区別する単一のbnnのトレーニングは、ロバスト性と単純さの原則に従ってレキシカル多目的関数を最適化するmipモデルによって達成される。 このアプローチにより、出力が入力に対する小さな摂動に影響されず、アクティブウェイトの数が可能な限り少ないトレーニングネットワークが構築され、精度が保たれる。 mnist と fashion-mnist のデータセットを用いて,クラス毎に最大 40 のトレーニング画像を用いてモデルを検証する。 我々の構造的アンサンブルは、確率勾配降下と最先端のMIPベースのアプローチで訓練されたBNNよりも優れている。 mnistデータセットの平均精度は51.1%であるが、bemiアンサンブルは、1クラスあたり10イメージでトレーニングすると61.7%、クラス当たり40イメージでトレーニングした場合76.4%で、平均精度は61.7%である。

Binarized Neural Networks (BNNs) are receiving increasing attention due to their lightweight architecture and ability to run on low-power devices. The state-of-the-art for training classification BNNs restricted to few-shot learning is based on a Mixed Integer Programming (MIP) approach. This paper proposes the BeMi ensemble, a structured architecture of BNNs based on training a single BNN for each possible pair of classes and applying a majority voting scheme to predict the final output. The training of a single BNN discriminating between two classes is achieved by a MIP model that optimizes a lexicographic multi-objective function according to robustness and simplicity principles. This approach results in training networks whose output is not affected by small perturbations on the input and whose number of active weights is as small as possible, while good accuracy is preserved. We computationally validate our model using the MNIST and Fashion-MNIST datasets using up to 40 training images per class. Our structured ensemble outperforms both BNNs trained by stochastic gradient descent and state-of-the-art MIP-based approaches. While the previous approaches achieve an average accuracy of 51.1% on the MNIST dataset, the BeMi ensemble achieves an average accuracy of 61.7% when trained with 10 images per class and 76.4% when trained with 40 images per class.
公開日:2022-12-07
翻訳日:2022-12-08 17:08:46
# 表現的アーキテクチャは、ダイナミクスに基づく神経集団モデルの解釈性を高める

Expressive architectures enhance interpretability of dynamics-based neural population models ( http://arxiv.org/abs/2212.03771v1 )

ライセンス: Link先を確認
Andrew R. Sedler, Christopher Versteeg, Chethan Pandarinath(参考訳) 記録された神経活動から潜伏するダイナミクスを回復できる人工ニューラルネットワークは、生物学的計算の基礎となる動的モチーフを特定し解釈するための強力な手段を提供する。 ニューラルネットワークのみが潜時力学系を一意に決定しないことを考えると、解釈可能なアーキテクチャは正確かつ低次元の潜時力学を優先すべきである。 本研究では,ニューラルネットワークから3つの潜伏カオスアトラクションを復元する際のシーケンシャルオートエンコーダ(SAE)の性能評価を行った。 rnn(recurrent neural network)ベースのダイナミクスを持つsaeは、真の潜在状態の次元において正確な速度を推定できず、データに存在しない動的特徴に依存することが判明した。 一方,神経常微分方程式(ノード)に基づくsaeは,真の潜在状態次元における正確な速度を推定すると同時に,潜在軌道や不動点構造も復元する。 この発見は、NODEがベクトル場をモデル化するために任意のキャパシティの多層パーセプトロン(MLP)を使用できるという事実による。 動力学モデルの表現性を潜在次元から分離することで、ノードはrnn細胞が失敗する必要な低次元ダイナミクスを学ぶことができる。 広く使われているrnnベースのダイナミクスの準最適解釈性は、低次元の潜在空間における正確なダイナミクスの学習を可能にするノードのような代替アーキテクチャの置き換えを動機付ける可能性がある。

Artificial neural networks that can recover latent dynamics from recorded neural activity may provide a powerful avenue for identifying and interpreting the dynamical motifs underlying biological computation. Given that neural variance alone does not uniquely determine a latent dynamical system, interpretable architectures should prioritize accurate and low-dimensional latent dynamics. In this work, we evaluated the performance of sequential autoencoders (SAEs) in recovering three latent chaotic attractors from simulated neural datasets. We found that SAEs with widely-used recurrent neural network (RNN)-based dynamics were unable to infer accurate rates at the true latent state dimensionality, and that larger RNNs relied upon dynamical features not present in the data. On the other hand, SAEs with neural ordinary differential equation (NODE)-based dynamics inferred accurate rates at the true latent state dimensionality, while also recovering latent trajectories and fixed point structure. We attribute this finding to the fact that NODEs allow use of multi-layer perceptrons (MLPs) of arbitrary capacity to model the vector field. Decoupling the expressivity of the dynamics model from its latent dimensionality enables NODEs to learn the requisite low-D dynamics where RNN cells fail. The suboptimal interpretability of widely-used RNN-based dynamics may motivate substitution for alternative architectures, such as NODE, that enable learning of accurate dynamics in low-dimensional latent spaces.
公開日:2022-12-07
翻訳日:2022-12-08 17:08:22
# 360{\textdegree}画像上のNeRFの非均一サンプリング戦略

Non-uniform Sampling Strategies for NeRF on 360{\textdegree} images ( http://arxiv.org/abs/2212.03635v1 )

ライセンス: Link先を確認
Takashi Otonari, Satoshi Ikehata, Kiyoharu Aizawa(参考訳) 近年,ニューラルレイディアンス場(NeRF)の出現に伴い,視点画像を用いた新しいビュー合成の性能が劇的に向上している。 本研究では,360{\textdegree}全方位画像に対して,NeRFを効果的に構築する2つの新しい手法を提案する。 高緯度領域に空間的歪みを有するerpフォーマットの360{\textdegree}画像の特徴と360{\textdegree}ワイドビューアングルのため、nerfの一般的な光線サンプリング戦略は効果がない。 したがって、NeRFのビュー合成精度は制限され、学習は効率的ではない。 そこで本研究では,nrfが360{\textdegree}画像に適合する2つの非一様レイサンプリング方式を提案する。 室内シーンと屋外シーンのReplicaモデルとSceneCityモデルを用いて,Synth360の評価データセットを作成した。 実験の結果,提案手法は精度と効率の両面から360{\textdegree} 画像 NeRF の構築に成功した。 この提案は、NeRFの高度な変種に適用可能である。 DietNeRF、AugNeRF、NeRF++と提案手法を組み合わせることで、さらなる性能向上を実現した。 さらに,提案手法が実世界のシーンの品質を360{\textdegree}画像で向上させることを示す。 Synth360: https://drive.google.com/drive/folders/1suL9B7DO2no21ggiIHkH3JF3OecasQLb

In recent years, the performance of novel view synthesis using perspective images has dramatically improved with the advent of neural radiance fields (NeRF). This study proposes two novel techniques that effectively build NeRF for 360{\textdegree} omnidirectional images. Due to the characteristics of a 360{\textdegree} image of ERP format that has spatial distortion in their high latitude regions and a 360{\textdegree} wide viewing angle, NeRF's general ray sampling strategy is ineffective. Hence, the view synthesis accuracy of NeRF is limited and learning is not efficient. We propose two non-uniform ray sampling schemes for NeRF to suit 360{\textdegree} images - distortion-aware ray sampling and content-aware ray sampling. We created an evaluation dataset Synth360 using Replica and SceneCity models of indoor and outdoor scenes, respectively. In experiments, we show that our proposal successfully builds 360{\textdegree} image NeRF in terms of both accuracy and efficiency. The proposal is widely applicable to advanced variants of NeRF. DietNeRF, AugNeRF, and NeRF++ combined with the proposed techniques further improve the performance. Moreover, we show that our proposed method enhances the quality of real-world scenes in 360{\textdegree} images. Synth360: https://drive.google.com/drive/folders/1suL9B7DO2no21ggiIHkH3JF3OecasQLb.
公開日:2022-12-07
翻訳日:2022-12-08 17:01:53
# 雑音レーダデータにおける意味セグメンテーションのためのガウスレーダトランスフォーマ

Gaussian Radar Transformer for Semantic Segmentation in Noisy Radar Data ( http://arxiv.org/abs/2212.03690v1 )

ライセンス: Link先を確認
Matthias Zeller and Jens Behley and Michael Heidingsfeld and Cyrill Stachniss(参考訳) シーン理解は、将来の状態予測、衝突回避、経路計画のための動的環境における自律ロボットにとって不可欠である。 カメラとLiDARは近年大きく進歩したが、悪天候下では限界に直面した。 マルチモーダルセンサーの可能性を最大限に活用するために、レーダーセンサーは安全上重要なタスクに必須であり、現在ほとんどの新車に搭載されている。 本稿では,レーダーポイント雲内の移動物体の意味セグメンテーションの問題に対処し,他のセンサモダリティを用いて環境の知覚を向上させる。 ポイントクラウドを高密度化するために複数のスキャンを集約する代わりに、スパースな単一スキャンセグメンテーションを正確に実行するセルフアテンションメカニズムに基づく新しいアプローチを提案する。 ガウス型レーダトランスフォーマーと呼ばれるこの手法は,新たに導入されたガウス型トランスフォーマー層を含み,ソフトマックス正規化をガウス関数に置き換え,個々の点の寄与を分離する。 長距離依存を捉えるトランスフォーマの課題に取り組むため,我々は受容場を拡大し,強い空間関係を捉えるための注意深いアップ・アンド・ダウンサンプリングモジュールを提案する。 我々はRadarScenesデータセットの他の最先端手法と比較し、時間的情報を活用することなく、多様な環境において優れたセグメンテーション品質を示す。

Scene understanding is crucial for autonomous robots in dynamic environments for making future state predictions, avoiding collisions, and path planning. Camera and LiDAR perception made tremendous progress in recent years, but face limitations under adverse weather conditions. To leverage the full potential of multi-modal sensor suites, radar sensors are essential for safety critical tasks and are already installed in most new vehicles today. In this paper, we address the problem of semantic segmentation of moving objects in radar point clouds to enhance the perception of the environment with another sensor modality. Instead of aggregating multiple scans to densify the point clouds, we propose a novel approach based on the self-attention mechanism to accurately perform sparse, single-scan segmentation. Our approach, called Gaussian Radar Transformer, includes the newly introduced Gaussian transformer layer, which replaces the softmax normalization by a Gaussian function to decouple the contribution of individual points. To tackle the challenge of the transformer to capture long-range dependencies, we propose our attentive up- and downsampling modules to enlarge the receptive field and capture strong spatial relations. We compare our approach to other state-of-the-art methods on the RadarScenes data set and show superior segmentation quality in diverse environments, even without exploiting temporal information.
公開日:2022-12-07
翻訳日:2022-12-08 17:01:31
# GLeaD: ジェネレータリードタスクによるGANの改善

GLeaD: Improving GANs with A Generator-Leading Task ( http://arxiv.org/abs/2212.03752v1 )

ライセンス: Link先を確認
Qingyan Bai, Ceyuan Yang, Yinghao Xu, Xihui Liu, Yujiu Yang, Yujun Shen(参考訳) 生成逆数ネットワーク(GAN)は、ジェネレータ(G)と識別器(D)との間の2プレーヤゲームとして定式化され、Dには、画像が実データから来るか、Gによって生成されるかの区別が求められる。 GANにおけるより公平なゲームに向けて、G が D にタスクを割り当てるような対戦訓練の新しいパラダイムを提案する。 具体的には、画像が与えられた場合、D は G によって適切に復号化して入力を再構成できる代表的特徴を抽出することを期待する。 このようにして、自由学習の代わりに、D は領域分類に対する G の見解と一致するよう促される。 各種データセットに対する実験結果は,ベースラインに対するアプローチのかなりの優位性を示している。 例えば、LSUNベッドルームではStyleGAN2のFIDを4.30から2.55に、LSUN教会では4.04から2.82に改善する。 この活動における先駆的な試みは、gan改善のためにより良い設計のジェネレータリードタスクをコミュニティに促すことができると信じています。

Generative adversarial network (GAN) is formulated as a two-player game between a generator (G) and a discriminator (D), where D is asked to differentiate whether an image comes from real data or is produced by G. Under such a formulation, D plays as the rule maker and hence tends to dominate the competition. Towards a fairer game in GANs, we propose a new paradigm for adversarial training, which makes G assign a task to D as well. Specifically, given an image, we expect D to extract representative features that can be adequately decoded by G to reconstruct the input. That way, instead of learning freely, D is urged to align with the view of G for domain classification. Experimental results on various datasets demonstrate the substantial superiority of our approach over the baselines. For instance, we improve the FID of StyleGAN2 from 4.30 to 2.55 on LSUN Bedroom and from 4.04 to 2.82 on LSUN Church. We believe that the pioneering attempt present in this work could inspire the community with better designed generator-leading tasks for GAN improvement.
公開日:2022-12-07
翻訳日:2022-12-08 17:01:07
# 逐次表現混合によるワンショット画像から画像への変換を用いた意味領域分割のための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation using One-shot Image-to-Image Translation via Latent Representation Mixing ( http://arxiv.org/abs/2212.03826v1 )

ライセンス: Link先を確認
Sarmad F. Ismael, Koray Kayabol, and Erchan Aptoula(参考訳) ドメイン適応は、大規模土地利用・土地被覆マップ計算において広く見られるドメインシフトと、教師ありセマンティックセグメンテーションに不可欠なピクセルレベルの地平の不足の両方を扱うための重要な戦略の1つである。 ソースドメインの再スタイリングによる敵のドメイン適応に焦点をあてた研究は、一般的には生成的な敵のネットワークを通じて、様々なレベルの成功を報告しているが、それらは意味的な矛盾、視覚的な腐敗に苦しめられ、しばしば多数のターゲットドメインのサンプルを必要とする。 本稿では,超高解像度画像の意味セグメンテーションのための教師なし領域適応法を提案する。 i) 意味的に一貫性があり、ノイズのない画像につながること。 ii) 単一の対象領域サンプル(すなわちワンショット)で動作し、かつ、 三 最先端の方法から必要なパラメータの数のごく一部であつて。 より具体的には、潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダ原理に基づいて画像から画像への変換パラダイムを提案し、セマンティック一貫性を強制するために知覚ネットワークモジュールと損失関数をさらに導入する。 都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。 ソースコードは \url{https://github.com/sarmadfismael/lrm_i2i}で入手できる。

Domain adaptation is one of the prominent strategies for handling both domain shift, that is widely encountered in large-scale land use/land cover map calculation, and the scarcity of pixel-level ground truth that is crucial for supervised semantic segmentation. Studies focusing on adversarial domain adaptation via re-styling source domain samples, commonly through generative adversarial networks, have reported varying levels of success, yet they suffer from semantic inconsistencies, visual corruptions, and often require a large number of target domain samples. In this letter, we propose a new unsupervised domain adaptation method for the semantic segmentation of very high resolution images, that i) leads to semantically consistent and noise-free images, ii) operates with a single target domain sample (i.e. one-shot) and iii) at a fraction of the number of parameters required from state-of-the-art methods. More specifically an image-to-image translation paradigm is proposed, based on an encoder-decoder principle where latent content representations are mixed across domains, and a perceptual network module and loss function is further introduced to enforce semantic consistency. Cross-city comparative experiments have shown that the proposed method outperforms state-of-the-art domain adaptation methods. Our source code will be available at \url{https://github.com/Sarmadfismael/LRM_I2I}.
公開日:2022-12-07
翻訳日:2022-12-08 17:00:45
# ロボットマニピュレーションのためのスマート・センサ・フュージョン

See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation ( http://arxiv.org/abs/2212.03858v1 )

ライセンス: Link先を確認
Hao Li, Yizhi Zhang, Junzhe Zhu, Shaoxiong Wang, Michelle A Lee, Huazhe Xu, Edward Adelson, Li Fei-Fei, Ruohan Gao, Jiajun Wu(参考訳) 人間は日常的な活動において様々な仕事をこなすために全ての感覚を使用する。 対照的に、ロボット操作に関する既存の研究は、主に視覚や触覚などの2つのモードに依存している。 本研究では,視覚,聴覚,触覚の知覚がロボットの複雑な操作課題を協調的に解くのにどのように役立つのかを体系的に研究する。 カメラで観察し、コンタクトマイクで聴き、視覚ベースの触覚センサーで感じられるロボットシステムを構築し、これら3つの感覚モダリティを自己接触モデルと融合させた。 ロボット操作のためのマルチセンサー知覚の必要性とパワーを示す: ビジョンはロボットのグローバルな状態を表示するが、しばしば閉塞に苦しむことがあり、オーディオは目に見えない重要な瞬間の即時のフィードバックを提供し、タッチは意思決定のための正確な局所幾何学を提供する。 ロボットシステムは3つのモダリティをすべて活用し、従来の方法を大幅に上回っています。

Humans use all of their senses to accomplish different tasks in everyday activities. In contrast, existing work on robotic manipulation mostly relies on one, or occasionally two modalities, such as vision and touch. In this work, we systematically study how visual, auditory, and tactile perception can jointly help robots to solve complex manipulation tasks. We build a robot system that can see with a camera, hear with a contact microphone, and feel with a vision-based tactile sensor, with all three sensory modalities fused with a self-attention model. Results on two challenging tasks, dense packing and pouring, demonstrate the necessity and power of multisensory perception for robotic manipulation: vision displays the global status of the robot but can often suffer from occlusion, audio provides immediate feedback of key moments that are even invisible, and touch offers precise local geometry for decision making. Leveraging all three modalities, our robotic system significantly outperforms prior methods.
公開日:2022-12-07
翻訳日:2022-12-08 17:00:24
# SAIH:HPCシステムにおけるAIパフォーマンストレンドを理解するためのスケーラブルな評価手法

SAIH: A Scalable Evaluation Methodology for Understanding AI Performance Trend on HPC Systems ( http://arxiv.org/abs/2212.03410v1 )

ライセンス: Link先を確認
Jiangsu Du, Dongsheng Li, Yingpeng Wen, Jiazhi Jiang, Dan Huang, Xiangke Liao, and Yutong Lu(参考訳) 新たな人工知能(AI)技術は、宇宙学、物理学、バイオインフォマティクスなど様々な科学研究を迅速化しており、ハイパフォーマンスコンピューティング(HPC)システムにおいて必然的に重要な分野となっている。 既存のAIベンチマークは、データセットとAIモデルの観点から、事前に定義された問題サイズの下でHPCシステムのAIパフォーマンスを評価するために、よく認識されたAIアプリケーションをカスタマイズする傾向がある。 問題サイズにスケーラビリティが欠如しているため、静的AIベンチマークは、HPCシステム、特に大規模システムにおける科学AIアプリケーションの進化するAIアプリケーションのパフォーマンストレンドを理解するのに役立つ可能性がある。 本稿では,HPCシステムのAI性能傾向を,カスタマイズされたAIアプリケーションの問題サイズを拡大して解析するスケーラブルな評価手法(SAIH)を提案する。 スケーラビリティを実現するため、SAIHは問題のサイズを拡大するための新しいメカニズムのセットを構築している。 データとモデルは絶えずスケールするので、HPCシステムにおけるAIパフォーマンスの傾向と範囲を調べ、システムのボトルネックをさらに診断することができる。 提案手法を検証するため,SAIHのケーススタディとしてGPUを備えた実HPCシステムを評価するために,宇宙AIアプリケーションを拡張した。

Novel artificial intelligence (AI) technology has expedited various scientific research, e.g., cosmology, physics and bioinformatics, inevitably becoming a significant category of workload on high performance computing (HPC) systems. Existing AI benchmarks tend to customize well-recognized AI applications, so as to evaluate the AI performance of HPC systems under predefined problem size, in terms of datasets and AI models. Due to lack of scalability on the problem size, static AI benchmarks might be under competent to help understand the performance trend of evolving AI applications on HPC systems, in particular, the scientific AI applications on large-scale systems. In this paper, we propose a scalable evaluation methodology (SAIH) for analyzing the AI performance trend of HPC systems with scaling the problem sizes of customized AI applications. To enable scalability, SAIH builds a set of novel mechanisms for augmenting problem sizes. As the data and model constantly scale, we can investigate the trend and range of AI performance on HPC systems, and further diagnose system bottlenecks. To verify our methodology, we augment a cosmological AI application to evaluate a real HPC system equipped with GPUs as a case study of SAIH.
公開日:2022-12-07
翻訳日:2022-12-08 17:00:09
# 一般関数空間における最適輸送マップ推定

Optimal transport map estimation in general function spaces ( http://arxiv.org/abs/2212.03722v1 )

ライセンス: Link先を確認
Vincent Divol, Jonathan Niles-Weed, Aram-Alexandre Pooladian(参考訳) 固定された)ソース分布の$P$と未知のターゲット分布の$Q$の間の最適なトランスポートマップを推定する問題は、$Q$のサンプルに基づいて検討する。 このような最適輸送マップの推定は、生成的モデリングのような現代的な統計応用においてますます重要になっている。 現在、推定率はいくつかの設定でしか知られていない(例えば、$p$ と $q$ は、トランスポートマップが h\"older クラスにあるとき、上下に境界を持つ)が、実際には反映されないことが多い。 一般関数空間における最適輸送写像の推定率を求める統一手法を提案する。 ソース測度 $p$ は poincar\'e の不等式を満たすこと、最適写像は計量エントロピーを制御できる空間にある滑らかな凸関数の勾配であることのみを要求する。 特別の場合として,有界密度とH\"古い輸送マップの既知推定率を復元するが,事前の作業ではカバーされない多くの設定において,ほぼ鋭い結果が得られる。 例えば、$p$が正規分布であり、トランスポートマップが無限幅の浅いニューラルネットワークによって与えられる場合に、最初の統計的推定率を提供する。

We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
公開日:2022-12-07
翻訳日:2022-12-08 16:59:47
# DIAMOND: 分散バイレベル最適化におけるサンプルと通信の複雑さ

DIAMOND: Taming Sample and Communication Complexities in Decentralized Bilevel Optimization ( http://arxiv.org/abs/2212.02376v2 )

ライセンス: Link先を確認
Peiwen Qiu, Yining Li, Zhuqing Liu, Prashant Khanduri, Jia Liu, Ness B. Shroff, Elizabeth Serena Bentley, Kurt Turck(参考訳) 分散化された双レベル最適化は、ピアツーピアエッジネットワークにおける多くの新興マルチエージェント学習パラダイム(マルチエージェントメタラーニングやマルチエージェント強化学習など)の基盤的役割により、近年注目を集めている。 しかしながら、エッジネットワークの限られた計算能力と通信能力を扱うために、分散二レベル最適化技術を開発する上での課題は、サンプルと通信の複雑さを減らすことである。 これは、ダイアモンド(運動量と勾配追跡を伴う分散単時間スケール確率近似)と呼ばれる新しい分散二段階最適化を開発する動機となった。 本論文の貢献は以下のとおりである。 i)DIAMONDアルゴリズムは,2レベル最適化の自然な二重ループ構造に従わず,単一ループ構造を採用する。 二 ダイヤモンドアルゴリズムは、既存の方法と比較して、完全な勾配評価を必要としないため、試料及び計算の複雑さを更に低減する。 iii) モーメント情報と勾配追跡手法の注意深い統合により,DIAMONDアルゴリズムはサンプルおよび通信複雑度において$\mathcal{O}(\epsilon^{-3/2})$を享受し,それぞれがデータセットサイズに依存しず,既存の作業を大幅に上回っていることを示す。 大規模な実験も理論的な結果を検証する。

Decentralized bilevel optimization has received increasing attention recently due to its foundational role in many emerging multi-agent learning paradigms (e.g., multi-agent meta-learning and multi-agent reinforcement learning) over peer-to-peer edge networks. However, to work with the limited computation and communication capabilities of edge networks, a major challenge in developing decentralized bilevel optimization techniques is to lower sample and communication complexities. This motivates us to develop a new decentralized bilevel optimization called DIAMOND (decentralized single-timescale stochastic approximation with momentum and gradient-tracking). The contributions of this paper are as follows: i) our DIAMOND algorithm adopts a single-loop structure rather than following the natural double-loop structure of bilevel optimization, which offers low computation and implementation complexity; ii) compared to existing approaches, the DIAMOND algorithm does not require any full gradient evaluations, which further reduces both sample and computational complexities; iii) through a careful integration of momentum information and gradient tracking techniques, we show that the DIAMOND algorithm enjoys $\mathcal{O}(\epsilon^{-3/2})$ in sample and communication complexities for achieving an $\epsilon$-stationary solution, both of which are independent of the dataset sizes and significantly outperform existing works. Extensive experiments also verify our theoretical findings.
公開日:2022-12-07
翻訳日:2022-12-08 16:59:25
# 多段階時系列予測のためのコプラ共形予測

Copula Conformal Prediction for Multi-step Time Series Forecasting ( http://arxiv.org/abs/2212.03281v1 )

ライセンス: Link先を確認
Sophia Sun, Rose Yu(参考訳) 正確な不確実性測定は、堅牢で信頼性の高い機械学習システムを構築するための重要なステップである。 共形予測(conformal prediction)は、実装の容易さ、統計カバレッジの保証、基盤となる予測器の汎用性で有名な分布のない不確実性定量化アルゴリズムである。 しかし、時系列に対する既存の共形予測アルゴリズムは、時間依存を考慮せずに単段予測に制限される。 本稿では,多変量・多段階時系列予測のためのCopula Conformal Predictionアルゴリズム,CopulaCPTSを提案する。 いくつかの合成および実世界の多変量時系列データセットにおいて、CopulaCPTSは既存の手法よりも多段階予測タスクに対してより校正され、鋭い信頼区間を生成することを示す。

Accurate uncertainty measurement is a key step to building robust and reliable machine learning systems. Conformal prediction is a distribution-free uncertainty quantification algorithm popular for its ease of implementation, statistical coverage guarantees, and versatility for underlying forecasters. However, existing conformal prediction algorithms for time series are limited to single-step prediction without considering the temporal dependency. In this paper we propose a Copula Conformal Prediction algorithm for multivariate, multi-step Time Series forecasting, CopulaCPTS. On several synthetic and real-world multivariate time series datasets, we show that CopulaCPTS produces more calibrated and sharp confidence intervals for multi-step prediction tasks than existing techniques.
公開日:2022-12-06
翻訳日:2022-12-08 16:59:01
# 異種雑音源を用いた無線ネットワークの同期化へのニューラルアプローチ

A neural approach to synchronization in wireless networks with heterogeneous sources of noise ( http://arxiv.org/abs/2212.03327v1 )

ライセンス: Link先を確認
Maurizio Mongelli, Stefano Scanzio(参考訳) 本稿では,同期品質に影響する要因の存在下でのクロック同期状態推定について述べる。 例えば、温度変化や遅延非対称性がある。 これらの作業条件は、無線センサネットワークやWiFiなど、多くの無線環境において、同期が困難な問題となっている。 非定常ノイズを克服するために必要な動的状態推定について検討する。 双方向メッセージ交換同期プロトコルは参照として利用されてきた。 確率環境ではa-プリオリの仮定は行われず、温度測定は行われない。 アルゴリズムは、作業条件に依存するパラメータをチューニングすることなく、オフラインで明確に指定されている。 提案手法は, 温度変動が大きい, 遅延分布が異なる, 伝送路の非対称性のレベルに頑健であることが判明した。

The paper addresses state estimation for clock synchronization in the presence of factors affecting the quality of synchronization. Examples are temperature variations and delay asymmetry. These working conditions make synchronization a challenging problem in many wireless environments, such as Wireless Sensor Networks or WiFi. Dynamic state estimation is investigated as it is essential to overcome non-stationary noises. The two-way timing message exchange synchronization protocol has been taken as a reference. No a-priori assumptions are made on the stochastic environments and no temperature measurement is executed. The algorithms are unequivocally specified offline, without the need of tuning some parameters in dependence of the working conditions. The presented approach reveals to be robust to a large set of temperature variations, different delay distributions and levels of asymmetry in the transmission path.
公開日:2022-12-06
翻訳日:2022-12-08 16:58:48
# 不均一グラフ表現を用いた説明可能な動き予測

Towards Explainable Motion Prediction using Heterogeneous Graph Representations ( http://arxiv.org/abs/2212.03806v1 )

ライセンス: Link先を確認
Sandra Carrasco Limeros, Sylwia Majchrowska, Joakim Johnander, Christoffer Petersson, David Fern\'andez Llorca(参考訳) 動き予測システムは、自動運転車が安全かつ効率的な計画を実行できるようにする交通シナリオの将来の挙動を捉えることを目的としている。 これらのシナリオの進化は極めて不確実であり、シーン内の静的および動的オブジェクトとの相互作用に依存する。 GNNベースのアプローチは、これらの相互作用を自然にモデル化するのに適しているため、近年注目を集めている。 しかしながら、未検討のままである主な課題の1つは、解釈可能性や説明可能性といった側面を含む自動運転システムの透明性要件に対処するために、これらのモデルの複雑さと不透明さに対処する方法である。 本研究では,異なるアプローチを用いて動作予測システムの説明可能性を向上させることを目的とする。 まず,トラヒックシーンのヘテログラフ表現と車線グラフトラバーサルに基づく,オブジェクトレベルおよびタイプレベルアテンションを用いたインタラクション行動の学習に基づく,説明可能なヘテロジニアスグラフベースポリシ(xhgp)モデルを提案する。 この学習された注意は、シーンにおける最も重要なエージェントと相互作用に関する情報を提供する。 第2に、GNNExplainerの提供する説明で、同様のアイデアを探求する。 第3に,入力データに対する変更に対するトレーニングモデルの感度,すなわちシーンの要素をマスキングし,トラジェクタの変更を行い,動的エージェントの追加・削除を行うことで,選択された個々のシナリオの説明を偽り推論に適用する。 本論文で提示される説明可能性分析は,より透明で信頼性の高いモーション予測システムへの第一歩であり,ユーザ,開発者,規制機関の観点から重要である。 この作業を再現するコードはhttps://github.com/sancarlim/Explainable-MP/tree/v1.1で公開されている。

Motion prediction systems aim to capture the future behavior of traffic scenarios enabling autonomous vehicles to perform safe and efficient planning. The evolution of these scenarios is highly uncertain and depends on the interactions of agents with static and dynamic objects in the scene. GNN-based approaches have recently gained attention as they are well suited to naturally model these interactions. However, one of the main challenges that remains unexplored is how to address the complexity and opacity of these models in order to deal with the transparency requirements for autonomous driving systems, which includes aspects such as interpretability and explainability. In this work, we aim to improve the explainability of motion prediction systems by using different approaches. First, we propose a new Explainable Heterogeneous Graph-based Policy (XHGP) model based on an heterograph representation of the traffic scene and lane-graph traversals, which learns interaction behaviors using object-level and type-level attention. This learned attention provides information about the most important agents and interactions in the scene. Second, we explore this same idea with the explanations provided by GNNExplainer. Third, we apply counterfactual reasoning to provide explanations of selected individual scenarios by exploring the sensitivity of the trained model to changes made to the input data, i.e., masking some elements of the scene, modifying trajectories, and adding or removing dynamic agents. The explainability analysis provided in this paper is a first step towards more transparent and reliable motion prediction systems, important from the perspective of the user, developers and regulatory agencies. The code to reproduce this work is publicly available at https://github.com/sancarlim/Explainable-MP/tree/v1.1.
公開日:2022-12-07
翻訳日:2022-12-08 16:52:59
# マルチサービスエッジインテリジェンスパラダイムに向けて:無線による時間臨界制御のための時間適応予測

Toward Multi-Service Edge-Intelligence Paradigm: Temporal-Adaptive Prediction for Time-Critical Control over Wireless ( http://arxiv.org/abs/2212.03809v1 )

ライセンス: Link先を確認
Adnan Aijaz, Nan Jiang, Aftab Khan(参考訳) 時間クリティカルな制御アプリケーションは通常、通信ネットワークに厳しい接続要件を課す。 パケット損失、同期エラー、様々な遅延などの無線媒体に関連する欠陥は、しばしば安全性に影響を及ぼすリアルタイム制御の性能に有害な影響を及ぼす。 本稿では,無線の時間クリティカル制御を実現するための新しいパラダイムとして,マルチサービスエッジインテリジェンスを提案する。 無線アクセス、エッジコンピューティング、機械学習技術の緊密な統合を中心に展開するマルチサービスエッジインテリジェンスの概念を示し、無線不完全な場合の安定性を保証する。 本稿は、マルチサービスエッジインテリジェンスにおける重要なシステム設計側面について述べる。 また,無線環境の動的変化に対処するための時間適応予測手法を提案する。 ロボット遠隔操作のシナリオでパフォーマンス結果を提供する。 最後に、マルチサービスエッジインテリジェンスのためのオープンリサーチとデザインの課題について論じる。

Time-critical control applications typically pose stringent connectivity requirements for communication networks. The imperfections associated with the wireless medium such as packet losses, synchronization errors, and varying delays have a detrimental effect on performance of real-time control, often with safety implications. This paper introduces multi-service edge-intelligence as a new paradigm for realizing time-critical control over wireless. It presents the concept of multi-service edge-intelligence which revolves around tight integration of wireless access, edge-computing and machine learning techniques, in order to provide stability guarantees under wireless imperfections. The paper articulates some of the key system design aspects of multi-service edge-intelligence. It also presents a temporal-adaptive prediction technique to cope with dynamically changing wireless environments. It provides performance results in a robotic teleoperation scenario. Finally, it discusses some open research and design challenges for multi-service edge-intelligence.
公開日:2022-12-07
翻訳日:2022-12-08 16:52:32
# 6自由度UCAV空対空コンバットの階層的深部強化学習フレームワーク

A Hierarchical Deep Reinforcement Learning Framework for 6-DOF UCAV Air-to-Air Combat ( http://arxiv.org/abs/2212.03830v1 )

ライセンス: Link先を確認
Jiajun Chai, Wenzhang Chen, Yuanheng Zhu, Zong-xin Yao, Dongbin Zhao(参考訳) 無人戦闘航空(UCAV)戦闘は、連続行動空間において困難なシナリオである。 本稿では,6次元(6-DOF)のダイナミックスの下での空対空戦闘問題を解決するための一般的な階層的枠組みを提案する。 中心となる考え方は、決定プロセス全体を2つのループに分割し、強化学習(RL)を使用してそれらを分離することである。 外ループは現在の戦闘状況を考慮して、戦闘戦略に従って航空機の期待されるマクロ行動を決定する。 次に、インナーループは、航空機の実際の入力信号を計算して、フライトコントローラでマクロ動作を追跡する。 我々は,外ループ戦略と内ループ制御の両方に対してマルコフ決定過程を設計し,近似ポリシー最適化(PPO)アルゴリズムを用いて学習する。 インナーループコントローラでは,様々なマクロ動作を正確に追跡する効果的な報酬関数を設計する。 外部ループ戦略では、歴史的戦略に常に対抗して戦闘性能を向上させるための架空の自己プレー機構も採用する。 実験の結果,インナーループコントローラは細調整pidコントローラよりも優れたトラッキング性能を達成でき,アウターループストラテジーは,世代が進化するにつれて,より高い勝利率を得るための複雑な操作を行うことができることがわかった。

Unmanned combat air vehicle (UCAV) combat is a challenging scenario with continuous action space. In this paper, we propose a general hierarchical framework to resolve the within-vision-range (WVR) air-to-air combat problem under 6 dimensions of degree (6-DOF) dynamics. The core idea is to divide the whole decision process into two loops and use reinforcement learning (RL) to solve them separately. The outer loop takes into account the current combat situation and decides the expected macro behavior of the aircraft according to a combat strategy. Then the inner loop tracks the macro behavior with a flight controller by calculating the actual input signals for the aircraft. We design the Markov decision process for both the outer loop strategy and inner loop controller, and train them by proximal policy optimization (PPO) algorithm. For the inner loop controller, we design an effective reward function to accurately track various macro behavior. For the outer loop strategy, we further adopt a fictitious self-play mechanism to improve the combat performance by constantly combating against the historical strategies. Experiment results show that the inner loop controller can achieve better tracking performance than fine-tuned PID controller, and the outer loop strategy can perform complex maneuvers to get higher and higher winning rate, with the generation evolves.
公開日:2022-12-05
翻訳日:2022-12-08 16:52:19
# ユーザエージェント対話における音響的・感情的特徴の分析と活用

Analysis and Utilization of Entrainment on Acoustic and Emotion Features in User-agent Dialogue ( http://arxiv.org/abs/2212.03398v1 )

ライセンス: Link先を確認
Daxin Tan, Nikos Kargas, David McHardy, Constantinos Papayiannis, Antonio Bonafonte, Marek Strelec, Jonas Rohnke, Agis Oikonomou Filandras, Trevor Wood(参考訳) イントレメント(entrainment)とは、会話の相手と協調するために、会話者同士が話すスタイルに適応する現象である。 音響的、韻律的、語彙的、あるいは構文的に異なる次元で発見されている。 本研究では,音声アシスタントの音声対話システムを改善するために,学習現象を探索し,活用する。 まず,人間同士の対話において,音響的特徴に関するエントレメント現象の存在を考察し,その分析を感情的特徴に拡張する。 分析の結果,音響的特徴と感情的特徴の両面において強いエントレーニングの証拠が得られた。 そこで本研究では,2つのトレーニングポリシを実装し,テキスト音声(TTS)システムに統合することで,合成性能とユーザエクスペリエンスが向上するかどうかを評価する。 TTSシステムへのエントレメント原理の統合は、音響的特徴を考慮した場合の性能改善をもたらすが、感情的特徴を考慮した場合の明らかな改善は見つからない。

Entrainment is the phenomenon by which an interlocutor adapts their speaking style to align with their partner in conversations. It has been found in different dimensions as acoustic, prosodic, lexical or syntactic. In this work, we explore and utilize the entrainment phenomenon to improve spoken dialogue systems for voice assistants. We first examine the existence of the entrainment phenomenon in human-to-human dialogues in respect to acoustic feature and then extend the analysis to emotion features. The analysis results show strong evidence of entrainment in terms of both acoustic and emotion features. Based on this findings, we implement two entrainment policies and assess if the integration of entrainment principle into a Text-to-Speech (TTS) system improves the synthesis performance and the user experience. It is found that the integration of the entrainment principle into a TTS system brings performance improvement when considering acoustic features, while no obvious improvement is observed when considering emotion features.
公開日:2022-12-07
翻訳日:2022-12-08 16:52:01
# 動的言語と音韻埋め込みを用いたバイリンガルTSの改善

Improve Bilingual TTS Using Dynamic Language and Phonology Embedding ( http://arxiv.org/abs/2212.03435v1 )

ライセンス: Link先を確認
Fengyu Yang, Jian Luan, Yujun Wang(参考訳) ほとんどの場合、バイリンガルTSは、第1言語のみ、第2言語のみ、第1言語に埋め込まれた第2言語という3種類の入力スクリプトを扱う必要がある。 後者の2つの状況では、第二言語の発音とイントネーションは、通常、第一言語の影響により、全く異なる。 したがって、相互干渉を伴わずに、異なる文脈で第二言語の発音と音調を正確にモデル化することは大きな課題である。 本稿では,単言語中国語話者からより標準的な英語音声を取得するためのマンダリン英語ttsシステムを構築する。 異なる音韻間の英語の相違を捉えるために,音韻の埋め込みを導入する。 埋め込みマスクは、異なる言語間の情報を区別するための言語埋め込みと、英語表現に焦点を当てる音韻埋め込みに適用される。 言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。 実験の結果,単言語中国語話者の英語音声は,より自然で標準的な音声を生成できることが判明した。 分析から,適切な音韻制御は,異なるシナリオにおける性能向上に寄与することがわかった。

In most cases, bilingual TTS needs to handle three types of input scripts: first language only, second language only, and second language embedded in the first language. In the latter two situations, the pronunciation and intonation of the second language are usually quite different due to the influence of the first language. Therefore, it is a big challenge to accurately model the pronunciation and intonation of the second language in different contexts without mutual interference. This paper builds a Mandarin-English TTS system to acquire more standard spoken English speech from a monolingual Chinese speaker. We introduce phonology embedding to capture the English differences between different phonology. Embedding mask is applied to language embedding for distinguishing information between different languages and to phonology embedding for focusing on English expression. We specially design an embedding strength modulator to capture the dynamic strength of language and phonology. Experiments show that our approach can produce significantly more natural and standard spoken English speech of the monolingual Chinese speaker. From analysis, we find that suitable phonology control contributes to better performance in different scenarios.
公開日:2022-12-07
翻訳日:2022-12-08 16:51:45
# 補助言語情報を組み合わせた自己教師付き多言語音声表現学習の改善

Improved Self-Supervised Multilingual Speech Representation Learning Combined with Auxiliary Language Information ( http://arxiv.org/abs/2212.03476v1 )

ライセンス: Link先を確認
Fenglin Ding, Genshun Wan, Pengcheng Li, Jia Pan, Cong Liu(参考訳) 多言語エンドツーエンドモデルはモノリンガルシステムよりも大幅に改善されている。 音声の事前学習手法の開発により、xlsrのような自己教師付き多言語音声表現学習は、多言語自動音声認識(asr)の性能向上に成功している。 しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされ、多言語システムの適用にさらに影響を及ぼす可能性がある。 本稿では,事前学習段階における言語対外訓練,言語埋め込み,言語適応訓練などの補助的言語情報を活用することで,自己指導型多言語事前学習を改善する手法を紹介する。 16言語からなる多言語ASRタスクについて実験を行った。 実験の結果,標準XLSRモデルよりも14.3%,事前学習しないマルチリンガルモデルよりも19.8%向上した。

Multilingual end-to-end models have shown great improvement over monolingual systems. With the development of pre-training methods on speech, self-supervised multilingual speech representation learning like XLSR has shown success in improving the performance of multilingual automatic speech recognition (ASR). However, similar to the supervised learning, multilingual pre-training may also suffer from language interference and further affect the application of multilingual system. In this paper, we introduce several techniques for improving self-supervised multilingual pre-training by leveraging auxiliary language information, including the language adversarial training, language embedding and language adaptive training during the pre-training stage. We conduct experiments on a multilingual ASR task consisting of 16 languages. Our experimental results demonstrate 14.3% relative gain over the standard XLSR model, and 19.8% relative gain over the no pre-training multilingual model.
公開日:2022-12-07
翻訳日:2022-12-08 16:51:28
# M3ST:3レベル混合による音声翻訳

M3ST: Mix at Three Levels for Speech Translation ( http://arxiv.org/abs/2212.03657v1 )

ライセンス: Link先を確認
Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Yuexian Zou(参考訳) エンドツーエンド音声テキスト翻訳(ST)におけるデータ不足の解決法 データ拡張は、データセットを拡張して多くのタスクのパフォーマンスを改善する効率的な方法であることがよく知られている。 本稿では,拡張学習コーパスの多様性を高めるために,音声翻訳法(m^3st)の3段階混合を提案する。 具体的には,外部機械翻訳(MT)データを用いた事前学習モデルに基づく2段階の微調整を行う。 微調整の第1段階では、トレーニングコーパスを単語レベル、文レベル、フレームレベルを含む3つのレベルで混合し、モデル全体を混合データで微調整する。 ファインチューニングの第2段階では、オリジナル音声シーケンスとオリジナルテキストシーケンスの両方を並列にモデルに取り込み、そのネットワークを微調整し、Jensen-Shannon分散を用いて出力を正規化する。 MuST-C音声翻訳ベンチマークと分析実験により、M^3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。

How to solve the data scarcity problem for end-to-end speech-to-text translation (ST)? It's well known that data augmentation is an efficient method to improve performance for many tasks by enlarging the dataset. In this paper, we propose Mix at three levels for Speech Translation (M^3ST) method to increase the diversity of the augmented training corpus. Specifically, we conduct two phases of fine-tuning based on a pre-trained model using external machine translation (MT) data. In the first stage of fine-tuning, we mix the training corpus at three levels, including word level, sentence level and frame level, and fine-tune the entire model with mixed data. At the second stage of fine-tuning, we take both original speech sequences and original text sequences in parallel into the model to fine-tune the network, and use Jensen-Shannon divergence to regularize their outputs. Experiments on MuST-C speech translation benchmark and analysis show that M^3ST outperforms current strong baselines and achieves state-of-the-art results on eight directions with an average BLEU of 29.9.
公開日:2022-12-07
翻訳日:2022-12-08 16:51:13
# 幾何学的深層学習を用いた教師付きトラクトグラムフィルタリング

Supervised Tractogram Filtering using Geometric Deep Learning ( http://arxiv.org/abs/2212.03300v1 )

ライセンス: Link先を確認
Pietro Astolfi, Ruben Verhagen, Laurent Petit, Emanuele Olivetti, Silvio Sarubbo, Jonathan Masci, Davide Boscaini, Paolo Avesani(参考訳) トラクトグラムは脳白質の仮想的な表現である。 数百万の仮想繊維から構成され、白色物質軸索経路を近似する3Dポリラインとしてコード化されている。 現在までに、トラクトグラムは最も正確な白黒物質表現であり、前外科的計画や神経可塑性、脳障害、脳ネットワークの調査などに用いられている。 しかし, トラクトグラム繊維の大部分は解剖学的に妥当ではなく, 追跡術の工芸品と考えられることはよく知られている。 そこでverifyberでは,完全教師付き学習手法を用いて,このような非可愛らしい繊維をフィルタリングする問題に取り組んでいる。 信号再構成や脳トポロジーの正則化に基づく他のアプローチとは異なり,既存の白質の解剖学的知識を用いて手法を指導する。 解剖学の原則に従ってアノテートされたトラクトグラムを用いて、我々のモデルであるVerifyberを訓練し、繊維を解剖学的に可塑性または非楽観的と分類する。 提案したVerifyberモデルは, 繊維配向に不変でありながら, 可変サイズの繊維を扱える幾何学的深層学習法である。 本モデルでは,各ファイバーを点のグラフと考え,提案する系列エッジ畳み込みによって連続点間のエッジの特徴を学習することで,基礎となる解剖学的性質を捉えることができる。 12GBのGPUでは、1Mファイバーのトラクグラムをフィルタリングするのに1分もかからない。 Verifyberの実装とトレーニングされたモデルはhttps://github.com/FBK-NILab/verifyber.comで入手できる。

A tractogram is a virtual representation of the brain white matter. It is composed of millions of virtual fibers, encoded as 3D polylines, which approximate the white matter axonal pathways. To date, tractograms are the most accurate white matter representation and thus are used for tasks like presurgical planning and investigations of neuroplasticity, brain disorders, or brain networks. However, it is a well-known issue that a large portion of tractogram fibers is not anatomically plausible and can be considered artifacts of the tracking procedure. With Verifyber, we tackle the problem of filtering out such non-plausible fibers using a novel fully-supervised learning approach. Differently from other approaches based on signal reconstruction and/or brain topology regularization, we guide our method with the existing anatomical knowledge of the white matter. Using tractograms annotated according to anatomical principles, we train our model, Verifyber, to classify fibers as either anatomically plausible or non-plausible. The proposed Verifyber model is an original Geometric Deep Learning method that can deal with variable size fibers, while being invariant to fiber orientation. Our model considers each fiber as a graph of points, and by learning features of the edges between consecutive points via the proposed sequence Edge Convolution, it can capture the underlying anatomical properties. The output filtering results highly accurate and robust across an extensive set of experiments, and fast; with a 12GB GPU, filtering a tractogram of 1M fibers requires less than a minute. Verifyber implementation and trained models are available at https://github.com/FBK-NILab/verifyber.
公開日:2022-12-06
翻訳日:2022-12-08 16:50:55
# 判断,ローカライズ,編集:テキスト・画像生成のためのビジュアル・コモンセンスのモラルを保証する

Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation ( http://arxiv.org/abs/2212.03507v1 )

ライセンス: Link先を確認
Seongbeom Park, Suhong Moon, Jinkyu Kim(参考訳) テキスト・ツー・イメージ生成手法は高解像度で高品質な画像を生成するが、これらの手法はコモンセンス道徳の観点から不適切な内容を含む不道徳な画像を生成するべきではない。 従来のアプローチはこれらの倫理的懸念を無視することが多く、既存の解決策は不道徳な画像生成を避けるために限られている。 本稿では,合成画像の不道徳性を自動判定し,これらの画像を道徳的代替物として扱うことを目的とする。 この目的のために,(1)モデルが与えられた画像の視覚的コモンセンス不道徳性を認識し,(2)画像を不道徳にする不道徳な属性(およびテクスト的)を局所化し強調する,(3)不道徳なイメージを道徳的に適格な代替物として操作する,という3つのプリミティブを持つモデルを構築した。 現状の安定拡散テキスト画像生成モデルを用いて実験を行い、倫理的画像操作の有効性を示す。 人間の研究では、道徳的に満足なイメージを不道徳なイメージから生成できることが確認されました。 我々の実装は、テキストから画像への生成モデルのための新しい安全性チェッカーとして広く使用されるように、出版と同時に公開される予定だ。

Text-to-image generation methods produce high-resolution and high-quality images, but these methods should not produce immoral images that may contain inappropriate content from the commonsense morality perspective. Conventional approaches often neglect these ethical concerns, and existing solutions are limited in avoiding immoral image generation. In this paper, we aim to automatically judge the immorality of synthesized images and manipulate these images into a moral alternative. To this end, we build a model that has the three main primitives: (1) our model recognizes the visual commonsense immorality of a given image, (2) our model localizes or highlights immoral visual (and textual) attributes that make the image immoral, and (3) our model manipulates a given immoral image into a morally-qualifying alternative. We experiment with the state-of-the-art Stable Diffusion text-to-image generation model and show the effectiveness of our ethical image manipulation. Our human study confirms that ours is indeed able to generate morally-satisfying images from immoral ones. Our implementation will be publicly available upon publication to be widely used as a new safety checker for text-to-image generation models.
公開日:2022-12-07
翻訳日:2022-12-08 16:50:26
# 低線量CT画像の投影領域における1つの試料拡散モデル

One Sample Diffusion Model in Projection Domain for Low-Dose CT Imaging ( http://arxiv.org/abs/2212.03630v1 )

ライセンス: Link先を確認
Bin Huang, Liu Zhang, Shiyu Lu, Boyu Lin, Weiwen Wu, Qiegen Liu(参考訳) 低線量CTは臨床応用における放射線リスクの低減に重要な役割を果たしている。 しかし、放射線線量を減らすことで画質が著しく低下する。 ディープラーニングの急速な開発と幅広い応用により、低線量CTイメージングアルゴリズムの開発に向けた新たな方向性がもたらされた。 そこで我々は低用量CT再構成のための投影領域における完全に教師なし1サンプル拡散モデル(OSDM)を提案する。 単一試料から十分な事前情報を抽出するために、ハンケル行列式を用いる。 さらに、ペナル化した最小二乗および全変分を導入し、優れた画質を実現する。 具体的には,まず,ネットワーク入力として構造ハンケル行列から多数のテンソルを抽出し,1つのシングラム上でスコアベース生成モデルを訓練する。 そして、推論段階で、確率微分方程式ソルバとデータ一貫性ステップとを反復的に行い、このシングラムデータを得る。 最後に、フィルタ付きバックプロジェクションアルゴリズムにより最終画像を得る。 再建された結果は、通常用量に近づいている。 その結果,osdmは実用的かつ効果的なモデルであり,画像品質を保ちつつアーティファクトを低減できることがわかった。

Low-dose computed tomography (CT) plays a significant role in reducing the radiation risk in clinical applications. However, lowering the radiation dose will significantly degrade the image quality. With the rapid development and wide application of deep learning, it has brought new directions for the development of low-dose CT imaging algorithms. Therefore, we propose a fully unsupervised one sample diffusion model (OSDM)in projection domain for low-dose CT reconstruction. To extract sufficient prior information from single sample, the Hankel matrix formulation is employed. Besides, the penalized weighted least-squares and total variation are introduced to achieve superior image quality. Specifically, we first train a score-based generative model on one sinogram by extracting a great number of tensors from the structural-Hankel matrix as the network input to capture prior distribution. Then, at the inference stage, the stochastic differential equation solver and data consistency step are performed iteratively to obtain the sinogram data. Finally, the final image is obtained through the filtered back-projection algorithm. The reconstructed results are approaching to the normal-dose counterparts. The results prove that OSDM is practical and effective model for reducing the artifacts and preserving the image quality.
公開日:2022-12-07
翻訳日:2022-12-08 16:49:58
# CrossPyramid:部分観測時間列に対するニューラル正規微分方程式アーキテクチャ

CrossPyramid: Neural Ordinary Differential Equations Architecture for Partially-observed Time-series ( http://arxiv.org/abs/2212.03560v1 )

ライセンス: Link先を確認
Futoon M. Abushaqra, Hao Xue, Yongli Ren, Flora D. Salim(参考訳) 通常微分方程式(ODE)に基づくモデルは、多くの時系列問題を解決するために一般的な基礎モデルとなっている。 ニューラルODEと従来のRNNモデルを組み合わせることで、不規則な時系列を表現できる。 しかし、ODEベースのモデルでは、最初の観測値や最後の観測値に基づいて隠れ状態の軌跡を定義する必要がある。 この事実は、生成した隠蔽状態が十分である期間と、それが一般的に使用される短いシーケンスの代わりに長いシーケンスを使用する場合に有効であるかどうかに関する疑問を引き起こす。 本稿では、シーケンス表現の一般化性を高めることを目的とした、新しいODEベースのモデルであるCrossPyramidを紹介する。 CrossPyramidは、最後に観測された値から隠れた状態のみに依存するのではなく、他のサンプルから学んだODE潜在表現も考慮している。 提案モデルの主な考え方は,標本間の非線形相関に基づいて観測されていない値の隠れ状態を定義することである。 そこでCrossPyramidは、(1)ODE Auto-Encoderを使って最適なデータ表現を学習する。 2) サンプル間の関係特性に基づいて学習した表現(隠れ状態)を分類するピラミッド注意法について検討した。 3) 事前学習した情報を統合し、各サンプルに最終潜在状態を提供するクロスレベルode-rnn。 部分的に観測された合成および実世界のデータセットに関する広範な実験を通して、提案アーキテクチャは断続的な系列の長いギャップを効果的にモデル化し、最先端のアプローチより優れていることを示す。 その結果、予測と分類のタスクにおいて、不変量データセットと多変量データセットの平均値が10\%向上した。

Ordinary Differential Equations (ODE)-based models have become popular foundation models to solve many time-series problems. Combining neural ODEs with traditional RNN models has provided the best representation for irregular time series. However, ODE-based models require the trajectory of hidden states to be defined based on the initial observed value or the last available observation. This fact raises questions about how long the generated hidden state is sufficient and whether it is effective when long sequences are used instead of the typically used shorter sequences. In this article, we introduce CrossPyramid, a novel ODE-based model that aims to enhance the generalizability of sequences representation. CrossPyramid does not rely only on the hidden state from the last observed value; it also considers ODE latent representations learned from other samples. The main idea of our proposed model is to define the hidden state for the unobserved values based on the non-linear correlation between samples. Accordingly, CrossPyramid is built with three distinctive parts: (1) ODE Auto-Encoder to learn the best data representation. (2) Pyramidal attention method to categorize the learned representations (hidden state) based on the relationship characteristics between samples. (3) Cross-level ODE-RNN to integrate the previously learned information and provide the final latent state for each sample. Through extensive experiments on partially-observed synthetic and real-world datasets, we show that the proposed architecture can effectively model the long gaps in intermittent series and outperforms state-of-the-art approaches. The results show an average improvement of 10\% on univariate and multivariate datasets for both forecasting and classification tasks.
公開日:2022-12-07
翻訳日:2022-12-08 16:44:15
# 政策制約とQ-Ensembleによる自己刺激学習の促進

Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble ( http://arxiv.org/abs/2212.03562v1 )

ライセンス: Link先を確認
Chao Li(参考訳) 深層強化学習(DRL)はロボット制御ポリシーを生成する新しい方法を提供する。 しかしながら、トレーニング制御ポリシのプロセスは長い探索を必要とするため、現実世界のタスクにおいて強化学習(RL)のサンプル効率が低い。 模擬学習 (IL) と実演からの学習 (LfD) の両方が専門家によるデモンストレーションを用いて訓練プロセスを改善するが、不完全な専門家による実演は政策改善を誤解させる可能性がある。 オフラインからオンラインへの強化学習は、ポリシーを初期化するために多くのオフラインデータを必要とする。 上記の課題を解決するために,A-SILfDという,専門家による実演をエージェントの成功体験として扱い,政策改善を制約するための経験を学習する手法を提案する。 さらに, アンサンブルQ関数によるQ関数の推定誤差が大きいため, 性能劣化を防止する。 実験の結果,A-SILfDは少数の品質専門家による実験により,サンプル効率を大幅に向上できることがわかった。 4つのMujoco連続制御タスクでは、A-SILfDはオンライントレーニングの15万ステップ後にベースラインメソッドを著しく上回り、トレーニング中に不完全な専門家のデモンストレーションによって誤解されることはない。

Deep reinforcement learning (DRL) provides a new way to generate robot control policy. However, the process of training control policy requires lengthy exploration, resulting in a low sample efficiency of reinforcement learning (RL) in real-world tasks. Both imitation learning (IL) and learning from demonstrations (LfD) improve the training process by using expert demonstrations, but imperfect expert demonstrations can mislead policy improvement. Offline to Online reinforcement learning requires a lot of offline data to initialize the policy, and distribution shift can easily lead to performance degradation during online fine-tuning. To solve the above problems, we propose a learning from demonstrations method named A-SILfD, which treats expert demonstrations as the agent's successful experiences and uses experiences to constrain policy improvement. Furthermore, we prevent performance degradation due to large estimation errors in the Q-function by the ensemble Q-functions. Our experiments show that A-SILfD can significantly improve sample efficiency using a small number of different quality expert demonstrations. In four Mujoco continuous control tasks, A-SILfD can significantly outperform baseline methods after 150,000 steps of online training and is not misled by imperfect expert demonstrations during training.
公開日:2022-12-07
翻訳日:2022-12-08 16:43:52
# 顔インタラクショングラフネットワークによる剛体力学の学習

Learning rigid dynamics with face interaction graph networks ( http://arxiv.org/abs/2212.03574v1 )

ライセンス: Link先を確認
Kelsey R. Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, Tobias Pfaff(参考訳) 任意の形状の剛性衝突のシミュレーションは、複雑な幾何学と相互作用の強い非線形性のために、非常に難しい。 グラフニューラルネットワーク(gnn)ベースのモデルは、流体、布、関節体などの複雑な物理力学をシミュレートするのに有効であるが、非常に単純な形状を除いて、剛体物理学では効果が低く効率的である。 メッシュのノード間の衝突をモデル化する既存の方法は、ノードから遠く離れた面に衝突が発生した場合に苦労するため、しばしば不正確である。 幾何を多くの粒子で密に表現する別のアプローチは、複雑な形状に対して非常に高価である。 本稿では,gnnベースの手法を超えて拡張された顔インタラクショングラフネットワーク(fignet)を紹介し,ノードではなくメッシュ顔間のインタラクションを計算する。 学習したノードとパーティクルベースの手法と比較して、FIGNetは複雑な形状の相互作用をシミュレートする上で約4倍正確である。 さらに、fignetは現実世界のデータから直接摩擦ダイナミクスを学習することができ、少量のトレーニングデータから解析解法よりも正確である。 FIGNetは、学習したシミュレータとほとんど競合しない数少ない物理ドメインの1つであり、ロボット工学、グラフィックス、メカニカルデザインなどの関連分野をシミュレーションとモデルベースの計画のための新しいツールとして提供している。

Simulating rigid collisions among arbitrary shapes is notoriously difficult due to complex geometry and the strong non-linearity of the interactions. While graph neural network (GNN)-based models are effective at learning to simulate complex physical dynamics, such as fluids, cloth and articulated bodies, they have been less effective and efficient on rigid-body physics, except with very simple shapes. Existing methods that model collisions through the meshes' nodes are often inaccurate because they struggle when collisions occur on faces far from nodes. Alternative approaches that represent the geometry densely with many particles are prohibitively expensive for complex shapes. Here we introduce the Face Interaction Graph Network (FIGNet) which extends beyond GNN-based methods, and computes interactions between mesh faces, rather than nodes. Compared to learned node- and particle-based methods, FIGNet is around 4x more accurate in simulating complex shape interactions, while also 8x more computationally efficient on sparse, rigid meshes. Moreover, FIGNet can learn frictional dynamics directly from real-world data, and can be more accurate than analytical solvers given modest amounts of training data. FIGNet represents a key step forward in one of the few remaining physical domains which have seen little competition from learned simulators, and offers allied fields such as robotics, graphics and mechanical design a new tool for simulation and model-based planning.
公開日:2022-12-07
翻訳日:2022-12-08 16:43:14
# ソフトk-meansの全球解について

On the Global Solution of Soft k-Means ( http://arxiv.org/abs/2212.03589v1 )

ライセンス: Link先を確認
Feiping Nie, Hong Chen, Rong Wang, Xuelong Li(参考訳) 本稿では,ソフトk平均問題をグローバルに解くアルゴリズムを提案する。 ファジィ c-平均とは異なり、ソフト k-平均 (skm) は行列分解型目的を持ち、一般的な確率分解型クラスタリング法、例えば左確率クラスタリング (lsc) と密接な関係を持つことが示されている。 ソフトk平均問題の解法としていくつかの研究がなされているが、通常はSkMの非凸性から大域的最適性を保証することのできない交互最小化スキームや投射勾配降下法を用いる。 本稿では,Soft k-Means問題の実現可能な解がグローバルに最適であるような条件を提示し,提案アルゴリズムの出力が満足できることを示す。 さらに,ソフトk-平均問題に対して,安定性,非特異性,lscとの関連について興味深い議論を行う。 そこで, 最小体積k平均 (MVSkM) と呼ばれる新しいモデルを提案し, 非特異性問題に対処する。 最後に、実験結果が理論的結果を支持する。

This paper presents an algorithm to solve the Soft k-Means problem globally. Unlike Fuzzy c-Means, Soft k-Means (SkM) has a matrix factorization-type objective and has been shown to have a close relation with the popular probability decomposition-type clustering methods, e.g., Left Stochastic Clustering (LSC). Though some work has been done for solving the Soft k-Means problem, they usually use an alternating minimization scheme or the projected gradient descent method, which cannot guarantee global optimality since the non-convexity of SkM. In this paper, we present a sufficient condition for a feasible solution of Soft k-Means problem to be globally optimal and show the output of the proposed algorithm satisfies it. Moreover, for the Soft k-Means problem, we provide interesting discussions on stability, solutions non-uniqueness, and connection with LSC. Then, a new model, named Minimal Volume Soft k-Means (MVSkM), is proposed to address the solutions non-uniqueness issue. Finally, experimental results support our theoretical results.
公開日:2022-12-07
翻訳日:2022-12-08 16:42:35
# 時系列における教師なし異常検出:最先端手法の広範な評価と解析

Unsupervised Anomaly Detection in Time-series: An Extensive Evaluation and Analysis of State-of-the-art Methods ( http://arxiv.org/abs/2212.03637v1 )

ライセンス: Link先を確認
Nesryne Mejri, Laura Lopez-Fuentes, Kankana Roy, Pavel Chernakov, Enjie Ghorbel and Djamila Aouada(参考訳) 時系列における教師なし異常検出は文献で広く研究されている。 多くのアプリケーション分野におけるこのトピックの関連性にもかかわらず、最近の最先端技術の完全かつ広範囲な評価はいまだに欠けている。 既存の教師なし時系列異常検出手法を厳密に比較する試みはほとんど行われていない。 しかし、通常、標準的なパフォーマンス指標、すなわち精度、リコール、f1-scoreのみが考慮される。 したがって、それらの実践的妥当性を評価するための基本的な側面は無視される。 本稿では,近年の時系列における教師なし異常検出手法の試作と詳細な評価手法を提案する。 標準的なパフォーマンス指標にのみ依存するのではなく、さらに重要なメトリクスとプロトコルが考慮される。 特に、(1)時系列に特化したより精巧なパフォーマンスメトリクス、(2)モデルサイズとモデルの安定性の研究、(3)異常タイプに関するテストされたアプローチの分析、(4)すべての実験で明確かつユニークなプロトコルが提供されている。 全体として、この広範な分析は、最先端の時系列異常検出の成熟度を評価し、現実の環境下での適用性に関する洞察を与え、コミュニティにより完全な評価プロトコルを提供することを目的としている。

Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a complete and extensive evaluation of recent state-of-the-art techniques is still missing. Few efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an original and in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (1) more elaborate performance metrics specifically tailored for time-series are used; (2) the model size and the model stability are studied; (3) an analysis of the tested approaches with respect to the anomaly type is provided; and (4) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
公開日:2022-12-06
翻訳日:2022-12-08 16:42:16
# ニューラルネットワークとインデックスによるクラスタリング

Clustering with Neural Network and Index ( http://arxiv.org/abs/2212.03853v1 )

ライセンス: Link先を確認
Gangli Liu(参考訳) ニューラルネットワークとインデックス(cnni)を用いたクラスタリングと呼ばれる新しいモデルを導入した。 CNNIはニューラルネットワークを使ってデータポイントをクラスタ化する。 ニューラルネットワークのトレーニングは教師付き学習を模倣し、内部クラスタリング評価指標が損失関数として機能する。 新しいモデルの実現可能性をテストする実験を行い、K平均やガウス混合モデル(GMM)のような他のクラスタリングモデルと比較した。

A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM).
公開日:2022-12-05
翻訳日:2022-12-08 16:42:01
# 学習制御ポリシーを用いた移動目標のアクティブ分類

Active Classification of Moving Targets with Learned Control Policies ( http://arxiv.org/abs/2212.03068v2 )

ライセンス: Link先を確認
\'Alvaro Serra-G\'omez, Eduardo Montijano, Wendelin B\"ohmer, Javier Alonso-Mora(参考訳) 本稿では,複数の移動目標を分類するために,ドローンが意味情報を収集しなければならない問題を考える。 特に,「ブラックボックス」分類器,例えばディープ・ラーニング・ニューラルネットを用いて情報を抽出した場合,ドローンを情報的視点,位置,方向へと移動させる制御入力を計算することの課題に対処する。 これらのアルゴリズムは通常、視点と関連する出力の間の分析的関係が欠如しており、情報収集スキームでの使用を妨げている。 このギャップを埋めるために,本研究は,ドローンの移動,方向,咬合について推論しながら,できるだけ多くの非分類対象から証拠を取得することを好む次の視点として,強化学習(rl)によって訓練された,新たな注意に基づくアーキテクチャを提案する。 そして、実際のダイナミクスを考慮した低レベルのmpcコントローラを使用して、ドローンを望ましい視点に移動させる。 このアプローチは,さまざまなベースラインを上回るだけでなく,トレーニング中に見つからないシナリオにも適用可能であることを示す。 さらに,ネットワークが多数のターゲットにスケールし,ターゲットの異なる移動ダイナミクスによく一般化することを示す。

In this paper, we consider the problem where a drone has to collect semantic information to classify multiple moving targets. In particular, we address the challenge of computing control inputs that move the drone to informative viewpoints, position and orientation, when the information is extracted using a "black-box" classifier, e.g., a deep learning neural network. These algorithms typically lack of analytical relationships between the viewpoints and their associated outputs, preventing their use in information-gathering schemes. To fill this gap, we propose a novel attention-based architecture, trained via Reinforcement Learning (RL), that outputs the next viewpoint for the drone favoring the acquisition of evidence from as many unclassified targets as possible while reasoning about their movement, orientation, and occlusions. Then, we use a low-level MPC controller to move the drone to the desired viewpoint taking into account its actual dynamics. We show that our approach not only outperforms a variety of baselines but also generalizes to scenarios unseen during training. Additionally, we show that the network scales to large numbers of targets and generalizes well to different movement dynamics of the targets.
公開日:2022-12-07
翻訳日:2022-12-08 16:41:55
# learn to explore: メタラーニングによるインタラクティブなデータ探索について

Learn to Explore: on Bootstrapping Interactive Data Exploration with Meta-learning ( http://arxiv.org/abs/2212.03423v1 )

ライセンス: Link先を確認
Yukun Cao, Xike Xie, and Kexin Huang(参考訳) インタラクティブデータ探索(IDE)は、人間の能力を超える量と複雑さを持つビッグデータを理解する効果的な方法である。 IDEの主な目標は、複数ラウンドのユーザラベリングを通じて、データベースからユーザ関心領域を見つけることである。 既存のIDEはアクティブラーニングフレームワークを採用しており、ユーザーは選択したタプルの面白さを反復的に識別またはラベル付けする。 データ探索のプロセスは、データベースタプルがユーザにとって興味深いかどうかを決定する分類器を訓練するプロセスと見なすことができる。 したがって、効率的な探索は、関心のあるデータ領域に到達するのに、ユーザラベリングのイテレーションをほんの数回必要とします。 本研究では,データ探索を,数回の学習例,あるいは探索イテレーションで分類器を学習する,マイトショット学習のプロセスとして捉えた。 そこで本研究では,自動生成したメタタスクを用いて分類器の学習方法を学習し,探索プロセスを大幅に短縮するメタラーニングに基づくラーニング・ツー・エクスプローラーフレームワークを提案する。 実データセットに関する広範囲な実験により,提案手法が既存の探索型ソリューションよりも精度と効率の面で優れていることが示された。

Interactive data exploration (IDE) is an effective way of comprehending big data, whose volume and complexity are beyond human abilities. The main goal of IDE is to discover user interest regions from a database through multi-rounds of user labelling. Existing IDEs adopt active-learning framework, where users iteratively discriminate or label the interestingness of selected tuples. The process of data exploration can be viewed as the process of training a classifier, which determines whether a database tuple is interesting to a user. An efficient exploration thus takes very few iterations of user labelling to reach the data region of interest. In this work, we consider the data exploration as the process of few-shot learning, where the classifier is learned with only a few training examples, or exploration iterations. To this end, we propose a learning-to-explore framework, based on meta-learning, which learns how to learn a classifier with automatically generated meta-tasks, so that the exploration process can be much shortened. Extensive experiments on real datasets show that our proposal outperforms existing explore-by-example solutions in terms of accuracy and efficiency.
公開日:2022-12-07
翻訳日:2022-12-08 16:41:34
# 協調型マルチエージェントシステムにおける動的DCOPのための分散相互作用グラフ構築

Distributed Interaction Graph Construction for Dynamic DCOPs in Cooperative Multi-agent Systems ( http://arxiv.org/abs/2212.03461v1 )

ライセンス: Link先を確認
Brighter Agyemang, Fenghui Ren, Jun Yan(参考訳) DCOPアルゴリズムは通常、操作する相互作用グラフに依存する。 オープンで動的な環境では、そのような手法はエージェント間でこの相互作用グラフが生成され維持される方法に対処する必要がある。 既存の手法では、環境の変化を検出したり、新しいエージェントが接続を容易にするために潜在的隣人を知っていると仮定して、グラフ全体を再構築する必要がある。 本稿では,この問題に対処する分散相互作用グラフ構築アルゴリズムを提案する。 提案手法は,事前定義された制約グラフを仮定せず,環境の破壊的変化後に安定化する。 提案手法は既存のDCOPアルゴリズムと組み合わせて複数の動的問題を解くことで評価する。 実験の結果,提案手法はオープンおよび動的環境に対して安定なマルチエージェントインタラクショングラフを構築し,維持できることがわかった。

DCOP algorithms usually rely on interaction graphs to operate. In open and dynamic environments, such methods need to address how this interaction graph is generated and maintained among agents. Existing methods require reconstructing the entire graph upon detecting changes in the environment or assuming that new agents know potential neighbors to facilitate connection. We propose a novel distributed interaction graph construction algorithm to address this problem. The proposed method does not assume a predefined constraint graph and stabilizes after disruptive changes in the environment. We evaluate our approach by pairing it with existing DCOP algorithms to solve several generated dynamic problems. The experiment results show that the proposed algorithm effectively constructs and maintains a stable multi-agent interaction graph for open and dynamic environments.
公開日:2022-12-07
翻訳日:2022-12-08 16:41:15
# 部分展開による拡張多目的A*

Enhanced Multi-Objective A* with Partial Expansion ( http://arxiv.org/abs/2212.03712v1 )

ライセンス: Link先を確認
Valmiki Kothare, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset(参考訳) グラフ上の多目的短経路問題(英語版)は、複数の目的を最適化しながら開始頂点から目的地頂点への経路の集合を決定する。 一般に、全ての目的を同時に最適化できる単一の解経路は存在しないので、問題はいわゆるパレート最適解の集合を見つけようとする。 この問題に対処するため、複数の多目的a*(moa*)アルゴリズムが最近開発され、品質保証付きで素早く解を計算できるようになった。 しかし、これらのMOA*アルゴリズムは、特にグラフの分岐係数(すなわち、任意の頂点の隣人の数)が大きい場合、高いメモリ使用率に悩まされることが多い。 この作業は,MOA*の高メモリ消費を,実行時にほとんど増加せずに削減することを目的としている。 本稿では,まず単一目的語から多目的語への「部分展開(partial expansion, PE)」の概念を拡張し,その上で,この新しいPE手法を最近の実行時効率的なMOA*アルゴリズムであるEMOA*と融合する。 さらに、PE-EMOA*は、ユーザが定義したハイパーパラメータをチューニングすることで、実行時とメモリ効率のバランスをとることができる。

The Multi-Objective Shortest Path Problem, typically posed on a graph, determines a set of paths from a start vertex to a destination vertex while optimizing multiple objectives. In general, there does not exist a single solution path that can simultaneously optimize all the objectives and the problem thus seeks to find a set of so-called Pareto-optimal solutions. To address this problem, several Multi-Objective A* (MOA*) algorithms were recently developed to quickly compute solutions with quality guarantees. However, these MOA* algorithms often suffer from high memory usage, especially when the branching factor (i.e., the number of neighbors of any vertex) of the graph is large. This work thus aims at reducing the high memory consumption of MOA* with little increase in the runtime. In this paper, we first extend the notion of "partial expansion" (PE) from single-objective to multi-objective and then fuse this new PE technique with EMOA*, a recent runtime efficient MOA* algorithm. Furthermore, the resulting algorithm PE-EMOA* can balance between runtime and memory efficiency by tuning a user-defined hyper-parameter.
公開日:2022-12-06
翻訳日:2022-12-08 16:41:03
# 衛星画像認識モデルの概要

Overview Of Satellite Image Recognition Models ( http://arxiv.org/abs/2212.03716v1 )

ライセンス: Link先を確認
Alexey Averkin and Sergey Yarushev(参考訳) 本稿では,既存の衛星画像認識モデルの解析を行い,情報ソースとしての衛星画像認識の分野における問題点を考察し,深層学習法を比較し,既存の画像認識法を解析した。 得られた結果は,衛星画像に基づく火災認識モデルの今後の発展と,ファジィ認知地図に基づくマクロ経済状況予測の認知モデルへの認識結果の入力データとしての利用の基礎となる。

In this article, the analysis of existing models of satellite image recognition was carried out, the problems in the field of satellite image recognition as a source of information were considered and analyzed, deep learning methods were compared, and existing image recognition methods were analyzed. The results obtained will be used as a basis for the prospective development of a fire recognition model based on satellite images and the use of recognition results as input data for a cognitive model of forecasting the macro-economic situation based on fuzzy cognitive maps.
公開日:2022-12-07
翻訳日:2022-12-08 16:34:32
# GAMMA:Attentive Marine Debris Detectionのためのジェネレーション拡張

GAMMA: Generative Augmentation for Attentive Marine Debris Detection ( http://arxiv.org/abs/2212.03759v1 )

ライセンス: Link先を確認
Vaishnavi Khindkar, Janhavi Khindkar(参考訳) 本研究では,水中デブリデータによる視覚検出の不十分な課題を解決するため,効率的かつ生成的な拡張手法を提案する。 われわれはcycleganをデータ拡張技術として利用し, 陸生プラスチックのオープンで豊富なデータを水中画像に変換する。 事前の作業は、既存のデータの強化や強化にのみ焦点を合わせ、さらにデータセットにバイアスを加える。 空気中のプラスチックデータを海中の背景に変換する手法と比較した。 また,アテンション機構を用いた水中デブリ検出のための新しいアーキテクチャを提案する。 提案手法は, 画像の関連事例のみに焦点を合わせることで, 自律下水車(AUV)を用いた海洋破片の検出において, 高い負荷がかかる検出器性能を向上させる。 本手法を用いた海洋破片検出のための広範囲な実験を行った。 定量的および定性的な結果は、最先端の手法を著しく上回るフレームワークの可能性を示している。

We propose an efficient and generative augmentation approach to solve the inadequacy concern of underwater debris data for visual detection. We use cycleGAN as a data augmentation technique to convert openly available, abundant data of terrestrial plastic to underwater-style images. Prior works just focus on augmenting or enhancing existing data, which moreover adds bias to the dataset. Compared to our technique, which devises variation, transforming additional in-air plastic data to the marine background. We also propose a novel architecture for underwater debris detection using an attention mechanism. Our method helps to focus only on relevant instances of the image, thereby enhancing the detector performance, which is highly obliged while detecting the marine debris using Autonomous Underwater Vehicle (AUV). We perform extensive experiments for marine debris detection using our approach. Quantitative and qualitative results demonstrate the potential of our framework that significantly outperforms the state-of-the-art methods.
公開日:2022-12-07
翻訳日:2022-12-08 16:34:24
# ソースフリードメイン適応におけるcentroid-hypothesis conflictの和解

Reconciling a Centroid-Hypothesis Conflict in Source-Free Domain Adaptation ( http://arxiv.org/abs/2212.03795v1 )

ライセンス: Link先を確認
Idit Diamant, Roy H. Jennings, Oranit Dror, Hai Victor Habi, Arnon Netzer(参考訳) ソースフリードメイン適応(Source-free domain adapt, SFDA)は、ソースドメインから学習した知識をラベルのないターゲットドメインに転送することを目的としている。 SFDAの既存のアプローチは通常、確立されたエントロピー最小化技術を含む自己学習に焦点を当てている。 SFDAの主な課題の1つは、ドメインのミスアライメントによるエラーの蓄積を減らすことである。 最近の戦略は、表現空間におけるクラスタリングによって生成されたクラス毎のプロトタイプ(センタロイド)に基づいてターゲットサンプルを擬似ラベル付けすることで、エラーの蓄積を減らすことに成功した。 しかし、この戦略はまた、擬似ラベルのクロスエントロピーと最小エントロピーが目的に衝突するケースを生み出している。 我々はこの紛争をセントロイド・ヒポテシス紛争と呼ぶ。 本稿では,エントロピー最小化目標を擬似ラベルのクロスエントロピーと整合させることにより,この矛盾を解消することを提案する。 3つの領域適応データセットに2つの損失目標を整列させることの有効性を示す。 さらに,最新のアーキテクチャを用いて最新の結果を提供するとともに,これらのアーキテクチャ間でのメソッドの一貫性も示す。

Source-free domain adaptation (SFDA) aims to transfer knowledge learned from a source domain to an unlabeled target domain, where the source data is unavailable during adaptation. Existing approaches for SFDA focus on self-training usually including well-established entropy minimization techniques. One of the main challenges in SFDA is to reduce accumulation of errors caused by domain misalignment. A recent strategy successfully managed to reduce error accumulation by pseudo-labeling the target samples based on class-wise prototypes (centroids) generated by their clustering in the representation space. However, this strategy also creates cases for which the cross-entropy of a pseudo-label and the minimum entropy have a conflict in their objectives. We call this conflict the centroid-hypothesis conflict. We propose to reconcile this conflict by aligning the entropy minimization objective with that of the pseudo labels' cross entropy. We demonstrate the effectiveness of aligning the two loss objectives on three domain adaptation datasets. In addition, we provide state-of-the-art results using up-to-date architectures also showing the consistency of our method across these architectures.
公開日:2022-12-07
翻訳日:2022-12-08 16:34:06
# Few-Shot Prompt Learning を用いたモデル補完の自動化

Towards using Few-Shot Prompt Learning for Automating Model Completion ( http://arxiv.org/abs/2212.03404v1 )

ライセンス: Link先を確認
Meriem Ben Chaaben and Lola Burgue\~no and Houari Sahraoui(参考訳) 我々は、ドメインモデリングアクティビティの完了を改善するための単純かつ新しいアプローチを提案します。 このアプローチでは,大規模データセットのトレーニングや微調整を必要とせず,短時間のプロンプト学習を用いて,大規模言語モデルのパワーを活用している。 このアプローチを実装し、静的および動的ドメイン図の完成時にテストしました。 最初の評価では、このようなアプローチは効果的であり、モデリングアクティビティ中に異なる方法で統合できることを示した。

We propose a simple yet a novel approach to improve completion in domain modeling activities. Our approach exploits the power of large language models by using few-shot prompt learning without the need to train or fine-tune those models with large datasets that are scarce in this field. We implemented our approach and tested it on the completion of static and dynamic domain diagrams. Our initial evaluation shows that such an approach is effective and can be integrated in different ways during the modeling activities.
公開日:2022-12-07
翻訳日:2022-12-08 16:33:47
# 弱教師付きコントラスト事前学習によるテキスト埋め込み

Text Embeddings by Weakly-Supervised Contrastive Pre-training ( http://arxiv.org/abs/2212.03533v1 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei(参考訳) 本稿では,多種多様なタスクによく伝達される最先端のテキスト埋め込みであるE5について述べる。 このモデルは,大規模テキストペアデータセット(CCPairs)の弱い監視信号を用いて,対照的に訓練される。 E5は、検索、クラスタリング、分類のようなテキストの単一ベクトル表現を必要とするタスクに対して汎用的な埋め込みモデルとして容易に利用でき、ゼロショットと微調整の両方で強力なパフォーマンスを達成することができる。 BEIRおよびMTEBベンチマークから56のデータセットについて広範囲に評価を行った。 ゼロショット設定の場合、e5はラベル付きデータを使わずにbeir検索ベンチマークで強力なbm25ベースラインを上回る最初のモデルである。 微調整すると、E5はMTEBベンチマークの最良の結果を得ることができ、既存の埋め込みモデルを40倍のパラメータで上回る。

This paper presents E5, a family of state-of-the-art text embeddings that transfer well to a wide range of tasks. The model is trained in a contrastive manner with weak supervision signals from our curated large-scale text pair dataset (called CCPairs). E5 can be readily used as a general-purpose embedding model for any tasks requiring a single-vector representation of texts such as retrieval, clustering, and classification, achieving strong performance in both zero-shot and fine-tuned settings. We conduct extensive evaluations on 56 datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the first model that outperforms the strong BM25 baseline on the BEIR retrieval benchmark without using any labeled data. When fine-tuned, E5 obtains the best results on the MTEB benchmark, beating existing embedding models with 40x more parameters.
公開日:2022-12-07
翻訳日:2022-12-08 16:33:39
# Recommenderシステムにおける言語モデリングのPivotalの役割:タスク特化学習とタスク非依存表現学習の強化

Pivotal Role of Language Modeling in Recommender Systems: Enriching Task-specific and Task-agnostic Representation Learning ( http://arxiv.org/abs/2212.03760v1 )

ライセンス: Link先を確認
Kyuyong Shin, Hanock Kwak, Wonjae Kim, Jisu Jeong, Seungjae Jung, Kyung-Min Kim, Jung-Woo Ha, Sang-Woo Lee(参考訳) 近年,様々なアプリケーションのユーザ行動データを活用する統合ユーザモデリングフレームワークが提案されている。 ユーザの行動シーケンスをプレーンテキストとして活用することの最大のメリットは、汎用性を失うことなく、ドメインやシステム内のリッチな情報を表現することだ。 ユーザ履歴コーパスのための言語モデリングは、レコメンダシステムを改善するのに役立つか? その汎用性は、多くのドメインで広く研究されてきたが、レコメンデーションシステムへの応用は、まだ未検討のままである。 タスク固有のユーザ履歴に直接適用される言語モデリングは,様々なレコメンデーションタスクにおいて優れた結果が得られることを示す。 また、追加のタスクに依存しないユーザ履歴を利用することで、大きなパフォーマンス上のメリットが得られます。 さらに,本手法は,未確認領域やサービスにおいても,幅広い実世界のレコメンデータシステムに対して,有望な伝達学習能力を提供できることを示す。

Recent studies have proposed a unified user modeling framework that leverages user behavior data from various applications. Most benefit from utilizing users' behavior sequences as plain texts, representing rich information in any domain or system without losing generality. Hence, a question arises: Can language modeling for user history corpus help improve recommender systems? While its versatile usability has been widely investigated in many domains, its applications to recommender systems still remain underexplored. We show that language modeling applied directly to task-specific user histories achieves excellent results on diverse recommendation tasks. Also, leveraging additional task-agnostic user histories delivers significant performance benefits. We further demonstrate that our approach can provide promising transfer learning capabilities for a broad spectrum of real-world recommender systems, even on unseen domains and services.
公開日:2022-12-07
翻訳日:2022-12-08 16:33:25
# 有害な共変量シフトに対する学習に基づく仮説テスト

A Learning Based Hypothesis Test for Harmful Covariate Shift ( http://arxiv.org/abs/2212.02742v2 )

ライセンス: Link先を確認
Tom Ginsberg, Zhongyuan Liang, and Rahul G. Krishnan(参考訳) テスト時に共変量シフトを迅速かつ正確に識別する能力は、ハイリスクなドメインにデプロイされた安全な機械学習システムの重要かつしばしば見過ごされるコンポーネントである。 分散テスト例で予測をすべきでないことを検出する方法は存在するが、トレーニングとテスト時間の分散レベルの違いを特定することは、モデルがデプロイ設定から削除され、再トレーニングされるタイミングを決定するのに役立つ。 本研究では,有害な共変量シフト(HCS)を,予測モデルの一般化を弱める可能性のある分布の変化として定義する。 HCSの検出には、トレーニングデータとテストデータに一致しないように訓練された分類器のアンサンブル間の不一致を用いる。 我々は,このアンサンブルを訓練する損失関数を導出し,この不一致率とエントロピーがHCSの強力な識別統計値を表すことを示す。 実験により,多種多様な高次元データセット上で,統計的確度で有害な共変量シフトを検出する能力を示す。 多数のドメインとモダリティにまたがって,既存の手法と比較して,特に観測されたサンプル数が少ない場合,最先端の性能を示す。

The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
公開日:2022-12-07
翻訳日:2022-12-08 16:33:10
# ハードウェア故障に対するグラフニューラルネットワークのレジリエンスの評価と解析

Assessing and Analyzing the Resilience of Graph Neural Networks Against Hardware Faults ( http://arxiv.org/abs/2212.03475v1 )

ライセンス: Link先を確認
Xun Jiao, Ruixuan Wang, Fred Lin, Daniel Moore, Sriram Sankar(参考訳) グラフニューラルネットワーク(GNN)は近年,グラフ構造化データの学習において有望な学習パラダイムとして登場し,レコメンデーションシステムやソーシャルネットワーク,電子設計自動化(EDA)など,さまざまな領域で広く成功している。 他のディープラーニング(DL)メソッドと同様に、GNNは高度なハードウェアシステムや専用のアクセラレータにデプロイされている。 しかし、GNNの人気と近年のハードウェアへのGNN導入の取り組みにもかかわらず、GNNのフォールトトレランスとレジリエンスは概して見過ごされている。 本論文は, DL手法のアルゴリズム的レジリエンスに着想を得て, ハードウェア欠陥とGNN精度の関係を理解することを目的とした, GNNレジリエンスの大規模かつ実証的研究を行う。 PyTorch上にカスタマイズされたフォールトインジェクションツールを開発することで、さまざまなGNNモデルやアプリケーションデータセットに対して広範なフォールトインジェクション実験を行う。 我々は,GNNモデルの誤差レジリエンスが,異なるモデルやアプリケーションデータセットに対して桁違いに変化することを観察した。 さらに,gnnのレジリエンス向上のために,低コストなエラー緩和機構を検討する。 このGNNレジリエンス研究は、将来のGNNアクセラレータ設計とアーキテクチャ最適化のための新たな方向性と機会を開くことを目的としている。

Graph neural networks (GNNs) have recently emerged as a promising learning paradigm in learning graph-structured data and have demonstrated wide success across various domains such as recommendation systems, social networks, and electronic design automation (EDA). Like other deep learning (DL) methods, GNNs are being deployed in sophisticated modern hardware systems, as well as dedicated accelerators. However, despite the popularity of GNNs and the recent efforts of bringing GNNs to hardware, the fault tolerance and resilience of GNNs has generally been overlooked. Inspired by the inherent algorithmic resilience of DL methods, this paper conducts, for the first time, a large-scale and empirical study of GNN resilience, aiming to understand the relationship between hardware faults and GNN accuracy. By developing a customized fault injection tool on top of PyTorch, we perform extensive fault injection experiments to various GNN models and application datasets. We observe that the error resilience of GNN models varies by orders of magnitude with respect to different models and application datasets. Further, we explore a low-cost error mitigation mechanism for GNN to enhance its resilience. This GNN resilience study aims to open up new directions and opportunities for future GNN accelerator design and architectural optimization.
公開日:2022-12-07
翻訳日:2022-12-08 16:32:49
# mob-fl:インテリジェントコネクテッドカーのためのモビリティアウェアフェデレーション学習

MOB-FL: Mobility-Aware Federated Learning for Intelligent Connected Vehicles ( http://arxiv.org/abs/2212.03519v1 )

ライセンス: Link先を確認
Bowen Xie, Yuxuan Sun, Sheng Zhou, Zhisheng Niu, Yang Xu, Jingran Chen, Deniz G\"und\"uz(参考訳) フェデレートラーニング(FL)は、インテリジェントコネクテッドカー(ICV)と強力なセンシング、コンピューティング、通信機能を備えた未来の車両のインターネットを実現するための有望なアプローチである。 データトラフィックとプライバシリークを制限するため、近隣のICVをコーディネートしてニューラルネットワークを協調的かつ分散的にトレーニングする基地局(BS)について検討する。 しかし、車両の移動性のため、BSとICVの接続は短命であり、ISVの資源利用に影響し、トレーニングプロセスの収束速度が向上する。 本稿では,FLの収束性能を向上させるため,各トレーニングラウンドの時間と局所反復回数を最適化し,高速化されたFL-ICVフレームワークを提案する。 短寿命無線接続下でのICVの資源利用を最大化し,収束速度を向上させることを目的としたモビリティ対応最適化アルゴリズムMOB-FLを提案する。 ビーム選択および軌道予測タスクに基づくシミュレーション結果は,提案手法の有効性を検証した。

Federated learning (FL) is a promising approach to enable the future Internet of vehicles consisting of intelligent connected vehicles (ICVs) with powerful sensing, computing and communication capabilities. We consider a base station (BS) coordinating nearby ICVs to train a neural network in a collaborative yet distributed manner, in order to limit data traffic and privacy leakage. However, due to the mobility of vehicles, the connections between the BS and ICVs are short-lived, which affects the resource utilization of ICVs, and thus, the convergence speed of the training process. In this paper, we propose an accelerated FL-ICV framework, by optimizing the duration of each training round and the number of local iterations, for better convergence performance of FL. We propose a mobility-aware optimization algorithm called MOB-FL, which aims at maximizing the resource utilization of ICVs under short-lived wireless connections, so as to increase the convergence speed. Simulation results based on the beam selection and the trajectory prediction tasks verify the effectiveness of the proposed solution.
公開日:2022-12-07
翻訳日:2022-12-08 16:32:28
# 学習可能な拡張による対比深部グラフクラスタリング

Contrastive Deep Graph Clustering with Learnable Augmentation ( http://arxiv.org/abs/2212.03559v1 )

ライセンス: Link先を確認
Xihong Yang, Yue Liu, Sihang Zhou, Siwei Wang, Xinwang Liu, En Zhu(参考訳) グラフの対比学習はディープグラフクラスタリングの重要な手法である。 既存の手法はまず確率的な拡張でグラフビューを生成し、次にクロスビュー一貫性の原則でネットワークをトレーニングする。 性能は良好だが,既存の拡張手法は通常ランダムであり,事前定義された拡張に依存しており,これは不十分であり,最終クラスタリングタスク間の交渉が不十分である。 そこで本研究では,ニューラルネットワークによって完全に最適化されたLearable Graph Data Augmentation (GCC-LDA) を用いたグラフコントラストクラスタリング手法を提案する。 対角学習機構は、拡張ビューの多様性を確保しつつ、潜在空間におけるクロスビュー一貫性を維持するように設計されている。 本フレームワークでは,構造レベルと属性レベルの両方の強化学習のために,構造拡張器と属性拡張器を構築した。 学習親和性行列の信頼性を向上させるため、学習手順にクラスタリングを導入し、高信頼擬似ラベル行列とクロスビューサンプル類似性行列の両方を用いて学習親和性行列を洗練する。 学習過程において,学習視点に対する永続的最適化を提供するため,より信頼性の高いクラスタリング情報を得るために,2段階のトレーニング戦略を設計する。 6つのベンチマークデータセットに対するGCC-LDAの有効性を示した。

Graph contrastive learning is an important method for deep graph clustering. The existing methods first generate the graph views with stochastic augmentations and then train the network with a cross-view consistency principle. Although good performance has been achieved, we observe that the existing augmentation methods are usually random and rely on pre-defined augmentations, which is insufficient and lacks negotiation between the final clustering task. To solve the problem, we propose a novel Graph Contrastive Clustering method with the Learnable graph Data Augmentation (GCC-LDA), which is optimized completely by the neural networks. An adversarial learning mechanism is designed to keep cross-view consistency in the latent space while ensuring the diversity of augmented views. In our framework, a structure augmentor and an attribute augmentor are constructed for augmentation learning in both structure level and attribute level. To improve the reliability of the learned affinity matrix, clustering is introduced to the learning procedure and the learned affinity matrix is refined with both the high-confidence pseudo-label matrix and the cross-view sample similarity matrix. During the training procedure, to provide persistent optimization for the learned view, we design a two-stage training strategy to obtain more reliable clustering information. Extensive experimental results demonstrate the effectiveness of GCC-LDA on six benchmark datasets.
公開日:2022-12-07
翻訳日:2022-12-08 16:32:10
# BoxPolyp:外部粗いバウンディングボックスアノテーションを用いたBoost Generalized Polyp Segmentation

BoxPolyp:Boost Generalized Polyp Segmentation Using Extra Coarse Bounding Box Annotations ( http://arxiv.org/abs/2212.03498v1 )

ライセンス: Link先を確認
Jun Wei, Yiwen Hu, Guanbin Li, Shuguang Cui, S Kevin Zhou, Zhen Li(参考訳) 正確なポリープ分画は大腸癌の診断と治療において非常に重要である。 しかし、正確なマスクアノテーションの作成コストが高いため、既存のポリプセグメンテーション手法は深刻なデータ不足とモデル一般化の障害に苦しむ。 逆に、粗いpolypバウンディングボックスアノテーションはよりアクセスしやすい。 そこで,本稿では,正確なマスクと余分な粗いボックスアノテーションの両方をフル活用するためのブーストボックスポリプモデルを提案する。 実際、ボックスアノテーションは、反復ブーストセグメンテーションモデルを通じて細粒度ポリプ領域を生成する以前のポリプセグメンテーションモデルの過剰フィッティング問題を緩和するために適用される。 この目的を達成するために、FPSモジュールが最初に提案され、より少ないノイズでボックスアノテーションからピクセル単位の擬似ラベルを生成することで、性能が大幅に向上した。 また、同一ポリプの外観整合性を考慮して、画像整合性(IC)損失を設計する。 このようなIC損失は、2つの異なるネットワークによって抽出された特徴間の距離を明示的に狭め、モデルの堅牢性を向上させる。 BoxPolypはプラグイン・アンド・プレイモデルで、魅力的なバックボーンにマージすることができます。 5つの挑戦的ベンチマークにおける定量的および定性的な実験結果から,提案手法が従来の最先端手法よりも高い性能を示した。

Accurate polyp segmentation is of great importance for colorectal cancer diagnosis and treatment. However, due to the high cost of producing accurate mask annotations, existing polyp segmentation methods suffer from severe data shortage and impaired model generalization. Reversely, coarse polyp bounding box annotations are more accessible. Thus, in this paper, we propose a boosted BoxPolyp model to make full use of both accurate mask and extra coarse box annotations. In practice, box annotations are applied to alleviate the over-fitting issue of previous polyp segmentation models, which generate fine-grained polyp area through the iterative boosted segmentation model. To achieve this goal, a fusion filter sampling (FFS) module is firstly proposed to generate pixel-wise pseudo labels from box annotations with less noise, leading to significant performance improvements. Besides, considering the appearance consistency of the same polyp, an image consistency (IC) loss is designed. Such IC loss explicitly narrows the distance between features extracted by two different networks, which improves the robustness of the model. Note that our BoxPolyp is a plug-and-play model, which can be merged into any appealing backbone. Quantitative and qualitative experimental results on five challenging benchmarks confirm that our proposed model outperforms previous state-of-the-art methods by a large margin.
公開日:2022-12-07
翻訳日:2022-12-08 16:25:52
# worldview-3画像における屋上太陽エネルギー発生のサイト評価とレイアウト最適化

Site Assessment and Layout Optimization for Rooftop Solar Energy Generation in Worldview-3 Imagery ( http://arxiv.org/abs/2212.03516v1 )

ライセンス: Link先を確認
Zeyad Awwad, Abdulaziz Alharbi, Abdulelah H. Habib, and Olivier L. de Weck(参考訳) 近年、住宅用屋上PVの普及に伴い、1つの効率的なレイアウト設計の問題が近年ますます重要になっている。 多数の自動手法が導入されたが、これらは計算的トラクタビリティを改善するために仮定と3つのヒューリスティックに頼っている。 5つのシェーディング損失を考慮に入れた幾何学的柔軟性でより一般的な定式化を解こうとする,完全な自動レイアウト設計4パイプラインを実証する。 提案手法は,衛星画像から屋上面積を生成し,パネル位置,方位角,傾斜角を予め定義されたレイアウトを課すのではなく6 MINLP最適化を用いて選択する。 以上の結果から, 一般的な8つのヒューリスティックは, しばしば有効であるが, 幾何的制約やシェーディング損失から生じる9つの合併症により, 普遍的には適さない可能性が示唆された。 最後に,10の文献からいくつかの特定のヒューリスティックスを評価し,シェーディング効果を考慮した場合の屋根上太陽エネルギー11ポテンシャルの向上に役立つ親指の新規則を提案する。

With the growth of residential rooftop PV adoption in recent decades, the problem of 1 effective layout design has become increasingly important in recent years. Although a number 2 of automated methods have been introduced, these tend to rely on simplifying assumptions and 3 heuristics to improve computational tractability. We demonstrate a fully automated layout design 4 pipeline that attempts to solve a more general formulation with greater geometric flexibility that 5 accounts for shading losses. Our approach generates rooftop areas from satellite imagery and uses 6 MINLP optimization to select panel positions, azimuth angles and tilt angles on an individual basis 7 rather than imposing any predefined layouts. Our results demonstrate that although several common 8 heuristics are often effective, they may not be universally suitable due to complications resulting 9 from geometric restrictions and shading losses. Finally, we evaluate a few specific heuristics from the 10 literature and propose a potential new rule of thumb that may help improve rooftop solar energy 11 potential when shading effects are considered.
公開日:2022-12-07
翻訳日:2022-12-08 16:25:29
# AsyInst: Box-Supervised Instance SegmentationのためのDepthGradとColorによる非対称親和性

AsyInst: Asymmetric Affinity with DepthGrad and Color for Box-Supervised Instance Segmentation ( http://arxiv.org/abs/2212.03517v1 )

ライセンス: Link先を確認
Siwei Yang, Longlong Jing, Junfei Xiao, Hang Zhao, Alan Yuille, Yingwei Li(参考訳) 弱教師付きインスタンスセグメンテーションは難しいタスクである。 既存の手法は通常、境界ボックスを監督として使用し、例えばセグメンテーションのペアワイズカラーアフィニティ損失のような正規化損失項でネットワークを最適化する。 系統的な分析により,(1)色親和性は機能するが,深度勾配などの他のモードに比べて性能は劣るが,(2)本来の親和性損失は意図したような自明な予測を妨げないが,実際には対称な親和性損失項のため,この過程を加速させる。 本稿では,この2つの制約を克服するために,自明な予測に対するペナルティを与え,異なるモダリティによる親和性損失を一般化する新しい非対称親和性損失を提案する。 提案する非対称アフィニティ損失により,cityscapesデータセットの最先端手法を上回り,マスクapのベースラインメソッドを3.5%上回った。

The weakly supervised instance segmentation is a challenging task. The existing methods typically use bounding boxes as supervision and optimize the network with a regularization loss term such as pairwise color affinity loss for instance segmentation. Through systematic analysis, we found that the commonly used pairwise affinity loss has two limitations: (1) it works with color affinity but leads to inferior performance with other modalities such as depth gradient, (2)the original affinity loss does not prevent trivial predictions as intended but actually accelerates this process due to the affinity loss term being symmetric. To overcome these two limitations, in this paper, we propose a novel asymmetric affinity loss which provides the penalty against the trivial prediction and generalizes well with affinity loss from different modalities. With the proposed asymmetric affinity loss, our method outperforms the state-of-the-art methods on the Cityscapes dataset and outperforms our baseline method by 3.5% in mask AP.
公開日:2022-12-07
翻訳日:2022-12-08 16:25:11
# Team MT_IoTの多目的追跡チャレンジ技術レポート

Multiple Object Tracking Challenge Technical Report for Team MT_IoT ( http://arxiv.org/abs/2212.03586v1 )

ライセンス: Link先を確認
Feng Yan, Zhiheng Li, Weixin Luo, Zequn jie, Fan Liang, Xiaolin Wei, Lin Ma(参考訳) 本稿では,複合環境におけるMOT(Multiple-Object Tracking)チャレンジに関する簡単な技術的報告を行う。 本稿では,MOTタスクを人間の検出と軌道マッチングを含む2段階のタスクとして扱う。 具体的には、改良された人間検出器を設計し、運動軌跡の完全性を保証するためにほとんどの検出を関連付けた。 さらに,より正確なトレースマッチングを得るための位置方向マッチング行列を提案する。 そこで本手法では,DanceTrackチャレンジデータセット上で66.672 HOTAと93.971 MOTAを達成した。

This is a brief technical report of our proposed method for Multiple-Object Tracking (MOT) Challenge in Complex Environments. In this paper, we treat the MOT task as a two-stage task including human detection and trajectory matching. Specifically, we designed an improved human detector and associated most of detection to guarantee the integrity of the motion trajectory. We also propose a location-wise matching matrix to obtain more accurate trace matching. Without any model merging, our method achieves 66.672 HOTA and 93.971 MOTA on the DanceTrack challenge dataset.
公開日:2022-12-07
翻訳日:2022-12-08 16:24:50
# ZegCLIP: ゼロショットセマンティックセマンティックセグメンテーションのためのCLIP適応に向けて

ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2212.03588v1 )

ライセンス: Link先を確認
Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu(参考訳) 近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。 一般的な考え方は、まずクラスに依存しない領域の提案を生成し、次に収穫した提案領域をCLIPに供給して、画像レベルのゼロショット分類機能を活用することである。 このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。 本研究では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルで効率的なワンステージソリューションを提案する。 私たちの調査は、CLIPから抽出したテキストとパッチの埋め込みの類似性を比較してセマンティックマスクを生成するベースラインとして、簡単な拡張から始まります。 しかし、そのようなパラダイムは、目に見えないクラスに過度に適合し、一般化に失敗する可能性がある。 そこで本研究では,CLIPの持つゼロショット容量を大幅に維持し,画素レベルの一般化能力を向上できることを示す。 これらの修正を組み込むことで、ZegCLIPと呼ばれる効率的なゼロショットセマンティックセグメンテーションシステムが得られる。 3つの公開ベンチマークに関する広範な実験を通じて、ZegCLIPは優れたパフォーマンスを示し、"インダクティブ"と"トランスダクティブ"の両方のゼロショット設定において、最先端の手法よりも大きなマージンで性能を向上している。 また,2段階法と比較して,1段階ZegCLIPは推論の約5倍の高速化を実現している。 コードをhttps://github.com/ZiqinZhou66/ZegCLIP.gitでリリースします。

Recently, CLIP has been applied to pixel-level zero-shot learning tasks via a two-stage scheme. The general idea is to first generate class-agnostic region proposals and then feed the cropped proposal regions to CLIP to utilize its image-level zero-shot classification capability. While effective, such a scheme requires two image encoders, one for proposal generation and one for CLIP, leading to a complicated pipeline and high computational cost. In this work, we pursue a simpler-and-efficient one-stage solution that directly extends CLIP's zero-shot prediction capability from image to pixel level. Our investigation starts with a straightforward extension as our baseline that generates semantic masks by comparing the similarity between text and patch embeddings extracted from CLIP. However, such a paradigm could heavily overfit the seen classes and fail to generalize to unseen classes. To handle this issue, we propose three simple-but-effective designs and figure out that they can significantly retain the inherent zero-shot capacity of CLIP and improve pixel-level generalization ability. Incorporating those modifications leads to an efficient zero-shot semantic segmentation system called ZegCLIP. Through extensive experiments on three public benchmarks, ZegCLIP demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both "inductive" and "transductive" zero-shot settings. In addition, compared with the two-stage method, our one-stage ZegCLIP achieves a speedup of about 5 times faster during inference. We release the code at https://github.com/ZiqinZhou66/ZegCLIP.git.
公開日:2022-12-07
翻訳日:2022-12-08 16:24:42
# 直感的・非拘束な2次元立方体表現による頭部同時検出と姿勢推定

An Intuitive and Unconstrained 2D Cube Representation for Simultaneous Head Detection and Pose Estimation ( http://arxiv.org/abs/2212.03623v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Lili Xiong, Hongtao Lu(参考訳) 最近のヘッドポーズ推定 (hpe) 法はオイラー角表現に支配されている。 回転ラベルの固有のあいまいさ問題を避けるために、代替四元数ベースおよびベクトルベース表現を導入する。 しかし、両者は視覚的に直観的ではなく、しばしば等角なオイラー角ラベルに由来する。 本稿では,関節頭部検出とポーズ推定のために,直感的かつ非拘束的な2次元立方体表現を用いた新しい単一段階鍵点法を提案する。 2d立方体は、ほぼ1つの頭部を囲む3d正規六面体ラベルの直交射影であり、それ自体は頭部の位置を含む。 頭部の向きを任意の回転角度で直接的かつあいまいに反射することができる。 一般的な6-DoFオブジェクトのポーズ推定とは異なり、我々の2D立方体は頭部の3-DoFを無視するが、頭部の3-DoFは保持する。 等辺長の先行に基づいて,誤差確率PnPアルゴリズムを適用するのではなく,予測された2次元頭部立方体からオイラー角の閉形式解を得ることができる。 提案手法は,AFLW2000およびBIWIデータセット上での他の代表手法と同等の結果を得る。 また、cmu panopticデータセットの新規なテストにより、本手法は変更することなく、制約のないフルビューhpeタスクにシームレスに適応できることを示した。

Most recent head pose estimation (HPE) methods are dominated by the Euler angle representation. To avoid its inherent ambiguity problem of rotation labels, alternative quaternion-based and vector-based representations are introduced. However, they both are not visually intuitive, and often derived from equivocal Euler angle labels. In this paper, we present a novel single-stage keypoint-based method via an {\it intuitive} and {\it unconstrained} 2D cube representation for joint head detection and pose estimation. The 2D cube is an orthogonal projection of the 3D regular hexahedron label roughly surrounding one head, and itself contains the head location. It can reflect the head orientation straightforwardly and unambiguously in any rotation angle. Unlike the general 6-DoF object pose estimation, our 2D cube ignores the 3-DoF of head size but retains the 3-DoF of head pose. Based on the prior of equal side length, we can effortlessly obtain the closed-form solution of Euler angles from predicted 2D head cube instead of applying the error-prone PnP algorithm. In experiments, our proposed method achieves comparable results with other representative methods on the public AFLW2000 and BIWI datasets. Besides, a novel test on the CMU panoptic dataset shows that our method can be seamlessly adapted to the unconstrained full-view HPE task without modification.
公開日:2022-12-07
翻訳日:2022-12-08 16:24:14
# 顔アンチ・スプーフィングのための周期的不整形特徴翻訳

Cyclically Disentangled Feature Translation for Face Anti-spoofing ( http://arxiv.org/abs/2212.03651v1 )

ライセンス: Link先を確認
Haixiao Yue, Keyao Wang, Guosheng Zhang, Haocheng Feng, Junyu Han, Errui Ding, Jingdong Wang(参考訳) 顔アンチスプーフィングの現在のドメイン適応法は、ラベル付きソースドメインデータとラベルなしターゲットドメインデータを利用して、有望な一般化可能な決定境界を得る。 しかし,これらの手法では,照度,顔のカテゴリ,スプーフタイプなどの領域差によって最終分類性能を低下させるような,ドメイン不変性の特徴的乱れを完璧に実現することが通常困難である。 本研究では,cdftn(cyclicly disentangled feature translation network)と呼ばれる新しいドメイン適応手法を提案する。 具体的には、CDFTNは、以下の擬似ラベル付きサンプルを生成する。 1) ソースドメイン不変の生長特徴 2) ドメイン固有のコンテンツ特徴を対象とし、ドメイン敵のトレーニングによって絡み合う。 ロバスト分類器は、ソースドメインラベルの監督下で合成擬似ラベル画像に基づいて訓練される。 さらに,マルチターゲットドメイン適応のためのcdftnを拡張し,よりラベルなしのターゲットドメインのデータを活用する。 いくつかの公開データセットに対する大規模な実験は、提案手法が芸術の状態を著しく上回ることを示した。

Current domain adaptation methods for face anti-spoofing leverage labeled source domain data and unlabeled target domain data to obtain a promising generalizable decision boundary. However, it is usually difficult for these methods to achieve a perfect domain-invariant liveness feature disentanglement, which may degrade the final classification performance by domain differences in illumination, face category, spoof type, etc. In this work, we tackle cross-scenario face anti-spoofing by proposing a novel domain adaptation method called cyclically disentangled feature translation network (CDFTN). Specifically, CDFTN generates pseudo-labeled samples that possess: 1) source domain-invariant liveness features and 2) target domain-specific content features, which are disentangled through domain adversarial training. A robust classifier is trained based on the synthetic pseudo-labeled images under the supervision of source domain labels. We further extend CDFTN for multi-target domain adaptation by leveraging data from more unlabeled target domains. Extensive experiments on several public datasets demonstrate that our proposed approach significantly outperforms the state of the art.
公開日:2022-12-07
翻訳日:2022-12-08 16:23:47
# SAR時系列における教師なし洪水検出

Unsupervised Flood Detection on SAR Time Series ( http://arxiv.org/abs/2212.03675v1 )

ライセンス: Link先を確認
Ritu Yadav, Andrea Nascetti, Hossein Azizpour, Yifang Ban(参考訳) 人類文明は地球系にますます強い影響を与えている。 気候変動や土地利用の変化の影響を受けて、近年は洪水などの自然災害が増加している。 地球観測は、負の影響を評価し緩和するための貴重な情報源である。 地球観測データから変化を検出することは、その影響を監視する方法のひとつだ。 効果的かつ信頼性の高い変更検出(CD)手法は,早期の災害発生リスクの同定に有効である。 本研究では,時系列Synthetic Aperture Radar~(SAR)データに基づく新しい教師なしCD手法を提案する。 提案手法は,教師なし学習手法,再構築,コントラスト学習を訓練した確率論的モデルである。 変更マップは、プリインシデントデータとポストインシデントデータとの分布差の助けを借りて生成される。 提案するCDモデルは,洪水検出データに基づいて評価する。 我々はCopernicus Emergency Management Servicesの3つの洪水イベントとSen1Floods11データセットの6つの洪水イベントを含む8つの異なる洪水現場でのモデルの有効性を検証した。 提案モデルでは平均64.53\%のインターセクションオーバーユニオン(IoU)値と75.43\%のF1スコアを得た。 達成されたiouスコアは約6-27\%であり、f1スコアは比較なしおよび教師なしの既存のcdメソッドよりも約7-22\%良い。 本研究の成果と広範な議論により,提案手法の有効性が示された。

Human civilization has an increasingly powerful influence on the earth system. Affected by climate change and land-use change, natural disasters such as flooding have been increasing in recent years. Earth observations are an invaluable source for assessing and mitigating negative impacts. Detecting changes from Earth observation data is one way to monitor the possible impact. Effective and reliable Change Detection (CD) methods can help in identifying the risk of disaster events at an early stage. In this work, we propose a novel unsupervised CD method on time series Synthetic Aperture Radar~(SAR) data. Our proposed method is a probabilistic model trained with unsupervised learning techniques, reconstruction, and contrastive learning. The change map is generated with the help of the distribution difference between pre-incident and post-incident data. Our proposed CD model is evaluated on flood detection data. We verified the efficacy of our model on 8 different flood sites, including three recent flood events from Copernicus Emergency Management Services and six from the Sen1Floods11 dataset. Our proposed model achieved an average of 64.53\% Intersection Over Union(IoU) value and 75.43\% F1 score. Our achieved IoU score is approximately 6-27\% and F1 score is approximately 7-22\% better than the compared unsupervised and supervised existing CD methods. The results and extensive discussion presented in the study show the effectiveness of the proposed unsupervised CD method.
公開日:2022-12-07
翻訳日:2022-12-08 16:23:30
# 顔提示攻撃検出

Face Presentation Attack Detection ( http://arxiv.org/abs/2212.03680v1 )

ライセンス: Link先を確認
Zitong Yu, Chenxu Zhao, Zhen Lei(参考訳) 顔認識技術は、その利便性と精度の高さから、チェックインやモバイル支払いといった日々のインタラクティブなアプリケーションで広く使われている。 しかしながら、プレゼンテーションアタック(PA)に対する脆弱性は、超セキュアなアプリケーションシナリオにおける信頼性の高い使用を制限する。 プレゼンテーションアタックはISO標準で次のように定義されている。 バイオメトリックデータキャプチャサブシステムへのプレゼンテーションは、バイオメトリックシステムの動作に干渉することを目的としている。 特にPAは、単純な2Dプリント、リプレイ、より洗練された3Dマスク、部分マスクなど多岐にわたる。 PAに対する顔認識システムを保護するため、学術界と産業界は、PAD(face presentation attack detection)技術(または「face anti-spoofing(FAS)」)の開発に多大な注意を払ってきた。

Face recognition technology has been widely used in daily interactive applications such as checking-in and mobile payment due to its convenience and high accuracy. However, its vulnerability to presentation attacks (PAs) limits its reliable use in ultra-secure applicational scenarios. A presentation attack is first defined in ISO standard as: a presentation to the biometric data capture subsystem with the goal of interfering with the operation of the biometric system. Specifically, PAs range from simple 2D print, replay and more sophisticated 3D masks and partial masks. To defend the face recognition systems against PAs, both academia and industry have paid extensive attention to developing face presentation attack detection (PAD) technology (or namely `face anti-spoofing (FAS)').
公開日:2022-12-07
翻訳日:2022-12-08 16:23:11
# 衛星画像を用いた火災検知システムの開発

Development Of A Fire Detection System On Satellite Images ( http://arxiv.org/abs/2212.03709v1 )

ライセンス: Link先を確認
Sergey Yarushev and Alexey Averkin(参考訳) 本稿では,衛星画像上での山火事認識のための深層ニューラルネットワークの畳み込みアーキテクチャの開発について論じる。 画像分類の結果に基づき,マクロ経済状況の分析を行うファジィ認知マップを構築した。 また,衛星画像上の山火事データを用いたファジィ認知地図に基づくマクロ経済指標の予測にハイブリッド認知モデルを用いる可能性についても検討した。

This paper discusses the development of a convolutional architecture of a deep neural network for the recognition of wildfires on satellite images. Based on the results of image classification, a fuzzy cognitive map of the analysis of the macroeconomic situation was built. The paper also considers the prospect of using hybrid cognitive models for forecasting macroeconomic indicators based on fuzzy cognitive maps using data on recognized wildfires on satellite images.
公開日:2022-12-07
翻訳日:2022-12-08 16:23:00
# 階層型vaeによる正準因子推定による確率的形状完了

Probabilistic Shape Completion by Estimating Canonical Factors with Hierarchical VAE ( http://arxiv.org/abs/2212.03370v1 )

ライセンス: Link先を確認
Wen Jiang, Kostas Daniilidis(参考訳) そこで本研究では,点雲の部分観測から3次元形状完成法を提案する。 既存のメソッドはグローバルな潜在コードで動作し、モデルの表現性を制限するか、高い計算量を持つ局所的な特徴を自己回帰的に推定する。 代わりに,この問題を対象の特徴量に対するテンソル補完問題として定式化することにより,単一のフィードフォワードネットワークで局所特徴フィールド全体を推定する。 局所特徴量の冗長性のため、このテンソル補完問題は、特徴量の標準因子を推定するためにさらに減少することができる。 MLPが小さい階層的変分オートエンコーダ(VAE)を用いて、全特徴量の正準因子を確率的に推定する。 提案手法の有効性を, 定量的, 質的に比較することにより検証した。 さらなるアブレーション研究は、可能な形状のマルチモーダル分布を捉えるために階層的アーキテクチャを採用する必要性も示している。

We propose a novel method for 3D shape completion from a partial observation of a point cloud. Existing methods either operate on a global latent code, which limits the expressiveness of their model, or autoregressively estimate the local features, which is highly computationally extensive. Instead, our method estimates the entire local feature field by a single feedforward network by formulating this problem as a tensor completion problem on the feature volume of the object. Due to the redundancy of local feature volumes, this tensor completion problem can be further reduced to estimating the canonical factors of the feature volume. A hierarchical variational autoencoder (VAE) with tiny MLPs is used to probabilistically estimate the canonical factors of the complete feature volume. The effectiveness of the proposed method is validated by comparing it with the state-of-the-art method quantitatively and qualitatively. Further ablation studies also show the need to adopt a hierarchical architecture to capture the multimodal distribution of possible shapes.
公開日:2022-12-06
翻訳日:2022-12-08 16:17:39
# Drone Atttention: ドローンカメラによる活動認識のための疎重時間アテンション

DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera Based Activity Recognition ( http://arxiv.org/abs/2212.03384v1 )

ライセンス: Link先を確認
Santosh Kumar Yadav, Achleshwar Luthra, Esha Pahwa, Kamlesh Tiwari, Heena Rathore, Hari Mohan Pandey, Peter Corcoran(参考訳) ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。 堅牢で効率的なHARシステムは、ビデオ監視、群衆行動分析、スポーツ分析、人間とコンピュータの相互作用といった分野において重要な役割を果たす。 難しいのは、複雑なポーズ、異なる視点、そしてアクションが行われる環境シナリオを理解することです。 このような複雑さに対処するため、本稿では、疎サンプリングされたビデオフレームをグローバルに重み付けされた時間的注意を得るために利用する、スパース重み付き時間的注意(SWTA)モジュールを提案する。 提案するswatは2つの部分からなる。 まず、与えられたフレームの集合をわずかにサンプリングする時間セグメントネットワーク。 第二に、光学的流れから導かれる注目マップと生のRGB画像との融合を含む重み付き時間的注意。 続くベースネットネットワークは、畳み込みニューラルネットワーク(CNN)モジュールと、アクティビティ認識を提供する完全に接続されたレイヤで構成される。 SWTAネットワークは、既存の深層CNNアーキテクチャのプラグインモジュールとして使用することができ、個別の時間ストリームを不要にすることで、時間情報の学習を最適化することができる。 Okutama、MOD20、Drone-Actionという3つの公開ベンチマークデータセットで評価されている。 提案モデルの精度は72.76%, 92.56%, 78.86%であり, 従来の性能を25.26%, 18.56%, 2.94%で上回っている。

Human activity recognition (HAR) using drone-mounted cameras has attracted considerable interest from the computer vision research community in recent years. A robust and efficient HAR system has a pivotal role in fields like video surveillance, crowd behavior analysis, sports analysis, and human-computer interaction. What makes it challenging are the complex poses, understanding different viewpoints, and the environmental scenarios where the action is taking place. To address such complexities, in this paper, we propose a novel Sparse Weighted Temporal Attention (SWTA) module to utilize sparsely sampled video frames for obtaining global weighted temporal attention. The proposed SWTA is comprised of two parts. First, temporal segment network that sparsely samples a given set of frames. Second, weighted temporal attention, which incorporates a fusion of attention maps derived from optical flow, with raw RGB images. This is followed by a basenet network, which comprises a convolutional neural network (CNN) module along with fully connected layers that provide us with activity recognition. The SWTA network can be used as a plug-in module to the existing deep CNN architectures, for optimizing them to learn temporal information by eliminating the need for a separate temporal stream. It has been evaluated on three publicly available benchmark datasets, namely Okutama, MOD20, and Drone-Action. The proposed model has received an accuracy of 72.76%, 92.56%, and 78.86% on the respective datasets thereby surpassing the previous state-of-the-art performances by a margin of 25.26%, 18.56%, and 2.94%, respectively.
公開日:2022-12-07
翻訳日:2022-12-08 16:17:23
# SSDNeRF:神経放射場の意味的ソフト分解

SSDNeRF: Semantic Soft Decomposition of Neural Radiance Fields ( http://arxiv.org/abs/2212.03406v1 )

ライセンス: Link先を確認
Siddhant Ranade, Christoph Lassner, Kai Li, Christian Haene, Shen-Chi Chen, Jean-Charles Bazin, Sofien Bouaziz(参考訳) neural radiance fields (nerfs) は、シーンのプレンオプティクス関数によってパラメータ化されたシーンの輝度を符号化する。 これは、MLPと高次元空間へのマッピングを併用して実現され、非常に詳細なシーンを撮影することが証明されている。 当然のことながら、同じパラメータ化を使ってシーンの余分な特性を符号化することができる。 この点において特に興味深いのは、シーンの意味分解である。 本稿では,シーンの放射信号と組み合わせて意味信号を符号化する,ニューラルレイディアンスフィールド(SSDNeRF)のセマンティックソフト分解手法を提案する。 このアプローチでは,シーンのソフトな分解をセマンティックなパーツにすることで,複数の意味クラスを同じ方向にブレンドして正しくエンコードすることが可能です。 これはシーンの詳細な3Dセマンティック表現をもたらすだけでなく、エンコーディングに使用されるMLPの正規化効果が意味表現の改善に役立つことも示している。 本稿では,共有オブジェクトのデータセット上に最先端のセグメンテーションと再構成結果を示し,提案手法が,カジュアルに撮影された自撮りビデオのデータセット上で,高品質な時間的一貫性のあるビデオ編集と再合成にどのように適用できるかを実証する。

Neural Radiance Fields (NeRFs) encode the radiance in a scene parameterized by the scene's plenoptic function. This is achieved by using an MLP together with a mapping to a higher-dimensional space, and has been proven to capture scenes with a great level of detail. Naturally, the same parameterization can be used to encode additional properties of the scene, beyond just its radiance. A particularly interesting property in this regard is the semantic decomposition of the scene. We introduce a novel technique for semantic soft decomposition of neural radiance fields (named SSDNeRF) which jointly encodes semantic signals in combination with radiance signals of a scene. Our approach provides a soft decomposition of the scene into semantic parts, enabling us to correctly encode multiple semantic classes blending along the same direction -- an impossible feat for existing methods. Not only does this lead to a detailed, 3D semantic representation of the scene, but we also show that the regularizing effects of the MLP used for encoding help to improve the semantic representation. We show state-of-the-art segmentation and reconstruction results on a dataset of common objects and demonstrate how the proposed approach can be applied for high quality temporally consistent video editing and re-compositing on a dataset of casually captured selfie videos.
公開日:2022-12-07
翻訳日:2022-12-08 16:16:56
# 簡易なNadaraya-Watsonヘッドによる説明可能な分類

A Simple Nadaraya-Watson Head can offer Explainable and Calibrated Classification ( http://arxiv.org/abs/2212.03411v1 )

ライセンス: Link先を確認
Alan Q. Wang and Mert R. Sabuncu(参考訳) 本稿では,任意のニューラルネットワークアーキテクチャで使用可能な,単純で非学習可能で非パラメトリックなnadaraya-watson(nw)予測ヘッドを経験的に解析する。 NWヘッドでは、予測はサポートセットからのラベルの重み付き平均である。 ウェイトは、クエリ機能とサポート機能の間の距離から計算される。 これは、特徴に学習可能な分類ヘッド(例えば、完全連結層)を使用することによる支配的なアプローチとは対照的であり、解釈が困難であり、校正が不十分な予測をもたらす可能性がある。 コンピュータビジョンタスクの一連の実験結果から,nwヘッドはパラメトリックヘッドよりも優れた校正を得られるが,同等の精度と計算オーバーヘッドは最小であることが示された。 推論時間効率をさらに高めるために,比較的小さな蒸留サポートセットを作成するために,トレーニングセット上で実行されるクラスタリングステップを含む簡単なアプローチを提案する。 モデル予測を解釈する手段として重み付けを用いることに加えて、与えられたクエリの予測に対するサポート要素の影響を定量化する、計算の容易な"サポート影響関数"も提示する。 我々の実験で示したように、影響関数はユーザーがトレーニングされたモデルをデバッグすることができる。 NWヘッドは柔軟性があり、解釈可能で、非常に有用なビルディングブロックであり、様々なアプリケーションで使用できます。

In this paper, we empirically analyze a simple, non-learnable, and nonparametric Nadaraya-Watson (NW) prediction head that can be used with any neural network architecture. In the NW head, the prediction is a weighted average of labels from a support set. The weights are computed from distances between the query feature and support features. This is in contrast to the dominant approach of using a learnable classification head (e.g., a fully-connected layer) on the features, which can be challenging to interpret and can yield poorly calibrated predictions. Our empirical results on an array of computer vision tasks demonstrate that the NW head can yield better calibration than its parametric counterpart, while having comparable accuracy and with minimal computational overhead. To further increase inference-time efficiency, we propose a simple approach that involves a clustering step run on the training set to create a relatively small distilled support set. In addition to using the weights as a means of interpreting model predictions, we further present an easy-to-compute "support influence function," which quantifies the influence of a support element on the prediction for a given query. As we demonstrate in our experiments, the influence function can allow the user to debug a trained model. We believe that the NW head is a flexible, interpretable, and highly useful building block that can be used in a range of applications.
公開日:2022-12-07
翻訳日:2022-12-08 16:16:34
# スリム化可能な刈り込みニューラルネットワーク

Slimmable Pruned Neural Networks ( http://arxiv.org/abs/2212.03415v1 )

ライセンス: Link先を確認
Hideaki Kuratsu and Atsuyoshi Nakamura(参考訳) Slimmable Neural Networks (S-Net) は、現在の計算資源の可用性に応じて、事前に定義されたチャネル(サブネットワーク)の1つを動的に選択できる新しいネットワークである。 しかし、S-Net上の各サブネットワークの精度は、異なるサブネットワーク上での同時最適化が困難であるため、同一サイズの個別訓練ネットワークの精度よりも劣っている。 本稿では、s-netのように、各層(幅乗算器)に同じチャネルの割合の構造を採用する代わりに、プルーニングによって学習されるサブネットワーク構造を持つ、スリム化可能なプルーニングニューラルネットワーク(sp-net)を提案し、また、新しいプルーニング手順を提案する。 また,スリム化可能なチャネルソート (scs) を導入し, s-net および 0 padding match (zpm) のpruning と prune の残差構造を効率的に計算できるようにした。 SP-Netは任意の種類のチャネルプルーニング手法と組み合わせることができ、NASモデルのような複雑な処理や時間を要するアーキテクチャ検索は不要である。 S-Net上の同じFLOPのサブネットワークと比較して、SP-NetはResNet-50では1.2-1.5%、VGGNetでは0.9-4.4%、MobileNetV1では1.3-2.7%、ImageNetでは1.4-3.1%の精度向上を実現している。 さらに,本手法は,他のSOTAプルーニング法よりも優れ,ImageNetの実験結果により,様々なNASモデルと同等である。 コードはhttps://github.com/hideakikuratsu/sp-netで入手できる。

Slimmable Neural Networks (S-Net) is a novel network which enabled to select one of the predefined proportions of channels (sub-network) dynamically depending on the current computational resource availability. The accuracy of each sub-network on S-Net, however, is inferior to that of individually trained networks of the same size due to its difficulty of simultaneous optimization on different sub-networks. In this paper, we propose Slimmable Pruned Neural Networks (SP-Net), which has sub-network structures learned by pruning instead of adopting structures with the same proportion of channels in each layer (width multiplier) like S-Net, and we also propose new pruning procedures: multi-base pruning instead of one-shot or iterative pruning to realize high accuracy and huge training time saving. We also introduced slimmable channel sorting (scs) to achieve calculation as fast as S-Net and zero padding match (zpm) pruning to prune residual structure in more efficient way. SP-Net can be combined with any kind of channel pruning methods and does not require any complicated processing or time-consuming architecture search like NAS models. Compared with each sub-network of the same FLOPs on S-Net, SP-Net improves accuracy by 1.2-1.5% for ResNet-50, 0.9-4.4% for VGGNet, 1.3-2.7% for MobileNetV1, 1.4-3.1% for MobileNetV2 on ImageNet. Furthermore, our methods outperform other SOTA pruning methods and are on par with various NAS models according to our experimental results on ImageNet. The code is available at https://github.com/hideakikuratsu/SP-Net.
公開日:2022-12-07
翻訳日:2022-12-08 16:16:12
# シーングラフのペアによる行動効果の学習

Learning Action-Effect Dynamics from Pairs of Scene-graphs ( http://arxiv.org/abs/2212.03433v1 )

ライセンス: Link先を確認
Shailaja Keyur Sampat, Pratyay Banerjee, Yezhou Yang and Chitta Baral(参考訳) 人間と世界との相互作用には「行動」が重要な役割を果たしている。 このように、日々の作業を支援する自律エージェントは、「行動と変化に関する推論(RAC)」を実行する能力も必要となる。 近年,視覚・言語入力を用いたRAC研究への関心が高まっている。 グラフはしばしば視覚的内容(オブジェクト、その属性、オブジェクト間の関係)の意味的構造を表現するために使われ、一般にシーングラフと呼ばれる。 本研究では,画像のシーングラフ表現を活用し,自然言語に記述された動作の効果を判断する手法を提案する。 我々は既存の clevr_hyp (sampat et. al, 2021) データセットを用いて実験を行い,提案手法が既存のモデルと比較して性能,データ効率,一般化能力において有効であることを示す。

'Actions' play a vital role in how humans interact with the world. Thus, autonomous agents that would assist us in everyday tasks also require the capability to perform 'Reasoning about Actions & Change' (RAC). Recently, there has been growing interest in the study of RAC with visual and linguistic inputs. Graphs are often used to represent semantic structure of the visual content (i.e. objects, their attributes and relationships among objects), commonly referred to as scene-graphs. In this work, we propose a novel method that leverages scene-graph representation of images to reason about the effects of actions described in natural language. We experiment with existing CLEVR_HYP (Sampat et. al, 2021) dataset and show that our proposed approach is effective in terms of performance, data efficiency, and generalization capability compared to existing models.
公開日:2022-12-07
翻訳日:2022-12-08 16:15:42
# タスクに色を付ける:Color Quantisation Transformerを使ってColor Namingを人工的に発見する

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer ( http://arxiv.org/abs/2212.03434v1 )

ライセンス: Link先を確認
Shenghan Su and Lin Gu and Ziteng Cui and Yue Yang and Jingjing Shen and Hiroaki Yamane and Zenghui Zhang and Tatsuya Harada(参考訳) カラーナミング系が効率的なコミュニケーションと知覚機構の二重の圧力の下で進化するという長年の理論は、ナファアナラ語からの4年分のダイアクロニックデータの分析を含む、より多くの言語研究によって支持されている。 これは、ハイレベルな認識性能で表現される通信効率を最適化することで、人工知能が進化し、同様の色覚システムを発見できるかどうかを探究するきっかけとなる。 そこで本研究では,色空間を定量化する新しいカラー量子化変換器CQFormerを提案する。 rgb画像が与えられると、アノテーションブランチは色パレットで定量化された画像を生成する前にインデックスマップにマップし、パレットブランチは色空間全体において適切な色を見つけるためにキーポイント検出方法を利用する。 色アノテーションと相互作用することで、cqformerは、検出された色システムのために、マシンビジョンの正確さと、異なる色分布や安定した色分布のような色知覚構造の両方をバランスさせることができる。 興味深いことに、私たちは人工色システムと人間の言語における基本色用語の一貫性のある進化パターンも観察しています。 また,色量化手法は,分類や検出などのハイレベルな認識タスクにおいて高い性能を維持しながら,画像記憶を効果的に圧縮する効率的な定量化手法も提供する。 超低ビットレート色を用いた実験により,本手法の優れた性能を示す。 近いうちにソースコードをリリースします。

The long-standing theory that a colour-naming system evolves under the dual pressure of efficient communication and perceptual mechanism is supported by more and more linguistic studies including the analysis of four decades' diachronic data from the Nafaanra language. This inspires us to explore whether artificial intelligence could evolve and discover a similar colour-naming system via optimising the communication efficiency represented by high-level recognition performance. Here, we propose a novel colour quantisation transformer, CQFormer, that quantises colour space while maintaining the accuracy of machine recognition on the quantised images. Given an RGB image, Annotation Branch maps it into an index map before generating the quantised image with a colour palette, meanwhile the Palette Branch utilises a key-point detection way to find proper colours in palette among whole colour space. By interacting with colour annotation, CQFormer is able to balance both the machine vision accuracy and colour perceptual structure such as distinct and stable colour distribution for discovered colour system. Very interestingly, we even observe the consistent evolution pattern between our artificial colour system and basic colour terms across human languages. Besides, our colour quantisation method also offers an efficient quantisation method that effectively compresses the image storage while maintaining a high performance in high-level recognition tasks such as classification and detection. Extensive experiments demonstrate the superior performance of our method with extremely low bit-rate colours. We will release the source code soon.
公開日:2022-12-07
翻訳日:2022-12-08 16:15:28
# UI Layers Group Detector: テキストフュージョンとボックスアテンションによるUIレイヤのグループ化

UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box Attention ( http://arxiv.org/abs/2212.03440v1 )

ライセンス: Link先を確認
Shuhong Xiao, Tingting Zhou, Yunnong Chen, Dengming Zhang, Liuqing Chen, Lingyun Sun, Shiyu Yue(参考訳) graphic user interface(gui)はモバイルアプリの普及と繁栄で大きな需要に直面している。 UI設計ドラフトからの自動UIコード生成は、開発プロセスを劇的に単純化します。 しかし、設計ドラフトのネスティング層構造は、生成されたコードの品質とユーザビリティに影響する。 生成されたコードのアクセシビリティを改善するため、ネストしたレイヤを検出してグループ化するGUI自動化技術はほとんどありません。 本稿では,画像(基本形状と視覚要素)を自動的に検出するビジョンベース手法として,同じ意味を持つテキスト層として,uiレイヤ群検出器を提案する。 グループローカライゼーションのための優先情報として,デザインドラフトからのテキスト情報を利用する2つのプラグインコンポーネント,テキスト融合とボックスアテンションを提案する。 トレーニングとテストのための大規模uiデータセットを構築し,検出性能向上のためのデータ拡張手法を提案する。 実験の結果,提案手法は層分けの精度が高いことがわかった。

Graphic User Interface (GUI) is facing great demand with the popularization and prosperity of mobile apps. Automatic UI code generation from UI design draft dramatically simplifies the development process. However, the nesting layer structure in the design draft affects the quality and usability of the generated code. Few existing GUI automated techniques detect and group the nested layers to improve the accessibility of generated code. In this paper, we proposed our UI Layers Group Detector as a vision-based method that automatically detects images (i.e., basic shapes and visual elements) and text layers that present the same semantic meanings. We propose two plug-in components, text fusion and box attention, that utilize text information from design drafts as a priori information for group localization. We construct a large-scale UI dataset for training and testing, and present a data augmentation approach to boost the detection performance. The experiment shows that the proposed method achieves a decent accuracy regarding layers grouping.
公開日:2022-12-07
翻訳日:2022-12-08 16:15:03
# 涙膜脂質層のダイナミクスの追跡

Tracking the Dynamics of the Tear Film Lipid Layer ( http://arxiv.org/abs/2212.03450v1 )

ライセンス: Link先を確認
Tejasvi Kothapalli, Charlie Shou, Jennifer Ding, Jiayun Wang, Andrew D. Graham, Tatyana Svitova, Stella X. Yu, Meng C. Lin(参考訳) ドライアイ病(DED)は最も一般的な眼疾患の1つで、米国の成人の5%以上がDEDに罹患している。 涙膜不安定性はDEDの既知の因子であり, 涙膜を被覆し安定化する薄い脂質層によって, 大部分が制御されていると考えられている。 本研究は眼疾患診断を支援するため,コンピュータビジョン技術を用いて涙膜脂質層(tfll)の拡散を数値的に解析する新しいパラダイムを提案する。 涙膜脂質層が拡散した11本のビデオがマイクロ干渉計で収集され、サブセットがアノテートされる。 様々な柱型コンピュータビジョン技術に基づくトラッキングアルゴリズムを開発した。 このメソッドはhttps://easytear-dev.github.io/にある。

Dry Eye Disease (DED) is one of the most common ocular diseases: over five percent of US adults suffer from DED. Tear film instability is a known factor for DED, and is thought to be regulated in large part by the thin lipid layer that covers and stabilizes the tear film. In order to aid eye related disease diagnosis, this work proposes a novel paradigm in using computer vision techniques to numerically analyze the tear film lipid layer (TFLL) spread. Eleven videos of the tear film lipid layer spread are collected with a micro-interferometer and a subset are annotated. A tracking algorithm relying on various pillar computer vision techniques is developed. Our method can be found at https://easytear-dev.github.io/.
公開日:2022-12-07
翻訳日:2022-12-08 16:14:49
# SimVTP: Masked Autoencodersによる簡単なビデオテキスト事前トレーニング

SimVTP: Simple Video Text Pre-training with Masked Autoencoders ( http://arxiv.org/abs/2212.03490v1 )

ライセンス: Link先を確認
Yue Ma, Tianyu Yang, Yin Shan, Xiu Li(参考訳) 本稿では,マスク付きオートエンコーダを用いた簡易ビデオテキスト事前学習フレームワークSimVTPを提案する。 入力ビデオの空間的-時間的チューブと入力テキストの単語トークンをランダムにマスクし、それらを統一オーテンコーダに供給し、欠落したピクセルと単語を再構築する。 simvtpにはいくつかの特性があります 1) 統一されたオートエンコーダにより,SimVTPは,ビデオチューブとテキストトークン間のクロスモーダルアライメントを暗黙的に学習する,あるモダリティのマスク信号の再構成を行う。 2)simvtpはビデオの時間的冗長性により高いビデオマスキング比(例:90%)の恩恵を受けるだけでなく、最適な性能を得るためにはbert(例:15%)よりもはるかに高いテキストマスキング比(例:75%)を必要とする。 これは、ビデオモダリティの支援によって、テキストの再構成が難しくなるため、より高いマスク比を必要とするため、有用な機能学習のために、プリテキストを困難にするためである。 3)ビデオテキストコントラッシブラーニング(VTC)とビデオテキストマッチング(VTM)を併用したSimVTPの取得により,転送性能が向上する可能性が示唆された。 4) SimVTPは、例えば、WebVid-2Mの10%のデータのみを事前トレーニングすることで、MSRVTT上で驚くほど良い結果(43.8 R@1)を得る。 事前学習したモデルを様々な下流タスクに転送し、優れた性能を実現する。 コードとモデルはhttps://github.com/mayuelala/simvtpでリリースされる。

This paper presents SimVTP: a Simple Video-Text Pretraining framework via masked autoencoders. We randomly mask out the spatial-temporal tubes of input video and the word tokens of input text and then feed them into a unified autencoder to reconstruct the missing pixels and words. Our SimVTP has several properties: 1) Thanks to the unified autoencoder, SimVTP reconstructs the masked signal of one modality with the help from another modality, which implicitly learns the cross-modal alignment between video tubes and text tokens. 2) SimVTP not only benefits from a high video masking ratio (e.g. 90%) due to the temporal redundancy of video, but also needs a high text masking ratio (e.g. 75%), which is much higher than BERT (e.g. 15%), to achieve optimal performance. This is because the aid of video modality makes text reconstruction less challenging, which thus needs a higher mask ratio to make the pretext harder for useful feature learning. 3) Equipping SimVTP with video-text contrastive learning (VTC) and video-text matching (VTM), which are two commonly used cross-modal training strategies, could further improve the transferable performance significantly. 4) SimVTP is dataefficent, e.g., pre-training only on 10% data of WebVid-2M, SimVTP achieves surprisingly good results (43.8 R@1) on MSRVTT, which is far above recent state-of-the-art methods pre-trained on both CC3M and WebVid-2M. We transfer our pre-trained model to various downstream tasks and achieve superior performance. The codes and models will be released at https://github.com/mayuelala/SimVTP.
公開日:2022-12-07
翻訳日:2022-12-08 16:14:38
# DiffusionInst: インスタンス分割のための拡散モデル

DiffusionInst: Diffusion Model for Instance Segmentation ( http://arxiv.org/abs/2212.02773v2 )

ライセンス: Link先を確認
Zhangxuan Gu and Haoxing Chen and Zhuoer Xu and Jun Lan and Changhua Meng and Weiqiang Wang(参考訳) 近年、拡散フレームワークは従来の最先端画像生成モデルと同等の性能を達成している。 研究者は、その強力なノイズから画像へのデノイジングパイプラインのために、識別タスクでその変種に興味を持っている。 本稿では,インスタンスをインスタンス認識フィルタとして表現し,ノイズからフィルタへの分節化プロセスとしてインスタンスセグメンテーションを定式化する新しいフレームワークであるdiffenceinstを提案する。 このモデルは、RPNからの誘導バイアスを伴わずにノイズの多い基底を逆転するように訓練されている。 推論中、ランダムに生成されたフィルタを入力として取り出し、1ステップまたは複数ステップでマスクを出力する。 COCOとLVISの大規模な実験結果から、DiffusionInstは既存のインスタンスセグメンテーションモデルと比較して競争性能が向上することが示された。 私たちの仕事はシンプルで効果的なベースラインとして機能し、差別的タスクに挑戦するためにより効率的な拡散フレームワークを設計するきっかけになることを期待しています。 私たちのコードはhttps://github.com/chenhaoxing/diffusioninstで利用可能です。

Recently, diffusion frameworks have achieved comparable performance with previous state-of-the-art image generation models. Researchers are curious about its variants in discriminative tasks because of its powerful noise-to-image denoising pipeline. This paper proposes DiffusionInst, a novel framework that represents instances as instance-aware filters and formulates instance segmentation as a noise-to-filter denoising process. The model is trained to reverse the noisy groundtruth without any inductive bias from RPN. During inference, it takes a randomly generated filter as input and outputs mask in one-step or multi-step denoising. Extensive experimental results on COCO and LVIS show that DiffusionInst achieves competitive performance compared to existing instance segmentation models. We hope our work could serve as a simple yet effective baseline, which could inspire designing more efficient diffusion frameworks for challenging discriminative tasks. Our code is available in https://github.com/chenhaoxing/DiffusionInst.
公開日:2022-12-07
翻訳日:2022-12-08 16:08:35
# M-VADER:マルチモーダル文脈での拡散モデル

M-VADER: A Model for Diffusion with Multimodal Context ( http://arxiv.org/abs/2212.02936v2 )

ライセンス: Link先を確認
Samuel Weinbach, Marco Bellagente, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Bj\"orn Deiseroth, Koen Oostermeijer, Hannah Teufel, Andres Felipe Cruz-Salinas(参考訳) 画像とテキストの任意の組み合わせを用いて出力を指定できる画像生成用拡散モデル(DM) M-VADERを紹介する。 M-VADERは、画像とテキストの組み合わせと複数の画像の組み合わせを用いて、指定された画像を生成することができることを示す。 従来,テキストプロンプトを用いて出力画像を指定することが可能なdm画像生成アルゴリズムが数多く導入されてきた。 これらのモデルの成功に着想を得て、人間が最も重要な視覚コンテキストの要素を記述するために既に言語が開発されたという考えに導かれ、視覚言語モデルと密接に関連した埋め込みモデルを導入する。 具体的には、自己回帰視覚言語モデルMAGMAの成分と意味探索のために微調整されたバイアスを組み合わせた13億のパラメータマルチモーダルデコーダである埋め込みモデルS-MAGMAを紹介する。

We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.
公開日:2022-12-07
翻訳日:2022-12-08 16:08:18
# GD-MAE: LiDARポイントクラウド上でのMAE事前学習のための生成デコーダ

GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds ( http://arxiv.org/abs/2212.03010v2 )

ライセンス: Link先を確認
Honghui Yang and Tong He and Jiaheng Liu and Hua Chen and Boxi Wu and Binbin Lin and Xiaofei He and Wanli Ouyang(参考訳) Masked Autoencoders (MAE) が画像やビデオなどの視覚タスクの開発において著しく進歩しているにもかかわらず、大規模な3Dポイント雲におけるMAEの探索は、不規則性のため、依然として困難である。 従来の3D MAEフレームワークとは対照的に、複雑なデコーダを設計して、維持領域からマスキング情報を推測するか、高度なマスキング戦略を採用するか、より単純なパラダイムを提案する。 中心となる考え方は、MAE (GD-MAE) に \textbf{G}enerative \textbf{D}ecoder を適用し、周囲のコンテキストを自動的にマージして、階層的な融合方式でマスクされた幾何学的知識を復元することである。 そこで本手法では,デコーダのヒューリスティックな設計を導入せず,様々なマスキング戦略を探索する柔軟性を享受できる。 対応する部分のレイテンシは,従来の方法に比べて低く,パフォーマンスも向上している。 提案手法の有効性を,Waymo,KITTI,ONCEなどの大規模ベンチマークで実証した。 下流検出タスクの一貫性の向上は、強い堅牢性と一般化能力を示している。 我々の手法は最先端の結果を明らかにするだけでなく、Waymoデータセット上のラベル付きデータのtextbf{20\%}でも同等の精度が得られる。 コードは \url{https://github.com/Nightmare-n/GD-MAE} でリリースされる。

Despite the tremendous progress of Masked Autoencoders (MAE) in developing vision tasks such as image and video, exploring MAE in large-scale 3D point clouds remains challenging due to the inherent irregularity. In contrast to previous 3D MAE frameworks, which either design a complex decoder to infer masked information from maintained regions or adopt sophisticated masking strategies, we instead propose a much simpler paradigm. The core idea is to apply a \textbf{G}enerative \textbf{D}ecoder for MAE (GD-MAE) to automatically merges the surrounding context to restore the masked geometric knowledge in a hierarchical fusion manner. In doing so, our approach is free from introducing the heuristic design of decoders and enjoys the flexibility of exploring various masking strategies. The corresponding part costs less than \textbf{12\%} latency compared with conventional methods, while achieving better performance. We demonstrate the efficacy of the proposed method on several large-scale benchmarks: Waymo, KITTI, and ONCE. Consistent improvement on downstream detection tasks illustrates strong robustness and generalization capability. Not only our method reveals state-of-the-art results, but remarkably, we achieve comparable accuracy even with \textbf{20\%} of the labeled data on the Waymo dataset. The code will be released at \url{https://github.com/Nightmare-n/GD-MAE}.
公開日:2022-12-07
翻訳日:2022-12-08 16:08:05
# AbHE: あらゆる注意に基づくホログラフィー推定

AbHE: All Attention-based Homography Estimation ( http://arxiv.org/abs/2212.03029v2 )

ライセンス: Link先を確認
Mingxiao Huo, Zhihao Zhang, Xianqiang Yang(参考訳) ホログラフィー推定は、画像アライメントのための多視点画像から変換を得るための基本的なコンピュータビジョンタスクである。 教師なし学習ホモグラフィ推定は、特徴抽出と変換行列回帰のための畳み込みニューラルネットワークを訓練する。 最先端のホモグラフィ法は畳み込みニューラルネットワークに基づいているが、高レベルの視覚タスクにおいて優位性を示すトランスフォーマーに焦点を当てた研究はほとんどない。 本稿では,局所的な特徴に対する畳み込みニューラルネットワークとグローバルな特徴のためのトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。 さらに、機能マップ内のマッチングされた特徴を粗く検索するために、クロス非ローカル層が導入される。 ホモグラフィ回帰段階では、相関ボリュームのチャネルに対して注意層を採用し、いくつかの弱い相関特徴点を排除できる。 実験により,自由度8自由度(dofs)ホモグラフィにおいて,本手法が最先端法を過大評価することを示した。

Homography estimation is a basic computer vision task, which aims to obtain the transformation from multi-view images for image alignment. Unsupervised learning homography estimation trains a convolution neural network for feature extraction and transformation matrix regression. While the state-of-theart homography method is based on convolution neural networks, few work focuses on transformer which shows superiority in highlevel vision tasks. In this paper, we propose a strong-baseline model based on the Swin Transformer, which combines convolution neural network for local features and transformer module for global features. Moreover, a cross non-local layer is introduced to search the matched features within the feature maps coarsely. In the homography regression stage, we adopt an attention layer for the channels of correlation volume, which can drop out some weak correlation feature points. The experiment shows that in 8 Degree-of-Freedoms(DOFs) homography estimation our method overperforms the state-of-the-art method.
公開日:2022-12-07
翻訳日:2022-12-08 16:07:37
# InternVideo: 生成的および差別的学習による一般ビデオ財団モデル

InternVideo: General Video Foundation Models via Generative and Discriminative Learning ( http://arxiv.org/abs/2212.03191v2 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hongjie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu, Yali Wang, Limin Wang, Yu Qiao(参考訳) 基礎モデルは最近、コンピュータビジョンにおける様々な下流タスクにおいて優れたパフォーマンスを示している。 しかし、既存の視覚基盤モデルの多くは、ダイナミックで複雑なビデオレベルの理解タスクに限られる画像レベルの事前学習と適応にのみ焦点をあてている。 このギャップを埋めるために,生成的および判別的自己教師付きビデオ学習を活用し,一般のビデオ基盤モデルであるinternvideoを提案する。 特に、InternVideoは、マスク付きビデオモデリングとビデオ言語コントラスト学習を事前学習対象として効率的に探索し、これらの2つの補完フレームワークのビデオ表現を学習可能な方法で選択的にコーディネートし、様々なビデオアプリケーションを強化する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを達成する。 特に,提案手法は,Kinetics-400とSomething V2ベンチマークでそれぞれ91.1%と77.2%のTop-1精度が得られる。 これらの結果は、ビデオ理解のためのInternVideoの汎用性を示すものだ。 コードはhttps://github.com/OpenGVLab/InternVideoで公開される。

The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
公開日:2022-12-07
翻訳日:2022-12-08 16:07:22
# 光フロー拡散によるニューラルセルビデオ合成

Neural Cell Video Synthesis via Optical-Flow Diffusion ( http://arxiv.org/abs/2212.03250v1 )

ライセンス: Link先を確認
Manuel Serna-Aguilera, Khoa Luu, Nathaniel Harris, Min Zou(参考訳) バイオメディカルイメージングの世界は、少量のデータを扱うことで悪名高く、コンピュータビジョンとディープラーニングの世界における最先端の取り組みに不満を呈している。 大規模なデータセットでは、自然画像分布から見るのがより簡単になります。 これは、培養中の神経細胞の顕微鏡映像と同じである。 この問題は、何日も文化の育成・維持が困難であり、材料や機器の入手が困難であることから、いくつかの課題を提起している。 本研究では,映像の合成によるデータ不足問題を解決する方法について検討する。 そこで本研究では,映像拡散モデルの最近の成果を活かし,トレーニングデータセットからセルの映像を合成する。 次に,モデルが持つ強みと一貫した欠点を分析し,可能な限り高品質な映像生成を指導する。 そこで本研究では,映像フレームの経時変化や各画素の経時変化の文脈がより深くなるように,デノライゼーション機能の改良と動き情報の追加(dense optical flow)を提案する。

The biomedical imaging world is notorious for working with small amounts of data, frustrating state-of-the-art efforts in the computer vision and deep learning worlds. With large datasets, it is easier to make progress we have seen from the natural image distribution. It is the same with microscopy videos of neuron cells moving in a culture. This problem presents several challenges as it can be difficult to grow and maintain the culture for days, and it is expensive to acquire the materials and equipment. In this work, we explore how to alleviate this data scarcity problem by synthesizing the videos. We, therefore, take the recent work of the video diffusion model to synthesize videos of cells from our training dataset. We then analyze the model's strengths and consistent shortcomings to guide us on improving video generation to be as high-quality as possible. To improve on such a task, we propose modifying the denoising function and adding motion information (dense optical flow) so that the model has more context regarding how video frames transition over time and how each pixel changes over time.
公開日:2022-12-06
翻訳日:2022-12-08 16:06:59
# NeRDi: 一般画像として言語誘導拡散を用いた単一視点NeRF合成

NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors ( http://arxiv.org/abs/2212.03267v1 )

ライセンス: Link先を確認
Congyue Deng, Chiyu "Max'' Jiang, Charles R. Qi, Xinchen Yan, Yin Zhou, Leonidas Guibas, Dragomir Anguelov(参考訳) 2dから3dへの再構築は不適切な問題であるが、人類は長年にわたって発展してきた3d世界の知識のためにこの問題をうまく解決できる。 この観測により,2次元拡散モデルからの一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。 画像条件付き3次元生成問題として単一ビュー再構成を定式化し,任意のビューレンダリングにおける拡散損失を最小化し,入力-ビュー制約下で予め訓練された画像拡散モデルを用いてnrf表現を最適化する。 市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。 これは、シングルビュー入力画像の意味的特徴と視覚的特徴に基づいて、一般的なイメージを絞り込むため、本質的にはマルチビューコンテンツコヒーレンスを改善するのに役立つ。 さらに,NeRFの基底となる3次元形状を正規化するために,推定深度マップに基づく幾何損失を導入する。 DTU MVSデータセットを用いた実験結果から,本手法は既存の手法と比較して,高品質な新規ビューを合成可能であることが示された。 In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。

2D-to-3D reconstruction is an ill-posed problem, yet humans are good at solving this problem due to their prior knowledge of the 3D world developed over years. Driven by this observation, we propose NeRDi, a single-view NeRF synthesis framework with general image priors from 2D diffusion models. Formulating single-view reconstruction as an image-conditioned 3D generation problem, we optimize the NeRF representations by minimizing a diffusion loss on its arbitrary view renderings with a pretrained image diffusion model under the input-view constraint. We leverage off-the-shelf vision-language models and introduce a two-section language guidance as conditioning inputs to the diffusion model. This is essentially helpful for improving multiview content coherence as it narrows down the general image prior conditioned on the semantic and visual features of the single-view input image. Additionally, we introduce a geometric loss based on estimated depth maps to regularize the underlying 3D geometry of the NeRF. Experimental results on the DTU MVS dataset show that our method can synthesize novel views with higher quality even compared to existing methods trained on this dataset. We also demonstrate our generalizability in zero-shot NeRF synthesis for in-the-wild images.
公開日:2022-12-06
翻訳日:2022-12-08 16:06:39
# ABN:多段変形可能な画像登録のための反ブラルニューラルネットワーク

ABN: Anti-Blur Neural Networks for Multi-Stage Deformable Image Registration ( http://arxiv.org/abs/2212.03277v1 )

ライセンス: Link先を確認
Yao Su, Xin Dai, Lifang He, Xiangnan Kong(参考訳) 変形可能な画像登録、すなわち非線形変換によって複数の画像を1つの座標系にアライメントするタスクは、神経画像データに不可欠な前処理ステップとなる。 変形可能な画像登録に関する最近の研究は、主に多段階アライメント法による登録精度の向上に重点を置いている。 従来の多段登録手法では、画素/ボクセル値が前段で生成された画像から繰り返し補間されるため、ソース画像をぼかすことがしばしばある。 しかし,画像登録時のシャープネスなどの画質維持は医療データ解析に不可欠である。 本稿では,マルチステージ画像登録のための新しい解である anti-blur network (abn) を提案する。 具体的には、短期登録ネットワークと長期記憶ネットワークのペアを用いて、各段階での非線形変形を学習し、短期登録ネットワークは、登録精度を漸進的に向上する方法を学習し、長期記憶ネットワークは、以前のすべての変形と組み合わせて、補間を生画像上で直接実行し、画像のシャープネスを維持する。 自然画像データセットと医用画像データセットの広範な実験により、ABNはシャープさを維持しながら正確に画像を登録できることを示した。 我々のコードとデータはhttps://github.com/anonymous3214/ABNで確認できる。

Deformable image registration, i.e., the task of aligning multiple images into one coordinate system by non-linear transformation, serves as an essential preprocessing step for neuroimaging data. Recent research on deformable image registration is mainly focused on improving the registration accuracy using multi-stage alignment methods, where the source image is repeatedly deformed in stages by a same neural network until it is well-aligned with the target image. Conventional methods for multi-stage registration can often blur the source image as the pixel/voxel values are repeatedly interpolated from the image generated by the previous stage. However, maintaining image quality such as sharpness during image registration is crucial to medical data analysis. In this paper, we study the problem of anti-blur deformable image registration and propose a novel solution, called Anti-Blur Network (ABN), for multi-stage image registration. Specifically, we use a pair of short-term registration and long-term memory networks to learn the nonlinear deformations at each stage, where the short-term registration network learns how to improve the registration accuracy incrementally and the long-term memory network combines all the previous deformations to allow an interpolation to perform on the raw image directly and preserve image sharpness. Extensive experiments on both natural and medical image datasets demonstrated that ABN can accurately register images while preserving their sharpness. Our code and data can be found at https://github.com/anonymous3214/ABN
公開日:2022-12-06
翻訳日:2022-12-08 16:06:19
# MobilePTX:限られた訓練例による気胸検出のためのスパース符号化

MobilePTX: Sparse Coding for Pneumothorax Detection Given Limited Training Examples ( http://arxiv.org/abs/2212.03282v1 )

ライセンス: Link先を確認
Darryl Hannan (1), Steven C. Nesbit (1), Ximing Wen (1), Glen Smith (1), Qiao Zhang (1), Alberto Goffi (2), Vincent Chan (2), Michael J. Morris (3), John C. Hunninghake (3), Nicholas E. Villalobos (3), Edward Kim (1), Rosina O. Weber (1) and Christopher J. MacLellan (4) ((1) Drexel University, (2) University of Toronto, (3) Brooke Army Medical Center, (4) Georgia Institute of Technology)(参考訳) pocus (point-of-care ultrasound) は、患者のベッドサイドにおける臨床医による超音波検査である。 これらの画像の解釈には高度な専門知識が必要であり、緊急時に利用できない可能性がある。 本稿では,患者に気胸の有無を診断し,医療従事者を支援する分類器を開発することによりPOCUSを支援する。 タスクを複数のステップに分解し、yolov4を使ってビデオの関連領域を抽出し、ビデオの特徴を表す3dスパースコーディングモデルを作成した。 正のトレーニングビデオを取得することの難しさから, 正の15例, 負の32例の小さな分類器を訓練した。 この制限に対処するため,我々はSMEの知識を利用して仮説空間を制限し,データ収集のコストを削減した。 2つの肺超音波データセットを用いて,本モデルが気胸同定における中小企業と同等の性能を発揮することを示す。 そして、ipad proで全システムを4秒未満で動作させ、iphone 13 proで8秒未満で動作させるiosアプリを開発しました。

Point-of-Care Ultrasound (POCUS) refers to clinician-performed and interpreted ultrasonography at the patient's bedside. Interpreting these images requires a high level of expertise, which may not be available during emergencies. In this paper, we support POCUS by developing classifiers that can aid medical professionals by diagnosing whether or not a patient has pneumothorax. We decomposed the task into multiple steps, using YOLOv4 to extract relevant regions of the video and a 3D sparse coding model to represent video features. Given the difficulty in acquiring positive training videos, we trained a small-data classifier with a maximum of 15 positive and 32 negative examples. To counteract this limitation, we leveraged subject matter expert (SME) knowledge to limit the hypothesis space, thus reducing the cost of data collection. We present results using two lung ultrasound datasets and demonstrate that our model is capable of achieving performance on par with SMEs in pneumothorax identification. We then developed an iOS application that runs our full system in less than 4 seconds on an iPad Pro, and less than 8 seconds on an iPhone 13 Pro, labeling key regions in the lung sonogram to provide interpretable diagnoses.
公開日:2022-12-06
翻訳日:2022-12-08 16:05:50
# ERNet:ニューロイメージングデータの教師なし収集と登録

ERNet: Unsupervised Collective Extraction and Registration in Neuroimaging Data ( http://arxiv.org/abs/2212.03306v1 )

ライセンス: Link先を確認
Yao Su, Zhentian Qian, Lifang He, Xiangnan Kong(参考訳) 脳の抽出と登録は、mriスキャン(すなわち抽出ステップ)から脳領域を抽出し、ターゲットの脳画像(すなわち登録ステップ)と整合させることを目標とする、神経画像データ解析における重要な前処理ステップである。 従来の研究は主に、管理された設定下で別々に抽出と登録を行う方法の開発に重点を置いている。 これらの手法の性能は、専門家による誤り訂正のためのトレーニングサンプルと視覚検査の量に大きく依存する。 しかし、多くの医学研究において、高次元神経画像(例えば3D MRI)におけるボクセルレベルのラベルの収集や手作業による品質管理は非常に高価で時間を要する。 さらに、脳の抽出と登録は、神経画像データに非常に関連するタスクであり、総合的に解決されるべきである。 本稿では,神経画像データにおける教師なし集団抽出と登録の問題について検討する。 本稿では,ERNet(Extraction-Registration Network)と呼ばれる統合されたエンドツーエンドフレームワークを提案し,抽出タスクと登録タスクを協調的に最適化し,それら間のフィードバックを可能にする。 具体的には,一対の多段抽出・登録モジュールを用いて抽出マスクと変換を学習し,抽出ネットワークが抽出精度を段階的に向上し,登録ネットワークが抽出画像が対象画像に適切に整列するまで連続的に整列する。 実世界のデータセットにおける実験結果から,提案手法は,神経画像データの抽出および登録作業の効率を効果的に向上できることが示された。 私たちのコードとデータはhttps://github.com/ERNetERNet/ERNetで確認できます。

Brain extraction and registration are important preprocessing steps in neuroimaging data analysis, where the goal is to extract the brain regions from MRI scans (i.e., extraction step) and align them with a target brain image (i.e., registration step). Conventional research mainly focuses on developing methods for the extraction and registration tasks separately under supervised settings. The performance of these methods highly depends on the amount of training samples and visual inspections performed by experts for error correction. However, in many medical studies, collecting voxel-level labels and conducting manual quality control in high-dimensional neuroimages (e.g., 3D MRI) are very expensive and time-consuming. Moreover, brain extraction and registration are highly related tasks in neuroimaging data and should be solved collectively. In this paper, we study the problem of unsupervised collective extraction and registration in neuroimaging data. We propose a unified end-to-end framework, called ERNet (Extraction-Registration Network), to jointly optimize the extraction and registration tasks, allowing feedback between them. Specifically, we use a pair of multi-stage extraction and registration modules to learn the extraction mask and transformation, where the extraction network improves the extraction accuracy incrementally and the registration network successively warps the extracted image until it is well-aligned with the target image. Experiment results on real-world datasets show that our proposed method can effectively improve the performance on extraction and registration tasks in neuroimaging data. Our code and data can be found at https://github.com/ERNetERNet/ERNet
公開日:2022-12-06
翻訳日:2022-12-08 16:05:30
# g-map: ドメインタスクのための一般メモリ型事前学習言語モデル

G-MAP: General Memory-Augmented Pre-trained Language Model for Domain Tasks ( http://arxiv.org/abs/2212.03613v1 )

ライセンス: Link先を確認
Zhongwei Wan, Yichun Yin, Wei Zhang, Jiaxin Shi, Lifeng Shang, Guangyong Chen, Xin Jiang, Qun Liu(参考訳) 近年、特定のドメイン(例えば、生物医学やコンピュータ科学)のタスク性能を高めるために、ドメイン固有のPLMが提案されている。 しかし、このDomain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) は、一般的なPLMが獲得したこれまでの一般的な知識を忘れがちであり、破滅的な忘れ物現象と準最適性能をもたらす。 そこで本研究では,一般の知識を失うことなく,フリーズした一般plmから構築したメモリ表現によってドメイン固有plmを拡張できる汎用メモリ拡張事前学習言語モデル(g-map)の新たなフレームワークを提案する。 具体的には、新しいメモリ表示層を提案し、それに基づいて異なる拡張戦略を検討し、メモリ表現を構築し、それをドメイン固有のplmに適応的に融合する。 我々は,G-MAPが様々な領域(生物・コンピュータ科学出版物,ニュース,レビュー)およびタスクの異なる種類(テキスト分類,QA,NER)において有効であることを示し,提案したG-MAPが全てのタスクにおいてSOTA結果を得ることができることを示す。

Recently, domain-specific PLMs have been proposed to boost the task performance of specific domains (e.g., biomedical and computer science) by continuing to pre-train general PLMs with domain-specific corpora. However, this Domain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) tends to forget the previous general knowledge acquired by general PLMs, which leads to a catastrophic forgetting phenomenon and sub-optimal performance. To alleviate this problem, we propose a new framework of General Memory Augmented Pre-trained Language Model (G-MAP), which augments the domain-specific PLM by a memory representation built from the frozen general PLM without losing any general knowledge. Specifically, we propose a new memory-augmented layer, and based on it, different augmented strategies are explored to build the memory representation and then adaptively fuse it into the domain-specific PLM. We demonstrate the effectiveness of G-MAP on various domains (biomedical and computer science publications, news, and reviews) and different kinds (text classification, QA, NER) of tasks, and the extensive results show that the proposed G-MAP can achieve SOTA results on all tasks.
公開日:2022-12-07
翻訳日:2022-12-08 15:59:36
# 類似ドメインコーパスへの逆適応を用いたフランス語用トランスフォーマベース名前付きエンティティ認識

Transformer-Based Named Entity Recognition for French Using Adversarial Adaptation to Similar Domain Corpora ( http://arxiv.org/abs/2212.03692v1 )

ライセンス: Link先を確認
Arjun Choudhry, Pankaj Gupta, Inder Khatri, Aaryan Gupta, Maxime Nicol, Marie-Jean Meurs, Dinesh Kumar Vishwakarma(参考訳) 名前付きエンティティ認識 (ner) は、未構造化テキスト内の名前付きエンティティを事前に定義されたクラスに識別および分類することを含む。 フランス語のような限られたリソースを持つ言語のNERは、大規模で堅牢なラベル付きデータセットがないため、依然としてオープンな問題である。 本稿では,類似領域や一般コーパスに対する逆適応を用いたフランス語の変換器に基づくNERアプローチを提案する。 3つのラベル付きデータセットに対するアプローチを評価し,その適応フレームワークがトランスフォーマモデル,ソースデータセット,ターゲットコーパスの組み合わせにおいて,対応する非適応モデルよりも優れていることを示す。

Named Entity Recognition (NER) involves the identification and classification of named entities in unstructured text into predefined classes. NER in languages with limited resources, like French, is still an open problem due to the lack of large, robust, labelled datasets. In this paper, we propose a transformer-based NER approach for French using adversarial adaptation to similar domain or general corpora for improved feature extraction and better generalization. We evaluate our approach on three labelled datasets and show that our adaptation framework outperforms the corresponding non-adaptive models for various combinations of transformer models, source datasets and target corpora.
公開日:2022-12-05
翻訳日:2022-12-08 15:59:10
# ヒューマンライクな自然言語生成のための知識の調和と推論 : 簡単なレビュー

Harnessing Knowledge and Reasoning for Human-Like Natural Language Generation: A Brief Review ( http://arxiv.org/abs/2212.03747v1 )

ライセンス: Link先を確認
Jiangjie Chen and Yanghua Xiao(参考訳) 自然言語生成技術(NLG)の急速な発展と応用は、自動テキスト生成の分野に革命をもたらした。 しかし、これらの技術は、真に合理的で有意義な人間的なテキストを作り出す能力にはまだ限界がある。 本稿では,言語生成を通して人間的な推論を伝達するために,NLGが知識によってガイドされることの重要性を検討する。 知的NLGシステムのための10の目標を提案し,知識と推論によって導かれるNLG技術の成果を概観した。 また,これらの目標を追求する上で,今後の方向性と課題を想定して結論づける。

The rapid development and application of natural language generation (NLG) techniques has revolutionized the field of automatic text production. However, these techniques are still limited in their ability to produce human-like text that is truly reasonable and informative. In this paper, we explore the importance of NLG being guided by knowledge, in order to convey human-like reasoning through language generation. We propose ten goals for intelligent NLG systems to pursue, and briefly review the achievement of NLG techniques guided by knowledge and reasoning. We also conclude by envisioning future directions and challenges in the pursuit of these goals.
公開日:2022-12-07
翻訳日:2022-12-08 15:59:01
# ファインチューニングと微分プライベートなファインチューニングBERTモデルからの名前付きエンティティ抽出に関する研究

A Study on Extracting Named Entities from Fine-tuned vs. Differentially Private Fine-tuned BERT Models ( http://arxiv.org/abs/2212.03749v1 )

ライセンス: Link先を確認
Andor Diera and Nicolas Lell and Aygul Garifullina and Ansgar Scherp(参考訳) ディープラーニングを保存するプライバシーは、ディープラーニングの新たな分野であり、ディープニューラルネットワークの使用によるプライバシーリスクを軽減することを目指している。 そのようなリスクの1つは、個人やプライバシーに敏感な情報を含むデータセットでトレーニングされた言語モデルからのデータ抽出をトレーニングすることである。 本研究では,細調整BERTモデルにおける名前付き実体記憶の程度について検討した。 実験では,単一ラベルのテキスト分類を代表的な下流タスクとして使用し,差分プライバシー(dp)を持つものを含む3種類の微調整設定を実験で採用した。 2つのプロンプト戦略を持つカスタムシーケンシャルサンプリング戦略を用いて、細調整されたBERTモデルから大量のテキストサンプルを作成する。 名前付きエンティティのサンプルを検索し、微調整データセットにも存在するかどうかを確認する。 我々は2つのベンチマークデータセットをメールとブログのドメインで実験する。 本稿では,DPの適用がBERTのテキスト生成能力に大きな影響を与えることを示す。 さらに、細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセット固有の名前付きエンティティを生成しないことを示す。 これはBERTが個人またはプライバシーに敏感な名前のエンティティを発行する可能性は低いことを示唆している。 総じて、BERTベースのサービスがデータ抽出攻撃の訓練を行う傾向にあるかを理解することが重要である。

Privacy preserving deep learning is an emerging field in machine learning that aims to mitigate the privacy risks in the use of deep neural networks. One such risk is training data extraction from language models that have been trained on datasets , which contain personal and privacy sensitive information. In our study, we investigate the extent of named entity memorization in fine-tuned BERT models. We use single-label text classification as representative downstream task and employ three different fine-tuning setups in our experiments, including one with Differentially Privacy (DP). We create a large number of text samples from the fine-tuned BERT models utilizing a custom sequential sampling strategy with two prompting strategies. We search in these samples for named entities and check if they are also present in the fine-tuning datasets. We experiment with two benchmark datasets in the domains of emails and blogs. We show that the application of DP has a huge effect on the text generation capabilities of BERT. Furthermore, we show that a fine-tuned BERT does not generate more named entities entities specific to the fine-tuning dataset than a BERT model that is pre-trained only. This suggests that BERT is unlikely to emit personal or privacy sensitive named entities. Overall, our results are important to understand to what extent BERT-based services are prone to training data extraction attacks.
公開日:2022-12-07
翻訳日:2022-12-08 15:58:50
# タスク命令からの学習のロバスト性

Robustness of Learning from Task Instructions ( http://arxiv.org/abs/2212.03813v1 )

ライセンス: Link先を確認
Jiasheng Gu, Hanzi Xu, Liangyu Nie and Wenpeng Yin(参考訳) 従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。 このパラダイムは、タスク固有の例セットを作成するのにコストがかかるため、タスクの一般化を著しく妨げます。 新たなタスクに迅速かつ容易に一般化できるシステムを構築するために,タスク命令が近年,監督の新たなトレンドとして採用されている。 これらの命令はモデルにタスクの定義を与え、モデルが命令と入力に基づいて適切な応答を出力することを可能にする。 しかし、タスク命令はしばしば異なる形式で表現され、2つのスレッドから解釈できる: まず、いくつかの命令は短い文であり、プロンプトのような事前学習された言語モデル(plm)指向であり、他の命令は段落であり、amazon mturkのような人間指向である。 タスク一般化のための堅牢なシステムは、命令の可変性に関係なく、新しいタスクを処理できる必要がある。 しかし、命令駆動タスクの一般化を扱うシステムの堅牢性はまだ未検討である。 本研究は,新しいタスクの指示がいつ強固であるかを考察する。 (i)悪質に操られた (ii)言い換える、または (iii)異なる簡潔さのレベルから。 私たちの知る限りでは、plmが可変性の異なる要素を持つ命令によって監視される場合の堅牢性について体系的に研究するのはこれが初めてです。

Traditional supervised learning mostly works on individual tasks and requires training on a large set of task-specific examples. This paradigm seriously hinders the development of task generalization since preparing a task-specific example set is costly. To build a system that can quickly and easily generalize to new tasks, task instructions have been adopted as an emerging trend of supervision recently. These instructions give the model the definition of the task and allow the model to output the appropriate answer based on the instructions and inputs. However, task instructions are often expressed in different forms, which can be interpreted from two threads: first, some instructions are short sentences and are pretrained language model (PLM) oriented, such as prompts, while other instructions are paragraphs and are human-oriented, such as those in Amazon MTurk; second, different end-users very likely explain the same task with instructions of different textual expressions. A robust system for task generalization should be able to handle any new tasks regardless of the variability of instructions. However, the system robustness in dealing with instruction-driven task generalization is still unexplored. This work investigates the system robustness when the instructions of new tasks are (i) maliciously manipulated, (ii) paraphrased, or (iii) from different levels of conciseness. To our knowledge, this is the first work that systematically studies how robust a PLM is when it is supervised by instructions with different factors of variability.
公開日:2022-12-07
翻訳日:2022-12-08 15:58:31
# 国家対立型マルチエージェント強化学習の解決策とは?

What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? ( http://arxiv.org/abs/2212.02705v2 )

ライセンス: Link先を確認
Songyang Han, Sanbao Su, Sihong He, Shuo Han, Haizhao Yang, Fei Miao(参考訳) エージェントのポリシーが真の状態に基づいていると仮定して,MARL(Multi-Agent Reinforcement Learning)手法が開発されている。 最近の研究は、報酬、移行確率、その他のパートナーの政策の不確実性の下で、MARLの堅牢性を改善している。 しかし、実世界のマルチエージェントシステムでは、状態推定はセンサ測定ノイズや逆境によっても乱される可能性がある。 真の状態情報のみを訓練したエージェントのポリシーは、実行中に逆境状態の摂動に直面した場合に最適なソリューションから逸脱する。 逆境状態摂動下でのMARLの研究は限られている。 そこで本研究では,MARL の基本特性を状態不確実性下で研究する最初の試みとして,SAMG (State-Adversarial Markov Game) を提案する。 最適エージェントポリシーとロバストなナッシュ均衡が常にSAMGに対して存在するとは限らないことを証明している。 その代わりに,提案するsamgの解法であるロバスト・エージェント・ポリシーを敵対的状態摂動の下で定義し,エージェントは最悪の場合の期待状態値を最大化しようとする。 次に,勾配降下法に基づくロバストなmarlアルゴリズムを設計し,marlエージェントのロバストポリシを学習する。 提案手法は,既存の文献のベースラインに対するエージェントの報酬を減少させ,一方,本アルゴリズムは状態摂動でベースラインを上回り,状態の不確実性下でのmarlポリシーの頑健性を大幅に改善することを示す。

Various types of Multi-Agent Reinforcement Learning (MARL) methods have been developed, assuming that agents' policies are based on true states. Recent works have improved the robustness of MARL under uncertainties from the reward, transition probability, or other partners' policies. However, in real-world multi-agent systems, state estimations may be perturbed by sensor measurement noise or even adversaries. Agents' policies trained with only true state information will deviate from optimal solutions when facing adversarial state perturbations during execution. MARL under adversarial state perturbations has limited study. Hence, in this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to study the fundamental properties of MARL under state uncertainties. We prove that the optimal agent policy and the robust Nash equilibrium do not always exist for an SAMG. Instead, we define the solution concept, robust agent policy, of the proposed SAMG under adversarial state perturbations, where agents want to maximize the worst-case expected state value. We then design a gradient descent ascent-based robust MARL algorithm to learn the robust policies for the MARL agents. Our experiments show that adversarial state perturbations decrease agents' rewards for several baselines from the existing literature, while our algorithm outperforms baselines with state perturbations and significantly improves the robustness of the MARL policies under state uncertainties.
公開日:2022-12-07
翻訳日:2022-12-08 15:58:09
# 検索に基づく手続きコンテンツ生成とモンテカルロ木探索を用いたリアルタイム戦略ゲームユニットの作成

Generating Real-Time Strategy Game Units Using Search-Based Procedural Content Generation and Monte Carlo Tree Search ( http://arxiv.org/abs/2212.03387v1 )

ライセンス: Link先を確認
Kynan Sorochan, Matthew Guzdial(参考訳) リアルタイム戦略(RTS)ゲームユニット生成は、プロシージャコンテンツ生成(PCG)研究の未調査領域であり、興味深くバランスの取れたユニットを自動的に生成する方法の問題を残している。 ユニークでバランスの取れたユニットを作ることは、RTSゲームを設計する上で、人間にとっても難しい作業だ。 ユニットを自動設計する方法を持つことは、開発者が作成プロセスをスピードアップし、新しいアイデアを見つけるのに役立つだろう。 本研究では、バランスよく有用なRTSユニットを生成する方法を提案する。 探索ベースPCGとモンテカルロ木探索(MCTS)に基づく適合度関数を描画する。 本システムによって生成された10個のユニットをゲームmicrortsで使用するように設計し,それらのユニットがユニークで有用でバランスが取れていることを示す。

Real-Time Strategy (RTS) game unit generation is an unexplored area of Procedural Content Generation (PCG) research, which leaves the question of how to automatically generate interesting and balanced units unanswered. Creating unique and balanced units can be a difficult task when designing an RTS game, even for humans. Having an automated method of designing units could help developers speed up the creation process as well as find new ideas. In this work we propose a method of generating balanced and useful RTS units. We draw on Search-Based PCG and a fitness function based on Monte Carlo Tree Search (MCTS). We present ten units generated by our system designed to be used in the game microRTS, as well as results demonstrating that these units are unique, useful, and balanced.
公開日:2022-12-07
翻訳日:2022-12-08 15:57:44
# 投票と施設立地の同時目的の最適化

Optimizing Multiple Simultaneous Objectives for Voting and Facility Location ( http://arxiv.org/abs/2212.03467v1 )

ライセンス: Link先を確認
Yeu Han, Christopher Jerrett, Elliot Anshelevich(参考訳) 我々は古典的な施設位置設定について研究し、任意の距離空間に$n$クライアントと$m$可能な施設位置を与え、施設を建設する場所を選択したい。 全く同じ設定は、投票者がクライアントであり、投票者からこの結果のコストを表す結果までの距離(例えば、そのイデオロギー的な違いに基づいて)で、候補または結果を選択することを目標とする空間的社会的選択にも生じる。 これまでのほとんどの作業とは異なり、最適化するための単一の目的(クライアントから施設までの総距離、最大距離など)に集中するのではなく、複数の異なる目的を同時に最適化しようと試みています。 より具体的には、合計距離、最大距離、その他多くの目的を含む$l$-centrumファミリーを考える。 そのような目的の任意のペア(例えば、最大と和)が、最適結果と比較して同時に近似できるかどうかについて、厳密な境界を示す。 特に、そのような目的の任意のペアに対して、1+\sqrt{2}$の係数で両方の目的を同時に近似する結果を選択することができ、最適化された2つの目的がよりよくなるにつれて、この因子がどのように改善するかを正確に評価することができる。 例えば、$q>2$異なる遠心目標に対して、これらの目的のすべての$q$を小さな定数で近似することは常に可能であり、この定数は 3 に $q\rightarrow \infty$ として近づく。 これらの結果から,数個の同時目標のみを最適化する場合,これらすべての目標に対する3つの近似よりもはるかに優れた結果が得られることがわかった。

We study the classic facility location setting, where we are given $n$ clients and $m$ possible facility locations in some arbitrary metric space, and want to choose a location to build a facility. The exact same setting also arises in spatial social choice, where voters are the clients and the goal is to choose a candidate or outcome, with the distance from a voter to an outcome representing the cost of this outcome for the voter (e.g., based on their ideological differences). Unlike most previous work, we do not focus on a single objective to optimize (e.g., the total distance from clients to the facility, or the maximum distance, etc.), but instead attempt to optimize several different objectives simultaneously. More specifically, we consider the $l$-centrum family of objectives, which includes the total distance, max distance, and many others. We present tight bounds on how well any pair of such objectives (e.g., max and sum) can be simultaneously approximated compared to their optimum outcomes. In particular, we show that for any such pair of objectives, it is always possible to choose an outcome which simultaneously approximates both objectives within a factor of $1+\sqrt{2}$, and give a precise characterization of how this factor improves as the two objectives being optimized become more similar. For $q>2$ different centrum objectives, we show that it is always possible to approximate all $q$ of these objectives within a small constant, and that this constant approaches 3 as $q\rightarrow \infty$. Our results show that when optimizing only a few simultaneous objectives, it is always possible to form an outcome which is a significantly better than 3 approximation for all of these objectives.
公開日:2022-12-07
翻訳日:2022-12-08 15:57:28
# 高次イジングマシンによる効率的な最適化

Efficient Optimization with Higher-Order Ising Machines ( http://arxiv.org/abs/2212.03426v1 )

ライセンス: Link先を確認
Connor Bybee, Denis Kleyko, Dmitri E. Nikonov, Amir Khosrowshahi, Bruno A. Olshausen, Friedrich T. Sommer(参考訳) 並列ハードウェア上で組合せ最適化問題を解決するための顕著なアプローチは、イジングマシン、すなわち相互作用する二元スピン変数のネットワークのハードウェア実装である。 ほとんどのIsingマシンは2階の相互作用を利用するが、満足度問題のような最適化問題の重要なクラスは高階の相互作用を持つIsingネットワークにシームレスにマッピングする。 本稿では,高次イジングマシンが,従来の2次イジングマシンと比較して,スピン変数の数と接続性の観点から,リソース効率のよい課題を解決できることを実証する。 さらに,結合発振器で実装した高次Isingマシンが2次Isingマシンよりも優れた解を迅速に見つけ出すという,Boolean \textit{k}-satisfiability問題のベンチマークデータセット上で,Isingマシンの現状を改良した。

A prominent approach to solving combinatorial optimization problems on parallel hardware is Ising machines, i.e., hardware implementations of networks of interacting binary spin variables. Most Ising machines leverage second-order interactions although important classes of optimization problems, such as satisfiability problems, map more seamlessly to Ising networks with higher-order interactions. Here, we demonstrate that higher-order Ising machines can solve satisfiability problems more resource-efficiently in terms of the number of spin variables and their connections when compared to traditional second-order Ising machines. Further, our results show on a benchmark dataset of Boolean \textit{k}-satisfiability problems that higher-order Ising machines implemented with coupled oscillators rapidly find solutions that are better than second-order Ising machines, thus, improving the current state-of-the-art for Ising machines.
公開日:2022-12-07
翻訳日:2022-12-08 15:56:58
# GARF:Geometry-Aware Generalized Neural Radiance Field

GARF:Geometry-Aware Generalized Neural Radiance Field ( http://arxiv.org/abs/2212.02280v2 )

ライセンス: Link先を確認
Yue Shi, Dingyi Rong, Bingbing Ni, Chang Chen, Wenjun Zhang(参考訳) Neural Radiance Field (NeRF)は、自由視点レンダリングタスクに革命をもたらし、印象的な結果を得た。 しかし、効率と精度の問題は幅広い応用を妨げている。 そこで,これらの問題に対処するために,gemetry-aware dynamic sampling (gads) 戦略を用いた幾何認識型一般化ニューラルネットワーク放射場 (garf) を提案する。 既存の一般的なnerfとは異なり、我々のフレームワークはほんの数枚の入力画像でピクセルスケールと幾何スケールの両方で目に見えないシーンを推測する。 より具体的には,エンコーダ・デコーダ構造とポイントレベルの学習可能なマルチビュー機能融合モジュールにより,新規ビュー合成の共通属性を学習する。 一般化モデルにおけるシーン特性の保存のために, 粗い形状を導出する教師なし深さ推定モジュールを導入し, 推定面の近接空間へのレイサンプリング間隔を狭くし, 期待最大位置においてサンプルを絞り, 幾何認識動的サンプリング戦略 (gads) を構成する。 さらに,より情報的な表現学習を支援するために,マルチレベルセマンティック一貫性損失(MSC)を導入する。 室内および屋外のデータセットに対する大規模な実験は、最先端の一般化されたNeRF法と比較すると、GARFは、レンダリング品質と3D幾何推定を改善しながら、サンプルを25%以上削減することを示している。

Neural Radiance Field (NeRF) has revolutionized free viewpoint rendering tasks and achieved impressive results. However, the efficiency and accuracy problems hinder its wide applications. To address these issues, we propose Geometry-Aware Generalized Neural Radiance Field (GARF) with a geometry-aware dynamic sampling (GADS) strategy to perform real-time novel view rendering and unsupervised depth estimation on unseen scenes without per-scene optimization. Distinct from most existing generalized NeRFs, our framework infers the unseen scenes on both pixel-scale and geometry-scale with only a few input images. More specifically, our method learns common attributes of novel-view synthesis by an encoder-decoder structure and a point-level learnable multi-view feature fusion module which helps avoid occlusion. To preserve scene characteristics in the generalized model, we introduce an unsupervised depth estimation module to derive the coarse geometry, narrow down the ray sampling interval to proximity space of the estimated surface and sample in expectation maximum position, constituting Geometry-Aware Dynamic Sampling strategy (GADS). Moreover, we introduce a Multi-level Semantic Consistency loss (MSC) to assist more informative representation learning. Extensive experiments on indoor and outdoor datasets show that comparing with state-of-the-art generalized NeRF methods, GARF reduces samples by more than 25\%, while improving rendering quality and 3D geometry estimation.
公開日:2022-12-07
翻訳日:2022-12-08 15:56:40
# Giga-SSL: ギガピクセル画像のための自己監督型学習

Giga-SSL: Self-Supervised Learning for Gigapixel Images ( http://arxiv.org/abs/2212.03273v1 )

ライセンス: Link先を確認
Tristan Lazard, Marvin Lerousseau, Etienne Decenci\`ere, Thomas Walter(参考訳) 全スライド画像(WSI)は、医療現場で診断と治療のために定期的に準備された染色組織スライドの顕微鏡画像である。 WSIは非常に大きく(ギガピクセルサイズ)、複雑で(数百万セルまで)複雑です。 現在の最先端(SoTA)アプローチでは、WSIはそれらをタイルに分類し、事前訓練されたネットワークでエンコードし、特定の下流タスクのトレーニングにMILを適用している。 しかし、注釈付きデータセットはしばしば小さく、通常数百から数千のwsiであり、過剰フィッティングやパフォーマンスの低いモデルを引き起こす可能性がある。 逆に、注釈のないwsiの数は増え続けており、データセットは数万(間もなく数百万)のイメージが利用できる。 自己教師付き学習(SSL)による適切なタイル表現の特定には,これらのアノテーションのないデータを使用することが提案されているが,MILアーキテクチャの一部がタイルレベルのSSL事前トレーニング中にトレーニングされていないため,下流分類タスクは依然として完全な監視を必要とする。 本稿では,強力なスライド表現を推論するアノテーションを使わずに,多数のWSIを活用するためのスライドレベルSSLの戦略を提案する。 この手法をがん研究で最も広く使われているデータリソースであるThe Cancer-Genome Atlas(16 TB画像データ)に適用することにより、予測力を失うことなくデータセットを23MBに縮小することができる。 最後に、小さなデータセット(例えば50のスライド)でこれらの表現で分類器を訓練することで、下流タスク全体の平均で6.3aucポイントのパフォーマンスが向上するのを観察した。

Whole slide images (WSI) are microscopy images of stained tissue slides routinely prepared for diagnosis and treatment selection in medical practice. WSI are very large (gigapixel size) and complex (made of up to millions of cells). The current state-of-the-art (SoTA) approach to classify WSI subdivides them into tiles, encodes them by pre-trained networks and applies Multiple Instance Learning (MIL) to train for specific downstream tasks. However, annotated datasets are often small, typically a few hundred to a few thousand WSI, which may cause overfitting and underperforming models. Conversely, the number of unannotated WSI is ever increasing, with datasets of tens of thousands (soon to be millions) of images available. While it has been previously proposed to use these unannotated data to identify suitable tile representations by self-supervised learning (SSL), downstream classification tasks still require full supervision because parts of the MIL architecture is not trained during tile level SSL pre-training. Here, we propose a strategy of slide level SSL to leverage the large number of WSI without annotations to infer powerful slide representations. Applying our method to The Cancer-Genome Atlas, one of the most widely used data resources in cancer research (16 TB image data), we are able to downsize the dataset to 23 MB without any loss in predictive power: we show that a linear classifier trained on top of these embeddings maintains or improves previous SoTA performances on various benchmark WSI classification tasks. Finally, we observe that training a classifier on these representations with tiny datasets (e.g. 50 slides) improved performances over SoTA by an average of +6.3 AUC points over all downstream tasks.
公開日:2022-12-06
翻訳日:2022-12-08 15:50:15
# 自己指導型学習における事前学習エンコーダの安全性向上とプライバシ保護型学習支援

Pre-trained Encoders in Self-Supervised Learning Improve Secure and Privacy-preserving Supervised Learning ( http://arxiv.org/abs/2212.03334v1 )

ライセンス: Link先を確認
Hongbin Liu, Wenjie Qu, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) 教師あり学習における分類器には、様々なセキュリティやプライバシーの問題がある。 1)セキュリティ側のデータ中毒攻撃、バックドア攻撃、悪意のある例 2) プライバシ側のトレーニングデータに対する推論攻撃と, 忘れられる権利。 これらの問題に対処するために、正式な保証付き安全でプライバシー保護の学習アルゴリズムが提案されている。 しかし、精度の低下、小さな認証されたセキュリティ保証、そして/または非効率といった様々な制限に悩まされている。 自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。 事前訓練されたエンコーダを特徴抽出器として与えると、教師付き学習は少量のラベル付きトレーニングデータを用いて、単純で正確な分類器を訓練することができる。 本研究では,事前学習したエンコーダが,セキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための,最初の系統的,原則的測定研究を行う。 我々の重要な発見は、事前訓練されたエンコーダが大幅に改善することである。 1)最先端のセキュア学習アルゴリズム(袋詰めおよびkn)のデータ中毒およびバックドア攻撃に対する認証セキュリティ保証と無攻撃の精度の両立 2)無攻撃下での正確性を犠牲にすることなく,敵例に対するランダム化平滑化の認定セキュリティ保証。 3)個人別分類器の精度、及び 4) 正確なマシンアンラーニングの精度及び/又は効率。

Classifiers in supervised learning have various security and privacy issues, e.g., 1) data poisoning attacks, backdoor attacks, and adversarial examples on the security side as well as 2) inference attacks and the right to be forgotten for the training data on the privacy side. Various secure and privacy-preserving supervised learning algorithms with formal guarantees have been proposed to address these issues. However, they suffer from various limitations such as accuracy loss, small certified security guarantees, and/or inefficiency. Self-supervised learning is an emerging technique to pre-train encoders using unlabeled data. Given a pre-trained encoder as a feature extractor, supervised learning can train a simple yet accurate classifier using a small amount of labeled training data. In this work, we perform the first systematic, principled measurement study to understand whether and when a pre-trained encoder can address the limitations of secure or privacy-preserving supervised learning algorithms. Our key findings are that a pre-trained encoder substantially improves 1) both accuracy under no attacks and certified security guarantees against data poisoning and backdoor attacks of state-of-the-art secure learning algorithms (i.e., bagging and KNN), 2) certified security guarantees of randomized smoothing against adversarial examples without sacrificing its accuracy under no attacks, 3) accuracy of differentially private classifiers, and 4) accuracy and/or efficiency of exact machine unlearning.
公開日:2022-12-06
翻訳日:2022-12-08 15:49:47
# 美術史の流れを捉え

Capturing the Flow of Art History ( http://arxiv.org/abs/2212.03421v1 )

ライセンス: Link先を確認
Chenxi Ji(参考訳) 機械がアートスタイルを分類する方法を本当に理解しているか? 歴史的には、芸術は人間の目によって認識され解釈され、人々が芸術をどう認識し理解するかに関して常に議論がある。 歴史家や一般大衆は、歴史や社会的要因の文脈を通して芸術の主題を解釈する傾向がある。 しかし、スタイルは主題とは異なっている。 スタイルが絵画の中の特定の物体の存在と一致せず、主にその形態に関係しており、異なるレベルの特徴と関連付けられるという事実を考える。 (Ahmed Elgammal et al. 2018)は、アートワークのスタイルと、それがどのように流れ、どのように進化するかという「遷移」の識別と分類を、人間と機械の両方にとって課題として残している。 本研究では、この興味深いトピックを明らかにするために、一連の最先端のニューラルネットワークと多様体学習アルゴリズムを探索する。

Do we really understand how machine classifies art styles? Historically, art is perceived and interpreted by human eyes and there are always controversial discussions over how people identify and understand art. Historians and general public tend to interpret the subject matter of art through the context of history and social factors. Style, however, is different from subject matter. Given the fact that Style does not correspond to the existence of certain objects in the painting and is mainly related to the form and can be correlated with features at different levels.(Ahmed Elgammal et al. 2018), which makes the identification and classification of the characteristics artwork's style and the "transition" - how it flows and evolves - remains as a challenge for both human and machine. In this work, a series of state-of-art neural networks and manifold learning algorithms are explored to unveil this intriguing topic: How does machine capture and interpret the flow of Art History?
公開日:2022-12-07
翻訳日:2022-12-08 15:49:26
# 拡散アートかデジタル偽造か? 拡散モデルにおけるデータレプリケーションの検討

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models ( http://arxiv.org/abs/2212.03860v1 )

ライセンス: Link先を確認
Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) カットエッジ拡散モデルは高品質でカスタマイズ可能な画像を生成し、商業芸術やグラフィックデザインの目的で使用することができる。 しかし、拡散モデルは独自の芸術作品を作るのか、それともトレーニングセットから直接コンテンツを盗むのか? 本研究では,生成した画像とトレーニングサンプルを比較し,コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。 また,人気のある安定拡散モデルを含む拡散モデルが,トレーニングデータからぼんやりとコピーされるケースを特定する。

Cutting-edge diffusion models produce images with high quality and customizability, enabling them to be used for commercial art and graphic design purposes. But do diffusion models create unique works of art, or are they stealing content directly from their training sets? In this work, we study image retrieval frameworks that enable us to compare generated images with training samples and detect when content has been replicated. Applying our frameworks to diffusion models trained on multiple datasets including Oxford flowers, Celeb-A, ImageNet, and LAION, we discuss how factors such as training set size impact rates of content replication. We also identify cases where diffusion models, including the popular Stable Diffusion model, blatantly copy from their training data.
公開日:2022-12-07
翻訳日:2022-12-08 15:49:10
# 汎用マルチ忠実性サロゲートモデル:効率的なレアイベントシミュレーションのためのフレームワークとアクティブラーニング戦略

General multi-fidelity surrogate models: Framework and active learning strategies for efficient rare event simulation ( http://arxiv.org/abs/2212.03375v1 )

ライセンス: Link先を確認
Promit Chakroborty, Somayajulu L. N. Dhulipala, Yifeng Che, Wen Jiang, Benjamin W. Spencer, Jason D. Hales, Michael D. Shields(参考訳) 高忠実性計算モデルを用いた複雑な実世界のシステムの故障確率の推定は、特に確率が小さい場合には、しばしば非常に高価である。 しかし、複数の低忠実度モデルと高忠実度モデルからの情報を統合することで、いくつかの課題が生じる。 本稿では,高信頼度解析のためのサブセット・シミュレーション・フレームワーク内でのオン・ザ・フライモデル・アダクティ・アセスメント・セットを用いて,多要素サロゲートをアクティブ・ラーニング・ストラテジーを用いて構築する頑健な多要素サロゲート・モデリング戦略を提案する。 そして、まず、各低忠実度モデルにガウス過程補正を適用し、モデルの局所予測精度とコストに基づいてモデル確率を割り当てる。 これらのサロゲートをモデル平均化と決定論的・確率的モデル選択に基づく全体サロゲートモデルに融合する3つの戦略が提案されている。 戦略はどのモデル評価が必要かを規定する。 低忠実度モデル間の関係は仮定されていないが、高忠実度モデルは最も正確で計算コストの高いモデルであると仮定されている。 トリソ核燃料の故障確率を評価するケーススタディを含む2つの解析的および2つの数値的ケーススタディを通して、このアルゴリズムは高忠実度モデル呼び出し数を劇的に削減し(計算コスト)、非常に正確であることが示されている。

Estimating the probability of failure for complex real-world systems using high-fidelity computational models is often prohibitively expensive, especially when the probability is small. Exploiting low-fidelity models can make this process more feasible, but merging information from multiple low-fidelity and high-fidelity models poses several challenges. This paper presents a robust multi-fidelity surrogate modeling strategy in which the multi-fidelity surrogate is assembled using an active learning strategy using an on-the-fly model adequacy assessment set within a subset simulation framework for efficient reliability analysis. The multi-fidelity surrogate is assembled by first applying a Gaussian process correction to each low-fidelity model and assigning a model probability based on the model's local predictive accuracy and cost. Three strategies are proposed to fuse these individual surrogates into an overall surrogate model based on model averaging and deterministic/stochastic model selection. The strategies also dictate which model evaluations are necessary. No assumptions are made about the relationships between low-fidelity models, while the high-fidelity model is assumed to be the most accurate and most computationally expensive model. Through two analytical and two numerical case studies, including a case study evaluating the failure probability of Tristructural isotropic-coated (TRISO) nuclear fuels, the algorithm is shown to be highly accurate while drastically reducing the number of high-fidelity model calls (and hence computational cost).
公開日:2022-12-07
翻訳日:2022-12-08 15:48:57
# オンチップトレーニングによるマルチ階層機械学習等化器のFPGA実装

FPGA Implementation of Multi-Layer Machine Learning Equalizer with On-Chip Training ( http://arxiv.org/abs/2212.03515v1 )

ライセンス: Link先を確認
Keren Liu, Erik B\"orjeson, Christian H\"ager, Per Larsson-Edefors(参考訳) FPGA上で複数の線形および非線形計算層を置換する適応機械学習等化器の設計と実装を行う。 勾配バックプロパゲーションによるオンチップトレーニングは、時間変化チャネル障害へのリアルタイム適応を可能にする。

We design and implement an adaptive machine learning equalizer that alternates multiple linear and nonlinear computational layers on an FPGA. On-chip training via gradient backpropagation is shown to allow for real-time adaptation to time-varying channel impairments.
公開日:2022-12-07
翻訳日:2022-12-08 15:48:32
# 反事実推論: 言語モデルは因果理解のために世界知識を必要とするか?

Counterfactual reasoning: Do language models need world knowledge for causal understanding? ( http://arxiv.org/abs/2212.03278v1 )

ライセンス: Link先を確認
Jiaxuan Li, Lang Yu and Allyson Ettinger(参考訳) 現在の事前学習型言語モデルは下流タスクにおいて顕著な改善を実現しているが、実世界の理解に基づくより体系的な論理的推論と統計的相関の影響を区別することは困難である。 本稿では,これらの要因を,言語モデルに仮説的命題に基づく異常な結果の予測を強制する対実的条件の活用によって区別する。 本稿では,心理言語学的実験から得られた一連のテストと,大規模に制御されたデータセットを導入し,多種多様な訓練済み言語モデルからの偽りの予測について検討する。 私たちは、モデルが反事実的なシナリオで現実世界の知識を一貫してオーバーライドすることができ、より強固なベースラインの世界知識の場合、この効果はより強固であることが分かりました。 反事実の言語ニュアンスに関する知識をテストするために世界知識と語彙手がかりの両方の効果を緩和すると、gpt-3のみがこれらのニュアンスに対する感受性を示すことが分かるが、この感受性は語彙連想因子によって非自明に影響を受ける。

Current pre-trained language models have enabled remarkable improvements in downstream tasks, but it remains difficult to distinguish effects of statistical correlation from more systematic logical reasoning grounded on understanding of the real world. In this paper we tease these factors apart by leveraging counterfactual conditionals, which force language models to predict unusual consequences based on hypothetical propositions. We introduce a set of tests drawn from psycholinguistic experiments, as well as larger-scale controlled datasets, to probe counterfactual predictions from a variety of popular pre-trained language models. We find that models are consistently able to override real-world knowledge in counterfactual scenarios, and that this effect is more robust in case of stronger baseline world knowledge -- however, we also find that for most models this effect appears largely to be driven by simple lexical cues. When we mitigate effects of both world knowledge and lexical cues to test knowledge of linguistic nuances of counterfactuals, we find that only GPT-3 shows sensitivity to these nuances, though this sensitivity is also non-trivially impacted by lexical associative factors.
公開日:2022-12-06
翻訳日:2022-12-08 15:48:27
# コントラスト微調整によるスクリプトイベント予測のための生成手法

A Generative Approach for Script Event Prediction via Contrastive Fine-tuning ( http://arxiv.org/abs/2212.03496v1 )

ライセンス: Link先を確認
Fangqi Zhu, Jun Gao, Changlong Yu, Wei Wang, Chen Xu, Xin Mu, Min Yang, Ruifeng Xu(参考訳) スクリプトイベント予測は、コンテキストによって次のイベントを予測することを目的としている。 これはイベント間の相関を推測する能力を必要とする。 近年の研究では、事前訓練された言語モデルを用いて、外部知識~(談話関係など)を組み込むことにより、事象相関推論の改善が試みられている。 有望な結果が得られたが、いくつかの課題はまだ残っている。 まず、現在の作業で採用されている事前学習された言語モデルは、イベントレベルの知識を無視し、イベント間の相関をうまく捉えることができない。 第二に、談話マーカーを持つイベント間の明示的な相関のみを捉えることができ、多くの暗黙の相関を捉えることができないため、談話関係とイベント間の相関のモデル化は制限される。 そこで本研究では,事前学習された言語モデルにイベント中心の事前学習目標を微調整し,生成パラダイム内で次の事象を予測する新しい生成手法を提案する。 具体的には,まず,事前学習した言語モデルにイベントレベルの知識を注入する学習目的として,新たなイベントレベルの空白インフィルング戦略を導入し,生成モデルの微調整のための確率に基づくコントラスト損失を設計する。 追加の予測層を使う代わりに、生成モデルによって生成されたシーケンスの確率を用いて予測を行う。 われわれのアプローチは、外部の知識を使わずに、ソフトな方法でイベント間の相関関係をモデル化する。 確率に基づく予測は、予測を行うために追加のネットワークを使用する必要をなくし、イベント内の各単語をスコア付けするため、幾分解釈可能である。 MCNC(Multi-choice narrative cloze)タスクの実験結果から,本手法は他の最先端のベースラインよりも優れた結果が得られることが示された。 私たちのコードは \url{https://github.com/zhufq00/mcnc} で利用可能です。

Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at \url{https://github.com/zhufq00/mcnc}.
公開日:2022-12-07
翻訳日:2022-12-08 15:48:06
# WIDER & CLOSER:Zero-shot inter-lingual Named Entity Recognitionのための短チャネル蒸留器の混合

WIDER & CLOSER: Mixture of Short-channel Distillers for Zero-shot Cross-lingual Named Entity Recognition ( http://arxiv.org/abs/2212.03506v1 )

ライセンス: Link先を確認
Jun-Yu Ma, Beiduo Chen, Jia-Chen Gu, Zhen-Hua Ling, Wu Guo, Quan Liu, Zhigang Chen and Cong Liu(参考訳) Zero-shot クロスランガルなエンティティ認識 (NER) は、アノテートおよびリッチリソースのデータから、ターゲット言語におけるラベルなしおよびリーンリソースデータへの知識の転送を目的としている。 教師・学生の蒸留フレームワークに基づく既存の主流の手法は、事前訓練された言語モデルの中間層に存在する豊かで相補的な情報を無視する。 本研究では,教師モデルにおける豊富な階層情報を完全にやりとりし,学生モデルに知識を十分かつ効率的に伝達するために,短チャネル蒸留器(MSD)の混合方式を提案する。 具体的には、複数の蒸留器を混合として集約することで十分な情報伝達を実現するため、多チャンネル蒸留フレームワークを設計する。 さらに,教師モデルと生徒モデル間のチャネルを短縮し,ドメイン不変性を維持するために並列ドメイン適応を用いた教師なし手法を提案する。 9言語にまたがる4つのデータセットの実験により, ゼロショット言語間NERにおいて, 提案手法が新たな最先端性能を実現し, 言語や分野間での高度な一般化と互換性が示された。

Zero-shot cross-lingual named entity recognition (NER) aims at transferring knowledge from annotated and rich-resource data in source languages to unlabeled and lean-resource data in target languages. Existing mainstream methods based on the teacher-student distillation framework ignore the rich and complementary information lying in the intermediate layers of pre-trained language models, and domain-invariant information is easily lost during transfer. In this study, a mixture of short-channel distillers (MSD) method is proposed to fully interact the rich hierarchical information in the teacher model and to transfer knowledge to the student model sufficiently and efficiently. Concretely, a multi-channel distillation framework is designed for sufficient information transfer by aggregating multiple distillers as a mixture. Besides, an unsupervised method adopting parallel domain adaptation is proposed to shorten the channels between the teacher and student models to preserve domain-invariant features. Experiments on four datasets across nine languages demonstrate that the proposed method achieves new state-of-the-art performance on zero-shot cross-lingual NER and shows great generalization and compatibility across languages and fields.
公開日:2022-12-07
翻訳日:2022-12-08 15:47:38
# タグ埋め込みとよく定義された中間表現は問題記述の自動生成を改善する

Tag Embedding and Well-defined Intermediate Representation improve Auto-Formulation of Problem Description ( http://arxiv.org/abs/2212.03575v1 )

ライセンス: Link先を確認
Sanghwan Jang(参考訳) 本稿では,最適化問題を正規表現に変換する課題である問題記述の自動定式化について述べる。 まず、中間表現を定義してオートフォーミュレーションタスクを単純化し、次に所定のエンティティタグ情報を利用するためにエンティティタグ埋め込みを導入します。 アブレーション実験はNeurIPS 2022 NL4Opt competition subtask 2で2位となった提案手法の有効性を示した。

In this report, I address auto-formulation of problem description, the task of converting an optimization problem into a canonical representation. I first simplify the auto-formulation task by defining an intermediate representation, then introduce entity tag embedding to utilize a given entity tag information. The ablation study demonstrate the effectiveness of the proposed method, which finally took second place in NeurIPS 2022 NL4Opt competition subtask 2.
公開日:2022-12-07
翻訳日:2022-12-08 15:47:19
# ランダム部分空間上の正規化EMM

Regularized ERM on random subspaces ( http://arxiv.org/abs/2212.01866v2 )

ライセンス: Link先を確認
Andrea Della Vecchia, Ernesto De Vito, Lorenzo Rosasco(参考訳) 仮説空間は与えられた空間のランダム部分空間である古典的経験的リスク最小化の自然な拡張を研究する。 特に、データのランダムなサブセットにまたがるデータ依存部分空間を考慮し、カーネルメソッドに対するnystromアプローチの特別なケースとして復元する。 ランダムな部分空間を考えると自然に計算上の節約につながるが、問題は対応する学習精度が劣化するかどうかである。 これらの統計計算トレードオフは、ロジスティック損失のような最小二乗損失と自己調和損失関数のために最近研究されている。 ここでは、これらの結果を、サポートベクトルマシンで使用されるヒンジ損失など、滑らかでないかもしれない凸リプシッツ損失関数に拡張する。 この統一分析には、高速なレートを達成するために、サブガウス入力のような異なる技術ツールを使用する新しい証明を開発する必要がある。 本研究の主目的は,学習の困難さによって異なる設定が存在することを示し,性能の低下を伴わずに計算効率を向上できることを示した。

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
公開日:2022-12-07
翻訳日:2022-12-08 15:41:44
# l\'{e}vyアルファ安定確率系のドリフト同定

Drift Identification for L\'{e}vy alpha-Stable Stochastic Systems ( http://arxiv.org/abs/2212.03317v1 )

ライセンス: Link先を確認
Harish S. Bhat(参考訳) 本稿では,L\'{e}vy $\alpha$-stable ノイズによって駆動される確率微分方程式(SDE)の時系列観測を行い,SDEのドリフト場を推定する。 区間$[1,2)$ で$\alpha$ の場合、ノイズは重く、遷移密度や物理空間での確率を計算する方法の計算が困難になる。 本稿では,時間依存特性関数,すなわち時間依存密度のフーリエ変換に着目したフーリエ空間アプローチを提案する。 フーリエ級数を用いて未知のドリフト場をパラメータ化することにより,予測関数と経験関数の2乗誤差からなる損失を定式化する。 この損失を随伴法で計算した勾配で最小化する。 種々の一次元および二次元問題に対して,本手法が基礎真理場と質的および/又は定量的に一致してドリフト場を学習できることを実証する。

This paper focuses on a stochastic system identification problem: given time series observations of a stochastic differential equation (SDE) driven by L\'{e}vy $\alpha$-stable noise, estimate the SDE's drift field. For $\alpha$ in the interval $[1,2)$, the noise is heavy-tailed, leading to computational difficulties for methods that compute transition densities and/or likelihoods in physical space. We propose a Fourier space approach that centers on computing time-dependent characteristic functions, i.e., Fourier transforms of time-dependent densities. Parameterizing the unknown drift field using Fourier series, we formulate a loss consisting of the squared error between predicted and empirical characteristic functions. We minimize this loss with gradients computed via the adjoint method. For a variety of one- and two-dimensional problems, we demonstrate that this method is capable of learning drift fields in qualitative and/or quantitative agreement with ground truth fields.
公開日:2022-12-06
翻訳日:2022-12-08 15:41:27
# monte carlo estimation of scoreとoracle access to target densityを用いたスコアベースサンプリング手法の提案

Proposal of a Score Based Approach to Sampling Using Monte Carlo Estimation of Score and Oracle Access to Target Density ( http://arxiv.org/abs/2212.03325v1 )

ライセンス: Link先を確認
Curtis McDonald and Andrew Barron(参考訳) サンプリングに対するスコアベースのアプローチは、初期サンプルのプールを与えられたターゲット密度から新しいサンプルを生成する生成アルゴリズムとして成功している。 この作業では、ターゲット密度から最初のサンプルがなければ、oracleにログの確率へのアクセスを命令する代わりに$0^{th}$と$1^{st}$である。 このような問題はベイズ後方サンプリングや非凸関数の近似最小化で生じる。 この知識のみを用いて,確率変数の特定の期待値として経験的にスコアを推定するモンテカルロ法を提案する。 この推定器を使用して、後方流sdeの離散バージョンを実行し、ターゲット密度からサンプルを生成することができる。 このアプローチは、ターゲット密度からの初期サンプルのプールに依存しない利点があり、スコアを推定するためにニューラルネットワークや他のブラックボックスモデルに依存しない。

Score based approaches to sampling have shown much success as a generative algorithm to produce new samples from a target density given a pool of initial samples. In this work, we consider if we have no initial samples from the target density, but rather $0^{th}$ and $1^{st}$ order oracle access to the log likelihood. Such problems may arise in Bayesian posterior sampling, or in approximate minimization of non-convex functions. Using this knowledge alone, we propose a Monte Carlo method to estimate the score empirically as a particular expectation of a random variable. Using this estimator, we can then run a discrete version of the backward flow SDE to produce samples from the target density. This approach has the benefit of not relying on a pool of initial samples from the target density, and it does not rely on a neural network or other black box model to estimate the score.
公開日:2022-12-06
翻訳日:2022-12-08 15:41:07
# 時系列の逐次予測等式推論

Sequential Predictive Conformal Inference for Time Series ( http://arxiv.org/abs/2212.03463v1 )

ライセンス: Link先を確認
Chen Xu, Yao Xie(参考訳) 逐次データ(例えば時系列)に対する分布自由な共形予測アルゴリズムを新たに提案し,そのアルゴリズムを \textit{sequential predictive conformal inference} (\texttt{SPCI}) と呼ぶ。 具体的には、時系列データが交換不能である性質を特に考慮し、時間的残差に基づく既存の共形予測アルゴリズムは適用できない。 主な考え方は、適合度スコアの時間的依存を利用することであり、したがって過去の適合度スコアは将来のものに関する情報を含む。 そして,予測アルゴリズムを用いて,共形予測区間の問題を将来の残差の量子化を予測した。 理論的には、質的回帰の一貫性解析を拡張することによって漸近的有効条件範囲を確立する。 シミュレーションと実データ実験を用いて, 所望の実験範囲における他の既存手法と比較して, 区間幅が有意に減少することを示す。

We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that the time series data are non-exchangeable, and thus many existing conformal prediction algorithms based on temporal residuals are not applicable. The main idea is to exploit the temporal dependence of conformity scores; thus, the past conformity scores contain information about future ones. Then we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
公開日:2022-12-07
翻訳日:2022-12-08 15:40:51
# 計量的解明;理論から実践へ

Metric Elicitation; Moving from Theory to Practice ( http://arxiv.org/abs/2212.03495v1 )

ライセンス: Link先を確認
Safinah Ali, Sohini Upadhyay, Gaurush Hiranandani, Elena L. Glassman, Oluwasanmi Koyejo(参考訳) Metric Elicitation(ME)は、タスクとコンテキストに基づいて暗黙のユーザー嗜好に合うように分類メトリクスを抽出するフレームワークである。 既存のME戦略は、ユーザが混乱行列のような分類器統計よりも、最も容易に好みのフィードバックを提供できるという仮定に基づいている。 この研究は、me戦略の初めての実装を提供することで、私を検証します。 具体的には、webベースのmeインタフェースを作成し、ユーザの好みのメトリクスをバイナリ分類設定で導き出すユーザ調査を行う。 本研究の成果と今後の研究指針について論じる。

Metric Elicitation (ME) is a framework for eliciting classification metrics that better align with implicit user preferences based on the task and context. The existing ME strategy so far is based on the assumption that users can most easily provide preference feedback over classifier statistics such as confusion matrices. This work examines ME, by providing a first ever implementation of the ME strategy. Specifically, we create a web-based ME interface and conduct a user study that elicits users' preferred metrics in a binary classification setting. We discuss the study findings and present guidelines for future research in this direction.
公開日:2022-12-07
翻訳日:2022-12-08 15:40:35
# metastackvis: メタモデルの視覚支援性能評価

MetaStackVis: Visually-Assisted Performance Evaluation of Metamodels ( http://arxiv.org/abs/2212.03539v1 )

ライセンス: Link先を確認
Ilya Ploshchik, Angelos Chatzimparmpas, Andreas Kerren(参考訳) スタック化(スタックド・ジェネレーション)とは、複数のベースモデルが元のデータセットで訓練されているにもかかわらず、少なくとも1つの余分な層に配置された1つ以上のメタモデルの入力データとしてさらに使用されるアンサンブル学習法である。 モデルのスタックを構成することで高性能な結果が得られるが、通常は試行錯誤のプロセスが伴う。 そこで,これまで開発したビジュアルアナリティクスシステムStackGenVisは,ユーザが予測性能を計測して,最高のパフォーマンスと多様なモデルを選択するのを支援するために設計された。 しかし、単一のロジスティック回帰メタモデルのみを使用する。 本稿では,新しい可視化ツールであるmetastackvisを用いて,代替メタモデルがスタックングアンサンブルの性能に与える影響について検討する。 我々のインタラクティブツールは、ユーザが予測可能な確率と複数のバリデーションメトリクスに応じて、異なる特異点とペアのメタモデルを視覚的に探索し、特定の問題のあるデータインスタンスを予測するのに役立つ。 MetaStackVisは、医療データセットと専門家インタビューによる利用シナリオで評価された。

Stacking (or stacked generalization) is an ensemble learning method with one main distinctiveness from the rest: even though several base models are trained on the original data set, their predictions are further used as input data for one or more metamodels arranged in at least one extra layer. Composing a stack of models can produce high-performance outcomes, but it usually involves a trial-and-error process. Therefore, our previously developed visual analytics system, StackGenVis, was mainly designed to assist users in choosing a set of top-performing and diverse models by measuring their predictive performance. However, it only employs a single logistic regression metamodel. In this paper, we investigate the impact of alternative metamodels on the performance of stacking ensembles using a novel visualization tool, called MetaStackVis. Our interactive tool helps users to visually explore different singular and pairs of metamodels according to their predictive probabilities and multiple validation metrics, as well as their ability to predict specific problematic data instances. MetaStackVis was evaluated with a usage scenario based on a medical data set and via expert interviews.
公開日:2022-12-07
翻訳日:2022-12-08 15:40:25
# ネットワーク干渉による因果推論のための周辺適応推定器

Neighborhood Adaptive Estimators for Causal Inference under Network Interference ( http://arxiv.org/abs/2212.03683v1 )

ライセンス: Link先を確認
Alexandre Belloni, Fei Fang and Alexander Volfovsky(参考訳) 因果効果の推定は、ほとんどの応用分野において不可欠な部分となっている。 これらの現代の因果問題を解くには、多くの古典的な因果仮説の違反に取り組む必要がある。 本研究は,古典的非干渉仮説の違反を考察し,ある個人に対する治療が他者の結果に影響を及ぼす可能性を示唆する。 干渉を扱いやすくするため、干渉がどのように進行するかを記述する既知のネットワークを考える。 しかし、この領域における以前の研究とは異なり、ユニットが経験した干渉の半径(および強度)は未知であり、このユニットに接続されている処理および未処理の異なるサブネットワークに依存することができる。 このような環境での処理に対する平均的直接的治療効果の予測について検討した。 提案した推定器はレプスキー様の手順に基づいて、関連するラジイおよび治療代入パターンを探索する。 従来の研究とは対照的に,提案手法はネットワーク干渉パターンを近似することを目的としている。 干渉関数の推定のためのオラクルの不等式と対応する適応率を確立する。 本研究では, 平均的な直接治療効果を示す2つの推定器の提案と解析を行う。 データ駆動型パターン作成(すなわち、機能工学)とネットワーク依存から生じるいくつかの課題に対処します。 収束率に加えて, 穏やかな正規性条件下では, 提案する推定器の1つが漸近的に正規であり, 偏りがないことを示す。

Estimating causal effects has become an integral part of most applied fields. Solving these modern causal questions requires tackling violations of many classical causal assumptions. In this work we consider the violation of the classical no-interference assumption, meaning that the treatment of one individuals might affect the outcomes of another. To make interference tractable, we consider a known network that describes how interference may travel. However, unlike previous work in this area, the radius (and intensity) of the interference experienced by a unit is unknown and can depend on different sub-networks of those treated and untreated that are connected to this unit. We study estimators for the average direct treatment effect on the treated in such a setting. The proposed estimator builds upon a Lepski-like procedure that searches over the possible relevant radii and treatment assignment patterns. In contrast to previous work, the proposed procedure aims to approximate the relevant network interference patterns. We establish oracle inequalities and corresponding adaptive rates for the estimation of the interference function. We leverage such estimates to propose and analyze two estimators for the average direct treatment effect on the treated. We address several challenges steaming from the data-driven creation of the patterns (i.e. feature engineering) and the network dependence. In addition to rates of convergence, under mild regularity conditions, we show that one of the proposed estimators is asymptotically normal and unbiased.
公開日:2022-12-07
翻訳日:2022-12-08 15:40:04
# モデル勾配によるトレーニングデータの再構成, 実現可能

Reconstructing Training Data from Model Gradient, Provably ( http://arxiv.org/abs/2212.03714v1 )

ライセンス: Link先を確認
Zihan Wang, Jason Lee, Qi Lei(参考訳) モデルの勾配がトレーニングサンプルに関する情報を漏洩する時期と程度を理解することは、プライバシに関する重要な質問である。 本稿では,データのトレーニングや記憶がなくても,ランダムに選択されたパラメータ値で,単一の勾配クエリからトレーニングサンプルを完全に再構築することができる,という驚くべき結果を示す。 我々は,浅層ニューラルネットワークや深層ニューラルネットワーク,幅広い活性化関数を用いて,温和な条件下でのトレーニングデータの識別可能性を証明する。 また,テンソル分解に基づく統計的かつ計算効率の良いアルゴリズムを提案し,トレーニングデータを再構成する。 センシティブなトレーニングデータを示す証明可能な攻撃として、我々の発見はプライバシー、特に連邦学習における深刻な脅威を示唆している。

Understanding when and how much a model gradient leaks information about the training sample is an important question in privacy. In this paper, we present a surprising result: even without training or memorizing the data, we can fully reconstruct the training samples from a single gradient query at a randomly chosen parameter value. We prove the identifiability of the training data under mild conditions: with shallow or deep neural networks and a wide range of activation functions. We also present a statistically and computationally efficient algorithm based on tensor decomposition to reconstruct the training data. As a provable attack that reveals sensitive training data, our findings suggest potential severe threats to privacy, especially in federated learning.
公開日:2022-12-07
翻訳日:2022-12-08 15:39:42
# Phase2vec:物理インフォームド畳み込みネットワークを組み込んだ動的システム

Phase2vec: Dynamical systems embedding with a physics-informed convolutional network ( http://arxiv.org/abs/2212.03857v1 )

ライセンス: Link先を確認
Matthew Ricci, Noa Moriel, Zoe Piran, Mor Nitzan(参考訳) 力学系は、物理科学や生物科学の至る所で無数の形で見られるが、これらの系は自然に普遍的同値類(保守的、散逸的、安定的、不安定、圧縮的、あるいは非圧縮的)に分類される。 これらのクラスをデータから予測することは、既存の時系列分類法が苦労する計算物理学において重要な課題である。 ここでは,2次元力学系の高品位で物理的に意味のある表現を,監督なしで学習する埋め込み法である \texttt{phase2vec} を提案する。 我々の埋め込みは、流れデータから幾何学的特徴を抽出する畳み込みバックボーンによって生成され、物理的に変形したベクトル場再構成損失を最小化する。 補助訓練期間において、埋め込みを最適化し、不知覚データの方程式を等式ごとのフィッティング法の性能以上でロバストに符号化する。 トレーニングされたアーキテクチャは、目に見えないデータの方程式を予測できるだけでなく、重要なことに、組み込み物理システムの基本的なセマンティクスを尊重する埋め込みを学習することができる。 標準ブラックボックス分類器や最先端の時系列分類手法と比較して,入力データの物理的カテゴリが埋め込みから復号できる程度を調査し,学習埋め込みの品質を検証する。 我々の埋め込みは、固定点の安定性、エネルギーの保存、流れの非圧縮性など、基礎となるデータの重要な物理的特性を、競合する手法よりも忠実にエンコードしている。 我々はついに気象データの解析に埋め込みを適用し、気候的に意味のある特徴を検出できることを示した。 以上より,物理系における動的特徴の発見に向けた組込みアプローチの実現可能性を示す。

Dynamical systems are found in innumerable forms across the physical and biological sciences, yet all these systems fall naturally into universal equivalence classes: conservative or dissipative, stable or unstable, compressible or incompressible. Predicting these classes from data remains an essential open challenge in computational physics at which existing time-series classification methods struggle. Here, we propose, \texttt{phase2vec}, an embedding method that learns high-quality, physically-meaningful representations of 2D dynamical systems without supervision. Our embeddings are produced by a convolutional backbone that extracts geometric features from flow data and minimizes a physically-informed vector field reconstruction loss. In an auxiliary training period, embeddings are optimized so that they robustly encode the equations of unseen data over and above the performance of a per-equation fitting method. The trained architecture can not only predict the equations of unseen data, but also, crucially, learns embeddings that respect the underlying semantics of the embedded physical systems. We validate the quality of learned embeddings investigating the extent to which physical categories of input data can be decoded from embeddings compared to standard blackbox classifiers and state-of-the-art time series classification techniques. We find that our embeddings encode important physical properties of the underlying data, including the stability of fixed points, conservation of energy, and the incompressibility of flows, with greater fidelity than competing methods. We finally apply our embeddings to the analysis of meteorological data, showing we can detect climatically meaningful features. Collectively, our results demonstrate the viability of embedding approaches for the discovery of dynamical features in physical systems.
公開日:2022-12-07
翻訳日:2022-12-08 15:39:28
# 複数の摂動攻撃:異なる$\ell_p$-normでpixelwiseを攻撃し、逆境のパフォーマンスを改善する

Multiple Perturbation Attack: Attack Pixelwise Under Different $\ell_p$-norms For Better Adversarial Performance ( http://arxiv.org/abs/2212.03069v2 )

ライセンス: Link先を確認
Ngoc N. Tran, Anh Tuan Bui, Dinh Phung, Trung Le(参考訳) 敵対的機械学習は、特に現在のランドスケープにおけるディープニューラルネットワークのユビキタス使用に関して、主要な関心事とホットトピックである。 敵の攻撃と防御は、通常、防御者や攻撃者が時間をかけて進化する猫とマウスのゲームに例えられる。 一方の目標は、悪意のあるアクターに耐性のある強力で堅牢なディープネットワークを開発することだ。 一方、これを実現するためには、より強力な敵攻撃を考案し、これらの防衛モデルに挑戦する必要がある。 既存の攻撃のほとんどは、近接性の概念を定義するために単一の$\ell_p$距離(一般に$p\in\{1,2,\infty\}$)を採用しており、この$p$-normで全てのピクセルを逆の例で更新する。 これらの$\ell_p$攻撃には、それぞれ独自の長所と短所があり、複数の$\ell_p$ノルムに対してロバストな防御モデルを同時に突破できる単一の攻撃は存在しない。 これらの観測により、我々は様々な$\ell_p$勾配の投影をピクセルレベルで組み合わせ、対向対向摂動を達成するという自然なアプローチを思いついた。 具体的には、攻撃性能を最大化するために各ピクセルを摂動させる方法を学習し、また、攻撃例の全体的な可視性を維持します。 最後に, 標準ベンチマークを用いた各種実験により, 本手法は最先端の防御機構にまたがる最も強固な攻撃よりも優れており, クリーンな視認性は保たれていることを示した。

Adversarial machine learning has been both a major concern and a hot topic recently, especially with the ubiquitous use of deep neural networks in the current landscape. Adversarial attacks and defenses are usually likened to a cat-and-mouse game in which defenders and attackers evolve over the time. On one hand, the goal is to develop strong and robust deep networks that are resistant to malicious actors. On the other hand, in order to achieve that, we need to devise even stronger adversarial attacks to challenge these defense models. Most of existing attacks employs a single $\ell_p$ distance (commonly, $p\in\{1,2,\infty\}$) to define the concept of closeness and performs steepest gradient ascent w.r.t. this $p$-norm to update all pixels in an adversarial example in the same way. These $\ell_p$ attacks each has its own pros and cons; and there is no single attack that can successfully break through defense models that are robust against multiple $\ell_p$ norms simultaneously. Motivated by these observations, we come up with a natural approach: combining various $\ell_p$ gradient projections on a pixel level to achieve a joint adversarial perturbation. Specifically, we learn how to perturb each pixel to maximize the attack performance, while maintaining the overall visual imperceptibility of adversarial examples. Finally, through various experiments with standardized benchmarks, we show that our method outperforms most current strong attacks across state-of-the-art defense mechanisms, while retaining its ability to remain clean visually.
公開日:2022-12-07
翻訳日:2022-12-08 15:38:57
# 教示事項:視覚トランスフォーマーにおける監督の役割の検討

Teaching Matters: Investigating the Role of Supervision in Vision Transformers ( http://arxiv.org/abs/2212.03862v1 )

ライセンス: Link先を確認
Matthew Walmer, Saksham Suri, Kamal Gupta, Abhinav Shrivastava(参考訳) ビジョントランスフォーマー(ViT)は近年大きな人気を集め、多くのアプリケーションに普及している。 しかし、異なる学習パラダイムの下での行動の多様性については、十分に検討されていない。 我々は、異なる監督方法によって訓練されたViTを比較し、彼らの注意、表現、下流のパフォーマンスの観点から様々な行動を学ぶことを示す。 また、オフセットローカルアテンションヘッドの出現など、監督の面で一貫性のあるViT動作も発見する。 これらは、現在のトークンに隣接するトークンに固定された方向オフセットで出席するセルフアテンションヘッドである。 分析の結果,vitは高度に柔軟であり,訓練方法によって異なる順序で局所的およびグローバル的な情報を処理できることがわかった。 対照的な自己監督手法は、明示的な教師付き機能と競合する特徴を学習し、パートレベルのタスクに勝るものさえある。 また、再構成に基づくモデルの表現は、対照的な自己教師付きモデルと非自明な類似性を示す。 最後に、与えられたタスクの「ベスト」層が、監督方法とタスクによってどのように異なるかを示し、さらに、ViTにおける情報処理の順番が異なることを示す。

Vision Transformers (ViTs) have gained significant popularity in recent years and have proliferated into many applications. However, it is not well explored how varied their behavior is under different learning paradigms. We compare ViTs trained through different methods of supervision, and show that they learn a diverse range of behaviors in terms of their attention, representations, and downstream performance. We also discover ViT behaviors that are consistent across supervision, including the emergence of Offset Local Attention Heads. These are self-attention heads that attend to a token adjacent to the current token with a fixed directional offset, a phenomenon that to the best of our knowledge has not been highlighted in any prior work. Our analysis shows that ViTs are highly flexible and learn to process local and global information in different orders depending on their training method. We find that contrastive self-supervised methods learn features that are competitive with explicitly supervised features, and they can even be superior for part-level tasks. We also find that the representations of reconstruction-based models show non-trivial similarity to contrastive self-supervised models. Finally, we show how the "best" layer for a given task varies by both supervision method and task, further demonstrating the differing order of information processing in ViTs.
公開日:2022-12-07
翻訳日:2022-12-08 15:32:55
# X-Paste: CLIPとStableDiffusionによる大規模コピーペーストの再検討

X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion ( http://arxiv.org/abs/2212.03863v1 )

ライセンス: Link先を確認
Hanqing Zhao and Dianmo Sheng and Jianmin Bao and Dongdong Chen and Dong Chen and Fang Wen and Lu Yuan and Ce Liu and Wenbo Zhou and Qi Chu and Weiming Zhang and Nenghai Yu(参考訳) Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 オブジェクトインスタンスを新しいバックグラウンドイメージにランダムにペーストすることで、新しいトレーニングデータを無償で生成し、特に稀なオブジェクトカテゴリにおいてセグメンテーションのパフォーマンスを大幅に向上する。 コピーペーストで使用される多様で高品質なオブジェクトインスタンスは、より多くのパフォーマンス向上をもたらすが、以前の作品は、人間の注釈付きインスタンスセグメンテーションデータセットからのオブジェクトインスタンスや、3dオブジェクトモデルからのレンダリングを利用する。 本稿では,新たに出現したゼロショット認識モデル(クリップなど)とtext2画像モデル(stablediffusionなど)を用いて,コピーペーストを大規模に再検討する。 我々は、text2imageモデルを用いて画像やゼロショット認識モデルを生成し、さまざまなオブジェクトカテゴリに対してノイズの多いクロール画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにするための実現可能な方法であることを示す。 このような成功のために,我々は「X-Paste」と呼ばれるデータ取得処理フレームワークを設計し,体系的な研究を行う。 LVISデータセットでは、X-Pasteが強力なベースラインであるCenterNet2よりも大幅に改善され、Swin-Lがバックボーンとなっている。 具体的には、すべてのクラスで +2.6 ボックス ap と +2.1 マスク ap をアーカイブし、ロングテールクラスの +6.8 ボックス ap +6.5 マスク ap でさらに大きな利益を得る。

Copy-Paste is a simple and effective data augmentation strategy for instance segmentation. By randomly pasting object instances onto new background images, it creates new training data for free and significantly boosts the segmentation performance, especially for rare object categories. Although diverse, high-quality object instances used in Copy-Paste result in more performance gain, previous works utilize object instances either from human-annotated instance segmentation datasets or rendered from 3D object models, and both approaches are too expensive to scale up to obtain good diversity. In this paper, we revisit Copy-Paste at scale with the power of newly emerged zero-shot recognition models (e.g., CLIP) and text2image models (e.g., StableDiffusion). We demonstrate for the first time that using a text2image model to generate images or zero-shot recognition model to filter noisily crawled images for different object categories is a feasible way to make Copy-Paste truly scalable. To make such success happen, we design a data acquisition and processing framework, dubbed "X-Paste", upon which a systematic study is conducted. On the LVIS dataset, X-Paste provides impressive improvements over the strong baseline CenterNet2 with Swin-L as the backbone. Specifically, it archives +2.6 box AP and +2.1 mask AP gains on all classes and even more significant gains with +6.8 box AP +6.5 mask AP on long-tail classes.
公開日:2022-12-07
翻訳日:2022-12-08 15:32:34
# 会話推薦システムにおける意図認識

Intent Recognition in Conversational Recommender Systems ( http://arxiv.org/abs/2212.03721v1 )

ライセンス: Link先を確認
Sahar Moradizeyveh(参考訳) どんな組織でも製品やサービス、プロセスを改善する必要があります。 この文脈では、顧客と関わり、彼らの旅を理解することが不可欠です。 組織は、コールセンタからチャットボットや仮想エージェントに至るまで、さまざまな技術と技術を活用して顧客エンゲージメントを支援しています。 近年,機械学習(ML)と自然言語処理(NLP)を用いて大量の顧客フィードバックやエンゲージメントデータを分析している。 目標は、顧客をコンテキストで理解し、さまざまなチャネルで意味のある回答を提供することです。 Conversational Artificial Intelligence (AI) と Recommender Systems (RS) の進歩にもかかわらず、顧客ジャーニーにおける顧客の質問の背後にある意図を理解することは依然として困難である。 本稿では,この課題に対処するため,チャットボットベースのcrsにおいて,会話型推薦システム(crs)における最近の研究を概観し,分析する。 会話中の入力発話をコンテキスト化するパイプラインを導入する。 次に、コンテキスト化された入力と学習モデルをリンクしてインテント認識をサポートするリバース機能エンジニアリングを活用するための次のステップを取ります。 異なるMLモデルに基づいて性能評価を行うため、情報探索者と回答提供者間の質問応答のラベル付き対話データセット(MSDialogue)を用いて、トランスフォーマーベースモデルを用いて提案手法の評価を行う。

Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
公開日:2022-12-06
翻訳日:2022-12-08 15:31:48
# スマート農業における時系列数値関連ルールマイニング変種

Time series numerical association rule mining variants in smart agriculture ( http://arxiv.org/abs/2212.03669v1 )

ライセンス: Link先を確認
Iztok Fister Jr. and Du\v{s}an Fister and Iztok Fister and Vili Podgorelec and Sancho Salcedo-Sanz(参考訳) 数値関連ルールマイニングは、アルゴリズムがカテゴリー的および数値的属性で直接操作できる、非常に効率的な関連ルールマイニング方法を提供する。 これらの方法は、データが順次入力される異なるトランザクションデータベースをマイニングするのに適しています。 しかし、時系列データから関連ルールを抽出する新たな手法を提供する時系列数値関連ルールマイニングには、ほとんど注目されていない。 本稿では,時系列数値関連ルールマイニングのための新しいアルゴリズム手法とそのスマート農業への応用について述べる。 本稿では,プラントパラメータを監視するハードウェア環境の概念と,実用実験による新しいデータマイニング手法を提案する。 実際の実験では、この手法の可能性を示し、さらなる拡張の扉を開いた。

Numerical association rule mining offers a very efficient way of mining association rules, where algorithms can operate directly with categorical and numerical attributes. These methods are suitable for mining different transaction databases, where data are entered sequentially. However, little attention has been paid to the time series numerical association rule mining, which offers a new technique for extracting association rules from time series data. This paper presents a new algorithmic method for time series numerical association rule mining and its application in smart agriculture. We offer a concept of a hardware environment for monitoring plant parameters and a novel data mining method with practical experiments. The practical experiments showed the method's potential and opened the door for further extension.
公開日:2022-12-07
翻訳日:2022-12-08 15:31:14
# 初回, 次回公開: 本質的動機づけにおける後探索のメリット

First Go, then Post-Explore: the Benefits of Post-Exploration in Intrinsic Motivation ( http://arxiv.org/abs/2212.03251v1 )

ライセンス: Link先を確認
Zhao Yang, Thomas M. Moerland, Mike Preuss, Aske Plaat(参考訳) Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。 Go-Exploreの重要な洞察は、調査に成功するには、エージェントが最初に興味深い状態("Go")に戻る必要があり、次に未知の地形("Explore")を探索する必要があることである。 目的が「爆発後」に到達した後にこのような探索を行う。 本稿では,Go-Exploreの論文では示されていない,汎用的な目標探索プロセス(IMGEP)フレームワークにおける探索後のアブレーションについて述べる。 個別のナビゲーションタスクと連続制御タスクの両方において、表と深のRL設定の両方で同じアルゴリズムでオン/オフすることで、探索後の孤立した可能性について検討する。 様々なMiniGridおよびMujoco環境の実験では、探索後、IMGEPエージェントがより多様な状態に到達し、パフォーマンスを高めることができる。 簡単に言うと、RLの研究者は、効果的で、メソッドに依存し、実装が容易であるため、IMGEPでの探索を可能とすべきである。

Go-Explore achieved breakthrough performance on challenging reinforcement learning (RL) tasks with sparse rewards. The key insight of Go-Explore was that successful exploration requires an agent to first return to an interesting state ('Go'), and only then explore into unknown terrain ('Explore'). We refer to such exploration after a goal is reached as 'post-exploration'. In this paper, we present a clear ablation study of post-exploration in a general intrinsically motivated goal exploration process (IMGEP) framework, that the Go-Explore paper did not show. We study the isolated potential of post-exploration, by turning it on and off within the same algorithm under both tabular and deep RL settings on both discrete navigation and continuous control tasks. Experiments on a range of MiniGrid and Mujoco environments show that post-exploration indeed helps IMGEP agents reach more diverse states and boosts their performance. In short, our work suggests that RL researchers should consider to use post-exploration in IMGEP when possible since it is effective, method-agnostic and easy to implement.
公開日:2022-12-06
翻訳日:2022-12-08 15:31:02
# 強化学習した確率的意思決定によるタンパク質の側鎖パッキング配置の解法

Solving the Side-Chain Packing Arrangement of Proteins from Reinforcement Learned Stochastic Decision Making ( http://arxiv.org/abs/2212.03320v1 )

ライセンス: Link先を確認
Chandrajit Bajaj and Conrad Li and Minh Nguyen(参考訳) タンパク質構造予測は計算分子生物学における根本的な問題である。 この課題を解決するために、ab-initioやthreadingといった古典的なアルゴリズムや多くの学習方法が提案されている。 しかし、ほとんどの強化学習法は状態-作用対を離散オブジェクトとしてモデル化する傾向がある。 本稿では,PMP(Pongryagin maximum principle)の確率的パラメトリケートハミルトン版をベースとして,連続的な環境下での強化学習(RL)フレームワークを開発し,側鎖パッキングとタンパク質の折り畳み問題を解決する。 特別の場合、我々の定式化は、最適折りたたみ軌跡をランゲヴィン力学の明示的な利用を用いて訓練する以前の作業に還元することができる。 最適連続確率ハミルトン力学の折り畳み経路は、分子エネルギーと力場の異なるモデルを用いて導出することができる。 我々のRL実装では、ソフトアクター批判手法を採用していますが、A2C、A3C、PPOに基づく他のRLトレーニングを置き換えることができます。

Protein structure prediction is a fundamental problem in computational molecular biology. Classical algorithms such as ab-initio or threading as well as many learning methods have been proposed to solve this challenging problem. However, most reinforcement learning methods tend to model the state-action pairs as discrete objects. In this paper, we develop a reinforcement learning (RL) framework in a continuous setting and based on a stochastic parametrized Hamiltonian version of the Pontryagin maximum principle (PMP) to solve the side-chain packing and protein-folding problem. For special cases our formulation can be reduced to previous work where the optimal folding trajectories are trained using an explicit use of Langevin dynamics. Optimal continuous stochastic Hamiltonian dynamics folding pathways can be derived with use of different models of molecular energetics and force fields. In our RL implementation we adopt a soft actor-critic methodology however we can replace this other RL training based on A2C, A3C or PPO.
公開日:2022-12-06
翻訳日:2022-12-08 15:30:42
# 対人RLのためのFew-Shot Preference Learning

Few-Shot Preference Learning for Human-in-the-Loop RL ( http://arxiv.org/abs/2212.03363v1 )

ライセンス: Link先を確認
Joey Hejna, Dorsa Sadigh(参考訳) 強化学習(RL)はロボット工学においてより一般的なアプローチとなっているが、複雑なタスクに対する十分な情報的報酬関数を設計することは、人間の意図と政策の搾取を捉えることができないために非常に困難であることが証明されている。 優先度に基づくRLアルゴリズムは、人間のフィードバックから直接報酬関数を学習することで、これらの課題を克服しようとしている。 残念なことに、事前の作業では、人間が答えるには不合理な数のクエリを必要とするか、最も情報性の高いクエリの活用を保証するために報酬関数のクラスを過度に制限する必要がある。 クエリ選択に焦点をあてたほとんどの研究とは対照的に、報奨関数の学習に必要なデータ量は、逆のアプローチをとる: \emph{expanding} マルチタスク学習のより柔軟なレンズを通して、ループ内のRLを見ることによって、利用可能なデータのプールを見ることができる。 メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。 実証的に,メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$\times$に削減し,実際のフランカパンダロボット上での手法の有効性を実証する。 さらに,クエリ複雑さの低減により,実際のユーザからロボットポリシーをトレーニングすることができる。 結果とコードのビデオはhttps://sites.google.com/view/few-shot-preference-rl/homeで見ることができる。

While reinforcement learning (RL) has become a more popular approach for robotics, designing sufficiently informative reward functions for complex tasks has proven to be extremely difficult due their inability to capture human intent and policy exploitation. Preference based RL algorithms seek to overcome these challenges by directly learning reward functions from human feedback. Unfortunately, prior work either requires an unreasonable number of queries implausible for any human to answer or overly restricts the class of reward functions to guarantee the elicitation of the most informative queries, resulting in models that are insufficiently expressive for realistic robotics tasks. Contrary to most works that focus on query selection to \emph{minimize} the amount of data required for learning reward functions, we take an opposite approach: \emph{expanding} the pool of available data by viewing human-in-the-loop RL through the more flexible lens of multi-task learning. Motivated by the success of meta-learning, we pre-train preference models on prior task data and quickly adapt them for new tasks using only a handful of queries. Empirically, we reduce the amount of online feedback needed to train manipulation policies in Meta-World by 20$\times$, and demonstrate the effectiveness of our method on a real Franka Panda Robot. Moreover, this reduction in query-complexity allows us to train robot policies from actual human users. Videos of our results and code can be found at https://sites.google.com/view/few-shot-preference-rl/home.
公開日:2022-12-06
翻訳日:2022-12-08 15:30:24
# 深い局所化レベル分析の改善: ゲームログがいかに役立つか

Improving Deep Localized Level Analysis: How Game Logs Can Help ( http://arxiv.org/abs/2212.03376v1 )

ライセンス: Link先を確認
Natalie Bombardieri, Matthew Guzdial(参考訳) プレイヤーモデリングは、プレイヤーの理解に関連する研究分野である。 この分野での追求の1つは、ゲームがどのようにプレイヤーに感じるかを予測する能力に影響を及ぼすことである。 本稿では,ゲームイベントログ上で学習したプレイヤー体験を局所化された階層構造情報と組み合わせて予測する深層畳み込みニューラルネットワーク(cnn)を用いて,予測に影響を与える新たな改善を提案する。 スーパーマリオブラザース(infinite mario bros.)とスーパーマリオブラザーズ:ザ・ロスト・レベル(gwario: the lost levels)とオリジナルのスーパーマリオブラザース(super mario bros.)に基づいて、我々のアプローチをテストします。 クロスドメインプレーヤモデリングの試験時間に欠如している場合でも,事前作業よりも優れており,プレイヤログのトレーニングの有用性が実証されている。

Player modelling is the field of study associated with understanding players. One pursuit in this field is affect prediction: the ability to predict how a game will make a player feel. We present novel improvements to affect prediction by using a deep convolutional neural network (CNN) to predict player experience trained on game event logs in tandem with localized level structure information. We test our approach on levels based on Super Mario Bros. (Infinite Mario Bros.) and Super Mario Bros.: The Lost Levels (Gwario), as well as original Super Mario Bros. levels. We outperform prior work, and demonstrate the utility of training on player logs, even when lacking them at test time for cross-domain player modelling.
公開日:2022-12-07
翻訳日:2022-12-08 15:29:56
# 機械学習モデルの局所的解釈可能性のための真理的メタ説明

Truthful Meta-Explanations for Local Interpretability of Machine Learning Models ( http://arxiv.org/abs/2212.03513v1 )

ライセンス: Link先を確認
Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) 機械学習ベースのシステムの幅広いタスクへの統合の自動化は、そのパフォーマンスとスピードの結果として拡大した。 MLベースのシステムを採用するには多くの利点があるが、解釈不可能な場合、人間の命が危険にさらされているクリティカルでハイリスクなアプリケーションで使用するべきではない。 この問題に対処するため、研究者や企業は複雑なMLシステムの解釈可能性を改善する方法を模索しており、いくつかの方法が開発されている。 実際、多くの技術が開発されているため、評価基準を使用しても、実践者がアプリケーションに最適なものを選択することは困難です。 その結果,高品質な評価基準に基づくメタ説明手法である選択ツールの需要が明らかになった。 本稿では,忠実度に基づく尺度である真理度基準の上に構築された局所的メタ説明手法を提案する。 本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。

Automated Machine Learning-based systems' integration into a wide range of tasks has expanded as a result of their performance and speed. Although there are numerous advantages to employing ML-based systems, if they are not interpretable, they should not be used in critical, high-risk applications where human lives are at risk. To address this issue, researchers and businesses have been focusing on finding ways to improve the interpretability of complex ML systems, and several such methods have been developed. Indeed, there are so many developed techniques that it is difficult for practitioners to choose the best among them for their applications, even when using evaluation metrics. As a result, the demand for a selection tool, a meta-explanation technique based on a high-quality evaluation metric, is apparent. In this paper, we present a local meta-explanation technique which builds on top of the truthfulness metric, which is a faithfulness-based metric. We demonstrate the effectiveness of both the technique and the metric by concretely defining all the concepts and through experimentation.
公開日:2022-12-07
翻訳日:2022-12-08 15:29:40
# 政策整形によるUAV制御のための強化学習

Reinforcement Learning for UAV control with Policy and Reward Shaping ( http://arxiv.org/abs/2212.03828v1 )

ライセンス: Link先を確認
Cristian Mill\'an-Arias, Ruben Contreras, Francisco Cruz and Bruno Fernandes(参考訳) 近年、無人航空機(UAV)関連の技術がこの地域の知識を拡大し、ソリューションを必要とする新たな問題や課題が表面化している。 さらに、この技術は、通常、人が行うプロセスの自動化を可能にするため、産業分野では非常に需要がある。 これらの車両の自動化は、さまざまな機械学習戦略を適用して、文献で論じられている。 強化学習(rl)は、自律エージェントのトレーニングに頻繁に使用される自動化フレームワークである。 RLは、エージェントが与えられたタスクを解決するために環境と対話する機械学習パラダイムである。 しかし、自律的な学習は時間がかかり、計算コストがかかり、複雑なシナリオでは実用的ではない。 インタラクティブ強化学習は、外部トレーナーがタスクを学習している間にエージェントにアドバイスを提供することができる。 本研究では,報酬形成技術と政策形成技術を用いて,ドローンを同時に制御するRLエージェントを指導することを試みた。 訓練には2つのシミュレートシナリオが提案され、1つは障害物なし、1つは障害物付きであった。 また,各手法の影響についても検討した。 その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。 それでも、エージェントは、訓練中の実行時間が短く、分散も少ない。

In recent years, unmanned aerial vehicle (UAV) related technology has expanded knowledge in the area, bringing to light new problems and challenges that require solutions. Furthermore, because the technology allows processes usually carried out by people to be automated, it is in great demand in industrial sectors. The automation of these vehicles has been addressed in the literature, applying different machine learning strategies. Reinforcement learning (RL) is an automation framework that is frequently used to train autonomous agents. RL is a machine learning paradigm wherein an agent interacts with an environment to solve a given task. However, learning autonomously can be time consuming, computationally expensive, and may not be practical in highly-complex scenarios. Interactive reinforcement learning allows an external trainer to provide advice to an agent while it is learning a task. In this study, we set out to teach an RL agent to control a drone using reward-shaping and policy-shaping techniques simultaneously. Two simulated scenarios were proposed for the training; one without obstacles and one with obstacles. We also studied the influence of each technique. The results show that an agent trained simultaneously with both techniques obtains a lower reward than an agent trained using only a policy-based approach. Nevertheless, the agent achieves lower execution times and less dispersion during training.
公開日:2022-12-06
翻訳日:2022-12-08 15:29:25
# 信頼と対話する - ビジネスプロセスのコンフォーメーショナル規範的監視

Intervening With Confidence: Conformal Prescriptive Monitoring of Business Processes ( http://arxiv.org/abs/2212.03710v1 )

ライセンス: Link先を確認
Mahmoud Shoush and Marlon Dumas(参考訳) 規定的プロセス監視方法は、実行時に介入(例えば、顧客に割引を提供する)を選択的にトリガーして、望ましいケース結果(例えば、購入する顧客)の確率を高めることにより、プロセスのパフォーマンスを向上させる。 規範的プロセス監視手法のバックボーンは介入ポリシーであり、どのケースといつ介入が実行されるかを決定する。 この分野での既存の手法は、介入ポリシーを定義するための予測モデルに依存しており、特に、負の結果の予測確率が閾値を超えると介入を引き起こす政策を考える。 しかし、予測モデルによって計算される確率は、高いレベルの不確実性(信頼性の低い)を持ち、不必要な介入につながり、したがって無駄な労力がかかる。 この無駄は、介入の実行に利用可能なリソースが限られている場合に特に問題となる。 そこで本研究では,既存の規範的プロセス監視手法を,いわゆる共形予測,すなわち信頼性保証付き予測で拡張する手法を提案する。 実生活の公開データセットを用いた実証評価では、コンフォメーション予測は限られたリソース下での規範的プロセス監視手法の純利を高めることが示されている。

Prescriptive process monitoring methods seek to improve the performance of a process by selectively triggering interventions at runtime (e.g., offering a discount to a customer) to increase the probability of a desired case outcome (e.g., a customer making a purchase). The backbone of a prescriptive process monitoring method is an intervention policy, which determines for which cases and when an intervention should be executed. Existing methods in this field rely on predictive models to define intervention policies; specifically, they consider policies that trigger an intervention when the estimated probability of a negative outcome exceeds a threshold. However, the probabilities computed by a predictive model may come with a high level of uncertainty (low confidence), leading to unnecessary interventions and, thus, wasted effort. This waste is particularly problematic when the resources available to execute interventions are limited. To tackle this shortcoming, this paper proposes an approach to extend existing prescriptive process monitoring methods with so-called conformal predictions, i.e., predictions with confidence guarantees. An empirical evaluation using real-life public datasets shows that conformal predictions enhance the net gain of prescriptive process monitoring methods under limited resources.
公開日:2022-12-07
翻訳日:2022-12-08 15:24:11
# Tiered Reward関数による行動選好の特定

Specifying Behavior Preference with Tiered Reward Functions ( http://arxiv.org/abs/2212.03733v1 )

ライセンス: Link先を確認
Zhiyuan Zhou, Henry Sowerby, Michael L. Littman(参考訳) 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。 人間として、学習プロセスへの私たちの貢献は、報酬関数を設計することにあります。 プログラマのように、私たちは振る舞いを念頭に置いて、それを正式な仕様、すなわち報酬に変換する必要があります。 本研究では,望ましい状態に到達し,望ましくない状態を避けるように定式化したタスクにおける報酬設計問題を考える。 まず,政策空間の厳格な部分順序付けを提案する。 我々は、悪い状態をより長く避けながら、より早く、より高い確率で良い状態に到達する政策を好む。 次に,環境に依存しない階層型報酬構造を提案し,好意関係に応じてパレート最適の政策を導出することが保証されていることを示す。 最後に,階層化報酬関数を複数の環境において実験的に評価し,望ましい行動を誘発し,高速な学習につながることを示す。

Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our contribution to the learning process is through designing the reward function. Like programmers, we have a behavior in mind and have to translate it into a formal specification, namely rewards. In this work, we consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we propose an environment-independent tiered reward structure and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we empirically evaluate tiered reward functions on several environments and show they induce desired behavior and lead to fast learning.
公開日:2022-12-07
翻訳日:2022-12-08 15:23:51
# 予測方法の分類基準

Criteria for Classifying Forecasting Methods ( http://arxiv.org/abs/2212.03523v1 )

ライセンス: Link先を確認
Tim Januschowski, Jan Gasthaus, Yuyang Wang, David Salinas, Valentin Flunkert, Michael Bohlke-Schneider, Laurent Callot(参考訳) 予測手法を「機械学習」か「統計」のどちらかに分類することは、M4コンペティションや主催者による結論によって実証されるように、予測文学やコミュニティの一部において一般的となっている。 この区別は、どちらのクラスにも割り当てられたメソッドの根本的な違いに起因するものではない。 代わりに、この区別はおそらく部族的な性質であり、異なる予測方法の適切性と有効性についての洞察を制限する。 我々は,予測手法の代替的特徴を提示することで,有意義な結論を導き出すことができる。 さらに,MLと統計コミュニティの相互補間から最も恩恵を受ける可能性のある予測分野についても論じる。

Classifying forecasting methods as being either of a "machine learning" or "statistical" nature has become commonplace in parts of the forecasting literature and community, as exemplified by the M4 competition and the conclusion drawn by the organizers. We argue that this distinction does not stem from fundamental differences in the methods assigned to either class. Instead, this distinction is probably of a tribal nature, which limits the insights into the appropriateness and effectiveness of different forecasting methods. We provide alternative characteristics of forecasting methods which, in our view, allow to draw meaningful conclusions. Further, we discuss areas of forecasting which could benefit most from cross-pollination between the ML and the statistics communities.
公開日:2022-12-07
翻訳日:2022-12-08 15:23:39
# グループ化バイアスデータの分類改善のための構造活用

Leveraging Structure for Improved Classification of Grouped Biased Data ( http://arxiv.org/abs/2212.03697v1 )

ライセンス: Link先を確認
Daniel Zeiberg, Shantanu Jain, Predrag Radivojac(参考訳) 我々は、データポイントが自然にグループ化されたアプリケーション(例えば、州によってグループ化された調査応答)に対する半教師付きバイナリ分類とラベル付きデータのバイアス(例えば、調査回答者は人口を代表していない)について検討する。 グループは特徴空間に重複し、その結果、入力出力パターンはグループ全体で関連付けられる。 このようなデータの固有の構造をモデル化するために、グループに依存しない特徴空間で定義されるグループ間の分割射影クラス条件不変性を仮定する。 この仮定の下では、群に依存しない特徴に対してクラスに関する追加情報を持ち、ROC曲線の下では確実に改善された面積を持つことを示す。 さらに、ラベル付きデータとラベル付きデータの両方にわたる分割計画型クラス条件分布の不分散を仮定し、ラベル付きデータのバイアスにもかかわらず、構造を明示的に活用して最適なグループ対応確率共役分類器を学習する半教師付きアルゴリズムを導出する。 合成および実データを用いた実験は,本アルゴリズムが標準教師付きおよび半教師付き学習アプローチにまたがって,適切なベースラインとアブレーションモデルに対して有効であることを示す。

We consider semi-supervised binary classification for applications in which data points are naturally grouped (e.g., survey responses grouped by state) and the labeled data is biased (e.g., survey respondents are not representative of the population). The groups overlap in the feature space and consequently the input-output patterns are related across the groups. To model the inherent structure in such data, we assume the partition-projected class-conditional invariance across groups, defined in terms of the group-agnostic feature space. We demonstrate that under this assumption, the group carries additional information about the class, over the group-agnostic features, with provably improved area under the ROC curve. Further assuming invariance of partition-projected class-conditional distributions across both labeled and unlabeled data, we derive a semi-supervised algorithm that explicitly leverages the structure to learn an optimal, group-aware, probability-calibrated classifier, despite the bias in the labeled data. Experiments on synthetic and real data demonstrate the efficacy of our algorithm over suitable baselines and ablative models, spanning standard supervised and semi-supervised learning approaches, with and without incorporating the group directly as a feature.
公開日:2022-12-07
翻訳日:2022-12-08 15:23:27
# 最大$\ell_1$-margin分類器のタイト境界

Tight bounds for maximum $\ell_1$-margin classifiers ( http://arxiv.org/abs/2212.03783v1 )

ライセンス: Link先を確認
Stefan Stojanovic, Konstantin Donhauser and Fanny Yang(参考訳) 線形モデル上でのブースティング法や座標降下のような一般的な反復アルゴリズムは、データを線形分離可能な高次元状態において最大$\ell_1$-margin分類器、すなわちスパースハードマージンSVMに収束する。 以前の研究は、$\ell_1$-normに依存する多くの推定者が、厳密な基底真理に対する統計率を改善することを一貫して示している。 驚くべきことに、この適応性は標準判別設定の最大$\ell_1$-margin分類器には適用されない。 特に、ノイズのない設定では、一般的な基底真理に対して$\frac{\|\wgt\|_1^{2/3}}{n^{1/3}}$の順序に一致する予測誤差の上限を上下に厳密に示す。 画像を完成させるために、ノイズ観測を補間すると、誤差は$\frac{1}{\sqrt{\log(d/n)}}$で消滅する。 したがって、最初に、最大$\ell_1$-margin分類器に対する良性過剰性を示す。

Popular iterative algorithms such as boosting methods and coordinate descent on linear models converge to the maximum $\ell_1$-margin classifier, a.k.a. sparse hard-margin SVM, in high dimensional regimes where the data is linearly separable. Previous works consistently show that many estimators relying on the $\ell_1$-norm achieve improved statistical rates for hard sparse ground truths. We show that surprisingly, this adaptivity does not apply to the maximum $\ell_1$-margin classifier for a standard discriminative setting. In particular, for the noiseless setting, we prove tight upper and lower bounds for the prediction error that match existing rates of order $\frac{\|\wgt\|_1^{2/3}}{n^{1/3}}$ for general ground truths. To complete the picture, we show that when interpolating noisy observations, the error vanishes at a rate of order $\frac{1}{\sqrt{\log(d/n)}}$. We are therefore first to show benign overfitting for the maximum $\ell_1$-margin classifier.
公開日:2022-12-07
翻訳日:2022-12-08 15:23:04
# 確率的ライジングバンド

Stochastic Rising Bandits ( http://arxiv.org/abs/2212.03798v1 )

ライセンス: Link先を確認
Alberto Maria Metelli, Francesco Trov\`o, Matteo Pirola, Marcello Restelli(参考訳) 本稿では,確率的多腕バンディット (mabs) の分野において,選択されたオプション (arm) によるフィードバックのみを用いてオンライン学習が可能な逐次的選択手法について述べる。 腕の期待報酬が単調に減少しない、安静で安静な包帯の特定の事例について検討した。 この特徴は、支払いの規則性を利用して厳密な後悔の限界を与える特別に作られたアルゴリズムを設計することを可能にする。 残りのケース (R-ed-UCB) と、レスレスケース (R-less-UCB) のためのアルゴリズムを設計し、インスタンスの特性と、ある状況下では$\widetilde{\mathcal{O}}(T^{\frac{2}{3}})$に対して後悔の意を与える。 実世界データセットのオンラインモデル選択問題と,複数の合成タスクにおける非定常mabの最先端手法との比較を行った。 最後に, 合成および実世界のデータを用いて, 非定常バンディットに対する最先端アルゴリズムと比較し, 提案手法の有効性を示す。

This paper is in the field of stochastic Multi-Armed Bandits (MABs), i.e., those sequential selection techniques able to learn online using only the feedback given by the chosen option (a.k.a. arm). We study a particular case of the rested and restless bandits in which the arms' expected payoff is monotonically non-decreasing. This characteristic allows designing specifically crafted algorithms that exploit the regularity of the payoffs to provide tight regret bounds. We design an algorithm for the rested case (R-ed-UCB) and one for the restless case (R-less-UCB), providing a regret bound depending on the properties of the instance and, under certain circumstances, of $\widetilde{\mathcal{O}}(T^{\frac{2}{3}})$. We empirically compare our algorithms with state-of-the-art methods for non-stationary MABs over several synthetically generated tasks and an online model selection problem for a real-world dataset. Finally, using synthetic and real-world data, we illustrate the effectiveness of the proposed approaches compared with state-of-the-art algorithms for the non-stationary bandits.
公開日:2022-12-07
翻訳日:2022-12-08 15:22:39
# 最適プロセス識別のための教師なしスペクトル帯域特徴同定

Unsupervised spectral-band feature identification for optimal process discrimination ( http://arxiv.org/abs/2212.03800v1 )

ライセンス: Link先を確認
Akash Tiwari and Satish Bukkapatnam(参考訳) 実世界の動的過程の変化は、エネルギーの差$\textbf{E}(\underline{\alpha})$のスペクトルバンドの集合$\underline{\alpha}$の点でしばしば説明される。 a$ と $b$ の2つのクラスの連続スペクトル、あるいは一般には、2つの確率過程 $s^{(a)}(f)$ と $s^{(b)}(f)$, $f \in \mathbb{r}^+$ が与えられると、スペクトルバンド $\underline{\alpha} \subset \mathbb{r}^+$ と呼ばれる区間のサブセットを識別するユビキタスな問題に対処し、これらのバンドのエネルギー $\textbf{e}(\underline{\alpha})$ は2つのクラスを最適に判別することができる。 EGO-MDAは、2つのクラスからのスペクトルのサンプルに対して最適なスペクトルバンドを同定するための教師なし手法である。 EGO-MDA は、調整された多項対数類似度 (deviance) 基準を反復的に最小化する統計的アプローチを採用している。 ここで、MDA(Mixture Discriminant Analysis)は、2つのGMM分布パラメータ、すなわち$\mathcal{M}^* = \underset{\mathcal{M}}{\rm argmin}~\mathcal{D}(\underline{\alpha}, \mathcal{M})$からMLEを導出し、与えられたスペクトル表現に対して最適に2つのクラスを識別する分類器を同定することを目的としている。 効率的なグローバル最適化 (ego) は、与えられた gmm パラメータ $\mathcal{m}$ に対して、スペクトル帯域 $\underline{\alpha}^* = \underset{\underline{\alpha}}{\rm argmin}~\mathcal{d}(\underline{\alpha},\mathcal{m})$ を求める。 混合とモデル誤特定の分離率の低い病理例について,パラメータ$\mathcal{m}$の推定値に対するサンプルサイズと反復数の影響と,それゆえ分類器の性能について検討する。 合成データセットに関するケーススタディを提供する。 異常追跡のための最適スペクトルバンドリングの工学的応用として、EGO-MDAは、試験された他の方法と比較して、中央値の約70%の改善を達成した。

Changes in real-world dynamic processes are often described in terms of differences in energies $\textbf{E}(\underline{\alpha})$ of a set of spectral-bands $\underline{\alpha}$. Given continuous spectra of two classes $A$ and $B$, or in general, two stochastic processes $S^{(A)}(f)$ and $S^{(B)}(f)$, $f \in \mathbb{R}^+$, we address the ubiquitous problem of identifying a subset of intervals of $f$ called spectral-bands $\underline{\alpha} \subset \mathbb{R}^+$ such that the energies $\textbf{E}(\underline{\alpha})$ of these bands can optimally discriminate between the two classes. We introduce EGO-MDA, an unsupervised method to identify optimal spectral-bands $\underline{\alpha}^*$ for given samples of spectra from two classes. EGO-MDA employs a statistical approach that iteratively minimizes an adjusted multinomial log-likelihood (deviance) criterion $\mathcal{D}(\underline{\alpha},\mathcal{M})$. Here, Mixture Discriminant Analysis (MDA) aims to derive MLE of two GMM distribution parameters, i.e., $\mathcal{M}^* = \underset{\mathcal{M}}{\rm argmin}~\mathcal{D}(\underline{\alpha}, \mathcal{M})$ and identify a classifier that optimally discriminates between two classes for a given spectral representation. The Efficient Global Optimization (EGO) finds the spectral-bands $\underline{\alpha}^* = \underset{\underline{\alpha}}{\rm argmin}~\mathcal{D}(\underline{\alpha},\mathcal{M})$ for given GMM parameters $\mathcal{M}$. For pathological cases of low separation between mixtures and model misspecification, we discuss the effect of the sample size and the number of iterations on the estimates of parameters $\mathcal{M}$ and therefore the classifier performance. A case study on a synthetic data set is provided. In an engineering application of optimal spectral-banding for anomaly tracking, EGO-MDA achieved at least 70% improvement in the median deviance relative to other methods tested.
公開日:2022-12-07
翻訳日:2022-12-08 15:22:18
# 意味的セグメンテーションのための意味的拡張グローバル推論

Semantically Enhanced Global Reasoning for Semantic Segmentation ( http://arxiv.org/abs/2212.03338v1 )

ライセンス: Link先を確認
Mir Rayat Imtiaz Hossain, Leonid Sigal, James J. Little(参考訳) ピクセルレベルのタスク(例えばセグメンテーション)の最近の進歩は、局所的な特徴を高めることができる集約された領域ベースの表現間の長距離相互作用の利点を示している。 しかし、そのようなピクセルから地域への関連や、しばしば注意の形式をとる結果表現は、シーンの基本的な意味構造(例えば、個々のオブジェクトとそれらの相互作用)をモデル化することはできない。 この作業では、この制限に対処するための一歩を踏み出します。 具体的には,画像特徴を潜在領域表現に投影し,トランスフォーマを使用してグローバル推論を行い,文脈的かつシーン一貫性のある表現を生成し,元のピクセルレベル特徴と融合するアーキテクチャを提案する。 我々の設計では、活性化領域が空間的に不整合であり、そのような領域の結合が連結対象セグメントに対応することを保証することにより、潜在領域が意味論的に意味のある概念を表現することができる。 結果として生じるセマンティックグローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、セマンティックセグメンテーションフレームワークやバックボーンと組み合わせることができる。 SGRとDeepLabV3を組み合わせることで,最先端技術と競合するセマンティックセマンティックセマンティクスのパフォーマンスが向上すると同時に,よりセマンティクス的に解釈可能な多種多様なリージョン表現が実現され,検出やインスタンスセマンティクスへの効果的な転送が可能となった。 さらに、オブジェクトクラスとインスタンスレベルで表現のセマンティクスを測定することができる新しいメトリックを提案する。

Recent advances in pixel-level tasks (e.g., segmentation) illustrate the benefit of long-range interactions between aggregated region-based representations that can enhance local features. However, such pixel-to-region associations and the resulting representation, which often take the form of attention, cannot model the underlying semantic structure of the scene (e.g., individual objects and, by extension, their interactions). In this work, we take a step toward addressing this limitation. Specifically, we propose an architecture where we learn to project image features into latent region representations and perform global reasoning across them, using a transformer, to produce contextualized and scene-consistent representations that are then fused with original pixel-level features. Our design enables the latent regions to represent semantically meaningful concepts, by ensuring that activated regions are spatially disjoint and unions of such regions correspond to connected object segments. The resulting semantic global reasoning (SGR) is end-to-end trainable and can be combined with any semantic segmentation framework and backbone. Combining SGR with DeepLabV3 results in a semantic segmentation performance that is competitive to the state-of-the-art, while resulting in more semantically interpretable and diverse region representations, which we show can effectively transfer to detection and instance segmentation. Further, we propose a new metric that allows us to measure the semantics of representations at both the object class and instance level.
公開日:2022-12-06
翻訳日:2022-12-08 15:21:25
# 潜在空間マッピングによるドメイン翻訳

Domain Translation via Latent Space Mapping ( http://arxiv.org/abs/2212.03361v1 )

ライセンス: Link先を確認
Tsiry Mayet and Simon Bernard and Clement Chatelain and Romain Herault(参考訳) 本稿では,マルチドメイン翻訳の問題について検討する。 1 つの要素 $a$ のドメイン $a$ が与えられたとき,対応する $b$ サンプルを別のドメイン $b$ で生成し,その逆も行う。 複数のドメインにおける監督を得るのは面倒な作業です。また、監督がペア$(a,b)\sim a\times b$として利用可能で、a\sim a$または$b\sim b$しか利用できない場合に、この翻訳をあるドメインから別のドメインへ学ぶことを提案します。 我々は、各領域から潜在空間を学習するために、多様体の仮定を利用するラテント空間マッピング(\model)と呼ばれる新しい統一フレームワークを導入する。 既存のアプローチと異なり,2つのドメイン間の依存関係を学習することにより,利用可能なドメインを用いて各潜在空間をさらに規則化する。 アプローチを3つのタスクで評価し 一 画像翻訳による合成データセット 二 医用画像の意味セグメンテーションの現実世界の課題 三 顔の目印検出の現実世界の業務

In this paper, we investigate the problem of multi-domain translation: given an element $a$ of domain $A$, we would like to generate a corresponding $b$ sample in another domain $B$, and vice versa. Acquiring supervision in multiple domains can be a tedious task, also we propose to learn this translation from one domain to another when supervision is available as a pair $(a,b)\sim A\times B$ and leveraging possible unpaired data when only $a\sim A$ or only $b\sim B$ is available. We introduce a new unified framework called Latent Space Mapping (\model) that exploits the manifold assumption in order to learn, from each domain, a latent space. Unlike existing approaches, we propose to further regularize each latent space using available domains by learning each dependency between pairs of domains. We evaluate our approach in three tasks performing i) synthetic dataset with image translation, ii) real-world task of semantic segmentation for medical images, and iii) real-world task of facial landmark detection.
公開日:2022-12-06
翻訳日:2022-12-08 15:20:57
# 部分フェデレートgan(padpaf)による部分絡み合い

Partial Disentanglement with Partially-Federated GANs (PaDPaF) ( http://arxiv.org/abs/2212.03836v1 )

ライセンス: Link先を確認
Abdulla Jasem Almansoori, Samuel Horv\'ath, Martin Tak\'a\v{c}(参考訳) フェデレーション学習は、レコメンデーションシステム、IoT(Internet of Things)、ヘルスケア、自動運転車など、多くの潜在的な現実のアプリケーションで人気のある機械学習パラダイムとなっている。 現在のほとんどのアプリケーションは分類に基づくタスクに重点を置いているが、パーソナライズされた生成モデルの学習はほとんど探索されていない。 本稿では,グローバルクライアント非依存モデルとローカルクライアント固有生成モデルを組み合わせた新しいアーキテクチャを提案する。 フェデレーションモデルのトレーニングのための標準技術を用いて,提案モデルでは,クライアント依存のバリエーション(スタイル)からグローバルに一貫性のある表現(コンテンツ)を暗黙的に分離することにより,プライバシとパーソナライズを実現する。 このような分解により、パーソナライズされたモデルでは、クライアントの所定のスタイルを維持しながら、ローカルに見えないラベルを生成し、グローバルなコンテンツ特徴の単純な線形分類器をトレーニングすることで、すべてのクライアントのラベルを高精度に予測することができる。 さらに、コンテンツのみを共有することで、データ匿名化のような他の重要なアプリケーションを可能にする。 大規模な実験的評価は,我々の発見を裏付けるものであり,提案手法に対する部分的理論的正当性も提供する。

Federated learning has become a popular machine learning paradigm with many potential real-life applications, including recommendation systems, the Internet of Things (IoT), healthcare, and self-driving cars. Though most current applications focus on classification-based tasks, learning personalized generative models remains largely unexplored, and their benefits in the heterogeneous setting still need to be better understood. This work proposes a novel architecture combining global client-agnostic and local client-specific generative models. We show that using standard techniques for training federated models, our proposed model achieves privacy and personalization that is achieved by implicitly disentangling the globally-consistent representation (i.e. content) from the client-dependent variations (i.e. style). Using such decomposition, personalized models can generate locally unseen labels while preserving the given style of the client and can predict the labels for all clients with high accuracy by training a simple linear classifier on the global content features. Furthermore, disentanglement enables other essential applications, such as data anonymization, by sharing only content. Extensive experimental evaluation corroborates our findings, and we also provide partial theoretical justifications for the proposed approach.
公開日:2022-12-07
翻訳日:2022-12-08 15:20:36
# 人間互換自動車を目指して:感情遷移モデルを用いた自動走行における非言語チューリングテストの検討

Towards human-compatible autonomous car: A study of non-verbal Turing test in automated driving with affective transition modelling ( http://arxiv.org/abs/2212.02908v2 )

ライセンス: Link先を確認
Zhaoning Li, Qiaoli Jiang, Zhengming Wu, Anqi Liu, Haiyan Wu, Miner Huang, Kai Huang, and Yixuan Ku(参考訳) 人間がハンズフリーの道を進むとき、自動運転車は不可欠だ。 既存の文献では、人間のように運転すれば自動運転車の受容が増加すると強調されているが、スパースリサーチは、現在の自動運転車の人間的類似性を調べるために乗客の席の観点から自然主義的な経験を提供する。 本研究は、69人の参加者のフィードバックに基づいて、AIドライバーが乗客のための人間ライクな乗車体験を作成できるかどうかを実路シナリオで検証した。 我々は、自動走行のためのノンバーバルチューリングテストの乗車体験ベースのバージョンを設計した。 参加者は、人間かAIドライバーが運転する自動運転車に乗って乗客となり、ドライバーが人間なのかAIなのかを判断した。 aiドライバーは、乗客が偶然にaiドライバーを検知したため、テストに合格できなかった。 対照的に、人間の運転者が車を運転したとき、乗客の判断は偶然だった。 実験では、人間の乗客が人間性をいかに受け入れるかについても検討した。 レーウィンのフィールド理論に基づいて,信号検出理論と事前学習言語モデルを組み合わせて,乗客の人間性評価行動を予測する計算モデルを開発した。 実験前のベースライン感情とそれに対応するポストステージ感情との情緒的遷移をモデルの信号強度として用いた。 その結果、乗客の人間性の記述は、より感情的な移行によって増加することが判明した。 本研究は、自律運転の今後の方向性となる乗客の人間性記述における情緒変化の重要な役割を示唆する。

Autonomous cars are indispensable when humans go further down the hands-free route. Although existing literature highlights that the acceptance of the autonomous car will increase if it drives in a human-like manner, sparse research offers the naturalistic experience from a passenger's seat perspective to examine the human likeness of current autonomous cars. The present study tested whether the AI driver could create a human-like ride experience for passengers based on 69 participants' feedback in a real-road scenario. We designed a ride experience-based version of the non-verbal Turing test for automated driving. Participants rode in autonomous cars (driven by either human or AI drivers) as a passenger and judged whether the driver was human or AI. The AI driver failed to pass our test because passengers detected the AI driver above chance. In contrast, when the human driver drove the car, the passengers' judgement was around chance. We further investigated how human passengers ascribe humanness in our test. Based on Lewin's field theory, we advanced a computational model combining signal detection theory with pre-trained language models to predict passengers' humanness rating behaviour. We employed affective transition between pre-study baseline emotions and corresponding post-stage emotions as the signal strength of our model. Results showed that the passengers' ascription of humanness would increase with the greater affective transition. Our study suggested an important role of affective transition in passengers' ascription of humanness, which might become a future direction for autonomous driving.
公開日:2022-12-07
翻訳日:2022-12-08 15:14:47
# Tacotron2, WaveGlow, Transfer Learning を用いた低リソースエンド・ツー・エンドサンスクリットTS

Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and Transfer Learning ( http://arxiv.org/abs/2212.03558v1 )

ライセンス: Link先を確認
Ankur Debnath, Shridevi S Patil, Gangotri Nadiger, Ramakrishnan Angarai Ganesan(参考訳) エンドツーエンドの音声合成システム(TTS: End-to-end text-to-speech)は、英語やスペイン語などのヨーロッパの言語向けに、最先端の音声品質、韻律、自然さで開発された。 しかし、インドの言語用エンドツーエンドTSの開発は品質面で遅れを取っている。 そのようなタスクに関わる課題は次のとおりです。 1) 品質訓練データの不足 2 訓練及び推論における効率の低下 3) 大きな語彙サイズの場合の収束が遅い。 本稿では,サンスクリットにおける自然音声音声を低資源環境下で合成するために,制限されたサンスクリットデータを用いた英語事前学習型タコトロン2モデルの微調整を行った。 実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。 使用した音声データが2.5時間しか持たないという事実を考えると、これは本当に良い結果です。

End-to-end text-to-speech (TTS) systems have been developed for European languages like English and Spanish with state-of-the-art speech quality, prosody, and naturalness. However, development of end-to-end TTS for Indian languages is lagging behind in terms of quality. The challenges involved in such a task are: 1) scarcity of quality training data; 2) low efficiency during training and inference; 3) slow convergence in the case of large vocabulary size. In our work reported in this paper, we have investigated the use of fine-tuning the English-pretrained Tacotron2 model with limited Sanskrit data to synthesize natural sounding speech in Sanskrit in low resource settings. Our experiments show encouraging results, achieving an overall MOS of 3.38 from 37 evaluators with good Sanskrit spoken knowledge. This is really a very good result, considering the fact that the speech data we have used is of duration 2.5 hours only.
公開日:2022-12-07
翻訳日:2022-12-08 15:14:27
# 確率的エネルギー予測のための拡散確率モデル

Denoising diffusion probabilistic models for probabilistic energy forecasting ( http://arxiv.org/abs/2212.02977v2 )

ライセンス: Link先を確認
Esteban Hernandez Capel, Jonathan Dumas(参考訳) シナリオに基づく確率的予測は、再生可能エネルギーの不安定な性質に対処する意思決定者のための重要なツールとなっている。 そこで本稿では,近年のディープラーニング生成手法であるdenoising diffusion probabilistic modelsを提案する。 これは、最近コンピュータビジョンコミュニティで印象的な結果を実証した潜伏変数モデルのクラスである。 しかしながら、私たちの知る限りでは、電力システムアプリケーションにおける新しい課題に直面する上で重要な要素である、負荷、PV、風力の時系列の高品質なサンプルを生成できることの実証はまだありません。 そこで本研究では,グローバルエネルギー予測コンペティション2014のオープンデータを用いたエネルギー予測モデルの最初の実装を提案する。 このアプローチは、生成的逆ネットワーク、変分オートエンコーダ、正規化フローなど、最先端のディープラーニング生成モデルと競合することが示されている。

Scenario-based probabilistic forecasts have become a vital tool to equip decision-makers to address the uncertain nature of renewable energies. To that end, this paper presents a recent promising deep learning generative approach called denoising diffusion probabilistic models. It is a class of latent variable models which have recently demonstrated impressive results in the computer vision community. However, to the best of our knowledge, there has yet to be a demonstration that they can generate high-quality samples of load, PV, or wind power time series, crucial elements to face the new challenges in power systems applications. Thus, we propose the first implementation of this model for energy forecasting using the open data of the Global Energy Forecasting Competition 2014. The results demonstrate this approach is competitive with other state-of-the-art deep learning generative models, including generative adversarial networks, variational autoencoders, and normalizing flows.
公開日:2022-12-07
翻訳日:2022-12-08 15:14:11
# MobileTL: 逆残差ブロックを用いたオンデバイストランスファー学習

MobileTL: On-device Transfer Learning with Inverted Residual Blocks ( http://arxiv.org/abs/2212.03246v1 )

ライセンス: Link先を確認
Hung-Yueh Chiang, Natalia Frumkin, Feng Liang, Diana Marculescu(参考訳) デバイス上の限られたリソースのため、エッジでの転送学習は難しい。 既存の作業はパラメータのサブセットをトレーニングしたり、モデルパッチを追加することでこの問題に対処する。 推論を念頭に置いて開発されたInverted Residual Blocks (IRBs) は、畳み込み層を奥行きと点方向の畳み込み層に分割し、畳み込み層、正規化層、アクティベーション層など、より多くの積み重ね層を生み出す。 推論には効率的だが、IRBは畳み込み層の重み付けと正規化層のスケールをトレーニングするために追加のアクティベーションマップをメモリに格納する必要がある。 その結果、メモリコストが高いため、リソース制限されたエッジデバイス上でのIRBのトレーニングが禁止され、転送学習の文脈では適さない。 この問題に対処するために、IRBで構築したモデルに対するメモリと計算効率のよいオンデバイストランスファー学習手法であるMobileTLを提案する。 MobileTLは、下位パスのアクティベーションマップの保存を避けるために、内部正規化レイヤのシフトをトレーニングする。 また、MobileTLは、活性化層の後方計算(例えば、Hard-SwishとReLU6)を符号付き関数として近似し、後方パスの活性化マップの代わりにバイナリマスクを格納する。 mobiletlは計算コストを削減するためにネットワーク全体の勾配を伝搬するのではなく、いくつかのトップブロック(出力に近い)を微調整する。 提案手法は,MobileNetV2とV3 IRBのメモリ使用量をそれぞれ46%,53%削減する。 MobileNetV3では、5ブロックの微調整時に浮動小数点演算(FLOP)が36%削減され、CIFAR10では0.6%の精度で精度が低下する。 複数のデータセットに対する大規模な実験により,本手法はエッジデバイスの転送学習における先行研究と比較して,Pareto-Optimal(ハードウェア制約下での最良の精度)であることが証明された。

Transfer learning on edge is challenging due to on-device limited resources. Existing work addresses this issue by training a subset of parameters or adding model patches. Developed with inference in mind, Inverted Residual Blocks (IRBs) split a convolutional layer into depthwise and pointwise convolutions, leading to more stacking layers, e.g., convolution, normalization, and activation layers. Though they are efficient for inference, IRBs require that additional activation maps are stored in memory for training weights for convolution layers and scales for normalization layers. As a result, their high memory cost prohibits training IRBs on resource-limited edge devices, and making them unsuitable in the context of transfer learning. To address this issue, we present MobileTL, a memory and computationally efficient on-device transfer learning method for models built with IRBs. MobileTL trains the shifts for internal normalization layers to avoid storing activation maps for the backward pass. Also, MobileTL approximates the backward computation of the activation layer (e.g., Hard-Swish and ReLU6) as a signed function which enables storing a binary mask instead of activation maps for the backward pass. MobileTL fine-tunes a few top blocks (close to output) rather than propagating the gradient through the whole network to reduce the computation cost. Our method reduces memory usage by 46% and 53% for MobileNetV2 and V3 IRBs, respectively. For MobileNetV3, we observe a 36% reduction in floating-point operations (FLOPs) when fine-tuning 5 blocks, while only incurring a 0.6% accuracy reduction on CIFAR10. Extensive experiments on multiple datasets demonstrate that our method is Pareto-optimal (best accuracy under given hardware constraints) compared to prior work in transfer learning for edge devices.
公開日:2022-12-05
翻訳日:2022-12-08 15:13:55
# 強化学習のための自己予測学習の理解

Understanding Self-Predictive Learning for Reinforcement Learning ( http://arxiv.org/abs/2212.03319v1 )

ライセンス: Link先を確認
Yunhao Tang, Zhaohan Daniel Guo, Pierre Harvey Richemond, Bernardo \'Avila Pires, Yash Chandak, R\'emi Munos, Mark Rowland, Mohammad Gheshlaghi Azar, Charline Le Lan, Clare Lyle, Andr\'as Gy\"orgy, Shantanu Thakoor, Will Dabney, Bilal Piot, Daniele Calandriello, Michal Valko(参考訳) 本研究では,自己予測学習の学習ダイナミクスを学習し,予測誤差を最小化して表現を学習するアルゴリズムのファミリーである強化学習について検討する。 最近の経験的成功にもかかわらず、そのようなアルゴリズムには明らかな欠陥がある: 自明な表現(定数など)は予測誤差を最小化するが、そのような解に収束することは明らかに望ましくない。 私たちの中心となる洞察は、最適化ダイナミクスの注意深い設計は意味のある表現を学ぶのに不可欠であるということです。 我々は,予測器の高速化と表現の半段階的な更新が,表現の崩壊を防止する上で重要であることを見出した。 そして、理想化された設定において、自己予測学習のダイナミクスが状態遷移行列上でスペクトル分解を行い、遷移のダイナミクスに関する情報を効果的に取得することを示す。 理論的知見に基づいて,2つの表現を同時に学習する新しい自己予測アルゴリズムである双方向自己予測学習を提案する。 提案する理論的洞察のロバスト性について,多数の小規模実験で検証し,大規模実験による新しい表現学習アルゴリズムの可能性を実証した。

We study the learning dynamics of self-predictive learning for reinforcement learning, a family of algorithms that learn representations by minimizing the prediction error of their own future latent representations. Despite its recent empirical success, such algorithms have an apparent defect: trivial representations (such as constants) minimize the prediction error, yet it is obviously undesirable to converge to such solutions. Our central insight is that careful designs of the optimization dynamics are critical to learning meaningful representations. We identify that a faster paced optimization of the predictor and semi-gradient updates on the representation, are crucial to preventing the representation collapse. Then in an idealized setup, we show self-predictive learning dynamics carries out spectral decomposition on the state transition matrix, effectively capturing information of the transition dynamics. Building on the theoretical insights, we propose bidirectional self-predictive learning, a novel self-predictive algorithm that learns two representations simultaneously. We examine the robustness of our theoretical insights with a number of small-scale experiments and showcase the promise of the novel representation learning algorithm with large-scale experiments.
公開日:2022-12-06
翻訳日:2022-12-08 15:13:19
# 説明可能なデータコラボレーションによる分散機械学習の透明性の実現

Achieving Transparency in Distributed Machine Learning with Explainable Data Collaboration ( http://arxiv.org/abs/2212.03373v1 )

ライセンス: Link先を確認
Anna Bogdanova, Akira Imakura, Tetsuya Sakurai, Tomoya Fujii, Teppei Sakamoto, Hiroyuki Abe(参考訳) さまざまな業界で意思決定支援に使用される機械学習モデルの透明性は、倫理的利用の確保に不可欠である。 そのため、SHAP(SHapley Additive exPlanations)のような機能属性手法は、顧客や開発者にブラックボックス機械学習モデルの予測を説明するために広く用いられている。 しかしながら、並列的なトレンドは、データにアクセスせずに、他のデータホルダーと共同で機械学習モデルをトレーニングすることです。 このようなモデルは、水平または垂直に分割されたデータに基づいてトレーニングされており、説明可能なAIには、背景データのバイアスのあるビューや特徴空間の部分的なビューを持つ可能性があるため、課題がある。 その結果、分散機械学習のさまざまな参加者から得られた説明は、製品に対する信頼を損なうことなく、互いに一致しない可能性がある。 本稿では,プライバシ保護分散機械学習におけるモデルに依存しない付加的特徴属性アルゴリズム(KernelSHAP)とデータ協調手法に基づく説明可能なデータ協調フレームワークを提案する。 特に、データコラボレーションにおける説明可能性の異なるシナリオに対する3つのアルゴリズムを提示し、オープンアクセスデータセットの実験との整合性を検証する。 その結果,分散機械学習のユーザ間では,特徴属性の相違が有意な(少なくとも1.75倍の)低下を示した。

Transparency of Machine Learning models used for decision support in various industries becomes essential for ensuring their ethical use. To that end, feature attribution methods such as SHAP (SHapley Additive exPlanations) are widely used to explain the predictions of black-box machine learning models to customers and developers. However, a parallel trend has been to train machine learning models in collaboration with other data holders without accessing their data. Such models, trained over horizontally or vertically partitioned data, present a challenge for explainable AI because the explaining party may have a biased view of background data or a partial view of the feature space. As a result, explanations obtained from different participants of distributed machine learning might not be consistent with one another, undermining trust in the product. This paper presents an Explainable Data Collaboration Framework based on a model-agnostic additive feature attribution algorithm (KernelSHAP) and Data Collaboration method of privacy-preserving distributed machine learning. In particular, we present three algorithms for different scenarios of explainability in Data Collaboration and verify their consistency with experiments on open-access datasets. Our results demonstrated a significant (by at least a factor of 1.75) decrease in feature attribution discrepancies among the users of distributed machine learning.
公開日:2022-12-06
翻訳日:2022-12-08 15:12:59
# 制限ボルツマン機械の隠れ層からの状態遷移規則の学習

Learning State Transition Rules from Hidden Layers of Restricted Boltzmann Machines ( http://arxiv.org/abs/2212.03374v1 )

ライセンス: Link先を確認
Koji Watanabe, Katsumi Inoue(参考訳) システムのダイナミクスを理解することは、多くの科学的および工学的領域において重要である。 この問題は、機械学習技術を用いた観測から状態遷移規則を学習することで解決できる。 このような時系列データは、しばしばノイズとあいまいさを持つ多くの連続変数のシーケンスから構成されるが、いくつかの必須変数でモデル化できるダイナミクスの規則が必要である。 本研究では,高次元時系列データから少数の必須隠れ変数を抽出し,これらの隠れ変数間の状態遷移規則を学習する手法を提案する。 提案手法は,可視層における可観測データと隠蔽層における潜時特徴を取り扱うリミテッド・ボルツマン・マシン(RBM)に基づく。 しかし、ビデオやオーディオのような現実世界のデータには離散変数と連続変数の両方が含まれており、これらの変数は時間的関係を持つ。 そこで我々は,連続可視変数を扱うためにガウス-ベルノウルリ制限ボルツマンマシン(GB-RBM)と離散隠れ変数間の時間依存性を捉えるために,ガウス-ベルノウルリ制限ボルツマンマシン(RTGB-RBM)を提案する。 また,隠れ変数として必須情報を抽出し,解釈可能な状態遷移規則を表現するルールベース手法を提案する。 提案手法を評価するために,バウンシングボールと移動MNISTデータセットの実験を行った。 実験の結果,隠れ変数間の状態遷移規則として物理系のダイナミクスを学習でき,観測された状態遷移から観測されない将来の状態を予測できることがわかった。

Understanding the dynamics of a system is important in many scientific and engineering domains. This problem can be approached by learning state transition rules from observations using machine learning techniques. Such observed time-series data often consist of sequences of many continuous variables with noise and ambiguity, but we often need rules of dynamics that can be modeled with a few essential variables. In this work, we propose a method for extracting a small number of essential hidden variables from high-dimensional time-series data and for learning state transition rules between these hidden variables. The proposed method is based on the Restricted Boltzmann Machine (RBM), which treats observable data in the visible layer and latent features in the hidden layer. However, real-world data, such as video and audio, include both discrete and continuous variables, and these variables have temporal relationships. Therefore, we propose Recurrent Temporal GaussianBernoulli Restricted Boltzmann Machine (RTGB-RBM), which combines Gaussian-Bernoulli Restricted Boltzmann Machine (GB-RBM) to handle continuous visible variables, and Recurrent Temporal Restricted Boltzmann Machine (RT-RBM) to capture time dependence between discrete hidden variables. We also propose a rule-based method that extracts essential information as hidden variables and represents state transition rules in interpretable form. We conduct experiments on Bouncing Ball and Moving MNIST datasets to evaluate our proposed method. Experimental results show that our method can learn the dynamics of those physical systems as state transition rules between hidden variables and can predict unobserved future states from observed state transitions.
公開日:2022-12-07
翻訳日:2022-12-08 15:12:40
# 解釈可能な逐次データモデリングのための原型部品の選択学習

Learning to Select Prototypical Parts for Interpretable Sequential Data Modeling ( http://arxiv.org/abs/2212.03396v1 )

ライセンス: Link先を確認
Yifei Zhang, Neng Gao, Cunqing Ma(参考訳) プロトタイプベースの解釈可能性手法は、類似性の観点から記憶された例や典型的な代表者の参照集合と比較することにより、モデル予測の直感的な説明を提供する。 逐次データモデリングの分野では、プロトタイプの類似度計算は通常符号化表現ベクトルに基づいている。 しかし、非常に再帰的な関数のため、通常プロトタイプベースの説明と元の入力の間には無視できない相違がある。 本研究では,原型概念の線形結合を用いた自己説明選択モデル(SESM)を提案する。 このモデルは、入力のサブシーケンスを選択することでケースベース推論の考え方を採用しており、それは主に異なる概念を原型的な部分として活性化し、ユーザが異なる例入力から選択したサブシーケンスと比較してモデル決定を理解することができる。 より良い解釈可能性を得るために,多様性,安定性,局所性といった制約をトレーニング対象として設計する。 異なる領域における大規模な実験により,提案手法は有望な解釈可能性と競争精度を示すことが示された。

Prototype-based interpretability methods provide intuitive explanations of model prediction by comparing samples to a reference set of memorized exemplars or typical representatives in terms of similarity. In the field of sequential data modeling, similarity calculations of prototypes are usually based on encoded representation vectors. However, due to highly recursive functions, there is usually a non-negligible disparity between the prototype-based explanations and the original input. In this work, we propose a Self-Explaining Selective Model (SESM) that uses a linear combination of prototypical concepts to explain its own predictions. The model employs the idea of case-based reasoning by selecting sub-sequences of the input that mostly activate different concepts as prototypical parts, which users can compare to sub-sequences selected from different example inputs to understand model decisions. For better interpretability, we design multiple constraints including diversity, stability, and locality as training objectives. Extensive experiments in different domains demonstrate that our method exhibits promising interpretability and competitive accuracy.
公開日:2022-12-07
翻訳日:2022-12-08 15:12:01
# Tree DNN - ディープコンテナネットワーク

Tree DNN: A Deep Container Network ( http://arxiv.org/abs/2212.03474v1 )

ライセンス: Link先を確認
Brijraj Singh, Swati Gupta, Mayukh Das, Praveen Doreswamy Naidu, Sharan Kumar Allur(参考訳) マルチタスク学習(mtl)は、迅速なトレーニング、データ効率、過剰フィッティングの低減など、ユーザ製品において重要性を示している。 mtlは、ネットワークパラメータを共有し、複数のタスクを同時にネットワークにトレーニングすることで実現します。 しかし、各タスクが異なるデータセットからトレーニングが必要な場合、MTLはソリューションを提供しない。 上記の問題を解決するため,我々はtreednnというアーキテクチャを提案し,そのトレーニング手法を提案する。 TreeDNNはモデルを複数のデータセットで同時にトレーニングするのに役立つ。 パラメータ記憶におけるROM要求の低減と,推論時にのみ特定の分岐をロードすることでシステムの応答性を向上させることで,TreeDNNが競合性能を提供することを示した。

Multi-Task Learning (MTL) has shown its importance at user products for fast training, data efficiency, reduced overfitting etc. MTL achieves it by sharing the network parameters and training a network for multiple tasks simultaneously. However, MTL does not provide the solution, if each task needs training from a different dataset. In order to solve the stated problem, we have proposed an architecture named TreeDNN along with it's training methodology. TreeDNN helps in training the model with multiple datasets simultaneously, where each branch of the tree may need a different training dataset. We have shown in the results that TreeDNN provides competitive performance with the advantage of reduced ROM requirement for parameter storage and increased responsiveness of the system by loading only specific branch at inference time.
公開日:2022-12-07
翻訳日:2022-12-08 15:11:45
# deepspeed data efficiency: 効率的なデータサンプリングとルーティングによるディープラーニングモデルの品質とトレーニング効率の向上

DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing ( http://arxiv.org/abs/2212.03597v1 )

ライセンス: Link先を確認
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He(参考訳) ディープラーニングモデルの最近の進歩は、厳しいトレーニングコストを犠牲にしている。 モデルサイズの増加が根本原因の1つだが、もう1つの強調されていない事実は、データスケールが実際にモデルスケールと同じ速度で増加しており、トレーニングコストが両者に比例していることである。 急速に進化するモデルアーキテクチャと比較して、トレーニングデータ(特に高価な基礎モデル)を効率的に利用する方法は、データ効率能力に重点を置く便利なフレームワークが欠如しているため、調査が小さく、実現が困難である。 この目的のために,より優れたデータ利用,トレーニング効率の向上,モデル品質向上のためのフレームワークであるDeepSpeed Data Efficiencyライブラリを提案する。 具体的には、カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 deepspeed data efficiencyは拡張性、柔軟性、構成性を考慮しており、ユーザーはフレームワークを簡単に利用して複数のテクニックを組み立て、カスタマイズされた戦略を適用することができる。 GPT-3 1.3B と BERT-Large 言語モデル事前学習にソリューションを適用することで、データ量と時間量で最大2倍の時間と2倍の時間で類似したモデル品質を実現することができる。

Recent advances on deep learning models come at the price of formidable training cost. The increasing model size is one of the root cause, but another less-emphasized fact is that data scale is actually increasing at a similar speed as model scale, and the training cost is proportional to both of them. Compared to the rapidly evolving model architecture, how to efficiently use the training data (especially for the expensive foundation model pertaining) is both less explored and difficult to realize due to the lack of a convenient framework that focus on data efficiency capabilities. To this end, we present DeepSpeed Data Efficiency library, a framework that makes better use of data, increases training efficiency, and improves model quality. Specifically, it provides efficient data sampling via curriculum learning, and efficient data routing via random layerwise token dropping. DeepSpeed Data Efficiency takes extensibility, flexibility and composability into consideration, so that users can easily utilize the framework to compose multiple techniques and apply customized strategies. By applying our solution to GPT-3 1.3B and BERT-Large language model pretraining, we can achieve similar model quality with up to 2x less data and 2x less time, or achieve better model quality under similar amount of data and time.
公開日:2022-12-07
翻訳日:2022-12-08 15:11:35
# KATSum:知識を意識した抽象テキスト要約

KATSum: Knowledge-aware Abstractive Text Summarization ( http://arxiv.org/abs/2212.03371v1 )

ライセンス: Link先を確認
Guan Wang, Weihua Li, Edmund Lai, Jianhua Jiang(参考訳) テキスト要約はNLP下流タスクの一つとして認識されており,近年広く研究されている。 ニュース記事やソーシャル記事、ビデオなど、インターネットから情報を素早く知覚する人を助けることができる。 既存の研究の多くは、より良い出力を生み出すために要約モデルの開発を試みている。 しかし、ほとんどの既存モデルの出現制限は、不誠実さや事実的誤りを含む出現する。 本稿では,標準seq2seqモデルの拡張にナレッジグラフが提供する利点を活用して,ナレッジアウェア抽象テキスト要約と呼ばれる新しいモデルを提案する。 それに加えて、Knowledge Graph三つ子をソーステキストから抽出し、キーワードに関係情報を提供し、一貫性と事実的にエラーのない要約を生成する。 実世界のデータセットを用いて広範な実験を行う。 その結果,提案フレームワークは知識グラフからの情報を有効に活用し,要約の事実的誤りを著しく低減できることがわかった。

Text Summarization is recognised as one of the NLP downstream tasks and it has been extensively investigated in recent years. It can assist people with perceiving the information rapidly from the Internet, including news articles, social posts, videos, etc. Most existing research works attempt to develop summarization models to produce a better output. However, advent limitations of most existing models emerge, including unfaithfulness and factual errors. In this paper, we propose a novel model, named as Knowledge-aware Abstractive Text Summarization, which leverages the advantages offered by Knowledge Graph to enhance the standard Seq2Seq model. On top of that, the Knowledge Graph triplets are extracted from the source text and utilised to provide keywords with relational information, producing coherent and factually errorless summaries. We conduct extensive experiments by using real-world data sets. The results reveal that the proposed framework can effectively utilise the information from Knowledge Graph and significantly reduce the factual errors in the summary.
公開日:2022-12-06
翻訳日:2022-12-08 15:06:07
# HADAS:エッジパフォーマンススケーリングのためのハードウェア対応動的ニューラルネットワーク検索

HADAS: Hardware-Aware Dynamic Neural Architecture Search for Edge Performance Scaling ( http://arxiv.org/abs/2212.03354v1 )

ライセンス: Link先を確認
Halima Bouzidi, Mohanad Odema, Hamza Ouarnoughi, Mohammad Abdullah Al Faruque, Smail Niar(参考訳) 動的ニューラルネットワーク(DyNN)は、計算効率を保ちながらリソース制約されたエッジデバイス上でのインテリジェンスを実現するための有効な技術となっている。 多くの場合、DyNNの実装は、基礎となるバックボーンアーキテクチャが設計段階で開発されているため、下限の最適化が可能である。 (i)早期退社等の動的コンピューティング機能、 (II) 基盤となるハードウェア、例えば動的電圧および周波数スケーリング(DVFS)の資源効率特性。 HADASは,性能と資源効率を最大化するために,バックボーン,早期終了機能,DVFS設定を協調的に最適化した,DyNNアーキテクチャを実現する新しいハードウェア対応動的ニューラルネットワーク検索フレームワークである。 CIFAR-100データセットと様々なエッジコンピューティングプラットフォームを用いた実験では、HADASのダイナミックモデルが従来の動的モデルと比較して最大57%のエネルギー効率向上を実現し、所望の精度スコアを維持した。 私たちのコードはhttps://github.com/HalimaBouzidi/HADASで利用可能です。

Dynamic neural networks (DyNNs) have become viable techniques to enable intelligence on resource-constrained edge devices while maintaining computational efficiency. In many cases, the implementation of DyNNs can be sub-optimal due to its underlying backbone architecture being developed at the design stage independent of both: (i) the dynamic computing features, e.g. early exiting, and (ii) the resource efficiency features of the underlying hardware, e.g., dynamic voltage and frequency scaling (DVFS). Addressing this, we present HADAS, a novel Hardware-Aware Dynamic Neural Architecture Search framework that realizes DyNN architectures whose backbone, early exiting features, and DVFS settings have been jointly optimized to maximize performance and resource efficiency. Our experiments using the CIFAR-100 dataset and a diverse set of edge computing platforms have seen HADAS dynamic models achieve up to 57% energy efficiency gains compared to the conventional dynamic ones while maintaining the desired level of accuracy scores. Our code is available at https://github.com/HalimaBouzidi/HADAS
公開日:2022-12-06
翻訳日:2022-12-08 15:05:53
# JamPatoisNLI:ジャマイカのパトワの自然言語推論データセット

JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset ( http://arxiv.org/abs/2212.03419v1 )

ライセンス: Link先を確認
Ruth-Ann Armstrong, John Hewitt and Christopher Manning(参考訳) jampatoisnliはクレオール語で自然言語推論のための最初のデータセットであるジャマイカ語パトワを提供する。 語源の少ない言語の多くはクレオール語である。 これらの言語は、一般的に主要な世界言語から派生した語彙と、原語話者の言語とクレオール化による言語誕生の過程を反映した独特の文法を持っている。 これにより、大きな単言語または多言語事前学習モデルからの移動の有効性を探求する際、彼ら特有の場所となる。 我々の研究は、以前の研究とともに、これらのモデルからトレーニングセットの言語とは無関係な低リソース言語への移行は、あまり効果がないことを示しているが、クレオールへの移行によるより強力な結果が期待できる。 実際、我々の実験は、これらの非関連言語よりもJamPatoisNLIの少数ショット学習によるかなり良い結果を示し、クレオールと高リソースベース言語のユニークな関係が言語間移動にどのように影響するかを理解するのに役立ちます。 JamPatoisNLIは自然に生成された前提と専門家による仮説で構成され、伝統的に保存されていない言語の研究と言語間NLPを理解するための有用なベンチマークへのステップである。

JamPatoisNLI provides the first dataset for natural language inference in a creole language, Jamaican Patois. Many of the most-spoken low-resource languages are creoles. These languages commonly have a lexicon derived from a major world language and a distinctive grammar reflecting the languages of the original speakers and the process of language birth by creolization. This gives them a distinctive place in exploring the effectiveness of transfer from large monolingual or multilingual pretrained models. While our work, along with previous work, shows that transfer from these models to low-resource languages that are unrelated to languages in their training set is not very effective, we would expect stronger results from transfer to creoles. Indeed, our experiments show considerably better results from few-shot learning of JamPatoisNLI than for such unrelated languages, and help us begin to understand how the unique relationship between creoles and their high-resource base languages affect cross-lingual transfer. JamPatoisNLI, which consists of naturally-occurring premises and expert-written hypotheses, is a step towards steering research into a traditionally underserved language and a useful benchmark for understanding cross-lingual NLP.
公開日:2022-12-07
翻訳日:2022-12-08 15:05:37
# 大規模言語モデルについて

Talking About Large Language Models ( http://arxiv.org/abs/2212.03551v1 )

ライセンス: Link先を確認
Murray Shanahan(参考訳) 人工知能の急速な進歩により、私たちはテクノロジーと哲学が興味深い方法で交わる時代に入った。 この交差点の中心に直立する位置は、大きな言語モデル(LLM)である。 LLMが人間の言語を模倣するほど、人類同型化の脆弱さは増していき、それらが実際により人間らしく埋め込まれたシステムを見るようになる。 この傾向は、これらのシステムを記述する際に「知識」や「信念」や「思考」といった哲学的に読み込まれた用語を使う自然な傾向によって増幅される。 この傾向を緩和するため,本論文では,LLMの仕組みや,それらが実際に機能するシステムについて,繰り返し遡るプラクティスを提唱する。 科学的精度の向上は、人工知能に関する議論において、分野内と公共の領域の両方において、より哲学的なニュアンスを促進することを期待している。

Thanks to rapid progress in artificial intelligence, we have entered an era when technology and philosophy intersect in interesting ways. Sitting squarely at the centre of this intersection are large language models (LLMs). The more adept LLMs become at mimicking human language, the more vulnerable we become to anthropomorphism, to seeing the systems in which they are embedded as more human-like than they really are. This trend is amplified by the natural tendency to use philosophically loaded terms, such as "knows", "believes", and "thinks", when describing these systems. To mitigate this trend, this paper advocates the practice of repeatedly stepping back to remind ourselves of how LLMs, and the systems of which they form a part, actually work. The hope is that increased scientific precision will encourage more philosophical nuance in the discourse around artificial intelligence, both within the field and in the public sphere.
公開日:2022-12-07
翻訳日:2022-12-08 15:05:15
# 時空間2.5D点としての物体

Objects as Spatio-Temporal 2.5D points ( http://arxiv.org/abs/2212.02755v2 )

ライセンス: Link先を確認
Paridhi Singh, Gaurav Singh and Arun Kumar(参考訳) 映像中の物体やトラックの正確な鳥の視線(BEV)位置を決定することは、物体の相互作用マッピングやシナリオ抽出など様々な知覚タスクに不可欠であるが、それを達成するために必要な監督レベルは、調達が極めて困難である。 ネットワークの単一フィードフォワードパスにおける2次元物体検出とシーンの深度予測を共同で学習することにより,物体の3次元位置を推定する軽量で弱い教師付き手法を提案する。 提案手法は,中心点に基づく単発物体検出装置を拡張し,各オブジェクトを時空間的にBEVポイントとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。 このアプローチでは、簡単に利用可能な2Dオブジェクトの監視とLiDARポイントクラウド(トレーニング時にのみ使用される)を活用して、単一のネットワークを共同でトレーニングすることで、シーン全体の深さとともに2Dオブジェクトの検出を予測し、BEVのポイントとして時空間的にオブジェクトトラックをモデル化する。 提案手法は,最近の sota 手法と比較して計算量的に 10 万ドル以上効率がよいが,kitti 追跡ベンチマークでは同等の精度が得られる。

Determining accurate bird's eye view (BEV) positions of objects and tracks in a scene is vital for various perception tasks including object interactions mapping, scenario extraction etc., however, the level of supervision required to accomplish that is extremely challenging to procure. We propose a light-weight, weakly supervised method to estimate 3D position of objects by jointly learning to regress the 2D object detections and scene's depth prediction in a single feed-forward pass of a network. Our proposed method extends a center-point based single-shot object detector, and introduces a novel object representation where each object is modeled as a BEV point spatio-temporally, without the need of any 3D or BEV annotations for training and LiDAR data at query time. The approach leverages readily available 2D object supervision along with LiDAR point clouds (used only during training) to jointly train a single network, that learns to predict 2D object detection alongside the whole scene's depth, to spatio-temporally model object tracks as points in BEV. The proposed method is computationally over $\sim$10x efficient compared to recent SOTA approaches while achieving comparable accuracies on KITTI tracking benchmark.
公開日:2022-12-07
翻訳日:2022-12-08 15:05:00
# 幾何空間アグリゲータによる連続深度表現の学習

Learning Continuous Depth Representation via Geometric Spatial Aggregator ( http://arxiv.org/abs/2212.03499v1 )

ライセンス: Link先を確認
Xiaohang Wang, Xuanhong Chen, Bingbing Ni, Zhengyan Tong, Hang Wang(参考訳) 深度マップ超解像(DSR)は3次元コンピュータビジョンの基本的な課題である。 任意のスケールDSRは、このシナリオではより現実的な設定であるが、従来のアプローチは主に非効率な実数スケールアップサンプリングの問題に悩まされている。 そこで本研究では,DSRのための新しい連続深度表現法を提案する。 この表現の中心は我々の提案した幾何学的空間アグリゲータ (GSA) であり、これは任意にアップサンプリングされたターゲットグリッドにより変調された距離場を利用して、幾何学的情報を特徴集約とターゲット生成に明示的に導入する。 さらに,gsrを用いたブリック化により,局所座標と高分解能出力結果との関数マッピングを原理的に構築する手法を持つgeodsrというトランスフォーマチックバックボーンを提案する。 標準深度マップベンチマーク(nyu v2 など)の広範な実験結果から,提案手法が任意のスケール深度マップのスーパーレゾリューションにおいて,先行技術と比較して相当な回復率を達成できることが示されている。 私たちのコードはhttps://github.com/nana01219/geodsrで利用可能です。

Depth map super-resolution (DSR) has been a fundamental task for 3D computer vision. While arbitrary scale DSR is a more realistic setting in this scenario, previous approaches predominantly suffer from the issue of inefficient real-numbered scale upsampling. To explicitly address this issue, we propose a novel continuous depth representation for DSR. The heart of this representation is our proposed Geometric Spatial Aggregator (GSA), which exploits a distance field modulated by arbitrarily upsampled target gridding, through which the geometric information is explicitly introduced into feature aggregation and target generation. Furthermore, bricking with GSA, we present a transformer-style backbone named GeoDSR, which possesses a principled way to construct the functional mapping between local coordinates and the high-resolution output results, empowering our model with the advantage of arbitrary shape transformation ready to help diverse zooming demand. Extensive experimental results on standard depth map benchmarks, e.g., NYU v2, have demonstrated that the proposed framework achieves significant restoration gain in arbitrary scale depth map super-resolution compared with the prior art. Our codes are available at https://github.com/nana01219/GeoDSR.
公開日:2022-12-07
翻訳日:2022-12-08 15:04:40
# LWSIS:LiDAR誘導の弱めに監視された自動運転用インスタンスセグメンテーション

LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for Autonomous Driving ( http://arxiv.org/abs/2212.03504v1 )

ライセンス: Link先を確認
Xiang Li, Junbo Yin, Botian Shi, Yikang Li, Ruigang Yang, Jianbin Shen(参考訳) イメージインスタンスのセグメンテーションは自動運転の基本的な研究テーマであり、シーン理解と道路安全に不可欠である。 高度な学習ベースのアプローチは、トレーニングに高価な2Dマスクアノテーションに依存することが多い。 本稿では,市販の3dデータ,すなわち3dボックスと共にポイントクラウドを活用し,2dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手法として,lidar誘導型弱教師付きインスタンスセグメンテーション(lwsis)という,より芸術的なフレームワークを提案する。 lwsisはトレーニング中のマルチモーダルデータの補完情報を利用するだけでなく,密集した2dマスクのアノテーションコストを大幅に削減する。 LWSISは2つの重要なモジュール、Point Label Assignment (PLA) と Graph-based Consistency Regularization (GCR) で構成されている。 前者のモジュールは3Dポイントクラウドを2Dポイントワイズラベルとして自動的に割り当てることを目的としており、後者は幾何とマルチモーダルデータの外観整合性を強制することによって予測をさらに洗練する。 さらに, nuInsSeg と呼ばれる nuScenes 上で二次インスタンスセグメンテーションアノテーションを実施し, マルチモーダル認識タスクのさらなる研究を奨励する。 nuInsSegの大規模な実験は、大規模なWaymoと同様に、LWSISがトレーニング中に3Dデータのみを含むことによって、既存の弱教師付きセグメンテーションモデルを大幅に改善できることを示している。 さらに、lwsisをpointpaintingのような3dオブジェクト検出器に組み込むことで、3d検出性能を無償で向上することができる。 コードとデータセットはhttps://github.com/serenos/lwsisで入手できる。

Image instance segmentation is a fundamental research topic in autonomous driving, which is crucial for scene understanding and road safety. Advanced learning-based approaches often rely on the costly 2D mask annotations for training. In this paper, we present a more artful framework, LiDAR-guided Weakly Supervised Instance Segmentation (LWSIS), which leverages the off-the-shelf 3D data, i.e., Point Cloud, together with the 3D boxes, as natural weak supervisions for training the 2D image instance segmentation models. Our LWSIS not only exploits the complementary information in multimodal data during training, but also significantly reduces the annotation cost of the dense 2D masks. In detail, LWSIS consists of two crucial modules, Point Label Assignment (PLA) and Graph-based Consistency Regularization (GCR). The former module aims to automatically assign the 3D point cloud as 2D point-wise labels, while the latter further refines the predictions by enforcing geometry and appearance consistency of the multimodal data. Moreover, we conduct a secondary instance segmentation annotation on the nuScenes, named nuInsSeg, to encourage further research on multimodal perception tasks. Extensive experiments on the nuInsSeg, as well as the large-scale Waymo, show that LWSIS can substantially improve existing weakly supervised segmentation models by only involving 3D data during training. Additionally, LWSIS can also be incorporated into 3D object detectors like PointPainting to boost the 3D detection performance for free. The code and dataset are available at https://github.com/Serenos/LWSIS.
公開日:2022-12-07
翻訳日:2022-12-08 15:04:20
# 信頼性分布損失ネットワークの効率的な変化推定法

Efficient Stein Variational Inference for Reliable Distribution-lossless Network Pruning ( http://arxiv.org/abs/2212.03537v1 )

ライセンス: Link先を確認
Yingchun Wang, Song Guo, Jingcai Guo, Weizhan Zhang, Yida Xu, Jie Zhang, Yi Liu(参考訳) ネットワークプルーニングは、軽量だが正確なモデルを生成し、リソース制限のあるエッジデバイスへのデプロイを可能にする、有望な方法である。 しかし、現在の最先端技術では、与えられたネットワーク内の有効なサブネットワークと他の超流動パラメータが同じ分布を共有していると仮定している。 通常はゼロに近い値を排除する。 単純ではあるが、効果的なモデルは自然にそれに関連する多くの小さな値を持つので、最も適切な方法ではないかもしれない。 既にモデル空間に埋め込まれているニアゼロ値の除去は、モデルの精度を著しく低下させる可能性がある。 別の研究の行は、人間による先行仮説に依存しているすべての可能なサブ構造に対して、個別の事前を割り当てることを提案した。 さらに悪いことに、既存の手法では正規化された点推定、すなわちハードプルーニングを使用しており、プルーニングされたネットワークのエラー推定や信頼性の正当性は提供できない。 本稿では,ベイズ処理における緑化抽選を理論的に見つけるために,DLLPという新しい分布ロスレスプルーニング法を提案する。 具体的には、DLLPはバニラネットワークを、潜在プルーンドモデルと他の冗長性のための離散的な先行としてモデル化する。 さらに重要なことは、DLLPはStein Variational Inferenceを使用して、潜伏した事前にアプローチし、未知の分布を持つKLの発散を計算するのを効果的にバイパスする。 小型Cifar-10と大規模ImageNetを併用した大規模実験により,本手法は解析性能の高いスペーサーネットワークを実現できることを示した。

Network pruning is a promising way to generate light but accurate models and enable their deployment on resource-limited edge devices. However, the current state-of-the-art assumes that the effective sub-network and the other superfluous parameters in the given network share the same distribution, where pruning inevitably involves a distribution truncation operation. They usually eliminate values near zero. While simple, it may not be the most appropriate method, as effective models may naturally have many small values associated with them. Removing near-zero values already embedded in model space may significantly reduce model accuracy. Another line of work has proposed to assign discrete prior over all possible sub-structures that still rely on human-crafted prior hypotheses. Worse still, existing methods use regularized point estimates, namely Hard Pruning, that can not provide error estimations and fail reliability justification for the pruned networks. In this paper, we propose a novel distribution-lossless pruning method, named DLLP, to theoretically find the pruned lottery within Bayesian treatment. Specifically, DLLP remodels the vanilla networks as discrete priors for the latent pruned model and the other redundancy. More importantly, DLLP uses Stein Variational Inference to approach the latent prior and effectively bypasses calculating KL divergence with unknown distribution. Extensive experiments based on small Cifar-10 and large-scaled ImageNet demonstrate that our method can obtain sparser networks with great generalization performance while providing quantified reliability for the pruned model.
公開日:2022-12-07
翻訳日:2022-12-08 15:03:49
# ビデオ学習者のための微調整CLIPモデル

Fine-tuned CLIP Models are Efficient Video Learners ( http://arxiv.org/abs/2212.03640v1 )

ライセンス: Link先を確認
Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan(参考訳) 画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 ビデオの同様のスケールでのトレーニングは不可能であるため、近年のアプローチでは、画像ベースのCLIPをビデオドメインに効果的に転送することに重点を置いている。 この追求では、細心の注意を要する時間情報とフレーム間の関係を学ぶために新しいパラメトリックモジュールが追加される。 さらに、結果モデルがビデオで学習されると、与えられたタスクの分散と一般化の側面の欠如に過剰にフィットする傾向があります。 画像レベルのクリップ表現をビデオに効果的に転送するには、どうすればよいのか? そこで本研究では,映像から映像へのドメイン間ギャップを埋めるために,簡易なビデオ微調整クリップ(vifi-clip)ベースラインが一般的に十分であることを示す。 定性解析により,クリップ画像エンコーダからのフレームレベルの処理が,vifi-clip内の時間的手がかりを暗黙的にモデル化するのに有効であることを示す。 このような微調整は、モデルがシーンダイナミクス、オブジェクトの移動、オブジェクト間の関係に集中するのに役立ちます。 完全な微調整が不可能な低データ体制では、まずファインチューニングを使用してドメインギャップをブリッジし、次に言語と視覚のプロンプトを学習してCLIP表現を適応する'ブリッジとプロンプト'アプローチを提案する。 ゼロショット・ベース・ツー・ノーベル一般化・少数ショット・完全教師付き設定を5つのビデオベンチマークで評価した。 私たちのコードはhttps://github.com/muzairkhattak/ViFi-CLIPで利用可能です。

Large-scale multi-modal training with image-text pairs imparts strong generalization to CLIP model. Since training on a similar scale for videos is infeasible, recent approaches focus on the effective transfer of image-based CLIP to the video domain. In this pursuit, new parametric modules are added to learn temporal information and inter-frame relationships which require meticulous design efforts. Furthermore, when the resulting models are learned on videos, they tend to overfit on the given task distribution and lack in generalization aspect. This begs the following question: How to effectively transfer image-level CLIP representations to videos? In this work, we show that a simple Video Fine-tuned CLIP (ViFi-CLIP) baseline is generally sufficient to bridge the domain gap from images to videos. Our qualitative analysis illustrates that the frame-level processing from CLIP image-encoder followed by feature pooling and similarity matching with corresponding text embeddings helps in implicitly modeling the temporal cues within ViFi-CLIP. Such fine-tuning helps the model to focus on scene dynamics, moving objects and inter-object relationships. For low-data regimes where full fine-tuning is not viable, we propose a `bridge and prompt' approach that first uses fine-tuning to bridge the domain gap and then learns prompts on language and vision side to adapt CLIP representations. We extensively evaluate this simple yet strong baseline on zero-shot, base-to-novel generalization, few-shot and fully supervised settings across five video benchmarks. Our code is available at https://github.com/muzairkhattak/ViFi-CLIP.
公開日:2022-12-06
翻訳日:2022-12-08 15:03:23
# 顔領域変位軌跡系列に基づく顔偽造検出

Face Forgery Detection Based on Facial Region Displacement Trajectory Series ( http://arxiv.org/abs/2212.03678v1 )

ライセンス: Link先を確認
YuYang Sun, ZhiYong Zhang, Isao Echizen, Huy H.Nguyen, ChangZhen Qiu and Lu Sun(参考訳) deepfakes oneのようなディープラーニングベースの技術は、社会とアカデミア、特に鍛造顔画像の合成に使われるものの両方で広く注目を集めている。 これらの自動およびプロのスキルフリーな顔操作技術は、表情とデメネータを維持しながら、元の画像またはビデオの顔を任意のターゲットオブジェクトに置き換えることができる。 人間の顔はアイデンティティの特徴と密接に関連しているため、悪質に拡散されたアイデンティティ操作されたビデオは、メディアに対する公衆の信頼の危機を招き、深刻な政治的、社会的、法的影響をもたらす可能性がある。 操作された映像を効果的に検出するために,顔ブレンディングプロセスにおける位置オフセットに着目し,正規化顔の強制アフィン変換を行った。 本稿では,顔領域変位の軌跡に基づく操作映像の検出手法を提案する。 具体的には,変位情報をロバストに表現できる仮想アンカーを用いた顔の軌跡抽出手法を開発した。 この情報は、二重ストリーム空間-時間グラフの注意とゲートリカレント単位バックボーンに基づく操作ビデオの軌跡列において、多次元アーティファクトを露出するネットワークを構築するために用いられた。 本手法を様々な操作データセットで検証したところ,その精度と一般化能力は先行検出法と競合することがわかった。

Deep-learning-based technologies such as deepfakes ones have been attracting widespread attention in both society and academia, particularly ones used to synthesize forged face images. These automatic and professional-skill-free face manipulation technologies can be used to replace the face in an original image or video with any target object while maintaining the expression and demeanor. Since human faces are closely related to identity characteristics, maliciously disseminated identity manipulated videos could trigger a crisis of public trust in the media and could even have serious political, social, and legal implications. To effectively detect manipulated videos, we focus on the position offset in the face blending process, resulting from the forced affine transformation of the normalized forged face. We introduce a method for detecting manipulated videos that is based on the trajectory of the facial region displacement. Specifically, we develop a virtual-anchor-based method for extracting the facial trajectory, which can robustly represent displacement information. This information was used to construct a network for exposing multidimensional artifacts in the trajectory sequences of manipulated videos that is based on dual-stream spatial-temporal graph attention and a gated recurrent unit backbone. Testing of our method on various manipulation datasets demonstrated that its accuracy and generalization ability is competitive with that of the leading detection methods.
公開日:2022-12-07
翻訳日:2022-12-08 15:02:53
# ペルソナに基づく会話型AIの現状と課題

Persona-Based Conversational AI: State of the Art and Challenges ( http://arxiv.org/abs/2212.03699v1 )

ライセンス: Link先を確認
Junfeng Liu, Christopher Symons, Ranga Raju Vatsavai(参考訳) 会話型AIは、機械学習の目立った実践的応用になりつつある。 しかし、既存の会話型ai技術には様々な制限がある。 そのような制限の一つは、モデルが会話の文脈をよりよく理解するのに役立つ補助情報を組み込む方法が十分に開発されていないことである。 本稿では,会話における応答生成の質向上にペルソナ情報がどのように役立つかを検討する。 まず,ペルソナ情報を利用した最先端の手法に着目した文献レビューを行う。 neurips convai2ベンチマークデータセット上で,ランキングプロファイルメモリネットワークとポリエンコーダという2つの強力なベースライン手法を評価した。 本分析は,会話システムにおけるペルソナ情報の導入の重要性を明らかにする。 さらに、現在の最先端の手法に対するいくつかの制限を強調し、パーソナライズされた対話型AI技術を推進するための課題と今後の研究方向性を概説する。

Conversational AI has become an increasingly prominent and practical application of machine learning. However, existing conversational AI techniques still suffer from various limitations. One such limitation is a lack of well-developed methods for incorporating auxiliary information that could help a model understand conversational context better. In this paper, we explore how persona-based information could help improve the quality of response generation in conversations. First, we provide a literature review focusing on the current state-of-the-art methods that utilize persona information. We evaluate two strong baseline methods, the Ranking Profile Memory Network and the Poly-Encoder, on the NeurIPS ConvAI2 benchmark dataset. Our analysis elucidates the importance of incorporating persona information into conversational systems. Additionally, our study highlights several limitations with current state-of-the-art methods and outlines challenges and future research directions for advancing personalized conversational AI technology.
公開日:2022-12-04
翻訳日:2022-12-08 14:56:57
# デュエロスにおけるプロアクティブインタラクション機構に対するトランスフォーマティブユーザ満足度予測

A Transformer-Based User Satisfaction Prediction for Proactive Interaction Mechanism in DuerOS ( http://arxiv.org/abs/2212.03817v1 )

ライセンス: Link先を確認
Wei Shen, Xiaonan He, Chuheng Zhang, Xuyun Zhang, Jian XIe(参考訳) 近年,音声対話システムは様々なアプリケーションに広く利用されており,多くのエンドユーザに役立っている。 一般的な問題は、騒々しい発声、意味的な誤解、知識の欠如によるエラーによって、実際のシステムが適切に応答することが難しくなり、おそらく満足できないユーザエクスペリエンスにつながることである。 このようなケースを避けるために,ユーザに対して提示する前に,システムがユーザの満足度を候補応答で予測する能動的インタラクション機構を検討する。 ユーザが予測に従って満足できない場合、システムは、応答を直接提供するのではなく、ユーザの本当の意図を決定するのに適した質問をユーザに尋ねる。 このようなユーザとのインタラクションによって、システムはユーザによりよい応答を与えることができる。 ユーザ満足度を予測する従来のモデルは,大規模な商用対話システムであるDuerOSには適用できない。 これらは手作りの機能に基づいており、数百万の会話の背後にある複雑なパターンや、会話の複数回にわたる時間的依存をほとんど学べない。 さらに,市販の対話システムでは高コストである適切なラベルでベンチマークデータセットをトレーニングし,評価する。 これらの課題に対処するために,DuerOSが各ターンで明確化を求めるかどうかを判断する上で,ユーザ満足度を予測するパイプラインを提案する。 具体的には、まず多数の弱いラベルを生成し、次にトランスフォーマーベースモデルでこれらの弱いラベルでユーザ満足度を予測することを提案する。 実験では,dueros上でモデルのデプロイと評価を行い,ユーザ満足度予測の精度が19%,ユーザエクスペリエンスが2.3%向上したことを確認した。

Recently, spoken dialogue systems have been widely deployed in a variety of applications, serving a huge number of end-users. A common issue is that the errors resulting from noisy utterances, semantic misunderstandings, or lack of knowledge make it hard for a real system to respond properly, possibly leading to an unsatisfactory user experience. To avoid such a case, we consider a proactive interaction mechanism where the system predicts the user satisfaction with the candidate response before giving it to the user. If the user is not likely to be satisfied according to the prediction, the system will ask the user a suitable question to determine the real intent of the user instead of providing the response directly. With such an interaction with the user, the system can give a better response to the user. Previous models that predict the user satisfaction are not applicable to DuerOS which is a large-scale commercial dialogue system. They are based on hand-crafted features and thus can hardly learn the complex patterns lying behind millions of conversations and temporal dependency in multiple turns of the conversation. Moreover, they are trained and evaluated on the benchmark datasets with adequate labels, which are expensive to obtain in a commercial dialogue system. To face these challenges, we propose a pipeline to predict the user satisfaction to help DuerOS decide whether to ask for clarification in each turn. Specifically, we propose to first generate a large number of weak labels and then train a transformer-based model to predict the user satisfaction with these weak labels. Empirically, we deploy and evaluate our model on DuerOS, and observe a 19% relative improvement on the accuracy of user satisfaction prediction and 2.3% relative improvement on user experience.
公開日:2022-12-05
翻訳日:2022-12-08 14:56:42
# 教師なし言語モデルにおける潜在知識の発見

Discovering Latent Knowledge in Language Models Without Supervision ( http://arxiv.org/abs/2212.03827v1 )

ライセンス: Link先を確認
Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt(参考訳) 言語モデルのトレーニングのための既存のテクニックは、真実とミスアライメントすることができる: 模倣学習でモデルをトレーニングすれば、人間が犯すエラーを再現する可能性がある。 本稿では,言語モデルの内部アクティベーション内で,純粋に教師なしの方法で潜在知識を直接発見することで,この問題を回避することを提案する。 具体的には,ラベルのないモデルアクティベーションのみに与えられるイエスノー質問に正確に答える手法を提案する。 これは、文とその否定が真理値と反対であるような論理的整合性を満たす活性化空間の方向を見つけることで機能する。 教師なし, モデル出力がないにもかかわらず, 提案手法は, 大規模言語モデルで表現される多様な知識を, 6つのモデルと10の質問応答データセットで回収し, ゼロショット精度を平均4倍に向上させることを示した。 また、モデルが誤った回答を生成するように促された場合でも、迅速な感度を半分に減らし、高い精度を維持し続けることもわかりました。 私たちの結果は、明示的な基底的真理ラベルにアクセスできない場合でも、言語モデルが知っていることを発見するための最初のステップを提供します。

Existing techniques for training language models can be misaligned with the truth: if we train models with imitation learning, they may reproduce errors that humans make; if we train them to generate text that humans rate highly, they may output errors that human evaluators can't detect. We propose circumventing this issue by directly finding latent knowledge inside the internal activations of a language model in a purely unsupervised way. Specifically, we introduce a method for accurately answering yes-no questions given only unlabeled model activations. It works by finding a direction in activation space that satisfies logical consistency properties, such as that a statement and its negation have opposite truth values. We show that despite using no supervision and no model outputs, our method can recover diverse knowledge represented in large language models: across 6 models and 10 question-answering datasets, it outperforms zero-shot accuracy by 4\% on average. We also find that it cuts prompt sensitivity in half and continues to maintain high accuracy even when models are prompted to generate incorrect answers. Our results provide an initial step toward discovering what language models know, distinct from what they say, even when we don't have access to explicit ground truth labels.
公開日:2022-12-07
翻訳日:2022-12-08 14:56:16
# Diffusion-SDF:Voxelized Diffusionによるテキスト・ツー・シェイプ

Diffusion-SDF: Text-to-Shape via Voxelized Diffusion ( http://arxiv.org/abs/2212.03293v1 )

ライセンス: Link先を確認
Muheng Li, Yueqi Duan, Jie Zhou, Jiwen Lu(参考訳) 3d仮想モデリング技術への産業的注目が高まり、特定の条件(テキストなど)に基づいた新たな3dコンテンツの生成がホットな問題となっている。 本稿では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。 従来のアプローチでは、3Dデータ表現と形状生成の両方に柔軟性が欠けており、与えられたテキスト記述に応じて高度に多様化された3D形状を生成することができない。 これを解決するために,Voxelized DiffusionモデルとともにSDFオートエンコーダを提案し,3次元形状のvoxelized signed distance field (SDF) の表現を学習・生成する。 具体的には,標準的なU-Netアーキテクチャ内にローカルなネットワークを組み込む新しいUinU-Netアーキテクチャを設計し,パッチ非依存のSDF表現を再構築する。 我々はこのアプローチを,テキストコンディショニングによる形状の補完や操作を含む,さらにテキストから形状へのタスクに拡張する。 実験の結果, 拡散sdfは, テキスト記述によく適合する高品質かつ高度に多様化した3次元形状を生成できることがわかった。 拡散SDFは従来の最先端のテキスト・ツー・シェイプ・アプローチと比較して優位性を示している。

With the rising industrial attention to 3D virtual modeling technology, generating novel 3D content based on specified conditions (e.g. text) has become a hot issue. In this paper, we propose a new generative 3D modeling framework called Diffusion-SDF for the challenging task of text-to-shape synthesis. Previous approaches lack flexibility in both 3D data representation and shape generation, thereby failing to generate highly diversified 3D shapes conforming to the given text descriptions. To address this, we propose a SDF autoencoder together with the Voxelized Diffusion model to learn and generate representations for voxelized signed distance fields (SDFs) of 3D shapes. Specifically, we design a novel UinU-Net architecture that implants a local-focused inner network inside the standard U-Net architecture, which enables better reconstruction of patch-independent SDF representations. We extend our approach to further text-to-shape tasks including text-conditioned shape completion and manipulation. Experimental results show that Diffusion-SDF is capable of generating both high-quality and highly diversified 3D shapes that conform well to the given text descriptions. Diffusion-SDF has demonstrated its superiority compared to previous state-of-the-art text-to-shape approaches.
公開日:2022-12-06
翻訳日:2022-12-08 14:55:53
# 人工知能セキュリティコンペティション(AISC)

Artificial Intelligence Security Competition (AISC) ( http://arxiv.org/abs/2212.03412v1 )

ライセンス: Link先を確認
Yinpeng Dong, Peng Chen, Senyou Deng, Lianji L, Yi Sun, Hanyu Zhao, Jiaxing Li, Yunteng Tan, Xinyu Liu, Yangyi Dong, Enhui Xu, Jincai Xu, Shu Xu, Xuelin Fu, Changfeng Sun, Haoliang Han, Xuchong Zhang, Shen Chen, Zhimin Sun, Junyi Cao, Taiping Yao, Shouhong Ding, Yu Wu, Jian Lin, Tianpeng Wu, Ye Wang, Yu Fu, Lin Feng, Kangkang Gao, Zeyu Liu, Yuanzhe Pang, Chengqi Duan, Huipeng Zhou, Yajie Wang, Yuhang Zhao, Shangbo Wu, Haoran Lyu, Zhiyu Lin, Yifei Gao, Shuang Li, Haonan Wang, Jitao Sang, Chen Ma, Junhao Zheng, Yijia Li, Chao Shen, Chenhao Lin, Zhichao Cui, Guoshuai Liu, Huafeng Shi, Kun Hu, Mengxin Zhang(参考訳) 人工知能(AI)のセキュリティは、安全で信頼性があり、信頼できるAIシステムに向けた重要な研究分野である。 AIセキュリティの研究を加速するため、AISCはZhonguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, RealAIによって、Zhonguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en)の一部として組織された。 このコンペには、deepfake security competition、autonomous driving security competition、face recognition security competitionの3つのトラックがある。 本報告では,これらの3トラックの競合ルールと,各トラックの上位チームのソリューションを紹介する。

The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
公開日:2022-12-07
翻訳日:2022-12-08 14:55:32
# MEDIAR:マルチモード顕微鏡のためのデータ中心とモデル中心の調和

MEDIAR: Harmony of Data-Centric and Model-Centric for Multi-Modality Microscopy ( http://arxiv.org/abs/2212.03465v1 )

ライセンス: Link先を確認
Gihun Lee, Sangmook Kim, Joonkee Kim, Se-Young Yun(参考訳) 細胞セグメンテーションは計算生物学解析の基本的な課題である。 細胞インスタンスの同定は、様々な下流生物医学研究における第一歩であることが多い。 しかし、近年の深層学習に基づく手法を含む多くのセルセグメンテーションアルゴリズムは、マルチモーダリティ環境下では限定的な一般性を示している。 この問題に対処するため,NeurIPS 2022にて多モード高分解能顕微鏡画像における微弱な細胞分離を行った。 本稿では,マルチモーダルなセルインスタンスセグメンテーションのための総合パイプラインであるMEDIARを提案する。 mediarは、データ中心とモデル中心のアプローチを学習と推論の戦略として調和させ、検証フェーズで0.9067 f1-scoreを達成し、時間予算を満足する。 その後の研究を促進するために、ソースコードとトレーニングされたモデルをオープンソースとして提供します。

Cell segmentation is a fundamental task for computational biology analysis. Identifying the cell instances is often the first step in various downstream biomedical studies. However, many cell segmentation algorithms, including the recently emerging deep learning-based methods, still show limited generality under the multi-modality environment. Weakly Supervised Cell Segmentation in Multi-modality High-Resolution Microscopy Images was hosted at NeurIPS 2022 to tackle this problem. We propose MEDIAR, a holistic pipeline for cell instance segmentation under multi-modality in this challenge. MEDIAR harmonizes data-centric and model-centric approaches as the learning and inference strategies, achieving a 0.9067 F1-score at the validation phase while satisfying the time budget. To facilitate subsequent research, we provide the source code and trained model as open-source: https://github.com/Lee-Gihun/MEDIAR
公開日:2022-12-07
翻訳日:2022-12-08 14:55:14
# パドル:位相振幅スペクトルの不等角化早期停止による雑音ラベル学習

PADDLES: Phase-Amplitude Spectrum Disentangled Early Stopping for Learning with Noisy Labels ( http://arxiv.org/abs/2212.03462v1 )

ライセンス: Link先を確認
Huaxi Huang, Hui Kang, Sheng Liu, Olivier Salvado, Thierry Rakotoarivelo, Dadong Wang, Tongliang Liu(参考訳) 畳み込みニューラルネットワーク(CNN)は、学習パターンの優位性を示しているが、ラベルノイズに敏感であり、トレーニング中にノイズラベルをオーバーフィットさせる可能性がある。 早期停止戦略は初期訓練段階でcnnの更新を回避し、ノイズラベルの存在下で広く採用されている。 動物の視覚系において周波数領域の振幅スペクトル(AS)と位相スペクトル(PS)が異なる役割を担っているという生物学的知見により、より意味的な情報を捉えるPSは、ASよりもDNNの頑健性を高め、ノイズをラベル付けできる可能性が示唆された。 そこで我々は,DFT(Disdisrete Fourier Transform)を用いて,いくつかの層の特徴をASとPSに切り離すことにより,ASとPSの異なるタイミングで早期停止を提案する。 提案手法は,合成データと実世界のラベルノイズデータセットの両方に有効であることが示された。 PADDLESは、他の早期停止方法より優れ、最先端のパフォーマンスを得る。

Convolutional Neural Networks (CNNs) have demonstrated superiority in learning patterns, but are sensitive to label noises and may overfit noisy labels during training. The early stopping strategy averts updating CNNs during the early training phase and is widely employed in the presence of noisy labels. Motivated by biological findings that the amplitude spectrum (AS) and phase spectrum (PS) in the frequency domain play different roles in the animal's vision system, we observe that PS, which captures more semantic information, can increase the robustness of DNNs to label noise, more so than AS can. We thus propose early stops at different times for AS and PS by disentangling the features of some layer(s) into AS and PS using Discrete Fourier Transform (DFT) during training. Our proposed Phase-AmplituDe DisentangLed Early Stopping (PADDLES) method is shown to be effective on both synthetic and real-world label-noise datasets. PADDLES outperforms other early stopping methods and obtains state-of-the-art performance.
公開日:2022-12-07
翻訳日:2022-12-08 14:55:00
# セタチアン自動光識別を目指して:海洋生態学における細粒・小ショット学習の枠組み

Towards Automatic Cetacean Photo-Identification: A Framework for Fine-Grain, Few-Shot Learning in Marine Ecology ( http://arxiv.org/abs/2212.03646v1 )

ライセンス: Link先を確認
Cameron Trotter, Nick Wright, A. Stephen McGough, Matt Sharpe, Barbara Cheney, M\`onica Arso Civil, Reny Tyson Moore, Jason Allen, Per Berggren(参考訳) 光同定法(photo-id)は、海洋研究者がcetacean (dolphin, whale, porpoise)の個体数を監視するために用いた、非侵襲的な捕獲回収法である。 この方法は歴史的に手作業で行われており、大量の画像が収集されたため、高い作業負荷とコストがかかる。 近年、写真IDの高速化のために自動アシストが開発されているが、処理に不随意であり、利用可能なすべての識別情報を活用していないことが多い。 本稿では, 収穫などのデータ前処理を必要とせずに, 利用可能なすべての情報に基づいて, ほぼ確実に一致することのできる, 完全自動写真ID支援の実現を目的とする。 これは、個々のレベルのカタログマッチングのために下流に渡す前に、未編集のフィールド画像中のセタサンを検出することを目的としたコンピュータビジョンモデルのパイプラインと後処理技術によって達成される。 このシステムは、未対応の個人を扱い、カタログの類似性比較によってそれらを調査のためにフラグ付けする。 本システムは,タンザニアとイギリスにおけるカタログの背びれ検出のタスクにmAP@IOU[0.5] = 0.91, 0.96, 英国およびイギリスにおけるカタログの個別分類のタスクに83.1, 97.5%の精度で評価された。

Photo-identification (photo-id) is one of the main non-invasive capture-recapture methods utilised by marine researchers for monitoring cetacean (dolphin, whale, and porpoise) populations. This method has historically been performed manually resulting in high workload and cost due to the vast number of images collected. Recently automated aids have been developed to help speed-up photo-id, although they are often disjoint in their processing and do not utilise all available identifying information. Work presented in this paper aims to create a fully automatic photo-id aid capable of providing most likely matches based on all available information without the need for data pre-processing such as cropping. This is achieved through a pipeline of computer vision models and post-processing techniques aimed at detecting cetaceans in unedited field imagery before passing them downstream for individual level catalogue matching. The system is capable of handling previously uncatalogued individuals and flagging these for investigation thanks to catalogue similarity comparison. We evaluate the system against multiple real-life photo-id catalogues, achieving mAP@IOU[0.5] = 0.91, 0.96 for the task of dorsal fin detection on catalogues from Tanzania and the UK respectively and 83.1, 97.5% top-10 accuracy for the task of individual classification on catalogues from the UK and USA.
公開日:2022-12-07
翻訳日:2022-12-08 14:54:40
# 好奇心はポリシー検索の多様性を生み出す

Curiosity creates Diversity in Policy Search ( http://arxiv.org/abs/2212.03530v1 )

ライセンス: Link先を確認
Paul-Antoine Le Tolguenec, Emmanuel Rachelson, Yann Besse, Dennis G. Wilson(参考訳) ポリシーを探すとき、報酬の少ない環境は、どの行動を改善するか、避けるかについての十分な情報がないことが多い。 このような環境では、ポリシー検索プロセスは、報酬を得られる遷移を盲目的に検索することを余儀なくされ、早期報酬は、この探索をいずれかの方向にバイアスすることができない。 これを解決する方法のひとつは、報酬が見つかるまで、本質的なモチベーションを使って新しい移行を探索することだ。 本研究では,最近提案されている進化的政策探索手法における本質的動機づけ,好奇心の定義について述べる。 我々は,キュリオシティを適合度指標として用いる進化戦略であるcuriosity-esを提案する。 私たちは、一般的に使用される多様性の指標である、好奇心とノベルティを比較し、明示的な多様性基準を必要とせずに、キュリオシティが完全なエピソードよりも高い多様性を生み出すことができることを発見し、報酬を得る複数のポリシーに導く。

When searching for policies, reward-sparse environments often lack sufficient information about which behaviors to improve upon or avoid. In such environments, the policy search process is bound to blindly search for reward-yielding transitions and no early reward can bias this search in one direction or another. A way to overcome this is to use intrinsic motivation in order to explore new transitions until a reward is found. In this work, we use a recently proposed definition of intrinsic motivation, Curiosity, in an evolutionary policy search method. We propose Curiosity-ES, an evolutionary strategy adapted to use Curiosity as a fitness metric. We compare Curiosity with Novelty, a commonly used diversity metric, and find that Curiosity can generate higher diversity over full episodes without the need for an explicit diversity criterion and lead to multiple policies which find reward.
公開日:2022-12-07
翻訳日:2022-12-08 14:54:17
# 非退化サドル点の固定時間収束と高速蒸発を伴う一般化勾配流

Generalized Gradient Flows with Provable Fixed-Time Convergence and Fast Evasion of Non-Degenerate Saddle Points ( http://arxiv.org/abs/2212.03765v1 )

ライセンス: Link先を確認
Mayank Baranwal, Param Budhraja, Vishal Raj, Ashish R. Hota(参考訳) 勾配に基づく1次凸最適化アルゴリズムは、機械学習タスクを含む様々な領域で広く適用できる。 連続時間力学系の固定時間安定性理論の最近の進歩に動機づけられ、非凸関数のサブクラスにさらに拡張する最も強い収束保証を持つ高速化最適化アルゴリズムを設計するための一般化フレームワークを提案する。 特に,Polak-{\L}ojasiewicz (PL) の不等式を満たす目的関数の最適解に,固定時間で確実に収束する, \emph{GenFlow} アルゴリズムとその運動量不変量を導入する。 さらに、非退化サドル点を許容する関数に対しては、提案したGenFlowアルゴリズムでは、これらのサドル点を回避するのに要する時間は初期条件すべてに一様であることを示す。 最後に、最適解がサドル点である極小極小問題に対して、同様のスキームが固定時間内に再び最適解に到達することが示される。 このアルゴリズムの優れた収束特性は、様々なベンチマークデータセットで実験的に検証される。

Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
公開日:2022-12-07
翻訳日:2022-12-08 14:54:02
# 照明変化に適応したプローブによる網膜血管の分節化

Retinal vessel segmentation by probing adaptive to lighting variations ( http://arxiv.org/abs/2004.13992v1 )

ライセンス: Link先を確認
Guillaume Noyel (IPRI, SIGPH@iPRI), Christine Vartin (HCL), Peter Boyle (IPRI, SIGPH@iPRI), Laurent Kodjikian (MATEIS, HCL)(参考訳) そこで本研究では,光の変動に適応したアイファンダス画像の血管抽出手法を提案する。 対数画像処理フレームワークにおいて、3セグメントプローブは、下方から画像の地形面を探査して容器を検出する。 プローブと画像の間のコントラストのマップは、しきい値によって容器を検出することができる。 低コントラスト画像では,本手法が他の最先端技術よりも船体を抽出する方がよいことが示された。 高いコントラストを持つ画像データベース(DRIVE)では,その精度は0.9454であり,その精度は3つの最先端手法と同等かそれ以上である。 3つのベストメソッドは、別の専門家による手動セグメンテーションよりも精度が高い。 重要なことに,本手法は画像取得の照明条件に自動的に適応する。

We introduce a novel method to extract the vessels in eye fun-dus images which is adaptive to lighting variations. In the Logarithmic Image Processing framework, a 3-segment probe detects the vessels by probing the topographic surface of an image from below. A map of contrasts between the probe and the image allows to detect the vessels by a threshold. In a lowly contrasted image, results show that our method better extract the vessels than another state-of the-art method. In a highly contrasted image database (DRIVE) with a reference , ours has an accuracy of 0.9454 which is similar or better than three state-of-the-art methods and below three others. The three best methods have a higher accuracy than a manual segmentation by another expert. Importantly, our method automatically adapts to the lighting conditions of the image acquisition.
公開日:2020-04-29
翻訳日:2022-12-08 14:47:41
# 重み付き多項ロジスティック回帰分類器による垂直位置決め精度の向上

Improving Vertical Positioning Accuracy with the Weighted Multinomial Logistic Regression Classifier ( http://arxiv.org/abs/2004.13909v2 )

ライセンス: Link先を確認
Yiyan Yao and Xin-long Luo(参考訳) 本稿では,gps(global positioning system)情報と気圧値を用いて,垂直位置決め精度を向上させる手法を提案する。 まず、様々な環境で収集された生データのnull値をクリアし、3$\sigma$-ruleを使ってアウトリーチを識別する。 第二に、重み付き多項ロジスティック回帰(WMLR)分類器は、外れ値の予測高度を得るために訓練される。 最後に,MLR法,WMLR法,およびテストベースラインとみなすクリーン化データセットのサポートベクトルマシン(SVM)法を比較した。 その結果,垂直位置決め精度は5.9m(MLR法),5.4m(SVM法)から5m(WMLR法)に67%向上した。

In this paper, a method of improving vertical positioning accuracy with the Global Positioning System (GPS) information and barometric pressure values is proposed. Firstly, we clear null values for the raw data collected in various environments, and use the 3$\sigma$-rule to identify outliers. Secondly, the Weighted Multinomial Logistic Regression (WMLR) classifier is trained to obtain the predicted altitude of outliers. Finally, in order to verify its effect, we compare the MLR method, the WMLR method, and the Support Vector Machine (SVM) method for the cleaned dataset which is regarded as the test baseline. The numerical results show that the vertical positioning accuracy is improved from 5.9 meters (the MLR method), 5.4 meters (the SVM method) to 5 meters (the WMLR method) for 67% test points.
公開日:2020-06-18
翻訳日:2022-12-08 14:47:27
# Caramel: 計算スケジューリングによる分散分散ディープラーニングの高速化

Caramel: Accelerating Decentralized Distributed Deep Learning with Computation Scheduling ( http://arxiv.org/abs/2004.14020v1 )

ライセンス: Link先を確認
Sayed Hadi Hashemi, Sangeetha Abdu Jyothi, Brighten Godfrey, Roy Campbell(参考訳) ネットワーク集約型タスクであるdeep neural network(dnn)トレーニングにおけるパラメータアグリゲーションの選択方法は、より優れたパフォーマンスの理論的保証にインスパイアされたパラメータサーバモデルから分散アグリゲーションスキーム(allreduce)に移行する。 しかし、AllReduceの現在の実装は、通信と計算の相互依存性を見落とし、性能が大幅に低下する。 本稿では,AllReduceのモデル対応計算スケジューリングと通信最適化により分散分散ディープラーニングを高速化するシステムであるCaramelを開発する。 キャラメルはこの目標を達成する (a)各パラメータ(転送境界)の転送可能なウィンドウを拡張する計算DAGスケジューリング、及び b) 適応的バッチ化やパラメータ転送のパイプライン化を含む負荷の平滑化のためのネットワーク最適化を行う。 Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を必要としない。 TensorFlow上でCaramelを実装し、クラウド環境でのDNNトレーニングのイテレーション時間が最大3.62倍改善可能であることを示す。

The method of choice for parameter aggregation in Deep Neural Network (DNN) training, a network-intensive task, is shifting from the Parameter Server model to decentralized aggregation schemes (AllReduce) inspired by theoretical guarantees of better performance. However, current implementations of AllReduce overlook the interdependence of communication and computation, resulting in significant performance degradation. In this paper, we develop Caramel, a system that accelerates decentralized distributed deep learning through model-aware computation scheduling and communication optimizations for AllReduce. Caramel achieves this goal through (a) computation DAG scheduling that expands the feasible window of transfer for each parameter (transfer boundaries), and (b) network optimizations for smoothening of the load including adaptive batching and pipelining of parameter transfers. Caramel maintains the correctness of the dataflow model, is hardware-independent, and does not require any user-level or framework-level changes. We implement Caramel over TensorFlow and show that the iteration time of DNN training can be improved by up to 3.62x in a cloud environment.
公開日:2020-04-29
翻訳日:2022-12-08 14:47:11
# てんかん性脳波およびfmriデータの構造化因子化による神経血管結合バイオマーカーによるインターイクタルマッピングの増強

Augmenting interictal mapping with neurovascular coupling biomarkers by structured factorization of epileptic EEG and fMRI data ( http://arxiv.org/abs/2004.14185v1 )

ライセンス: Link先を確認
Simon Van Eyndhoven, Patrick Dupont, Simon Tousseyn, Nico Vervliet, Wim Van Paesschen, Sabine Van Huffel, Borb\'ala Hunyadi(参考訳) eeg-correlated fmri分析は、ictalの発症部位の局在を示す証拠となる、ictal epileptic dischargesと著しく同期する局所血中酸素濃度依存性の変動を検出するために広く用いられている。 しかし、このような非対称で大量不活性化的なアプローチでは、脳波データに内在する高次構造や、fmriデータにおける多変量関係は捉えられず、患者と脳領域の様々な神経血管結合を正確に扱うことは非自明である。 我々は,新しい構造的行列-テンソル因子分解法を用いて,これらの欠点を克服することを目的としている。 単一サブジェクトeegデータ(3次スペクトログラムテンソルとして表される)とfmriデータ(時空間的大胆な信号行列として表される)は,時空周波数プロファイルを特徴とする複数のソースの重ね合わせに分解される。 時間的共有モードでは、Toeplitz構造化因子は脳波とfMRIの時間的変動の間の空間的に特異的な神経血管の「ブリッジ」を説明でき、脳領域における血行動態の変動を捉える。 抽出されたソースシグネチャは、ictal発症ゾーンの感度の高い局在を提供し、さらに血行動態応答の空間的変動から補完的な局所化情報を導出できることを示す。 したがって、この多変量多変量分解は脳波-fMRIバイオマーカーの2つの有用なセットを提供する。 計算の実行に必要なすべてのコードを利用可能にします。

EEG-correlated fMRI analysis is widely used to detect regional blood oxygen level dependent fluctuations that are significantly synchronized to interictal epileptic discharges, which can provide evidence for localizing the ictal onset zone. However, such an asymmetrical, mass-univariate approach cannot capture the inherent, higher order structure in the EEG data, nor multivariate relations in the fMRI data, and it is nontrivial to accurately handle varying neurovascular coupling over patients and brain regions. We aim to overcome these drawbacks in a data-driven manner by means of a novel structured matrix-tensor factorization: the single-subject EEG data (represented as a third-order spectrogram tensor) and fMRI data (represented as a spatiotemporal BOLD signal matrix) are jointly decomposed into a superposition of several sources, characterized by space-time-frequency profiles. In the shared temporal mode, Toeplitz-structured factors account for a spatially specific, neurovascular `bridge' between the EEG and fMRI temporal fluctuations, capturing the hemodynamic response's variability over brain regions. We show that the extracted source signatures provide a sensitive localization of the ictal onset zone, and, moreover, that complementary localizing information can be derived from the spatial variation of the hemodynamic response. Hence, this multivariate, multimodal factorization provides two useful sets of EEG-fMRI biomarkers, which can inform the presurgical evaluation of epilepsy. We make all code required to perform the computations available.
公開日:2020-04-29
翻訳日:2022-12-08 14:46:52
# 安定保証制御のためのアクタ・クリティカル強化学習

Actor-Critic Reinforcement Learning for Control with Stability Guarantee ( http://arxiv.org/abs/2004.14288v3 )

ライセンス: Link先を確認
Minghao Han, Lixian Zhang, Jun Wang, Wei Pan(参考訳) 強化学習(rl)とそのディープラーニングとの統合は、動作計画やナビゲーションからエンドツーエンドの視覚操作に至るまで、さまざまなロボット制御タスクで印象的なパフォーマンスを達成している。 しかし、データのみを用いることで、モデルフリーなRLでは安定性は保証されない。 制御理論の観点からは、安定性はロボットシステムの安全性、堅牢性、信頼性に密接に関係しているため、制御システムにとって最も重要な特性である。 本稿では,古典的なリアプノフ法を制御理論に適用することにより,閉ループ安定性を保証できるアクタクリティカルな制御用RLフレームワークを提案する。 まず,マルコフ決定過程をモデルとした確率非線形システムに対して,データに基づく安定性定理を提案する。 そして,この安定性条件をアクタ批判的RLの批判者として活用して,コントローラ/政治を学ぶことを示す。 最後に, 3種類の物理シミュレーションプラットフォームにおいて, 3次元ロボット制御タスクと合成生物学遺伝子ネットワーク追跡タスクにおいて, 本手法の有効性が評価された。 安定性の利点に関する実証的な評価として,システムパラメトリックな変動や外乱などの不確実性に干渉された場合,学習したポリシが平衡点や経路点にある程度回復可能であることを示す。

Reinforcement Learning (RL) and its integration with deep learning have achieved impressive performance in various robotic control tasks, ranging from motion planning and navigation to end-to-end visual manipulation. However, stability is not guaranteed in model-free RL by solely using data. From a control-theoretic perspective, stability is the most important property for any control system, since it is closely related to safety, robustness, and reliability of robotic systems. In this paper, we propose an actor-critic RL framework for control which can guarantee closed-loop stability by employing the classic Lyapunov's method in control theory. First of all, a data-based stability theorem is proposed for stochastic nonlinear systems modeled by Markov decision process. Then we show that the stability condition could be exploited as the critic in the actor-critic RL to learn a controller/policy. At last, the effectiveness of our approach is evaluated on several well-known 3-dimensional robot control tasks and a synthetic biology gene network tracking task in three different popular physics simulation platforms. As an empirical evaluation on the advantage of stability, we show that the learned policies can enable the systems to recover to the equilibrium or way-points when interfered by uncertainties such as system parametric variations and external disturbances to a certain extent.
公開日:2020-07-15
翻訳日:2022-12-08 14:46:21
# ディープラーニングを用いた相対論的重イオン衝突状態方程式の分類

Classification of Equation of State in Relativistic Heavy-Ion Collisions Using Deep Learning ( http://arxiv.org/abs/2004.14409v2 )

ライセンス: Link先を確認
Yu. Kvasiuk, E. Zabrodin, L. Bravina, I. Didur, M. Frolov(参考訳) 深層学習の強力な手法である畳み込みニューラルネットワークを用いて,UrQMDモデル内で発生する重イオン衝突現象の状態の方程式を分類する。 プロトンのイベントバイイベント逆運動量と方位角分布を用いて分類器を訓練する。 Au+Auイベントの分類の全体的な精度は、$\sqrt{s_{NN}} = 11$ GeVである。 異なる衝突エネルギーの事象を学習した分類器の性能について検討した。 得られた結果は、重イオン衝突の物理における他の問題に対するDeep Learning法の適用の可能性を示している。

Convolutional Neural Nets, which is a powerful method of Deep Learning, is applied to classify equation of state of heavy-ion collision event generated within the UrQMD model. Event-by-event transverse momentum and azimuthal angle distributions of protons are used to train a classifier. An overall accuracy of classification of 98\% is reached for Au+Au events at $\sqrt{s_{NN}} = 11$ GeV. Performance of classifiers, trained on events at different colliding energies, is investigated. Obtained results indicate extensive possibilities of application of Deep Learning methods to other problems in physics of heavy-ion collisions.
公開日:2020-07-22
翻訳日:2022-12-08 14:46:01
# 機械学習による北エフ材料の相図の作成:スピン液体間の協調と競合

Revealing the Phase Diagram of Kitaev Materials by Machine Learning: Cooperation and Competition between Spin Liquids ( http://arxiv.org/abs/2004.14415v4 )

ライセンス: Link先を確認
Ke Liu, Nicolas Sadoune, Nihal Rao, Jonas Greitemann, and Lode Pollet(参考訳) キタエフ材料は、量子スピン液体をホストし、トポロジカルおよび対称性破壊相の相互作用を研究するための有望な材料である。 我々は,ハニカム・キタエフ-$\gamma$模型を磁場中で研究するために,教師なしかつ解釈可能な機械学習手法であるテンソル型カーネル支持ベクターマシンを用いた。 我々の機械は、いくつかの異なるスピン液体、2つのエキゾチックな$S_3$マグネット、2つの変調された$S_3 \times Z_3$マグネットを含む、グローバル古典相図と関連する分析秩序パラメータを学習する。 キタエフのスピン液体の伸長と磁場による磁気秩序の抑制は、既に大きな$s$の限界で発生しており、キタエフ物質の物理学の重要な部分が古典的レベルで理解可能であることを示唆している。 さらに、2つの$S_3 \times Z_3$オーダーは、北エフと$\Gamma$スピン液体の競合によって誘導され、スカラー位相因子の代わりに行列記述を必要とするスピン格子エンタングル変調の異なるタイプが特徴である。 我々の研究は、機械が新しいフェーズを検出し、多体物理学における未解決問題を探索する自動化ツールの開発への道を開く直接的な例を提供する。

Kitaev materials are promising materials for hosting quantum spin liquids and investigating the interplay of topological and symmetry-breaking phases. We use an unsupervised and interpretable machine-learning method, the tensorial-kernel support vector machine, to study the honeycomb Kitaev-$\Gamma$ model in a magnetic field. Our machine learns the global classical phase diagram and the associated analytical order parameters, including several distinct spin liquids, two exotic $S_3$ magnets, and two modulated $S_3 \times Z_3$ magnets. We find that the extension of Kitaev spin liquids and a field-induced suppression of magnetic order already occur in the large-$S$ limit, implying that critical parts of the physics of Kitaev materials can be understood at the classical level. Moreover, the two $S_3 \times Z_3$ orders are induced by competition between Kitaev and $\Gamma$ spin liquids and feature a different type of spin-lattice entangled modulation, which requires a matrix description instead of scalar phase factors. Our work provides a direct instance of a machine detecting new phases and paves the way towards the development of automated tools to explore unsolved problems in many-body physics.
公開日:2021-04-05
翻訳日:2022-12-08 14:45:53
# シャノンエントロピーを用いたNPAのグロース低減とデフォルマの分類

To Reduce Gross NPA and Classify Defaulters Using Shannon Entropy ( http://arxiv.org/abs/2004.14418v1 )

ライセンス: Link先を確認
Ambarish Moharil, Nikhil Sonavane, Chirag Kedia, Mansimran Singh Anand(参考訳) 非業績資産(NPA)はここ数年、銀行から深刻な注目を集めている。 NPAは銀行に大きな損失をもたらすため、どのローンがNPAになる能力を持つかを決め、どのローンを承認するか、どのローンを拒否するかを決定する非常に重要なステップとなる。 本稿では,金融データの正確さに着目したアルゴリズムを提案し,将来,特定のローンがNPAに分類されるかどうかを極めて高精度に予測する。 従来のより正確でない分類器の代わりに、どのローンをNPAにするかを決定するために、Entropyをベースとして独自の分類器モデルを構築します。 シャノンエントロピーを用いたエントロピーに基づく分類器を開発した。 分類器モデルは、データポイントを2つのカテゴリに分類します。 局所エントロピーとグローバルエントロピーを使用して、アウトプットを決定するのに役立ちます。 エントロピー分類器モデルは、NPAの予測に使われている既存の分類器と比較され、性能に関するアイデアが得られます。

Non Performing Asset(NPA) has been in a serious attention by banks over the past few years. NPA cause a huge loss to the banks hence it becomes an extremely critical step in deciding which loans have the capabilities to become an NPA and thereby deciding which loans to grant and which ones to reject. In this paper which focuses on the exact crux of the matter we have proposed an algorithm which is designed to handle the financial data very meticulously to predict with a very high accuracy whether a particular loan would be classified as a NPA in future or not. Instead of the conventional less accurate classifiers used to decide which loans can turn to be NPA we build our own classifier model using Entropy as the base. We have created an entropy based classifier using Shannon Entropy. The classifier model categorizes our data points in two categories accepted or rejected. We make use of local entropy and global entropy to help us determine the output. The entropy classifier model is then compared with existing classifiers used to predict NPAs thereby giving us an idea about the performance.
公開日:2020-04-29
翻訳日:2022-12-08 14:45:29