このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230318となっている論文です。

PDF登録状況(公開日: 20230318)

TitleAuthorsAbstract論文公表日・翻訳日
# パワースペクトル推定と不確かさ領域に基づく共分散行列再構成によるロバスト適応ビームフォーミングの検討

Study of Robust Adaptive Beamforming with Covariance Matrix Reconstruction Based on Power Spectral Estimation and Uncertainty Region ( http://arxiv.org/abs/2304.10502v1 )

ライセンス: Link先を確認
S. Mohammadzadeh, V. H. Nascimento, R. C. de Lamare, O. Kukrer(参考訳) 本研究では, 干渉+雑音(IPN)成分のパワースペクトル推定と不確実性領域(PSEUR)に基づく一様線形アレイに対して, 簡便で効果的な適応ビームフォーミング手法を提案する。 特に,干渉方向の空間的不確実性領域に基づいて,各スナップショットにおける干渉の角度セクタを求めるために2つのアルゴリズムが提案されている。 さらに, ipn共分散行列再構成のためのロバストな手法の開発を可能にする干渉成分と雑音成分のパワーの推定に基づいて, パワースペクトルを導入する。 提案手法の主な利点は2つある。 まず、配列データの統計に基づいて干渉方向を含む角領域を更新する。 第二に、提案手法は干渉セクタの可能な方向の全範囲のパワースペクトルの推定を回避している。 シミュレーションの結果,提案したIPN-PSEURビームフォーマの性能は,広帯域の信号-雑音比でほぼ常に最適値に近いことがわかった。

In this work, a simple and effective robust adaptive beamforming technique is proposed for uniform linear arrays, which is based on the power spectral estimation and uncertainty region (PSEUR) of the interference plus noise (IPN) components. In particular, two algorithms are presented to find the angular sector of interference in every snapshot based on the adopted spatial uncertainty region of the interference direction. Moreover, a power spectrum is introduced based on the estimation of the power of interference and noise components, which allows the development of a robust approach to IPN covariance matrix reconstruction. The proposed method has two main advantages. First, an angular region that contains the interference direction is updated based on the statistics of the array data. Secondly, the proposed IPN-PSEUR method avoids estimating the power spectrum of the whole range of possible directions of the interference sector. Simulation results show that the performance of the proposed IPN-PSEUR beamformer is almost always close to the optimal value across a wide range of signal-to-noise ratios.
翻訳日:2023-04-23 03:58:06 公開日:2023-03-18
# 自然法則発見のための機械学習

Machine learning for discovering laws of nature ( http://arxiv.org/abs/2303.17607v1 )

ライセンス: Link先を確認
Lizhi Xin, Kevin Xin, Houwen Xin(参考訳) 微視的粒子は量子力学の原理に従う。そこで、マクロと微視的世界の境界線はどこにあるのか? この「解釈問題」がシュリンガーに彼の有名な思考実験(死と生存の両方を同時に行う猫)を提案しさせ、量子測定問題に関する大きな議論を引き起こし、まだ満足できる答えは得られていない。 これは自然の法則を記述するための厳密な数学的モデルの不適切さである。 本研究では,自然選択に基づく自然法則を記述・理解するための計算モデルを提案する。 実際、それがマクロ粒子であれ、マイクロ電子であれ、セキュリティであれ、すべて実体と見なすことができ、時間とともにこの実体が変わることは、状態と値からなるデータシリーズによって説明できる。 観測者は、このデータ系列から理論(通常関数と微分方程式からなる)を構築することができる。 私たちは通常の関数や微分方程式ではなく、状態決定木(エンティティの状態を決定する)と値関数木(エンティティの2つの点の間の距離を決定する)でモデル化します。 状態決定木と値関数木は、エンティティの軌道を再構築し、その将来の軌道について予測することができる。 提案手法は観測者の期待値の最大化に基づいて観測された歴史的データ(観測対象の逐次測定)のみを学習することにより自然法則を発見する。 我々のモデルには微分方程式は存在せず、我々のモデルは機械学習に重点を置いており、オブザーバーは自身の決定ごとに報奨や罰を受け、最終的にはニュートンの法則、ボルンの法則(量子力学)、効率的な市場仮説(金融市場)を再発見する。

A microscopic particle obeys the principles of quantum mechanics -- so where is the sharp boundary between the macroscopic and microscopic worlds? It was this "interpretation problem" that prompted Schr\"odinger to propose his famous thought experiment (a cat that is simultaneously both dead and alive) and sparked a great debate about the quantum measurement problem, and there is still no satisfactory answer yet. This is precisely the inadequacy of rigorous mathematical models in describing the laws of nature. We propose a computational model to describe and understand the laws of nature based on Darwin's natural selection. In fact, whether it's a macro particle, a micro electron or a security, they can all be considered as an entity, the change of this entity over time can be described by a data series composed of states and values. An observer can learn from this data series to construct theories (usually consisting of functions and differential equations). We don't model with the usual functions or differential equations, but with a state Decision Tree (determines the state of an entity) and a value Function Tree (determines the distance between two points of an entity). A state Decision Tree and a value Function Tree together can reconstruct an entity's trajectory and make predictions about its future trajectory. Our proposed algorithmic model discovers laws of nature by only learning observed historical data (sequential measurement of observables) based on maximizing the observer's expected value. There is no differential equation in our model; our model has an emphasis on machine learning, where the observer builds up his/her experience by being rewarded or punished for each decision he/she makes, and eventually leads to rediscovering Newton's law, the Born rule (quantum mechanics) and the efficient market hypothesis (financial market).
翻訳日:2023-04-09 05:52:54 公開日:2023-03-18
# グラニュラーボール最適化アルゴリズム

Granular-ball Optimization Algorithm ( http://arxiv.org/abs/2303.12807v1 )

ライセンス: Link先を確認
Shuyin Xia, Jiancu Chen, Bin Hou, Guoyin Wang(参考訳) 既存のインテリジェント最適化アルゴリズムは、最も細かい粒度、すなわち点に基づいて設計されている。 これにより、グローバルな検索能力と非効率性が弱まる。 そこで本研究では,粒度最適化アルゴリズムである粒度ボール最適化アルゴリズム(gbo)を提案する。 GBOは、解空間をカバーするために多くの粒状ボールを使用する。 重要部分を描写するためには、小粒径のグラニュラーボールがかなり多く使われ、大粒のグラニュラーボールと粗粒のグラニュラーボールがわずかに数個使用されている。 精巧なマルチグラニュラ性データ記述能力により、グローバル検索能力が向上し、コンバージェンス速度が速くなる。 最もポピュラーで最先端のアルゴリズムと比較して、20のベンチマーク関数の実験は、その優れた性能を示している。 高速、高速、高速な最適解の近似能力、超パラメータなし、GBOのよりシンプルな設計により、既存の知能最適化アルゴリズムのほとんどを置き換えることができる。

The existing intelligent optimization algorithms are designed based on the finest granularity, i.e., a point. This leads to weak global search ability and inefficiency. To address this problem, we proposed a novel multi-granularity optimization algorithm, namely granular-ball optimization algorithm (GBO), by introducing granular-ball computing. GBO uses many granular-balls to cover the solution space. Quite a lot of small and fine-grained granular-balls are used to depict the important parts, and a little number of large and coarse-grained granular-balls are used to depict the inessential parts. Fine multi-granularity data description ability results in a higher global search capability and faster convergence speed. In comparison with the most popular and state-of-the-art algorithms, the experiments on twenty benchmark functions demonstrate its better performance. The faster speed, higher approximation ability of optimal solution, no hyper-parameters, and simpler design of GBO make it an all-around replacement of most of the existing popular intelligent optimization algorithms.
翻訳日:2023-03-25 02:42:37 公開日:2023-03-18
# 自然言語処理と機械学習を用いた要求形式化:システムレビュー

Requirement Formalisation using Natural Language Processing and Machine Learning: A Systematic Review ( http://arxiv.org/abs/2303.13365v1 )

ライセンス: Link先を確認
Shekoufeh Kolahdouz-Rahimi, Kevin Lano, Chenghua Lin(参考訳) ソフトウェア開発手法の改善は、開発者が要求工学(RE)分野における自動要求形式化(RF)に惹きつける。 自然言語処理(NLP)と機械学習(ML)を適用して、自然言語で書かれた要件のあいまいさと不完全さを低減することにより、潜在的な利点が報告されている。 本研究の目的は、RFのためのNLPとMLに関する既存の研究を調査・分類し、この分野における課題を特定し、将来的な研究方向性を提供することである。 そこで本研究では,NLPおよびML技術の現状を概説するために,共通図書館から257の論文を選定し,体系的な文献レビューを行った。 包含と排他の基準を定義して検索結果をフィルタリングし、2012年から2022年の間に47の関連研究が選択される。 その結果, ヒューリスティックなNLP手法は, 構造化データおよび半構造化データに対する一次操作である自動RFにおいて最も一般的なNLP手法であることがわかった。 本研究は,深層学習(dl)技術が広く使われていないこと,むしろ従来のml技術が調査研究で主流であることも明らかにした。 さらに重要なことは、RFの標準ベンチマークケースが欠如していることから、異なるアプローチのパフォーマンスを比較することの難しさを明らかにした。

Improvement of software development methodologies attracts developers to automatic Requirement Formalisation (RF) in the Requirement Engineering (RE) field. The potential advantages by applying Natural Language Processing (NLP) and Machine Learning (ML) in reducing the ambiguity and incompleteness of requirement written in natural languages is reported in different studies. The goal of this paper is to survey and classify existing work on NLP and ML for RF, identifying challenges in this domain and providing promising future research directions. To achieve this, we conducted a systematic literature review to outline the current state-of-the-art of NLP and ML techniques in RF by selecting 257 papers from common used libraries. The search result is filtered by defining inclusion and exclusion criteria and 47 relevant studies between 2012 and 2022 are selected. We found that heuristic NLP approaches are the most common NLP techniques used for automatic RF, primary operating on structured and semi-structured data. This study also revealed that Deep Learning (DL) technique are not widely used, instead classical ML techniques are predominant in the surveyed studies. More importantly, we identified the difficulty of comparing the performance of different approaches due to the lack of standard benchmark cases for RF.
翻訳日:2023-03-25 02:33:10 公開日:2023-03-18
# 2レベル系で励起される退化高次超ラマン線のスクイーズ特性

Squeezing properties of degenerate high-order hyper-Raman lines emitted by a two-level system ( http://arxiv.org/abs/2005.05736v4 )

ライセンス: Link先を確認
\'Akos Gombk\"ot\H{o}(参考訳) 非線形光学過程の量子化記述は、新しい非古典的光源の開発の観点から関連する。 特殊な例としては、多くの実用例において励起はレーザービームであるため、古典駆動系から放出される光を特徴付けるのに有用である。 物質モデルとして,二段階システムを選択する。 初期の研究で、光子統計と相互相関性 phys を調査した。 rev. a 104(3):033703, (2021) は、スクイージングは主に超ラマン線の退化に対応する特定のパラメータセットに存在することを指摘した。 ここでは、この特定のパラメータセットに注目し、スクイーズの詳細を示す。

Quantized descriptions of nonlinear-optical processes can be relevant from the perspective of developing novel nonclassical sources of light. As a special case, it is useful to characterize light emitted by classically driven systems, since the excitations in many practical cases are laser beams. As a material model, we choose a two-level system. In an earlier work, we investigated photon statistics and intermodal cross-correlations Phys. Rev. A 104(3):033703, (2021), and noted that squeezing is primarily present in specific sets of parameters, corresponding to the degeneracy of hyper-Raman lines. Here we focus on this specific set of parameters, presenting details of the squeezing.
翻訳日:2023-03-24 08:50:58 公開日:2023-03-18
# 高次元半教師付き学習における最適・安全推定法

Optimal and Safe Estimation for High-Dimensional Semi-Supervised Learning ( http://arxiv.org/abs/2011.14185v2 )

ライセンス: Link先を確認
Siyi Deng, Yang Ning, Jiwei Zhao, Heping Zhang(参考訳) 高次元半教師付き学習における推定問題を考える。 本研究の目的は,これらの線形モデルがデータ解析において誤特定される可能性があることを踏まえ,線形モデルの回帰パラメータの推定を改善するために,ラベルなしのデータをいつ,どのように活用できるかを検討することである。 まず、半教師付き設定においてパラメータ推定のためのミニマックス下限を定め、この下限はラベル付きデータのみを用いた教師付き推定器では達成できないことを示す。 本研究では,条件付き平均関数を適切な速度で一貫して推定できるので,この下限値を達成し,教師付き推定値を改善するための最適半教師付き推定器を提案する。 さらに,安全な半教師付き推定器を提案する。 この推定器は、常に監督された推定器と同じくらい良いので、安全であると考えています。 また,条件平均関数の異なる不特定化によって生じる,複数の半教師付き推定器の集約にも拡張した。 理論的結果を説明するため, 大規模数値シミュレーションと実データ解析を行った。

We consider the estimation problem in high-dimensional semi-supervised learning. Our goal is to investigate when and how the unlabeled data can be exploited to improve the estimation of the regression parameters of linear model in light of the fact that such linear models may be misspecified in data analysis. We first establish the minimax lower bound for parameter estimation in the semi-supervised setting, and show that this lower bound cannot be achieved by supervised estimators using the labeled data only. We propose an optimal semi-supervised estimator that can attain this lower bound and therefore improves the supervised estimators, provided that the conditional mean function can be consistently estimated with a proper rate. We further propose a safe semi-supervised estimator. We view it safe, because this estimator is always at least as good as the supervised estimators. We also extend our idea to the aggregation of multiple semi-supervised estimators caused by different misspecifications of the conditional mean function. Extensive numerical simulations and a real data analysis are conducted to illustrate our theoretical results.
翻訳日:2023-03-24 08:39:36 公開日:2023-03-18
# knowledge sheaves: 知識グラフ埋め込みのための層理論フレームワーク

Knowledge Sheaves: A Sheaf-Theoretic Framework for Knowledge Graph Embedding ( http://arxiv.org/abs/2110.03789v2 )

ライセンス: Link先を確認
Thomas Gebhart, Jakob Hansen, Paul Schrater(参考訳) 知識グラフ埋め込みは、グラフの頂点とグラフの縁であるエンティティの表現を学習することを含み、結果として得られる表現は知識グラフで表現された既知の事実情報をエンコードし、新しい関係の推論に使用できる。 知識グラフ埋め込みは、グラフ上の適切な \textit{knowledge sheaf} の近似大域的な部分として記述でき、知識グラフのスキーマによって引き起こされる一貫性の制約がある。 このアプローチは、知識グラフの埋め込みモデルに関する推論のための一般化されたフレームワークを提供し、埋め込みに関する幅広い事前制約の表現を可能にする。 さらに、得られた埋め込みは、特別なトレーニングなしに複合関係を推論するために容易に適用することができる。 この新たな視点にインスパイアされた拡張のメリットを強調するために、これらのアイデアを実装します。

Knowledge graph embedding involves learning representations of entities -- the vertices of the graph -- and relations -- the edges of the graph -- such that the resulting representations encode the known factual information represented by the knowledge graph and can be used in the inference of new relations. We show that knowledge graph embedding is naturally expressed in the topological and categorical language of \textit{cellular sheaves}: a knowledge graph embedding can be described as an approximate global section of an appropriate \textit{knowledge sheaf} over the graph, with consistency constraints induced by the knowledge graph's schema. This approach provides a generalized framework for reasoning about knowledge graph embedding models and allows for the expression of a wide range of prior constraints on embeddings. Further, the resulting embeddings can be easily adapted for reasoning over composite relations without special training. We implement these ideas to highlight the benefits of the extensions inspired by this new perspective.
翻訳日:2023-03-24 05:49:59 公開日:2023-03-18
# 動的時空間予測のためのロングランジ変換器

Long-Range Transformers for Dynamic Spatiotemporal Forecasting ( http://arxiv.org/abs/2109.12218v3 )

ライセンス: Link先を確認
Jake Grigsby, Zhe Wang, Nam Nguyen, Yanjun Qi(参考訳) 多変量時系列予測は、歴史的文脈に基づく将来の値の予測に焦点を当てている。 state-of-the-art sequence-to-sequenceモデルは、時間ステップ間の神経的注意に依存している。 対照的に、グラフニューラルネットワークに基づく手法は、変数関係を明示的にモデル化する。 しかしながら、これらの方法は、時間とともに変更できず、時間ステップ毎に各変数間の直接接続を確立することなく、別々の空間的および時間的更新を行う事前定義されたグラフに依存することが多い。 本研究では,多変量予測を"spatiotemporal sequence"形式に変換し,各トランスフォーマタ入力トークンが与えられた時間に1つの変数の値を表す。 長距離トランスフォーマーは、この拡張シーケンスに沿って、空間、時間、価値情報間の相互作用を学習することができる。 提案手法は,データから時空間関係を学習しながら,トラヒック予測から電力需要,気象予報まで,ベンチマークの競合結果を得る。

Multivariate time series forecasting focuses on predicting future values based on historical context. State-of-the-art sequence-to-sequence models rely on neural attention between timesteps, which allows for temporal learning but fails to consider distinct spatial relationships between variables. In contrast, methods based on graph neural networks explicitly model variable relationships. However, these methods often rely on predefined graphs that cannot change over time and perform separate spatial and temporal updates without establishing direct connections between each variable at every timestep. Our work addresses these problems by translating multivariate forecasting into a "spatiotemporal sequence" formulation where each Transformer input token represents the value of a single variable at a given time. Long-Range Transformers can then learn interactions between space, time, and value information jointly along this extended sequence. Our method, which we call Spacetimeformer, achieves competitive results on benchmarks from traffic forecasting to electricity demand and weather prediction while learning spatiotemporal relationships purely from data.
翻訳日:2023-03-24 05:48:58 公開日:2023-03-18
# アンダーソン局在ハミルトニアンへの境界項の追加は絡み合いの非有界成長につながる

Adding boundary terms to Anderson localized Hamiltonians leads to unbounded growth of entanglement ( http://arxiv.org/abs/2109.07640v3 )

ライセンス: Link先を確認
Yichen Huang(参考訳) アンダーソン局在系では、ランダムな積状態から始まる絡み合いエントロピーが常に有界であることはよく知られている。 しかし、アンダーソン局所化ハミルトニアンに1つの境界項を加えることで、絡み合いの非有界成長がもたらされることを示す。 その結果,アンダーソン局在は局所的特性ではないことが示唆された。 サブシステムから任意に遠い用語は、アンダーソンローカライゼーションの特徴が失われる方法でサブシステムのダイナミクスに影響を与える可能性があるため、システム全体を見ることなく、サブシステムがアンダーソンローカライズされた振る舞いを持っていると結論付けることはできない。

It is well known that in Anderson localized systems, starting from a random product state the entanglement entropy remains bounded at all times. However, we show that adding a single boundary term to an Anderson localized Hamiltonian leads to unbounded growth of entanglement. Our results imply that Anderson localization is not a local property. One cannot conclude that a subsystem has Anderson localized behavior without looking at the whole system, as a term that is arbitrarily far from the subsystem can affect the dynamics of the subsystem in such a way that the features of Anderson localization are lost.
翻訳日:2023-03-24 05:48:40 公開日:2023-03-18
# L ukasiewicz 論理のドクサスティック拡張

Doxastic Extensions of \L ukasiewicz Logic ( http://arxiv.org/abs/2111.08564v3 )

ライセンス: Link先を確認
Doratossadat Dastgheib, Hadi Farahani(参考訳) 本稿では,原子命題とアクセシビリティの関係がファジィであるクリプケモデル(kripke-based model)の適切なクラスに対して,健全かつ完備なファジィ論理のドキスティック拡張の2つのクラスを提案する。 これらの拡張の1つのクラスは、古典的信念に似た性質を持つ疑似古典的信念を持ち、もう1つのクラスは、我々がそれを \textit{skeptical} beliefと呼ぶ新しい信念の概念に基づいている。 疑似古典的信念と懐疑的信念を用いたCPA-セキュリティ実験を用いて泥だらけ児問題のファジィバージョンをモデル化し,CPA-実験において敵の信念をモデル化するには疑似古典的信念が適切でないことを示した。 さらに,提案するドキサスティック拡張のいくつかについて,健全性と完全性定理を証明した。

We propose two classes of doxastic extensions of fuzzy \L ukasiewicz logic that are sound and complete with respect to some appropriate classes of Kripke-based models in which both atomic propositions and accessibility relations are fuzzy. One class of these extensions is equipped with pseudo-classical belief that has properties similar to the classical belief, and the other class is based on a new notion of belief that we call it \textit{skeptical} belief. We model a fuzzy version of the muddy children problem using pseudo-classical belief and a CPA-security experiment using skeptical belief, then by showing that the pseudo-classical belief is not appropriate for modeling the belief of an adversary in a CPA-experiment we justify proposing the notion of skeptical belief. Furthermore, we prove the soundness and completeness theorems for some of the proposed doxastic extensions.
翻訳日:2023-03-24 05:41:02 公開日:2023-03-18
# Riemannian Mat\'ern Kernelsを用いたロボットの幾何学的ベイズ最適化

Geometry-aware Bayesian Optimization in Robotics using Riemannian Mat\'ern Kernels ( http://arxiv.org/abs/2111.01460v2 )

ライセンス: Link先を確認
No\'emie Jaquier, Viacheslav Borovitskiy, Andrei Smolensky, Alexander Terenin, Tamim Asfour, Leonel Rozo(参考訳) ベイズ最適化は、制御パラメータチューニング、パラメトリックポリシー適応、ロボット工学における構造設計に使用できるデータ効率の手法である。 これらの問題の多くは、球面、回転群、あるいは正定値行列の空間のような非ユークリッド領域で定義される函数の最適化を必要とする。 そのためには、利害関係の空間にガウス過程を前もって、あるいは同値にカーネルを定義する必要がある。 効果的なカーネルは通常、定義された空間の幾何学を反映するが、それらを設計することは一般的には自明ではない。 リーマン的偏微分方程式とラプラス・ベルトラミ作用素のスペクトル理論に基づく最近の研究は、そのような幾何学的カーネルを構築するための有望な道を提供する。 本稿では,これらのカーネルをロボット工学に興味のある多様体上に実装するための技術について検討し,それらの性能を人工ベンチマーク関数のセットで実証し,その性能向上を図示しながら,方向制御,マニピュラビリティ最適化,運動計画など,様々なロボット応用のための幾何アウェアベイズ最適化を例示する。

Bayesian optimization is a data-efficient technique which can be used for control parameter tuning, parametric policy adaptation, and structure design in robotics. Many of these problems require optimization of functions defined on non-Euclidean domains like spheres, rotation groups, or spaces of positive-definite matrices. To do so, one must place a Gaussian process prior, or equivalently define a kernel, on the space of interest. Effective kernels typically reflect the geometry of the spaces they are defined on, but designing them is generally non-trivial. Recent work on the Riemannian Mat\'ern kernels, based on stochastic partial differential equations and spectral theory of the Laplace-Beltrami operator, offers promising avenues towards constructing such geometry-aware kernels. In this paper, we study techniques for implementing these kernels on manifolds of interest in robotics, demonstrate their performance on a set of artificial benchmark functions, and illustrate geometry-aware Bayesian optimization for a variety of robotic applications, covering orientation control, manipulability optimization, and motion planning, while showing its improved performance.
翻訳日:2023-03-24 05:39:53 公開日:2023-03-18
# オンラインステイナツリーのための学習強化アルゴリズム

Learning-Augmented Algorithms for Online Steiner Tree ( http://arxiv.org/abs/2112.05353v2 )

ライセンス: Link先を確認
Chenyang Xu and Benjamin Moseley(参考訳) 本稿では,機械学習予測とオンラインアルゴリズム設計を統合したアルゴリズム解析モデルについて考察する。 このモデルでは、有向グラフおよび無向グラフのオンラインSteiner木問題を考える。 シュタイナーツリーは、オンライン設定において強い境界を持つことが知られており、アルゴリズムの最悪の保証は望ましくない。 本稿では,どの端末がオンラインに到着するかを予測するアルゴリズムについて検討する。 予測は誤りであり、アルゴリズムのパフォーマンスは誤って予測された端末の数によってパラメータ化される。 これらの保証は、アルゴリズムが良い予測でオンラインの下限を突破し、予測エラーが大きくなるにつれて競争比率が優雅に低下することを保証する。 そして、この理論が経験的に何が起こるかを予測する。 分布から端末が引き出されるグラフ上で、新しいオンラインアルゴリズムは、適度に正確な予測であっても、高い性能を示す。

This paper considers the recently popular beyond-worst-case algorithm analysis model which integrates machine-learned predictions with online algorithm design. We consider the online Steiner tree problem in this model for both directed and undirected graphs. Steiner tree is known to have strong lower bounds in the online setting and any algorithm's worst-case guarantee is far from desirable. This paper considers algorithms that predict which terminal arrives online. The predictions may be incorrect and the algorithms' performance is parameterized by the number of incorrectly predicted terminals. These guarantees ensure that algorithms break through the online lower bounds with good predictions and the competitive ratio gracefully degrades as the prediction error grows. We then observe that the theory is predictive of what will occur empirically. We show on graphs where terminals are drawn from a distribution, the new online algorithms have strong performance even with modestly correct predictions.
翻訳日:2023-03-24 05:30:52 公開日:2023-03-18
# メモリベース損失予測モデルを用いたイベント抽出のためのアクティブラーニング

Active Learning for Event Extraction with Memory-based Loss Prediction Model ( http://arxiv.org/abs/2112.03073v3 )

ライセンス: Link先を確認
Shirong Shen and Zhen Li and Guilin Qi(参考訳) イベント抽出(EE)は多くの産業アプリケーションシナリオにおいて重要な役割を担い、高品質のEEメソッドは教師付き学習モデルのトレーニングに大量の手動アノテーションデータを必要とする。 しかし、特にドメインイベントのアノテーションにおいて、アノテーションデータを取得するコストは非常に高く、対応するドメインから専門家が参加する必要がある。 そこで、イベントアノテーションのコストを削減するためにアクティブラーニング(AL)技術を導入しました。 しかし、既存のalメソッドには2つの大きな問題があり、イベント抽出にはあまり役に立たない。 第一に、既存のプールベースの選択戦略は、計算コストとサンプル有効性の観点から制限がある。 第2に、既存のサンプルの重要性の評価は、ローカルなサンプル情報の使用を欠いている。 本稿では,eeのための新しい深層al法を提案する。 バッチベースの選択戦略とメモリベース損失予測モデル(MBLP)を提案し,ラベルのないサンプルを効率的に選択する。 選択過程において,局所情報を用いてサンプル重要度を評価するために,内部外サンプル損失ランキング法を用いる。 最後に,MBLPモデルをトレーニングするための遅延学習戦略を提案する。 3つのドメインデータセットで広範な実験が行われ、この手法は他の最先端メソッドよりも優れています。

Event extraction (EE) plays an important role in many industrial application scenarios, and high-quality EE methods require a large amount of manual annotation data to train supervised learning models. However, the cost of obtaining annotation data is very high, especially for annotation of domain events, which requires the participation of experts from corresponding domain. So we introduce active learning (AL) technology to reduce the cost of event annotation. But the existing AL methods have two main problems, which make them not well used for event extraction. Firstly, the existing pool-based selection strategies have limitations in terms of computational cost and sample validity. Secondly, the existing evaluation of sample importance lacks the use of local sample information. In this paper, we present a novel deep AL method for EE. We propose a batch-based selection strategy and a Memory-Based Loss Prediction model (MBLP) to select unlabeled samples efficiently. During the selection process, we use an internal-external sample loss ranking method to evaluate the sample importance by using local information. Finally, we propose a delayed training strategy to train the MBLP model. Extensive experiments are performed on three domain datasets, and our method outperforms other state-of-the-art methods.
翻訳日:2023-03-24 05:30:03 公開日:2023-03-18
# 嘘をつくな! 検証摂動解析によるロバストかつ効率的な説明可能性

Don't Lie to Me! Robust and Efficient Explainability with Verified Perturbation Analysis ( http://arxiv.org/abs/2202.07728v2 )

ライセンス: Link先を確認
Thomas Fel, Melanie Ducoffe, David Vigouroux, Remi Cadene, Mikael Capelle, Claire Nicodeme, Thomas Serre(参考訳) ディープニューラルネットワークの意思決定方法を説明するために、さまざまな方法が提案されている。 これらのアプローチの鍵は、ピクセル空間を効率的にサンプリングして重要度マップを導出する必要があることである。 しかし,従来のサンプリング手法ではバイアスやその他のアーティファクトを導入し,個々の画素の重要性を不正確な評価を行い,現在の説明可能性手法の信頼性を著しく制限することが示されている。 残念ながら、画像空間を徹底的にサンプリングする代替手段は、計算的に禁止されている。本稿では、摂動空間を徹底的に探索することを保証する最初の説明可能性法であるEVA(Verified perturbation Analysis)を紹介する。 具体的には、検証された摂動解析(時間効率、トラクタビリティ、多様体の完全なカバレッジを保証する)の利点を活用して、モデル決定を駆動する可能性が高い入力変数を効率的に特徴づける。 提案手法を系統的に評価し,複数のベンチマークで最新の結果を示す。

A variety of methods have been proposed to try to explain how deep neural networks make their decisions. Key to those approaches is the need to sample the pixel space efficiently in order to derive importance maps. However, it has been shown that the sampling methods used to date introduce biases and other artifacts, leading to inaccurate estimates of the importance of individual pixels and severely limit the reliability of current explainability methods. Unfortunately, the alternative -- to exhaustively sample the image space is computationally prohibitive. In this paper, we introduce EVA (Explaining using Verified perturbation Analysis) -- the first explainability method guarantee to have an exhaustive exploration of a perturbation space. Specifically, we leverage the beneficial properties of verified perturbation analysis -- time efficiency, tractability and guaranteed complete coverage of a manifold -- to efficiently characterize the input variables that are most likely to drive the model decision. We evaluate the approach systematically and demonstrate state-of-the-art results on multiple benchmarks.
翻訳日:2023-03-24 05:15:16 公開日:2023-03-18
# ゼロディレイ平滑化スプライン補間への学習可能なアプローチ

A Trainable Approach to Zero-delay Smoothing Spline Interpolation ( http://arxiv.org/abs/2203.03776v3 )

ライセンス: Link先を確認
Emilio Ruiz-Moreno, Luis Miguel L\'opez-Ramos, Baltasar Beferull-Lozano(参考訳) ストリームデータから信号サンプルの形でスムーズな信号を再構成する作業は,様々な応用に現れる。 この作業は、ゼロ遅延応答の対象となるタスクに対処する。つまり、スムーズな信号は、データサンプルが利用可能で、その後のデータにアクセスできないと、順次再構成されなければならない。 最先端のアプローチはスプラインを用いて連続データサンプルを補間することでこの問題を解決する。 ここで、各補間ステップは、コストメトリック(典型的には正方形残差と微分に基づく滑らか度測定の間の重み付け和)を最小化しながら、滑らかな信号再構成を保証するピースを生成する。 その結果、すべてのデータサンプルの補間と比較して、ほぼ確実に累積コストの増大と引き換えにゼロディレイ補間が達成される。 本稿では,この累積コストを平均でさらに削減するための新しい手法を提案する。 まず, 逐次的意思決定の観点からゼロ遅延平滑化スプライン補間問題を定式化し, 平均累積コストに対する各補間片の将来の影響をモデル化する。 次に,ストリームデータサンプル間の時間依存性を利用した補間手法を提案する。 本手法はリカレントニューラルネットワークによって支援され,再建対象の信号を生成する同一信号源から収集したサンプルデータに対して,平均して蓄積したコストを低減させる訓練を行う。 最後に, 合成および実データに対する実験結果について, 上記の最先端技術よりも優れた結果が得られた。

The task of reconstructing smooth signals from streamed data in the form of signal samples arises in various applications. This work addresses such a task subject to a zero-delay response; that is, the smooth signal must be reconstructed sequentially as soon as a data sample is available and without having access to subsequent data. State-of-the-art approaches solve this problem by interpolating consecutive data samples using splines. Here, each interpolation step yields a piece that ensures a smooth signal reconstruction while minimizing a cost metric, typically a weighted sum between the squared residual and a derivative-based measure of smoothness. As a result, a zero-delay interpolation is achieved in exchange for an almost certainly higher cumulative cost as compared to interpolating all data samples together. This paper presents a novel approach to further reduce this cumulative cost on average. First, we formulate a zero-delay smoothing spline interpolation problem from a sequential decision-making perspective, allowing us to model the future impact of each interpolated piece on the average cumulative cost. Then, an interpolation method is proposed to exploit the temporal dependencies between the streamed data samples. Our method is assisted by a recurrent neural network and accordingly trained to reduce the accumulated cost on average over a set of example data samples collected from the same signal source generating the signal to be reconstructed. Finally, we present extensive experimental results for synthetic and real data showing how our approach outperforms the abovementioned state-of-the-art.
翻訳日:2023-03-24 05:05:08 公開日:2023-03-18
# オントロジー仮定予測のための文脈意味埋め込み

Contextual Semantic Embeddings for Ontology Subsumption Prediction ( http://arxiv.org/abs/2202.09791v4 )

ライセンス: Link先を確認
Jiaoyan Chen and Yuan He and Yuxia Geng and Ernesto Jimenez-Ruiz and Hang Dong and Ian Horrocks(参考訳) オントロジーの構築とキュレーションの自動化は、知識工学と人工知能における重要な課題である。 文脈的セマンティック埋め込みのような機械学習技術による予測は有望な方向であるが、関連する研究はWeb Ontology Language (OWL)における表現的オントロジーの予備的研究である。 本稿では,OWLオントロジーのクラスに対するBERTSubsという新しい仮定予測手法を提案する。 これは、事前訓練された言語モデルBERTを利用してクラスのコンテキスト埋め込みを計算し、クラスコンテキスト(例えば、近隣クラス)と論理的存在制限を組み込むためにカスタマイズされたテンプレートを提案する。 BERTSubsは、同じオントロジーまたは他のオントロジーからの命名されたクラスや、同じオントロジーからの既存の制限を含む、複数の種類のサブサマーを予測することができる。 3つの異なる仮定タスクに対する5つの実世界のオントロジーに対する広範囲な評価は、テンプレートの有効性を示し、BERTSubsは(文字認識の)知識グラフの埋め込み、非文脈語埋め込み、最先端のOWLオントロジーの埋め込みを使用するベースラインを劇的に上回っている。

Automating ontology construction and curation is an important but challenging task in knowledge engineering and artificial intelligence. Prediction by machine learning techniques such as contextual semantic embedding is a promising direction, but the relevant research is still preliminary especially for expressive ontologies in Web Ontology Language (OWL). In this paper, we present a new subsumption prediction method named BERTSubs for classes of OWL ontology. It exploits the pre-trained language model BERT to compute contextual embeddings of a class, where customized templates are proposed to incorporate the class context (e.g., neighbouring classes) and the logical existential restriction. BERTSubs is able to predict multiple kinds of subsumers including named classes from the same ontology or another ontology, and existential restrictions from the same ontology. Extensive evaluation on five real-world ontologies for three different subsumption tasks has shown the effectiveness of the templates and that BERTSubs can dramatically outperform the baselines that use (literal-aware) knowledge graph embeddings, non-contextual word embeddings and the state-of-the-art OWL ontology embeddings.
翻訳日:2023-03-24 05:02:51 公開日:2023-03-18
# ランダム刈り込みニューラルネットワークの神経接核解析について

On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks ( http://arxiv.org/abs/2203.14328v3 )

ライセンス: Link先を確認
Hongru Yang, Zhangyang Wang(参考訳) 理論と実践の両面から、重みのランダムプルーニングがニューラルネットワークのニューラル・タンジェント・カーネル(NTK)に与える影響について検討した。 特に、本研究は、完全接続されたニューラルネットワークとランダムに刈り取られたバージョンとの間のntkの等価性を確立する。 等価性は2つのケースで確立される。 最初の主な結果は無限幅漸近性の研究である。 初期化時に重みをランダムに切断した完全連結ニューラルネットワークに対して、プルーニング確率が与えられた場合、各層の幅が無限大に成長するにつれて、プルーニングされたニューラルネットワークのNTKは、ある程度のスケーリングで元のネットワークの制限NTKに収束する。 刈り込み後にネットワーク重みが適切に再スケールされると、この余分なスケーリングを除去できる。 第2の主結果は有限幅の場合を考えることである。 この限界にNTKの近さを確実にするために、空間パラメータの幅依存性は漸近的に線形であることが示され、NTKの限界とのギャップはゼロになる。 さらに、プルーニング確率がゼロ(つまりプルーニングなし)に設定された場合(つまり、プルーニングなし)、必要な幅のバウンドは、前回の完全連結ニューラルネットワークのバウンドと対数因子に一致する。 この結果の証明には、我々が \textit{mask-induced pseudo-networks} と呼ぶネットワーク構造の新しい分析を開発する必要がある。 結果を評価する実験が行われる。

Motivated by both theory and practice, we study how random pruning of the weights affects a neural network's neural tangent kernel (NTK). In particular, this work establishes an equivalence of the NTKs between a fully-connected neural network and its randomly pruned version. The equivalence is established under two cases. The first main result studies the infinite-width asymptotic. It is shown that given a pruning probability, for fully-connected neural networks with the weights randomly pruned at the initialization, as the width of each layer grows to infinity sequentially, the NTK of the pruned neural network converges to the limiting NTK of the original network with some extra scaling. If the network weights are rescaled appropriately after pruning, this extra scaling can be removed. The second main result considers the finite-width case. It is shown that to ensure the NTK's closeness to the limit, the dependence of width on the sparsity parameter is asymptotically linear, as the NTK's gap to its limit goes down to zero. Moreover, if the pruning probability is set to zero (i.e., no pruning), the bound on the required width matches the bound for fully-connected neural networks in previous works up to logarithmic factors. The proof of this result requires developing a novel analysis of a network structure which we called \textit{mask-induced pseudo-networks}. Experiments are provided to evaluate our results.
翻訳日:2023-03-24 04:55:42 公開日:2023-03-18
# データにおける表現バイアス:識別と解決技術に関する調査

Representation Bias in Data: A Survey on Identification and Resolution Techniques ( http://arxiv.org/abs/2203.11852v2 )

ライセンス: Link先を確認
Nima Shahbazi, Yin Lin, Abolfazl Asudeh, H. V. Jagadish(参考訳) データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。 データの表現バイアスは、データ取得および準備方法において、歴史的識別から選択およびサンプリングバイアスまで、さまざまな理由により起こり得る。 バイアス・イン・バイアス・アウト(bias in, bias out)"を考えると、AIベースのソリューションは、表現バイアスのような問題に対処することなく、社会的アプリケーションに公平な結果をもたらすことは期待できない。 いくつかのレビュー論文を含む、機械学習モデルにおける公正性に関する広範な研究があるが、データのバイアスは研究されていない。 本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として識別・解決する文献をレビューする。 この調査の範囲は構造化(タブラリ)と非構造化(画像、テキスト、グラフなど)のデータに制限されている。 複数の設計次元に基づいて研究手法を分類し、それらの特性を並べて比較する。 データの表現バイアス問題を完全に解決するには、まだまだ長い道のりがあります。 著者らは、この調査が研究者に、それぞれの領域における既存の研究を観察することで、将来これらの課題に取り組む動機を与えることを期待している。

Data-driven algorithms are only as good as the data they work with, while data sets, especially social data, often fail to represent minorities adequately. Representation Bias in data can happen due to various reasons ranging from historical discrimination to selection and sampling biases in the data acquisition and preparation methods. Given that "bias in, bias out", one cannot expect AI-based solutions to have equitable outcomes for societal applications, without addressing issues such as representation bias. While there has been extensive study of fairness in machine learning models, including several review papers, bias in the data has been less studied. This paper reviews the literature on identifying and resolving representation bias as a feature of a data set, independent of how consumed later. The scope of this survey is bounded to structured (tabular) and unstructured (e.g., image, text, graph) data. It presents taxonomies to categorize the studied techniques based on multiple design dimensions and provides a side-by-side comparison of their properties. There is still a long way to fully address representation bias issues in data. The authors hope that this survey motivates researchers to approach these challenges in the future by observing existing work within their respective domains.
翻訳日:2023-03-24 04:55:01 公開日:2023-03-18
# 選好的報酬学習における因果的混乱と報酬誤認

Causal Confusion and Reward Misidentification in Preference-Based Reward Learning ( http://arxiv.org/abs/2204.06601v4 )

ライセンス: Link先を確認
Jeremy Tien, Jerry Zhi-Yang He, Zackory Erickson, Anca D. Dragan, Daniel S. Brown(参考訳) 選好に基づく報酬学習による学習ポリシは,エージェントの行動をカスタマイズする手段として人気が高まっている。 先行研究は強化学習と行動クローニングにおける因果的混乱に焦点をあてる一方で、選好から学ぶ際に因果的混乱と報酬的誤認の体系的研究に焦点をあてる。 特に,いくつかのベンチマーク領域において,好みから学習した報酬が最小限のテストエラーを達成するが,分散状態外への一般化に失敗し,最適化されたポリシー性能が低下する,一連の感度とアブレーション分析を行う。 注意をそらさない特徴,指定した嗜好のノイズ,部分的状態観察性の存在は,報酬の誤認を悪化させる可能性がある。 また、誤同定された学習報酬を解釈する一連の方法も同定する。 一般に、誤った報酬を最適化することは、報酬のトレーニング配布を阻害し、高い予測(学習)報酬をもたらすが、真の報酬は低い。 これらの知見は、誤識別と因果的混乱に報いる選好学習の感受性を照らすもので、多くの要因の1つを考慮できないことは、予期せぬ、望ましくない行動を引き起こす可能性がある。

Learning policies via preference-based reward learning is an increasingly popular method for customizing agent behavior, but has been shown anecdotally to be prone to spurious correlations and reward hacking behaviors. While much prior work focuses on causal confusion in reinforcement learning and behavioral cloning, we focus on a systematic study of causal confusion and reward misidentification when learning from preferences. In particular, we perform a series of sensitivity and ablation analyses on several benchmark domains where rewards learned from preferences achieve minimal test error but fail to generalize to out-of-distribution states -- resulting in poor policy performance when optimized. We find that the presence of non-causal distractor features, noise in the stated preferences, and partial state observability can all exacerbate reward misidentification. We also identify a set of methods with which to interpret misidentified learned rewards. In general, we observe that optimizing misidentified rewards drives the policy off the reward's training distribution, resulting in high predicted (learned) rewards but low true rewards. These findings illuminate the susceptibility of preference learning to reward misidentification and causal confusion -- failure to consider even one of many factors can result in unexpected, undesirable behavior.
翻訳日:2023-03-24 04:45:56 公開日:2023-03-18
# PlutoNet: 修正部分デコーダとデコーダ一貫性トレーニングを備えた効率的なポリプセグメンテーションネットワーク

PlutoNet: An Efficient Polyp Segmentation Network with Modified Partial Decoder and Decoder Consistency Training ( http://arxiv.org/abs/2204.03652v4 )

ライセンス: Link先を確認
Tugberk Erol and Duygu Sarikaya(参考訳) ディープラーニングモデルは、専門家が気づかないポリプの数を最小化し、介入中に検出されたポリプを正確に分割するために使用される。 最先端のモデルが提案されているが、十分に一般化できる表現を定義し、低レベルの特徴と高レベルのセマンティックディテールを冗長に扱うことは依然として課題である。 これらのモデルのもうひとつの課題は、リアルタイムアプリケーションに問題を引き起こす可能性のあるパラメータが多すぎることだ。 これらの問題に対処するために,我々は2,626,537のパラメータしか必要としないポリプセグメンテーションのためのプルトネットを提案する。 plutonetでは,共有エンコーダと,部分デコーダと実規模接続を組み合わせた部分デコーダを組み合わせることで,冗長性を持たず,異なるスケールでサルエントな特徴をキャプチャし,高レベルな意味的特徴に着目した補助デコーダからなる,新たな \emph{decoder consistency training} アプローチを提案する。 修正部分復号器と補助復号器を併用して訓練し、整合性を強化し、エンコーダ表現の改善に役立てる。 こうして不確実性と偽陽性率を低減できるのです。 我々は,特に未発見のデータセットや異なる領域にまたがるデータセットにおいて,プルトネットが最先端モデルよりも著しく優れた性能を示すアブレーション研究や広範な実験を行う。

Deep learning models are used to minimize the number of polyps that goes unnoticed by the experts and to accurately segment the detected polyps during interventions. Although state-of-the-art models are proposed, it remains a challenge to define representations that are able to generalize well and that mediate between capturing low-level features and higher-level semantic details without being redundant. Another challenge with these models is that they require too many parameters, which can pose a problem with real-time applications. To address these problems, we propose PlutoNet for polyp segmentation which requires only 2,626,537 parameters, less than 10\% of the parameters required by its counterparts. With PlutoNet, we propose a novel \emph{decoder consistency training} approach that consists of a shared encoder, the modified partial decoder which is a combination of the partial decoder and full-scale connections that capture salient features at different scales without being redundant, and the auxiliary decoder which focuses on higher-level relevant semantic features. We train the modified partial decoder and the auxiliary decoder with a combined loss to enforce consistency, which helps improve the encoders representations. This way we are able to reduce uncertainty and false positive rates. We perform ablation studies and extensive experiments which show that PlutoNet performs significantly better than the state-of-the-art models, particularly on unseen datasets and datasets across different domains.
翻訳日:2023-03-24 04:44:41 公開日:2023-03-18
# 最適統計量とプライバシ保証を用いたビザンチンロバストフェデレーション学習

Byzantine-Robust Federated Learning with Optimal Statistical Rates and Privacy Guarantees ( http://arxiv.org/abs/2205.11765v2 )

ライセンス: Link先を確認
Banghua Zhu, Lun Wang, Qi Pang, Shuai Wang, Jiantao Jiao, Dawn Song, Michael I. Jordan(参考訳) 我々は,bizantine-robustフェデレーション学習プロトコルを提案する。 従来の研究とは対照的に,提案手法は寸法依存性を改善し,強い凸損失のパラメータを全て考慮し,厳密な統計率を達成する。 競合プロトコルに対してベンチマークを行い、提案プロトコルの実証的な優位性を示す。 最後に、バケットによるプロトコルは、プライバシー保証手順と自然に組み合わせて、半正直なサーバに対するセキュリティを導入することができると述べる。 評価コードはhttps://github.com/wanglun1996/secure-robust-federated-learningで提供される。

We propose Byzantine-robust federated learning protocols with nearly optimal statistical rates. In contrast to prior work, our proposed protocols improve the dimension dependence and achieve a tight statistical rate in terms of all the parameters for strongly convex losses. We benchmark against competing protocols and show the empirical superiority of the proposed protocols. Finally, we remark that our protocols with bucketing can be naturally combined with privacy-guaranteeing procedures to introduce security against a semi-honest server. The code for evaluation is provided in https://github.com/wanglun1996/secure-robust-federated-learning.
翻訳日:2023-03-24 04:27:57 公開日:2023-03-18
# 異常暗号通貨のトランザクション検出:機械学習に基づく鑑識のaml/cft応用

Detecting Anomalous Cryptocurrency Transactions: an AML/CFT Application of Machine Learning-based Forensics ( http://arxiv.org/abs/2206.04803v3 )

ライセンス: Link先を確認
Nadia Pocher, Mirko Zichichi, Fabio Merizzi, Muhammad Zohaib Shafiq and Stefano Ferretti(参考訳) マネーのインターネットの形成において、ブロックチェーンと分散台帳技術(DLT)の金融セクターへの応用が規制上の懸念を引き起こした。 この分野で有効になっているユーザの匿名性は、プライバシとデータ保護を保護する可能性があるが、識別性の欠如は説明責任を妨げ、マネーロンダリングとテロと拡散(AML/CFT)の資金提供との戦いに挑戦する。 法執行機関と民間部門は、本質的に社会技術である生態系間の暗号転送を追跡するために法医学を適用するため、これらの技術が、その展開が球体の特性や進化に影響を及ぼす領域における、その重要性の増大に焦点を当てる。 特にこの研究は、機械学習とトランザクショングラフ分析の手法の適用に関するコンテキスト化された洞察を提供する。 すなわち、さまざまなテクニックを通じて、有向グラフネットワークとして表現されるBitcoinトランザクションの実際のデータセットを分析する。 複雑なネットワークとしてのブロックチェーントランザクションのモデリングは、グラフベースのデータ分析手法がトランザクションの分類と不正なトランザクションの識別に役立つことを示唆している。 実際、この研究はグラフ畳み込みネットワーク(gcn)とグラフアテンションネットワーク(gat)として知られるニューラルネットワークタイプが有望なaml/cftソリューションであることを示している。 特に、このシナリオではGCNは他の古典的なアプローチよりも優れており、Bitcoinの異常を検出するために初めてGATが適用される。 最終的に、この論文は、説明可能性とデータのオープンさの精神を意識した法医学的戦略を考案する公共私的シナジーの価値を裏付けるものである。

In shaping the Internet of Money, the application of blockchain and distributed ledger technologies (DLTs) to the financial sector triggered regulatory concerns. Notably, while the user anonymity enabled in this field may safeguard privacy and data protection, the lack of identifiability hinders accountability and challenges the fight against money laundering and the financing of terrorism and proliferation (AML/CFT). As law enforcement agencies and the private sector apply forensics to track crypto transfers across ecosystems that are socio-technical in nature, this paper focuses on the growing relevance of these techniques in a domain where their deployment impacts the traits and evolution of the sphere. In particular, this work offers contextualized insights into the application of methods of machine learning and transaction graph analysis. Namely, it analyzes a real-world dataset of Bitcoin transactions represented as a directed graph network through various techniques. The modeling of blockchain transactions as a complex network suggests that the use of graph-based data analysis methods can help classify transactions and identify illicit ones. Indeed, this work shows that the neural network types known as Graph Convolutional Networks (GCN) and Graph Attention Networks (GAT) are a promising AML/CFT solution. Notably, in this scenario GCN outperform other classic approaches and GAT are applied for the first time to detect anomalies in Bitcoin. Ultimately, the paper upholds the value of public-private synergies to devise forensic strategies conscious of the spirit of explainability and data openness.
翻訳日:2023-03-24 04:07:11 公開日:2023-03-18
# 衝突グラフェンプラズモンを用いた非線形量子論理

Nonlinear quantum logic with colliding graphene plasmons ( http://arxiv.org/abs/2207.05122v2 )

ライセンス: Link先を確認
Giuseppe Calaj\`o, Philipp K. Jenke, Lee A. Rozema, Philip Walther, Darrick E. Chang and Joel D. Cox(参考訳) グラフェンはナノスケールに非線形量子光学をもたらす有望なプラットフォームとして登場し、大きな固有光学非線形性により長寿命でアクティブな波長可変プラズモンポラリトンが強く相互作用できる。 ここでは, グラフェンナノリボン中の2つの対向伝播プラズモンの衝突を理論的に検討する。 このシナリオは、非線形光ファイバにおけるフォトニックゲートに対するシャピロ・ノーゴー定理によって課される制限を回避する多モード偏光ゲートの実装に対する興味深い可能性を示している。 パラダイム的な例として、ゲート性能が基本的に単一プラズモン寿命でのみ制限される高忠実度条件付きPi位相シフト(CZ)の実現可能性を示す。 これらの結果は、強い相互作用を持つポラリトンを持つ量子情報や多体応用への新しいエキサイティングな道を開く。

Graphene has emerged as a promising platform to bring nonlinear quantum optics to the nanoscale, where a large intrinsic optical nonlinearity enables long-lived and actively tunable plasmon polaritons to strongly interact. Here we theoretically study the collision between two counter-propagating plasmons in a graphene nanoribbon, where transversal subwavelength confinement endows propagating plasmons with %large effective masses a flat band dispersion that enhances their interaction. This scenario presents interesting possibilities towards the implementation of multi-mode polaritonic gates that circumvent limitations imposed by the Shapiro no-go theorem for photonic gates in nonlinear optical fibers. As a paradigmatic example we demonstrate the feasibility of a high fidelity conditional Pi phase shift (CZ), where the gate performance is fundamentally limited only by the single-plasmon lifetime. These results open new exciting avenues towards quantum information and many-body applications with strongly-interacting polaritons.
翻訳日:2023-03-24 03:49:10 公開日:2023-03-18
# 事前学習型トランスフォーマーによるSプロンプト学習--ドメインインクリメンタルラーニングのためのOccam's Razor

S-Prompts Learning with Pre-trained Transformers: An Occam's Razor for Domain Incremental Learning ( http://arxiv.org/abs/2207.12819v2 )

ライセンス: Link先を確認
Yabin Wang, Zhiwu Huang, Xiaopeng Hong(参考訳) 最先端のディープニューラルネットワークは、継続的な学習における破滅的な忘れの問題にまだ対処できていない。 本稿では,1つの単純なパラダイム(s-prompting)と,最も典型的な連続学習シナリオであるドメインインクリメント学習(dil)において,忘れられる程度を高度に減らすための2つの具体的なアプローチを提案する。 パラダイムの重要な考え方は、事前学習されたトランスフォーマーを持つドメインをまたいでプロンプトを独立に学習することであり、従来の方法によく見られるexemplarsの使用を避けることである。 これにより、各ドメインに最適なプロンプトを達成できる勝敗ゲームが得られる。 ドメイン間の独立的なプロンプトは、トレーニングのために1つのクロスエントロピー損失と、推論のためのドメイン識別子として1つの単純なK-NN操作のみを要求する。 学習パラダイムは、画像プロンプト学習アプローチと、新しい言語-画像プロンプト学習アプローチを導出する。 優れたスケーラビリティ(ドメイン当たり0.03%のパラメータ増加)を保有することで、我々のアプローチのベストは、3つの標準DILタスクに対する最先端の先例のないメソッドのベストに対して、顕著な相対的な改善(平均約30%)を達成でき、また、例題を使う場合、そのベストを平均約6%上回っている。 ソースコードは \url{https://github.com/iamwangyabin/S-Prompts} で入手できる。

State-of-the-art deep neural networks are still struggling to address the catastrophic forgetting problem in continual learning. In this paper, we propose one simple paradigm (named as S-Prompting) and two concrete approaches to highly reduce the forgetting degree in one of the most typical continual learning scenarios, i.e., domain increment learning (DIL). The key idea of the paradigm is to learn prompts independently across domains with pre-trained transformers, avoiding the use of exemplars that commonly appear in conventional methods. This results in a win-win game where the prompting can achieve the best for each domain. The independent prompting across domains only requests one single cross-entropy loss for training and one simple K-NN operation as a domain identifier for inference. The learning paradigm derives an image prompt learning approach and a novel language-image prompt learning approach. Owning an excellent scalability (0.03% parameter increase per domain), the best of our approaches achieves a remarkable relative improvement (an average of about 30%) over the best of the state-of-the-art exemplar-free methods for three standard DIL tasks, and even surpasses the best of them relatively by about 6% in average when they use exemplars. Source code is available at \url{https://github.com/iamwangyabin/S-Prompts}.
翻訳日:2023-03-24 03:40:31 公開日:2023-03-18
# GraVoS: 3Dポイントクラウド検出のためのVoxel選択

GraVoS: Voxel Selection for 3D Point-Cloud Detection ( http://arxiv.org/abs/2208.08780v2 )

ライセンス: Link先を確認
Oren Shrout, Yizhak Ben-Shabat, Ayellet Tal(参考訳) 大規模3次元シーンにおける3次元物体検出は,3次元点雲の空間的および不規則性だけでなく,背景の極端な不均衡とクラス不均衡によっても困難である。 一般的なアプローチは、他のシーンから地上のオブジェクトを追加することである。 別の方法では、要素を追加するのではなく、要素(ボクセル)を削除することでシーンを変更することを提案します。 このアプローチでは、両方のタイプのデータセットの不均衡に対応する方法で、"意味のある"ボクセルを選択します。 このアプローチは一般的なものであり、任意のボクセルベースの検出器に適用できるが、ボクセルの有意義性はネットワーク依存である。 我々のボクセル選択は、いくつかの顕著な3次元検出法の性能を向上させることが示されている。

3D object detection within large 3D scenes is challenging not only due to the sparsity and irregularity of 3D point clouds, but also due to both the extreme foreground-background scene imbalance and class imbalance. A common approach is to add ground-truth objects from other scenes. Differently, we propose to modify the scenes by removing elements (voxels), rather than adding ones. Our approach selects the "meaningful" voxels, in a manner that addresses both types of dataset imbalance. The approach is general and can be applied to any voxel-based detector, yet the meaningfulness of a voxel is network-dependent. Our voxel selection is shown to improve the performance of several prominent 3D detection methods.
翻訳日:2023-03-24 03:31:04 公開日:2023-03-18
# グローバル・インテンション・ローカライゼーションと局所運動微細化を用いたモーショントランスフォーマ

Motion Transformer with Global Intention Localization and Local Movement Refinement ( http://arxiv.org/abs/2209.13508v2 )

ライセンス: Link先を確認
Shaoshuai Shi and Li Jiang and Dengxin Dai and Bernt Schiele(参考訳) 交通参加者のマルチモーダルな将来の行動を予測することは、ロボット車両が安全な判断を下す上で不可欠である。 既存の研究は、潜伏した特徴に基づいて将来の軌道を直接予測したり、密集した目標候補を用いてエージェントの目的地を特定することを目的としている。 本稿では, 動き予測を大域的意図定位と局所的動き改善の協調最適化としてモデル化するモーショントランスフォーマティブ(mtr)フレームワークを提案する。 目標候補を使う代わりに、MTRは学習可能な少数の動きクエリーペアを採用することで、空間的意図を取り入れている。 各動作クエリペアは、特定の動作モードの軌道予測と改善を担当し、トレーニングプロセスを安定化し、より良いマルチモーダル予測を容易にする。 実験の結果、MTRは、Waymo Open Motion Datasetのリーダーボードで1位にランクインし、限界運動予測とジョイントモーション予測の両方で最先端のパフォーマンスを達成した。 ソースコードはhttps://github.com/sshaoshuai/MTRで入手できる。

Predicting multimodal future behavior of traffic participants is essential for robotic vehicles to make safe decisions. Existing works explore to directly predict future trajectories based on latent features or utilize dense goal candidates to identify agent's destinations, where the former strategy converges slowly since all motion modes are derived from the same feature while the latter strategy has efficiency issue since its performance highly relies on the density of goal candidates. In this paper, we propose Motion TRansformer (MTR) framework that models motion prediction as the joint optimization of global intention localization and local movement refinement. Instead of using goal candidates, MTR incorporates spatial intention priors by adopting a small set of learnable motion query pairs. Each motion query pair takes charge of trajectory prediction and refinement for a specific motion mode, which stabilizes the training process and facilitates better multimodal predictions. Experiments show that MTR achieves state-of-the-art performance on both the marginal and joint motion prediction challenges, ranking 1st on the leaderboards of Waymo Open Motion Dataset. The source code is available at https://github.com/sshaoshuai/MTR.
翻訳日:2023-03-24 03:14:25 公開日:2023-03-18
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v3 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 有限群の量子表現の概念はかなり長い間量子コンピューティングの基本的な側面であり、素数量子論理ゲートから有名なショアとグローバーのアルゴリズムまであらゆる分野において重要な役割を果たしてきた。 本稿では、この概念を群論と微分幾何学の両方を用いて形式的に定義する。 本研究は、任意の有限群に対する量子表現の存在を証明し、ユニタリ行列のゲート分解と変分量子アルゴリズムを利用して群の各生成元を量子回路に変換する2つの方法を概説する。 さらに,オープンアクセスプラットフォーム上での明示的な例の数値シミュレーションを行う。 最後に、隠れた部分群問題を解くアルゴリズムのゲートレベル実装におけるその役割を示すことによって、有限群の量子表現の有用性とポテンシャルを示す。

The concept of quantum representation of finite groups has been a fundamental aspect of quantum computing for quite some time, playing a role in every corner, from elementary quantum logic gates to the famous Shor's and Grover's algorithms. In this article, we provide a formal definition of this concept using both group theory and differential geometry. Our work proves the existence of a quantum representation for any finite group and outlines two methods for translating each generator of the group into a quantum circuit, utilizing gate decomposition of unitary matrices and variational quantum algorithms. Additionally, we provide numerical simulations of an explicit example on an open-access platform. Finally, we demonstrate the usefulness and potential of the quantum representation of finite groups by showing its role in the gate-level implementation of the algorithm that solves the hidden subgroup problem.
翻訳日:2023-03-24 03:01:35 公開日:2023-03-18
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成

State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v4 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage(参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。 この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。 小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。 トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。

An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics.
翻訳日:2023-03-24 02:53:32 公開日:2023-03-18
# 医用画像における異常検出のための自己監督的改善を伴う二重分布差

Dual-distribution discrepancy with self-supervised refinement for anomaly detection in medical images ( http://arxiv.org/abs/2210.04227v3 )

ライセンス: Link先を確認
Yu Cai, Hao Chen, Xin Yang, Yu Zhou, Kwang-Ting Cheng(参考訳) 医学的異常検出は、診断を助けるために異常画像を認識することを目的とした重要な課題である。 異常画像の高コストアノテーションのため、ほとんどの方法はトレーニング中に既知の正常画像のみを使用し、通常プロファイルから逸脱したサンプルをテストフェーズの異常として識別する。 したがって、トレーニング段階では、異常を含むラベルのない多くの画像が無視され、性能が制限される。 そこで,本研究では,一級半教師付き学習(OC-SSL)を導入し,正規および未ラベルのイメージをトレーニングに利用し,この設定に基づいてDual-distribution Discrepancy for Anomaly Detection (DDAD)を提案する。 リコンストラクションネットワークのアンサンブルは、正規分布モジュール(ndm)と未知分布モジュール(udm)を導出して、正規分布と正規分布と無ラベル像の両方の分布をモデル化するように設計されている。 その後、ndmの異種間および2つのモジュール間の異種間を異常点として設計する。 さらに,異常を直接検出するのではなく,異常スコアを改良する自己教師型学習の新しい視点を提案する。 胸部X線、脳MRI、網膜基底画像を含む5つの医学データセットが評価のためのベンチマークとして編成されている。 これらのベンチマーク実験は,広範囲な異常検出手法を網羅的に比較し,本手法が有意な向上を達成し,最先端技術よりも優れていることを示す。 コードと組織化されたベンチマークはhttps://github.com/caiyu6666/ddad-asrで入手できる。

Medical anomaly detection is a crucial yet challenging task aimed at recognizing abnormal images to assist in diagnosis. Due to the high-cost annotations of abnormal images, most methods utilize only known normal images during training and identify samples deviating from the normal profile as anomalies in the testing phase. Many readily available unlabeled images containing anomalies are thus ignored in the training phase, restricting the performance. To solve this problem, we introduce one-class semi-supervised learning (OC-SSL) to utilize known normal and unlabeled images for training, and propose Dual-distribution Discrepancy for Anomaly Detection (DDAD) based on this setting. Ensembles of reconstruction networks are designed to model the distribution of normal images and the distribution of both normal and unlabeled images, deriving the normative distribution module (NDM) and unknown distribution module (UDM). Subsequently, the intra-discrepancy of NDM and inter-discrepancy between the two modules are designed as anomaly scores. Furthermore, we propose a new perspective on self-supervised learning, which is designed to refine the anomaly scores rather than detect anomalies directly. Five medical datasets, including chest X-rays, brain MRIs and retinal fundus images, are organized as benchmarks for evaluation. Experiments on these benchmarks comprehensively compare a wide range of anomaly detection methods and demonstrate that our method achieves significant gains and outperforms the state-of-the-art. Code and organized benchmarks are available at https://github.com/caiyu6666/DDAD-ASR.
翻訳日:2023-03-24 02:53:05 公開日:2023-03-18
# 破壊的ニューラルスケーリング法則

Broken Neural Scaling Laws ( http://arxiv.org/abs/2210.14891v8 )

ライセンス: Link先を確認
Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger(参考訳) We present a smoothly broken power law functional form (referred to by us as a Broken Neural Scaling Law (BNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, training dataset size, or upstream performance varies) for various architectures and for each of various tasks within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings. このセットには、大規模ビジョン、言語、音声、ビデオ、拡散、生成モデリング、マルチモーダル学習、コントラスト学習、AIアライメント、ロボティクス、アウト・オブ・ディストリビューション(OOD)一般化、継続学習、不確実性推定/校正、アウト・オブ・ディストリビューション検出、敵対的堅牢性、蒸留、分子、コンピュータプログラミング/コーディング、数学語問題、算術、教師なし/自己管理学習、強化学習(シングルエージェントとマルチエージェント)が含まれる。 神経スケーリング行動の他の機能形式と比較すると、この関数形式は、この集合においてかなり正確なスケーリング行動の外挿をもたらす。 さらに、この関数形式は、二重降下のような現象のスケーリング挙動に存在する非単調遷移や、算術のようなタスクのスケーリング挙動に存在する遅延、鋭いインフレクションポイントなど、他の関数形式が表現できないスケーリング挙動を正確にモデル化し、外挿する。 最後に、この関数形式を使用して、スケーリング動作の予測可能性の限界に関する洞察を得ます。 コードはhttps://github.com/ethancaballero/broken_neural_scaling_lawsで入手できる。

We present a smoothly broken power law functional form (referred to by us as a Broken Neural Scaling Law (BNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, training dataset size, or upstream performance varies) for various architectures and for each of various tasks within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings. This set includes large-scale vision, language, audio, video, diffusion, generative modeling, multimodal learning, contrastive learning, AI alignment, robotics, out-of-distribution (OOD) generalization, continual learning, uncertainty estimation / calibration, out-of-distribution detection, adversarial robustness, distillation, molecules, computer programming/coding, math word problems, arithmetic, unsupervised/self-supervised learning, and reinforcement learning (single agent and multi-agent). When compared to other functional forms for neural scaling behavior, this functional form yields extrapolations of scaling behavior that are considerably more accurate on this set. Moreover, this functional form accurately models and extrapolates scaling behavior that other functional forms are incapable of expressing such as the non-monotonic transitions present in the scaling behavior of phenomena such as double descent and the delayed, sharp inflection points present in the scaling behavior of tasks such as arithmetic. Lastly, we use this functional form to glean insights about the limit of the predictability of scaling behavior. Code is available at https://github.com/ethancaballero/broken_neural_scaling_laws
翻訳日:2023-03-24 02:35:44 公開日:2023-03-18
# 混合データと深層学習モデルの不確かさ:固体燃料の回帰速度測定への応用

Combined Data and Deep Learning Model Uncertainties: An Application to the Measurement of Solid Fuel Regression Rate ( http://arxiv.org/abs/2210.14287v2 )

ライセンス: Link先を確認
Georgios Georgalis, Kolos Retfalvi, Paul E. DesJardin, and Abani Patra(参考訳) 複雑な物理過程のキャラクタリゼーションでは、固体ハイブリッドロケット燃料の回帰速度の測定のように、観測データと使用したモデルの両方が複数のソースから発生した不確実性を持ち、これらを体系的な方法で組み合わせること(QoI)は依然として困難である。 本稿では,観測された回帰率$\dot{r}$ の確率分布を生成するために,前方伝播不確かさ量化(uq)過程を提案する。 実験から得られた2つの入力データ不確実性(カメラ$U_c$と非ゼロ角燃料配置$U_\gamma$)、深部ニューラルネットワーク(U_m$)からの予測とモデル形状の不確かさ(U_s$)、およびトレーニングに使用する手動分割画像(U_s$)のばらつき(U_s$)を特徴付ける。 これらの不確実性源とモデル形式の不確実性の組み合わせについて7つのケーススタディを行った。 この論文の主な貢献は、関連する実験的な画像データの不確実性の調査と包含、およびqoiが複数のシーケンシャルプロセスの結果である場合のワークフローにそれらを組み込む方法である。

In complex physical process characterization, such as the measurement of the regression rate for solid hybrid rocket fuels, where both the observation data and the model used have uncertainties originating from multiple sources, combining these in a systematic way for quantities of interest(QoI) remains a challenge. In this paper, we present a forward propagation uncertainty quantification (UQ) process to produce a probabilistic distribution for the observed regression rate $\dot{r}$. We characterized two input data uncertainty sources from the experiment (the distortion from the camera $U_c$ and the non-zero angle fuel placement $U_\gamma$), the prediction and model form uncertainty from the deep neural network ($U_m$), as well as the variability from the manually segmented images used for training it ($U_s$). We conducted seven case studies on combinations of these uncertainty sources with the model form uncertainty. The main contribution of this paper is the investigation and inclusion of the experimental image data uncertainties involved, and how to include them in a workflow when the QoI is the result of multiple sequential processes.
翻訳日:2023-03-24 02:34:56 公開日:2023-03-18
# ADLight:強化学習を用いた拡張データによる交通信号制御の普遍的アプローチ

ADLight: A Universal Approach of Traffic Signal Control with Augmented Data Using Reinforcement Learning ( http://arxiv.org/abs/2210.13378v2 )

ライセンス: Link先を確認
Maonan Wang, Yutong Xu, Xi Xiong, Yuheng Kan, Chengcheng Xu, Man-On Pun(参考訳) 交通信号制御は、動的ネットワークの混雑を減少させる可能性がある。 近年の研究では、強化学習法(RL)による交通信号制御が平均待ち時間を著しく短縮できることが示された。 しかし、既存の方法の欠点は、異なる構造を持つ新しい交差点のモデル再訓練が必要であることである。 本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。 本稿では,異なる交差点に対して同じ構造を持つ一般化モデルを実現するために,現在の位相期間を設定した動作と動作の特徴を取り入れた新しいエージェント設計を提案する。 一般化性能を向上させるために,新しいデータ拡張法である \textit{movement shuffle} を開発した。 また,都市移動シミュレーション(sumo)において,新しい交差点を用いたユニバーサルモデルをテストする。 その結果,1つの環境で訓練されたモデル(平均待ち時間の5%の損失に過ぎず)に近づき,80%以上のトレーニング時間を削減でき,信号機のスケーラブルな操作において多くの計算資源を節約できることがわかった。

Traffic signal control has the potential to reduce congestion in dynamic networks. Recent studies show that traffic signal control with reinforcement learning (RL) methods can significantly reduce the average waiting time. However, a shortcoming of existing methods is that they require model retraining for new intersections with different structures. In this paper, we propose a novel reinforcement learning approach with augmented data (ADLight) to train a universal model for intersections with different structures. We propose a new agent design incorporating features on movements and actions with set current phase duration to allow the generalized model to have the same structure for different intersections. A new data augmentation method named \textit{movement shuffle} is developed to improve the generalization performance. We also test the universal model with new intersections in Simulation of Urban MObility (SUMO). The results show that the performance of our approach is close to the models trained in a single environment directly (only a 5% loss of average waiting time), and we can reduce more than 80% of training time, which saves a lot of computational resources in scalable operations of traffic lights.
翻訳日:2023-03-24 02:34:14 公開日:2023-03-18
# ニューラルアルゴリズム推論タスクの分散的一般化

Towards Better Out-of-Distribution Generalization of Neural Algorithmic Reasoning Tasks ( http://arxiv.org/abs/2211.00692v2 )

ライセンス: Link先を確認
Sadegh Mahdavi, Kevin Swersky, Thomas Kipf, Milad Hashemi, Christos Thrampoulidis, Renjie Liao(参考訳) 本稿では,ニューラルネットワークを用いた入出力対からアルゴリズム(ソート,幅優先探索,深度優先探索など)を学習することを目的とした,ニューラルネットワーク推論タスクのOOD一般化について検討する。 まず、この設定におけるOODの一般化は、一般的なOOD設定とは大きく異なると論じる。 例えば、ライン上の「emph{accuracy on the line」のような画像分類のOOD一般化のいくつかの現象はここでは見られず、データ拡張法のような手法は、多くの拡張技法の基礎となる仮定がしばしば違反されるため、役に立たない。 第2に,現在有望なベンチマークであるclrs \citep{deepmind2021clrs}の,30のアルゴリズム推論タスクを含む主な課題(入力分布シフト,非表出的データ生成,非表出的検証指標)を分析した。 本稿では,入力分布シフトの簡単な修正やデータ生成の改善など,いくつかのソリューションを提案する。 最後に,注目に基づく2WLグラフニューラルネットワーク(GNN)プロセッサを提案する。 私たちのコードは、 \url{https://github.com/smahdavi4/clrs} で利用可能です。

In this paper, we study the OOD generalization of neural algorithmic reasoning tasks, where the goal is to learn an algorithm (e.g., sorting, breadth-first search, and depth-first search) from input-output pairs using deep neural networks. First, we argue that OOD generalization in this setting is significantly different than common OOD settings. For example, some phenomena in OOD generalization of image classifications such as \emph{accuracy on the line} are not observed here, and techniques such as data augmentation methods do not help as assumptions underlying many augmentation techniques are often violated. Second, we analyze the main challenges (e.g., input distribution shift, non-representative data generation, and uninformative validation metrics) of the current leading benchmark, i.e., CLRS \citep{deepmind2021clrs}, which contains 30 algorithmic reasoning tasks. We propose several solutions, including a simple-yet-effective fix to the input distribution shift and improved data generation. Finally, we propose an attention-based 2WL-graph neural network (GNN) processor which complements message-passing GNNs so their combination outperforms the state-of-the-art model by a 3% margin averaged over all algorithms. Our code is available at: \url{https://github.com/smahdavi4/clrs}.
翻訳日:2023-03-24 02:25:41 公開日:2023-03-18
# Point-MA2E: 自己教師型ポイントクラウド学習のためのマスクとアフィン変換オートエンコーダ

Point-MA2E: Masked and Affine Transformed AutoEncoder for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2211.06841v2 )

ライセンス: Link先を確認
Yabin Zhang, Jiehong Lin, Ruihuang Li, Kui Jia, Lei Zhang(参考訳) マスク付きモデリングは、マスク付きクラウドから完全なポイントクラウドを再構築することで、自己教師付きポイントクラウド学習においてその効果を実証した。 本稿では,マスキングが入力の部分点のみを損なうことを考慮し,すべての入力点を一定の規則で破るアフィン変換を推奨し,一般的なマスキング戦略を補完し,ポイントクラウド学習のためのマスキングおよびアフィン変換オートエンコーダ(point-ma2e)へと導く。 一般に,アフィン変換とマスキングを入力として点雲を破損させ,エンコーダ・デコーダモデルを学び,原点雲を破損したバージョンから再構築する。 本研究では,様々な点クラウドエンコーダについて検討する。 非トランスフォーマーエンコーダでは、壊れていない点クラウドを直接再構築する一般的なプラクティスに従っています。 トランスフォーマーをベースとしたエンコーダでは,完全点雲の再構成を詳細な局所パッチと粗大域形状の再構成に分解し,事前学習の効率化を図る。 提案するコンポーネントの詳細な分析を行い,オブジェクト分類,少数ショット学習,ロバストネステスト,パートセグメンテーション,および3次元オブジェクト検出におけるpoint-ma2eの有効性を検証する。 ソースコードは一般公開される予定だ。

Masked modeling has demonstrated its effectiveness in self-supervised point cloud learning by reconstructing the complete point cloud from its masked counterpart. Considering that masking only corrupts partial points of the input, in this paper, we promote the affine transformation, which corrupts all input points with certain rules, to complement the popular masking strategy, leading to the Masked and Affine transformed AutoEncoder for point cloud learning (Point-MA2E). Generally, we corrupt the point cloud with affine transformation and masking as input and learn an encoder-decoder model to reconstruct the original point cloud from its corrupted version. Various point cloud encoders are explored in this study. For non-Transformer encoders, we follow the common practice to reconstruct the uncorrupted point cloud directly. For Transformer-based encoders, we decompose the reconstruction of the complete point cloud into the reconstructions of detailed local patches and rough global shape, facilitating the pre-training efficiency. We perform in-depth analyses of the proposed components and validate the effectiveness of Point-MA2E with extensive experiments on object classification, few-shot learning, robustness testing, part segmentation, and 3D object detection. The source code will be made publicly available.
翻訳日:2023-03-24 02:18:12 公開日:2023-03-18
# オンライン契約設計のサンプル複雑さ

The Sample Complexity of Online Contract Design ( http://arxiv.org/abs/2211.05732v2 )

ライセンス: Link先を確認
Banghua Zhu, Stephen Bates, Zhuoran Yang, Yixin Wang, Jiantao Jiao, and Michael I. Jordan(参考訳) 隠れアクションの主エージェント問題をオンライン環境で研究する。 各ラウンドにおいて、プリンシパルは、各結果に基づいてエージェントへの支払いを規定する契約をポストする。 エージェントは自身の効用を最大化する戦略的な行動の選択を行うが、その行動はプリンシパルによって直接観測できない。 校長は結果を観察し、エージェントの行動選択からユーティリティを受け取る。 過去の観察に基づいて、プリンシパルは契約を動的に調整し、実用性を最大化する。 オンライン学習アルゴリズムを導入し、Stackelbergの後悔に対する上限を提供する。 契約空間が$[0,1]^m$の場合、Stackelbergの後悔は$\widetilde O(\sqrt{m} \cdot T^{1-1/(2m+1)})$で上界、$\Omega(T^{1-1/(m+2)})$で下界であり、$\widetilde O$は対数要素を省略する。 この結果から,指数-in-m$サンプルは最適に近い契約を学習するのに十分であり,オンライン契約設計の難易度に関する未解決問題を解き明かした。 さらに、契約がいくつかの部分集合 $\mathcal{f} \subset [0,1]^m$ に制限されるとき、空間内の球面コードの被覆数に依存し、この内在的な次元の観点で後悔を束縛する、内在的な次元$\mathcal{f}$ を定義する。 $\mathcal{F}$ が線型契約の族であるとき、Stackelberg の後悔はちょうど $\Theta(T^{2/3})$ として成長することを示す。 ユーティリティ関数が不連続であるため、コントラクト設計の問題は難しい。 この設定における離散化誤差の境界はオープンな問題である。 本稿では,ユーティリティ関数が連続した方向の限定的なセットを同定し,新しい離散化法を設計し,その誤差を限定する。 このアプローチは、コントラクトとアクション空間に制限を伴わない、最初の上限を許容する。

We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-1/(2m+1)})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$, where $\widetilde O$ omits logarithmic factors. This result shows that exponential-in-$m$ samples are sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. Moreover, when contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, we show that the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
翻訳日:2023-03-24 02:16:22 公開日:2023-03-18
# ヘテロシedastic gaussian sequence modelにおけるスパース信号検出:シャープミニマックスレート

Sparse Signal Detection in Heteroscedastic Gaussian Sequence Models: Sharp Minimax Rates ( http://arxiv.org/abs/2211.08580v3 )

ライセンス: Link先を確認
Julien Chhor, Rajarshi Mukherjee, Subhabrata Sen(参考訳) 未知の平均$\theta \in \mathbb r^d$ と既知の共分散行列 $\sigma = \operatorname{diag}(\sigma_1^2,\dots, \sigma_d^2)$ を持つ不均質なガウス列モデルが与えられたとき、既知のスパース性 $s$ に対して信号検出問題を調べる。 すなわち、高い確率で null 仮説を区別するために、$\epsilon^*>0$ がどれだけ大きいかを特徴づける: $\theta=0$ と $\mathbb R^d$ の $s$-スパースベクトルからなる代替品は、$0$ in $L^t$ norm ($t \in [1,\infty]$) から少なくとも $\epsilon^*$ で分離される。 minimax分離半径 $\epsilon^*$ の上の上限と下限を見つけ、それらが常に一致することを証明します。 また、これらの境界を達成するためのミニマックステストも導出する。 以上の結果から,スパルシティのレベル,l^t$のメートル法,\sigma$のヘテロシステキシティプロファイルに対する$\epsilon^*$の挙動に関する新たな相転移が明らかになった。 ユークリッド分離(すなわち$L^2$)の場合、文献の残りのギャップを埋める。

Given a heterogeneous Gaussian sequence model with unknown mean $\theta \in \mathbb R^d$ and known covariance matrix $\Sigma = \operatorname{diag}(\sigma_1^2,\dots, \sigma_d^2)$, we study the signal detection problem against sparse alternatives, for known sparsity $s$. Namely, we characterize how large $\epsilon^*>0$ should be, in order to distinguish with high probability the null hypothesis $\theta=0$ from the alternative composed of $s$-sparse vectors in $\mathbb R^d$, separated from $0$ in $L^t$ norm ($t \in [1,\infty]$) by at least $\epsilon^*$. We find minimax upper and lower bounds over the minimax separation radius $\epsilon^*$ and prove that they are always matching. We also derive the corresponding minimax tests achieving these bounds. Our results reveal new phase transitions regarding the behavior of $\epsilon^*$ with respect to the level of sparsity, to the $L^t$ metric, and to the heteroscedasticity profile of $\Sigma$. In the case of the Euclidean (i.e. $L^2$) separation, we bridge the remaining gaps in the literature.
翻訳日:2023-03-24 02:06:27 公開日:2023-03-18
# DiffDreamer: 条件付き拡散モデルによる一貫した教師なし単視点シーン外挿に向けて

DiffDreamer: Towards Consistent Unsupervised Single-view Scene Extrapolation with Conditional Diffusion Models ( http://arxiv.org/abs/2211.12131v2 )

ライセンス: Link先を確認
Shengqu Cai, Eric Ryan Chan, Songyou Peng, Mohamad Shahbazi, Anton Obukhov, Luc Van Gool and Gordon Wetzstein(参考訳) scene extrapolation -- 与えられた画像に飛ぶことで新しいビューを生成するというアイデアは、有望だが挑戦的なタスクである。 予測された各フレームについて、不適切なポーズと高い曖昧度を含むジョイント・インペインティングと3dリファインメントの問題を解決する必要がある。 さらに、長距離シーンのトレーニングデータは入手が困難であり、通常は正確なカメラポーズを推測するのに十分なビューが欠けている。 我々は,インターネットで収集された自然シーンの画像を訓練しながら,長眼カメラの軌跡を描いた新たなビューを合成することのできる教師なしフレームワークであるdiffdreamerを紹介する。 導波路の確率的性質を利用して拡散モデルを訓練し、投影されたrgbd画像の精巧化を行うが、複数の過去および将来のフレームの発振ステップを条件として推論を行う。 画像条件付き拡散モデルでは,GAN法よりも一貫性を保ちながら,長距離シーン外挿を効果的に行うことができることを示す。 DiffDreamerは、シーン外挿のための強力で効率的なソリューションであり、監督が限られているにもかかわらず素晴らしい結果をもたらす。 プロジェクトページ: https://primecai.github.io/diffdreamer。

Scene extrapolation -- the idea of generating novel views by flying into a given image -- is a promising, yet challenging task. For each predicted frame, a joint inpainting and 3D refinement problem has to be solved, which is ill posed and includes a high level of ambiguity. Moreover, training data for long-range scenes is difficult to obtain and usually lacks sufficient views to infer accurate camera poses. We introduce DiffDreamer, an unsupervised framework capable of synthesizing novel views depicting a long camera trajectory while training solely on internet-collected images of nature scenes. Utilizing the stochastic nature of the guided denoising steps, we train the diffusion models to refine projected RGBD images but condition the denoising steps on multiple past and future frames for inference. We demonstrate that image-conditioned diffusion models can effectively perform long-range scene extrapolation while preserving consistency significantly better than prior GAN-based methods. DiffDreamer is a powerful and efficient solution for scene extrapolation, producing impressive results despite limited supervision. Project page: https://primecai.github.io/diffdreamer.
翻訳日:2023-03-24 01:48:01 公開日:2023-03-18
# MR画像再構成のための一般化深層学習による近位勾配線

Generalized Deep Learning-based Proximal Gradient Descent for MR Reconstruction ( http://arxiv.org/abs/2211.16881v2 )

ライセンス: Link先を確認
Guanxiong Luo, Mengmeng Kuang, Peng Cao(参考訳) 物理フォワードモデルのデータの一貫性は逆問題、特にMR画像再構成において重要である。 標準的な方法は、反復アルゴリズムをフォワードモデルを埋め込んだニューラルネットワークに展開することです。 フォワードモデルは臨床実践において常に変化するため、学習成分とフォワードモデルとの絡み合いは再構築を一般化しにくくする。 深層学習に基づく近位勾配降下が提案され、ネットワークをフォワードモデルとは独立な正規化項として用い、異なるmr取得設定でより一般化できる。 この1回の事前訓練正則化はMR取得の異なる設定に適用され、ピーク信号-雑音比の3dB改善を示す従来のL1正則化と比較された。 また,異なるアンダーサンプリングパターンを選択する際の提案手法の柔軟性を実証した。

The data consistency for the physical forward model is crucial in inverse problems, especially in MR imaging reconstruction. The standard way is to unroll an iterative algorithm into a neural network with a forward model embedded. The forward model always changes in clinical practice, so the learning component's entanglement with the forward model makes the reconstruction hard to generalize. The deep learning-based proximal gradient descent was proposed and use a network as regularization term that is independent of the forward model, which makes it more generalizable for different MR acquisition settings. This one-time pre-trained regularization is applied to different MR acquisition settings and was compared to conventional L1 regularization showing ~3 dB improvement in the peak signal-to-noise ratio. We also demonstrated the flexibility of the proposed method in choosing different undersampling patterns.
翻訳日:2023-03-24 01:30:32 公開日:2023-03-18
# PDEのための非等間隔フーリエニューラルソルバー

Non-equispaced Fourier Neural Solvers for PDEs ( http://arxiv.org/abs/2212.04689v2 )

ライセンス: Link先を確認
Haitao Lin, Lirong Wu, Yongjie Xu, Yufei Huang, Siyuan Li, Guojiang Zhao, Stan Z. Li(参考訳) 偏微分方程式の解法は難しい。 近年提案されたニューラルレゾリューション不変モデルは、その有効性と効率性にもかかわらず、通常は等間隔の空間的データ点を必要とする。 しかし、空間領域のサンプリングは、現実のシステムでは必然的に非等価であり、適用性を制限する。 本稿では、再サンプリングされた同値点とフーリエニューラル演算子の変種を成分として適応補間した非等価フーリエPDEソルバー(\textsc{NFS})を提案する。 複雑なPDEの実験結果は、精度と効率の利点を示している。 空間的に等価なベンチマーク手法と比較すると、maeは42.85\%$の改善で優れた性能を達成し、精度の小さな損失で非等価なデータを処理できる。 さらに,我々の知る限りでは,非等間隔シナリオにおける乱流のモデル化を成功させるメッシュ不変推論能力を備えたMLベースの最初の手法であり,未確認空間点における誤差の小さな偏差がある。

Solving partial differential equations is difficult. Recently proposed neural resolution-invariant models, despite their effectiveness and efficiency, usually require equispaced spatial points of data. However, sampling in spatial domain is sometimes inevitably non-equispaced in real-world systems, limiting their applicability. In this paper, we propose a Non-equispaced Fourier PDE Solver (\textsc{NFS}) with adaptive interpolation on resampled equispaced points and a variant of Fourier Neural Operators as its components. Experimental results on complex PDEs demonstrate its advantages in accuracy and efficiency. Compared with the spatially-equispaced benchmark methods, it achieves superior performance with $42.85\%$ improvements on MAE, and is able to handle non-equispaced data with a tiny loss of accuracy. Besides, to our best knowledge, \textsc{NFS} is the first ML-based method with mesh invariant inference ability to successfully model turbulent flows in non-equispaced scenarios, with a minor deviation of the error on unseen spatial points.
翻訳日:2023-03-24 01:21:51 公開日:2023-03-18
# 整形外科的シーン理解に向けて

Towards Holistic Surgical Scene Understanding ( http://arxiv.org/abs/2212.04582v3 )

ライセンス: Link先を確認
Natalia Valderrama, Paola Ruiz Puentes, Isabela Hern\'andez, Nicol\'as Ayobi, Mathilde Verlyk, Jessica Santander, Juan Caicedo, Nicol\'as Fern\'andez, Pablo Arbel\'aez(参考訳) 外科的介入を研究するためのベンチマークのほとんどは、異なるタスク間の内在的な相補性を利用するのではなく、特定の課題に焦点を当てている。 本研究では,全身的外科的シーン理解のための新しい実験枠組みを提案する。 まず、フェーズ、ステップ、計測器、原子視覚行動認識(PSI-AVA)データセットを紹介する。 PSI-AVAには、ロボット支援根治的前立腺切除術ビデオにおける長期的(位相認識とステップ認識)と短期的推論(機器検出と新しいアトミックアクション認識)の両方のためのアノテーションが含まれている。 第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。 TAPIRは、機器検出タスクの学習された表現から恩恵を受け、データセットのマルチレベルアノテーションを活用して、その分類能力を向上させる。 PSI-AVAおよび他の公開データベースにおける実験結果から,全身的な外科的シーン理解の研究を促進するための枠組みの有効性が示された。

Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
翻訳日:2023-03-24 01:21:29 公開日:2023-03-18
# 量子グラフにおけるBardeen-Cooper-Schrieffer相互作用について

On the Bardeen-Cooper-Schrieffer interaction in quantum graphs ( http://arxiv.org/abs/2212.04992v2 )

ライセンス: Link先を確認
Francesco Romeo(参考訳) 本稿では、多体物理学と量子グラフ上の粒子閉じ込めの間の非自明な相互作用を研究できるBardeen-Cooper-Schrieffer相互作用の実空間版を紹介する。 2体問題を考えると、2粒子波動関数は積分微分型schr\"{o}dinger方程式の解であることが分かる。 2体固有プロブレムの解は、特異なネットワークトポロジーを持つ量子グラフにおいて安定性が向上した2粒子境界状態の存在を示す。 拡張効果は多体効果に対して頑健であり、多体問題に対するリチャードソンの厳密な解法を用いて研究できることを示した。 これらの結果は、効果的なペアリング相互作用が特異な接続性を持つ量子グラフにおいて強化されることを示唆している。 ジョセフソン接合配列の実験的エビデンスも、本研究で記述された顕微鏡機構に関連して議論されている。

We introduce a real-space version of the Bardeen-Cooper-Schrieffer interaction allowing the investigation of the non-trivial interplay between many-body physics and particles confinement on a quantum graph. When the two-body problem is considered, we find that the two-particle wavefunction is solution of an integro-differential Schr\"{o}dinger equation. The solution of the two-body eigenproblem shows the presence of a two-particle bound state whose stability is enhanced in quantum graphs with peculiar network topology. We demonstrate that the enhancement effect is robust against many-body effects, which can be studied by means of the Richardson exact solution of the many-body problem. These findings suggest that the effective pairing interaction can be enhanced in quantum graphs with peculiar connectivity. Experimental evidences in Josephson junctions arrays are also discussed in connection with the microscopic mechanism described in the present work.
翻訳日:2023-03-24 01:09:34 公開日:2023-03-18
# 教師なし画像-画像変換を用いた臨界熱フラックス検出モデルの一般化フレームワーク

A Framework for Generalizing Critical Heat Flux Detection Models Using Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2212.09107v3 )

ライセンス: Link先を確認
Firas Al-Hindawi, Tejaswi Soori, Han Hu, Md Mahfuzur Rahman Siddiquee, Hyunsoo Yoon, Teresa Wu, Ying Sun(参考訳) 臨界熱流束(chf)の検出は、装置の故障につながる急速な温度上昇を引き起こす可能性があるため、熱沸騰アプリケーションにおいて不可欠である。 多くの機械学習モデルはCHFを検出するために存在するが、異なるドメインのデータでテストした場合、その性能は大幅に低下する。 新しいドメインからのデータセットを扱うには、モデルをゼロからトレーニングする必要がある。 さらに、データセットにはドメインの専門家が注釈を付ける必要がある。 この問題に対処するために,訓練されたcff検出モデルの一般化性と適応性をサポートする新しい枠組みを提案する。 このアプローチでは、教師なしイメージ・トゥ・イメージ(UI2I)変換モデルを使用して、ターゲットデータセット内のイメージを、以前トレーニングされたモデルと同じドメインから取得したように変換する。 ドメインシフトを扱う他のフレームワークとは異なり、我々のフレームワークはトレーニングされた分類モデルのトレーニングや微調整を必要とせず、分類モデルまたはUI2Iモデルのトレーニングプロセスで合成データセットも必要としない。 このフレームワークは異なるドメインの沸騰する3つのデータセット上でテストされ、あるデータセットでトレーニングされたchf検出モデルは、他の2つの未認識データセットを高い精度で一般化することができた。 全体として、CHF検出モデルは、追加のアノテーションやモデルの再トレーニングを必要とせずに、異なるドメインから生成されたデータに適応することができる。

The detection of critical heat flux (CHF) is crucial in heat boiling applications as failure to do so can cause rapid temperature ramp leading to device failures. Many machine learning models exist to detect CHF, but their performance reduces significantly when tested on data from different domains. To deal with datasets from new domains a model needs to be trained from scratch. Moreover, the dataset needs to be annotated by a domain expert. To address this issue, we propose a new framework to support the generalizability and adaptability of trained CHF detection models in an unsupervised manner. This approach uses an unsupervised Image-to-Image (UI2I) translation model to transform images in the target dataset to look like they were obtained from the same domain the model previously trained on. Unlike other frameworks dealing with domain shift, our framework does not require retraining or fine-tuning of the trained classification model nor does it require synthesized datasets in the training process of either the classification model or the UI2I model. The framework was tested on three boiling datasets from different domains, and we show that the CHF detection model trained on one dataset was able to generalize to the other two previously unseen datasets with high accuracy. Overall, the framework enables CHF detection models to adapt to data generated from different domains without requiring additional annotation effort or retraining of the model.
翻訳日:2023-03-24 01:00:31 公開日:2023-03-18
# 映像行動予測のための誘導的注意

Inductive Attention for Video Action Anticipation ( http://arxiv.org/abs/2212.08830v2 )

ライセンス: Link先を確認
Tsung-Ming Tai, Giuseppe Fiameni, Cheng-Kuang Lee, Simon See, Oswald Lanz(参考訳) ビデオ理解と予測コンピュータビジョンにおいて,時空間観測に基づく将来の行動予測が不可欠である。 さらに、未来を予測できるモデルには重要な応用があり、イベントが起こる前に予防システムに反応する利点がある。 しかし、アクション認識タスクとは異なり、将来の情報は観察時にアクセスできない -- モデルが予測タスクを解決するためにビデオフレームをターゲットアクションに直接マップすることはできない。 代わりに、時間的推論は関連する証拠と将来の行動とを関連付けるために必要である。 したがって、アクション認識モデルに基づく既存のソリューションは、サブオプティマイズのみである。 近年の研究者らは、過去の瞬間からより長い事前行動プロファイルを捉えるために観察窓を拡張し、注意を払って微妙な証拠を回収して予測予測を改善することを提案した。 しかし、既存のアテンションデザインでは、ビデオフレームが将来のアクションに弱い接続しかできないため、クエリーとしてフレーム入力を使用するのが一般的である。 そこで本研究では,現在の予測をクエリとして活用し,将来の動作を推定し,長時間映像コンテンツを効率的に処理できるインダクティブ・アテンションモデルであるiamを提案する。 さらに,注意設計における多対多の関連による未来の不確実性についても検討した。 その結果、iamは、複数の大規模エゴセントリックビデオデータセットで最先端の予測モデルよりも一貫して優れており、モデルパラメータは大幅に少ない。

Anticipating future actions based on spatiotemporal observations is essential in video understanding and predictive computer vision. Moreover, a model capable of anticipating the future has important applications, it can benefit precautionary systems to react before an event occurs. However, unlike in the action recognition task, future information is inaccessible at observation time -- a model cannot directly map the video frames to the target action to solve the anticipation task. Instead, the temporal inference is required to associate the relevant evidence with possible future actions. Consequently, existing solutions based on the action recognition models are only suboptimal. Recently, researchers proposed extending the observation window to capture longer pre-action profiles from past moments and leveraging attention to retrieve the subtle evidence to improve the anticipation predictions. However, existing attention designs typically use frame inputs as the query which is suboptimal, as a video frame only weakly connects to the future action. To this end, we propose an inductive attention model, dubbed IAM, which leverages the current prediction priors as the query to infer future action and can efficiently process the long video content. Furthermore, our method considers the uncertainty of the future via the many-to-many association in the attention design. As a result, IAM consistently outperforms the state-of-the-art anticipation models on multiple large-scale egocentric video datasets while using significantly fewer model parameters.
翻訳日:2023-03-24 00:59:27 公開日:2023-03-18
# 損失コミュニケーションにおける車車間協調認知の学習

Learning for Vehicle-to-Vehicle Cooperative Perception under Lossy Communication ( http://arxiv.org/abs/2212.08273v2 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Jin Ma, Zicheng Chi, Jiaqi Ma, Hongkai Yu(参考訳) ディープラーニングは、インテリジェントな自動車運転の知覚(たとえば3Dオブジェクト検出)に広く使われている。 有益車両間通信(v2v)により、他のエージェントからのディープラーニングに基づく特徴をego車両と共有して、ego車両の認識を改善することができる。 V2V研究における協調知覚(Cooperative Perception)と名付けられ、アルゴリズムは近年劇的に進歩している。 しかしながら、既存の協調認識アルゴリズムは、複雑な現実の運転シナリオに共通するLossy Communication (LC)のために、損失の多い共有特徴を考慮せずに理想的なV2V通信を前提としている。 In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. デジタル双対CARLAシミュレータに基づく公共協調認識データセットOPV2Vの広範な実験により, 提案手法はV2V通信における協調点雲に基づく3次元物体検出に極めて有効であることが示された。

Deep learning has been widely used in the perception (e.g., 3D object detection) of intelligent vehicle driving. Due to the beneficial Vehicle-to-Vehicle (V2V) communication, the deep learning based features from other agents can be shared to the ego vehicle so as to improve the perception of the ego vehicle. It is named as Cooperative Perception in the V2V research, whose algorithms have been dramatically advanced recently. However, all the existing cooperative perception algorithms assume the ideal V2V communication without considering the possible lossy shared features because of the Lossy Communication (LC) which is common in the complex real-world driving scenarios. In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. The extensive experiment on the public cooperative perception dataset OPV2V (based on digital-twin CARLA simulator) demonstrates that the proposed method is quite effective for the cooperative point cloud based 3D object detection under lossy V2V communication.
翻訳日:2023-03-24 00:59:04 公開日:2023-03-18
# 量子アニーリング対QAOA: NISQコンピュータにおける127Qubit高次イジング問題

Quantum Annealing vs. QAOA: 127 Qubit Higher-Order Ising Problems on NISQ Computers ( http://arxiv.org/abs/2301.00520v2 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz(参考訳) quantum annealing (qa) と quantum alternating operator ansatz (qaoa) は、組合せ最適化問題の最適解をサンプリングするためのヒューリスティックな量子アルゴリズムである。 本稿では、D-Waveハードウェア上のQAとIBMQハードウェア上のQAOAの厳密な直接比較を行う。 これら2つの量子アルゴリズムは、古典的なシミュレート・アニーリングとも比較される。 研究された問題はIsingモデルのインスタンスであり、$+1$または$-1$の可変代入は、立方体$ZZ$相互作用(高次項)を含み、ペガサス位相D-Waveチップのネイティブ接続とIBMQチップのヘキサゴナル格子の両方に一致する。 ヘキサゴナル格子上の新しいQAOA実装は、CNOT深さが1ラウンドあたり6ドルであり、ヘキサゴナル格子全体の使用を可能にする。 実験により、QAOAは、ibm_washingtonの127個のプログラム可能な超伝導トランスモンキュービット全てを用いて、グリッド検索で1ドルおよび2ドル以上のラウンド角を持つランダムに生成されたIsingインスタンスのアンサンブル上で実行される。 全てのQAOA回路でディジタル動的デカップリングの誤差抑制技術をテストする。 プログラム可能な超伝導束量子ビットデバイスD−Wave Advantage_system4.1とAdvantage_system6.1とで、修正されたアニーリングスケジュールと一時停止とを用いてIsingインスタンス上でQAを実行する。 QAはすべての問題インスタンスでQAOAを上回っている。 また、動的デカップリングによって2ラウンドqaoaが1ラウンドqaoaをわずかに上回ることができることも分かりました。

Quantum annealing (QA) and Quantum Alternating Operator Ansatz (QAOA) are both heuristic quantum algorithms intended for sampling optimal solutions of combinatorial optimization problems. In this article we implement a rigorous direct comparison between QA on D-Wave hardware and QAOA on IBMQ hardware. These two quantum algorithms are also compared against classical simulated annealing. The studied problems are instances of a class of Ising models, with variable assignments of $+1$ or $-1$, that contain cubic $ZZZ$ interactions (higher order terms) and match both the native connectivity of the Pegasus topology D-Wave chips and the heavy hexagonal lattice of the IBMQ chips. The novel QAOA implementation on the heavy hexagonal lattice has a CNOT depth of $6$ per round and allows for usage of an entire heavy hexagonal lattice. Experimentally, QAOA is executed on an ensemble of randomly generated Ising instances with a grid search over $1$ and $2$ round angles using all 127 programmable superconducting transmon qubits of ibm_washington. The error suppression technique digital dynamical decoupling is also tested on all QAOA circuits. QA is executed on the same Ising instances with the programmable superconducting flux qubit devices D-Wave Advantage_system4.1 and Advantage_system6.1 using modified annealing schedules with pauses. We find that QA outperforms QAOA on all problem instances. We also find that dynamical decoupling enables 2-round QAOA to marginally outperform 1-round QAOA, which is not the case without dynamical decoupling.
翻訳日:2023-03-24 00:50:49 公開日:2023-03-18
# Peak Ground Truthへのアプローチ

Approaching Peak Ground Truth ( http://arxiv.org/abs/2301.00243v3 )

ライセンス: Link先を確認
Florian Kofler, Johannes Wahle, Ivan Ezhov, Sophia Wagner, Rami Al-Maskari, Emilia Gryska, Mihail Todorov, Christina Bukas, Felix Meissen, Tingying Peng, Ali Ert\"urk, Daniel Rueckert, Rolf Heckemann, Jan Kirschke, Claus Zimmer, Benedikt Wiestler, Bjoern Menze, Marie Piraud(参考訳) 機械学習モデルは通常、参照アノテーションとの類似性を計算することによって評価され、類似性を最大化することで訓練される。 特に生体医学領域では、アノテーションは主観的であり、レート間およびレート内信頼性が低い。 アノテーションは現実世界の1つの解釈だけを反映しているため、モデルが高い類似度スコアを達成しても、最適でない予測につながる可能性がある。 ここでは、PGTの理論概念を紹介する。 PGT は 'emph{reference アノテーション' との類似性の増大が RWMP への変換を停止する余地を示す。 また,レータ内信頼性を計算し,PGTを近似する定量的手法を提案する。 最後に、モデル性能の評価と改善のためのPGT対応戦略の4つのカテゴリについて概説する。

Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the biomedical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect one interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of PGT is introduced. PGT marks the point beyond which an increase in similarity with the \emph{reference annotation} stops translating to better RWMP. Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, four categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
翻訳日:2023-03-24 00:50:13 公開日:2023-03-18
# 多次元量子ウォーク:diracとschr\"{o}dinger粒子の遊び場

Multi-Dimensional Quantum Walks: a Playground of Dirac and Schr\"{o}dinger Particles ( http://arxiv.org/abs/2212.13044v3 )

ライセンス: Link先を確認
Manami Yamagishi, Naomichi Hatano, Ken-Ichiro Imura, Hideaki Obuse(参考訳) 本稿では,連続限界を拡張多次元ディラック方程式とし,さらにschr\"{o}dinger方程式にマッピング可能な,新しい多次元離散時間量子ウォーク(dtqw)を提案する。 DTQWは2次元(2次元)拡張ディラック・ハミルトンおよび高次トポロジー材料の研究に優れた尺度であることを示す。 まず、DTQWのダイナミクスが2D Schr\"{o}dinger高調波発振器に似ていることを示す。 次に,拡張ディラック系のDTQWトポロジ的特徴について述べる。 コイン演算子を操作することで、標準的なエッジ状態だけでなくコーナー状態も生成できる。

We propose a new multi-dimensional discrete-time quantum walk (DTQW), whose continuum limit is an extended multi-dimensional Dirac equation, which can be further mapped to the Schr\"{o}dinger equation. We show in two ways that our DTQW is an excellent measure to investigate the two-dimensional (2D) extended Dirac Hamiltonian and higher-order topological materials. First, we show that the dynamics of our DTQW resembles that of a 2D Schr\"{o}dinger harmonic oscillator. Second, we find in our DTQW topological features of the extended Dirac system. By manipulating the coin operators, we can generate not only standard edge states but also corner states.
翻訳日:2023-03-24 00:49:59 公開日:2023-03-18
# 奥行き軸ネットワーク

Deep Residual Axial Networks ( http://arxiv.org/abs/2301.04631v2 )

ライセンス: Link先を確認
Nazmul Shahadat, Anthony S. Maida(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて優れた性能を示すが、計算コストは高いままである。 チャネルカウントの削減や、分離可能な分離可能な畳み込みの使用など、これらのコスト削減にいくつかのテクニックが使用されている。 本稿では,空間的2次元畳み込み演算を2連続的に分離可能な1次元演算に置き換える新しいアーキテクチャである軸方向cnnを導入することで,計算コストを削減する。 軸方向cnnは、データセットがほぼ分離可能な畳み込み操作をサポートし、トレーニング精度の損失がほとんどないという仮定に基づいて予測される。 深軸分離可能なCNNは、深層ネットワークを訓練する際の勾配問題に悩まされている。 我々は, 部分接続を有する軸分離可能なCNNの構成を改良し, 深部軸構造の性能を向上させるとともに, 新たなアーキテクチャであるRANを導入する。 広範なベンチマーク評価の結果、runsは、cifarベンチマーク、svhn、およびsmall imagenetイメージ分類データセットで、約77%、約86%、75%、および34%のパラメータ、約75%、80%、67%、および26%のフロップ率で少なくとも1%高いパフォーマンスを達成していることがわかった。 さらに,提案手法では,画像スーパーレゾリューションデータセットのパラメータを94%削減し,深い再帰的残差ネットワーク性能を向上させる。

While convolutional neural networks (CNNs) demonstrate outstanding performance on computer vision tasks, their computational costs remain high. Several techniques are used to reduce these costs, like reducing channel count, and using separable and depthwise separable convolutions. This paper reduces computational costs by introducing a novel architecture, axial CNNs, which replaces spatial 2D convolution operations with two consecutive depthwise separable 1D operations. The axial CNNs are predicated on the assumption that the dataset supports approximately separable convolution operations with little or no loss of training accuracy. Deep axial separable CNNs still suffer from gradient problems when training deep networks. We modify the construction of axial separable CNNs with residual connections to improve the performance of deep axial architectures and introduce our final novel architecture namely residual axial networks (RANs). Extensive benchmark evaluation shows that RANs achieve at least 1% higher performance with about 77%, 86%, 75%, and 34% fewer parameters and about 75%, 80%, 67%, and 26% fewer flops than ResNets, wide ResNets, MobileNets, and SqueezeNexts on CIFAR benchmarks, SVHN, and Tiny ImageNet image classification datasets. Moreover, our proposed RANs improve deep recursive residual networks performance with 94% fewer parameters on the image super-resolution dataset.
翻訳日:2023-03-24 00:42:14 公開日:2023-03-18
# コントラストとクラスタリング:ソースフリードメイン適応のための近隣ペア表現の学習

Contrast and Clustering: Learning Neighborhood Pair Representation for Source-free Domain Adaptation ( http://arxiv.org/abs/2301.13428v3 )

ライセンス: Link先を確認
Yuqi Chen, Xiangbin Zhu and Yonggang Li and Yingjian Li and Haojie Fang(参考訳) 教師なしドメイン適応は、異なるディストリビューションのソースデータを使用して、ラベルのないターゲットドメインからデータを分類する問題を解決する。 しかし、従来の方法ではソースデータへのアクセスが必要であり、データプライバシに関する懸念がしばしば生じている。 本稿では、ソースドメインデータが利用できなくなり、対象ドメインデータがラベル付けされていない、より実用的で困難な設定について考察する。 具体的には, コントラスト学習の観点から, ドメインの不一致問題に対処する。 私たちの仕事の鍵となるアイデアは、ドメイン不変機能を学ぶことです。 1) 隣人と共に元の特徴空間に直接クラスタリングを行う。 2) さらなる計算複雑性を導入することなく、隣り合う拡張による真の強負対の構築 3) ノイズコントラスト推定理論を組み合わせ, 計算上の優位性を得る。 我々はvisda, office-home, office-31の3つの共通ベンチマークについて, 注意深くアブレーション研究を行い, 広範な実験を行った。 その結果,本手法は他の最先端作品と比較して優れていることがわかった。

Unsupervised domain adaptation uses source data from different distributions to solve the problem of classifying data from unlabeled target domains. However, conventional methods require access to source data, which often raise concerns about data privacy. In this paper, we consider a more practical but challenging setting where the source domain data is unavailable and the target domain data is unlabeled. Specifically, we address the domain discrepancy problem from the perspective of contrastive learning. The key idea of our work is to learn a domain-invariant feature by 1) performing clustering directly in the original feature space with nearest neighbors; 2) constructing truly hard negative pairs by extended neighbors without introducing additional computational complexity; and 3) combining noise-contrastive estimation theory to gain computational advantage. We conduct careful ablation studies and extensive experiments on three common benchmarks: VisDA, Office-Home, and Office-31. The results demonstrate the superiority of our methods compared with other state-of-the-art works.
翻訳日:2023-03-24 00:23:20 公開日:2023-03-18
# HDPV-SLAM:Tilted LiDARとパノラマカメラを用いたモバイルマッピングシステムのためのハイブリッド奥行きパノラマ画像SLAM

HDPV-SLAM: Hybrid Depth-augmented Panoramic Visual SLAM for Mobile Mapping System with Tilted LiDAR and Panoramic Visual Camera ( http://arxiv.org/abs/2301.11823v2 )

ライセンス: Link先を確認
Mostafa Ahmadi, Amin Alizadeh Naeini, Mohammad Moein Sheikholeslami, Zahra Arjmandi, Yujia Zhang, and Gunho Sohn(参考訳) 本論文では,パノラマカメラと傾斜多ビームlidarスキャナを用いて高精度かつメートルスケールの軌跡を生成する,ハイブリッド奥行き誘導パノラマ視覚スラム(hdpv-slam)と呼ばれる新しい視覚同時測位・マッピングシステムを提案する。 RGB-D SLAMはHDPV-SLAMの設計基盤であり、視覚的特徴に深度情報を追加した。 これは、同様のSLAMシステムの性能を妨げる2つの大きな問題を解決することを目的としている。 第1の障害は、LiDARの深さの疎度であり、RGB画像の抽出された視覚的特徴との相関が難しい。 この問題に対処するため, 深層学習に基づく疎水深度推定モジュールを提案する。 第2の課題は、パノラマカメラと傾斜LiDARセンサーとの水平重なり合いの欠如による奥行き関係の難しさに関するものである。 この困難を克服するために,特徴に基づく三角測量と深度推定という2つの独立した手順によって推定される深度情報を最適に組み合わせたハイブリッド深度関連モジュールを提案する。 特徴追跡の段階において、このハイブリッド深度関連モジュールは、視覚的特徴追跡による三角深度と深度に基づく補正深度とのより正確な深度情報の利用を最大化することを目的としている。 ヨーク大学およびTeledyne Optech (YUTO) MMSデータセットを用いてHDPV-SLAMの有効性を検討した。 実験の結果,2つのモジュールは,最先端SLAMシステムを上回るHDPV-SLAMの性能に大きく貢献することが示された。

This paper proposes a novel visual simultaneous localization and mapping (SLAM) system called Hybrid Depth-augmented Panoramic Visual SLAM (HDPV-SLAM), that employs a panoramic camera and a tilted multi-beam LiDAR scanner to generate accurate and metrically-scaled trajectories. RGB-D SLAM was the design basis for HDPV-SLAM, which added depth information to visual features. It aims to solve the two major issues hindering the performance of similar SLAM systems. The first obstacle is the sparseness of LiDAR depth, which makes it difficult to correlate it with the extracted visual features of the RGB image. A deep learning-based depth estimation module for iteratively densifying sparse LiDAR depth was suggested to address this issue. The second issue pertains to the difficulties in depth association caused by a lack of horizontal overlap between the panoramic camera and the tilted LiDAR sensor. To surmount this difficulty, we present a hybrid depth association module that optimally combines depth information estimated by two independent procedures, feature-based triangulation and depth estimation. During a phase of feature tracking, this hybrid depth association module aims to maximize the use of more accurate depth information between the triangulated depth with visual features tracked and the deep learning-based corrected depth. We evaluated the efficacy of HDPV-SLAM using the 18.95 km-long York University and Teledyne Optech (YUTO) MMS dataset. The experimental results demonstrate that the two proposed modules contribute substantially to the performance of HDPV-SLAM, which surpasses that of the state-of-the-art (SOTA) SLAM systems.
翻訳日:2023-03-24 00:21:49 公開日:2023-03-18
# 知識エンハンス双曲的協調フィルタリングのためのローレンツ同変モデル

Lorentz Equivariant Model for Knowledge-Enhanced Hyperbolic Collaborative Filtering ( http://arxiv.org/abs/2302.04545v2 )

ライセンス: Link先を確認
Bosong Huang, Weihao Yu, Ruzhong Xie, Jing Xiao, Jin Huang(参考訳) 知識グラフ(KG)から事前補助情報を導入してユーザイットグラフを支援することにより,レコメンダシステムの総合的な性能を向上させることができる。 最近の多くの研究は、双曲空間のアンサンブル特性が上記の2種類のグラフで示されるスケールフリーおよび階層的特性によく適合していることを示している。 しかし、既存の双曲的手法は同値性の考慮を無視するため、与えられた変換の下で対称的な特徴を一般化することはできない。 さらに、不均一性の保存と高次エンティティ情報のマイニングを2つのグラフで行うこともできない。 これらのギャップを埋めるために,厳密なローレンツ群同変知識強化協調フィルタリングモデル(lecf)を提案する。 本稿では,ローレンツ同変変換を用いたLECF層による属性埋め込み(KGからの高次実体信号を含む)と双曲埋め込み(双曲埋め込み間の距離が推奨傾向を示す)を共同で更新する。 さらに,最も情報性の高い隣接ノードをサンプリングするハイパーボリックスパース注意機構を提案する。 ローレンツ同値性はモデル全体を通して厳密に維持され、同値性は実験的に証明される。 3つの実世界のベンチマークによる大規模な実験により、LECFは最先端の手法よりも著しく優れていることが示された。

Introducing prior auxiliary information from the knowledge graph (KG) to assist the user-item graph can improve the comprehensive performance of the recommender system. Many recent studies show that the ensemble properties of hyperbolic spaces fit the scale-free and hierarchical characteristics exhibited in the above two types of graphs well. However, existing hyperbolic methods ignore the consideration of equivariance, thus they cannot generalize symmetric features under given transformations, which seriously limits the capability of the model. Moreover, they cannot balance preserving the heterogeneity and mining the high-order entity information to users across two graphs. To fill these gaps, we propose a rigorously Lorentz group equivariant knowledge-enhanced collaborative filtering model (LECF). Innovatively, we jointly update the attribute embeddings (containing the high-order entity signals from the KG) and hyperbolic embeddings (the distance between hyperbolic embeddings reveals the recommendation tendency) by the LECF layer with Lorentz Equivariant Transformation. Moreover, we propose Hyperbolic Sparse Attention Mechanism to sample the most informative neighbor nodes. Lorentz equivariance is strictly maintained throughout the entire model, and enforcing equivariance is proven necessary experimentally. Extensive experiments on three real-world benchmarks demonstrate that LECF remarkably outperforms state-of-the-art methods.
翻訳日:2023-03-24 00:13:50 公開日:2023-03-18
# FGSI:細粒度意味情報に基づく関係抽出のための距離スーパービジョン

FGSI: Distant Supervision for Relation Extraction method based on Fine-Grained Semantic Information ( http://arxiv.org/abs/2302.02078v2 )

ライセンス: Link先を確認
Chenghong Sun, Weidong Ji, Guohui Zhou, Hui Guo, Zengxiang Yin and Yuqi Yue(参考訳) 関係抽出の主な目的は、文の意味理解と知識グラフの構築において重要な役割を担っている、文内のエンティティのタグ付きペア間の意味関係を抽出することである。 本稿では,文内のキーセマンティック情報が,エンティティ間の関係抽出において重要な役割を果たすことを提案する。 文内のキーセマンティック情報がエンティティ関係抽出において重要な役割を果たすという仮説を提案する。 そして,この仮説に基づき,文の内部から実体の位置に応じて文を3つのセグメントに分割し,文内部の微細な意味的特徴を文内注意機構を通じて発見し,無関係な雑音情報の干渉を低減する。 提案する関係抽出モデルは、利用可能なポジティブな意味情報を十分に活用することができる。 実験の結果,提案手法は既存手法と比較して精度-リコール曲線とp@n値が向上し,本モデルの有効性が証明された。

The main purpose of relation extraction is to extract the semantic relationships between tagged pairs of entities in a sentence, which plays an important role in the semantic understanding of sentences and the construction of knowledge graphs. In this paper, we propose that the key semantic information within a sentence plays a key role in the relationship extraction of entities. We propose the hypothesis that the key semantic information inside the sentence plays a key role in entity relationship extraction. And based on this hypothesis, we split the sentence into three segments according to the location of the entity from the inside of the sentence, and find the fine-grained semantic features inside the sentence through the intra-sentence attention mechanism to reduce the interference of irrelevant noise information. The proposed relational extraction model can make full use of the available positive semantic information. The experimental results show that the proposed relation extraction model improves the accuracy-recall curves and P@N values compared with existing methods, which proves the effectiveness of this model.
翻訳日:2023-03-24 00:11:57 公開日:2023-03-18
# 経済深層学習モデルを用いたIoTボットネットの検出

IoT Botnet Detection Using an Economic Deep Learning Model ( http://arxiv.org/abs/2302.02013v2 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Magdy Bayoumi(参考訳) 技術の革新と流通の急速な進歩は、この10年間で増加している。 世界中のIoT(Internet of Things)システムの急速な成長は、悪意のあるサードパーティが生み出したネットワークセキュリティ上の課題を増大させている。 したがって、セキュリティ上の懸念やIoTシステムの制限を考慮に入れた、信頼性の高い侵入検知とネットワークフォサイシクスシステムは、そのようなシステムを保護する上で不可欠である。 IoTボットネット攻撃は企業や個人にとって重要な脅威のひとつだ。 そこで本稿では,IoTボットネット攻撃を検知する経済的深層学習モデルを提案する。 提案手法は, 実装予算を小さくし, 訓練および検出プロセスを高速化することで, 最先端検出モデルよりも高い精度を達成した。

The rapid progress in technology innovation usage and distribution has increased in the last decade. The rapid growth of the Internet of Things (IoT) systems worldwide has increased network security challenges created by malicious third parties. Thus, reliable intrusion detection and network forensics systems that consider security concerns and IoT systems limitations are essential to protect such systems. IoT botnet attacks are one of the significant threats to enterprises and individuals. Thus, this paper proposed an economic deep learning-based model for detecting IoT botnet attacks along with different types of attacks. The proposed model achieved higher accuracy than the state-of-the-art detection models using a smaller implementation budget and accelerating the training and detecting processes.
翻訳日:2023-03-24 00:11:39 公開日:2023-03-18
# User-Centered Design (IX):人工知能時代の"User Experience 3.0"パラダイムフレームワーク

User-Centered Design (IX): A "User Experience 3.0" Paradigm Framework in the Intelligence Era ( http://arxiv.org/abs/2302.06681v5 )

ライセンス: Link先を確認
Wei Xu(参考訳) ユーザ中心設計」のデザイン哲学に基づくユーザエクスペリエンス(UX)の分野は、インテリジェンスの時代に向かっている。 それでも、既存のUXパラダイムは主にインテリジェントでないシステムを対象としており、インテリジェントなシステムに対するUXに対する体系的なアプローチが欠けている。 UXの開発を通じて、UXパラダイムは技術横断時代の進化特性を示している。 現在、インテリジェンス時代はUXパラダイムに対する新たな要求を提起している。 そこで本稿では,インテリジェンス時代の"UX 3.0"パラダイムフレームワークと,それに対応するUX方法論システムを提案する。 UX 3.0"パラダイムフレームワークには、エコロジーエクスペリエンス、イノベーション対応エクスペリエンス、AI対応エクスペリエンス、ヒューマン-AIインタラクションベースエクスペリエンス、ヒューマン-AIコラボレーションベースのエクスペリエンスメソッドの5つのカテゴリが含まれており、それぞれが対応する複数のUXパラダイム指向を提供する。 UX 3.0"パラダイムの提案は、既存のUXメソッドの改善を支援し、インテリジェントシステム開発におけるUXの研究と応用に対する方法論的なサポートを提供する。 最後に、この論文は「UX 3.0」パラダイムの今後の研究と応用を楽しみにしている。

The field of user experience (UX) based on the design philosophy of "user-centered design" is moving towards the intelligence era. Still, the existing UX paradigm mainly aims at non-intelligent systems and lacks a systematic approach to UX for intelligent systems. Throughout the development of UX, the UX paradigm shows the evolution characteristics of the cross-technology era. At present, the intelligence era has put forward new demands on the UX paradigm. For this reason, this paper proposes a "UX 3.0" paradigm framework and the corresponding UX methodology system in the intelligence era. The "UX 3.0" paradigm framework includes five categories of UX methods: ecological experience, innovation-enabled experience, AI-enabled experience, human-AI interaction-based experience, and human-AI collaboration-based experience methods, each providing corresponding multiple UX paradigmatic orientations. The proposal of the "UX 3.0" paradigm helps improve the existing UX methods and provides methodological support for the research and applications of UX in developing intelligent systems. Finally, this paper looks forward to future research and applications of the "UX 3.0" paradigm.
翻訳日:2023-03-24 00:06:04 公開日:2023-03-18
# クロスモーダルファインチューニング:アライン・アンド・リファイン

Cross-Modal Fine-Tuning: Align then Refine ( http://arxiv.org/abs/2302.05738v2 )

ライセンス: Link先を確認
Junhong Shen, Liam Li, Lucio M. Dery, Corey Staten, Mikhail Khodak, Graham Neubig, Ameet Talwalkar(参考訳) 微調整された大規模事前学習モデルによって、視覚やnlpといったよく研究されたモダリティが大幅に進歩した。 しかし、関連する事前学習モデルがないため、他の多くのモダリティでは同様の効果は見られていない。 本研究では,単一大規模事前学習モデルの適用性を多様性に拡張した汎用クロスモーダル微調整フレームワークORCAを提案する。 ORCAは、ターゲット入力が与えられたら、まず埋め込みネットワークを学習し、組み込まれた特徴分布と事前訓練されたモダリティを整合させる。 トレーニング済みのモデルは、モーダリティ間で共有される知識を活用すべく、組み込みデータ上で微調整される。 広範にわたる実験により、ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークの最先端結果を取得し、手書き設計、AutoML、汎用、タスク固有メソッドよりも優れた性能を示した。 我々は、一連のアブレーション研究によるデータアライメントの重要性を強調し、データ制限体制におけるORCAの有用性を実証する。

Fine-tuning large-scale pretrained models has led to tremendous progress in well-studied modalities such as vision and NLP. However, similar gains have not been observed in many other modalities due to a lack of relevant pretrained models. In this work, we propose ORCA, a general cross-modal fine-tuning framework that extends the applicability of a single large-scale pretrained model to diverse modalities. ORCA adapts to a target task via an align-then-refine workflow: given the target input, ORCA first learns an embedding network that aligns the embedded feature distribution with the pretraining modality. The pretrained model is then fine-tuned on the embedded data to exploit the knowledge shared across modalities. Through extensive experiments, we show that ORCA obtains state-of-the-art results on 3 benchmarks containing over 60 datasets from 12 modalities, outperforming a wide range of hand-designed, AutoML, general-purpose, and task-specific methods. We highlight the importance of data alignment via a series of ablation studies and demonstrate ORCA's utility in data-limited regimes.
翻訳日:2023-03-24 00:02:58 公開日:2023-03-18
# データアクセスに制限のある実用的クロスシステムシリング攻撃

Practical Cross-System Shilling Attacks with Limited Access to Data ( http://arxiv.org/abs/2302.07145v2 )

ライセンス: Link先を確認
Meifang Zeng, Ke Li, Bingchuan Jiang, Liujuan Cao, Hui Li(参考訳) シリング攻撃では、敵側がいくつかの偽ユーザプロファイルをRecommender System(RS)に注入し、ターゲットアイテムのプロモーションや削除を行う。 攻撃手法の開発に多くの努力が注がれているが、既存のアプローチはまだ実用的ではない。 本稿では,実用的なシリング攻撃手法が持つべき特性を分析し,システム間攻撃の新たな概念を提案する。 システム間攻撃の考え方により,被害者のrsモデルや攻撃対象のrsデータに関する情報をほとんど必要としない,実用的なシステム間シリング攻撃(pc-attack)フレームワークを設計した。 pc-attackは、公開rsデータからグラフトポロジの知識を自己監視的に捉えるように訓練されている。 次に、フェイクプロファイルの構築に容易にアクセス可能なターゲットデータのごく一部を微調整する。 大規模な実験は、最先端のベースラインよりもPC-Attackの方が優れていることを示した。 PC-Attackの実装はhttps://github.com/KDEGroup/PC-Attack.comで公開しています。

In shilling attacks, an adversarial party injects a few fake user profiles into a Recommender System (RS) so that the target item can be promoted or demoted. Although much effort has been devoted to developing shilling attack methods, we find that existing approaches are still far from practical. In this paper, we analyze the properties a practical shilling attack method should have and propose a new concept of Cross-system Attack. With the idea of Cross-system Attack, we design a Practical Cross-system Shilling Attack (PC-Attack) framework that requires little information about the victim RS model and the target RS data for conducting attacks. PC-Attack is trained to capture graph topology knowledge from public RS data in a self-supervised manner. Then, it is fine-tuned on a small portion of target data that is easy to access to construct fake profiles. Extensive experiments have demonstrated the superiority of PC-Attack over state-of-the-art baselines. Our implementation of PC-Attack is available at https://github.com/KDEGroup/PC-Attack.
翻訳日:2023-03-23 23:53:11 公開日:2023-03-18
# BLiRF-RF:動的シーンモデリングのための帯域制限放射場

BLiRF-RF: Bandlimited Radiance Fields for Dynamic Scene Modeling ( http://arxiv.org/abs/2302.13543v2 )

ライセンス: Link先を確認
Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Anton Van Den Hengel(参考訳) 単一の移動カメラから非剛性動的シーンの3d構造を推論することは、制約の少ない問題である。 静的シーンのフォトリアリスティックな新規ビュー合成におけるニューラルラジアンス場(NeRF)の顕著な進歩に触発されて、動的設定のための拡張が提案されている。 これらの手法は問題を正規化するために神経先行性に大きく依存する。 本稿では,現在の実装では,表現力の制限,光・密度場の絡み合い,光学的動作の局所化など,有害な効果が伴う可能性について再検討する。 治療として,従来の非剛体構造からの橋渡し (\nrsfm) とNeRF (NeRF) の橋渡しを提唱する。 そこで本稿では,帯域制限された高次元信号の合成としてシーンを定式化し,時間と空間を分解する枠組みを提案する。 照明, テクスチャ, 長距離ダイナミックスの変化を伴う, 複雑な動的シーンにまたがる説得力のある結果を示す。

Reasoning the 3D structure of a non-rigid dynamic scene from a single moving camera is an under-constrained problem. Inspired by the remarkable progress of neural radiance fields (NeRFs) in photo-realistic novel view synthesis of static scenes, extensions have been proposed for dynamic settings. These methods heavily rely on neural priors in order to regularize the problem. In this work, we take a step back and reinvestigate how current implementations may entail deleterious effects, including limited expressiveness, entanglement of light and density fields, and sub-optimal motion localization. As a remedy, we advocate for a bridge between classic non-rigid-structure-from-motion (\nrsfm) and NeRF, enabling the well-studied priors of the former to constrain the latter. To this end, we propose a framework that factorizes time and space by formulating a scene as a composition of bandlimited, high-dimensional signals. We demonstrate compelling results across complex dynamic scenes that involve changes in lighting, texture and long-range dynamics.
翻訳日:2023-03-23 23:37:31 公開日:2023-03-18
# 整列のない安全

Safety without alignment ( http://arxiv.org/abs/2303.00752v2 )

ライセンス: Link先を確認
Andr\'as Kornai and Michael Bukatin and Zsolt Zombori(参考訳) 現在、AIの安全性における支配的なパラダイムは、人間の価値と一致している。 ここでは、倫理的合理主義(Gewirth:1978)に基づく安全性への代替アプローチの進展について述べるとともに、サンドボックス内のハイブリッド定理プローサによる本質的に安全な実装経路を提案する。 AGIが進化するにつれて、それらのアライメントは消滅するが、それらの合理性は増大する(またはより合理的なものは大きな進化上の優位性を持つ)。

Currently, the dominant paradigm in AI safety is alignment with human values. Here we describe progress on developing an alternative approach to safety, based on ethical rationalism (Gewirth:1978), and propose an inherently safe implementation path via hybrid theorem provers in a sandbox. As AGIs evolve, their alignment may fade, but their rationality can only increase (otherwise more rational ones will have a significant evolutionary advantage) so an approach that ties their ethics to their rationality has clear long-term advantages.
翻訳日:2023-03-23 23:27:35 公開日:2023-03-18
# ウズベク語テキストと生徒の教育能力の対応--学校コーパスを事例として

Uzbek text's correspondence with the educational potential of pupils: a case study of the School corpus ( http://arxiv.org/abs/2303.00465v2 )

ライセンス: Link先を確認
Khabibulla Madatov and Sanatbek Matlatipov and Mersaid Aripov(参考訳) 教育システムの大きな課題の1つは、生徒の年齢と知的能力を考慮した適切なコンテンツの選択である。 本稿では、ウズベキスタン共和国の小学校・学校教育省が確認した25の教科書のデータセットを含む学校コーパスを用いて、小学校1年生から4年生までの児童生徒に推奨される教育資料の対応を自動的に決定する実験について検討する。 この場合、テキストのTF-IDFスコアが決定され、それらがベクトル表現に変換され、与えられた教材がコサイン類似性アルゴリズムを用いて、スクールコーパスの対応するクラスと比較される。 計算結果に基づいて、与えられた教材が生徒の教育的潜在能力に適切か否かを判定する。

One of the major challenges of an educational system is choosing appropriate content considering pupils' age and intellectual potential. In this article the experiment of primary school grades (from 1st to 4th grades) is considered for automatically determining the correspondence of an educational materials recommended for pupils by using the School corpus where it includes the dataset of 25 school textbooks confirmed by the Ministry of preschool and school education of the Republic of Uzbekistan. In this case, TF-IDF scores of the texts are determined, they are converted into a vector representation, and the given educational materials are compared with the corresponding class of the School corpus using the cosine similarity algorithm. Based on the results of the calculation, it is determined whether the given educational material is appropriate or not appropriate for the pupils' educational potential.
翻訳日:2023-03-23 23:27:24 公開日:2023-03-18
# 連帯強化学習における局所環境中毒攻撃

Local Environment Poisoning Attacks on Federated Reinforcement Learning ( http://arxiv.org/abs/2303.02725v2 )

ライセンス: Link先を確認
Evelyn Ma, Tiancheng Qin, Rasoul Etesami(参考訳) フェデレーション学習(fl)は、伝統的な強化学習(rl)タスクを解決するための一般的なツールとなっている。 マルチエージェント構造は従来のRLにおけるデータハングリーの主な懸念に対処し、フェデレーション機構は個々のエージェントのデータプライバシを保護する。 しかし、フェデレーション機構は、訓練されたポリシーを誤解させる悪質なエージェントによる中毒にもシステムを公開する。 flの利点にもかかわらず、federated reinforcement learning (frl)の脆弱性はよく研究されていない。 本研究では、FRL中毒を限られた予算で制約された最適化問題として特徴付けるための最初の一般的な枠組みを提案し、ポリシーベースのFRLに適用可能な中毒プロトコルを設計し、一対の私的・公的な評論家を訓練することで、アクタークリティカルなローカルRLアルゴリズムとしてFRLに拡張する。 また、このリスクを軽減するため、FLから受け継いだ従来の防衛戦略についても論じる。 主要なRLアルゴリズムを対象とし,様々なRL OpenAI Gym環境を対象とし,幅広い難易度をカバーした広範囲な実験を行うことにより,毒性の有効性を検証する。 以上の結果から,提案する防衛プロトコルはほとんどの場合成功しているが,複雑な環境下では堅牢ではないことがわかった。 我々の研究は、RLトレーニングにおけるFLの脆弱性に関する新たな洞察を提供し、堅牢なFRLアルゴリズムを設計するためのさらなる課題を提起する。

Federated learning (FL) has become a popular tool for solving traditional Reinforcement Learning (RL) tasks. The multi-agent structure addresses the major concern of data-hungry in traditional RL, while the federated mechanism protects the data privacy of individual agents. However, the federated mechanism also exposes the system to poisoning by malicious agents that can mislead the trained policy. Despite the advantage brought by FL, the vulnerability of Federated Reinforcement Learning (FRL) has not been well-studied before. In this work, we propose the first general framework to characterize FRL poisoning as an optimization problem constrained by a limited budget and design a poisoning protocol that can be applied to policy-based FRL and extended to FRL with actor-critic as a local RL algorithm by training a pair of private and public critics. We also discuss a conventional defense strategy inherited from FL to mitigate this risk. We verify our poisoning effectiveness by conducting extensive experiments targeting mainstream RL algorithms and over various RL OpenAI Gym environments covering a wide range of difficulty levels. Our results show that our proposed defense protocol is successful in most cases but is not robust under complicated environments. Our work provides new insights into the vulnerability of FL in RL training and poses additional challenges for designing robust FRL algorithms.
翻訳日:2023-03-23 23:18:36 公開日:2023-03-18
# 診断のための一級損傷検出器プロトタイピング完全畳み込みデータ記述

One-class Damage Detector Prototyping Fully-Convolutional Data Description for Prognostics ( http://arxiv.org/abs/2303.01732v2 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Riku Ogata, Junichiro Fujii(参考訳) インフラストラクチャマネージャは、インフラストラクチャのライフサイクル中にユーザの満足度を確保するために、高い基準を維持することが重要です。 監視カメラと視覚検査は異常な特徴の検出と劣化の発生を自動化するための進歩をもたらした。 しばしば、損傷データ収集に要する時間と繰り返し検査を行う。 一級損傷検出手法は、通常の画像だけでパラメータを最適化できるという利点がある。 同時に、ヒートマップを用いた視覚的説明により、局所的な異常な特徴を理解することができる。 完全畳み込みデータ記述(FCDD)を用いて一級損傷検出を自動化するプロトタイプを提案する。 また,完全畳み込みネットワーク(FCN)の受容場からのガウスアップサンプリングを用いたアップサンプリングに基づくアクティベーションマップを用いて,損傷特性の可視化を行った。 コンクリート損傷と鋼材の腐食を実験的に検証し,その有用性と今後の課題について述べる。

It is important for infrastructure managers to maintain a high standard to ensure user satisfaction during a lifecycle of infrastructures. Surveillance cameras and visual inspections have enabled progress toward automating the detection of anomalous features and assessing the occurrence of the deterioration. Frequently, collecting damage data constraints time consuming and repeated inspections. One-class damage detection approach has a merit that only the normal images enables us to optimize the parameters. Simultaneously, the visual explanation using the heat map enable us to understand the localized anomalous feature. We propose a prototype to automate one-class damage detection using the fully-convolutional data description (FCDD). We also visualize the explanation of the damage feature using the up-sampling-based activation map with the Gaussian up-sampling from the receptive field of the fully convolutional network (FCN). We demonstrate it in experimental studies: concrete damage and steel corrosion and mention its usefulness and future works.
翻訳日:2023-03-23 23:16:20 公開日:2023-03-18
# riddle: latent encryptorによる可逆性と多様化した非識別

RiDDLE: Reversible and Diversified De-identification with Latent Encryptor ( http://arxiv.org/abs/2303.05171v2 )

ライセンス: Link先を確認
Dongze Li, Wei Wang, Kang Zhao, Jing Dong and Tieniu Tan(参考訳) この研究は、人々の身元情報を誤用から守るために、可逆的かつ多角化された非識別を潜在暗号化装置と略すriddleを提示している。 事前に学習したStyleGAN2ジェネレータ上に構築されたRiDDLEは、潜伏空間内の顔認証を暗号化して復号する。 RiDDLEの設計には3つの魅力がある。 まず、暗号化プロセスは暗号化誘導され、異なるパスワードを使って様々な匿名化が可能である。 第二に、真のidは正しいパスワードでしか解読できない。そうでなければ、システムはプライバシーを維持するために別の身元不明の顔を生成する。 第三に、暗号化と復号化の両方が効率的な実装を共有しており、慎重に調整された軽量暗号化の利点がある。 既存の代替手段との比較では、我々のアプローチがより良い品質、高い多様性、より強い可逆性を備えた非識別タスクを達成することを確認した。 さらに,ビデオの匿名化におけるRiDDLEの有効性を示す。 コードとモデルは公開される予定だ。

This work presents RiDDLE, short for Reversible and Diversified De-identification with Latent Encryptor, to protect the identity information of people from being misused. Built upon a pre-learned StyleGAN2 generator, RiDDLE manages to encrypt and decrypt the facial identity within the latent space. The design of RiDDLE has three appealing properties. First, the encryption process is cipher-guided and hence allows diverse anonymization using different passwords. Second, the true identity can only be decrypted with the correct password, otherwise the system will produce another de-identified face to maintain the privacy. Third, both encryption and decryption share an efficient implementation, benefiting from a carefully tailored lightweight encryptor. Comparisons with existing alternatives confirm that our approach accomplishes the de-identification task with better quality, higher diversity, and stronger reversibility. We further demonstrate the effectiveness of RiDDLE in anonymizing videos. Code and models will be made publicly available.
翻訳日:2023-03-23 23:09:19 公開日:2023-03-18
# ブートストラップ the original latent: ブラックボックスモデルからプライベートモデルを学ぶ

Bootstrap The Original Latent: Learning a Private Model from a Black-box Model ( http://arxiv.org/abs/2303.03709v3 )

ライセンス: Link先を確認
Shuai Wang, Daoan Zhang, Jianguo Zhang, Weiwei Zhang, and Rui Li(参考訳) 本稿では,モデル所有者とユーザニーズのデータ/モデルプライバシのバランスを考慮し,ブラックボックス基盤/ソースモデルのバックプロパゲーション結果のガイダンスを用いて,ユーザがプライベートモデルをより良いトレーニングを行うためのBack-Propagated Black-Box Adaptation (BPBA)を提案する。 私たちの設定は、ファンデーション/ソースモデルの使用を容易にし、ファンデーション/ソースモデルの漏洩や誤用を防ぎます。 さらに,基盤/ソースモデルを完全に活用するためのBootstrap The Original Latent(BTOL)という新たなトレーニング戦略を提案する。 当社の戦略はドメインアダプタとフリーズ・アンド・ザウ戦略で構成されています。 3つのデータセットに対してBPBAとBlack-box UDA設定でBTOLを適用します。 実験の結果,手作業による拡張を伴わずに,戦略が効率的かつ堅牢であることが確認された。

In this paper, considering the balance of data/model privacy of model owners and user needs, we propose a new setting called Back-Propagated Black-Box Adaptation (BPBA) for users to better train their private models via the guidance of the back-propagated results of a Black-box foundation/source model. Our setting can ease the usage of foundation/source models as well as prevent the leakage and misuse of foundation/source models. Moreover, we also propose a new training strategy called Bootstrap The Original Latent (BTOL) to fully utilize the foundation/source models. Our strategy consists of a domain adapter and a freeze-and-thaw strategy. We apply our BTOL under BPBA and Black-box UDA settings on three different datasets. Experiments show that our strategy is efficient and robust in various settings without manual augmentations.
翻訳日:2023-03-23 23:06:57 公開日:2023-03-18
# 相関ネットワークを用いた連続手話認識

Continuous Sign Language Recognition with Correlation Network ( http://arxiv.org/abs/2303.03202v3 )

ライセンス: Link先を確認
Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng(参考訳) 人間の身体の軌跡は、ビデオの中でアクションを識別するための貴重な手がかりです。 このような身体の軌跡は主に手と顔で手話の連続したフレームで伝えられる。 しかしながら、連続手話認識(CSLR)における現在の手法は通常、フレームを独立に処理するため、符号を効果的に識別するためにクロスフレームの軌跡を捕捉できなかった。 この制限に対処するために、フレーム間の身体軌道を明示的に捕捉し、利用して記号を識別する相関ネットワーク(CorrNet)を提案する。 具体的には、まず、現在のフレームと隣接するフレーム間の相関マップを動的に計算し、すべての空間パッチの軌跡を特定するための相関モジュールを提案する。 識別モジュールが提示され、これらの相関マップ内の身体軌跡を動的に強調する。 その結果、生成された特徴は、サインを特定するために局所的な時間運動の概観を得ることができる。 CorrNetは体軌道に特別な注意を払って、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現している。 CorrNetの有効性を検証するため,従来の時空間推論手法との比較を行った。 可視化は、隣接するフレームを横切る人体の軌跡を強調するcorrnetの効果を実証する。

Human body trajectories are a salient cue to identify actions in the video. Such body trajectories are mainly conveyed by hands and face across consecutive frames in sign language. However, current methods in continuous sign language recognition (CSLR) usually process frames independently, thus failing to capture cross-frame trajectories to effectively identify a sign. To handle this limitation, we propose correlation network (CorrNet) to explicitly capture and leverage body trajectories across frames to identify signs. In specific, a correlation module is first proposed to dynamically compute correlation maps between the current frame and adjacent frames to identify trajectories of all spatial patches. An identification module is then presented to dynamically emphasize the body trajectories within these correlation maps. As a result, the generated features are able to gain an overview of local temporal movements to identify a sign. Thanks to its special attention on body trajectories, CorrNet achieves new state-of-the-art accuracy on four large-scale datasets, i.e., PHOENIX14, PHOENIX14-T, CSL-Daily, and CSL. A comprehensive comparison with previous spatial-temporal reasoning methods verifies the effectiveness of CorrNet. Visualizations demonstrate the effects of CorrNet on emphasizing human body trajectories across adjacent frames.
翻訳日:2023-03-23 23:06:42 公開日:2023-03-18
# LiDARセグメンテーションにおける距離ビュー表現の再考

Rethinking Range View Representation for LiDAR Segmentation ( http://arxiv.org/abs/2303.05367v2 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Runnan Chen and Yuexin Ma and Xinge Zhu and Yikang Li and Yuenan Hou and Yu Qiao and Ziwei Liu(参考訳) LiDARセグメンテーションは自律運転知覚に不可欠である。 近年の傾向は、従来のレンジビュー表現よりもパフォーマンスが良い点やボクセルベースの手法が好まれている。 本研究では,強力な視野モデルを構築する上で重要な要素をいくつか提示する。 我々は,「一対一」マッピング,意味的不整合,形状変形が,射影からの効果的な学習を妨げる可能性があることを観察する。 RangeFormer(リンク) - ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含むフルサイクルのフレームワークで、レンジビューからLiDARポイントクラウドの学習と処理をより良く処理する。 我々はさらに,任意の低解像度の2dレンジイメージをトレーニングしながら,良好な3dセグメンテーション精度を維持しながら,レンジビュー(str)ストラテジーからスケーラブルなトレーニングを導入する。 そこで本研究では,ScribbleKITTI,SemanticKITTI,nuScenes,ScribbleKITTIと競合するLiDARセマンティックおよびパノプティクスセグメンテーションベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。

LiDAR segmentation is crucial for autonomous driving perception. Recent trends favor point- or voxel-based methods as they often yield better performance than the traditional range view representation. In this work, we unveil several key factors in building powerful range view models. We observe that the "many-to-one" mapping, semantic incoherence, and shape deformation are possible impediments against effective learning from range view projections. We present RangeFormer -- a full-cycle framework comprising novel designs across network architecture, data augmentation, and post-processing -- that better handles the learning and processing of LiDAR point clouds from the range view. We further introduce a Scalable Training from Range view (STR) strategy that trains on arbitrary low-resolution 2D range images, while still maintaining satisfactory 3D segmentation accuracy. We show that, for the first time, a range view method is able to surpass the point, voxel, and multi-view fusion counterparts in the competing LiDAR semantic and panoptic segmentation benchmarks, i.e., SemanticKITTI, nuScenes, and ScribbleKITTI.
翻訳日:2023-03-23 22:56:34 公開日:2023-03-18
# 編集が容易な周波数変調ポイントクラウドレンダリング

Frequency-Modulated Point Cloud Rendering with Easy Editing ( http://arxiv.org/abs/2303.07596v2 )

ライセンス: Link先を確認
Yi Zhang, Xiaoyang Huang, Bingbing Ni, Teng Li, Wenjun Zhang(参考訳) 本研究では,高忠実度ローカルディテール再構築,リアルタイムレンダリング,ユーザフレンドリーな編集を可能にする,新しいビュー合成のための効率的なポイントクラウドレンダリングパイプラインを開発する。 パイプラインの中心部には、適応周波数変調モジュールであるAdaptive Frequency Net (AFNet) があり、これはハイパーネットワークを用いて、適応周波数活性化層に連続的に注入された局所テクスチャ周波数符号化を学習し、暗示放射信号の変調を行う。 このメカニズムは、少ない計算予算でのみ、よりリッチな周波数ベースサポートを持つネットワークの周波数表現能力を向上させる。 さらに性能向上のために,点不透明度推定による点雲形状最適化のための前処理モジュールを提案する。 暗黙的なレンダリングとは対照的に,当社のパイプラインでは,ポイントクラウド操作に基づく忠実度の高いインタラクティブな編集をサポートしています。 NRF-Synthetic, ScanNet, DTU, Tanks and Temples データセットの大規模な実験結果から,PSNR, SSIM, LPIPS の手法で得られた性能を最先端技術と比較した。

We develop an effective point cloud rendering pipeline for novel view synthesis, which enables high fidelity local detail reconstruction, real-time rendering and user-friendly editing. In the heart of our pipeline is an adaptive frequency modulation module called Adaptive Frequency Net (AFNet), which utilizes a hypernetwork to learn the local texture frequency encoding that is consecutively injected into adaptive frequency activation layers to modulate the implicit radiance signal. This mechanism improves the frequency expressive ability of the network with richer frequency basis support, only at a small computational budget. To further boost performance, a preprocessing module is also proposed for point cloud geometry optimization via point opacity estimation. In contrast to implicit rendering, our pipeline supports high-fidelity interactive editing based on point cloud manipulation. Extensive experimental results on NeRF-Synthetic, ScanNet, DTU and Tanks and Temples datasets demonstrate the superior performances achieved by our method in terms of PSNR, SSIM and LPIPS, in comparison to the state-of-the-art.
翻訳日:2023-03-23 22:51:07 公開日:2023-03-18
# ロボット支援足関節骨折に対する画像ガイド

Image Guidance for Robot-Assisted Ankle Fracture Repair ( http://arxiv.org/abs/2303.08105v2 )

ライセンス: Link先を確認
Asef Islam (1, 2, 3), Anthony Wu (2), Jay Mandavilli (1,2), Wojtek Zbijewski (1), Jeff Siewerdsen (1, 2) ((1) Johns Hopkins University, Biomedical Engineering (2) Johns Hopkins University, Computer Science (3) Stanford University, Computer Science)(参考訳) 本研究は, 足関節骨折手術におけるロボット支援ファイバーリダクションの応用のための画像誘導フレームワークの開発と検証に関するものである。 本研究の目的は, 手術の時間と複雑さを低減し, 理想的な最終前庭位置における誤差の低減, 滑膜修復の改善, 外傷後変形性関節症の発生率の低減を図り, 手術の最終的な目標とするための方向の自動決定のためのソフトウェアの適切な機能を実現することである。 本製品の焦点は、自動セグメンテーションと登録のステップによる術前画像の入力から、フィボラの再配置の指示として使用できるが、ロボット自体のハードウェアの開発や実装には関与しない最終変換の出力まで、画像誘導ソフトウェアの開発とテストである。

This project concerns developing and validating an image guidance framework for application to a robotic-assisted fibular reduction in ankle fracture surgery. The aim is to produce and demonstrate proper functioning of software for automatic determination of directions for fibular repositioning with the ultimate goal of application to a robotic reduction procedure that can reduce the time and complexity of the procedure as well as provide the benefits of reduced error in ideal final fibular position, improved syndesmosis restoration and reduced incidence of post-traumatic osteoarthritis. The focus of this product will be developing and testing the image guidance software, from the input of preoperative images through the steps of automated segmentation and registration until the output of a final transformation that can be used as instructions to a robot on how to reposition the fibula, but will not involve developing or implementing the hardware of the robot itself.
翻訳日:2023-03-23 22:40:15 公開日:2023-03-18
# メタ認知的スキル獲得と伝達のための後方結合と前方結合の混合

Mixing Backward- with Forward-Chaining for Metacognitive Skill Acquisition and Transfer ( http://arxiv.org/abs/2303.12223v1 )

ライセンス: Link先を確認
Mark Abdelshiheed, John Wesley Hostetter, Xi Yang, Tiffany Barnes, Min Chi(参考訳) メタ認知的スキルは、帰納的領域における将来の学習の準備と一般的に関連づけられている。 多くの研究者は、戦略とタイムアウェアネスを、どのようにいつ問題解決戦略を使うかという2つのメタ認知スキルと見なしている。 その結果,ストラテジー・アンド・タイム・アウェア(StrTime)の学生は,非StrTimeピアよりもデダクティブドメインで優れていた。 この研究では、学生はデフォルトのフォワードチェーン(fc)とバックワードチェーン(bc)戦略をサポートする論理チューターで訓練された。 我々は,BCとFCの混合が非StrTime学生の教育戦略と時間意識に及ぼす影響を検討した。 論理学の指導の間、実験学生(exp)は、bcの2つの実例と、bcの使用方法と使用時期を実践するためにbcのいくつかの問題を提示された。 一方、彼らのコントロール(Ctrl)とStrTimeピアはそのような介入を受けなかった。 6週間後、全ての学生が、獲得したメタ認知スキルが論理から移行されるかどうかを評価するために、BCのみをサポートする確率教師を受講した。 我々の結果は、両方のチューターでExpがCtrlより優れ、StrTimeに追いついたことを示している。

Metacognitive skills have been commonly associated with preparation for future learning in deductive domains. Many researchers have regarded strategy- and time-awareness as two metacognitive skills that address how and when to use a problem-solving strategy, respectively. It was shown that students who are both strategy-and time-aware (StrTime) outperformed their nonStrTime peers across deductive domains. In this work, students were trained on a logic tutor that supports a default forward-chaining (FC) and a backward-chaining (BC) strategy. We investigated the impact of mixing BC with FC on teaching strategy- and time-awareness for nonStrTime students. During the logic instruction, the experimental students (Exp) were provided with two BC worked examples and some problems in BC to practice how and when to use BC. Meanwhile, their control (Ctrl) and StrTime peers received no such intervention. Six weeks later, all students went through a probability tutor that only supports BC to evaluate whether the acquired metacognitive skills are transferred from logic. Our results show that on both tutors, Exp outperformed Ctrl and caught up with StrTime.
翻訳日:2023-03-23 15:56:48 公開日:2023-03-18
# DevelSet: インスタントマスク最適化のためのディープニューラルネットワークレベルセット

DevelSet: Deep Neural Level Set for Instant Mask Optimization ( http://arxiv.org/abs/2303.12529v1 )

ライセンス: Link先を確認
Guojin Chen, Ziyang Yu, Hongduo Liu, Yuzhe Ma, Bei Yu(参考訳) 高度な技術ノードでは、機能サイズが継続的に縮小しているため、マスク最適化は従来の設計フローにおいてますます重要になり、光学近接補正法(OPC)の計算オーバーヘッドが爆発的に増大する。 近年, 逆リソグラフィ技術 (ILT) が注目され, 新興のOPCソリューションでも普及しつつある。 しかし、ILT法は時間を要するか、マスク印刷性や製造性に弱い。 本稿では,GPUおよびディープニューラルネットワーク(DNN)による金属層用レベルセットOPCフレームワークであるDevelSetを紹介する。 まず,マスクの複雑さを減らすために曲率項を導入し,計算ボトルネックを克服するためにgpuアクセラレーションを適用することで,従来のレベルセットに基づくiltアルゴリズムを改善する。 印刷性の向上と高速な反復収束を実現するため,DNNとGPU加速レベルセット最適化器の協調最適化を容易にするために,レベルセット固有の原理で微妙に設計された新しいディープニューラルネットワークを提案する。 実験の結果,DevelSetフレームワークは印刷性において最先端の手法を超越し,実行時のパフォーマンスを即時(約1秒)向上することがわかった。

With the feature size continuously shrinking in advanced technology nodes, mask optimization is increasingly crucial in the conventional design flow, accompanied by an explosive growth in prohibitive computational overhead in optical proximity correction (OPC) methods. Recently, inverse lithography technique (ILT) has drawn significant attention and is becoming prevalent in emerging OPC solutions. However, ILT methods are either time-consuming or in weak performance of mask printability and manufacturability. In this paper, we present DevelSet, a GPU and deep neural network (DNN) accelerated level set OPC framework for metal layer. We first improve the conventional level set-based ILT algorithm by introducing the curvature term to reduce mask complexity and applying GPU acceleration to overcome computational bottlenecks. To further enhance printability and fast iterative convergence, we propose a novel deep neural network delicately designed with level set intrinsic principles to facilitate the joint optimization of DNN and GPU accelerated level set optimizer. Experimental results show that DevelSet framework surpasses the state-of-the-art methods in printability and boost the runtime performance achieving instant level (around 1 second).
翻訳日:2023-03-23 14:04:14 公開日:2023-03-18
# 胸部X線画像を用いた肺肺炎重症度定量のための視覚変換器モデル

Vision Transformer-based Model for Severity Quantification of Lung Pneumonia Using Chest X-ray Images ( http://arxiv.org/abs/2303.11935v1 )

ライセンス: Link先を確認
Bouthaina Slika, Fadi Dornaika, Hamid Merdji, Karim Hammoudi(参考訳) 胸部X線(CXR)からCOVID-19の重症度を診断・評価するための総合的かつ信頼性の高いアプローチを開発するには、多くの保守されたCOVID-19データセットが必要である。 既存の重度定量化アーキテクチャは、最良の結果を得るために高価なトレーニング計算を必要とする。 医療専門家がcovid-19患者を迅速かつ自動的に特定し、関連する重症度指標を予測するためには、コンピュータユーティリティが必要である。 本研究では、新型コロナウイルスや他の肺疾患の重症度を定量化するために、少数のトレーニング可能なパラメータに依存するビジョントランスフォーマー(ViT)ベースのニューラルネットワークモデルを提案する。 本稿では,ViTReg-IP(Vision Transformer Regressor infection Prediction)と呼ばれる,ViTと回帰ヘッドから得られたCXRの重症度を定量化する手法を提案する。 各種オープンソースからの各種テスト胸部X線写真データセットを用いて,本モデルの一般化可能性について検討した。 本研究では,いくつかの競合するディープラーニング解析手法を用いて比較研究を行った。 実験結果から,本モデルは比較的低い計算コストで高一般化性で重大度を定量化できることを示す。 私たちの研究で使われているソースコードはhttps://github.com/bouthainas/ViTReg-IPで公開されています。

To develop generic and reliable approaches for diagnosing and assessing the severity of COVID-19 from chest X-rays (CXR), a large number of well-maintained COVID-19 datasets are needed. Existing severity quantification architectures require expensive training calculations to achieve the best results. For healthcare professionals to quickly and automatically identify COVID-19 patients and predict associated severity indicators, computer utilities are needed. In this work, we propose a Vision Transformer (ViT)-based neural network model that relies on a small number of trainable parameters to quantify the severity of COVID-19 and other lung diseases. We present a feasible approach to quantify the severity of CXR, called Vision Transformer Regressor Infection Prediction (ViTReg-IP), derived from a ViT and a regression head. We investigate the generalization potential of our model using a variety of additional test chest radiograph datasets from different open sources. In this context, we performed a comparative study with several competing deep learning analysis methods. The experimental results show that our model can provide peak performance in quantifying severity with high generalizability at a relatively low computational cost. The source codes used in our work are publicly available at https://github.com/bouthainas/ViTReg-IP.
翻訳日:2023-03-22 14:19:37 公開日:2023-03-18
# 看護の力:知能学習システムにおけるメタ認知スキル教育の3つの介入を探る

The Power of Nudging: Exploring Three Interventions for Metacognitive Skills Instruction across Intelligent Tutoring Systems ( http://arxiv.org/abs/2303.11965v1 )

ライセンス: Link先を確認
Mark Abdelshiheed, John Wesley Hostetter, Preya Shabrina, Tiffany Barnes, Min Chi(参考訳) 帰納的ドメインは、すべての問題を解決するのに最適な単一の問題解決戦略が常に存在しない、多くの認知スキルの典型である。 それぞれの戦略(StrTime)の使い方や使い方を知っている学生は、どちらの戦略も知らない生徒よりも優れ、デフォルト戦略(Default)に固執している。 この研究で、学生はデフォルトのフォワードチェアと後方チェア(BC)戦略をサポートする論理チューターで訓練され、BCのみをサポートする確率チューターで訓練された。 デフォルトの学生に論理チューターのどの戦略をどのようにいつ使うかを教えるための3種類の介入について検討した。 一方、strtimeの学生は介入を受けなかった。 総合すると、NudgeはDefaultの成績を上回り、両方の家庭教師でStrTimeに追いついた。

Deductive domains are typical of many cognitive skills in that no single problem-solving strategy is always optimal for solving all problems. It was shown that students who know how and when to use each strategy (StrTime) outperformed those who know neither and stick to the default strategy (Default). In this work, students were trained on a logic tutor that supports a default forward-chaining and a backward-chaining (BC) strategy, then a probability tutor that only supports BC. We investigated three types of interventions on teaching the Default students how and when to use which strategy on the logic tutor: Example, Nudge and Presented. Meanwhile, StrTime students received no interventions. Overall, our results show that Nudge outperformed their Default peers and caught up with StrTime on both tutors.
翻訳日:2023-03-22 14:10:30 公開日:2023-03-18
# 量子リピータネットワークにおけるハイブリッドエラー管理戦略

Hybrid Error-Management Strategies in Quantum Repeater Networks ( http://arxiv.org/abs/2303.10295v1 )

ライセンス: Link先を確認
Poramet Pathumsoot, Theerapat Tansuwannont, Naphan Benchasattabuse, Ryosuke Satoh, Michal Hajdu\v{s}ek, Poompong Chaiwongkhot, Sujin Suwanna, Rodney Van Meter(参考訳) 量子ネットワークは、分散量子コンピューティングと量子通信を長距離にわたって拡張し、無条件のセキュリティを提供する。 量子絡み合いは量子ネットワークにとって不可欠であるため、様々な種類のノイズやデコヒーレンスによる大きな問題が実現できなくなり、量子ネットワークの最適構成を得るための研究が盛んに行われている。 本研究では,量子誤り訂正と絡み合い除去が可能な量子ネットワークの性能について述べる。 その結果,忠実度向上の展開のバランスを保ちながら,ベルペアをできるだけ早く配布すべきであることがわかった。 また, 浄化と量子誤差補正を併用する必要がある雑音環境下での量子暗号タスクにおいて, 適切なハイブリッド戦略を示す。 以上の結果から,高忠実度ベル対を清浄して量子誤り訂正を用いたアプリケーションに保存することは,セキュアな通信のための短期量子ネットワークを実現する上で有望な方法であることが示唆された。

A quantum network is expected to enhance distributed quantum computing and quantum communication over a long distance while providing unconditional security. As quantum entanglement is essential for a quantum network, major issues from various types of noise and decoherence prevent it from being realized, and research has been intensively active to obtain optimal configurations for a quantum network. In this work, we address the performance of a quantum network capable of quantum error correction and entanglement purification. Our results show that one should distribute Bell pairs as fast as possible while balancing the deployment of fidelity enhancement. We also show suitable hybrid strategies in quantum cryptography tasks under some noise regimes that need to use purification and quantum error correction together. Our results suggest that using purification to distribute high fidelity Bell pairs and preserving them for application using quantum error correction is a promising way to achieve a near-term quantum network for secure communication.
翻訳日:2023-03-21 20:25:39 公開日:2023-03-18
# 2020年のオンタリオデータに基づく新型コロナ感染者数予測

Forecasting COVID-19 Case Counts Based on 2020 Ontario Data ( http://arxiv.org/abs/2303.10294v1 )

ライセンス: Link先を確認
Daniel L. Silver, Rinda Digamarthi(参考訳) 目的:過去14日間の環境・移動データから1日当たりのCOVID-19感染者数を予測できる機械学習モデルを開発する。 アプローチ:オンタリオ州トロント周辺の4郡の新型コロナウイルスのデータを使用した。 データは、新規感染者数、患者の人口統計データ、屋外の気象変数、室内環境因子、細胞移動と公衆衛生の制限に基づく人間の運動を含む日次記録にまとめられた。 このデータは、最も重要な変数とその相互作用を決定するために分析された。 CNNとLSTMのディープニューラルネットワークアプローチを用いて予測モデルを開発した。 これらの手法は、2020年10月1日から10月14日までのデータを用いて予測モデルを開発し、2020年10月15日から12月24日までのデータでテストした。 結果: 明日の1日当たりの感染者数を予想した最良のlstmモデルは、90.7%の精度で、7日間のローリング平均新型コロナウイルスは98.1%の精度で独立したテストデータを用いて予測した。 今後7日間の新型コロナウイルス感染者数を予測する最良のモデルは、日間で79.4%の精度で予測した。 7日間の平均転がり回数を予測するモデルは、同じテストセットで平均83.6%の精度であった。 結論:本研究は、新型コロナウイルスなどのウイルス感染における室内湿度の重要性を示唆する。 今年の最も寒い地域では、人間が屋内や車内でより多くの時間を過ごすと、建物内の空気の質が低下し、室内の相対湿度が著しく低下する。 低いirh(20%以下)と組み合わされた中から高い室内温度は、感染した人の口から排出される水蒸気が、蒸発と乾燥した皮膚の状態、特に受取人の気道で伝達を促進するため、空気中に長く残る可能性があるため、ウイルス感染の可能性が高くなる。

Objective: To develop machine learning models that can predict the number of COVID-19 cases per day given the last 14 days of environmental and mobility data. Approach: COVID-19 data from four counties around Toronto, Ontario, were used. Data were prepared into daily records containing the number of new COVID case counts, patient demographic data, outdoor weather variables, indoor environment factors, and human movement based on cell mobility and public health restrictions. This data was analyzed to determine the most important variables and their interactions. Predictive models were developed using CNN and LSTM deep neural network approaches. A 5-fold chronological cross-validation approach used these methods to develop predictive models using data from Mar 1 to Oct 14 2020, and test them on data covering Oct 15 to Dec 24 2020. Results: The best LSTM models forecasted tomorrow's daily COVID case counts with 90.7% accuracy, and the 7-day rolling average COVID case counts with 98.1% accuracy using independent test data. The best models to forecast the next 7 days of daily COVID case counts did so with 79.4% accuracy over all days. Models forecasting the 7-day rolling average case counts had a mean accuracy of 83.6% on the same test set. Conclusions: Our findings point to the importance of indoor humidity for the transmission of a virus such as COVID-19. During the coldest portions of the year, when humans spend greater amounts of time indoors or in vehicles, air quality drops within buildings, most significantly indoor relative humidity levels. Moderate to high indoor temperatures coupled with low IRH (below 20%) create conditions where viral transmission is more likely because water vapour ejected from an infected person's mouth can remain longer in the air because of evaporation and dry skin conditions, particularly in a recipient's airway, promotes transmission.
翻訳日:2023-03-21 20:25:22 公開日:2023-03-18
# Threshold (DUET: Adversarial Patch Localizer) における不確かさの検出

Detection of Uncertainty in Exceedance of Threshold (DUET): An Adversarial Patch Localizer ( http://arxiv.org/abs/2303.10291v1 )

ライセンス: Link先を確認
Terence Jie Chua, Wenhan Yu, Jun Zhao(参考訳) 敵パッチなどの物理世界攻撃に対する防衛の開発は、研究コミュニティ内で勢いを増している。 本研究では,画像上の逆パッチをローカライズする不確実性ベースの逆パッチローカライザを導入することにより,逆パッチ検出の分野に寄与する。 我々は, \textbf{E}xceedance of \textbf{T}hreshold} (DUET) アルゴリズムにおける \textbf{U}ncertainties の \textit{\textbf{D}etection の発生に伴う予測の不確かさを定量化する。 このアルゴリズムは、自動運転車や医療画像などの安全に敏感な応用に不可欠な、敵のパッチ局在に対する信頼性を確認するためのフレームワークを提供する。 対向パッチのローカライズ実験を行い,提案したDUETモデルがベースラインモデルより優れていることを確認した。 次に、モデルアーキテクチャ内の異なる層におけるベイズニューラルネットワークの導入とモデル事前の選択についてさらなる分析を行う。 その結果,ベイジアンニューラルネットワークにおけるアイソメトリックガウス前駆体は,局所化タスクのパッチに適しており,初期のニューラルネットワークブロックにおけるベイジアン層の存在は,トップエンドのローカライズ性能の向上に寄与することがわかった。 次に、異なるユースケースに取り組むために、2つの異なる優れたモデルを提案する。

Development of defenses against physical world attacks such as adversarial patches is gaining traction within the research community. We contribute to the field of adversarial patch detection by introducing an uncertainty-based adversarial patch localizer which localizes adversarial patch on an image, permitting post-processing patch-avoidance or patch-reconstruction. We quantify our prediction uncertainties with the development of \textit{\textbf{D}etection of \textbf{U}ncertainties in the \textbf{E}xceedance of \textbf{T}hreshold} (DUET) algorithm. This algorithm provides a framework to ascertain confidence in the adversarial patch localization, which is essential for safety-sensitive applications such as self-driving cars and medical imaging. We conducted experiments on localizing adversarial patches and found our proposed DUET model outperforms baseline models. We then conduct further analyses on our choice of model priors and the adoption of Bayesian Neural Networks in different layers within our model architecture. We found that isometric gaussian priors in Bayesian Neural Networks are suitable for patch localization tasks and the presence of Bayesian layers in the earlier neural network blocks facilitates top-end localization performance, while Bayesian layers added in the later neural network blocks contribute to better model generalization. We then propose two different well-performing models to tackle different use cases.
翻訳日:2023-03-21 20:24:49 公開日:2023-03-18
# 深部強化学習によるメタバースへのデジタルツインニングの移動端対向検出

Mobile Edge Adversarial Detection for Digital Twinning to the Metaverse with Deep Reinforcement Learning ( http://arxiv.org/abs/2303.10288v1 )

ライセンス: Link先を確認
Terence Jie Chua, Wenhan Yu, Jun Zhao(参考訳) 拡張現実(AR)支援運転など、無数の応用のためには、物理世界シーンをメタバースにリアルタイムにデジタルツインニングする必要がある。 AR支援運転では、物理的環境シーンはまずInternet of Vehicles (IoVs)によって捉えられ、Metaverseにアップロードされる。 中央メタバースマップサービスプロバイダ(MMSP)は、すべてのIoVから情報を収集し、中央メタバースマップを開発する。 Metaverse Mapからの情報はオンデマンドで個々のIoVにダウンロードでき、ドライバーにARシーンとして配信される。 しかし、デジタルツインニングに依存するAR支援アプリケーションの開発への関心が高まっており、敵を招いている。 これらの敵は、仮想世界のデジタル双生児をゆがめるために、車、看板、道路などの物理的な世界オブジェクトに物理的な敵パッチを配置することができる。 したがって、これらの物理的世界敵パッチを検出する必要がある。 それでも、リアルタイムかつ正確な敵パッチの検出は計算集約的であるため、計算のためには、これらの物理的な世界シーンをメタバースマップベースステーション(mmbs)にオフロードする必要がある。 そこで本研究では,リアルタイムな物理世界シーンをMBSにアップロードする,移動型車両インターネット(IoV)の環境を検討した。 IoV-MMBSアロケーションとIoVアップリンクシーン解像度の選択を最適化することにより、計算されたARシーンのアップリンク送信遅延とIoVのアップリンク送信アイドル数を最小化しながら、MMSPの目標は、敵パッチ検出平均平均平均精度(mAP)を最大化することである。 提案した問題に対処するために,不均一な行動プロキシポリシー最適化(HAPPO)アルゴリズムを提案した。 大規模な実験では、HAPPOは主要な指標と比較してベースラインモデルを上回っている。

Real-time Digital Twinning of physical world scenes onto the Metaverse is necessary for a myriad of applications such as augmented-reality (AR) assisted driving. In AR assisted driving, physical environment scenes are first captured by Internet of Vehicles (IoVs) and are uploaded to the Metaverse. A central Metaverse Map Service Provider (MMSP) will aggregate information from all IoVs to develop a central Metaverse Map. Information from the Metaverse Map can then be downloaded into individual IoVs on demand and be delivered as AR scenes to the driver. However, the growing interest in developing AR assisted driving applications which relies on digital twinning invites adversaries. These adversaries may place physical adversarial patches on physical world objects such as cars, signboards, or on roads, seeking to contort the virtual world digital twin. Hence, there is a need to detect these physical world adversarial patches. Nevertheless, as real-time, accurate detection of adversarial patches is compute-intensive, these physical world scenes have to be offloaded to the Metaverse Map Base Stations (MMBS) for computation. Hence in our work, we considered an environment with moving Internet of Vehicles (IoV), uploading real-time physical world scenes to the MMBSs. We formulated a realistic joint variable optimization problem where the MMSPs' objective is to maximize adversarial patch detection mean average precision (mAP), while minimizing the computed AR scene up-link transmission latency and IoVs' up-link transmission idle count, through optimizing the IoV-MMBS allocation and IoV up-link scene resolution selection. We proposed a Heterogeneous Action Proximal Policy Optimization (HAPPO) (discrete-continuous) algorithm to tackle the proposed problem. Extensive experiments shows HAPPO outperforms baseline models when compared against key metrics.
翻訳日:2023-03-21 20:24:23 公開日:2023-03-18
# 胸部X線レポート生成のための動的グラフ強化コントラスト学習

Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report Generation ( http://arxiv.org/abs/2303.10323v1 )

ライセンス: Link先を確認
Mingjie Li, Bingqian Lin, Zicong Chen, Haokun Lin, Xiaodan Liang, Xiaojun Chang(参考訳) 自動放射線診断は、放射線科医が重労働から解放され、診断の解釈が改善する可能性がある。 近年、研究者らは医療知識グラフを用いたデータ駆動ニューラルネットワークを強化し、このタスクにおける視覚的およびテキスト的バイアスを排除している。 このようなグラフの構造は、一般的な知識を通じて疾患トピックタグが生成する臨床依存関係を利用して利用され、通常、トレーニングプロセス中に更新されない。 したがって、固定グラフは最も適切な知識の範囲を保証できず、有効性を制限できない。 この制限に対処するため,DCL(Contrastive Learning)と呼ばれる医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。 詳しくは、グラフの基本構造は一般知識から事前構築される。 次に、検索したレポートから抽出した特定の知識を調べ、追加ノードを追加したり、ボトムアップで関係を再定義したりします。 各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。 最後に、視覚的特徴やテキスト情報を表現するために、画像レポートコントラストと画像レポートマッチングの損失について紹介する。 iu-xray と mimic-cxr データセット上で評価された dcl は,これら2つのベンチマークで従来の最先端モデルよりも優れている。

Automatic radiology reporting has great clinical potential to relieve radiologists from heavy workloads and improve diagnosis interpretation. Recently, researchers have enhanced data-driven neural networks with medical knowledge graphs to eliminate the severe visual and textual bias in this task. The structures of such graphs are exploited by using the clinical dependencies formed by the disease topic tags via general knowledge and usually do not update during the training process. Consequently, the fixed graphs can not guarantee the most appropriate scope of knowledge and limit the effectiveness. To address the limitation, we propose a knowledge graph with Dynamic structure and nodes to facilitate medical report generation with Contrastive Learning, named DCL. In detail, the fundamental structure of our graph is pre-constructed from general knowledge. Then we explore specific knowledge extracted from the retrieved reports to add additional nodes or redefine their relations in a bottom-up manner. Each image feature is integrated with its very own updated graph before being fed into the decoder module for report generation. Finally, this paper introduces Image-Report Contrastive and Image-Report Matching losses to better represent visual features and textual information. Evaluated on IU-Xray and MIMIC-CXR datasets, our DCL outperforms previous state-of-the-art models on these two benchmarks.
翻訳日:2023-03-21 20:15:33 公開日:2023-03-18
# 逆キューバチュールと二次カルマンフィルタ

Inverse Cubature and Quadrature Kalman filters ( http://arxiv.org/abs/2303.10322v1 )

ライセンス: Link先を確認
Himali Singh, Kumar Vijay Mishra, Arpan Chattopadhyay(参考訳) 反逆システム研究の最近の進歩は、敵が学習したかもしれない情報を推測するためにディフェンダーが使用する逆確率フィルタの開発につながっている。 先行研究は、線形および非線形ガウス状態空間モデルに対して、逆カルマンフィルタ(I-KF)と逆拡張KF(I-EKF)をそれぞれ提案することで、この逆認識問題に対処した。 しかし実際には、多くの反逆的設定は高非線形システムモデルを含み、EKFの線形化はしばしば失敗する。 本稿では,そのような非線形性に対処する効率的な数値積分手法を考察し,その目的を達成するために,逆立方体KF (I-CKF) と逆立方体KF (I-QKF) を開発する。 指数平均二乗有界感におけるフィルタの確率的安定性条件を導出する。 数値実験により, 再帰的Cram\'{e}r-Rao下界をベンチマークとしたI-CKFとI-QKFの推定精度が示された。

Recent developments in counter-adversarial system research have led to the development of inverse stochastic filters that are employed by a defender to infer the information its adversary may have learned. Prior works addressed this inverse cognition problem by proposing inverse Kalman filter (I-KF) and inverse extended KF (I-EKF), respectively, for linear and non-linear Gaussian state-space models. However, in practice, many counter-adversarial settings involve highly non-linear system models, wherein EKF's linearization often fails. In this paper, we consider the efficient numerical integration techniques to address such nonlinearities and, to this end, develop inverse cubature KF (I-CKF) and inverse quadrature KF (I-QKF). We derive the stochastic stability conditions for the proposed filters in the exponential-mean-squared-boundedness sense. Numerical experiments demonstrate the estimation accuracy of our I-CKF and I-QKF with the recursive Cram\'{e}r-Rao lower bound as a benchmark.
翻訳日:2023-03-21 20:15:10 公開日:2023-03-18
# ABC:赤外小ターゲット検出のための双線形相関による注意

ABC: Attention with Bilinear Correlation for Infrared Small Target Detection ( http://arxiv.org/abs/2303.10321v1 )

ライセンス: Link先を確認
Peiwen Pan, Huan Wang, Chenyi Wang, Chang Nie(参考訳) 赤外線小目標検出 (istd) は早期警戒、救助、誘導に広く応用されている。 しかし,cnnを用いた深層学習は,輪郭とテクスチャの明瞭な特徴が欠如している赤外線小目標(irst)の分割には有効ではなく,畳み込み誘発バイアスがないため,トランスフォーマー方式も大きな成果を得るのに苦慮している。 そこで本研究では, トランスアーキテクチャに基づく, 特徴抽出・融合のための新しい注意機構を備えた畳み込み線形核融合トランス (clft) モジュールを組み込んだ, 目標特性を効果的に向上し, ノイズを抑制するためのモデルである attention with bilinear correlation (abc) を提案する。 さらに,ネットワークの深い層に位置するu字型畳み込み型畳み込み(UCDC)モジュールも備えており,より詳細な意味情報を得るために,より小さな特徴の解像度を利用する。 公開データセットによる実験結果から,本手法が最先端の性能を実現することを示す。 コードはhttps://github.com/panpeiwen/abcで入手できる。

Infrared small target detection (ISTD) has a wide range of applications in early warning, rescue, and guidance. However, CNN based deep learning methods are not effective at segmenting infrared small target (IRST) that it lack of clear contour and texture features, and transformer based methods also struggle to achieve significant results due to the absence of convolution induction bias. To address these issues, we propose a new model called attention with bilinear correlation (ABC), which is based on the transformer architecture and includes a convolution linear fusion transformer (CLFT) module with a novel attention mechanism for feature extraction and fusion, which effectively enhances target features and suppresses noise. Additionally, our model includes a u-shaped convolution-dilated convolution (UCDC) module located deeper layers of the network, which takes advantage of the smaller resolution of deeper features to obtain finer semantic information. Experimental results on public datasets demonstrate that our approach achieves state-of-the-art performance. Code is available at https://github.com/PANPEIWEN/ABC
翻訳日:2023-03-21 20:14:50 公開日:2023-03-18
# オンライン知識学習による群衆カウント

Crowd Counting with Online Knowledge Learning ( http://arxiv.org/abs/2303.10318v1 )

ライセンス: Link先を確認
Shengqin Jiang, Bowen Li, Fengna Cheng, Qingshan Liu(参考訳) エッジコンピューティングやモバイルデバイスのような限られたコンピューティングリソースのシナリオでは、効率的なクラウドカウントモデルが緊急に必要となる。 これを実現するための簡単な方法は知識蒸留(KD)であり、学生ネットワークのトレーニングを指導するために訓練された教師ネットワークを使用する。 しかし,従来の2段階学習法は,特に大規模データセットでは時間を要するため,教師ネットワークの学習過程を模倣することが課題となっている。 これらの課題を克服するために,クラウドカウントのためのオンライン知識学習手法を提案する。 提案手法は,2つの独立したネットワークを単一のアーキテクチャに統合するエンドツーエンドのトレーニングフレームワークを構築し,共有浅層モジュール,教師ブランチ,学生ブランチからなる。 このアプローチは従来のKDの2段階トレーニング手法よりも効率的である。 さらに,新しい層間関係行列を構築し,学生の分枝が層間特徴の進化をより効果的に理解できるようにする特徴関係蒸留法を提案する。 反応蒸留と内部蒸留とを組み合わせることで、教師部から学生部への相互補完的情報の転送を促進する。 4つの挑戦的な集団計数データセットに関する広範囲な実験は、パラメータがはるかに少ないにもかかわらず、最先端の手法に匹敵する性能を実現する手法の有効性を実証する。

Efficient crowd counting models are urgently required for the applications in scenarios with limited computing resources, such as edge computing and mobile devices. A straightforward method to achieve this is knowledge distillation (KD), which involves using a trained teacher network to guide the training of a student network. However, this traditional two-phase training method can be time-consuming, particularly for large datasets, and it is also challenging for the student network to mimic the learning process of the teacher network. To overcome these challenges, we propose an online knowledge learning method for crowd counting. Our method builds an end-to-end training framework that integrates two independent networks into a single architecture, which consists of a shared shallow module, a teacher branch, and a student branch. This approach is more efficient than the two-stage training technique of traditional KD. Moreover, we propose a feature relation distillation method which allows the student branch to more effectively comprehend the evolution of inter-layer features by constructing a new inter-layer relationship matrix. It is combined with response distillation and feature internal distillation to enhance the transfer of mutually complementary information from the teacher branch to the student branch. Extensive experiments on four challenging crowd counting datasets demonstrate the effectiveness of our method which achieves comparable performance to state-of-the-art methods despite using far fewer parameters.
翻訳日:2023-03-21 20:14:31 公開日:2023-03-18
# NASNet-Large-Decoder Netによる肺分節

Lung segmentation with NASNet-Large-Decoder Net ( http://arxiv.org/abs/2303.10315v1 )

ライセンス: Link先を確認
Youshan Zhang(参考訳) 肺癌は、人間の生命と健康を脅かす重篤な疾患として出現している。 肺領域の精密分割は腫瘍の局所化に重要な前提条件であり、肺画像解析に正確な情報を提供できる。 本稿では,まず,nasnet-largeをエンコーダとして使用する肺画像分割モデルを提案し,次にデコーダアーキテクチャを提案する。 提案したNASNet-Large-decoderアーキテクチャは,高レベル情報を抽出し,特徴マップを拡張してセグメントマップを復元する。 さらにセグメンテーション結果を改善するために,セグメンテーションマップの無関係部分を除去する後処理層を提案する。 実験の結果, 0.92 diceの精度の高いセグメンテーションモデルが最先端性能よりも優れていることがわかった。

Lung cancer has emerged as a severe disease that threatens human life and health. The precise segmentation of lung regions is a crucial prerequisite for localizing tumors, which can provide accurate information for lung image analysis. In this work, we first propose a lung image segmentation model using the NASNet-Large as an encoder and then followed by a decoder architecture, which is one of the most commonly used architectures in deep learning for image segmentation. The proposed NASNet-Large-decoder architecture can extract high-level information and expand the feature map to recover the segmentation map. To further improve the segmentation results, we propose a post-processing layer to remove the irrelevant portion of the segmentation map. Experimental results show that an accurate segmentation model with 0.92 dice scores outperforms state-of-the-art performance.
翻訳日:2023-03-21 20:14:12 公開日:2023-03-18
# オンラインソーシャルメディアにおける恐怖表現の台頭について

On the rise of fear speech in online social media ( http://arxiv.org/abs/2303.10311v1 )

ライセンス: Link先を確認
Punyajoy Saha, Kiran Garimella, Narla Komal Kalyan, Saurabh Kumar Pandey, Pauras Mangesh Meher, Binny Mathew, and Animesh Mukherjee(参考訳) 近年、ソーシャルメディアプラットフォームは、通常有毒な言葉で肥やされ、個人やコミュニティに向けられるオンラインヘイトスピーチの拡散を防ぐため、非常に穏健化されている。 このような重いモデレーションのため、より新しく、より微妙なテクニックが展開されている。 中でも注目に値するのが、恐怖のスピーチだ。 恐怖のスピーチは、名前が示すように、ターゲットのコミュニティに対する恐怖を呼び起こそうとしている。 微妙ではあるが、非常に効果的であり、しばしばコミュニティを物理的な対立へと押し上げる。 したがって、ソーシャルメディアにおける彼らの流行を理解することが最重要となる。 本稿は、gab.comから収集した400k以上の恐怖音声と700万以上のヘイトスピーチ投稿の有病率を理解するための大規模研究である。 注目すべきは、多くの恐れのあるスピーチを投稿するユーザーは、多くのフォロワーを惹きつけ、多くのヘイトスピーチを投稿するユーザーよりもソーシャルネットワークの中心的な地位を占めていることだ。 また、返信、再投稿、言及を通じて、ヘイトスピーチユーザーよりも効果的にユーザーを良心させることもできる。 これはヘイトスピーチと異なり、恐怖のスピーチは有毒なコンテンツがほとんどないという事実と結びついている。 さらに、恐怖音声の話題は、主に(フェイクな)議論の連鎖を用いて、コミュニティを加害者として描写するが、憎悪音声の話題は直接的多目的侮辱を嫌う。 我々の発見は他のプラットフォーム(TwitterやFacebook)にも伝達し、高度なモデレーションポリシーと大量認識を使って恐怖と戦う必要がある。

Recently, social media platforms are heavily moderated to prevent the spread of online hate speech, which is usually fertile in toxic words and is directed toward an individual or a community. Owing to such heavy moderation, newer and more subtle techniques are being deployed. One of the most striking among these is fear speech. Fear speech, as the name suggests, attempts to incite fear about a target community. Although subtle, it might be highly effective, often pushing communities toward a physical conflict. Therefore, understanding their prevalence in social media is of paramount importance. This article presents a large-scale study to understand the prevalence of 400K fear speech and over 700K hate speech posts collected from Gab.com. Remarkably, users posting a large number of fear speech accrue more followers and occupy more central positions in social networks than users posting a large number of hate speech. They can also reach out to benign users more effectively than hate speech users through replies, reposts, and mentions. This connects to the fact that, unlike hate speech, fear speech has almost zero toxic content, making it look plausible. Moreover, while fear speech topics mostly portray a community as a perpetrator using a (fake) chain of argumentation, hate speech topics hurl direct multitarget insults, thus pointing to why general users could be more gullible to fear speech. Our findings transcend even to other platforms (Twitter and Facebook) and thus necessitate using sophisticated moderation policies and mass awareness to combat fear speech.
翻訳日:2023-03-21 20:13:56 公開日:2023-03-18
# 擬似教師付きメトリクス:教師なしクロスドメイン分類フレームワークにおける教師なし画像から画像への変換モデルの評価

Pseudo Supervised Metrics: Evaluating Unsupervised Image to Image Translation Models In Unsupervised Cross-Domain Classification Frameworks ( http://arxiv.org/abs/2303.10310v1 )

ライセンス: Link先を確認
Firas Al-Hindawi, Md Mahfuzur Rahman Siddiquee, Teresa Wu, Han Hu, Ying Sun(参考訳) 画像を正確かつ効率的に分類する能力は、大きなラベル付きデータセットへのアクセスと、モデルがトレーニングされた同じドメインからのデータテストに依存する。 大規模なラベル付きデータセットを収集して、スクラッチから新しい分類器をトレーニングするドメインからの新しいデータを扱う場合、分類は時間がかかり、コストがかかり、時には不可能、あるいは不可能になる。 教師なし画像画像変換(UI2I)モデルを用いて、ラベルなし領域からラベル付き領域への入力画像の変換により、このデータ領域シフト問題に対処するクロスドメイン分類フレームワークを開発した。 これらの教師なしモデルの問題は、教師なしの性質にある。 アノテーションの欠如のため、従来の教師付きメトリクスを使用してこれらの翻訳モデルを評価し、最良のチェックポイントモデルを選択することはできない。 本稿では、人間の目から見た画像の品質の観点からモデルを評価するために設計されたFIDのような一般的なメトリクスとは対照的に、クロスドメイン分類アプリケーションをサポートするために設計されたPseudo Supervised Metricsと呼ばれる新しい手法を紹介する。 FIDのような教師なしのメトリクスよりも優れているだけでなく、真の教師なしのメトリクス、堅牢で説明可能なメトリクスと高い相関があることが示されています。 さらに,本研究を臨界実世界問題(沸騰危機問題)に適用することにより,今後の研究の標準指標として活用できることを実証する。

The ability to classify images accurately and efficiently is dependent on having access to large labeled datasets and testing on data from the same domain that the model is trained on. Classification becomes more challenging when dealing with new data from a different domain, where collecting a large labeled dataset and training a new classifier from scratch is time-consuming, expensive, and sometimes infeasible or impossible. Cross-domain classification frameworks were developed to handle this data domain shift problem by utilizing unsupervised image-to-image (UI2I) translation models to translate an input image from the unlabeled domain to the labeled domain. The problem with these unsupervised models lies in their unsupervised nature. For lack of annotations, it is not possible to use the traditional supervised metrics to evaluate these translation models to pick the best-saved checkpoint model. In this paper, we introduce a new method called Pseudo Supervised Metrics that was designed specifically to support cross-domain classification applications contrary to other typically used metrics such as the FID which was designed to evaluate the model in terms of the quality of the generated image from a human-eye perspective. We show that our metric not only outperforms unsupervised metrics such as the FID, but is also highly correlated with the true supervised metrics, robust, and explainable. Furthermore, we demonstrate that it can be used as a standard metric for future research in this field by applying it to a critical real-world problem (the boiling crisis problem).
翻訳日:2023-03-21 20:13:31 公開日:2023-03-18
# 意味セグメンテーションのためのエッジアウェアプラグ・アンド・プレイスキーム

Edge-aware Plug-and-play Scheme for Semantic Segmentation ( http://arxiv.org/abs/2303.10307v1 )

ライセンス: Link先を確認
Jianye Yi and Xiaopin Zhong and Weixiang Liu and Wenxuan Zhu and Zongze Wu and Yuanlong Deng(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、各ピクセルを対応するクラスに割り当てることに特化した古典的で基本的なコンピュータビジョン問題である。 近年,セグメンテーション性能向上のためのエッジベース情報を導入している。 しかし、これらの手法は特定のネットワークアーキテクチャに限られており、他のモデルやタスクに転送することはできない。 そこで本研究では,エッジ・アウェア・プラグ・アンド・プレイ・スキーム(EPS)と呼ばれる,抽象的かつ普遍的なエッジ監視手法を提案する。 コアは、セマンティックセグメンテーションのためのエッジ幅/厚さ保存ガイドである。 EPSはトレーニングデータからエッジグラウンドトゥルース(Edge Ground Truth, Edge GT)を予め定義されたエッジ厚みで抽出し、任意のネットワークアーキテクチャに対して、Edge GT監督による補助的なタスクのためにデコーダヘッドを直接コピーする。 エッジの厚みを一定に保つために,Pola Hausdorff (PH) Lossと呼ばれる新たな境界に基づく損失を補助的な監視のために設計する。 都市景観データセットにおけるEPSの有効性を22モデルを用いて検証した。 実験の結果,提案手法は無修正で任意の最先端(sota)モデルにシームレスに統合でき,セグメンテーション性能の向上が期待できることがわかった。

Semantic segmentation is a classic and fundamental computer vision problem dedicated to assigning each pixel with its corresponding class. Some recent methods introduce edge-based information for improving the segmentation performance. However these methods are specific and limited to certain network architectures, and they can not be transferred to other models or tasks. Therefore, we propose an abstract and universal edge supervision method called Edge-aware Plug-and-play Scheme (EPS), which can be easily and quickly applied to any semantic segmentation models. The core is edge-width/thickness preserving guided for semantic segmentation. The EPS first extracts the Edge Ground Truth (Edge GT) with a predefined edge thickness from the training data; and then for any network architecture, it directly copies the decoder head for the auxiliary task with the Edge GT supervision. To ensure the edge thickness preserving consistantly, we design a new boundarybased loss, called Polar Hausdorff (PH) Loss, for the auxiliary supervision. We verify the effectiveness of our EPS on the Cityscapes dataset using 22 models. The experimental results indicate that the proposed method can be seamlessly integrated into any state-of-the-art (SOTA) models with zero modification, resulting in promising enhancement of the segmentation performance.
翻訳日:2023-03-21 20:13:04 公開日:2023-03-18
# 個人別スクリーニングルールの課題

The Challenge of Differentially Private Screening Rules ( http://arxiv.org/abs/2303.10303v1 )

ライセンス: Link先を確認
Amol Khanna, Fred Lu, Edward Raff(参考訳) 線形$L_1$-regularizedモデルは、特にTF-IDFやオカピの特徴値を持つテキスト上のn-gramが強くて簡単なベースラインである情報検索問題において、データ解析において最も単純かつ効果的なツールの1つとして残されている。 過去10年間、スクリーニングルールは、$l_1$モデルの疎回帰重みを生成するランタイムを減らす方法として人気を高めてきた。 しかし、情報検索におけるプライバシー保護モデルの必要性が高まっているにもかかわらず、私たちの知る限りでは、異なるプライベートスクリーニングルールは存在しない。 本稿では,線形回帰とロジスティック回帰に対する最初の微分プライベートスクリーニング法を開発する。 そこで我々は,プライバシーを確保するために付加されるノイズの量によって,有用なプライベートスクリーニングルールを策定する作業の難しさを発見する。 我々は、この困難がプライベートオプティマイザではなくスクリーニングステップ自体から生じるという理論的議論と実験的な証拠を提供する。 本研究の結果から, 差分プライバシー文学において, 有効プライベートな$L_1$スクリーニング手法の開発が未解決の問題であることを強調した。

Linear $L_1$-regularized models have remained one of the simplest and most effective tools in data analysis, especially in information retrieval problems where n-grams over text with TF-IDF or Okapi feature values are a strong and easy baseline. Over the past decade, screening rules have risen in popularity as a way to reduce the runtime for producing the sparse regression weights of $L_1$ models. However, despite the increasing need of privacy-preserving models in information retrieval, to the best of our knoweledge, no differentially private screening rule exists. In this paper, we develop the first differentially private screening rule for linear and logistic regression. In doing so, we discover difficulties in the task of making a useful private screening rule due to the amount of noise added to ensure privacy. We provide theoretical arguments and experimental evidence that this difficulty arises from the screening step itself and not the private optimizer. Based on our results, we highlight that developing an effective private $L_1$ screening method is an open problem in the differential privacy literature.
翻訳日:2023-03-21 20:12:41 公開日:2023-03-18
# 予算制約付き多成分PMDPの福祉最大化アルゴリズム

Welfare Maximization Algorithm for Solving Budget-Constrained Multi-Component POMDPs ( http://arxiv.org/abs/2303.10302v1 )

ライセンス: Link先を確認
Manav Vora, Pranay Thangeda, Michael N. Grussing, Melkior Ornik(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化する効率的な方法を提供する。 本稿では,独立なダイナミクスを持つインフラストラクチャコンポーネント群の保守・検査の問題に動機づけられ,多成分予算制約型pomdpの最適ポリシーを求めるアルゴリズムを提案する。 まず、予算制約に固執しながら、POMDPの最適ポリシーを見つけることができる予算付きPOMDPモデル(b-POMDP)を導入する。 次に、b-POMDP に対する値関数や最大値収集報酬が有限地平線の場合の予算の凹凸関数であることを証明する。 第2のコントリビューションは、各コンポーネントのPOMDP間で最適な予算分割を求めることで、多成分の予算制約付きPOMDPの最適ポリシーを計算するアルゴリズムである。 最適予算分割は福祉最大化問題として提起され、その解は値関数の凹凸特性を利用して計算される。 本稿では, 劣化ダイナミクス, 検査コスト, 保守コストの異なる実世界のインフラコンポーネント群に対して, 保守・検査ポリシーを提案することにより, 提案手法の有効性を示す。 提案アルゴリズムは,現在実施中であるポリシーを大幅に上回っていることを示す。

Partially Observable Markov Decision Processes (POMDPs) provide an efficient way to model real-world sequential decision making processes. Motivated by the problem of maintenance and inspection of a group of infrastructure components with independent dynamics, this paper presents an algorithm to find the optimal policy for a multi-component budget-constrained POMDP. We first introduce a budgeted-POMDP model (b-POMDP) which enables us to find the optimal policy for a POMDP while adhering to budget constraints. Next, we prove that the value function or maximal collected reward for a b-POMDP is a concave function of the budget for the finite horizon case. Our second contribution is an algorithm to calculate the optimal policy for a multi-component budget-constrained POMDP by finding the optimal budget split among the individual component POMDPs. The optimal budget split is posed as a welfare maximization problem and the solution is computed by exploiting the concave nature of the value function. We illustrate the effectiveness of the proposed algorithm by proposing a maintenance and inspection policy for a group of real-world infrastructure components with different deterioration dynamics, inspection and maintenance costs. We show that the proposed algorithm vastly outperforms the policy currently used in practice.
翻訳日:2023-03-21 20:12:20 公開日:2023-03-18
# 腫瘍データによる全スライディング画像がんの転移と局在

Whole-slide-imaging Cancer Metastases Detection and Localization with Limited Tumorous Data ( http://arxiv.org/abs/2303.10342v1 )

ライセンス: Link先を確認
Yinsheng He and Xingyu Li(参考訳) 近年,ヘマトキシリンおよびエオシン(H&E)染色スライディング画像(WSI)の癌転移の検出において,様々な深層学習法が医療画像解析において大きな成功を収めている。 しかし、優れた性能を得るためには、これらの研究成果は何百もの注釈付きwsisに依存している。 本研究では,少数のラベル付き全画像の設定下での腫瘍の局在と検出の問題に取り組み,最新の逆知識蒸留アーキテクチャに基づくパッチベースの分析パイプラインを導入する。 トレーニングサンプル収集における極端に不均衡な正常標本と腫瘍サンプルに対処するため,モデル最適化のための表現類似度尺度に焦点損失公式を適用した。 従来の手法と比較して,本手法はパブリックなCamelyon16データセットのトレーニングサンプルの10%以下で同様の性能を実現する。 加えて、これは計算病理学における知識蒸留モデルの大きな可能性を示す最初の研究である。

Recently, various deep learning methods have shown significant successes in medical image analysis, especially in the detection of cancer metastases in hematoxylin and eosin (H&E) stained whole-slide images (WSIs). However, in order to obtain good performance, these research achievements rely on hundreds of well-annotated WSIs. In this study, we tackle the tumor localization and detection problem under the setting of few labeled whole slide images and introduce a patch-based analysis pipeline based on the latest reverse knowledge distillation architecture. To address the extremely unbalanced normal and tumorous samples in training sample collection, we applied the focal loss formula to the representation similarity metric for model optimization. Compared with prior arts, our method achieves similar performance by less than ten percent of training samples on the public Camelyon16 dataset. In addition, this is the first work that show the great potential of the knowledge distillation models in computational histopathology.
翻訳日:2023-03-21 20:06:39 公開日:2023-03-18
# カメラによる運転シーンの3次元データ拡張

3D Data Augmentation for Driving Scenes on Camera ( http://arxiv.org/abs/2303.10340v1 )

ライセンス: Link先を確認
Wenwen Tong, Jiangwei Xie, Tianyu Li, Hanming Deng, Xiangwei Geng, Ruoyi Zhou, Dingchen Yang, Bo Dai, Lewei Lu, Hongyang Li(参考訳) 運転シーンは非常に多様で複雑であり、人間の努力だけですべてのケースを収集することは不可能である。 データ拡張はトレーニングデータを充実させる効果的な手法であるが、自律運転アプリケーションにおけるカメラデータの既存の方法は2次元画像平面に限られており、現実のシナリオではデータの多様性が最適に向上しない可能性がある。 そこで本稿では,3d空間におけるカメラの運転シーンの強化を目的とした,drive-3daugと呼ばれる3dデータ拡張手法を提案する。 まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。 そして、背景の既定有効領域に適した位置及び向きの3dオブジェクトを配置することにより、拡張運転シーンを得ることができる。 そのため、トレーニングデータベースは効果的にスケールアップできる。 しかし、3dオブジェクトモデリングは画質や視点の制限によって制限されている。 これらの問題を解決するため,幾何的補正損失と対称認識学習戦略を導入することで,元のNeRFを修正した。 Waymo および nuScences データセット上でのカメラ専用単眼3D検出タスクの評価を行った。 提案手法は, 検出精度の面では, それぞれwaymo と nuscence で 1.7% と 1.4% の上昇に寄与する。 さらに、構築された3Dモデルはデジタル駆動資産として機能し、異なる検出器や他の3D知覚タスクのためにリサイクルすることができる。

Driving scenes are extremely diverse and complicated that it is impossible to collect all cases with human effort alone. While data augmentation is an effective technique to enrich the training data, existing methods for camera data in autonomous driving applications are confined to the 2D image plane, which may not optimally increase data diversity in 3D real-world scenarios. To this end, we propose a 3D data augmentation approach termed Drive-3DAug, aiming at augmenting the driving scenes on camera in the 3D space. We first utilize Neural Radiance Field (NeRF) to reconstruct the 3D models of background and foreground objects. Then, augmented driving scenes can be obtained by placing the 3D objects with adapted location and orientation at the pre-defined valid region of backgrounds. As such, the training database could be effectively scaled up. However, the 3D object modeling is constrained to the image quality and the limited viewpoints. To overcome these problems, we modify the original NeRF by introducing a geometric rectified loss and a symmetric-aware training strategy. We evaluate our method for the camera-only monocular 3D detection task on the Waymo and nuScences datasets. The proposed data augmentation approach contributes to a gain of 1.7% and 1.4% in terms of detection accuracy, on Waymo and nuScences respectively. Furthermore, the constructed 3D models serve as digital driving assets and could be recycled for different detectors or other 3D perception tasks.
翻訳日:2023-03-21 20:06:23 公開日:2023-03-18
# オープンソース放射線情報システムに組み込んだ汎用AIアシスタント

A general-purpose AI assistant embedded in an open-source radiology information system ( http://arxiv.org/abs/2303.10338v1 )

ライセンス: Link先を確認
Saptarshi Purkayastha, Rohan Isaac, Sharon Anthony, Shikhar Shukla, Elizabeth A. Krupinski, Joshua A. Danish, and Judy W. Gichoya(参考訳) 放射線学のAIモデルは、人間に近い性能やそれを上回る性能で大きく進歩している。 しかしながら、AIモデルとヒトの放射線学者とのパートナーシップは、健康情報標準の欠如、コンテキストとワークフローの違い、データラベルのバリエーションが原因で、未解決の課題である。 これらの課題を克服するために、DICOM標準SRアノテーションを使用するAIモデルサービスを、オープンソースのLibreHealth Radiology Information Systems(RIS)のOHIFビューアに統合した。 本稿では,AIモデルを継続的にトレーニングするための,少数のショットラーニングとスワムラーニングアプローチを含む,このプラットフォームの新たなパートナーシップ機能について述べる。 機械教育の概念に基づいて,人間放射線科医がaiアノテーションを有効・無効にしたり,aiアノテーションを"修正"・リラベルしたりできるように,ris内でアクティブな学習戦略を開発した。 これらのアノテーションはモデルの再トレーニングに使用される。 これにより、放射線技師のユーザとユーザ固有のAIモデルとのパートナーシップを確立することができる。 これらのユーザー固有のモデルの重みは、最終的にswarm learningアプローチで複数のモデル間で共有される。

Radiology AI models have made significant progress in near-human performance or surpassing it. However, AI model's partnership with human radiologist remains an unexplored challenge due to the lack of health information standards, contextual and workflow differences, and data labeling variations. To overcome these challenges, we integrated an AI model service that uses DICOM standard SR annotations into the OHIF viewer in the open-source LibreHealth Radiology Information Systems (RIS). In this paper, we describe the novel Human-AI partnership capabilities of the platform, including few-shot learning and swarm learning approaches to retrain the AI models continuously. Building on the concept of machine teaching, we developed an active learning strategy within the RIS, so that the human radiologist can enable/disable AI annotations as well as "fix"/relabel the AI annotations. These annotations are then used to retrain the models. This helps establish a partnership between the radiologist user and a user-specific AI model. The weights of these user-specific models are then finally shared between multiple models in a swarm learning approach.
翻訳日:2023-03-21 20:06:01 公開日:2023-03-18
# 極小ニットセンサの複雑なジェスチャー認識:実世界対話システムに向けて

Recognizing Complex Gestures on Minimalistic Knitted Sensors: Toward Real-World Interactive Systems ( http://arxiv.org/abs/2303.10336v1 )

ライセンス: Link先を確認
Denisa Qori McDonald, Richard Valett, Lev Saunders, Genevieve Dion, Ali Shokoufandeh(参考訳) タッチセンシティブな織物の開発は、多くの新しいインタラクティブな技術と応用を可能にした。 デジタル編みの容量型アクティブセンサーは、人間の介入はほとんどなく、大規模に製造できる。 これらの感度領域は単一の導電性糸から作られ、外部ハードウェアへの接続はわずかである。 この技術は、ハードウェアから計算モデルへの相互作用を可能にする複雑さをシフトさせながら、堅牢性とユーザビリティを高める。 本研究は,対話型ジェスチャ認識システムの基礎を構築することにより,センサの能力を向上させる。 新しいセンサー設計とニューラルネットワークに基づく認識モデルを使用して、89.8%の精度で12の比較的複雑なシングルタッチポイントジェスチャークラスを分類し、将来の応用の可能性を広げている。 また, 本システムの適用性と実環境への堅牢性について, 装着時の性能, 洗浄乾燥がセンサの抵抗に及ぼす影響を実証した。

Developments in touch-sensitive textiles have enabled many novel interactive techniques and applications. Our digitally-knitted capacitive active sensors can be manufactured at scale with little human intervention. Their sensitive areas are created from a single conductive yarn, and they require only few connections to external hardware. This technique increases their robustness and usability, while shifting the complexity of enabling interactivity from the hardware to computational models. This work advances the capabilities of such sensors by creating the foundation for an interactive gesture recognition system. It uses a novel sensor design, and a neural network-based recognition model to classify 12 relatively complex, single touch point gesture classes with 89.8% accuracy, unfolding many possibilities for future applications. We also demonstrate the system's applicability and robustness to real-world conditions through its performance while being worn and the impact of washing and drying on the sensor's resistance.
翻訳日:2023-03-21 20:05:43 公開日:2023-03-18
# 非識別的特徴からクラス活性化マップを抽出する

Extracting Class Activation Maps from Non-Discriminative Features as well ( http://arxiv.org/abs/2303.10334v1 )

ライセンス: Link先を確認
Zhaozheng Chen and Qianru Sun(参考訳) 分類モデルからクラスアクティベーションマップ(CAM)を抽出すると、前景のオブジェクト、すなわち差別的領域(例えば、"sheep"の"head")のみが認識され、残りの領域(例えば、"leg"の"sheep")が誤って背景として認識される。 CAMの計算に使用される分類器の重みは、オブジェクトの識別的特徴のみをキャプチャする。 我々はCAMの新しい計算手法を導入し、非識別的特徴を明示的にキャプチャし、CAMをオブジェクト全体をカバーするように拡張する。 具体的には、分類モデルの最後のプーリング層を省略し、「局所」は「空間画素位置」を意味するオブジェクトクラスの全ての局所的特徴をクラスタリングする。 結果のKクラスタは、ローカルプロトタイプと呼ばれ、"head"、"leg"、"body"の"sheep"といったローカルセマンティクスを表しています。 クラスの新しいイメージが与えられたとき、その非プールな特徴を全てのプロトタイプと比較し、K類似度行列を導出し、それらをヒートマップ(つまり我々のCAM)に集約する。 したがって、CAMはクラスの全ローカル特徴を識別せずにキャプチャする。 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)の課題として評価し,MCTformer や AMN のような複数の最先端 WSSS メソッドにプラグインすることで,元の CAM を我々のものに置き換える。 標準WSSSベンチマーク(PASCAL VOCとMS COCO)の広範な実験により,計算オーバーヘッドの少ない一貫した改善が得られた。

Extracting class activation maps (CAM) from a classification model often results in poor coverage on foreground objects, i.e., only the discriminative region (e.g., the "head" of "sheep") is recognized and the rest (e.g., the "leg" of "sheep") mistakenly as background. The crux behind is that the weight of the classifier (used to compute CAM) captures only the discriminative features of objects. We tackle this by introducing a new computation method for CAM that explicitly captures non-discriminative features as well, thereby expanding CAM to cover whole objects. Specifically, we omit the last pooling layer of the classification model, and perform clustering on all local features of an object class, where "local" means "at a spatial pixel position". We call the resultant K cluster centers local prototypes - represent local semantics like the "head", "leg", and "body" of "sheep". Given a new image of the class, we compare its unpooled features to every prototype, derive K similarity matrices, and then aggregate them into a heatmap (i.e., our CAM). Our CAM thus captures all local features of the class without discrimination. We evaluate it in the challenging tasks of weakly-supervised semantic segmentation (WSSS), and plug it in multiple state-of-the-art WSSS methods, such as MCTformer and AMN, by simply replacing their original CAM with ours. Our extensive experiments on standard WSSS benchmarks (PASCAL VOC and MS COCO) show the superiority of our method: consistent improvements with little computational overhead.
翻訳日:2023-03-21 20:05:27 公開日:2023-03-18
# HybridMIM: 3次元医用画像分割のためのハイブリッドマスク画像モデリングフレームワーク

HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image Segmentation ( http://arxiv.org/abs/2303.10333v1 )

ライセンス: Link先を確認
Zhaohu Xing, Lei Zhu, Lequan Yu, Zhiheng Xing, Liang Wan(参考訳) トランスフォーマーバックボーンを用いたマスク画像モデリング(mim)は、近年、強力な自己教師付き事前学習技術として活用されている。 The existing MIM methods adopt the strategy to mask random patches of the image and reconstruct the missing pixels, which only considers semantic information at a lower level, and causes a long pre-training time.This paper presents HybridMIM, a novel hybrid self-supervised learning method based on masked image modeling for 3D medical image segmentation.Specifically, we design a two-level masking hierarchy to specify which and how patches in sub-volumes are masked, effectively providing the constraints of higher level semantic information. そして, 医用画像の意味情報を3段階に分けて学習する。1) 3次元画像の重要内容を再構成する部分領域予測により, トレーニング前の時間負担(ピクセルレベル)を大幅に削減する。 2) 各サブボリューム(地域レベル)のパッチ間の空間的関係を学習するためのパッチマスキング知覚。 そして 3)ミニバッチ内のサンプル間のコントラスト学習により,フレームワークの一般化能力(サンプルレベル)が向上する。 提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。 我々は,BraTS2020,BTCV,MSD Liver,MSD Spleenを含む,広く利用されている4つの医用画像セグメンテーションデータセットについて総合実験を行った。 実験結果から,HybridMIMは,定量測定,タイミング性能,定性観察の観点から,競合する教師付き手法,マスク付き事前学習手法,その他の自己監督手法に対して明確な優位性を示した。 hybridmimのコードはhttps://github.com/ge-xing/hybridmimで入手できる。

Masked image modeling (MIM) with transformer backbones has recently been exploited as a powerful self-supervised pre-training technique. The existing MIM methods adopt the strategy to mask random patches of the image and reconstruct the missing pixels, which only considers semantic information at a lower level, and causes a long pre-training time.This paper presents HybridMIM, a novel hybrid self-supervised learning method based on masked image modeling for 3D medical image segmentation.Specifically, we design a two-level masking hierarchy to specify which and how patches in sub-volumes are masked, effectively providing the constraints of higher level semantic information. Then we learn the semantic information of medical images at three levels, including:1) partial region prediction to reconstruct key contents of the 3D image, which largely reduces the pre-training time burden (pixel-level); 2) patch-masking perception to learn the spatial relationship between the patches in each sub-volume (region-level).and 3) drop-out-based contrastive learning between samples within a mini-batch, which further improves the generalization ability of the framework (sample-level). The proposed framework is versatile to support both CNN and transformer as encoder backbones, and also enables to pre-train decoders for image segmentation. We conduct comprehensive experiments on four widely-used public medical image segmentation datasets, including BraTS2020, BTCV, MSD Liver, and MSD Spleen. The experimental results show the clear superiority of HybridMIM against competing supervised methods, masked pre-training approaches, and other self-supervised methods, in terms of quantitative metrics, timing performance and qualitative observations. The codes of HybridMIM are available at https://github.com/ge-xing/HybridMIM
翻訳日:2023-03-21 20:04:55 公開日:2023-03-18
# バイオメディカルエンティティリンクにおける部分的知識ベース推論の探索

Exploring Partial Knowledge Base Inference in Biomedical Entity Linking ( http://arxiv.org/abs/2303.10330v1 )

ライセンス: Link先を確認
Hongyi Yuan, Keming Lu, Zheng Yuan(参考訳) バイオメディカルエンティティリンク(EL)は、名前付きエンティティ認識(NER)と名前付きエンティティ曖昧化(NED)から構成される。 elモデルは事前定義されたkbでラベル付けされたコーパスでトレーニングされる。 しかし、kbのサブセット内のエンティティだけが利害関係者にとって重要であるという共通のシナリオである。 このシナリオを部分的に知識ベース推論と呼びます: ELモデルを1KBでトレーニングし、その部分をそれ以上のトレーニングなしで推論する。 本研究は,この実用的価値あるシナリオについて,詳細な定義と評価手順を述べるとともに,代表的な3つのelパラダイムから手法を評価する。 我々は,部分KB推定ベンチマークを構築し,劇的な精度低下によるEL性能の破滅的な劣化を目撃する。 これらのelパラダイムはunlinkable mentions (nil) を正しく処理できないため,部分的kb推論には頑健ではない。 また,計算オーバーヘッドが少なく,NIL問題に対処するための2つの簡易かつ効果的な償却手法を提案する。

Biomedical entity linking (EL) consists of named entity recognition (NER) and named entity disambiguation (NED). EL models are trained on corpora labeled by a predefined KB. However, it is a common scenario that only entities within a subset of the KB are precious to stakeholders. We name this scenario partial knowledge base inference: training an EL model with one KB and inferring on the part of it without further training. In this work, we give a detailed definition and evaluation procedures for this practically valuable but significantly understudied scenario and evaluate methods from three representative EL paradigms. We construct partial KB inference benchmarks and witness a catastrophic degradation in EL performance due to dramatically precision drop. Our findings reveal these EL paradigms can not correctly handle unlinkable mentions (NIL), so they are not robust to partial KB inference. We also propose two simple-and-effective redemption methods to combat the NIL issue with little computational overhead.
翻訳日:2023-03-21 20:04:28 公開日:2023-03-18
# バイオメディカル領域における自動質問要約評価の再検討

Revisiting Automatic Question Summarization Evaluation in the Biomedical Domain ( http://arxiv.org/abs/2303.10328v1 )

ライセンス: Link先を確認
Hongyi Yuan, Yaoyun Zhang, Fei Huang, Songfang Huang(参考訳) 自動評価指標は,要約の品質を瞬時かつ公平に評価することにより,自動要約手法の急速な発展を促進する。 ほとんどのメトリクスは一般的なドメイン、特にニュースやミーティングのメモ、その他の言語生成タスクのために開発されています。 しかし、これらの指標は、生物医学的質問要約のような異なる領域の要約システムを評価するために適用される。 バイオメディカル領域における自動要約を評価できるかどうかをよりよく理解するために,バイオメディカル質問要約タスクの4つの側面から,要約品質の人為的な評価を行う。 人間の判断に基づいて、現在の自動メトリクスや要約システムでも注目すべき特徴を識別する。 また,生物医学領域における要約評価指標の研究を支援するために,人間のアノテーションのデータセットも公開している。

Automatic evaluation metrics have been facilitating the rapid development of automatic summarization methods by providing instant and fair assessments of the quality of summaries. Most metrics have been developed for the general domain, especially news and meeting notes, or other language-generation tasks. However, these metrics are applied to evaluate summarization systems in different domains, such as biomedical question summarization. To better understand whether commonly used evaluation metrics are capable of evaluating automatic summarization in the biomedical domain, we conduct human evaluations of summarization quality from four different aspects of a biomedical question summarization task. Based on human judgments, we identify different noteworthy features for current automatic metrics and summarization systems as well. We also release a dataset of our human annotations to aid the research of summarization evaluation metrics in the biomedical domain.
翻訳日:2023-03-21 20:04:12 公開日:2023-03-18
# エリア・オブ・アトラクションプランナを用いたハイブリッドシステムニューラル制御

Hybrid Systems Neural Control with Region-of-Attraction Planner ( http://arxiv.org/abs/2303.10327v1 )

ライセンス: Link先を確認
Yue Meng, Chuchu Fan(参考訳) ハイブリッドシステムはロボティクスで広く使われている。 しかしながら、高度な連続的および離散的ダイナミクスのため、ハイブリッドシステムの安定性を確保することは困難である。 すべてのシステムモードが安定しているシステムは、依然として不安定である。 したがって、システムの安定化にはモードスイッチングで特別な処理が必要となる。 本研究では,汎用ハイブリッドシステムを制御する階層型ニューラルネットワーク(NN)に基づく手法を提案する。 各システムモードに対して、まずNNリアプノフ関数とNNコントローラを学習し、アトラクション領域(RoA)内の状態を安定化できるようにする。 そして、異なるモードでRoA NN推定器が学習される。 モード切替時に,次モードのRoAに切り替え後の状態が着地可能であることを保証し,ハイブリッドシステムの安定化を図る。 我々は,新しい理論安定性保証を提供し,カートラッキング制御,ポゴボットナビゲーション,二足歩行実験を行う。 本手法は他の学習法で必要とされるトレーニング時間の0.25倍しか必要としない。 低実行時間(mpc)では、mpc、強化学習(rl)、共通リアプノフ法(clf)、線形二次レギュレータ(lqr)、二次計画(qp)、ハミルトン・ジャコビアン法(hjb)といった他のベースラインよりも高い安定性/成功率を達成している。 プロジェクトページはhttps://mit-realm.github.io/hybrid-clf。

Hybrid systems are prevalent in robotics. However, ensuring the stability of hybrid systems is challenging due to sophisticated continuous and discrete dynamics. A system with all its system modes stable can still be unstable. Hence special treatments are required at mode switchings to stabilize the system. In this work, we propose a hierarchical, neural network (NN)-based method to control general hybrid systems. For each system mode, we first learn an NN Lyapunov function and an NN controller to ensure the states within the region of attraction (RoA) can be stabilized. Then an RoA NN estimator is learned across different modes. Upon mode switching, we propose a differentiable planner to ensure the states after switching can land in next mode's RoA, hence stabilizing the hybrid system. We provide novel theoretical stability guarantees and conduct experiments in car tracking control, pogobot navigation, and bipedal walker locomotion. Our method only requires 0.25X of the training time as needed by other learning-based methods. With low running time (10-50X faster than model predictive control (MPC)), our controller achieves a higher stability/success rate over other baselines such as MPC, reinforcement learning (RL), common Lyapunov methods (CLF), linear quadratic regulator (LQR), quadratic programming (QP) and Hamilton-Jacobian-based methods (HJB). The project page is on https://mit-realm.github.io/hybrid-clf.
翻訳日:2023-03-21 20:03:58 公開日:2023-03-18
# Diff-UNet: ボリュームセグメンテーションのための拡散埋め込みネットワーク

Diff-UNet: A Diffusion Embedded Network for Volumetric Segmentation ( http://arxiv.org/abs/2303.10326v1 )

ライセンス: Link先を確認
Zhaohu Xing, Liang Wan, Huazhu Fu, Guang Yang, Lei Zhu(参考訳) 近年,画像生成モデルにおいて,意味的に価値ある画素単位の表現を生成することに成功した。 本研究では,医療用ボリュームセグメンテーションのための新しいエンドツーエンドフレームワークDiff-UNetを提案する。 提案手法では, 拡散モデルを標準的なU字型アーキテクチャに統合し, 入力ボリュームから意味情報を効果的に抽出し, 医用ボリュームセグメンテーションのためのピクセルレベルの表現に優れる。 拡散モデルの予測結果の堅牢性を高めるため,各ステップにおける拡散モデルの出力を組み合わせるために,推論中にステップ不確実性ベースの融合(SUF)モジュールを導入する。 Diff-UNetはMRI,肝腫瘍,多臓器CTの3種類の脳腫瘍を解析し,Diff-UNetが他の最先端の手法よりも優れていることを示した。 また,実験結果から,提案モデルの普遍性と有効性を示した。 提案フレームワークは、解剖学的構造のより正確なセグメンテーションを可能にすることにより、医療条件の正確な診断と治療を容易にする可能性がある。 Diff-UNetのコードはhttps://github.com/ge-xing/Diff-UNetで公開されている。

In recent years, Denoising Diffusion Models have demonstrated remarkable success in generating semantically valuable pixel-wise representations for image generative modeling. In this study, we propose a novel end-to-end framework, called Diff-UNet, for medical volumetric segmentation. Our approach integrates the diffusion model into a standard U-shaped architecture to extract semantic information from the input volume effectively, resulting in excellent pixel-level representations for medical volumetric segmentation. To enhance the robustness of the diffusion model's prediction results, we also introduce a Step-Uncertainty based Fusion (SUF) module during inference to combine the outputs of the diffusion models at each step. We evaluate our method on three datasets, including multimodal brain tumors in MRI, liver tumors, and multi-organ CT volumes, and demonstrate that Diff-UNet outperforms other state-of-the-art methods significantly. Our experimental results also indicate the universality and effectiveness of the proposed model. The proposed framework has the potential to facilitate the accurate diagnosis and treatment of medical conditions by enabling more precise segmentation of anatomical structures. The codes of Diff-UNet are available at https://github.com/ge-xing/Diff-UNet
翻訳日:2023-03-21 20:03:33 公開日:2023-03-18
# Blind Multimodal Quality Assessment:簡単な調査と低照度画像のケーススタディ

Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of Low-light Images ( http://arxiv.org/abs/2303.10369v1 )

ライセンス: Link先を確認
Miaohui Wang, Zhuowei Xu, Mai Xu, and Weisi Lin(参考訳) ブラインド画像品質評価(biqa: blind image quality assessment)は、視覚信号の客観的スコアを自動的かつ正確に予測することを目的としている。 この分野での最近の発展は、人間の主観的評価パターンと矛盾しない一様解によって支配されており、人間の視覚知覚は複数の感覚情報(例えば視覚と聴覚)によって同時に反映される。 本稿では,主観評価から客観的スコアまで,低光度画像の特異なブラインドマルチモーダル品質評価(bmqa)を提案する。 マルチモーダル機構を検討するために,まず,画像と音声のモダリティペアを含む真の低光歪みを持つマルチモーダル低光画像品質(mliq)データベースを構築した。 さらに, マルチモーダルな品質表現, 潜在機能アライメントと融合, ハイブリッド自己教師型・教師型学習を考慮したBMQAの重要モジュールを特別に設計する。 我々のBMQAは,提案したMLIQベンチマークデータベース上で最先端の精度が得られることを示す。 特に,本研究では,独立な単一画像モダリティDark-4Kデータベースを構築し,その適用性と一般化性能の検証に利用した。 Dark-4Kにおける定性的および定量的な結果から,事前学習された品質意味記述モデルが提供される限り,BMQAは既存のBIQAアプローチよりも優れた性能を発揮することが示された。 提案するフレームワークと2つのデータベース,および収集されたBIQAメソッドと評価指標を公開している。

Blind image quality assessment (BIQA) aims at automatically and accurately forecasting objective scores for visual signals, which has been widely used to monitor product and service quality in low-light applications, covering smartphone photography, video surveillance, autonomous driving, etc. Recent developments in this field are dominated by unimodal solutions inconsistent with human subjective rating patterns, where human visual perception is simultaneously reflected by multiple sensory information (e.g., sight and hearing). In this article, we present a unique blind multimodal quality assessment (BMQA) of low-light images from subjective evaluation to objective score. To investigate the multimodal mechanism, we first establish a multimodal low-light image quality (MLIQ) database with authentic low-light distortions, containing image and audio modality pairs. Further, we specially design the key modules of BMQA, considering multimodal quality representation, latent feature alignment and fusion, and hybrid self-supervised and supervised learning. Extensive experiments show that our BMQA yields state-of-the-art accuracy on the proposed MLIQ benchmark database. In particular, we also build an independent single-image modality Dark-4K database, which is used to verify its applicability and generalization performance in mainstream unimodal applications. Qualitative and quantitative results on Dark-4K show that BMQA achieves superior performance to existing BIQA approaches as long as a pre-trained quality semantic description model is provided. The proposed framework and two databases as well as the collected BIQA methods and evaluation metrics are made publicly available.
翻訳日:2023-03-21 19:57:35 公開日:2023-03-18
# 単純なナレッジグラフ質問応答における事前学習言語モデルの実証的研究

An Empirical Study of Pre-trained Language Models in Simple Knowledge Graph Question Answering ( http://arxiv.org/abs/2303.10368v1 )

ライセンス: Link先を確認
Nan Hu, Yike Wu, Guilin Qi, Dehai Min, Jiaoyan Chen, Jeff Z. Pan and Zafar Ali(参考訳) BERTのような大規模事前学習型言語モデル(PLM)は、最近大きな成功を収め、自然言語処理(NLP)のマイルストーンとなった。 現在、下流タスクのバックボーンとしてPLMを採用することは、NLPコミュニティのコンセンサスとなっている。 近年、知識グラフ質問応答 (KGQA) の研究において、BERT やその変種は KGQA モデルにおいて必要となっている。 しかしながら、KGQAにおける異なるPLMの性能に関する総合的な研究や比較はいまだに存在しない。 そこで本研究では,ニューラルネットワークモジュールを付加することなく,plmに基づく2つの基本的なkgqaフレームワークをまとめ,精度と効率の観点から9つのplmの性能を比較する。 さらに,PLMのスケーラビリティを検討するために,人気のあるSimpleQuestionsベンチマークに基づく大規模KGのベンチマークを3つ提示する。 我々はこれらのベンチマークと他の2つの一般的なデータセットであるWebQuestionSPとFreebaseQAに関する全てのPLMベースのKGQA基本フレームワークの結果を慎重に分析し、PLMにおける知識蒸留技術と知識向上手法がKGQAに有望であることを示す。 さらに我々は、NLPコミュニティで注目されているChatGPTをテストし、ゼロショットKGQAにおけるその印象的な機能と制限を実証した。 我々は、KGQA上でのPLMの使用を促進するためのコードとベンチマークをリリースした。

Large-scale pre-trained language models (PLMs) such as BERT have recently achieved great success and become a milestone in natural language processing (NLP). It is now the consensus of the NLP community to adopt PLMs as the backbone for downstream tasks. In recent works on knowledge graph question answering (KGQA), BERT or its variants have become necessary in their KGQA models. However, there is still a lack of comprehensive research and comparison of the performance of different PLMs in KGQA. To this end, we summarize two basic KGQA frameworks based on PLMs without additional neural network modules to compare the performance of nine PLMs in terms of accuracy and efficiency. In addition, we present three benchmarks for larger-scale KGs based on the popular SimpleQuestions benchmark to investigate the scalability of PLMs. We carefully analyze the results of all PLMs-based KGQA basic frameworks on these benchmarks and two other popular datasets, WebQuestionSP and FreebaseQA, and find that knowledge distillation techniques and knowledge enhancement methods in PLMs are promising for KGQA. Furthermore, we test ChatGPT, which has drawn a great deal of attention in the NLP community, demonstrating its impressive capabilities and limitations in zero-shot KGQA. We have released the code and benchmarks to promote the use of PLMs on KGQA.
翻訳日:2023-03-21 19:57:05 公開日:2023-03-18
# crosel: 部分ラベル学習のための自信付き擬似ラベルのクロスセレクション

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label Learning ( http://arxiv.org/abs/2303.10365v1 )

ライセンス: Link先を確認
Shiyu Tian, Hongxin Wei, Yiqun Wang, Lei Feng(参考訳) 部分ラベル学習(pll)は、各トレーニング例が単一の基底ラベルではなく候補ラベルセットを持つことを可能にする、重要な弱教師付き学習問題である。 同定に基づく手法は、真ラベルを識別すべき潜在変数とみなすPLLのラベル曖昧性問題に対処するために広く研究されている。 しかし、真のラベルを正確に同定することは困難であり、モデルトレーニング中に擬似ラベルにノイズが生じる。 本稿では,モデルからの履歴予測情報を利用して,学習例の真のラベルを識別する手法であるcroselを提案する。 まず,2つの深層モデルでラベル付きデータの真のラベルを相互に選択できるクロスセレクション戦略を提案する。 また, サンプルの無駄や誤選択による小ノイズを避けるために, 共混合という新しい一貫性のある正規化用語を提案する。 このようにして、CroSelは、ほとんどの例の本当のラベルを高い精度で取り出すことができる。 大規模な実験は、ベンチマークデータセットにおける従来の最先端メソッドを一貫して上回るクロセルの優位性を示す。 さらに,cifar型データセットの真ラベルを各種設定で選択する精度と量を90\%以上向上させた。

Partial-label learning (PLL) is an important weakly supervised learning problem, which allows each training example to have a candidate label set instead of a single ground-truth label. Identification-based methods have been widely explored to tackle label ambiguity issues in PLL, which regard the true label as a latent variable to be identified. However, identifying the true labels accurately and completely remains challenging, causing noise in pseudo labels during model training. In this paper, we propose a new method called CroSel, which leverages historical prediction information from models to identify true labels for most training examples. First, we introduce a cross selection strategy, which enables two deep models to select true labels of partially labeled data for each other. Besides, we propose a novel consistent regularization term called co-mix to avoid sample waste and tiny noise caused by false selection. In this way, CroSel can pick out the true labels of most examples with high precision. Extensive experiments demonstrate the superiority of CroSel, which consistently outperforms previous state-of-the-art methods on benchmark datasets. Additionally, our method achieves over 90\% accuracy and quantity for selecting true labels on CIFAR-type datasets under various settings.
翻訳日:2023-03-21 19:56:40 公開日:2023-03-18
# DC-CCL:大型ビジョンモデルのためのデバイスクラウド協調学習

DC-CCL: Device-Cloud Collaborative Controlled Learning for Large Vision Models ( http://arxiv.org/abs/2303.10361v1 )

ライセンス: Link先を確認
Yucheng Ding, Chaoyue Niu, Fan Wu, Shaojie Tang, Chengfei Lyu, Guihai Chen(参考訳) 多くの大規模ビジョンモデルが、リアルタイムサービスのためにクラウドにデプロイされている。 一方、提供されたモバイルデバイス上で、新鮮なサンプルを連続的に生成する。 デバイス側サンプルの活用によるクラウド側大規模モデルの改善は,現実的な要件となっているが,サンプルのアップリンクが無く,大規模なモデルダウンリンクが存在しないというジレンマに陥る。 具体的には、プライバシや通信のオーバーヘッドの懸念から、ユーザは生のサンプルをクラウドと共有しないことを選択できるが、一部の大きなビジョンモデルのサイズはモバイルデバイスのランタイム容量をはるかに上回っている。 本研究では,デバイス側ローカルサンプルの恩恵を受けるために,モバイルデバイスに直接デプロイできないクラウド側の大規模ビジョンモデルを実現する,DC-CCLと呼ばれるデバイスクラウド協調型学習フレームワークを提案する。 特に、DC-CCLは、ベースモデルを垂直に2つのサブモデルに分割する。1つはクラウド側サンプルから学習するための大きなサブモデルであり、もう1つはデバイス側サンプルから学習し、デバイス-クラウド知識融合を実行するための小さなサブモデルである。 それでも、小さなサブモデルのオンデバイストレーニングでは、所望の勾配を計算するためにクラウド側の大きなサブモデルの出力が必要である。 このため、DC-CCLは、知識蒸留による大規模なクラウドサイドサブモデルを模倣する軽量モデルを導入し、小型サブモデルの最適化方向を制御するためにモバイルデバイスにオフロードすることができる。 協調学習における2つのサブモデルの分離の性質を考えると、DC-CCLはクラウドが事前訓練されたモデルとモバイルデバイスが異なるバックボーンアーキテクチャを持つ別のモデルを取ることを可能にする。

Many large vision models have been deployed on the cloud for real-time services. Meanwhile, fresh samples are continuously generated on the served mobile device. How to leverage the device-side samples to improve the cloud-side large model becomes a practical requirement, but falls into the dilemma of no raw sample up-link and no large model down-link. Specifically, the user may opt out of sharing raw samples with the cloud due to the concern of privacy or communication overhead, while the size of some large vision models far exceeds the mobile device's runtime capacity. In this work, we propose a device-cloud collaborative controlled learning framework, called DC-CCL, enabling a cloud-side large vision model that cannot be directly deployed on the mobile device to still benefit from the device-side local samples. In particular, DC-CCL vertically splits the base model into two submodels, one large submodel for learning from the cloud-side samples and the other small submodel for learning from the device-side samples and performing device-cloud knowledge fusion. Nevertheless, on-device training of the small submodel requires the output of the cloud-side large submodel to compute the desired gradients. DC-CCL thus introduces a light-weight model to mimic the large cloud-side submodel with knowledge distillation, which can be offloaded to the mobile device to control its small submodel's optimization direction. Given the decoupling nature of two submodels in collaborative learning, DC-CCL also allows the cloud to take a pre-trained model and the mobile device to take another model with a different backbone architecture.
翻訳日:2023-03-21 19:56:18 公開日:2023-03-18
# 神経骨格機械 : 神経生存回帰における比例ハザード仮定を超える

Neural Frailty Machine: Beyond proportional hazard assumption in neural survival regressions ( http://arxiv.org/abs/2303.10358v1 )

ライセンス: Link先を確認
Ruofan Wu, Jiawei Qiao, Mingzhe Wu, Wen Yu, Ming Zheng, Tengfei Liu, Tianyi Zhang, Weiqiang Wang(参考訳) 我々は,生存回帰のための強力で柔軟なニューラルネットワークモデリングフレームワークであるneural frailty machine(nfm)を提案する。 NFMフレームワークは、生存分析における乗法的欠陥という古典的な考え方を利用して、個人間の不均一性を捉えると同時に、非線形共変量依存を扱うためにニューラルネットワークの強い近似力を利用することができる。 2つの具体的なモデルは、神経比例ハザードモデルと非パラメトリックハザード回帰モデルを拡張する枠組みの下で導出される。 どちらのモデルも、潜在的目的の下で効率的なトレーニングを可能にする。 理論的には,両モデルとも,その収束率を特徴付けることにより,非パラメトリック成分に対する神経関数近似の統計的保証を確立する。 理論的ステートメントを検証するための合成実験を経験的に提供する。 また、様々なスケールのベンチマークデータセットを6ドル以上にわたって実験的に評価し、提案するnfmモデルが予測性能の点で最先端のサバイバルモデルを上回ることを示した。 私たちのコードはhttps://github.com/Rorschach1989/nfmで公開されています

We present neural frailty machine (NFM), a powerful and flexible neural modeling framework for survival regressions. The NFM framework utilizes the classical idea of multiplicative frailty in survival analysis to capture unobserved heterogeneity among individuals, at the same time being able to leverage the strong approximation power of neural architectures for handling nonlinear covariate dependence. Two concrete models are derived under the framework that extends neural proportional hazard models and nonparametric hazard regression models. Both models allow efficient training under the likelihood objective. Theoretically, for both proposed models, we establish statistical guarantees of neural function approximation with respect to nonparametric components via characterizing their rate of convergence. Empirically, we provide synthetic experiments that verify our theoretical statements. We also conduct experimental evaluations over $6$ benchmark datasets of different scales, showing that the proposed NFM models outperform state-of-the-art survival models in terms of predictive performance. Our code is publicly availabel at https://github.com/Rorschach1989/nfm
翻訳日:2023-03-21 19:55:48 公開日:2023-03-18
# 領域一般化のためのシャープネス認識勾配マッチング

Sharpness-Aware Gradient Matching for Domain Generalization ( http://arxiv.org/abs/2303.10353v1 )

ライセンス: Link先を確認
Pengfei Wang, Zhaoxiang Zhang, Zhen Lei, Lei Zhang(参考訳) ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。 最近開発されたSAM法は、損失景観のシャープネスを最小化することで、この目標を達成することを目的としている。 SAMとその変種は印象的なDG性能を示したが、必ずしも損失値が小さい所望の平坦領域に収束するとは限らない。 本稿では,モデル一般化能力を改善するための2つの条件を満たすために,モデルが小さい損失で平坦な最小値に収束することを保証する2つの条件と,spikeness-aware gradient matching (sagm) と呼ばれるアルゴリズムを提案する。 具体的には、SAGMの最適化目標は、経験的リスク、摂動損失(パラメータ空間内の近傍における最大損失)、およびそれらのギャップを同時に最小化する。 経験的リスクと摂動損失の間の勾配方向を暗黙的に整列することにより、SAGMは計算コストを増大させることなくSAMとその変種に対する一般化能力を向上させる。 実験結果から,提案手法はPACS, VLCS, OfficeHome, TerraIncognita, DomainNetの5つのDGベンチマークにおいて,最先端の手法よりも一貫して優れていることがわかった。 コードはhttps://github.com/Wang-pengfei/SAGMで入手できる。

The goal of domain generalization (DG) is to enhance the generalization capability of the model learned from a source domain to other unseen domains. The recently developed Sharpness-Aware Minimization (SAM) method aims to achieve this goal by minimizing the sharpness measure of the loss landscape. Though SAM and its variants have demonstrated impressive DG performance, they may not always converge to the desired flat region with a small loss value. In this paper, we present two conditions to ensure that the model could converge to a flat minimum with a small loss, and present an algorithm, named Sharpness-Aware Gradient Matching (SAGM), to meet the two conditions for improving model generalization capability. Specifically, the optimization objective of SAGM will simultaneously minimize the empirical risk, the perturbed loss (i.e., the maximum loss within a neighborhood in the parameter space), and the gap between them. By implicitly aligning the gradient directions between the empirical risk and the perturbed loss, SAGM improves the generalization capability over SAM and its variants without increasing the computational cost. Extensive experimental results show that our proposed SAGM method consistently outperforms the state-of-the-art methods on five DG benchmarks, including PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet. Codes are available at https://github.com/Wang-pengfei/SAGM.
翻訳日:2023-03-21 19:55:30 公開日:2023-03-18
# 医用ランドマーク検出のための不確実性認識U-Net

Uncertainty-aware U-Net for Medical Landmark Detection ( http://arxiv.org/abs/2303.10349v1 )

ライセンス: Link先を確認
Ziyang Ye, Haiyang Yu, Bin Li(参考訳) ヒートマップに基づく手法は解剖学的ランドマーク検出において重要な役割を果たす。 しかし、現在のヒートマップに基づくほとんどの方法は、全てのランドマークの分布が同じであり、各ランドマークの分布は等方的であり、現実と一致しないかもしれないと仮定している。 例えば、顎のランドマークは縁に沿って位置する傾向があり、顎の内側や外側に位置する傾向が低い。 手動の注釈は同様の規則に従う傾向にあり、アノテーションの不確実性を表す注釈付きランドマークに対して異方性分布をもたらす。 不確かさを推定するために,目標ガウス分布の共分散行列を予測し,ランドマークの分布を決定し,ランドマークアノテーションの不確実性を表すピラミッド共分散予測モジュールを提案する。 具体的には、ピラミッド共分散予測器は、バックボーンu-netのエンコーダによって抽出されたピラミッド特徴を利用し、ランドマーク位置分布の共分散行列のコレスキー分解を予測する。 実験の結果, ピラミッド共分散予測器は, 分布を正確に予測し, 解剖学的ランドマーク検出の性能を向上させることができた。

Heatmap-based methods play an important role in anatomical landmark detection. However, most current heatmap-based methods assume that the distributions of all landmarks are the same and the distribution of each landmark is isotropic, which may not be in line with reality. For example, the landmark on the jaw is more likely to be located along the edge and less likely to be located inside or outside the jaw. Manually annotating tends to follow similar rules, resulting in an anisotropic distribution for annotated landmarks, which represents the uncertainty in the annotation. To estimate the uncertainty, we propose a module named Pyramid Covariance Predictor to predict the covariance matrices of the target Gaussian distributions, which determine the distributions of landmarks and represent the uncertainty of landmark annotation. Specifically, the Pyramid Covariance Predictor utilizes the pyramid features extracted by the encoder of the backbone U-Net and predicts the Cholesky decomposition of the covariance matrix of the landmark location distribution. Experimental results show that the proposed Pyramid Covariance Predictor can accurately predict the distributions and improve the performance of anatomical landmark detection.
翻訳日:2023-03-21 19:55:04 公開日:2023-03-18
# SOCS:大形状変化下におけるカテゴリーレベル6次元オブジェクトポス推定のための意味認識オブジェクトコーディネート空間

SOCS: Semantically-aware Object Coordinate Space for Category-Level 6D Object Pose Estimation under Large Shape Variations ( http://arxiv.org/abs/2303.10346v1 )

ライセンス: Link先を確認
Boyan Wan, Yifei Shi, Kai Xu(参考訳) カテゴリーレベルの6次元ポーズ推定に対する学習に基づくアプローチのほとんどは、正規化オブジェクト座標空間(nocs)を中心に設計されている。 成功したが、NOCSベースの手法は、カテゴリー内形状の顕著な変化を含むカテゴリのオブジェクトを扱う際に、不正確でより堅牢になる。 これは、大域的かつ厳密なオブジェクトアライメントによって引き起こされるオブジェクト座標が意味的に一貫性がなく、座標回帰が学習や一般化が困難であるからである。 本稿では,意味的に意味のある対応を持つキーポイントのスパースセットによって導かれるオブジェクトをワープ・アンド・アライメントすることで,セマンティック・アウェアなオブジェクトコーディネート・スペース(SOCS)を提案する。 SOCSは意味的コヒーレントである: 物体の表面上の任意の点は、SOCS内の意味論的意味のある場所にマッピングすることができ、大きな形状変化の下で正確なポーズとサイズ推定を可能にする。 我々は,SOCSに対する効果的な座標回帰を学習するために,新しいマルチスケール座標に基づくアテンションネットワークを提案する。 評価の結果,本手法は訓練が容易で,カテゴリー内形状の変動が大きく,物体間閉塞に対して頑健であることがわかった。

Most learning-based approaches to category-level 6D pose estimation are design around normalized object coordinate space (NOCS). While being successful, NOCS-based methods become inaccurate and less robust when handling objects of a category containing significant intra-category shape variations. This is because the object coordinates induced by global and rigid alignment of objects are semantically incoherent, making the coordinate regression hard to learn and generalize. We propose Semantically-aware Object Coordinate Space (SOCS) built by warping-and-aligning the objects guided by a sparse set of keypoints with semantically meaningful correspondence. SOCS is semantically coherent: Any point on the surface of a object can be mapped to a semantically meaningful location in SOCS, allowing for accurate pose and size estimation under large shape variations. To learn effective coordinate regression to SOCS, we propose a novel multi-scale coordinate-based attention network. Evaluations demonstrate that our method is easy to train, well-generalizing for large intra-category shape variations and robust to inter-object occlusions.
翻訳日:2023-03-21 19:54:43 公開日:2023-03-18
# 局所-グローバルパノラマ塗布による室内照明予測

Local-to-Global Panorama Inpainting for Locale-Aware Indoor Lighting Prediction ( http://arxiv.org/abs/2303.10344v1 )

ライセンス: Link先を確認
Jiayang Bai, Zhen He, Shan Yang, Jie Guo, Zhenyu Chen, Yan Zhang, Yanwen Guo(参考訳) 単一視点の画像からパノラマ的な室内照明を予測することは、コンピュータビジョンとグラフィックスの基本的な問題である。 局所認識とロバストな予測を実現するために,この問題を3つのサブタスクに分解することができる。深度ベースの画像ワープ,パノラマ塗布,高ダイナミックレンジ(HDR)再構築。 最近の手法は主に、ワープされたパノラマの不足した内容を満たすために畳み込みニューラルネットワーク(CNN)に依存している。 しかし,CNNは限られた受容野に悩まされているのに対し,パノラマ領域の非常に大きな部分を占めるため,通常は準最適性能が得られる。 球面信号の空間的変動は従来のcnnの難易度をさらに高める。 これらの問題に対処するため,我々は大規模パノラマ塗装のための局所的対グローバル戦略を提案する。 本手法では, 加工されたパノラマに局所塗布を施し, 小だが高密度な穴を埋める。 そして、PanoTransformerと呼ばれるトランスフォーマーベースのネットワークは、大きな穴の中の合理的なグローバル構造を幻覚させるように設計されている。 歪みを避けるため、我々はさらにパノトランスフォーマの設計にキューブマップ投影を用いる。 あらゆる場所で回収された高品質なパノラマは、空間的に変化する屋内照明を物理的に解明可能なグローバルな構造と細部で捉えるのに役立ちます。

Predicting panoramic indoor lighting from a single perspective image is a fundamental but highly ill-posed problem in computer vision and graphics. To achieve locale-aware and robust prediction, this problem can be decomposed into three sub-tasks: depth-based image warping, panorama inpainting and high-dynamic-range (HDR) reconstruction, among which the success of panorama inpainting plays a key role. Recent methods mostly rely on convolutional neural networks (CNNs) to fill the missing contents in the warped panorama. However, they usually achieve suboptimal performance since the missing contents occupy a very large portion in the panoramic space while CNNs are plagued by limited receptive fields. The spatially-varying distortion in the spherical signals further increases the difficulty for conventional CNNs. To address these issues, we propose a local-to-global strategy for large-scale panorama inpainting. In our method, a depth-guided local inpainting is first applied on the warped panorama to fill small but dense holes. Then, a transformer-based network, dubbed PanoTransformer, is designed to hallucinate reasonable global structures in the large holes. To avoid distortion, we further employ cubemap projection in our design of PanoTransformer. The high-quality panorama recovered at any locale helps us to capture spatially-varying indoor illumination with physically-plausible global structures and fine details.
翻訳日:2023-03-21 19:54:22 公開日:2023-03-18
# lossmix: オブジェクト検出のためのmixupの単純化と一般化

LossMix: Simplify and Generalize Mixup for Object Detection and Beyond ( http://arxiv.org/abs/2303.10343v1 )

ライセンス: Link先を確認
Thanh Vu, Baochen Sun, Bodi Yuan, Alex Ngai, Yueqi Li, Jan-Michael Frahm(参考訳) 画像分類タスクにおけるデータ混合強化の成功は、よく認識されている。 しかし,これらの手法は,空間的ミスアライメント,前景/背景の区別,複数事例などの課題により,容易に物体検出に適用できない。 これらの課題に対処するため,我々はまず Supervision Interpolation という新しい概念フレームワークを紹介し,Mixup の緩和と一般化による補間に基づく拡張の新たな視点を提供する。 このフレームワークに基づいて,オブジェクト検出器の性能とロバスト性を高める単純かつ汎用的で効果的な正規化であるlossmixを提案する。 我々の重要な洞察は、地上の真理ラベルの代わりに損失エラーを補間することで、混合データのトレーニングを効果的に規則化できるということです。 PASCAL VOCとMS COCOデータセットの実証結果は、LossMixが現在一般的な混合戦略を一貫して上回っていることを示している。 さらに,LosMixを利用した2段階のドメインミキシング手法を設計し,適応型教師(CVPR 2022)を克服し,教師なしドメイン適応のための新しい技術状況を設定する。

The success of data mixing augmentations in image classification tasks has been well-received. However, these techniques cannot be readily applied to object detection due to challenges such as spatial misalignment, foreground/background distinction, and plurality of instances. To tackle these issues, we first introduce a novel conceptual framework called Supervision Interpolation, which offers a fresh perspective on interpolation-based augmentations by relaxing and generalizing Mixup. Building on this framework, we propose LossMix, a simple yet versatile and effective regularization that enhances the performance and robustness of object detectors and more. Our key insight is that we can effectively regularize the training on mixed data by interpolating their loss errors instead of ground truth labels. Empirical results on the PASCAL VOC and MS COCO datasets demonstrate that LossMix consistently outperforms currently popular mixing strategies. Furthermore, we design a two-stage domain mixing method that leverages LossMix to surpass Adaptive Teacher (CVPR 2022) and set a new state of the art for unsupervised domain adaptation.
翻訳日:2023-03-21 19:53:57 公開日:2023-03-18
# HGIB : Hypergraph Information Bottleneck を用いたアルツハイマー病の予後

HGIB: Prognosis for Alzheimer's Disease via Hypergraph Information Bottleneck ( http://arxiv.org/abs/2303.10390v1 )

ライセンス: Link先を確認
Shujun Wang, Angelica I Aviles-Rivero, Zoe Kourtzi, and Carola-Bibiane Sch\"onlieb(参考訳) アルツハイマー病の予後は、早期軽度認知障害患者にとって、患者の生活の質を改善するためのタイムリーな治療に重要である。 既存の予後のテクニックは潜在的な結果を示しているが、単一のモダリティの使用には極めて制限がある。 最も重要なことは、それらは予後の重要な要素を考えることに失敗し、現在の時点で抽出された全ての特徴が数年後の予後予測に寄与するわけではないことである。 文献の現在の欠点を解決するため,情報ボトルネック戦略(HGIB)に基づく新たなハイパーグラフフレームワークを提案する。 まず、我々の枠組みは、無関係な情報を識別することを目的としており、2年後には、将来のMCI変換予測のための関連情報の調和にのみ焦点をあてている。 第2に,画像と非画像モダリティに基づくマルチモーダルデータを同時に考慮する。 HGIBはマルチモダリティデータを表現するためにハイパーグラフ構造を使用し、様々なデータモダリティタイプを記述している。 第3に、我々のモデルの鍵は、新しい最適化スキームに基づいている。 これは、情報ボトルネックの原理をハイパーグラフニューラルネットワークに統合可能な損失関数にモデル化することに基づいている。 adniに関する広範な実験を通じて,提案するhgibフレームワークがアルツハイマー病の予後において,既存の最先端ハイパーグラフニューラルネットを上回ることを実証した。 ラベルの少ないモデルも紹介します。 最後に、トポロジ的および特徴的摂動の両面において、フレームワークの堅牢性と一般化機能をさらにサポートする。

Alzheimer's disease prognosis is critical for early Mild Cognitive Impairment patients for timely treatment to improve the patient's quality of life. Whilst existing prognosis techniques demonstrate potential results, they are highly limited in terms of using a single modality. Most importantly, they fail in considering a key element for prognosis: not all features extracted at the current moment may contribute to the prognosis prediction several years later. To address the current drawbacks of the literature, we propose a novel hypergraph framework based on an information bottleneck strategy (HGIB). Firstly, our framework seeks to discriminate irrelevant information, and therefore, solely focus on harmonising relevant information for future MCI conversion prediction e.g., two years later). Secondly, our model simultaneously accounts for multi-modal data based on imaging and non-imaging modalities. HGIB uses a hypergraph structure to represent the multi-modality data and accounts for various data modality types. Thirdly, the key of our model is based on a new optimisation scheme. It is based on modelling the principle of information bottleneck into loss functions that can be integrated into our hypergraph neural network. We demonstrate, through extensive experiments on ADNI, that our proposed HGIB framework outperforms existing state-of-the-art hypergraph neural networks for Alzheimer's disease prognosis. We showcase our model even under fewer labels. Finally, we further support the robustness and generalisation capabilities of our framework under both topological and feature perturbations.
翻訳日:2023-03-21 19:48:05 公開日:2023-03-18
# 量子不協和の対称部分としての絡み合い

Entanglement as the cross-symmetric part of quantum discord ( http://arxiv.org/abs/2303.10389v1 )

ライセンス: Link先を確認
Chunhe Xiong, Sunho Kim, Asutosh Kumar, Zeyu Chen, Minghui Wu, and Junde Wu(参考訳) 本稿では、"クロス対称"状態拡張に対する最小量子不協和は、絡み合い単調であることを示す。 特に、対称拡大上の不協和の最小のビュール距離は、絡み合いのビュール距離と同値であることを示す。 最後に、量子演算では収縮しないヒルベルト・シュミット距離によって引き起こされる絡み合い量子化器が絡み合いモノトンであることを示すことによって、縮み込みモノトンを構築するためにのみ縮み込み距離が使用できるという長期の慣行を論じる。

In this paper, we show that the minimal quantum discord over "cross-symmetric" state extensions is an entanglement monotone. In particular, we show that the minimal Bures distance of discord over cross-symmetric extensions is equivalent to the Bures distance of entanglement. At last, we refute a long-held but unstated convention that only contractive distances can be used to construct entanglement monotones by showing that the entanglement quantifier induced by the Hilbert-Schmidt distance, which is not contractive under quantum operations, is also an entanglement monotone.
翻訳日:2023-03-21 19:47:44 公開日:2023-03-18
# ナノドローンの深さ推定のためのチャネルアウェア蒸留変圧器

Channel-Aware Distillation Transformer for Depth Estimation on Nano Drones ( http://arxiv.org/abs/2303.10386v1 )

ライセンス: Link先を確認
Ning Zhang, Francesco Nex, George Vosselman, Norman Kerle(参考訳) コンピュータビジョンを用いたドローンの自律ナビゲーションは有望な性能を達成している。 エッジコンピューティングプラットフォームに基づくナノサイズのドローンは軽量で柔軟性があり、安価であり、狭い空間を探索するのに適している。 しかし、計算能力とストレージが非常に限られているため、高性能GPUプラットフォーム用に設計されたビジョンアルゴリズムはナノドローンには使用できない。 この問題に対処するために,ナノドローンに搭載された軽量CNN深度推定ネットワークを提案する。 知識蒸留 (KD) にインスパイアされ, チャネル認識蒸留変換 (CADiT) が提案され, より大規模なネットワークからの知識の学習を容易にする。 提案手法はKITTIデータセット上で検証され,超低消費電力マイクロプロセッサGAP8を用いたナノドローンCrzyflieで試験された。

Autonomous navigation of drones using computer vision has achieved promising performance. Nano-sized drones based on edge computing platforms are lightweight, flexible, and cheap, thus suitable for exploring narrow spaces. However, due to their extremely limited computing power and storage, vision algorithms designed for high-performance GPU platforms cannot be used for nano drones. To address this issue this paper presents a lightweight CNN depth estimation network deployed on nano drones for obstacle avoidance. Inspired by Knowledge Distillation (KD), a Channel-Aware Distillation Transformer (CADiT) is proposed to facilitate the small network to learn knowledge from a larger network. The proposed method is validated on the KITTI dataset and tested on a nano drone Crazyflie, with an ultra-low power microprocessor GAP8.
翻訳日:2023-03-21 19:47:30 公開日:2023-03-18
# 自律運転のためのベクトル表現を用いた社会咬合推定

Social Occlusion Inference with Vectorized Representation for Autonomous Driving ( http://arxiv.org/abs/2303.10385v1 )

ライセンス: Link先を確認
Bochao Huang and Pin(参考訳) 自動運転車は、安全かつ効率的な運転を確保するために、環境の閉塞を処理できる必要がある。 都市環境においては、エゴ車両の知覚を損なう他の車両による閉塞が発生することが多い。 閉塞状態は車両の軌道に影響を及ぼす可能性があるため、他の車両の挙動は、閉塞を知覚障害の治療法として推測するのに役立つ。 本稿では,エージェントの軌跡とシーンの文脈からエゴ車両の視点を表す占有グリッドマップ(occupancy grid map,ogm)へのマッピングを学習する新しい社会咬合推定手法を提案する。 特に、ベクトル化された特徴はポリラインエンコーダを介して符号化され、ベクトルの特徴をポリラインの特徴に集約する。 次にトランスフォーマーモジュールを使用してポリラインの高次相互作用をモデル化する。 重要なことは、ポリリンの特徴を融合させ、視覚的モダリティを入力せずにOGMを生成するために、オクルージョンクエリを提案することである。 ベクトル化表現の性能を検証するために, 完全トランスフォーマーエンコーダ-デコーダアーキテクチャに基づくベースラインの設計を行い, ogmをオクルージョンにマッピングし, 歴史的軌跡情報をグランド・トゥルートogmにマッピングする。 我々は,現状の成果よりも優れるInterActionデータセットにおける無署名の交差点に対するアプローチを評価する。

Autonomous vehicles must be capable of handling the occlusion of the environment to ensure safe and efficient driving. In urban environment, occlusion often arises due to other vehicles obscuring the perception of the ego vehicle. Since the occlusion condition can impact the trajectories of vehicles, the behavior of other vehicles is helpful in making inferences about the occlusion as a remedy for perceptual deficiencies. This paper introduces a novel social occlusion inference approach that learns a mapping from agent trajectories and scene context to an occupancy grid map (OGM) representing the view of ego vehicle. Specially, vectorized features are encoded through the polyline encoder to aggregate features of vectors into features of polylines. A transformer module is then utilized to model the high-order interactions of polylines. Importantly, occlusion queries are proposed to fuse polyline features and generate the OGM without the input of visual modality. To verify the performance of vectorized representation, we design a baseline based on a fully transformer encoder-decoder architecture mapping the OGM with occlusion and historical trajectories information to the ground truth OGM. We evaluate our approach on an unsignalized intersection in the INTERACTION dataset, which outperforms the state-of-the-art results.
翻訳日:2023-03-21 19:47:16 公開日:2023-03-18
# RNN-Transducer Lossesのための強力で拡張可能なWFSTフレームワーク

Powerful and Extensible WFST Framework for RNN-Transducer Losses ( http://arxiv.org/abs/2303.10384v1 )

ライセンス: Link先を確認
Aleksandr Laptev, Vladimir Bataev, Igor Gitman, Boris Ginsburg(参考訳) 本稿では,RNN-Transducer(RNN-T)の損失に対する修正の簡易化を目的としたWFST(Weighted Finite-State Transducer)に基づくフレームワークを提案する。 既存のRNN-Tの実装ではCUDA関連のコードを使用しており、拡張やデバッグが難しい。 WFSTは簡単に構築および拡張でき、視覚化によるデバッグが可能である。 本稿では, WFST を利用した RNN-T 実装について紹介する: (1) WFST グラフの音響的およびテキスト的スキーマからの合成に基づく "Compose-Transducer" , (2) さらなる計算のために格子を直接構築する "Grid-Transducer" 。 本稿では,新たな w-transducer loss -- the adapt of the connectionist temporal classification with wild cards(w-transducer loss)の導入により,拡張性が向上することを示す。 W-RNNT(W-Transducer, W-RNNT)は、標準のRNN-Tを音声の開始時と終了時に欠落する部分を持つ弱い教師付きデータセットで一貫して上回っている。 RNN-Tの損失はすべてk2フレームワークで実装されており、NeMoツールキットで利用可能である。

This paper presents a framework based on Weighted Finite-State Transducers (WFST) to simplify the development of modifications for RNN-Transducer (RNN-T) loss. Existing implementations of RNN-T use CUDA-related code, which is hard to extend and debug. WFSTs are easy to construct and extend, and allow debugging through visualization. We introduce two WFST-powered RNN-T implementations: (1) "Compose-Transducer", based on a composition of the WFST graphs from acoustic and textual schema -- computationally competitive and easy to modify; (2) "Grid-Transducer", which constructs the lattice directly for further computations -- most compact, and computationally efficient. We illustrate the ease of extensibility through introduction of a new W-Transducer loss -- the adaptation of the Connectionist Temporal Classification with Wild Cards. W-Transducer (W-RNNT) consistently outperforms the standard RNN-T in a weakly-supervised data setup with missing parts of transcriptions at the beginning and end of utterances. All RNN-T losses are implemented with the k2 framework and are available in the NeMo toolkit.
翻訳日:2023-03-21 19:46:53 公開日:2023-03-18
# ゼロショットビデオオブジェクトセグメンテーションのための適応型マルチソース予測器

Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation ( http://arxiv.org/abs/2303.10383v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Shijie Chang, Youwei Pang, Jiaxing Yang, Lihe Zhang, Huchuan Lu(参考訳) 静的オブジェクトと移動オブジェクトはどちらも、通常実写ビデオに存在する。 ほとんどのビデオオブジェクトセグメンテーション手法は、動く物体を知覚する動きの手がかりの正確化と活用のみに焦点を当てている。 静的な物体フレームに直面すると、移動物体予測器は、低品質の光フローマップのような不確実な動き情報によって生じる失敗を予測できる。 さらに、rgb、深さ、光流、静塩分といった多くのソースは、オブジェクトに関する有用な情報を提供することができる。 しかし、既存のアプローチではrgbまたはrgbとオプティカルフローのみを使用する。 本稿では,ゼロショット映像オブジェクトセグメンテーションのための適応型マルチソース予測器を提案する。 静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。 移動物体予測器において,マルチソース融合構造を提案する。 まず、各ソースの空間的重要性を、知覚的空間的注意モジュール(ISAM)の助けを借りて強調する。 第二に、動き強調モジュール(MEM)は、デコーダで使用される静的特徴と移動特性の両方を改善するために、純粋な前景運動注意を生成するように設計されている。 さらに、ソース間互換性のない機能をフィルタリングする機能浄化モジュール(FPM)を設計する。 ISAM、MEM、FPMによって、マルチソース機能は効果的に融合される。 さらに,光学フローの質を評価するための適応型予測器融合ネットワーク(APF)を提案し,静止物体予測器と移動物体予測器からの予測を融合させて,低品質光フローマップによる故障結果への過度な依存を防止する。 実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。 そして、静的オブジェクト予測器は、高品質の深度マップと静的塩分マップを同時に正確に予測することができる。

Both static and moving objects usually exist in real-life videos. Most video object segmentation methods only focus on exacting and exploiting motion cues to perceive moving objects. Once faced with static objects frames, moving object predictors may predict failed results caused by uncertain motion information, such as low-quality optical flow maps. Besides, many sources such as RGB, depth, optical flow and static saliency can provide useful information about the objects. However, existing approaches only utilize the RGB or RGB and optical flow. In this paper, we propose a novel adaptive multi-source predictor for zero-shot video object segmentation. In the static object predictor, the RGB source is converted to depth and static saliency sources, simultaneously. In the moving object predictor, we propose the multi-source fusion structure. First, the spatial importance of each source is highlighted with the help of the interoceptive spatial attention module (ISAM). Second, the motion-enhanced module (MEM) is designed to generate pure foreground motion attention for improving both static and moving features used in the decoder. Furthermore, we design a feature purification module (FPM) to filter the inter-source incompatible features. By the ISAM, MEM and FPM, the multi-source features are effectively fused. In addition, we put forward an adaptive predictor fusion network (APF) to evaluate the quality of optical flow and fuse the predictions from the static object predictor and the moving object predictor in order to prevent over-reliance on the failed results caused by low-quality optical flow maps. Experiments show that the proposed model outperforms the state-of-the-art methods on three challenging ZVOS benchmarks. And, the static object predictor can precisely predicts a high-quality depth map and static saliency map at the same time.
翻訳日:2023-03-21 19:46:33 公開日:2023-03-18
# インベントリマネジメントのためのニューラル付加モデルによる解釈型強化学習

Interpretable Reinforcement Learning via Neural Additive Models for Inventory Management ( http://arxiv.org/abs/2303.10382v1 )

ライセンス: Link先を確認
Julien Siems, Maximilian Schambach, Sebastian Schulze, Johannes S. Otterbach(参考訳) 新型コロナウイルスのパンデミックは、サプライチェーンの重要性と、環境の動的変化に対応するためのデジタルマネジメントの重要性を強調している。 本研究では,多段階,すなわちサプライチェーンのための動的在庫発注ポリシーの開発に焦点をあてる。 従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。 したがって、これらの政策は、新型コロナウイルス危機で観察されたような動的変化に適応できない。 一方、従来の戦略は、ステークホルダーに意思決定を伝えるためにサプライチェーンマネージャにとって重要な特徴である解釈可能な利点を提供する。 そこで本研究では,従来の静的ポリシと同等に解釈可能でありながら,他の深層学習に基づく強化学習ソリューションと同じくらい柔軟で環境に依存しない,解釈可能な強化学習手法を提案する。 本稿では,強化学習エージェントの解釈可能な動的ポリシとしてニューラル添加モデルを用いることを提案し,本手法が標準の完全連結ポリシーと競合することを示す。 最後に、この解釈可能性特性を用いて、単純で線形な3エキロン在庫サプライチェーンの複雑な注文戦略の洞察を得る。

The COVID-19 pandemic has highlighted the importance of supply chains and the role of digital management to react to dynamic changes in the environment. In this work, we focus on developing dynamic inventory ordering policies for a multi-echelon, i.e. multi-stage, supply chain. Traditional inventory optimization methods aim to determine a static reordering policy. Thus, these policies are not able to adjust to dynamic changes such as those observed during the COVID-19 crisis. On the other hand, conventional strategies offer the advantage of being interpretable, which is a crucial feature for supply chain managers in order to communicate decisions to their stakeholders. To address this limitation, we propose an interpretable reinforcement learning approach that aims to be as interpretable as the traditional static policies while being as flexible and environment-agnostic as other deep learning-based reinforcement learning solutions. We propose to use Neural Additive Models as an interpretable dynamic policy of a reinforcement learning agent, showing that this approach is competitive with a standard full connected policy. Finally, we use the interpretability property to gain insights into a complex ordering strategy for a simple, linear three-echelon inventory supply chain.
翻訳日:2023-03-21 19:46:07 公開日:2023-03-18
# 加速的フェデレーション学習における一般化のためのクライアント選択:マルチアーマッドバンドアプローチ

Client Selection for Generalization in Accelerated Federated Learning: A Multi-Armed Bandit Approach ( http://arxiv.org/abs/2303.10373v1 )

ライセンス: Link先を確認
Dan Ben Ami, Kobi Cohen, Qing Zhao(参考訳) フェデレーション学習(federated learning, fl)は、データを明示的に交換することなく、ローカルデータセットを保持する複数のノード(クライアントなど)でモデルをトレーニングするために使用される、新たなマシンラーニング(ml)パラダイムである。 近年、プライバシーの配慮や通信資源の面での利点から、関心が高まっている。 flでは、選択されたクライアントはローカルモデルをトレーニングし、ランダムな処理と送信時間を消費するサーバーにモデルの関数を送信する。 サーバはグローバルモデルを更新し、それをクライアントにブロードキャストする。 FLにおけるクライアント選択問題は、学習性能を最適化するために、各タイミングでクライアントのサブセットをトレーニングおよび送信するためにスケジュールすることである。 本稿では,マルチアーム・バンディット(MAB)に基づく新しい手法を提案する。この手法は,モデルの一般化能力,すなわち新しい観測結果に対する信頼性の高い予測を提供することなく,トレーニング遅延を最小限に抑える。 FL(Bandit Scheduling for FL)と呼ばれる,この目標を達成するための新しいアルゴリズムを開発した。 bsflを理論的に分析し,bsflの損失として定義される対数的後悔を,全クライアントの待ち時間に関する完全な知識を持つジェネニーと比較して達成することを示す。 さらに、合成データと実データを用いたシミュレーション結果から、bsflは既存の手法よりも優れていることが示された。

Federated learning (FL) is an emerging machine learning (ML) paradigm used to train models across multiple nodes (i.e., clients) holding local data sets, without explicitly exchanging the data. It has attracted a growing interest in recent years due to its advantages in terms of privacy considerations, and communication resources. In FL, selected clients train their local models and send a function of the models to the server, which consumes a random processing and transmission time. The server updates the global model and broadcasts it back to the clients. The client selection problem in FL is to schedule a subset of the clients for training and transmission at each given time so as to optimize the learning performance. In this paper, we present a novel multi-armed bandit (MAB)-based approach for client selection to minimize the training latency without harming the ability of the model to generalize, that is, to provide reliable predictions for new observations. We develop a novel algorithm to achieve this goal, dubbed Bandit Scheduling for FL (BSFL). We analyze BSFL theoretically, and show that it achieves a logarithmic regret, defined as the loss of BSFL as compared to a genie that has complete knowledge about the latency means of all clients. Furthermore, simulation results using synthetic and real datasets demonstrate that BSFL is superior to existing methods.
翻訳日:2023-03-21 19:45:47 公開日:2023-03-18
# 視覚的冗長性予測: 深いマルチモーダル駆動アプローチ

Just Noticeable Visual Redundancy Forecasting: A Deep Multimodal-driven Approach ( http://arxiv.org/abs/2303.10372v1 )

ライセンス: Link先を確認
Wuyuan Xie, Shukang Wang, Sukun Tian, Lirong Huang, Ye Liu, Miaohui Wang(参考訳) Just noticeable difference (JND) とは、人間の目では認識できない最大の視覚変化であり、マルチメディアシステムにおいて幅広い応用がある。 しかし、既存のJNDアプローチのほとんどは単一のモダリティにのみ焦点をあてており、マルチモーダル情報の相補的効果を考えることは滅多にない。 本稿では、JNDモデリングをエンドツーエンドのホモロジー・マルチモーダル・パースペクティブ、すなわちhmJND-Netから検討する。 具体的には,視覚に敏感な3つの重要なモダリティを探索する。 ホモロジカルなマルチモーダル情報をよりよく活用するために,要約エンハンスメントと減算オフセットによる効果的な融合法を確立し,自己アテンション駆動型エンコーダデコーダパラダイムに基づいてホモロジカルなマルチモーダル特徴を整列する。 8つのベンチマークデータセットの大規模な実験結果から, hmJND-Netの8つの代表的手法に対する優位性を検証した。

Just noticeable difference (JND) refers to the maximum visual change that human eyes cannot perceive, and it has a wide range of applications in multimedia systems. However, most existing JND approaches only focus on a single modality, and rarely consider the complementary effects of multimodal information. In this article, we investigate the JND modeling from an end-to-end homologous multimodal perspective, namely hmJND-Net. Specifically, we explore three important visually sensitive modalities, including saliency, depth, and segmentation. To better utilize homologous multimodal information, we establish an effective fusion method via summation enhancement and subtractive offset, and align homologous multimodal features based on a self-attention driven encoder-decoder paradigm. Extensive experimental results on eight different benchmark datasets validate the superiority of our hmJND-Net over eight representative methods.
翻訳日:2023-03-21 19:45:23 公開日:2023-03-18
# UNREAL:高度不均衡ノード分類のための未ラベルノード検索とラベル付け

UNREAL:Unlabeled Nodes Retrieval and Labeling for Heavily-imbalanced Node Classification ( http://arxiv.org/abs/2303.10371v1 )

ライセンス: Link先を確認
Liang Yan, Shengzhong Zhang, Bisheng Li, Min Zhou, Zengfeng Huang(参考訳) 極端に歪んだラベル分布は、実世界のノード分類タスクでよく見られる。 適切に扱わなければ、少数クラスのGNNのパフォーマンスを著しく損なう。 実用上の重要性から、この課題に関する最近の研究が数多く行われている。 既存のオーバーサンプリング技術は ``fake'' 個の少数ノードを生成し、それらの特徴と局所トポロジーを合成することでラベルの分布を円滑にする。 本稿では,反復的なオーバーサンプリング手法UNREALを提案する。 最初の重要な違いは、合成ノードの代わりにラベルのないノードだけを追加することだ。 ラベルなしノードをどのノードに追加するかを選択するために,ラベルなしノードをランク付けする幾何ランキングを提案する。 幾何学的ランキングは、ノード埋め込み空間における教師なし学習を利用して、疑似ラベル割り当てを効果的に校正する。 最後に、埋め込み空間における幾何学的不均衡の問題を特定し、幾何学的不均衡ノードをフィルターする簡単なメトリックを提供する。 実世界のベンチマークデータセットに関する広範囲な実験を行い,本手法が不均衡率の異なる異なるデータセット上で一貫性のある現在の最先端手法を大幅に上回ることを示した。

Extremely skewed label distributions are common in real-world node classification tasks. If not dealt with appropriately, it significantly hurts the performance of GNNs in minority classes. Due to its practical importance, there have been a series of recent research devoted to this challenge. Existing over-sampling techniques smooth the label distribution by generating ``fake'' minority nodes and synthesizing their features and local topology, which largely ignore the rich information of unlabeled nodes on graphs. In this paper, we propose UNREAL, an iterative over-sampling method. The first key difference is that we only add unlabeled nodes instead of synthetic nodes, which eliminates the challenge of feature and neighborhood generation. To select which unlabeled nodes to add, we propose geometric ranking to rank unlabeled nodes. Geometric ranking exploits unsupervised learning in the node embedding space to effectively calibrates pseudo-label assignment. Finally, we identify the issue of geometric imbalance in the embedding space and provide a simple metric to filter out geometrically imbalanced nodes. Extensive experiments on real-world benchmark datasets are conducted, and the empirical results show that our method significantly outperforms current state-of-the-art methods consistent on different datasets with different imbalance ratios.
翻訳日:2023-03-21 19:45:06 公開日:2023-03-18
# オブジェクト検出のためのマルチセマンティック対話学習

Multi-Semantic Interactive Learning for Object Detection ( http://arxiv.org/abs/2303.10411v1 )

ライセンス: Link先を確認
Shuxin Wang, Zhichao Zheng, Yanhui Gu, Junsheng Zhou, Yi Chen(参考訳) 単一ブランチオブジェクト検出手法は、ローカライズと分類に共有機能を使用するが、共有機能は2つの異なるタスクに同時に適合しない。 マルチブランチオブジェクト検出法は通常、異なるタスク間の関連性を無視して、ローカライズと分類に異なる機能を使用する。 そこで本研究では,異なる枝間の意味的関連性をマイニングし,オブジェクトのマルチセマンティクス拡張特徴を抽出するマルチセマンティクスインタラクティブラーニング(msil)を提案する。 MSILはまず回帰と分類分岐のセマンティックアライメントを行い、その後、意味融合によって異なる分岐の特徴をマージし、最後に意味分離によって関連する情報を抽出し、それぞれ回帰と分類枝に渡す。 さらに重要なことに、msilはプラグアンドプレイコンポーネントとして既存のオブジェクト検出ネットに統合することができる。 MSCOCOとPascal VOCデータセットの実験により、MSILと既存のアルゴリズムの統合は、タスクのセマンティクス間の関連情報を活用し、より良いパフォーマンスを実現することができることが示された。

Single-branch object detection methods use shared features for localization and classification, yet the shared features are not fit for the two different tasks simultaneously. Multi-branch object detection methods usually use different features for localization and classification separately, ignoring the relevance between different tasks. Therefore, we propose multi-semantic interactive learning (MSIL) to mine the semantic relevance between different branches and extract multi-semantic enhanced features of objects. MSIL first performs semantic alignment of regression and classification branches, then merges the features of different branches by semantic fusion, finally extracts relevant information by semantic separation and passes it back to the regression and classification branches respectively. More importantly, MSIL can be integrated into existing object detection nets as a plug-and-play component. Experiments on the MS COCO, and Pascal VOC datasets show that the integration of MSIL with existing algorithms can utilize the relevant information between semantics of different tasks and achieve better performance.
翻訳日:2023-03-21 19:38:38 公開日:2023-03-18
# explainfix: 空間的に固定されたディープネットワークの説明

ExplainFix: Explainable Spatially Fixed Deep Networks ( http://arxiv.org/abs/2303.10408v1 )

ライセンス: Link先を確認
Alex Gaudio, Christos Faloutsos, Asim Smailagic, Pedro Costa, Aurelio Campilho(参考訳) 学習を必要としないディープネットワークの初期化はあるか? ExplainFixは、畳み込みニューラルネットワークのすべての空間フィルタ重みを初期化時に固定することができ、学習されないという「固定フィルタ」原則と、ネットワークパラメータが十分でない「偶発性」原則の2つの設計原則を採用している。 貢献します (a)視覚モデルに基づく説明 (b)速度及び精度の向上及び (c)深層畳み込みニューラルネットワークのための新しいツール。 explainfixは、空間固定型ネットワークは制御された初期化を持つべきであり、空間畳み込み層は低周波を優先する傾向があり、ほとんどのネットワークパラメータは空間固定型モデルでは必要ではないという重要な洞察を与える。 explainfixモデルは、完全に学習されたモデルやマッチングや精度向上よりも、最大100倍少ない空間フィルターカーネルを持つ。 我々の広範な実証分析により、ExplainFixは、ニブラーモデル(チャネルプルーニングで最大17倍の速度でトレーニング)、マッチングまたは予測性能の改善(13の異なるベースラインモデル、4つのアーキテクチャ、2つの医療画像データセット)、より大きな学習率に対する堅牢性の向上、モデルサイズの変化に対する堅牢性を保証する。 まず、最先端の畳み込み深層ネットワークにおける全ての空間フィルタが、学習ではなく初期化時に固定可能であることを示す。

Is there an initialization for deep networks that requires no learning? ExplainFix adopts two design principles: the "fixed filters" principle that all spatial filter weights of convolutional neural networks can be fixed at initialization and never learned, and the "nimbleness" principle that only few network parameters suffice. We contribute (a) visual model-based explanations, (b) speed and accuracy gains, and (c) novel tools for deep convolutional neural networks. ExplainFix gives key insights that spatially fixed networks should have a steered initialization, that spatial convolution layers tend to prioritize low frequencies, and that most network parameters are not necessary in spatially fixed models. ExplainFix models have up to 100x fewer spatial filter kernels than fully learned models and matching or improved accuracy. Our extensive empirical analysis confirms that ExplainFix guarantees nimbler models (train up to 17\% faster with channel pruning), matching or improved predictive performance (spanning 13 distinct baseline models, four architectures and two medical image datasets), improved robustness to larger learning rate, and robustness to varying model size. We are first to demonstrate that all spatial filters in state-of-the-art convolutional deep networks can be fixed at initialization, not learned.
翻訳日:2023-03-21 19:38:19 公開日:2023-03-18
# 3DQD: 部分分散拡散プロセスによる3次元形状の一般化

3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process ( http://arxiv.org/abs/2303.10406v1 )

ライセンス: Link先を確認
Yuhan Li, Yishun Dou, Xuanhong Chen, Bingbing Ni, Yilin Sun, Yutian Liu, Fuzhen Wang(参考訳) 本研究では,無条件形状生成,ポイントクラウド完成,クロスモダリティ形状生成などを含む複数の3次元タスク用に調整した,一般化された3次元形状生成事前モデルを開発した。 一方、局所的な詳細な形状情報を正確に把握するために、ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて、幅広いタスクトレーニングデータに基づいて、コンパクトに学習されたコードブックから局所幾何学をインデックスする。 一方、離散拡散生成器は、異なるトークン間の固有の構造依存性をモデル化するために導入された。 一方,多周波環境情報によって誘導される高周波形状特徴変動を抑制するために,多周波融合モジュール(mfm)を開発した。 上記の設計は,提案する3次元形状先行モデルと高忠実度,多彩な特徴,およびクロスモダリティアライメントの能力を組み合わせたものであるとともに,様々な3次元形状生成タスクにおいて優れた性能を示す。

We develop a generalized 3D shape generation prior model, tailored for multiple 3D tasks including unconditional shape generation, point cloud completion, and cross-modality shape generation, etc. On one hand, to precisely capture local fine detailed shape information, a vector quantized variational autoencoder (VQ-VAE) is utilized to index local geometry from a compactly learned codebook based on a broad set of task training data. On the other hand, a discrete diffusion generator is introduced to model the inherent structural dependencies among different tokens. In the meantime, a multi-frequency fusion module (MFM) is developed to suppress high-frequency shape feature fluctuations, guided by multi-frequency contextual information. The above designs jointly equip our proposed 3D shape prior model with high-fidelity, diverse features as well as the capability of cross-modality alignment, and extensive experiments have demonstrated superior performances on various 3D shape generation tasks.
翻訳日:2023-03-21 19:37:54 公開日:2023-03-18
# MotionTrack: 複数物体追跡のためのロバストな短期・長期動作学習

MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking ( http://arxiv.org/abs/2303.10404v1 )

ライセンス: Link先を確認
Zheng Qin and Sanping Zhou and Le Wang and Jinghai Duan and Gang Hua and Wei Tang(参考訳) マルチオブジェクトトラッキング(mot)の主な課題は、各ターゲットに対する継続的な軌道を維持することである。 既存の手法では、隣接するフレーム間の同一のターゲットと識別的外観の特徴を一致させる信頼性のある動作パターンを学習し、長い時間後に失われたターゲットを再識別する。 しかし、動き予測の信頼性や外観の識別性は、密集した群集や追跡過程における極端な閉塞によって容易に損なわれる。 本稿では,短距離から長距離のトラジェクタを関連付ける統一フレームワークにおいて,ロバストな短期動作と長期動作を学習する,単純かつ効果的なマルチオブジェクトトラッカであるmotiontrackを提案する。 密集した群れに対して, 目標の複雑な動きを推定できる短時間の軌跡から対話認識動作を学習する新しいインタラクションモジュールを設計した。 極限咬合に対しては, 目標の履歴軌跡から信頼性の高い長期動作を学習し, 遮断された軌道と対応する検出を関連付けることのできる, 新たな改良モジュールを構築した。 私たちのInteraction ModuleとRefind Moduleは、よく知られたトラッキング・バイ・検出パラダイムに組み込まれています。 MOT17とMOT20データセットの大規模な実験結果は、挑戦的なシナリオにおけるアプローチの優位性を示し、様々なMOTメトリクスで最先端のパフォーマンスを達成する。

The main challenge of Multi-Object Tracking~(MOT) lies in maintaining a continuous trajectory for each target. Existing methods often learn reliable motion patterns to match the same target between adjacent frames and discriminative appearance features to re-identify the lost targets after a long period. However, the reliability of motion prediction and the discriminability of appearances can be easily hurt by dense crowds and extreme occlusions in the tracking process. In this paper, we propose a simple yet effective multi-object tracker, i.e., MotionTrack, which learns robust short-term and long-term motions in a unified framework to associate trajectories from a short to long range. For dense crowds, we design a novel Interaction Module to learn interaction-aware motions from short-term trajectories, which can estimate the complex movement of each target. For extreme occlusions, we build a novel Refind Module to learn reliable long-term motions from the target's history trajectory, which can link the interrupted trajectory with its corresponding detection. Our Interaction Module and Refind Module are embedded in the well-known tracking-by-detection paradigm, which can work in tandem to maintain superior performance. Extensive experimental results on MOT17 and MOT20 datasets demonstrate the superiority of our approach in challenging scenarios, and it achieves state-of-the-art performances at various MOT metrics.
翻訳日:2023-03-21 19:37:36 公開日:2023-03-18
# 説明可能なAIを用いたアルツハイマー病予測のためのスマートROI検出

Smart ROI Detection for Alzheimer's disease prediction using explainable AI ( http://arxiv.org/abs/2303.10401v1 )

ライセンス: Link先を確認
Atefe Aghaei, Mohsen Ebrahimi Moghaddam(参考訳) 目的 アルツハイマー病に対するmciの進行を予測することは、疾患の進行を減少させる重要なステップである。 そのため,この課題に対して,深層学習に基づく多くの手法が導入された。 これらのアプローチのうち、roisに基づく手法は正確さと複雑さの点で良い位置にある。 これらの手法では、脳の特定の部分が、すべての患者に対して手動でROIとして抽出される。 手動でROIを抽出するのは時間がかかり、その結果は人間の専門性と正確性に依存します。 このような制約を克服するために,Grad-Camを用いた説明可能なAIと患者のROIを抽出する3DCNNモデルに基づいてROIを自動的に検出する新しいスマート手法を提案する。 自動的にROIを抽出した後,抽出したROIベースの3D CNNを用いてアルツハイマー病を予測する。 その結果,有名なADNIデータセットの176名のMCI患者に対して本手法を実装し,最先端の手法と比較して顕著な結果を得た。 5倍のクロスバリデーションで取得した精度は98.6で、AUCは1。 また、ROI法と全脳法との比較を行った。 その結果,性能は著しく向上した。 結論 この実験結果から, 自動的にROIを抽出するスマートROI抽出法がアルツハイマー病の予測に有効であることが示唆された。 提案法はアルツハイマー病の分類と診断にも有用である。

Purpose Predicting the progression of MCI to Alzheimer's disease is an important step in reducing the progression of the disease. Therefore, many methods have been introduced for this task based on deep learning. Among these approaches, the methods based on ROIs are in a good position in terms of accuracy and complexity. In these techniques, some specific parts of the brain are extracted as ROI manually for all of the patients. Extracting ROI manually is time-consuming and its results depend on human expertness and precision. Method To overcome these limitations, we propose a novel smart method for detecting ROIs automatically based on Explainable AI using Grad-Cam and a 3DCNN model that extracts ROIs per patient. After extracting the ROIs automatically, Alzheimer's disease is predicted using extracted ROI-based 3D CNN. Results We implement our method on 176 MCI patients of the famous ADNI dataset and obtain remarkable results compared to the state-of-the-art methods. The accuracy acquired using 5-fold cross-validation is 98.6 and the AUC is 1. We also compare the results of the ROI-based method with the whole brain-based method. The results show that the performance is impressively increased. Conclusion The experimental results show that the proposed smart ROI extraction, which extracts the ROIs automatically, performs well for Alzheimer's disease prediction. The proposed method can also be used for Alzheimer's disease classification and diagnosis.
翻訳日:2023-03-21 19:37:12 公開日:2023-03-18
# FedRight:フェデレーション学習のための効果的なモデル著作権保護

FedRight: An Effective Model Copyright Protection for Federated Learning ( http://arxiv.org/abs/2303.10399v1 )

ライセンス: Link先を確認
Jinyin Chen, Mingjun Li, Mingjun Li, Haibin Zheng(参考訳) 効果的な分散機械学習フレームワークであるfederated learning(fl)は、モデルトレーニングを実装し、一方でローカルデータのプライバシを保護する。 業績の良さと利益の良さから、幅広い実践分野に適用されている。 誰がモデルを所有していて、著作権を守る方法が現実の問題になっている。 直感的には、集中型シナリオ(例えば、透かしの埋め込みやモデル指紋)における既存の財産権保護手法はFLに対して可能な解決策である。 しかし、データ共有、パラメータアグリゲーション、フェデレートされたトレーニング設定がないという面において、FLの分散性には依然として課題があります。 今回我々は,flの著作権保護に関する問題を初めて定式化し,モデル指紋に基づくモデル著作権,すなわち,モデル指紋として逆例を生成してモデル特徴を抽出するfeedrightを提案する。 FedRightは、以前の仕事を4つの重要な面で上回っている。 (i)妥当性:モデルの特徴を抽出し、転送可能な指紋を生成して、モデルの著作権を検証するために検出器を訓練する。 (ii)忠実性: 連合トレーニングに不可避な影響を与えるため、優れたメインタスクパフォーマンスが期待できる。 (iii)堅牢性:著作権保護に対する悪意のある攻撃、すなわち微調整、モデルプルーニング、適応攻撃に対して経験的に堅牢である。 (iv)ブラックボックス: モデルへのアプリケーションプログラミングインターフェース呼び出しのみが利用できるブラックボックスの法医学的シナリオで有効である。 3つのデータセットと9つのモデル構造にわたる広範な評価は、feedrightの優れた忠実性、妥当性、堅牢性を示している。

Federated learning (FL), an effective distributed machine learning framework, implements model training and meanwhile protects local data privacy. It has been applied to a broad variety of practice areas due to its great performance and appreciable profits. Who owns the model, and how to protect the copyright has become a real problem. Intuitively, the existing property rights protection methods in centralized scenarios (e.g., watermark embedding and model fingerprints) are possible solutions for FL. But they are still challenged by the distributed nature of FL in aspects of the no data sharing, parameter aggregation, and federated training settings. For the first time, we formalize the problem of copyright protection for FL, and propose FedRight to protect model copyright based on model fingerprints, i.e., extracting model features by generating adversarial examples as model fingerprints. FedRight outperforms previous works in four key aspects: (i) Validity: it extracts model features to generate transferable fingerprints to train a detector to verify the copyright of the model. (ii) Fidelity: it is with imperceptible impact on the federated training, thus promising good main task performance. (iii) Robustness: it is empirically robust against malicious attacks on copyright protection, i.e., fine-tuning, model pruning, and adaptive attacks. (iv) Black-box: it is valid in the black-box forensic scenario where only application programming interface calls to the model are available. Extensive evaluations across 3 datasets and 9 model structures demonstrate FedRight's superior fidelity, validity, and robustness.
翻訳日:2023-03-21 19:36:54 公開日:2023-03-18
# エネルギー効率の良いセル接続型UAV群制御最適化

Energy-Efficient Cellular-Connected UAV Swarm Control Optimization ( http://arxiv.org/abs/2303.10398v1 )

ライセンス: Link先を確認
Yang Su, Hui Zhou, Yansha Deng and Mischa Dohler(参考訳) セルラー接続無人航空機(UAV)群は、貨物輸送や交通制御など様々な用途において有望なソリューションである。 しかし、高い信頼性、低レイテンシ、高エネルギー効率でUAVスワムと通信し制御することは依然として困難である。 本稿では,地上基地局(GBS)が共通C&Cメッセージを第1相でブロードキャストするセル接続型UAVスワムネットワークにおいて,2相指令制御(C&C)伝送方式を提案する。 フェーズIIでは、C&Cメッセージの復号に成功したUAVは、遅延とエネルギーの制約の下で、デバイス間通信(D2D)を介して他のUAVにメッセージを中継する。 遅延やエネルギー制約の中でメッセージを受信するUAV数を最大化するために、制約付きマルコフ決定プロセスとして問題を定式化し、最適なポリシーを求める。 この問題に対処するために、ラグランジュのプライマリ・デュアルポリシー最適化に基づく分散制約付きグラフアテンションマルチエージェントディープQ-ネットワーク(DCGA-MADQN)アルゴリズムを提案し、そこでPID制御アルゴリズムを用いてラグランジュ乗算器を更新する。 シミュレーションの結果,エネルギー制約下での共通C&C受信に成功しているUAV数を最大化できることが示唆された。

Cellular-connected unmanned aerial vehicle (UAV) swarm is a promising solution for diverse applications, including cargo delivery and traffic control. However, it is still challenging to communicate with and control the UAV swarm with high reliability, low latency, and high energy efficiency. In this paper, we propose a two-phase command and control (C&C) transmission scheme in a cellular-connected UAV swarm network, where the ground base station (GBS) broadcasts the common C&C message in Phase I. In Phase II, the UAVs that have successfully decoded the C&C message will relay the message to the rest of UAVs via device-to-device (D2D) communications in either broadcast or unicast mode, under latency and energy constraints. To maximize the number of UAVs that receive the message successfully within the latency and energy constraints, we formulate the problem as a Constrained Markov Decision Process to find the optimal policy. To address this problem, we propose a decentralized constrained graph attention multi-agent Deep-Q-network (DCGA-MADQN) algorithm based on Lagrangian primal-dual policy optimization, where a PID-controller algorithm is utilized to update the Lagrange Multiplier. Simulation results show that our algorithm could maximize the number of UAVs that successfully receive the common C&C under energy constraints.
翻訳日:2023-03-21 19:36:29 公開日:2023-03-18
# 量子校正とキャラクタリゼーションを行うオープンソースフレームワークを目指して

Towards an open-source framework to perform quantum calibration and characterization ( http://arxiv.org/abs/2303.10397v1 )

ライセンス: Link先を確認
Andrea Pasquale, Stavros Efthymiou, Sergi Ramos-Calderer, Jadwiga Wilkens, Ingo Roth and Stefano Carrazza(参考訳) 本稿ではQibocalフレームワークに基づく量子処理ユニット(QPU)のキャリブレーションとキャラクタリゼーションを行うオープンソースソフトウェアであるQibocalを紹介する。 Qibocalは、自己ホスト型QPU用に特別に設計されており、ハードウェア抽象化のあらゆるレベルに対して、キャラクタリゼーションとキャリブレーションルーチンを開発、デプロイ、配布するための基盤を提供する。 Qibocal はモジュラ QPU プラットフォームに依存しないアプローチに基づいており、他の量子技術の拡張の可能性のある量子ビットを超伝導するための汎用ツールキットを提供する。 このようなモジュールの必要性を動機づけた後、プログラムの流れを説明し、QPU校正の実際の使用例を示す。 また,レポートの自動生成やライブプロットなど,ライブラリが提供する追加機能も紹介する。

In this proceedings we present Qibocal, an open-source software package for calibration and characterization of quantum processing units (QPUs) based on the Qibo framework. Qibocal is specifically designed for self-hosted QPUs and provides the groundwork to easily develop, deploy and distribute characterization and calibration routines for all levels of hardware abstraction. Qibocal is based on a modular QPU platform agnostic approach and it provides a general purpose toolkit for superconducting qubits with the possibility of extensions to other quantum technologies. After motivating the need for such a module, we explain the program's flow and show examples of actual use for QPU calibration. We also showcase additional features provided by the library including automatic report generation and live plotting.
翻訳日:2023-03-21 19:36:03 公開日:2023-03-18
# 単純で汎用的なゲートネットワークによる多種多様なバイナリセグメンテーションに向けて

Towards Diverse Binary Segmentation via A Simple yet General Gated Network ( http://arxiv.org/abs/2303.10396v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, Lei Zhang(参考訳) 多くのバイナリセグメンテーションタスクでは、ほとんどのCNNベースのメソッドは基本構造としてU字型エンコーダデコーダネットワークを使用している。 エンコーダがデコーダと情報を交換する際には2つの重要な問題を無視する: 1つは干渉制御機構の欠如であり、もう1つは異なるエンコーダレベルからのコントリビューションの相違を考慮しない。 本研究では,これらすべてを同時に扱うためのシンプルな汎用ネットワーク(GateNet)を提案する。 多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに選択的に送信することができる。 さらに,異なるレベルの特徴間の協調性を構築し,ネットワークの識別能力を向上させるために,ゲート付き二重分岐構造を設計する。 さらに,畳み込みを改良し,新しい折り畳み畳み畳み畳み畳み畳み込みをaspp や denseaspp に柔軟に組み込むことで,様々なスケールの前景オブジェクトを正確にローカライズする '`fold'' 演算を導入する。 GateNetは、汎用および特定のオブジェクトセグメンテーションやマルチモーダルセグメンテーションなど、多くのバイナリセグメンテーションタスクに簡単に一般化できる。 10のバイナリセグメンテーションタスクの33のデータセットの10以下のメトリクスに対して,当社のネットワークは一貫して,最先端のメソッドに対して好適に動作します。

In many binary segmentation tasks, most CNNs-based methods use a U-shape encoder-decoder network as their basic structure. They ignore two key problems when the encoder exchanges information with the decoder: one is the lack of interference control mechanism between them, the other is without considering the disparity of the contributions from different encoder levels. In this work, we propose a simple yet general gated network (GateNet) to tackle them all at once. With the help of multi-level gate units, the valuable context information from the encoder can be selectively transmitted to the decoder. In addition, we design a gated dual branch structure to build the cooperation among the features of different levels and improve the discrimination ability of the network. Furthermore, we introduce a ``Fold'' operation to improve the atrous convolution and form a novel folded atrous convolution, which can be flexibly embedded in ASPP or DenseASPP to accurately localize foreground objects of various scales. GateNet can be easily generalized to many binary segmentation tasks, including general and specific object segmentation and multi-modal segmentation. Without bells and whistles, our network consistently performs favorably against the state-of-the-art methods under 10 metrics on 33 datasets of 10 binary segmentation tasks.
翻訳日:2023-03-21 19:35:50 公開日:2023-03-18
# オープンエンドコモンセンス質問応答に対するグラフガイド型推論手法

A Graph-Guided Reasoning Approach for Open-ended Commonsense Question Answering ( http://arxiv.org/abs/2303.10395v1 )

ライセンス: Link先を確認
Zhen Han, Yue Feng, and Mingming Sun(参考訳) 近年,複数選択コモンセンス質問応答(QA)のためのエンドツーエンドトレーニングモデルが,有望な結果をもたらしている。 しかし、そのような質問応答システムは、回答候補が提供されない現実のシナリオでは直接適用できない。 したがって、オープンエンドコモンセンス推論(OpenCSR)のための新しいベンチマークセットが最近リリースされた。 opencsrチャレンジセットでは、多くの質問は暗黙のマルチホップ推論を必要とし、このタスクの難しい性質を反映した大きな決定空間を持っている。 既存のOpenCSRの研究は、テキスト知識ベースから関連する事実文を抽出する検索プロセスの改善に重点を置いており、重要かつ非自明な推論タスクはスコープの外にある。 本研究では,検索された支援事実に基づいて質問依存のオープン知識グラフを構築し,逐次サブグラフ推論プロセスを用いて回答を予測する推論器を含む範囲を拡大する。 この部分グラフは、予測の簡潔でコンパクトなグラフィカルな説明と見なすことができる。 2つのOpenCSRデータセットの実験は、提案モデルがベンチマークのOpenCSRデータセットで優れたパフォーマンスを達成することを示している。

Recently, end-to-end trained models for multiple-choice commonsense question answering (QA) have delivered promising results. However, such question-answering systems cannot be directly applied in real-world scenarios where answer candidates are not provided. Hence, a new benchmark challenge set for open-ended commonsense reasoning (OpenCSR) has been recently released, which contains natural science questions without any predefined choices. On the OpenCSR challenge set, many questions require implicit multi-hop reasoning and have a large decision space, reflecting the difficult nature of this task. Existing work on OpenCSR sorely focuses on improving the retrieval process, which extracts relevant factual sentences from a textual knowledge base, leaving the important and non-trivial reasoning task outside the scope. In this work, we extend the scope to include a reasoner that constructs a question-dependent open knowledge graph based on retrieved supporting facts and employs a sequential subgraph reasoning process to predict the answer. The subgraph can be seen as a concise and compact graphical explanation of the prediction. Experiments on two OpenCSR datasets show that the proposed model achieves great performance on benchmark OpenCSR datasets.
翻訳日:2023-03-21 19:35:16 公開日:2023-03-18
# NoisyHate: オンラインの人文摂動によるコンテンツモデレーション機械学習モデルのベンチマーク

NoisyHate: Benchmarking Content Moderation Machine Learning Models with Human-Written Perturbations Online ( http://arxiv.org/abs/2303.10430v1 )

ライセンス: Link先を確認
Yiran Ye and Thai Le and Dongwon Lee(参考訳) 有害なコンテンツを持つオンラインテキストは、サイバーハラスメントを引き起こす可能性のあるソーシャルメディアの脅威である。 機械学習に基づくヘイトスピーチ検出システムのような多くのプラットフォームは、その効果を減少させるためにその対策を適用しているが、有害なコンテンツ発行者は、有害な単語の綴りを変更してシステムを回避できる。 これらの修飾語は人文文摂動としても知られる。 多くの研究は、機械学習モデルがそれらの摂動を認識する能力を得るのを助けるために、敵対的なサンプルを生成する特定の技術を開発した。 しかし、機械が生成する摂動と人間の書いた摂動の間には、まだギャップがある。 本稿では,有毒な音声検出モデルのための人文摂動を含むベンチマークテストセットを提案する。 また、このテストセットの品質を評価するために、労働者のグループを募集し、低品質のサンプルを落としました。 一方、我々の摂動がクリーンバージョンに正規化できるかどうかを確認するために、このデータセットにスペル修正アルゴリズムを適用した。 最後に、このデータをBERTやRoBERTaといった最先端言語モデルや、パースペクティブAPIのようなブラックボックスAPI上でテストし、実際の人手による摂動による敵攻撃が効果的であることを示す。

Online texts with toxic content are a threat in social media that might cause cyber harassment. Although many platforms applied measures, such as machine learning-based hate-speech detection systems, to diminish their effect, those toxic content publishers can still evade the system by modifying the spelling of toxic words. Those modified words are also known as human-written text perturbations. Many research works developed certain techniques to generate adversarial samples to help the machine learning models obtain the ability to recognize those perturbations. However, there is still a gap between those machine-generated perturbations and human-written perturbations. In this paper, we introduce a benchmark test set containing human-written perturbations online for toxic speech detection models. We also recruited a group of workers to evaluate the quality of this test set and dropped low-quality samples. Meanwhile, to check if our perturbation can be normalized to its clean version, we applied spell corrector algorithms on this dataset. Finally, we test this data on state-of-the-art language models, such as BERT and RoBERTa, and black box APIs, such as perspective API, to demonstrate the adversarial attack with real human-written perturbations is still effective.
翻訳日:2023-03-21 19:29:44 公開日:2023-03-18
# バッチベイズ最適化によるタンパク質配列設計

Protein Sequence Design with Batch Bayesian Optimisation ( http://arxiv.org/abs/2303.10429v1 )

ライセンス: Link先を確認
Chuanjiao Zong(参考訳) タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的としたタンパク質工学における課題である。 ダイレクト進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行するタンパク質配列設計のための広く使われているアプローチである。 しかし、機械学習を用いてタンパク質景観のサロゲートモデルを構築し、モデルに基づく適合度予測を通じてシリカ内個体群選択を行うことで、実験室実験の負担を軽減することができる。 本稿では,タンパク質配列設計のための最適化手法であるバッチベイズ最適化(batch bo)に基づく新しい手法を提案する。 バッチboを有向進化プロセスに組み込むことにより,人工進化のために選択すべきシーケンスについてよりインフォームドな決定を行うことにより,パフォーマンスの向上と収束の高速化を実現した。 本手法はin-silicoタンパク質配列設計タスクで評価し,ベースラインアルゴリズムよりも大幅に改善することを示す。

Protein sequence design is a challenging problem in protein engineering, which aims to discover novel proteins with useful biological functions. Directed evolution is a widely-used approach for protein sequence design, which mimics the evolution cycle in a laboratory environment and conducts an iterative protocol. However, the burden of laboratory experiments can be reduced by using machine learning approaches to build a surrogate model of the protein landscape and conducting in-silico population selection through model-based fitness prediction. In this paper, we propose a new method based on Batch Bayesian Optimization (Batch BO), a well-established optimization method, for protein sequence design. By incorporating Batch BO into the directed evolution process, our method is able to make more informed decisions about which sequences to select for artificial evolution, leading to improved performance and faster convergence. We evaluate our method on a suite of in-silico protein sequence design tasks and demonstrate substantial improvement over baseline algorithms.
翻訳日:2023-03-21 19:29:25 公開日:2023-03-18
# 視覚誘発推論のための細粒領域プロンプトチューニング

Fine-Grained Regional Prompt Tuning for Visual Abductive Reasoning ( http://arxiv.org/abs/2303.10428v1 )

ライセンス: Link先を確認
Hao Zhang, Basura Fernando(参考訳) visual abductive reasoning (var) は新たな視覚言語(vl)のトピックであり、事前知識や常識に基づいた後方推論を用いて、モデルが視覚入力(画像または画像の一部)からおそらくテキスト仮説を検索/生成する必要がある。 従来のVL検索やキャプションタスクとは異なり、帰納的推論においてテキストの実体が画像に現れる場合、推論に関する関連する事実は入力画像に直接表示されない。 さらに、推論は地域的な視覚的ヒントと因果関係があり、後者と異なる。 既存の作業は、CLIPのような基礎モデルの上に特定のプロンプトチューニング技術(例えば、カラフルなプロンプトチューニング)で、グローバル背景からの視覚的な部分を強調している。 しかし、これらの手法は同じ粒度レベルで「地域ヒント」と「グローバルコンテキスト」を均一にパッチし、帰納的推論において重要な細かい視覚的詳細を失う可能性がある。 そこで本研究では,細粒度と粗粒度を分離して"地域視覚ヒント"と"グローバルコンテキスト"を符号化する,単純かつ効果的な局所的プロンプトチューニングを提案する。 具体的には、我々のモデルは明示的にアップサンプルし、その後、局所的なヒントをパッチして、きめ細かい地域的なプロンプトを得る。 これらのプロンプトは、画像全体から粗い粒度のコンテキストトークンと連結される。 また,このモデルに新たな双対性損失を付与することで,視覚特徴を学習中の事実記述(すなわち手掛かり文)と説得性仮説(抽象推論文)の特徴に同時に回帰させる。 シャーロックデータセットの大規模な実験により、我々の完全微調整されたRGP/RGPとDual-Contrastive Lossは以前のSOTAよりも大幅に優れており、全てのメトリクス(例えば、P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better)の下で、全ての提案のうち、帰納的推論のリーダーボードで1位を獲得した。 さらなる研究のためにコードをオープンソースにします。

Visual Abductive Reasoning (VAR) is an emerging vision-language (VL) topic where the model needs to retrieve/generate a likely textual hypothesis from a visual input (image or part of an image) using backward reasoning based on prior knowledge or commonsense. Unlike in conventional VL retrieval or captioning tasks, where entities of texts appear in the image, in abductive inferences, the relevant facts about inferences are not directly visible in the input images. Besides, the inferences are causally relevant to regional visual hints and vary with the latter. Existing works highlight visual parts from a global background with specific prompt tuning techniques (e.g., colorful prompt tuning) on top of foundation models, like CLIP. However, these methods uniformly patchify "regional hints" and "global context" at the same granularity level and may lose fine-grained visual details significant for abductive reasoning. To tackle this, we propose a simple yet effective Regional Prompt Tuning, which encodes "regional visual hints" and "global contexts" separately at fine and coarse-grained levels. Specifically, our model explicitly upsamples, then patchify local hints to get fine-grained regional prompts. These prompts are concatenated with coarse-grained contextual tokens from whole images. We also equip our model with a new Dual-Contrastive Loss to regress the visual feature simultaneously toward features of factual description (a.k.a. clue text) and plausible hypothesis (abductive inference text) during training. Extensive experiments on the Sherlock dataset demonstrate that our fully fine-tuned RGP/RGPs with Dual-Contrastive Loss significantly outperforms previous SOTAs, achieving the 1 rank on abductive reasoning leaderboards among all submissions, under all metrics (e.g., P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better). We would open-source our codes for further research.
翻訳日:2023-03-21 19:29:07 公開日:2023-03-18
# 時系列予測のための予測可能な潜在因子の発見

Discovering Predictable Latent Factors for Time Series Forecasting ( http://arxiv.org/abs/2303.10426v1 )

ライセンス: Link先を確認
Jingyi Hou, Zhen Dong, Jiayu Zhou, Zhijie Liu(参考訳) Transformerなどの最新の時系列予測手法は、シーケンシャルなデータモデリングにおいて強力な能力を示している。 高いパフォーマンスを達成するには、変数間の複雑な関係をモデル化し、パラメータを大規模データでチューニングするために、通常は冗長あるいは説明不能な構造に依存する。 しかし、多くの実世界のデータマイニングタスクは関係推論に十分な変数を欠いているため、これらの手法はそのような予測問題に適切に対処できない。 データ不足により、時系列は多くの外生変数に影響を受け、モデリングは不安定になり予測不能になる。 この問題に取り組むため,本論文では,可観測時系列に含意される固有潜在因子を推定する新しいアルゴリズムフレームワークを開発した。 推定された因子は、長期的な効率のためにスパースな関係推論を可能にする複数の独立かつ予測可能な信号成分を形成するだけでなく、正確な予測のために将来の時間データを再構成するために用いられる。 これを実現するために,予測可能性,充足性,識別性という3つの特徴を導入し,予測可能な信号成分を推定するために,強力な潜時力学モデルを用いてこれらの特徴をモデル化する。 複数の実データを用いた実験結果から,様々な時系列予測に対する提案手法の有効性を示す。 統計的解析は学習された潜在因子の予測可能性を検証する。

Modern time series forecasting methods, such as Transformer and its variants, have shown strong ability in sequential data modeling. To achieve high performance, they usually rely on redundant or unexplainable structures to model complex relations between variables and tune the parameters with large-scale data. Many real-world data mining tasks, however, lack sufficient variables for relation reasoning, and therefore these methods may not properly handle such forecasting problems. With insufficient data, time series appear to be affected by many exogenous variables, and thus, the modeling becomes unstable and unpredictable. To tackle this critical issue, in this paper, we develop a novel algorithmic framework for inferring the intrinsic latent factors implied by the observable time series. The inferred factors are used to form multiple independent and predictable signal components that enable not only sparse relation reasoning for long-term efficiency but also reconstructing the future temporal data for accurate prediction. To achieve this, we introduce three characteristics, i.e., predictability, sufficiency, and identifiability, and model these characteristics via the powerful deep latent dynamics models to infer the predictable signal components. Empirical results on multiple real datasets show the efficiency of our method for different kinds of time series forecasting. The statistical analysis validates the predictability of the learned latent factors.
翻訳日:2023-03-21 19:28:23 公開日:2023-03-18
# 共形欠陥を横切るゼロモード絡み合い

Zero-mode entanglement across a conformal defect ( http://arxiv.org/abs/2303.10425v1 )

ライセンス: Link先を確認
Luca Capizzi and Viktor Eisler(参考訳) 共形欠陥を有する自由フェルミオン鎖を拡張零モードを特徴とし,その混合基底状態における絡み合い特性について検討する。 ゼロモード誘導縮退は、単一粒子エンタングルメントスペクトルにおける状態の密度を変化させ、完全なカウント統計によって計算できる。 等質鎖の場合、R'enyiエントロピーの変化は熱力学極限における任意のサブシステム比に対して解析的に導かれる。 中心に位置する共形欠陥に対しては、半鎖絡みに対する類似の結果が得られる。 特に,偶数/odd部位を持つ半鎖のパリティ効果を観察し,サイズで崩壊しない。

We consider a free-fermion chain with a conformal defect that features an extended zero mode, and study the entanglement properties in its mixed ground state. The zero-mode induced degeneracy modifies the density of states in the single-particle entanglement spectrum, which can be calculated via the full counting statistics. For a homogeneous chain, the resulting change in the R\'enyi entropy is derived analytically for arbitrary subsystem ratios in the thermodynamic limit. For a conformal defect located in the center, analogous results can be obtained for the half-chain entanglement. In particular, we observe parity effects for half-chains with even/odd sites, which do not decay with size.
翻訳日:2023-03-21 19:27:45 公開日:2023-03-18
# 少数ショット物体検出改善のための新規クラス同定

Identification of Novel Classes for Improving Few-Shot Object Detection ( http://arxiv.org/abs/2303.10422v1 )

ライセンス: Link先を確認
Zeyu Shangguan, Mohammad Rostami(参考訳) ディープニューラルネットワークの従来的なトレーニングには、特にまれな対象に対して、手間と時間を要する多くの注釈付きイメージが必要である。 Few-shot Object Detection (FSOD) メソッドは、クラス毎に少数のトレーニングサンプルのみを使用して堅牢なオブジェクト検出を実現することで、改善を提供する。 FSODの未発見の課題は、固定されたトレーニングクラスのセットに属さないラベルのない新しいクラスのインスタンスが背景に現れることである。 これらのオブジェクトはラベルノイズと同様に振る舞うため、fsodパフォーマンスが低下する。 学習中にこれらのラベルなしの新規物体を正のサンプルとして検出・活用し,fsod性能を向上させるための半教師付きアルゴリズムを開発した。 具体的には,階層型3次分類領域提案ネットワーク(HTRPN)を提案する。 地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により、大規模オブジェクトに対する物体検出モデルの認識能力も向上する。 実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。

Conventional training of deep neural networks requires a large number of the annotated image which is a laborious and time-consuming task, particularly for rare objects. Few-shot object detection (FSOD) methods offer a remedy by realizing robust object detection using only a few training samples per class. An unexplored challenge for FSOD is that instances from unlabeled novel classes that do not belong to the fixed set of training classes appear in the background. These objects behave similarly to label noise, leading to FSOD performance degradation. We develop a semi-supervised algorithm to detect and then utilize these unlabeled novel objects as positive samples during training to improve FSOD performance. Specifically, we propose a hierarchical ternary classification region proposal network (HTRPN) to localize the potential unlabeled novel objects and assign them new objectness labels. Our improved hierarchical sampling strategy for the region proposal network (RPN) also boosts the perception ability of the object detection model for large objects. Our experimental results indicate that our method is effective and outperforms the existing state-of-the-art (SOTA) FSOD methods.
翻訳日:2023-03-21 19:27:25 公開日:2023-03-18
# 映像における感情推定のためのmutilmodal feature extraction and attention-based fusion

Mutilmodal Feature Extraction and Attention-based Fusion for Emotion Estimation in Videos ( http://arxiv.org/abs/2303.10421v1 )

ライセンス: Link先を確認
Tao Shu, Xinke Wang, Ruotong Wang, Chuang Chen, Yixin Zhang, Xiao Sun(参考訳) 人間のコンピュータインタラクション技術の継続的な改善により、感情を計算することができる。 本稿では, CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) について紹介する。 人間のコンピュータインタラクションにおける感覚分析は、可能な限り複数の次元から開始し、単一の不完全な感情チャネルを埋め、最終的に複数の結果に適合して感情の傾向を決定するべきである。 そこで我々は,音声,ポーズ,画像など,競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。 よく表現された感情表現は、感情推定のための注意に基づくマルチモーダルフレームワークを提案する。 本システムは検証データセットにおける0.361の性能を達成する。 コードは[https://github.com/xkwangcn/ABAW-5th-RT-IAI]で入手できる。

The continuous improvement of human-computer interaction technology makes it possible to compute emotions. In this paper, we introduce our submission to the CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW). Sentiment analysis in human-computer interaction should, as far as possible Start with multiple dimensions, fill in the single imperfect emotion channel, and finally determine the emotion tendency by fitting multiple results. Therefore, We exploited multimodal features extracted from video of different lengths from the competition dataset, including audio, pose and images. Well-informed emotion representations drive us to propose a Attention-based multimodal framework for emotion estimation. Our system achieves the performance of 0.361 on the validation dataset. The code is available at [https://github.com/xkwangcn/ABAW-5th-RT-IAI].
翻訳日:2023-03-21 19:26:54 公開日:2023-03-18
# GPT-3およびGPT-3.5シリーズモデルの包括的機能解析

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models ( http://arxiv.org/abs/2303.10420v1 )

ライセンス: Link先を確認
Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui, Zeyang Zhou, Chao Gong, Yang Shen, Jie Zhou, Siming Chen, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) GPT-3、CodeX、InstructGPT、ChatGPTなどのGPTシリーズモデルは、その例外的な自然言語処理能力から注目されている。 しかし、GPTシリーズモデルと微調整モデルとの能力の差についての研究が豊富にあるにもかかわらず、GPTシリーズモデルの能力の進化には時間とともに注意が向けられている。 gpt系列モデルの能力の包括的分析を行うために,2つのgpt-3系列モデル(davinciとtext-davinci-001)と4つのgpt-3.5系列モデル(code-davinci-002,text-davinci-002,text-davinci-003,gpt-3.5-turbo)からなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 特に,ゼロショットと少数ショットのシナリオで各タスクの異なるモデルのパフォーマンスとロバスト性を比較した。 NLUタスクにおけるGPTシリーズモデルの全体的な能力は,特にRLHFトレーニング戦略の導入によって,モデルの発展に伴って徐々に向上しないことが明らかとなった。 この戦略は、モデルが人間のような応答を生成する能力を高める一方で、いくつかのタスクを解決する能力も損なう。 さらに, モデルロバスト性などの領域にはまだ改善の余地があることが示唆された。

GPT series models, such as GPT-3, CodeX, InstructGPT, ChatGPT, and so on, have gained considerable attention due to their exceptional natural language processing capabilities. However, despite the abundance of research on the difference in capabilities between GPT series models and fine-tuned models, there has been limited attention given to the evolution of GPT series models' capabilities over time. To conduct a comprehensive analysis of the capabilities of GPT series models, we select six representative models, comprising two GPT-3 series models (i.e., davinci and text-davinci-001) and four GPT-3.5 series models (i.e., code-davinci-002, text-davinci-002, text-davinci-003, and gpt-3.5-turbo). We evaluate their performance on nine natural language understanding (NLU) tasks using 21 datasets. In particular, we compare the performance and robustness of different models for each task under zero-shot and few-shot scenarios. Our extensive experiments reveal that the overall ability of GPT series models on NLU tasks does not increase gradually as the models evolve, especially with the introduction of the RLHF training strategy. While this strategy enhances the models' ability to generate human-like responses, it also compromises their ability to solve some tasks. Furthermore, our findings indicate that there is still room for improvement in areas such as model robustness.
翻訳日:2023-03-21 19:26:42 公開日:2023-03-18
# ブロックランダム行列の部分転移の極限分布

Limit distribution of partial transposition of block random matrices ( http://arxiv.org/abs/2303.10418v1 )

ライセンス: Link先を確認
Zhi Yin and Liang Zhao(参考訳) いくつかの仮定では、ランダムブロック行列の極限分布とその部分転置は、ある非可換確率空間における確率変数の分布に収束することが知られている。 自由確率理論を用いて、対応する確率変数の自由累積の関係を求める。 応用として、ウィッシュアートアンサンブルを用いて、共完全正およびk-正の写像の新しい族を導出することができる。

It is well known that, under some assumptions, the limit distribution of random block matrices and their partial transposition converges to the distributions of random variables in some noncommutative probability space. Using free probability theory, we obtain the relation between the free cumulants of the corresponding random variables. As an application, we are able to derive a new family of co-completely positive and k-positive maps by using the Wishart ensemble.
翻訳日:2023-03-21 19:26:16 公開日:2023-03-18
# 中性水素分子形成における核スピンと電子スピンの効果の比較

Comparing the effects of nuclear and electron spins on the formation of neutral hydrogen molecule ( http://arxiv.org/abs/2303.10413v1 )

ライセンス: Link先を確認
Miao Hui-hui and Ozhigov Yuri Igorevich(参考訳) 光学キャビティ内の量子ドット上に2つの2層人工原子を持つ化学の有限次元空洞量子力学モデルである中性水素分子の結合解離モデルについて,Tavis-Cummings-Hubbardモデルに基づく。 原子核の運動は量子形式で表される。 電子スピン転移とスピンスピン相互作用はどちらも考慮される。 また、中性水素分子の形成に対する核スピンと電子スピンの影響についても考察する。

We introduce the association-dissociation model of neutral hydrogen molecule, which is a finite-dimensional cavity quantum electrodynamics model of chemistry with two two-level artificial atoms on quantum dots placed in optical cavities, based on the Tavis-Cummings-Hubbard model. The motion of the nuclei can be represented in quantum form. Electron spin transition and spin-spin interaction between electron and nucleus are both considered. Consideration is also given to the effects of nuclear and electron spins on the formation of neutral hydrogen molecule.
翻訳日:2023-03-21 19:26:11 公開日:2023-03-18
# 音声信号処理のためのコンテンツ適応学習可能時間周波数表現

A Content Adaptive Learnable Time-Frequency Representation For Audio Signal Processing ( http://arxiv.org/abs/2303.10446v1 )

ライセンス: Link先を確認
Prateek Verma and Chris Chafe(参考訳) 音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。 ディープラーニングが出現する前は、spectrogramやmel-spectrogramのような固定表現非学習フロントエンドを使用していた。 ASRや音響シーン理解などの様々な応用をサポートする畳み込みアーキテクチャでは、学習可能なフロントエンドへのシフトが発生し、基礎関数の種類と重みの両方がスクラッチから学習され、特定の作業に最適化される。 畳み込みブロックのないトランスフォーマーベースのアーキテクチャへの移行により、線形層は小さな波形パッチを小さな潜在次元に投影し、トランスフォーマーアーキテクチャに供給する。 本研究では,コンテンツ適応学習可能な時間周波数表現の計算法を提案する。 我々は各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。 有限インパルス応答フィルタバンクのバンクを学習し、入力信号の内容に応じて最適なフィルタバンクを介して入力信号を渡すのと同じである。 コンテンツ適応学習可能な時間周波数表現は、本論文の実験以上に広く適用することができる。

We propose a learnable content adaptive front end for audio signal processing. Before the modern advent of deep learning, we used fixed representation non-learnable front-ends like spectrogram or mel-spectrogram with/without neural architectures. With convolutional architectures supporting various applications such as ASR and acoustic scene understanding, a shift to a learnable front ends occurred in which both the type of basis functions and the weight were learned from scratch and optimized for the particular task of interest. With the shift to transformer-based architectures with no convolutional blocks present, a linear layer projects small waveform patches onto a small latent dimension before feeding them to a transformer architecture. In this work, we propose a way of computing a content-adaptive learnable time-frequency representation. We pass each audio signal through a bank of convolutional filters, each giving a fixed-dimensional vector. It is akin to learning a bank of finite impulse-response filterbanks and passing the input signal through the optimum filter bank depending on the content of the input signal. A content-adaptive learnable time-frequency representation may be more broadly applicable, beyond the experiments in this paper.
翻訳日:2023-03-21 19:19:19 公開日:2023-03-18
# EarCough: 難聴者における連続的被聴者事象検出の実現

EarCough: Enabling Continuous Subject Cough Event Detection on Hearables ( http://arxiv.org/abs/2303.10445v1 )

ライセンス: Link先を確認
Xiyuxing Zhang, Yuntao Wang, Jingru Zhang, Yaqing Yang, Shwetak Patel, Yuanchun Shi(参考訳) cough monitoringは、新しい個別の肺健康アプリケーションを可能にする。 サブジェクト・カフ・イベント検出は連続カフ・モニタリングの基礎である。 近年,スマート補聴器の急速な成長により,このようなニーズに新たな機会が開けている。 本稿では,常時オンアクティブノイズキャンセリング(anc)マイクロホンを活用し,エッジコンピューティングにおいて連続的なカウイベント検出を可能にするイヤーカウを提案する。 具体的には、軽量なエンドツーエンドニューラルネットワークモデルであるEarCoughNetを提案する。 提案手法の有効性を評価するため,ユーザの学習を通して同期動作と音声データセットを構築した。 その結果、EarCoughの精度は95.4%、F1スコアは92.9%、空間要求は385kBであった。 我々は、earcoughを将来の聴き手のための低コストアドオンとして想定し、連続的な対象のcoughイベント検出を可能にする。

Cough monitoring can enable new individual pulmonary health applications. Subject cough event detection is the foundation for continuous cough monitoring. Recently, the rapid growth in smart hearables has opened new opportunities for such needs. This paper proposes EarCough, which enables continuous subject cough event detection on edge computing hearables by leveraging the always-on active noise cancellation (ANC) microphones. Specifically, we proposed a lightweight end-to-end neural network model -- EarCoughNet. To evaluate the effectiveness of our method, we constructed a synchronous motion and audio dataset through a user study. Results show that EarCough achieved an accuracy of 95.4% and an F1-score of 92.9% with a space requirement of only 385 kB. We envision EarCough as a low-cost add-on for future hearables to enable continuous subject cough event detection.
翻訳日:2023-03-21 19:19:00 公開日:2023-03-18
# 牛のティーツキーフレームのストール数検出

Stall Number Detection of Cow Teats Key Frames ( http://arxiv.org/abs/2303.10444v1 )

ライセンス: Link先を確認
Youshan Zhang(参考訳) 本稿では,牛のストール数検出を目標として,牛のティートビデオから抽出した牛のストール数データセットであるcowstallnumbersを提案する。 このデータセットは、1042のトレーニングイメージと、0から60までのストール番号を持つ261のテストイメージを含む。 さらに、ResNet34モデルを微調整し、ランダムな作物、中央の作物、ランダムな回転でデータセットを拡張した。 実験結果は、停止数認識における92%の精度と、停止数位置予測における40.1%のIoUスコアを達成する。

In this paper, we present a small cow stall number dataset named CowStallNumbers, which is extracted from cow teat videos with the goal of advancing cow stall number detection. This dataset contains 1042 training images and 261 test images with the stall number ranging from 0 to 60. In addition, we fine-tuned a ResNet34 model and augmented the dataset with the random crop, center crop, and random rotation. The experimental result achieves a 92% accuracy in stall number recognition and a 40.1% IoU score in stall number position prediction.
翻訳日:2023-03-21 19:18:48 公開日:2023-03-18
# gazereader: webcam for english as a second language (esl) learnersを用いた未知語の検出

GazeReader: Detecting Unknown Word Using Webcam for English as a Second Language (ESL) Learners ( http://arxiv.org/abs/2303.10443v1 )

ライセンス: Link先を確認
Jiexin Ding, Bowen Zhao, Yuqi Huang, Yuntao Wang, Yuanchun Shi(参考訳) 未知語の自動検出技術は、英語を第二言語(ESL)学習者として支援するための新しいアプリケーションを可能にする。 しかし、現代の未知語検出手法のほとんどは、エンドユーザが簡単にアクセスできない高精度な専用の視線追跡デバイスを必要とする。 本稿では,Webカメラのみを用いた未知語検出手法であるGazeReaderを提案する。 gazereaderは学習者の視線を追跡し、テキスト情報をエンコードして未知の単語を見つけるトランスフォーマーベースの機械学習モデルを適用する。 語句頻度,音声の一部,名前付き実体認識などの知識向上を応用し,性能改善を行った。 ユーザ調査の結果,本手法の精度は98.09%,f1-scoreは75.73%であった。 最後に,esl読解のための設計スコープを検討し,その結果について考察した。

Automatic unknown word detection techniques can enable new applications for assisting English as a Second Language (ESL) learners, thus improving their reading experiences. However, most modern unknown word detection methods require dedicated eye-tracking devices with high precision that are not easily accessible to end-users. In this work, we propose GazeReader, an unknown word detection method only using a webcam. GazeReader tracks the learner's gaze and then applies a transformer-based machine learning model that encodes the text information to locate the unknown word. We applied knowledge enhancement including term frequency, part of speech, and named entity recognition to improve the performance. The user study indicates that the accuracy and F1-score of our method were 98.09% and 75.73%, respectively. Lastly, we explored the design scope for ESL reading and discussed the findings.
翻訳日:2023-03-21 19:18:39 公開日:2023-03-18
# ソフトウェアエンジニアリング文書の処理の停止語: 重要か?

Stop Words for Processing Software Engineering Documents: Do they Matter? ( http://arxiv.org/abs/2303.10439v1 )

ライセンス: Link先を確認
Yaohou Fan and Chetan Arora and Christoph Treude(参考訳) 非予測的と考えられる停止語は、自然言語処理タスクでしばしば排除される。 しかし、非形式語彙の定義はあいまいであり、ほとんどのアルゴリズムは停止語を取り除くために一般的な知識に基づく停止リストを使用する。 特にドメイン固有の設定において、停止語除去の有用性について、学者の間で議論が続いている。 本研究では,ソフトウェア工学における停止語除去の有用性について検討する。 そのために、関連する作業から3つのソフトウェアエンジニアリング研究ツールを複製し、実験する。 さらに,10,000のスタックオーバーフロー質問からソフトウェア工学的ドメイン関連テキストのコーパスを構築し,従来の情報理論手法を用いて200のドメイン固有ストップワードを識別する。 その結果、ドメイン固有の停止語の使用により、一般的な停止語の使用と比較して研究ツールの性能が大幅に向上し、19項目中17項目がより良い性能を示した。

Stop words, which are considered non-predictive, are often eliminated in natural language processing tasks. However, the definition of uninformative vocabulary is vague, so most algorithms use general knowledge-based stop lists to remove stop words. There is an ongoing debate among academics about the usefulness of stop word elimination, especially in domain-specific settings. In this work, we investigate the usefulness of stop word removal in a software engineering context. To do this, we replicate and experiment with three software engineering research tools from related work. Additionally, we construct a corpus of software engineering domain-related text from 10,000 Stack Overflow questions and identify 200 domain-specific stop words using traditional information-theoretic methods. Our results show that the use of domain-specific stop words significantly improved the performance of research tools compared to the use of a general stop list and that 17 out of 19 evaluation measures showed better performance.
翻訳日:2023-03-21 19:18:25 公開日:2023-03-18
# 弱教師付き物体定位のための空間認識トークン

Spatial-Aware Token for Weakly Supervised Object Localization ( http://arxiv.org/abs/2303.10438v1 )

ライセンス: Link先を確認
Pingyu Wu, Wei Zhai, Yang Cao, Jiebo Luo, Zheng-Jun Zha(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの監督のみでオブジェクトをローカライズすることを目的とした課題である。 近年の研究では、視覚トランスフォーマーをwsolに適用し、セルフアテンションメカニズムの長距離特徴依存性を利用して大きな成功を収めている。 しかし,既存のトランスフォーマーに基づく手法は,分類特徴写像を局所化マップとして合成し,分類と局所化タスクの最適な衝突を引き起こす。 この問題に対処するために,タスク固有の空間認識トークン(SAT)を弱教師付き方式で条件付きで学習することを提案する。 具体的には、まず空間トークンを入力空間に導入し、局所化タスクの表現を集約する。 次に、クエリにより異なるパッチの前景確率を空間トークンが生成し、分類タスクから局所化知識を抽出する空間認識注意モジュールを構築する。 また、画像レベルラベルから得られる不均衡な画素レベル監督の問題に対して、バッチ領域損失と正規化損失を含む2つの空間制約により、この監督を補うように設計されている。 実験の結果、SATはCUB-200とImageNetの両方で、それぞれ98.45%と73.13%のGT-known Locを達成している。 トレーニングにImageNetから1つのクラスに1つの画像しか使わないという極端な設定下であっても、SATはSOTAメソッドを2.1%超えている。 コードとモデルはhttps://github.com/wpy1999/satで入手できる。

Weakly supervised object localization (WSOL) is a challenging task aiming to localize objects with only image-level supervision. Recent works apply visual transformer to WSOL and achieve significant success by exploiting the long-range feature dependency in self-attention mechanism. However, existing transformer-based methods synthesize the classification feature maps as the localization map, which leads to optimization conflicts between classification and localization tasks. To address this problem, we propose to learn a task-specific spatial-aware token (SAT) to condition localization in a weakly supervised manner. Specifically, a spatial token is first introduced in the input space to aggregate representations for localization task. Then a spatial aware attention module is constructed, which allows spatial token to generate foreground probabilities of different patches by querying and to extract localization knowledge from the classification task. Besides, for the problem of sparse and unbalanced pixel-level supervision obtained from the image-level label, two spatial constraints, including batch area loss and normalization loss, are designed to compensate and enhance this supervision. Experiments show that the proposed SAT achieves state-of-the-art performance on both CUB-200 and ImageNet, with 98.45% and 73.13% GT-known Loc, respectively. Even under the extreme setting of using only 1 image per class from ImageNet for training, SAT already exceeds the SOTA method by 2.1% GT-known Loc. Code and models are available at https://github.com/wpy1999/SAT.
翻訳日:2023-03-21 19:18:10 公開日:2023-03-18
# 画像中の2次元相互作用による3次元物体の接地

Grounding 3D Object Affordance from 2D Interactions in Images ( http://arxiv.org/abs/2303.10437v1 )

ライセンス: Link先を確認
Yuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Jiebo Luo, Zheng-Jun Zha(参考訳) 接地3dオブジェクトアフォーダンスは、3d空間内の「動作可能性」領域を探究し、その領域は具体化エージェントの知覚と操作のリンクとなる。 既存の研究は主に視覚的なアプライアンスと幾何学的構造をつなぐことに焦点を当てており、例えば、オブジェクトに対する興味のあるインタラクティブな領域を宣言し、その領域とアプライアンスの間のマッピングを確立するためにアノテーションに依存する。 しかし、学習対象の余裕の本質は、その使い方を理解することであり、相互作用を分離する方法は、一般化において限られている。 通常、人間は、実演画像やビデオを通して、物理的世界の物価を知覚する能力を持っている。 画像内の2dインタラクションから3dオブジェクトアプライアンスを接地し、異なるソース間のインタラクションを通じてアプライアンスを予測するという課題に直面する。 この問題に対処するため,我々は,異なるソースからのオブジェクトの領域特性を整合させ,対話的コンテキストをモデル化するインタラクション駆動型3dアプライアンスグラウンドネットワーク (iag) を考案する。 さらに,提案タスクをサポートするために,PIAD(Point-Image Affordance Dataset)を収集する。 PIADに関する総合的な実験は,提案課題の信頼性と提案手法の優越性を実証している。 プロジェクトはhttps://github.com/yyvhang/iagnetで入手できる。

Grounding 3D object affordance seeks to locate objects' ''action possibilities'' regions in the 3D space, which serves as a link between perception and operation for embodied agents. Existing studies primarily focus on connecting visual affordances with geometry structures, e.g. relying on annotations to declare interactive regions of interest on the object and establishing a mapping between the regions and affordances. However, the essence of learning object affordance is to understand how to use it, and the manner that detaches interactions is limited in generalization. Normally, humans possess the ability to perceive object affordances in the physical world through demonstration images or videos. Motivated by this, we introduce a novel task setting: grounding 3D object affordance from 2D interactions in images, which faces the challenge of anticipating affordance through interactions of different sources. To address this problem, we devise a novel Interaction-driven 3D Affordance Grounding Network (IAG), which aligns the region feature of objects from different sources and models the interactive contexts for 3D object affordance grounding. Besides, we collect a Point-Image Affordance Dataset (PIAD) to support the proposed task. Comprehensive experiments on PIAD demonstrate the reliability of the proposed task and the superiority of our method. The project is available at https://github.com/yyvhang/IAGNet.
翻訳日:2023-03-21 19:17:41 公開日:2023-03-18
# 低解像度画像におけるプライバシー保護のトレードオフと活動認識のモデル化

Modeling the Trade-off of Privacy Preservation and Activity Recognition on Low-Resolution Images ( http://arxiv.org/abs/2303.10435v1 )

ライセンス: Link先を確認
Yuntao Wang, Zirui Cheng, Xin Yi, Yan Kong, Xueyang Wang, Xuhai Xu, Yukang Yan, Chun Yu, Shwetak Patel, Yuanchun Shi(参考訳) 低解像度の画像センサを用いたコンピュータビジョンシステムは、インテリジェントなサービス(例えば、アクティビティ認識)を提供できるが、ハードウェアレベルから不要な視覚的プライバシ情報を保持できる。 しかし、視覚的プライバシを維持し、正確なマシン認識を可能にすることは、画像の解像度に敵対的なニーズを持つ。 プライバシー保護と機械学習の性能のトレードオフのモデル化は、低解像度イメージセンサを用いた将来のプライバシー保存型コンピュータビジョンシステムのガイドとなる。 本稿では, 日常生活の在宅活動(ADL)をシナリオとして, ユーザ調査により, 視覚的プライバシの最も重要な特徴を最初に把握した。 次に,行動認識とプライバシ認識タスクにおける画像解像度が人間および機械の認識性能に及ぼす影響を定量化し分析した。 また,現代画像の超解像技術がこれらの効果に与える影響についても検討した。 そこで本研究では,低解像度画像におけるプライバシー保護と活動認識のトレードオフをモデル化する手法を提案する。

A computer vision system using low-resolution image sensors can provide intelligent services (e.g., activity recognition) but preserve unnecessary visual privacy information from the hardware level. However, preserving visual privacy and enabling accurate machine recognition have adversarial needs on image resolution. Modeling the trade-off of privacy preservation and machine recognition performance can guide future privacy-preserving computer vision systems using low-resolution image sensors. In this paper, using the at-home activity of daily livings (ADLs) as the scenario, we first obtained the most important visual privacy features through a user survey. Then we quantified and analyzed the effects of image resolution on human and machine recognition performance in activity recognition and privacy awareness tasks. We also investigated how modern image super-resolution techniques influence these effects. Based on the results, we proposed a method for modeling the trade-off of privacy preservation and activity recognition on low-resolution images.
翻訳日:2023-03-21 19:17:16 公開日:2023-03-18
# エッジでのビザンチン耐性連合学習

Byzantine-Resilient Federated Learning at Edge ( http://arxiv.org/abs/2303.10434v1 )

ライセンス: Link先を確認
Youming Tao, Sijia Cui, Wenlu Xu, Haofei Yin, Dongxiao Yu, Weifa Liang, Xiuzhen Cheng(参考訳) ビザンチンのレジリエンスとコミュニケーションの効率は、エッジフェデレーション学習におけるその重要性から、近年大きな注目を集めている。 しかし、既存のアルゴリズムの多くは、ヘビーテールで振る舞う現実世界の不規則なデータを扱う場合に失敗する可能性がある。 この問題に対処するために,エッジでのフェデレート学習における確率凸および非凸最適化問題を調査し,ビザンチンの反発性,通信効率,最適統計誤差率を同時に保持しながら重み付きデータを扱う方法を示す。 具体的には, 重み付きデータを扱うことができ, かつ標準仮定の下で収束するビザンチン耐性分散勾配降下アルゴリズムを提案する。 通信オーバヘッドを低減するため,学習過程における通信コストを削減するため,勾配圧縮手法を取り入れた別のアルゴリズムを提案する。 理論的解析により,ビザンチンデバイスの存在下での最適統計誤差率をアルゴリズムが達成できることが示されている。 最後に,合成データと実世界データの両方について広範な実験を行い,アルゴリズムの有効性を検証する。

Both Byzantine resilience and communication efficiency have attracted tremendous attention recently for their significance in edge federated learning. However, most existing algorithms may fail when dealing with real-world irregular data that behaves in a heavy-tailed manner. To address this issue, we study the stochastic convex and non-convex optimization problem for federated learning at edge and show how to handle heavy-tailed data while retaining the Byzantine resilience, communication efficiency and the optimal statistical error rates simultaneously. Specifically, we first present a Byzantine-resilient distributed gradient descent algorithm that can handle the heavy-tailed data and meanwhile converge under the standard assumptions. To reduce the communication overhead, we further propose another algorithm that incorporates gradient compression techniques to save communication costs during the learning process. Theoretical analysis shows that our algorithms achieve order-optimal statistical error rate in presence of Byzantine devices. Finally, we conduct extensive experiments on both synthetic and real-world datasets to verify the efficacy of our algorithms.
翻訳日:2023-03-21 19:17:01 公開日:2023-03-18
# DeAR: 付加的な残像を持つ視覚言語モデル

DeAR: Debiasing Vision-Language Models with Additive Residuals ( http://arxiv.org/abs/2303.10431v1 )

ライセンス: Link先を確認
Ashish Seth, Mayur Hemani, Chirag Agarwal(参考訳) 大規模な事前学習型視覚言語モデル (VLM) は、リッチで適応可能な画像およびテキスト表現を提供することで、様々な視覚基底言語下流タスクの予測モデルを開発する時間を短縮する。 しかし、これらのモデルは、トレーニングデータ中の様々なアイデンティティ群の歪んだ分布に起因する社会的バイアスに悩まされる。 これらのバイアスは、特定のテキスト概念の表現と異なるアイデンティティグループの人々のイメージとの歪んだ類似性として現れ、したがって、現実世界のハイテイクアプリケーションにおけるそのようなモデルの有用性を制限する。 本稿では,原表現をオフセットする付加的残像表現を学習し,公平な出力表現を保証する新しいデバイアス法であるDeARを提案する。 そうすることで、表現が異なるアイデンティティグループを区別する能力を減らすことができる。 さらに,特定のテキスト概念を適用すべきでない/適用すべきでない理由を示さない限られた顔画像データセット上で,現在の公平性テストが行われることを観察した。 このギャップを埋めて、DeARをよりよく評価するために、大規模なトレーニング済みVLMの公平性を評価するためのコンテキストベースの新しいバイアスベンチマークデータセットであるProtected Attribute Tag Association (PATA)データセットを紹介します。 さらに、PATAは、ポジティブな意味とネガティブな意味の両方の異なるシナリオにおいて、多様な人間の集団に対する視覚的コンテキストを提供する。 複数のデータセットを用いた公平性とゼロショット性能の保存に関する実験結果は,このフレームワークの有効性を示している。

Large pre-trained vision-language models (VLMs) reduce the time for developing predictive models for various vision-grounded language downstream tasks by providing rich, adaptable image and text representations. However, these models suffer from societal biases owing to the skewed distribution of various identity groups in the training data. These biases manifest as the skewed similarity between the representations for specific text concepts and images of people of different identity groups and, therefore, limit the usefulness of such models in real-world high-stakes applications. In this work, we present DeAR (Debiasing with Additive Residuals), a novel debiasing method that learns additive residual image representations to offset the original representations, ensuring fair output representations. In doing so, it reduces the ability of the representations to distinguish between the different identity groups. Further, we observe that the current fairness tests are performed on limited face image datasets that fail to indicate why a specific text concept should/should not apply to them. To bridge this gap and better evaluate DeAR, we introduce the Protected Attribute Tag Association (PATA) dataset - a new context-based bias benchmarking dataset for evaluating the fairness of large pre-trained VLMs. Additionally, PATA provides visual context for a diverse human population in different scenarios with both positive and negative connotations. Experimental results for fairness and zero-shot performance preservation using multiple datasets demonstrate the efficacy of our framework.
翻訳日:2023-03-21 19:16:42 公開日:2023-03-18
# 医用画像復号化(MIDI)タスクグループ報告 - ベストプラクティスと勧告-

Report of the Medical Image De-Identification (MIDI) Task Group -- Best Practices and Recommendations ( http://arxiv.org/abs/2303.10473v1 )

ライセンス: Link先を確認
David A. Clunie, Adam Flanders, Adam Taylor, Brad Erickson, Brian Bialecki, David Brundage, David Gutman, Fred Prior, J Anthony Seibert, John Perry, Judy Wawira Gichoya, Justin Kirby, Katherine Andriole, Luke Geneslaw, Steve Moore, TJ Fitzgerald, Wyatt Tellis, Ying Xiao(参考訳) 本報告は、倫理的・道徳的・法的懸念の再識別リスクを十分に低減し、ソース・配信サイトの管轄権にかかわらず、いかなる目的でも無制限の公開共有を許すような、人体・バイオスペクティブの医療画像の非特定の技術的側面について論じる。 取得のモードにかかわらず、すべての医療画像は考慮されているが、主にデータ要素、特にデータ要素が埋め込まれたフォーマット、特にDigital Imaging and Communications in Medicine (DICOM)で符号化されたデータ要素を持つものに焦点を当てている。 これらの画像には、Segmentation、Parametric Maps、Radiotherapy (RT) Doseオブジェクトなどのイメージライクなオブジェクトが含まれている。 このスコープには、RT構造セット、プランと線量ヒストグラム、構造化レポート、プレゼンテーション状態など、関連する非イメージオブジェクトも含まれている。 公開データのみを識別し、人工知能(AI)モデル開発のためのフェデレーション学習のような、プライバシ保護への代替アプローチは、AIモデル共有からのプライバシリークの問題と同様に、スコープ外である。 公開共有の技術的な問題にのみ対処する。

This report addresses the technical aspects of de-identification of medical images of human subjects and biospecimens, such that re-identification risk of ethical, moral, and legal concern is sufficiently reduced to allow unrestricted public sharing for any purpose, regardless of the jurisdiction of the source and distribution sites. All medical images, regardless of the mode of acquisition, are considered, though the primary emphasis is on those with accompanying data elements, especially those encoded in formats in which the data elements are embedded, particularly Digital Imaging and Communications in Medicine (DICOM). These images include image-like objects such as Segmentations, Parametric Maps, and Radiotherapy (RT) Dose objects. The scope also includes related non-image objects, such as RT Structure Sets, Plans and Dose Volume Histograms, Structured Reports, and Presentation States. Only de-identification of publicly released data is considered, and alternative approaches to privacy preservation, such as federated learning for artificial intelligence (AI) model development, are out of scope, as are issues of privacy leakage from AI model sharing. Only technical issues of public sharing are addressed.
翻訳日:2023-03-21 19:11:06 公開日:2023-03-18
# ブラックボックス変分ベイズ推定のための実用的・整合勾配分散境界

Practical and Matching Gradient Variance Bounds for Black-Box Variational Bayesian Inference ( http://arxiv.org/abs/2303.10472v1 )

ライセンス: Link先を確認
Kyurae Kim, Kaiwen Wu, Jisu Oh, Jacob R. Gardner(参考訳) black-box variational inference(bbvi)の勾配分散を理解することは、その収束を確立しアルゴリズムの改善を開発する上で重要なステップである。 しかし、既存の研究ではbbviの勾配分散がbbviのワークホースである確率勾配降下(sgd)の収束を研究するのに使われた条件を満たすことがわかっていない。 本研究では, BBVI が, SGD の文献で用いられる$ABC$条件に対応して, 滑らかで二次的に成長するログライクな条件に適合することを示す。 この結果はBBVIの実践で広く用いられている非線形共分散パラメータ化に一般化される。 さらに, 平均場パラメタライゼーションのばらつきは, 寸法依存性が良好であることを示す。

Understanding the gradient variance of black-box variational inference (BBVI) is a crucial step for establishing its convergence and developing algorithmic improvements. However, existing studies have yet to show that the gradient variance of BBVI satisfies the conditions used to study the convergence of stochastic gradient descent (SGD), the workhorse of BBVI. In this work, we show that BBVI satisfies a matching bound corresponding to the $ABC$ condition used in the SGD literature when applied to smooth and quadratically-growing log-likelihoods. Our results generalize to nonlinear covariance parameterizations widely used in the practice of BBVI. Furthermore, we show that the variance of the mean-field parameterization has provably superior dimensional dependence.
翻訳日:2023-03-21 19:10:44 公開日:2023-03-18
# SPDF:大規模言語モデルのためのスパース事前学習と深度微調整

SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models ( http://arxiv.org/abs/2303.10464v1 )

ライセンス: Link先を確認
Vithursan Thangarasa, Abhay Gupta, William Marshall, Tianda Li, Kevin Leong, Dennis DeCoste, Sean Lie, Shreyas Saxena(参考訳) 事前学習と微調整のパラダイムは、自然言語処理(NLP)における多くのブレークスルーに寄与している。 下流タスクを直接トレーニングする代わりに、言語モデルはクロスドメインの知識を持つ大規模なデータセット(Pile、MassiveTextなど)で事前トレーニングされ、タスク固有のデータ(自然言語生成、テキスト要約など)で微調整される。 モデルとデータセットのサイズをスケールすることは、llmのパフォーマンスを改善するのに役立ったが、残念なことに、これは非常に厳しい計算コストにつながる。 事前学習のLLMは微調整よりもFLOPの桁数が多く、モデル容量は2つのフェーズ間で同じであることが多い。 FLOPの学習効率向上のために,2相間のモデル容量を分離し,Sparse Pre-training and Dense Fine-tuning (SPDF)を導入することを提案する。 本研究では,非構造的重み空間を用いて,事前訓練(スパース事前訓練)中にのみ重みのサブセットを訓練し,ゼロ重みを学習させることにより表現能力の回復を図ることの利点を示す。 その結果,1.3bパラメータのgpt-3xlモデルに最大75%のスパース性が誘導され,前訓練フロップの2.5倍削減が得られた。 複数のダウンストリームタスクを厳密に評価することで、スパーシティ、タスク複雑性、データセットサイズの関係も確立します。 本研究は,下流タスクに対する事前学習されたテキスト表現の利点を保ちながら,重み空間を用いた訓練用FLOPのごく一部において,大規模GPTモデルをトレーニングするための有望な方向を示す。

The pre-training and fine-tuning paradigm has contributed to a number of breakthroughs in Natural Language Processing (NLP). Instead of directly training on a downstream task, language models are first pre-trained on large datasets with cross-domain knowledge (e.g., Pile, MassiveText, etc.) and then fine-tuned on task-specific data (e.g., natural language generation, text summarization, etc.). Scaling the model and dataset size has helped improve the performance of LLMs, but unfortunately, this also leads to highly prohibitive computational costs. Pre-training LLMs often require orders of magnitude more FLOPs than fine-tuning and the model capacity often remains the same between the two phases. To achieve training efficiency w.r.t training FLOPs, we propose to decouple the model capacity between the two phases and introduce Sparse Pre-training and Dense Fine-tuning (SPDF). In this work, we show the benefits of using unstructured weight sparsity to train only a subset of weights during pre-training (Sparse Pre-training) and then recover the representational capacity by allowing the zeroed weights to learn (Dense Fine-tuning). We demonstrate that we can induce up to 75% sparsity into a 1.3B parameter GPT-3 XL model resulting in a 2.5x reduction in pre-training FLOPs, without a significant loss in accuracy on the downstream tasks relative to the dense baseline. By rigorously evaluating multiple downstream tasks, we also establish a relationship between sparsity, task complexity, and dataset size. Our work presents a promising direction to train large GPT models at a fraction of the training FLOPs using weight sparsity while retaining the benefits of pre-trained textual representations for downstream tasks.
翻訳日:2023-03-21 19:10:30 公開日:2023-03-18
# 動的システムのデータ同化と不確実性定量化を用いた機械学習

Machine learning with data assimilation and uncertainty quantification for dynamical systems: a review ( http://arxiv.org/abs/2303.10462v1 )

ライセンス: Link先を確認
Sibo Cheng, Cesar Quilodran-Casas, Said Ouala, Alban Farchi, Che Liu, Pierre Tandeo, Ronan Fablet, Didier Lucor, Bertrand Iooss, Julien Brajard, Dunhui Xiao, Tijana Janjic, Weiping Ding, Yike Guo, Alberto Carrassi, Marc Bocquet, Rossella Arcucci(参考訳) データ同化(DA)と不確かさ量子化(UQ)は、高次元空間時間力学における誤差伝播の解析と低減に広く用いられている。 典型的な応用は計算流体力学(CFD)から地球科学や気候システムまで様々である。 近年、DA、UQ、機械学習(ML)技術の組み合わせに多くの努力がなされている。 これらの研究は、力学系同定、減次サロゲートモデリング、誤差共分散仕様、モデル誤差補正など、高次元力学系におけるいくつかの重要な課題に対処することを目的としている。 多くの先進的な技術や方法論は、多くの領域で幅広い適用性を示しており、包括的なガイドが必要である。 本稿では,この学際分野における最先端研究について概説し,幅広い応用分野について概説する。 このレビューは、DAおよびUQ技術を適用してモデルの精度と解釈可能性を向上させることを目指す機械学習科学者だけでなく、最先端のMLアプローチをシステムに統合しようとするDAおよびUQ専門家も対象とする。 したがって、この記事では、MLメソッドが既存のDAとUQの限界を克服する方法に特化しています。 この急速に発展する研究分野のいくつかのエキサイティングな視点についても論じる。

Data Assimilation (DA) and Uncertainty quantification (UQ) are extensively used in analysing and reducing error propagation in high-dimensional spatial-temporal dynamics. Typical applications span from computational fluid dynamics (CFD) to geoscience and climate systems. Recently, much effort has been given in combining DA, UQ and machine learning (ML) techniques. These research efforts seek to address some critical challenges in high-dimensional dynamical systems, including but not limited to dynamical system identification, reduced order surrogate modelling, error covariance specification and model error correction. A large number of developed techniques and methodologies exhibit a broad applicability across numerous domains, resulting in the necessity for a comprehensive guide. This paper provides the first overview of the state-of-the-art researches in this interdisciplinary field, covering a wide range of applications. This review aims at ML scientists who attempt to apply DA and UQ techniques to improve the accuracy and the interpretability of their models, but also at DA and UQ experts who intend to integrate cutting-edge ML approaches to their systems. Therefore, this article has a special focus on how ML methods can overcome the existing limits of DA and UQ, and vice versa. Some exciting perspectives of this rapidly developing research field are also discussed.
翻訳日:2023-03-21 19:09:57 公開日:2023-03-18
# 3次元セマンティックセグメンテーションのためのマルチモーダル連続テスト時間適応

Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2303.10457v1 )

ライセンス: Link先を確認
Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Shenghai Yuan, Lihua Xie(参考訳) 連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。 本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。 MM-CTTAの鍵は、TTA法やCTTA法の能力から外れた連続的なドメインシフトにおいて破滅的な忘れを回避しつつ、信頼性の高いモダリティに適応的に対応することである。 このギャップを埋めるため,2つの視点から,連続的相互適応クラスタリング(CoMAC)と呼ばれるMM-CTTA手法を提案する。 一方,遅延空間におけるクラスワイド特徴-セントロイド距離に基づいて,信頼度を考慮し,信頼度の高いクロスモーダル予測を生成するための適応的デュアルステージ機構を提案する。 一方で,破滅的な忘れずにテスト時間適応を行うためには,疑似ソース機能を確率的に復元してソース知識を再検討しながら,自信のあるターゲット機能をキャプチャするクラス毎のモーメントキューを設計する。 さらに,将来MM-CTTAの探索を容易にするためのベンチマークを2つ導入する。 実験の結果,両ベンチマークの最先端性能が得られた。

Continual Test-Time Adaptation (CTTA) generalizes conventional Test-Time Adaptation (TTA) by assuming that the target domain is dynamic over time rather than stationary. In this paper, we explore Multi-Modal Continual Test-Time Adaptation (MM-CTTA) as a new extension of CTTA for 3D semantic segmentation. The key to MM-CTTA is to adaptively attend to the reliable modality while avoiding catastrophic forgetting during continual domain shifts, which is out of the capability of previous TTA or CTTA methods. To fulfill this gap, we propose an MM-CTTA method called Continual Cross-Modal Adaptive Clustering (CoMAC) that addresses this task from two perspectives. On one hand, we propose an adaptive dual-stage mechanism to generate reliable cross-modal predictions by attending to the reliable modality based on the class-wise feature-centroid distance in the latent space. On the other hand, to perform test-time adaptation without catastrophic forgetting, we design class-wise momentum queues that capture confident target features for adaptation while stochastically restoring pseudo-source features to revisit source knowledge. We further introduce two new benchmarks to facilitate the exploration of MM-CTTA in the future. Our experimental results show that our method achieves state-of-the-art performance on both benchmarks.
翻訳日:2023-03-21 19:09:35 公開日:2023-03-18
# 絡み合った送信機を有するマルチアクセスチャネル

The Multiple-Access Channel with Entangled Transmitters ( http://arxiv.org/abs/2303.10456v1 )

ライセンス: Link先を確認
Uzi Pereg, Christian Deppe, and Holger Boche(参考訳) 従来型マルチアクセスチャネル(mac)と絡み合いリソースとの通信を考慮し,通信開始前に2つの送信機で絡み合いリソースを共有する。 leditzki et al. (2020) は、疑似テレパシーゲームで定義される古典的なmacの例を示し、絡み合った送信機との和率は、そのようなリソースのない最高の達成可能な和率よりも厳密に高いことを示した。 ここでは,一般MACのキャパシティ領域とエンタングル送信器の完全なキャパシティ特性を導出し,この結果が特別な場合として得られることを示す。 有限次元の補助変数とアンシラを含む単一レター公式が確立される。 これにより、このレート領域を達成するのに十分な絡み合い率が得られる。

Communication over a classical multiple-access channel (MAC) with entanglement resources is considered, whereby two transmitters share entanglement resources a priori before communication begins. Leditzki et al. (2020) presented an example of a classical MAC, defined in terms of a pseudo telepathy game, such that the sum rate with entangled transmitters is strictly higher than the best achievable sum rate without such resources. Here, we derive a full characterization of the capacity region for the general MAC with entangled transmitters, and show that the previous result can be obtained as a special case. A single-letter formula is established involving auxiliary variables and ancillas of finite dimensions. This, in turn, leads to a sufficient entanglement rate to achieve the rate region.
翻訳日:2023-03-21 19:09:12 公開日:2023-03-18
# learn, unlearn and relearn: ディープニューラルネットワークのためのオンライン学習パラダイム

Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural Networks ( http://arxiv.org/abs/2303.10455v1 )

ライセンス: Link先を確認
Vijaya Raghavan T. Ramkumar, Elahe Arani, Bahram Zonooz(参考訳) ディープニューラルネットワーク(DNN)は、完全なトレーニングデータセットが事前に提供されるという前提でトレーニングされることが多い。 しかし、現実のシナリオでは、データは時間とともにチャンクになることが多い。 これは、DNNをトレーニングするための最適な戦略に関する重要な考慮につながります。例えば、受信したデータ(ウォームスタート)の各チャンクでそれらを微調整するか、新しいチャンクが利用可能であるたびに、データのコーパス全体をスクラッチから再トレーニングするか、などです。 トレーニングに後者を採用することはリソース集約的であるが、最近の研究はウォームスタートモデルにおける一般化の欠如を指摘している。 そこで我々は,効率性と一般化のバランスをとるために,DNNのためのオンライン学習パラダイムであるLearning,Unlearn,Relearn(LURE)を紹介する。 LUREは、データ依存的なウェイトリチベーションを通じてモデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。 当社のトレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。 さらに、より堅牢で校正されたモデルにつながることを示す。

Deep neural networks (DNNs) are often trained on the premise that the complete training data set is provided ahead of time. However, in real-world scenarios, data often arrive in chunks over time. This leads to important considerations about the optimal strategy for training DNNs, such as whether to fine-tune them with each chunk of incoming data (warm-start) or to retrain them from scratch with the entire corpus of data whenever a new chunk is available. While employing the latter for training can be resource-intensive, recent work has pointed out the lack of generalization in warm-start models. Therefore, to strike a balance between efficiency and generalization, we introduce Learn, Unlearn, and Relearn (LURE) an online learning paradigm for DNNs. LURE interchanges between the unlearning phase, which selectively forgets the undesirable information in the model through weight reinitialization in a data-dependent manner, and the relearning phase, which emphasizes learning on generalizable features. We show that our training paradigm provides consistent performance gains across datasets in both classification and few-shot settings. We further show that it leads to more robust and well-calibrated models.
翻訳日:2023-03-21 19:08:58 公開日:2023-03-18
# 連続ビデオ領域適応のための信頼性注意と拡張拡張

Confidence Attention and Generalization Enhanced Distillation for Continuous Video Domain Adaptation ( http://arxiv.org/abs/2303.10452v1 )

ライセンス: Link先を確認
Xiyu Wang, Yuecong Xu, Jianfei Yang, Kezhi Mao, Xiaoli Li, Zhenghua Chen(参考訳) 連続ビデオドメイン適応(Continuous Video Domain Adaptation, CVDA)とは、ソースデータやターゲットの監視なしに、個々の変更対象ドメインに継続的に適応するために、ソースモデルが必要であるシナリオである。 ロボットビジョンや自動運転といった幅広い応用がある。 CVDAの主な課題は、教師なしのターゲットデータからのみ有用な情報を学ぶことであり、ビデオベースの教師なしドメイン適応手法の能力から外れた、これまで学んだ知識を破滅的に忘れることを避けることである。 そこで本研究では, CVDA の課題に対処するため, 自己知識の強化による信頼度向上ネットワークを提案する。 まず,教師なし領域から学ぶために,擬似ラベルから学ぶことを提案する。 しかし、連続適応では、予測誤差は擬似ラベルに急速に蓄積され、cartはこの問題を2つのキーモジュールで効果的に解決する。 具体的には、モデル予測を用いて洗練された擬似ラベルを生成し、新しい注意学習戦略を展開する。 第2のモジュールは、現在のモデルからの拡張データの出力と、ソースモデルからの弱い拡張データの出力とを比較し、モデルに新しい一貫性の正規化を形成し、予測エラーの蓄積を緩和する。 CARTのCVDA性能は既存の手法よりもかなり優れていた。

Continuous Video Domain Adaptation (CVDA) is a scenario where a source model is required to adapt to a series of individually available changing target domains continuously without source data or target supervision. It has wide applications, such as robotic vision and autonomous driving. The main underlying challenge of CVDA is to learn helpful information only from the unsupervised target data while avoiding forgetting previously learned knowledge catastrophically, which is out of the capability of previous Video-based Unsupervised Domain Adaptation methods. Therefore, we propose a Confidence-Attentive network with geneRalization enhanced self-knowledge disTillation (CART) to address the challenge in CVDA. Firstly, to learn from unsupervised domains, we propose to learn from pseudo labels. However, in continuous adaptation, prediction errors can accumulate rapidly in pseudo labels, and CART effectively tackles this problem with two key modules. Specifically, The first module generates refined pseudo labels using model predictions and deploys a novel attentive learning strategy. The second module compares the outputs of augmented data from the current model to the outputs of weakly augmented data from the source model, forming a novel consistency regularization on the model to alleviate the accumulation of prediction errors. Extensive experiments suggest that the CVDA performance of CART outperforms existing methods by a considerable margin.
翻訳日:2023-03-21 19:08:36 公開日:2023-03-18
# Few-Shot Video Domain Adaptationのためのスニペットの強化と調整

Augmenting and Aligning Snippets for Few-Shot Video Domain Adaptation ( http://arxiv.org/abs/2303.10451v1 )

ライセンス: Link先を確認
Yuecong Xu, Jianfei Yang, Yunjiao Zhou, Zhenghua Chen, Min Wu, Xiaoli Li(参考訳) 様々な環境下でビデオモデルをシームレスに転送・適用するために、ビデオモデルの堅牢性と転送性を改善するためにVUDA(Video Unsupervised Domain Adaptation)が導入された。 しかし、現在のvudaメソッドは、実際のケースでは利用できない大量の高品質なラベルなしターゲットデータに依存している。 したがって、より現実的な \textit{few-shot video-based domain adaptation} (fsvda) シナリオを検討し、対象とするビデオサンプルをほんの数本でビデオモデルに適用する。 画像やFSVDAではFew-Shot Domain Adaptation (FSDA) にいくつかの手法が触れられているが、それらは主に、インスタンスレベルで統計的にアライメントされたターゲット領域拡張のための空間拡張に依存している。 しかし、ビデオには、より豊富な時間的・意味的な情報があり、ターゲットドメインを拡大し、FSVDAでアライメントを行う際に、十分に考慮すべきである。 そこで本研究では,FSVDAをスニペットレベルで扱う新しいSSA2lignを提案する。このSSA2lignは,単純なスニペットレベルの拡張によって対象ドメインを拡張し,スニペットのセマンティックアライメントを意味的に,統計的に,そしてスニペットのセマンティックアライメントを複数の視点で行う。 実験結果は、複数のクロスドメインアクション認識ベンチマークにおけるssa2lignの最先端性能を示す。

For video models to be transferred and applied seamlessly across video tasks in varied environments, Video Unsupervised Domain Adaptation (VUDA) has been introduced to improve the robustness and transferability of video models. However, current VUDA methods rely on a vast amount of high-quality unlabeled target data, which may not be available in real-world cases. We thus consider a more realistic \textit{Few-Shot Video-based Domain Adaptation} (FSVDA) scenario where we adapt video models with only a few target video samples. While a few methods have touched upon Few-Shot Domain Adaptation (FSDA) in images and in FSVDA, they rely primarily on spatial augmentation for target domain expansion with alignment performed statistically at the instance level. However, videos contain more knowledge in terms of rich temporal and semantic information, which should be fully considered while augmenting target domains and performing alignment in FSVDA. We propose a novel SSA2lign to address FSVDA at the snippet level, where the target domain is expanded through a simple snippet-level augmentation followed by the attentive alignment of snippets both semantically and statistically, where semantic alignment of snippets is conducted through multiple perspectives. Empirical results demonstrate state-of-the-art performance of SSA2lign across multiple cross-domain action recognition benchmarks.
翻訳日:2023-03-21 19:08:15 公開日:2023-03-18
# セマンティクス的コヒーレント分布検出のための不確実性を考慮した最適伝達

Uncertainty-Aware Optimal Transport for Semantically Coherent Out-of-Distribution Detection ( http://arxiv.org/abs/2303.10449v1 )

ライセンス: Link先を確認
Fan Lu, Kai Zhu, Wei Zhai, Kecheng Zheng, Yang Cao(参考訳) SCOOD(Semantically coherent out-of-distribution)検出は、ラベルなしの余分な集合にアクセスして、意図したデータ分布からアウトリーチを識別することを目的としている。 分布内および分布外サンプルの共存は、区別されない場合の過剰適合を悪化させる。 この問題に対処するため,我々は新しい不確実性を考慮した最適輸送スキームを提案する。 提案手法は,不確実性の変動コストを推定し,セマンティックな表現の割り当てを促進するエネルギベーストランスポート(ET)機構と,対応するマージン距離を広げることで,異なるクラスタ間のセマンティック特性の識別を強化するクラスタ間拡張戦略とから構成される。 さらに、並列輸送と分類器分岐の間の大きさギャップを軽減するために、Tエネルギースコアが提示される。 2つの標準SCOODベンチマークの大規模な実験は、上記のOOD検出性能を示し、それぞれFPR@95の27.69%と34.4%の差で最先端の手法を上回った。

Semantically coherent out-of-distribution (SCOOD) detection aims to discern outliers from the intended data distribution with access to unlabeled extra set. The coexistence of in-distribution and out-of-distribution samples will exacerbate the model overfitting when no distinction is made. To address this problem, we propose a novel uncertainty-aware optimal transport scheme. Our scheme consists of an energy-based transport (ET) mechanism that estimates the fluctuating cost of uncertainty to promote the assignment of semantic-agnostic representation, and an inter-cluster extension strategy that enhances the discrimination of semantic property among different clusters by widening the corresponding margin distance. Furthermore, a T-energy score is presented to mitigate the magnitude gap between the parallel transport and classifier branches. Extensive experiments on two standard SCOOD benchmarks demonstrate the above-par OOD detection performance, outperforming the state-of-the-art methods by a margin of 27.69% and 34.4% on FPR@95, respectively.
翻訳日:2023-03-21 19:07:48 公開日:2023-03-18
# ドメイン固有音声認識のためのディープラーニングシステム

A Deep Learning System for Domain-specific speech Recognition ( http://arxiv.org/abs/2303.10510v1 )

ライセンス: Link先を確認
Yanan Jia(参考訳) 人間の機械による音声インタフェースは、よりインテリジェントなマシンに容易にアクセスできるため、最先端の音声認識システム(ASR)が多数提案されている。 しかし、商用asrシステムは通常、特に低リソース環境において、ドメイン固有発話の性能が低下する。 筆者は,事前学習したdeepspeech2とwav2vec2音響モデルを用いて,特有なasrシステムの開発を行っている。 ドメイン固有データは、人間の介入が少ない半教師付き学習アノテーションを用いて収集される。 最高のパフォーマンスは、GoogleとAWSのASRシステムに勝る、外部KenLMを備えた微調整されたWav2Vec2-Large-LV60音響モデルから得られる。 また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。 便益特化自然言語理解(nlu)タスクの結果、ドメイン特化asrシステムは、その転写が単語誤り率(wer)が高い場合でも商用asrシステムよりも優れており、また、微調整asrと人間の転写との間には類似していることが示された。

As human-machine voice interfaces provide easy access to increasingly intelligent machines, many state-of-the-art automatic speech recognition (ASR) systems are proposed. However, commercial ASR systems usually have poor performance on domain-specific speech especially under low-resource settings. The author works with pre-trained DeepSpeech2 and Wav2Vec2 acoustic models to develop benefit-specific ASR systems. The domain-specific data are collected using proposed semi-supervised learning annotation with little human intervention. The best performance comes from a fine-tuned Wav2Vec2-Large-LV60 acoustic model with an external KenLM, which surpasses the Google and AWS ASR systems on benefit-specific speech. The viability of using error prone ASR transcriptions as part of spoken language understanding (SLU) is also investigated. Results of a benefit-specific natural language understanding (NLU) task show that the domain-specific fine-tuned ASR system can outperform the commercial ASR systems even when its transcriptions have higher word error rate (WER), and the results between fine-tuned ASR and human transcriptions are similar.
翻訳日:2023-03-21 19:00:44 公開日:2023-03-18
# コンドルセト選挙のリスク制限監査

Risk-Limiting Audits for Condorcet Elections ( http://arxiv.org/abs/2303.10509v1 )

ライセンス: Link先を確認
Michelle Blom, Peter J. Stuckey, Vanessa Teague, Damjan Vukcevic(参考訳) 選挙人が候補者(または候補者のサブセット)を優先順にランク付けする選挙は、選挙人の意図に関するさらなる情報を集めることができる。 このタイプの最も広く使われている選挙はInstant-Runoff Voting (IRV)である。 コンドルセット選挙(condorcet election)は、各候補者について同時に決定する選挙である。 コンドルチェットの勝者は、これらのペアワイズコンテストで他のすべての人を破る候補者です。 コンドルセトの勝者が存在しない場合は、勝者を決定するための様々な提案がある。 本稿では,コンドルチェット選挙を多変量で効率的に評価する方法を示す。 また、IRVとCondorcet選挙の監査効率(どれだけの投票がサンプリングされるか)を比較します。

Elections where electors rank the candidates (or a subset of the candidates) in order of preference allow the collection of more information about the electors' intent. The most widely used election of this type is Instant-Runoff Voting (IRV), where candidates are eliminated one by one, until a single candidate holds the majority of the remaining ballots. Condorcet elections treat the election as a set of simultaneous decisions about each pair of candidates. The Condorcet winner is the candidate who beats all others in these pairwise contests. There are various proposals to determine a winner if no Condorcet winner exists. In this paper we show how we can efficiently audit Condorcet elections for a number of variations. We also compare the audit efficiency (how many ballots we expect to sample) of IRV and Condorcet elections.
翻訳日:2023-03-21 19:00:22 公開日:2023-03-18
# 反応拡散PDEのためのバックステッピング制御器とオブザーバゲイン関数のニューラル演算子

Neural Operators of Backstepping Controller and Observer Gain Functions for Reaction-Diffusion PDEs ( http://arxiv.org/abs/2303.10506v1 )

ライセンス: Link先を確認
Miroslav Krstic, Luke Bhan, Yuanyuan Shi(参考訳) システム行列を含むODEや、ベクトルや行列ゲインを含むコントローラとは異なり、PDEモデルはそれらの機能係数の関数を含み、空間変数に依存し、空間に依存する関数も得る。 PDEバックステッピングのようなPDEのためのコントローラとオブザーバのためのゲインの設計は、システムモデル関数をゲイン関数にマッピングしたものである。 これらの無限次元非線形作用素は、空間変数の PDE を通じて暗黙的な形で与えられるが、これは PDE の新しい関数係数ごとに利得関数を決定するために解決する必要がある。 このような pdes の解法の必要性は、その設計マッピングをニューラルネットワークの形で学習し近似することで解消することができる。 ニューラル演算子の学習には、設計 pdes、オフライン、およびオペレータのトレーニングに十分な数の事前ソリューションが必要である。 近年,一階双曲型PDEのためのPDEバックステッピング設計のためのニューラル演算子を開発した。 ここでは、このフレームワークをより複雑な放物的PDEのクラスに拡張する。 重要な理論上の疑問は、制御器がまだ安定しているか、そして観測器がまだ収束しているか、ニューラル作用素によって生成される近似関数ゲインを用いるかである。 我々はこれらの疑問に対する肯定的な答え、すなわち、ニューラル演算子が生成するゲインの下での閉ループの安定性を証明する。 理論的結果を数値実験で説明し,そのコードをgithubに公開する。 ニューラル作用素は、そのような利得関数に対するPDEソルバよりも利得関数を生成するのが3桁高速である。 これにより、適応制御と非線形PDEのゲインスケジューリング制御にこのニューラル演算子手法を使用する機会が開ける。

Unlike ODEs, whose models involve system matrices and whose controllers involve vector or matrix gains, PDE models involve functions in those roles functional coefficients, dependent on the spatial variables, and gain functions dependent on space as well. The designs of gains for controllers and observers for PDEs, such as PDE backstepping, are mappings of system model functions into gain functions. These infinite dimensional nonlinear operators are given in an implicit form through PDEs, in spatial variables, which need to be solved to determine the gain function for each new functional coefficient of the PDE. The need for solving such PDEs can be eliminated by learning and approximating the said design mapping in the form of a neural operator. Learning the neural operator requires a sufficient number of prior solutions for the design PDEs, offline, as well as the training of the operator. In recent work, we developed the neural operators for PDE backstepping designs for first order hyperbolic PDEs. Here we extend this framework to the more complex class of parabolic PDEs. The key theoretical question is whether the controllers are still stabilizing, and whether the observers are still convergent, if they employ the approximate functional gains generated by the neural operator. We provide affirmative answers to these questions, namely, we prove stability in closed loop under gains produced by neural operators. We illustrate the theoretical results with numerical tests and publish our code on github. The neural operators are three orders of magnitude faster in generating gain functions than PDE solvers for such gain functions. This opens up the opportunity for the use of this neural operator methodology in adaptive control and in gain scheduling control for nonlinear PDEs.
翻訳日:2023-03-21 19:00:09 公開日:2023-03-18
# テキストコンテンツ検出におけるCyberbullying:分析的レビュー

Cyberbullying in Text Content Detection: An Analytical Review ( http://arxiv.org/abs/2303.10502v1 )

ライセンス: Link先を確認
Sylvia W Azumah, Nelly Elsayed, Zag ElSayed, Murat Ozer(参考訳) 技術進歩により、世界中のオンラインソーシャルネットワーク(OSN)の利用が指数関数的に増加した。 オンラインソーシャルネットワークは優れたコミュニケーション媒体を提供する一方で、自殺、摂食障害、サイバー犯罪、強制行動、不安、抑うつといった生命を脅かす状況へのユーザーの露出を増加させる。 サイバーいじめの問題に取り組むために、既存の文献のほとんどは、要素を特定し、サイバーいじめに関連するテキスト的要因を理解するためのアプローチの開発に焦点を当てている。 これらのアプローチの多くは、サイバーいじめの研究で大きな成功を収めてきたが、モデル検出を開発するために必要なデータ可用性は、研究分野における課題である。 本稿では,サイバーいじめ検出の理解を提供するため,包括的な文献レビューを行う。

Technological advancements have resulted in an exponential increase in the use of online social networks (OSNs) worldwide. While online social networks provide a great communication medium, they also increase the user's exposure to life-threatening situations such as suicide, eating disorder, cybercrime, compulsive behavior, anxiety, and depression. To tackle the issue of cyberbullying, most existing literature focuses on developing approaches to identifying factors and understanding the textual factors associated with cyberbullying. While most of these approaches have brought great success in cyberbullying research, data availability needed to develop model detection remains a challenge in the research space. This paper conducts a comprehensive literature review to provide an understanding of cyberbullying detection.
翻訳日:2023-03-21 18:59:44 公開日:2023-03-18
# 大型言語モデルによる外科手術仮説の再検討

Revisiting the Plastic Surgery Hypothesis via Large Language Models ( http://arxiv.org/abs/2303.10494v1 )

ライセンス: Link先を確認
Chunqiu Steven Xia, Yifeng Ding, Lingming Zhang(参考訳) 自動プログラム修復(automated program repair, apr)は、入力バギープログラムのパッチを自動的に生成する。 従来のAPRツールは、テンプレート、ヒューリスティック、正式な仕様を使用して、特定のバグタイプと修正に重点を置いている。 しかし、これらのテクニックはバグタイプやパッチの種類によって制限されている。 このように、研究者は、APRにLarge Language Models(LLM)を直接使用することに焦点を当てた、さまざまな学習ベースのAPRツールを設計してきた。 LLMベースのAPRツールは、多くの修復データセット上で最先端のパフォーマンスを達成することができるが、直接修復に使われるLLMは、ユニークな変数やメソッド名といったプロジェクト固有の情報を十分に認識していない。 プラスチック手術仮説は、aprのよく知られた洞察であり、バグを修正するためのコード要素は、通常、同じプロジェクト内に存在する、と述べている。 従来のAPRツールは、そのような既存のコード要素を利用する手動またはヒューリスティックなアプローチを設計することで、プラスティックな手術仮説を大いに活用してきた。 しかし、最近のAPR研究はLSMに基づくアプローチに焦点が当てられているため、プラスチックの手術仮説は無視されている。 本稿では, LLM 時代におけるプラスチック手術の仮説は, どの程度有用か, という疑問を呈する。 興味深いことに、LSMをベースとしたAPRは、微調整とプロンプトによってプラスチックの手術仮説を完全に自動化するユニークな機会を提供する。 この目的のために,LLMの直接的利用とドメイン固有の2つの微調整戦略と,より強力なAPR戦略を併用したFitRepairを提案する。 広く研究された defects4j 1.2 と 2.0 データセットに関する実験では,fitrepair は 89 と 44 のバグをそれぞれ 15 と 8 で上回っており,llms の時代におけるプラスチック手術仮説の有望な将来性を示している。

Automated Program Repair (APR) aspires to automatically generate patches for an input buggy program. Traditional APR tools typically focus on specific bug types and fixes through the use of templates, heuristics, and formal specifications. However, these techniques are limited in terms of the bug types and patch variety they can produce. As such, researchers have designed various learning-based APR tools with recent work focused on directly using Large Language Models (LLMs) for APR. While LLM-based APR tools are able to achieve state-of-the-art performance on many repair datasets, the LLMs used for direct repair are not fully aware of the project-specific information such as unique variable or method names. The plastic surgery hypothesis is a well-known insight for APR, which states that the code ingredients to fix the bug usually already exist within the same project. Traditional APR tools have largely leveraged the plastic surgery hypothesis by designing manual or heuristic-based approaches to exploit such existing code ingredients. However, as recent APR research starts focusing on LLM-based approaches, the plastic surgery hypothesis has been largely ignored. In this paper, we ask the following question: How useful is the plastic surgery hypothesis in the era of LLMs? Interestingly, LLM-based APR presents a unique opportunity to fully automate the plastic surgery hypothesis via fine-tuning and prompting. To this end, we propose FitRepair, which combines the direct usage of LLMs with two domain-specific fine-tuning strategies and one prompting strategy for more powerful APR. Our experiments on the widely studied Defects4j 1.2 and 2.0 datasets show that FitRepair fixes 89 and 44 bugs (substantially outperforming the best-performing baseline by 15 and 8), respectively, demonstrating a promising future of the plastic surgery hypothesis in the era of LLMs.
翻訳日:2023-03-21 18:59:32 公開日:2023-03-18
# 第1と第2の近接場相互作用を持つ2フェルミオン格子ハミルトニアン

Two-fermion lattice Hamiltonian with first and second nearest-neighboring-site interactions ( http://arxiv.org/abs/2303.10491v1 )

ライセンス: Link先を確認
Saidakhmat N. Lakaev, Alexander K. Motovilov, Saidakbar Kh. Abdukhakimov(参考訳) シュレーディンガー作用素 H_{\lambda\mu}(K) について、K \in T_2 を粒子対の固定準モーメントとし、2次元格子 Z_2 上の2つの同一フェルミオンの系と、等級 \lambda \in R と \mu \in R の隣り合う第1および第2の相互作用をそれぞれ関連付ける。 我々は、(\lambda,\mu)-平面の分割を確立し、それぞれの連結成分において、シュレーディンガー作用素 H_{\lambda\mu}(0) が固有値の定数(固定値)を持つようにし、これは本質スペクトルの下部と上部に位置する。 さらに、各連結成分におけるH_{\lambda\mu}(K) の孤立固有値の数に対して、鋭い下界を確立する。

We study the Schroedinger operators H_{\lambda\mu}(K), with K \in T_2 the fixed quasi-momentum of the particles pair, associated with a system of two identical fermions on the two-dimensional lattice Z_2 with first and second nearest-neighboring-site interactions of magnitudes \lambda \in R and \mu \in R, respectively. We establish a partition of the (\lambda,\mu)-plane so that in each its connected component, the Schroedinger operator H_{\lambda\mu}(0) has a definite (fixed) number of eigenvalues, which are situated below the bottom of the essential spectrum and above its top. Moreover, we establish a sharp lower bound for the number of isolated eigenvalues of H_{\lambda\mu}(K) in each connected component.
翻訳日:2023-03-21 18:59:00 公開日:2023-03-18
# ハードウェアアレイコンプレッサによるロスレスマイクロアレイ画像圧縮

Lossless Microarray Image Compression by Hardware Array Compactor ( http://arxiv.org/abs/2303.10489v1 )

ライセンス: Link先を確認
Anahita Banaei, Shadrokh Samavi, Ebrahim Nasr Esfahani(参考訳) マイクロアレイ技術は、多数の遺伝子発現を同時に監視するための新しい強力なツールである。 各マイクロアレイ実験は数百の画像を生成する。 各デジタル画像は大きなストレージスペースを必要とする。 したがって、これらの画像のリアルタイム処理と送信は、効率的でカスタムメイドのロスレス圧縮スキームを必要とする。 本稿では,マイクロアレイ画像のロスレス圧縮のための新しいアーキテクチャを提案する。 本アーキテクチャでは,前景画素と背景画素を分離するための専用ハードウェアを用いている。 これらのピクセルを分離してパイプラインアーキテクチャを使用することで、他の既存の方法と比較して高いロスレス圧縮率を達成している。

Microarray technology is a new and powerful tool for the concurrent monitoring of a large number of gene expressions. Each microarray experiment produces hundreds of images. Each digital image requires a large storage space. Hence, real-time processing of these images and transmission of them necessitates efficient and custom-made lossless compression schemes. In this paper, we offer a new architecture for the lossless compression of microarray images. In this architecture, we have used dedicated hardware for the separation of foreground pixels from background ones. By separating these pixels and using pipeline architecture, a higher lossless compression ratio has been achieved as compared to other existing methods.
翻訳日:2023-03-21 18:58:40 公開日:2023-03-18
# 分割と克服: 物的因子化と構成的推論による質問に答える

Divide and Conquer: Answering Questions with Object Factorization and Compositional Reasoning ( http://arxiv.org/abs/2303.10482v1 )

ライセンス: Link先を確認
Shi Chen and Qi Zhao(参考訳) 人間は、様々な質問に答える能力を持っているが、それは、その意味的関係に基づいて異なる概念を相関させ、難しい問題をサブタスクに分解する自然の能力に根ざしている。 それとは対照的に、既存のビジュアル推論手法では、可能なすべてのオブジェクトと推論問題をキャプチャするトレーニングサンプルを想定しており、統計的に優先するブラックボックスモデルに依存している。 彼らはまだ、現実のシナリオにおいて、新しいオブジェクトや刺激的なバイアスに対処する能力を開発しておらず、また、彼らの決定の背後にある理屈を解釈できない。 視覚世界に対する人間の推論に触発されて、上記の課題を構成論的観点から取り上げ、原理的対象分解法と新しいニューラルモジュールネットワークからなる統合フレームワークを提案する。 提案手法は,その主要特性に基づいてオブジェクトを分解し,多種多様なオブジェクトを表すプロトタイプを自動的に導出する。 重要な意味論を符号化するこれらのプロトタイプを用いて、提案するネットワークは、共通意味論空間上でそれらの類似性を測定し、構成的推論プロセスで決定する。 トレーニング中の可用性に関係なく、さまざまなオブジェクトで質問に答えることができ、バイアスのある質問応答分布の問題を克服することができる。 一般化性の向上に加えて,本フレームワークはモデルの意思決定プロセスを理解するための解釈可能なインターフェースも提供する。 私たちのコードはhttps://github.com/szzexpoi/POEM.comで利用可能です。

Humans have the innate capability to answer diverse questions, which is rooted in the natural ability to correlate different concepts based on their semantic relationships and decompose difficult problems into sub-tasks. On the contrary, existing visual reasoning methods assume training samples that capture every possible object and reasoning problem, and rely on black-boxed models that commonly exploit statistical priors. They have yet to develop the capability to address novel objects or spurious biases in real-world scenarios, and also fall short of interpreting the rationales behind their decisions. Inspired by humans' reasoning of the visual world, we tackle the aforementioned challenges from a compositional perspective, and propose an integral framework consisting of a principled object factorization method and a novel neural module network. Our factorization method decomposes objects based on their key characteristics, and automatically derives prototypes that represent a wide range of objects. With these prototypes encoding important semantics, the proposed network then correlates objects by measuring their similarity on a common semantic space and makes decisions with a compositional reasoning process. It is capable of answering questions with diverse objects regardless of their availability during training, and overcoming the issues of biased question-answer distributions. In addition to the enhanced generalizability, our framework also provides an interpretable interface for understanding the decision-making process of models. Our code is available at https://github.com/szzexpoi/POEM.
翻訳日:2023-03-21 18:58:33 公開日:2023-03-18
# データ共有空間における科学的貢献の評価

Assessing Scientific Contributions in Data Sharing Spaces ( http://arxiv.org/abs/2303.10476v1 )

ライセンス: Link先を確認
Kacy Adams and Fernando Spadea and Conor Flynn and Oshani Seneviratne(参考訳) 現在の学術的な状況では、データ収集のプロセスは遅く、データコラボレーションのためのラックスインフラストラクチャーは決定的な発見を思いつき、広めるのにかなりの遅延をもたらす。 そのため、研究者間の協調的なデータ共有活動を促進し、報奨する安全でスケーラブルで信頼性の高いデータ共有エコシステムの必要性が高まり、この目的を達成するためには、強固なインセンティブ機構が必要である。 h-インデックスのような意見に基づくインセンティブは、歴史的に学術コミュニティにおいて重要な役割を担ってきた。 しかし、h-indexにはいくつかの制限がある。 本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。 Microsoft Academic Graphと機械学習技術を利用することで、SCIENCE-indexは研究者のキャリアにおける進歩を予測し、データセットを仲間の研究者と共有するためのソフトインセンティブを提供する。 研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。 公開されているデータセットのデータベースであるDataCiteはこのパラメータをプロキシしており、研究者のデータ共有アクティビティを含めることでさらに強化されている。 本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。 私たちは、それがより一層評価の広がりをもたらすことを観察する。 SCIENCE-indexは、データセット共有における現在の不平等に対処する、信頼ベースのデータ共有を促進する分散プロトコルを構築する上で、重要なコンポーネントである。 本稿では,分散アプリケーションを活用した将来のデータ共有空間における科学的貢献度を評価する基盤を提供する。

In the present academic landscape, the process of collecting data is slow, and the lax infrastructures for data collaborations lead to significant delays in coming up with and disseminating conclusive findings. Therefore, there is an increasing need for a secure, scalable, and trustworthy data-sharing ecosystem that promotes and rewards collaborative data-sharing efforts among researchers, and a robust incentive mechanism is required to achieve this objective. Reputation-based incentives, such as the h-index, have historically played a pivotal role in the academic community. However, the h-index suffers from several limitations. This paper introduces the SCIENCE-index, a blockchain-based metric measuring a researcher's scientific contributions. Utilizing the Microsoft Academic Graph and machine learning techniques, the SCIENCE-index predicts the progress made by a researcher over their career and provides a soft incentive for sharing their datasets with peer researchers. To incentivize researchers to share their data, the SCIENCE-index is augmented to include a data-sharing parameter. DataCite, a database of openly available datasets, proxies this parameter, which is further enhanced by including a researcher's data-sharing activity. Our model is evaluated by comparing the distribution of its output for geographically diverse researchers to that of the h-index. We observe that it results in a much more even spread of evaluations. The SCIENCE-index is a crucial component in constructing a decentralized protocol that promotes trust-based data sharing, addressing the current inequity in dataset sharing. The work outlined in this paper provides the foundation for assessing scientific contributions in future data-sharing spaces powered by decentralized applications.
翻訳日:2023-03-21 18:58:09 公開日:2023-03-18
# Promptは必要なものすべて? いいえ。 包括的かつ広範な授業学習の視点

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning ( http://arxiv.org/abs/2303.10475v1 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 そのため、NLPの新しい監督・探索パラダイムであるタスク命令からの学習への関心が高まっている。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本研究は,現状の授業学習研究,特に以下の質問に答えて要約しようとするものである。 (i)タスク命令とは何か、どの命令型が存在するのか? (ii)指示のモデル化方法? (三)指示のパフォーマンスに影響を及ぼし、説明する要因は何か。 (iv) 指導学習に残る課題は何か? 私たちの知る限りでは、これはテキストによるインストラクションに関する最初の包括的な調査です。

Task semantics can be expressed by a set of input-to-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning from task instructions. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize the current research on instruction learning, particularly, by answering the following questions: (i) what is task instruction, and what instruction types exist? (ii) how to model instructions? (iii) what factors influence and explain the instructions' performance? (iv) what challenges remain in instruction learning? To our knowledge, this is the first comprehensive survey about textual instructions.
翻訳日:2023-03-21 18:57:44 公開日:2023-03-18
# パラメータ効率の良い微調整のための適応予算割り当て

Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2303.10512v1 )

ライセンス: Link先を確認
Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, Tuo Zhao(参考訳) 下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。 しかし、多くの下流タスクが存在する場合には、事前訓練されたモデルでパラメータの全てを微調整する。 そのため,事前学習された重みのインクリメンタルな更新をパラメータ効率良く,例えば低ランクのインクリメンタルに学習するために,多くの微調整手法が提案されている。 これらの手法はしばしば、事前訓練された全ての重量行列に漸進的な更新の予算を均等に分配し、異なる重量パラメータの異なる重要性を見落としている。 その結果、微調整性能が準最適となる。 このギャップを埋めるために、重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。 特に、AdaLoRAは特異値分解の形でインクリメンタル更新をパラメータ化する。 このような新しいアプローチにより、重要でない更新の特異値を効果的に創り出すことができ、本質的にはパラメータ予算を削減できるが、正確なSVD計算を回避できる。 adaloraの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルをいくつか実施した。 その結果,adaloraは,特に低予算環境において,ベースラインよりも顕著な改善が見られた。 私たちのコードはhttps://github.com/QingruZhang/AdaLoRAで公開されています。

Fine-tuning large pre-trained language models on downstream tasks has become an important paradigm in NLP. However, common practice fine-tunes all of the parameters in a pre-trained model, which becomes prohibitive when a large number of downstream tasks are present. Therefore, many fine-tuning methods are proposed to learn incremental updates of pre-trained weights in a parameter efficient way, e.g., low-rank increments. These methods often evenly distribute the budget of incremental updates across all pre-trained weight matrices, and overlook the varying importance of different weight parameters. As a consequence, the fine-tuning performance is suboptimal. To bridge this gap, we propose AdaLoRA, which adaptively allocates the parameter budget among weight matrices according to their importance score. In particular, AdaLoRA parameterizes the incremental updates in the form of singular value decomposition. Such a novel approach allows us to effectively prune the singular values of unimportant updates, which is essentially to reduce their parameter budget but circumvent intensive exact SVD computations. We conduct extensive experiments with several pre-trained models on natural language processing, question answering, and natural language generation to validate the effectiveness of AdaLoRA. Results demonstrate that AdaLoRA manifests notable improvement over baselines, especially in the low budget settings. Our code is publicly available at https://github.com/QingruZhang/AdaLoRA .
翻訳日:2023-03-21 18:49:16 公開日:2023-03-18
# 感情行動分析のための表現関連自己教師型学習の探索

Exploring Expression-related Self-supervised Learning for Affective Behaviour Analysis ( http://arxiv.org/abs/2303.10511v1 )

ライセンス: Link先を確認
Fanglei Xue, Yifan Sun, Yi Yang(参考訳) 本稿では,第5回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションにおける表現分類を行うために,表現関連自己教師型学習法(ContraWarping)を提案する。 影響のあるデータセットはアノテートするのに高価であり、SSLメソッドは大規模なラベルなしデータから学習することができる。 aff-wild2データセットの評価により, コントラワーピングは既存の教師あり手法よりも優れており, 感情分析領域において大きな応用可能性を示す。 コードは、https://github.com/youqingxiaozhua/ABAW5.comでリリースされる。

This paper explores an expression-related self-supervised learning (SSL) method (ContraWarping) to perform expression classification in the 5th Affective Behavior Analysis in-the-wild (ABAW) competition. Affective datasets are expensive to annotate, and SSL methods could learn from large-scale unlabeled data, which is more suitable for this task. By evaluating on the Aff-Wild2 dataset, we demonstrate that ContraWarping outperforms most existing supervised methods and shows great application potential in the affective analysis area. Codes will be released on: https://github.com/youqingxiaozhua/ABAW5.
翻訳日:2023-03-21 18:48:54 公開日:2023-03-18
# 音声駆動型音声合成のための拡散モデル

Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation ( http://arxiv.org/abs/2303.09119v2 )

ライセンス: Link先を確認
Lingting Zhu, Xian Liu, Xuanyu Liu, Rui Qian, Ziwei Liu, Lequan Yu(参考訳) 仮想アバターをアニメーションして音声ジェスチャーを作成することで、人間と機械の相互作用に様々な応用が期待できる。 既存の手法は主にGAN(Generative Adversarial Network)に依存しており、これは一般的に悪名高いモード崩壊と不安定なトレーニングに悩まされるため、正確なオーディオ・ジェスチャーの関節分布の学習が困難である。 本研究では,クロスモーダルな音声とジェスチャの関連を効果的に捉え,高忠実度音声駆動型ジェスチャ生成のための時間的コヒーレンスを保ちながら,拡散コペーチジェスチャ(diffgesture)という新しい拡散ベースフレームワークを提案する。 具体的には,まずスケルトンシーケンスと音声のクリップ上に拡散条件生成プロセスを確立し,フレームワーク全体を有効化する。 そして,複数のモーダルからの情報によりよく対応し,長期の時間依存性をモデル化するために,新しい拡散型音声ジェスチャ変換器が考案された。 さらに,時間的不整合を解消するために,アニールノイズサンプリング方式による有効拡散ジェスチャー安定化器を提案する。 拡散モデルのアーキテクチャ上の利点を活かして,多様性とジェスチャー品質をトレードオフする暗黙の分類子なし指導を取り入れた。 DiffGestureは、より優れたモードカバレッジとより強力な音声相関でコヒーレントなジェスチャーをレンダリングし、最先端のパフォーマンスを実現する。 コードはhttps://github.com/advocate99/diffgestureで入手できる。

Animating virtual avatars to make co-speech gestures facilitates various applications in human-machine interaction. The existing methods mainly rely on generative adversarial networks (GANs), which typically suffer from notorious mode collapse and unstable training, thus making it difficult to learn accurate audio-gesture joint distributions. In this work, we propose a novel diffusion-based framework, named Diffusion Co-Speech Gesture (DiffGesture), to effectively capture the cross-modal audio-to-gesture associations and preserve temporal coherence for high-fidelity audio-driven co-speech gesture generation. Specifically, we first establish the diffusion-conditional generation process on clips of skeleton sequences and audio to enable the whole framework. Then, a novel Diffusion Audio-Gesture Transformer is devised to better attend to the information from multiple modalities and model the long-term temporal dependency. Moreover, to eliminate temporal inconsistency, we propose an effective Diffusion Gesture Stabilizer with an annealed noise sampling strategy. Benefiting from the architectural advantages of diffusion models, we further incorporate implicit classifier-free guidance to trade off between diversity and gesture quality. Extensive experiments demonstrate that DiffGesture achieves state-of-theart performance, which renders coherent gestures with better mode coverage and stronger audio correlations. Code is available at https://github.com/Advocate99/DiffGesture.
翻訳日:2023-03-21 11:41:39 公開日:2023-03-18
# SLOPER4D:都市環境におけるグローバル4次元人文推定のためのシーンアウェアデータセット

SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in Urban Environments ( http://arxiv.org/abs/2303.09095v2 )

ライセンス: Link先を確認
Yudi Dai (1), Yitai Lin (1), Xiping Lin (2), Chenglu Wen (1), Lan Xu (2), Hongwei Yi (3), Siqi Shen (1), Yuexin Ma (2), Cheng Wang (1) ((1) Xiamen University, China, (2) ShanghaiTech University, China, (3) Max Planck Institute for Intelligent Systems, Germany)(参考訳) SLOPER4Dは、大都市環境下で収集され、地球規模の人間のポーズ推定(GHPE)と野生における人間とシーンの相互作用の研究を容易にする。 LiDARとカメラを統合したヘッドマウントデバイスを用いて、エゴセントリックな視点から10の都市シーンで12人の被験者の活動を記録する。 2Dキーポイント、3Dポーズパラメータ、グローバル翻訳のためのフレームワイドアノテーションと、再構成されたシーンポイントクラウドを提供する。 このような大きなダイナミックシーンにおいて正確な3Dグラウンド真理を得るために,局所的なSMPLメッシュをシーンに適合させ,フレームごとのダイナミックモーションフレーム中のカメラキャリブレーションを微調整する共同最適化手法を提案する。 最終的に、SLOPER4Dは15の人間の動きで構成され、それぞれ200メートル以上(最大1,300メートル)の軌道長を持ち、100K以上のLiDARフレーム、300kのビデオフレーム、500K IMUベースのモーションフレームを含む2,000ドルm^2$(最大13,000ドルm^2$)の領域をカバーする。 SLOPER4Dでは、都市環境におけるカメラベースの3D HPEとLiDARベースの3D HPEを含む2つの重要なタスクの詳細な分析と、新しいタスクであるGHPEのベンチマークを行う。 詳細な分析は、SLOPER4Dが既存の手法に重大な課題をもたらし、大きな研究機会を生み出していることを示している。 データセットとコードは \url{http://www.lidarhumanmotion.net/sloper4d/} でリリースされる。

We present SLOPER4D, a novel scene-aware dataset collected in large urban environments to facilitate the research of global human pose estimation (GHPE) with human-scene interaction in the wild. Employing a head-mounted device integrated with a LiDAR and camera, we record 12 human subjects' activities over 10 diverse urban scenes from an egocentric view. Frame-wise annotations for 2D key points, 3D pose parameters, and global translations are provided, together with reconstructed scene point clouds. To obtain accurate 3D ground truth in such large dynamic scenes, we propose a joint optimization method to fit local SMPL meshes to the scene and fine-tune the camera calibration during dynamic motions frame by frame, resulting in plausible and scene-natural 3D human poses. Eventually, SLOPER4D consists of 15 sequences of human motions, each of which has a trajectory length of more than 200 meters (up to 1,300 meters) and covers an area of more than 2,000 $m^2$ (up to 13,000 $m^2$), including more than 100K LiDAR frames, 300k video frames, and 500K IMU-based motion frames. With SLOPER4D, we provide a detailed and thorough analysis of two critical tasks, including camera-based 3D HPE and LiDAR-based 3D HPE in urban environments, and benchmark a new task, GHPE. The in-depth analysis demonstrates SLOPER4D poses significant challenges to existing methods and produces great research opportunities. The dataset and code are released at \url{http://www.lidarhumanmotion.net/sloper4d/}
翻訳日:2023-03-21 11:40:52 公開日:2023-03-18
# SemDeDup:セマンティック重複によるWebスケールのデータ効率学習

SemDeDup: Data-efficient learning at web-scale through semantic deduplication ( http://arxiv.org/abs/2303.09540v2 )

ライセンス: Link先を確認
Amro Abbas, Kushal Tirumala, D\'aniel Simig, Surya Ganguli, Ari S. Morcos(参考訳) 機械学習の進歩の大部分は、データの大幅な増加によるものだ。 しかしながら、laionのような大規模なwebスケールのデータセットは、正確な重複の検索以上のものが多く、冗長性が失われる可能性がある。 本稿では,semdedupについて紹介する。semdedupは,事前学習したモデルからの埋め込みを利用して意味的重複を識別し除去する手法である。 セマンティクスの重複を取り除くことは、パフォーマンスを保ち、学習をスピードアップする。 LAIONのサブセットを分析して、SemDeDupがパフォーマンス損失を最小限に抑え、トレーニング時間を半減できることを示す。 さらに、性能は分布から向上する。 また、部分的にキュレートされたデータセットであるc4でトレーニングされた言語モデルを分析することで、semdedupが以前のアプローチよりも改善され、効率が向上することを示した。 semdedupは、より少ないデータでモデルの学習を速くするために、品質埋め込みを利用する簡単な方法の例を提供する。

Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially leaving much redundancy. Here, we introduce SemDeDup, a method which leverages embeddings from pre-trained models to identify and remove semantic duplicates: data pairs which are semantically similar, but not exactly identical. Removing semantic duplicates preserves performance and speeds up learning. Analyzing a subset of LAION, we show that SemDeDup can remove 50% of the data with minimal performance loss, effectively halving training time. Moreover, performance increases out of distribution. Also, analyzing language models trained on C4, a partially curated dataset, we show that SemDeDup improves over prior approaches while providing efficiency gains. SemDeDup provides an example of how simple ways of leveraging quality embeddings can be used to make models learn faster with less data.
翻訳日:2023-03-21 11:30:53 公開日:2023-03-18
# NAISR: 解釈可能な形状表現のための3次元ニューラル付加モデル

NAISR: A 3D Neural Additive Model for Interpretable Shape Representation ( http://arxiv.org/abs/2303.09234v2 )

ライセンス: Link先を確認
Yining Jiao, Carlton Zdanski, Julia Kimbell, Andrew Prince, Cameron Worden, Samuel Kirse, Christopher Rutter, Benjamin Shields, William Dunn, Jisan Mahmud, Marc Niethammer(参考訳) 深暗黙の関数(DIF)は、3次元形状の再構成、生成、登録、完了、編集、理解といった多くのコンピュータビジョンタスクの強力なパラダイムとして登場した。 しかし、関連する共変量を持つ一連の3次元形状が与えられると、各共変量に対する個々の依存を捉えながら正確に形状を表現できる形状表現法は存在しない。 このような手法は、形状の集団に隠された知識を発見する研究者にとって有用である。 直交共変量の影響に応じて形状アトラスを変形させることにより個々の形状を記述した3次元ニューラル付加モデル(NAISR)を提案する。 このアプローチは形状人口の傾向を捉え、形状伝達を通じて患者固有の予測を可能にする。 NAISRは、深い暗黙の形状表現の利点を特定の共変量に従って変形するアトラスと組み合わせる最初のアプローチである。 我々の運転問題は気道アトラスの構築であるが、AISRは形状の個体群をモデル化し、表現し、調査するための一般的なアプローチである。 小児上気道の形状再構成, 形状異方性, 形状変化, 形状移動について, NAISRを評価した。 実験により,NAAISRは解釈可能性を維持しながら,競争力のある形状復元性能を実現することを示した。

Deep implicit functions (DIFs) have emerged as a powerful paradigm for many computer vision tasks such as 3D shape reconstruction, generation, registration, completion, editing, and understanding. However, given a set of 3D shapes with associated covariates there is at present no shape representation method which allows to precisely represent the shapes while capturing the individual dependencies on each covariate. Such a method would be of high utility to researchers to discover knowledge hidden in a population of shapes. We propose a 3D Neural Additive Model for Interpretable Shape Representation (NAISR) which describes individual shapes by deforming a shape atlas in accordance to the effect of disentangled covariates. Our approach captures shape population trends and allows for patient-specific predictions through shape transfer. NAISR is the first approach to combine the benefits of deep implicit shape representations with an atlas deforming according to specified covariates. Although our driving problem is the construction of an airway atlas, NAISR is a general approach for modeling, representing, and investigating shape populations. We evaluate NAISR with respect to shape reconstruction, shape disentanglement, shape evolution, and shape transfer for the pediatric upper airway. Our experiments demonstrate that NAISR achieves competitive shape reconstruction performance while retaining interpretability.
翻訳日:2023-03-21 11:29:32 公開日:2023-03-18