このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221216となっている論文です。

PDF登録状況(公開日: 20221216)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子位相空間における線の形成について

On the Formation of Lines in Quantum Phase Space ( http://arxiv.org/abs/2010.07654v3 )

ライセンス: Link先を確認
Ole Steuernagel, Popo Yang and Ray-Kuang Lee(参考訳) ウィグナー分布wにおける位相空間における線の形成について検討する。 古典的なシステムでは位相空間の直線は形成されないが、特別な初期状態が選択されない限り、系の大きなクラスや量子系の初期状態に対して、$W$は位相空間を横切る直線パターンを形成する傾向にある。 これらは国家の一貫性から生じる。 これらの路線の中には驚くべき範囲があり、州全体に達している。 このような直線パターンの形成は「ランダム化された格子状態」の形成によるものであることを示す。 我々は、摂動に対する安定性を確立し、構成空間における干渉現象と関連している。 さらに、より特定の正規格子状態の形成を必要とするため、位相空間における一般的な高次「眼」パターンも少なく、また、眼のパターンのランダム化が線に変形する傾向があることを示す。

We study the formation of lines in phase space in Wigner's distribution $W.$ Whereas lines in phase space do not form in classical systems, unless special initial states are chosen, we find, for large classes of systems and initial states of quantum systems that $W$ tends to form straight line patterns crisscrossing phase space. These arise from the states' coherences. Some of those lines have astonishing extent, reaching across the entire state. We show that the formation of such straight line patterns is due to the formation of 'randomized grid states'. We establish their stability to perturbations, and that they are tied to interference phenomena in configuration space. We additionally identify generic higher-order `eye' patterns in phase space which occur less often since they require the formation of more specific regular grid states; and we show that the randomization of eye patterns tends to deform them into lines.
翻訳日:2023-04-29 00:35:42 公開日:2022-12-16
# 有限サイズ解析によるDIQKDプロトコルの改良

Improved DIQKD protocols with finite-size analysis ( http://arxiv.org/abs/2012.08714v4 )

ライセンス: Link先を確認
Ernest Y.-Z. Tan, Pavel Sekatski, Jean-Daniel Bancal, Ren\'e Schwonnek, Renato Renner, Nicolas Sangouard, Charles C.-W. Lim(参考訳) 有限長鍵のセキュリティは、デバイス独立量子鍵分布(DIQKD)の実装に不可欠である。 現在、いくつかの有限サイズDIQKDセキュリティ証明があるが、それらは主に標準DIQKDプロトコルに焦点を当てており、ノイズ前処理、ランダムキー測定、修正CHSH不等式に基づく最近の改良DIQKDプロトコルに直接適用されない。 ここでは、これらのアプローチを同時に包含できる一般的な有限サイズセキュリティ証明を、以前の解析よりも厳密な有限サイズ境界を用いて提供する。 そこで我々は,このようなDIQKDプロトコルに対する漸近的鍵レートの厳密な下限をバイナリ入力と出力で計算する手法を開発した。 これにより、前述した全てのノイズ閾値を超え、9.33 %$のノイズを非偏極化できることを示す。 また,プレシェードシードと"シードリカバリ"ステップを用いてランダムキー測定プロトコルを改良し,シフティング係数を本質的に除去することで,ネットキー生成率を大幅に向上させる。 また,デバイスに依存しないランダム性拡張のキーレートも向上する可能性がある。

The security of finite-length keys is essential for the implementation of device-independent quantum key distribution (DIQKD). Presently, there are several finite-size DIQKD security proofs, but they are mostly focused on standard DIQKD protocols and do not directly apply to the recent improved DIQKD protocols based on noisy preprocessing, random key measurements, and modified CHSH inequalities. Here, we provide a general finite-size security proof that can simultaneously encompass these approaches, using tighter finite-size bounds than previous analyses. In doing so, we develop a method to compute tight lower bounds on the asymptotic keyrate for any such DIQKD protocol with binary inputs and outputs. With this, we show that positive asymptotic keyrates are achievable up to depolarizing noise values of $9.33\%$, exceeding all previously known noise thresholds. We also develop a modification to random-key-measurement protocols, using a pre-shared seed followed by a "seed recovery" step, which yields substantially higher net key generation rates by essentially removing the sifting factor. Some of our results may also improve the keyrates of device-independent randomness expansion.
翻訳日:2023-04-20 11:29:57 公開日:2022-12-16
# 量子ゲーム理論と量子ナッシュ平衡近似の複雑性

Quantum game theory and the complexity of approximating quantum Nash equilibria ( http://arxiv.org/abs/2102.00512v2 )

ライセンス: Link先を確認
John Bostanci and John Watrous(参考訳) 本稿では,量子情報を処理・交換する有理エージェント間の戦略的相互作用をモデル化する量子ゲーム理論の一般定式化の複雑性論的側面について述べる。 特に、幅広い種類の量子ゲームにおいて近似的なナッシュ均衡を求める計算問題は、古典ゲームにおける類似問題と同様に、複雑性クラスPPADに含まれる(従って完全である)ことを証明する。 この包含を促進する主な技術貢献は、計算ゲーム理論の先行手法を半定値プログラムによって特徴づけられる戦略空間へ拡張することである。

This paper is concerned with complexity theoretic aspects of a general formulation of quantum game theory that models strategic interactions among rational agents that process and exchange quantum information. In particular, we prove that the computational problem of finding an approximate Nash equilibrium in a broad class of quantum games is, like the analogous problem for classical games, included in (and therefore complete for) the complexity class PPAD. Our main technical contribution, which facilitates this inclusion, is an extension of prior methods in computational game theory to strategy spaces that are characterized by semidefinite programs.
翻訳日:2023-04-13 04:59:19 公開日:2022-12-16
# 混合系の固有状態からの正準密度行列

Canonical density matrices from eigenstates of mixed systems ( http://arxiv.org/abs/2103.05974v2 )

ライセンス: Link先を確認
Mahdi Kourehpaz, Stefan Donsa, Fabian Lackner, Joachim Burgd\"orfer, and Iva B\v{r}ezinov\'a(参考訳) 統計力学の基礎の1つの重要な問題は、孤立および閉量子系における平衡アンサンブルの出現である。 近年、大質量量子多体系の熱力学(n\rightarrow\infty$)限界において、ほぼすべての純状態から小さなサブシステムに対して標準密度行列が現れると予測されている。 この標準的典型性の概念は、サブシステムと環境の間の絡み合いと、結果として生じる多体状態の固有量子複雑性に由来すると仮定される。 個々の固有状態に対して、局所観測性は固有状態熱化仮説が成立すれば熱的性質を示すことが示されており、量子カオスである必要がある。 本稿では,混合位相空間の量子アナログ系における熱状態の出現について検討する。 具体的には,不純物の正準密度行列の出現と,不純物が埋め込まれた大きな量子系の孤立エネルギー固有状態からの減少について検討する。 我々のシステムは、量子積分性から量子カオスへの1つのパラメータで調整することができ、混合量子位相空間を持つシステムと一致する。 有限多体系のエネルギー固有状態のアンサンブルを低減する際に正準密度行列を求める確率は、量子カオスの度合いによって定量的に制御および調整可能であることを示す。 量子積分可能性から量子カオスへの移行について、正準固有状態の分数とブロディパラメータやシャノンエントロピーによって測定されるカオス性の度数の間の連続的で普遍的な関係(すなわちサイズ独立)を見出す。

One key issue of the foundation of statistical mechanics is the emergence of equilibrium ensembles in isolated and closed quantum systems. Recently, it was predicted that in the thermodynamic ($N\rightarrow\infty$) limit of large quantum many-body systems canonical density matrices emerge for small subsystems from almost all pure states. This notion of canonical typicality is assumed to originate from the entanglement between subsystem and environment and the resulting intrinsic quantum complexity of the many-body state. For individual eigenstates it has been shown that local observables show thermal properties provided the eigenstate thermalization hypothesis holds, which requires the system to be quantum chaotic. In the present paper, we study the emergence of thermal states in the regime of a quantum analog of a mixed phase space. Specifically, we study the emergence of the canonical density matrix of an impurity upon reduction from isolated energy eigenstates of a large but finite quantum system the impurity is embedded in. Our system can be tuned by means of a single parameter from quantum integrability to quantum chaos and corresponds in between to a system with mixed quantum phase space. We show that the probability for finding a canonical density matrix when reducing the ensemble of energy eigenstates of the finite many-body system can be quantitatively controlled and tuned by the degree of quantum chaos present. For the transition from quantum integrability to quantum chaos we find a continuous and universal (i.e. size independent) relation between the fraction of canonical eigenstates and the degree of chaoticity as measured by the Brody parameter or the Shannon entropy.
翻訳日:2023-04-08 13:41:24 公開日:2022-12-16
# 積分曲線が測地線であるキリングベクトルによって与えられる運動量作用素について

On momentum operators given by Killing vectors whose integral curves are geodesics ( http://arxiv.org/abs/2105.14345v4 )

ライセンス: Link先を確認
Thomas Sch\"urmann(参考訳) 固有曲線多様体上の運動量作用素を考える。 運動量作用素が積分曲線が測地線であるベクトル場をキリングしていることから、対応する多様体は平坦か、正の定数断面曲率と次元が 1, 3 または 7 に等しいコンパクト型のいずれかであることが示されている。 運動量作用素と関連するカシミール要素の明示的な表現は、3次元球面 $s^3$ で議論される。 基礎となるリー環の構造定数は、$R$ が $S^3$ の曲率半径であるような 2\hbar/R$ に比例することが検証される。 これにより、自由移動粒子の可算エネルギーと運動量スペクトルは$s^3$ となる。 可能なモーメントの最大分解能はド・ブロイ波の長さ $\lambda_r=\pi r$ によって与えられることが示され、これは多様体の直径と同じである。 対応する共変位置作用素は測地座標で定義され、位置と運動量の関連する可換関係が確立される。

We consider momentum operators on intrinsically curved manifolds. Given that the momentum operators are Killing vector fields whose integral curves are geodesics, it is shown that the corresponding manifold is either flat, or otherwise of compact type with positive constant sectional curvature and dimension equal to 1, 3 or 7. Explicit representations of momentum operators and the associated Casimir element will be discussed for the 3-sphere $S^3$. It will be verified that the structure constants of the underlying Lie algebra are proportional to $2\hbar/R$, where $R$ is the curvature radius of $S^3$. This results in a countable energy and momentum spectrum of freely moving particles in $S^3$. It is shown that the maximum resolution of the possible momenta is given by the de-Broglie wave length $\lambda_R=\pi R$, which is identical to the diameter of the manifold. The corresponding covariant position operators are defined in terms of geodesic normal coordinates and the associated commutator relations of position and momentum are established.
翻訳日:2023-03-28 12:04:43 公開日:2022-12-16
# 変分量子アルゴリズムにおける普遍的ノイズ予測関係

Universal noise-precision relations in variational quantum algorithms ( http://arxiv.org/abs/2106.03390v3 )

ライセンス: Link先を確認
Kosuke Ito, Wataru Mizukami, Keisuke Fujii(参考訳) 変分量子アルゴリズム(VQA)は、近時雑音量子コンピュータの実用的応用として期待されている。 ノイズの効果はVQAが機能するか否かを決定づけるが、VQAのヒューリスティックな性質は解析理論の確立を困難にしている。 ノイズの影響に関する解析的な推定は、従来のコンピュータ上のノイズ量子コンピュータの数値シミュレーションは重く、小規模の問題にかなり制限されるため、量子効果の探索に緊急である。 本稿では,ノイズによるVQAのコスト関数の誤差を解析的に推定する。 この推定はガウス雑音下の任意の典型的なvqaに適用できるが、これは確率的ノイズモデルのクラスと同値である。 特に、このモデルには脱分極ノイズが含まれている。 その結果、必要な精度を保証するためにノイズレベルの推定値が得られる。 本定式は,コスト関数のヘシアン,対象作用素のスペクトル,およびアンザッツの幾何学が雑音に対する感度にどのように影響するかを示す。 この洞察は、トレーサビリティとコスト関数のノイズレジリエンスの間のトレードオフ関係を示唆する。 また,コスト関数の詳細な情報なしに容易に計算できる大まかな推定値を求める。 この式の適用のハイライトとして,外挿法や確率的誤差キャンセラ法とは異なる量子誤差緩和法を提案する。

Variational quantum algorithms (VQAs) are expected to become a practical application of near-term noisy quantum computers. Although the effect of the noise crucially determines whether a VQA works or not, the heuristic nature of VQAs makes it difficult to establish analytic theories. Analytic estimations of the impact of the noise are urgent for searching for quantum advantages, as numerical simulations of noisy quantum computers on classical computers are heavy and quite limited to small scale problems. In this paper, we establish analytic estimations of the error in the cost function of VQAs due to the noise. The estimations are applicable to any typical VQAs under the Gaussian noise, which is equivalent to a class of stochastic noise models. Notably, the depolarizing noise is included in this model. As a result, we obtain estimations of the noise level to guarantee a required precision. Our formulae show how the Hessian of the cost function, the spectrum of the target operator, and the geometry of the ansatz affect the sensitivity to the noise. This insight implies trade-off relations between the trainability and the noise resilience of the cost function. We also obtain rough estimations which can be easily calculated without detailed information of the cost function. As a highlight of the applications of the formula, we propose a quantum error mitigation method which is different from the extrapolation and the probabilistic error cancellation.
翻訳日:2023-03-27 09:14:27 公開日:2022-12-16
# 絡み合いのないチャネルの量子化

Quantifying Quantumness of Channels Without Entanglement ( http://arxiv.org/abs/2106.15784v5 )

ライセンス: Link先を確認
Huan-Yu Ku, Josef Kadlec, Anton\'in \v{C}ernoch, Marco T\'ulio Quintino, Wenbin Zhou, Karel Lemr, Neill Lambert, Adam Miranowicz, Shin-Liang Chen, Franco Nori, Yueh-Nan Chen(参考訳) エンタングルメントを破る量子チャネル、非競合性または非局所性は、それぞれエンタングルメントベース、片側デバイス非依存、またはデバイス非依存の量子情報処理に役立たないため定義される。 ここでは, 時間的分離性, チャネルの不安定性, 時間的不安定性, 時間的ベルの不等式など, マクロリアリズムの相補的テストと関連していることを示す。 これは概念的には絡み合いや非局所性破壊チャネルと似ており、非可逆性破壊チャネルと同一であることを証明している。 時間的および空間的量子相関に対する既存の階層関係と同様に、量子非破壊チャネルの階層が導出される。 次に,時間的相関を破るチャネルの概念を導入し,それらが標準的破断チャネルとどのように関連しているかを説明し,(1)非絡み合い破断チャネルのロバスト性に基づく尺度を時間的非分離性によって探究できることを示す。 2) チャネルステアリングにより非ステアビリティ破壊チャネルを定量化することができる。 3) 時間的ステアビリティと非マクロレアリスムは,最大絡み合い状態の単位的ステアビリティブレーキングチャネルと非局所性ブレーキングチャネルとをそれぞれ区別するために使用できる。 最後に、時間的量子相関を用いた非破壊チャネルの階層関係を示すために、2次元分極チャネルを実例として実験的に実装する。

Quantum channels breaking entanglement, incompatibility, or nonlocality are defined as such because they are not useful for entanglement-based, one-sided device-independent, or device-independent quantum information processing, respectively. Here, we show that such breaking channels are related to complementary tests of macrorealism i.e., temporal separability, channel unsteerability, temporal unsteerability, and the temporal Bell inequality. To demonstrate this we first define a steerability-breaking channel, which is conceptually similar to entanglement and nonlocality-breaking channels and prove that it is identical to an incompatibility-breaking channel. A hierarchy of quantum non-breaking channels is derived, akin to the existing hierarchy relations for temporal and spatial quantum correlations. We then introduce the concept of channels that break temporal correlations, explain how they are related to the standard breaking channels, and prove the following results: (1) A robustness-based measure for non-entanglement-breaking channels can be probed by temporal nonseparability. (2) A non-steerability-breaking channel can be quantified by channel steering. (3) Temporal steerability and non-macrorealism can be used for, respectively, distinguishing unital steerability-breaking channels and nonlocality-breaking channels for a maximally entangled state. Finally, a two-dimensional depolarizing channel is experimentally implemented as a proof-of-principle example to demonstrate the hierarchy relation of non-breaking channels using temporal quantum correlations
翻訳日:2023-03-24 08:32:53 公開日:2022-12-16
# 量子論への幾何学的アプローチにおける散乱

Scattering in geometric approach to quantum theory ( http://arxiv.org/abs/2107.08557v3 )

ライセンス: Link先を確認
Albert Schwarz(参考訳) 量子場理論に対する幾何学的アプローチの枠組みにおいて包括的散乱行列を定義する。 代数的アプローチにおける散乱理論の定義を概観し,幾何学的アプローチの定義と関連付ける。

We define inclusive scattering matrix in the framework of geometric approach to quantum field theory . We review the definitions of scattering theory in the algebraic approach and relate them to the definitions in geometric approach.
翻訳日:2023-03-21 23:10:40 公開日:2022-12-16
# 重力赤方偏移は量子干渉を引き起こす

Gravitational redshift induces quantum interference ( http://arxiv.org/abs/2109.00728v2 )

ライセンス: Link先を確認
David Edward Bruschi and Andreas W. Schell(参考訳) 曲面時空における量子場理論を用いて、重力赤方偏移が光子を伝播する量子状態のユニタリ変換を誘導することを示した。 これは有限帯域幅で特徴づけられる現実的な光子に対して起こり、鋭い周波数の理想光子は一元的に変換されない。 この変換はモード混合動作であり、2つの光子の状態に香港・マンデルのような干渉効果を誘導する重力を利用するプロトコルを考案する。 この研究の結果をテストすることは、曲がった時空における場の量子論のデモンストレーションを提供することができる。

We use quantum field theory in curved spacetime to show that gravitational redshift induces a unitary transformation on the quantum state of propagating photons. This occurs for realistic photons characterized by a finite bandwidth, while ideal photons with sharp frequencies do not transform unitarily. We find that the transformation is a mode-mixing operation, and we devise a protocol that exploits gravity to induce a Hong-Ou-Mandel-like interference effect on the state of two photons. Testing the results of this work can provide a demonstration of quantum field theory in curved spacetime.
翻訳日:2023-03-16 08:42:56 公開日:2022-12-16
# $\mathcal{Z}_{2}$ ${\cal EEFT}$における回路複雑性

Circuit Complexity in $\mathcal{Z}_{2}$ ${\cal EEFT}$ ( http://arxiv.org/abs/2109.09759v5 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury, Sourabh Kumar, Saptarshi Mandal, Nilesh Pandey, Abhishek Roy, Soumya Sarkar, Partha Sarker, Saadat Salman Shariff(参考訳) 弱い相互作用を持つスカラー場理論における回路複雑性の最近の研究により、回路複雑性の計算を$\mathcal{Z}_2$ Even Effective Field Theories$\mathcal{Z}_2$ EEFTsで調べる。 我々は、計算を容易にするために$\phi^{4}$、$\phi^{6}$、$\phi^8.$のような高階のウィルソン作用素を持つ巨大な自由場理論を考える。 まず、2つの発振器の単純な場合を考え、その結果を$n$発振器に一般化する。 この研究はほとんどのガウス諸国で行われている。 我々の計算では、基準状態はおよそガウス的非絡み合い状態であり、対応する対象状態は、我々の理論から計算され、およそガウス的絡み合い状態である。 ニールセンが開発した幾何学的手法を用いて,経路順序ユニタリ変換をパラメータ化し,ユニタリ空間における測地線を最小化する。 本理論における高階作用素の回路複雑性への寄与について考察した。 また,様々なケースにおいて,他のパラメータとの複雑性の依存性についても検討する。

Motivated by recent studies of circuit complexity in weakly interacting scalar field theory, we explore the computation of circuit complexity in $\mathcal{Z}_2$ Even Effective Field Theories ($\mathcal{Z}_2$ EEFTs). We consider a massive free field theory with higher-order Wilsonian operators such as $\phi^{4}$, $\phi^{6}$ and $\phi^8.$ To facilitate our computation we regularize the theory by putting it on a lattice. First, we consider a simple case of two oscillators and later generalize the results to $N$ oscillators. The study has been carried out for nearly Gaussian states. In our computation, the reference state is an approximately Gaussian unentangled state, and the corresponding target state, calculated from our theory, is an approximately Gaussian entangled state. We compute the complexity using the geometric approach developed by Nielsen, parameterizing the path ordered unitary transformation and minimizing the geodesic in the space of unitaries. The contribution of higher-order operators, to the circuit complexity, in our theory has been discussed. We also explore the dependency of complexity with other parameters in our theory for various cases.
翻訳日:2023-03-14 05:19:17 公開日:2022-12-16
# オープンキュービットシステムの非時間局所および絡み合いダイナミクスの分類

Classifying the non-time-local and entangling dynamics of an open qubit system ( http://arxiv.org/abs/2201.07080v2 )

ライセンス: Link先を確認
Sean Prudhoe and Sarah Shandera(参考訳) 対称性の異なる相互作用から生成される動的写像の族を研究する。 時間に依存しないハミルトニアンの族に対して、対称性、強結合、完全エンタングル、非マルコフ的特徴、非時間局所性の関係を示す。 初期環境状態を摂動させることで,非特異な非単元的特徴を捉えた効率的な時間局所記述が得られることを示す。 次に、静止自由度を活性化することにより対称性の度合いを変化させる時間依存ハミルトニアンを考える。 この例では、1ビット還元力学が劇的に変化する。 これらの結果は、より大きな系力学が未知の場合、開系の有効理論の構築を知らせることができる。

We study families of dynamical maps generated from interactions with varying degrees of symmetry. For a family of time-independent Hamiltonians, we demonstrate the relationship between symmetry, strong-coupling, perfect entanglers, non-Markovian features, and non-time-locality. We show that by perturbing the initial environment state, effective time-local descriptions can be obtained that are non-singular yet capture essential non-unitary features of the reduced dynamics. We then consider a time-dependent Hamiltonian that changes the degree of symmetry by activating a dormant degree of freedom. In this example we find that the one-qubit reduced dynamics changes dramatically. These results can inform the construction of effective theories of open systems when the larger system dynamics is unknown.
翻訳日:2023-02-28 20:37:57 公開日:2022-12-16
# GatorTron:未構造化の電子カルテから患者の情報をアンロックする大規模臨床言語モデル

GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records ( http://arxiv.org/abs/2203.03540v3 )

ライセンス: Link先を確認
Xi Yang, Aokun Chen, Nima PourNejatian, Hoo Chang Shin, Kaleb E Smith, Christopher Parisien, Colin Compas, Cheryl Martin, Mona G Flores, Ying Zhang, Tanja Magoc, Christopher A Harle, Gloria Lipori, Duane A Mitchell, William R Hogan, Elizabeth A Shenkman, Jiang Bian, Yonghui Wu(参考訳) 電子健康記録(EHR)の処理と解釈を行う人工知能(AI)システムの開発への関心が高まっている。 言語モデルを用いた自然言語処理(NLP)は、臨床物語を利用した医療AIシステムの鍵となる技術である。 しかし、臨床言語モデルはほとんど存在せず、臨床領域で訓練された最大のものは、1億1千万のパラメータ(一般領域では数十億のパラメータに比較)で比較的小さい。 何十億ものパラメータを持つ大規模臨床言語モデルが、医療AIシステムが非構造化のEHRを利用するのにどの程度役立つかは明らかではない。 本研究では,900億語以上のテキストを用いた大規模臨床言語モデルであるGatorTronをスクラッチから開発し,臨床概念抽出,医療関係抽出,意味的テキスト類似性,自然言語推論(NLI),医療質問応答(MQA)を含む5つの臨床NLPタスクで体系的に評価する。 本研究では,(1)パラメータのスケールアップ,(2)トレーニングデータのスケールアップがNLPタスクにどのように役立つかを検討する。 GatorTronモデルは、臨床言語モデルを1億1000万から890億のパラメータにスケールアップし、5つの臨床NLPタスク(例えば、NLIとMQAの精度が9.6%、9.5%向上)を改善し、医療AIシステムに適用してヘルスケアデリバリーを改善する。 GatorTronモデルは、https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_ogで公開されている。

There is an increasing interest in developing artificial intelligence (AI) systems to process and interpret electronic health records (EHRs). Natural language processing (NLP) powered by pretrained language models is the key technology for medical AI systems utilizing clinical narratives. However, there are few clinical language models, the largest of which trained in the clinical domain is comparatively small at 110 million parameters (compared with billions of parameters in the general domain). It is not clear how large clinical language models with billions of parameters can help medical AI systems utilize unstructured EHRs. In this study, we develop from scratch a large clinical language model - GatorTron - using >90 billion words of text (including >82 billion words of de-identified clinical text) and systematically evaluate it on 5 clinical NLP tasks including clinical concept extraction, medical relation extraction, semantic textual similarity, natural language inference (NLI), and medical question answering (MQA). We examine how (1) scaling up the number of parameters and (2) scaling up the size of the training data could benefit these NLP tasks. GatorTron models scale up the clinical language model from 110 million to 8.9 billion parameters and improve 5 clinical NLP tasks (e.g., 9.6% and 9.5% improvement in accuracy for NLI and MQA), which can be applied to medical AI systems to improve healthcare delivery. The GatorTron models are publicly available at: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.
翻訳日:2023-02-27 00:57:21 公開日:2022-12-16
# 集積回路における多光子分割状態の複素構造とキャラクタリゼーション

Complex structure and characterization of multi-photon split states in integrated circuits ( http://arxiv.org/abs/2203.06368v2 )

ライセンス: Link先を確認
Jihua Zhang and Andrey A. Sukhorukov(参考訳) それぞれの光子が異なる空間モードにある多光子分裂状態は、様々な量子アプリケーションにとって不可欠な資源であるが、それらの効率的な特性は未解決の問題である。 ここでは、空間密度行列の一般構造を定式化し、実数および複素値独立係数の個数を同定し、特に全ての光子の識別性を完全に決定する。 そこで, この密度行列は, 光子干渉後, 必要な出力が光子数に対して2次にスケールする静的集積回路において, 相関性を測定することで, 完全に評価できることを示す。 本稿では、線形光ニューラルネットワークを表すセグメント結合導波路からなる回路設計を最適化し、再構成誤差を最小化し、製造偏差に対するロバスト性を容易にする回路設計を提案する。

Multi-photon split states, where each photon is in a different spatial mode, represent an essential resource for various quantum applications, yet their efficient characterization remains an open problem. Here, we formulate the general structure of their reduced spatial density matrices and identify the number of real and complex-valued independent coefficients, which in particular completely determine the distinguishability of all photons. Then, we show that this density matrix can be fully characterized by measuring correlations after photon interference in a static integrated circuit, where the required outputs scale sub-quadratically versus the number of photons. We present optimized circuit designs composed of segmented coupled waveguides, representing a linear optical neural network, which minimize the reconstruction error and facilitate robustness to fabrication deviations.
翻訳日:2023-02-22 07:26:40 公開日:2022-12-16
# 自動運転車の倫理的軌道計画アルゴリズム

An Ethical Trajectory Planning Algorithm for Autonomous Vehicles ( http://arxiv.org/abs/2212.08577v1 )

ライセンス: Link先を確認
Maximilian Geisslinger, Franziska Poszler, Markus Lienkamp(参考訳) AIと自動化の台頭により、道徳的な決定は、以前は人間の保護であったアルゴリズムの手に置かれている。 自律運転では、倫理的な意味を持つ様々な決定が行動計画や軌道計画のためのアルゴリズムによってなされる。 そこで我々は,道路利用者間のリスクの公平分布を目的とした倫理的軌道計画アルゴリズムを提案する。 私たちの実施には,リスク全体の最小化,最悪の場合の優先度,人々の平等な待遇,責任,許容できるリスクの最大化という,5つの基本的な倫理原則が組み込まれています。 著者の知る限りでは、これはEU委員会専門家グループによる20の勧告に沿った自動運転車の軌道計画のための最初の倫理的アルゴリズムであり、様々な交通状況に適用可能である。 アルゴリズムの倫理的振る舞いを選択シナリオで紹介し,2000シナリオにおける倫理的原則の実証的分析を行った。 この研究で使用されたコードは、オープンソースソフトウェアとして利用可能である。

With the rise of AI and automation, moral decisions are being put into the hands of algorithms that were formerly the preserve of humans. In autonomous driving, a variety of such decisions with ethical implications are made by algorithms for behavior and trajectory planning. Therefore, we present an ethical trajectory planning algorithm with a framework that aims at a fair distribution of risk among road users. Our implementation incorporates a combination of five essential ethical principles: minimization of the overall risk, priority for the worst-off, equal treatment of people, responsibility, and maximum acceptable risk. To the best of the authors' knowledge, this is the first ethical algorithm for trajectory planning of autonomous vehicles in line with the 20 recommendations from the EU Commission expert group and with general applicability to various traffic situations. We showcase the ethical behavior of our algorithm in selected scenarios and provide an empirical analysis of the ethical principles in 2000 scenarios. The code used in this research is available as open-source software.
翻訳日:2023-02-19 13:06:17 公開日:2022-12-16
# we are a startup to the core": a qualitative interview study on the security and privacy development practice in turkey software startups

"We are a startup to the core": A qualitative interview study on the security and privacy development practices in Turkish software startups ( http://arxiv.org/abs/2212.08396v1 )

ライセンス: Link先を確認
Dilara Kek\"ull\"uo\u{g}lu and Yasemin Acar(参考訳) セキュリティとプライバシはソフトウェア開発では無視されることが多い。 この洞察は一般に研究者による研究と、アメリカ、ヨーロッパ、イギリスで生活し働いている開発者集団に基づいている。 しかし、ソフトウェアの生産はグローバルであり、重要な技術ハブにおける重要な人口は十分に研究されていない。 トルコのソフトウェアスタートアップシーンはインパクトに富み、ソフトウェアセキュリティとプライバシーに関する理解、知識、および軽減策は未検討のままである。 この研究ギャップを埋めるために、トルコのソフトウェアスタートアップで働く16人の開発者を対象に、半構造化されたインタビュー調査を行った。 インタビュー研究の目標は、開発者が自分のソフトウェアが安全であることを保証し、ユーザのプライバシを維持するかどうかと方法を分析することだった。 私たちのおもな発見は,認識やスキル,リソースが不足しているため,セキュリティやプライバシを優先することがほとんどない,という点です。 規制がセキュリティとプライバシにポジティブな影響を与えることが分かっています。 この研究に基づいて、業界、個人開発者、研究、教育者、規制当局への勧告を発行する。 私たちのレコメンデーションは、ソフトウェア開発におけるセキュリティとプライバシに対するよりグローバルなアプローチを示すことができます。

Security and privacy are often neglected in software development, and rarely a priority for developers. This insight is commonly based on research conducted by researchers and on developer populations living and working in the United States, Europe, and the United Kingdom. However, the production of software is global, and crucial populations in important technology hubs are not adequately studied. The software startup scene in Turkey is impactful, and comprehension, knowledge, and mitigations related to software security and privacy remain understudied. To close this research gap, we conducted a semi-structured interview study with 16 developers working in Turkish software startups. The goal of the interview study was to analyze if and how developers ensure that their software is secure and preserves user privacy. Our main finding is that developers rarely prioritize security and privacy, due to a lack of awareness, skills, and resources. We find that regulations can make a positive impact on security and privacy. Based on the study, we issue recommendations for industry, individual developers, research, educators, and regulators. Our recommendations can inform a more globalized approach to security and privacy in software development.
翻訳日:2023-02-19 13:05:51 公開日:2022-12-16
# AIのリスクに対する3つの防衛線

Three lines of defense against risks from AI ( http://arxiv.org/abs/2212.08364v1 )

ライセンス: Link先を確認
Jonas Schuett(参考訳) 人工知能(AI)システムの開発と展開を行う組織は、経済的、法的、倫理的な理由から、関連するリスクを管理する必要がある。 しかし、AIリスク管理の責任者が誰であるかは必ずしも明確ではない。 多くの業界でベストプラクティスと考えられている3行の防御(3lod)モデルは、解決策を提供するかもしれない。 リスク管理のフレームワークであり、組織がリスク管理の役割と責任を割り当て、調整するのに役立ちます。 この記事では、ai企業がモデルを実装する方法を提案します。 リスクカバレッジのギャップを特定し、閉じたり、リスク管理プラクティスの有効性を高めたり、取締役会がより効果的に管理を監督できるようになります。 この記事は、主要なAI企業、規制当局、標準設定機関の意思決定者に通知することを目的としている。

Organizations that develop and deploy artificial intelligence (AI) systems need to manage the associated risks - for economic, legal, and ethical reasons. However, it is not always clear who is responsible for AI risk management. The Three Lines of Defense (3LoD) model, which is considered best practice in many industries, might offer a solution. It is a risk management framework that helps organizations to assign and coordinate risk management roles and responsibilities. In this article, I suggest ways in which AI companies could implement the model. I also discuss how the model could help reduce risks from AI: it could identify and close gaps in risk coverage, increase the effectiveness of risk management practices, and enable the board of directors to oversee management more effectively. The article is intended to inform decision-makers at leading AI companies, regulators, and standard-setting bodies.
翻訳日:2023-02-19 13:05:25 公開日:2022-12-16
# 音楽における関係の再定義

Redefining Relationships in Music ( http://arxiv.org/abs/2212.08038v2 )

ライセンス: Link先を確認
Christian Detweiler, Beth Coleman, Fernando Diaz, Lieke Dom, Chris Donahue, Jesse Engel, Cheng-Zhi Anna Huang, Larry James, Ethan Manilow, Amanda McCroskery, Kyle Pedersen, Pamela Peter-Agbia, Negar Rostamzadeh, Robert Thomas, Marco Zamarato, Ben Zevenbergen(参考訳) AIツールは、音楽を発見し、作り、体験する方法をますます形作る。 これらのツールはクリエイティビティを向上する可能性があるが、利害関係者間の関係を根本的に再定義し、一部の利害関係者の利益と他人の負担を減らしかねない。 本稿では,これらのツールが音楽文化を根本的に再構築し,創造者,消費者,そしてしばしば結びついている商業企業に対して(良くも悪くも)大きな影響を与えることを論じる。 新たな音楽AI技術や他のクリエイティブ分野の発展に注意を払って、その意味を理解することで、この分野で働く人々は、音楽の実践、消費、意味に対するネガティブな影響を減らすことができる。 これらの技術の多くが既に利用可能であることを考えると、現在これらの技術の分析を行うには緊急性がある。 これらのツールを開発し、開発する人々がこれらの問題に対処し、彼らの進化を平等にし、創造性を高めるのに役立つことが重要です。 音楽のための既存のAIツールに関連する潜在的なリスクと機会を特定するが、リスクを軽減しながら機会を活用する具体的な行動を特定するには、より多くの作業が必要である。

AI tools increasingly shape how we discover, make and experience music. While these tools can have the potential to empower creativity, they may fundamentally redefine relationships between stakeholders, to the benefit of some and the detriment of others. In this position paper, we argue that these tools will fundamentally reshape our music culture, with profound effects (for better and for worse) on creators, consumers and the commercial enterprises that often connect them. By paying careful attention to emerging Music AI technologies and developments in other creative domains and understanding the implications, people working in this space could decrease the possible negative impacts on the practice, consumption and meaning of music. Given that many of these technologies are already available, there is some urgency in conducting analyses of these technologies now. It is important that people developing and working with these tools address these issues now to help guide their evolution to be equitable and empower creativity. We identify some potential risks and opportunities associated with existing and forthcoming AI tools for music, though more work is needed to identify concrete actions which leverage the opportunities while mitigating risks.
翻訳日:2023-02-19 13:04:34 公開日:2022-12-16
# Proof Blocks Versus Writing Proofs の学習効率

Efficiency of Learning from Proof Blocks Versus Writing Proofs ( http://arxiv.org/abs/2211.09609v2 )

ライセンス: Link先を確認
Seth Poulsen, Yael Gertner, Benjamin Cosman, Matthew West, Geoffrey L. Herman(参考訳) Proof Blocksは、学生がスクラッチから始めるのではなく、事前に書かれた証明行を正しい順序にドラッグ&ドロップできる、足場付きの証明記述体験を提供するソフトウェアツールである。 本稿では,帰納的証明を学習する学生に対して,証明ブロックを用いた学習利得を測定するためのランダム化制御実験について述べる。 研究参加者は, 個別数学講座の初月を修了した332名の学生であった。 この研究の学生は、事前テストを受け、証明のための講義ノートをインダクションで読み、短い(1時間以内)学習活動を終え、1週間後にポストテストを終えた。 各生徒が割り当てられた実験条件により、彼らはProof Blocks問題のみを完了し、Proof Blocks問題といくつかの書面証明を完了させたか、あるいは彼らの学習活動の証明のみを完了させた。 帰納的証明に関する学習の初期段階の学生は,講義ノートの読解から証明ブロックの使用まで,あるいは講義ノートの読解から証明文の書写まで,スクラッチから読解し,作業時間もはるかに少ないことが判明した。 この発見は、Proof Blocksが有益な試験質問であり、学生が肯定的に見ているという過去の知見を補完するものである。

Proof Blocks is a software tool that provides students with a scaffolded proof-writing experience, allowing them to drag and drop prewritten proof lines into the correct order instead of starting from scratch. In this paper we describe a randomized controlled trial designed to measure the learning gains of using Proof Blocks for students learning proof by induction. The study participants were 332 students recruited after completing the first month of their discrete mathematics course. Students in the study took a pretest and read lecture notes on proof by induction, completed a brief (less than 1 hour) learning activity, and then returned one week later to complete the posttest. Depending on the experimental condition that each student was assigned to, they either completed only Proof Blocks problems, completed some Proof Blocks problems and some written proofs, or completed only written proofs for their learning activity. We find that students in the early phases of learning about proof by induction are able to learn just as much from reading lecture notes and using Proof Blocks as by reading lecture notes and writing proofs from scratch, but in far less time on task. This finding complements previous findings that Proof Blocks are useful exam questions and are viewed positively by students.
翻訳日:2023-02-19 12:30:00 公開日:2022-12-16
# グラフニューラルネットワークの公正性を劣化させるグループ間リンクインジェクション

Adversarial Inter-Group Link Injection Degrades the Fairness of Graph Neural Networks ( http://arxiv.org/abs/2209.05957v2 )

ライセンス: Link先を確認
Hussain Hussain, Meng Cao, Sandipan Sikdar, Denis Helic, Elisabeth Lex, Markus Strohmaier, Roman Kern(参考訳) 本稿では,公平性を低下させるグラフニューラルネットワーク(gnns)に対する敵意攻撃の存在と有効性を示す。 これらの攻撃は、GNNベースのノード分類において特定のノードのサブグループを不利にする可能性がある。 敵リンク注入がGNN予測の公平性を損なうかを説明する定性的および実験的分析を行う。 例えば、攻撃者は、反対サブグループに属するノードと反対クラスラベルの間の逆リンクを注入することで、GNNベースのノード分類の公平性を損なうことができる。 実験データを用いた実験により,GNN予測の公平さ(攻撃は効果的である)を,低摂動率(攻撃は効率的である)かつ精度の低下(攻撃は偽り)で著しく低下させることができることを示した。 この研究は、敵の公正攻撃に対するGNNモデルの脆弱性を示す。 我々の発見が、我々のコミュニティにおけるこの問題に対する認識を高め、そのような攻撃に対してより堅牢なGNNモデルの開発の基礎を築いたいと考えています。

We present evidence for the existence and effectiveness of adversarial attacks on graph neural networks (GNNs) that aim to degrade fairness. These attacks can disadvantage a particular subgroup of nodes in GNN-based node classification, where nodes of the underlying network have sensitive attributes, such as race or gender. We conduct qualitative and experimental analyses explaining how adversarial link injection impairs the fairness of GNN predictions. For example, an attacker can compromise the fairness of GNN-based node classification by injecting adversarial links between nodes belonging to opposite subgroups and opposite class labels. Our experiments on empirical datasets demonstrate that adversarial fairness attacks can significantly degrade the fairness of GNN predictions (attacks are effective) with a low perturbation rate (attacks are efficient) and without a significant drop in accuracy (attacks are deceptive). This work demonstrates the vulnerability of GNN models to adversarial fairness attacks. We hope our findings raise awareness about this issue in our community and lay a foundation for the future development of GNN models that are more robust to such attacks.
翻訳日:2023-02-19 11:08:29 公開日:2022-12-16
# 並列量子位相推定による誤差回復型量子振幅推定

Error Resilient Quantum Amplitude Estimation from Parallel Quantum Phase Estimation ( http://arxiv.org/abs/2204.01337v2 )

ライセンス: Link先を確認
M. C. Braun, T. Decker, N. Hegemann, S. F. Kerstan(参考訳) 位相および振幅推定アルゴリズムを並列化する方法を示す。 これにより、量子回路のゲート深さを、小さなオーバーヘッドを持つ単一のGrover演算子に還元することができる。 さらに,量子振幅推定では,並列化によって量子誤差に対するレジリエンスが大幅に向上することを示す。 レジリエンスは、低いゲート深さによってではなく、アルゴリズムの構造によって引き起こされる。 従来の振幅推定から正確な解や近似解の読み出しが不可能な誤差がある場合でも, 並列手法は高い確率で正しい解を提供する。 誤差レジリエンスの結果は、標準バージョンと量子振幅推定の低深さバージョンに対して保持される。 提示方法は,特許出願[量子コンピュータ装置:特許出願EP21207022.1]の対象となる。

We show how phase and amplitude estimation algorithms can be parallelized. This can reduce the gate depth of the quantum circuits to that of a single Grover operator with a small overhead. Further, we show that for quantum amplitude estimation, the parallelization can lead to vast improvements in resilience against quantum errors. The resilience is not caused by the lower gate depth, but by the structure of the algorithm. Even in cases with errors that make it impossible to read out the exact or approximate solutions from conventional amplitude estimation, our parallel approach provided the correct solution with high probability. The results on error resilience hold for the standard version and for low depth versions of quantum amplitude estimation. Methods presented are subject of a patent application [Quantum computing device: Patent application EP 21207022.1].
翻訳日:2023-02-18 08:12:22 公開日:2022-12-16
# 安定剤状態のエントロピーレンズ

An Entropic Lens on Stabilizer States ( http://arxiv.org/abs/2204.07593v3 )

ライセンス: Link先を確認
Cynthia Keeler, William Munizzi, Jason Pollack(参考訳) $n$-qubit 安定化状態は、パウリ群の 2^n$-要素部分集合によって残される不変状態である。 クリフォード群(英: clifford group)は、安定状態から安定状態への安定状態を取るユニタリ群であり、クリフォードゲートを構成する物理的動機づけられた生成集合、ハダマール、位相およびcnotゲートは、安定状態のセットにグラフ構造を課す。 我々はこれらの構造、すなわち「到達可能性グラフ」を$n\le5$で明示的に構成する。 クリフォードゲートの部分集合のみを考えると、到達可能性グラフは複数の、しばしば複雑で連結な成分に分離される。 2つの量子ビット上の CNOT ゲートの応用によって最終的に構築される安定化状態のエントロピー構造を理解するために、アダマールゲートと CNOT ゲートが2つの$n$量子ビットに対してのみ作用する制限部分グラフを考える動機がある。 2つのキュービットに既に存在する2つの部分グラフが、3および4つのキュービットでより複雑な部分グラフに埋め込まれていることを示す。 4つのキュービットを超える追加のタイプの部分グラフは存在しないが、グラフ内のエントロピー構造は、キュービット数が増加するにつれて徐々に複雑になる。 4量子ビットから始めると、いくつかの安定状態はホログラフィックエントロピーの不等式では許されないエントロピーベクトルを持つ。 安定性到達可能性グラフにおけるホログラフィック状態と非ホログラフィック状態の遷移の性質について考察する。

The $n$-qubit stabilizer states are those left invariant by a $2^n$-element subset of the Pauli group. The Clifford group is the group of unitaries which take stabilizer states to stabilizer states; a physically--motivated generating set, the Hadamard, phase, and CNOT gates which comprise the Clifford gates, imposes a graph structure on the set of stabilizers. We explicitly construct these structures, the "reachability graphs," at $n\le5$. When we consider only a subset of the Clifford gates, the reachability graphs separate into multiple, often complicated, connected components. Seeking an understanding of the entropic structure of the stabilizer states, which is ultimately built up by CNOT gate applications on two qubits, we are motivated to consider the restricted subgraphs built from the Hadamard and CNOT gates acting on only two of the $n$ qubits. We show how the two subgraphs already present at two qubits are embedded into more complicated subgraphs at three and four qubits. We argue that no additional types of subgraph appear beyond four qubits, but that the entropic structures within the subgraphs can grow progressively more complicated as the qubit number increases. Starting at four qubits, some of the stabilizer states have entropy vectors which are not allowed by holographic entropy inequalities. We comment on the nature of the transition between holographic and non-holographic states within the stabilizer reachability graphs.
翻訳日:2023-02-16 21:31:10 公開日:2022-12-16
# 連続時間量子ウォークによる再正規化インターネットネットワーク上の空間探索

Spatial search by continuous-time quantum walks on renormalized Internet networks ( http://arxiv.org/abs/2205.02137v2 )

ライセンス: Link先を確認
Joonas Malmi and Matteo A. C. Rossi and Guillermo Garc\'ia-P\'erez and Sabrina Maniscalco(参考訳) 実世界の複雑なネットワーク上での連続時間量子ウォークによる空間探索について検討する。 我々はGarc\'ia-P\'erez et al., Natによって導入された最近の幾何的再正規化手法を用いて得られたインターネットネットワークの小さなレプリカを使用する。 Phys 14, 583 (2018). これにより、実世界の複雑なネットワーク上の量子空間探索アルゴリズムの振る舞いを初めて推測することができる。 力学を数値的にシミュレーションし、結合パラメータを最適化することにより、アルゴリズムの最適性とそのスケーリングをネットワークのサイズとともに研究し、平均すると、従来のスケーリングである$\mathcal{o}(n)$よりもかなり優れているが、理想の二次スピードアップである$\mathcal{o}(\sqrt{n})$に到達することができないことを示した。 しかし、探索アルゴリズムの性能はノードの度合いに強く依存しており、実際、99$th%以下のノードをその度合いに応じて順序付けると、スケーリングが最適に近いことが分かる。

We study spatial search with continuous-time quantum walks on real-world complex networks. We use smaller replicas of the Internet network obtained with a recent geometric renormalization method introduced by Garc\'ia-P\'erez et al., Nat. Phys. 14, 583 (2018). This allows us to infer for the first time the behavior of a quantum spatial search algorithm on a real-world complex network. By simulating numerically the dynamics and optimizing the coupling parameter, we study the optimality of the algorithm and its scaling with the size of the network, showing that on average it is considerably better than the classical scaling $\mathcal{O}(N)$, but it does not reach the ideal quadratic speedup $\mathcal{O}(\sqrt{N})$ that can be achieved, e.g. in complete graphs. However, the performance of the search algorithm strongly depends on the degree of the nodes and, in fact, the scaling is found to be very close to optimal when we consider the nodes below the $99$th percentile ordered according to the degree.
翻訳日:2023-02-14 09:08:20 公開日:2022-12-16
# 時間依存スカラー場の動的スケーリング対称性と漸近量子相関

Dynamical scaling symmetry and asymptotic quantum correlations for time-dependent scalar fields ( http://arxiv.org/abs/2205.13338v2 )

ライセンス: Link先を確認
S. Mahesh Chandran, S. Shankaranarayanan (IIT Bombay)(参考訳) 時間非依存の量子系において、絡み合いエントロピーは系のエネルギーが持たない固有のスケーリング対称性を持つ。 対称性はまた、エントロピーの発散がゼロモードに関連付けられることも保証する。 この対称性を時間依存系へ一般化し、時間依存周波数の結合調和振動子から時間依存質量の量子スカラー場へ一般化する。 このような系は、量子相関の様々な測度の不変性 -- 絡み合いエントロピー、gs忠実性、ロスシュミットエコー、回路複雑性など -- の進化を残す動的スケーリング対称性を持つ。 この対称性を用いて、システムの不安定性が発達すると、いくつかの量子相関が遅い時間に関連していることを示す。 そして、そのような不安定性をスクランブル時間とリャプノフ指数の観点から定量化する。 ロシミットエコーの指数関数崩壊の遅延は、系の最大の反転モードによって決定される。 一方、ゼロモードはシステムに関する情報をかなり長い時間保持し、最終的にロシミットエコーのパワーロー崩壊をもたらす。 1 + 1)-$dimensionで解析を時間に依存しない巨大なスカラーフィールドに拡張し、システム内で発生するゼロモードと反転モードの意味について論じる。 安定モードまたはゼロモードを持つスカラー場に対して, エントロピースケーリングオシレートを, \emph{area-law} と \emph{volume-law} の間で明示的に示す。 次に、宇宙論およびブラックホール時空におけるスカラー場に対する上記の効果を定性的に議論する。

In time-independent quantum systems, entanglement entropy possesses an inherent scaling symmetry that the energy of the system does not have. The symmetry also assures that entropy divergence can be associated with the zero modes. We generalize this symmetry to time-dependent systems all the way from a coupled harmonic oscillator with a time-dependent frequency, to quantum scalar fields with time-dependent mass. We show that such systems have dynamical scaling symmetry that leaves the evolution of various measures of quantum correlations invariant -- entanglement entropy, GS fidelity, Loschmidt echo, and circuit complexity. Using this symmetry, we show that several quantum correlations are related at late-times when the system develops instabilities. We then quantify such instabilities in terms of scrambling time and Lyapunov exponents. The delayed onset of exponential decay of the Loschmidt echo is found to be determined by the largest inverted mode in the system. On the other hand, a zero-mode retains information about the system for a considerably longer time, finally resulting in a power-law decay of the Loschmidt echo. We extend the analysis to time-dependent massive scalar fields in $(1 + 1)-$dimensions and discuss the implications of zero-modes and inverted modes occurring in the system at late-times. We explicitly show the entropy scaling oscillates between the \emph{area-law} and \emph{volume-law} for a scalar field with stable modes or zero-modes. We then provide a qualitative discussion of the above effects for scalar fields in cosmological and black-hole space-times.
翻訳日:2023-02-11 16:49:23 公開日:2022-12-16
# 有限障壁を横切るクライントンネル力学に対する時空間分解量子場アプローチ

Space-time resolved quantum field approach to Klein tunneling dynamics across a finite barrier ( http://arxiv.org/abs/2205.15119v2 )

ライセンス: Link先を確認
M. Alkhateeb, A. Matzkin(参考訳) 相対論的場の方程式に対する時空解を用いた有限ポテンシャル障壁によるクライントンネルの研究を行う。 共鳴トンネルの場合であっても、粒子は実際には有限超臨界障壁をトンネルしない。 伝送は代わりに、入射電子によって引き起こされるバリアの各端における対生成速度の変調によって媒介される。 さらに,フェルミオンの場合(飽和によって特徴付けられる)とボソニックの場合(指数超放射によって特徴付けられる)の対数に対するバリア幅の影響についても検討した。 この研究は超臨界障壁の放射力学の正確な研究への道を開き、相対論的波動方程式でモデル化されたシステムで観測されたクライントンネルの特定のアナログに適用することができる。

We investigate Klein tunneling through finite potential barriers with space-time resolved solutions to relativistic quantum field equations. We find that no particle actually tunnels through a finite supercritical barrier, even in the case of resonant tunneling. The transmission is instead mediated by modulations in pair production rates, at each edge of the barrier, caused by the incoming electron. We further examine the effect of the barrier's width on the numbers of produced pairs in the fermionic case (characterized by saturation) and in the bosonic case (characterized by exponential superradiance). This work paves the way to precise studies of the radiating dynamics of supercritical barriers, and could be applied to certain analogs of Klein tunneling observed in systems modeled by relativistic wave equations.
翻訳日:2023-02-11 06:43:09 公開日:2022-12-16
# キタエフ磁石, かごめ二量体モデルおよびルビー・リドバーグスピン液体の統一

Unifying Kitaev magnets, kagome dimer models and ruby Rydberg spin liquids ( http://arxiv.org/abs/2205.15302v2 )

ライセンス: Link先を確認
Ruben Verresen, Ashvin Vishwanath(参考訳) 量子スピン液体 (QSL) の探索は、共鳴価結合 (RVB) 図、分解格子ゲージ理論、北エフモデルなど、様々なアプローチで導かれてきた。 最近では、Rydbergブロック機構にインスパイアされたルビー格子上にスピン液体基底状態が数値的に確立されている。 ここでは、アノンの局所的なゆらぎがデコンビネーションを安定化する単一の親ハミルトニアンにおいて、これらの様々なアプローチを統一する。 親ハミルトニアンはカゴムの三角形(それぞれが4つのRVBのような状態を持つ)で定義されており、イジング相互作用と単サイト横断場のみを含む。 弱フィールド限界では、ルビースピン液体と正確に可溶なカゴムエ二量体モデルが復元され、強フィールド限界は北エフハニカムモデルに還元され、QSLに対する3つの一見異なるアプローチが統一される。 同様に、キラルなyao-kivelsonモデル、honeycomb toric code、新しいspin-1 quadrupolar kitaevモデルを得る。 最後に、kagom\'e ising antiferromagnetへの非局所写像によりqsl相にあることが示されている。 我々はフレームワークの様々な応用を実演する。 a) ルビー格子モデルの正確に可溶なカゴム'e二量体モデルへの断熱変形により、前者においてQSL相が決定的に成立する。 (b)ruby格子スピン液体のrydberg実装におけるオフ対角弦測定のための動的プロトコルを非神秘化すること。 より一般的には、北エフカップリングと創発二量体モデルに使用される反発相互作用の親密な関係が見つかる。 例えば, ruby格子上のスピン-1/2 XXZモデルが, キタエフハニカムモデルをエンコードし, 低温原子系や固体系において後者を実現するための新たな経路を提供する。

The exploration of quantum spin liquids (QSLs) has been guided by different approaches including the resonating valence bond (RVB) picture, deconfined lattice gauge theories and the Kitaev model. More recently, a spin liquid ground state was numerically established on the ruby lattice, inspired by the Rydberg blockade mechanism. Here we unify these varied approaches in a single parent Hamiltonian, in which local fluctuations of anyons stabilize deconfinement. The parent Hamiltonian is defined on kagom\'e triangles -- each hosting four RVB-like states -- and includes only Ising interactions and single-site transverse fields. In the weak-field limit, the ruby spin liquid and exactly soluble kagom\'e dimer models are recovered, while the strong-field limit reduces to the Kitaev honeycomb model, thereby unifying three seemingly different approaches to QSLs. We similarly obtain the chiral Yao-Kivelson model, honeycomb toric code and a new spin-1 quadrupolar Kitaev model. The last is shown to be in a QSL phase by a non-local mapping to the kagom\'e Ising antiferromagnet. We demonstrate various applications of our framework, including (a) an adiabatic deformation of the ruby lattice model to the exactly soluble kagom\'e dimer model, conclusively establishing the QSL phase in the former; and (b) demystifying the dynamical protocol for measuring off-diagonal strings in the Rydberg implementation of the ruby lattice spin liquid. More generally, we find an intimate connection between Kitaev couplings and the repulsive interactions used for emergent dimer models. For instance, we show how a spin-1/2 XXZ model on the ruby lattice encodes a Kitaev honeycomb model, providing a new route toward realizing the latter in cold-atom or solid-state systems.
翻訳日:2023-02-11 06:35:35 公開日:2022-12-16
# 量子確率過程からの予測的作業抽出のためのエンジン

Engines for predictive work extraction from memoryful quantum stochastic processes ( http://arxiv.org/abs/2207.03480v2 )

ライセンス: Link先を確認
Ruo Cheng Huang, Paul M. Riechers, Mile Gu, and Varun Narasimhachar(参考訳) 量子情報処理技術は、古典的な自由エネルギーに加えて、システムの本質的に量子的な特徴から仕事の抽出を可能にする。 一方、計算力学の科学は、非マルコフ古典および量子確率過程の予測モデリングのためのツールを与える。 これら2つの科学のツールを組み合わせて、量子出力を持つ非マルコフ確率過程から予測作業を抽出する手法を開発した。 提案手法は,非予測的な量子ワーク抽出プロトコルよりも多くの作業を抽出することができ,また,量子情報処理を伴わない予測作業抽出が可能であることを実証する。 古典的前例のない量子プロセスからの作業抽出において,メモリの有効性において相転移が認められる。 我々の研究は、基本的に量子的、本質的に時間的に変化する形で環境自由エネルギーを利用する機械の展望を開放する。

Quantum information-processing techniques enable work extraction from a system's inherently quantum features, in addition to the classical free energy it contains. Meanwhile, the science of computational mechanics affords tools for the predictive modeling of non-Markovian classical and quantum stochastic processes. We combine tools from these two sciences to develop a technique for predictive work extraction from non-Markovian stochastic processes with quantum outputs. We demonstrate that this technique can extract more work than non-predictive quantum work extraction protocols, on one hand, and predictive work extraction without quantum information processing, on the other. We discover a phase transition in the efficacy of memory for work extraction from quantum processes, which is without classical precedent. Our work opens up the prospect of machines that harness environmental free energy in an essentially quantum, essentially time-varying form.
翻訳日:2023-02-06 07:01:14 公開日:2022-12-16
# テーラーポンピングによる弾道エキシトン-ポーラリトン凝縮の強化

Enhanced coupling between ballistic exciton-polariton condensates through tailored pumping ( http://arxiv.org/abs/2208.13596v2 )

ライセンス: Link先を確認
Yuan Wang, Pavlos G. Lagoudakis, and Helgi Sigurdsson(参考訳) 本稿では,半導体マイクロキャビティにおける弾道励起子-ポラリトン凝縮体間の空間結合性を高める手法を提案する。 一般化Gross-Pitaevskiiモデルの数値解法により, 局所非共鳴光励起により駆動される励起子-偏光子縮合の強い非平衡性を利用する。 ガウシアンからの励起ビームプロファイルを多角形に調整すると、近くの隣人に向けて向けられる励起凝縮物から流出する偏光子の屈折および集中した放射状流が生じる。 本手法は, 偏光子凝縮を達成するために必要なしきい値パワーを低減し, 拡張系における空間コヒーレンスを増大させ, 超大規模光量子流体の創成への道を開く。

We propose a method to enhance the spatial coupling between ballistic exciton-polariton condensates in a semiconductor microcavity based on available spatial light modulator technologies. Our method, verified by numerically solving a generalized Gross-Pitaevskii model, exploits the strong nonequilibrium nature of exciton-polariton condensation driven by localized nonresonant optical excitation. Tailoring the excitation beam profile from a Gaussian into a polygonal shape results in refracted and focused radial streams of outflowing polaritons from the excited condensate which can be directed towards nearest neighbors. Our method can be used to lower the threshold power needed to achieve polariton condensation and increase spatial coherence in extended systems, paving the way towards creating extremely large-scale quantum fluids of light.
翻訳日:2023-01-28 14:43:26 公開日:2022-12-16
# 円形ユニタリアンサンブルのパワースペクトル

Power spectrum of the circular unitary ensemble ( http://arxiv.org/abs/2209.04723v2 )

ライセンス: Link先を確認
Roman Riser and Eugene Kanzieper(参考訳) 円ユニタリアンサンブル ${\rm cue}(n)$ から引き出されたランダム行列の固有角のパワースペクトルを解析し、フレドホルム行列式またはトープリッツ行列式、あるいは6番目のペインレブ関数を用いて評価できることを示した。 無限次元行列の極限である $n\rightarrow\infty$ において、第5のペインレブの超越性を伴うパワースペクトルに対する${\it\,concise\,}$パラメータフリーの公式を導出し、${\rm sine}_2$ 行列的ランダム点場を用いて解釈する。 さらに、予測パワースペクトル法則の普遍性を議論し、ランダム行列理論および量子カオス実践者による簡単な使用のためにそれを集計する(follow http://eugenekanzieper.faculty.hit.ac.il/data.html)。

We study the power spectrum of eigen-angles of random matrices drawn from the circular unitary ensemble ${\rm CUE}(N)$ and show that it can be evaluated in terms of either a Fredholm determinant, or a Toeplitz determinant, or a sixth Painlev\'e function. In the limit of infinite-dimensional matrices, $N\rightarrow\infty$, we derive a ${\it\, concise\,}$ parameter-free formula for the power spectrum which involves a fifth Painlev\'e transcendent and interpret it in terms of the ${\rm Sine}_2$ determinantal random point field. Further, we discuss a universality of the predicted power spectrum law and tabulate it (follow http://eugenekanzieper.faculty.hit.ac.il/data.html) for easy use by random-matrix-theory and quantum chaos practitioners.
翻訳日:2023-01-27 02:55:24 公開日:2022-12-16
# 信頼ノードのない長距離QKDは現在の技術では不可能

Long-Range QKD without Trusted Nodes is Not Possible with Current Technology ( http://arxiv.org/abs/2210.01636v2 )

ライセンス: Link先を確認
Bruno Huttner, Romain All\'eaume, Eleni Diamanti, Florian Fr\"owis, Philippe Grangier, Hannes H\"ubel, Vicente Martin, Andreas Poppe, Joshua A. Slater, Tim Spiller, Wolfgang Tittel, Benoit Tranier, Adrian Wonfor and Hugo Zbinden(参考訳) 最近公開された特許(https://www.ipo.gov.uk/p-ipsum/Case/PublicationNumber/GB2590064)は、信頼できるノードや量子リピータを使わずに長距離量子セキュリティを実現するための新しい量子鍵配布プロトコルの開発を主張している。 ここでは、この主張の直接的な分析を行い、ほとんど根拠がないという結論に達した。

A recently published patent (https://www.ipo.gov.uk/p-ipsum/Case/PublicationNumber/GB2590064) has claimed the development of a novel quantum key distribution protocol purporting to achieve long-range quantum security without trusted nodes and without use of quantum repeaters. Here we present a straightforward analysis of this claim, and reach the conclusion that it is largely unfounded.
翻訳日:2023-01-23 22:02:44 公開日:2022-12-16
# ディラック方程式とワイル方程式の退化解を得るための一般的な方法と退化状態の実験的検出に関する考察

A general method for obtaining degenerate solutions to the Dirac and Weyl equations and a discussion on the experimental detection of degenerate states ( http://arxiv.org/abs/2210.02003v3 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 本研究では,電場と電磁場の無限個数に対応するディラック方程式の退化解を求める一般的な方法について述べる。 より詳しくは、4つの任意の実関数を用いて、これらの関数によって定義される無限個の電磁四ポテンシャルに対するディラック方程式の解であるスピノルを自動的に構成することができる。 これらの解の興味深い特徴は、非零質量のディラック粒子の場合、縮退スピノルは空間と時間の両方において局所化されるべきである。 また、この方法は、スピノルの局在がもはや不要な、質量を持たないディラック粒子やワイル粒子にも拡張される。 最後に, 退化状態を検出するための2つの実験手法を提案する。

In this work we describe a general method for obtaining degenerate solutions to the Dirac equation, corresponding to an infinite number of electromagnetic 4-potentials and fields, which are explicitly calculated. In more detail, using four arbitrary real functions, one can automatically construct a spinor which is solution to the Dirac equation for an infinite number of electromagnetic 4-potentials, defined by those functions. An interesting characteristic of these solutions is that, in the case of Dirac particles with non-zero mass, the degenerate spinors should be localized, both in space and time. Our method is also extended to the cases of massless Dirac and Weyl particles, where the localization of the spinors is no longer required. Finally, we propose two experimental methods for detecting the presence of degenerate states.
翻訳日:2023-01-23 17:38:44 公開日:2022-12-16
# スピンクラスターからの複雑な量子ネットワークモデル

Complex quantum network models from spin clusters ( http://arxiv.org/abs/2210.15838v2 )

ライセンス: Link先を確認
Ravi Chepuri and Istv\'an A. Kov\'acs(参考訳) 新興量子インターネットにおいて、複雑なネットワークトポロジは、効率的な量子通信と障害に対する堅牢性の強化につながる可能性がある。 しかし、量子通信ネットワークの複雑さには、潜在的にエンドツーエンドの伝送能力の制限など、いくつかの懸念がある。 これらの課題は、複雑なネットワークトポロジが量子通信プロトコルに与える影響を探ることのできるモデルシステムである。 ここでは、スピンの格子上の複雑な量子通信ネットワークの理論モデルを示し、相互作用する量子スピン系における絡み合ったスピンクラスターは、適切な選択されたスピン領域間の通信リンクとして機能する。 具体的には、2次元のランダムな逆イジングモデルのグリーンベルガー・ホーネ・ザイリンガークラスターがスピンの領域間の通信リンクとして使用できることを示し、その結果の量子ネットワークは古典的インターネットのものと同等の複雑さを持つことを示した。 我々の研究は、新興量子インターネットのネットワーク特性を決定するためのさらなる研究のために、アクセス可能な生成モデルを提供する。

In the emerging quantum internet, complex network topology could lead to efficient quantum communication and enhanced robustness against failures. However, there are some concerns about complexity in quantum communication networks, such as potentially limited end-to-end transmission capacity. These challenges call for model systems in which the feasibility and impact of complex network topology on quantum communication protocols can be explored. Here, we present a theoretical model for complex quantum communication networks on a lattice of spins, wherein entangled spin clusters in interacting quantum spin systems serve as communication links between appropriately selected regions of spins. Specifically, we show that ground state Greenberger-Horne-Zeilinger clusters of the two-dimensional random transverse Ising model can be used as communication links between regions of spins, and we show that the resulting quantum networks can have complexity comparable to that of the classical internet. Our work provides an accessible generative model for further studies towards determining the network characteristics of the emerging quantum internet.
翻訳日:2023-01-21 05:43:10 公開日:2022-12-16
# 2モードボソニックキュートである2T$-qutrit

The $2T$-qutrit, a two-mode bosonic qutrit ( http://arxiv.org/abs/2210.16188v2 )

ライセンス: Link先を確認
Aur\'elie Denys, Anthony Leverrier(参考訳) 量子コンピュータは、2レベル量子システムで符号化された物理量子ビットをしばしば操作する。 ボソニック量子ビット符号は、無限次元のフォック空間の固有部分空間に情報を符号化することでこのアイデアから逸脱する。 この大きな物理的空間は、実験的な不完全性に対する自然な保護を与え、ボソニック符号は2次元ヒルベルト空間によって制約された状態に適用されるno-go結果を回避することができる。 ボソニックキュービットは通常、単一のボソニックモードで定義されるが、より良いパフォーマンスを示すマルチモードバージョンを探すのは理にかなっている。 本研究では, 猫符号が複素数の有限部分群で指数付けられたコヒーレント状態のスパンに存在するという観測に基づいて, 四元数の二元四面体群 2T$ で指数付けられた24コヒーレント状態のスパンに存在する2モードの一般化を考える。 結果として得られる 2T$-クォートは自然に群 2T$ の代数的性質を継承し、低損失状態において非常に堅牢であるように見える。 我々はその研究を開始し、安定化器とこのボゾン符号の論理演算子を同定する。

Quantum computers often manipulate physical qubits encoded on two-level quantum systems. Bosonic qubit codes depart from this idea by encoding information in a well-chosen subspace of an infinite-dimensional Fock space. This larger physical space provides a natural protection against experimental imperfections and allows bosonic codes to circumvent no-go results that apply to states constrained by a 2-dimensional Hilbert space. A bosonic qubit is usually defined in a single bosonic mode but it makes sense to look for multimode versions that could exhibit better performance. In this work, building on the observation that the cat code lives in the span of coherent states indexed by a finite subgroup of the complex numbers, we consider a two-mode generalisation living in the span of 24 coherent states indexed by the binary tetrahedral group $2T$ of the quaternions. The resulting $2T$-qutrit naturally inherits the algebraic properties of the group $2T$ and appears to be quite robust in the low-loss regime. We initiate its study and identify stabilisers as well as some logical operators for this bosonic code.
翻訳日:2023-01-21 05:26:55 公開日:2022-12-16
# 非縮退・縮退メーザー熱機関の熱力学的不確かさ関係

Thermodynamic uncertainty relation in nondegenerate and degenerate maser heat engines ( http://arxiv.org/abs/2211.08377v2 )

ライセンス: Link先を確認
Varinder Singh, Vahid Shaghaghi, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu, and Dario Rosa(参考訳) 本研究では, 熱力学的不確実性関係(TUR), エントロピー生成速度と相対電力変動とのトレードオフを非縮退三段式および縮退四段式メーザーヒートエンジンに対して検討する。 非退化の場合、三段式メーザーヒートエンジンの2つの異なる構成を考慮し、標準TURの違反度を対比する。 高温の限界では、標準のTUR関係は常に両方の構成に違反する。 また,物質場結合定数とシステムバス結合定数の同時再スケーリング下でのTURの不変性を明らかにする。 縮退した4段式エンジンについて, ノイズ誘起コヒーレンスがTURに与える影響について検討した。 パラメトリックな動作環境によっては,ノイズによるコヒーレンスが相対的な電力変動を抑制するか,あるいは増大させることができる。

We investigate the thermodynamic uncertainty relation (TUR), \textit{i.e.} a trade-off between entropy production rate and relative power fluctuations, for nondegenerate three-level and degenerate four-level maser heat engines. In the nondegenerate case, we consider two slightly different configurations of three-level maser heat engine and contrast their degree of violation of standard TUR. In the high-temperature limit, standard TUR relation is always violated for both configurations. We also uncover an invariance of TUR under simultaneous rescaling of the matter-field coupling constant and system-bath coupling constants. For the degenerate four level engine, we study the effects of noise-induced coherence on TUR. We show that depending on the parametric regime of operation, noise-induced coherence can either suppress or enhance the relative power fluctuations.
翻訳日:2023-01-19 12:30:07 公開日:2022-12-16
# Mystique: 正確でスケーラブルなAIベンチマーク生成

Mystique: Accurate and Scalable Production AI Benchmarks Generation ( http://arxiv.org/abs/2301.04122v1 )

ライセンス: Link先を確認
Mingyu Liang, Wenyin Fu, Louis Feng, Zhongyi Lin, Pavani Panakanti, Srinivas Sridharan, Christina Delimitrou(参考訳) 急速に成長するDLワークロードを効率的にサポートするための大規模なAIフリートの構築とメンテナンスは、現代のクラウドインフラストラクチャプロバイダにとって活発な研究トピックである。 正確なベンチマークを生成することは、この分野で急速に発展するソフトウェアとハードウェアソリューションの設計と評価において重要な役割を果たす。 このプロセスをスケーラブルにする2つの基本的な課題 (i)ワークロードの代表性と (ii)艦隊の変更をベンチマークに迅速に組み込む能力。 これらの問題を解決するために、我々は、AIベンチマーク生成の正確でスケーラブルなフレームワークであるMystiqueを提案する。 PyTorch実行グラフ(EG)は、演算子の粒度でAIモデルの実行時情報を、メタデータとともにグラフ形式でキャプチャする新機能である。 このフリートからEGトレースをソーシングすることで、ポータブルで代表的なAIベンチマークを構築することができます。 Mystiqueは、実行時のオーバーヘッドとユーザインスツルメンテーションの労力の観点から、軽量なデータ収集によってスケーラブルである。 EGフォーマットの表現性と構成性は、ベンチマーク作成に対する柔軟なユーザ制御を可能にするため、適応性も高い。 我々は、本手法を複数の実運用AIワークロードで評価し、Mystiqueで生成されたベンチマークが、実行時間とシステムレベルのメトリクスの両方において、元のAIモデルとよく似ていることを示す。 また、プラットフォーム間で生成されたベンチマークのポータビリティを示し、実行グラフのきめ細かい構成性によって実現されたいくつかのユースケースを示す。

Building and maintaining large AI fleets to efficiently support the fast-growing DL workloads is an active research topic for modern cloud infrastructure providers. Generating accurate benchmarks plays an essential role in the design and evaluation of rapidly evoloving software and hardware solutions in this area. Two fundamental challenges to make this process scalable are (i) workload representativeness and (ii) the ability to quickly incorporate changes to the fleet into the benchmarks. To overcome these issues, we propose Mystique, an accurate and scalable framework for production AI benchmark generation. It leverages the PyTorch execution graph (EG), a new feature that captures the runtime information of AI models at the granularity of operators, in a graph format, together with their metadata. By sourcing EG traces from the fleet, we can build AI benchmarks that are portable and representative. Mystique is scalable, with its lightweight data collection, in terms of runtime overhead and user instrumentation efforts. It is also adaptive, as the expressiveness and composability of EG format allows flexible user control over benchmark creation. We evaluate our methodology on several production AI workloads, and show that benchmarks generated with Mystique closely resemble original AI models, both in execution time and system-level metrics. We also showcase the portability of the generated benchmarks across platforms, and demonstrate several use cases enabled by the fine-grained composability of the execution graph.
翻訳日:2023-01-15 23:27:01 公開日:2022-12-16
# 周期的に駆動されるフェルミオン鎖における予熱破砕

Prethermal fragmentation in a periodically driven Fermionic chain ( http://arxiv.org/abs/2212.03892v2 )

ライセンス: Link先を確認
Somsubhra Ghosh, Indranil Paul, and K. Sengupta(参考訳) 隣り合うホッピングと密度密度の相互作用を持つフェルミオン鎖について検討し、隣り合う相互作用項を周期的に駆動する。 このような駆動鎖は、特定の駆動周波数$\omega_m^{\ast}$において、高温前の強いヒルベルト空間断片化(HSF)を示すことを示す。 これは非平衡系に対する HSF の最初の実現である。 Floquet摂動理論を用いて$\omega_m^{\ast}$の分析式を求め、エンタングルメントエントロピー、等時相関関数、有限鎖に対するフェルミオンの密度自己相関の正確な数値計算を行う。 これらの量はすべて強いhsfの明確な特徴を示す。 我々は、hsfの運命を$\omega_m^{\ast}$ から遠ざかるものとして研究し、駆動振幅の関数としての予熱レジームの程度について論じる。

We study a Fermionic chain with nearest-neighbor hopping and density-density interactions, where the nearest-neighbor interaction term is driven periodically. We show that such a driven chain exhibits prethermal strong Hilbert space fragmentation (HSF) in the high drive amplitude regime at specific drive frequencies $\omega_m^{\ast}$. This constitutes the first realization of HSF for out-of-equilibrium systems. We obtain analytic expressions of $\omega_m^{\ast}$ using a Floquet perturbation theory and provide exact numerical computation of entanglement entropy, equal-time correlation functions, and the density autocorrelation of Fermions for finite chains. All of these quantities indicate clear signatures of strong HSF. We study the fate of the HSF as one tunes away from $\omega_m^{\ast}$ and discuss the extent of the prethermal regime as a function of the drive amplitude.
翻訳日:2023-01-09 18:08:13 公開日:2022-12-16
# 内燃性オットーエンジンとしての多層グラフェン

Multilayer Graphene as an Endoreversible Otto Engine ( http://arxiv.org/abs/2212.03286v3 )

ライセンス: Link先を確認
Nathan M Myers, Francisco J. Pe\~na, Natalia Cort\'es, Patricio Vargas(参考訳) グラフェンはおそらく最も顕著な「ディラック物質」であり、電子構造が相対論的フェルミオンとして振る舞う電荷キャリアを生み出している。 多層グラフェンでは、各層のハニカム格子が格子エッジの一方に沿って変位するように複数の結晶シートを積層する。 外部磁場を受ける場合、多層エネルギースペクトルと磁場とのスケーリング、したがって系の熱力学的挙動は、層数に強く依存する。 本研究では,多層グラフェンを加工媒体とした有限時間内可逆性オットーサイクルの性能について検討する。 エンジンの効率と層数との間には単純な関係があることを示し、最大出力での効率は古典的な可逆的オットーサイクルよりも優れていることを示した。

Graphene is perhaps the most prominent "Dirac material," a class of systems whose electronic structure gives rise to charge carriers that behave as relativistic fermions. In multilayer graphene several crystal sheets are stacked such that the honeycomb lattice of each layer is displaced along one of the lattice edges. When subject to an external magnetic field, the scaling of the multilayer energy spectrum with the magnetic field, and thus the system's thermodynamic behavior, depends strongly on the number of layers. With this in mind, we examine the performance of a finite-time endoreversible Otto cycle with multilayer graphene as its working medium. We show that there exists a simple relationship between the engine efficiency and the number of layers, and that the efficiency at maximum power can exceed that of a classical endoreversible Otto cycle.
翻訳日:2023-01-09 17:59:12 公開日:2022-12-16
# 共有量子エンタングルメントを用いた干渉イメージング

Interferometric imaging using shared quantum entanglement ( http://arxiv.org/abs/2212.07395v2 )

ライセンス: Link先を確認
Matthew R. Brown, Markus Allgaier, Val\'erian Thiel, John Monnier, Michael G. Raymer, and Brian J. Smith(参考訳) エンタングルメントに基づくイメージングは、天文学と測地学のための非常に長いベースライン干渉計で使用されるコレクション開口の空間的分離を拡張することで、画像分解能を著しく向上させる。 2つのエンタングルフィールドモードを2つのアパーチャ間の位相参照として利用する,テーブルトップ量子エンタングルメントに基づく干渉画像技術について報告する。 ソースの空間分布は、各開口部で収集された光を絡み合ったフィールドの1つに干渉させ、共同測定することにより決定される。 このアプローチは、受信した光子毎に得られる情報を最大化しながら、角分解能を高める経路を提供する。

Entanglement-based imaging promises significantly increased imaging resolution by extending the spatial separation of collection apertures used in very-long-baseline interferometry for astronomy and geodesy. We report a table-top quantum-entanglement-based interferometric imaging technique that utilizes two entangled field modes serving as a phase reference between two apertures. The spatial distribution of the source is determined by interfering light collected at each aperture with one of the entangled fields and making joint measurements. This approach provides a route to increase angular resolution while maximizing the information gained per received photon.
翻訳日:2023-01-09 16:09:30 公開日:2022-12-16
# 量子気体中の波動乱流の普遍状態方程式

Universal equation of state for wave turbulence in a quantum gas ( http://arxiv.org/abs/2212.08652v1 )

ライセンス: Link先を確認
Lena H. Dogra, Gevorg Martirosyan, Timon A. Hilker, Jake A. P. Glidden, Ji\v{r}\'i Etrych, Alec Cao, Christoph Eigen, Robert P. Smith, Zoran Hadzibabic(参考訳) ボイルの1662年の観測では、気体の体積は常温では圧力に逆比例しており、状態方程式(eos)が多粒子系の重要な性質を簡潔に捉える方法の典型例となった。 このような関係は現在平衡熱力学の基礎となっている。 熱力学の概念を遠方平衡系に拡張することは、眼鏡、活性物質、乱流など様々な文脈において非常に興味深いが、一般にはオープンな問題である。 ここでは, 均一な超低温原子ボースガスを用いて, 物質波の乱流カスケードのためのEoSを実験的に構築する。 ガスは、大きなスケールでの連続的な強制と小さいスケールでの散逸の下では、スケール不変の運動量-空間エネルギーフラックスによって持続されるパワーロー運動量分布によって特徴づけられる非熱的だが定常状態を示す。 我々は、エネルギー注入や散逸の詳細や系の歴史に依存しないEoSによって関係づけられた平衡状態変数として運動量分布と下層のエネルギーフラックスの振幅を定めている。 さらに, 幅広い相互作用強度と気体密度に対する状態方程式が, 実験的に相互にスケールできることを示した。 この結果、普遍次元のないEoSは理論のベンチマークを設定し、他の乱流系にも関係する。

Boyle's 1662 observation that the volume of a gas is, at constant temperature, inversely proportional to pressure, offered a prototypical example of how an equation of state (EoS) can succinctly capture key properties of a many-particle system. Such relations are now cornerstones of equilibrium thermodynamics. Extending thermodynamic concepts to far-from-equilibrium systems is of great interest in various contexts including glasses, active matter, and turbulence, but is in general an open problem. Here, using a homogeneous ultracold atomic Bose gas, we experimentally construct an EoS for a turbulent cascade of matter waves. Under continuous forcing at a large length scale and dissipation at a small one, the gas exhibits a non-thermal, but stationary state, which is characterised by a power-law momentum distribution sustained by a scale-invariant momentum-space energy flux. We establish the amplitude of the momentum distribution and the underlying energy flux as equilibrium-like state variables, related by an EoS that does not depend on the details of the energy injection or dissipation, or the history of the system. Moreover, we show that the equations of state for a wide range of interaction strengths and gas densities can be empirically scaled onto each other. This results in a universal dimensionless EoS that sets benchmarks for the theory and should also be relevant for other turbulent systems.
翻訳日:2023-01-09 13:38:01 公開日:2022-12-16
# 単一欠陥を有する一次元系におけるドロード重み

Drude weights in one-dimensional systems with a single defect ( http://arxiv.org/abs/2212.08711v1 )

ライセンス: Link先を確認
Kazuaki Takasan, Masaki Oshikawa, Haruki Watanabe(参考訳) 量子系の弾道輸送は、無限に長い時間スケールの均一な電場に対する系の応答を定量化するドルーデ重みによって特徴づけられる。 ドラウド重みはしばしばコーンの公式の項で議論され、これはアハラノフ-ボームフラックスの項で周期境界条件を持つ有限サイズの系のエネルギー固有値の導出によってドラウド重みを与える。 近年、コーンの公式は非線形反応に一般化されている。 しかし、コーンの公式によって決定される非線形ドラウド重みはしばしば熱力学的極限で発散する。 この問題を明らかにするため,本研究では,ゼロ温度における単一欠陥の存在下での1次元タイト結合モデルの簡単な例について検討する。 コーン公式によって与えられる線形および非線形のドロード重みは (i)Aharonov-Bohmフラックスとそれに依存する (ii)システムサイズのパワーに比例して分散する。 我々は、その問題は異なる制限の順序に起因することができると論じる。 コーンの公式('kohn--drude weight'')によるドロー重量は、アハラノフ-ボームフラックスの断熱挿入に対する有限サイズの系の応答を示す。 有限サイズの系ではよく定義された物理量であるが、その熱力学的限界はバルクの弾道輸送を必ずしも記述していない。 後者は、ゼロ周波数の限界よりも先に熱力学の極限を取ることによって定義される '`bulk Drude weight'' によって特徴づけられる。 極限の順序の潜在的な問題は線形応答の中で議論されることがあるが、この2つの極限の差は非線形ドロード重みで増幅される。 我々は, バルクドリュード重量の正則化において, コーン・ドルデ重量から除外される$O(1/L)$の低エネルギー励起の重要性を示した。

Ballistic transport of a quantum system can be characterized by Drude weight, which quantifies the response of the system to a uniform electric field in the infinitely long timescale. The Drude weight is often discussed in terms of the Kohn formula, which gives the Drude weight by the derivative of the energy eigenvalue of a finite-size system with the periodic boundary condition in terms of the Aharonov-Bohm flux. Recently, the Kohn formula is generalized to nonlinear responses. However, the nonlinear Drude weight determined by the Kohn formula often diverges in the thermodynamic limit. In order to elucidate the issue, in this work we examine a simple example of a one-dimensional tight-binding model in the presence of a single defect at zero temperature. We find that its linear and non-linear Drude weights given by the Kohn formula (i) depend on the Aharonov-Bohm flux and (ii) diverge proportionally to a power of the system size. We argue that the problem can be attributed to different order of limits. The Drude weight according to the Kohn formula (``Kohn--Drude weight'') indicates the response of a finite-size system to an adiabatic insertion of the Aharonov-Bohm flux. While it is a well-defined physical quantity for a finite-size system, its thermodynamic limit does not always describe the ballistic transport of the bulk. The latter should be rather characterized by a ``bulk Drude weight'' defined by taking the thermodynamic limit first before the zero-frequency limit. While the potential issue of the order of limits has been sometimes discussed within the linear response, the discrepancy between the two limits is amplified in nonlinear Drude weights. We demonstrate the importance of the low-energy excitations of $O(1/L)$, which are excluded from the Kohn--Drude weight, in regularizing the bulk Drude weight.
翻訳日:2023-01-09 13:37:37 公開日:2022-12-16
# 指数高速化による変分量子探索

Variational Quantum Search with Exponential Speedup ( http://arxiv.org/abs/2212.09505v1 )

ライセンス: Link先を確認
Junpeng Zhan(参考訳) すでに強力な量子コンピュータが構築されているため、ノイズの多い中間スケール量子(NISQ)時代に古典的コンピュータ上で量子超越性を達成するために、より効率的な量子アルゴリズムが必要である。 グローバーの探索アルゴリズムとその一般化である量子振幅増幅は、多くの重要な科学的問題を解決する際に二次的なスピードアップをもたらす。 しかし、量子回路の深さは量子ビット数で指数関数的に増加するため、指数関数的な時間複雑性を持つ。 この問題に対処するために,提案手法である変分量子探索 (vqs) を提案し,このアルゴリズムは定評ある変分量子アルゴリズムに基づいて,アンサッツと呼ばれるパラメータ化された量子回路を含む。 深さ10アンザッツは、$k$$(k \geq 1$)良い要素の総確率を、$n$+1 qubitsで表される2^n$要素のうち、$k/2^n$から$1に近いものへと増幅することができ、VQSの量子回路の最大深さは、量子ビットの数とともに直線的に増加することを示す。 我々は,VQSの深さ56回路がGroverのアルゴリズムの深さ270,989回路を置き換えることができることを示す。 我々は、VQSがNP完全問題を含む多くの重要な問題への解を指数関数的に高速化する可能性があることを示唆する。

With powerful quantum computers already built, we need more efficient quantum algorithms to achieve quantum supremacy over classical computers in the noisy intermediate-scale quantum (NISQ) era. Grover's search algorithm and its generalization, quantum amplitude amplification, provide quadratic speedup in solving many important scientific problems. However, they still have exponential time complexity as the depths of their quantum circuits increase exponentially with the number of qubits. To address this problem, we propose a new algorithm, Variational Quantum Search (VQS), which is based on the celebrated variational quantum algorithms and includes a parameterized quantum circuit, known as Ansatz. We show that a depth-10 Ansatz can amplify the total probability of $k$ ($k \geq 1$) good elements, out of $2^n$ elements represented by $n$+1 qubits, from $k/2^n$ to nearly 1, as verified for $n$ up to 26, and that the maximum depth of quantum circuits in the VQS increases linearly with the number of qubits. We demonstrate that a depth-56 circuit in VQS can replace a depth-270,989 circuit in Grover's algorithm, and thus VQS is more suitable for NISQ computers. We envisage our VQS could exponentially speed up the solutions to many important problems, including the NP-complete problems, which is widely considered impossible.
翻訳日:2023-01-09 13:20:19 公開日:2022-12-16
# 各種ネットワークのパーコレーション閾値の精度予測器としての機械学習

Machine Learning as an Accurate Predictor for Percolation Threshold of Diverse Networks ( http://arxiv.org/abs/2212.14694v1 )

ライセンス: Link先を確認
Siddharth Patwardhan, Utso Majumder, Aditya Das Sarma, Mayukha Pal, Divyanshi Dwivedi and Prasanta K. Panigrahi(参考訳) パーコレーション閾値は、大きなネットワークの固有の剛性を決定する重要な尺度である。 大規模ネットワークのパーコレーションしきい値の予測者は計算量が非常に強いため、数値シミュレーションに依存しないネットワークのパーコレーションしきい値の予測子を開発する必要がある。 パーコレーション閾値の精度予測に機械学習を用いた5つの回帰手法の有効性を実証する。 機械学習モデルをトレーニングするために生成されたデータセットは、合計で777の実・合成ネットワークを含み、特徴としてネットワークの統計的・構造的性質と、出力属性として数値計算されたパーコレーションしきい値からなる。 本研究では,既存の3種類のボンドパーコレーションしきい値よりも機械学習モデルの方が優れており,この実験を現場および爆発的パーコレーション予測に拡張する。 また, パーコレーション閾値の予測におけるモデルの性能を比較し, 勾配上昇促進レグレクタ, 多層パーセプトロン, ランダム森林回帰モデルが, 利用したモデルの中で最小のRMSE値を達成することを示した。

Percolation threshold is an important measure to determine the inherent rigidity of large networks. Predictors of the percolation threshold for large networks are computationally intense to run, hence it is a necessity to develop predictors of the percolation threshold of networks, that do not rely on numerical simulations. We demonstrate the efficacy of five machine learning-based regression techniques for the accurate prediction of the percolation threshold. The dataset generated to train the machine learning models contains a total of 777 real and synthetic networks and consists of 5 statistical and structural properties of networks as features and the numerically computed percolation threshold as the output attribute. We establish that the machine learning models outperform three existing empirical estimators of bond percolation threshold, and extend this experiment to predict site and explosive percolation. We also compare the performance of our models in predicting the percolation threshold and find that the gradient boosting regressor, multilayer perceptron and random forests regression models achieve the least RMSE values among the models utilized.
翻訳日:2023-01-09 13:12:01 公開日:2022-12-16
# 強異方性交換相互作用によるトポロジカルエッジ伝導

Topological Edge Conduction Induced by Strong Anisotropic Exchange Interactions ( http://arxiv.org/abs/2212.08316v1 )

ライセンス: Link先を確認
Shehrin Sayed, Pratik Brahma, Cheng-Hsiang Hsu, and Sayeef Salahuddin(参考訳) 我々は, 異方性相互作用が等方性相互作用の少なくとも2倍の強度である場合, ハニカム格子構造における異方性交換相互作用と異方性交換相互作用の相互作用がトポロジカルエッジ伝導を引き起こすことを予測した。 Na$_2$IrO$_3$のような材料では、強い異方性交換相互作用は同時にジグザグ型の反強磁性秩序を誘導し、トポロジカルエッジ導体の時間反転対称性を破る。 このようなトポロジカル導体における電子輸送は、フェルミエネルギーが特定のエネルギー範囲内にある場合、外部磁場を伴わない量子化されたホール伝導を示す。

We predict that an interplay between isotropic and anisotropic exchange interactions in a honeycomb lattice structure can lead to topological edge conduction when the anisotropic interaction is at least twice the strength of the isotropic interaction. For materials like Na$_2$IrO$_3$, such a strong anisotropic exchange interaction simultaneously induces a zigzag type of antiferromagnetic order that breaks the time-reversal symmetry of the topological edge conductor. We show that the electronic transport in such topological conductors will exhibit a quantized Hall conductance without any external magnetic field when the Fermi energy lies within a particular energy range.
翻訳日:2023-01-09 13:11:15 公開日:2022-12-16
# キャビティqedにおける非摂動真空シフトを観測できるか?

Can we observe non-perturbative vacuum shifts in cavity QED? ( http://arxiv.org/abs/2212.08675v1 )

ライセンス: Link先を確認
Roc\'io S\'aez-Bl\'azquez, Daniele de Bernardis, Johannes Feist, and Peter Rabl(参考訳) 我々は、単一双極子の強い閉じ込められた電磁真空とのカップリングが、双極子の基底状態に対する非摂動補正をもたらすという条件を達成できるかどうかという根本的な問題に対処する。 そこで我々は, 地中エネルギーに関する解析式を導出し, 純粋に静電気的, 純粋に真空誘起の寄与をはっきりと区別できる2つの簡易な空洞QED構成を考える。 この導出は、アドホックモードの乱れから生じる曖昧さを回避しつつ、完全な電磁スペクトルを考慮に入れている。 以上の結果から, 減圧効果は真空誘起補正に十分ではないものの, プラズモンやLC共振器などの高インピーダンスモードの存在は, これらの効果を大幅に増大させる可能性が示唆された。 したがって、適切に設計された実験では、少なくとも原則として、光物質相互作用が非摂動的になる状態にアクセスできると結論付ける。

We address the fundamental question whether or not it is possible to achieve conditions under which the coupling of a single dipole to a strongly confined electromagnetic vacuum can result in non-perturbative corrections to the dipole's ground state. To do so we consider two simplified, but otherwise rather generic cavity QED setups, which allow us to derive analytic expressions for the total ground state energy and to distinguish explicitly between purely electrostatic and genuine vacuum-induced contributions. Importantly, this derivation takes the full electromagnetic spectrum into account while avoiding any ambiguities arising from an ad-hoc mode truncation. Our findings show that while the effect of confinement per se is not enough to result in substantial vacuum-induced corrections, the presence of high-impedance modes, such as plasmons or engineered LC resonances, can drastically increase these effects. Therefore, we conclude that with appropriately designed experiments it is at least in principle possible to access a regime where light-matter interactions become non-perturbative.
翻訳日:2023-01-09 13:10:40 公開日:2022-12-16
# 組合せ最適化問題に対する超多項量子アドバンテージ

A super-polynomial quantum advantage for combinatorial optimization problems ( http://arxiv.org/abs/2212.08678v1 )

ライセンス: Link先を確認
Niklas Pirnay, Vincent Ulitzsch, Frederik Wilde, Jens Eisert, Jean-Pierre Seifert(参考訳) コンビナティブ最適化( Combinatorial optimization) - 実用的および工業的コンテキストの豊富な問題に対処する研究分野 - は、短期量子コンピュータの適用可能性のコア分野の1つとして特定されている。 しかし、このタイプの問題に対して、変動量子アルゴリズムが古典的アルゴリズムより実際に優れているかは、まだ不明である。 本研究は,計算学習理論と暗号概念を駆使して,フォールトトレラント量子コンピュータは,組合せ最適化問題に対する近似解法において,古典的コンピュータに対してスーパーポリノミカルな優位性を持つことを示した。 具体的には、カーンズとヴァリアントの独創的な業績に基づいて、(最も一般的な形式はnp完全である)整数計画問題の特別な例を構築し、古典的には近似が難しいが、それらのインスタンスの最適解を近似する効率的な量子アルゴリズムを与える。 この結果は、量子デバイスが古典的効率的なアルゴリズムの範囲を超えて組合せ最適化解を近似する力を持っていることを示している。

Combinatorial optimization - a field of research addressing problems that feature strongly in a wealth of practical and industrial contexts - has been identified as one of the core potential fields of applicability of near-term quantum computers. It is still unclear, however, to what extent variational quantum algorithms can actually outperform classical algorithms for this type of problems. In this work, by resorting to computational learning theory and cryptographic notions, we prove that fault-tolerant quantum computers feature a super-polynomial advantage over classical computers in approximating solutions to combinatorial optimization problems. Specifically, building on seminal work of Kearns and Valiant, we construct special instances of the integer programming problem (which in its most general form is NP-complete) that we prove to be hard-to-approximate classically but give an efficient quantum algorithm to approximate the optimal solution of those instances, hence showing a super-polynomial quantum advantage. This result shows that quantum devices have the power to approximate combinatorial optimization solutions beyond the reach of classical efficient algorithms.
翻訳日:2023-01-09 13:10:23 公開日:2022-12-16
# グロタンディークの不等式は多項式法に逆を特徴づける

Grothendieck inequalities characterize converses to the polynomial method ( http://arxiv.org/abs/2212.08559v1 )

ライセンス: Link先を確認
Jop Bri\"et, Francisco Escudero Guti\'errez and Sander Gribling(参考訳) Aaronson et al. (CCC'16) の驚くべき「多項式法への逆」は、任意の有界二次多項式は、有名なグロタンディーク定数に関連する普遍的乗法係数まで1-クエリアルゴリズムによって正確に計算できることを示している。 ここでは、加法近似を許容しても、そのような結果はクォート多項式や2-クエリアルゴリズムに一般化されないことを示す。 また、それらの結果から示唆される加法近似は有界双線型形式に対して密接であり、1-クエリ量子アルゴリズムの観点からグロタンディーク定数の新たな特徴付けを与える。 その過程で、形式の全有界ノルムとその双対ノルムの再構成を提供する。

A surprising 'converse to the polynomial method' of Aaronson et al. (CCC'16) shows that any bounded quadratic polynomial can be computed exactly in expectation by a 1-query algorithm up to a universal multiplicative factor related to the famous Grothendieck constant. Here we show that such a result does not generalize to quartic polynomials and 2-query algorithms, even when we allow for additive approximations. We also show that the additive approximation implied by their result is tight for bounded bilinear forms, which gives a new characterization of the Grothendieck constant in terms of 1-query quantum algorithms. Along the way we provide reformulations of the completely bounded norm of a form, and its dual norm.
翻訳日:2023-01-09 08:30:04 公開日:2022-12-16
# 広帯域ジョセフソンパラメトリックアイソレータ

Wideband Josephson Parametric Isolator ( http://arxiv.org/abs/2212.08563v1 )

ライセンス: Link先を確認
M. A. Beck, M. Selvanayagam, A. Carniol, S. Cairns, C. P. Mancini(参考訳) 超伝導量子コンピュータを構築するのに必要な極低温ハードウェアは、マイクロ波カプラ、フィルタ、増幅器、循環器/アイソレータを含む様々なマイクロ波部品を必要とする。 伝統的に、これらは信号経路に挿入された離散的なコンポーネントによって実装される。 qubitの数が100以上に達するにつれ、全体的なフットプリント、熱負荷、システム全体のノイズの増加といった周辺コンポーネントの統合は、スケーリングの重要な課題になります。 フェライト系マイクロ波アイソレータは、物理的に最大のデバイスの一つであり、独立したコンポーネントとして存続している。 一般に、ブロードバンドノイズやアンプなどの下流成分から発生する不要信号からキュービットや共振器を保護するために、リードアウトチェーンで使用される。 本稿では、直流超電導量子干渉デバイス(DC-SQUID)から導出される2ポート分離集積回路について述べる。 フラックス変調直流-SQUIDの3波マイクロ波混合特性を用いて非相互伝送を実現する。 複数の直流-SQUIDを多極共振器反転フィルタ構造に埋め込むと、直流-SQUIDのRFフラックスポンピングにより指向性マイクロ波電力の流れが得られることを示す。 3極フィルタ装置では,600MHz帯で15dB以上の指向性を示す実験を行った。

The cryogenic hardware needed to build a superconducting qubit based quantum computer requires a variety of microwave components including microwave couplers, filters, amplifiers, and circulators/isolators. Traditionally, these are implemented via discrete components inserted in to the signal path. As qubit counts climb over the 100+ mark, the integration of these peripheral components, in an effort to reduce overall footprint, thermal load, and added noise in the overall system, is a key challenge to scaling. Ferrite-based microwave isolators are one of the physically largest devices that continue to remain as discrete components. They are generally employed in the readout chain to protect qubits and resonators from broadband noise and unwanted signals emanating from downstream components such as amplifiers. Here we present an alternative two-port isolating integrated circuit derived from the DC Superconducting Quantum Interference Device (DC-SQUID). The non-reciprocal transmission is achieved using the three-wave microwave mixing properties of a flux-modulated DC-SQUID. We show experimentally that, when multiple DC-SQUIDs are embedded in a multi-pole admittance inverting filter structure, RF flux pumping of the DC-SQUIDs can provide directional microwave power flow. For a three-pole filter device, we experimentally demonstrate a directionality greater than 15 dB over a 600 MHz bandwidth.
翻訳日:2023-01-09 08:29:52 公開日:2022-12-16
# シェリントン・カークパトリック模型のダイアバティック量子および古典的熱処理

Diabatic quantum and classical annealing of the Sherrington-Kirkpatrick model ( http://arxiv.org/abs/2212.08634v1 )

ライセンス: Link先を確認
Artem Rakcheev and Andreas M. L\"auchli(参考訳) 量子アニールは、量子力学に基づく組合せ最適化問題の解法である。 ソリューションの品質と必要なランタイムを調査するために、かなりの努力がなされているが、量子アニーリングのダイナミクスとソリューションそのものに至るプロセスを理解することには、あまり注意が払われていない。 本研究では,様々な手法を用いて量子アニーリングダイナミクスの様々な側面について検討する。 シミュレーションにより,シェリントン・カークパトリックモデルの数百事例において,最大22スピンまでの中間系サイズを持つ量子アニール,シミュレートされた量子アニール,および古典アニールを行う。 我々は量子的手法と古典的手法の質的な差異を観察し、特に中間の時代には、硬い場合において、忠実度(ダイアバティックバンプとしても知られる)のピークが現れる。 さらに,中間時間における差を特徴とする2点相関関数についても検討した。 しかし、短時間では、この手法は再び類似しており、量子アニーリングの短時間の膨張を高温の膨張に関連付けることで説明できるため、原則として、制限的なサンプリングコストにもかかわらず、既に短時間で古典解を見つけることができる。

Quantum annealing is a contender to solve combinatorial optimization problems based on quantum dynamics. While significant efforts have been undertaken to investigate the quality of the solutions and the required runtimes, much less attention has been paid to understanding the dynamics of quantum annealing and the process leading to the solution during the sweep itself. In this comprehensive study, we investigate various aspects of the quantum annealing dynamics using different approaches. We perform quantum annealing, simulated quantum annealing, and classical annealing on several hundred instances of the Sherrington-Kirkpatrick model with intermediate system sizes up to 22 spins using numerical simulations. We observe qualitative differences between the quantum and classical methods, in particular at intermediate times, where a peak in the fidelity, also known as diabatic bump, appears for hard instances. Furthermore, we investigate the two-point correlation functions, which feature differences at intermediate times as well. At short times, however, the methods are similar again, which can be explained by relating the short-time expansion of quantum annealing to a high-temperature expansion, thus allowing in principle to find the classical solution already at short times, albeit at prohibitive sampling cost.
翻訳日:2023-01-09 08:29:31 公開日:2022-12-16
# ブラックボディ放射シフトの直接測定とクロック周波数の決定による$^{88}$Sr$^+$光時計の評価

Evaluation of a $^{88}$Sr$^+$ optical clock with a direct measurement of the blackbody radiation shift and determination of the clock frequency ( http://arxiv.org/abs/2212.08687v1 )

ライセンス: Link先を確認
M. Steinel, H. Shao, M. Filzinger, B. Lipphardt, M. Brinkmann, A. Didier, T. E. Mehlst\"aubler, T. Lindvall, E. Peik, and N. Huntemann(参考訳) 本稿では,1個の$^{88}$sr$^+$イオンの遷移に$\phantom{}^2s_{1/2} \rightarrow \phantom{}^2d_{5/2}$を用いた光時計の評価について報告する。 従来の研究とは対照的に,動作中の基準遷移を直接シフトする黒体放射の有効温度を,対応する周波数シフトと熱放射に対する良好な感度から推定する。 我々は、独立の$^{171}$Yb$^+$ ion clockに対して、$\phantom{}^2S_{1/2} (F=0) \rightarrow \phantom{}^2F_{7/2} (F=3)$ electric octupole (E3) transitionに基づいてクロック出力周波数を測定し、総分数不確かさを2.3\times 10^{-17}$で決定する。 以前の$^{171}$Yb$^+$ (E3)クロック周波数の測定結果から、$^{88}$Sr$^+$クロック遷移の絶対周波数は444779044095485.271(59)\,\text{Hz}$である。 以上の結果から,従来で最も正確な測定値と比較して3ドル程度の不確実性を低減し,この値の不整合性判定の解決に寄与する可能性が示唆された。 また、3つの質問が同時に交わされた$^{88}$sr$^+$ イオンに対して、その数の増加は、その系統的不確かさを損なうことなく、光時計の短期的周波数不安定性が期待できる改善をもたらすことを示した。

We report on an evaluation of an optical clock that uses the $\phantom{}^2S_{1/2} \rightarrow \phantom{}^2D_{5/2}$ transition of a single $^{88}$Sr$^+$ ion as the reference. In contrast to previous work, we estimate the effective temperature of the blackbody radiation that shifts the reference transition directly during operation from the corresponding frequency shift and the well-characterized sensitivity to thermal radiation. We measure the clock output frequency against an independent $^{171}$Yb$^+$ ion clock, based on the $\phantom{}^2S_{1/2} (F=0) \rightarrow \phantom{}^2F_{7/2} (F=3)$ electric octupole (E3) transition, and determine the frequency ratio with a total fractional uncertainty of $2.3\times 10^{-17}$. Relying on a previous measurement of the $^{171}$Yb$^+$ (E3) clock frequency, we find the absolute frequency of the $^{88}$Sr$^+$ clock transition to be $444779044095485.271(59)\,\text{Hz}$. Our result reduces the uncertainty by a factor of $3$ compared to the previously most accurate measurement and may help to resolve so far inconsistent determinations of this value. We also show that for three simultaneously interrogated $^{88}$Sr$^+$ ions, the increased number causes the expected improvement of the short-term frequency instability of the optical clock without degrading its systematic uncertainty.
翻訳日:2023-01-09 08:29:08 公開日:2022-12-16
# TwitterのAgenda-Settingの役割:Twitterの政治転換戦略に関する研究

Twitter's Agenda-Setting Role: A Study of Twitter Strategy for Political Diversion ( http://arxiv.org/abs/2212.14672v1 )

ライセンス: Link先を確認
Yuyang Chen, Xiaoyu Cui, Yunjie Song, Manli Wu(参考訳) 本研究は、ドナルド・トランプのtwitterキャンペーンがagen-da-settingを誘導し、政治的リスクを和らげる効果を検証し、トランプ大統領のtwitterコミュニケーション戦略を調べ、新型コロナウイルス(covid-19)パンデミックにおける自身のツイートコンテンツのコミュニケーション効果について検討した。 我々は、2020年1月1日から2020年12月31日まで、トランプがTwitterプラットフォーム上で投稿したツイートをすべて収集した。 確認済みのCovid-19の診断回数と特定のテーマツイート数との相関を時系列分析を用いて検討した。 実証分析によると、Twitterの戦略は、新型コロナウイルスの感染拡大中、否定的なコビッドウイルスの報告から大衆の注意を逸らすために使われており、Twitterに強力な政治的コミュニケーション効果を投稿している。 しかし、調査結果はトランプが政治的リスクを分散させ世論を形作るために虚偽の主張を使わなかったことを示唆している。

This study verified the effectiveness of Donald Trump's Twitter campaign in guiding agen-da-setting and deflecting political risk and examined Trump's Twitter communication strategy and explores the communication effects of his tweet content during Covid-19 pandemic. We collected all tweets posted by Trump on the Twitter platform from January 1, 2020 to December 31, 2020.We used Ordinary Least Squares (OLS) regression analysis with a fixed effects model to analyze the existence of the Twitter strategy. The correlation between the number of con-firmed daily Covid-19 diagnoses and the number of particular thematic tweets was investigated using time series analysis. Empirical analysis revealed Twitter's strategy is used to divert public attention from negative Covid-19 reports during the epidemic, and it posts a powerful political communication effect on Twitter. However, findings suggest that Trump did not use false claims to divert political risk and shape public opinion.
翻訳日:2023-01-09 08:19:47 公開日:2022-12-16
# バイアス補正型高分解能地球系モデルのための深層学習

Deep Learning for bias-correcting comprehensive high-resolution Earth system models ( http://arxiv.org/abs/2301.01253v1 )

ライセンス: Link先を確認
Philipp Hess, Stefan Lange, Niklas Boers(参考訳) 地球系モデル(esms)における降水の正確な表現は、地球温暖化に対する生態学的および社会経済的影響の信頼できる予測に不可欠である。 しかし、降水を生み出す過程の複雑なクロススケール相互作用はモデル化が困難であり、特に極性に関して、ESM分野において潜在的に強いバイアスを引き起こす。 最先端バイアス補正法は、各格子セルにおけるシミュレーション周波数分布の誤差にのみ対処する。 空間コンテキストを必要とするESM出力の非現実的な空間パターンを改善することは、これまで不可能であった。 本稿では,物理制約付き生成逆数ネットワーク(GAN)に基づくポストプロセッシング手法により,局所周波数分布と空間パターンの双方において,最先端のCMIP6クラスESMのバイアスを補正できることを示す。 本手法は局所周波数分布を金標準バイアス調整フレームワークと同等に改善するが,特に降水極の空間断続性特性の観点から,空間パターンの補正において既存の手法よりも優れている。

The accurate representation of precipitation in Earth system models (ESMs) is crucial for reliable projections of the ecological and socioeconomic impacts in response to anthropogenic global warming. The complex cross-scale interactions of processes that produce precipitation are challenging to model, however, inducing potentially strong biases in ESM fields, especially regarding extremes. State-of-the-art bias correction methods only address errors in the simulated frequency distributions locally, at every individual grid cell. Improving unrealistic spatial patterns of the ESM output, which would require spatial context, has not been possible so far. Here, we show that a post-processing method based on physically constrained generative adversarial networks (GANs) can correct biases of a state-of-the-art, CMIP6-class ESM both in local frequency distributions and in the spatial patterns at once. While our method improves local frequency distributions equally well as gold-standard bias-adjustment frameworks it strongly outperforms any existing methods in the correction of spatial patterns, especially in terms of the characteristic spatial intermittency of precipitation extremes.
翻訳日:2023-01-09 08:19:25 公開日:2022-12-16
# ニュートリノ混合における幾何相

Geometric phases in neutrino mixing ( http://arxiv.org/abs/2212.08245v1 )

ライセンス: Link先を確認
Manosh T. M., N. Shaji, Ramesh Babu Thayyullathil, and Titus K Mathew(参考訳) ニュートリノは質量とフレーバーの固有状態の非自明な混合のために動的相と幾何学的相の両方を得ることができる。 本稿では,3つのフレーバーニュートリノモデルにおける可算ゲージ不変対角およびオフ対角幾何相の一般表現をキネマティックアプローチを用いて導出する。 対角線および高次オフ対角線幾何位相は質量秩序に敏感であり、dirac cp は$\delta$ に違反する。 ディラック CP 位相が 0 であるとき、三階オフ対角幾何学相(Phi_{\mu e\tau}$)が任意の循環的あるいは非循環的なフレーバー指数の置換の下で不変であることを示す。 非零$\delta$の場合、$\Phi_{\mu e\tau}(\delta)=\Phi_{e \mu \tau}(-\delta)$となる。 さらに, 2 つのフレーバーニュートリノモデルを用いて物質背景の影響を調べ, 対角幾何学位相が msw 共鳴領域で 0 か $\pi$ であり, 他の場所では非自明な値を取ることを示した。 0 と $\pi$ の遷移は、対角幾何学的位相が定義されない nodal point と呼ばれる完全な振動反転の点で起こる。 また、2つのフレーバー近似において、2つの異なる対角幾何位相は混合角に対する共関数である。 最後に、2つのフレーバーモデルにおいて、唯一の2次非対角幾何学相が位相不変量であり、常に$\pi$であることを示す。

Neutrinos can acquire both dynamic and geometric phases due to the non-trivial mixing between mass and flavour eigenstates. In this article, we derive the general expressions for all plausible gauge invariant diagonal and off-diagonal geometric phases in the three flavour neutrino model using the kinematic approach. We find that diagonal and higher order off-diagonal geometric phases are sensitive to the mass ordering and the Dirac CP violating phase $\delta$. We show that, third order off-diagonal geometric phase ($\Phi_{\mu e\tau}$) is invariant under any cyclic or non-cyclic permutations of flavour indices when the Dirac CP phase is zero. For non-zero $\delta$, we find that $\Phi_{\mu e\tau}(\delta)=\Phi_{e \mu \tau}(-\delta)$. Further, we explore the effects of matter background using a two flavour neutrino model and show that the diagonal geometric phase is either 0 or $\pi$ in the MSW resonance region and takes non-trivial values elsewhere. The transition between zero and $\pi$ occurs at the point of complete oscillation inversion called the nodal point, where the diagonal geometric phase is not defined. Also, in two flavour approximations, two distinct diagonal geometric phases are co-functions with respect to the mixing angle. Finally, in the two flavour model, we show that the only second order off-diagonal geometric phase is a topological invariant quantity and is always $\pi$.
翻訳日:2023-01-09 08:19:06 公開日:2022-12-16
# 狭いs波フェシュバッハ共鳴近傍の3体衝突のスケーリング則

Scaling law for three-body collisions near a narrow s-wave Feshbach resonance ( http://arxiv.org/abs/2212.08257v1 )

ライセンス: Link先を確認
Yirou Xu, Shiyin Kuang, Shuai Peng, Jiaming Li, Le Luo(参考訳) 一般化されたefimov物理は、超低温気体中の3体衝突を記述するために応用でき、3体再結合速度の散乱長スケーリング則を明らかにすることができる。 従来、このようなスケーリング法則はボソニック系で研究されてきたが、フェルミオン原子の挙動はいまだ解明されていない。 本稿では,2成分超低温$^6$Liフェルミガス中における狭い$s$波フェシュバッハ共鳴近傍の3体原子損失率$L_3$のスケーリング法則について実験的に検討した。 散乱長が$a<0$の体制におけるスケーリング法則を検証し、ガス温度が$T$の断熱超球面表現によって予測されるように、$L_3$は$T|a|^{2.46 +- 0.05}$となる。 そのようなスケール法則の観察は2つの効果によって制限される。 a\rightarrow \infty$ の場合、三体加熱とユニタリ挙動は、より滑らかな散乱長依存性にパワーロー関係をシフトさせる。 a\rightarrow 0$ の近傍では、実効衝突長 $L_e$ に依存する$L_3$ を導出して有限範囲補正を行い、スケーリング法則に対する有限範囲効果を観察する。 狭いフェシュバッハ共鳴近傍での衝突挙動の研究は、有限範囲の現実的な原子間ポテンシャルを持つ少数体物理学の探索に役立つ。

Generalized Efimov physics can be applied to describe three-body collisions in ultracold gases, revealing a scattering length scaling law of three-body recombination rate. Previously such scaling law has been intensively studied in the bosonic systems, but its behavior with fermionic atoms remains elusive. In this paper, we report on an experimental study of the scaling law for the three-body atomic loss rate $L_3$ near the narrow $s$-wave Feshbach resonance in a two-component ultracold $^6$Li Fermi gas. The scaling law in the regime with the scattering length $a<0$ is validated, where $L_3$ is scaling as $T|a|^{2.46 +- 0.05}$ as predicted by the adiabatical hyperspherical respresentation with the gas temperature $T$. The observation of such scaling law is limited by two effects. When $a\rightarrow \infty$, the three-body heating as well as the unitary behavior shifts the power-law relation to a more smooth scattering length dependence. In the vicinity of $a\rightarrow 0$, we study the finite range correction by deriving $L_3$ dependence on the effective collision length $L_e$, and observe the finite range effects on the scaling law. Our studies on the collisional behavior near the narrow Feshbach resonance help to explore the few-body physics with a realistic interatomic potential with a finite range.
翻訳日:2023-01-09 08:18:43 公開日:2022-12-16
# 相対論的波動関数の光円錐伝播を超えて:数値結果

Beyond the light-cone propagation of relativistic wavefunctions: numerical results ( http://arxiv.org/abs/2212.08400v1 )

ライセンス: Link先を確認
X. Gutierrez de la Cal and, A. Matzkin(参考訳) 相対論的波動関数は、プロパゲータが正のエネルギーセクタに制限されたときに光円錐を超えて形式的に伝播することが知られている。 構成により、これはサルペータ方程式(あるいは相対論的シュレーディンガー方程式)の解や、折りたたみ式で定義されるklein-gordon \およびdirac波動関数の解の場合である。 本研究では,まずはコンパクトな空間支持を有する異なる種類の波束に対して,自由伝搬に対する非因果性の程度を定量的に検討する。 研究した例では、非因果性は、たいていの場合無視できる小さな一時的な効果として現れる。 この特異な動的特徴について,いくつかの数値結果を示し,その基礎的および実践的な結果について考察する。

It is known that relativistic wavefunctions formally propagate beyond the light cone when the propagator is limited to the positive energy sector. By construction, this is the case for solutions of the Salpeter (or relativistic Schr\"odinger) equation or for Klein-Gordon \ and Dirac wavefunctions defined in the Foldy-Wouthuysen representation. In this work we investigate quantitatively the degree of non-causality for free propagation for different types of wavepackets all having initially a compact spatial support. In the studied examples we find that non-causality appears as a small transient effect that can in most cases be neglected. We display several numerical results and discuss the fundamental and practical consequences of our findings concerning this peculiar dynamical feature.
翻訳日:2023-01-09 08:18:17 公開日:2022-12-16
# 非平衡定常状態における絡み合い負性

Entanglement negativity in a nonequilibrium steady state ( http://arxiv.org/abs/2212.08499v1 )

ライセンス: Link先を確認
Viktor Eisler(参考訳) 異なる温度で調製された2つの半鎖を接続した後に生じる自由フェルミオン鎖の非平衡定常状態における絡み合い特性について検討した。 2つの隣り合う間隔間の絡み合いの負性度とR'enyi相互情報はシステムサイズで対数的にスケールし、予備因子は浴槽温度の関数として解析的に計算する。 特に、指数 $\alpha=1/2$ のネガティビティと r\'enyi の相互情報が異なる前因子によって記述され、2つの量は状態に関する非同値な情報を与える。 さらに, 時間発展におけるネガティビティの対数成長は定常的因子によっても制御されることを示した。

We study entanglement properties in a nonequilibrium steady state of a free-fermion chain, that emerges after connecting two half-chains prepared at different temperatures. The entanglement negativity and the R\'enyi mutual information between two adjacent intervals scale logarithmically in the system size, with prefactors that we calculate analytically as a function of the bath temperatures. In particular, we show that the negativity and the R\'enyi mutual information with index $\alpha=1/2$ are described by different prefactors, and thus the two quantities provide inequivalent information about the state. Furthermore, we show that the logarithmic growth of the negativity during time evolution is also governed by the steady-state prefactor.
翻訳日:2023-01-09 08:18:03 公開日:2022-12-16
# 3レベル系におけるマグヌス展開による粗粒有効ハミルトニアン

Coarse-grained effective Hamiltonian via the Magnus Expansion for a three-level system ( http://arxiv.org/abs/2212.08508v1 )

ライセンス: Link先を確認
Nicola Macr\`i, Luigi Giannelli, Elisabetta Paladino and Giuseppe Falci(参考訳) 量子状態処理は量子技術の主要なツールの1つである。 実系は複雑であり、非イデアル制御によって駆動されることもあるが、しかしながら、低エネルギーヒルベルト部分空間に概して制限された単純なダイナミクスを示すこともある。 断熱除去は、低次元ヒルベルト部分空間において有効ハミルトニアン演算を導出できる最も単純な近似スキームである。 しかし、これらの近似は曖昧さと困難さを示し、より大型のシステムにおける精度の体系的な向上を妨げる可能性がある。 ここでは、あいまいさのない有効ハミルトニアンを導出するための体系的なツールとしてマグナス展開を用いる。 近似の妥当性は最終的に、正確なダイナミクスの時間に適切に行われる粗粒化にのみ活用できることを示した。 量子演算の忠実度を適切に調整した実効ハミルトニアンの精度を検証する。

Quantum state processing is one of the main tools of quantum technologies. While real systems are complicated and/or may be driven by non-ideal control they may nevertheless exhibit simple dynamics approximately confined to a low-energy Hilbert subspace. Adiabatic elimination is the simplest approximation scheme allowing us to derive in certain cases an effective Hamiltonian operating in a low-dimensional Hilbert subspace. However, these approximations may present ambiguities and difficulties hindering a systematic improvement of their accuracy in larger and larger systems. Here we use the Magnus expansion as a systematic tool to derive ambiguity-free effective Hamiltonians. We show that the validity of the approximations ultimately leverages only on a properly done coarse-graining in time of the exact dynamics. We validate the accuracy of the obtained effective Hamiltonians with suitably tailored fidelities of quantum operations.
翻訳日:2023-01-09 07:35:37 公開日:2022-12-16
# 単一光子と線形量子光学による大規模ベースライン光学イメージング

Large baseline optical imaging assisted by single photons and linear quantum optics ( http://arxiv.org/abs/2212.08516v1 )

ライセンス: Link先を確認
Marta Maria Marchese and Pieter Kok(参考訳) 本研究では,量子メソロジーとネットワークツールを組み合わせることで,干渉光学望遠鏡のベースラインを拡張し,点源位置の回折制限イメージングを改善することができることを示す。 量子干渉計は単一光子源、線形光回路、効率的な光子数カウンタに基づいている。 驚くべきことに、モード当たりの光子数が少なく、ベースライン全体で高い透過損失を持つ熱的(恒星)ソースでは、検出された光子確率分布は依然としてソース位置に関する大量のフィッシャー情報を保持しており、10 {\mu}asの順で位置決め点ソースの分解能が大幅に向上する。 我々の提案は現在の技術で実装できる。 特に、我々の提案は実験的な光量子メモリを必要としない。

In this work, we show that by combining quantum metrology and networking tools, it is possible to extend the baseline of an interferometric optical telescope and thus improve diffraction-limited imaging of point source positions. The quantum interferometer is based on single-photon sources, linear optical circuits, and efficient photon number counters. Surprisingly, with thermal (stellar) sources of low photon number per mode and high transmission losses across the baseline, the detected photon probability distribution still retains a large amount of Fisher information about the source position, allowing for a significant improvement in the resolution of positioning point sources, on the order of 10 {\mu}as. Our proposal can be implemented with current technology. In particular, our proposal does not require experimental optical quantum memories.
翻訳日:2023-01-09 07:35:23 公開日:2022-12-16
# 量子力学における障害による精度向上

Disorder-induced enhancement of precision in quantum metrology ( http://arxiv.org/abs/2212.08523v1 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen(参考訳) ガラス障害の挿入, 偶発的あるいは工学的挿入は, 量子系の未知のパラメータを推定する際に, メロジカルな精度の向上につながることが判明した。 推定パラメータの最小標準偏差に対するフィッシャー情報に基づく下限を, 理想的な無秩序な状況と同等に, システム内のガラス性障害の存在下で比較した。 推定における乱れ平均誤差が、非相関性の無秩序なシナリオと2ビットの最大絡み合ったプローブのコピーとで、同じ性能を示す。 理想の状況よりも、乱れた状況で得られる測定の精度の利点は、乱れによる誤差分布の標準偏差よりもしばしば大きいが、そのような場合においては、この効果を「乱れからの秩序」の例と呼ぶ。 さらに、障害挿入は、2量子ビット状態のコピーである初期プローブの絡み合い内容の必要性を減少させ、障害誘発強調を提供する。

We find that insertion of glassy disorder, accidental or engineered, can lead to enhancement of metrological precision in estimating an unknown parameter of a quantum system. We compare the Fisher information-based lower bound of the minimum standard deviation of an estimated parameter, in presence of glassy disorder in the system, with the same of an ideal, viz. disorder-free, situation. We find instances where the disorder-averaged error in estimation outperforms the same for a disorder-less scenario for uncorrelated as well as copies of two-qubit maximally entangled probes. The advantage in the accuracy of measurement obtained in a disordered situation over the ideal one is often greater than the corresponding standard deviation of the disorder-induced error distribution, and in such cases, we refer to the effect as an example of "order from disorder". Additionally, disorder insertion can reduce the requirement of entanglement content of the initial probes, which are copies of two-qubit states, along with providing a disorder-induced enhancement.
翻訳日:2023-01-09 07:35:08 公開日:2022-12-16
# ランダムグラフアプローチによる量子超越性iqp回路の古典的シミュレーション

Classically Simulating Quantum Supremacy IQP Circuits trough a Random Graph Approach ( http://arxiv.org/abs/2212.08609v1 )

ライセンス: Link先を確認
Julien Codsi, John van de Wetering(参考訳) 量子超越性 (quantum supremacy) は、最適な古典的コンピュータでは合理的に実行できない量子コンピュータによる計算のデモンストレーションである。 短期量子コンピュータでこれを実証するためのよく研究されたアプローチは、ランダム回路サンプリングを使用することである。 ランダム回路サンプリングを用いて量子超越性を実証するよい候補は、 'emph{IQP circuits} を使うことが示唆されている。 これらは、その実装するユニタリが対角線である量子回路である。 本稿では、ランダムIQP回路を古典的にシミュレートする改良手法を提案する。 我々は、任意の多項式に対して$o(2^n/\text{poly}(n))$で実行されるスパース回路(各量子ビットが$o(\log n)$他の量子ビットと相互作用する)に対して、時間$o(\frac{\log^2 n}{n} 2^n )$で、密なランダムな2量子ビット相互作用を持つn$量子ビットiqp回路の振幅を計算する簡単なアルゴリズムを見つける。 より複雑な安定化器分解法を用いて、密度回路のアルゴリズムを$O\left(\frac{(\log n)^{4-\beta}}{n^{2-\beta}} 2^n \right)$に改善する。 アルゴリズムをベンチマークした結果、最大50量子ビットの回路をラップトップで数分でシミュレートできることがわかった。 我々は70量子ビット回路が大規模クラスタの到達範囲内にあると推定する。

Quantum Supremacy is a demonstration of a computation by a quantum computer that can not be performed by the best classical computer in a reasonable time. A well-studied approach to demonstrating this on near-term quantum computers is to use random circuit sampling. It has been suggested that a good candidate for demonstrating quantum supremacy with random circuit sampling is to use \emph{IQP circuits}. These are quantum circuits where the unitary it implements is diagonal. In this paper we introduce improved techniques for classically simulating random IQP circuits. We find a simple algorithm to calculate an amplitude of an $n$-qubit IQP circuit with dense random two-qubit interactions in time $O(\frac{\log^2 n}{n} 2^n )$, which for sparse circuits (where each qubit interacts with $O(\log n)$ other qubits) runs in $o(2^n/\text{poly}(n))$ for any given polynomial. Using a more complicated stabiliser decomposition approach we improve the algorithm for dense circuits to $O\left(\frac{(\log n)^{4-\beta}}{n^{2-\beta}} 2^n \right)$ where $\beta \approx 0.396$. We benchmarked our algorithm and found that we can simulate up to 50-qubit circuits in a couple of minutes on a laptop. We estimate that 70-qubit circuits are within reach for a large computing cluster.
翻訳日:2023-01-09 07:34:52 公開日:2022-12-16
# 雑音安定化器形式主義

Noisy Stabilizer Formalism ( http://arxiv.org/abs/2212.08677v1 )

ライセンス: Link先を確認
Maria Flors Mor-Ruiz and Wolfgang D\"ur(参考訳) 一般的なマルチキュービット量子状態やプロセスを記述するための指数的オーバーヘッドにもかかわらず、特定の状態族や操作のための効率的な方法が開発され、利用されている。 純粋な安定化器やグラフ状態がクリフォード演算やパウリ測定によって操作される安定化器形式論やゴッテマン・クニールの定理は顕著な例であり、これらの状態は量子技術における多くの応用において重要な役割を果たす。 ここでは、Clifford 演算や Pauli 測定の下で純粋状態の効率的な記述と追従を可能にするだけでなく、その安定化状態に作用する Pauli ノイズプロセス、例えば、非相関的かつ相関的な dephasing や、シングルまたはマルチキュービットの depolarizing noise などを開発する。 この方法は初期状態の量子ビット数で線形にスケールするが、ターゲット状態のサイズでは指数関数的にスケールする。 したがって、数量子ビットの多部共役状態が生成されるような局所的なパウリ測定によってノイズ安定化状態が操作されると、結果の状態を効率的に記述することができる。

Despite the exponential overhead to describe general multi-qubit quantum states and processes, efficient methods for certain state families and operations have been developed and utilised. The stabilizer formalism and the Gottesman-Knill theorem, where pure stabilizer or graph states are manipulated by Clifford operations and Pauli measurements, are prominent examples, and these states play a major role in many applications in quantum technologies. Here we develop a noisy stabilizer formalism, i.e., a method that allows one not only to efficiently describe and follow pure states under Clifford operations and Pauli measurements but also Pauli noise processes acting on such stabilizer states, including uncorrelated and correlated dephasing and single- or multi-qubit depolarizing noise. The method scales linearly in the number of qubits of the initial state, but exponentially in the size of the target state. Thus, whenever a noisy stabilizer state is manipulated by means of local Pauli measurements such that a multipartite entangled state of a few qubits is generated, one can efficiently describe the resulting state.
翻訳日:2023-01-09 07:34:19 公開日:2022-12-16
# 不規則スピン対系の緩和ダイナミクス

Relaxation dynamics of an unlike spin pair system ( http://arxiv.org/abs/2212.08747v1 )

ライセンス: Link先を確認
A. Consuelo-Leal, Hugo D. Fern\'andez Sare, R. Auccaise(参考訳) レッドフィールドマスター方程式は、相互作用するスピン対のダイナミクスを研究するために応用された。 このシステムはI. Solomon {\href{https://link.aps.org/doi/10.1103/PhysRev.99.559}{[Phys]によって導入された。 Rev. \textbf{99}, 559 (1955)]}} は純粋な双極子-双極子カップリングによって相互作用するヘテロ核二層スピン系の緩和ダイナミクスを分析する。 各密度行列要素の解を計算する数学的手続きを実行すると、ゼロコヒーレンス次数の緩和率定数の新しい式が発見された。 ソロモンの結果 {were} は 1 と 2 番目のコヒーレンス順序緩和率定数を {re producing } で確認した。 さらに、縦磁化のダイナミクスを予測するために計算された解は、I. Solomonの報告した不一致を避ける。

Redfield master equation was applied to study the dynamics of an interacting pair of unlike spins. This system was introduced by I. Solomon {\href{https://link.aps.org/doi/10.1103/PhysRev.99.559}{[Phys. Rev. \textbf{99}, 559 (1955)]}} to analyze the relaxation dynamics of a heteronuclear two-level spin system interacting by a pure dipole-dipole coupling. Performing the mathematical procedures to compute the solutions of each density matrix element, new expressions for the relaxation rate constants of the zero coherence order were found. Solomon's results {were} confirmed {reproducing } the first and second coherence order relaxation rate constants. Moreover, the solutions computed to predict the dynamics of the longitudinal magnetization avoid the disagreement reported by I. Solomon.
翻訳日:2023-01-09 07:33:57 公開日:2022-12-16
# 知識追跡のための学生フィードバックの差別化

Differentiating Student Feedbacks for Knowledge Tracing ( http://arxiv.org/abs/2212.14695v1 )

ライセンス: Link先を確認
Jiajun Cui, Wei Zhang(参考訳) コンピュータ支援教育と知的学習システムにおいて、知識追跡(KT)は、過去の質問応答列から学習者の将来のパフォーマンスを予測することを目的として、データ駆動学習手法の開発により注目される。 しかし、現在のディープラーニングアプローチでは、予測精度の向上にのみ焦点が当てられている。 つまり、質問応答のかなりの割合は、生徒の知識状態を識別するには弱いが、他の差別的反応と比較すると、生徒のパーソナライズされた知識状態を追跡できない。 この問題に対処するために、訓練における識別に応じて異なる応答の寄与を再重み付けする知識追跡のためのDR4KTを提案する。 再重み付け後の低判別応答に対する高い予測精度を維持するため、DR4KTは、学生の知識熟達と質問そのものを適切に組み合わせるための差別対応スコア融合技術も導入している。 総合的な実験結果から, DR4KTが4つの主流KT法に適用されたことにより, 広く使用されている3つのデータセットの性能が著しく向上することが示された。

In computer-aided education and intelligent tutoring systems, knowledge tracing (KT) raises attention due to the development of data-driven learning methods, which aims to predict students' future performance given their past question response sequences to trace their knowledge states. However, current deep learning approaches only focus on enhancing prediction accuracy, but neglecting the discrimination imbalance of responses. That is, a considerable proportion of question responses are weak to discriminate students' knowledge states, but equally considered compared to other discriminative responses, thus hurting the ability of tracing students' personalized knowledge states. To tackle this issue, we propose DR4KT for Knowledge Tracing, which reweights the contribution of different responses according to their discrimination in training. For retaining high prediction accuracy on low discriminative responses after reweighting, DR4KT also introduces a discrimination-aware score fusion technique to make a proper combination between student knowledge mastery and the questions themselves. Comprehensive experimental results show that our DR4KT applied on four mainstream KT methods significantly improves their performance on three widely-used datasets.
翻訳日:2023-01-09 07:26:01 公開日:2022-12-16
# 手術スキル評価におけるワンショット領域適応

One-shot domain adaptation in video-based assessment of surgical skills ( http://arxiv.org/abs/2301.00812v1 )

ライセンス: Link先を確認
Erim Yanik, Steven Schwaitzberg, Gene Yang, Xavier Intes, Suvranu De(参考訳) 深層学習(DL)は,外科的スキルの自動的,客観的評価を達成している。 しかし、DLモデルはデータハングリーであり、トレーニングドメインに限定されます。 これにより、データが制限された新しいタスクへの移行が防止される。 したがって、ドメイン適応はDLの実現に不可欠である。 本稿では,単発学習によるドメインに依存しない外科的スキル分類を実現するメタラーニングモデルA-VBANetを提案する。 腹腔鏡およびロボット手術シミュレータを用いたA-VBANetを開発した。 また,腹腔鏡下胆嚢摘出術の手術室(OR)で検査を行った。 腹腔鏡下胆嚢摘出術では99.5%,小切片設定では99.9%,腹腔鏡下胆嚢摘出術では89.7%であった。 手術スキルをビデオベースで評価するためのドメイン非依存の手順を初めて提供する。 このアプローチの重要な意味は、手術シミュレータからのデータを使用して手術室のパフォーマンスを評価することができることである。

Deep Learning (DL) has achieved automatic and objective assessment of surgical skills. However, DL models are data-hungry and restricted to their training domain. This prevents them from transitioning to new tasks where data is limited. Hence, domain adaptation is crucial to implement DL in real life. Here, we propose a meta-learning model, A-VBANet, that can deliver domain-agnostic surgical skill classification via one-shot learning. We develop the A-VBANet on five laparoscopic and robotic surgical simulators. Additionally, we test it on operating room (OR) videos of laparoscopic cholecystectomy. Our model successfully adapts with accuracies up to 99.5% in one-shot and 99.9% in few-shot settings for simulated tasks and 89.7% for laparoscopic cholecystectomy. For the first time, we provide a domain-agnostic procedure for video-based assessment of surgical skills. A significant implication of this approach is that it allows the use of data from surgical simulators to assess performance in the operating room.
翻訳日:2023-01-09 07:25:24 公開日:2022-12-16
# ボース・アインシュタイン凝縮体における絶対零点に近い温度の量子センシング

Quantum sensing of temperature close to absolute zero in a Bose-Einstein condensate ( http://arxiv.org/abs/2212.08237v1 )

ライセンス: Link先を確認
Ji-Bing Yuan, Bo Zhang, Ya-Ju Song, Shi-Qing Tang, Xin-Wen Wang, and Le-Man Kuang(参考訳) 準1次元ボース=アインシュタイン凝縮体(BEC)における絶対零に近い温度の量子センシングに関する理論的スキームを提案する。 本方式では,単原子不純物量子ビットをテンパアチュールセンサとして用いる。 BECの温度を推定する際の単一原子センサーの感度について検討した。 温度センサの感度は、プローブキュービットの量子コヒーレンスを測定することによって量子クレーマー-ラオ境界を飽和させることができることを示す。 量子信号対雑音比(QSNR)を用いた温度センサの性能について検討した。 QSNRが全温度で最大値に達するのに最適な符号化時間があることが示されている。 特に、QSNRは、温度が絶対零度に近い場合であっても、弱いカップリング状態の有限上限に達することが分かり、このスキームでは、検知誤差偏差問題は回避される。 我々の研究は、BECの絶対零度に近い温度の量子センシングの方法を開く。

We propose a theoretical scheme for quantum sensing of temperature close to absolute zero in a quasi-one-dimensional Bose-Einstein condensate (BEC). In our scheme, a single-atom impurity qubit is used as a temper-ature sensor. We investigate the sensitivity of the single-atom sensor in estimating the temperature of the BEC. We demonstrate that the sensitivity of the temperature sensor can saturate the quantum Cramer-Rao bound by means of measuring quantum coherence of the probe qubit. We study the temperature sensing performance by the use of quantum signal-to-noise ratio (QSNR). It is indicated that there is an optimal encoding time that the QSNR can reach its maximum in the full-temperature regime. In particular, we find that the QSNR reaches a finite upper bound in the weak coupling regime even when the temperature is close to absolute zero, which implies that the sensing-error-divergence problem is avoided in our scheme. Our work opens a way for quantum sensing of temperature close to absolute zero in the BEC.
翻訳日:2023-01-09 07:25:02 公開日:2022-12-16
# チャープコヒーレント反ストークスラマン分光法による量子制御

Quantum control via chirped coherent anti-Stokes Raman spectroscopy ( http://arxiv.org/abs/2212.08258v1 )

ライセンス: Link先を確認
Jabir Chathanathil, Dmitry Budker, Svetlana A. Malinovskaya(参考訳) コヒーレントアンチストークスラマン散乱分光法(C-CARS)に適用可能なチャープパルス量子制御方式が,分子の振動コヒーレンスを最大化する目的で提案されている。 これはCARS、ポンプ、ストークス、プローブの4波混合過程における3つのパルスのチャープにより、断熱路の条件を満たすことを意味する。 このスキームは、回転波近似と励起状態多様体の断熱除去の枠組みから導かれ、4レベルモデルシステムを「超効率」2レベルシステムに単純化する。 本手法のロバスト性, スペクトル選択性, 断熱特性は, 検出・撮像・検出のための既存のCARS分光法の改善に有用である。 また,パルスのスペクトルチャープ率を慎重に選択することにより,自由度振動の励起選択性を制御することができることを示した。

A chirped-pulse quantum control scheme applicable to Coherent Anti-Stokes Raman Scattering spectroscopy, named as C-CARS, is presented aimed at maximizing the vibrational coherence in molecules. It implies chirping of three incoming pulses in the four-wave mixing process of CARS, the pump, the Stokes and the probe, to fulfil the conditions of adiabatic passage. The scheme is derived in the framework of rotating wave approximation and adiabatic elimination of excited state manifold simplifying the four-level model system into a ``super-effective'' two level system. The robustness, spectral selectivity and adiabatic nature of this method are helpful in improving the existing methods of CARS spectroscopy for sensing, imaging and detection. We also show that the selectivity of excitation of vibrational degrees of freedom can be controlled by carefully choosing the spectral chirp rate of the pulses.
翻訳日:2023-01-09 07:24:47 公開日:2022-12-16
# 不定入力出力方向デバイスによる量子通信

Quantum communication through devices in an indefinite input-output direction ( http://arxiv.org/abs/2212.08265v1 )

ライセンス: Link先を確認
Zixuan Liu, Ming Yang, and Giulio Chiribella(参考訳) 多くの量子デバイスは双方向であり、入力を出力と交換することで有効な量子プロセスが得られる。 量子光学におけるハーフウェーブプレートやクォーターウェーブプレートのような双方向デバイスは、入力出力方向の2つの反対の選択に対応する前方モードと後方モードで使用できる。 これらは、前方モードと後方モードのコヒーレントな重ね合わせでも使用することができ、入力出力方向が量子的不確定性を受けるような新しい操作を引き起こす。 本研究では,古典的および量子的情報のノイズチャネル伝達における入出力不確定性の可能性について検討する。 まず、入出力方向が不定値な量子通信のモデルを定式化する。 そして、入力出力方向をコヒーレントに制御できることは、入力出力方向が固定された標準通信プロトコルよりも有利であることを示す。 これらの利点は、双方向プロセスにおけるノイズの一般的な低減、隠蔽されたノイズレス通信、場合によっては完全なノイズ除去まで様々である。 入力出力の不定値によるノイズ低減は、現在のフォトニック技術で実験的に証明することができ、前方および後方進化のコヒーレントな量子重ね合わせによって特徴づけられるエキゾチックなシナリオの動作結果を調べる方法を提供する。

A number of quantum devices are bidirectional, meaning that exchanging their inputs with their outputs yields valid quantum processes. Bidirectional devices, such as half-wave plates and quarter-wave plates in quantum optics, can be used in a forward mode and a backward mode, corresponding to two opposite choices of the input-output direction. They can also be used in a coherent superposition of the forward and backward modes, giving rise to new operations in which the input-output direction is subject to quantum indefiniteness. In this work we explore the potential of input-output indefiniteness for the transfer of classical and quantum information through noisy channels. We first formulate a model of quantum communication with indefinite input-output direction. Then, we show that the ability to coherently control the input-output direction yields advantages over standard communication protocols in which the input-output direction is fixed. These advantages range from a general reduction of noise in bidirectional processes, to heralded noiseless communication, and, in some special cases, to a complete noise removal. The noise reduction due to input-output indefiniteness can be experimentally demonstrated with current photonic technologies, providing a way to investigate the operational consequences of exotic scenarios characterised by coherent quantum superpositions of forward-time and backward-time evolutions.
翻訳日:2023-01-09 07:24:33 公開日:2022-12-16
# インターモーダルブリルアン散乱による絡み合った光子とフォノン

Entangled Photons and Phonons via Inter-Modal Brillouin Scattering ( http://arxiv.org/abs/2212.08317v1 )

ライセンス: Link先を確認
Hashem Zoubi(参考訳) 我々は, 異なる空間光モードに属する共伝播光子の刺激されたモード間ブリルアン散乱を利用して, ナノスケールワイヤにおけるフォトンフォノンの絡み合った状態の形成の可能性を探る。 ナノワイヤの内部では、光子-フォノン結合は放射線圧によって著しく増強される。 ストークス過程と反ストークス過程は、異なる位相マッチング要求から生じる対称性の破れにつながる異なるフォノンモードを含むため、分離される。 ストークス過程では、古典的なポンプ場の存在下で光子-フォノン対を消滅または生成し、反ストークス過程では光子とフォノンのコヒーレント振動を得る。 絡み合った状態の出現は、例えばシリコン製のナノワイヤの使用を、オンチップネットワークに容易に統合可能な設定で光子とフォノンを含む量子情報処理に拡張することができる。

We explore the possibility of the formation of photon-phonon entangled states in nanoscale wires by exploiting stimulated inter-modal Brillouin scattering of co-propagating photons that belong to distinct spatial optical modes. Inside nanowires, the photon-phonon coupling is significantly enhanced owing to radiation pressure. The Stokes and anti-Stokes processes are decoupled as they involve different phonon modes that lead to symmetry breaking, which results from different phase-matching requirements. For the Stokes process photon-phonon pairs are annihilated or created, in the presence of a classical pump field, and for the anti-Stokes process we obtain coherent oscillations between photons and phonons. The appearance of entangled states can extend the use of nanowires, for example, those made of silicon, into quantum information processing involving photons and phonons in a setup that can be easily integrated into an on-chip network.
翻訳日:2023-01-09 07:24:12 公開日:2022-12-16
# 機械学習を用いた誘導確率の上限

Upper bound on the Guessing probability using Machine Learning ( http://arxiv.org/abs/2212.08500v1 )

ライセンス: Link先を確認
Sarnava Datta, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) 推測確率の推定は量子暗号過程において極めて重要である。 非局所的な相関の証人としても用いられる。 研究されたシナリオのほとんどでは、推測確率の推定は半定値プログラムの解法に相当し、強力なアルゴリズムが存在する。 しかし、これらのプログラムのサイズはシステムのサイズとともに指数関数的に増加し、少数の入力や出力でも不可能になる。 我々は、この問題に対処するために、いくつかの関連するベルシナリオに対してディープラーニングアプローチを実装した。 本研究は,予測確率を推定し,非局所性を理解する機械学習の能力を示す。

The estimation of the guessing probability has paramount importance in quantum cryptographic processes. It can also be used as a witness for nonlocal correlations. In most of the studied scenarios, estimating the guessing probability amounts to solving a semi-definite programme, for which potent algorithms exist. However, the size of those programs grows exponentially with the system size, becoming infeasible even for small numbers of inputs and outputs. We have implemented deep learning approaches for some relevant Bell scenarios to confront this problem. Our results show the capabilities of machine learning for estimating the guessing probability and for understanding nonlocality.
翻訳日:2023-01-09 07:23:48 公開日:2022-12-16
# 新型コロナウイルスワクチン検索分類のためのDense Feature Memory Augmented Transformer

Dense Feature Memory Augmented Transformers for COVID-19 Vaccination Search Classification ( http://arxiv.org/abs/2212.13898v1 )

ライセンス: Link先を確認
Jai Gupta, Yi Tay, Chaitanya Kamath, Vinh Q. Tran, Donald Metzler, Shailesh Bavadekar, Mimi Sun, Evgeniy Gabrilovich(参考訳) 新型コロナウイルス(COVID-19)の感染拡大に伴い、ワクチンは世界的なパンデミックにおける大量感染に対する重要な防御の1つとなっている。 それらが提供する保護を考えると、特定の社会的および専門的な環境でワクチンは必須となっている。 本稿では,covid-19ワクチン接種関連検索クエリの検出のための分類モデルを提案する。 提案手法は, 最新の自然言語理解(nlu)技術と, 従来の密集した特徴を持つ事前学習トランスフォーマーを併用し, 活用するものである。 本稿では,モデルが対応できるメモリトークンとして,密集した特徴を考察する新しい手法を提案する。 この新たなモデリング手法により,Vaccine Search Insights (VSI) タスクの大幅な改善が可能となり,F1スコアの相対値が15%,精度が+14%向上した。

With the devastating outbreak of COVID-19, vaccines are one of the crucial lines of defense against mass infection in this global pandemic. Given the protection they provide, vaccines are becoming mandatory in certain social and professional settings. This paper presents a classification model for detecting COVID-19 vaccination related search queries, a machine learning model that is used to generate search insights for COVID-19 vaccinations. The proposed method combines and leverages advancements from modern state-of-the-art (SOTA) natural language understanding (NLU) techniques such as pretrained Transformers with traditional dense features. We propose a novel approach of considering dense features as memory tokens that the model can attend to. We show that this new modeling approach enables a significant improvement to the Vaccine Search Insights (VSI) task, improving a strong well-established gradient-boosting baseline by relative +15% improvement in F1 score and +14% in precision.
翻訳日:2023-01-01 14:16:02 公開日:2022-12-16
# POIBERT:Tour Recommendation問題のためのトランスフォーマーベースモデル

POIBERT: A Transformer-based Model for the Tour Recommendation Problem ( http://arxiv.org/abs/2212.13900v1 )

ライセンス: Link先を確認
Ngai Lam Ho and Kwan Hui Lim(参考訳) 旅程計画と推薦は、不慣れな都市を訪れる観光客にとって困難な問題である。 多くのツアーレコメンデーションアルゴリズムは、ポイント・オブ・ポイント(pois)の位置や人気といった要因のみを考慮するが、その解決策はユーザーの好みや他の場所の制約と一致しない可能性がある。 さらに、これらのソリューションは、過去のpois選択に基づいてユーザーの好みを考慮していない。 本稿では,POI 上の BERT 言語モデルを用いてパーソナライズされたイテレーションを推薦するアルゴリズムである POIBERT を提案する。 POIBERTは、連続したPOIを生成する反復的なアプローチとともに、我々の反復的なレコメンデーションタスクに言語モデルを新しい適応させることで、非常に成功したBERT言語モデルを構築します。 我々の推薦アルゴリズムは, 類似観光地からの過去の軌跡に基づいて, POIカテゴリーの時間とユーザの嗜好を最適化する一連のPOIを生成することができる。 本手法は,自然言語処理(NLP)における文補完問題に反復的レコメンデーション問題を適用することでモデル化する。 また,過去のトラジェクトリからの可能性が最も高い時間制約を満たす旅行反復を生成する反復アルゴリズムを革新する。 7つの都市のflickrデータセットを用いて,本アルゴリズムがリコール,精度,f1-scoreの測定値に基づいて,多くのシーケンス予測アルゴリズムを上回っていることを示す。

Tour itinerary planning and recommendation are challenging problems for tourists visiting unfamiliar cities. Many tour recommendation algorithms only consider factors such as the location and popularity of Points of Interest (POIs) but their solutions may not align well with the user's own preferences and other location constraints. Additionally, these solutions do not take into consideration of the users' preference based on their past POIs selection. In this paper, we propose POIBERT, an algorithm for recommending personalized itineraries using the BERT language model on POIs. POIBERT builds upon the highly successful BERT language model with the novel adaptation of a language model to our itinerary recommendation task, alongside an iterative approach to generate consecutive POIs. Our recommendation algorithm is able to generate a sequence of POIs that optimizes time and users' preference in POI categories based on past trajectories from similar tourists. Our tour recommendation algorithm is modeled by adapting the itinerary recommendation problem to the sentence completion problem in natural language processing (NLP). We also innovate an iterative algorithm to generate travel itineraries that satisfies the time constraints which is most likely from past trajectories. Using a Flickr dataset of seven cities, experimental results show that our algorithm out-performs many sequence prediction algorithms based on measures in recall, precision and F1-scores.
翻訳日:2023-01-01 14:15:48 公開日:2022-12-16
# 実世界の製造欠陥の画像分類のための量子カーネル

Quantum Kernel for Image Classification of Real World Manufacturing Defects ( http://arxiv.org/abs/2212.08693v1 )

ライセンス: Link先を確認
Daniel Beaulieu, Dylan Miracle, Anh Pham, and William Scherr(参考訳) 量子カーネル法は,量子シミュレータ上での低解像度画像を最小限の特徴選択で解析し,実際の量子プロセッサ上で実行した場合の矛盾した結果において,従来のSVMよりも明らかに優れていた。 既存の量子カーネル法を分類に利用することを選んだ。 我々は,mitiqパッケージを用いた動的デカップリング誤り軽減法を量子svmカーネル法に適用した。 量子カーネル法を適用し,超伝導量子コンピュータを用いて製造設備から実世界の画像データを分類した。 製造画像は、製品が欠陥であるか、製造プロセスを通じて正しく製造されたかを判定するために使用された。 また,mitiq dynamical decoupling (dd) 法をテストし,ノイズ関連誤差の低減効果について検討した。 また、量子状態の量子ビットに古典的なデータがエンコードされる方法が結果に影響を与えていることもわかりました。 私たちのアングル符号化回路の3つの量子処理ユニット(qpu)は、それぞれ異なる結果が返され、1つの実行は古典的結果より優れ、1つの実行は古典的結果と同等の結果、そして1つの実行は古典的結果よりも悪い結果が返された。 より複雑な瞬時量子多項式 (IQP) 符号化手法は、QPU上での実行時に古典的なSVM結果よりも精度が良いが、リコールとF1スコアは悪い。 DD誤差低減はIQP符号化回路の動作結果を改善せず,QPU上での動作角度に影響を与えないことがわかった。 要約すると、アングル符号化回路は実際の量子ハードウェア上で最も優れた量子カーネル符号化手法を実現した。 量子カーネルを用いて画像分類を行う今後の研究プロジェクトでは、mitiq ddよりも他の誤り軽減手法を探求することを推奨する。

The quantum kernel method results clearly outperformed a classical SVM when analyzing low-resolution images with minimal feature selection on the quantum simulator, with inconsistent results when run on an actual quantum processor. We chose to use an existing quantum kernel method for classification. We applied dynamic decoupling error mitigation using the Mitiq package to the Quantum SVM kernel method, which, to our knowledge, has never been done for quantum kernel methods for image classification. We applied the quantum kernel method to classify real world image data from a manufacturing facility using a superconducting quantum computer. The manufacturing images were used to determine if a product was defective or was produced correctly through the manufacturing process. We also tested the Mitiq dynamical decoupling (DD) methodology to understand effectiveness in decreasing noise-related errors. We also found that the way classical data was encoded onto qubits in quantum states affected our results. All three quantum processing unit (QPU) runs of our angle encoded circuit returned different results, with one run having better than classical results, one run having equivalent to classical results, and a run with worse than classical results. The more complex instantaneous quantum polynomial (IQP) encoding approach showed better precision than classical SVM results when run on a QPU but had a worse recall and F1-score. We found that DD error mitigation did not improve the results of IQP encoded circuits runs and did not have an impact on angle encoded circuits runs on the QPU. In summary, we found that the angle encoded circuit performed the best of the quantum kernel encoding methods on real quantum hardware. In future research projects using quantum kernels to classify images, we recommend exploring other error mitigation techniques than Mitiq DD.
翻訳日:2023-01-01 14:15:23 公開日:2022-12-16
# 機械学習アルゴリズムを使って、リズムグラムで個人のポストコッド状態を決定する

Using machine learning algorithms to determine the post-COVID state of a person by his rhythmogram ( http://arxiv.org/abs/2212.13878v1 )

ライセンス: Link先を確認
Sergey Stasenko, Andrey Kovalchuk, Eremin Evgeny, Natalya Zarechnova, Maria Tsirkova, Sergey Permyakov, Sergey Parin, Sofia Polevaya(参考訳) 本研究では,機械学習アルゴリズムを用いて人物の共生状態を決定する。 調査では、心電図データから患者の術後状態のマーカーが検出された。 症例の心電図信号のこのマーカーは, 術後状態の診断に有効であることが確認された。

In this study we applyed machine-learning algorithms to determine the post-COVID state of a person. During the study, a marker of the post-COVID state of a person was found in the electrocardiogram data. We have shown that this marker in the patient's ECG signal can be used to diagnose a post-COVID state.
翻訳日:2023-01-01 14:14:51 公開日:2022-12-16
# 機械学習アルゴリズムを使って、リズムグラムで人の感情的不適応を判断する

Using machine learning algorithms to determine the emotional disadaptation of a person by his rhythmogram ( http://arxiv.org/abs/2212.13895v1 )

ライセンス: Link先を確認
Sergey Stasenko, Olga Shemagina, Eremin Evgeny, Vladimir Yakhno, Sergey Parin, Sofia Polevaya(参考訳) 本研究では,機械学習アルゴリズムを用いて,人の感情的不適応を決定する。 心室筋電図の感情的不適応と記録の主観レベルを決定する方法を用いた。 心電図(ECG)信号は,患者の感情的不適応の登録に利用できることを示す。

In this study we applyed machine-learning algorithms to determine the emotional disadaptation of a person by his rhythmogram. We used the method of determining a subject level of emotional disadaptation and recording of cardiorhythmography. We show that electrocardiogram (ECG) signals can be used for the registration of the emotional disadaptation of a person.
翻訳日:2023-01-01 14:14:33 公開日:2022-12-16
# 投票参加促進のための安全で使いやすいチャットボットについて

On Safe and Usable Chatbots for Promoting Voter Participation ( http://arxiv.org/abs/2212.11219v1 )

ライセンス: Link先を確認
Bharath Muppasani, Vishal Pallagani, Kausik Lakkaraju, Shuge Lei, Biplav Srivastava, Brett Robertson, Andrea Hickerson, Vignesh Narayanan(参考訳) チャットボット(bots、略してbots)は、人々が役に立つタスクを完遂するのに役立つマルチモーダルな協調アシスタントだ。 通常、選挙に関連してチャットボットを参照する場合、誤情報やハッキングの恐れからネガティブな反応を起こすことが多い。 そこで本稿では,高齢者や初回投票者など,社会の脆弱な部分への投票者参加を促進するチャットボットについて検討する。 特に,ユーザ固有のニーズを透過的にパーソナライズしながら,公式情報を増幅するシステムを構築する。 我々は,その設計を議論し,実施容易性の低い2つの米国州について,faq( often asked questions)の選挙情報を用いてプロトタイプを作成し,その初期評価をフォーカスグループで報告する。 我々のアプローチは、有権者や選挙機関にとって、その義務と民主主義全体を果たすためのウィンウィンウィンになり得る。

Chatbots, or bots for short, are multi-modal collaborative assistants that can help people complete useful tasks. Usually, when chatbots are referenced in connection with elections, they often draw negative reactions due to the fear of mis-information and hacking. Instead, in this paper, we explore how chatbots may be used to promote voter participation in vulnerable segments of society like senior citizens and first-time voters. In particular, we build a system that amplifies official information while personalizing it to users' unique needs transparently. We discuss its design, build prototypes with frequently asked questions (FAQ) election information for two US states that are low on an ease-of-voting scale, and report on its initial evaluation in a focus group. Our approach can be a win-win for voters, election agencies trying to fulfill their mandate and democracy at large.
翻訳日:2022-12-25 02:54:47 公開日:2022-12-16
# 正確さと説明可能性”ではない -- 信頼できるAIシステムには両方が必要だ

It is not "accuracy vs. explainability" -- we need both for trustworthy AI systems ( http://arxiv.org/abs/2212.11136v1 )

ライセンス: Link先を確認
D. Petkovic(参考訳) 私たちは、AI技術が医療、ビジネス、交通、日常生活の多くの側面に影響を与えつつある、AI経済と社会の出現を目撃しています。 多くの成功が報告されており、AIシステムは人間の専門家の精度を超えた。 しかし、aiシステムはエラーを発生させ、バイアスを生じさせ、データのノイズに敏感になり、しばしば技術的および司法的透明性が欠如し、信頼と採用上の課題が軽減される。 これらの最近の欠点や懸念は、科学的に記録されているだけでなく、自動運転車による事故、医療の偏見、有色人種のための雇用と顔認識システムなど、一般的な報道でも報告されている。 この結果、信頼性と堅牢性、説明可能性、人間の制御と監視、バイアスの排除、司法の透明性と安全を提供するために、多くの政府と規制のイニシアチブが出現した。 信頼できるAIシステムの提供における課題は、説明可能なAIシステム(XAI)に関する激しい研究の動機となった。 XAIの目的は、AIシステムの意思決定方法に関する人間の理解可能な情報を提供することだ。 本稿ではまず,現在のXAI研究を簡潔に要約し,相互排他的であり,深層学習にのみ焦点をあてることの正確性と説明可能性の最近の議論に挑戦する。 次に、信頼性の高いAIシステムのデリバリ、例えば、開発、検証と認証、信頼できる生産とメンテナンスの完全なライフサイクルでXAIを使用するための推奨事項を提示します。

We are witnessing the emergence of an AI economy and society where AI technologies are increasingly impacting health care, business, transportation and many aspects of everyday life. Many successes have been reported where AI systems even surpassed the accuracy of human experts. However, AI systems may produce errors, can exhibit bias, may be sensitive to noise in the data, and often lack technical and judicial transparency resulting in reduction in trust and challenges in their adoption. These recent shortcomings and concerns have been documented in scientific but also in general press such as accidents with self driving cars, biases in healthcare, hiring and face recognition systems for people of color, seemingly correct medical decisions later found to be made due to wrong reasons etc. This resulted in emergence of many government and regulatory initiatives requiring trustworthy and ethical AI to provide accuracy and robustness, some form of explainability, human control and oversight, elimination of bias, judicial transparency and safety. The challenges in delivery of trustworthy AI systems motivated intense research on explainable AI systems (XAI). Aim of XAI is to provide human understandable information of how AI systems make their decisions. In this paper we first briefly summarize current XAI work and then challenge the recent arguments of accuracy vs. explainability for being mutually exclusive and being focused only on deep learning. We then present our recommendations for the use of XAI in full lifecycle of high stakes trustworthy AI systems delivery, e.g. development, validation and certification, and trustworthy production and maintenance.
翻訳日:2022-12-25 02:44:47 公開日:2022-12-16
# 2次元における機械学習と高分子自己整合場理論

Machine Learning and Polymer Self-Consistent Field Theory in Two Spatial Dimensions ( http://arxiv.org/abs/2212.10478v1 )

ライセンス: Link先を確認
Yao Xuan, Kris T. Delaney, Hector D. Ceniceros, Glenn H. Fredrickson(参考訳) ブロック共重合体のパラメータ空間の探索を高速化するために, 深層学習による自己整合場理論シミュレーションのデータを活用する計算フレームワークを提案する。 これは[1]で導入されたフレームワークの相当な2次元拡張である。 いくつかの革新と改善が提案されている。 1) ソボレフ空間学習畳み込みニューラルネットワーク(CNN)を用いて, 離散化された局所平均モノマー密度場の指数次元増加を処理し, 予測された場理論集中型ハミルトンの空間変換と回転不変性の両方を強く強制する。 2) GAN (generative adversarial network) を導入し, トレーニングセットを用いた勾配降下法を使わずに, サドル点, 局所平均モノマー密度場を効率的に正確に予測する。 このGANアプローチは、メモリと計算コストの両方を節約する。 (3) 提案する機械学習フレームワークを2次元セルサイズ最適化に適用し, 高分子ナノ構造発見のためのパラメータ空間の探索を加速する広い可能性を示す。 三次元位相発見への拡張は実現可能である。

A computational framework that leverages data from self-consistent field theory simulations with deep learning to accelerate the exploration of parameter space for block copolymers is presented. This is a substantial two-dimensional extension of the framework introduced in [1]. Several innovations and improvements are proposed. (1) A Sobolev space-trained, convolutional neural network (CNN) is employed to handle the exponential dimension increase of the discretized, local average monomer density fields and to strongly enforce both spatial translation and rotation invariance of the predicted, field-theoretic intensive Hamiltonian. (2) A generative adversarial network (GAN) is introduced to efficiently and accurately predict saddle point, local average monomer density fields without resorting to gradient descent methods that employ the training set. This GAN approach yields important savings of both memory and computational cost. (3) The proposed machine learning framework is successfully applied to 2D cell size optimization as a clear illustration of its broad potential to accelerate the exploration of parameter space for discovering polymer nanostructures. Extensions to three-dimensional phase discovery appear to be feasible.
翻訳日:2022-12-21 17:31:31 公開日:2022-12-16
# 科学機械学習における外挿の解釈モデル

Interpretable models for extrapolation in scientific machine learning ( http://arxiv.org/abs/2212.10283v1 )

ライセンス: Link先を確認
Eric S. Muckley, James E. Saal, Bryce Meredig, Christopher S. Roper, and John H. Martin(参考訳) データ駆動モデルは科学的発見の中心である。 最先端のモデルの正確性を達成するために、研究者たちは、補間的な設定(例えばランダムなk-foldクロスバリデーション)で単純な回帰を上回っているが、外挿性能、可搬性、人間の解釈性に乏しい、新しい科学的洞察を促進する可能性を制限する、複雑な機械学習アルゴリズムを駆使している。 本稿では,材料科学のデータセットに着目し,幅広い科学・工学問題におけるモデル性能と解釈可能性のトレードオフについて検討する。 我々は,ブラックボックスランダムフォレストとニューラルネットワーク機械学習アルゴリズムの性能を,単純なランダム探索アルゴリズムによって検出された解釈可能な入力特徴を用いた単機能線形回帰と比較した。 補間問題では,線形回帰の平均予測誤差はブラックボックスモデルの2倍であった。 注目すべきは、予測タスクが外挿を必要とする場合、線形モデルはブラックボックスモデルよりも5%高い平均誤差しか得られず、テストされた予測タスクの約40%ではブラックボックスモデルよりも優れており、多くの外挿問題において複雑なアルゴリズムよりも望ましいことが示唆されている。 結果は、科学的機械学習のための外挿モデルが、パフォーマンスと解釈可能性の間の固有のトレードオフによって制約されているという共通の仮定に挑戦する。

Data-driven models are central to scientific discovery. In efforts to achieve state-of-the-art model accuracy, researchers are employing increasingly complex machine learning algorithms that often outperform simple regressions in interpolative settings (e.g. random k-fold cross-validation) but suffer from poor extrapolation performance, portability, and human interpretability, which limits their potential for facilitating novel scientific insight. Here we examine the trade-off between model performance and interpretability across a broad range of science and engineering problems with an emphasis on materials science datasets. We compare the performance of black box random forest and neural network machine learning algorithms to that of single-feature linear regressions which are fitted using interpretable input features discovered by a simple random search algorithm. For interpolation problems, the average prediction errors of linear regressions were twice as high as those of black box models. Remarkably, when prediction tasks required extrapolation, linear models yielded average error only 5% higher than that of black box models, and outperformed black box models in roughly 40% of the tested prediction tasks, which suggests that they may be desirable over complex algorithms in many extrapolation problems because of their superior interpretability, computational overhead, and ease of use. The results challenge the common assumption that extrapolative models for scientific machine learning are constrained by an inherent trade-off between performance and interpretability.
翻訳日:2022-12-21 17:29:34 公開日:2022-12-16
# 機械学習のコンテナは肥大し、脆弱である

Machine Learning Containers are Bloated and Vulnerable ( http://arxiv.org/abs/2212.09437v1 )

ライセンス: Link先を確認
Huaifeng Zhang, Fahmi Abdulqadir Ahmed, Dyako Fatih, Akayou Kitessa, Mohannad Alhanahnah, Philipp Leitner, Ahmed Ali-Eldin(参考訳) 今日のソフトウェアは肥大し、リソースの浪費に繋がる。 この肥大化は、オペレーティングシステムからソフトウェアバックエンド、フロントエンド、Webページに至るまで、ソフトウェアスタック全体に広まっています。 本稿では,機械学習コンテナにおける肥大度について検討する。 我々は機械学習コンテナの肥大化を分析するフレームワークであるMMLBを開発し、コンテナとパッケージレベルに存在する肥大化の量を測定する。 私たちのツールは、膨れの源を定量化し、取り除きます。 ツールと脆弱性分析ツールを統合して、肥大化がコンテナの脆弱性に与える影響を測定します。 我々は、公式のTensorflow、Pytorch、NVIDIAコンテナレジストリから、さまざまなタスク(トレーニング、チューニング、サービスなど)で15の機械学習コンテナを実験的に調査した。 以上の結果から,機械学習コンテナはコンテナサイズの最大80%の肥大を包含していることがわかった。 また、Grypeのような脆弱性分析ツールによって検出されたすべての脆弱性の98パーセントを削除しています。 最後に、機械学習システムにおける技術的負債に関するより大きな議論と結果を関連付ける。

Today's software is bloated leading to significant resource wastage. This bloat is prevalent across the entire software stack, from the operating system, all the way to software backends, frontends, and web-pages. In this paper, we study how prevalent bloat is in machine learning containers. We develop MMLB, a framework to analyze bloat in machine learning containers, measuring the amount of bloat that exists on the container and package levels. Our tool quantifies the sources of bloat and removes them. We integrate our tool with vulnerability analysis tools to measure how bloat affects container vulnerabilities. We experimentally study 15 machine learning containers from the official Tensorflow, Pytorch, and NVIDIA container registries under different tasks, (i.e., training, tuning, and serving). Our findings show that machine learning containers contain bloat encompassing up to 80\% of the container size. We find that debloating machine learning containers speeds provisioning times by up to $3.7\times$ and removes up to 98\% of all vulnerabilities detected by vulnerability analysis tools such as Grype. Finally, we relate our results to the larger discussion about technical debt in machine learning systems.
翻訳日:2022-12-20 18:53:16 公開日:2022-12-16
# 反復学習を用いた条件付き可逆ニューラルネットワーク(cINN)に基づく展開法

An unfolding method based on conditional Invertible Neural Networks (cINN) using iterative training ( http://arxiv.org/abs/2212.08674v1 )

ライセンス: Link先を確認
Mathias Backes, Anja Butter, Monica Dunford and Bogdan Malaescu(参考訳) 検出器効果の展開は、データと理論予測を比較する上で重要である。 従来の手法は低次元のデータ表現に限られているが、機械学習は全次元を維持しながら新しい展開技術を実現している。 invertible neural networks~(inn)のような生成ネットワークは、個々の事象を対応する展開確率分布にマッピングする確率的展開を可能にする。 しかしながら、そのような手法の精度は、実際に展開されたデータをシミュレーションしたトレーニングサンプルの精度によって制限される。 模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件 INN~(IcINN) を導入する。 IcINN展開はまずおもちゃのデータで検証され、その後$pp \to Z \gamma \gamma$プロセスの擬似データに適用される。

The unfolding of detector effects is crucial for the comparison of data to theory predictions. While traditional methods are limited to representing the data in a low number of dimensions, machine learning has enabled new unfolding techniques while retaining the full dimensionality. Generative networks like invertible neural networks~(INN) enable a probabilistic unfolding, which map individual events to their corresponding unfolded probability distribution. The accuracy of such methods is however limited by how well simulated training samples model the actual data that is unfolded. We introduce the iterative conditional INN~(IcINN) for unfolding that adjusts for deviations between simulated training samples and data. The IcINN unfolding is first validated on toy data and then applied to pseudo-data for the $pp \to Z \gamma \gamma$ process.
翻訳日:2022-12-20 18:51:56 公開日:2022-12-16
# JFP:自律運転のための対話型マルチエージェントモデリングによる将来予測

JFP: Joint Future Prediction with Interactive Multi-Agent Modeling for Autonomous Driving ( http://arxiv.org/abs/2212.08710v1 )

ライセンス: Link先を確認
Wenjie Luo, Cheolho Park, Andre Cornman, Benjamin Sapp, Dragomir Anguelov(参考訳) 本研究では, 高精度かつ一貫性のある複数エージェント未来軌道を生成するための統合的未来予測モデルであるjfpを提案する。 このタスクのために、モデルのエンコーディング部分における社会的相互作用を捉えるために、多くの異なる方法が提案されているが、デコーダと出力段階における相互作用を表現することには、かなり焦点が当てられていない。 その結果、予測された軌道は必ずしも互いに一致せず、しばしば非現実的な軌道重なりが生じる。 対照的に、一貫した未来軌道を生成するために、構造化されたグラフィカルモデルにおけるエージェント同士の相互作用を直接学習するエンドツーエンドのトレーニング可能なモデルを提案する。 インタラクティブな設定のために、waymo open motion dataset(womd)に最新結果を新たに設定する。 また,womdとより大きな内部データセットの両方に対して,より複雑なマルチエージェント設定を行うことも検討した。

We propose JFP, a Joint Future Prediction model that can learn to generate accurate and consistent multi-agent future trajectories. For this task, many different methods have been proposed to capture social interactions in the encoding part of the model, however, considerably less focus has been placed on representing interactions in the decoder and output stages. As a result, the predicted trajectories are not necessarily consistent with each other, and often result in unrealistic trajectory overlaps. In contrast, we propose an end-to-end trainable model that learns directly the interaction between pairs of agents in a structured, graphical model formulation in order to generate consistent future trajectories. It sets new state-of-the-art results on Waymo Open Motion Dataset (WOMD) for the interactive setting. We also investigate a more complex multi-agent setting for both WOMD and a larger internal dataset, where our approach improves significantly on the trajectory overlap metrics while obtaining on-par or better performance on single-agent trajectory metrics.
翻訳日:2022-12-20 18:51:44 公開日:2022-12-16
# 逆音響障害物散乱問題に対するニューラルネットワークウォームスタート法

A Neural Network Warm-Start Approach for the Inverse Acoustic Obstacle Scattering Problem ( http://arxiv.org/abs/2212.08736v1 )

ライセンス: Link先を確認
Mo Zhou, Jiequn Han, Manas Rachh, Carlos Borges(参考訳) 物体外部の受信機群における散乱場の測定から、障害物の境界が決定される2次元の音響ソフトな星形障害物に対する逆音響障害物問題を考える。 この問題を解決するための標準的なアプローチの1つは最適化問題として、分散フィールドの計算値と与えられた測定データの間の$L^2$距離を最小化する領域の境界を見つけることである。 局所凸性の集合は周波数の増加とともに減少し、真の解の近傍で局所最小値が増加するので、最適化問題は計算的に困難である。 多くの実用的な実験環境では、実験装置の限界や測定に用いられるセンサーのために低周波の測定は不可能である。 したがって、最適化問題に対する適切な初期推測を得ることは、この環境において重要な役割を果たす。 本稿では,ニューラルネットワークを用いて最適化問題の初期推定を求める逆散乱問題を解くためのニューラルネットワークウォームスタート手法を提案する。 本手法の有効性をいくつかの数値例で示す。 高周波問題では、gauss-newton のような従来のイテレーティブメソッドを先行せずに初期化(単位円を用いて初期化)するか、線形サンプリング法のような直接メソッドの解を用いて初期化する手法よりも、このアプローチは優れている。 このアルゴリズムは散乱場測定における雑音に対して頑健であり、また制限された開口データに対する真の解に収束する。 しかしながら、ニューラルネットワークのトレーニングに必要なトレーニングサンプルの数は、頻度と考慮される障害の複雑さが指数関数的に増加する。 本稿では,この現象と今後の研究の方向性について論じる。

We consider the inverse acoustic obstacle problem for sound-soft star-shaped obstacles in two dimensions wherein the boundary of the obstacle is determined from measurements of the scattered field at a collection of receivers outside the object. One of the standard approaches for solving this problem is to reformulate it as an optimization problem: finding the boundary of the domain that minimizes the $L^2$ distance between computed values of the scattered field and the given measurement data. The optimization problem is computationally challenging since the local set of convexity shrinks with increasing frequency and results in an increasing number of local minima in the vicinity of the true solution. In many practical experimental settings, low frequency measurements are unavailable due to limitations of the experimental setup or the sensors used for measurement. Thus, obtaining a good initial guess for the optimization problem plays a vital role in this environment. We present a neural network warm-start approach for solving the inverse scattering problem, where an initial guess for the optimization problem is obtained using a trained neural network. We demonstrate the effectiveness of our method with several numerical examples. For high frequency problems, this approach outperforms traditional iterative methods such as Gauss-Newton initialized without any prior (i.e., initialized using a unit circle), or initialized using the solution of a direct method such as the linear sampling method. The algorithm remains robust to noise in the scattered field measurements and also converges to the true solution for limited aperture data. However, the number of training samples required to train the neural network scales exponentially in frequency and the complexity of the obstacles considered. We conclude with a discussion of this phenomenon and potential directions for future research.
翻訳日:2022-12-20 18:51:27 公開日:2022-12-16
# マルコフ決定過程の因果時間推論に向けて

Towards Causal Temporal Reasoning for Markov Decision Processes ( http://arxiv.org/abs/2212.08712v1 )

ライセンス: Link先を確認
Milad Kazemi and Nicola Paoletti(参考訳) 我々はマルコフ決定過程(MDP)の検証のための新しい確率的時間論理を導入する。 我々の論理は、最初に因果推論の演算子を含み、干渉的および反事実的クエリを表現できる。 経路公式 $\phi$ が与えられたとき、介入性は、特定の変更 $I$ を MDP に適用した場合に$\phi$ の満足度確率に関係する(例えば、別のポリシーに切り替えるなど)。 MDPの異なる構成を推論できるため、我々のアプローチは、固定されたシステム構成のみを推論できる既存の確率的時間論理から逸脱することを意味する。 統語論的観点から,PCTLなどの従来の確率演算子と同様に,介入確率と反ファクト確率の両方を仮定する一般化された反ファクト演算子を導入する。 セマンティクスの観点から、我々の論理はMDPの構造因果モデル(SCM)の翻訳を通して解釈される。 グリッドワールドモデルにおけるリーチ回避タスクの論理を概念実証的に評価する。

We introduce a new probabilistic temporal logic for the verification of Markov Decision Processes (MDP). Our logic is the first to include operators for causal reasoning, allowing us to express interventional and counterfactual queries. Given a path formula $\phi$, an interventional property is concerned with the satisfaction probability of $\phi$ if we apply a particular change $I$ to the MDP (e.g., switching to a different policy); a counterfactual allows us to compute, given an observed MDP path $\tau$, what the outcome of $\phi$ would have been had we applied $I$ in the past. For its ability to reason about different configurations of the MDP, our approach represents a departure from existing probabilistic temporal logics that can only reason about a fixed system configuration. From a syntactic viewpoint, we introduce a generalized counterfactual operator that subsumes both interventional and counterfactual probabilities as well as the traditional probabilistic operator found in e.g., PCTL. From a semantics viewpoint, our logic is interpreted over a structural causal model (SCM) translation of the MDP, which gives us a representation amenable to counterfactual reasoning. We provide a proof-of-concept evaluation of our logic on a reach-avoid task in a grid-world model.
翻訳日:2022-12-20 18:44:18 公開日:2022-12-16
# SkillFence: 音声による融合攻撃を効果的に軽減するシステムアプローチ

SkillFence: A Systems Approach to Practically Mitigating Voice-Based Confusion Attacks ( http://arxiv.org/abs/2212.08738v1 )

ライセンス: Link先を確認
Ashish Hooda, Matthew Wallace, Kushal Jhunjhunwalla, Earlence Fernandes, Kassem Fawaz(参考訳) ボイスアシスタントは広くデプロイされ、便利な機能を提供する。 しかし、最近の研究によると、Amazon AlexaやGoogle Homeのような商用システムは、設計問題を悪用する音声ベースの混乱攻撃に弱い。 この種の攻撃に対するシステム指向の防御を提案し、Amazon Alexaの機能を実証する。 音声コマンドに応答して、ユーザが実行しようとするスキルのみを保証する。 私たちの重要な洞察は、webとスマートフォンの対応するシステム上での活動を分析することで、ユーザの意図を解釈できるということです。 例えば、LyftのライドシェアリングAlexaスキルには、AndroidアプリとWebサイトがある。 私たちの研究は、対応するアプリからの情報が、スキルの呼び出しプロセスにおける曖昧さを減らすのにどのように役立つかを示しています。 SkilIFenceは、既存の音声アシスタントユーザーがインストールできるブラウザ拡張機能で、コマンドに応答して適切なスキルのみを実行することを保証します。 mturk (n = 116) の実際のユーザデータと合成音声および有機音声を用いた実験を用いて、スキルファンスがユーザに必要なスキルの90.83%を19.83%の誤受率で確保することにより、ユーザビリティとセキュリティのバランスを提供することを示した。

Voice assistants are deployed widely and provide useful functionality. However, recent work has shown that commercial systems like Amazon Alexa and Google Home are vulnerable to voice-based confusion attacks that exploit design issues. We propose a systems-oriented defense against this class of attacks and demonstrate its functionality for Amazon Alexa. We ensure that only the skills a user intends execute in response to voice commands. Our key insight is that we can interpret a user's intentions by analyzing their activity on counterpart systems of the web and smartphones. For example, the Lyft ride-sharing Alexa skill has an Android app and a website. Our work shows how information from counterpart apps can help reduce dis-ambiguities in the skill invocation process. We build SkilIFence, a browser extension that existing voice assistant users can install to ensure that only legitimate skills run in response to their commands. Using real user data from MTurk (N = 116) and experimental trials involving synthetic and organic speech, we show that SkillFence provides a balance between usability and security by securing 90.83% of skills that a user will need with a False acceptance rate of 19.83%.
翻訳日:2022-12-20 18:43:40 公開日:2022-12-16
# トポロジカル前処理による分散学習におけるデータ不均一性への対処

Addressing Data Heterogeneity in Decentralized Learning via Topological Pre-processing ( http://arxiv.org/abs/2212.08743v1 )

ライセンス: Link先を確認
Waqwoya Abebe, Ali Jannesari(参考訳) 近年、局所的なピアトポロジーは、データ不均一性の存在下での分散学習(DL)グラフの全体収束に影響を与えることが示されている。 本稿では,プロキシベースの局所異種DLトポロジの構築による収束性の向上とデータプライバシの維持のメリットを実証する。 特に,最終的なトレーニンググラフに並べる前に,ピアを効率的にクラスタ化するための新しいピアクロンピング戦略を提案する。 局所的不均質グラフが、同じ大きさの局所的等質グラフと同一のグローバルデータ分布よりいかに優れているかを示すことにより、位相的前処理の強い場合を示す。 さらに,提案するトポロジカルな前処理オーバーヘッドが大規模グラフにおいて小さいままであり,性能向上がさらに顕著であることを示すことにより,このアプローチのスケーラビリティを示す。 さらに,ネットワーク分割の存在下でのアプローチの堅牢性を示す。

Recently, local peer topology has been shown to influence the overall convergence of decentralized learning (DL) graphs in the presence of data heterogeneity. In this paper, we demonstrate the advantages of constructing a proxy-based locally heterogeneous DL topology to enhance convergence and maintain data privacy. In particular, we propose a novel peer clumping strategy to efficiently cluster peers before arranging them in a final training graph. By showing how locally heterogeneous graphs outperform locally homogeneous graphs of similar size and from the same global data distribution, we present a strong case for topological pre-processing. Moreover, we demonstrate the scalability of our approach by showing how the proposed topological pre-processing overhead remains small in large graphs while the performance gains get even more pronounced. Furthermore, we show the robustness of our approach in the presence of network partitions.
翻訳日:2022-12-20 18:43:21 公開日:2022-12-16
# 無監督正常エラストグラフィにおける自己監督的および身体刺激的制約を用いた側方ストレインイメージング

Lateral Strain Imaging using Self-supervised and Physically Inspired Constraints in Unsupervised Regularized Elastography ( http://arxiv.org/abs/2212.08740v1 )

ライセンス: Link先を確認
Ali K. Z. Tehrani, Md Ashikuzzaman, and Hassan Rivaz(参考訳) 畳み込みニューラルネットワーク(CNN)は,UltraSound Elastography(USE)の変位推定に有望な結果を示した。 軸方向に用いるcnnの変位推定を改善するために多くの修正が提案されている。 しかし、弾性イメージングの逆問題など、下流のいくつかのタスクに不可欠な横ひずみは依然として課題である。 この方向の運動とサンプリング周波数が軸方向よりも実質的に低く、この方向の搬送信号が欠如しているため、横ひずみ推定は複雑である。 コンピュータビジョンの応用では、軸運動と横運動は独立である。 対照的に、USEの組織の動きパターンは、軸方向と横方向の変位を結びつける物理法則によって制御される。 本稿では,hookの法則に着想を得て,非教師付き正規化エラストグラフィ(画像)に対する物理的にインスパイアされた制約を提案する。 次のステップでは、歪み画像推定をさらに強化する自己教師型PICTURE(sPICTURE)を提案する。 シミュレーション, 実験ファントムおよびin vivoデータを用いた広範な実験により, 提案手法が正確な軸および横ひずみマップを推定できることが確認された。

Convolutional Neural Networks (CNN) have shown promising results for displacement estimation in UltraSound Elastography (USE). Many modifications have been proposed to improve the displacement estimation of CNNs for USE in the axial direction. However, the lateral strain, which is essential in several downstream tasks such as the inverse problem of elasticity imaging, remains a challenge. The lateral strain estimation is complicated since the motion and the sampling frequency in this direction are substantially lower than the axial one, and a lack of carrier signal in this direction. In computer vision applications, the axial and the lateral motions are independent. In contrast, the tissue motion pattern in USE is governed by laws of physics which link the axial and lateral displacements. In this paper, inspired by Hooke's law, we first propose Physically Inspired ConsTraint for Unsupervised Regularized Elastography (PICTURE), where we impose a constraint on the Effective Poisson's ratio (EPR) to improve the lateral strain estimation. In the next step, we propose self-supervised PICTURE (sPICTURE) to further enhance the strain image estimation. Extensive experiments on simulation, experimental phantom and in vivo data demonstrate that the proposed methods estimate accurate axial and lateral strain maps.
翻訳日:2022-12-20 18:36:03 公開日:2022-12-16
# sparsity pattern heterogeneityのためのマルチタスク学習--離散最適化アプローチ

Multi-Task Learning for Sparsity Pattern Heterogeneity: A Discrete Optimization Approach ( http://arxiv.org/abs/2212.08697v1 )

ライセンス: Link先を確認
Gabriel Loewinger, Kayhan Behdin, Kenneth T. Kishida, Giovanni Parmigiani, Rahul Mazumder(参考訳) 最良サブセット選択を線形マルチタスク学習(MTL)に拡張し、線形モデルの集合をデータセットの集合(`task''')で共同で訓練する。 タスクの回帰係数を異なるスパーシティパターン(例えば、異なるサポート)を持つようにすることで、モデルが与えられた共変量に対してタスク間で情報を共有することを奨励するMTLのモデリングフレームワークを提案する。 1) 支持係数の縮小、及び/又は 2)係数値を一緒に縮小する。 これにより、係数値がタスク間で著しく異なる場合でも、モデルが可変選択中に強度を借りることができる。 我々は,混合整数型プログラムとしてモデリングフレームワークを表現し,ブロック座標降下と組合せ局所探索に基づく効率的でスケーラブルなアルゴリズムを提案する。 統計的に最適な予測率が得られることを示す。 本理論では,タスク間の共有支援情報を利用して,変数選択性能の向上を図る。 シミュレーションおよび2つの生物学応用における本手法の性能評価を行った。 提案手法は,変数選択および予測精度において,他のスパースMTL法よりも優れている。 興味深いことに、サポートを縮めるペナルティは、しばしば係数値を縮めるペナルティを上回る。 メソッドを実装するRパッケージをリリースします。

We extend best-subset selection to linear Multi-Task Learning (MTL), where a set of linear models are jointly trained on a collection of datasets (``tasks''). Allowing the regression coefficients of tasks to have different sparsity patterns (i.e., different supports), we propose a modeling framework for MTL that encourages models to share information across tasks, for a given covariate, through separately 1) shrinking the coefficient supports together, and/or 2) shrinking the coefficient values together. This allows models to borrow strength during variable selection even when the coefficient values differ markedly between tasks. We express our modeling framework as a Mixed-Integer Program, and propose efficient and scalable algorithms based on block coordinate descent and combinatorial local search. We show our estimator achieves statistically optimal prediction rates. Importantly, our theory characterizes how our estimator leverages the shared support information across tasks to achieve better variable selection performance. We evaluate the performance of our method in simulations and two biology applications. Our proposed approaches outperform other sparse MTL methods in variable selection and prediction accuracy. Interestingly, penalties that shrink the supports together often outperform penalties that shrink the coefficient values together. We will release an R package implementing our methods.
翻訳日:2022-12-20 18:26:29 公開日:2022-12-16
# 人工物の自然言語推論におけるマルチスケールデータ拡張手法と事前学習モデル最適化

Multi-Scales Data Augmentation Approach In Natural Language Inference For Artifacts Mitigation And Pre-Trained Model Optimization ( http://arxiv.org/abs/2212.08756v1 )

ライセンス: Link先を確認
Zhenyuan Lu(参考訳) 機械学習モデルは、ベンチマーク自然言語処理(nlp)データセットでハイパフォーマンスに達するが、より困難な設定では失敗する。 自然言語推論(nli: natural language inference)において、事前学習されたモデルがデータセットのアーティファクトを学習したとき、この問題について研究する。 クラウドソースのstanford natural language inference (snli)コーパス内でデータセットアーティファクトを解析し、配置するためのさまざまな技術を提供する。 SNLIにおけるデータセットアーティファクトのスタイルパターンについて検討した。 データセットアーティファクトを緩和するために,文レベルでの行動検査チェックリストと単語レベルでの語彙的同義語基準という,2つの異なるフレームワークを備えた,ユニークなマルチスケールデータ拡張手法を用いる。 特に,本手法は摂動テストに対するモデルの耐性を高め,事前学習したベースラインを継続的に上回ることができる。

Machine learning models can reach high performance on benchmark natural language processing (NLP) datasets but fail in more challenging settings. We study this issue when a pre-trained model learns dataset artifacts in natural language inference (NLI), the topic of studying the logical relationship between a pair of text sequences. We provide a variety of techniques for analyzing and locating dataset artifacts inside the crowdsourced Stanford Natural Language Inference (SNLI) corpus. We study the stylistic pattern of dataset artifacts in the SNLI. To mitigate dataset artifacts, we employ a unique multi-scale data augmentation technique with two distinct frameworks: a behavioral testing checklist at the sentence level and lexical synonym criteria at the word level. Specifically, our combination method enhances our model's resistance to perturbation testing, enabling it to continuously outperform the pre-trained baseline.
翻訳日:2022-12-20 18:00:06 公開日:2022-12-16
# TopoImb: グラフからの学習におけるトポロジレベルの不均衡を目指して

TopoImb: Toward Topology-level Imbalance in Learning from Graphs ( http://arxiv.org/abs/2212.08689v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Dongsheng Luo, Xiang Zhang, Suhang Wang(参考訳) graphは、エッジとエンティティの関係をノードとしてエンコードすることで、非ユークリッド空間の基盤構造を持つデータをモデリングするための強力なツールとして機能する。 グラフ構造化データから何年にもわたって学ぶことの進歩にもかかわらず、一つの障害はグラフの不均衡である。 この問題を対象とする試みはいくつかあるが、クラスレベルの不均衡のみを考慮することに制限されている。 この研究では、グラフの場合、不均衡はサブクラストポロジー群レベルに存在する可能性が高いと論じている。 トポロジー構造の柔軟性のため、グラフは非常に多様であり、一般化可能な分類境界を学ぶことは困難である。 したがって、いくつかの大多数のトポロジ群が学習プロセスを支配し、他のグループは表現が不足している。 この問題に対処するために、新しいフレームワーク(トポロジ抽出器)と設計(トポロジ抽出器)を提案し、各インスタンスのトポロジ群を明示的なメモリセルで自動的に識別する(2)。 {\method}はGNNモデルのキーコンポーネントとして使用することができ、データ不均衡設定下でのパフォーマンスを改善することができる。 トポロジーレベルの不均衡と提案手法の両方の解析を理論的に提供し,対象タスクとしてノードレベルとグラフレベルの両方の分類の有効性を実証的に検証した。

Graph serves as a powerful tool for modeling data that has an underlying structure in non-Euclidean space, by encoding relations as edges and entities as nodes. Despite developments in learning from graph-structured data over the years, one obstacle persists: graph imbalance. Although several attempts have been made to target this problem, they are limited to considering only class-level imbalance. In this work, we argue that for graphs, the imbalance is likely to exist at the sub-class topology group level. Due to the flexibility of topology structures, graphs could be highly diverse, and learning a generalizable classification boundary would be difficult. Therefore, several majority topology groups may dominate the learning process, rendering others under-represented. To address this problem, we propose a new framework {\method} and design (1 a topology extractor, which automatically identifies the topology group for each instance with explicit memory cells, (2 a training modulator, which modulates the learning process of the target GNN model to prevent the case of topology-group-wise under-representation. {\method} can be used as a key component in GNN models to improve their performances under the data imbalance setting. Analyses on both topology-level imbalance and the proposed {\method} are provided theoretically, and we empirically verify its effectiveness with both node-level and graph-level classification as the target tasks.
翻訳日:2022-12-20 17:58:33 公開日:2022-12-16
# 分布オーバーラップ指数の上界とその応用

An Upper Bound for the Distribution Overlap Index and Its Applications ( http://arxiv.org/abs/2212.08701v1 )

ライセンス: Link先を確認
Hao Fu, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami(参考訳) 本稿では,分布モデルの知識を必要とせず,二つの確率分布間の重なり指数の計算容易な上限を提案する。 我々の限界の計算は時間効率とメモリ効率であり、有限サンプルしか必要としない。 提案する境界は,一クラス分類と領域シフト解析においてその値を示す。 具体的には、一級分類において、有界を信頼スコア関数に変換することによって、新しい一級分類器を構築する。 ほとんどの1クラス分類器とは異なり、分類器にはトレーニングプロセスは不要です。 さらに、実験結果から、分類器 \textcolor{\colorname}{ は、少数のインクラスサンプルでのみ正確であることを示し、異なる1クラス分類シナリオの様々なデータセット上で、最先端の多くのメソッドを上回ります。 領域シフト解析において,我々は境界に基づく定理を提案する。 この定理は、領域シフトの存在を検出し、データ情報を推測するのに有用である。 検出および推論プロセスは計算効率とメモリ効率の両方である。 私たちの研究は、オーバーラップベースのメトリクスの応用を広げるという大きな期待を示しています。

This paper proposes an easy-to-compute upper bound for the overlap index between two probability distributions without requiring any knowledge of the distribution models. The computation of our bound is time-efficient and memory-efficient and only requires finite samples. The proposed bound shows its value in one-class classification and domain shift analysis. Specifically, in one-class classification, we build a novel one-class classifier by converting the bound into a confidence score function. Unlike most one-class classifiers, the training process is not needed for our classifier. Additionally, the experimental results show that our classifier \textcolor{\colorname}{can be accurate with} only a small number of in-class samples and outperforms many state-of-the-art methods on various datasets in different one-class classification scenarios. In domain shift analysis, we propose a theorem based on our bound. The theorem is useful in detecting the existence of domain shift and inferring data information. The detection and inference processes are both computation-efficient and memory-efficient. Our work shows significant promise toward broadening the applications of overlap-based metrics.
翻訳日:2022-12-20 17:58:07 公開日:2022-12-16
# 脳波を用いた感情評価における一般化のための機械学習戦略: \\a Systematic Review

Machine Learning Strategies to Improve Generalization in EEG-based Emotion Assessment: \\a Systematic Review ( http://arxiv.org/abs/2212.08744v1 )

ライセンス: Link先を確認
Andrea Apicella, Pasquale Arpaia, Giovanni D'Errico, Davide Marocco, Giovanna Mastrati, Nicola Moccaldi, Roberto Prevete(参考訳) 感情分類に基づく汎用性(クロスオブジェクトとクロスセッション)脳波(EEG)向上のための機械学習戦略の体系的検討を行った。 この文脈では、EEG信号の非定常性は重要な問題であり、データセットシフト問題につながる可能性がある。 この問題を解決するためにいくつかのアーキテクチャや手法が提案されている。 418の論文が,脳波に基づく感情評価の一般化を目的とした最新の機械学習技術に着目した検索クエリを通じて,スコパス,IEEE Xplore,PubMedデータベースから検索された。 これらの論文のうち75件は、その問題に対する関連性に基づいて検索された。 特定のクロスサブジェクトおよびクロスセッション検証戦略の欠如と他のバイオシグナールをサポートとして利用する研究は除外された。 選択された論文の分析に基づいて,機械学習(ML)手法を用いた研究の分類法が提案され,関連するMLアプローチに関する簡単な議論が行われた。 平均分類精度で最高の結果を得た研究は, 伝達学習法が他の手法よりも優れていたことを裏付けるものである。 影響についての議論が提案されている i)感情理論モデルと感情理論モデル (II) 分類器の性能に関する実験試料の心理的スクリーニング。

A systematic review on machine-learning strategies for improving generalizability (cross-subjects and cross-sessions) electroencephalography (EEG) based in emotion classification was realized. In this context, the non-stationarity of EEG signals is a critical issue and can lead to the Dataset Shift problem. Several architectures and methods have been proposed to address this issue, mainly based on transfer learning methods. 418 papers were retrieved from the Scopus, IEEE Xplore and PubMed databases through a search query focusing on modern machine learning techniques for generalization in EEG-based emotion assessment. Among these papers, 75 were found eligible based on their relevance to the problem. Studies lacking a specific cross-subject and cross-session validation strategy and making use of other biosignals as support were excluded. On the basis of the selected papers' analysis, a taxonomy of the studies employing Machine Learning (ML) methods was proposed, together with a brief discussion on the different ML approaches involved. The studies with the best results in terms of average classification accuracy were identified, supporting that transfer learning methods seem to perform better than other approaches. A discussion is proposed on the impact of (i) the emotion theoretical models and (ii) psychological screening of the experimental sample on the classifier performances.
翻訳日:2022-12-20 17:57:47 公開日:2022-12-16
# ビデオベース人物再同定のための切り換え・集約による特徴異方性学習

Feature Disentanglement Learning with Switching and Aggregation for Video-based Person Re-Identification ( http://arxiv.org/abs/2212.09498v1 )

ライセンス: Link先を確認
Minjung Kim, MyeongAh Cho, Sangyoun Lee(参考訳) 映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。 既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。 本稿では,カメラ特性に基づくアイデンティティと特徴を表す特徴を分離し,id情報により多くの注意を払うディスタングル・アンド・スイッチング・アグリゲーション・ネットワーク(dsanet)を提案する。 また,スイッチングとアグリゲーションによって作成される新機能を活用して,様々なカメラシナリオにおけるネットワーク機能を向上させる補助タスクも導入する。 さらに、フレームフローに応じた目標位置の変化に対して頑健な特徴を抽出するターゲットローカライゼーションモジュール(TLM)と、最終表現における時間情報を反映するフレームウェイト生成(FWG)を考案する。 ネットワークの各コンポーネントが、自身の役割を十分に担いながら協調できるように、様々な障害関数を設計する。 大規模実験による定量および定性的な結果は、3つのベンチマークデータセットの最先端手法よりもDSANetの方が優れていることを示す。

In video person re-identification (Re-ID), the network must consistently extract features of the target person from successive frames. Existing methods tend to focus only on how to use temporal information, which often leads to networks being fooled by similar appearances and same backgrounds. In this paper, we propose a Disentanglement and Switching and Aggregation Network (DSANet), which segregates the features representing identity and features based on camera characteristics, and pays more attention to ID information. We also introduce an auxiliary task that utilizes a new pair of features created through switching and aggregation to increase the network's capability for various camera scenarios. Furthermore, we devise a Target Localization Module (TLM) that extracts robust features against a change in the position of the target according to the frame flow and a Frame Weight Generation (FWG) that reflects temporal information in the final representation. Various loss functions for disentanglement learning are designed so that each component of the network can cooperate while satisfactorily performing its own role. Quantitative and qualitative results from extensive experiments demonstrate the superiority of DSANet over state-of-the-art methods on three benchmark datasets.
翻訳日:2022-12-20 17:51:36 公開日:2022-12-16
# テキストから画像への拡散モデルにおける絡み合い能力の解明

Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2212.08698v1 )

ライセンス: Link先を確認
Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu, Zhe Lin, Yang Zhang, Shiyu Chang(参考訳) 生成モデルはコンピュータビジョンで広く研究されている。 近年,画像の高品質化により拡散モデルが注目されている。 画像生成モデルの望ましい特性は、異なる属性を分離する能力であり、意味的内容を変更することなくスタイルへの修正を可能にし、変更パラメータを異なる画像に一般化する必要がある。 これまでの研究では、ジェネレーティブ・アドバーサル・ネットワーク(gan)は本質的にそのような不等角化能力を有しており、ネットワークの再訓練や微調整をすることなく、不等角化画像編集を行うことができる。 本研究では,拡散モデルが本質的にそのような能力を備えているかどうかを考察する。 安定な拡散モデルでは、入力テキストの埋め込みを中性記述(例えば「人の写真」)からスタイルのあるもの(例えば「笑顔の人の写真」)に部分的に変更し、デノナイズプロセス中に導入されたガウス的ランダムノイズを全て修正することで、生成した画像はセマンティック内容を変更することなくターゲットスタイルに修正できる。 そこで本研究では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,簡易で軽量な画像編集アルゴリズムを提案する。 このプロセス全体は50以上のパラメータを最適化するだけで、拡散モデル自体を微調整しない。 実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムの性能を上回って,幅広い属性の修正が可能であることが示された。 最適化された重み付けは、異なる画像にうまく一般化する。 私たちのコードはhttps://github.com/UCSB-NLP-Chang/DiffusionDisentanglement.comで公開されています。

Generative models have been widely studied in computer vision. Recently, diffusion models have drawn substantial attention due to the high quality of their generated images. A key desired property of image generative models is the ability to disentangle different attributes, which should enable modification towards a style without changing the semantic content, and the modification parameters should generalize to different images. Previous studies have found that generative adversarial networks (GANs) are inherently endowed with such disentanglement capability, so they can perform disentangled image editing without re-training or fine-tuning the network. In this work, we explore whether diffusion models are also inherently equipped with such a capability. Our finding is that for stable diffusion models, by partially changing the input text embedding from a neutral description (e.g., "a photo of person") to one with style (e.g., "a photo of person with smile") while fixing all the Gaussian random noises introduced during the denoising process, the generated images can be modified towards the target style without changing the semantic content. Based on this finding, we further propose a simple, light-weight image editing algorithm where the mixing weights of the two text embeddings are optimized for style matching and content preservation. This entire process only involves optimizing over around 50 parameters and does not fine-tune the diffusion model itself. Experiments show that the proposed method can modify a wide range of attributes, with the performance outperforming diffusion-model-based image-editing algorithms that require fine-tuning. The optimized weights generalize well to different images. Our code is publicly available at https://github.com/UCSB-NLP-Chang/DiffusionDisentanglement.
翻訳日:2022-12-20 17:14:39 公開日:2022-12-16
# 機械学習を用いた水分割のためのマルチスペクトルデータの解析と応用

Analysis and application of multispectral data for water segmentation using machine learning ( http://arxiv.org/abs/2212.08749v1 )

ライセンス: Link先を確認
Shubham Gupta, Uma D., and Ramachandra Hebbar(参考訳) 水質モニタリングは、その動的性質、汚染物質の追加、土地の造成などにより複雑な作業である。 sentinel-2マルチスペクトル製品による高精細度データの可用性により、リモートセンシングアプリケーションの実装が実現可能になる。 しかし、製品のマルチスペクトルバンドを過度に利用または過小評価すると、性能は低下する。 本研究では,8つの機械学習アルゴリズムを用いて,センチネル-2製品に含まれる13バンド中10バンドのパフォーマンスを比較した。 短波赤外帯 (b11, b12) は水域の分断に最適であることが判明した。 b11は全体の精度が71\%$、b12はテストサイトでの全アルゴリズムに対して69\%$である。 また,SVM (Support Vector Machine) アルゴリズムはシングルバンド水分割において最も好適であることがわかった。 SVMは、テストサイト上でのテストバンド全体で、全体的な精度が69.%である。 最後に、適切な量のデータを選択することの有効性を示すために、b11反射率データのみを使用して人工ニューラルネットワークであるbandnetを訓練する。 基本的なアーキテクチャであっても、BandNetはセマンティックとウォーターセグメンテーションの既知のアーキテクチャに比例し、テストサイトで92.47$ mIOUを達成した。 BandNetは推論のトレーニングと実行に必要な時間とリソースのごく一部しか必要とせず、ローカライズされたリージョンで水域を実行および監視するためにWebアプリケーションにデプロイされるのに適している。 私たちのコードベースはhttps://github.com/iamshubhamgupto/bandnetで利用可能です。

Monitoring water is a complex task due to its dynamic nature, added pollutants, and land build-up. The availability of high-resolu-tion data by Sentinel-2 multispectral products makes implementing remote sensing applications feasible. However, overutilizing or underutilizing multispectral bands of the product can lead to inferior performance. In this work, we compare the performances of ten out of the thirteen bands available in a Sentinel-2 product for water segmentation using eight machine learning algorithms. We find that the shortwave infrared bands (B11 and B12) are the most superior for segmenting water bodies. B11 achieves an overall accuracy of $71\%$ while B12 achieves $69\%$ across all algorithms on the test site. We also find that the Support Vector Machine (SVM) algorithm is the most favourable for single-band water segmentation. The SVM achieves an overall accuracy of $69\%$ across the tested bands over the given test site. Finally, to demonstrate the effectiveness of choosing the right amount of data, we use only B11 reflectance data to train an artificial neural network, BandNet. Even with a basic architecture, BandNet is proportionate to known architectures for semantic and water segmentation, achieving a $92.47$ mIOU on the test site. BandNet requires only a fraction of the time and resources to train and run inference, making it suitable to be deployed on web applications to run and monitor water bodies in localized regions. Our codebase is available at https://github.com/IamShubhamGupto/BandNet.
翻訳日:2022-12-20 17:14:09 公開日:2022-12-16
# Plansformer: トランスフォーマーを用いたシンボリックプランの生成

Plansformer: Generating Symbolic Plans using Transformers ( http://arxiv.org/abs/2212.08681v1 )

ライセンス: Link先を確認
Vishal Pallagani, Bharath Muppasani, Keerthiram Murugesan, Francesca Rossi, Lior Horesh, Biplav Srivastava, Francesco Fabiano, Andrea Loreggia(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)分野を著しく進歩させ、活発な研究対象となっている。 BERT から BLOOM まで、LLM は質問応答、要約、テキスト生成といった様々な自然言語タスクにおいて最先端の結果を上回ってきた。 進行中の多くの取り組みは、世界の知識、構文、セマンティクスなど、llmsの能力を理解することに焦点を当てている。 しかし、LLMの文章的長所を記号的推論に拡張することは遅く、主に数学の分野に関わる問題に取り組むことに焦点が当てられている。 本稿では,知的エージェントや自律ロボット,無人車両などによって実行される目標を達成するために,行動シーケンス(計画)の実現に関わるAIの分野である,自動計画のためのLLMの使用について検討する。 我々は,計画問題に微調整を施し,知識工学の努力を減らすことで,正しい行動と長さの観点で望ましい計画を生成することができるllmであるplansformerを紹介する。 また,LLMの伝達学習能力により,多種多様な複雑な計画領域を解く上で,Plansformerの適応性を示す。 planformerの1つの構成では、約97%の有効な計画を達成し、そのうち95%はパズル解決ドメインであるハノイの塔に最適である。

Large Language Models (LLMs) have been the subject of active research, significantly advancing the field of Natural Language Processing (NLP). From BERT to BLOOM, LLMs have surpassed state-of-the-art results in various natural language tasks such as question answering, summarization, and text generation. Many ongoing efforts focus on understanding LLMs' capabilities, including their knowledge of the world, syntax, and semantics. However, extending the textual prowess of LLMs to symbolic reasoning has been slow and predominantly focused on tackling problems related to the mathematical field. In this paper, we explore the use of LLMs for automated planning - a branch of AI concerned with the realization of action sequences (plans) to achieve a goal, typically executed by intelligent agents, autonomous robots, and unmanned vehicles. We introduce Plansformer; an LLM fine-tuned on planning problems and capable of generating plans with favorable behavior in terms of correctness and length with reduced knowledge-engineering efforts. We also demonstrate the adaptability of Plansformer in solving different planning domains with varying complexities, owing to the transfer learning abilities of LLMs. For one configuration of Plansformer, we achieve ~97% valid plans, out of which ~95% are optimal for Towers of Hanoi - a puzzle-solving domain.
翻訳日:2022-12-20 17:05:46 公開日:2022-12-16
# 音声認識対話システム技術チャレンジ(DSTC11)

Speech Aware Dialog System Technology Challenge (DSTC11) ( http://arxiv.org/abs/2212.08704v1 )

ライセンス: Link先を確認
Hagen Soltau, Izhak Shafran, Mingqiu Wang, Abhinav Rastogi, Jeffrey Zhao, Ye Jia, Wei Han, Yuan Cao, Aramys Miranda(参考訳) タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。 しかし,ユーザはしばしば音声を入力として利用する実用的な対話システムと対話する。 システムは通常、エラーを導入して自動音声認識(ASR)システムを用いて音声をテキストに変換する。 さらに、これらのシステムは、書き言葉と話し言葉の違いに対処しない。 この話題に関する研究は、公的なコーパスの欠如によって汚される。 これらの考察を動機付けて,音声認識対話状態追跡課題をホストする目的は,入力と音声間のパフォーマンスギャップを調査できる公開コーパスないしタスクを作成し,このギャップを緩和するモデルを開発し,テキスト・ツー・スパイチベース(tts)システムがより保守的な人間データ収集の合理的な代替であるかどうかを確立することである。 人気のあるマルチウォズタスクの3つの音声バージョンを作成しました。 (a) TTS-Verbatim: TTSシステムを用いて文字入力を音声波形に変換する。 (b)人間=口語:人間は、ユーザの入力を口語で話し、 (c) 人間の言い回し: 人間がユーザ入力を言い換える。 さらに、最先端のASRシステムにアクセスできないかもしれないチームからの幅広い参加を促すために、さまざまなASR出力形式を提供しました。 これには、asrの書き起こし、ワードタイムスタンプ、オーディオの潜在表現(オーディオエンコーダ出力)が含まれる。 本稿では,コーパスについて述べるとともに,参加チームからの報告を行い,その結果を予備分析し,その領域における現状を要約する。

Most research on task oriented dialog modeling is based on written text input. However, users interact with practical dialog systems often using speech as input. Typically, systems convert speech into text using an Automatic Speech Recognition (ASR) system, introducing errors. Furthermore, these systems do not address the differences in written and spoken language. The research on this topic is stymied by the lack of a public corpus. Motivated by these considerations, our goal in hosting the speech-aware dialog state tracking challenge was to create a public corpus or task which can be used to investigate the performance gap between the written and spoken forms of input, develop models that could alleviate this gap, and establish whether Text-to-Speech-based (TTS) systems is a reasonable surrogate to the more-labor intensive human data collection. We created three spoken versions of the popular written-domain MultiWoz task -- (a) TTS-Verbatim: written user inputs were converted into speech waveforms using a TTS system, (b) Human-Verbatim: humans spoke the user inputs verbatim, and (c) Human-paraphrased: humans paraphrased the user inputs. Additionally, we provided different forms of ASR output to encourage wider participation from teams that may not have access to state-of-the-art ASR systems. These included ASR transcripts, word time stamps, and latent representations of the audio (audio encoder outputs). In this paper, we describe the corpus, report results from participating teams, provide preliminary analyses of their results, and summarize the current state-of-the-art in this domain.
翻訳日:2022-12-20 17:05:24 公開日:2022-12-16
# ファウショット推論における記号表現が文脈内学習に及ぼす影響

The Impact of Symbolic Representations on In-context Learning for Few-shot Reasoning ( http://arxiv.org/abs/2212.08686v1 )

ライセンス: Link先を確認
Hanlin Zhang, Yi-Fan Zhang, Li Erran Li, Eric Xing(参考訳) 事前学習言語モデル(LM)は、文脈内学習のための説明(または '`chain-of- Thought'' (CoT))を用いて、顕著な推論性能を示した。 一方、これらの推論タスクは通常、シンボリックプログラミングにもっと近づきやすいと仮定される。 文脈内学習の理解を進めるために,記号例は一階述語論理規則と知識ベース(kbs)からの述語を含む,等価な(自然な,象徴的な)データペアを含む合成データセットをキュレーションする。 次に,論理規則とそれに対応する例を含むデモンストレーションから学習し,kbs上で反復的に推論し,prologの後方連鎖アルゴリズムを回復する論理プログラマ(lmlp)として,神経シンボリックアプローチを再検討する。 帰納的推論設定において, LMLPとCoTを体系的に比較する総合的な実験を行い, パラメータが少ない場合でも, LMLPはCoTよりも25%以上精度が高いことを示した。

Pre-trained language models (LMs) have shown remarkable reasoning performance using explanations (or ``chain-of-thought'' (CoT)) for in-context learning. On the other hand, these reasoning tasks are usually presumed to be more approachable for symbolic programming. To make progress towards understanding in-context learning, we curate synthetic datasets containing equivalent (natural, symbolic) data pairs, where symbolic examples contain first-order logic rules and predicates from knowledge bases (KBs). Then we revisit neuro-symbolic approaches and use Language Models as Logic Programmer (LMLP) that learns from demonstrations containing logic rules and corresponding examples to iteratively reason over KBs, recovering Prolog's backward chaining algorithm. Comprehensive experiments are included to systematically compare LMLP with CoT in deductive reasoning settings, showing that LMLP enjoys more than 25% higher accuracy than CoT on length generalization benchmarks even with fewer parameters.
翻訳日:2022-12-20 16:02:50 公開日:2022-12-16
# DuNST: 半スーパービジョン制御可能なテキスト生成のためのデュアルノイズセルフトレーニング

DuNST: Dual Noisy Self Training for Semi-Supervised Controllable Text Generation ( http://arxiv.org/abs/2212.08724v1 )

ライセンス: Link先を確認
Yuxi Feng, Xiaoyuan Yi, Xiting Wang, Laks V.S. Lakshmanan, Xing Xie(参考訳) ラベル付きデータが不十分な場合、事前学習された言語モデルの微調整を増強することにより、言語理解において再び成長した。 しかし、STを属性制御可能な言語生成に組み込むことは依然として困難である。 自己生成した擬似テキストのみによって拡張され、生成モデルは制限された一般化境界に苦しむ前に学習された空間の活用を過大に強調する。 我々はSTを再検討し、この問題を緩和する新しい方法DuNSTを提案する。 dunstは共用変分オートエンコーダでテキスト生成と分類をモデル化し、生成された擬似テキストを2種類のフレキシブルノイズで分解して空間を乱す。 このようにして、我々のモデルは、与えられたラベルから擬似テキストと利用可能な無ラベルテキストから擬似ラベルの両方を構築し、利用することができる。 理論的には、DuNSTは潜在的な実テキスト空間への探索の強化であり、性能向上の保証となる。 3つの制御可能な生成タスクの実験は、ダンストがいくつかの強力なベースラインに対して同等の世代流束と多様性を維持しながら、制御精度を著しく向上できることを示した。

Self-training (ST) has prospered again in language understanding by augmenting the fine-tuning of pre-trained language models when labeled data is insufficient. However, it remains challenging to incorporate ST into attribute-controllable language generation. Augmented by only self-generated pseudo text, generation models over-emphasize exploitation of the previously learned space, suffering from a constrained generalization boundary. We revisit ST and propose a novel method, DuNST to alleviate this problem. DuNST jointly models text generation and classification with a shared Variational AutoEncoder and corrupts the generated pseudo text by two kinds of flexible noise to disturb the space. In this way, our model could construct and utilize both pseudo text from given labels and pseudo labels from available unlabeled text, which are gradually refined during the ST process. We theoretically demonstrate that DuNST can be regarded as enhancing exploration towards the potential real text space, providing a guarantee of improved performance. Experiments on three controllable generation tasks show that DuNST could significantly boost control accuracy while maintaining comparable generation fluency and diversity against several strong baselines.
翻訳日:2022-12-20 16:02:30 公開日:2022-12-16
# エンドツーエンド音声認識における単語レベル信頼度推定の高速エントロピー法

Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition ( http://arxiv.org/abs/2212.08703v1 )

ライセンス: Link先を確認
Aleksandr Laptev and Boris Ginsburg(参考訳) 本稿では,自動音声認識のための新しい高速非学習エントロピーに基づく信頼度推定法を提案する。 本稿では,フレーム単位のエントロピー値の正規化と集約を行い,コネクショニスト時間分類(ctc)とrnn-tモデル(recurrent neural network transducer)に対して,単位単位とワード単位の信頼度尺度を得る方法を示す。 提案手法はフレーム毎の最大確率に基づく従来の手法と同様の計算複雑性を持つが、より調整可能であり、より効果的なしきい値範囲を持ち、正しい単語と間違った単語の信頼度分布をより良く押し離すことができる。 提案手法をlibrispeechテストセット上で評価し,conformer-ctcおよびconformer-rnn-tモデルの誤り語検出における最大フレーム当たり確率に基づいて,最大2倍および4倍の信頼性推定精度を示す。

This paper presents a class of new fast non-trainable entropy-based confidence estimation methods for automatic speech recognition. We show how per-frame entropy values can be normalized and aggregated to obtain a confidence measure per unit and per word for Connectionist Temporal Classification (CTC) and Recurrent Neural Network Transducer (RNN-T) models. Proposed methods have similar computational complexity to the traditional method based on the maximum per-frame probability, but they are more adjustable, have a wider effective threshold range, and better push apart the confidence distributions of correct and incorrect words. We evaluate the proposed confidence measures on LibriSpeech test sets, and show that they are up to 2 and 4 times better than confidence estimation based on the maximum per-frame probability at detecting incorrect words for Conformer-CTC and Conformer-RNN-T models, respectively.
翻訳日:2022-12-20 15:55:45 公開日:2022-12-16
# Point-E:複雑なプロンプトから3次元点雲を生成するシステム

Point-E: A System for Generating 3D Point Clouds from Complex Prompts ( http://arxiv.org/abs/2212.08751v1 )

ライセンス: Link先を確認
Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, Mark Chen(参考訳) テキスト条件の3Dオブジェクト生成に関する最近の研究は有望な結果を示しているが、最先端の手法は通常、単一のサンプルを生成するために複数のGPU時間を必要とする。 これは、数秒または数分でサンプルを生成する最先端の生成画像モデルとは対照的である。 本稿では,1つのGPU上でわずか1~2分で3Dモデルを生成する3Dオブジェクト生成法を提案する。 提案手法は,まずテキスト・画像拡散モデルを用いて単一合成ビューを生成し,次いで生成した画像に条件付けした第2拡散モデルを用いて3次元点雲を生成する。 サンプルの品質に関しては,まだ最先端の手法には達していないが,サンプルから抽出する速度は1~2桁速く,ユースケースによっては実用上のトレードオフがある。 事前トレーニング済みのpoint cloud diffusionモデルと評価コードとモデルをhttps://github.com/openai/point-eでリリースしています。

While recent work on text-conditional 3D object generation has shown promising results, the state-of-the-art methods typically require multiple GPU-hours to produce a single sample. This is in stark contrast to state-of-the-art generative image models, which produce samples in a number of seconds or minutes. In this paper, we explore an alternative method for 3D object generation which produces 3D models in only 1-2 minutes on a single GPU. Our method first generates a single synthetic view using a text-to-image diffusion model, and then produces a 3D point cloud using a second diffusion model which conditions on the generated image. While our method still falls short of the state-of-the-art in terms of sample quality, it is one to two orders of magnitude faster to sample from, offering a practical trade-off for some use cases. We release our pre-trained point cloud diffusion models, as well as evaluation code and models, at https://github.com/openai/point-e.
翻訳日:2022-12-20 15:28:14 公開日:2022-12-16
# clipは効率的なセグメンタでもある:弱い教師付きセマンティックセグメンテーションのためのテキスト駆動アプローチ

CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2212.09506v1 )

ライセンス: Link先を確認
Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He(参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は、コンピュータビジョンにおいて難しい課題である。 主流のアプローチは多段階のフレームワークに従い、高いトレーニングコストに苦しむ。 本稿では,画像レベルラベルのみの異なるカテゴリをローカライズするためのコントラスト型言語画像事前学習モデル(clip)の可能性について検討する。 高品質なセグメンテーションマスクをCLIPから効率的に生成するために,WSSS用CLIP-ESという新しいフレームワークを提案する。 私たちのフレームワークは、CLIPの特別な設計でWSSSの3つのステージをすべて改善します。 1) GradCAMにソフトマックス関数を導入し,CLIPのゼロショット機能を利用して,非ターゲットクラスやバックグラウンドによる混乱を抑制する。 一方、CLIPを最大限に活用するために、WSSS設定の下でテキスト入力を再発見し、シャープネスベースのプロンプト選択と同義融合という2つのテキスト駆動戦略をカスタマイズする。 2) CAM改善の段階を簡略化するため,CLIP-ViTにおけるMHSAに基づくリアルタイムクラス認識型アフィニティ(CAA)モジュールを提案する。 3)CLIPが生成したマスクを用いて最終セグメンテーションモデルをトレーニングする際,ノイズを緩和し,信頼領域に焦点を合わせるために,信頼誘導損失(CGL)を導入した。 提案するフレームワークは,WSSSのトレーニングコストを大幅に削減し,CLIP内のオブジェクトをローカライズする能力を示す。 私たちのCLIP-ESはPascal VOC 2012とMS COCO 2014のSOTA性能を達成し,従来の擬似マスク生成手法の10%の時間を要した。 コードはhttps://github.com/linyq2117/CLIP-ESで入手できる。

Weakly supervised semantic segmentation (WSSS) with image-level labels is a challenging task in computer vision. Mainstream approaches follow a multi-stage framework and suffer from high training costs. In this paper, we explore the potential of Contrastive Language-Image Pre-training models (CLIP) to localize different categories with only image-level labels and without any further training. To efficiently generate high-quality segmentation masks from CLIP, we propose a novel framework called CLIP-ES for WSSS. Our framework improves all three stages of WSSS with special designs for CLIP: 1) We introduce the softmax function into GradCAM and exploit the zero-shot ability of CLIP to suppress the confusion caused by non-target classes and backgrounds. Meanwhile, to take full advantage of CLIP, we re-explore text inputs under the WSSS setting and customize two text-driven strategies: sharpness-based prompt selection and synonym fusion. 2) To simplify the stage of CAM refinement, we propose a real-time class-aware attention-based affinity (CAA) module based on the inherent multi-head self-attention (MHSA) in CLIP-ViTs. 3) When training the final segmentation model with the masks generated by CLIP, we introduced a confidence-guided loss (CGL) to mitigate noise and focus on confident regions. Our proposed framework dramatically reduces the cost of training for WSSS and shows the capability of localizing objects in CLIP. Our CLIP-ES achieves SOTA performance on Pascal VOC 2012 and MS COCO 2014 while only taking 10% time of previous methods for the pseudo mask generation. Code is available at https://github.com/linyq2117/CLIP-ES.
翻訳日:2022-12-20 15:10:00 公開日:2022-12-16
# 対比深部グラフクラスタリングのためのハードサンプルアウェアネットワーク

Hard Sample Aware Network for Contrastive Deep Graph Clustering ( http://arxiv.org/abs/2212.08665v1 )

ライセンス: Link先を確認
Yue Liu, Xihong Yang, Sihang Zhou, Xinwang Liu, Zhen Wang, Ke Liang, Wenxuan Tu, Liang Li, Jingcan Duan, Cancan Chen(参考訳) コントラスト的メカニズムによってノードを非結合グループに分割することを目的とした、コントラスト的ディープグラフクラスタリングは、難しい研究スポットである。 最近の研究の中で、ハードサンプルマイニングに基づくアルゴリズムは、その有望な性能に大きな注目を集めている。 しかし,既存のハードサンプルマイニング手法には,以下の2つの問題がある。 1) 硬度測定では, 重要な構造情報を類似性計算に見落とし, 選択した硬質陰性試料の代表性を劣化させる。 2) 先行研究は, 硬い負のサンプルペアにのみ焦点をあてるが, 硬い正のサンプルペアは無視する。 それでも、同一クラスタ内のサンプルは、類似度の低いものも慎重に学ぶ必要がある。 そこで本研究では,包括的類似度尺度基準と一般的な動的サンプル重み付け戦略を導入することで,新たにハードサンプル認識ネットワーク(hsan)と呼ばれるコントラスト型深層グラフクラスタリング手法を提案する。 具体的には,属性埋め込みと構造埋め込みの両方を考慮し,サンプル間の類似度を算出し,サンプル関係を明らかにするとともに,硬度測定を支援する。 さらに, 得られた高信頼クラスタリング情報のガイダンスにより, 提案する重み変調関数は, 正および負のサンプルをまず認識し, 硬いサンプルペアを動的に重み付けしながら, 簡単なサンプルを重み付けする。 このようにして, 本手法は, 硬質陰性試料だけでなく, 硬質正試料のマイニングも可能となり, 試料の識別能力をさらに向上させることができる。 提案手法の優位性と有効性を示す実験と分析を行った。

Contrastive deep graph clustering, which aims to divide nodes into disjoint groups via contrastive mechanisms, is a challenging research spot. Among the recent works, hard sample mining-based algorithms have achieved great attention for their promising performance. However, we find that the existing hard sample mining methods have two problems as follows. 1) In the hardness measurement, the important structural information is overlooked for similarity calculation, degrading the representativeness of the selected hard negative samples. 2) Previous works merely focus on the hard negative sample pairs while neglecting the hard positive sample pairs. Nevertheless, samples within the same cluster but with low similarity should also be carefully learned. To solve the problems, we propose a novel contrastive deep graph clustering method dubbed Hard Sample Aware Network (HSAN) by introducing a comprehensive similarity measure criterion and a general dynamic sample weighing strategy. Concretely, in our algorithm, the similarities between samples are calculated by considering both the attribute embeddings and the structure embeddings, better revealing sample relationships and assisting hardness measurement. Moreover, under the guidance of the carefully collected high-confidence clustering information, our proposed weight modulating function will first recognize the positive and negative samples and then dynamically up-weight the hard sample pairs while down-weighting the easy ones. In this way, our method can mine not only the hard negative samples but also the hard positive sample, thus improving the discriminative capability of the samples further. Extensive experiments and analyses demonstrate the superiority and effectiveness of our proposed method.
翻訳日:2022-12-20 15:08:58 公開日:2022-12-16
# ラベルなしデータによる多人数3次元ポーズ推定

Multi-person 3D pose estimation from unlabelled data ( http://arxiv.org/abs/2212.08731v1 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado, Pilar Bachiller, George Vogiatzis and Luis J. Manso(参考訳) その多くの応用により、マルチヒューマンの3Dポーズ推定は極めて影響の大きい研究領域となっている。 それでも、複数のレギュラーRGBカメラからなるマルチビューシステムを考えると、3D多目的推定にはいくつかの課題がある。 まず、カメラによって提供される2d情報を分離するために、各人物を異なる視点で一意に識別する必要がある。 第二に, 多視点2次元情報からの3次元ポーズ推定プロセスは, シナリオにおける騒音や潜在的な閉塞に対して頑健でなければならない。 本研究では,この2つの課題をディープラーニングを用いて解決する。 具体的には,シナリオ中の人物のクロスビュー対応を予測可能なグラフニューラルネットワークに基づくモデルと,各人物の3dポーズを得るために2dポイントを取る多層パーセプトロンを提案する。 これらの2つのモデルは、自己教師型で訓練されるため、3Dアノテーションによる大規模なデータセットは不要である。

Its numerous applications make multi-human 3D pose estimation a remarkably impactful area of research. Nevertheless, assuming a multiple-view system composed of several regular RGB cameras, 3D multi-pose estimation presents several challenges. First of all, each person must be uniquely identified in the different views to separate the 2D information provided by the cameras. Secondly, the 3D pose estimation process from the multi-view 2D information of each person must be robust against noise and potential occlusions in the scenario. In this work, we address these two challenges with the help of deep learning. Specifically, we present a model based on Graph Neural Networks capable of predicting the cross-view correspondence of the people in the scenario along with a Multilayer Perceptron that takes the 2D points to yield the 3D poses of each person. These two models are trained in a self-supervised manner, thus avoiding the need for large datasets with 3D annotations.
翻訳日:2022-12-20 14:59:35 公開日:2022-12-16
# カスタマサービスにおける自然言語処理:体系的レビュー

Natural Language Processing in Customer Service: A Systematic Review ( http://arxiv.org/abs/2212.09523v1 )

ライセンス: Link先を確認
Malak Mashaabi, Areej Alotaibi, Hala Qudaih, Raghad Alnashwan and Hend Al-Khalifa(参考訳) 人工知能と自然言語処理(NLP)は、ユーザと対話し、質問に答えるために、顧客サービスでますます使われている。 この体系的なレビューの目的は、顧客サービスにおけるNLP技術の利用に関する既存の研究、例えば研究領域、アプリケーション、使用されるデータセット、評価方法を検討することである。 レビューでは、フィールドの今後の方向性と、重要な制限についても検討している。 このレビューは2015年から2022年までの期間をカバーし、5つの主要な科学データベースからの論文を含んでいる。 チャットボットと質問応答システムは主に10の分野に使われ、一般的にはソーシャルネットワークやeコマースで使われている。 twitterは2番目に広く使われているデータセットであり、ほとんどの研究は独自のデータセットも使用している。 精度、精度、リコール、F1が最も一般的な評価方法であった。 今後の作業は、ユーザの行動と感情のパフォーマンスと理解を改善し、データセットのボリューム、多様性、品質といった制限に対処することを目的としている。 このレビューには、異なる話し言葉とモデルと技術の研究が含まれている。

Artificial intelligence and natural language processing (NLP) are increasingly being used in customer service to interact with users and answer their questions. The goal of this systematic review is to examine existing research on the use of NLP technology in customer service, including the research domain, applications, datasets used, and evaluation methods. The review also looks at the future direction of the field and any significant limitations. The review covers the time period from 2015 to 2022 and includes papers from five major scientific databases. Chatbots and question-answering systems were found to be used in 10 main fields, with the most common use in general, social networking, and e-commerce areas. Twitter was the second most commonly used dataset, with most research also using their own original datasets. Accuracy, precision, recall, and F1 were the most common evaluation methods. Future work aims to improve the performance and understanding of user behavior and emotions, and address limitations such as the volume, diversity, and quality of datasets. This review includes research on different spoken languages and models and techniques.
翻訳日:2022-12-20 14:52:26 公開日:2022-12-16
# カスタムLSTMとGRUモデルを用いた家庭用電力消費の短期予測

Short-term Prediction of Household Electricity Consumption Using Customized LSTM and GRU Models ( http://arxiv.org/abs/2212.08757v1 )

ライセンス: Link先を確認
Saad Emshagin, Wayes Koroni Halim, Rasha Kashef(参考訳) 電力システムの進化により、よりインテリジェントでインタラクティブなシステムになりつつ、再生可能エネルギー源の普及によって柔軟性が増す中、短期的な解像度に対する需要予測は、将来のグリッドの設計と管理において、特に個々の家庭レベルにおいて、必然的に重要になるでしょう。 電力需要の予測は,住宅負荷を大規模に集約した電力消費とは対照的に,不安定で不確実な要因が多いため困難である。 本稿では,この問題に対処するために,カスタマイズされた gru (gated recurrent unit) と long short-term memory (lstm) アーキテクチャを提案する。 LSTMとGRUは比較的新しいもので、最も経験豊富なディープラーニングアプローチの1つである。 電力消費データセットは家庭ごとのスマートメーターから得られた。 比較の結果,LSTMモデルは代替予測手法であるGRUよりも家庭レベルの予測に優れていた。 NNモデルと従来の統計手法モデルとの対比のために, LSTMとGRUモデルを用いて, ARIMAモデルも開発, ベンチマークを行い, 提案モデルの性能を時系列データに示す。

With the evolution of power systems as it is becoming more intelligent and interactive system while increasing in flexibility with a larger penetration of renewable energy sources, demand prediction on a short-term resolution will inevitably become more and more crucial in designing and managing the future grid, especially when it comes to an individual household level. Projecting the demand for electricity for a single energy user, as opposed to the aggregated power consumption of residential load on a wide scale, is difficult because of a considerable number of volatile and uncertain factors. This paper proposes a customized GRU (Gated Recurrent Unit) and Long Short-Term Memory (LSTM) architecture to address this challenging problem. LSTM and GRU are comparatively newer and among the most well-adopted deep learning approaches. The electricity consumption datasets were obtained from individual household smart meters. The comparison shows that the LSTM model performs better for home-level forecasting than alternative prediction techniques-GRU in this case. To compare the NN-based models with contrast to the conventional statistical technique-based model, ARIMA based model was also developed and benchmarked with LSTM and GRU model outcomes in this study to show the performance of the proposed model on the collected time series data.
翻訳日:2022-12-20 14:51:06 公開日:2022-12-16
# ニューラルストーリープランニング

Neural Story Planning ( http://arxiv.org/abs/2212.08718v1 )

ライセンス: Link先を確認
Anbang Ye, Christopher Cui, Taiwei Shi, Mark O. Riedl(参考訳) 自動プロット生成は、読者によってコヒーレントな物語のプロットとして認識される一連の出来事を生成する挑戦である。 伝統的なシンボリック・プランナーは目標の状態からストーリーを計画し、論理的因果プロットの一貫性を保証するが、前提条件と効果を持つ手作りのアクションのライブラリに依存する。 この閉世界設定は、象徴的なプランナーが生成できる長さと多様性を制限する。 一方で、事前学習されたニューラルネットワークモデルは、通常特定の方法でストーリーを終わらせることができず、一貫性を維持するのに苦労しながら、非常に多様なストーリーを生成することができる。 本稿では,ニューラルランゲージモデルと因果計画を統合したストーリープロット生成手法を提案する。 本稿では,大規模言語モデルから抽出したコモンセンス知識を用いて,ストーリープロットを後方連鎖的に展開する手法を提案する。 具体的には,本システムでは,物語における事象の前提条件を推測し,その条件が真となる事象を推定する。 我々は,物語の異なる出来事が他の出来事と因果関係があるかどうかという疑問に答える能力として,物語のコヒーレンスを自動評価した。 その結果,提案手法は複数の強基線よりもコヒーレントなプロットラインを生成することがわかった。

Automated plot generation is the challenge of generating a sequence of events that will be perceived by readers as the plot of a coherent story. Traditional symbolic planners plan a story from a goal state and guarantee logical causal plot coherence but rely on a library of hand-crafted actions with their preconditions and effects. This closed world setting limits the length and diversity of what symbolic planners can generate. On the other hand, pre-trained neural language models can generate stories with great diversity, while being generally incapable of ending a story in a specified manner and can have trouble maintaining coherence. In this paper, we present an approach to story plot generation that unifies causal planning with neural language models. We propose to use commonsense knowledge extracted from large language models to recursively expand a story plot in a backward chaining fashion. Specifically, our system infers the preconditions for events in the story and then events that will cause those conditions to become true. We performed automatic evaluation to measure narrative coherence as indicated by the ability to answer questions about whether different events in the story are causally related to other events. Results indicate that our proposed method produces more coherent plotlines than several strong baselines.
翻訳日:2022-12-20 14:44:08 公開日:2022-12-16
# 誤分類画像の非現実的説明:人間と機械の説明がいかに異なるか

Counterfactual Explanations for Misclassified Images: How Human and Machine Explanations Differ ( http://arxiv.org/abs/2212.08733v1 )

ライセンス: Link先を確認
Eoin Delaney, Arjun Pakrashi, Derek Greene, Mark T. Keane(参考訳) eXplainable AI(XAI)問題に対する一般的な解決策として、心理的妥当性、問題領域間の柔軟性、法的コンプライアンスの提案などにより、ブラックボックスのディープラーニングシステムの予測が解明されている。 100以上の反事実的手法が存在し、人々が好むものと同様の正当な説明を生み出していると主張する一方で、実際にユーザ上でテストされているものはほとんどない($\sim7\%$)。 そのため、画像データに有効なXAIに対するこれらの反現実的アルゴリズムの心理的妥当性は確立されていない。 この問題は、新しい方法論を用いて解決される。 (i)誤分類画像に対して人間生成の反事実的説明を2つのユーザ研究で収集する。 (ii) 同一の誤分類を計算的に生成した説明と比較する。 結果は、人間は反現実的な説明を生成する際に、画像を「最小限に編集」しないことを示している。 代わりに、より大きく「意味のある」編集を行い、カウンターファクトのクラスのプロトタイプをよりよく近似させる。

Counterfactual explanations have emerged as a popular solution for the eXplainable AI (XAI) problem of elucidating the predictions of black-box deep-learning systems due to their psychological validity, flexibility across problem domains and proposed legal compliance. While over 100 counterfactual methods exist, claiming to generate plausible explanations akin to those preferred by people, few have actually been tested on users ($\sim7\%$). So, the psychological validity of these counterfactual algorithms for effective XAI for image data is not established. This issue is addressed here using a novel methodology that (i) gathers ground truth human-generated counterfactual explanations for misclassified images, in two user studies and, then, (ii) compares these human-generated ground-truth explanations to computationally-generated explanations for the same misclassifications. Results indicate that humans do not "minimally edit" images when generating counterfactual explanations. Instead, they make larger, "meaningful" edits that better approximate prototypes in the counterfactual class.
翻訳日:2022-12-20 14:34:27 公開日:2022-12-16
# 安全な自動運転のための配電型ゴール予測とコンフォーマントモデルに基づく計画

Distribution-aware Goal Prediction and Conformant Model-based Planning for Safe Autonomous Driving ( http://arxiv.org/abs/2212.08729v1 )

ライセンス: Link先を確認
Jonathan Francis, Bingqing Chen, Weiran Yao, Eric Nyberg, Jean Oh(参考訳) 多数の専門家によるデモンストレーションを収集することの実現性は、モデルが専門家の運転行動を模倣して学習する、学習駆動環境における研究関心の高まりに影響を与えている。 しかし、模倣にのみ依存することは、訓練データのサポート外にある新しいシナリオに対するエージェントの一般化可能性を制限することができる。 本稿では,モジュールアーキテクチャがモノリシックなエンドツーエンドフレームワークと比較して,環境の変化に対してより汎用的で堅牢である,という直感に基づいて,駆動タスクを分解することでこの問題に対処する。 具体的には,軌道予測コミュニティから着想を得て,学習・運転課題を障害物認識・接地,分布認識目標予測,モデルベース計画として再構成する。 まず,視覚コンテキストの健全な表現を抽出するために,障害物認識モジュールを訓練する。 そこで, 正規化フローを用いた条件密度推定により, マルチモーダル目標分布を学習する。 最後に,道路形状の候補軌道予測を行い,車両の動力学に基づく行動計画を行う。 CARLAシミュレータでは,CARNOVELベンチマークの最先端結果を報告する。

The feasibility of collecting a large amount of expert demonstrations has inspired growing research interests in learning-to-drive settings, where models learn by imitating the driving behaviour from experts. However, exclusively relying on imitation can limit agents' generalisability to novel scenarios that are outside the support of the training data. In this paper, we address this challenge by factorising the driving task, based on the intuition that modular architectures are more generalisable and more robust to changes in the environment compared to monolithic, end-to-end frameworks. Specifically, we draw inspiration from the trajectory forecasting community and reformulate the learning-to-drive task as obstacle-aware perception and grounding, distribution-aware goal prediction, and model-based planning. Firstly, we train the obstacle-aware perception module to extract salient representation of the visual context. Then, we learn a multi-modal goal distribution by performing conditional density-estimation using normalising flow. Finally, we ground candidate trajectory predictions road geometry, and plan the actions based on on vehicle dynamics. Under the CARLA simulator, we report state-of-the-art results on the CARNOVEL benchmark.
翻訳日:2022-12-20 14:31:50 公開日:2022-12-16
# effmulti: 感情分析のための複雑なマルチモーダルインタラクションの効率的なモデリング

EffMulti: Efficiently Modeling Complex Multimodal Interactions for Emotion Analysis ( http://arxiv.org/abs/2212.08661v1 )

ライセンス: Link先を確認
Feng Qiu, Chengyang Xie, Yu Ding, Wanzeng Kong(参考訳) 人間は対話者の感情を、話し言葉、同時発話、表情など多彩な信号から読み取るのに熟練している。 マルチモーダル信号の複雑な相互作用から感情を効果的に解読することは依然として課題である。 本稿では,感情分析プロセスの洗練と,3モーダル統合表現,モダリティ共有表現,3モーダル個別表現など,様々な視点から複雑なマルチモーダル相互作用を捉えるために,3種類のマルチモーダル潜在表現を設計する。 そして、これらの表現を包括的相互作用表現に合理的に組み込むために、モダリティ-セマンティック階層的融合を提案する。 実験の結果,EffMultiは最先端手法よりも優れていた。 実装の容易さ、コンピューティングの複雑さの低減、トレーニング可能なパラメータの削減など、優れたパフォーマンスのメリットがある。

Humans are skilled in reading the interlocutor's emotion from multimodal signals, including spoken words, simultaneous speech, and facial expressions. It is still a challenge to effectively decode emotions from the complex interactions of multimodal signals. In this paper, we design three kinds of multimodal latent representations to refine the emotion analysis process and capture complex multimodal interactions from different views, including a intact three-modal integrating representation, a modality-shared representation, and three modality-individual representations. Then, a modality-semantic hierarchical fusion is proposed to reasonably incorporate these representations into a comprehensive interaction representation. The experimental results demonstrate that our EffMulti outperforms the state-of-the-art methods. The compelling performance benefits from its well-designed framework with ease of implementation, lower computing complexity, and less trainable parameters.
翻訳日:2022-12-20 14:15:29 公開日:2022-12-16
# 「レイリー」問題か? フェー型量化器による言語モデルの逆スケーリング

'Rarely' a problem? Language models exhibit inverse scaling in their predictions following 'few'-type quantifiers ( http://arxiv.org/abs/2212.08700v1 )

ライセンス: Link先を確認
James A. Michaelov, Benjamin K. Bergen(参考訳) 言語モデルは量化に乏しいようだ。 どれだけひどいか尋ねます 「野菜のような子供」のような「数」型の量化器は、量化器のない文成分が共起する可能性が高く、「数」型の量化器は稀であるため、言語モデルでは特に課題となる。 2つの神経言語実験から22種類の異なる大きさの自己回帰トランスフォーマーモデルに960文の刺激を与える。 このモデルでは'few'型量子化器の性能が低下するだけでなく、モデルが大きくなるほど性能が低下する。 この逆のスケーリングは、大規模なモデルがオフラインの人事処理よりもオンラインに反映されることを示唆していると解釈し、より大きなモデルの性能の低下は自然言語システムの基盤として言語モデルの使用に挑戦する可能性があると主張している。

Language Models appear to perform poorly on quantification. We ask how badly. 'Few'-type quantifiers, as in 'few children like vegetables' might pose a particular challenge for Language Models, since the sentence components without the quantifier are likely to co-occur, and because 'few'-type quantifiers are rare. We present 960 sentences stimuli from two human neurolinguistic experiments to 22 autoregressive transformer models of differing sizes. Not only do the models perform poorly on 'few'-type quantifiers, but overall the larger the model, the worse its performance. We interpret this inverse scaling as suggesting that larger models increasingly reflect online rather than offline human processing, and argue that decreasing performance of larger models may challenge uses of Language Models as the basis for Natural Language Systems.
翻訳日:2022-12-20 14:15:13 公開日:2022-12-16
# カロリメータシャワーシミュレーションのための幾何アウェア自己回帰モデル

Geometry-aware Autoregressive Models for Calorimeter Shower Simulations ( http://arxiv.org/abs/2212.08233v1 )

ライセンス: Link先を確認
Junze Liu, Aishik Ghosh, Dylan Smith, Pierre Baldi, Daniel Whiteson(参考訳) カロリメータシャワーシミュレーションは、しばしば粒子物理学検出器のシミュレーション時間においてボトルネックとなる。 現在、特定の検出器のジオメトリーに対する生成アーキテクチャの最適化に多くの労力が費やされています。 本研究では,幾何対応型自己回帰モデルを開発し,そのモデルが細胞の大きさや位置に応じてエネルギー沈着を適応させることを学習する。 これは、追加のトレーニングをほとんど必要とせずに、新しい見えないカロリメータジオメトリに一般化できるモデルを構築するための重要な概念実証である。 このようなモデルは、大型ハドロン衝突型加速器実験でカロリーメーターシミュレーションに使用される数百の生成モデルを置き換えることができる。 将来の検出器の研究のために、そのようなモデルはシミュレーションを生成するのに通常必要となる大規模な事前投資を劇的に削減する。

Calorimeter shower simulations are often the bottleneck in simulation time for particle physics detectors. A lot of effort is currently spent on optimizing generative architectures for specific detector geometries, which generalize poorly. We develop a geometry-aware autoregressive model on a range of calorimeter geometries such that the model learns to adapt its energy deposition depending on the size and position of the cells. This is a key proof-of-concept step towards building a model that can generalize to new unseen calorimeter geometries with little to no additional training. Such a model can replace the hundreds of generative models used for calorimeter simulation in a Large Hadron Collider experiment. For the study of future detectors, such a model will dramatically reduce the large upfront investment usually needed to generate simulations.
翻訳日:2022-12-19 16:37:44 公開日:2022-12-16
# フレキシブル制御による連合学習

Federated Learning with Flexible Control ( http://arxiv.org/abs/2212.08496v1 )

ライセンス: Link先を確認
Shiqiang Wang, Jake Perazzone, Mingyue Ji, Kevin S. Chan(参考訳) フェデレーション学習(fl)は、ユーザが収集したローカルデータからの分散モデルトレーニングを可能にする。 制約のあるリソースと潜在的に高いダイナミクス、例えばモバイルエッジネットワークを持つ分散システムでは、flの効率性が重要な問題である。 既存の作業では、モデル更新の頻度の低い送信、クライアントサブサンプリング、更新ベクトルの圧縮など、FLをより効率的にするための異なる構成を別々に検討している。 しかしながら、重要なオープン問題は、制御ノブを単一のflアルゴリズムで共同して適用し、調整し、制御決定の自由度を高くすることで、最高の性能を達成する方法である。 本稿では,この問題に対処し,フレキシブルに調整可能な複数オプションのflアルゴリズムであるflexflを提案する。 当社のFlexFLアルゴリズムは,クライアントのローカル計算の任意のレートとクライアントとサーバ間の任意の通信量の両方を可能にし,計算と通信リソースの消費の調整を可能にする。 このアルゴリズムの収束上限を証明します。 この結果に基づき, 資源消費に関する制約に準拠しつつ, 収束限界を(ほぼ)最小化する制御決定を決定する確率的最適化定式化とアルゴリズムを提案する。 また,本手法の利点を実験により検証した。

Federated learning (FL) enables distributed model training from local data collected by users. In distributed systems with constrained resources and potentially high dynamics, e.g., mobile edge networks, the efficiency of FL is an important problem. Existing works have separately considered different configurations to make FL more efficient, such as infrequent transmission of model updates, client subsampling, and compression of update vectors. However, an important open problem is how to jointly apply and tune these control knobs in a single FL algorithm, to achieve the best performance by allowing a high degree of freedom in control decisions. In this paper, we address this problem and propose FlexFL - an FL algorithm with multiple options that can be adjusted flexibly. Our FlexFL algorithm allows both arbitrary rates of local computation at clients and arbitrary amounts of communication between clients and the server, making both the computation and communication resource consumption adjustable. We prove a convergence upper bound of this algorithm. Based on this result, we further propose a stochastic optimization formulation and algorithm to determine the control decisions that (approximately) minimize the convergence bound, while conforming to constraints related to resource consumption. The advantage of our approach is also verified using experiments.
翻訳日:2022-12-19 16:37:32 公開日:2022-12-16
# 形式的検証を用いたニューラルネットワークモデルの確率的公正性

Provable Fairness for Neural Network Models using Formal Verification ( http://arxiv.org/abs/2212.08578v1 )

ライセンス: Link先を確認
Giorgian Borca-Tasciuc, Xingzhi Guo, Stanley Bak, Steven Skiena(参考訳) 機械学習モデルは、重要な意思決定タスクのためにますますデプロイされているため、トレーニングデータから拾った性別や人種バイアスを含まないことを検証することが重要である。 トレーニングデータのクリーン化やキュレートにあたり、公正性を達成するための典型的なアプローチは、評価データに対するモデルの公正性に関するポストホックな統計的評価である。 対照的に,近年開発されたニューラルネットワークモデルの特性を検証する形式的手法を用いて,emph{prove}の公平性を評価する手法を提案する。形式的証明による保証の強さに加えて,与えられたトレーニングモデルを分析するために明示的なトレーニングや評価データ(しばしばプロプライエタリなデータ)を必要としないという利点がある。 公正文学(COMPAS)とADULTS(ADULTS)の2つの見慣れたデータセットの実験において、適切なトレーニングによって、AUCスコアの1\%以下のコストで平均65.4\%の不公平性を低減できることが示されている。

Machine learning models are increasingly deployed for critical decision-making tasks, making it important to verify that they do not contain gender or racial biases picked up from training data. Typical approaches to achieve fairness revolve around efforts to clean or curate training data, with post-hoc statistical evaluation of the fairness of the model on evaluation data. In contrast, we propose techniques to \emph{prove} fairness using recently developed formal methods that verify properties of neural network models.Beyond the strength of guarantee implied by a formal proof, our methods have the advantage that we do not need explicit training or evaluation data (which is often proprietary) in order to analyze a given trained model. In experiments on two familiar datasets in the fairness literature (COMPAS and ADULTS), we show that through proper training, we can reduce unfairness by an average of 65.4\% at a cost of less than 1\% in AUC score.
翻訳日:2022-12-19 16:35:03 公開日:2022-12-16
# イベントカメラを用いた高速移動物体計数

Fast-moving object counting with an event camera ( http://arxiv.org/abs/2212.08384v1 )

ライセンス: Link先を確認
Kamil Bialik and Marcin Kowalczyk and Krzysztof Blachut and Tomasz Kryjak(参考訳) 本稿では,イベントカメラを視覚システムの構成要素として使用し,高速移動物体の計数を可能にすることを提案する。 この種のカメラは個々のピクセルの明るさの変化に関する情報を送信し、低レイテンシ、動きのぼやけ、異なる照明条件での正しい操作、そして非常に低い消費電力によって特徴付けられる。 提案したカウントアルゴリズムは、イベントをリアルタイムで処理する。 溶液の操作は, 振動供給器付きシュートからなるスタンド上で実演され, 落下粒数調整が可能となった。 PIDコントローラを用いた制御システムの目的は、落下する物体の定数平均数を維持することである。 提案手法は, 提案手法の正当性を決定するために, 一連の試験を行った。 それらに基づいて,イベントカメラを用いて小型で高速に動く物体を計数し,それに関連する幅広い産業応用を検証できる。

This paper proposes the use of an event camera as a component of a vision system that enables counting of fast-moving objects - in this case, falling corn grains. These type of cameras transmit information about the change in brightness of individual pixels and are characterised by low latency, no motion blur, correct operation in different lighting conditions, as well as very low power consumption. The proposed counting algorithm processes events in real time. The operation of the solution was demonstrated on a stand consisting of a chute with a vibrating feeder, which allowed the number of grains falling to be adjusted. The objective of the control system with a PID controller was to maintain a constant average number of falling objects. The proposed solution was subjected to a series of tests to determine the correctness of the developed method operation. On their basis, the validity of using an event camera to count small, fast-moving objects and the associated wide range of potential industrial applications can be confirmed.
翻訳日:2022-12-19 16:34:41 公開日:2022-12-16
# 自動車ライダーセンサモデルにおける道路噴霧効果のシミュレーション

Simulating Road Spray Effects in Automotive Lidar Sensor Models ( http://arxiv.org/abs/2212.08558v1 )

ライセンス: Link先を確認
Clemens Linnhoff, Dominik Scheuble, Mario Bijelic, Lukas Elster, Philipp Rosenberger, Werner Ritter, Dengxin Dai and Hermann Winner(参考訳) 自動運転機能のシミュレーションに基づくテストでは、知覚センサのモデリングが鍵となる。 天候だけでなく、センサーは濡れた舗装の上を移動する車によって引き起こされるタイヤスプレーのような、物体に依存する環境の影響も受ける。 本研究では,ライダーデータに噴霧する新しいモデリング手法を提案する。 このモデルはOpen Simulation Interface (OSI)標準に準拠しており、噴霧管内の検出クラスターの形成に基づいている。 検出は流体力学シミュレーションや物理エンジンを必要とせずに、単純なカスタムレイキャストアルゴリズムでレンダリングされる。 その後、モデルはオブジェクト検出アルゴリズムのトレーニングデータを生成するために使用される。 このモデルにより,実世界の噴霧シナリオの検出が大幅に改善できることが示されている。 さらに、アクティブセンサにおける噴霧効果の分析、モデルキャリブレーション、検証のために、体系的な実世界データセットを記録、公開する。 実験は, 自動車の速度, 車両種別, 舗装湿潤度の異なる人工的な舗装を走行し, 試験軌道上で実施した。 この作業のすべてのモデルとデータはオープンソースである。

Modeling perception sensors is key for simulation based testing of automated driving functions. Beyond weather conditions themselves, sensors are also subjected to object dependent environmental influences like tire spray caused by vehicles moving on wet pavement. In this work, a novel modeling approach for spray in lidar data is introduced. The model conforms to the Open Simulation Interface (OSI) standard and is based on the formation of detection clusters within a spray plume. The detections are rendered with a simple custom ray casting algorithm without the need of a fluid dynamics simulation or physics engine. The model is subsequently used to generate training data for object detection algorithms. It is shown that the model helps to improve detection in real-world spray scenarios significantly. Furthermore, a systematic real-world data set is recorded and published for analysis, model calibration and validation of spray effects in active perception sensors. Experiments are conducted on a test track by driving over artificially watered pavement with varying vehicle speeds, vehicle types and levels of pavement wetness. All models and data of this work are available open source.
翻訳日:2022-12-19 16:34:27 公開日:2022-12-16
# ラドン対策としての永続図の学習

Learning on Persistence Diagrams as Radon Measures ( http://arxiv.org/abs/2212.08295v1 )

ライセンス: Link先を確認
Alex Elchesen, Iryna Hartsock, Jose A. Perea, Tatum Rask(参考訳) パーシステンス図は、様々な分類や回帰タスクに現れるデータのトポロジ的構造に関する一般的な記述である。 これらは生死平面上で支持されるラドン測度に一般化することができ、最適な輸送距離を与えることができる。 そのような測度の例としては、持続性図の空間上の確率分布の期待がある。 本稿では,生死平面上で支持されるラドン測度の空間上の連続関数を近似する手法と教師付き学習タスクの活用について述べる。 実際、そのような測度の空間のコンパクト部分集合(例えば分類器や回帰器)上で定義される任意の連続函数は、出生-死平面(テンプレート)上の連続コンパクト支持関数を用いて計算された特徴の多項式結合によって任意に近似できる。 我々はRadon測度空間の比較的コンパクトな部分集合の構造に関する洞察を提供し、様々なデータセットと教師付き学習タスクに対する近似手法をテストする。

Persistence diagrams are common descriptors of the topological structure of data appearing in various classification and regression tasks. They can be generalized to Radon measures supported on the birth-death plane and endowed with an optimal transport distance. Examples of such measures are expectations of probability distributions on the space of persistence diagrams. In this paper, we develop methods for approximating continuous functions on the space of Radon measures supported on the birth-death plane, as well as their utilization in supervised learning tasks. Indeed, we show that any continuous function defined on a compact subset of the space of such measures (e.g., a classifier or regressor) can be approximated arbitrarily well by polynomial combinations of features computed using a continuous compactly supported function on the birth-death plane (a template). We provide insights into the structure of relatively compact subsets of the space of Radon measures, and test our approximation methodology on various data sets and supervised learning tasks.
翻訳日:2022-12-19 16:33:17 公開日:2022-12-16
# 気候条件に基づくデング熱発生予測のためのアンサンブルニューラルネットワークアプローチ

An ensemble neural network approach to forecast Dengue outbreak based on climatic condition ( http://arxiv.org/abs/2212.08323v1 )

ライセンス: Link先を確認
Madhurima Panja, Tanujit Chakraborty, Sk Shahid Nadim, Indrajit Ghosh, Uttam Kumar, Nan Liu(参考訳) デング熱(dengue fever)は、アフリカ、アメリカ大陸、アジアの100以上の熱帯・亜熱帯諸国に広がる病である。 このアルボウイルス病は全世界で約4億人に影響を及ぼし、医療システムに深刻な打撃を与えている。 特定の薬物やワクチンが使用できないため、状況は悪化する。 したがって、政策立案者は介入に関する決定を制御するために早期警戒システムに頼る必要がある。 予報は日常的に危険な流行イベントの重要な情報を提供する。 しかしながら、利用可能な予測モデル(例えば、気象駆動機械論、統計時系列、機械学習モデル)は、予測精度を向上させるために異なるコンポーネントを明確に理解できず、しばしば不安定で信頼性の低い予測を提供する。 本研究では,サンフアン,イキトス,アフマダバードの3つの地理的領域において,デング発生予測のための信頼性の高い推定値を生成することができる外因性因子(XEWNet)モデルを用いたアンサンブルウェーブレットニューラルネットワークを提案する。 提案したXEWNetモデルは柔軟で,そのスケーラブルなフレームワークで統計的因果性テストによって確認された外因性気候変数を容易に組み込むことができる。 提案モデルは、ウェーブレット変換をアンサンブルニューラルネットワークフレームワークに利用し、より信頼性の高い長期予測を生成するための統合アプローチである。 提案したXEWNetはデングの事例と降雨の間の複雑な非線形関係を可能にするが、数学的には解釈可能で、実行が速く、理解しやすい。 提案の競合性は,様々な統計指標といくつかの統計比較試験に基づく計算実験を用いて測定される。 統計的,機械学習,深層学習と比較して,提案したXEWNetは,デング発生の短期的,長期的予測の75%において良好な性能を示した。

Dengue fever is a virulent disease spreading over 100 tropical and subtropical countries in Africa, the Americas, and Asia. This arboviral disease affects around 400 million people globally, severely distressing the healthcare systems. The unavailability of a specific drug and ready-to-use vaccine makes the situation worse. Hence, policymakers must rely on early warning systems to control intervention-related decisions. Forecasts routinely provide critical information for dangerous epidemic events. However, the available forecasting models (e.g., weather-driven mechanistic, statistical time series, and machine learning models) lack a clear understanding of different components to improve prediction accuracy and often provide unstable and unreliable forecasts. This study proposes an ensemble wavelet neural network with exogenous factor(s) (XEWNet) model that can produce reliable estimates for dengue outbreak prediction for three geographical regions, namely San Juan, Iquitos, and Ahmedabad. The proposed XEWNet model is flexible and can easily incorporate exogenous climate variable(s) confirmed by statistical causality tests in its scalable framework. The proposed model is an integrated approach that uses wavelet transformation into an ensemble neural network framework that helps in generating more reliable long-term forecasts. The proposed XEWNet allows complex non-linear relationships between the dengue incidence cases and rainfall; however, mathematically interpretable, fast in execution, and easily comprehensible. The proposal's competitiveness is measured using computational experiments based on various statistical metrics and several statistical comparison tests. In comparison with statistical, machine learning, and deep learning methods, our proposed XEWNet performs better in 75% of the cases for short-term and long-term forecasting of dengue incidence.
翻訳日:2022-12-19 16:32:52 公開日:2022-12-16
# hp-greedy改良を用いた重力波代理の自動パラメータ領域分解法

An automated parameter domain decomposition approach for gravitational wave surrogates using hp-greedy refinement ( http://arxiv.org/abs/2212.08554v1 )

ライセンス: Link先を確認
Franco Cerino, J. Andr\'es Diaz-Pace, Manuel Tiglio(参考訳) hp-greedyは、重力波サーロゲートを構築するための改良手法であり、標準還元基底フレームワークの拡張として紹介する。 提案手法はデータ駆動型であり,パラメータ空間のドメイン分解,局所的還元基底,および2分木を自動的に得られる構造として提案する。 本提案の数値シミュレーションでは, 標準大域的縮小基底法と比較して, 3つの有意な特徴を示す。 一 精度の損失のない低次元の表現 二 基礎の最大寸法が一定である場合において、等級の順序による場合において、著しく高い精度 三 精錬アルゴリズムが使用する減量基種選択に依存した結果。 まず、おもちゃのモデルで我々のアプローチの重要部分を説明し、2つの回転しないブラックホールの衝突によって放出される重力波のより現実的なユースケースを示す。 本稿では,木構造の深さに対する過剰フィッティングや,その他のハイパーパラメータ依存性など,hp-greedyの性能面について考察する。 提案されたhp-greedy改良の2つの直接的な応用として、 一 集中した縮小次数に相補するかもしれない統計的推測のさらなる加速 二 クラスタリング及び最寄りの近傍における重力波の探索

We introduce hp-greedy, a refinement approach for building gravitational wave surrogates as an extension of the standard reduced basis framework. Our proposal is data-driven, with a domain decomposition of the parameter space, local reduced basis, and a binary tree as the resulting structure, which are obtained in an automated way. When compared to the standard global reduced basis approach, the numerical simulations of our proposal show three salient features: i) representations of lower dimension with no loss of accuracy, ii) a significantly higher accuracy for a fixed maximum dimensionality of the basis, in some cases by orders of magnitude, and iii) results that depend on the reduced basis seed choice used by the refinement algorithm. We first illustrate the key parts of our approach with a toy model and then present a more realistic use case of gravitational waves emitted by the collision of two spinning, non-precessing black holes. We discuss performance aspects of hp-greedy, such as overfitting with respect to the depth of the tree structure, and other hyperparameter dependences. As two direct applications of the proposed hp-greedy refinement, we envision: i) a further acceleration of statistical inference, which might be complementary to focused reduced-order quadratures, and ii) the search of gravitational waves through clustering and nearest neighbors.
翻訳日:2022-12-19 16:32:08 公開日:2022-12-16
# 不確実性誘導型人間エキスパートサンプリングによるオフラインロボット強化学習

Offline Robot Reinforcement Learning with Uncertainty-Guided Human Expert Sampling ( http://arxiv.org/abs/2212.08232v1 )

ライセンス: Link先を確認
Ashish Kumar, Ilya Kuzovkin(参考訳) バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する有望な結果を示し、オフライン強化学習は、モデルフリーな環境で制御ポリシーを学ぶ上で不可欠なツールキットであることを証明した。 準最適非学習アルゴリズムによって収集されたデータセットに適用されるオフライン強化学習アルゴリズムは、データ収集に使用される行動エージェントよりも優れたポリシーをもたらすことができる。 このようなシナリオは、既存の自動化が運用データを収集するロボット工学において頻繁に発生する。 オフライン学習技術は、サブ最適行動エージェントが生成したデータから学習することができるが、既存のオフライン強化学習アルゴリズムのサンプル複雑さを、戦略的に人間のデモンストレーションデータをトレーニングプロセスに導入することで改善する機会がある。 そこで本研究では,不確実性推定を用いてヒトのデモンストレーションデータの注入を誘発し,全体的なサンプル複雑性を低減しつつ,最適な行動に向けて政策訓練を指導する手法を提案する。 実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。 我々は、既存のオフライン強化学習アルゴリズムである保守的Q-Learningを拡張し、MuJoCoおよびOFWGym学習環境から収集したデータについて実験を行った。

Recent advances in batch (offline) reinforcement learning have shown promising results in learning from available offline data and proved offline reinforcement learning to be an essential toolkit in learning control policies in a model-free setting. An offline reinforcement learning algorithm applied to a dataset collected by a suboptimal non-learning-based algorithm can result in a policy that outperforms the behavior agent used to collect the data. Such a scenario is frequent in robotics, where existing automation is collecting operational data. Although offline learning techniques can learn from data generated by a sub-optimal behavior agent, there is still an opportunity to improve the sample complexity of existing offline reinforcement learning algorithms by strategically introducing human demonstration data into the training process. To this end, we propose a novel approach that uses uncertainty estimation to trigger the injection of human demonstration data and guide policy training towards optimal behavior while reducing overall sample complexity. Our experiments show that this approach is more sample efficient when compared to a naive way of combining expert data with data collected from a sub-optimal agent. We augmented an existing offline reinforcement learning algorithm Conservative Q-Learning with our approach and performed experiments on data collected from MuJoCo and OffWorld Gym learning environments.
翻訳日:2022-12-19 16:25:09 公開日:2022-12-16
# 簡易分散型クロスエントロピー法

A Simple Decentralized Cross-Entropy Method ( http://arxiv.org/abs/2212.08235v1 )

ライセンス: Link先を確認
Zichen Zhang, Jun Jin, Martin Jagersand, Jun Luo, Dale Schuurmans(参考訳) CEM(Cross-Entropy Method)は、モデルベース強化学習(MBRL)において、通常、サンプルの上位$kの演算結果のみに基づいてサンプリング分布を更新するために集中的なアプローチが使用される。 本稿では,このような集中型アプローチにより,CEMが局所最適に脆弱になり,サンプル効率が損なわれることを示す。 この問題に対処するために,従来のCEMよりもシンプルで効果的な改良である分散CEM(DecentCEM)を提案し,それぞれが個別に実行されているCEMインスタンスのアンサンブルを用いて,それぞれのサンプリング分布を局所的に改善する。 この単純な分散的アプローチの有効性を実証するために、理論的および経験的分析の両方を提供する。 実験により,ガウス分布の単一あるいは混合を用いた古典的中央集権的アプローチと比較すると,大域的最適性はより一貫して得られ,サンプル効率が向上することを示した。 さらに,MBRLの計画問題にDecentCEMをプラグインし,現状のCEMベースのMBRLアプローチ(PETSとPOPLIN)と比較して,いくつかの連続制御環境における我々のアプローチを評価する。 その結果,従来のCEMモジュールをDecentCEMモジュールに置き換えることによるサンプル効率の向上が得られた。 最後に,より詳細な解析のためにアブレーション研究を行う。 コードはhttps://github.com/vincentzhang/decentCEMで入手できる。

Cross-Entropy Method (CEM) is commonly used for planning in model-based reinforcement learning (MBRL) where a centralized approach is typically utilized to update the sampling distribution based on only the top-$k$ operation's results on samples. In this paper, we show that such a centralized approach makes CEM vulnerable to local optima, thus impairing its sample efficiency. To tackle this issue, we propose Decentralized CEM (DecentCEM), a simple but effective improvement over classical CEM, by using an ensemble of CEM instances running independently from one another, and each performing a local improvement of its own sampling distribution. We provide both theoretical and empirical analysis to demonstrate the effectiveness of this simple decentralized approach. We empirically show that, compared to the classical centralized approach using either a single or even a mixture of Gaussian distributions, our DecentCEM finds the global optimum much more consistently thus improves the sample efficiency. Furthermore, we plug in our DecentCEM in the planning problem of MBRL, and evaluate our approach in several continuous control environments, with comparison to the state-of-art CEM based MBRL approaches (PETS and POPLIN). Results show sample efficiency improvement by simply replacing the classical CEM module with our DecentCEM module, while only sacrificing a reasonable amount of computational cost. Lastly, we conduct ablation studies for more in-depth analysis. Code is available at https://github.com/vincentzhang/decentCEM
翻訳日:2022-12-19 16:24:47 公開日:2022-12-16
# 均一シーケンスの改善:シーケンス推薦のための時間間隔アウェアデータ拡張

Uniform Sequence Better: Time Interval Aware Data Augmentation for Sequential Recommendation ( http://arxiv.org/abs/2212.08262v1 )

ライセンス: Link先を確認
Yizhou Dang, Enneng Yang, Guibing Guo, Linying Jiang, Xingwei Wang, Xiaoxiao Xu, Qinghui Sun, Hong Liu(参考訳) シーケンスレコメンデーションは、対話された項目のシーケンスに基づいて、アクセスする次の項目を予測する重要なタスクである。 ほとんどの既存の作品は、前の項目から次の項目への遷移パターンとしてユーザーの好みを学習し、これら2つの項目の間の時間間隔を無視している。 しかし, シーケンス内の時間間隔は, 異なる場合があるため, ユーザ・モデリングの非効率性は \emph{preference drift} の問題により生じる。 実際、この観察を検証するために実証実験を行い、均一に分布する時間間隔(一様列と呼ばれる)のシーケンスは、時間間隔を大きく変化させるよりも性能向上に有益であることを示した。 そこで本研究では,文献では研究されていない時間間隔の観点から,シーケンスデータの拡張を提案する。 具体的には,Ti-Crop,Ti-Reorder,Ti-Mask,Ti-Substitute,Ti-Insertの5つの演算子を設計し,時間間隔の分散を考慮した一様列に変換する。 そこで我々は,異なる長さの項目列でデータ拡張を実行する制御戦略を考案した。 最後に、最先端モデルであるCoSeRec上でこれらの改善を実装し、実際の4つのデータセットに対するアプローチを検証する。 実験結果から,本手法は他の11種類の競合手法よりもはるかに優れた性能を示した。 実装はhttps://github.com/kinggugu/ticoserec。

Sequential recommendation is an important task to predict the next-item to access based on a sequence of interacted items. Most existing works learn user preference as the transition pattern from the previous item to the next one, ignoring the time interval between these two items. However, we observe that the time interval in a sequence may vary significantly different, and thus result in the ineffectiveness of user modeling due to the issue of \emph{preference drift}. In fact, we conducted an empirical study to validate this observation, and found that a sequence with uniformly distributed time interval (denoted as uniform sequence) is more beneficial for performance improvement than that with greatly varying time interval. Therefore, we propose to augment sequence data from the perspective of time interval, which is not studied in the literature. Specifically, we design five operators (Ti-Crop, Ti-Reorder, Ti-Mask, Ti-Substitute, Ti-Insert) to transform the original non-uniform sequence to uniform sequence with the consideration of variance of time intervals. Then, we devise a control strategy to execute data augmentation on item sequences in different lengths. Finally, we implement these improvements on a state-of-the-art model CoSeRec and validate our approach on four real datasets. The experimental results show that our approach reaches significantly better performance than the other 11 competing methods. Our implementation is available: https://github.com/KingGugu/TiCoSeRec.
翻訳日:2022-12-19 16:24:19 公開日:2022-12-16
# ハブスポーク施設立地問題に対するメタヒューリスティック--インドのEコマース産業への応用

Metaheuristic for Hub-Spoke Facility Location Problem: Application to Indian E-commerce Industry ( http://arxiv.org/abs/2212.08299v1 )

ライセンス: Link先を確認
Aakash Sachdeva, Bhupinder Singh, Rahul Prasad, Nakshatra Goel, Ronit Mondal, Jatin Munjal, Abhishek Bhatnagar, Manjeet Dahiya(参考訳) インドのeコマース産業はこの10年間で進化し、今後数年で成長すると予想されている。 現在では、多くのサードパーティのロジスティクスプロバイダが出現し、顧客からの期待が高まっているため、TAT(ターンアラウンドタイム)に焦点が移っている。 デリバリプロバイダにとって重要な考慮事項は、顧客に対して約束されたTATを満たしながら、全体の運用コストのバランスをとることだ。 eコマース配信パートナーは、戦略的な場所が効率的に運用するのに役立つ施設のネットワークを通して運営する。 そこで本研究では,全国のハブの位置と流通センターとのマッピングについて検討する。 目的は、TATの遵守によるネットワークコストの最小化である。 我々は、遺伝的アルゴリズムを用いて、解探索空間を減らし、従って解時間を削減する。 その結果、現在のシナリオと比較して、TATコンプライアンスは9.73%改善した。

Indian e-commerce industry has evolved over the last decade and is expected to grow over the next few years. The focus has now shifted to turnaround time (TAT) due to the emergence of many third-party logistics providers and higher customer expectations. The key consideration for delivery providers is to balance their overall operating costs while meeting the promised TAT to their customers. E-commerce delivery partners operate through a network of facilities whose strategic locations help to run the operations efficiently. In this work, we identify the locations of hubs throughout the country and their corresponding mapping with the distribution centers. The objective is to minimize the total network costs with TAT adherence. We use Genetic Algorithm and leverage business constraints to reduce the solution search space and hence the solution time. The results indicate an improvement of 9.73% in TAT compliance compared with the current scenario.
翻訳日:2022-12-19 16:23:53 公開日:2022-12-16
# メタバースにおけるフェデレーション学習によるモバイル拡張現実

Mobile Augmented Reality with Federated Learning in the Metaverse ( http://arxiv.org/abs/2212.08324v1 )

ライセンス: Link先を確認
Xinyu Zhou, Jun Zhao(参考訳) メタバースはインターネットの次の進化と見なされ、最近多くの注目を集めている。 モバイル拡張現実(MAR)によるメタバースアプリケーションは、デジタルデータを現実世界と混在させるために、迅速かつ正確なオブジェクト検出を必要とする。 モバイルデバイスが進化するにつれて、それらはコンピューティングにおいてより強力になる。 したがって、彼らの計算資源は機械学習モデルをトレーニングするために利用することができる。 ユーザのプライバシとデータセキュリティの懸念が高まる中、フェデレーション学習(fl)は、プライバシ保存分析のための有望な分散学習フレームワークとなっている。 本稿では、FLとMARをMetaverseにまとめます。 FLとMARの組み合わせの必要性と合理性について論じる。 メタバースでFLとMARを駆動する将来技術も確認されている。 さらに、メタバースにおけるFLとMARの充足を防ぐ既存の課題と、いくつかのアプリケーションシナリオについて述べる。 最後にメタバースFL-MARシステムの2つのケーススタディを示す。

The Metaverse is deemed the next evolution of the Internet and has received much attention recently. Metaverse applications via mobile augmented reality (MAR) require rapid and accurate object detection to mix digital data with the real world. As mobile devices evolve, they become more potent in computing. Hence, their computational resources can be leveraged to train machine learning models. In light of the increasing concerns of user privacy and data security, federated learning (FL) has become a promising distributed learning framework for privacy-preserving analytics. In this article, FL and MAR are brought together in the Metaverse. We discuss the necessity and rationality of the combination of FL and MAR. The prospective technologies that power FL and MAR in the Metaverse are also identified. In addition, existing challenges that prevent the fulfilment of FL and MAR in the Metaverse and several application scenarios are presented. Finally, two case studies of Metaverse FL-MAR systems are demonstrated.
翻訳日:2022-12-19 16:23:38 公開日:2022-12-16
# geneformer:transformerベースのコンテキストモデリングを用いた学習型遺伝子圧縮

GeneFormer: Learned Gene Compression using Transformer-based Context Modeling ( http://arxiv.org/abs/2212.08379v1 )

ライセンス: Link先を確認
Zhanbei Cui, Yu Liao, Tongda Xu, Yan Wang(参考訳) 遺伝子シークエンシング技術の発展に伴い、遺伝子データの爆発的な成長が見られた。 そして、遺伝子データの保存は重要な問題となっている。 従来の遺伝子データ圧縮法はG-zipのような一般的なソフトウェアに依存しており、ヌクレオチド配列の相互関係を利用できない。 近年,深層学習に基づく遺伝子データ圧縮法が研究されている。 本稿では,GeneFormerというトランスフォーマーを用いた遺伝子圧縮手法を提案する。 具体的には、まず、ヌクレオチド配列依存を完全に探求するために、修正トランスフォーマー構造を導入する。 そこで我々は,自己回帰モデルの復号速度を高速化する固定長並列グルーピングを提案する。 実世界のデータセットを用いた実験の結果,本手法は最先端法に比べて29.7%のビットレートを節約でき,既存の学習系遺伝子圧縮法に比べて復号速度は著しく速いことがわかった。

With the development of gene sequencing technology, an explosive growth of gene data has been witnessed. And the storage of gene data has become an important issue. Traditional gene data compression methods rely on general software like G-zip, which fails to utilize the interrelation of nucleotide sequence. Recently, many researchers begin to investigate deep learning based gene data compression method. In this paper, we propose a transformer-based gene compression method named GeneFormer. Specifically, we first introduce a modified transformer structure to fully explore the nucleotide sequence dependency. Then, we propose fixed-length parallel grouping to accelerate the decoding speed of our autoregressive model. Experimental results on real-world datasets show that our method saves 29.7% bit rate compared with the state-of-the-art method, and the decoding speed is significantly faster than all existing learning-based gene compression methods.
翻訳日:2022-12-19 16:23:24 公開日:2022-12-16
# キーストローク提示攻撃のための条件付き生成支援ネットワーク

Conditional Generative Adversarial Network for keystroke presentation attack ( http://arxiv.org/abs/2212.08445v1 )

ライセンス: Link先を確認
Idoia Eizaguirre-Peral, Lander Segurola-Gil, Francesco Zola(参考訳) サイバーセキュリティは、ユーザーのセキュリティと個人情報のプライバシーを確保するためのデータ保護の重要なステップである。 この意味で、多くの企業が認証システムを使ってデータへのアクセスを制御し制限し始めている。 しかし、これらの従来の認証手法はデータ保護を確保するには不十分であり、そのために行動バイオメトリックスの重要性が高まっている。 有望な結果と幅広い応用にもかかわらず、生体認証システムはプレゼンテーション攻撃のような悪意のある攻撃に対して脆弱であることが示されている。 そこで本研究では,キーストローク認証システムへのプレゼンテーションアタックの展開を目的とした新しいアプローチを提案する。 我々の考えは、認証されたユーザを偽装するために使用できる合成キーストロークデータを生成するために、条件付き生成適応ネットワーク(cGAN)を使用することである。 これらの合成データは、入力された単語の順序が知られている(順序動的)ものと、この順序がわからない(順序動的でない)という2つの異なる実例に基づいて生成される。 最後に、外部キーストローク認証システムを用いて、両方のキーストロークダイナミクス(順序付きおよび非順序付き)を検証する。 その結果、cganはキーストローク認証システムを欺くために使用できるキーストロークダイナミクスパターンを効果的に生成できることが示されている。

Cybersecurity is a crucial step in data protection to ensure user security and personal data privacy. In this sense, many companies have started to control and restrict access to their data using authentication systems. However, these traditional authentication methods, are not enough for ensuring data protection, and for this reason, behavioral biometrics have gained importance. Despite their promising results and the wide range of applications, biometric systems have shown to be vulnerable to malicious attacks, such as Presentation Attacks. For this reason, in this work, we propose to study a new approach aiming to deploy a presentation attack towards a keystroke authentication system. Our idea is to use Conditional Generative Adversarial Networks (cGAN) for generating synthetic keystroke data that can be used for impersonating an authorized user. These synthetic data are generated following two different real use cases, one in which the order of the typed words is known (ordered dynamic) and the other in which this order is unknown (no-ordered dynamic). Finally, both keystroke dynamics (ordered and no-ordered) are validated using an external keystroke authentication system. Results indicate that the cGAN can effectively generate keystroke dynamics patterns that can be used for deceiving keystroke authentication systems.
翻訳日:2022-12-19 16:23:10 公開日:2022-12-16
# 自信があるからといってモデルを信じない - オンライン学習における未知の未知を学生成功予測者に解き明かす

Do Not Trust a Model Because It is Confident: Uncovering and Characterizing Unknown Unknowns to Student Success Predictors in Online-Based Learning ( http://arxiv.org/abs/2212.08532v1 )

ライセンス: Link先を確認
Roberta Galici, Tanja K\"aser, Gianni Fenu, Mirko Marras(参考訳) 学生の成功モデルは弱点、すなわちモデル作成中に表現不足のために正確に分類することが難しい例を開発する傾向にある。 この弱点はユーザの信頼を損なう主要な要因の1つであり、例えばモデル予測は、インストラクターが必要に応じて生徒に介入しないように導く可能性がある。 本稿では,学生の成功予測における未知の未知点の検出と特徴付けの必要性を明らかにし,モデルがいつ失敗するかをよりよく理解する。 未知には、モデルが予測に自信を持っているが実際には間違っている学生が含まれる。 したがって、予測品質を評価する際に、モデルの信頼度のみに頼ることはできない。 まず、未知の未知の識別と特徴付けのためのフレームワークを紹介する。 次に,フリップコースとオンラインコースから収集したログデータについて,定量的分析とインストラクタへのインタビューを用いてその情報度を評価する。 この領域では未知の未知が重要な問題であり,その検出を支援するために我々のフレームワークが適用可能であることを示す。 ソースコードはhttps://github.com/epfl-ml4ed/unknown-unknownsで入手できる。

Student success models might be prone to develop weak spots, i.e., examples hard to accurately classify due to insufficient representation during model creation. This weakness is one of the main factors undermining users' trust, since model predictions could for instance lead an instructor to not intervene on a student in need. In this paper, we unveil the need of detecting and characterizing unknown unknowns in student success prediction in order to better understand when models may fail. Unknown unknowns include the students for which the model is highly confident in its predictions, but is actually wrong. Therefore, we cannot solely rely on the model's confidence when evaluating the predictions quality. We first introduce a framework for the identification and characterization of unknown unknowns. We then assess its informativeness on log data collected from flipped courses and online courses using quantitative analyses and interviews with instructors. Our results show that unknown unknowns are a critical issue in this domain and that our framework can be applied to support their detection. The source code is available at https://github.com/epfl-ml4ed/unknown-unknowns.
翻訳日:2022-12-19 16:22:51 公開日:2022-12-16
# PointAvatar:ビデオから変形可能なポイントベースのヘッドアバター

PointAvatar: Deformable Point-based Head Avatars from Videos ( http://arxiv.org/abs/2212.08377v1 )

ライセンス: Link先を確認
Yufeng Zheng, Wang Yifan, Gordon Wetzstein, Michael J. Black, Otmar Hilliges(参考訳) カジュアルなビデオシークエンスから、リアルでアニメーション可能で楽しい頭部アバターを作る能力は、コミュニケーションとエンターテイメントの幅広い応用を開拓する。 現在の手法は、明示的な3Dフォーマット可能なメッシュ(3DMM)上に構築されるか、神経暗黙の表現を利用する。 前者は固定トポロジーによって制限され、後者は変形が非自明でレンダリングが非効率である。 さらに,既存手法では色推定において照明を絡み合うため,新たな環境下でアバターの再レンダリングが制限される。 対照的に、変形可能な点ベース表現であるPointAvatarは、原色を固有アルベドと正規依存シェーディングに分解する。 我々は、pointavatarが既存のメッシュ表現と暗黙表現のギャップを橋渡しし、高品質な幾何学と外観とトポロジカルな柔軟性、変形の容易さ、レンダリング効率を組み合わせることを実証する。 本手法は,ハンドヘルド・スマートフォン,ラップトップ・ウェブカメラ,インターネット・ビデオなど複数のソースから得られる単眼映像を用いてアニメーション可能な3dアバターを生成でき,従来の手法が失敗した場合,例えば薄いヘアストランドなどにおいて最先端のクオリティを達成し,かつ,競合する手法よりもトレーニングにおいてはるかに効率的であることを示す。

The ability to create realistic, animatable and relightable head avatars from casual video sequences would open up wide ranging applications in communication and entertainment. Current methods either build on explicit 3D morphable meshes (3DMM) or exploit neural implicit representations. The former are limited by fixed topology, while the latter are non-trivial to deform and inefficient to render. Furthermore, existing approaches entangle lighting in the color estimation, thus they are limited in re-rendering the avatar in new environments. In contrast, we propose PointAvatar, a deformable point-based representation that disentangles the source color into intrinsic albedo and normal-dependent shading. We demonstrate that PointAvatar bridges the gap between existing mesh- and implicit representations, combining high-quality geometry and appearance with topological flexibility, ease of deformation and rendering efficiency. We show that our method is able to generate animatable 3D avatars using monocular videos from multiple sources including hand-held smartphones, laptop webcams and internet videos, achieving state-of-the-art quality in challenging cases where previous methods fail, e.g., thin hair strands, while being significantly more efficient in training than competing methods.
翻訳日:2022-12-19 16:17:27 公開日:2022-12-16
# イベントカメラ画像再構成を用いた交通信号の検出と認識

Traffic sign detection and recognition using event camera image reconstruction ( http://arxiv.org/abs/2212.08387v1 )

ライセンス: Link先を確認
Kamil Jeziorek and Tomasz Kryjak(参考訳) 本稿では,イベントカメラから抽出した情報をもとに,交通標識の検出と認識を行う手法を提案する。 このソリューションでは、FireNetのディープ畳み込みニューラルネットワークを使用して、イベントをグレースケールのフレームに再構築する。 2つのYOLOv4ネットワークモデルがトレーニングされ、1つはグレースケールの画像に基づいており、もう1つはカラー画像に基づいている。 最も優れた結果は、グレースケールの画像に基づいて訓練されたモデルで達成され、効率は87.03%に達した。

This paper presents a method for detection and recognition of traffic signs based on information extracted from an event camera. The solution used a FireNet deep convolutional neural network to reconstruct events into greyscale frames. Two YOLOv4 network models were trained, one based on greyscale images and the other on colour images. The best result was achieved for the model trained on the basis of greyscale images, achieving an efficiency of 87.03%.
翻訳日:2022-12-19 16:17:01 公開日:2022-12-16
# 注意マスククリップ

Attentive Mask CLIP ( http://arxiv.org/abs/2212.08653v1 )

ライセンス: Link先を確認
Yifan Yang, Weiquan Huang, Yixuan Wei, Houwen Peng, Xinyang Jiang, Huiqiang Jiang, Fangyun Wei, Yin Wang, Han Hu, Lili Qiu, Yuqing Yang(参考訳) 画像トークン除去は、画像特徴の計算コストを削減するための効率的な拡張戦略である。 しかし、この効率的な増強戦略は、CLIPベースのトレーニングの精度に悪影響を及ぼすことが判明した。 画像トークンの大部分を削除することは、与えられたテキスト記述に関連する意味内容を不適切に破棄し、CLIPトレーニングにおいて誤ったペアリングターゲットを構成することを仮定する。 そこで本研究では,テキスト記述に高い意味的相関を持つトークンを保持するクリップ学習のための注意トークン除去手法を提案する。 相関スコアは、ビジュアルエンコーダのEMAバージョンを用いてオンライン形式で計算される。 提案手法は,CLIPトレーニングにおける従来のランダムトークン除去法よりも優れた性能を示した。 このアプローチはまた、複数の拡張ビューをイメージに適用すると同時に、これらのビュー間での対照的な学習タスクをCLIPフレームワークに導入する。 SLIPやMaskCLIPなど,さまざまな事前学習ターゲットを組み合わせた他のCLIP改善と比較して,本手法はより効率的であるだけでなく,はるかに効率的である。 具体的には、ViT-BとYFCC-15Mデータセットを使用して、ImageNet-1Kゼロショット分類で43.9\%の精度で、Flickr30KとMS COCOでは、$+1.1\%、$+5.5/+0.9$、$+4.4/+1.3$の精度で、イメージNet-1Kゼロショット分類では62.7/42.1ドル、$38.0/23.2ドルの精度で取得しています。 通常のCLIPモデルよりも1.16\times$を高速に実行するアプローチの効率的なバージョンは、$+5.3\%$、$+11.3/+8.0$、$+9.5/+4.9$の大幅なゲインを達成する。

Image token removal is an efficient augmentation strategy for reducing the cost of computing image features. However, this efficient augmentation strategy has been found to adversely affect the accuracy of CLIP-based training. We hypothesize that removing a large portion of image tokens may improperly discard the semantic content associated with a given text description, thus constituting an incorrect pairing target in CLIP training. To address this issue, we propose an attentive token removal approach for CLIP training, which retains tokens with a high semantic correlation to the text description. The correlation scores are computed in an online fashion using the EMA version of the visual encoder. Our experiments show that the proposed attentive masking approach performs better than the previous method of random token removal for CLIP training. The approach also makes it efficient to apply multiple augmentation views to the image, as well as introducing instance contrastive learning tasks between these views into the CLIP framework. Compared to other CLIP improvements that combine different pre-training targets such as SLIP and MaskCLIP, our method is not only more effective, but also much more efficient. Specifically, using ViT-B and YFCC-15M dataset, our approach achieves $43.9\%$ top-1 accuracy on ImageNet-1K zero-shot classification, as well as $62.7/42.1$ and $38.0/23.2$ I2T/T2I retrieval accuracy on Flickr30K and MS COCO, which are $+1.1\%$, $+5.5/+0.9$, and $+4.4/+1.3$ higher than the SLIP method, while being $2.30\times$ faster. An efficient version of our approach running $1.16\times$ faster than the plain CLIP model achieves significant gains of $+5.3\%$, $+11.3/+8.0$, and $+9.5/+4.9$ on these benchmarks.
翻訳日:2022-12-19 16:16:34 公開日:2022-12-16
# 倫理的意思決定と経路計画のための自律走行衝突損傷の予測

Predicting Autonomous Vehicle Collision Injury Severity Levels for Ethical Decision Making and Path Planning ( http://arxiv.org/abs/2212.08539v1 )

ライセンス: Link先を確認
James E. Pickering, Keith J. Burnham(参考訳) 自動運転車(AV)の開発は急速に進展しており、今後20年間で私たちの社会の中心となるでしょう。 しかしながら、特にデプロイメントの初期段階では、AVに関わるインシデントが発生することが期待される。 AVインシデントが発生した場合、例えば歩行者グループへの衝突か堅固な障壁かを判断するなど、倫理的な決定を必要とする決定を行う必要がある。 AVがそのような倫理的な意思決定と経路計画を行うためには、AV上でリアルタイムに使用される状況のシミュレーションモデルが必要である。 これらのモデルは、所定の衝突損傷重度レベルに基づいて経路計画と倫理的意思決定を可能にする。 本研究は, 衝突損傷の危険度に関する事前知識, すなわち, AVが剛性バリアに衝突するピーク変形や, AVが歩行者に衝突する衝撃速度について, 経路計画と倫理的判断のためのモデルを開発した。 このような知識とファジィ論理を用いて,衝突損傷重大度レベルに対する非線形重み付きユーティリティコスト関数を開発した。 これにより、AVピーク変形とAVペデストリアン衝突速度から生じるモデルに基づく予測衝突結果が、共通の構造を持つ重み付きユーティリティコスト関数を介して別々に検討できる。 重み付きユーティリティコスト関数の一般的な形式はファジィセットアプローチを利用しており、2つの別々のユーティリティコスト関数から共通のユーティリティコストを有意義に比較することができる。 実用主義的倫理的アプローチを用いた意思決定アルゴリズムは、avが常に最もダメージの少ないレベルを表す経路を操ることを保証するため、社会に有用コストがかかる。

Developments in autonomous vehicles (AVs) are rapidly advancing and will in the next 20 years become a central part to our society. However, especially in the early stages of deployment, there is expected to be incidents involving AVs. In the event of AV incidents, decisions will need to be made that require ethical decisions, e.g., deciding between colliding into a group of pedestrians or a rigid barrier. For an AV to undertake such ethical decision making and path planning, simulation models of the situation will be required that are used in real-time on-board the AV. These models will enable path planning and ethical decision making to be undertaken based on predetermined collision injury severity levels. In this research, models are developed for the path planning and ethical decision making that predetermine knowledge regarding the possible collision injury severities, i.e., peak deformation of the AV colliding into the rigid barrier or the impact velocity of the AV colliding into a pedestrian. Based on such knowledge and using fuzzy logic, a novel nonlinear weighted utility cost function for the collision injury severity levels is developed. This allows the model-based predicted collision outcomes arising from AV peak deformation and AV-pedestrian impact velocity to be examined separately via weighted utility cost functions with a common structure. The general form of the weighted utility cost function exploits a fuzzy sets approach, thus allowing common utility costs from the two separate utility cost functions to be meaningfully compared. A decision-making algorithm, which makes use of a utilitarian ethical approach, ensures that the AV will always steer onto the path which represents the lowest injury severity level, hence utility cost to society.
翻訳日:2022-12-19 16:15:20 公開日:2022-12-16
# ニューラルネットワークのSieve Quasi-likelihood Ratio Testと遺伝的アソシエーション研究への応用

A Sieve Quasi-likelihood Ratio Test for Neural Networks with Applications to Genetic Association Studies ( http://arxiv.org/abs/2212.08255v1 )

ライセンス: Link先を確認
Xiaoxi Shen, Chang Jiang, Lyudmila Sakhanenko and Qing Lu(参考訳) ニューラルネットワーク(NN)は、現代の人工知能(AI)技術において中心的な役割を担い、自然言語処理や画像認識などの分野で成功している。 NNアプリケーションの大半は予測と分類に重点を置いているが、ニューラルネットワークの統計的推測を研究することへの関心が高まっている。 NN統計的推論の研究は、NN統計的妥当性の理解を高めることができる。 さらに、仮説駆動臨床および生体医学研究に応用できるnnベースの仮説テストを促進することができる。 本稿では,複雑な関連性をテストするための隠蔽層を持つNNを用いたシーブ準比テストを提案する。 テスト統計は漸近的カイ二乗分布を持ち、計算効率が良く、実データ解析の実装も容易である。 漸近分布の妥当性をシミュレーションにより検討した。 最後に,アルツハイマー病神経画像イニシアチブ(ADNI)から得られたシークエンシングデータの遺伝子関連解析を行うことにより,提案試験の有用性を示す。

Neural networks (NN) play a central role in modern Artificial intelligence (AI) technology and has been successfully used in areas such as natural language processing and image recognition. While majority of NN applications focus on prediction and classification, there are increasing interests in studying statistical inference of neural networks. The study of NN statistical inference can enhance our understanding of NN statistical proprieties. Moreover, it can facilitate the NN-based hypothesis testing that can be applied to hypothesis-driven clinical and biomedical research. In this paper, we propose a sieve quasi-likelihood ratio test based on NN with one hidden layer for testing complex associations. The test statistic has asymptotic chi-squared distribution, and therefore it is computationally efficient and easy for implementation in real data analysis. The validity of the asymptotic distribution is investigated via simulations. Finally, we demonstrate the use of the proposed test by performing a genetic association analysis of the sequencing data from Alzheimer's Disease Neuroimaging Initiative (ADNI).
翻訳日:2022-12-19 16:14:54 公開日:2022-12-16
# 分散機械学習におけるストラグラー緩和のためのネスト勾配符号

Nested Gradient Codes for Straggler Mitigation in Distributed Machine Learning ( http://arxiv.org/abs/2212.08580v1 )

ライセンス: Link先を確認
Luis Ma{\ss}ny, Christoph Hofmeister, Maximilian Egger, Rawad Bitar, Antonia Wachter-Zeh(参考訳) ストラグラーと呼ばれる低速で非応答なワーカノードの存在下での分散学習を考える。 ストラグラーの効果を緩和するために、勾配符号は作業者に部分的な計算を冗長に割り当て、その結果は非作業者のみから回収できる。 勾配符号は固定数のストラグラーを許容するように設計されている。 実際には、ストラグラーの数がランダムで未知であるため、固定数のストラグラーを許容することは、準最適計算負荷を生じさせ、より高いレイテンシをもたらす。 本研究では,異なるストラグラー耐性のための勾配符号を慎重に結合することにより,フレキシブルなトラグラー数に許容できる勾配符号化方式を提案する。 適切なタスクスケジューリングと小さな追加のシグナリングにより、このスキームは作業者の計算負荷を実際のストラグラー数に適応させる。 提案手法のレイテンシを分析し,勾配符号よりも遅延が有意に低いことを示す。

We consider distributed learning in the presence of slow and unresponsive worker nodes, referred to as stragglers. In order to mitigate the effect of stragglers, gradient coding redundantly assigns partial computations to the worker such that the overall result can be recovered from only the non-straggling workers. Gradient codes are designed to tolerate a fixed number of stragglers. Since the number of stragglers in practice is random and unknown a priori, tolerating a fixed number of stragglers can yield a sub-optimal computation load and can result in higher latency. We propose a gradient coding scheme that can tolerate a flexible number of stragglers by carefully concatenating gradient codes for different straggler tolerance. By proper task scheduling and small additional signaling, our scheme adapts the computation load of the workers to the actual number of stragglers. We analyze the latency of our proposed scheme and show that it has a significantly lower latency than gradient codes.
翻訳日:2022-12-19 16:14:39 公開日:2022-12-16
# $\ell_{2,\infty}$テンソル摂動束による高次混合メンバシップの推定

Estimating Higher-Order Mixed Memberships via the $\ell_{2,\infty}$ Tensor Perturbation Bound ( http://arxiv.org/abs/2212.08642v1 )

ライセンス: Link先を確認
Joshua Agterberg and Anru Zhang(参考訳) 高次のマルチウェイデータは機械学習や統計学においてユビキタスであり、しばしばコミュニティのような構造を示し、それぞれのコンポーネント(ノード)が関連するコミュニティメンバーシップを持つ。 本稿では,テンソル混合メンバシップブロックモデルを提案する。テンソルブロックモデルの一般化は,メンバシップが離散的ではなく,潜在コミュニティの凸結合であることを示す。 我々は,本モデルの同定可能性を確立し,単純なコーナーフィンディングアルゴリズムを用いたテンソルSVDの高次直交反復アルゴリズム(HOOI)に基づく計算効率の高い推定手法を提案する。 次に、高次構造が推定精度に与える影響を示すノード単位の誤差境界を提供することにより、推定手順の整合性を示す。 一貫性を証明するために、HOOI に対する $\ell_{2,\infty}$ tensor 摂動を独立で、おそらくはヘテロスケダティックな亜ガウス雑音の下で、独立に利害を受ける可能性がある。 本解析では,イテレートに対する新しい残余ワンアウト構造を用い,テンソルsvdが計算可能となるような,ほぼ最適信号対雑音比条件下での低ランクテンソルのスペクトル特性のみに依存する。 他の1次解析は通常、ノイズのごく一部を除去したアルゴリズムの出力を解析して構築されるシーケンスに焦点をあてるが、我々の1次解析構成は、前回の反復と追加のテンソル構造の両方を使用して、潜在的な追加的なエラーの原因を取り除く。 最後に,本手法を実データとシミュレーションデータに適用し,2つのフライトデータセットとトレードネットワークデータセットに適用し,個別のコミュニティメンバーシップを持つモデルから特定できない効果を示す。

Higher-order multiway data is ubiquitous in machine learning and statistics and often exhibits community-like structures, where each component (node) along each different mode has a community membership associated with it. In this paper we propose the tensor mixed-membership blockmodel, a generalization of the tensor blockmodel positing that memberships need not be discrete, but instead are convex combinations of latent communities. We establish the identifiability of our model and propose a computationally efficient estimation procedure based on the higher-order orthogonal iteration algorithm (HOOI) for tensor SVD composed with a simplex corner-finding algorithm. We then demonstrate the consistency of our estimation procedure by providing a per-node error bound, which showcases the effect of higher-order structures on estimation accuracy. To prove our consistency result, we develop the $\ell_{2,\infty}$ tensor perturbation bound for HOOI under independent, possibly heteroskedastic, subgaussian noise that may be of independent interest. Our analysis uses a novel leave-one-out construction for the iterates, and our bounds depend only on spectral properties of the underlying low-rank tensor under nearly optimal signal-to-noise ratio conditions such that tensor SVD is computationally feasible. Whereas other leave-one-out analyses typically focus on sequences constructed by analyzing the output of a given algorithm with a small part of the noise removed, our leave-one-out analysis constructions use both the previous iterates and the additional tensor structure to eliminate a potential additional source of error. Finally, we apply our methodology to real and simulated data, including applications to two flight datasets and a trade network dataset, demonstrating some effects not identifiable from the model with discrete community memberships.
翻訳日:2022-12-19 16:14:13 公開日:2022-12-16
# 機械学習モデルのためのshapley variable importance cloud

Shapley variable importance cloud for machine learning models ( http://arxiv.org/abs/2212.08370v1 )

ライセンス: Link先を確認
Yilin Ning, Mingxuan Liu, Nan Liu(参考訳) 解釈可能な機械学習の現在の実践は、例えばShapley additive explanations (SHAP) 法を用いてデータからトレーニングされた最終モデルを説明することに集中することが多い。 最近開発されたShapley変数重要クラウド(ShapleyVIC)は、現在のプラクティスを"ほぼ最適なモデル"のグループに拡張し、予測に対する変数のコントリビューションをより完全に理解するための、より包括的で堅牢な変数重要評価を提供する。 shapleyvicは従来の回帰モデルを持つアプリケーション向けに開発され、shapleyvic推論の利点はロジスティック回帰モデルを用いた実生活予測タスクで実証されている。 しかし、モデルに依存しないアプローチとして、ShapleyVICアプリケーションはそのようなシナリオに限らない。 本研究では、機械学習モデルのShapleyVIC実装を拡張して、より広範なアプリケーションを可能にするとともに、現在のSHAP分析を補完する有用なものとして提案し、これらのブラックボックスモデルのより信頼性の高い応用を可能にする。

Current practice in interpretable machine learning often focuses on explaining the final model trained from data, e.g., by using the Shapley additive explanations (SHAP) method. The recently developed Shapley variable importance cloud (ShapleyVIC) extends the current practice to a group of "nearly optimal models" to provide comprehensive and robust variable importance assessments, with estimated uncertainty intervals for a more complete understanding of variable contributions to predictions. ShapleyVIC was initially developed for applications with traditional regression models, and the benefits of ShapleyVIC inference have been demonstrated in real-life prediction tasks using the logistic regression model. However, as a model-agnostic approach, ShapleyVIC application is not limited to such scenarios. In this work, we extend ShapleyVIC implementation for machine learning models to enable wider applications, and propose it as a useful complement to the current SHAP analysis to enable more trustworthy applications of these black-box models.
翻訳日:2022-12-19 16:06:56 公開日:2022-12-16
# トランスフォーマーモデルにおけるシーケンス長学習の影響の低減

Reducing Sequence Length Learning Impacts on Transformer Models ( http://arxiv.org/abs/2212.08399v1 )

ライセンス: Link先を確認
Jean-Thomas Baillargeon, Luc Lamontagne(参考訳) Transformerアーキテクチャを用いた分類アルゴリズムは、異なるクラスからの観測が異なる長さ分布を持つ場合、シーケンス長学習問題の影響を受け得る。 この問題は、重要なテキスト情報に頼るのではなく、予測機能としてシーケンス長を使用するモデルをもたらす。 ほとんどの公開データセットがこの問題の影響を受けていないとしても、医療や保険などの分野のプライベートコーパスはこのデータバイアスを負う可能性がある。 これは、機械学習アプリケーションでの使用を考えると、バリューチェーン全体の課題を引き起こす。 本稿では,この問題を経験的に明らかにし,その影響を最小限にする手法を提案する。

Classification algorithms using Transformer architectures can be affected by the sequence length learning problem whenever observations from different classes have a different length distribution. This problem brings models to use sequence length as a predictive feature instead of relying on important textual information. Even if most public datasets are not affected by this problem, privately corpora for fields such as medicine and insurance may carry this data bias. This poses challenges throughout the value chain given their usage in a machine learning application. In this paper, we empirically expose this problem and present approaches to minimize its impacts.
翻訳日:2022-12-19 16:06:38 公開日:2022-12-16
# LiFe-net:TeslaのLiFePo4 EVバッテリーの時間依存温度と充電統計のデータ駆動モデル

LiFe-net: Data-driven Modelling of Time-dependent Temperatures and Charging Statistics Of Tesla's LiFePo4 EV Battery ( http://arxiv.org/abs/2212.08403v1 )

ライセンス: Link先を確認
Jeyhun Rustamov, Luisa Fennert, Nico Hoffmann(参考訳) 電気自動車(EV)バッテリーの温度をモデル化することは、EV製造の基本課題である。 バッテリーパックの極端な温度は寿命や出力に影響する可能性がある。 電池パック内の熱伝達を記述する理論モデルが存在するが、シミュレーションには計算コストがかかる。 さらに、電池内部からデータ測定を取得することは困難である。 本研究では,データ駆動型サロゲートモデル (LiFe-net) を提案する。 このモデルでは、ニューラル演算子と従来の数値積分スキームを組み込んで温度変化を推定する。 さらに,本モデルでは,正則器で訓練したLiFe-netと時間安定性の低下を訓練したLiFe-netの2つのバリエーションを提案する。 テストデータに対する一般化誤差の観点からこれらのモデルを比較した。 その結果、LiFe-netは時間安定性の低下で訓練され、他の2つのモデルよりも優れており、平均2.77 %の相対誤差で未確認データの温度変化を推定できることがわかった。

Modelling the temperature of Electric Vehicle (EV) batteries is a fundamental task of EV manufacturing. Extreme temperatures in the battery packs can affect their longevity and power output. Although theoretical models exist for describing heat transfer in battery packs, they are computationally expensive to simulate. Furthermore, it is difficult to acquire data measurements from within the battery cell. In this work, we propose a data-driven surrogate model (LiFe-net) that uses readily accessible driving diagnostics for battery temperature estimation to overcome these limitations. This model incorporates Neural Operators with a traditional numerical integration scheme to estimate the temperature evolution. Moreover, we propose two further variations of the baseline model: LiFe-net trained with a regulariser and LiFe-net trained with time stability loss. We compared these models in terms of generalization error on test data. The results showed that LiFe-net trained with time stability loss outperforms the other two models and can estimate the temperature evolution on unseen data with a relative error of 2.77 % on average.
翻訳日:2022-12-19 16:06:30 公開日:2022-12-16
# ニューラルネットワークのロバスト説明制約

Robust Explanation Constraints for Neural Networks ( http://arxiv.org/abs/2212.08507v1 )

ライセンス: Link先を確認
Matthew Wicker, Juyeon Heo, Luca Costabello, Adrian Weller(参考訳) ポストホックな説明手法は、ニューラルネットワークに関する洞察を提供する目的で使われ、アウトプットに対する信頼感を高めるのに役立つと言われている。 しかし、一般的な説明法は入力特徴やモデルパラメータの小さな摂動に弱いことが判明している。 本研究では,非凸最適化による制約緩和手法に依拠して,入力特徴量やモデルパラメータの有界操作による勾配に基づく説明を行う手法を開発した。 ニューラルネットワークの前方および後方の計算を通じて、コンパクトな入力またはパラメータセットを記号間隔として伝播することにより、勾配に基づく説明の堅牢性を正式に証明することができる。 私たちの境界は微分可能なので、証明可能な説明の堅牢性をニューラルネットワークトレーニングに組み込むことができます。 経験的に,本手法は過去のヒューリスティックアプローチによるロバスト性を上回る。 テストされた6つのデータセットにまたがって、ロバスト性を説明する証明を持つニューラルネットワークを学習できるのは、トレーニング方法のみであることが分かりました。

Post-hoc explanation methods are used with the intent of providing insights about neural networks and are sometimes said to help engender trust in their outputs. However, popular explanations methods have been found to be fragile to minor perturbations of input features or model parameters. Relying on constraint relaxation techniques from non-convex optimization, we develop a method that upper-bounds the largest change an adversary can make to a gradient-based explanation via bounded manipulation of either the input features or model parameters. By propagating a compact input or parameter set as symbolic intervals through the forwards and backwards computations of the neural network we can formally certify the robustness of gradient-based explanations. Our bounds are differentiable, hence we can incorporate provable explanation robustness into neural network training. Empirically, our method surpasses the robustness provided by previous heuristic approaches. We find that our training method is the only method able to learn neural networks with certificates of explanation robustness across all six datasets tested.
翻訳日:2022-12-19 16:06:13 公開日:2022-12-16
# UAVを用いたアジャイルアクティブターゲットセンシングのための強化学習

Reinforcement Learning for Agile Active Target Sensing with a UAV ( http://arxiv.org/abs/2212.08214v1 )

ライセンス: Link先を確認
Harsh Goel, Laura Jarin Lipschitz, Saurav Agarwal, Sandeep Manjanna, and Vijay Kumar(参考訳) アクティブターゲットセンシング(active target sensing)は、未知数のターゲットを発見・分類するタスクであり、探索・回収ミッションにおいて重要な役割を担っている。 本稿では,無人航空機(UAV)が行方不明な目標を発見できる可能性を高めるため,情報トラジェクトリを計画するための深層強化学習手法を開発する。 提案手法は,(1)新たな目標を探索する環境を探索し,(2)ターゲット状態の現在の信念を活用,(2)高忠実度分類のための不正確なセンサモデルを導入し,(3)モーションプリミティブライブラリを用いて,アジャイルUAVのための動的に実現可能な軌道を生成する。 ランダムに生成された環境の広範囲なシミュレーションは、我々のアプローチが他のいくつかのベースラインよりもターゲットの発見と分類に効率的であることを示している。 我々のアプローチのユニークな特徴は、ヒューリスティックな情報経路計画手法とは対照的に、真の目標分布から前の信念のばらつきの変動に頑健であり、その結果、適用条件に特有のヒューリスティックを設計することの難しさを軽減することである。

Active target sensing is the task of discovering and classifying an unknown number of targets in an environment and is critical in search-and-rescue missions. This paper develops a deep reinforcement learning approach to plan informative trajectories that increase the likelihood for an uncrewed aerial vehicle (UAV) to discover missing targets. Our approach efficiently (1) explores the environment to discover new targets, (2) exploits its current belief of the target states and incorporates inaccurate sensor models for high-fidelity classification, and (3) generates dynamically feasible trajectories for an agile UAV by employing a motion primitive library. Extensive simulations on randomly generated environments show that our approach is more efficient in discovering and classifying targets than several other baselines. A unique characteristic of our approach, in contrast to heuristic informative path planning approaches, is that it is robust to varying amounts of deviations of the prior belief from the true target distribution, thereby alleviating the challenge of designing heuristics specific to the application conditions.
翻訳日:2022-12-19 16:05:55 公開日:2022-12-16
# 先行効果の複数の源による罰則回帰

Penalised regression with multiple sources of prior effects ( http://arxiv.org/abs/2212.08581v1 )

ライセンス: Link先を確認
Armin Rauschenberger, Zied Landoulsi, Mark A. van de Wiel, Enrico Glaab(参考訳) 多くの高次元予測や分類タスクでは、(epi)遺伝子マーカーの事前の生物学的知識など、特徴に関する補完的なデータが利用可能である。 ここでは,特徴効果の重要度(重み)と方向(符号)に関する洞察を与える数値的事前情報を持つ課題,例えば,先行研究からの回帰係数について考察する。 本稿では,先行情報の複数のソースをペナルタライズドレグレッションに統合する手法を提案する。 適切なコデータがあれば、シミュレーションやアプリケーションによって示されるように、予測性能が向上する。 提案手法はRパッケージ ‘transreg' (https://github.com/lcsb-bds/transreg) に実装されている。

In many high-dimensional prediction or classification tasks, complementary data on the features are available, e.g. prior biological knowledge on (epi)genetic markers. Here we consider tasks with numerical prior information that provide an insight into the importance (weight) and the direction (sign) of the feature effects, e.g. regression coefficients from previous studies. We propose an approach for integrating multiple sources of such prior information into penalised regression. If suitable co-data are available, this improves the predictive performance, as shown by simulation and application. The proposed method is implemented in the R package `transreg' (https://github.com/lcsb-bds/transreg).
翻訳日:2022-12-19 16:05:33 公開日:2022-12-16
# 汎用形式翻訳器の実装

Implementation of general formal translators ( http://arxiv.org/abs/2212.08482v1 )

ライセンス: Link先を確認
Iosif Iulian Petrila(参考訳) 一般的な翻訳者形式と計算固有の実装を提案する。 翻訳者内のソース情報と宛先情報を処理するために必要な特定の要素の実装を示す。 クラスや手順などの一般的な指示や指示は、一般的な翻訳の実装を可能にするために統一され、一般化された。 一般的なケースをカバーするためには、ソース情報と宛先情報の適切な変換に関連する2つの処理レベルと、関連する制御と処理命令が必要である。 提案する汎用トランスレータ要素は,任意の言語やシステムを通じて記述された自然情報や人工情報を処理するのに有用である。

The general translator formalism and computing specific implementations are proposed. The implementation of specific elements necessary to process the source and destination information within the translators are presented. Some common directives or instructions, such as classes and procedures, were unified and generalized in order to allow general translations implementations. In order to cover general cases, two levels of processing are required, related to the source and destination information appropriate transformations, with the related control and processing instructions. The proposed general translator elements are useful for processing natural or artificial information described through any types of languages or systems.
翻訳日:2022-12-19 16:05:21 公開日:2022-12-16
# HGAN:画像テキスト検索のための階層型グラフアライメントネットワーク

HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval ( http://arxiv.org/abs/2212.08281v1 )

ライセンス: Link先を確認
Jie Guo, Meiting Wang, Yan Zhou, Bin Song, Yuhao Chi, Wei Fan, Jianglong Chang(参考訳) 画像テキスト検索(itr)は、異なるモダリティ間の意味的ギャップのため、マルチモーダル情報処理の分野では難しい課題である。 近年,画像とテキストの正確なアライメントを探索する研究が進んでいる。 しかし,既存の研究は主に,背景情報の意味を無視する画像領域と文断片の微妙なアライメントに焦点を当てている。 実際に、ローカルなきめ細かい情報とグローバルコンテキストの背景情報を統合することで、よりセマンティックな検索の手がかりを得ることができる。 本稿では,画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。 まず、総合的なマルチモーダル特徴を捉えるために、画像とテキストのモーダリティのための特徴グラフを構築する。 そして、局所情報とグローバル情報とのセマンティック対応性を高め、画像とテキストのモダリティのより正確な特徴表現を得るMFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。 最後に、究極のイメージとテキストの特徴を3段階の類似度関数によってさらに洗練し、階層的アライメントを実現する。 提案手法を正当化するため,MS-COCOおよびFlickr30Kデータセットの広範な実験を行った。 実験の結果,提案したHGANは両データセットの最先端手法よりも優れており,モデルの有効性と優位性を示している。

Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
翻訳日:2022-12-19 16:05:12 公開日:2022-12-16
# WavEnhancer: 画像強調のためのウェーブレットとトランスフォーマーの統合

WavEnhancer: Unifying Wavelet and Transformer for Image Enhancement ( http://arxiv.org/abs/2212.08327v1 )

ライセンス: Link先を確認
Zinuo Li, Xuhang Chen, Chi-Man Pun and Shuqiang Wang(参考訳) 画像強調はデジタル画像処理で頻繁に利用される技法である。 近年,画像の美的性能を高めるための学習技術の普及が進んでいる。 しかし、現在の作品の大部分は異なる周波数領域からの画像を最適化せず、通常はピクセルレベルまたはグローバルレベルの拡張に焦点を当てている。 本稿では,画像の周波数帯域の異なるウェーブレット領域におけるトランスベースモデルを提案する。 本手法は,局所的詳細と高レベル機能の両方に着目し,優れた結果が得られる。 総合的なベンチマーク評価に基づいて,本手法は最先端手法よりも優れている。

Image enhancement is a technique that frequently utilized in digital image processing. In recent years, the popularity of learning-based techniques for enhancing the aesthetic performance of photographs has increased. However, the majority of current works do not optimize an image from different frequency domains and typically focus on either pixel-level or global-level enhancements. In this paper, we propose a transformer-based model in the wavelet domain to refine different frequency bands of an image. Our method focuses both on local details and high-level features for enhancement, which can generate superior results. On the basis of comprehensive benchmark evaluations, our method outperforms the state-of-the-art methods.
翻訳日:2022-12-19 16:04:49 公開日:2022-12-16
# 等尺写像に基づく文書画像の幾何学的整形

Geometric Rectification of Creased Document Images based on Isometric Mapping ( http://arxiv.org/abs/2212.08365v1 )

ライセンス: Link先を確認
Dong Luo and Pengbo Bo(参考訳) 歪んだ文書の画像の幾何学的補正は、文書のデジタル化と光学文字認識(OCR)に広く応用されている。 滑らかに曲がった変形は多くの作品で広く研究されているが、特に複雑な折り目や大きな折りたたみなどの最も難しい歪みは研究されていない。 広く折り畳まれた文書に適用された既存のアプローチのパフォーマンスは満足には程遠いため、改善の余地は残されている。 この課題に取り組むために、3次元文書モデルの開発可能性や、直線などの画像中の特定のテクスチャの特徴を最も重要視する計算に、文書の修正に関する知識を組み込む必要がある。 本研究では,3次元文書モデルとその平面における平坦性を表現するために,計算等尺写像モデルを用いた文書画像修正の汎用的枠組みを提案する。 このフレームワークに基づき、モデル展開性とテキストの特徴の両方が計算において考慮される。 実験と最新手法との比較により,提案手法の有効性と性能が実証された。 また,画像中の高品質な特徴線を抽出する他の手法により,整流結果の強化も可能である。

Geometric rectification of images of distorted documents finds wide applications in document digitization and Optical Character Recognition (OCR). Although smoothly curved deformations have been widely investigated by many works, the most challenging distortions, e.g. complex creases and large foldings, have not been studied in particular. The performance of existing approaches, when applied to largely creased or folded documents, is far from satisfying, leaving substantial room for improvement. To tackle this task, knowledge about document rectification should be incorporated into the computation, among which the developability of 3D document models and particular textural features in the images, such as straight lines, are the most essential ones. For this purpose, we propose a general framework of document image rectification in which a computational isometric mapping model is utilized for expressing a 3D document model and its flattening in the plane. Based on this framework, both model developability and textural features are considered in the computation. The experiments and comparisons to the state-of-the-art approaches demonstrated the effectiveness and outstanding performance of the proposed method. Our method is also flexible in that the rectification results can be enhanced by any other methods that extract high-quality feature lines in the images.
翻訳日:2022-12-19 16:04:40 公開日:2022-12-16
# 指向性直接フィードバックアライメント:ニューラルネットワークの効率的な学習のためのバックプロパゲーションパスの推定

Directional Direct Feedback Alignment: Estimating Backpropagation Paths for Efficient Learning on Neural Processors ( http://arxiv.org/abs/2212.07282v2 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) エラーバックプロパゲーションアルゴリズム(BP)は、ディープニューラルネットワークをトレーニングするための重要な手法である。 パフォーマンスは高いが、計算、メモリ使用量、エネルギーの面ではリソースが要求される。 これにより、高い処理レートと低いエネルギー消費を必要とするエッジデバイス上でのオンライン学習には適さない。 さらに重要なことは、BPは専用のニューラルプロセッサが提供する並列性と局所特性を生かしていない。 そのため、BPに代わるアルゴリズムが要求されており、ハードウェア上のニューラルネットワークのレイテンシ、メモリ要求、エネルギーフットプリントを改善することができる。 本研究では,前方モードの自動微分を用いてバックプロパゲーションパスを推定し,オンライン形式でフィードバック接続を学習するdirect feedback alignment(dfa)に基づく新しい手法を提案する。 DFAの局所性と並列化特性を生かしながら、いくつかのベンチマークデータセットやアーキテクチャ上での他のフィードバック手法よりもBPに近い性能を実現することを実験的に示す。 さらに,他のフィードバック学習アルゴリズムとは異なり,提案手法は畳み込み層に対する安定した学習を提供する。

The error Backpropagation algorithm (BP) is a key method for training deep neural networks. While performant, it is also resource-demanding in terms of computation, memory usage and energy. This makes it unsuitable for online learning on edge devices that require a high processing rate and low energy consumption. More importantly, BP does not take advantage of the parallelism and local characteristics offered by dedicated neural processors. There is therefore a demand for alternative algorithms to BP that could improve the latency, memory requirements, and energy footprint of neural networks on hardware. In this work, we propose a novel method based on Direct Feedback Alignment (DFA) which uses Forward-Mode Automatic Differentiation to estimate backpropagation paths and learn feedback connections in an online manner. We experimentally show that Directional DFA achieves performances that are closer to BP than other feedback methods on several benchmark datasets and architectures while benefiting from the locality and parallelization characteristics of DFA. Moreover, we show that, unlike other feedback learning algorithms, our method provides stable learning for convolution layers.
翻訳日:2022-12-19 15:58:55 公開日:2022-12-16
# 一般化を目指して:グラフ上の自己教師付き知識のメタ伝達

Toward Improved Generalization: Meta Transfer of Self-supervised Knowledge on Graphs ( http://arxiv.org/abs/2212.08217v1 )

ライセンス: Link先を確認
Wenhui Cui, Haleh Akrami, Anand A. Joshi, Richard M. Leahy(参考訳) 機能的脳活動分析のためのグラフ畳み込みネットワークによる顕著な成功にもかかわらず、機能的パターンの多様性と画像データの不足は、多くのタスクにおいて依然として課題となっている。 トレーニングデータの多いソースドメインからターゲットドメインへの知識の転送は、不足したトレーニングデータでの表現学習を改善するのに有効である。 しかし,従来の伝達学習手法では,事前学習した知識を目的のタスクに一般化できない場合が多い。 グラフ上の自己教師付き学習は、特定の教師付きタスクに限定されない固有のグラフ特性に集中するため、グラフ特徴の一般化可能性を高めることができる。 メタラーニングと自己教師付き学習を統合することで,fMRIデータの均一性と不足に対処する新しい知識伝達戦略を提案する。 具体的には、ソースドメイン上で自己教師型タスクを実行し、メタラーニングを適用し、バイレベル最適化を用いてモデルの一般化性を強く向上させ、自己教師型知識を対象ドメインに転送する。 神経障害分類タスクの実験を通じて,提案手法は,グラフベース知識の一般化可能性や伝達可能性を高めることにより,目標タスクのパフォーマンスを著しく向上することを示した。

Despite the remarkable success achieved by graph convolutional networks for functional brain activity analysis, the heterogeneity of functional patterns and the scarcity of imaging data still pose challenges in many tasks. Transferring knowledge from a source domain with abundant training data to a target domain is effective for improving representation learning on scarce training data. However, traditional transfer learning methods often fail to generalize the pre-trained knowledge to the target task due to domain discrepancy. Self-supervised learning on graphs can increase the generalizability of graph features since self-supervision concentrates on inherent graph properties that are not limited to a particular supervised task. We propose a novel knowledge transfer strategy by integrating meta-learning with self-supervised learning to deal with the heterogeneity and scarcity of fMRI data. Specifically, we perform a self-supervised task on the source domain and apply meta-learning, which strongly improves the generalizability of the model using the bi-level optimization, to transfer the self-supervised knowledge to the target domain. Through experiments on a neurological disorder classification task, we demonstrate that the proposed strategy significantly improves target task performance by increasing the generalizability and transferability of graph-based knowledge.
翻訳日:2022-12-19 15:56:29 公開日:2022-12-16
# シーケンス長を特徴とするRNNの防止

Preventing RNN from Using Sequence Length as a Feature ( http://arxiv.org/abs/2212.08276v1 )

ライセンス: Link先を確認
Jean-Thomas Baillargeon, H\'el\`ene Cossette, Luc Lamontagne(参考訳) リカレントニューラルネットワークは、長いドキュメントを分類するためにトレーニングできるディープラーニングトポロジである。 しかし、最近の研究では、これらの細胞が抱える重要な問題として、異なるクラスのテキスト間の長さ差を顕著な分類特徴として利用することができることが挙げられる。 これは、不安定でコンセプトドリフトに脆弱なモデルを作成し、誤解を招くパフォーマンスを提供し、テキストの内容に関係なく簡単に説明できるという効果がある。 本稿では, 合成および実世界のデータを用いた問題を説明し, 重み減衰正則化を用いた簡単な解を提供する。

Recurrent neural networks are deep learning topologies that can be trained to classify long documents. However, in our recent work, we found a critical problem with these cells: they can use the length differences between texts of different classes as a prominent classification feature. This has the effect of producing models that are brittle and fragile to concept drift, can provide misleading performances and are trivially explainable regardless of text content. This paper illustrates the problem using synthetic and real-world data and provides a simple solution using weight decay regularization.
翻訳日:2022-12-19 15:56:10 公開日:2022-12-16
# SplitGP:フェデレートラーニングにおける一般化とパーソナライゼーションの両立

SplitGP: Achieving Both Generalization and Personalization in Federated Learning ( http://arxiv.org/abs/2212.08343v1 )

ライセンス: Link先を確認
Dong-Jun Han, Do-Yeon Kim, Minseok Choi, Christopher G. Brinton, Jaekyun Moon(参考訳) エッジAIサービスを提供する上での根本的な課題は、パーソナライズ(個々のクライアントへの)と一般化(データを見ること)を同時に実現する機械学習(ML)モデルの必要性である。 フェデレーション学習(fl)の既存の技術は、これらの目標の厳しいトレードオフに直面し、トレーニングと推論の間にエッジデバイスに大きな計算要件を課している。 本稿では、リソース制約のあるクライアント(例えば、モバイル/IoTデバイス)間での効率的な推論のために、一般化とパーソナライズ機能を同時にキャプチャできる新しい分割学習ソリューションSplitGPを提案する。 クライアント側モデルは、各クライアントのメインタスクに最適化された強力なパーソナライズ機能を持つように訓練され、サーバ側モデルは、すべてのクライアントのアウト・オブ・ディストリビューションタスクを処理するための強力な一般化機能を持つように訓練されています。 我々はSplitGPの収束挙動を解析的に解析し、全てのクライアントモデルが漸近的に定常点に近づくことを示した。 さらに、SplitGPにおける推定時間を分析し、モデル分割比を決定するためのバウンダリを提供する。 実験結果から, SplitGPは, 種々の分布外サンプルに対して, 推定時間と試験精度において, 既存のベースラインよりも高い性能を示した。

A fundamental challenge to providing edge-AI services is the need for a machine learning (ML) model that achieves personalization (i.e., to individual clients) and generalization (i.e., to unseen data) properties concurrently. Existing techniques in federated learning (FL) have encountered a steep tradeoff between these objectives and impose large computational requirements on edge devices during training and inference. In this paper, we propose SplitGP, a new split learning solution that can simultaneously capture generalization and personalization capabilities for efficient inference across resource-constrained clients (e.g., mobile/IoT devices). Our key idea is to split the full ML model into client-side and server-side components, and impose different roles to them: the client-side model is trained to have strong personalization capability optimized to each client's main task, while the server-side model is trained to have strong generalization capability for handling all clients' out-of-distribution tasks. We analytically characterize the convergence behavior of SplitGP, revealing that all client models approach stationary points asymptotically. Further, we analyze the inference time in SplitGP and provide bounds for determining model split ratios. Experimental results show that SplitGP outperforms existing baselines by wide margins in inference time and test accuracy for varying amounts of out-of-distribution samples.
翻訳日:2022-12-19 15:56:01 公開日:2022-12-16
# 歴史的航空機からのアノテーション付きインスタンスセグメンテーションXXL-CTデータセット

An annotated instance segmentation XXL-CT dataset from a historic airplane ( http://arxiv.org/abs/2212.08639v1 )

ライセンス: Link先を確認
Roland Gruber (1 and 2) and Nils Reims (1) and Andreas Hempfer (3) and Stefan Gerth (1) and Michael Salamon (1) and Thomas Wittenberg (1 and 2) ((1) Fraunhofer IIS, Fraunhofer Institute for Integrated Circuits IIS (2) Friedrich-Alexander-Universit\"at Erlangen-N\"urnberg, (3) Deutsches Museum, M\"unchen)(参考訳) me 163(me 163)は、第二次世界大戦中のドイツ空軍の戦闘機である。 これらの航空機の1機は現在ミュンヘンのドイツ博物館の歴史的な航空機展示会に展示されている。 産業用XXL-コンピュータトモグラフィースキャナーを用いて,その歴史,設計,保存状態に関する知見を得るため,完全なCTスキャンが得られた。 me 163のctデータを使用して、その詳細は完全な船体から単一のスプロケットやリベットまで、様々なレベルで視覚的に確認できる。 しかしながら、訓練された人間の観察者は、体積データをそのすべての部分と接続で識別し、解釈することができるが、飛行機と異なる部分の仮想的な分解は非常に望ましい。 それでもこれは、すべてのコンポーネントと関心のあるオブジェクトのインスタンスセグメンテーションをCTデータから切り離す必要があることを意味する。 現在、これらのXXL-エアプレーンデータの自動または半自動セグメンテーションのためのコンピュータ支援ツールは存在せず、第1段階としてインタラクティブなデータアノテーションとオブジェクトラベリングプロセスが確立されている。 これまでのところ、Me 163の7つの512 x 512 x 512のボクセルサブボリュームに注釈とラベルが付けられており、デジタル遺産、非破壊テスト、機械学習の分野で様々な新しい応用に利用できる可能性がある。 本研究は, 産業用XXL-CTスキャナーを用いて航空機のデータ取得過程を記述し, 航空機のCTデータのサブボリュームに注釈を付けるための対話型セグメンテーションとラベリングスキームを概説し, 注釈付きおよびラベル付きデータの解釈・処理に関する様々な課題を解説し, 議論する。

The Me 163 was a Second World War fighter airplane and a result of the German air force secret developments. One of these airplanes is currently owned and displayed in the historic aircraft exhibition of the Deutsches Museum in Munich, Germany. To gain insights with respect to its history, design and state of preservation, a complete CT scan was obtained using an industrial XXL-computer tomography scanner. Using the CT data from the Me 163, all its details can visually be examined at various levels, ranging from the complete hull down to single sprockets and rivets. However, while a trained human observer can identify and interpret the volumetric data with all its parts and connections, a virtual dissection of the airplane and all its different parts would be quite desirable. Nevertheless, this means, that an instance segmentation of all components and objects of interest into disjoint entities from the CT data is necessary. As of currently, no adequate computer-assisted tools for automated or semi-automated segmentation of such XXL-airplane data are available, in a first step, an interactive data annotation and object labeling process has been established. So far, seven 512 x 512 x 512 voxel sub-volumes from the Me 163 airplane have been annotated and labeled, whose results can potentially be used for various new applications in the field of digital heritage, non-destructive testing, or machine-learning. This work describes the data acquisition process of the airplane using an industrial XXL-CT scanner, outlines the interactive segmentation and labeling scheme to annotate sub-volumes of the airplane's CT data, describes and discusses various challenges with respect to interpreting and handling the annotated and labeled data.
翻訳日:2022-12-19 15:50:40 公開日:2022-12-16
# GFPose: グラディエントフィールドで3Dヒューマンポースを学習する

GFPose: Learning 3D Human Pose Prior with Gradient Fields ( http://arxiv.org/abs/2212.08641v1 )

ライセンス: Link先を確認
Hai Ci, Mingdong Wu, Wentao Zhu, Xiaoxuan Ma, Hao Dong, Fangwei Zhong and Yizhou Wang(参考訳) 人間の3Dポーズを事前に学習することは、人間中心のAIにとって不可欠である。 本稿では,多機能な3次元人間のポーズをモデル化するGFPoseについて述べる。 GFPoseのコアは時間依存のスコアネットワークで、各体の関節の勾配を推定し、与えられたタスク仕様に合うように、乱れた3Dのポーズを段階的に認知する。 denoisingプロセスの間、GFPoseは暗黙的に勾配のポーズを取り入れ、エレガントなフレームワークで様々な差別的および生成的タスクを統一する。 単純さにもかかわらず、GFPoseはいくつかの下流タスクにおいて大きな可能性を示す。 私たちの実験は GFPoseはHuman3.6Mデータセットで既存のSOTAを20%上回っている。 GFPoseは, 1-hypothesis pose estimatorとして, バニラバックボーンでも決定論的SOTAと同等の結果を得る。 3) gfposeはポーズの変動、完了、生成タスクにおいて多様で現実的なサンプルを生成できる。 プロジェクトページ https://sites.google.com/view/gfpose/

Learning 3D human pose prior is essential to human-centered AI. Here, we present GFPose, a versatile framework to model plausible 3D human poses for various applications. At the core of GFPose is a time-dependent score network, which estimates the gradient on each body joint and progressively denoises the perturbed 3D human pose to match a given task specification. During the denoising process, GFPose implicitly incorporates pose priors in gradients and unifies various discriminative and generative tasks in an elegant framework. Despite the simplicity, GFPose demonstrates great potential in several downstream tasks. Our experiments empirically show that 1) as a multi-hypothesis pose estimator, GFPose outperforms existing SOTAs by 20% on Human3.6M dataset. 2) as a single-hypothesis pose estimator, GFPose achieves comparable results to deterministic SOTAs, even with a vanilla backbone. 3) GFPose is able to produce diverse and realistic samples in pose denoising, completion and generation tasks. Project page https://sites.google.com/view/gfpose/
翻訳日:2022-12-19 15:50:11 公開日:2022-12-16
# データ拡張はサブグループ劣化を緩和できるか?

Better May Not Be Fairer: Can Data Augmentation Mitigate Subgroup Degradation? ( http://arxiv.org/abs/2212.08649v1 )

ライセンス: Link先を確認
Ming-Chang Chiu, Pin-Yu Chen, Xuezhe Ma(参考訳) 深層学習モデルが、入力/出力ペア間の正確な関係を学習する代わりに、急激な相関を学習するなど、望ましくない振る舞いを示すことは周知の事実である。 従来の研究では、低レベルの特徴を混ぜたロバストネス研究データセットを使用して、スプリアス相関が予測にどのように影響するかを定量化している。 そこで本稿では,まず,cifar10とcifar100のテストセットを各画像の背景色に基づいてサブグループに手作業で分割して,自然背景色が画像分類タスクにおけるスプリアスな特徴として果たす役割について検討する。 我々はデータセットを CIFAR10-B と CIFAR100-B と命名した。 標準的なCNNは人間レベルの精度を実現するが、サブグループのパフォーマンスは一貫しておらず、データ拡張(DA)後もその現象は残る。 この問題を軽減するために,事前学習した生成フローによって得られた分離されたセマンティック表現を活用するセマンティックDA手法であるFlowAugを提案する。 実験の結果,FlowAugはCIFAR10およびCIFAR100上の他のDA法よりも,サブグループ間で一貫性のある結果が得られることがわかった。 さらに、より優れた一般化性能を示す。 さらに,各クラス間の重み付き標準偏差に対してマクロ平均値を取ることにより,モデルロバスト性を研究するための汎用的指標を提案する。 われわれの測定値によると、FlowAugはスプリアス相関への依存度を低くしている。 このメトリクスは、キュレートされたデータセットを研究するために提案されているが、サブグループまたはサブクラスを持つすべてのデータセットに適用される。 最後に,散発的な相関や分布内テストセットのより良い一般化への依存度低下を別にして,cifar10.1における優れた分布外結果とcifar10-cおよびcifar100-cにおける競合性能を示す。

It is no secret that deep learning models exhibit undesirable behaviors such as learning spurious correlations instead of learning correct relationships between input/output pairs. Prior works on robustness study datasets that mix low-level features to quantify how spurious correlations affect predictions instead of considering natural semantic factors due to limitations in accessing realistic datasets for comprehensive evaluation. To bridge this gap, in this paper we first investigate how natural background colors play a role as spurious features in image classification tasks by manually splitting the test sets of CIFAR10 and CIFAR100 into subgroups based on the background color of each image. We name our datasets CIFAR10-B and CIFAR100-B. We find that while standard CNNs achieve human-level accuracy, the subgroup performances are not consistent, and the phenomenon remains even after data augmentation (DA). To alleviate this issue, we propose FlowAug, a semantic DA method that leverages the decoupled semantic representations captured by a pre-trained generative flow. Experimental results show that FlowAug achieves more consistent results across subgroups than other types of DA methods on CIFAR10 and CIFAR100. Additionally, it shows better generalization performance. Furthermore, we propose a generic metric for studying model robustness to spurious correlations, where we take a macro average on the weighted standard deviations across different classes. Per our metric, FlowAug demonstrates less reliance on spurious correlations. Although this metric is proposed to study our curated datasets, it applies to all datasets that have subgroups or subclasses. Lastly, aside from less dependence on spurious correlations and better generalization on in-distribution test sets, we also show superior out-of-distribution results on CIFAR10.1 and competitive performances on CIFAR10-C and CIFAR100-C.
翻訳日:2022-12-19 15:49:51 公開日:2022-12-16
# 人間の視覚コントラスト感度と機械視ロバスト性について:比較研究

On Human Visual Contrast Sensitivity and Machine Vision Robustness: A Comparative Study ( http://arxiv.org/abs/2212.08650v1 )

ライセンス: Link先を確認
Ming-Chang Chiu, Yingfei Wang, Derrick Eui Gyu Kim, Pin-Yu Chen, Xuezhe Ma(参考訳) 色覚が人間の視覚知覚システムに不可欠な役割を担っていることは神経科学においてよく確立されている。 一方、人間の視覚にインスパイアされたコンピュータビジョンのための新しいデザインは、幅広いタスクや応用で成功している。 それでも、色の違いがマシンビジョンにどのように影響するかは十分に検討されていない。 私たちの研究は、視覚認識の人間の色覚面と機械のそれとのギャップを橋渡ししようと試みています。 これを実現するために、人気のあるcifarデータセットの前景色に基づく2つのデータセット、cifar10-fとcifar100-fをキュレートする。 CIFARテストセットの背景色に関する情報を持つ既存のデータセットであるCIFAR10-BとCIFAR100-Bと合わせて、前景と背景の色ラベルごとに色コントラストレベルに基づいて各画像を割り当て、これをプロキシとして使用し、色コントラストがマシンビジョンに与える影響を研究する。 まず、概念実証研究を行い、色差の効果を示し、データセットを検証する。 さらに、より広いレベルでは、人間の視覚の重要な特徴は、周囲の変化に対する堅牢性であり、眼科や頑健性文学からインスピレーションを得て、人間の視覚的側面からのコントラスト感度をマシンビジョンに類似させ、劣化した画像とCIFAR-CoCoデータセットを用いた現在のロバストネス研究を補完する。 まとめると, 神経科学に動機付けられ, キュレートするデータセットを取り入れた新たな枠組みを考案し, カラーコントラストと劣化画像の効果を広範囲に分析し, モデルアーキテクチャ, (2) モデルサイズ, マシンビジョンの知覚能力を総合的精度を超えて測定する。 このセットアップでは、タスクの複雑さとデータ拡張がどのように役割を果たすかについても検討する。 本研究は,人間のような機械知覚に対する新しい評価手法に注意を向ける。

It is well established in neuroscience that color vision plays an essential part in the human visual perception system. Meanwhile, many novel designs for computer vision inspired by human vision have achieved success in a wide range of tasks and applications. Nonetheless, how color differences affect machine vision has not been well explored. Our work tries to bridge this gap between the human color vision aspect of visual recognition and that of the machine. To achieve this, we curate two datasets: CIFAR10-F and CIFAR100-F, which are based on the foreground colors of the popular CIFAR datasets. Together with CIFAR10-B and CIFAR100-B, the existing counterpart datasets with information on the background colors of CIFAR test sets, we assign each image based on its color contrast level per its foreground and background color labels and use this as a proxy to study how color contrast affects machine vision. We first conduct a proof-of-concept study, showing the effect of color difference and validate our datasets. Furthermore, on a broader level, an important characteristic of human vision is its robustness against ambient changes; therefore, drawing inspirations from ophthalmology and the robustness literature, we analogize contrast sensitivity from the human visual aspect to machine vision and complement the current robustness study using corrupted images with our CIFAR-CoCo datasets. In summary, motivated by neuroscience and equipped with the datasets we curate, we devise a new framework in two dimensions to perform extensive analyses on the effect of color contrast and corrupted images: (1) model architecture, (2) model size, to measure the perception ability of machine vision beyond total accuracy. We also explore how task complexity and data augmentation play a role in this setup. Our results call attention to new evaluation approaches for human-like machine perception.
翻訳日:2022-12-19 15:49:14 公開日:2022-12-16
# LegalRelectra:Long-range Legal Text Comprehensionのための混合ドメイン言語モデリング

LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text Comprehension ( http://arxiv.org/abs/2212.08204v1 )

ライセンス: Link先を確認
Wenyue Hua, Yuchen Zhang, Zhe Chen, Josie Li, and Melanie Weber(参考訳) 自然言語処理(NLP)の法則などの専門分野への応用は,近年注目されている。 多くの法律サービスが大量の文書の処理と分析に依存しているため、nlpツールによるタスクの自動化が重要な課題となっている。 BERTやRoBERTaといった多くのポピュラー言語モデルは汎用モデルであり、専門用語や構文の処理に制限がある。 さらに、法的文書には、個人的傷害テキストの医学用語など、他のドメインからの特別な語彙が含まれている場合もある。 本稿では,混合ドメイン法と医療コーパスで訓練された法律ドメイン言語モデルである legalrelectra を提案する。 本モデルは,混合ドメイン(個人的障害)テキストを処理する際に,一般ドメインおよび単一ドメインの医療および法律言語モデルよりも改善することを示す。 トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。 これにより、長文処理におけるモデルの性能が向上し、長文理解が向上することを示す。

The application of Natural Language Processing (NLP) to specialized domains, such as the law, has recently received a surge of interest. As many legal services rely on processing and analyzing large collections of documents, automating such tasks with NLP tools emerges as a key challenge. Many popular language models, such as BERT or RoBERTa, are general-purpose models, which have limitations on processing specialized legal terminology and syntax. In addition, legal documents may contain specialized vocabulary from other domains, such as medical terminology in personal injury text. Here, we propose LegalRelectra, a legal-domain language model that is trained on mixed-domain legal and medical corpora. We show that our model improves over general-domain and single-domain medical and legal language models when processing mixed-domain (personal injury) text. Our training architecture implements the Electra framework, but utilizes Reformer instead of BERT for its generator and discriminator. We show that this improves the model's performance on processing long passages and results in better long-range text comprehension.
翻訳日:2022-12-19 15:48:17 公開日:2022-12-16
# ピッチアクセント音声合成における日本語PnG BERT言語モデルの検討

Investigation of Japanese PnG BERT language model in text-to-speech synthesis for pitch accent language ( http://arxiv.org/abs/2212.08321v1 )

ライセンス: Link先を確認
Yusuke Yasuda, Tomoki Toda(参考訳) エンドツーエンドのテキスト音声合成(TTS)は、生テキストから非常に自然な合成音声を生成することができる。 しかし、正しいピッチアクセントのレンダリングは、エンド・ツー・エンドのTSにとって依然として難しい問題である。 日本語の終末TSにおいて正しいピッチアクセントを描画する課題に対処するために、文字と音素領域における自己教師付き事前学習モデルであるPnG~BERTを採用する。 PnG~BERTが捉えた特徴が日本語TTSに与える影響を,ピッチアクセントの推測に役立つ条件を決定するために微調整条件を変更して検討した。 我々は,テキスト指向から音声指向へのPnG~BERT機能の内容の操作を行う。 さらに、音調予測を付加的なダウンストリームタスクとして微調整することで、PnG~BERTピッチアクセント情報を教える。 実験の結果,プレトレーニングにより得られたPnG~BERTの特徴はピッチアクセントの推測に役立つ情報を含み,PnG~BERTは聴取試験においてアクセントの正確さでベースラインのTacotronより優れていた。

End-to-end text-to-speech synthesis (TTS) can generate highly natural synthetic speech from raw text. However, rendering the correct pitch accents is still a challenging problem for end-to-end TTS. To tackle the challenge of rendering correct pitch accent in Japanese end-to-end TTS, we adopt PnG~BERT, a self-supervised pretrained model in the character and phoneme domain for TTS. We investigate the effects of features captured by PnG~BERT on Japanese TTS by modifying the fine-tuning condition to determine the conditions helpful inferring pitch accents. We manipulate content of PnG~BERT features from being text-oriented to speech-oriented by changing the number of fine-tuned layers during TTS. In addition, we teach PnG~BERT pitch accent information by fine-tuning with tone prediction as an additional downstream task. Our experimental results show that the features of PnG~BERT captured by pretraining contain information helpful inferring pitch accent, and PnG~BERT outperforms baseline Tacotron on accent correctness in a listening test.
翻訳日:2022-12-19 15:48:00 公開日:2022-12-16
# DistilBert Transformer モデルを用いた COVID-19 のペルシャオープンテキスト応答の感情分類

Utilizing distilBert transformer model for sentiment classification of COVID-19's Persian open-text responses ( http://arxiv.org/abs/2212.08407v1 )

ライセンス: Link先を確認
Fatemeh Sadat Masoumi, Mohammad Bahrani(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、あらゆる面で人間の生活に劇的な変化をもたらした。 この点で政府の法律は全ての人々のライフスタイルに影響を与えた。 このことから、今後のパンデミックの影響を意識するためには、個人の感情を研究することが不可欠である。 この目的に貢献するため,イランの住民の肯定的・否定的な感情を検出するために,ペルシアのサーベイにおけるオープンテキスト回答の分析を目的としたNLPモデルを提案した。 本研究では, DistilBert 変圧器モデルを適用した。 比較を行うために3つのアプローチをデプロイし、最良のモデルは精度を得ることができた: 0.824、精度: 0.824、リコール: 0.798、f1スコア: 0.804。

The COVID-19 pandemic has caused drastic alternations in human life in all aspects. The government's laws in this regard affected the lifestyle of all people. Due to this fact studying the sentiment of individuals is essential to be aware of the future impacts of the coming pandemics. To contribute to this aim, we proposed an NLP (Natural Language Processing) model to analyze open-text answers in a survey in Persian and detect positive and negative feelings of the people in Iran. In this study, a distilBert transformer model was applied to take on this task. We deployed three approaches to perform the comparison, and our best model could gain accuracy: 0.824, Precision: 0.824, Recall: 0.798, and F1 score: 0.804.
翻訳日:2022-12-19 15:47:39 公開日:2022-12-16
# 自己教師型音声モデルの文脈認識微調整

Context-aware Fine-tuning of Self-supervised Speech Models ( http://arxiv.org/abs/2212.08542v1 )

ライセンス: Link先を確認
Suwon Shon, Felix Wu, Kwangyoun Kim, Prashant Sridhar, Karen Livescu, Shinji Watanabe(参考訳) 自己教師付き事前訓練型トランスフォーマーは、様々な音声タスクにおける技術状況を改善した。 自己アテンションの二次時間と空間複雑性のために、それらは通常比較的短いセグメント(例えば発話)のレベルで作用する。 本稿では, ファインチューニングにおけるコンテキスト, 周辺セグメントの利用について検討し, コンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。 事前学習したモデルの最後のレイヤの上にコンテキストモジュールをアタッチして、セグメント全体をコンテキスト埋め込みベクトルにエンコードし、最終予測のための追加機能として使用します。 微調整の段階では、このコンテキスト埋め込みベクトルを周囲のセグメントのコンテキストベクトルに類似させる補助的損失を導入する。 これにより、モデルが推論時にこれらの周辺セグメントにアクセスせずに予測を行うことができ、標準の微調整モデルに比べてほんの少しのオーバーヘッドしか必要としない。 本稿では,SLUE と Librilight のベンチマークを用いて,音声認識 (ASR) やエンティティ認識 (NER) ,感情分析 (SA) など,いくつかの下流タスクに対して提案手法を評価する。 その結果、文脈認識による微調整は、標準的な微調整ベースラインを上回るだけでなく、推論中に隣接する音声セグメントを使用する強い文脈注入ベースラインと競合することがわかった。

Self-supervised pre-trained transformers have improved the state of the art on a variety of speech tasks. Due to the quadratic time and space complexity of self-attention, they usually operate at the level of relatively short (e.g., utterance) segments. In this paper, we study the use of context, i.e., surrounding segments, during fine-tuning and propose a new approach called context-aware fine-tuning. We attach a context module on top of the last layer of a pre-trained model to encode the whole segment into a context embedding vector which is then used as an additional feature for the final prediction. During the fine-tuning stage, we introduce an auxiliary loss that encourages this context embedding vector to be similar to context vectors of surrounding segments. This allows the model to make predictions without access to these surrounding segments at inference time and requires only a tiny overhead compared to standard fine-tuned models. We evaluate the proposed approach using the SLUE and Librilight benchmarks for several downstream tasks: Automatic speech recognition (ASR), named entity recognition (NER), and sentiment analysis (SA). The results show that context-aware fine-tuning not only outperforms a standard fine-tuning baseline but also rivals a strong context injection baseline that uses neighboring speech segments during inference.
翻訳日:2022-12-19 15:47:27 公開日:2022-12-16
# 予測テキスト言語モデルにおける記憶コンテンツの植え付けと緩和

Planting and Mitigating Memorized Content in Predictive-Text Language Models ( http://arxiv.org/abs/2212.08619v1 )

ライセンス: Link先を確認
C.M. Downey, Wei Dai, Huseyin A. Inan, Kim Laine, Saurabh Naik, Tomasz Religa(参考訳) 言語モデルは、ユーザ製品に自動テキスト補完サービスを提供するために広くデプロイされている。 しかし、近年の研究では、言語モデル(特に大きなもの)が個人訓練データを記憶するかなりのリスクを負っており、敵による漏洩や抽出に弱いことが示されている。 本研究では,モデルサイズや逆境条件など他の要因を異にすると同時に,意図しないユーザテキストの暗記を緩和するプライバシ保存手法の有効性を検証した。 我々は、(正式なプライバシー保証なしに)「ヒューリスティック」な緩和策と、いくつかのモデルパフォーマンスのコストで証明可能なレベルのプライバシを提供する差分プライベートトレーニングの両方をテストします。 私たちの実験では、(l2の正規化を除いて)ヒューリスティックな緩和は、テストスイートの暗記化をほとんど防げないことを示している。 対照的に、差分プライバシーは計算とモデル性能のコストにもかかわらず、実験の記憶を確実に妨げます。

Language models are widely deployed to provide automatic text completion services in user products. However, recent research has revealed that language models (especially large ones) bear considerable risk of memorizing private training data, which is then vulnerable to leakage and extraction by adversaries. In this study, we test the efficacy of a range of privacy-preserving techniques to mitigate unintended memorization of sensitive user text, while varying other factors such as model size and adversarial conditions. We test both "heuristic" mitigations (those without formal privacy guarantees) and Differentially Private training, which provides provable levels of privacy at the cost of some model performance. Our experiments show that (with the exception of L2 regularization), heuristic mitigations are largely ineffective in preventing memorization in our test suite, possibly because they make too strong of assumptions about the characteristics that define "sensitive" or "private" text. In contrast, Differential Privacy reliably prevents memorization in our experiments, despite its computational and model-performance costs.
翻訳日:2022-12-19 15:47:05 公開日:2022-12-16
# デュアルストリームGANによる自由形状3次元シーンの絵画化

Free-form 3D Scene Inpainting with Dual-stream GAN ( http://arxiv.org/abs/2212.08464v1 )

ライセンス: Link先を確認
Ru-Fen Jheng, Tsung-Han Wu, Jia-Fong Yeh, Winston H. Hsu(参考訳) 近年,ARやVR技術の発展に伴い,3Dシーンでのユーザ編集の必要性が急速に高まっている。 しかし,既存の3次元シーン完了タスク(およびデータセット)は,シーン内の欠落領域がセンサ制限や物体閉塞によって生成されるため,ニーズに合致することができない。 そこで,自由形式の3dシーンインペインティングという新しいタスクを提案する。 従来の3dコンプリートデータセットのシーンとは異なり、提案されたインペインティングデータセットff-matterportには、3d空間における人間の描画の軌跡を模倣するフリーフォームの3dマスク生成アルゴリズムによって形成された、大きくて多様な欠落領域が含まれている。 さらに, 従来の3次元補完手法では, 近傍の幾何学や色コンテキストを補間するだけでは, この難易度かつ実用的な課題にうまく対応できない。 そこで,2重ストリームGAN法を提案する。 まず,幾何学的情報と色彩情報の両方を融合したデュアルストリーム生成器が,異なる意味的境界を生成し,補間問題を解く。 詳細をさらに高めるために, 軽量なデュアルストリーム判別器は, 予測されたシーンの形状と色エッジを, リアルかつシャープに再現する。 ff-matterportデータセットを用いて実験を行った。 定性的かつ定量的な結果は、既存のシーン補完法よりもアプローチの優位性と、提案するすべてのコンポーネントの有効性を検証した。

Nowadays, the need for user editing in a 3D scene has rapidly increased due to the development of AR and VR technology. However, the existing 3D scene completion task (and datasets) cannot suit the need because the missing regions in scenes are generated by the sensor limitation or object occlusion. Thus, we present a novel task named free-form 3D scene inpainting. Unlike scenes in previous 3D completion datasets preserving most of the main structures and hints of detailed shapes around missing regions, the proposed inpainting dataset, FF-Matterport, contains large and diverse missing regions formed by our free-form 3D mask generation algorithm that can mimic human drawing trajectories in 3D space. Moreover, prior 3D completion methods cannot perform well on this challenging yet practical task, simply interpolating nearby geometry and color context. Thus, a tailored dual-stream GAN method is proposed. First, our dual-stream generator, fusing both geometry and color information, produces distinct semantic boundaries and solves the interpolation issue. To further enhance the details, our lightweight dual-stream discriminator regularizes the geometry and color edges of the predicted scenes to be realistic and sharp. We conducted experiments with the proposed FF-Matterport dataset. Qualitative and quantitative results validate the superiority of our approach over existing scene completion methods and the efficacy of all proposed components.
翻訳日:2022-12-19 15:41:32 公開日:2022-12-16
# 赤外小目標検出のための一段階カスケード微細化ネットワーク

One-Stage Cascade Refinement Networks for Infrared Small Target Detection ( http://arxiv.org/abs/2212.08472v1 )

ライセンス: Link先を確認
Yimian Dai and Xiang Li and Fei Zhou and Yulei Qian and Yaohong Chen and Jian Yang(参考訳) 単一フレーム赤外線小目標(sirst)検出は、固有の特性の欠如、境界ボックス回帰の不正確さ、実世界のデータセットの不足、感度の高いローカライズ評価により、難しい課題となっている。 本稿では,これらの課題に対する包括的解決策を提案する。 まず、既存のアンカーフリーラベル割り当て手法は、小さなターゲットを背景として誤ラベルする傾向があり、検出器による排除につながる。 この問題を克服するため,本稿では,スケール上の制約を緩和し,接地対象から空間割り当てを分離する,全規模擬似ボックスに基づくラベル割当て方式を提案する。 第2に, 特徴ピラミッドの先行構造を動機として, 低レベル改良ヘッドのソフトプロポーザルとして高レベルヘッドを用いたワンステージカスケード改良ネットワーク(OSCAR)を導入する。 これによりOSCARは同じターゲットをカスケード間粗い方法で処理できる。 最後に,実世界のsirst-v2データセット,高分解能単一フレームターゲット,正規化コントラスト評価指標,深赤外検出用ツールキットからなる,赤外線小型ターゲット検出のための新たな研究ベンチマークを提案する。 SIRST-V2ベンチマークを用いてOSCARのコンポーネントの評価を行い、その性能を最先端のモデル駆動およびデータ駆動手法と比較する。 その結果,トップダウンカスケードリファインメントフレームワークは,効率を犠牲にすることなく,赤外小目標検出の精度を向上させることができることがわかった。 deepinfrared toolkit, dataset, training modelsはhttps://github.com/yimiandai/open-deepinfraredで入手できる。

Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
翻訳日:2022-12-19 15:41:04 公開日:2022-12-16
# ledcnet:uav空中リモートセンシング画像から地上物体を抽出するデュアルコンテキストモジュールを用いた軽量で効率的な意味セグメンテーションアルゴリズム

LEDCNet: A Lightweight and Efficient Semantic Segmentation Algorithm Using Dual Context Module for Extracting Ground Objects from UAV Aerial Remote Sensing Images ( http://arxiv.org/abs/2212.08490v1 )

ライセンス: Link先を確認
Xiaoxiang Han, Yiman Liu, Gang Liu, Qiaohong Liu(参考訳) UAVリモートセンシング画像のセマンティックセグメンテーションは、従来の測量とマッピングのためのより効率的で便利な測量とマッピング方法を提供する。 そこで本研究では,UAVリモートセンシング画像から地上特徴を抽出するLDMCNetという,軽量で効率的なネットワークを開発した。 一方,本研究では,提案するセマンティクスセグメンテーションモデルのための強力な軽量バックボーンネットワークを開発した。 LDCNetと呼ばれ、新しい世代の軽量セマンティックセグメンテーションアルゴリズムのバックボーンネットワークとなることが期待されている。 提案モデルは、Atrous Space Pyramid Pooling Module (ASPP) と Object Context Representation Module (OCR) という、2つのマルチスケールコンテキストモジュールを使用する。 この研究は、ドローンからのリモートセンシング画像の意味セグメンテーションのためのプライベートデータセットを構築している。 このデータセットには2431のトレーニングセット、945の検証セット、475のテストセットが含まれている。 提案したモデルは、1.4Mパラメータと5.48G浮動小数点演算(FLOPs)のみで、平均交叉対合同比(mIoU)は71.12%である。 7.88%がベースラインモデルより高い。 提案モデルの有効性を検証するため,公開データセットの「LoveDA」と「CITY-OSM」のトレーニングも,それぞれ65.27%,74.39%のmIoUを達成した。

Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
翻訳日:2022-12-19 15:40:29 公開日:2022-12-16
# クロスバッチクラスタリングガイダンスに基づく弱教師付きビデオ異常検出

Weakly Supervised Video Anomaly Detection Based on Cross-Batch Clustering Guidance ( http://arxiv.org/abs/2212.08506v1 )

ライセンス: Link先を確認
Congqi Cao, Xin Zhang, Shizhou Zhang, Peng Wang, and Yanning Zhang(参考訳) ビデオレベルのラベルのみをトレーニングできるため、弱教師付きビデオ異常検出(WSVAD)は難しい課題である。 従来の研究では,学習特徴の識別力は十分ではないため,ミニバッチ学習戦略によるデータ不均衡は無視されている。 そこで本研究では,クロスバッチクラスタリングによる新しいwsvad手法を提案する。 特徴の判別能力を高めるため,バッチクラスタリングに基づく損失処理を提案し,クラスタリングブランチがバッチデータに基づいて,正規クラスタと異常クラスタをそれぞれ生成することを奨励する。 一方,従来のミニバッチからのクラスタリング結果を導入して,データ不均衡の影響を低減し,クロスバッチ学習戦略を設計する。 さらに、バッチクラスタリングガイダンスに基づくセグメントレベルのアノマリースコアをより正確に生成し、さらにwsvadの性能を向上させることを提案する。 2つの公開データセットに対する大規模な実験は、我々のアプローチの有効性を示す。

Weakly supervised video anomaly detection (WSVAD) is a challenging task since only video-level labels are available for training. In previous studies, the discriminative power of the learned features is not strong enough, and the data imbalance resulting from the mini-batch training strategy is ignored. To address these two issues, we propose a novel WSVAD method based on cross-batch clustering guidance. To enhance the discriminative power of features, we propose a batch clustering based loss to encourage a clustering branch to generate distinct normal and abnormal clusters based on a batch of data. Meanwhile, we design a cross-batch learning strategy by introducing clustering results from previous mini-batches to reduce the impact of data imbalance. In addition, we propose to generate more accurate segment-level anomaly scores based on batch clustering guidance further improving the performance of WSVAD. Extensive experiments on two public datasets demonstrate the effectiveness of our approach.
翻訳日:2022-12-19 15:40:01 公開日:2022-12-16
# RGBカメラを用いた雪林環境の道路検出

Road Detection in Snowy Forest Environment using RGB Camera ( http://arxiv.org/abs/2212.08511v1 )

ライセンス: Link先を確認
Sirawich Vachmanus, Takanori Emaru, Ankit A. Ravankar, Yukinori Kobayashi(参考訳) 自動運転技術はここ数年で大きな勢いを増している。 探査分野では、ナビゲーションが自律的な運用の重要な鍵である。 雪環境などの困難なシナリオでは,道路は雪で覆われており,この状況では基本的な技術だけで道路検出は不可能である。 本稿では,RGBカメラを用いた森林環境における雪道の検出について紹介する。 画像成分を分類するために、ノイズフィルタリング技術と形態演算を組み合わせる。 すべての道路が雪に覆われ、雪の部分は道路エリアと定義されていると仮定する。 道路の視点から見ると、道路の消滅点は道路の領域を包含する要因の1つである。 この消滅点は、整合三角形の技法で見いだされる。 False Negative RateとFalse Positive Rateの2つの誤差値でアルゴリズムの性能を評価する。 この誤差は, 直線道路では道路検出の効率が高いが, 曲線道路では性能が低いことを示す。 この道路領域にカメラからの奥行き情報を適用し,今後の作業における障害物検出を行う。

Automated driving technology has gained a lot of momentum in the last few years. For the exploration field, navigation is the important key for autonomous operation. In difficult scenarios such as snowy environment, the road is covered with snow and road detection is impossible in this situation using only basic techniques. This paper introduces detection of snowy road in forest environment using RGB camera. The method combines noise filtering technique with morphological operation to classify the image component. By using the assumption that all road is covered by snow and the snow part is defined as road area. From the perspective image of road, the vanishing point of road is one of factor to scope the region of road. This vanishing point is found with fitting triangle technique. The performance of algorithm is evaluated by two error value: False Negative Rate and False Positive Rate. The error shows that the method has high efficiency for detect road with straight road but low performance for curved road. This road region will be applied with depth information from camera to detect for obstacle in the future work.
翻訳日:2022-12-19 15:39:47 公開日:2022-12-16
# 検出対応多対象追跡評価

Detection-aware multi-object tracking evaluation ( http://arxiv.org/abs/2212.08536v1 )

ライセンス: Link先を確認
Juan C. SanMiguel, Jorge Mu\~noz, Fabio Poiesi(参考訳) 2つの多対象追跡アルゴリズム(つまりトラッカー)は、それぞれ異なる物体検出器を用いてどのように評価するのですか? 検出器は改善を続けるため、トラッカーは時間の経過とともにオブジェクト状態を見積もる労力を減らすことができる。 新しい検出器を使った新しいトラッカーと、古い検出器を使った別のトラッカーを比較するのが妥当だろうか? 本稿では,異なる検出器を用いたトラッカー評価を行うため,TEM(Tracking Effort Measure)と呼ばれる新しい性能指標を提案する。 TEMは、トラッカーが入力データ(すなわち、フレーム間複雑性)とシーケンスレベル(フレーム間複雑さ)に関して行う改善を推定する。 我々は、よく知られたデータセット、4つのトラッカー、8つの検出セットに対してTEMを評価する。 その結果、従来のトラッキング評価尺度とは異なり、temは入力検出の相関が小さく、トラッカーが行う労力を定量化できることがわかった。 実装はhttps://github.com/vpulab/MOT-evaluation.comで公開されている。

How would you fairly evaluate two multi-object tracking algorithms (i.e. trackers), each one employing a different object detector? Detectors keep improving, thus trackers can make less effort to estimate object states over time. Is it then fair to compare a new tracker employing a new detector with another tracker using an old detector? In this paper, we propose a novel performance measure, named Tracking Effort Measure (TEM), to evaluate trackers that use different detectors. TEM estimates the improvement that the tracker does with respect to its input data (i.e. detections) at frame level (intra-frame complexity) and sequence level (inter-frame complexity). We evaluate TEM over well-known datasets, four trackers and eight detection sets. Results show that, unlike conventional tracking evaluation measures, TEM can quantify the effort done by the tracker with a reduced correlation on the input detections. Its implementation is publicly available online at https://github.com/vpulab/MOT-evaluation.
翻訳日:2022-12-19 15:39:35 公開日:2022-12-16
# 異なる領域間のロバスト変化検出のためのセミ・シームズネットワークと3次元印刷への応用

Semi-Siamese Network for Robust Change Detection Across Different Domains with Applications to 3D Printing ( http://arxiv.org/abs/2212.08583v1 )

ライセンス: Link先を確認
Yushuo Niu, Ethan Chadwick, Anson W. K. Ma, Qian Yang(参考訳) 変化検出問題と多くの特性を共有できる3dプリントプロセスの欠陥自動検出は、3dプリント製品の品質管理にとって重要なステップである。 しかし、現在の状況にはいくつかの重大な課題がある。 まず、コンピュータビジョンに基づくプロセス監視の既存の方法は、通常、特定のカメラ視点や照明状況下でのみうまく機能し、高価な前処理、アライメント、カメラの設定を必要とする。 第2に、多くの欠陥検出技術は、予め定義された欠陥パターンやプリントスキーマに特化している。 本研究では,所望のプリントの参照図式と達成したプリントのカメラ画像とを直接比較する,新たなセミシャム深層学習モデルを用いて,自動欠陥検出問題に異なるアプローチを行う。 次に、モデルが画像分割問題を解決し、参照フレームに関する欠陥の位置を特定する。 多くの変化検出問題とは異なり、このモデルは異なる領域からの画像を扱うために特別に開発されており、カメラアングルや照明などの撮像装置の摂動に対して堅牢である。 欠陥ローカライゼーション予測は、標準のMacBookProを使って1層あたり2.75秒で行われ、これはインクジェットベースの3Dプリンターで1層を印刷するのに数十秒以下と同等であり、F1スコアは0.9以上である。

Automatic defect detection for 3D printing processes, which shares many characteristics with change detection problems, is a vital step for quality control of 3D printed products. However, there are some critical challenges in the current state of practice. First, existing methods for computer vision-based process monitoring typically work well only under specific camera viewpoints and lighting situations, requiring expensive pre-processing, alignment, and camera setups. Second, many defect detection techniques are specific to pre-defined defect patterns and/or print schematics. In this work, we approach the automatic defect detection problem differently using a novel Semi-Siamese deep learning model that directly compares a reference schematic of the desired print and a camera image of the achieved print. The model then solves an image segmentation problem, identifying the locations of defects with respect to the reference frame. Unlike most change detection problems, our model is specially developed to handle images coming from different domains and is robust against perturbations in the imaging setup such as camera angle and illumination. Defect localization predictions were made in 2.75 seconds per layer using a standard MacBookPro, which is comparable to the typical tens of seconds or less for printing a single layer on an inkjet-based 3D printer, while achieving an F1-score of more than 0.9.
翻訳日:2022-12-19 15:39:19 公開日:2022-12-16
# 視覚変換器による調理状態認識の再考

Rethinking Cooking State Recognition with Vision Transformers ( http://arxiv.org/abs/2212.08586v1 )

ライセンス: Link先を確認
Akib Mohammed Khan, Alif Ashrafee, Reeshoon Sayera, Shahriar Ivan, and Sabbir Ahmed(参考訳) キッチン環境の適切な知識表現を確保するためには,調理中の食品の状態をキッチンロボットが認識することが不可欠である。 物体検出・認識の領域は広く研究されてきたが、対象状態分類の課題はいまだに解明されていない。 調理状態の異なる成分のクラス内類似度が高いため、作業はさらに困難になる。 研究者は近年、ディープラーニングベースの戦略の採用を提案しているが、ハイパフォーマンスには至っていない。 本研究では,料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己注意機構を利用した。 提案されたアプローチは、画像からグローバルにサルエントな特徴をカプセル化すると同時に、より大きなデータセットから得られた重みも活用する。 このグローバルな注意によって、モデルは異なる調理対象のサンプル間の類似性に耐えることができる一方、転校学習の雇用は、事前訓練された重みを利用して誘導バイアスの欠如を克服するのに役立つ。 認識精度を向上させるため、いくつかの拡張技術も採用されている。 The Cooking State Recognition Challenge Dataset' で提案したフレームワークの評価は94.3%の精度を達成し,最先端技術よりも大幅に向上した。

To ensure proper knowledge representation of the kitchen environment, it is vital for kitchen robots to recognize the states of the food items that are being cooked. Although the domain of object detection and recognition has been extensively studied, the task of object state classification has remained relatively unexplored. The high intra-class similarity of ingredients during different states of cooking makes the task even more challenging. Researchers have proposed adopting Deep Learning based strategies in recent times, however, they are yet to achieve high performance. In this study, we utilized the self-attention mechanism of the Vision Transformer (ViT) architecture for the Cooking State Recognition task. The proposed approach encapsulates the globally salient features from images, while also exploiting the weights learned from a larger dataset. This global attention allows the model to withstand the similarities between samples of different cooking objects, while the employment of transfer learning helps to overcome the lack of inductive bias by utilizing pretrained weights. To improve recognition accuracy, several augmentation techniques have been employed as well. Evaluation of our proposed framework on the `Cooking State Recognition Challenge Dataset' has achieved an accuracy of 94.3%, which significantly outperforms the state-of-the-art.
翻訳日:2022-12-19 15:38:55 公開日:2022-12-16
# huruf:ディープラーニングを用いたアラビア語手書き文字認識への応用

Huruf: An Application for Arabic Handwritten Character Recognition Using Deep Learning ( http://arxiv.org/abs/2212.08610v1 )

ライセンス: Link先を確認
Minhaz Kamal, Fairuz Shaiara, Chowdhury Mohammad Abdullah, Sabbir Ahmed, Tasnim Ahmed, and Md. Hasanul Kabir(参考訳) 手書き認識は人工知能分野において大きな関心を集めている分野である。 実生活で広く使われているため、研究が盛んに行われている。 この分野では、主にラテン文字に焦点をあてた作品が有名である。 しかし、アラビア文字認識の領域はまだ比較的未解明である。 アラビア語の文字の固有の呪文的性質と個人間の書き方の変化は、タスクをさらに難しくする。 そこで我々は,アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。 提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均プールとDenseレイヤの4つのレイヤを含む合計18層で構成されている。 さらに,オプティマイザの選択,カーネルの初期化,アクティベーション機能など,ハイパーパラメータの異なる選択を徹底的に検討した。 一般に公開されている「アラビア手書き文字データセット(AHCD)」と「修正アラビア手書き文字データベース(MadBase)」のデータセットに基づいて提案されたアーキテクチャを評価し、提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適している。

Handwriting Recognition has been a field of great interest in the Artificial Intelligence domain. Due to its broad use cases in real life, research has been conducted widely on it. Prominent work has been done in this field focusing mainly on Latin characters. However, the domain of Arabic handwritten character recognition is still relatively unexplored. The inherent cursive nature of the Arabic characters and variations in writing styles across individuals makes the task even more challenging. We identified some probable reasons behind this and proposed a lightweight Convolutional Neural Network-based architecture for recognizing Arabic characters and digits. The proposed pipeline consists of a total of 18 layers containing four layers each for convolution, pooling, batch normalization, dropout, and finally one Global average pooling and a Dense layer. Furthermore, we thoroughly investigated the different choices of hyperparameters such as the choice of the optimizer, kernel initializer, activation function, etc. Evaluating the proposed architecture on the publicly available 'Arabic Handwritten Character Dataset (AHCD)' and 'Modified Arabic handwritten digits Database (MadBase)' datasets, the proposed model respectively achieved an accuracy of 96.93% and 99.35% which is comparable to the state-of-the-art and makes it a suitable solution for real-life end-level applications.
翻訳日:2022-12-19 15:38:36 公開日:2022-12-16
# Atrous Space Bender U-Net (ASBU-Net/LogiNet)

Atrous Space Bender U-Net (ASBU-Net/LogiNet) ( http://arxiv.org/abs/2212.08613v1 )

ライセンス: Link先を確認
Anurag Bansal (1), Oleg Ostap (1), Miguel Maestre Trueba (1), Kristopher Perry (1) ((1) Logitech Inc.)(参考訳) cnnの最近の進歩により、精度とレイテンシの観点から高解像度画像の意味セグメンテーションが大幅に改善されている。 しかし、混み合ったシーン、大規模な変動、部分閉塞、歪みの検出には依然として課題が残っており、移動性や遅延は維持されている。 高速かつ効率的な畳み込みニューラルネットワークであるASBU-Netを導入し、これらの問題に対処し、量子化や組込みハードウェアサポートに新しいレイヤを使わない高解像度画像のセマンティックセグメンテーションを行う。 ASBU-Netは、計算とメモリの点で効率的である、新しい特徴抽出モジュール、アラス空間ベンダー層(ASBL)に基づいている。 ASB層はASBNetを作るのに使用されるビルディングブロックを形成する。 このネットワークは特別な層を一切使用しないため、メモリに制限のあるfpgaや他のハードウェアに実装、量子化、デプロイが容易である。 資源と精度のトレードオフに関する実験を行い、他の一般的なモデルと比較して高い性能を示す。

$ $With recent advances in CNNs, exceptional improvements have been made in semantic segmentation of high resolution images in terms of accuracy and latency. However, challenges still remain in detecting objects in crowded scenes, large scale variations, partial occlusion, and distortions, while still maintaining mobility and latency. We introduce a fast and efficient convolutional neural network, ASBU-Net, for semantic segmentation of high resolution images that addresses these problems and uses no novelty layers for ease of quantization and embedded hardware support. ASBU-Net is based on a new feature extraction module, atrous space bender layer (ASBL), which is efficient in terms of computation and memory. The ASB layers form a building block that is used to make ASBNet. Since this network does not use any special layers it can be easily implemented, quantized and deployed on FPGAs and other hardware with limited memory. We present experiments on resource and accuracy trade-offs and show strong performance compared to other popular models.
翻訳日:2022-12-19 15:38:16 公開日:2022-12-16
# Hippocampus-Inspireed Cognitive Architecture (HICA) for Operant Conditioning

Hippocampus-Inspired Cognitive Architecture (HICA) for Operant Conditioning ( http://arxiv.org/abs/2212.08626v1 )

ライセンス: Link先を確認
Deokgun Park, Md Ashaduzzaman Rubel Mondol, SM Mazharul Islam, Aishwarya Pothula(参考訳) 少数の試行錯誤によるオペラント・コンディショニングの神経的実装は明らかでない。 本稿では,Hippocampus-Inspired Cognitive Architecture (HICA) を動作条件付けのための神経機構として提案する。 HICAは、哺乳類がオペラント条件付け実験で行うように、エージェントがいくつかの試験で新しい行動ポリシーを学ぶことができる学習メカニズムを説明する。 HICAは2種類のモジュールから構成される。 ひとつは、新皮質灰白質の皮質列を表す普遍的な学習モジュールタイプである。 動作原理はModulated Heterarchical Prediction Memory (mHPM)としてモデル化される。 mHPMでは、各モジュールは、下位層からの入力ベクトルのシーケンスと上位層からのコンテキストベクトルが与えられた後続の入力ベクトルを予測することを学習する。 予測は、コンテキスト信号(トップダウンフィードバック信号)として下位層に、入力信号(ボトムアップフィードフォワード信号)として上位層に供給される。 リワードはこれらのモジュールの学習率を変調し、意味のあるシーケンスを効果的に記憶する。 mHPMでは、各モジュールは、単一目的損失のバックプロパゲーションを伴う従来のエンドツーエンド学習と比較して、局所的および分散的に更新される。 この局所構造はモジュールの階層的ネットワークを可能にする。 第2のタイプは、脳皮質下系の様々な器官を表現する、自然の特別な目的のモジュールである。 扁桃体、海馬、報酬センターなどの臓器をモデル化するモジュールは、本能的な行動を可能にするために事前にプログラムされている。 海馬はシミュレータの役割を担います。 これはメモリのループ構造を持つ最上層レベルの信号の自己回帰予測モデルであり、皮質列はシミュレーションに詳細な情報を提供する低層である。 シミュレーションは、少数の試行錯誤と、オペラントコンディショニングに必要な計画を立てる上での基礎となる。

The neural implementation of operant conditioning with few trials is unclear. We propose a Hippocampus-Inspired Cognitive Architecture (HICA) as a neural mechanism for operant conditioning. HICA explains a learning mechanism in which agents can learn a new behavior policy in a few trials, as mammals do in operant conditioning experiments. HICA is composed of two different types of modules. One is a universal learning module type that represents a cortical column in the neocortex gray matter. The working principle is modeled as Modulated Heterarchical Prediction Memory (mHPM). In mHPM, each module learns to predict a succeeding input vector given the sequence of the input vectors from lower layers and the context vectors from higher layers. The prediction is fed into the lower layers as a context signal (top-down feedback signaling), and into the higher layers as an input signal (bottom-up feedforward signaling). Rewards modulate the learning rate in those modules to memorize meaningful sequences effectively. In mHPM, each module updates in a local and distributed way compared to conventional end-to-end learning with backpropagation of the single objective loss. This local structure enables the heterarchical network of modules. The second type is an innate, special-purpose module representing various organs of the brain's subcortical system. Modules modeling organs such as the amygdala, hippocampus, and reward center are pre-programmed to enable instinctive behaviors. The hippocampus plays the role of the simulator. It is an autoregressive prediction model of the top-most level signal with a loop structure of memory, while cortical columns are lower layers that provide detailed information to the simulation. The simulation becomes the basis for learning with few trials and the deliberate planning required for operant conditioning.
翻訳日:2022-12-19 15:32:26 公開日:2022-12-16
# 位置対応適応非正規化:山火事危険予測のための深層学習アプローチ

Location-aware Adaptive Denormalization: A Deep Learning Approach For Wildfire Danger Forecasting ( http://arxiv.org/abs/2212.08208v1 )

ライセンス: Link先を確認
Mohamad Hakam Shams Eddin, Ribana Roscher, Juergen Gall(参考訳) 気候変動は、気候サイクルの極端な出来事を激化させ、増大させると予想されている。 これは我々の生活の様々な分野に大きな影響を与えるため、最近の研究は地球観測からこのような極端な事象を特定し予測することに関心がある。 本稿では,山火事危険予測のための2次元/3次元畳み込みニューラルネットワーク(cnn)を提案する。 統一フレームワークを使用するには、以前のアプローチでは、時間次元に沿って静的変数を重複させ、静的変数と動的変数の固有の違いを無視する。 さらに、既存の多くのマルチブランチアーキテクチャは、機能学習の段階でブランチ間の相互接続を失う。 これらの問題に対処するため,位置対応適応非正規化層 (LOADE) を用いた2分岐アーキテクチャを提案する。 LOADEをビルディングブロックとして使用することにより、地理的な位置を条件に動的特徴を変調することができる。 そこで本研究では,特徴特性を複合2D/3Dモデルとして考察する。 さらに,時間関連予測問題に対する絶対時間符号化法を提案する。 実験結果は,firecubeデータセットの他のベースラインよりも優れた性能を示している。

Climate change is expected to intensify and increase extreme events in the weather cycle. Since this has a significant impact on various sectors of our life, recent works are concerned with identifying and predicting such extreme events from Earth observations. This paper proposes a 2D/3D two-branch convolutional neural network (CNN) for wildfire danger forecasting. To use a unified framework, previous approaches duplicate static variables along the time dimension and neglect the intrinsic differences between static and dynamic variables. Furthermore, most existing multi-branch architectures lose the interconnections between the branches during the feature learning stage. To address these issues, we propose a two-branch architecture with a Location-aware Adaptive Denormalization layer (LOADE). Using LOADE as a building block, we can modulate the dynamic features conditional on their geographical location. Thus, our approach considers feature properties as a unified yet compound 2D/3D model. Besides, we propose using an absolute temporal encoding for time-related forecasting problems. Our experimental results show a better performance of our approach than other baselines on the challenging FireCube dataset.
翻訳日:2022-12-19 15:32:01 公開日:2022-12-16
# データフリークラスインクリメンタルラーニングのためのロバストな塩分指導

Robust Saliency Guidance for Data-free Class Incremental Learning ( http://arxiv.org/abs/2212.08251v1 )

ライセンス: Link先を確認
Xialei Liu, Jiang-Tian Zhai, Andrew D. Bagdanov, Ke Li, Ming-Ming Cheng(参考訳) Data-Free Class Incremental Learning (DFCIL)は、現在のデータのみにアクセスしてタスクを逐次学習することを目的としている。 DFCILは、プライバシーとデータの長期保存に関する懸念を軽減すると同時に、漸進的な学習における破滅的な忘れの問題を軽減するため、興味深い。 本研究では,DFCILに対するロバスト・サリエンシ・スーパービジョン(ROOSS)と呼ばれる新しい枠組みを提案し,サリエンシ・ドリフトの負の効果を緩和する。 まず,低レベルなタスクを活かした教師学生アーキテクチャを用いて,モデルをグローバルなサリエンシで監視する。 また、中間層における物体の境界を越えての漂流を防止するために境界誘導塩分法を適用した。 最後に,サリエンシ保存の堅牢性を高めるために,サリエンシノイズの注入と回復のためのモジュールを導入する。 提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset DFCILベンチマークを用いて,タスク間でのより優れたサリエンシマップを維持できることを示す。 コードは公開される予定だ。

Data-Free Class Incremental Learning (DFCIL) aims to sequentially learn tasks with access only to data from the current one. DFCIL is of interest because it mitigates concerns about privacy and long-term storage of data, while at the same time alleviating the problem of catastrophic forgetting in incremental learning. In this work, we introduce robust saliency guidance for DFCIL and propose a new framework, which we call RObust Saliency Supervision (ROSS), for mitigating the negative effect of saliency drift. Firstly, we use a teacher-student architecture leveraging low-level tasks to supervise the model with global saliency. We also apply boundary-guided saliency to protect it from drifting across object boundaries at intermediate layers. Finally, we introduce a module for injecting and recovering saliency noise to increase robustness of saliency preservation. Our experiments demonstrate that our method can retain better saliency maps across tasks and achieve state-of-the-art results on the CIFAR-100, Tiny-ImageNet and ImageNet-Subset DFCIL benchmarks. Code will be made publicly available.
翻訳日:2022-12-19 15:31:45 公開日:2022-12-16
# dqnet:camouflaged object detectionのためのクロスモデル詳細クエリ

DQnet: Cross-Model Detail Querying for Camouflaged Object Detection ( http://arxiv.org/abs/2212.08296v1 )

ライセンス: Link先を確認
Wei Sun, Chengao Liu, Linyan Zhang, Yu Li, Pengxu Wei, Chang Liu, Jialing Zou, Jianbin Jiao, Qixiang Ye(参考訳) カモフラージュされた物体は周囲とシームレスに混ざり合っており、コンピュータービジョンにおいて困難な検出タスクをもたらす。 カモフラージュされた物体検出(COD)のための畳み込みニューラルネットワーク(CNN)の最適化は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向があり、必然的にオブジェクトの欠落または冗長な領域につながる部分的な活性化問題を引き起こす。 本稿では,畳み込み操作が局所受容野を生成し,画像領域間の長距離特徴依存性を捉えにくいcnnの固有特性が部分活性化の原因であると主張する。 完全なオブジェクトの範囲を活性化できる特徴マップを得るため、セグメント結果がノイズの多い特徴に圧倒されることを防ぎ、新しいフレームワークであるクロスモデル詳細クエリネットワーク(dqnet)を提案する。 長距離対応表現とマルチスケール局所詳細の関係から、拡張された表現は対象領域を完全に強調し、非対象領域のノイズを排除する。 具体的には、イメージ領域間の長距離依存関係をモデル化するために、自己教師付き学習(SSL)で事前訓練されたバニラViTを用いる。 ResNetは、複数のスケールできめ細かい空間的詳細を学習するために使用される。 次に,オブジェクト関連の詳細を効果的に検索するために,グローバル表現とマルチスケールローカル詳細との間のウィンドウベースのインタラクションを探索するRBQモジュールを提案する。 広く使われているcodデータセットで広範な実験が行われ、dqnetが現在の最先端よりも優れています。

Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.
翻訳日:2022-12-19 15:31:22 公開日:2022-12-16
# クロスモーダル教師としてのオートエンコーダー:事前訓練された2Dイメージトランスフォーマーは3D表現学習に役立つか?

Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning? ( http://arxiv.org/abs/2212.08320v1 )

ライセンス: Link先を確認
Runpei Dong, Zekun Qi, Linfeng Zhang, Junbo Zhang, Jianjian Sun, Zheng Ge, Li Yi, Kaisheng Ma(参考訳) ディープラーニングの成功は、包括的なラベルを持つ大規模データに大きく依存しており、2d画像や自然言語に比べて3dで取得するコストが高く、時間がかかる。 このことは、クロスモーダルな知識伝達の教師として3D以上のデータで事前訓練されたモデルを活用する可能性を促進する。 本稿では,2次元画像や自然言語で事前学習した基礎トランスフォーマーが,クロスモーダル教師(act)としてのオートエンコーダを訓練することで,自己教師による3次元表現学習を支援することを示す。 プリトレーニングされたトランスフォーマーは、離散的な変分オートエンコーディングによる自己スーパービジョンを使用して、クロスモーダルな3d教師として転送される。 暗黒知識を基礎幾何学的理解として3Dトランスフォーマーの学生に蒸留するマスク付きポイントモデリングのターゲットとして、3D教師が符号化した潜伏特徴を用いる。 我々のACT事前訓練された3D学習者は、様々なダウンストリームベンチマーク、例えばScanObjectNNにおける88.21%の全体的な精度で最先端の一般化能力を達成する。 コードはhttps://github.com/runpeidong/actでリリースされる。

The success of deep learning heavily relies on large-scale data with comprehensive labels, which is more expensive and time-consuming to fetch in 3D compared to 2D images or natural languages. This promotes the potential of utilizing models pretrained with data more than 3D as teachers for cross-modal knowledge transferring. In this paper, we revisit masked modeling in a unified fashion of knowledge distillation, and we show that foundational Transformers pretrained with 2D images or natural languages can help self-supervised 3D representation learning through training Autoencoders as Cross-Modal Teachers (ACT). The pretrained Transformers are transferred as cross-modal 3D teachers using discrete variational autoencoding self-supervision, during which the Transformers are frozen with prompt tuning for better knowledge inheritance. The latent features encoded by the 3D teachers are used as the target of masked point modeling, wherein the dark knowledge is distilled to the 3D Transformer students as foundational geometry understanding. Our ACT pretrained 3D learner achieves state-of-the-art generalization capacity across various downstream benchmarks, e.g., 88.21% overall accuracy on ScanObjectNN. Codes will be released at https://github.com/RunpeiDong/ACT.
翻訳日:2022-12-19 15:30:55 公開日:2022-12-16
# MEIL-NeRF: 記憶効率の良いニューラルラジアンス場のインクリメンタル学習

MEIL-NeRF: Memory-Efficient Incremental Learning of Neural Radiance Fields ( http://arxiv.org/abs/2212.08328v1 )

ライセンス: Link先を確認
Jaeyoung Chung, Kanggeon Lee, Sungyong Baik, Kyoung Mu Lee(参考訳) ニューラルネットワークの表現力に基づいて、ニューラルラジアンス場(NeRF)は、3Dオブジェクトとシーン表現の有望かつ広く適用可能な方法の1つとして最近登場した。 しかし、NeRFは大規模なシーンや限られたメモリを持つエッジデバイスなど、データのシーケンシャルな処理が必要な実用上の課題に直面している。 このようなインクリメンタルな学習シナリオでは、ニューラルネットワークが壊滅的な忘れ去に苦しむことが知られています。 従来のインクリメンタル学習アルゴリズムは、低パフォーマンスまたはメモリスケーラビリティの問題によって制限されている。 そこで我々は,NeRF(MEIL-NeRF)のためのメモリ効率向上学習アルゴリズムを開発した。 MEIL-NeRFはNeRF自体からインスピレーションを得て、ニューラルネットワークがクエリとして与えられたピクセルRGB値を提供するメモリとして機能する。 モチベーションが整うと、我々のフレームワークは、NeRFを問合せして以前のピクセル値を抽出する光線を学習する。 抽出した画素値を用いて、NeRFを自己蒸留で訓練し、破滅的忘れを防止する。 その結果、meil-nerfは一定のメモリ消費と競合性能を示す。

Hinged on the representation power of neural networks, neural radiance fields (NeRF) have recently emerged as one of the promising and widely applicable methods for 3D object and scene representation. However, NeRF faces challenges in practical applications, such as large-scale scenes and edge devices with a limited amount of memory, where data needs to be processed sequentially. Under such incremental learning scenarios, neural networks are known to suffer catastrophic forgetting: easily forgetting previously seen data after training with new data. We observe that previous incremental learning algorithms are limited by either low performance or memory scalability issues. As such, we develop a Memory-Efficient Incremental Learning algorithm for NeRF (MEIL-NeRF). MEIL-NeRF takes inspiration from NeRF itself in that a neural network can serve as a memory that provides the pixel RGB values, given rays as queries. Upon the motivation, our framework learns which rays to query NeRF to extract previous pixel values. The extracted pixel values are then used to train NeRF in a self-distillation manner to prevent catastrophic forgetting. As a result, MEIL-NeRF demonstrates constant memory consumption and competitive performance.
翻訳日:2022-12-19 15:30:31 公開日:2022-12-16
# 2次元画像のセグメンテーションを改善するための3d機能の軽量統合

Lightweight integration of 3D features to improve 2D image segmentation ( http://arxiv.org/abs/2212.08334v1 )

ライセンス: Link先を確認
Olivier Pradelle and Raphaelle Chaine and David Wendland and Julie Digne(参考訳) シーン理解は、今日のコンピュータビジョンの大きな課題である。 このタスクの中心はイメージセグメンテーションであり、シーンは画像のセットとして提供されることが多い。 今日では、レーザースキャナーや深度カメラによって取得された3Dポイントクラウドとして与えられる3Dジオメトリ情報も提供している。 この幾何学的情報を活用するために、現在の多くのアプローチは2Dの損失と3Dの損失の両方に依存しており、ピクセル毎のラベルだけでなく、ポイント毎のラベルも必要である。 しかし、3Dの基盤となることは難しく、時間がかかり、エラーが発生しやすい。 本稿では,2次元セグメンテーション損失による幾何学的特徴抽出をエンド・ツー・エンドの方法で訓練することにより,3次元の幾何学的情報から画像セグメンテーションの恩恵を受けることを示す。 提案手法は,軽量でシンプルな3dエンコーダニューラルネットワークを用いて,ポイントクラウドから直接3d特徴のマップを抽出することから始まる。 3d特徴マップは、古典的な画像セグメンテーションネットワークへの追加入力として使用される。 トレーニング中、3d特徴抽出はパイプライン全体のバックプロパゲーションによってセグメンテーションタスクに最適化される。 提案手法は,3次元基底構造を必要としないため,より軽量な入力データセットを必要とする技術性能を示す。

Scene understanding is a major challenge of today's computer vision. Center to this task is image segmentation, since scenes are often provided as a set of pictures. Nowadays, many such datasets also provide 3D geometry information given as a 3D point cloud acquired by a laser scanner or a depth camera. To exploit this geometric information, many current approaches rely on both a 2D loss and 3D loss, requiring not only 2D per pixel labels but also 3D per point labels. However obtaining a 3D groundtruth is challenging, time-consuming and error-prone. In this paper, we show that image segmentation can benefit from 3D geometric information without requiring any 3D groundtruth, by training the geometric feature extraction with a 2D segmentation loss in an end-to-end fashion. Our method starts by extracting a map of 3D features directly from the point cloud by using a lightweight and simple 3D encoder neural network. The 3D feature map is then used as an additional input to a classical image segmentation network. During training, the 3D features extraction is optimized for the segmentation task by back-propagation through the entire pipeline. Our method exhibits state-of-the-art performance with much lighter input dataset requirements, since no 3D groundtruth is required.
翻訳日:2022-12-19 15:30:09 公開日:2022-12-16
# ユニバーサルドメイン適応のためのプロトタイプと相互点の学習分類器

Learning Classifiers of Prototypes and Reciprocal Points for Universal Domain Adaptation ( http://arxiv.org/abs/2212.08355v1 )

ライセンス: Link先を確認
Sungsu Hur, Inkyu Shin, Kwanyong Park, Sanghyun Woo, In So Kweon(参考訳) Universal Domain Adaptationは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。 主な課題は、既知のクラス知識の分布をソースからターゲットに適応しながら、未知のターゲットサンプルを正しく区別することである。 既存のほとんどの手法は、まずターゲット適応された既知の分類器を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。 しかし、この単純なしきい値に基づくアプローチは、高次元特徴空間における既知のサンプルと未知のサンプルの間に存在する基本的な複雑さをモデルが考慮することを妨げる。 本稿では,2つの特徴点,すなわちプロトタイプと相互変換(cpr)の2つの分類器を用いた新しい手法を提案する。 私たちのキーとなるアイデアは、それぞれのプロトタイプを既知のクラスの特徴に関連付けながら、これらのプロトタイプから相互にプッシュして、潜在的な未知の機能空間に配置することです。 対象のサンプルは、テスト時にどの逆数の近くに落ちても未知であると分類される。 フレームワークのトレーニングを成功させるために、提案した多基準選択に基づいて、未知または未知と分類された部分的かつ確実なターゲットサンプルを収集する。 さらに、エントロピー損失正規化をそれらに適用する。 さらに適応するために、入力の2つの異なるビューの予測と一致する標準整合正則化を適用し、よりコンパクトなターゲット特徴空間を作成する。 提案手法であるcprを3つの標準ベンチマークで評価し,同等あるいは新しい結果を得た。 フレームワークの主な設計選択を検証するために、広範なアブレーション実験も行っています。

Universal Domain Adaptation aims to transfer the knowledge between the datasets by handling two shifts: domain-shift and category-shift. The main challenge is correctly distinguishing the unknown target samples while adapting the distribution of known class knowledge from source to target. Most existing methods approach this problem by first training the target adapted known classifier and then relying on the single threshold to distinguish unknown target samples. However, this simple threshold-based approach prevents the model from considering the underlying complexities existing between the known and unknown samples in the high-dimensional feature space. In this paper, we propose a new approach in which we use two sets of feature points, namely dual Classifiers for Prototypes and Reciprocals (CPR). Our key idea is to associate each prototype with corresponding known class features while pushing the reciprocals apart from these prototypes to locate them in the potential unknown feature space. The target samples are then classified as unknown if they fall near any reciprocals at test time. To successfully train our framework, we collect the partial, confident target samples that are classified as known or unknown through on our proposed multi-criteria selection. We then additionally apply the entropy loss regularization to them. For further adaptation, we also apply standard consistency regularization that matches the predictions of two different views of the input to make more compact target feature space. We evaluate our proposal, CPR, on three standard benchmarks and achieve comparable or new state-of-the-art results. We also provide extensive ablation experiments to verify our main design choices in our framework.
翻訳日:2022-12-19 15:29:49 公開日:2022-12-16
# CD-TTA:セマンティックセグメンテーションのための複合ドメインテスト時間適応

CD-TTA: Compound Domain Test-time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2212.08356v1 )

ライセンス: Link先を確認
Junha Song, Kwanyong Park, Inkyu Shin, Sanghyun Woo, In So Kweon(参考訳) テスト時間適応(TTA)は、予測段階においてターゲットデータセットのみを持つ新しい領域への事前学習モデルの適応を可能にする実用性から、大きな注目を集めている。 TTAの先行研究は、ターゲットデータセットが同じ分布から来ていると仮定し、従って単一の同質領域を構成する。 しかし実際には、対象ドメインは互いに十分に異なる複数の同質ドメインを含むことができ、それらの複数のドメインは循環的に起こる可能性がある。 予備調査では、ドメイン特異的なTTAはバニラTTA処理化合物ドメイン(CD)を1つとして優れていた。 しかし、ドメインラベルはCDでは利用できないため、ドメイン固有のTTAは実行できない。 そこで本研究では,疑似ドメインラベルを探索し,ドメイン固有の構成や循環ドメインの知識を効果的に蓄積するオンラインクラスタリングアルゴリズムを提案する。 また,特にcdの文脈において,サンプル間の予測品質の点で有意な差があることが観察された。 これにより、ソースの分布とイメージの類似性を考慮して、グラデーション・デノイジングによるパフォーマンスの向上が図られる。 全体として、我々の研究の重要な貢献は、セマンティックセグメンテーションにおける非常に重要なタスク複合ドメインテストタイム適応(CD-TTA)の提案と、将来のベンチマーク作業を容易にする強力なベースラインを提供することである。

Test-time adaptation (TTA) has attracted significant attention due to its practical properties which enable the adaptation of a pre-trained model to a new domain with only target dataset during the inference stage. Prior works on TTA assume that the target dataset comes from the same distribution and thus constitutes a single homogeneous domain. In practice, however, the target domain can contain multiple homogeneous domains which are sufficiently distinctive from each other and those multiple domains might occur cyclically. Our preliminary investigation shows that domain-specific TTA outperforms vanilla TTA treating compound domain (CD) as a single one. However, domain labels are not available for CD, which makes domain-specific TTA not practicable. To this end, we propose an online clustering algorithm for finding pseudo-domain labels to obtain similar benefits as domain-specific configuration and accumulating knowledge of cyclic domains effectively. Moreover, we observe that there is a significant discrepancy in terms of prediction quality among samples, especially in the CD context. This further motivates us to boost its performance with gradient denoising by considering the image-wise similarity with the source distribution. Overall, the key contribution of our work lies in proposing a highly significant new task compound domain test-time adaptation (CD-TTA) on semantic segmentation as well as providing a strong baseline to facilitate future works to benchmark.
翻訳日:2022-12-19 15:29:21 公開日:2022-12-16
# ラベル雑音学習のためのインスタンス固有ラベル分布正規化

Instance-specific Label Distribution Regularization for Learning with Label Noise ( http://arxiv.org/abs/2212.08380v1 )

ライセンス: Link先を確認
Zehui Liao, Shishuai Hu, Yutong Xie, Yong Xia(参考訳) 雑音遷移行列のモデル化は,ラベル雑音を学習するための有望な手法である。 推定ノイズ遷移行列とノイズ後部確率に基づいて、この論文で共同でラベル分布(LD)と呼ばれるクリーン後部確率を監督として計算することができる。 ノイズ遷移行列を確実に推定するために、訓練中にアンカーポイントが利用できると仮定する手法もある。 それでも、アンカーポイントが無効である場合、ノイズ遷移行列は学習が不十分になり、性能が低下する可能性がある。 結果として、トレーニングデータから抽出された信頼性のあるデータポイントを疑似アンカーポイントとして扱う方法もある。 しかし、統計的観点からは、ノイズ遷移行列はクリーンラベル支配仮定の下でノイズラベルを持つデータから推定することができる。 そこで我々は(擬似)アンカーポイントを使わずにノイズ遷移行列を推定する。 サンプルは他の類似のクラスラベルと誤記される可能性が高いことを示す証拠があるため、誤記確率はクラス間相関と高い相関関係にある。 本研究は,DCNNがノイズラベルを記憶するのを防ぐために,インスタンス固有のLDを監督対象として推定する,インスタンス固有のラベル分布規則化(LDR)を提案する。 具体的には,ノイズラベルの監視下で雑音後段を推定し,アンカー点も疑似アンカー点も持たないクラス間相関行列を推定することにより,バッチレベルの雑音遷移行列を近似する。 2つの合成ノイズデータセットと2つの実世界のノイズデータセットの実験結果は、我々のLDRが既存の手法より優れていることを示している。

Modeling noise transition matrix is a kind of promising method for learning with label noise. Based on the estimated noise transition matrix and the noisy posterior probabilities, the clean posterior probabilities, which are jointly called Label Distribution (LD) in this paper, can be calculated as the supervision. To reliably estimate the noise transition matrix, some methods assume that anchor points are available during training. Nonetheless, if anchor points are invalid, the noise transition matrix might be poorly learned, resulting in poor performance. Consequently, other methods treat reliable data points, extracted from training data, as pseudo anchor points. However, from a statistical point of view, the noise transition matrix can be inferred from data with noisy labels under the clean-label-domination assumption. Therefore, we aim to estimate the noise transition matrix without (pseudo) anchor points. There is evidence showing that samples are more likely to be mislabeled as other similar class labels, which means the mislabeling probability is highly correlated with the inter-class correlation. Inspired by this observation, we propose an instance-specific Label Distribution Regularization (LDR), in which the instance-specific LD is estimated as the supervision, to prevent DCNNs from memorizing noisy labels. Specifically, we estimate the noisy posterior under the supervision of noisy labels, and approximate the batch-level noise transition matrix by estimating the inter-class correlation matrix with neither anchor points nor pseudo anchor points. Experimental results on two synthetic noisy datasets and two real-world noisy datasets demonstrate that our LDR outperforms existing methods.
翻訳日:2022-12-19 15:29:00 公開日:2022-12-16
# FewFedWeight: 複数のNLPタスクにまたがるフェデレーション学習フレームワーク

FewFedWeight: Few-shot Federated Learning Framework across Multiple NLP Tasks ( http://arxiv.org/abs/2212.08354v1 )

ライセンス: Link先を確認
Weilong Dong, Xinwei Wu, Junzhuo Li, Shuangzhi Wu, Chao Bian, Deyi Xiong(参考訳) 大規模言語モデルによる大規模マルチタスク学習は、最近、少数の一般化において大きな進歩を遂げている。 しかし、これは通常、複数のタスクで使用される(注釈付き)データのプライバシー感度の問題を無視して、集中的な学習方式で行われる。 この問題を軽減するため,我々は,プライバシ保護とクロスタスク一般化という両世界のベストを達成するために,複数のタスクにまたがる数ショットのフェデレーション学習フレームワークである fewfedweight を提案する。 fewfedweightは、データを共有せずに分離したデバイスでクライアントモデルをトレーニングする。 サーバ内のグローバルモデルを各クライアントにブロードキャストし、クライアント用の擬似データを生成し、グローバルモデルからの知識を探索して、各クライアントモデルの少数ショット学習を強化する。 さらに、生成した擬似データからノイズの負の影響を低減するために、擬似サンプルを重み付けするエネルギーベースアルゴリズムを提案する。 クライアントモデルの適応モデルウェイトも、パフォーマンスに応じて調整される。 これらのモデル重みを使ってクライアントモデルを動的に集約し、グローバルモデルを更新する。 118のNLPタスクの実験では、FewFedWeightは61%のタスクにおけるクライアントモデルの性能を大幅に改善でき、平均的なパフォーマンス改善率は30.5%で、FedAvgや他の分散学習手法よりも大幅に向上している。

Massively multi-task learning with large language models has recently made substantial progress on few-shot generalization. However, this is usually performed in a centralized learning fashion, ignoring the privacy sensitivity issue of (annotated) data used in multiple tasks. To mitigate this issue, we propose FewFedWeight, a few-shot federated learning framework across multiple tasks, to achieve the best of both worlds: privacy preservation and cross-task generalization. FewFedWeight trains client models in isolated devices without sharing data. It broadcasts the global model in the server to each client and produces pseudo data for clients so that knowledge from the global model can be explored to enhance few-shot learning of each client model. An energy-based algorithm is further proposed to weight pseudo samples in order to reduce the negative impact of noise from the generated pseudo data. Adaptive model weights of client models are also tuned according to their performance. We use these model weights to dynamically aggregate client models to update the global model. Experiments on 118 NLP tasks show that FewFedWeight can significantly improve the performance of client models on 61% tasks with an average performance improvement rate of 30.5% over the baseline and substantially outperform FedAvg and other decentralized learning methods.
翻訳日:2022-12-19 15:23:11 公開日:2022-12-16
# 英語WordNetのためのHomonymy情報

Homonymy Information for English WordNet ( http://arxiv.org/abs/2212.08388v1 )

ライセンス: Link先を確認
Rowan Hall Maudslay and Simone Teufel(参考訳) wordnetの広く認識されている欠点は、体系的に関連づけられた単語の意味(polysemy)と偶然である単語(homonymy)との区別が欠けていることである。 このギャップを埋めるために、いくつかの先行研究が計算手法を用いてこの情報を推測している。 我々はこの課題を再考し、プリンストンWordNetのホモニミーアノテーションを合成する言語モデリングの最近の進歩を活用する。 一方,本手法では,WordNetをオックスフォード英語辞典にリンクすることで,必要な情報を含んでいる。 このアライメントを行うために、トランスフォーマーモデルによって生成される埋め込み空間におけるそれらの近接に基づいて定義をペアする。 このアプローチの単純さにもかかわらず、私たちの最良のモデルは、アノテートした評価セットで.97のF1を達成する。 私たちの研究成果は、Princeton WordNetの高品質なホモニミーアノテーションレイヤで、私たちがリリースしています。

A widely acknowledged shortcoming of WordNet is that it lacks a distinction between word meanings which are systematically related (polysemy), and those which are coincidental (homonymy). Several previous works have attempted to fill this gap, by inferring this information using computational methods. We revisit this task, and exploit recent advances in language modelling to synthesise homonymy annotation for Princeton WordNet. Previous approaches treat the problem using clustering methods; by contrast, our method works by linking WordNet to the Oxford English Dictionary, which contains the information we need. To perform this alignment, we pair definitions based on their proximity in an embedding space produced by a Transformer model. Despite the simplicity of this approach, our best model attains an F1 of .97 on an evaluation set that we annotate. The outcome of our work is a high-quality homonymy annotation layer for Princeton WordNet, which we release.
翻訳日:2022-12-19 15:22:45 公開日:2022-12-16
# メタフォリック・ポリセミー検出:従来のメタフォールは単語センスの曖昧さを満たす

Metaphorical Polysemy Detection: Conventional Metaphor meets Word Sense Disambiguation ( http://arxiv.org/abs/2212.08395v1 )

ライセンス: Link先を確認
Rowan Hall Maudslay and Simone Teufel(参考訳) 言語学者は、NLPのメタファ検出タスクが考慮しない、新しいメタファと従来のメタファを区別する。 代わりにメタファー性は、メタファータイプに関係なく、文中のトークンの特性として定式化される。 本稿では,従来のメタファをこのような方法で扱うことの限界について検討し,mpd(metaphorical polysemy detection)と呼ぶ代替案を提唱する。 MPDでは、従来の比喩のみを扱い、語彙における単語感覚の特性として定式化される。 我々は、英語のWordNetにおける従来のメタファーを識別する最初のMPDモデルを開発した。 そこで本研究では,メタファ検出と単語感覚曖昧化(WSD)を組み合わせた新しい訓練手法を提案する。 評価のために、WordNetの2つのサブセットでメタファを手動で注釈付けする。 我々のモデルは最先端のメタファ検出モデルに基づく強力なベースラインを著しく上回り、セットの1つでROC-AUCスコアが.78(.65)に達した。 さらに、WSDモデルと組み合わせることで、従来のメタファをテキストで識別する最先端のメタファ検出モデルよりも優れている(.659)。 F1 は .626 と比較される。

Linguists distinguish between novel and conventional metaphor, a distinction which the metaphor detection task in NLP does not take into account. Instead, metaphoricity is formulated as a property of a token in a sentence, regardless of metaphor type. In this paper, we investigate the limitations of treating conventional metaphors in this way, and advocate for an alternative which we name 'metaphorical polysemy detection' (MPD). In MPD, only conventional metaphoricity is treated, and it is formulated as a property of word senses in a lexicon. We develop the first MPD model, which learns to identify conventional metaphors in the English WordNet. To train it, we present a novel training procedure that combines metaphor detection with word sense disambiguation (WSD). For evaluation, we manually annotate metaphor in two subsets of WordNet. Our model significantly outperforms a strong baseline based on a state-of-the-art metaphor detection model, attaining an ROC-AUC score of .78 (compared to .65) on one of the sets. Additionally, when paired with a WSD model, our approach outperforms a state-of-the-art metaphor detection model at identifying conventional metaphors in text (.659 F1 compared to .626).
翻訳日:2022-12-19 15:22:30 公開日:2022-12-16
# 多領域短文におけるbertopicの一般化に関する実験

Experiments on Generalizability of BERTopic on Multi-Domain Short Text ( http://arxiv.org/abs/2212.08459v1 )

ライセンス: Link先を確認
Muri\"el de Groot, Mohammad Aliannejadi, Marcel R. Haas(参考訳) トピックモデリングは、大量のテキストデータを解析的に評価するために広く用いられている。 最も人気のあるトピックテクニックの1つは、柔軟性と適応性があるが、様々なドメインのショートテキストに最適ではない、ultnt dirichlet allocation(lda)である。 我々は,最先端のBERTopicアルゴリズムが短時間のマルチドメインテキスト上でどのように機能するかを考察し,トピックコヒーレンスと多様性の観点から,LDAよりも優れた一般化を見出した。 さらに,BERTopic が活用する HDBSCAN クラスタリングアルゴリズムの性能解析を行い,文書の大部分を外れ値として分類することを確認した。 この重要かつ監督的な問題は、多くの文書をさらなる分析から除外する。 HDBSCANをk-Meansに置き換えると、同様の性能を得るが、外れ値がない。

Topic modeling is widely used for analytically evaluating large collections of textual data. One of the most popular topic techniques is Latent Dirichlet Allocation (LDA), which is flexible and adaptive, but not optimal for e.g. short texts from various domains. We explore how the state-of-the-art BERTopic algorithm performs on short multi-domain text and find that it generalizes better than LDA in terms of topic coherence and diversity. We further analyze the performance of the HDBSCAN clustering algorithm utilized by BERTopic and find that it classifies a majority of the documents as outliers. This crucial, yet overseen problem excludes too many documents from further analysis. When we replace HDBSCAN with k-Means, we achieve similar performance, but without outliers.
翻訳日:2022-12-19 15:22:09 公開日:2022-12-16
# BLASER: テキストなし音声音声合成評価基準

BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric ( http://arxiv.org/abs/2212.08486v1 )

ライセンス: Link先を確認
Mingda Chen and Paul-Ambroise Duquenne and Pierre Andrews and Justine Kao and Alexandre Mourachko and Holger Schwenk and Marta R. Costa-juss\`a(参考訳) S2ST(End-to-End Speech-to-Speech Translation)はテキストベースで評価される。 これは、生成した音声を自動転写し、自動音声認識(ASR)システムの可用性と品質に依存することを意味する。 本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。 blaserは多言語マルチモーダルエンコーダを利用して、ソース入力、翻訳出力、参照のための音声セグメントを共有埋め込み空間に直接エンコードし、人間の評価のプロキシとして使用できる翻訳品質のスコアを計算する。 提案手法を評価するため、7つの言語方向をカバーする40万以上の人文アノテーションからトレーニングと評価セットを構築した。 BLASERの最良の結果は、人間の評価スコアから監督されたトレーニングによって達成される。 文レベルでの評価では,ASR-SENTBLEUやASR-COMETなどのASR依存の指標と比較すると,BLASERは人間の判断に大きく相関していることがわかった。 BLASERへの入力として音声とテキストを組み合わせることで,人間のスコアとの相関性は向上しないが,音声を用いた場合の相関性が最善であることを示す。 さらに、テキストベースのメトリクスでは、参照にASRを使用することが有害であることを示す。

End-to-End speech-to-speech translation (S2ST) is generally evaluated with text-based metrics. This means that generated speech has to be automatically transcribed, making the evaluation dependent on the availability and quality of automatic speech recognition (ASR) systems. In this paper, we propose a text-free evaluation metric for end-to-end S2ST, named BLASER, to avoid the dependency on ASR systems. BLASER leverages a multilingual multimodal encoder to directly encode the speech segments for source input, translation output and reference into a shared embedding space and computes a score of the translation quality that can be used as a proxy to human evaluation. To evaluate our approach, we construct training and evaluation sets from more than 40k human annotations covering seven language directions. The best results of BLASER are achieved by training with supervision from human rating scores. We show that when evaluated at the sentence level, BLASER correlates significantly better with human judgment compared to ASR-dependent metrics including ASR-SENTBLEU in all translation directions and ASR-COMET in five of them. Our analysis shows combining speech and text as inputs to BLASER does not increase the correlation with human scores, but best correlations are achieved when using speech, which motivates the goal of our research. Moreover, we show that using ASR for references is detrimental for text-based metrics.
翻訳日:2022-12-19 15:21:57 公開日:2022-12-16
# 自動ファクトチェックのためのトピック間のチェック価値のあるクレーム検出

Check-worthy Claim Detection across Topics for Automated Fact-checking ( http://arxiv.org/abs/2212.08514v1 )

ライセンス: Link先を確認
Amani S. Abumansour, Arkaitz Zubiaga(参考訳) 自動ファクトチェックシステムの重要なコンポーネントはクレームチェック能力検出システムであり、チェックの必要性に基づいて文章を優先順位付けする。 一連の研究が課題に取り組んでいるにもかかわらず、これまでの研究は、さまざまなトピックにわたるチェックに値する主張を特定することの難しさを見落としてきた。 本稿では,新しい未発見トピックのチェック値クレームを検知する課題を評価し,定量化する。 問題を強調した上で,トピック間のチェック価値のあるクレームを検出する際の性能劣化を軽減するために,AraCWAモデルを提案する。 AraCWAモデルは、数ショットの学習とデータ拡張のための2つのコンポーネントを組み込むことで、新しいトピックのパフォーマンス向上を可能にする。 14の異なるトピックからなるアラビア語のつぶやきの公開データセットを用いて、提案するデータ拡張戦略がトピック全体にわたって大幅に改善され、トピック間で改善の度合いが変化することを実証する。 さらに,話題間の意味的類似性を分析し,類似度指標が,下位文のラベル付け作業に先立って,未知の話題の難易度を判断するためのプロキシとして使用できることを示唆する。

An important component of an automated fact-checking system is the claim check-worthiness detection system, which ranks sentences by prioritising them based on their need to be checked. Despite a body of research tackling the task, previous research has overlooked the challenging nature of identifying check-worthy claims across different topics. In this paper, we assess and quantify the challenge of detecting check-worthy claims for new, unseen topics. After highlighting the problem, we propose the AraCWA model to mitigate the performance deterioration when detecting check-worthy claims across topics. The AraCWA model enables boosting the performance for new topics by incorporating two components for few-shot learning and data augmentation. Using a publicly available dataset of Arabic tweets consisting of 14 different topics, we demonstrate that our proposed data augmentation strategy achieves substantial improvements across topics overall, where the extent of the improvement varies across topics. Further, we analyse the semantic similarities between topics, suggesting that the similarity metric could be used as a proxy to determine the difficulty level of an unseen topic prior to undertaking the task of labelling the underlying sentences.
翻訳日:2022-12-19 15:21:32 公開日:2022-12-16
# チェコの詳細なニュース記事データセット:信頼度分析への学際的アプローチ

Fine-grained Czech News Article Dataset: An Interdisciplinary Approach to Trustworthiness Analysis ( http://arxiv.org/abs/2212.08550v1 )

ライセンス: Link先を確認
Maty\'a\v{s} Boh\'a\v{c}ek, Michal Bravansk\'y, Filip Trhl\'ik and V\'aclav Moravec(参考訳) 我々は,詳細な信頼度アノテーションを備えたニュース記事の新しいデータセットであるverifeeデータセットを提案する。 我々は,編集の透明性,ジャーナリストの規約,客観的な報告を包含するパラメータに基づいて,マニピュレーション手法をペナルタライズしながらテキストを評価する詳細な手法を開発した。 私たちは、この学際的な問題の障壁と限定的なフレーミングを克服するために、社会、メディア、コンピュータ科学の多様な研究者を乗せています。 60ドル近いチェコのオンラインニュースソースから1万ドル以上のユニークな記事を集めています。 これらのクラスは、私たちが提案する信頼度スペクトル全体で4ドルクラスの1つに分類され、完全に信頼できる記事からマニピュレイティブなものへと拡大しています。 詳細な統計と研究のトレンドがセット中に現れています。 最後に、信頼度分類タスクのデータセットを用いて、複数の一般的なシーケンス・ツー・シーケンス言語モデルを微調整し、最高のテストF-1スコアを0.52ドルと報告する。 私たちはデータセット、アノテーションの方法論、アノテーションの指示をhttps://verifee.ai/researchでオープンソース化しました。 同様の手法は、メディアリテラシーの分野における偽情報や教育の防止に役立つと信じている。

We present the Verifee Dataset: a novel dataset of news articles with fine-grained trustworthiness annotations. We develop a detailed methodology that assesses the texts based on their parameters encompassing editorial transparency, journalist conventions, and objective reporting while penalizing manipulative techniques. We bring aboard a diverse set of researchers from social, media, and computer sciences to overcome barriers and limited framing of this interdisciplinary problem. We collect over $10,000$ unique articles from almost $60$ Czech online news sources. These are categorized into one of the $4$ classes across the credibility spectrum we propose, raging from entirely trustworthy articles all the way to the manipulative ones. We produce detailed statistics and study trends emerging throughout the set. Lastly, we fine-tune multiple popular sequence-to-sequence language models using our dataset on the trustworthiness classification task and report the best testing F-1 score of $0.52$. We open-source the dataset, annotation methodology, and annotators' instructions in full length at https://verifee.ai/research to enable easy build-up work. We believe similar methods can help prevent disinformation and educate in the realm of media literacy.
翻訳日:2022-12-19 15:21:13 公開日:2022-12-16
# 機械翻訳における幻覚の検出と緩和:モデル内部作業がうまくいき、文の類似性がさらに向上する

Detecting and Mitigating Hallucinations in Machine Translation: Model Internal Workings Alone Do Well, Sentence Similarity Even Better ( http://arxiv.org/abs/2212.08597v1 )

ライセンス: Link先を確認
David Dale and Elena Voita and Lo\"ic Barrault and Marta R. Costa-juss\`a(参考訳) 神経機械翻訳における幻覚の問題は長い間認識されてきたが、これまでのところその緩和の進歩はほとんどない。 実際、最近になって、人工的にモデルに幻覚を与えることなく、既存のメソッドが不足し、標準シーケンスのログプローバビリティがより有益であることが判明した。 これは、モデルの内部特性が予想以上に多くの情報を提供できることを意味しており、外部モデルや測度を使用する前に、最初に問う必要がある。 本稿では,生成した翻訳に対するソースの寄与率を評価する手法を提案する。 直感的には、幻覚はソースから「切り離された」翻訳であるため、低いソースのコントリビューションによって識別することができる。 この方法は、最も重度の幻覚の検出精度を2倍に向上させ、外部モデルに依存する以前の最善のアプローチと同等に、テスト時に幻覚を緩和することができる。 次に、内部モデルの特徴から離れて外部ツールを可能にすると、言語間埋め込みによる文の類似性がこれらの結果をさらに改善することを示す。

While the problem of hallucinations in neural machine translation has long been recognized, so far the progress on its alleviation is very little. Indeed, recently it turned out that without artificially encouraging models to hallucinate, previously existing methods fall short and even the standard sequence log-probability is more informative. It means that characteristics internal to the model can give much more information than we expect, and before using external models and measures, we first need to ask: how far can we go if we use nothing but the translation model itself ? We propose to use a method that evaluates the percentage of the source contribution to a generated translation. Intuitively, hallucinations are translations "detached" from the source, hence they can be identified by low source contribution. This method improves detection accuracy for the most severe hallucinations by a factor of 2 and is able to alleviate hallucinations at test time on par with the previous best approach that relies on external models. Next, if we move away from internal model characteristics and allow external tools, we show that using sentence similarity from cross-lingual embeddings further improves these results.
翻訳日:2022-12-19 15:20:55 公開日:2022-12-16
# 創発的コミュニケーションはスパイキングニューラルネットワークによって制御された進化した群れの捕食行動を促進する

Emergent communication enhances foraging behaviour in evolved swarms controlled by Spiking Neural Networks ( http://arxiv.org/abs/2212.08484v1 )

ライセンス: Link先を確認
Cristian Jimenez Romero, Alper Yegenoglu, Aar\'on P\'erez Mart\'in, Sandra Diaz-Pier, Abigail Morrison(参考訳) アリなどの社会昆虫はフェロモンを介して通信し、その活動の調整や、食料の採餌など複雑なタスクの解決を可能にする。 この行動は進化過程によって形作られた。 計算モデルでは、群における自己調整は確率的あるいは行動規則を用いて実装され、それぞれのエージェントと集団行動の決定を形作る。 しかし、手動調整決定規則は、Swarmの動作を制限する可能性がある。 本研究では,進化した群れにおける自己調整とコミュニケーションの出現を規則を定めずに検討する。 我々はアリコロニーを表すエージェント群を進化させた。 遺伝的アルゴリズムを用いて、スパイキングニューラルネットワーク(SNN)を最適化し、人工脳として機能し、各エージェントの動作を制御する。 植民地の目標は、最小限の時間で食糧を捕食する最適な方法を見つけることである。 進化段階において、アリは食物の山や巣の近くにフェロモンを堆積させてコホートを誘導することで、協力を学べる。 フェロモンの使用はネットワークにエンコードされず、代わりに最適化手順によってこの動作が確立される。 フェロモンをベースとしたコミュニケーションにより,コミュニケーションが起こらなかったコロニーに比べて,アリの行動は良好である。 我々は,SNNモデルとルールベースシステムを比較し,採餌性能を評価する。 以上の結果から,SNNモデルによりより短時間で捕食作業をより効率的に完了できることが示唆された。 提案手法は,事前定義されたルールがなくてもフェロモンによる自己調整がネットワーク最適化の結果現れることを示す。 この研究は、コミュニケーションと自己調整が望まれるマルチエージェントインタラクションの基盤となるアーキテクチャとしてSNNを利用する複雑なアプリケーションを作成する可能性の実証となる。

Social insects such as ants communicate via pheromones which allows them to coordinate their activity and solve complex tasks as a swarm, e.g. foraging for food. This behaviour was shaped through evolutionary processes. In computational models, self-coordination in swarms has been implemented using probabilistic or action rules to shape the decision of each agent and the collective behaviour. However, manual tuned decision rules may limit the behaviour of the swarm. In this work we investigate the emergence of self-coordination and communication in evolved swarms without defining any rule. We evolve a swarm of agents representing an ant colony. We use a genetic algorithm to optimize a spiking neural network (SNN) which serves as an artificial brain to control the behaviour of each agent. The goal of the colony is to find optimal ways to forage for food in the shortest amount of time. In the evolutionary phase, the ants are able to learn to collaborate by depositing pheromone near food piles and near the nest to guide its cohorts. The pheromone usage is not encoded into the network; instead, this behaviour is established through the optimization procedure. We observe that pheromone-based communication enables the ants to perform better in comparison to colonies where communication did not emerge. We assess the foraging performance by comparing the SNN based model to a rule based system. Our results show that the SNN based model can complete the foraging task more efficiently in a shorter time. Our approach illustrates that even in the absence of pre-defined rules, self coordination via pheromone emerges as a result of the network optimization. This work serves as a proof of concept for the possibility of creating complex applications utilizing SNNs as underlying architectures for multi-agent interactions where communication and self-coordination is desired.
翻訳日:2022-12-19 15:20:35 公開日:2022-12-16
# ビンジンフリー非カルテ型心筋mriのための神経暗黙的k空間

Neural Implicit k-Space for Binning-free Non-Cartesian Cardiac MR Imaging ( http://arxiv.org/abs/2212.08479v1 )

ライセンス: Link先を確認
Wenqi Huang, Hongwei Li, Gastao Cruz, Jiazhen Pan, Daniel Rueckert and Kerstin Hammernik(参考訳) 本稿では,心電図をトリガーした非カルテシアン磁気共鳴イメージング(CMR)のための,k空間におけるニューラル暗示表現を直接学習する新しい画像再構成フレームワークを提案する。 既存の手法では,心臓運動の一相を再構築するために隣接時点からデータを取得しているが,本手法では連続的,バイナリフリー,主題特異的なk空間表現が可能であり,各サンプルk空間に時間,コイルインデックス,周波数領域位置からなる一意な座標を割り当てる。 次に、周波数領域正則化を持つ多層パーセプトロンを用いて、これらのユニークな座標からk空間強度への対象固有写像を学習する。 推定中、デカルト座標の完全なk-空間と任意の時間分解が得られる。 単純な逆フーリエ変換は、密度補償や非カルテデータに対するコストのかかる非一様フーリエ変換をなくして、画像を復元する。 この新しいイメージング・フレームワークは、6人の被験者から42個の放射的サンプルデータセットで試験された。 提案手法は,4相,1相,30相の心拍データを用いて定性的,定量的に他の手法より優れる。 心室中隔欠損症50例に対する心室中隔膜再建術の成績は改善し, 時空間分解能は改善し, リアルタイムCMRの可能性も活用できた。

In this work, we propose a novel image reconstruction framework that directly learns a neural implicit representation in k-space for ECG-triggered non-Cartesian Cardiac Magnetic Resonance Imaging (CMR). While existing methods bin acquired data from neighboring time points to reconstruct one phase of the cardiac motion, our framework allows for a continuous, binning-free, and subject-specific k-space representation.We assign a unique coordinate that consists of time, coil index, and frequency domain location to each sampled k-space point. We then learn the subject-specific mapping from these unique coordinates to k-space intensities using a multi-layer perceptron with frequency domain regularization. During inference, we obtain a complete k-space for Cartesian coordinates and an arbitrary temporal resolution. A simple inverse Fourier transform recovers the image, eliminating the need for density compensation and costly non-uniform Fourier transforms for non-Cartesian data. This novel imaging framework was tested on 42 radially sampled datasets from 6 subjects. The proposed method outperforms other techniques qualitatively and quantitatively using data from four and one heartbeat(s) and 30 cardiac phases. Our results for one heartbeat reconstruction of 50 cardiac phases show improved artifact removal and spatio-temporal resolution, leveraging the potential for real-time CMR.
翻訳日:2022-12-19 15:13:42 公開日:2022-12-16
# リアルタイムPOCUS画像品質評価・取得誘導システムの開発

Development of A Real-time POCUS Image Quality Assessment and Acquisition Guidance System ( http://arxiv.org/abs/2212.08624v1 )

ライセンス: Link先を確認
Zhenge Jia, Yiyu Shi, Jingtong Hu, Lei Yang, Benjamin Nti(参考訳) ポイント・オブ・ケア・超音波(POCUS)は、救急医療部と小児集中治療部の臨床業務における心臓機能イメージングの最も一般的なツールの1つである。 先行研究は、AI支援ソフトウェアが、興味領域を認識し、画像品質を評価し、指示を提供することで、事前に音韻学の経験のない看護師や初心者を誘導し、POCUSを取得することを実証している。 しかし、これらのAIアルゴリズムは、診断品質の高いPOCUSを取得する際に、熟練したソノグラフィーの役割を単に置き換えることはできない。 標準化されたイメージングプロトコルを持つ胸部X線、CT、MRIとは異なり、POCUSは高いサーバ間変動で取得できる。 可変性はあるものの、通常は臨床上許容され、解釈可能である。 難しい臨床環境では、ソノグラフィーは複雑なシナリオでPOCUSを取得するために新しいヒューリスティックを使用する。 教育実践において経験豊富なソノグラフィーへの依存を減らしながら、初等学習者が学習過程の迅速化を支援するため、実時間AI支援品質評価とプローブ位置ガイダンスを行い、初等学習者の手作業による介入の少ないトレーニングプロセスを提供する枠組みを開発する。

Point-of-care ultrasound (POCUS) is one of the most commonly applied tools for cardiac function imaging in the clinical routine of the emergency department and pediatric intensive care unit. The prior studies demonstrate that AI-assisted software can guide nurses or novices without prior sonography experience to acquire POCUS by recognizing the interest region, assessing image quality, and providing instructions. However, these AI algorithms cannot simply replace the role of skilled sonographers in acquiring diagnostic-quality POCUS. Unlike chest X-ray, CT, and MRI, which have standardized imaging protocols, POCUS can be acquired with high inter-observer variability. Though being with variability, they are usually all clinically acceptable and interpretable. In challenging clinical environments, sonographers employ novel heuristics to acquire POCUS in complex scenarios. To help novice learners to expedite the training process while reducing the dependency on experienced sonographers in the curriculum implementation, We will develop a framework to perform real-time AI-assisted quality assessment and probe position guidance to provide training process for novice learners with less manual intervention.
翻訳日:2022-12-19 15:13:20 公開日:2022-12-16
# サンプリングアルゴリズムを用いた量子ボソニック系の切断効果の推定

Estimating truncation effects of quantum bosonic systems using sampling algorithms ( http://arxiv.org/abs/2212.08546v1 )

ライセンス: Link先を確認
Masanori Hanada, Junyu Liu, Enrico Rinaldi, Masaki Tezuka(参考訳) 量子コンピュータ上のボソンをシミュレートするには、無限次元局所ヒルベルト空間を有限次元に切り換えることで理論を正則化する必要がある。 実用的な量子応用の探索において、トラクション誤差がどれほど大きいかを知ることが重要である。 一般に、良い量子コンピュータがなければ、エラーを見積もるのは容易ではない。 本稿では,古典的デバイス,特にマルコフ連鎖モンテカルロにおける従来のサンプリング手法が,現在利用可能な計算資源量でこの問題に対処できることを示す。 実演として、このアイデアを2次元格子上のスカラー場理論に適用し、正確な対角化法を用いて達成できる範囲を超えている。 この方法は、ボソニック理論の現実的な量子シミュレーションに必要なリソースを推定したり、対応する量子シミュレーションの結果の妥当性を確認するのに使うことができる。

To simulate bosons on a qubit- or qudit-based quantum computer, one has to regularize the theory by truncating infinite-dimensional local Hilbert spaces to finite dimensions. In the search for practical quantum applications, it is important to know how big the truncation errors can be. In general, it is not easy to estimate errors unless we have a good quantum computer. In this paper we show that traditional sampling methods on classical devices, specifically Markov Chain Monte Carlo, can address this issue with a reasonable amount of computational resources available today. As a demonstration, we apply this idea to the scalar field theory on a two-dimensional lattice, with a size that goes beyond what is achievable using exact diagonalization methods. This method can be used to estimate the resources needed for realistic quantum simulations of bosonic theories, and also, to check the validity of the results of the corresponding quantum simulations.
翻訳日:2022-12-19 15:13:02 公開日:2022-12-16
# ヒト言語処理における脳波信号の統合情報理論モデル

A unified information-theoretic model of EEG signatures of human language processing ( http://arxiv.org/abs/2212.08205v1 )

ライセンス: Link先を確認
Jiaxuan Li and Richard Futrell(参考訳) 我々は,脳内の人間の言語処理に関する情報理論モデルを構築し,入力言語入力をヒューリスティックな解釈と誤り訂正の観点から2段階に分けて処理する。 本稿では,これらの2種類の情報処理が,言語関連事象関連電位(ERP)のN400およびP600成分に対応して,脳波の異なる特徴を持つことを示す。 形式的には、文脈における単語の情報内容(主観)が2つの量に分解可能であることを示す: (a) 単語の難易度をその推定された文脈で処理し、n400信号に対応するヒューリスティックサプライズ、および (b) 真の文脈と推定された文脈との相違を反映してp600信号に対応する不一致信号。 どちらの量も現代のNLP技術を用いて推定できる。 ryskin et al. (2021) から先行報告された実験データを用いて, 様々な言語操作によるerpパターンのシミュレーションを成功させた。 本理論は,「良質な」ヒューリスティックな解釈段階を仮定した従来の認知理論と原理的に両立するが,正確な情報理論的定式化は行わない。

We advance an information-theoretic model of human language processing in the brain, in which incoming linguistic input is processed at two levels, in terms of a heuristic interpretation and in terms of error correction. We propose that these two kinds of information processing have distinct electroencephalographic signatures, corresponding to the well-documented N400 and P600 components of language-related event-related potentials (ERPs). Formally, we show that the information content (surprisal) of a word in context can be decomposed into two quantities: (A) heuristic surprise, which signals processing difficulty of word given its inferred context, and corresponds with the N400 signal; and (B) discrepancy signal, which reflects divergence between the true context and the inferred context, and corresponds to the P600 signal. Both of these quantities can be estimated using modern NLP techniques. We validate our theory by successfully simulating ERP patterns elicited by a variety of linguistic manipulations in previously-reported experimental data from Ryskin et al. (2021). Our theory is in principle compatible with traditional cognitive theories assuming a `good-enough' heuristic interpretation stage, but with precise information-theoretic formulation.
翻訳日:2022-12-19 15:12:18 公開日:2022-12-16
# 会見要約:芸術の現状に関する調査

Meeting Summarization: A Survey of the State of the Art ( http://arxiv.org/abs/2212.08206v1 )

ライセンス: Link先を確認
Lakshmi Prasanna Kumar, Arman Kabiri(参考訳) 情報オーバーロードは、要約者がテキストから突出した情報を抽出する必要がある。 現在、仮想通信プラットフォームの台頭により、対話データが過大に蓄積されている。 Covid-19の台頭は、Zoom、Slack、Microsoft Teams、Discordなどのオンラインコミュニケーションプラットフォームを企業ミーティングに頼りにしている。 ミーティングの書き起こし全体を通す代わりに、ミーティングの要約を使って有用なデータを選択することができる。 それでも、会議要約の分野では包括的な調査が欠如している。 本稿では,最近の会議要約技術について紹介する。 本調査は,要約を要約するためのデータセットと評価指標とともに,テキスト要約の概観を提供する。 リーダーボード上で各要約者のパフォーマンスも提供します。 我々は、この領域における異なる課題と将来の研究者に対する潜在的な研究機会で調査を終える。

Information overloading requires the need for summarizers to extract salient information from the text. Currently, there is an overload of dialogue data due to the rise of virtual communication platforms. The rise of Covid-19 has led people to rely on online communication platforms like Zoom, Slack, Microsoft Teams, Discord, etc. to conduct their company meetings. Instead of going through the entire meeting transcripts, people can use meeting summarizers to select useful data. Nevertheless, there is a lack of comprehensive surveys in the field of meeting summarizers. In this survey, we aim to cover recent meeting summarization techniques. Our survey offers a general overview of text summarization along with datasets and evaluation metrics for meeting summarization. We also provide the performance of each summarizer on a leaderboard. We conclude our survey with different challenges in this domain and potential research opportunities for future researchers.
翻訳日:2022-12-19 15:11:56 公開日:2022-12-16
# ALERT:タスクの推論に言語モデルを適用する

ALERT: Adapting Language Models to Reasoning Tasks ( http://arxiv.org/abs/2212.08286v1 )

ライセンス: Link先を確認
Ping Yu, Tianlu Wang, Olga Golovneva, Badr Alkhamissy, Gargi Ghosh, Mona Diab, Asli Celikyilmaz(参考訳) 現在の大規模言語モデルは、数ショットの学習でステップバイステップの推論を必要とする複雑なタスクで合理的に機能する。 これらのモデルは、事前トレーニング中に学んだ推論スキルを適用して、トレーニングコンテキストの外で推論するのでしょうか、あるいは、トレーニングコーパスをより細かい粒度で記憶し、コンテキストをよりよく理解することを学びましたか? ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートであり、推論スキルを必要とする複雑なタスクにおいて、事前訓練されたモデルと微調整されたモデルを比較する。 ALERTは、20以上のデータセットにまたがる詳細な推論スキルに基づいて、あらゆる言語モデルを評価するためのテストベッドを提供する。 ALERTを利用して微調整の役割をさらに調査する。 広範な経験的分析により、言語モデルは、事前学習状態と比較して、微調整段階において、テキストのエンテーメント、誘惑的推論、類推的推論などの推論スキルを学習することがわかった。 また、言語モデルが微調整された場合、プロンプトテンプレートに過度に適合する傾向にあり、一般化問題の原因となるモデルの堅牢性を損なう。

Current large language models can perform reasonably well on complex tasks that require step-by-step reasoning with few-shot learning. Are these models applying reasoning skills they have learnt during pre-training and reason outside of their training context, or are they simply memorizing their training corpus at finer granularity and have learnt to better understand their context? To tease apart these possibilities, we introduce ALERT, a benchmark and suite of analyses for assessing language models' reasoning ability comparing pre-trained and finetuned models on complex tasks that require reasoning skills to solve. ALERT provides a test bed to asses any language model on fine-grained reasoning skills, which spans over 20 datasets and covers 10 different reasoning skills. We leverage ALERT to further investigate the role of finetuning. With extensive empirical analysis we find that language models learn more reasoning skills such as textual entailment, abductive reasoning, and analogical reasoning during finetuning stage compared to pretraining state. We also find that when language models are finetuned they tend to overfit to the prompt template, which hurts the robustness of models causing generalization problems.
翻訳日:2022-12-19 15:11:47 公開日:2022-12-16
# 潜在空間における確率密度推定による可制御テキスト生成

Controllable Text Generation via Probability Density Estimation in the Latent Space ( http://arxiv.org/abs/2212.08307v1 )

ライセンス: Link先を確認
Yuxuan Gu, Xiaocheng Feng, Sicheng Ma, Lingyuan Zhang, Heng Gong, Bing Qin(参考訳) 制御可能なテキスト生成に関するこれまでの研究は、属性関連分類器による表現の最適化や、関連する離散サンプルからの表現のサンプリングなど、潜在空間からの制御のアイデアを探求してきた。 しかし、それらは潜在空間と制御の両方をモデル化するのに十分な効果がなく、制御されたテキストは品質と多様性が低いままである。 本研究では,潜在空間における確率密度推定を用いた新しい制御フレームワークを提案する。 本手法では,非可逆変換関数である正規化フローを用いて,潜在空間の複素分布を先行空間の単純ガウス分布にマッピングする。 したがって、先行空間において洗練されたフレキシブルな制御を行い、可逆変換のワンワンマッピング特性により、制御効果を潜在空間にフィードバックすることができる。 単一属性制御と多属性制御の実験により,本手法は属性関連性やテキスト品質に優れ,SOTAを実現する。 制御強度調整のさらなる分析は,制御戦略の柔軟性を示す。

Previous work on controllable text generation has explored the idea of control from the latent space, such as optimizing a representation with attribute-related classifiers or sampling a representation from relevant discrete samples. However, they are not effective enough in modeling both the latent space and the control, leaving controlled text with low quality and diversity. In this work, we propose a novel control framework using probability density estimation in the latent space. Our method utilizes an invertible transformation function, the Normalizing Flow, that maps the complex distributions in the latent space to simple Gaussian distributions in the prior space. Thus, we can perform sophisticated and flexible control in the prior space and feed the control effects back into the latent space owing to the one-one-mapping property of invertible transformations. Experiments on single-attribute controls and multi-attribute control reveal that our method outperforms several strong baselines on attribute relevance and text quality and achieves the SOTA. Further analysis of control strength adjustment demonstrates the flexibility of our control strategy.
翻訳日:2022-12-19 15:11:25 公開日:2022-12-16
# 二分木法-法的自然言語の形式的解釈

Law to Binary Tree -- An Formal Interpretation of Legal Natural Language ( http://arxiv.org/abs/2212.08335v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Vu Tran, Ngoc-Cam Le, Thi-Thuy Le, Quang-Huy Nguyen, Le-Minh Nguyen, Ken Satoh(参考訳) 法律における知識表現と推論は、法的分析と意思決定タスクの自動化を促進するために不可欠である。 本稿では,法理学に基づく新しい手法,特に法理学に基づく法理文献を表現・推論する法理分類法を提案する。 本手法は,法文書の規則を二分木と解釈し,法的推論システムによる決定と論理的矛盾の解決を容易にする。 このアプローチの利点は2つあります。 まず、規則の二分木表現に基づいて法的推論を行うことができる。 第二に、規則のバイナリツリー表現は、既存の文ベースの表現よりも理解しやすい。 法律文書における規制の解釈に我々のアプローチをどのように利用できるかの例を示す。

Knowledge representation and reasoning in law are essential to facilitate the automation of legal analysis and decision-making tasks. In this paper, we propose a new approach based on legal science, specifically legal taxonomy, for representing and reasoning with legal documents. Our approach interprets the regulations in legal documents as binary trees, which facilitates legal reasoning systems to make decisions and resolve logical contradictions. The advantages of this approach are twofold. First, legal reasoning can be performed on the basis of the binary tree representation of the regulations. Second, the binary tree representation of the regulations is more understandable than the existing sentence-based representations. We provide an example of how our approach can be used to interpret the regulations in a legal document.
翻訳日:2022-12-19 15:11:07 公開日:2022-12-16
# 視覚と触覚の相補的利用による視覚触覚精度把握の計画

Planning Visual-Tactile Precision Grasps via Complementary Use of Vision and Touch ( http://arxiv.org/abs/2212.08604v1 )

ライセンス: Link先を確認
Martin Matak and Tucker Hermans(参考訳) 多指ハンドの指先グリップを確実に計画することは、ツールの使用、挿入、巧妙な手操作を含む多くのタスクにおいて重要な課題である。 この作業は、ロボットが把握すべき物体の正確なモデルが欠けている場合にさらに困難になる。 触覚センシングは、物体形状の不確実性を考慮するための有望なアプローチを提供する。 しかし、現在のロボットハンドは完全な触覚を欠いている。 このように、触覚センサでカバーされた領域と接触するように、マルチフィンガーハンドの把持を計画し実行する方法が問題となる。 この問題に対処するため,提案手法では,指先が推定対象面に接するべき場所を明確に把握し,把持成功の確率を最大化する手法を提案する。 本手法の成功の鍵は,接触制約を符号化するための初期計画に視覚面推定を用いることである。 ロボットは触覚フィードバックコントローラを使ってこの計画を実行し、ロボットは物体の表面のオンライン推定に適応して初期計画の誤りを訂正することができる。 重要なことに、ロボットは視覚と触覚のセンシングの間で物体のポーズや表面推定を明示的に統合することはない。 視覚は、接触前にロボットの動きを誘導し、タッチは、視覚から予測されるものとは異なる接触が発生したときに計画を更新する。 本手法は, 単一カメラからの表面推定値を用いて, 従来認識されていた物体の精度把握に成功していることを示す。 さらに,提案手法は,提案手法が提案する複数のベースラインを上回りながら,多指把持プランナーの状態を上回っている。

Reliably planning fingertip grasps for multi-fingered hands lies as a key challenge for many tasks including tool use, insertion, and dexterous in-hand manipulation. This task becomes even more difficult when the robot lacks an accurate model of the object to be grasped. Tactile sensing offers a promising approach to account for uncertainties in object shape. However, current robotic hands tend to lack full tactile coverage. As such, a problem arises of how to plan and execute grasps for multi-fingered hands such that contact is made with the area covered by the tactile sensors. To address this issue, we propose an approach to grasp planning that explicitly reasons about where the fingertips should contact the estimated object surface while maximizing the probability of grasp success. Key to our method's success is the use of visual surface estimation for initial planning to encode the contact constraint. The robot then executes this plan using a tactile-feedback controller that enables the robot to adapt to online estimates of the object's surface to correct for errors in the initial plan. Importantly, the robot never explicitly integrates object pose or surface estimates between visual and tactile sensing, instead it uses the two modalities in complementary ways. Vision guides the robots motion prior to contact; touch updates the plan when contact occurs differently than predicted from vision. We show that our method successfully synthesises and executes precision grasps for previously unseen objects using surface estimates from a single camera view. Further, our approach outperforms a state of the art multi-fingered grasp planner, while also beating several baselines we propose.
翻訳日:2022-12-19 15:05:26 公開日:2022-12-16
# Max K-Armed Bandit を用いた材料発見

Materials Discovery using Max K-Armed Bandit ( http://arxiv.org/abs/2212.08225v1 )

ライセンス: Link先を確認
Nobuaki Kikkawa and Hiroshi Ohno(参考訳) バンディット問題の探索アルゴリズムは、材料発見に適用できる。 しかし, 従来のバンディット問題の目的は, 材料発見と異なる。 従来のバンディット問題は全体の報酬を最大化することを目的としており、材料発見は材料特性のブレークスルーを達成することを目的としている。 max k-armed bandit (mkb) 問題は、最高の報酬を1つ獲得することを目的としており、従来のbanditよりも発見タスクに合致する。 そこで本研究では,MKB問題に基づく材料発見のための探索アルゴリズムを提案する。 このアプローチは、時間的地平線に依存しない漸近的なオラクルであると疑似保証される。 さらに、他のMKBアルゴリズムと比較して、提案アルゴリズムは1つのハイパーパラメータしか持たず、材料発見に有利である。 提案アルゴリズムをモンテカルロ木探索を用いた合成問題と分子設計実証に応用した。 その結果,提案アルゴリズムは,mkbの最適アームが期待値に基づいて決定できない場合,探索過程の後期において,他のバンディットアルゴリズムよりも安定して優れていた。

Search algorithms for the bandit problems are applicable in materials discovery. However, the objectives of the conventional bandit problem are different from those of materials discovery. The conventional bandit problem aims to maximize the total rewards, whereas materials discovery aims to achieve breakthroughs in material properties. The max K-armed bandit (MKB) problem, which aims to acquire the single best reward, matches with the discovery tasks better than the conventional bandit. Thus, here, we propose a search algorithm for materials discovery based on the MKB problem using a pseudo-value of the upper confidence bound of expected improvement of the best reward. This approach is pseudo-guaranteed to be asymptotic oracles that do not depends on the time horizon. In addition, compared with other MKB algorithms, the proposed algorithm has only one hyperparameter, which is advantageous in materials discovery. We applied the proposed algorithm to synthetic problems and molecular-design demonstrations using a Monte Carlo tree search. According to the results, the proposed algorithm stably outperformed other bandit algorithms in the late stage of the search process when the optimal arm of the MKB could not be determined based on its expectation reward.
翻訳日:2022-12-19 15:05:01 公開日:2022-12-16
# ブラウアー群同変ニューラルネットワーク

Brauer's Group Equivariant Neural Networks ( http://arxiv.org/abs/2212.08630v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 私たちは、機械学習の文献に欠けている3つの対称性群に対して、層が$\mathbb{r}^{n}$のテンソルパワーを持つ可能性のある全てのグループ同変ニューラルネットワークの完全な特徴付けを提供する:$o(n)$、特別な直交群である$so(n)$、シンプレクティック群である$sp(n)$。 特に、この群が$O(n)$または$SO(n)$であるとき、および群が$Sp(n)$であるときの$\mathbb{R}^{n}$のシンプレクティック基底において、そのようなテンソルパワー空間の間の学習可能で線型で同変な層函数のスパンニング集合を見つける。 我々が特徴付けるニューラルネットワークは、群同変ニューラルネットワークを構築する際に典型的要件を回避し、$\mathbb{r}^{n}$のテンソルパワー空間を既約表現に分解する必要があるため、実装が容易である。 また,本手法が局所対称性に同値なニューラルネットワークの構築にどのように一般化するかについても述べる。 この結果の理論的背景は、1937年にブラウアーが論文"on algebras which are connected with the semi simple continuous groups"で提唱したシューア・ワイル双対性(schur-weyl dualities)から来ている。 我々は、シュール・ワイル双対性は、本論文で検討されているもの以外のグループに同値なニューラルネットワークの構造を理解するのに使用できる強力な数学的概念であることが示唆されている。

We provide a full characterisation of all of the possible group equivariant neural networks whose layers are some tensor power of $\mathbb{R}^{n}$ for three symmetry groups that are missing from the machine learning literature: $O(n)$, the orthogonal group; $SO(n)$, the special orthogonal group; and $Sp(n)$, the symplectic group. In particular, we find a spanning set of matrices for the learnable, linear, equivariant layer functions between such tensor power spaces in the standard basis of $\mathbb{R}^{n}$ when the group is $O(n)$ or $SO(n)$, and in the symplectic basis of $\mathbb{R}^{n}$ when the group is $Sp(n)$. The neural networks that we characterise are simple to implement since our method circumvents the typical requirement when building group equivariant neural networks of having to decompose the tensor power spaces of $\mathbb{R}^{n}$ into irreducible representations. We also describe how our approach generalises to the construction of neural networks that are equivariant to local symmetries. The theoretical background for our results comes from the Schur-Weyl dualities that were established by Brauer in his 1937 paper "On Algebras Which are Connected with the Semisimple Continuous Groups" for each of the three groups in question. We suggest that Schur-Weyl duality is a powerful mathematical concept that could be used to understand the structure of neural networks that are equivariant to groups beyond those considered in this paper.
翻訳日:2022-12-19 15:04:43 公開日:2022-12-16
# 置換同変ニューラルネットワークと分割ダイアグラムの接続

Connecting Permutation Equivariant Neural Networks and Partition Diagrams ( http://arxiv.org/abs/2212.08648v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 分割代数と対称群の間に存在するシュル=ワイル双対性は、層が対称群 $S_n$ の置換表現 $M_n$ のテンソルパワーを持つ可換な置換同変ニューラルネットワークの全てを特徴づける強力な理論的基礎をもたらすことを示す。 その際、我々は2つの別々の文献を統一し、現在機械学習コミュニティによって広く引用されている主要な結果のいくつかを修正します。 特に、分割代数とその関連ベクトル空間に対する集合分割の基底のエレガントなグラフィカルな表現を用いて、そのようなテンソルパワー空間間の学習可能、線形、置換等変層関数の基底を$M_n$の標準基底とする。 また、mckayクイバーを通る特定の経路を$m_n$で見て、これらの層関数に現れなければならない重みの数を計算する方法を示す。 最後に,本手法が局所対称性に同値なニューラルネットワークの構築にどのように一般化するかを述べる。

We show how the Schur-Weyl duality that exists between the partition algebra and the symmetric group results in a stronger theoretical foundation for characterising all of the possible permutation equivariant neural networks whose layers are some tensor power of the permutation representation $M_n$ of the symmetric group $S_n$. In doing so, we unify two separate bodies of literature, and we correct some of the major results that are now widely quoted by the machine learning community. In particular, we find a basis of matrices for the learnable, linear, permutation equivariant layer functions between such tensor power spaces in the standard basis of $M_n$ by using an elegant graphical representation of a basis of set partitions for the partition algebra and its related vector spaces. Also, we show how we can calculate the number of weights that must appear in these layer functions by looking at certain paths through the McKay quiver for $M_n$. Finally, we describe how our approach generalises to the construction of neural networks that are equivariant to local symmetries.
翻訳日:2022-12-19 15:04:01 公開日:2022-12-16
# 時間経過地震観測画像におけるco2漏れ検出による脱リスク炭素捕獲と隔離

De-risking Carbon Capture and Sequestration with Explainable CO2 Leakage Detection in Time-lapse Seismic Monitoring Images ( http://arxiv.org/abs/2212.08596v1 )

ライセンス: Link先を確認
Huseyin Tuna Erdinc, Abhinav Prakash Gahlot, Ziyi Yin, Mathias Louboutin, Felix J. Herrmann(参考訳) 地球温暖化対策のための炭素捕獲・隔離技術の世界的な展開が拡大する中、既存のまたは貯蔵された断層による潜在的なco2漏れの監視と検出は、この技術の安全かつ長期的な存続に不可欠である。 近年のCO2貯蔵の時間ラプス地震モニタリング研究は, 地表記録地震データからCO2配管の成長をモニタリングする能力に有望な成果を示した。 しかし, 地震画像のCO2濃度に対する感度が低かったため, 漏えいを効率的に解釈するためには, さらなる開発が必要である。 本研究では,現在最先端の深層学習モデルを用いて,CO2プラム(リーカジ)をデライン化するために,時間ラプス地震画像のバイナリ分類を導入する。 さらに,クラスアクティベーションマッピング手法を用いて,CO2プラムの漏洩領域をローカライズする。

With the growing global deployment of carbon capture and sequestration technology to combat climate change, monitoring and detection of potential CO2 leakage through existing or storage induced faults are critical to the safe and long-term viability of the technology. Recent work on time-lapse seismic monitoring of CO2 storage has shown promising results in its ability to monitor the growth of the CO2 plume from surface recorded seismic data. However, due to the low sensitivity of seismic imaging to CO2 concentration, additional developments are required to efficiently interpret the seismic images for leakage. In this work, we introduce a binary classification of time-lapse seismic images to delineate CO2 plumes (leakage) using state-of-the-art deep learning models. Additionally, we localize the leakage region of CO2 plumes by leveraging Class Activation Mapping methods.
翻訳日:2022-12-19 15:03:44 公開日:2022-12-16
# IMoS:人間-物体インタラクションのためのインテント駆動フルボディモーション合成

IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object Interactions ( http://arxiv.org/abs/2212.07555v2 )

ライセンス: Link先を確認
Anindita Ghosh, Rishabh Dabral, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek(参考訳) シーン内の仮想キャラクタを、簡単な指示で周囲のオブジェクトとやりとりできるだろうか? このような動作を多種多様なオブジェクトや命令でうまく合成することは可能か? これらの疑問に触発されて,本研究では,仮想人体文字が到達範囲内に3Dオブジェクトを配置した特定の動作を行う場合のフルボディ動作を合成する最初のフレームワークを提案する。 本システムでは,オブジェクトと仮想文字の関連意図を入力テキストで指定し,全身動作の多種多様なシーケンスを出力する。 これは、主に物体をつかむための手や指の動きを合成することに焦点を当てた、全身動作合成法が一般的にオブジェクトの相互作用を考慮しない既存の研究とは対照的である。 一対の分離条件付き変分オートエンコーダ(CVAE)を用いて、自己回帰的に身体部分の動きを学習するインテント駆動フルボディモーションジェネレータを設計し、その目的を達成する。 また、6自由度(6dof)の物体の位置を最適化し、合成された文字の手に収まるようにした。 提案手法を既存の動作合成法と比較し,意図駆動動作合成の課題に対して,新しい,より強固な状態を確立する。 ユーザ・スタディにより,本合成された全身動作は,現在の最先端手法と比較して80%以上のシナリオで参加者にとってより現実的に見えること,また,いくつかの場面において基礎的真理と同等であると考えられた。

Can we make virtual characters in a scene interact with their surrounding objects through simple instructions? Is it possible to synthesize such motion plausibly with a diverse set of objects and instructions? Inspired by these questions, we present the first framework to synthesize the full-body motion of virtual human characters performing specified actions with 3D objects placed within their reach. Our system takes as input textual instructions specifying the objects and the associated intentions of the virtual characters and outputs diverse sequences of full-body motions. This is in contrast to existing work, where full-body action synthesis methods generally do not consider object interactions, and human-object interaction methods focus mainly on synthesizing hand or finger movements for grasping objects. We accomplish our objective by designing an intent-driven full-body motion generator, which uses a pair of decoupled conditional variational autoencoders (CVAE) to learn the motion of the body parts in an autoregressive manner. We also optimize for the positions of the objects with six degrees of freedom (6DoF) such that they plausibly fit within the hands of the synthesized characters. We compare our proposed method with the existing methods of motion synthesis and establish a new and stronger state-of-the-art for the task of intent-driven motion synthesis. Through a user study, we further show that our synthesized full-body motions appear more realistic to the participants in more than 80% of scenarios compared to the current state-of-the-art methods, and are perceived to be as good as the ground truth on several occasions.
翻訳日:2022-12-19 15:03:27 公開日:2022-12-16
# 視覚ナビゲーションのためのオフライン強化学習

Offline Reinforcement Learning for Visual Navigation ( http://arxiv.org/abs/2212.08244v1 )

ライセンス: Link先を確認
Dhruv Shah, Arjun Bhorkar, Hrish Leen, Ilya Kostrikov, Nick Rhinehart, Sergey Levine(参考訳) 強化学習により、ロボットは、レーンをフォローしたり、舗装された道に留まったり、刈り取ったばかりの草を避けたりといった、ユーザーが指定した報酬関数を最適化しながら、遠くの目標に向かって移動することができる。 しかし、実世界のロボットの試行錯誤によるオンライン学習は、非常に困難であり、代わりに既存のロボットナビゲーションデータのデータセットを活用できる方法は、はるかにスケーラブルで、より広範な一般化を可能にする可能性がある。 本稿では,ロボットナビゲーションのための初のオフラインRLシステムであるReViNDについて述べる。 我々は,データ収集や微調整を伴わずにオフロードナビゲーションシステムを評価し,このデータセットからオフライントレーニングのみを用いて遠隔目標へ移動できることを示し,ユーザ指定の報酬関数に基づいて定性的に異なる行動を示す。

Reinforcement learning can enable robots to navigate to distant goals while optimizing user-specified reward functions, including preferences for following lanes, staying on paved paths, or avoiding freshly mowed grass. However, online learning from trial-and-error for real-world robots is logistically challenging, and methods that instead can utilize existing datasets of robotic navigation data could be significantly more scalable and enable broader generalization. In this paper, we present ReViND, the first offline RL system for robotic navigation that can leverage previously collected data to optimize user-specified reward functions in the real-world. We evaluate our system for off-road navigation without any additional data collection or fine-tuning, and show that it can navigate to distant goals using only offline training from this dataset, and exhibit behaviors that qualitatively differ based on the user-specified reward function.
翻訳日:2022-12-19 15:02:43 公開日:2022-12-16
# 機能ドロップアウト:コントラスト学習における強化の役割を再考する

Feature Dropout: Revisiting the Role of Augmentations in Contrastive Learning ( http://arxiv.org/abs/2212.08378v1 )

ライセンス: Link先を確認
Alex Tamkin, Margalit Glasgow, Xiluo He, Noah Goodman(参考訳) コントラスト学習における増補はどのような役割を果たすか? 最近の研究は、良い改善が特定の下流タスクに関してラベル保存であることを示唆している。 我々は,複数のダウンストリームタスクに対して,多様な汎用表現を学習することを目的とした基礎モデル設定において,ラベル付き拡張が有効であることを示すことで,この図を複雑化する。 複数のダウンストリームタスク(例えば、写真に重ね合わせられた数字、一方のクラスと他方のクラスを予測)を持つ画像と音声のデータセットで対比学習実験を行う。 最近提案されたコントラスト学習のための拡張学習モデルであるviewmaker networksは、異なるダウンストリームタスクに必要な機能を確率的に破壊するラベル付き拡張を生成する。 これらの拡張は解釈可能であり(例えば、画像に形、数字、文字を追加するなど)、ラベル情報を保存していないにもかかわらず、専門家が設計した拡張よりも驚くほどパフォーマンスが向上する。 実験結果をサポートするため,線形モデルを用いた単純なコントラスト学習設定を理論的に解析した。 この設定では、1つの特徴セットが他の下流タスクに有用な特徴の学習を抑えるのを防ぐためにラベルの削除が不可欠である。 本結果は,基礎モデルの成功を説明する上で,複数の下流タスク間の相互作用を分析する必要性を強調した。

What role do augmentations play in contrastive learning? Recent work suggests that good augmentations are label-preserving with respect to a specific downstream task. We complicate this picture by showing that label-destroying augmentations can be useful in the foundation model setting, where the goal is to learn diverse, general-purpose representations for multiple downstream tasks. We perform contrastive learning experiments on a range of image and audio datasets with multiple downstream tasks (e.g. for digits superimposed on photographs, predicting the class of one vs. the other). We find that Viewmaker Networks, a recently proposed model for learning augmentations for contrastive learning, produce label-destroying augmentations that stochastically destroy features needed for different downstream tasks. These augmentations are interpretable (e.g. altering shapes, digits, or letters added to images) and surprisingly often result in better performance compared to expert-designed augmentations, despite not preserving label information. To support our empirical results, we theoretically analyze a simple contrastive learning setting with a linear model. In this setting, label-destroying augmentations are crucial for preventing one set of features from suppressing the learning of features useful for another downstream task. Our results highlight the need for analyzing the interaction between multiple downstream tasks when trying to explain the success of foundation models.
翻訳日:2022-12-19 15:02:28 公開日:2022-12-16
# fake it until you make it: learning(s) from a synthetic imagenet clone (英語)

Fake it till you make it: Learning(s) from a synthetic ImageNet clone ( http://arxiv.org/abs/2212.08420v1 )

ライセンス: Link先を確認
Mert Bulent Sariyildiz, Karteek Alahari, Diane Larlus, Yannis Kalantidis(参考訳) 安定拡散などの最近の大規模画像生成モデルでは、非常に単純なテキストプロンプトからかなり現実的な画像を生成することができる。 このようなモデルは、画像予測モデルをトレーニングするために、実際のイメージを時代遅れにするだろうか? 本稿では,画像ネット分類のトレーニングモデルにおいて,実画像の必要性に疑問を呈し,挑発的疑問の一部に答える。 より正確には、データセットの構築に使用されたクラス名のみを提供し、imagenetの合成クローンを生成するための安定拡散の能力を調べ、それらをスクラッチから分類モデルのトレーニングにどの程度役立つかを測定する。 画像Net-SDと表現する画像Netクローンは、最小限かつクラスに依存しないプロンプトエンジニアリングにより、合成画像によって生成されたモデルと実際の画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。 さらに,合成画像で訓練したモデルが,強い一般化特性を示し,実データで訓練したモデルと同等の性能を示すことを示す。

Recent large-scale image generation models such as Stable Diffusion have exhibited an impressive ability to generate fairly realistic images starting from a very simple text prompt. Could such models render real images obsolete for training image prediction models? In this paper, we answer part of this provocative question by questioning the need for real images when training models for ImageNet classification. More precisely, provided only with the class names that have been used to build the dataset, we explore the ability of Stable Diffusion to generate synthetic clones of ImageNet and measure how useful they are for training classification models from scratch. We show that with minimal and class-agnostic prompt engineering those ImageNet clones we denote as ImageNet-SD are able to close a large part of the gap between models produced by synthetic images and models trained with real images for the several standard classification benchmarks that we consider in this study. More importantly, we show that models trained on synthetic images exhibit strong generalization properties and perform on par with models trained on real data.
翻訳日:2022-12-19 14:56:30 公開日:2022-12-16
# 文脈ラベル学習:セマンティックセグメンテーションにおける背景クラス表現の改善

Context Label Learning: Improving Background Class Representations in Semantic Segmentation ( http://arxiv.org/abs/2212.08423v1 )

ライセンス: Link先を確認
Zeju Li, Konstantinos Kamnitsas, Cheng Ouyang, Chen Chen and Ben Glocker(参考訳) 背景サンプルは関心領域(ROI)のセグメンテーションのための重要なコンテキスト情報を提供する。 しかし、それらは常に多様な構造の集合をカバーするため、セグメンテーションモデルが高い感度と精度で優れた決定境界を学習するのは難しい。 この問題は、背景クラスの非常に異質な性質に関係し、多モード分布をもたらす。 経験的に、異種背景で訓練されたニューラルネットワークは、対応するコンテキストサンプルを特徴空間内のコンパクトクラスタにマッピングするのに苦労している。 その結果、バックグラウンドロジットアクティベーションによる分散は、決定境界を越えてシフトし、さまざまなデータセットやタスクを体系的にオーバーセグメンテーションすることが可能になる。 本研究では,背景クラスを複数のサブクラスに分解することで文脈表現を改善するコンテキストラベル学習(CoLab)を提案する。 具体的には、タスクジェネレータとして補助ネットワークをトレーニングし、プライマリセグメンテーションモデルとともに、ROIセグメンテーション精度に肯定的な影響を及ぼすコンテキストラベルを自動的に生成する。 いくつかの挑戦的なセグメンテーションタスクとデータセットで広範な実験が行われている。 その結果、CoLabはセグメンテーションモデルをガイドして、背景サンプルのロジットを決定境界から遠ざけることで、セグメンテーション精度が大幅に向上することを示した。 コードは利用可能。

Background samples provide key contextual information for segmenting regions of interest (ROIs). However, they always cover a diverse set of structures, causing difficulties for the segmentation model to learn good decision boundaries with high sensitivity and precision. The issue concerns the highly heterogeneous nature of the background class, resulting in multi-modal distributions. Empirically, we find that neural networks trained with heterogeneous background struggle to map the corresponding contextual samples to compact clusters in feature space. As a result, the distribution over background logit activations may shift across the decision boundary, leading to systematic over-segmentation across different datasets and tasks. In this study, we propose context label learning (CoLab) to improve the context representations by decomposing the background class into several subclasses. Specifically, we train an auxiliary network as a task generator, along with the primary segmentation model, to automatically generate context labels that positively affect the ROI segmentation accuracy. Extensive experiments are conducted on several challenging segmentation tasks and datasets. The results demonstrate that CoLab can guide the segmentation model to map the logits of background samples away from the decision boundary, resulting in significantly improved segmentation accuracy. Code is available.
翻訳日:2022-12-19 14:56:14 公開日:2022-12-16
# バイオメディカル画像分析コンペティションの現状

Biomedical image analysis competitions: The state of current participation practice ( http://arxiv.org/abs/2212.08568v1 )

ライセンス: Link先を確認
Matthias Eisenmann, Annika Reinke, Vivienn Weru, Minu Dietlinde Tizabi, Fabian Isensee, Tim J. Adler, Patrick Godau, Veronika Cheplygina, Michal Kozubek, Sharib Ali, Anubha Gupta, Jan Kybic, Alison Noble, Carlos Ortiz de Sol\'orzano, Samiksha Pachade, Caroline Petitjean, Daniel Sage, Donglai Wei, Elizabeth Wilden, Deepak Alapatt, Vincent Andrearczyk, Ujjwal Baid, Spyridon Bakas, Niranjan Balu, Sophia Bano, Vivek Singh Bawa, Jorge Bernal, Sebastian Bodenstedt, Alessandro Casella, Jinwook Choi, Olivier Commowick, Marie Daum, Adrien Depeursinge, Reuben Dorent, Jan Egger, Hannah Eichhorn, Sandy Engelhardt, Melanie Ganz, Gabriel Girard, Lasse Hansen, Mattias Heinrich, Nicholas Heller, Alessa Hering, Arnaud Huaulm\'e, Hyunjeong Kim, Bennett Landman, Hongwei Bran Li, Jianning Li, Jun Ma, Anne Martel, Carlos Mart\'in-Isla, Bjoern Menze, Chinedu Innocent Nwoye, Valentin Oreiller, Nicolas Padoy, Sarthak Pati, Kelly Payette, Carole Sudre, Kimberlin van Wijnen, Armine Vardazaryan, Tom Vercauteren, Martin Wagner, Chuanbo Wang, Moi Hoon Yap, Zeyun Yu, Chun Yuan, Maximilian Zenk, Aneeq Zia, David Zimmerer, Rina Bao, Chanyeol Choi, Andrew Cohen, Oleh Dzyubachyk, Adrian Galdran, Tianyuan Gan, Tianqi Guo, Pradyumna Gupta, Mahmood Haithami, Edward Ho, Ikbeom Jang, Zhili Li, Zhengbo Luo, Filip Lux, Sokratis Makrogiannis, Dominik M\"uller, Young-tack Oh, Subeen Pang, Constantin Pape, Gorkem Polat, Charlotte Rosalie Reed, Kanghyun Ryu, Tim Scherr, Vajira Thambawita, Haoyu Wang, Xinliang Wang, Kele Xu, Hung Yeh, Doyeob Yeo, Yixuan Yuan, Yan Zeng, Xin Zhao, Julian Abbing, Jannes Adam, Nagesh Adluru, Niklas Agethen, Salman Ahmed, Yasmina Al Khalil, Mireia Aleny\`a, Esa Alhoniemi, Chengyang An, Talha Anwar, Tewodros Weldebirhan Arega, Netanell Avisdris, Dogu Baran Aydogan, Yingbin Bai, Maria Baldeon Calisto, Berke Doga Basaran, Marcel Beetz, Cheng Bian, Hao Bian, Kevin Blansit, Louise Bloch, Robert Bohnsack, Sara Bosticardo, Jack Breen, Mikael Brudfors, Raphael Br\"ungel, Mariano Cabezas, Alberto Cacciola, Zhiwei Chen, Yucong Chen, Daniel Tianming Chen, Minjeong Cho, Min-Kook Choi, Chuantao Xie Chuantao Xie, Dana Cobzas, Julien Cohen-Adad, Jorge Corral Acero, Sujit Kumar Das, Marcela de Oliveira, Hanqiu Deng, Guiming Dong, Lars Doorenbos, Cory Efird, Di Fan, Mehdi Fatan Serj, Alexandre Fenneteau, Lucas Fidon, Patryk Filipiak, Ren\'e Finzel, Nuno R. Freitas, Christoph M. Friedrich, Mitchell Fulton, Finn Gaida, Francesco Galati, Christoforos Galazis, Chang Hee Gan, Zheyao Gao, Shengbo Gao, Matej Gazda, Beerend Gerats, Neil Getty, Adam Gibicar, Ryan Gifford, Sajan Gohil, Maria Grammatikopoulou, Daniel Grzech, Orhun G\"uley, Timo G\"unnemann, Chunxu Guo, Sylvain Guy, Heonjin Ha, Luyi Han, Il Song Han, Ali Hatamizadeh, Tian He, Jimin Heo, Sebastian Hitziger, SeulGi Hong, SeungBum Hong, Rian Huang, Ziyan Huang, Markus Huellebrand, Stephan Huschauer, Mustaffa Hussain, Tomoo Inubushi, Ece Isik Polat, Mojtaba Jafaritadi, SeongHun Jeong, Bailiang Jian, Yuanhong Jiang, Zhifan Jiang, Yueming Jin, Smriti Joshi, Abdolrahim Kadkhodamohammadi, Reda Abdellah Kamraoui, Inha Kang, Junghwa Kang, Davood Karimi, April Khademi, Muhammad Irfan Khan, Suleiman A. Khan, Rishab Khantwal, Kwang-Ju Kim, Timothy Kline, Satoshi Kondo, Elina Kontio, Adrian Krenzer, Artem Kroviakov, Hugo Kuijf, Satyadwyoom Kumar, Francesco La Rosa, Abhi Lad, Doohee Lee, Minho Lee, Chiara Lena, Hao Li, Ling Li, Xingyu Li, Fuyuan Liao, KuanLun Liao, Arlindo Limede Oliveira, Chaonan Lin, Shan Lin, Akis Linardos, Marius George Linguraru, Han Liu, Tao Liu, Di Liu, Yanling Liu, Jo\~ao Louren\c{c}o-Silva, Jingpei Lu, Jiangshan Lu, Imanol Luengo, Christina B. Lund, Huan Minh Luu, Yi Lv, Yi Lv, Uzay Macar, Leon Maechler, Sina Mansour L., Kenji Marshall, Moona Mazher, Richard McKinley, Alfonso Medela, Felix Meissen, Mingyuan Meng, Dylan Miller, Seyed Hossein Mirjahanmardi, Arnab Mishra, Samir Mitha, Hassan Mohy-ud-Din, Tony Chi Wing Mok, Gowtham Krishnan Murugesan, Enamundram Naga Karthik, Sahil Nalawade, Jakub Nalepa, Mohamed Naser, Ramin Nateghi, Hammad Naveed, Quang-Minh Nguyen, Cuong Nguyen Quoc, Brennan Nichyporuk, Bruno Oliveira, David Owen, Jimut Bahan Pal, Junwen Pan, Wentao Pan, Winnie Pang, Bogyu Park, Vivek Pawar, Kamlesh Pawar, Michael Peven, Lena Philipp, Tomasz Pieciak, Szymon Plotka, Marcel Plutat, Fattaneh Pourakpour, Domen Prelo\v{z}nik, Kumaradevan Punithakumar, Abdul Qayyum, Sandro Queir\'os, Arman Rahmim, Salar Razavi, Jintao Ren, Mina Rezaei, Jonathan Adam Rico, ZunHyan Rieu, Markus Rink, Johannes Roth, Yusely Ruiz-Gonzalez, Numan Saeed, Anindo Saha, Mostafa Salem, Ricardo Sanchez-Matilla, Kurt Schilling, Wei Shao, Zhiqiang Shen, Ruize Shi, Pengcheng Shi, Daniel Sobotka, Th\'eodore Soulier, Bella Specktor Fadida, Danail Stoyanov, Timothy Sum Hon Mun, Xiaowu Sun, Rong Tao, Franz Thaler, Antoine Th\'eberge, Felix Thielke, Helena Torres, Kareem A. Wahid, Jiacheng Wang, YiFei Wang, Wei Wang, Xiong Wang, Jianhui Wen, Ning Wen, Marek Wodzinski, Ye Wu, Fangfang Xia, Tianqi Xiang, Chen Xiaofei, Lizhan Xu, Tingting Xue, Yuxuan Yang, Lin Yang, Kai Yao, Huifeng Yao, Amirsaeed Yazdani, Michael Yip, Hwanseung Yoo, Fereshteh Yousefirizi, Shunkai Yu, Lei Yu, Jonathan Zamora, Ramy Ashraf Zeineldin, Dewen Zeng, Jianpeng Zhang, Bokai Zhang, Jiapeng Zhang, Fan Zhang, Huahong Zhang, Zhongchen Zhao, Zixuan Zhao, Jiachen Zhao, Can Zhao, Qingshuo Zheng, Yuheng Zhi, Ziqi Zhou, Baosheng Zou, Klaus Maier-Hein, Paul F. J\"ager, Annette Kopp-Schneider, Lena Maier-Hein(参考訳) 国際ベンチマークコンテストの数は、機械学習(ML)の研究と実践の分野で着実に増えている。 しかし、これまでのところ、コミュニティが抱える研究課題に取り組む上で直面するボトルネックと同様に、一般的なプラクティスについてはほとんど知られていない。 バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするため,IEEE ISBI 2021およびMICCAI 2021会議(合計80コンペティション)と共同で実施した課題の参加者全員を対象とした国際調査を設計した。 この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。 調査には72%の参加者が参加した。 結果から,知識交換は参加者に対する第一のインセンティブ (70%) であり,賞金の受け取りは小さい (16%) に過ぎなかった。 80時間の平均的な作業時間がメソッド開発に費やされた一方で、参加者の大多数は、メソッド開発に十分な時間を持っていなかった(32%)。 25%はインフラストラクチャがボトルネックであると認識している。 全体として、すべてのソリューションの94%がディープラーニングベースだった。 そのうち84%は標準アーキテクチャに基づいていた。 回答者の43%が、データサンプル(画像など)は一度に処理するには大きすぎると回答している。 これはパッチベースのトレーニング(69%)、ダウンサンプリング(37%)、一連の2Dタスクとして3D解析タスクを解くことで対処された。 k-foldクロスバリデーションは参加者の37%に過ぎず、参加者の50%が複数の同一モデル(61%)または異種モデル(39%)に基づいてセンシングを行った。 回答者の48%が後処理を施した。

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
翻訳日:2022-12-19 14:55:51 公開日:2022-12-16
# 拡散確率モデルによる人間の運動合成とスタイル伝達の統一

Unifying Human Motion Synthesis and Style Transfer with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2212.08526v1 )

ライセンス: Link先を確認
Ziyi Chang, Edmund J. C. Findlay, Haozheng Zhang and Hubert P. H. Shum(参考訳) 人間の動きは内容が多様であり、スタイルも豊かであるため、デジタル人間のリアルな動きを生み出すことは、コンピュータアニメーションやゲームの中核だが挑戦的な部分である。 最新のディープラーニングアプローチはこの領域で大きな進歩を遂げているが、主に動作合成とスタイル操作を2つの別の問題として考える。 これは主に、クラス間の動作を考慮したモーションコンテンツと、共通の表現においてクラス内動作を効果的に考慮したスタイルの両方を学ぶことによる。 この課題に対処するために,スタイル付きモーション合成のための拡散確率モデル解を提案する。 拡散モデルは確率性の注入により高いキャパシティを持つため、クラス間の運動内容とクラス内の動作の両方を同じ潜伏状態に表現することができる。 これにより、最適な動きの生成とコンテンツスタイルの結合された潜在空間の探索を容易にする、エンドツーエンドのトレーニングパイプラインが統合される。 高品質な結果を得るために,局所誘導のための人間の動作の側面を戦略的に生成する拡散モデルのマルチタスクアーキテクチャを設計する。 我々はまた、グローバルガイダンスのための敵的および物理的規制を設計する。 定量的および定性的な結果を用いて優れた性能を示し、マルチタスクアーキテクチャの有効性を検証する。

Generating realistic motions for digital humans is a core but challenging part of computer animations and games, as human motions are both diverse in content and rich in styles. While the latest deep learning approaches have made significant advancements in this domain, they mostly consider motion synthesis and style manipulation as two separate problems. This is mainly due to the challenge of learning both motion contents that account for the inter-class behaviour and styles that account for the intra-class behaviour effectively in a common representation. To tackle this challenge, we propose a denoising diffusion probabilistic model solution for styled motion synthesis. As diffusion models have a high capacity brought by the injection of stochasticity, we can represent both inter-class motion content and intra-class style behaviour in the same latent. This results in an integrated, end-to-end trained pipeline that facilitates the generation of optimal motion and exploration of content-style coupled latent space. To achieve high-quality results, we design a multi-task architecture of diffusion model that strategically generates aspects of human motions for local guidance. We also design adversarial and physical regulations for global guidance. We demonstrate superior performance with quantitative and qualitative results and validate the effectiveness of our multi-task architecture.
翻訳日:2022-12-19 14:54:51 公開日:2022-12-16
# 拡張地熱系の熱抽出最適化のためのサーロゲート支援レベルベース学習進化探索

Surrogate-assisted level-based learning evolutionary search for heat extraction optimization of enhanced geothermal system ( http://arxiv.org/abs/2212.07666v2 )

ライセンス: Link先を確認
Guodong Chen, Xin Luo, Chuanyin Jiang, Jiu Jimmy Jiao(参考訳) 地熱システムの強化は、持続可能な長期地熱エネルギー供給と二酸化炭素排出量削減に不可欠である。 地熱開発において,有効熱抽出と改良熱浄化効率の最適化が重要な役割を担っている。 しかし,既存の最適化アルゴリズムの最適化性能は次元が大きくなるにつれて低下する。 本研究では,改良地熱系の熱抽出最適化のために,新しいサーロゲート支援レベルベース学習進化探索アルゴリズム(slles)を提案する。 sllesは、レベルベース学習プリスクリーン部と局所進化探索部で構成される。 両者の協力により,最適化過程における探索と搾取のバランスが達成された。 設計空間から繰り返しサンプリングした後、アルゴリズムの堅牢性と有効性が著しく向上することが証明された。 我々の知る限り、提案アルゴリズムは最先端のシミュレーション関連最適化フレームワークを備えている。 ベンチマーク関数, 2次元破壊貯留層, 3次元強化地熱系について比較実験を行った。 提案アルゴリズムは,すべてのベンチマーク関数において,他の5つの最先端サーロゲート支援アルゴリズムよりも優れている。 2つの熱抽出実験の結果、SLLESは従来の進化的アルゴリズムや代用補助アルゴリズムと比較して優れた最適化性能が得られることを示した。 この研究は、改良された地熱系の効率的な地熱抽出の基礎を固め、エネルギー利用分野におけるデータ駆動最適化のモデル管理戦略に光を当てる。

An enhanced geothermal system is essential to provide sustainable and long-term geothermal energy supplies and reduce carbon emissions. Optimal well-control scheme for effective heat extraction and improved heat sweep efficiency plays a significant role in geothermal development. However, the optimization performance of most existing optimization algorithms deteriorates as dimension increases. To solve this issue, a novel surrogate-assisted level-based learning evolutionary search algorithm (SLLES) is proposed for heat extraction optimization of enhanced geothermal system. SLLES consists of classifier-assisted level-based learning pre-screen part and local evolutionary search part. The cooperation of the two parts has realized the balance between the exploration and exploitation during the optimization process. After iteratively sampling from the design space, the robustness and effectiveness of the algorithm are proven to be improved significantly. To the best of our knowledge, the proposed algorithm holds state-of-the-art simulation-involved optimization framework. Comparative experiments have been conducted on benchmark functions, a two-dimensional fractured reservoir and a three-dimensional enhanced geothermal system. The proposed algorithm outperforms other five state-of-the-art surrogate-assisted algorithms on all selected benchmark functions. The results on the two heat extraction cases also demonstrate that SLLES can achieve superior optimization performance compared with traditional evolutionary algorithm and other surrogate-assisted algorithms. This work lays a solid basis for efficient geothermal extraction of enhanced geothermal system and sheds light on the model management strategies of data-driven optimization in the areas of energy exploitation.
翻訳日:2022-12-19 14:54:33 公開日:2022-12-16
# 深層強化学習によるバッテリ制約付きマルチエージェントパトロール

Multi-Agent Patrolling with Battery Constraints through Deep Reinforcement Learning ( http://arxiv.org/abs/2212.08230v1 )

ライセンス: Link先を確認
Chenhao Tong, Aaron Harwood, Maria A. Rodriguez, Richard O. Sinnott(参考訳) 自動運転車は、継続的な地域パトロール問題に向いている。 しかし、多くの理由から最適なパトロール戦略を見つけることは困難である。 第一に、パトロール環境は複雑であり、未知の環境要因を含むことがある。 第二に、自動運転車は故障やバッテリー寿命の制限などのハードウェア上の制約がある。 重要なことに、大きなエリアをパトロールするには、複数のエージェントが必要である。 本研究では,これらの制約を考慮し,分散モデルフリーな深層強化学習に基づくマルチエージェントパトロール戦略に基づくアプローチを提案する。 このアプローチでは,エージェントは自身の環境観測や共有情報に基づいてローカルに意思決定を行う。 さらに、継続的な集団パトロールを支援するために、エージェントは自動的に充電するように訓練される。 全てのパトロールエージェントが同一のポリシーを持つ同質なマルチエージェントアーキテクチャを提案する。 このアーキテクチャは、エージェントの故障を許容し、失敗したエージェントを置き換えるために補助エージェントを追加したり、全体的なパトロール性能を向上させるための堅牢なパトロールシステムを提供する。 この性能は、パトロール性能、バッテリ充電戦略の効率性、システムの全体的な堅牢性、そしてエージェントが環境力学に適応する能力など、様々な観点から実験によって検証される。

Autonomous vehicles are suited for continuous area patrolling problems. However, finding an optimal patrolling strategy can be challenging for many reasons. Firstly, patrolling environments are often complex and can include unknown and evolving environmental factors. Secondly, autonomous vehicles can have failures or hardware constraints such as limited battery lives. Importantly, patrolling large areas often requires multiple agents that need to collectively coordinate their actions. In this work, we consider these limitations and propose an approach based on a distributed, model-free deep reinforcement learning based multi-agent patrolling strategy. In this approach, agents make decisions locally based on their own environmental observations and on shared information. In addition, agents are trained to automatically recharge themselves when required to support continuous collective patrolling. A homogeneous multi-agent architecture is proposed, where all patrolling agents have an identical policy. This architecture provides a robust patrolling system that can tolerate agent failures and allow supplementary agents to be added to replace failed agents or to increase the overall patrol performance. This performance is validated through experiments from multiple perspectives, including the overall patrol performance, the efficiency of the battery recharging strategy, the overall robustness of the system, and the agents' ability to adapt to environment dynamics.
翻訳日:2022-12-19 14:53:33 公開日:2022-12-16
# swing distillation: プライバシ保存型知識蒸留フレームワーク

Swing Distillation: A Privacy-Preserving Knowledge Distillation Framework ( http://arxiv.org/abs/2212.08349v1 )

ライセンス: Link先を確認
Junzhuo Li, Xinwei Wu, Weilong Dong, Shuangzhi Wu, Chao Bian and Deyi Xiong(参考訳) 知識蒸留(KD)はモデル圧縮や知識伝達に広く用いられている。 通常、十分なデータに基づいて訓練された大きな教師モデルは、知識を小さな学生モデルに伝達する。 しかし、KDの成功にもかかわらず、KDが教師モデルのトレーニングデータを漏洩するかどうかを研究する努力はほとんど行われていない。 本稿では,KDがプライバシー漏洩のリスクに悩まされていることを実験的に明らかにする。 そこで本研究では,教師モデルの個人情報を学生モデルに流すことから効果的に保護できる,新しい知識蒸留法であるスイング蒸留法を提案する。 本フレームワークでは、予め定義された定数ハイパーパラメータではなく、データに含まれるプライベート情報の度合いに応じて温度係数を動的かつ適応的に調整する。 位置にあるトークンがプライベート情報を含んでいる可能性に応じて、異なる温度をトークンに割り当てる。 さらに,学生モデルに提供されたソフトターゲットに雑音を注入し,非シールドの知識伝達を回避する。 複数のデータセットとタスクにおける実験により、提案されたswing蒸留は、kdと比較して競合性や優れた性能でプライバシーリークのリスクを大幅に低減できる(カナリア露光の観点から80%以上)。 さらに、スイング蒸留はプライバシー予算の増加に対して堅牢である。

Knowledge distillation (KD) has been widely used for model compression and knowledge transfer. Typically, a big teacher model trained on sufficient data transfers knowledge to a small student model. However, despite the success of KD, little effort has been made to study whether KD leaks the training data of the teacher model. In this paper, we experimentally reveal that KD suffers from the risk of privacy leakage. To alleviate this issue, we propose a novel knowledge distillation method, swing distillation, which can effectively protect the private information of the teacher model from flowing to the student model. In our framework, the temperature coefficient is dynamically and adaptively adjusted according to the degree of private information contained in the data, rather than a predefined constant hyperparameter. It assigns different temperatures to tokens according to the likelihood that a token in a position contains private information. In addition, we inject noise into soft targets provided to the student model, in order to avoid unshielded knowledge transfer. Experiments on multiple datasets and tasks demonstrate that the proposed swing distillation can significantly reduce (by over 80% in terms of canary exposure) the risk of privacy leakage in comparison to KD with competitive or better performance. Furthermore, swing distillation is robust against the increasing privacy budget.
翻訳日:2022-12-19 14:53:15 公開日:2022-12-16
# 機械学習システムのサブグループパフォーマンス監視のための効率的なフレームワーク

An Efficient Framework for Monitoring Subgroup Performance of Machine Learning Systems ( http://arxiv.org/abs/2212.08312v1 )

ライセンス: Link先を確認
Huong Ha(参考訳) デプロイメント後の機械学習システムの監視は、システムの信頼性を保証するために重要である。 特に重要なのは、すべてのデータサブグループ(サブポピュレーション)における機械学習システムのパフォーマンス監視の問題である。 実際には,データサブグループの数が指数関数的に増加し,各サブグループの性能を評価するためのラベル付けプロセスがコストがかかるため,このプロセスは違法にコストがかかる可能性がある。 本稿では,機械学習システムのサブグループ性能を監視するための効率的なフレームワークを提案する。 具体的には、ラベル付きデータの限られた数で、最もパフォーマンスの悪いデータサブグループを見つけることを目的とする。 我々は,高額なブラックボックス目的関数を用いた最適化問題としてこの問題を数学的に定式化し,ベイズ最適化を用いてこの問題を解決することを提案する。 各種実世界のデータセットと機械学習システムに関する実験結果から,提案するフレームワークは,最もパフォーマンスの悪いデータサブグループを効果的かつ効率的に検索できることを示す。

Monitoring machine learning systems post deployment is critical to ensure the reliability of the systems. Particularly importance is the problem of monitoring the performance of machine learning systems across all the data subgroups (subpopulations). In practice, this process could be prohibitively expensive as the number of data subgroups grows exponentially with the number of input features, and the process of labelling data to evaluate each subgroup's performance is costly. In this paper, we propose an efficient framework for monitoring subgroup performance of machine learning systems. Specifically, we aim to find the data subgroup with the worst performance using a limited number of labeled data. We mathematically formulate this problem as an optimization problem with an expensive black-box objective function, and then suggest to use Bayesian optimization to solve this problem. Our experimental results on various real-world datasets and machine learning systems show that our proposed framework can retrieve the worst-performing data subgroup effectively and efficiently.
翻訳日:2022-12-19 14:47:53 公開日:2022-12-16
# 低雑音環境における誘導行列補完のための一般化境界

Generalization Bounds for Inductive Matrix Completion in Low-noise Settings ( http://arxiv.org/abs/2212.08339v1 )

ライセンス: Link先を確認
Antoine Ledent, Rodrigo Alves, Yunwen Lei, Yann Guermeur and Marius Kloft(参考訳) 本研究では,低雑音環境下でのサブガウス雑音仮定の下でのインダクティブ行列完備化(サイド情報付き行列完備化)について一様サンプリングにより検討した。 その結果,(1)ノイズの標準偏差のようにスケールし,(2)完全回復の場合ではゼロに接近する,(2) サンプルサイズが無限に近づくとゼロに収束する,(3) サイド情報の固定次元では行列の大きさにのみ対数依存する,という3つの特性を持つ一般化が得られた。 近似回復における多くの研究と異なり、我々は有界リプシッツ損失と絶対損失の両方について結果を提示し、後者はタラグラッド型不等式に依存する。 これらの証明は、正確な回復文献と近似回復文献の両方の技法の組み合わせからなるため、行列完備化の理論的解析に対する2つのアプローチの間の橋渡しとなる。

We study inductive matrix completion (matrix completion with side information) under an i.i.d. subgaussian noise assumption at a low noise regime, with uniform sampling of the entries. We obtain for the first time generalization bounds with the following three properties: (1) they scale like the standard deviation of the noise and in particular approach zero in the exact recovery case; (2) even in the presence of noise, they converge to zero when the sample size approaches infinity; and (3) for a fixed dimension of the side information, they only have a logarithmic dependence on the size of the matrix. Differently from many works in approximate recovery, we present results both for bounded Lipschitz losses and for the absolute loss, with the latter relying on Talagrand-type inequalities. The proofs create a bridge between two approaches to the theoretical analysis of matrix completion, since they consist in a combination of techniques from both the exact recovery literature and the approximate recovery literature.
翻訳日:2022-12-19 14:47:37 公開日:2022-12-16
# 条件付き不変表現学習の効率化

Efficient Conditionally Invariant Representation Learning ( http://arxiv.org/abs/2212.08645v1 )

ライセンス: Link先を確認
Roman Pogodin, Namrata Deka, Yazhe Li, Danica J. Sutherland, Victor Veitch, Arthur Gretton(参考訳) 多変量連続値変数の条件独立度尺度であるCIRCE(Conditional Independence Regression CovariancE)を導入する。 CIRCEは、ニューラルネットワークの特徴を学習したい設定において、正規化ツールとして適用される。$\varphi(X)$ of data $X$ to estimated a target $Y$, and is conditionally independent of a distractor $Z$ given$Y$。 Z$ と $Y$ はともに連続値であるが比較的低次元であると仮定されるが、X$ とその特徴は複素かつ高次元である。 関連する設定には、ドメイン不変学習、公正性、因果学習が含まれる。 この手順は、$Y$から$Z$のカーネル化された機能への1つのリッジレグレッションだけを必要とする。 すると、この回帰の残余から$\varphi(X)$の独立性を強制するしかなく、これは魅力的な推定特性と整合性を保証することができる。 対照的に、条件付き特徴依存の以前の測定では、特徴学習の各ステップに複数の回帰を必要とするため、より深刻なバイアスと分散が生じ、計算コストが増大する。 十分にリッチな特徴が使われるとき、CIRCE が 0 であることと $\varphi(X) \perp \! \! \! \perp Z \mid Y$。 実験では,条件付き不変画像特徴の学習を含む,従来のベンチマーク手法よりも優れた性能を示す。

We introduce the Conditional Independence Regression CovariancE (CIRCE), a measure of conditional independence for multivariate continuous-valued variables. CIRCE applies as a regularizer in settings where we wish to learn neural features $\varphi(X)$ of data $X$ to estimate a target $Y$, while being conditionally independent of a distractor $Z$ given $Y$. Both $Z$ and $Y$ are assumed to be continuous-valued but relatively low dimensional, whereas $X$ and its features may be complex and high dimensional. Relevant settings include domain-invariant learning, fairness, and causal learning. The procedure requires just a single ridge regression from $Y$ to kernelized features of $Z$, which can be done in advance. It is then only necessary to enforce independence of $\varphi(X)$ from residuals of this regression, which is possible with attractive estimation properties and consistency guarantees. By contrast, earlier measures of conditional feature dependence require multiple regressions for each step of feature learning, resulting in more severe bias and variance, and greater computational cost. When sufficiently rich features are used, we establish that CIRCE is zero if and only if $\varphi(X) \perp \!\!\! \perp Z \mid Y$. In experiments, we show superior performance to previous methods on challenging benchmarks, including learning conditionally invariant image features.
翻訳日:2022-12-19 14:47:18 公開日:2022-12-16
# RepQ-ViT:視覚変換器の後の量子化のためのスケール再パラメータ化

RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers ( http://arxiv.org/abs/2212.08254v1 )

ライセンス: Link先を確認
Zhikai Li, Junrui Xiao, Lianwei Yang, and Qingyi Gu(参考訳) トレーニング後量子化(PTQ)は、エンドツーエンドの再トレーニングなしでキャリブレーションを行うための小さなデータセットのみを必要とするもので、軽量で実用的なモデル圧縮技術である。 近年、視覚変換器(ViT)のいくつかのPTQスキームが提示されているが、残念なことに、特に低ビットの場合、それらは非自明な精度劣化に悩まされている。 本稿では,この課題に対処するため,量子化スケール再パラメータ化に基づく新しい ViT 用 PTQ フレームワークである RepQ-ViT を提案する。 repq-vitは量子化と推論のプロセスを分離し、前者は複素量子化器、後者はスケール再パラメータ化簡易量子化器を用いる。 これにより、正確な量子化と効率的な推論の両方が保証され、ターゲットハードウェアを満たすために量子化性能を犠牲にする既存のアプローチと区別される。 より具体的には、極端分布を持つ2つのコンポーネントに焦点を当てる: チャネル間の激しいアクティベーションと、パワーロー特徴を持つソフトマックスアクティベーションと、それぞれチャネルワイド量子化とlog$\sqrt{2}$量子化をそれぞれ適用する。 次に,ハードウェアフレンドリーなレイヤワイズ量子化とlog2量子化にスケールを再パラメータ化し,精度や計算コストを小さく抑えながら推論を行う。 異なるモデル変種を持つ複数の視覚タスクについて広範な実験が行われ、ハイパーパラメータと高価な再構成手順なしでrepq-vitが既存の強力なベースラインよりも優れており、4ビットのvitsのptqの精度を有益に向上できることが証明された。

Post-training quantization (PTQ), which only requires a tiny dataset for calibration without end-to-end retraining, is a light and practical model compression technique. Recently, several PTQ schemes for vision transformers (ViTs) have been presented; unfortunately, they typically suffer from non-trivial accuracy degradation, especially in low-bit cases. In this paper, we propose RepQ-ViT, a novel PTQ framework for ViTs based on quantization scale reparameterization, to address the above issues. RepQ-ViT decouples the quantization and inference processes, where the former employs complex quantizers and the latter employs scale-reparameterized simplified quantizers. This ensures both accurate quantization and efficient inference, which distinguishes it from existing approaches that sacrifice quantization performance to meet the target hardware. More specifically, we focus on two components with extreme distributions: post-LayerNorm activations with severe inter-channel variation and post-Softmax activations with power-law features, and initially apply channel-wise quantization and log$\sqrt{2}$ quantization, respectively. Then, we reparameterize the scales to hardware-friendly layer-wise quantization and log2 quantization for inference, with only slight accuracy or computational costs. Extensive experiments are conducted on multiple vision tasks with different model variants, proving that RepQ-ViT, without hyperparameters and expensive reconstruction procedures, can outperform existing strong baselines and encouragingly improve the accuracy of 4-bit PTQ of ViTs to a usable level.
翻訳日:2022-12-19 14:46:30 公開日:2022-12-16
# 逐次対向マスキングによる自己教師付き表現学習の改善

Improving self-supervised representation learning via sequential adversarial masking ( http://arxiv.org/abs/2212.08277v1 )

ライセンス: Link先を確認
Dylan Sam, Min Bai, Tristan McKinney, Li Erran Li(参考訳) 自己教師型学習の最近の手法は、マスキングに基づくプレテキストタスクがNLPを超えて拡張されることを示し、コンピュータビジョンにおいて有用な事前学習目的として役立っている。 しかし、既存の手法では、復元作業の難易度を制限し、学習した表現の強さを抑えるランダムまたはアドホックマスキング戦略が適用されている。 敵意に異なる制約を課した逐次的にマスクを生成する新しいフレームワークを提案することにより,敵意マスクの学習における最先端の作業を改善する。 これにより、ImageNet100、STL10、CIFAR10/100の分類やPascal VOCのセグメンテーションなど、さまざまなダウンストリームタスクのパフォーマンスが改善される。 さらに,コンピュータビジョンにおけるSSLのマスキングに基づくアプローチの可能性を示す。

Recent methods in self-supervised learning have demonstrated that masking-based pretext tasks extend beyond NLP, serving as useful pretraining objectives in computer vision. However, existing approaches apply random or ad hoc masking strategies that limit the difficulty of the reconstruction task and, consequently, the strength of the learnt representations. We improve upon current state-of-the-art work in learning adversarial masks by proposing a new framework that generates masks in a sequential fashion with different constraints on the adversary. This leads to improvements in performance on various downstream tasks, such as classification on ImageNet100, STL10, and CIFAR10/100 and segmentation on Pascal VOC. Our results further demonstrate the promising capabilities of masking-based approaches for SSL in computer vision.
翻訳日:2022-12-19 14:45:57 公開日:2022-12-16
# Federated tumor Segmentation Challengeのためのロバスト学習プロトコル

Robust Learning Protocol for Federated Tumor Segmentation Challenge ( http://arxiv.org/abs/2212.08290v1 )

ライセンス: Link先を確認
Ambrish Rawat, Giulio Zizzo, Swanand Kadhe, Jonathan P. Epperlein, Stefano Braghin(参考訳) 本研究では,FeTS 2022(Feerated tumor Segmentation Challenge)のためのFL(Feerated Learning)プロセスのオーケストレーションのための,堅牢で効率的な学習プロトコルを考案した。 FeTSセットアップのためのFLの導入は、主にコラボレータ間のデータ不均一性と訓練の通信コストによって困難である。 これらの課題に取り組むために,サーバサイド適応最適化(サーバサイドアダムなど)と,重み付きパラメータ(重み付け)集約スキーム(例えば適応重み付け集約)を組み合わせたロバスト学習プロトコル(rolepro)を提案する。 RoLePROは、第1フェーズがバニラフェデレーション平均化(Vanilla Federated Averaging)で構成され、第2フェーズは、サーバに適応最適化アルゴリズムが存在するという、洗練された再重み付け(reweighting)を使用する司法集約スキームで構成されている。 2つのフェーズの学習率を調整するために、広範な実験から洞察を引き出す。

In this work, we devise robust and efficient learning protocols for orchestrating a Federated Learning (FL) process for the Federated Tumor Segmentation Challenge (FeTS 2022). Enabling FL for FeTS setup is challenging mainly due to data heterogeneity among collaborators and communication cost of training. To tackle these challenges, we propose Robust Learning Protocol (RoLePRO) which is a combination of server-side adaptive optimisation (e.g., server-side Adam) and judicious parameter (weights) aggregation schemes (e.g., adaptive weighted aggregation). RoLePRO takes a two-phase approach, where the first phase consists of vanilla Federated Averaging, while the second phase consists of a judicious aggregation scheme that uses a sophisticated reweighting, all in the presence of an adaptive optimisation algorithm at the server. We draw insights from extensive experimentation to tune learning rates for the two phases.
翻訳日:2022-12-19 14:45:43 公開日:2022-12-16
# 生成モデルに強力なロテリチケットが見つかるか?

Can We Find Strong Lottery Tickets in Generative Models? ( http://arxiv.org/abs/2212.08311v1 )

ライセンス: Link先を確認
Sangyeop Yeo, Yoojin Jang, Jy-yong Sohn, Dongyoon Han, Jaejun Yoo(参考訳) はい。 本稿では,重み更新を伴わずに生成性能を向上するサブネットワークである生成モデルにおいて,強力な抽選チケットについて検討する。 ニューラルネットワークのプルーニングは、計算とメモリのコストを削減するためのモデル圧縮の基盤となっている。 残念ながら、生成モデルのプルーニングは広範に検討されておらず、既存のプルーニングアルゴリズムは、過剰な重量訓練コスト、性能劣化、限定的な一般化性、複雑な訓練に悩まされている。 これらの問題に対処するために,モーメントマッチングスコアによる強力な宝くじを探すことを提案する。 実験の結果, 検出されたサブネットワークは, 10%の重みしか残っていない場合でも, 訓練された密集モデルと同等かそれ以上の性能を発揮することがわかった。 私たちの知る限りでは、私たちは生成モデルにおける強力な抽選チケットの存在を初めて示し、それを安定的に見つけるためのアルゴリズムを提供します。 私たちのコードと補足資料は公開されています。

Yes. In this paper, we investigate strong lottery tickets in generative models, the subnetworks that achieve good generative performance without any weight update. Neural network pruning is considered the main cornerstone of model compression for reducing the costs of computation and memory. Unfortunately, pruning a generative model has not been extensively explored, and all existing pruning algorithms suffer from excessive weight-training costs, performance degradation, limited generalizability, or complicated training. To address these problems, we propose to find a strong lottery ticket via moment-matching scores. Our experimental results show that the discovered subnetwork can perform similarly or better than the trained dense model even when only 10% of the weights remain. To the best of our knowledge, we are the first to show the existence of strong lottery tickets in generative models and provide an algorithm to find it stably. Our code and supplementary materials are publicly available.
翻訳日:2022-12-19 14:45:17 公開日:2022-12-16
# 摂動格子戦略による対向型防御

Adversarial Example Defense via Perturbation Grading Strategy ( http://arxiv.org/abs/2212.08341v1 )

ライセンス: Link先を確認
Shaowei Zhu, Wanli Lyu, Bin Li, Zhaoxia Yin, Bin Luo(参考訳) ディープニューラルネットワークは多くの分野で広く使われている。 しかし、研究では、DNNは小さな摂動を持ち、DNNの正しい判断を誤解している敵の例によって容易に攻撃されることが示されている。 さらに、悪意のある攻撃者が基盤となるモデルパラメータを全て取得できない場合でも、敵の例を使って様々なDNNベースのタスクシステムを攻撃することができる。 研究者は、dnnを保護するための様々な防御方法を提案しており、例えば、前処理による敵例の攻撃性の減少や、モジュールの追加によるモデルのロバスト性の向上などである。 しかし,いくつかの防御法は小規模な例や小さな摂動に対してのみ有効であるが,大きな摂動を伴う敵例に対する防御効果は限定的である。 本稿では,入力例の摂動を格付けすることにより,異なる強度の逆摂動に対して異なる防御戦略を割り当てる。 実験の結果,提案手法は防御性能を効果的に向上することが示された。 さらに,提案手法では,プリプロセッシングモジュールとして使用可能なタスクモデルを変更せず,実用的なアプリケーションでのデプロイメントコストを大幅に削減する。

Deep Neural Networks have been widely used in many fields. However, studies have shown that DNNs are easily attacked by adversarial examples, which have tiny perturbations and greatly mislead the correct judgment of DNNs. Furthermore, even if malicious attackers cannot obtain all the underlying model parameters, they can use adversarial examples to attack various DNN-based task systems. Researchers have proposed various defense methods to protect DNNs, such as reducing the aggressiveness of adversarial examples by preprocessing or improving the robustness of the model by adding modules. However, some defense methods are only effective for small-scale examples or small perturbations but have limited defense effects for adversarial examples with large perturbations. This paper assigns different defense strategies to adversarial perturbations of different strengths by grading the perturbations on the input examples. Experimental results show that the proposed method effectively improves defense performance. In addition, the proposed method does not modify any task model, which can be used as a preprocessing module, which significantly reduces the deployment cost in practical applications.
翻訳日:2022-12-19 14:44:49 公開日:2022-12-16
# 低コストMCUを用いた超低分解能熱画像を用いた人物検出

Person Detection Using an Ultra Low-resolution Thermal Imager on a Low-cost MCU ( http://arxiv.org/abs/2212.08415v1 )

ライセンス: Link先を確認
Maarten Vandersteegen, Wouter Reusen, Kristof Van Beeck, Toon Goedem\'e(参考訳) 画像やビデオ中の人物をニューラルネットワークで検出することは、文学においてよく研究されている課題である。 しかし、そのような作業は通常、十分な解像度のカメラと、検出アルゴリズムを実行するための高性能プロセッサまたはGPUが利用可能であると仮定し、完全な検出システムのコストを大幅に高める。 しかし、多くのアプリケーションは安価なセンサーとシンプルなマイクロコントローラからなる低コストのソリューションを必要としている。 本稿では,そのようなハードウェア上でも,従来の単純な画像処理技術に批判されないことを示す。 低コスト32x24ピクセルの静止画像から熱映像を処理する超軽量CNN人体検出器を提案する。 私たちの記録したデータセットでトレーニングと圧縮を行い、このモデルは最大91.62%の精度(f1-score)を達成し、10k未満のパラメータを持ち、低コストのマイクロコントローラstm32f407とstm32f746上でそれぞれ87msと46msの速度で動作します。

Detecting persons in images or video with neural networks is a well-studied subject in literature. However, such works usually assume the availability of a camera of decent resolution and a high-performance processor or GPU to run the detection algorithm, which significantly increases the cost of a complete detection system. However, many applications require low-cost solutions, composed of cheap sensors and simple microcontrollers. In this paper, we demonstrate that even on such hardware we are not condemned to simple classic image processing techniques. We propose a novel ultra-lightweight CNN-based person detector that processes thermal video from a low-cost 32x24 pixel static imager. Trained and compressed on our own recorded dataset, our model achieves up to 91.62% accuracy (F1-score), has less than 10k parameters, and runs as fast as 87ms and 46ms on low-cost microcontrollers STM32F407 and STM32F746, respectively.
翻訳日:2022-12-19 14:44:30 公開日:2022-12-16
# 小さな言語モデルに推論を教える

Teaching Small Language Models to Reason ( http://arxiv.org/abs/2212.08410v1 )

ライセンス: Link先を確認
Lucie Charlotte Magister, Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn(参考訳) 思考の連鎖は、大きな言語モデルの推論能力を改善することに成功し、さまざまなデータセット上で技術結果の状態を達成します。 しかし、これらの推論能力は、1000億以上のパラメータを持つモデルでのみ現れるように見える。 本稿では,1000億以上のパラメータを持つモデルへの知識蒸留による推論能力の移転について検討する。 具体的には,より大きな教師モデルによって生成された思考アウトプットの連鎖に学生モデルを適用した。 提案手法は算術,コモンセンス,シンボリック推論データセット全体のタスク性能を向上させる。 例えば、GSM8K 上の T5 XXL の精度は PaLM-540B で微調整すると 8.11% から 21.99% に向上する。

Chain of thought prompting successfully improves the reasoning capabilities of large language models, achieving state of the art results on a range of datasets. However, these reasoning capabilities only appear to emerge in models with a size of over 100 billion parameters. In this paper, we explore the transfer of such reasoning capabilities to models with less than 100 billion parameters via knowledge distillation. Specifically, we finetune a student model on the chain of thought outputs generated by a larger teacher model. Our experiments show that the proposed method improves task performance across arithmetic, commonsense and symbolic reasoning datasets. For example, the accuracy of T5 XXL on GSM8K improves from 8.11% to 21.99% when finetuned on PaLM-540B generated chains of thought.
翻訳日:2022-12-19 14:37:59 公開日:2022-12-16
# 多視点勾配イルミネーションによる快楽性ニューラルヒューマンアセット

Relightable Neural Human Assets from Multi-view Gradient Illuminations ( http://arxiv.org/abs/2212.07648v2 )

ライセンス: Link先を確認
Taotao Zhou, Kai He, Di Wu, Teng Xu, Qixuan Zhang, Kuixiang Shao, Wenzheng Chen, Lan Xu, Jingyi Yu(参考訳) 人間のモデリングとリライティングはコンピュータビジョンとグラフィックの2つの基本的な問題であり、高品質なデータセットは関連する研究を大いに促進する。 しかし、既存のヒトデータセットのほとんどは、同じ照明下で撮影されたマルチビューの人間イメージのみを提供する。 タスクのモデリングには有用だが、リライト問題に簡単には使われない。 両分野の研究を促進すべく,本稿では,マルチビューとマルチイルミネーション設定の両方で2k以上の高品質な人間のアセットを含む,新たな3dヒューマンデータセットであるultrastageを提案する。 具体的には、それぞれの例について、1つの白色光と2つの勾配照明で照らされた32の周囲ビューを提供する。 通常のマルチビュー画像に加えて、グラデーションイルミネーションは、詳細な表面正常および空間変動する物質マップの復元に役立ち、様々な照明応用を可能にする。 ニューラル表現の最近の進歩に触発されて、我々はそれぞれの例を任意の照明条件下で新しいビュー合成を可能にするニューラルヒューマンアセットに解釈する。 我々の神経質な人的資産は極めて高い捕獲性能を達成でき、顔のしわや布の折りなどの細部を表現できることを示す。 また、単一画像リライトタスクにおけるUltraStageの検証、ニューラルネットワークのトレーニング、ニューラルネットワークの仮想リライトデータ、および先行技術よりもリアルなレンダリング改善を示す。 ultrastageは、さまざまなヒューマンモデリングとレンダリングタスクにおける重要な将来の開発を刺激するために、コミュニティに公開される予定だ。

Human modeling and relighting are two fundamental problems in computer vision and graphics, where high-quality datasets can largely facilitate related research. However, most existing human datasets only provide multi-view human images captured under the same illumination. Although valuable for modeling tasks, they are not readily used in relighting problems. To promote research in both fields, in this paper, we present UltraStage, a new 3D human dataset that contains more than 2K high-quality human assets captured under both multi-view and multi-illumination settings. Specifically, for each example, we provide 32 surrounding views illuminated with one white light and two gradient illuminations. In addition to regular multi-view images, gradient illuminations help recover detailed surface normal and spatially-varying material maps, enabling various relighting applications. Inspired by recent advances in neural representation, we further interpret each example into a neural human asset which allows novel view synthesis under arbitrary lighting conditions. We show our neural human assets can achieve extremely high capture performance and are capable of representing fine details such as facial wrinkles and cloth folds. We also validate UltraStage in single image relighting tasks, training neural networks with virtual relighted data from neural assets and demonstrating realistic rendering improvements over prior arts. UltraStage will be publicly available to the community to stimulate significant future developments in various human modeling and rendering tasks.
翻訳日:2022-12-19 14:37:47 公開日:2022-12-16
# Few-Shot 学習モデルを用いた動的ハンドジェスチャ認識の高速学習

Fast Learning of Dynamic Hand Gesture Recognition with Few-Shot Learning Models ( http://arxiv.org/abs/2212.08363v1 )

ライセンス: Link先を確認
Niels Schl\"usener, Michael B\"ucker(参考訳) 筆者らは,手ジェスチャー毎に1つ,2つ,あるいは5つの例を提供することで,任意に交換可能な5種類の動的手ジェスチャーを認識できるように訓練されたFew-Shot Learningモデルを開発した。 すべてのモデルは、長期間のメモリセルがバックボーンを形成するrerelation network(rn)のマイナショット学習アーキテクチャで構築された。 モデルは、190種類の手のジェスチャーを含むように修正されたjesterデータセットのrgbビデオシーケンスから抽出されたハンドリファレンスポイントを使用する。 その結果、5の認識では88.8%、10のダイナミックハンドジェスチャでは81.2%の精度が得られた。 この研究は、従来のDeep Learningアプローチではなく、Few-Shot Learningアプローチを使用してダイナミックハンドジェスチャを検出することによる潜在的な労力の削減にも光を当てている。 セーブは、深層学習モデルがFew Shot Learningモデルではなく、新しい手の動きでトレーニングされるときに必要となる追加観測数として定義される。 ほぼ同じ精度を達成するのに必要な観測総数に対する差は、最大630回の観測を5回、最大1260回の観測を10回のジェスチャーで認識する可能性を示している。 手のジェスチャーの動画記録のラベル付けは多大な労力を要するため、これらの貯蓄は実質的と考えられる。

We develop Few-Shot Learning models trained to recognize five or ten different dynamic hand gestures, respectively, which are arbitrarily interchangeable by providing the model with one, two, or five examples per hand gesture. All models were built in the Few-Shot Learning architecture of the Relation Network (RN), in which Long-Short-Term Memory cells form the backbone. The models use hand reference points extracted from RGB-video sequences of the Jester dataset which was modified to contain 190 different types of hand gestures. Result show accuracy of up to 88.8% for recognition of five and up to 81.2% for ten dynamic hand gestures. The research also sheds light on the potential effort savings of using a Few-Shot Learning approach instead of a traditional Deep Learning approach to detect dynamic hand gestures. Savings were defined as the number of additional observations required when a Deep Learning model is trained on new hand gestures instead of a Few Shot Learning model. The difference with respect to the total number of observations required to achieve approximately the same accuracy indicates potential savings of up to 630 observations for five and up to 1260 observations for ten hand gestures to be recognized. Since labeling video recordings of hand gestures implies significant effort, these savings can be considered substantial.
翻訳日:2022-12-19 14:37:04 公開日:2022-12-16
# フォトメトリックステレオとbeyondの校正のための深層学習法:調査

Deep Learning Methods for Calibrated Photometric Stereo and Beyond: A Survey ( http://arxiv.org/abs/2212.08414v1 )

ライセンス: Link先を確認
Yakun Ju, Kin-Man Lam, Wuyuan Xie, Huiyu Zhou, Junyu Dong, Boxin Shi(参考訳) フォトメトリックステレオは、異なるシェーディングキュー、すなわち各ピクセルの表面配向と強度の関係をモデル化した複数の画像から物体の表面正常を回復する。 フォトメトリックステレオは、ピクセル単位の解像度と細かい再構成の詳細が優れている。 しかし、非ランベルト面反射率による非線形関係のため、複雑な問題である。 近年,様々な深層学習手法が,非ランベルト面に対する測光ステレオの文脈において強力な能力を示している。 本稿では,既存の深層学習に基づくキャリブレーションフォトメトリックステレオ法の包括的レビューを行う。 まず、入力処理、監視、ネットワークアーキテクチャなど、さまざまな観点からこれらの手法を解析する。 最も広く使われているベンチマークデータセット上で、ディープラーニングの測光ステレオモデルの性能を要約する。 これは深層学習に基づく測光ステレオ手法の高度な性能を示す。 最後に,既存のモデルの限界に基づいて,今後の研究動向を提案する。

Photometric stereo recovers the surface normals of an object from multiple images with varying shading cues, i.e., modeling the relationship between surface orientation and intensity at each pixel. Photometric stereo prevails in superior per-pixel resolution and fine reconstruction details. However, it is a complicated problem because of the non-linear relationship caused by non-Lambertian surface reflectance. Recently, various deep learning methods have shown a powerful ability in the context of photometric stereo against non-Lambertian surfaces. This paper provides a comprehensive review of existing deep learning-based calibrated photometric stereo methods. We first analyze these methods from different perspectives, including input processing, supervision, and network architecture. We summarize the performance of deep learning photometric stereo models on the most widely-used benchmark data set. This demonstrates the advanced performance of deep learning-based photometric stereo methods. Finally, we give suggestions and propose future research trends based on the limitations of existing models.
翻訳日:2022-12-19 14:36:42 公開日:2022-12-16
# XceptionからNEXcepTion: 新しい設計決定とニューラルアーキテクチャ検索

From Xception to NEXcepTion: New Design Decisions and Neural Architecture Search ( http://arxiv.org/abs/2212.08448v1 )

ライセンス: Link先を確認
Hadar Shavit and Filip Jatelnicki and Pol Mor-Puigvent\'os and Wojtek Kowalczyk(参考訳) 本稿では,改良型Xceptionアーキテクチャ,NEXcepTionネットワークを提案する。 私たちのネットワークは、オリジナルのxceptionよりもかなり優れたパフォーマンスを示し、imagenet validationデータセットで81.5%のtop-1精度を実現しました(2.5%の改善)。 もうひとつのモデルであるNEXcepTion-TPは、ConvNeXt (82.1%)と同様、81.8%のトップ1の精度に達し、スループットは27%向上した。 私たちのモデルは、改良されたトレーニング手順と新しい設計決定と、より小さなデータセットにニューラルネットワーク検索(nas)を適用した結果です。 これらの発見は、古いアーキテクチャを再検討し、最新の拡張と組み合わせてポテンシャルを再評価することを要求している。

In this paper, we present a modified Xception architecture, the NEXcepTion network. Our network has significantly better performance than the original Xception, achieving top-1 accuracy of 81.5% on the ImageNet validation dataset (an improvement of 2.5%) as well as a 28% higher throughput. Another variant of our model, NEXcepTion-TP, reaches 81.8% top-1 accuracy, similar to ConvNeXt (82.1%), while having a 27% higher throughput. Our model is the result of applying improved training procedures and new design decisions combined with an application of Neural Architecture Search (NAS) on a smaller dataset. These findings call for revisiting older architectures and reassessing their potential when combined with the latest enhancements.
翻訳日:2022-12-19 14:36:31 公開日:2022-12-16
# 意見の相違:wikipediaで使われている紛争戦術を調査

How to disagree well: Investigating the dispute tactics used on Wikipedia ( http://arxiv.org/abs/2212.08353v1 )

ライセンス: Link先を確認
Christine de Kock, Tom Stafford, Andreas Vlachos(参考訳) 診断は毒性の検出や議論構造の分析の観点から頻繁に研究される。 本稿では,これらの2つの視点を統一した紛争戦術の枠組みと,質問や明確化といった紛争解決に寄与する他の対話行為を提案する。 このフレームワークには、アドホミネム攻撃から中央引数の反論まで、rebuttal型戦術の優先順序が含まれている。 このフレームワークを使用して、Wikipedia Talkページから213の意見の不一致(3,865発)を注釈する。 例えば、ウィキペディアが推奨する意見の不一致に対するアプローチの実証的な検証を行う。 我々は,変圧器を用いたラベルパワーセットモデルを用いて,論争戦術のマルチラベル予測を発話で行うモデルを開発した。 報復戦術の順序を組み込む補助的なタスクを追加することで、統計的に重要な増加をもたらす。 最後に、これらのアノテーションを使用して、エスカレーション予測タスクの性能向上に有用な追加信号を提供できることを示す。

Disagreements are frequently studied from the perspective of either detecting toxicity or analysing argument structure. We propose a framework of dispute tactics that unifies these two perspectives, as well as other dialogue acts which play a role in resolving disputes, such as asking questions and providing clarification. This framework includes a preferential ordering among rebuttal-type tactics, ranging from ad hominem attacks to refuting the central argument. Using this framework, we annotate 213 disagreements (3,865 utterances) from Wikipedia Talk pages. This allows us to investigate research questions around the tactics used in disagreements; for instance, we provide empirical validation of the approach to disagreement recommended by Wikipedia. We develop models for multilabel prediction of dispute tactics in an utterance, achieving the best performance with a transformer-based label powerset model. Adding an auxiliary task to incorporate the ordering of rebuttal tactics further yields a statistically significant increase. Finally, we show that these annotations can be used to provide useful additional signals to improve performance on the task of predicting escalation.
翻訳日:2022-12-19 14:36:19 公開日:2022-12-16
# 音声言語理解タスクにおけるテキスト・音響・格子に基づく表現の有効性

Effectiveness of Text, Acoustic, and Lattice-based representations in Spoken Language Understanding tasks ( http://arxiv.org/abs/2212.08489v1 )

ライセンス: Link先を確認
Esa\'u Villatoro-Tello, Srikanth Madikeri, Juan Zuluaga-Gomez, Bidisha Sharma, Seyyed Saeed Sarfjoo, Iuliia Nigmatulina, Petr Motlicek, Alexei V. Ivanov, Aravind Ganapathiraju(参考訳) 本稿では,音声言語理解システム(SLU)における意図分類問題に対処するため,異なる表現を徹底的に評価する。 SLUインテント検出タスクを実行するために,3種類のシステムをベンチマークする。 1)テキストベース、 2)格子ベース、及び小説 3)マルチモーダルアプローチ。 我々の研究は、異なる状況下での様々な最先端SLUシステムの達成可能な性能、例えば、手動による書き起こしなどに関する包括的な分析を提供する。 本研究では,公用SLURP音声言語資源コーパスのシステム評価を行う。 その結果,asr(automatic speech recognition)出力のリッチな形態を用いることで,sluシステムは1-best設定(4%相対的改善)と比較して改善できることがわかった。 しかし、音響やテキストの埋め込みから学習するクロスモーダルなアプローチは、オラクルの設定と類似した性能と、1-best構成よりも18%の相対的な改善が得られる。 したがって、クロスモーダルアーキテクチャは、純粋に自動生成されたテキストデータを扱うという制限を克服する良い方法である。

In this paper, we perform an exhaustive evaluation of different representations to address the intent classification problem in a Spoken Language Understanding (SLU) setup. We benchmark three types of systems to perform the SLU intent detection task: 1) text-based, 2) lattice-based, and a novel 3) multimodal approach. Our work provides a comprehensive analysis of what could be the achievable performance of different state-of-the-art SLU systems under different circumstances, e.g., automatically- vs. manually-generated transcripts. We evaluate the systems on the publicly available SLURP spoken language resource corpus. Our results indicate that using richer forms of Automatic Speech Recognition (ASR) outputs allows SLU systems to improve in comparison to the 1-best setup (4% relative improvement). However, crossmodal approaches, i.e., learning from acoustic and text embeddings, obtains performance similar to the oracle setup, and a relative improvement of 18% over the 1-best configuration. Thus, crossmodal architectures represent a good alternative to overcome the limitations of working purely automatically generated textual data.
翻訳日:2022-12-19 14:36:03 公開日:2022-12-16
# 拡散確率モデルと変分オートエンコーダを用いた潜在変数変換に基づくテキスト音声合成

Text-to-speech synthesis based on latent variable conversion using diffusion probabilistic model and variational autoencoder ( http://arxiv.org/abs/2212.08329v1 )

ライセンス: Link先を確認
Yusuke Yasuda, Tomoki Toda(参考訳) テキスト音声合成(TTS)は、テキストを音声に変換するタスクである。 TTSを駆動している2つの要因は、確率モデルと潜在表現学習の進歩である。 拡散確率モデルと変分オートエンコーダ(VAE)を用いた潜在変数変換に基づくTS法を提案する。 このtts法では、vaeに基づく波形モデルと、テキストから波形モデルの潜在変数分布を予測する拡散モデルと、テキストと音声の潜在配列のアライメントを学習するアライメントモデルを用いる。 本手法は, 平均および分散パラメータと拡散パラメータをモデル化し, VAEからの近似により対象分布を決定することで, VAEとの拡散を積分する。 この潜在変数変換フレームワークは、様々な潜在機能抽出器を柔軟に組み込むことができます。 本手法は正書法やアライメント誤差の少ない言語ラベルに対して頑健であることを示す。

Text-to-speech synthesis (TTS) is a task to convert texts into speech. Two of the factors that have been driving TTS are the advancements of probabilistic models and latent representation learning. We propose a TTS method based on latent variable conversion using a diffusion probabilistic model and the variational autoencoder (VAE). In our TTS method, we use a waveform model based on VAE, a diffusion model that predicts the distribution of latent variables in the waveform model from texts, and an alignment model that learns alignments between the text and speech latent sequences. Our method integrates diffusion with VAE by modeling both mean and variance parameters with diffusion, where the target distribution is determined by approximation from VAE. This latent variable conversion framework potentially enables us to flexibly incorporate various latent feature extractors. Our experiments show that our method is robust to linguistic labels with poor orthography and alignment errors.
翻訳日:2022-12-19 14:35:45 公開日:2022-12-16
# オフライン学習のための安全な評価:デプロイの準備はできているか?

Safe Evaluation For Offline Learning: Are We Ready To Deploy? ( http://arxiv.org/abs/2212.08302v1 )

ライセンス: Link先を確認
Hager Radi, Josiah P. Hanna, Peter Stone, Matthew E. Taylor(参考訳) 世界は現在、複数の領域に大量のデータを提供しており、環境とのさらなる相互作用なしに強化学習(RL)ポリシーを学ぶことができる。 このようなデータからオフラインで学習するrlエージェントは可能だが、安全性が重要な領域では、学習中にデプロイすることは危険である。 したがって、実際にデプロイする前にターゲット環境にデプロイし、実際のパフォーマンスを過大評価するリスクなしに、新しく学習したエージェントがどのように動作するかを推定する方法を見つけることが不可欠である。 そこで本稿では,学習中のオフラインポリシーの性能を推定するために,ほぼ信頼度の高いオフライン評価(HCOPE)を用いたオフライン学習の安全性評価フレームワークを提案する。 この設定では、オフラインポリシーとテストセットを学習するために、列車セットに分割したデータソースを仮定し、ブートストラップによるオフ政治評価を用いてオフラインポリシーの低いバウンドを推定する。 低いバウンドの見積は、新しく学習したターゲットポリシーが実際の環境にデプロイされる前にどれだけうまく機能するかを示し、それによって、学習したポリシーをいつデプロイするかを決定できます。

The world currently offers an abundance of data in multiple domains, from which we can learn reinforcement learning (RL) policies without further interaction with the environment. RL agents learning offline from such data is possible but deploying them while learning might be dangerous in domains where safety is critical. Therefore, it is essential to find a way to estimate how a newly-learned agent will perform if deployed in the target environment before actually deploying it and without the risk of overestimating its true performance. To achieve this, we introduce a framework for safe evaluation of offline learning using approximate high-confidence off-policy evaluation (HCOPE) to estimate the performance of offline policies during learning. In our setting, we assume a source of data, which we split into a train-set, to learn an offline policy, and a test-set, to estimate a lower-bound on the offline policy using off-policy evaluation with bootstrapping. A lower-bound estimate tells us how good a newly-learned target policy would perform before it is deployed in the real environment, and therefore allows us to decide when to deploy our learned policy.
翻訳日:2022-12-19 14:35:29 公開日:2022-12-16
# scenegate:テキストビジュアル質問応答のためのシーングラフベースのコアテンションネットワーク

SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering ( http://arxiv.org/abs/2212.08283v1 )

ライセンス: Link先を確認
Siwen Luo, Feiqi Cao, Felipe Nunez, Zean Wen, Josiah Poon, Caren Han(参考訳) TextVQAのアプローチのほとんどは、単純なトランスフォーマーエンコーダによるオブジェクト、シーンテキスト、質問ワードの統合に焦点を当てている。 しかし、これは異なるモダリティ間の意味的関係をとらえることができない。 本稿では,テキストVQAのためのScene Graphベースのコ・アテンション・ネットワーク(SceneGATE)を提案し,オブジェクト間の意味的関係,光学文字認識(OCR)トークン,質問語について述べる。 これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。 我々は、モーダル間相互作用のガイダンスとして、言語と視覚の間のモーダル内相互作用を捉えるガイド付きアテンションモジュールを開発した。 この2つのモダリティの関係を明確化するために,シーングラフに基づく意味関係認識注意と位置関係認識注意という2つの注意モジュールを提案し,統合した。 我々は2つのベンチマークデータセットであるText-VQAとST-VQAについて広範な実験を行った。 SceneGATE法はシーングラフとそのアテンションモジュールにより既存の手法よりも優れていた。

Most TextVQA approaches focus on the integration of objects, scene texts and question words by a simple transformer encoder. But this fails to capture the semantic relations between different modalities. The paper proposes a Scene Graph based co-Attention Network (SceneGATE) for TextVQA, which reveals the semantic relations among the objects, Optical Character Recognition (OCR) tokens and the question words. It is achieved by a TextVQA-based scene graph that discovers the underlying semantics of an image. We created a guided-attention module to capture the intra-modal interplay between the language and the vision as a guidance for inter-modal interactions. To make explicit teaching of the relations between the two modalities, we proposed and integrated two attention modules, namely a scene graph-based semantic relation-aware attention and a positional relation-aware attention. We conducted extensive experiments on two benchmark datasets, Text-VQA and ST-VQA. It is shown that our SceneGATE method outperformed existing ones because of the scene graph and its attention modules.
翻訳日:2022-12-19 14:28:30 公開日:2022-12-16
# 構造化知識と統一検索生成によるマルチモーダル・マルチホップ質問応答の強化

Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-Generation ( http://arxiv.org/abs/2212.08632v1 )

ライセンス: Link先を確認
Qian Yang, Qian Chen, Wen Wang, Baotian Hu, Min Zhang(参考訳) マルチモーダルおよびマルチホップ質問応答は、異なるモーダルから複数の入力源に基づいて質問に答えることを目的としている。 以前の方法は、証拠を別々に検索し、検索した証拠を言語モデルに供給して対応する回答を生成する。 しかし、これらの手法は、候補間の接続を構築できないため、検索中に相互依存関係をモデル化できない。 さらに、マルチモダリティ候補に対する推論過程は、異なるモダリティ間のアライメントを構築することなく不均衡となる。 この制限に対処するために、構造化知識と統一検索生成法(SKURG)を提案する。 我々は、共有エンティティを介して異なるモダリティからソースを調整し、構造化された知識を介して共有セマンティック空間にマッピングする。 次に,統合検索生成デコーダを用いて,回答生成のための中間検索結果を統合し,検索ステップ数を適応的に決定する。 我々はWebQAとMultimodalQAという2つのマルチモーダルおよびマルチホップデータセットの実験を行った。 その結果,SKURGは検索および回答生成の両面で最先端の性能を発揮することがわかった。

Multi-modal and multi-hop question answering aims to answer a question based on multiple input sources from different modalities. Previous methods retrieve the evidence separately and feed the retrieved evidence to a language model to generate the corresponding answer. However, these methods fail to build connections between candidates and thus cannot model the inter-dependent relation during retrieval. Moreover, the reasoning process over multi-modality candidates can be unbalanced without building alignments between different modalities. To address this limitation, we propose a Structured Knowledge and Unified Retrieval Generation based method (SKURG). We align the sources from different modalities via the shared entities and map them into a shared semantic space via structured knowledge. Then, we utilize a unified retrieval-generation decoder to integrate intermediate retrieval results for answer generation and adaptively determine the number of retrieval steps. We perform experiments on two multi-modal and multi-hop datasets: WebQA and MultimodalQA. The results demonstrate that SKURG achieves state-of-the-art performance on both retrieval and answer generation.
翻訳日:2022-12-19 14:28:13 公開日:2022-12-16
# 現代美術の世界をArtLMでマッピングする : 美術特化NLPモデル

Towards mapping the contemporary art world with ArtLM: an art-specific NLP model ( http://arxiv.org/abs/2212.07127v3 )

ライセンス: Link先を確認
Qinkai Chen, Mohamed El-Mennaoui, Antoine Fosset, Amine Rebei, Haoyang Cao, Philine Bouscasse, Christy E\'oin O'Beirne, Sasha Shevchenko and Mathieu Rosenbaum(参考訳) 美術界におけるデータ量の増加に伴い、コレクターの嗜好に適したアーティストやアートワークの発見が課題となっている。 芸術家に関する文脈情報は現代美術と同じくらい重要になっているので、もはや視覚情報を使うには不十分である。 本稿では,現代美術家同士のつながりを,その伝記に基づいて発見するための汎用的自然言語処理フレームワーク(artlm)を提案する。 このアプローチでは、まず既存の一般英語モデルの事前学習を、大量の未学習アート関連データを用いて継続する。 そして、このトレーニング済みの新しいモデルに、私たちのバイオグラフィーペアデータセットを、アート業界のプロフェッショナルチームによって手動で注釈付けしました。 広範囲な実験により、我々のArtLMは85.6%の精度と84.0%のF1スコアを達成し、他のベースラインモデルより優れていることを示す。 また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。

With an increasing amount of data in the art world, discovering artists and artworks suitable to collectors' tastes becomes a challenge. It is no longer enough to use visual information, as contextual information about the artist has become just as important in contemporary art. In this work, we present a generic Natural Language Processing framework (called ArtLM) to discover the connections among contemporary artists based on their biographies. In this approach, we first continue to pre-train the existing general English language models with a large amount of unlabelled art-related data. We then fine-tune this new pre-trained model with our biography pair dataset manually annotated by a team of professionals in the art industry. With extensive experiments, we demonstrate that our ArtLM achieves 85.6% accuracy and 84.0% F1 score and outperforms other baseline models. We also provide a visualisation and a qualitative analysis of the artist network built from ArtLM's outputs.
翻訳日:2022-12-19 14:27:57 公開日:2022-12-16
# 自然言語推論のための言語型多目的事前学習に向けて

Towards Linguistically Informed Multi-Objective Pre-Training for Natural Language Inference ( http://arxiv.org/abs/2212.07428v2 )

ライセンス: Link先を確認
Maren Pielka, Svetlana Schmidt, Lisa Pucknat, Rafet Sifa(参考訳) トランスフォーマの事前学習法を言語的に強化した組み合わせを提案する。 事前学習の目的は、pos-tagging、セマンティック知識グラフに基づくsynset予測、依存構文解析木に基づく親予測である。 提案手法は, 自然言語推論タスクにおいて, 技術状況と比較して, 競合的な結果が得られる。 より小さなモデルでは、インテリジェントな事前学習がより少ないパラメータを補うことができ、より効率的なモデルを構築するのに役立つという事実を強調した。 POSタグとシンセット予測を組み合わせることで、全体的な最高の結果が得られる。

We introduce a linguistically enhanced combination of pre-training methods for transformers. The pre-training objectives include POS-tagging, synset prediction based on semantic knowledge graphs, and parent prediction based on dependency parse trees. Our approach achieves competitive results on the Natural Language Inference task, compared to the state of the art. Specifically for smaller models, the method results in a significant performance boost, emphasizing the fact that intelligent pre-training can make up for fewer parameters and help building more efficient models. Combining POS-tagging and synset prediction yields the overall best results.
翻訳日:2022-12-19 14:27:40 公開日:2022-12-16
# Decoder Tuning: デコードとしての効率的な言語理解

Decoder Tuning: Efficient Language Understanding as Decoding ( http://arxiv.org/abs/2212.08408v1 )

ライセンス: Link先を確認
Ganqu Cui, Wentao Li, Ning Ding, Longtao Huang, Zhiyuan Liu, Maosong Sun(参考訳) トレーニング済みモデル(PTM)のサイズが拡大する中で、ユーザのための推論API、すなわちモデル・アズ・ア・サービス(MaaS)設定のみを提供するという、新たなプラクティスが生まれています。 モデルパラメータを凍結したPTMを適応させるために、現在のほとんどのアプローチは入力側に焦点を当て、正しい答えをモデルに刺激する強力なプロンプトを探している。 しかし、勾配信号の欠如により入力側適応が困難になる可能性があり、通常は数千のAPIクエリを必要とするため、高い計算と時間的コストが生じる。 これを踏まえて,出力側でタスク固有のデコーダネットワークを最適化するデコーダチューニング(dect)を提案する。 特に、DecTは最初に、初期予測のためにプロンプト刺激された出力スコアを抽出する。 その上に、後続データ知識を組み込むために、出力表現にデコーダネットワークを追加訓練する。 勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPTMクエリしか必要としない。 経験的に、我々は広範囲にわたる自然言語理解実験を行い、DecTが10^3\times$スピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。

With the evergrowing sizes of pre-trained models (PTMs), it has been an emerging practice to only provide the inference APIs for users, namely model-as-a-service (MaaS) setting. To adapt PTMs with model parameters frozen, most current approaches focus on the input side, seeking for powerful prompts to stimulate models for correct answers. However, we argue that input-side adaptation could be arduous due to the lack of gradient signals and they usually require thousands of API queries, resulting in high computation and time costs. In light of this, we present Decoder Tuning (DecT), which in contrast optimizes task-specific decoder networks on the output side. Specifically, DecT first extracts prompt-stimulated output scores for initial predictions. On top of that, we train an additional decoder network on the output representations to incorporate posterior data knowledge. By gradient-based optimization, DecT can be trained within several seconds and requires only one PTM query per sample. Empirically, we conduct extensive natural language understanding experiments and show that DecT significantly outperforms state-of-the-art algorithms with a $10^3\times$ speed-up.
翻訳日:2022-12-19 14:26:38 公開日:2022-12-16
# マルチオブジェクト追跡のためのニューラル強化信念伝達

Neural Enhanced Belief Propagation for Multiobject Tracking ( http://arxiv.org/abs/2212.08340v1 )

ライセンス: Link先を確認
Mingchao Liang and Florian Meyer(参考訳) マルチオブジェクト追跡のためのアルゴリズム的解法(mot)は、自律航法や海洋科学における応用の鍵となる。 最先端のMOT法は統計モデルに完全に依存しており、通常、事前処理されたセンサーデータを測定として使用する。 特に測定は、離散的な時間ステップで収集された原センサーデータから潜在的対象位置を抽出する検出器によって生成される。 この準備処理ステップはデータフローと計算の複雑さを減少させるが、情報を失う可能性がある。 信念伝播(BP)に基づく最新のベイズMOT法は、統計モデルのグラフ構造を体系的に利用し、計算複雑性を低減し、スケーラビリティを向上させる。 しかし、完全なモデルに基づくアプローチとして、BPは統計モデルと真のデータ生成プロセスの間にミスマッチがある場合にのみ、最適以下の推定を提供することができる。 既存のBPベースのMOT法は、事前処理された測定のみを利用することができる。 本稿では,モデルベースとデータ駆動型MOTを組み合わせたBPの変種を紹介する。 提案手法は, 生センサデータから得られた情報を用いて, bpの統計モデルを補完するものである。 このアプローチは、学習した情報がモデルミスマッチを低減し、データアソシエーションと誤報拒否を改善することができると推測する。 NEBP法はモデルベース法と比較して追跡性能が向上する。 同時に、BPベースのMOTの利点を継承し、すなわち、オブジェクトの数を2次的にしかスケーリングせず、多数のオブジェクトトラックを生成し維持することができる。 nuScenes 自律走行データセット上でのMOTに対するNEBP手法の性能評価を行い,その性能を実証した。

Algorithmic solutions for multi-object tracking (MOT) are a key enabler for applications in autonomous navigation and applied ocean sciences. State-of-the-art MOT methods fully rely on a statistical model and typically use preprocessed sensor data as measurements. In particular, measurements are produced by a detector that extracts potential object locations from the raw sensor data collected for a discrete time step. This preparatory processing step reduces data flow and computational complexity but may result in a loss of information. State-of-the-art Bayesian MOT methods that are based on belief propagation (BP) systematically exploit graph structures of the statistical model to reduce computational complexity and improve scalability. However, as a fully model-based approach, BP can only provide suboptimal estimates when there is a mismatch between the statistical model and the true data-generating process. Existing BP-based MOT methods can further only make use of preprocessed measurements. In this paper, we introduce a variant of BP that combines model-based with data-driven MOT. The proposed neural enhanced belief propagation (NEBP) method complements the statistical model of BP by information learned from raw sensor data. This approach conjectures that the learned information can reduce model mismatch and thus improve data association and false alarm rejection. Our NEBP method improves tracking performance compared to model-based methods. At the same time, it inherits the advantages of BP-based MOT, i.e., it scales only quadratically in the number of objects, and it can thus generate and maintain a large number of object tracks. We evaluate the performance of our NEBP approach for MOT on the nuScenes autonomous driving dataset and demonstrate that it has state-of-the-art performance.
翻訳日:2022-12-19 14:20:07 公開日:2022-12-16
# potato: ポータブルなテキストアノテーションツール

POTATO: The Portable Text Annotation Tool ( http://arxiv.org/abs/2212.08620v1 )

ライセンス: Link先を確認
Jiaxin Pei, Aparna Ananthasubramaniam, Xingyao Wang, Naitian Zhou, Jackson Sargent, Apostolos Dedeloudis and David Jurgens(参考訳) 本稿では,Portable テキストアノテーションツール POTATO について紹介する。 1) 多くの種類のテキストとマルチモーダルデータのラベリングをサポートする。 2) デプロイとアノテーションの両方(一般的なml/nlpタスク、アクティブラーニング、キープレスショートカット、キーワードハイライト、ツールチップのためのコンベンジェントテンプレート)の生産性を最大化するための設定が容易な機能を提供する。 3)高度なカスタマイズ(編集可能なui、プレスクリーン質問、注意、資格テストの挿入)をサポートする。 2つのアノテーションタスクに対する実験は、特に長いドキュメントや複雑なタスクにおいて、POTATOが特別に設計された生産性機能によってラベル付け速度を改善することを示唆している。 POTATOはhttps://github.com/davidjurgens/potatoで入手できる。

We present POTATO, the Portable text annotation tool, a free, fully open-sourced annotation system that 1) supports labeling many types of text and multimodal data; 2) offers easy-to-configure features to maximize the productivity of both deployers and annotators (convenient templates for common ML/NLP tasks, active learning, keypress shortcuts, keyword highlights, tooltips); and 3) supports a high degree of customization (editable UI, inserting pre-screening questions, attention and qualification tests). Experiments over two annotation tasks suggest that POTATO improves labeling speed through its specially-designed productivity features, especially for long documents and complex tasks. POTATO is available at https://github.com/davidjurgens/potato and will continue to be updated.
翻訳日:2022-12-19 14:19:11 公開日:2022-12-16
# スクリプトイベント予測のためのリッチイベントモデリング

Rich Event Modeling for Script Event Prediction ( http://arxiv.org/abs/2212.08287v1 )

ライセンス: Link先を確認
Long Bai, Saiping Guan, Zixuan Li, Jiafeng Guo, Xiaolong Jin, Xueqi Cheng(参考訳) scriptは、一連のイベントを含むテキストから抽出された構造化知識の一種である。 このような知識に基づいて、スクリプトイベント予測は、次のイベントを予測することを目的としている。 そのためには、イベント記述(イベントに含まれるもの)とイベントエンコーディング(どのようにエンコードすべきか)という2つの側面を考慮する必要がある。 既存のほとんどのメソッドは、正確でないいくつかの中核引数(主題、オブジェクト、間接オブジェクト)と共に動詞によるイベントを記述する。 さらに、既存のイベントエンコーダは一定数の引数に制限されているため、余分な情報を扱うには柔軟性がない。 そこで本稿では,スクリプトイベント予測のためのリッチイベント予測(REP)フレームワークを提案する。 基本的には、提案されたリッチなイベント記述に基づいており、既存のイベント記述を3種類の重要な情報、すなわち動詞の感覚、余分な意味的役割、参加者のタイプで豊かにする。 REPは、テキストからそのような情報を抽出するイベント抽出器を含む。 抽出されたリッチ情報に基づいて、予測者は、最も可能性の高い後続イベントを選択する。 予測器のコアコンポーネントは、任意の数の引数を柔軟に扱うトランスフォーマベースのイベントエンコーダである。 広く使われているGigaword Corpusの実験結果から,提案手法の有効性が示された。

Script is a kind of structured knowledge extracted from texts, which contains a sequence of events. Based on such knowledge, script event prediction aims to predict the subsequent event. To do so, two aspects should be considered for events, namely, event description (i.e., what the events should contain) and event encoding (i.e., how they should be encoded). Most existing methods describe an event by a verb together with only a few core arguments (i.e., subject, object, and indirect object), which are not precise. In addition, existing event encoders are limited to a fixed number of arguments, which are not flexible to deal with extra information. Thus, in this paper, we propose the Rich Event Prediction (REP) framework for script event prediction. Fundamentally, it is based on the proposed rich event description, which enriches the existing ones with three kinds of important information, namely, the senses of verbs, extra semantic roles, and types of participants. REP contains an event extractor to extract such information from texts. Based on the extracted rich information, a predictor then selects the most probable subsequent event. The core component of the predictor is a transformer-based event encoder to flexibly deal with an arbitrary number of arguments. Experimental results on the widely used Gigaword Corpus show the effectiveness of the proposed framework.
翻訳日:2022-12-19 14:18:18 公開日:2022-12-16
# ReCo: 構造因果リカレントニューラルネットワークによる信頼性の高い因果連鎖推論

ReCo: Reliable Causal Chain Reasoning via Structural Causal Recurrent Neural Networks ( http://arxiv.org/abs/2212.08322v1 )

ライセンス: Link先を確認
Kai Xiong, Xiao Ding, Zhongyang Li, Li Du, Bing Qin, Yi Zheng and Baoxing Huai(参考訳) 因果連鎖推論(英: Causal chain reasoning, CCR)は、多くの意思決定AIシステムにとって必須の能力であり、因果ペアを接続することで信頼性の高い因果連鎖を構築する必要がある。 しかし、CCRは、しきい値効果とシーンドリフトの2つの主要な遷移問題に悩まされている。 言い換えれば、スプライシングされる因果対は矛盾するしきい値境界やシナリオを持つかもしれない。 これらの問題に対処するために、新しいReliable Causal chain reasoning framework~(ReCo)を提案する。これは、因果連鎖内の各因果ペアのしきい値とシーンファクターを表現するために外因性変数を導入し、構造因果リカレントニューラルネットワーク~(SRNN)を介して外因性変数間のしきい値とシーンの矛盾を推定する。 実験によると、ReCoは中国語と英語のCCRデータセットにおいて、一連の強力なベースラインを上回っている。 さらに,ReCoで蒸留した因果連鎖知識を注入することにより,BERTは他の種類の知識によって強化されたBERTモデルよりも,下流4つの因果関係タスクにおいてより優れた性能が得られる。

Causal chain reasoning (CCR) is an essential ability for many decision-making AI systems, which requires the model to build reliable causal chains by connecting causal pairs. However, CCR suffers from two main transitive problems: threshold effect and scene drift. In other words, the causal pairs to be spliced may have a conflicting threshold boundary or scenario. To address these issues, we propose a novel Reliable Causal chain reasoning framework~(ReCo), which introduces exogenous variables to represent the threshold and scene factors of each causal pair within the causal chain, and estimates the threshold and scene contradictions across exogenous variables via structural causal recurrent neural networks~(SRNN). Experiments show that ReCo outperforms a series of strong baselines on both Chinese and English CCR datasets. Moreover, by injecting reliable causal chain knowledge distilled by ReCo, BERT can achieve better performances on four downstream causal-related tasks than BERT models enhanced by other kinds of knowledge.
翻訳日:2022-12-19 14:17:58 公開日:2022-12-16
# スペイン語モデルの評価から学んだ教訓

Lessons learned from the evaluation of Spanish Language Models ( http://arxiv.org/abs/2212.08390v1 )

ライセンス: Link先を確認
Rodrigo Agerri and Eneko Agirre(参考訳) 自然言語処理分野における言語モデルの影響を考えると、多くのスペイン語エンコーダのみのマスキング言語モデル(berts)が訓練され、リリースされた。 これらのモデルは、非常に大きなプライベートコーパスを使った大規模プロジェクトや、自由に利用可能なデータを活用する小規模の学術的取り組みによって開発された。 本稿では,スペイン語の言語モデルの包括的比較を行い,以下の結果と比較する。 一 大企業の多言語モデルを無視して、スペイン語における言語モデルの評価状況を大きく変えること。 (II) 単言語モデル全体の結果は決定的ではなく、より小さく劣ったモデルが競争的に機能していると考えられる。 これらの経験的結果に基づいて、これらの要因を理解するためにさらなる研究の必要性を論じる。 この意味では、コーパスのサイズ、品質、事前学習技術の影響は、特にこの分野の急速な進歩に直面して、大手民間企業によってリリースされた多言語モデルよりも、スペイン語の単言語モデルがはるかに優れているために、さらに調査する必要がある。 スペイン語の言語技術開発における最近の活動は歓迎されているが、この結果から、言語モデルの構築は、最高の研究の専門知識と実践とリソース(モネタリーおよび/または計算)の融合を必要とする、オープンでリソースに富んだ問題であることが示された。

Given the impact of language models on the field of Natural Language Processing, a number of Spanish encoder-only masked language models (aka BERTs) have been trained and released. These models were developed either within large projects using very large private corpora or by means of smaller scale academic efforts leveraging freely available data. In this paper we present a comprehensive head-to-head comparison of language models for Spanish with the following results: (i) Previously ignored multilingual models from large companies fare better than monolingual models, substantially changing the evaluation landscape of language models in Spanish; (ii) Results across the monolingual models are not conclusive, with supposedly smaller and inferior models performing competitively. Based on these empirical results, we argue for the need of more research to understand the factors underlying them. In this sense, the effect of corpus size, quality and pre-training techniques need to be further investigated to be able to obtain Spanish monolingual models significantly better than the multilingual ones released by large private companies, specially in the face of rapid ongoing progress in the field. The recent activity in the development of language technology for Spanish is to be welcomed, but our results show that building language models remains an open, resource-heavy problem which requires to marry resources (monetary and/or computational) with the best research expertise and practice.
翻訳日:2022-12-19 14:17:36 公開日:2022-12-16
# オープンドメインQAのための自己プロンピング型大規模言語モデル

Self-Prompting Large Language Models for Open-Domain QA ( http://arxiv.org/abs/2212.08635v1 )

ライセンス: Link先を確認
Junlong Li, Zhuosheng Zhang, Hai Zhao(参考訳) Open-Domain Question Answering (ODQA) は、コンテキストを指定せずに、ファクトイドの質問に答えるモデルを必要とする。 このタスクの一般的な方法は、大規模な注釈付きデータセット上でモデルをトレーニングし、関連するドキュメントを検索し、これらのドキュメントに基づいて回答を生成することである。 本稿では,大規模言語モデル(llm)を知識コーパスとして扱うことで,odqaアーキテクチャを劇的に単純化し,学習データや外部知識コーパスの必要性をなくすために,ldqaを実行するための自己推進フレームワークを提案する。 具体的には、まず、複数の擬似QAペアを背景パスと1文説明付きで生成し、段階的にLLMを誘導し、生成したQAペアを文脈内学習に活用する。 実験結果から,提案手法は3つの広く使用されているODQAデータセットに対して,従来手法を+8.8 EMで平均上回る結果を得た。

Open-Domain Question Answering (ODQA) requires models to answer factoid questions with no context given. The common way for this task is to train models on a large-scale annotated dataset to retrieve related documents and generate answers based on these documents. In this paper, we show that the ODQA architecture can be dramatically simplified by treating Large Language Models (LLMs) as a knowledge corpus and propose a Self-Prompting framework for LLMs to perform ODQA so as to eliminate the need for training data and external knowledge corpus. Concretely, we firstly generate multiple pseudo QA pairs with background passages and one-sentence explanations for these QAs by prompting LLMs step by step and then leverage the generated QA pairs for in-context learning. Experimental results show our method surpasses previous state-of-the-art methods by +8.8 EM averagely on three widely-used ODQA datasets, and even achieves comparable performance with several retrieval-augmented fine-tuned models.
翻訳日:2022-12-19 14:17:13 公開日:2022-12-16
# コンボリューション強化型進化型注意ネットワーク

Convolution-enhanced Evolving Attention Networks ( http://arxiv.org/abs/2212.08330v1 )

ライセンス: Link先を確認
Yujing Wang, Yaming Yang, Zhuo Li, Jiangang Bai, Mingliang Zhang, Xiangtai Li, Jing Yu, Ce Zhang, Gao Huang, Yunhai Tong(参考訳) Transformersのような注意に基づくニューラルネットワークは、コンピュータビジョン、自然言語処理、時系列解析など、多くのアプリケーションで普及している。 あらゆる種類の注意ネットワークにおいて、アテンションマップは入力トークン間のセマンティックな依存関係を符号化する上で重要である。 しかし、既存のアテンションネットワークの多くは表現に基づくモデリングや推論を行い、各レイヤのアテンションマップは明示的な相互作用なしに別々に学習される。 本稿では,残余畳み込みモジュールの連鎖を通じて,相互関係の進化を直接モデル化する,新規で汎用的な注意機構を提案する。 主な動機は2つある。 一方で、異なる層内のアテンションマップは、転送可能な知識を共有しているため、残りの接続を追加することで、層間の相互関係の情報フローが容易になる。 一方,様々な抽象レベルで注目度マップが進化する傾向が自然にみられるため,専用畳み込み型モジュールを活用してこのプロセスをキャプチャすることは有益である。 提案手法を組み込んだ畳み込み型アテンションネットワークは,時系列表現,自然言語理解,機械翻訳,画像分類など,様々なアプリケーションにおいて優れた性能を実現する。 特に時系列表現タスクでは、EA-DC-(Evolving Attention-enhanced Dilated Convolutional)変換器は最先端モデルよりも優れており、最高のSOTAに比べて平均17%改善されている。 私たちの知る限りでは、注意マップのレイヤーワイド進化を明示的にモデル化する最初の作品です。 私たちの実装はhttps://github.com/pkuyym/EvolvingAttentionで利用可能です。

Attention-based neural networks, such as Transformers, have become ubiquitous in numerous applications, including computer vision, natural language processing, and time-series analysis. In all kinds of attention networks, the attention maps are crucial as they encode semantic dependencies between input tokens. However, most existing attention networks perform modeling or reasoning based on representations, wherein the attention maps of different layers are learned separately without explicit interactions. In this paper, we propose a novel and generic evolving attention mechanism, which directly models the evolution of inter-token relationships through a chain of residual convolutional modules. The major motivations are twofold. On the one hand, the attention maps in different layers share transferable knowledge, thus adding a residual connection can facilitate the information flow of inter-token relationships across layers. On the other hand, there is naturally an evolutionary trend among attention maps at different abstraction levels, so it is beneficial to exploit a dedicated convolution-based module to capture this process. Equipped with the proposed mechanism, the convolution-enhanced evolving attention networks achieve superior performance in various applications, including time-series representation, natural language understanding, machine translation, and image classification. Especially on time-series representation tasks, Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformer outperforms state-of-the-art models significantly, achieving an average of 17% improvement compared to the best SOTA. To the best of our knowledge, this is the first work that explicitly models the layer-wise evolution of attention maps. Our implementation is available at https://github.com/pkuyym/EvolvingAttention
翻訳日:2022-12-19 14:11:27 公開日:2022-12-16
# Azimuth: テキスト分類のための体系的誤り解析

Azimuth: Systematic Error Analysis for Text Classification ( http://arxiv.org/abs/2212.08216v1 )

ライセンス: Link先を確認
Gabrielle Gauthier-Melan\c{c}on (1), Orlando Marquez Ayala (1), Lindsay Brin (1), Chris Tyler (1), Fr\'ed\'eric Branchaud-Charron (2), Joseph Marinier (1), Karine Grande (1), Di Le (1) ((1) ServiceNow, (2) Glowstick)(参考訳) テキスト分類のための誤り解析を行うオープンソースで使いやすいツールであるAzimuthを提案する。 モデルトレーニングやハイパーパラメータチューニングといったML開発サイクルの他の段階と比較して、エラー解析ステージのプロセスとツーリングは成熟していない。 しかし、この段階は信頼性と信頼性の高いAIシステムの開発に不可欠である。 誤り解析をより体系的にするために,Azimuthが支援するデータセット解析とモデル品質評価を組み合わせたアプローチを提案する。 私たちは、サリエンシマップ、類似性、不確実性、行動分析など、さまざまなMLテクニックを1つのツールで活用し、統合することにより、AI実践者が一般化しない領域を発見し、対処することを目指している。 コードとドキュメントはgithub.com/servicenow/azimuthで入手できます。

We present Azimuth, an open-source and easy-to-use tool to perform error analysis for text classification. Compared to other stages of the ML development cycle, such as model training and hyper-parameter tuning, the process and tooling for the error analysis stage are less mature. However, this stage is critical for the development of reliable and trustworthy AI systems. To make error analysis more systematic, we propose an approach comprising dataset analysis and model quality assessment, which Azimuth facilitates. We aim to help AI practitioners discover and address areas where the model does not generalize by leveraging and integrating a range of ML techniques, such as saliency maps, similarity, uncertainty, and behavioral analyses, all in one tool. Our code and documentation are available at github.com/servicenow/azimuth.
翻訳日:2022-12-19 14:10:25 公開日:2022-12-16
# 高速なルールベースデコーディング:ニューラルコンフィデンシーパーシングにおける統語規則の再検討

Fast Rule-Based Decoding: Revisiting Syntactic Rules in Neural Constituency Parsing ( http://arxiv.org/abs/2212.08458v1 )

ライセンス: Link先を確認
Tianyu Shi, Zhicheng Wang, Liyin Xiao, Cong Liu(参考訳) 最近の神経構成解析の研究はエンコーダ構造に焦点を当てているが、デコーダに関する開発はほとんどない。 従来の研究では、構文的規則に基づく確率論的統計手法は、特に選挙区解析に有効であるのに対し、構文的規則は、おそらく膨大な計算要求のために以前の作業でニューラルモデルの訓練に使用されないことが示されている。 本稿では,GPUアクセラレーションを利用した高速なCKY復号法を最初に実装し,さらに構文規則に基づく(ルール制約付き)CKY復号法を導出する。 実験では,ptbとctbのデータセットから95.89と92.52f1をそれぞれ取得し,従来の手法と比較して有意な改善を示した。 さらに、パーサはゼロショット設定で強力で競争力のあるクロスドメイン性能を実現する。

Most recent studies on neural constituency parsing focus on encoder structures, while few developments are devoted to decoders. Previous research has demonstrated that probabilistic statistical methods based on syntactic rules are particularly effective in constituency parsing, whereas syntactic rules are not used during the training of neural models in prior work probably due to their enormous computation requirements. In this paper, we first implement a fast CKY decoding procedure harnessing GPU acceleration, based on which we further derive a syntactic rule-based (rule-constrained) CKY decoding. In the experiments, our method obtains 95.89 and 92.52 F1 on the datasets of PTB and CTB respectively, which shows significant improvements compared with previous approaches. Besides, our parser achieves strong and competitive cross-domain performance in zero-shot settings.
翻訳日:2022-12-19 14:10:12 公開日:2022-12-16
# MURMUR:半構造化データ-テキスト生成のためのモジュール型マルチステップ推論

MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation ( http://arxiv.org/abs/2212.08607v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Xinyan Velocity Yu, Mohit Bansal, Ramakanth Pasunuru, Asli Celikyilmaz(参考訳) 大規模言語モデルのプロンプトにより、テキスト上の多段階推論が大幅に進歩した。 しかし、半構造化データ(グラフやテーブルなど)からテキストを生成する場合、これらの手法は通常、意味的カバレッジ、幻覚、論理的矛盾に悩まされる。 本稿では,マルチステップ推論を用いた半構造化データからのテキスト生成のためのニューロシンボリックモジュラーアプローチであるmurmurを提案する。 MURMURは,(1)特定の言語的・論理的スキルを持つニューラル・シンボリック・モジュール,(2)生産規則がモジュールの有効構成を定義する文法,(3)各推論ステップの品質を評価する値関数を用いて推論経路を生成する最良探索法である。 webnlg と logicnlg の2つの多様なデータ対テキスト生成タスクについて実験を行った。 これらのタスクはデータ表現(グラフとテーブル)で異なり、複数の言語的および論理的スキルにまたがる。 MURMURは、ダイレクトプロンプトやチェーン・オブ・シークレット・プロンプトのような最近の数ショットベースラインよりも大幅に改善され、ドメイン外のデータで微調整されたGPT-2に匹敵するパフォーマンスを実現している。 さらに,人間による評価では,MURMURは論理的に一貫した26%をLogicNLG上で直接的プロンプトよりも有意かつ正しい推論経路を生成する。

Prompting large language models has enabled significant recent progress in multi-step reasoning over text. However, when applied to text generation from semi-structured data (e.g., graphs or tables), these methods typically suffer from low semantic coverage, hallucination, and logical inconsistency. We propose MURMUR, a neuro-symbolic modular approach to text generation from semi-structured data with multi-step reasoning. MURMUR is a best-first search method that generates reasoning paths using: (1) neural and symbolic modules with specific linguistic and logical skills, (2) a grammar whose production rules define valid compositions of modules, and (3) value functions that assess the quality of each reasoning step. We conduct experiments on two diverse data-to-text generation tasks like WebNLG and LogicNLG. These tasks differ in their data representations (graphs and tables) and span multiple linguistic and logical skills. MURMUR obtains significant improvements over recent few-shot baselines like direct prompting and chain-of-thought prompting, while also achieving comparable performance to fine-tuned GPT-2 on out-of-domain data. Moreover, human evaluation shows that MURMUR generates highly faithful and correct reasoning paths that lead to 26% more logically consistent summaries on LogicNLG, compared to direct prompting.
翻訳日:2022-12-19 14:09:55 公開日:2022-12-16
# グラフニューラルネットワークのための学習可能な可換モノイド

Learnable Commutative Monoids for Graph Neural Networks ( http://arxiv.org/abs/2212.08541v1 )

ライセンス: Link先を確認
Euan Ong and Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)は集約関数の選択に非常に敏感であることが示されている。 ノードの近傍の和は離散入力上の任意の置換不変関数、cohen-karlikらを近似することができる。 [2020] は,非有界入力に和が一般化できない集合集合問題が存在することを証明し,より表現力のあるアグリゲータとして置換不変性に規則化された再帰ニューラルネットワークを提案する。 繰り返しアグリゲータを備えたGNNは、合成ベンチマークと実世界の問題の両方において、最先端の置換不変アグリゲータと競合する。 しかし、繰り返しアグリゲータの利点にもかかわらず、その$O(V)$ depthは並列化が難しく、大きなグラフでトレーニングするのが難しくなる。 GNNのよく知られた集約化が、その潜在空間上の可換モノイドであることに着想を得て、学習可能で可換な連想的バイナリ演算子を構築するためのフレームワークを提案する。 これにより、並列性と依存性長の両方を指数関数的に改善し、繰り返しアグリゲータと競合する性能を実現した、$O(\log V)$のアグリゲータを構築する。 実験結果から,提案する学習可能な可換モノイド(lcm)アグリゲータは,効率的なアグリゲータと表現力のあるアグリゲータとの良好なトレードオフを示す。

Graph neural networks (GNNs) have been shown to be highly sensitive to the choice of aggregation function. While summing over a node's neighbours can approximate any permutation-invariant function over discrete inputs, Cohen-Karlik et al. [2020] proved there are set-aggregation problems for which summing cannot generalise to unbounded inputs, proposing recurrent neural networks regularised towards permutation-invariance as a more expressive aggregator. We show that these results carry over to the graph domain: GNNs equipped with recurrent aggregators are competitive with state-of-the-art permutation-invariant aggregators, on both synthetic benchmarks and real-world problems. However, despite the benefits of recurrent aggregators, their $O(V)$ depth makes them both difficult to parallelise and harder to train on large graphs. Inspired by the observation that a well-behaved aggregator for a GNN is a commutative monoid over its latent space, we propose a framework for constructing learnable, commutative, associative binary operators. And with this, we construct an aggregator of $O(\log V)$ depth, yielding exponential improvements for both parallelism and dependency length while achieving performance competitive with recurrent aggregators. Based on our empirical observations, our proposed learnable commutative monoid (LCM) aggregator represents a favourable tradeoff between efficient and expressive aggregators.
翻訳日:2022-12-19 14:09:29 公開日:2022-12-16
# werewolf in us: 社会的推論ゲームにおける説得行動のモデリングのためのマルチモーダルデータセット

Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion Behaviors in Social Deduction Games ( http://arxiv.org/abs/2212.08279v1 )

ライセンス: Link先を確認
Bolin Lai, Hongxin Zhang, Miao Liu, Aryan Pariani, Fiona Ryan, Wenqi Jia, Shirley Anugrah Hayati, James M. Rehg, Diyi Yang(参考訳) 説得モデリングは会話エージェントにとって重要なビルディングブロックである。 この方向の既存の作品は、テキスト対話コーパスの分析に限定されている。 視覚信号は人間の説得行動を理解する上でも重要な役割を果たす。 本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。 本データセットは,マルチプレイヤーソーシャル推論ゲーム設定における199の対話書き起こし,26,647の発話レベルアノテーション,ゲームレベルアノテーションによる推論ゲーム結果を含む。 対話コンテキストと視覚信号が説得戦略予測にどのように役立つかを示すために,広範な実験を行った。 また、説得モデルのための言語モデルの一般化能力と、社会的推論ゲームの結果を予測するための説得戦略の役割についても検討する。 我々のデータセット、コード、モデルはhttps://persuasion-deductiongame.socialai-data.orgで見ることができる。

Persuasion modeling is a key building block for conversational agents. Existing works in this direction are limited to analyzing textual dialogue corpus. We argue that visual signals also play an important role in understanding human persuasive behaviors. In this paper, we introduce the first multimodal dataset for modeling persuasion behaviors. Our dataset includes 199 dialogue transcriptions and videos captured in a multi-player social deduction game setting, 26,647 utterance level annotations of persuasion strategy, and game level annotations of deduction game outcomes. We provide extensive experiments to show how dialogue context and visual signals benefit persuasion strategy prediction. We also explore the generalization ability of language models for persuasion modeling and the role of persuasion strategies in predicting social deduction game outcomes. Our dataset, code, and models can be found at https://persuasion-deductiongame.socialai-data.org.
翻訳日:2022-12-19 14:09:03 公開日:2022-12-16
# SADM:経時的医用画像生成のための系列認識拡散モデル

SADM: Sequence-Aware Diffusion Model for Longitudinal Medical Image Generation ( http://arxiv.org/abs/2212.08228v1 )

ライセンス: Link先を確認
Jee Seok Yoon, Chenghao Zhang, Heung-Il Suk, Jia Guo, Xiaoxiao Li(参考訳) ヒトの臓器は、短期(心拍など)と長期(老化など)の複雑な混合により、常に解剖学的変化を起こす。 これらの因子の事前知識は、将来の状態、すなわち画像生成をモデル化する際に有用である。 しかし、ほとんどの医療画像生成タスクは、単一の画像からの入力にのみ依存するため、長手データでもシーケンシャルな依存を無視している。 モデル入力が順序付きおよびタイムスタンプされた画像のシーケンスであるシーケンスアウェア深層生成モデルは、いくつかのユニークな課題を特徴とする医療画像領域ではまだ過小評価されている。 1) 長さの異なる配列 2)データ又はフレームの欠如,及び 3)高次元化。 そこで本研究では,縦断的医用画像生成のためのシーケンスアウェア拡散モデル(SADM)を提案する。 近年,拡散モデルが高忠実度画像生成に有望な結果を示している。 本手法は,拡散モデルにおける条件付きモジュールとしてシーケンス対応トランスフォーマーを導入することにより,この新しい手法を拡張した。 新しい設計では、トレーニング中にデータ不足であっても、縦依存性を学習でき、推論中に画像列を自己回帰的に生成できる。 3次元縦断的医用画像に対する広範な実験により,SADMの有効性がベースラインや代替手法と比較された。

Human organs constantly undergo anatomical changes due to a complex mix of short-term (e.g., heartbeat) and long-term (e.g., aging) factors. Evidently, prior knowledge of these factors will be beneficial when modeling their future state, i.e., via image generation. However, most of the medical image generation tasks only rely on the input from a single image, thus ignoring the sequential dependency even when longitudinal data is available. Sequence-aware deep generative models, where model input is a sequence of ordered and timestamped images, are still underexplored in the medical imaging domain that is featured by several unique challenges: 1) Sequences with various lengths; 2) Missing data or frame, and 3) High dimensionality. To this end, we propose a sequence-aware diffusion model (SADM) for the generation of longitudinal medical images. Recently, diffusion models have shown promising results on high-fidelity image generation. Our method extends this new technique by introducing a sequence-aware transformer as the conditional module in a diffusion model. The novel design enables learning longitudinal dependency even with missing data during training and allows autoregressive generation of a sequence of images during inference. Our extensive experiments on 3D longitudinal medical images demonstrate the effectiveness of SADM compared with baselines and alternative methods.
翻訳日:2022-12-19 14:08:48 公開日:2022-12-16
# 損失コミュニケーションにおける車車間協調認知の学習

Learning for Vehicle-to-Vehicle Cooperative Perception under Lossy Communication ( http://arxiv.org/abs/2212.08273v1 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Jin Ma, Zicheng Chi, Jiaqi Ma, Hongkai Yu(参考訳) ディープラーニングは、インテリジェントな自動車運転の知覚(たとえば3Dオブジェクト検出)に広く使われている。 有益車両間通信(v2v)により、他のエージェントからのディープラーニングに基づく特徴をego車両と共有して、ego車両の認識を改善することができる。 V2V研究における協調知覚(Cooperative Perception)と名付けられ、アルゴリズムは近年劇的に進歩している。 しかしながら、既存の協調認識アルゴリズムは、複雑な現実の運転シナリオに共通するLossy Communication (LC)のために、損失の多い共有特徴を考慮せずに理想的なV2V通信を前提としている。 In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. デジタル双対CARLAシミュレータに基づく公共協調認識データセットOPV2Vの広範な実験により, 提案手法はV2V通信における協調点雲に基づく3次元物体検出に極めて有効であることが示された。

Deep learning has been widely used in the perception (e.g., 3D object detection) of intelligent vehicle driving. Due to the beneficial Vehicle-to-Vehicle (V2V) communication, the deep learning based features from other agents can be shared to the ego vehicle so as to improve the perception of the ego vehicle. It is named as Cooperative Perception in the V2V research, whose algorithms have been dramatically advanced recently. However, all the existing cooperative perception algorithms assume the ideal V2V communication without considering the possible lossy shared features because of the Lossy Communication (LC) which is common in the complex real-world driving scenarios. In this paper, we first study the side effect (e.g., detection performance drop) by the lossy communication in the V2V Cooperative Perception, and then we propose a novel intermediate LC-aware feature fusion method to relieve the side effect of lossy communication by a LC-aware Repair Network (LCRN) and enhance the interaction between the ego vehicle and other vehicles by a specially designed V2V Attention Module (V2VAM) including intra-vehicle attention of ego vehicle and uncertainty-aware inter-vehicle attention. The extensive experiment on the public cooperative perception dataset OPV2V (based on digital-twin CARLA simulator) demonstrates that the proposed method is quite effective for the cooperative point cloud based 3D object detection under lossy V2V communication.
翻訳日:2022-12-19 14:08:27 公開日:2022-12-16