このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221218となっている論文です。

PDF登録状況(公開日: 20221218)

TitleAuthorsAbstract論文公表日・翻訳日
# Groverの探索のための量子マルチプログラミング

Quantum multi-programming for Grover's search ( http://arxiv.org/abs/2207.14464v2 )

ライセンス: Link先を確認
Gilchan Park, Kun Zhang, Kwangmin Yu, Vladimir Korepin(参考訳) 量子マルチプログラミング(quantum multi-programming)は、複数の量子回路を同時に実行することにより、現代のノイズの多い中間スケール量子コンピュータを活用する手法である。 初期の研究にもかかわらず、この研究は相関のない量子ゲートや小さな量子アルゴリズムに留まっている。 本稿では,Groverの探索のための量子マルチプログラミング(QMP)アルゴリズムを提案する。 本アルゴリズムは,部分拡散演算子によりGroverのアルゴリズムを分解し,QMPにより並列に分解回路を実行する。 我々はこの新しいアルゴリズムがグローバー作用素の回転角を増加させ、その結果、成功確率を増加させることを証明した。 この新しいアルゴリズムはibm量子コンピュータに実装され、標準グローバーのアルゴリズムや他のグローバーのアルゴリズムのバリエーションと比較される。 実験の結果,本アルゴリズムは他のグロバーのアルゴリズムや標準グロバーのアルゴリズムよりも優れていることを確認した。

Quantum multi-programming is a method utilizing contemporary noisy intermediate-scale quantum computers by executing multiple quantum circuits concurrently. Despite early research on it, the research remains on quantum gates or small-size quantum algorithms without correlation. In this paper, we propose a quantum multi-programming (QMP) algorithm for Grover's search. Our algorithm decomposes Grover's algorithm by the partial diffusion operator and executes the decomposed circuits in parallel by QMP. We proved that this new algorithm increases the rotation angle of the Grover operator which, as a result, increases the success probability. The new algorithm is implemented on IBM quantum computers and compared with the canonical Grover's algorithm and other variations of Grover's algorithms. The empirical tests validate that our new algorithm outperforms other variations of Grover's algorithms as well as the canonical Grover's algorithm.
翻訳日:2023-02-03 02:24:41 公開日:2022-12-18
# 気体中の高速粒子に対する量子マスター方程式

Quantum master equations for a fast particle in a gas ( http://arxiv.org/abs/2209.02056v2 )

ライセンス: Link先を確認
David Gaspard(参考訳) 熱平衡における低密度気体中の高速粒子の伝播は、量子力学の文脈で研究されている。 粒子の還元密度行列を規定するレッドフィールド形式における量子マスター方程式は、第一原理から明確に導かれる。 いくつかの近似の下で、この方程式は線型ボルツマン方程式に還元される。 時間発展の肯定性の問題もまた、リンドブラッド形式によって議論される。 これらの方程式の根底にあるボルンとマルコフの仮定や、浴場相関関数に関する他の近似についても詳細に論じている。 さらに、これらのマスター方程式は、粒子の密度行列が運動量ベースで対角的である場合や、衝突速度が粒子運動量から独立である場合、互いに等価であることが示される。

The propagation of a fast particle in a low-density gas at thermal equilibrium is studied in the context of quantum mechanics. A quantum master equation in the Redfield form governing the reduced density matrix of the particle is derived explicitly from first principles. Under some approximations, this equation reduces to the linear Boltzmann equation. The issue of the positivity of the time evolution is also discussed by means of a Lindblad form. The Born and Markov assumptions underlying these equations, as well as other approximations regarding the bath correlation function, are discussed in details. Furthermore, all these master equations are shown to be equivalent with each other if the density matrix of the particle is diagonal in the momentum basis, or if the collision rate is independent of the particle momentum.
翻訳日:2023-01-27 20:47:32 公開日:2022-12-18
# レーザー誘起光学アライメントとレイリー散乱による粒子形態決定のための単粒子異方性の測定

Measurement of single nanoparticle anisotropy by laser induced optical alignment and Rayleigh scattering for determining particle morphology ( http://arxiv.org/abs/2209.10037v2 )

ライセンス: Link先を確認
Markus Rademacher, Jonathan Gosling, Antonio Pontin, Marko Toro\v{s}, Jence T. Mulder, Arjan J. Houtepen and P.F. Barker(参考訳) 真空中におけるトラップ光を通した空間方向に配向した単一光共振粒子のレイリー散乱によるナノ粒子形状の測定を行った。 この手法は、完璧な球状ナノドロップレットから八面体ナノ結晶まで、様々な粒子ジオメトリに応用される。 本手法は, 数ナノメートルの形状差を解消し, 低減衰環境でも, 光ツイーザに使用される従来の過損傷流体でも適用可能であることを示す。

We demonstrate the measurement of nanoparticle shape by angularly resolved Rayleigh scattering of single optical levitated particles that are oriented in space via the trapping light in vacuum. This technique is applied to a range of particle geometries, from perfect spherical nanodroplets to octahedral nanocrystals. We show that this method can resolve shape differences down to a few nanometers and be applied in both low-damping environments, as demonstrated here, and in traditional overdamped fluids used in optical tweezers.
翻訳日:2023-01-25 23:12:55 公開日:2022-12-18
# 平衡から遠い普遍的スケーリング現象における安定かつ不安定な摂動

Stable and unstable perturbations in universal scaling phenomena far from equilibrium ( http://arxiv.org/abs/2209.14883v2 )

ライセンス: Link先を確認
Thimo Preis, Michal P. Heller, J\"urgen Berges(参考訳) 平衡から遠い量子多体系における普遍的スケーリング現象に関連する非熱的不動点まわりの摂動のダイナミクスについて検討する。 3+1 時空次元の n-成分スカラー量子場理論に対して, 自己整合大 n 展開から次対リーディング次数への安定性スケーリング指数を求める。 本解析では,安定な摂動と不安定な摂動の両方の存在を明らかにし,後者は赤外の不動点からの準指数偏差をもたらす。 スペクトル関数の計算により、非平衡準粒子状態の塔とその分散関係を同定する。 線形応答理論の助けを借りて,準粒子状態間の弾性散乱過程の競合から不安定なダイナミクスが生じることを実証する。 最終的に不動点を動的に魅力的にする現象は、自己類似の準粒子カスケードによる不安定な状態の赤外線への普遍的なスケーリングであるスケーリング不安定現象である。 本研究は,自己組織的スケーリング現象における創発的安定性特性のab initioな理解を提供する。

We study the dynamics of perturbations around nonthermal fixed points associated to universal scaling phenomena in quantum many-body systems far from equilibrium. For an N-component scalar quantum field theory in 3+1 space-time dimensions, we determine the stability scaling exponents using a self-consistent large-N expansion to next-to-leading order. Our analysis reveals the presence of both stable and unstable perturbations, the latter leading to quasi-exponential deviations from the fixed point in the infrared. We identify a tower of far-from-equilibrium quasi-particle states and their dispersion relations by computing the spectral function. With the help of linear response theory, we demonstrate that unstable dynamics arises from a competition between elastic scattering processes among the quasi-particle states. What ultimately renders the fixed point dynamically attractive is the phenomenon of a scaling instability, which is the universal scaling of the unstable regime towards the infrared due to a self-similar quasi-particle cascade. Our results provide ab initio understanding of emergent stability properties in self-organized scaling phenomena.
翻訳日:2023-01-24 10:14:50 公開日:2022-12-18
# グラフ状態による操作の遠隔実行制御

Controlled remote implementation of operations via graph states ( http://arxiv.org/abs/2210.14674v2 )

ライセンス: Link先を確認
Xinyu Qiu and Lin Chen(参考訳) 本稿では,制御能力のある遠隔操作の制御プロトコルを提案する。 2n+1)$-partiteグラフ状態を共有すると、2n$の参加者が協力してステータを準備し、$\otimes_{j=1}^n\exp{[i\alpha_j\sigma_{n_{o_j}}]}$ on $n$ unknown states for distributed systems $o_j$をコントローラの許可を得て実現します。 本プロトコルのすべての実装要件は,局所的な操作や古典的な通信によって満足でき,実験的な実現可能性を示す。 我々は,このプロトコルの絡み合い要件を幾何学的測度の観点から特徴づける。 絡み合いコストの観点から制御機能を実現するのは経済的であることがわかった。 さらに,本プロトコルの制御力は,正の演算子値測定によって信頼できることを示す。

We propose protocols for controlled remote implementation of operations with convincing control power. Sharing a $(2N+1)$-partite graph state, $2N$ participants collaborate to prepare the stator and realize the operation $\otimes_{j=1}^N\exp{[i\alpha_j\sigma_{n_{O_j}}]}$ on $N$ unknown states for distributed systems $O_j$, with the permission of a controller. All the implementation requirements of our protocol can be satisfied by means of local operations and classical communications, and the experimental feasibility is presented according to current techniques. We characterize the entanglement requirement of our protocol in terms of geometric measure of entanglement. It turns out to be economic to realize the control function from the perspective of entanglement cost. Further we show that the control power of our protocol is reliable by positive operator valued measurement.
翻訳日:2023-01-21 13:23:45 公開日:2022-12-18
# ランダムマトリックス製品状態のマジック

Magic of Random Matrix Product States ( http://arxiv.org/abs/2211.10350v2 )

ライセンス: Link先を確認
Liyuan Chen, Roy J. Garcia, Kaifeng Bu and Arthur Jaffe(参考訳) マジック(英: magic, nonstabilizerness)とは、状態が安定化状態からどこまで離れているかを特徴付けるもので、量子コンピューティングにおいて重要な資源である。 本稿では, 1 次元ランダム行列積状態(RMPS)のマジックを$L_{1}$-norm 測度を用いて検討する。 まず、$L_{1}$-normと$L_{4}$-normを関連付ける。 次に、$l_{4}$-normを24ドルの統計物理学モデルにマッピングするために、一元的な4ドルの設計を採用します。 モデルの分割関数を評価することにより、$L_{1}$-normの期待値の低い値が得られる。 この境界は、qudit 数 $n$ に対して指数関数的に増大し、$D RMPS は極めて魔法的であることを示す。 量子ビットの場合,魔法は指数関数的に増大することを確認した。

Magic, or nonstabilizerness, characterizes how far away a state is from the stabilizer states, making it an important resource in quantum computing. In this paper, we study the magic of the $1$-dimensional Random Matrix Product States (RMPSs) by the $L_{1}$-norm measure. We firstly relate the $L_{1}$-norm to the $L_{4}$-norm. We then employ a unitary $4$-design to map the $L_{4}$-norm to a $24$-component statistical physics model. By evaluating partition functions of the model, we obtain a lower bound on the expectation values of the $L_{1}$-norm. This bound grows exponentially with respect to the qudit number $n$, indicating that the $1$D RMPS is highly magical. Our numerical results confirm that the magic grows exponentially in the qubit case.
翻訳日:2023-01-18 04:25:02 公開日:2022-12-18
# 雑音偏光子における量子情報の熱力学

Thermodynamics of quantum information in noisy polarizers ( http://arxiv.org/abs/2212.00651v2 )

ライセンス: Link先を確認
Maxwell Aifer, Nathan Myers, Sebastian Deffner(参考訳) 量子的な優位性を予言する新興技術のうち、量子通信はすでに衛星への量子テレポーテーションを含む興味深いデモンストレーションに導かれている。 しかし、全ての光通信は光デバイスの使用を必要とし、その包括的量子熱力学的記述はいまだに極めて不足している。 本研究では, 線形偏光子と偏光ビームスプリッターを吸収する, 雑音偏光子に対するランドウアーの原理のいくつかのバージョンを実証する。 主な結果として、線形偏光の生成において散逸する最小の熱量を定量化する第二法則のステートメントを得る。 本研究では, 量子消去器の温度依存性について実験的に考察した。

Among the emerging technologies with prophesied quantum advantage, quantum communications has already led to fascinating demonstrations -- including quantum teleportation to and from satellites. However, all optical communication necessitates the use of optical devices, and their comprehensive quantum thermodynamic description is still severely lacking. In the present analysis we prove several versions of Landauer's principle for noisy polarizers, namely absorbing linear polarizers and polarizing beamsplitters. As main results we obtain statements of the second law quantifying the minimal amount of heat that is dissipated in the creating of linearly polarized light. Our findings are illustrated with an experimentally tractable example, namely the temperature dependence of a quantum eraser.
翻訳日:2023-01-09 20:01:24 公開日:2022-12-18
# 局所測定による量子ネットワークトポロジーの推定

Inferring Quantum Network Topology using Local Measurements ( http://arxiv.org/abs/2212.07987v2 )

ライセンス: Link先を確認
Daniel T. Chen, Brian Doolittle, Jeffrey M. Larson, Zain H. Saleem, Eric Chitambar(参考訳) 量子ネットワークのトポロジーは、ネットワーク内のノード間の統計的相関を理解する上で重要である。 しかし、この情報は事前に知られていなかったり、検証されなければならなかったりする。 本稿では,量子ネットワークのトポロジーを推定するための効率的なプロトコルを提案する。 我々は、エントロピー量、すなわちフォン・ノイマンのエントロピーと測定された相互情報を利用して位相を一意的に特徴づける。 局所的な測定が必要なため、このプロトコルは実用的であり、量子ハードウェアにも容易に適用できる。 また, qubit測定が可能であれば, このプロトコルは独立な非分極ノイズに対して完全にロバストであることを示す。

The topology of a quantum network is crucial for understanding statistical correlations across nodes in the network. However, this information might not be known a priori or has to be verified. In this paper, we propose an efficient protocol for inferring the topology of a quantum network. We leverage entropic quantities -- namely, the von Neumann entropy and the measured mutual information -- to uniquely characterize the topology. Since only local measurements are needed, the protocol is practical and can be readily applied to quantum hardware. We also show that the protocol can be entirely robust to independent depolarizing noise when qubit measurements are available.
翻訳日:2023-01-09 14:49:30 公開日:2022-12-18
# 量子カスケード相関分光法による多体相関の探索

Probing many-body correlations using quantum-cascade correlation spectroscopy ( http://arxiv.org/abs/2212.09047v1 )

ライセンス: Link先を確認
Lorenzo Scarpelli, Cyril Elouard, Mattias Johnsson, Martina Morassi, Aristide Lemaitre, Iacopo Carusotto, Jacqueline Bloch, Sylvain Ravets, Maxime Richard, Thomas Volz(参考訳) 放射性量子カスケード、すなわちエネルギーレベルのはしごからの光子の連続放出は、量子光学において基本的な重要性である。 例えば、カルシウム原子からの2光子カスケード放出はベルの不等式をテストする先駆的な実験に使われた。 固体量子光学では、放射性ビエクシトン-エクシトンカスケードは絡み合った光子対を生成するのに有用であることが証明されている。 近年,2光子カスケードプロセスから放射されるマイクロ波光子の相関と絡み合いを超伝導回路を用いて測定した。 これらの実験は全て、基礎となるエネルギーラグの非常に非線形の性質に依存しており、特定の単光子遷移を直接励起し、探査することができる。 ここでは、エキシトン偏光子を用いて、はしごの個々の遷移が解決されない状態にある光子のカスケード放出を探索する。 オフ共鳴レーザー励起によりポラリトン量子カスケードを励起し、スペクトルフィルタリングと相関スペクトルの組み合わせを用いて発光を観測する。 驚くべきことに、測定された光子-光子相関は、ポラリトンエネルギーに強く依存しており、従って、二体および三体フェシバッハ共鳴の明確な特徴を持つポラリトン相互作用の強さに強く依存している。 我々は,光子カスケード相関分光法を高感度のツールとして確立し,新しい半導体材料の基礎となる量子特性に関する貴重な情報を提供し,多体量子現象の研究における有用性を予測する。

The radiative quantum cascade, i.e. the consecutive emission of photons from a ladder of energy levels, is of fundamental importance in quantum optics. For example, the two-photon cascaded emission from calcium atoms was used in pioneering experiments to test Bell inequalities. In solid-state quantum optics, the radiative biexciton-exciton cascade has proven useful to generate entangled-photon pairs. More recently, correlations and entanglement of microwave photons emitted from a two-photon cascaded process were measured using superconducting circuits. All these experiments rely on the highly non-linear nature of the underlying energy ladder, enabling direct excitation and probing of specific single-photon transitions. Here, we use exciton polaritons to explore the cascaded emission of photons in the regime where individual transitions of the ladder are not resolved, a regime that has not been addressed so far. We excite a polariton quantum cascade by off-resonant laser excitation and probe the emitted luminescence using a combination of spectral filtering and correlation spectroscopy. Remarkably, the measured photon-photon correlations exhibit a strong dependence on the polariton energy, and therefore on the underlying polaritonic interaction strength, with clear signatures from two- and three-body Feshbach resonances. Our experiment establishes photon-cascade correlation spectroscopy as a highly sensitive tool to provide valuable information about the underlying quantum properties of novel semiconductor materials and we predict its usefulness in view of studying many-body quantum phenomena.
翻訳日:2023-01-09 13:21:56 公開日:2022-12-18
# 二成分量子状態の蒸留性ランダム性の上界

Upper Bounds on the Distillable Randomness of Bipartite Quantum States ( http://arxiv.org/abs/2212.09073v1 )

ライセンス: Link先を確認
Ludovico Lami, Bartosz Regula, Xin Wang, and Mark M. Wilde(参考訳) 二成分量子状態の蒸留可能なランダム性は、局所演算と古典的通信によって共有ランダム性が状態から蒸留できる最大のネットレートと等しい情報理論量である。 この量は古典的相関の尺度として広く用いられており、その1つのバージョンは、状態の1つのシェアを測定する結果となるアンサンブルの正規化されたホレヴォ情報と等しい。 しかし、正規化のため、蒸留可能なランダム性は一般には計算が難しい。 この問題に対処するために,我々は古典的相関の測度を定義し,それらの性質を証明し,最も重要なことは,任意の二成分状態の蒸留可能なランダム性の上界として働くことである。 次に, 半定値計画法により効率よく計算可能な数式により, これらの測度を上からさらに有界化し, 等方的状態の例として評価し, 文献で提案された量との関係について述べる。

The distillable randomness of a bipartite quantum state is an information-theoretic quantity equal to the largest net rate at which shared randomness can be distilled from the state by means of local operations and classical communication. This quantity has been widely used as a measure of classical correlations, and one version of it is equal to the regularized Holevo information of the ensemble that results from measuring one share of the state. However, due to the regularization, the distillable randomness is difficult to compute in general. To address this problem, we define measures of classical correlations and prove a number of their properties, most importantly that they serve as upper bounds on the distillable randomness of an arbitrary bipartite state. We then further bound these measures from above by some that are efficiently computable by means of semi-definite programming, we evaluate one of them for the example of an isotropic state, and we remark on the relation to quantities previously proposed in the literature.
翻訳日:2023-01-09 13:21:32 公開日:2022-12-18
# 極低温フェルミ気体におけるp波相互作用の役割に関する量子モンテカルロ研究

Quantum Monte Carlo study of the role of p-wave interactions in ultracold Fermi gases ( http://arxiv.org/abs/2212.09150v1 )

ライセンス: Link先を確認
Gianluca Bertaina, Marco G. Tarallo, Sebastiano Pilati(参考訳) 単成分超低温原子フェルミガスは、通常非相互作用多フェルミモデルを用いて記述される。 しかし、最近の実験では、同一のフェルミオン原子間の$p$-wave相互作用が重要である。 本稿では,短距離反発相互作用を有する単成分フェルミ気体の基底状態特性を調べるために,変分および固定ノード拡散モンテカルロシミュレーションを用いた。 ゼロ温度状態方程式を定式化し、p$-wave 散乱体積と $p$-wave 有効範囲によって果たす役割を解明する。 近年の2次摂動結果との比較では, 相互作用強度の幅が広い。 また,準粒子有効質量を計算し,p$-wave散乱体積における線形寄与の摂動予測を確認した。 最後に,2成分非偏極フェルミガスと種間および種内ハードスフィア相互作用の基底状態エネルギーを算出し,最近導出された4次展開と,$p$波寄与を含む顕著な一致を見出した。

Single-component ultracold atomic Fermi gases are usually described using noninteracting many-fermion models. However, recent experiments reached a regime where $p$-wave interactions among identical fermionic atoms are important. In this article, we employ variational and fixed-node diffusion Monte Carlo simulations to investigate the ground-state properties of single-component Fermi gases with short-range repulsive interactions. We determine the zero-temperature equation of state, and elucidate the roles played by the $p$-wave scattering volume and the $p$-wave effective range. A comparison against recently-derived second-order perturbative results shows good agreement in a broad range of interaction strength. We also compute the quasiparticle effective mass, and we confirm the perturbative prediction of a linear contribution in the $p$-wave scattering volume, while we find significant deviations from the beyond-mean-field perturbative result, already for moderate interaction strengths. Finally, we determine ground-state energies for two-component unpolarized Fermi gases with both interspecies and intraspecies hard-sphere interactions, finding remarkable agreement with a recently derived fourth-order expansion that includes $p$-wave contributions.
翻訳日:2023-01-09 13:21:15 公開日:2022-12-18
# ハミンググラフ上の自由フェルミオンの多部情報

Multipartite information of free fermions on Hamming graphs ( http://arxiv.org/abs/2212.09158v1 )

ライセンス: Link先を確認
Gilles Parez, Pierre-Antoine Bernard, Nicolas Cramp\'e, Luc Vinet(参考訳) ハミンググラフ上に定義された自由フェルミオンモデルの基底状態における多部情報と絡み合い対策について検討する。 既知の隣接行列の対角化を用いて,モデルを解き,基底状態相関行列を構築する。 さらに、コップされた相関行列のすべての固有値が、サブシステムがより大きなサブグラフに埋め込まれた$n$のディスジョイントハミング部分グラフからなるときに見つかる。 これらの結果により、解離グラフの絡み合いエントロピーの正確な公式と、相互および三部情報を求めることができる。 これらの指標の正確な式を用いて, 2つの異なる熱力学的限界における漸近的挙動を抽出し, 数値計算とよく一致した。 特に, 絡み合いエントロピーは, 面積法に比べて絡み合い量を減少させる地域法の対数的違反を認めていることがわかった。

We investigate multipartite information and entanglement measures in the ground state of a free-fermion model defined on a Hamming graph. Using the known diagonalization of the adjacency matrix, we solve the model and construct the ground state correlation matrix. Moreover, we find all the eigenvalues of the chopped correlation matrix when the subsystem consists of $n$ disjoint Hamming subgraphs embedded in a larger one. These results allow us to find an exact formula for the entanglement entropy of disjoint graphs, as well as for the mutual and tripartite information. We use the exact formulas for these measures to extract their asymptotic behavior in two distinct thermodynamic limits, and find excellent match with the numerical calculations. In particular, we find that the entanglement entropy admits a logarithmic violation of the area law which decreases the amount of entanglement compared to the area law scaling.
翻訳日:2023-01-09 13:20:51 公開日:2022-12-18
# キャビティ磁気力学のフィードバックによる大型機械振動子の地中冷却

Ground-state cooling of a massive mechanical oscillator by feedback in cavity magnomechanics ( http://arxiv.org/abs/2212.09002v1 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Hang Qian, Xuan Zuo, Jie Li(参考訳) 巨大機械振動子の量子基底状態への動きの冷却は、力学系におけるマクロ量子効果の観測において重要な役割を果たす。 本稿では,マクロフェロマグネットの機械的振動モードを基底状態に冷却できるキャビティマグノメカニクスにおける計測に基づくフィードバック冷却プロトコルを提案する。 機械モードは分散磁歪相互作用を介してマグノンモードに結合し、後者はさらに磁気双極子相互作用を介してマイクロ波キャビティモードに結合する。 マイクロ波共振器の出力フィールドの振幅を測定し、出力フィールドの振幅変動に比例する機械振動子に力を加えることで、フィードバックループを導入する。 また, フィードバックゲインを適切に設計することで, 機械的減衰速度が著しく向上し, 機械的周波数に影響が及ばないことを示す。 これにより、低温での未解決サイドバンド状態において、振動モードを量子基底状態に冷却することができる。 このプロトコルは強磁歪を有する強磁性材料を用いたキャビティマグノメカニカルシステムのために設計されている。

Cooling the motion of a massive mechanical oscillator into its quantum ground state plays an essential role in observing macroscopic quantum effects in mechanical systems. Here we propose a measurement-based feedback cooling protocol in cavity magnomechanics that is able to cool the mechanical vibration mode of a macroscopic ferromagnet into its ground state. The mechanical mode couples to a magnon mode via a dispersive magnetostrictive interaction, and the latter further couples to a microwave cavity mode via the magnetic-dipole interaction. A feedback loop is introduced by measuring the amplitude of the microwave cavity output field and applying a force onto the mechanical oscillator that is proportional to the amplitude fluctuation of the output field. We show that by properly designing the feedback gain, the mechanical damping rate can be significantly enhanced while the mechanical frequency remains unaffected. Consequently, the vibration mode can be cooled into its quantum ground state in the unresolved-sideband regime at cryogenic temperatures. The protocol is designed for cavity magnomechanical systems using ferromagnetic materials which possess strong magnetostriction along with large magnon dissipation.
翻訳日:2023-01-09 13:10:03 公開日:2022-12-18
# 量子特異値変換を用いた線形非エルミート境界値問題のシミュレーション

Simulation of linear non-Hermitian boundary-value problems with quantum singular value transformation ( http://arxiv.org/abs/2212.09113v1 )

ライセンス: Link先を確認
I. Novikau, I. Y. Dodin, and E. A. Startsev(参考訳) 境界値問題として不均一線形媒質中の散逸波をシミュレーションする量子アルゴリズムを提案する。 いわゆる量子特異値変換 (qsvt) を用いて, 境界条件のある一次元系における電磁波の伝播をモデル化する量子回路を構築する。 対応する測定手順についても論じる。 QSVTアルゴリズムの限界は、分散行列が弱散逸時に示す大きな条件数に関連して同定される。

We propose a quantum algorithm for simulating dissipative waves in inhomogeneous linear media as a boundary-value problem. Using the so-called quantum singular value transformation (QSVT), we construct a quantum circuit that models the propagation of electromagnetic waves in a one-dimensional system with outgoing boundary conditions. The corresponding measurement procedure is also discussed. Limitations of the QSVT algorithm are identified in connection with the large condition numbers that the dispersion matrices exhibit at weak dissipation.
翻訳日:2023-01-09 08:27:07 公開日:2022-12-18
# 原子ボース・アインシュタイン凝縮体におけるスピンネマティックスクイージングによる量子強化センシング

Quantum enhanced sensing by echoing spin-nematic squeezing in atomic Bose-Einstein condensate ( http://arxiv.org/abs/2212.09124v1 )

ライセンス: Link先を確認
Tian-Wei Mao, Qi Liu, Xin-Wei Li, Jia-Hao Cao, Feng Chen, Wen-Xin Xu, Meng Khoon Tey, Yi-Xiao Huang, Li You(参考訳) 量子エンタングルメントは、古典的な手段で達成可能な最高精度の標準量子限界(SQL)を超えて精度を高めることができる。 しかし、エンタングルメントを準備し、維持し、操作し、検出する実験能力によって制限された大きな強化を観察することは依然として困難である。 本稿では,原子ボース-アインシュタイン凝縮体における記録的な高強度化係数を達成するために,エコースピンネマティックスキューズに基づく非線形干渉プロトコルを提案する。 エコーは、プローブ状態として機能し、符号化された信号のノイズのない増幅を行ないながら、アンキューされた初期状態の近傍に再集中するスピンネマティック圧縮真空のステートフリップにより実現される。 26400原子の2モードSQLを超える小さな角度のラビ回転に対する21.6\pm0.5$デシベル(dB)の感度と、ラムゼー干渉計における位相検出のための16.6\pm1.3$dBの感度が観察された。 後者の絶対位相感度は103〜\rm{pT/\sqrt{Hz}}$のプローブ体積が18〜\mu\rm{m}^3$である。 我々の研究はスピンネマティック・スクイージングの優れた多体コヒーレンスを強調し、原子磁気センサ、原子光時計、ローレンツ対称性違反の基本的な試験などにおける量子力学的応用の可能性を示している。

Quantum entanglement can provide enhanced precision beyond standard quantum limit (SQL), the highest precision achievable with classical means. It remains challenging, however, to observe large enhancement limited by the experimental abilities to prepare, maintain, manipulate and detect entanglement. Here, we present nonlinear interferometry protocols based on echoing spin-nematic squeezing to achieve record high enhancement factors in atomic Bose-Einstein condensate. The echo is realized by a state-flip of the spin-nematic squeezed vacuum, which serves as the probe state and is refocused back to the vicinity of the unsqueezed initial state while carrying out near noiseless amplification of a signal encoded. A sensitivity of $21.6\pm0.5$ decibels (dB) for a small-angle Rabi rotation beyond the two-mode SQL of 26400 atoms as well as $16.6\pm1.3$ dB for phase sensing in a Ramsey interferometer are observed. The absolute phase sensitivity for the latter extrapolates to $103~\rm{pT/\sqrt{Hz}}$ at a probe volume of $18~\mu\rm{m}^3$ for near-resonant microwave field sensing. Our work highlights the excellent many-body coherence of spin-nematic squeezing and suggests its possible quantum metrological applications in atomic magnetometer, atomic optical clock, and fundamental testing of Lorentz symmetry violation, etc.
翻訳日:2023-01-09 08:27:00 公開日:2022-12-18
# 有限浴中における2スピンの完全絡み合いダイナミクス

Exact Entanglement Dynamics of Two Spins in Finite Baths ( http://arxiv.org/abs/2212.09151v1 )

ライセンス: Link先を確認
Mei Yu, Otfried G\"uhne, Stefan Nimmrichter(参考訳) 我々は、原子、分子、窒素空孔中心の配列に基づく量子コンピューティングプラットフォームにおいて実現された、周囲スピンの有限環境における相相互作用による2スピン絡み合いの蓄積と崩壊を考える。 イジング型位相相互作用によるスピン環境による非マルコフ的デファス化は、衝突モデルに基づく効果的なマルコフ的処理と比較して正確に解ける。 ランダムホッピングスピンの動的格子に関する最初のケーススタディでは、非マルコフ性が周辺との近接相互作用によって引き起こされるデファスレートを増加させ、最大エンタングルメントを低下させることが示されている。 また,この劣化を緩和し,二スピン系でランダムに時間をかけてリセットする操作は,定常的絡み合いを有限に抑えることができることを示した。 モデル核磁気共鳴システムに基づく第2のケーススタディでは、非マルコフ的デファスティングにおける有限温度での浴場相関の役割を解明する。 熱的にアクセス可能なスピン配置の数に関係している非相関の浴と比べ、低温での劣化を加速させ、高温で減速させる。

We consider the buildup and decay of two-spin entanglement through phase interactions in a finite environment of surrounding spins, as realized in quantum computing platforms based on arrays of atoms, molecules, or nitrogen vacancy centers. The non-Markovian dephasing caused by the spin environment through Ising-type phase interactions can be solved exactly and compared to an effective Markovian treatment based on collision models. In a first case study on a dynamic lattice of randomly hopping spins, we find that non-Markovianity boosts the dephasing rate caused by nearest neighbour interactions with the surroundings, degrading the maximum achievable entanglement. However, we also demonstrate that additional three-body interactions can mitigate this degradation, and that randomly timed reset operations performed on the two-spin system can help sustain a finite average amount of steady-state entanglement. In a second case study based on a model nuclear magnetic resonance system, we elucidate the role of bath correlations at finite temperature on non-Markovian dephasing. They speed up the dephasing at low temperatures while slowing it down at high temperatures, compared to an uncorrelated bath, which is related to the number of thermally accessible spin configurations with and without interactions.
翻訳日:2023-01-09 07:43:50 公開日:2022-12-18
# 非エルミートキックロータモデルにおける時間外順序相関子のスケーリング

Scaling of out-of-time ordered correlators in a non-Hermitian kicked rotor model ( http://arxiv.org/abs/2212.09194v1 )

ライセンス: Link先を確認
Wen-Lei Zhao and Ru-Ru Wang(参考訳) 量子キックロータモデルの非エルミート拡張による時間外相関器(OTOC)のダイナミクスについて検討し、蹴りポテンシャルは$\mathcal{PT}$対称性を満たす。 自発的な$\cal{PT}$対称性の破れは、蹴り電位の虚部がしきい値を超えると現れる。 解析的にも数値的にも、$\cal{pt}$ 対称性の破れの段階でも、オトクは時間発展とともに急速に飽和する。 興味深いことに、後期飽和値はシステムサイズのpow-lawとしてスケールする。 このようなスケーリング法則のメカニズムは、OTOCにおける非局所作用素の効果と非エルミート駆動電位による時間反転との相互作用から生じる。

We investigate the dynamics of the out-of-time-ordered correlators (OTOCs) via a non-Hermitian extension of the quantum kicked rotor model, where the kicking potential satisfies $\mathcal{PT}$-symmetry. The spontaneous $\cal{PT}$-symmetry breaking emerges when the strength of the imaginary part of the kicking potential exceeds a threshold value. We find, both analytically and numerically, that in the broken phase of $\cal{PT}$ symmetry, the OTOCs rapidly saturate with time evolution. Interestingly, the late-time saturation value scales as a pow-law in the system size. The mechanism of such scaling law results from the interplay between the effects of nonlocal operator in OTOCs and the time reversal induced by non-Hermitian driven potential.
翻訳日:2023-01-09 07:43:29 公開日:2022-12-18
# ショートカットMCMCサンプリングによる拡散モデル推定の高速化

Speed up the inference of diffusion models via shortcut MCMC sampling ( http://arxiv.org/abs/2301.01206v1 )

ライセンス: Link先を確認
Gang Chen(参考訳) 拡散確率モデルは最近高品質な画像合成を生み出している。 しかし、ある痛点は、何千ものステップで徐々に鮮明な画像を得るという悪名高い推論であり、他の生成モデルと比べて時間を要する。 本稿では,生成されたデータの品質を維持しつつ,トレーニングと推論のバランスをとるショートカットMCMCサンプリングアルゴリズムを提案する。 特に,拡散モデルから局所的なフィッティングに対処するために,MCMCサンプリングによる大域的忠実度制約を加える。 いくつかの実験を行い、非常に有望な結果を示します。 私たちの実装はhttps://github.com//vividitytech/diffusion-mcmc.gitで利用可能です。

Diffusion probabilistic models have generated high quality image synthesis recently. However, one pain point is the notorious inference to gradually obtain clear images with thousands of steps, which is time consuming compared to other generative models. In this paper, we present a shortcut MCMC sampling algorithm, which balances training and inference, while keeping the generated data's quality. In particular, we add the global fidelity constraint with shortcut MCMC sampling to combat the local fitting from diffusion models. We do some initial experiments and show very promising results. Our implementation is available at https://github.com//vividitytech/diffusion-mcmc.git.
翻訳日:2023-01-09 07:26:11 公開日:2022-12-18
# ボットネットの世界におけるチャットボット

Chatbots in a Botnet World ( http://arxiv.org/abs/2212.11126v1 )

ライセンス: Link先を確認
Forrest McKee, David Noever(参考訳) 質問と回答の形式は、サイバーセキュリティの問題を調査するための新しい実験プラットフォームを提供する。 従来のチャットボットとは異なり、OpenAIの最新ChatGPTモデルは複雑なコーディング質問の高度な理解をサポートする。 この研究は、クレデンシャルアクセスから防衛回避まで、一般的にMITRE ATT&CKフレームワークの段階として適する13のコーディングタスクを実証している。 様々な成功により、実験的なプロンプトは、キーロガー、論理爆弾、難読化ワーム、支払いフルフィルドランサムウェアの例を生成する。 実験結果は,複雑なサイバーセキュリティ目標に対する自己複製や自己修正,回避,戦略的理解など,広範な機能獲得をサポートする事例を示している。 chatgptの言語のみのモデルとしての驚くべき特徴の1つは、実行可能なプログラミングステップやリンクを邪魔したり埋め込んだりする画像を生成するコーディングアプローチを生成する能力に集中している。

Question-and-answer formats provide a novel experimental platform for investigating cybersecurity questions. Unlike previous chatbots, the latest ChatGPT model from OpenAI supports an advanced understanding of complex coding questions. The research demonstrates thirteen coding tasks that generally qualify as stages in the MITRE ATT&CK framework, ranging from credential access to defense evasion. With varying success, the experimental prompts generate examples of keyloggers, logic bombs, obfuscated worms, and payment-fulfilled ransomware. The empirical results illustrate cases that support the broad gain of functionality, including self-replication and self-modification, evasion, and strategic understanding of complex cybersecurity goals. One surprising feature of ChatGPT as a language-only model centers on its ability to spawn coding approaches that yield images that obfuscate or embed executable programming steps or links.
翻訳日:2022-12-22 14:09:40 公開日:2022-12-18
# 内部多彩な画像補完

Internal Diverse Image Completion ( http://arxiv.org/abs/2212.10280v1 )

ライセンス: Link先を確認
Noa Alkobi, Tamar Rott Shaham, Tomer Michaeli(参考訳) 画像補完は、例えばオブジェクトの削除など、写真の復元や編集アプリケーションで広く使われている。 近年,不足地域に多様な完成品を生産する研究が盛んに行われている。 しかし、既存の手法では特定の関心領域からの大きなトレーニングセットが必要であり、一般的な画像では失敗することが多い。 本稿では,トレーニングセットを必要としない,任意の領域の任意の画像を処理できる多様な補完手法を提案する。 当社のinternal diverse completion(idc)アプローチは、単一のイメージの複数のスケールでトレーニングされた最近の単一画像生成モデルからインスピレーションを得て、イメージのごく一部しかトレーニングに利用できない極端な設定に適応するものです。 本稿では,いくつかのデータセットにおけるidcの強みを,ユーザ研究と定量的比較の両方を用いて示す。

Image completion is widely used in photo restoration and editing applications, e.g. for object removal. Recently, there has been a surge of research on generating diverse completions for missing regions. However, existing methods require large training sets from a specific domain of interest, and often fail on general-content images. In this paper, we propose a diverse completion method that does not require a training set and can thus treat arbitrary images from any domain. Our internal diverse completion (IDC) approach draws inspiration from recent single-image generative models that are trained on multiple scales of a single image, adapting them to the extreme setting in which only a small portion of the image is available for training. We illustrate the strength of IDC on several datasets, using both user studies and quantitative comparisons.
翻訳日:2022-12-21 16:32:48 公開日:2022-12-18
# 音声中心の信頼できる機械学習:プライバシ、安全性、公正性

A Review of Speech-centric Trustworthy Machine Learning: Privacy, Safety, and Fairness ( http://arxiv.org/abs/2212.09006v1 )

ライセンス: Link先を確認
Tiantian Feng and Rajat Hebbar and Nicholas Mehlman and Xuan Shi and Aditya Kommineni and and Shrikanth Narayanan(参考訳) 音声中心の機械学習システムは、交通、医療、教育、防衛など、多くの主要な分野に革命をもたらし、人々の生活、働き方、相互作用の仕方を大きく変えた。 しかし、近年の研究では、多くの音声中心のMLシステムはより広範な展開に適していると考えられる必要があることが示されている。 具体的には、プライバシ侵害、パフォーマンスの識別、敵の攻撃に対する脆弱性に関する懸念が、すべてML研究分野で発見されている。 上記の課題とリスクに対処するために、これらのMLシステムが信頼性、特にプライベート、セーフ、フェアであることを保証するために、かなりの数の努力がなされている。 本稿では、プライバシ、安全性、公正性に関連する音声中心の信頼できるMLトピックに関する総合的な調査を行う。 研究コミュニティの要約としての役割に加えて,この領域でさらなる研究を希望する研究者に刺激を与える,将来有望な研究の方向性を指摘する。

Speech-centric machine learning systems have revolutionized many leading domains ranging from transportation and healthcare to education and defense, profoundly changing how people live, work, and interact with each other. However, recent studies have demonstrated that many speech-centric ML systems may need to be considered more trustworthy for broader deployment. Specifically, concerns over privacy breaches, discriminating performance, and vulnerability to adversarial attacks have all been discovered in ML research fields. In order to address the above challenges and risks, a significant number of efforts have been made to ensure these ML systems are trustworthy, especially private, safe, and fair. In this paper, we conduct the first comprehensive survey on speech-centric trustworthy ML topics related to privacy, safety, and fairness. In addition to serving as a summary report for the research community, we point out several promising future research directions to inspire the researchers who wish to explore further in this area.
翻訳日:2022-12-20 19:01:29 公開日:2022-12-18
# 神経訓練の基盤となる相関ダイナミクス

The Underlying Correlated Dynamics in Neural Training ( http://arxiv.org/abs/2212.09040v1 )

ライセンス: Link先を確認
Rotem Turjeman, Tom Berkov, Ido Cohen, Guy Gilboa(参考訳) ニューラルネットワークのトレーニングは計算集約的なタスクです。 トレーニングダイナミクスの理解とモデリングの重要性は、より大きなネットワークがトレーニングされるにつれて増大しています。 本研究では,パラメータのダイナミクスの相関に基づくモデルを提案する。 我々はアルゴリズムを \emph{correlation mode decomposition} (cmd) と呼ぶ。 パラメータ空間を、エポックを通じて高度に相関した振る舞いをするパラメータ(モード)のグループに分割する。 このアプローチでは,数百万のパラメータを含むResNet-18やトランスフォーマー,GANなどのネットワークを,ほんの数モードでうまくモデル化することが可能である。 すべてのレイヤにおいて、モードの典型的な時間プロファイルがネットワーク全体に分散しているのを観察します。 さらに,本モデルは,テスト集合の一般化能力を向上させる正則化を誘導する。 この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。

Training of neural networks is a computationally intensive task. The significance of understanding and modeling the training dynamics is growing as increasingly larger networks are being trained. We propose in this work a model based on the correlation of the parameters' dynamics, which dramatically reduces the dimensionality. We refer to our algorithm as \emph{correlation mode decomposition} (CMD). It splits the parameter space into groups of parameters (modes) which behave in a highly correlated manner through the epochs. We achieve a remarkable dimensionality reduction with this approach, where networks like ResNet-18, transformers and GANs, containing millions of parameters, can be modeled well using just a few modes. We observe each typical time profile of a mode is spread throughout the network in all layers. Moreover, our model induces regularization which yields better generalization capacity on the test set. This representation enhances the understanding of the underlying training dynamics and can pave the way for designing better acceleration techniques.
翻訳日:2022-12-20 19:01:14 公開日:2022-12-18
# 意味コミュニケーションのためのコントラスト学習による学習可能・記憶可能データの分離

Disentangling Learnable and Memorizable Data via Contrastive Learning for Semantic Communications ( http://arxiv.org/abs/2212.09071v1 )

ライセンス: Link先を確認
Christina Chaccour and Walid Saad(参考訳) メタバースのような将来の6Gアプリケーションの運用には,人工的にインテリジェントな無線ネットワークを実現する必要がある。 それにもかかわらず、現在の通信方式は、推論を欠いた単なる再構築プロセスである。 人間のような会話に無線通信を進化させる鍵となる解決策は、セマンティックコミュニケーションである。 本稿では,ソースデータの事前処理とアンタングル化のための新しい機械推論フレームワークを提案し,セマンティック・レシージャを実現する。 特に,データ上でインスタンスとクラスタの識別を行うための,新しいコントラスト学習フレームワークを提案する。 これら2つのタスクは、意味的に類似したコンテンツ要素にマッピングされたデータポイント間の結合性を高め、意味的に異なるコンテンツ要素のデータをアンタングリングすることを可能にする。 その後、形成されたセマンティックディープクラスタはその信頼度に応じてランク付けされる。 高い信頼度を持つ深いセマンティッククラスタは、学習可能でセマンティックに富んだデータ、すなわちセマンティック通信システムにおける言語構築に使用できるデータと見なされる。 最も信頼性の低いものは、古典的に送信しなければならないランダム、セマンティック・プール、記憶可能なデータである。 シミュレーションの結果は, セマンティックインパクトとミニマリズムの観点から, 比較学習アプローチの優位性を示した。 実際、セマンティクス表現の長さはバニラセマンティクス通信システムと比較して57.22%最小化され、最小主義的なセマンティクス表現が得られる。

Achieving artificially intelligent-native wireless networks is necessary for the operation of future 6G applications such as the metaverse. Nonetheless, current communication schemes are, at heart, a mere reconstruction process that lacks reasoning. One key solution that enables evolving wireless communication to a human-like conversation is semantic communications. In this paper, a novel machine reasoning framework is proposed to pre-process and disentangle source data so as to make it semantic-ready. In particular, a novel contrastive learning framework is proposed, whereby instance and cluster discrimination are performed on the data. These two tasks enable increasing the cohesiveness between data points mapping to semantically similar content elements and disentangling data points of semantically different content elements. Subsequently, the semantic deep clusters formed are ranked according to their level of confidence. Deep semantic clusters of highest confidence are considered learnable, semantic-rich data, i.e., data that can be used to build a language in a semantic communications system. The least confident ones are considered, random, semantic-poor, and memorizable data that must be transmitted classically. Our simulation results showcase the superiority of our contrastive learning approach in terms of semantic impact and minimalism. In fact, the length of the semantic representation achieved is minimized by 57.22% compared to vanilla semantic communication systems, thus achieving minimalist semantic representations.
翻訳日:2022-12-20 19:01:02 公開日:2022-12-18
# 近似クエリ処理における合成構築のためのGANベースタブラルデータジェネレータ:課題と解決

GAN-based Tabular Data Generator for Constructing Synopsis in Approximate Query Processing: Challenges and Solutions ( http://arxiv.org/abs/2212.09015v1 )

ライセンス: Link先を確認
Mohammadali Fallahian, Mohsen Dorodchi, Kyle Kreth(参考訳) データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。 しかし、ビッグデータは取得が困難な巨大なデータベースに格納される。 近似クエリ処理(英: Approximate Query Processing、AQP)は、実際のデータの振る舞いを忠実に再現するデータ(シノプシス)の要約に基づいて、集約されたクエリに近似的な回答を提供する技術である。 本稿では,AQPで合成構築に使用できる表データを生成するためのGAN(Generative Adversarial Networks)について論じる。 まず,リレーショナルデータベースにおけるシナプス構築に関わる課題について論じ,その課題に対する解決策を紹介する。 その後,生成したシナプスの品質を評価するため,統計的指標を整理した。 学習中の関係データベースのセマンティクスをアルゴリズムが理解することが難しくなり,表型GANの改良版では,データ駆動型意思決定システムに革命をもたらすシナプスの構築が可能になった。

In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. In this paper, we discuss the use of Generative Adversarial Networks (GANs) for generating tabular data that can be employed in AQP for synopsis construction. We first discuss the challenges associated with constructing synopses in relational databases and then introduce solutions to those challenges. Following that, we organized statistical metrics to evaluate the quality of the generated synopses. We conclude that tabular data complexity makes it difficult for algorithms to understand relational database semantics during training, and improved versions of tabular GANs are capable of constructing synopses to revolutionize data-driven decision-making systems.
翻訳日:2022-12-20 18:54:32 公開日:2022-12-18
# AutoSlicer:MLモデル解析のためのスケーラブルな自動データスライシング

AutoSlicer: Scalable Automated Data Slicing for ML Model Analysis ( http://arxiv.org/abs/2212.09032v1 )

ライセンス: Link先を確認
Zifan Liu and Evan Rosen and Paul Suganthan G. C(参考訳) 自動スライシングは、トレーニングされたモデルが異常に実行する評価データのサブセットを特定することを目的としている。 これは、モデルデバッギングと比較において重要な役割を果たすとともに、公平性の問題の診断を行うため、本番環境での機械学習パイプラインにとって重要な問題である。 スライス可能な大きな検索スペースと拡大するデータ量のために、自動スライシングシステムにとってスケーラビリティは重要な要件となっている。 本稿では,分散メトリクス計算と仮説テストにより問題スライスを探索するスケーラブルなシステムAutoslicerを提案する。 我々はプルーニングと優先順位付けによって検索空間を削減できる効率的な戦略を開発する。 実験では,探索空間のごく一部を検査することで,異常なスライスの大部分を探索戦略が発見できることを示した。

Automated slicing aims to identify subsets of evaluation data where a trained model performs anomalously. This is an important problem for machine learning pipelines in production since it plays a key role in model debugging and comparison, as well as the diagnosis of fairness issues. Scalability has become a critical requirement for any automated slicing system due to the large search space of possible slices and the growing scale of data. We present Autoslicer, a scalable system that searches for problematic slices through distributed metric computation and hypothesis testing. We develop an efficient strategy that reduces the search space through pruning and prioritization. In the experiments, we show that our search strategy finds most of the anomalous slices by inspecting a small portion of the search space.
翻訳日:2022-12-20 18:54:12 公開日:2022-12-18
# text2struct: テキストから構造化データをマイニングする機械学習パイプライン

Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text ( http://arxiv.org/abs/2212.09044v1 )

ライセンス: Link先を確認
Chaochao Zhou and Bo Yang(参考訳) 多くの解析および予測タスクは、構造化されていないテキストから構造化データの抽出を必要とする。 そこで本研究では,テキストアノテーションスキーム,トレーニングデータ処理,機械学習実装などを含む,エンドツーエンドの機械学習パイプラインであるText2Structを提案する。 テキスト中の数値に関連したメトリクスと単位の抽出としてマイニング問題を定式化した。 Text2Structは血栓摘出に関する医学論文の要約から得られた注釈付きテキストデータセットで評価された。 予測性能の面では,テストデータセットで0.82のサイス係数が達成された。 ランダムサンプリングにより、数値と実体のほとんどの予測された関係は、基底真実アノテーションとよく一致した。 これらの結果は、text2structが特別なテンプレートやパターンを使わずにテキストから構造化データをマイニングできることを示した。 データセットを拡張し、他の機械学習モデルを調べることで、パイプラインをさらに改善することが期待されている。 コードデモは、https://github.com/zcc861007/CourseProjectで見ることができる。

Many analysis and prediction tasks require the extraction of structured data from unstructured texts. To solve it, this paper presents an end-to-end machine learning pipeline, Text2Struct, including a text annotation scheme, training data processing, and machine learning implementation. We formulated the mining problems as the extraction of metrics and units associated with numerals in the text. Text2Struct was evaluated on an annotated text dataset collected from abstracts of medical publications regarding thrombectomy. In terms of prediction performance, a dice coefficient of 0.82 was achieved on the test dataset. By random sampling, most predicted relations between numerals and entities were well matched to the ground-truth annotations. These results showed that the Text2Struct is viable for the mining of structured data from text without special templates or patterns. It is anticipated to further improve the pipeline by expanding the dataset and investigating other machine learning models. A code demonstration can be found at: https://github.com/zcc861007/CourseProject
翻訳日:2022-12-20 18:54:00 公開日:2022-12-18
# JEMMA:ML4Codeアプリケーションのための拡張可能なJavaデータセット

JEMMA: An Extensible Java Dataset for ML4Code Applications ( http://arxiv.org/abs/2212.09132v1 )

ライセンス: Link先を確認
Anjan Karmakar, Miltiadis Allamanis, Romain Robbes(参考訳) マシンラーニング・フォー・ソースコード(ml4code)は、ソースコードのリッチな構造化情報の使用方法を発見するために、広範囲な実験が必要となる活発な研究分野である。 JEMMA(Extensible Java Dataset for ML4Code Applications)はML4Codeをターゲットにした大規模で多種多様な高品質なデータセットである。 JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。 JEMMAには、メタデータ、表現(例えば、コードトークン、AST、グラフ)、および50KCデータセットから5万件のJavaプロジェクトのためのいくつかのプロパティ(例えば、メトリクス、静的解析結果)、120万以上のクラスと800万以上のメソッドなど、かなり多くの事前処理された情報が含まれている。 JEMMAは拡張可能で、ユーザーはデータセットに新しいプロパティや表現を追加し、タスクを評価することができる。 このようにして、JEMMAは研究者が新しい表現やソースコードで動作するタスクを実験できるワークベンチとなる。 データセットの有用性を示すために、データに関する2つの実証研究の結果を報告します。最終的には、ソフトウェアプロジェクトにおけるソースコードエンティティの広範なネットワーク上で推論可能なコンテキスト対応ソースコードモデルの設計において、jemmaが支援するために設計したタスクにおいて、重要な作業が先行していることを示しています。

Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.
翻訳日:2022-12-20 18:53:45 公開日:2022-12-18
# 小型ニューラルラジアンスフィールドのための仮面ウェーブレット表現

Masked Wavelet Representation for Compact Neural Radiance Fields ( http://arxiv.org/abs/2212.09069v1 )

ライセンス: Link先を確認
Daniel Rho, Byeonghyeon Lee, Seungtae Nam, Joo Chan Lee, Jong Hwan Ko, Eunbyung Park(参考訳) neural radiance fields(nerf)は、ニューラルネットワークのレンダリングにおいて、座標ベースの神経表現(神経場または暗黙的神経表現)の可能性を実証している。 しかし、3Dシーンやオブジェクトを表現するために多層パーセプトロン(MLP)を使用するには、膨大な計算資源と時間が必要である。 近年,グリッドや木などのデータ構造を付加することで,これらの計算非効率性を低減する方法が研究されている。 有望なパフォーマンスにもかかわらず、明示的なデータ構造は相当量のメモリを必要とする。 本稿では,データ構造の追加による利点を損なうことなく,サイズを小さくする手法を提案する。 本稿では,格子型ニューラルネットワーク上でのウェーブレット変換を提案する。 グリッドベースのニューラルネットワークは高速収束のためのものであり、高性能標準コーデックで効率が実証されたウェーブレット変換は、グリッドのパラメータ効率を改善することである。 さらに,再構成品質を維持しつつグリッド係数のスパース性を高めるために,新しい学習可能なマスキング手法を提案する。 実験の結果,ウェーブレット係数などの非空間的グリッド係数は空間的グリッド係数よりも高いスパルシティを達成でき,よりコンパクトな表現が可能となった。 提案したマスクと圧縮パイプラインにより,2MBのメモリ予算で最先端の性能を実現した。 私たちのコードはhttps://github.com/daniel03c1/masked_wavelet_nerfで利用可能です。

Neural radiance fields (NeRF) have demonstrated the potential of coordinate-based neural representation (neural fields or implicit neural representation) in neural rendering. However, using a multi-layer perceptron (MLP) to represent a 3D scene or object requires enormous computational resources and time. There have been recent studies on how to reduce these computational inefficiencies by using additional data structures, such as grids or trees. Despite the promising performance, the explicit data structure necessitates a substantial amount of memory. In this work, we present a method to reduce the size without compromising the advantages of having additional data structures. In detail, we propose using the wavelet transform on grid-based neural fields. Grid-based neural fields are for fast convergence, and the wavelet transform, whose efficiency has been demonstrated in high-performance standard codecs, is to improve the parameter efficiency of grids. Furthermore, in order to achieve a higher sparsity of grid coefficients while maintaining reconstruction quality, we present a novel trainable masking approach. Experimental results demonstrate that non-spatial grid coefficients, such as wavelet coefficients, are capable of attaining a higher level of sparsity than spatial grid coefficients, resulting in a more compact representation. With our proposed mask and compression pipeline, we achieved state-of-the-art performance within a memory budget of 2 MB. Our code is available at https://github.com/daniel03c1/masked_wavelet_nerf.
翻訳日:2022-12-20 18:35:01 公開日:2022-12-18
# lr-csnet: 画像圧縮センシングのための低ランクディープアンフォールディングネットワーク

LR-CSNet: Low-Rank Deep Unfolding Network for Image Compressive Sensing ( http://arxiv.org/abs/2212.09088v1 )

ライセンス: Link先を確認
Tianfang Zhang, Lei Li, Christian Igel, Stefan Oehmcke, Fabian Gieseke, Zhenming Peng(参考訳) ディープ・アンフォールディング・ネットワーク(DUN)は、圧縮センシング(CS)に有効なアプローチであることが証明されている。 本研究では,自然画像CSのための低ランクCSネットワーク(LR-CSNet)を提案する。 実世界のイメージパッチは、しばしば低ランク近似によってよく表される。 LR-CSNetはCS最適化タスクの前に低ランクを追加することでこの特性を利用する。 変数分割を用いた反復最適化手順を導出し、それを新しいdunアーキテクチャに変換する。 このアーキテクチャでは、低ランク行列因数分解を学習する低ランク生成モジュール(LRGM)と、高周波数の特徴を抽出して画像の詳細を洗練するための勾配降下と近位写像(GDPM)を用いる。 さらに、DUNの各再構成段階で発生する深い特徴を段間に移動させて性能を高める。 広範に検討された3つのデータセットに対する広範な実験は、自然画像CSの最先端手法と比較して、LR-CSNetの有望な性能を示している。

Deep unfolding networks (DUNs) have proven to be a viable approach to compressive sensing (CS). In this work, we propose a DUN called low-rank CS network (LR-CSNet) for natural image CS. Real-world image patches are often well-represented by low-rank approximations. LR-CSNet exploits this property by adding a low-rank prior to the CS optimization task. We derive a corresponding iterative optimization procedure using variable splitting, which is then translated to a new DUN architecture. The architecture uses low-rank generation modules (LRGMs), which learn low-rank matrix factorizations, as well as gradient descent and proximal mappings (GDPMs), which are proposed to extract high-frequency features to refine image details. In addition, the deep features generated at each reconstruction stage in the DUN are transferred between stages to boost the performance. Our extensive experiments on three widely considered datasets demonstrate the promising performance of LR-CSNet compared to state-of-the-art methods in natural image CS.
翻訳日:2022-12-20 18:34:40 公開日:2022-12-18
# 教師なし画像-画像変換を用いた臨界熱フラックス検出のための一般化フレームワーク

A Generalized Framework for Critical Heat Flux Detection Using Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2212.09107v1 )

ライセンス: Link先を確認
Firas Al-Hindawi, Tejaswi Soorib, Han Hu, Md Siddiquee, Hyunsoo Yoon, Teresa Wu, Ying Sun(参考訳) 本研究では,Unsupervised Image-to-Image(UI2I)翻訳モデルを用いて,臨界熱フラックス(CHF)検出分類モデルを一般化するフレームワークを提案する。 このフレームワークは、ドメインAからの沸騰するイメージをトレーニングし、テストした典型的な分類モデルを可能にし、分類モデルでは見られない領域Bからの沸騰するイメージを予測する。 これは、UI2Iモデルを使用して、ドメインBのイメージをドメインAのイメージのように変換することで実現される。 CNNは分類モデルとして使われ、FP-GANはUI2Iモデルとして使用されたが、フレームワークはモデルに依存しない。 つまり、フレームワークは任意の画像分類モデルタイプを一般化することができ、沸騰危機検出問題に限らず、様々な類似のアプリケーションに適用することができる。 また、ui2iモデルが進歩するほど、フレームワークのパフォーマンスが向上することを意味する。

This work proposes a framework developed to generalize Critical Heat Flux (CHF) detection classification models using an Unsupervised Image-to-Image (UI2I) translation model. The framework enables a typical classification model that was trained and tested on boiling images from domain A to predict boiling images coming from domain B that was never seen by the classification model. This is done by using the UI2I model to transform the domain B images to look like domain A images that the classification model is familiar with. Although CNN was used as the classification model and Fixed-Point GAN (FP-GAN) was used as the UI2I model, the framework is model agnostic. Meaning, that the framework can generalize any image classification model type, making it applicable to a variety of similar applications and not limited to the boiling crisis detection problem. It also means that the more the UI2I models advance, the better the performance of the framework.
翻訳日:2022-12-20 18:34:24 公開日:2022-12-18
# コミュニティ質問応答プラットフォームにおける言語間のタスク選択

Task Preferences across Languages on Community Question Answering Platforms ( http://arxiv.org/abs/2212.09045v1 )

ライセンス: Link先を確認
Sebastin Santy, Prasanta Bhattacharya, Rishabh Mehrotra(参考訳) Quora、StackExchange、WikiHowといったコミュニティ質問応答(CQA)プラットフォームが着実に出現し、ユーザは様々な種類のクエリやタスクに関する情報に前例のないアクセス権を持つようになった。 さらに、地理的および言語的境界にまたがるこれらのプラットフォームの急速な普及とローカライゼーションは、異なる社会言語的グループにおけるユーザのタスク要求と好みを研究するユニークな機会を提供する。 本研究では,多言語およびタスク指向の質問応答ペアの大規模縦型データセット上で学習したエンティティ埋め込みモデルを実装し,その解明と定量化を行う。 (i)言語コミュニティにおける各種オンラインタスクの頻度と分布 (II)これらのコミュニティにおけるタスク人気の出現傾向と後退傾向 以上の結果から,プラットフォーム上の言語コミュニティ間の人気傾向と同様に,タスクの嗜好にかなりのばらつきがあることが判明した。 この研究から得られた発見は、Q&Aプラットフォームが非英語ユーザーのコンテンツをキュレートしパーソナライズし、オンラインの非英語コミュニティをターゲットとするビジネスに価値ある洞察を提供するのに役立つ。

With the steady emergence of community question answering (CQA) platforms like Quora, StackExchange, and WikiHow, users now have an unprecedented access to information on various kind of queries and tasks. Moreover, the rapid proliferation and localization of these platforms spanning geographic and linguistic boundaries offer a unique opportunity to study the task requirements and preferences of users in different socio-linguistic groups. In this study, we implement an entity-embedding model trained on a large longitudinal dataset of multi-lingual and task-oriented question-answer pairs to uncover and quantify the (i) prevalence and distribution of various online tasks across linguistic communities, and (ii) emerging and receding trends in task popularity over time in these communities. Our results show that there exists substantial variance in task preference as well as popularity trends across linguistic communities on the platform. Findings from this study will help Q&A platforms better curate and personalize content for non-English users, while also offering valuable insights to businesses looking to target non-English speaking communities online.
翻訳日:2022-12-20 18:25:05 公開日:2022-12-18
# 動的グラフを用いたシティ自転車需要の予測

Predicting Citi Bike Demand Evolution Using Dynamic Graphs ( http://arxiv.org/abs/2212.09175v1 )

ライセンス: Link先を確認
Alexander Saff, Mayur Bhandary, Siddharth Srivastava(参考訳) 自転車シェアリングシステムはしばしば、需要の変化によってキャパシティ管理の貧弱さに苦しむ。 これらの自転車共有システムは、各駅に格納されている自転車の数を減らすために需要を予測するモデルの恩恵を受けるだろう。 本稿では,ニューヨーク市のCiti Bikeデータセットにおける自転車需要予測にグラフニューラルネットワークモデルを適用しようとする。

Bike sharing systems often suffer from poor capacity management as a result of variable demand. These bike sharing systems would benefit from models to predict demand in order to moderate the number of bikes stored at each station. In this paper, we attempt to apply a graph neural network model to predict bike demand in the New York City, Citi Bike dataset.
翻訳日:2022-12-20 18:17:50 公開日:2022-12-18
# 計算力学に応用された深層学習 : 総合的レビュー,最先端技術,古典

Deep learning applied to computational mechanics: A comprehensive review, state of the art, and the classics ( http://arxiv.org/abs/2212.08989v1 )

ライセンス: Link先を確認
Loc Vu-Quoc and Alexander Humer(参考訳) ai in arts and scienceによる最近の3つのブレークスルーは、デジタルイメージ賞、タンパク質折り畳み、高速なマトリックス乗算のモチベーションとなっている。 人工知能、特に深層学習(DL)における最近の多くの発展は、計算力学(固体、流体、有限要素技術)に応用され、関連するものである。 ハイブリッドおよび純粋機械学習(ML)の手法について論じる。 ハイブリッド手法は,(1)複雑な非線形構成関係のモデル化を支援する,(2)効率的なシミュレーション(乱流)のためのモデル次数を非線形に減少させる,(3)従来の統合手法における特定の成分を予測してシミュレーションを高速化する,といった従来のpde離散化をml法と組み合わせる。 ここでは,(1)と(2)は長短記憶アーキテクチャ(LSTM)に依存し,(3)は畳み込みニューラルネットワークに依存する。 . PDEを解く純粋なML法は、不連続解に対処するための注意機構と組み合わせることができる物理情報ニューラルネットワーク(PINN)法で表される。 LSTMとアテンションアーキテクチャの両方が、DLネットワークの確率性を含む近代的で一般化された古典最適化とともに、広範囲にレビューされている。 ガウス過程を含むカーネルマシンは、無限幅の浅いネットワークのようなより高度な作品に十分な深さを提供する。 専門家に話しかけるだけでなく、読者は計算力学に精通しているが、その概念と応用は基礎から成り立っており、最初の学習者が研究の最前線に素早く到達することを目的としているDLとは無関係である。 AIの歴史と限界は、よく知られた参考文献でさえも、古典の誤解や誤解を指摘し、議論されている。 大変形可能なビームの位置決めとポインティング制御を例として挙げる。

Three recent breakthroughs due to AI in arts and science serve as motivation: An award winning digital image, protein folding, fast matrix multiplication. Many recent developments in artificial neural networks, particularly deep learning (DL), applied and relevant to computational mechanics (solid, fluids, finite-element technology) are reviewed in detail. Both hybrid and pure machine learning (ML) methods are discussed. Hybrid methods combine traditional PDE discretizations with ML methods either (1) to help model complex nonlinear constitutive relations, (2) to nonlinearly reduce the model order for efficient simulation (turbulence), or (3) to accelerate the simulation by predicting certain components in the traditional integration methods. Here, methods (1) and (2) relied on Long-Short-Term Memory (LSTM) architecture, with method (3) relying on convolutional neural networks.. Pure ML methods to solve (nonlinear) PDEs are represented by Physics-Informed Neural network (PINN) methods, which could be combined with attention mechanism to address discontinuous solutions. Both LSTM and attention architectures, together with modern and generalized classic optimizers to include stochasticity for DL networks, are extensively reviewed. Kernel machines, including Gaussian processes, are provided to sufficient depth for more advanced works such as shallow networks with infinite width. Not only addressing experts, readers are assumed familiar with computational mechanics, but not with DL, whose concepts and applications are built up from the basics, aiming at bringing first-time learners quickly to the forefront of research. History and limitations of AI are recounted and discussed, with particular attention at pointing out misstatements or misconceptions of the classics, even in well-known references. Positioning and pointing control of a large-deformable beam is given as an example.
翻訳日:2022-12-20 18:07:47 公開日:2022-12-18
# マルチインスタンス部分ラベル学習 : デュアル・インエクサクティヴ・スーパービジョンの展開に向けて

Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact Supervision ( http://arxiv.org/abs/2212.08997v1 )

ライセンス: Link先を確認
Wei Tang, Weijia Zhang, and Min-Ling Zhang(参考訳) 弱い教師付き機械学習アルゴリズムは、曖昧なサンプルやラベル、例えばマルチインスタンス学習や部分ラベル学習から学習することができる。 しかしながら、現実のタスクでは、各トレーニングサンプルは複数のインスタンスだけでなく、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。 具体的には、少なくとも1つのインスタンスは接頭辞ラベルに関連するが、偽陽性ラベルには属さない。 本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。 前者は候補ラベルセットを曖昧にせず、後者はマルチインスタンスバッグを扱えないため、既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはmipl問題を解決するのに最適である。 これらの問題に対処するために、MIPLGPというアルゴリズム、すなわちガウス過程を用いたマルチインスタンス部分ラベル学習を提案する。 MIPLGPはまず、各インスタンスに拡張ラベル空間に設定された候補ラベルを割り当て、次に候補ラベルを対数空間に変換して、排他的曖昧化戦略を介して曖昧で連続的なラベルを出力し、最後にガウス過程に基づくモデルを生成する。 各種データセットの実験結果から,MIPLGPはMIPL問題の解法として,確立されたマルチインスタンス学習や部分ラベル学習アルゴリズムよりも優れていることが示された。 私たちのコードとデータセットは公開される予定だ。

Weakly supervised machine learning algorithms are able to learn from ambiguous samples or labels, e.g., multi-instance learning or partial-label learning. However, in some real-world tasks, each training sample is associated with not only multiple instances but also a candidate label set that contains one ground-truth label and some false positive labels. Specifically, at least one instance pertains to the ground-truth label while no instance belongs to the false positive labels. In this paper, we formalize such problems as multi-instance partial-label learning (MIPL). Existing multi-instance learning algorithms and partial-label learning algorithms are suboptimal for solving MIPL problems since the former fail to disambiguate a candidate label set, and the latter cannot handle a multi-instance bag. To address these issues, a tailored algorithm named MIPLGP, i.e., Multi-Instance Partial-Label learning with Gaussian Processes, is proposed. MIPLGP first assigns each instance with a candidate label set in an augmented label space, then transforms the candidate label set into a logarithmic space to yield the disambiguated and continuous labels via an exclusive disambiguation strategy, and last induces a model based on the Gaussian processes. Experimental results on various datasets validate that MIPLGP is superior to well-established multi-instance learning and partial-label learning algorithms for solving MIPL problems. Our code and datasets will be made publicly available.
翻訳日:2022-12-20 18:07:13 公開日:2022-12-18
# グラフニューラルネットワークは本質的に優れた一般化器である:GNNとMPPのブリッジによる洞察

Graph Neural Networks are Inherently Good Generalizers: Insights by Bridging GNNs and MLPs ( http://arxiv.org/abs/2212.09034v1 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, Jiahua Wang, Junchi Yan(参考訳) グラフ上の表現学習のためのデファクトモデルクラスとして、グラフニューラルネットワーク(gnns)は、多層パーセプトロン(mlp)アーキテクチャ上に構築されており、ノードを横断する機能を可能にする追加のメッセージパッシング層を備えている。 従来の知恵は、ノードのエゴグラフ上で所望の関数を学習する上で、GNNの成功は高度な表現性に大きく寄与するが、ノード予測タスクにおけるGNNの優位性の主な原因は、これは「emph{not}」である。 本稿では,P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより,GNNの性能向上を本質的な一般化能力に向ける。 興味深いことに、PMLPは、性能の悪いMPPと同じ(訓練された)重みを共有しているにもかかわらず、10のベンチマークと異なる実験環境において、GNNと同等(あるいはそれ以上)に動作している。 この重要な発見は、gnnのパワーを理解するための全く新しい視点への扉を開き、gnnとmlpを橋渡しして一般化の振る舞いを解剖することを可能にする。 PMLPを解析するための最初のステップとして、トレーニング後のNTK特徴マップに、無限幅制限でのMPPとの本質的な違いを示す。 さらに、PMLPとPMLPは、極端なOODデータに対して非線形関数を外挿することはできないが、PMLPはトレーニングサポートの近傍でより一般化する自由がある。

Graph neural networks (GNNs), as the de-facto model class for representation learning on graphs, are built upon the multi-layer perceptrons (MLP) architecture with additional message passing layers to allow features to flow across nodes. While conventional wisdom largely attributes the success of GNNs to their advanced expressivity for learning desired functions on nodes' ego-graphs, we conjecture that this is \emph{not} the main cause of GNNs' superiority in node prediction tasks. This paper pinpoints the major source of GNNs' performance gain to their intrinsic generalization capabilities, by introducing an intermediate model class dubbed as P(ropagational)MLP, which is identical to standard MLP in training, and then adopt GNN's architecture in testing. Intriguingly, we observe that PMLPs consistently perform on par with (or even exceed) their GNN counterparts across ten benchmarks and different experimental settings, despite the fact that PMLPs share the same (trained) weights with poorly-performed MLP. This critical finding opens a door to a brand new perspective for understanding the power of GNNs, and allow bridging GNNs and MLPs for dissecting their generalization behaviors. As an initial step to analyze PMLP, we show its essential difference with MLP at infinite-width limit lies in the NTK feature map in the post-training stage. Moreover, though MLP and PMLP cannot extrapolate non-linear functions for extreme OOD data, PMLP has more freedom to generalize near the training support.
翻訳日:2022-12-20 18:06:47 公開日:2022-12-18
# 分散一般化のための不変学習と敵対的学習との関係について

On the Connection between Invariant Learning and Adversarial Training for Out-of-Distribution Generalization ( http://arxiv.org/abs/2212.09082v1 )

ライセンス: Link先を確認
Shiji Xin, Yifei Wang, Jingtong Su, Yisen Wang(参考訳) 多くのタスクで顕著な成功を収めたにもかかわらず、ディープラーニングモデルは急激な機能に依存しており、アウト・オブ・ディストリビューション(OOD)データに一般化されると壊滅的に失敗する。 不変リスク最小化(IRM)は、OOD一般化のためのドメイン不変特徴を抽出することによりこの問題を軽減するために提案される。 しかしながら、最近の研究は、IRMは特定の種類の分布シフト(例えば相関シフト)に対してのみ有効であるが、他のケース(例えば多様性シフト)では失敗することを示している。 一方、Adversarial Training (AT) という別の手法ではドメイン転送性能が向上しており、ドメイン不変の特徴を抽出する有効な候補となる可能性が示唆されている。 本稿では、IRMとATの目的との類似性を探る。 この関係に触発されて,ドメイン固有摂動による分布変化を緩和するat-inspired手法である domainwise adversarial training (dat) を提案する。 拡張実験により,提案したDATはドメイン変化の特徴を効果的に除去し,OODの一般化を相関シフトと多様性シフトの両方で改善できることが示された。

Despite impressive success in many tasks, deep learning models are shown to rely on spurious features, which will catastrophically fail when generalized to out-of-distribution (OOD) data. Invariant Risk Minimization (IRM) is proposed to alleviate this issue by extracting domain-invariant features for OOD generalization. Nevertheless, recent work shows that IRM is only effective for a certain type of distribution shift (e.g., correlation shift) while it fails for other cases (e.g., diversity shift). Meanwhile, another thread of method, Adversarial Training (AT), has shown better domain transfer performance, suggesting that it has the potential to be an effective candidate for extracting domain-invariant features. This paper investigates this possibility by exploring the similarity between the IRM and AT objectives. Inspired by this connection, we propose Domainwise Adversarial Training (DAT), an AT-inspired method for alleviating distribution shift by domain-specific perturbations. Extensive experiments show that our proposed DAT can effectively remove domain-varying features and improve OOD generalization under both correlation shift and diversity shift.
翻訳日:2022-12-20 18:06:18 公開日:2022-12-18
# エッジデバイスのための効率的な画像キャプション

Efficient Image Captioning for Edge Devices ( http://arxiv.org/abs/2212.08985v1 )

ライセンス: Link先を確認
Ning Wang, Jiangrong Xie, Hang Luo, Qinglin Cheng, Jihao Wu, Mingbo Jia, Linlin Li(参考訳) 近年、画像キャプションの急速な進歩が見られた。 しかし、大きなメモリストレージと重い計算負荷の要求は、これらのキャプションモデルがモバイルデバイスにデプロイされることを妨げている。 主な障害は、ヘビーウェイトな視覚特徴抽出器(オブジェクト検出器)と複雑なクロスモーダル融合ネットワークにある。 そこで本稿では,リソース制限型デバイス用の軽量画像キャプションであるlightcapを提案する。 コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。 具体的に言うと、我々はCLIPモデルを利用して、時間を要する物体検出器に頼ることなく、コンパクトグリッドの特徴を抽出する。 一方,新しい視覚概念抽出器とクロスモーダル変調器を考案することにより,CLIPの画像テキスト検索設計を画像キャプションシナリオに変換する。 さらに, 逐次およびアンサンブル蒸留による相互拡散モデルと並列予測ヘッドを最適化する。 注意深く設計されたアーキテクチャでは、モデルは単に40mのパラメータしか含んでおらず、モデルサイズを75%以上、フロップスを98%以上削減しています。 キャパシティが低いにもかかわらず、当社のモデルは、CoCO Karpathyテストのスプリットにおける136.6 CIDErなど、一般的なデータセット上での最先端のパフォーマンスを示している。 単一のcpuでスマートフォンでテストすると、提案されているlightcapは1イメージあたり188ミリ秒の高速推論速度を示し、実用的なアプリケーションの準備が整っている。

Recent years have witnessed the rapid progress of image captioning. However, the demands for large memory storage and heavy computational burden prevent these captioning models from being deployed on mobile devices. The main obstacles lie in the heavyweight visual feature extractors (i.e., object detectors) and complicated cross-modal fusion networks. To this end, we propose LightCap, a lightweight image captioner for resource-limited devices. The core design is built on the recent CLIP model for efficient image captioning. To be specific, on the one hand, we leverage the CLIP model to extract the compact grid features without relying on the time-consuming object detectors. On the other hand, we transfer the image-text retrieval design of CLIP to image captioning scenarios by devising a novel visual concept extractor and a cross-modal modulator. We further optimize the cross-modal fusion model and parallel prediction heads via sequential and ensemble distillations. With the carefully designed architecture, our model merely contains 40M parameters, saving the model size by more than 75% and the FLOPs by more than 98% in comparison with the current state-of-the-art methods. In spite of the low capacity, our model still exhibits state-of-the-art performance on prevalent datasets, e.g., 136.6 CIDEr on COCO Karpathy test split. Testing on the smartphone with only a single CPU, the proposed LightCap exhibits a fast inference speed of 188ms per image, which is ready for practical applications.
翻訳日:2022-12-20 17:33:51 公開日:2022-12-18
# smart face shield: コンピュータビジョンアルゴリズムを利用したセンサベースのウェアラブルフェイスシールド

Smart Face Shield: A Sensor-Based Wearable Face Shield Utilizing Computer Vision Algorithms ( http://arxiv.org/abs/2212.08996v1 )

ライセンス: Link先を確認
Manuel Luis C. Delos Santos (1), Ronaldo S. Tinio (2), Darwin B. Diaz (3) and Karlene Emily I. Tolosa (4), ((1)(3)(4) Asian Institute of Computer Studies, Philippines, (2) Pamantasan ng Lungsod ng Valezuela, Philippines)(参考訳) この研究は、コビッドウイルスの攻撃に対抗するウェアラブルデバイスの開発を目指している。 同様に、市場で利用可能な通常のフェイスシールドを強化する。 さらに、政府とその関連団体による、コンピュータビジョンアルゴリズムの統合によるソーシャルディスタンシングの実施における健康・安全プロトコルへの認識を高める。 このウェアラブルデバイスは、透明なポリカーボネートフェイスシールド、マイクロプロセッサ、センサー、カメラ、薄膜トランジスタオンスクリーンディスプレイ、ジャンパーワイヤ、パワーバンク、pythonプログラミング言語など、さまざまなハードウェアとソフトウェアコンポーネントで構成されていた。 この研究に組み込まれたアルゴリズムは、コンピュータビジョン機械学習による物体検出である。 OpenCV技術によるフロントカメラは、ユーザの前にある人の距離を決定する。 TensorFlowを使用することで、ターゲットオブジェクトはイメージやライブフィードを特定して検出し、バウンディングボックスを取得する。 焦点長レンズは、カメラから対象物までの距離を決定する必要がある。 焦点距離を得るために、ピクセル幅を既知の距離で乗算し、既知の幅で分割する(Rosebrock, 2020)。 単体テストのデプロイは、パラメータが設計と仕様の点で有効であることを保証する。

The study aims the development of a wearable device to combat the onslaught of covid-19. Likewise, to enhance the regular face shield available in the market. Furthermore, to raise awareness of the health and safety protocols initiated by the government and its affiliates in the enforcement of social distancing with the integration of computer vision algorithms. The wearable device was composed of various hardware and software components such as a transparent polycarbonate face shield, microprocessor, sensors, camera, thin-film transistor on-screen display, jumper wires, power bank, and python programming language. The algorithm incorporated in the study was object detection under computer vision machine learning. The front camera with OpenCV technology determines the distance of a person in front of the user. Utilizing TensorFlow, the target object identifies and detects the image or live feed to get its bounding boxes. The focal length lens requires the determination of the distance from the camera to the target object. To get the focal length, multiply the pixel width by the known distance and divide it by the known width (Rosebrock, 2020). The deployment of unit testing ensures that the parameters are valid in terms of design and specifications.
翻訳日:2022-12-20 17:33:29 公開日:2022-12-18
# ドローンとコンピュータビジョンを用いたFAST反射面の自動光学検査

Automated Optical Inspection of FAST's Reflector Surface using Drones and Computer Vision ( http://arxiv.org/abs/2212.09039v1 )

ライセンス: Link先を確認
Jianan Li, Shenwang Jiang, Liqiang Song, Peiran Peng, Feng Mu, Hui Li, Peng Jiang, Tingfa Xu(参考訳) FAST(5-hundred-meter Aperture Spherical Radio Telescope)は、世界最大の電波望遠鏡である。 その大きな反射面は、前例のない感度を達成するが、自然に落下する物体によって引き起こされるデントや穴などの損傷を受けやすい。 したがって、FASTの安定動作には、表面欠陥のタイムリーかつ正確な検出が不可欠である。 従来の手動検査では、人間の検査官が大きな表面を視覚的に登って検査する。 本研究は,FAST検査の高速化と精度向上を目的として,深層学習技術とドローン技術を統合することにより,FAST検査の自動化に向けた第一歩となる。 まず、ドローンは所定の経路に沿って表面を飛行する。 表面欠陥はスケールが大きく異なり、クラス間類似度が高いため、ドローン画像の欠陥を検出するために既存のディープ検出器を直接適用することは、欠陥の欠如と誤認を生じやすい。 深部検出器専用のプラグインであるクロスフュージョンを導入し,局所欠陥パターンに依存した多段階特徴の適応的融合を実現する。 その結果、様々なスケールや種類の欠陥の正確な検出を支援するために、強い意味論ときめ細かい詳細を異なる位置で動的に融合する。 当社のAIによるドローンによる自動検査は、時間効率が高く、信頼性が高く、アクセシビリティも良好です。

The Five-hundred-meter Aperture Spherical radio Telescope (FAST) is the world's largest single-dish radio telescope. Its large reflecting surface achieves unprecedented sensitivity but is prone to damage, such as dents and holes, caused by naturally-occurring falling objects. Hence, the timely and accurate detection of surface defects is crucial for FAST's stable operation. Conventional manual inspection involves human inspectors climbing up and examining the large surface visually, a time-consuming and potentially unreliable process. To accelerate the inspection process and increase its accuracy, this work makes the first step towards automating the inspection of FAST by integrating deep-learning techniques with drone technology. First, a drone flies over the surface along a predetermined route. Since surface defects significantly vary in scale and show high inter-class similarity, directly applying existing deep detectors to detect defects on the drone imagery is highly prone to missing and misidentifying defects. As a remedy, we introduce cross-fusion, a dedicated plug-in operation for deep detectors that enables the adaptive fusion of multi-level features in a point-wise selective fashion, depending on local defect patterns. Consequently, strong semantics and fine-grained details are dynamically fused at different positions to support the accurate detection of defects of various scales and types. Our AI-powered drone-based automated inspection is time-efficient, reliable, and has good accessibility, which guarantees the long-term and stable operation of FAST.
翻訳日:2022-12-20 17:33:12 公開日:2022-12-18
# 3次元人体形状推論を用いた歩行認識

Gait Recognition Using 3-D Human Body Shape Inference ( http://arxiv.org/abs/2212.09042v1 )

ライセンス: Link先を確認
Haidong Zhu, Zhaoheng Zheng, Ram Nevatia(参考訳) 歩行のパターンに基づいて個人を識別する歩行認識は、遠くから観察でき、被験者の協力を必要としないため、重要な生体計測技術である。 人物の歩行を認識することは、人間のシルエット配列の外観変異が、様々な角度、物体、衣服によって生成されるため困難である。 最近の研究は、これらの変種に対処する多くの方法を生み出している。 本稿では,制限画像から蒸留した3次元物体形状を推定する手法について述べる。 3次元形状の推測は、特にデータセットにシルエットのみを提供する場合、難しい作業である。 RGB画像から3次元形状から知識を伝達することで,シルエットから3次元身体推論を学習する方法を提供する。 本手法は,既存の複数の歩容ベースラインで使用し,トレーニング中に見られない新たなビューセットを含む,いくつかの変種と設定において,casia-b と oumvlp という2つの公開データセット上での歩容識別を一貫して改善する。

Gait recognition, which identifies individuals based on their walking patterns, is an important biometric technique since it can be observed from a distance and does not require the subject's cooperation. Recognizing a person's gait is difficult because of the appearance variants in human silhouette sequences produced by varying viewing angles, carrying objects, and clothing. Recent research has produced a number of ways for coping with these variants. In this paper, we present the usage of inferring 3-D body shapes distilled from limited images, which are, in principle, invariant to the specified variants. Inference of 3-D shape is a difficult task, especially when only silhouettes are provided in a dataset. We provide a method for learning 3-D body inference from silhouettes by transferring knowledge from 3-D shape prior from RGB photos. We use our method on multiple existing state-of-the-art gait baselines and obtain consistent improvements for gait identification on two public datasets, CASIA-B and OUMVLP, on several variants and settings, including a new setting of novel views not seen during training.
翻訳日:2022-12-20 17:32:47 公開日:2022-12-18
# スタイル幻覚付きデュアル一貫性学習:ビジュアルドメイン一般化のための統一フレームワーク

Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization ( http://arxiv.org/abs/2212.09068v1 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Na Zhao, Nicu Sebe, Gim Hee Lee(参考訳) ドメインシフトは視覚的に広く存在するが、現代のディープニューラルネットワークは、現実の応用を制限する一般化能力の貧弱さにより、ドメインシフトの下で深刻なパフォーマンス劣化に悩まされることが多い。 ドメインシフトは主に、限られたソース環境の変化と、ソースと見えないターゲットデータの間の大きな分散ギャップにある。 そこで本研究では,様々な視覚的タスクにおいて,このようなドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning(SHADE)を提案する。 具体的には、SHADEはStyle Consistency(SC)とRetrospection Consistency(RC)という2つの一貫性の制約に基づいて構築される。 SCはソースの状況を強化し、スタイルの異なるサンプル間で一貫性のある表現を学ぶようモデルに促す。 rcは一般的な視覚的知識を活用して、モデルがソースデータに過度に適合することを防止するため、ソースモデルと一般的なビジュアルモデル間の表現の一貫性を保ちます。 さらに,一貫した学習に欠かせないスタイル多様性サンプルを生成する新しいスタイル幻覚モジュール(SHM)を提案する。 SHMはソース分布からベーススタイルを選択し、トレーニング中に多様なリアルなサンプルを動的に生成できる。 広範な実験により,画像分類や意味セグメンテーション,オブジェクト検出など,様々な視覚認識タスクの一般化が,コンベネットやトランスフォーマといった異なるモデルにより著しく向上することが示された。

Domain shift widely exists in the visual world, while modern deep neural networks commonly suffer from severe performance degradation under domain shift due to the poor generalization ability, which limits the real-world applications. The domain shift mainly lies in the limited source environmental variations and the large distribution gap between source and unseen target data. To this end, we propose a unified framework, Style-HAllucinated Dual consistEncy learning (SHADE), to handle such domain shift in various visual tasks. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages general visual knowledge to prevent the model from overfitting to source data and thus largely keeps the representation consistent between the source and general visual models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Extensive experiments demonstrate that our versatile SHADE can significantly enhance the generalization in various visual recognition tasks, including image classification, semantic segmentation and object detection, with different models, i.e., ConvNets and Transformer.
翻訳日:2022-12-20 17:32:28 公開日:2022-12-18
# Mask-FPAN:非閉塞とUV GANで野生の半監督された顔解析

Mask-FPAN: Semi-Supervised Face Parsing in the Wild With De-Occlusion and UV GAN ( http://arxiv.org/abs/2212.09098v1 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Stefan Oehmcke, Fabian Gieseke, and Christian Igel(参考訳) 近年,顔部分や頭部成分を含む顔と頭部の微細なセマンティックセグメンテーションが進んでいる。 しかし、あいまいなオクルージョンや大きなポーズのバリエーションを考慮することは特に難しい課題である。 これらの課題を克服するため,我々はMask-FPANと呼ばれる新しいフレームワークを提案する。 隠蔽モジュールを使って、隠蔽された顔を半教師付きの方法で解析する。 特に、顔のランドマークの定位、顔のオクルージョンの定位、検出された頭部のポーズを考慮に入れる。 UV GANと組み合わせた3次元顔モデルにより、2次元顔解析の堅牢性が向上する。 さらに、顔解析作業用にFaceOccMask-HQとCelebAMaskOcc-HQという2つの新しいデータセットを導入しました。 提案したMask-FPANフレームワークは、顔解析の問題に対処し、挑戦的な顔データセットに関する最先端技術と比較して、MIOUを0.7353から0.9013に改善した。

Fine-grained semantic segmentation of a person's face and head, including facial parts and head components, has progressed a great deal in recent years. However, it remains a challenging task, whereby considering ambiguous occlusions and large pose variations are particularly difficult. To overcome these difficulties, we propose a novel framework termed Mask-FPAN. It uses a de-occlusion module that learns to parse occluded faces in a semi-supervised way. In particular, face landmark localization, face occlusionstimations, and detected head poses are taken into account. A 3D morphable face model combined with the UV GAN improves the robustness of 2D face parsing. In addition, we introduce two new datasets named FaceOccMask-HQ and CelebAMaskOcc-HQ for face paring work. The proposed Mask-FPAN framework addresses the face parsing problem in the wild and shows significant performance improvements with MIOU from 0.7353 to 0.9013 compared to the state-of-the-art on challenging face datasets.
翻訳日:2022-12-20 17:31:59 公開日:2022-12-18
# SUCRe:水中色復元のためのレバレッジなシーン構造

SUCRe: Leveraging Scene Structure for Underwater Color Restoration ( http://arxiv.org/abs/2212.09129v1 )

ライセンス: Link先を確認
Cl\'ementin Boittiaux, Ricard Marxer, Claire Dune, Aur\'elien Arnaubec, Maxime Ferrera, Vincent Hugel(参考訳) 光センサに到達する前に光が通過する媒体の物理的特性によって水中画像が変化する。 散乱と波長依存性の強い吸収により、観測された元素と画像平面の距離によって撮影された色が大きく変化する。 本研究では,水が無影響であるかのようにシーンの原色を復元することを目的としている。 異なる入力集合に依存する2つの新しい手法を提案する。 まず、復元された画像のピクセル強度は、通常各カラーチャネル内で分散され、単一の画像とその距離マップに作用するよく知られた \textit{sea-thru} メソッドの代替最適化につながると仮定する。 また,シーンの3D構造を利用した水中色復元手法であるSUCReについても紹介する。 複数の画像の点を追従し、センサと異なる距離でその強度を追跡することで、画像形成モデルパラメータの最適化を制約する。 類似のアプローチと比較すると、SUCReは自然光から深海環境まで、さまざまなシナリオにおいて明確な改善を提供する。 両方のアプローチのコードはhttps://github.com/clementinboittiaux/sucreで公開されている。

Underwater images are altered by the physical characteristics of the medium through which light rays pass before reaching the optical sensor. Scattering and strong wavelength-dependent absorption significantly modify the captured colors depending on the distance of observed elements to the image plane. In this paper, we aim to recover the original colors of the scene as if the water had no effect on them. We propose two novel methods that rely on different sets of inputs. The first assumes that pixel intensities in the restored image are normally distributed within each color channel, leading to an alternative optimization of the well-known \textit{Sea-thru} method which acts on single images and their distance maps. We additionally introduce SUCRe, a new method that further exploits the scene's 3D Structure for Underwater Color Restoration. By following points in multiple images and tracking their intensities at different distances to the sensor we constrain the optimization of the image formation model parameters. When compared to similar existing approaches, SUCRe provides clear improvements in a variety of scenarios ranging from natural light to deep-sea environments. The code for both approaches is publicly available at https://github.com/clementinboittiaux/sucre .
翻訳日:2022-12-20 17:31:40 公開日:2022-12-18
# バングラデシュにおける交通画像からの車両検出のためのYOLOアーキテクチャの性能解析

Performance Analysis of YOLO-based Architectures for Vehicle Detection from Traffic Images in Bangladesh ( http://arxiv.org/abs/2212.09144v1 )

ライセンス: Link先を確認
Refaat Mohammad Alamgir, Ali Abir Shuvro, Mueeze Al Mushabbir, Mohammed Ashfaq Raiyan, Nusrat Jahan Rani, Md. Mushfiqur Rahman, Md. Hasanul Kabir, and Sabbir Ahmed(参考訳) 様々な種類の車両を特定・分類するタスクは、交通監視から車両識別に至るまで、多数の自動化およびインテリジェントシステムの応用において重要な要素となっている。 近年、ディープ・ラーニング・モデルは車両検出の分野を支配している。 しかし、バングラデシュの車両検出はいまだに未調査地域である。 車両検出の主な目標のひとつは,‘you only look once’(yolo)モデルが最も効果的なアーキテクチャであることが証明された,リアルタイムアプリケーションである。 本研究は,バングラデシュの交通画像から高速かつ正確な車両検出を行うために,最も適したYOLOアーキテクチャを見つけることを目的として,YOLOV3, YOLOV5s, YOLOV5xなどのYOLOベースのアーキテクチャの様々なバリエーションの性能解析を行った。 モデルでは,dhakaaiデータセット,poribohon-bdデータセット,および自己収集した画像を含む21種類の車両の7390画像を含むデータセットを訓練した。 徹底的な定量的および定性的分析の結果, YOLOV5x は YOLOv3 と YOLOv5s のモデルよりも, それぞれ 7 と 4% の mAP と 12 と 8.5% の精度で, 最適なモデルであることが判明した。

The task of locating and classifying different types of vehicles has become a vital element in numerous applications of automation and intelligent systems ranging from traffic surveillance to vehicle identification and many more. In recent times, Deep Learning models have been dominating the field of vehicle detection. Yet, Bangladeshi vehicle detection has remained a relatively unexplored area. One of the main goals of vehicle detection is its real-time application, where `You Only Look Once' (YOLO) models have proven to be the most effective architecture. In this work, intending to find the best-suited YOLO architecture for fast and accurate vehicle detection from traffic images in Bangladesh, we have conducted a performance analysis of different variants of the YOLO-based architectures such as YOLOV3, YOLOV5s, and YOLOV5x. The models were trained on a dataset containing 7390 images belonging to 21 types of vehicles comprising samples from the DhakaAI dataset, the Poribohon-BD dataset, and our self-collected images. After thorough quantitative and qualitative analysis, we found the YOLOV5x variant to be the best-suited model, performing better than YOLOv3 and YOLOv5s models respectively by 7 & 4 percent in mAP, and 12 & 8.5 percent in terms of Accuracy.
翻訳日:2022-12-20 17:31:24 公開日:2022-12-18
# 教師なし水中画像強調のための深層学習における適応的不確かさ分布

Adaptive Uncertainty Distribution in Deep Learning for Unsupervised Underwater Image Enhancement ( http://arxiv.org/abs/2212.08983v1 )

ライセンス: Link先を確認
Alzayat Saleh, Marcus Sheaves, Dean Jerry, and Mostafa Rahimi Azghadi(参考訳) ディープラーニングベースの水中画像強化における大きな課題の1つは、高品質なトレーニングデータの可用性の制限である。 水中の画像は撮影が困難であり、水中の色やコントラストの歪みや損失のため品質が悪いことが多い。 これにより、大規模で多様なデータセット上で教師付きディープラーニングモデルをトレーニングすることが難しくなり、モデルのパフォーマンスが制限される。 本稿では, 監視水中画像強調のための代替手法について検討する。 具体的には,条件付き変分オートエンコーダ(cvae)を用いて,確率的適応インスタンス正規化(padain)による深層学習モデルと,実写的な水中画像を生成する統計的誘導型マルチカラー空間拡張モデルを提案する。 その結果得られたフレームワークは,UDnetと呼ばれる不確実性を符号化する機能抽出器としてU-NetとPAdaINから構成される。 UDnetによって生成された画像の視覚的品質を改善するために,入力画像との視覚的整合性を確保し,地上の真理画像を用いたトレーニングの代替となる,統計的にガイドされたマルチカラー空間ストレッチモジュールを使用する。 提案モデルでは人手によるアノテーションを必要とせず、限られた量のデータで学習し、水中画像の最先端結果が得られる。 提案フレームワークを8つのデータセット上で評価した。 その結果,提案フレームワークは質的指標と同様に定量的に評価される他の最先端手法と比較して,競争性能が向上することが示された。 コードはhttps://github.com/alzayats/udnet。

One of the main challenges in deep learning-based underwater image enhancement is the limited availability of high-quality training data. Underwater images are difficult to capture and are often of poor quality due to the distortion and loss of colour and contrast in water. This makes it difficult to train supervised deep learning models on large and diverse datasets, which can limit the model's performance. In this paper, we explore an alternative approach to supervised underwater image enhancement. Specifically, we propose a novel unsupervised underwater image enhancement framework that employs a conditional variational autoencoder (cVAE) to train a deep learning model with probabilistic adaptive instance normalization (PAdaIN) and statistically guided multi-colour space stretch that produces realistic underwater images. The resulting framework is composed of a U-Net as a feature extractor and a PAdaIN to encode the uncertainty, which we call UDnet. To improve the visual quality of the images generated by UDnet, we use a statistically guided multi-colour space stretch module that ensures visual consistency with the input image and provides an alternative to training using a ground truth image. The proposed model does not need manual human annotation and can learn with a limited amount of data and achieves state-of-the-art results on underwater images. We evaluated our proposed framework on eight publicly-available datasets. The results show that our proposed framework yields competitive performance compared to other state-of-the-art approaches in quantitative as well as qualitative metrics. Code available at https://github.com/alzayats/UDnet .
翻訳日:2022-12-20 17:22:07 公開日:2022-12-18
# 並列マシンスケジューリングにおけるレキシカルマインスパン最適化のためのアンサーセットプログラミング

Answer-Set Programming for Lexicographical Makespan Optimisation in Parallel Machine Scheduling ( http://arxiv.org/abs/2212.09077v1 )

ライセンス: Link先を確認
Thomas Eiter, Tobias Geibinger, Nysret Musliu, Johannes Oetsch, Peter Skocovsky, Daria Stepanova(参考訳) 我々は, 半導体ワークショップ生産の実世界の応用から, シーケンス依存のセットアップ時間とリリース日を持つ並列マシンのスケジューリング問題に対処する。 そこでは、ジョブは専用のマシンでしか処理できないため、残りのマシンでどのようにジョブがスケジュールされているかに関わらず、マシンがメイスパンを決定することはほとんどない。 これはマシンが故障し、ジョブが再スケジュールされる必要がある場合に問題を引き起こす。 メースパンだけを最適化する代わりに、個々のマシンを非許容順序に分割し、結果として生じるタプルを語彙的に最小化する。 これにより、すべてのマシンが可能な限り早く完成し、スケジュールの堅牢性が向上する。 本稿では,この問題に対する解答集合プログラミング(asp)の応用について検討する。 aspはモデリングを容易にするが、タイミング制約と考慮対象関数の組み合わせは、現在の解決技術に挑戦する。 前者の問題は、差分ロジックによるASPの拡張によって解決される。 後者では、マルチショット解決を用いた異なるアルゴリズムを考案する。 産業規模の事例に取り組むため、異なる近似とヒューリスティックスを研究した。 実験の結果,ASPは実際にこの問題に対して有望なKRRパラダイムであり,最先端のCPおよびMIPソルバと競合していることがわかった。 論理プログラミングの理論と実践(tplp)における考察。

We deal with a challenging scheduling problem on parallel machines with sequence-dependent setup times and release dates from a real-world application of semiconductor work-shop production. There, jobs can only be processed by dedicated machines, thus few machines can determine the makespan almost regardless of how jobs are scheduled on the remaining ones. This causes problems when machines fail and jobs need to be rescheduled. Instead of optimising only the makespan, we put the individual machine spans in non-ascending order and lexicographically minimise the resulting tuples. This achieves that all machines complete as early as possible and increases the robustness of the schedule. We study the application of Answer-Set Programming (ASP) to solve this problem. While ASP eases modelling, the combination of timing constraints and the considered objective function challenges current solving technology. The former issue is addressed by using an extension of ASP by difference logic. For the latter, we devise different algorithms that use multi-shot solving. To tackle industrial-sized instances, we study different approximations and heuristics. Our experimental results show that ASP is indeed a promising KRR paradigm for this problem and is competitive with state-of-the-art CP and MIP solvers. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-12-20 17:16:08 公開日:2022-12-18
# エージェント間のモデルフリースキル伝達のためのターゲットの即時ランドマーク計画

Planning Immediate Landmarks of Targets for Model-Free Skill Transfer across Agents ( http://arxiv.org/abs/2212.09033v1 )

ライセンス: Link先を確認
Minghuan Liu, Zhengbang Zhu, Menghui Zhu, Yuzheng Zhuang, Weinan Zhang, Jianye Hao(参考訳) ロボティクスのような強化学習アプリケーションでは、エージェントは通常、開発者や物理的制約によって異なる状態/アクション空間で指定された場合、さまざまな入出力機能を扱う必要がある。 これは、スクラッチからの不要な再訓練とかなりのサンプル非効率、特にエージェントがタスクを達成するための同様のソリューションステップに従う場合である。 本稿では,類似のハイレベルな目標移行知識を伝達し,課題を軽減することを目的とする。 具体的には、PILoT、即時ターゲットのランドマーク計画を提案する。 PILoTは、共通の分離されたポリシー最適化を利用して、ゴール条件付き状態プランナーを学習し、それからゴールプランナーを蒸留して、異なるエージェント間で共有可能なモデルフリースタイルで即時ランドマークを計画する。 実験では,単純なロボットから複雑な形態まで,アクション空間やダイナミクスを横断する少数ショット移動,画像入力など,様々なトランスファー課題に対するパイロットの力を示すとともに,単純な2dナビゲーションタスクからより難しいant-mazeタスクへのゼロショット転送ソリューションを例示する。

In reinforcement learning applications like robotics, agents usually need to deal with various input/output features when specified with different state/action spaces by their developers or physical restrictions. This indicates unnecessary re-training from scratch and considerable sample inefficiency, especially when agents follow similar solution steps to achieve tasks. In this paper, we aim to transfer similar high-level goal-transition knowledge to alleviate the challenge. Specifically, we propose PILoT, i.e., Planning Immediate Landmarks of Targets. PILoT utilizes the universal decoupled policy optimization to learn a goal-conditioned state planner; then, distills a goal-planner to plan immediate landmarks in a model-free style that can be shared among different agents. In our experiments, we show the power of PILoT on various transferring challenges, including few-shot transferring across action spaces and dynamics, from low-dimensional vector states to image inputs, from simple robot to complicated morphology; and we also illustrate a zero-shot transfer solution from a simple 2D navigation task to the harder Ant-Maze task.
翻訳日:2022-12-20 17:04:07 公開日:2022-12-18
# 軽度文脈感性文法を用いた教師なし不連続成分解析

Unsupervised Discontinuous Constituency Parsing with Mildly Context-Sensitive Grammars ( http://arxiv.org/abs/2212.09140v1 )

ライセンス: Link先を確認
Songlin Yang, Roger P. Levy, Yoon Kim(参考訳) 非教師なし不連続解析のための軽度文脈感応文法を用いた文法帰納法について検討した。 確率的線形文脈自由書き換えシステム (lcfrs) 形式を用いて, 規則構造を事前に修正し, 最大確率でパラメータ学習に焦点をあてた。 解析とパラメータ推定の両方の計算の複雑さを減らすため、文法形式を lcfrs-2 に制限し、さらに解析に o(n^6) 時間を要するルールを破棄し、o(n^5) への推論を減少させる。 多数の非終端数を用いることは有用であり、したがってテンソル分解に基づく階数空間動的プログラミングと、非終端数のスケールアップにルール確率の埋め込みに基づくパラメータ化を用いる。 ドイツ語とオランダ語の実験により,我々のアプローチは連続的かつ不連続な構造を持つ言語的に有意義な木を誘導できることを示した。

We study grammar induction with mildly context-sensitive grammars for unsupervised discontinuous parsing. Using the probabilistic linear context-free rewriting system (LCFRS) formalism, our approach fixes the rule structure in advance and focuses on parameter learning with maximum likelihood. To reduce the computational complexity of both parsing and parameter estimation, we restrict the grammar formalism to LCFRS-2 (i.e., binary LCFRS with fan-out two) and further discard rules that require O(n^6) time to parse, reducing inference to O(n^5). We find that using a large number of nonterminals is beneficial and thus make use of tensor decomposition-based rank-space dynamic programming with an embedding-based parameterization of rule probabilities to scale up the number of nonterminals. Experiments on German and Dutch show that our approach is able to induce linguistically meaningful trees with continuous and discontinuous structures
翻訳日:2022-12-20 16:31:29 公開日:2022-12-18
# Retriever-Augmented Language Modelsは理にかなっているか? レトリバーと言語モデルの間の非難ゲーム

Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model ( http://arxiv.org/abs/2212.09146v1 )

ライセンス: Link先を確認
Parishad BehnamGhader, Santiago Miret, Siva Reddy(参考訳) 大規模事前学習モデルの出現により、言語モデルは従来の静的単語表現法と比較して、言語モデリングや質問応答を含む共通のNLPタスクにおいて優れた性能を達成できるようになった。 これらのモデルに関連するテキストや文書を情報として取り出すレトリバーを追加することで、モデルのパラメータにキャプチャされるのではなく、追加の知識が明示的に注入されるので、nlp問題をより解釈しやすい方法で効果的に解決できることが示されている。 近年の進展にもかかわらず、検索言語モデルの解析により、この言語モデルには検索した文書に対する推論の欠如が示されている。 本稿では,REALM,kNN-LM,FiD,ATLAS,Flan-T5などの検索言語モデルの長所と短所を,異なるタスクで選択した文書を推論して検討する。 特に,これらのモデルの推論失敗を分析し,推論におけるモデルの障害がレトリバーモジュールや言語モデルにどのように根ざしているかを考察する。

The emergence of large pretrained models has enabled language models to achieve superior performance in common NLP tasks, including language modeling and question answering, compared to previous static word representation methods. Augmenting these models with a retriever to retrieve the related text and documents as supporting information has shown promise in effectively solving NLP problems in a more interpretable way given that the additional knowledge is injected explicitly rather than being captured in the models' parameters. In spite of the recent progress, our analysis on retriever-augmented language models shows that this class of language models still lack reasoning over the retrieved documents. In this paper, we study the strengths and weaknesses of different retriever-augmented language models such as REALM, kNN-LM, FiD, ATLAS, and Flan-T5 in reasoning over the selected documents in different tasks. In particular, we analyze the reasoning failures of each of these models and study how the models' failures in reasoning are rooted in the retriever module as well as the language model.
翻訳日:2022-12-20 16:31:10 公開日:2022-12-18
# rainproof: テキストジェネレータを分散データから保護する傘

Rainproof: An Umbrella To Shield Text Generators From Out-Of-Distribution Data ( http://arxiv.org/abs/2212.09171v1 )

ライセンス: Link先を確認
Maxime Darrin, Pablo Piantanida, Pierre Colombo(参考訳) より多くの対話型翻訳システムが本番環境に配備されるにつれて、適切な機能とセキュリティを保証する効果的な制御機構の実装と開発が不可欠である。 安全なシステム動作を保証するための重要なコンポーネントは、トレーニング分布から統計的に遠いサンプルを検出することを目的とした、アウト・オブ・ディストリビューション(OOD)検出である。 OOD検出は分類タスクにおいて広く取り上げられているトピックであるが、テキスト生成においてはるかに注目を集めていない。 本稿では,機械翻訳とダイアログ生成におけるOOD検出の問題について,運用の観点から考察する。 私たちの貢献には i)Relative informAItioN Projection ODD 検出フレームワークであるRAINPROOF (II)OOD検出のためのより運用的な評価設定。 意外なことに、OOD検出は必ずしもタスク固有の尺度と一致していない。 OOD検出器は、モデルによって適切に処理されたサンプルをフィルタリングし、そうでないサンプルを保持することで、パフォーマンスが低下する可能性がある。 以上の結果から,RNPROOFはこの呪いを破り,OOD検出に優れた結果が得られ,性能が向上した。

As more and more conversational and translation systems are deployed in production, it is essential to implement and to develop effective control mechanisms guaranteeing their proper functioning and security. An essential component to ensure safe system behavior is out-of-distribution (OOD) detection, which aims at detecting whether an input sample is statistically far from the training distribution. Although OOD detection is a widely covered topic in classification tasks, it has received much less attention in text generation. This paper addresses the problem of OOD detection for machine translation and dialog generation from an operational perspective. Our contributions include: (i) RAINPROOF a Relative informAItioN Projection ODD detection framework; and (ii) a more operational evaluation setting for OOD detection. Surprisingly, we find that OOD detection is not necessarily aligned with task-specific measures. The OOD detector may filter out samples that are well processed by the model and keep samples that are not, leading to weaker performance. Our results show that RAINPROOF breaks this curse and achieve good results in OOD detection while increasing performance.
翻訳日:2022-12-20 16:30:51 公開日:2022-12-18
# abcを忘れるな:チャット指向対話システムにおける最先端の評価

Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems ( http://arxiv.org/abs/2212.09180v1 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, and Jinho D. Choi(参考訳) 近年、人間とコンピュータのチャットが進歩している。 しかし、現在の適切な評価には、本質的な主観性から高い分散度を生じる悪名高い人間の判断が必要である。 さらに,評価に使用する手法やラベルにはほとんど標準化がなく,様々な評価手法の有効性を比較し評価する作業が全般的に不足している。 その結果、既存の評価結果は、オープンドメインチャットボットの長所と短所を不完全なままにしている可能性が高い。 我々は,チャット品質の異なる複数の側面を確実に測定できるヒューマンコンピュータチャットの次元評価を目指している。 そこで本研究では,複数の品質関連チャットボットの動作を定量化する新しい評価手法を提案する。 本手法は,likert方式や比較手法よりも,次元的チャット評価に適していることを示す。 検証済みの方法と既存の方法を用いて、最近の文献から4つのオープンドメインチャットモデルを評価する。

There has been great recent advancement in human-computer chat. However, proper evaluation currently requires human judgements that produce notoriously high-variance metrics due to their inherent subjectivity. Furthermore, there is little standardization in the methods and labels used for evaluation, with an overall lack of work to compare and assess the validity of various evaluation approaches. As a consequence, existing evaluation results likely leave an incomplete picture of the strengths and weaknesses of open-domain chatbots. We aim towards a dimensional evaluation of human-computer chat that can reliably measure several distinct aspects of chat quality. To this end, we present our novel human evaluation method that quantifies the rate of several quality-related chatbot behaviors. Our results demonstrate our method to be more suitable for dimensional chat evaluation than alternative likert-style or comparative methods. We then use our validated method and existing methods to evaluate four open-domain chat models from the recent literature.
翻訳日:2022-12-20 16:30:34 公開日:2022-12-18
# poe: 汎用的な対話評価のための専門家パネル

PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment ( http://arxiv.org/abs/2212.08992v1 )

ライセンス: Link先を確認
Chen Zhang, Luis Fernando D'Haro, Qiquan Zhang, Thomas Friedrichs, Haizhou Li(参考訳) チャットボットは、日々のチャット、情報の交換、感情的な状況における接地など、複数のドメインにまたがる知識が期待できる。 このような対話エージェントの品質を効果的に測定するために、モデルベース自動対話評価基準(ADEM)が複数のドメインにわたって良好に機能することが期待される。 大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。 これはドメインの一般化のための専用のネットワークアーキテクチャを要求する。 本稿では,マルチドメイン対話評価タスクに取り組むために,共有トランスコーダと軽量アダプタの集合からなるマルチタスクネットワークである専門家パネル(poe)を提案する。 共有エンコーダはドメイン間の対話の一般的な知識をキャプチャし、各アダプタは特定のドメインを専門とし、ドメインの専門家として機能する。 このアイデアを検証するために,データ拡張と擬似ラベルを用いた高品質なマルチドメイン対話データセットを構築した。 PoEネットワークは、幅広い対話ドメインにまたがる16の対話評価データセットに対して包括的に評価される。 すべての評価データセットに対する平均スピアマン相関で最先端のパフォーマンスを達成する。 既存の最先端ADEMよりもゼロショットの一般化が優れており、ほとんどショット転送学習で新しいドメインに容易に適応できる。

Chatbots are expected to be knowledgeable across multiple domains, e.g. for daily chit-chat, exchange of information, and grounding in emotional situations. To effectively measure the quality of such conversational agents, a model-based automatic dialogue evaluation metric (ADEM) is expected to perform well across multiple domains. Despite significant progress, an ADEM that works well in one domain does not necessarily generalize to another. This calls for a dedicated network architecture for domain generalization. To tackle the multi-domain dialogue evaluation task, we propose a Panel of Experts (PoE), a multitask network that consists of a shared transformer encoder and a collection of lightweight adapters. The shared encoder captures the general knowledge of dialogues across domains, while each adapter specializes in one specific domain and serves as a domain expert. To validate the idea, we construct a high-quality multi-domain dialogue dataset leveraging data augmentation and pseudo-labeling. The PoE network is comprehensively assessed on 16 dialogue evaluation datasets spanning a wide range of dialogue domains. It achieves state-of-the-art performance in terms of mean Spearman correlation over all the evaluation datasets. It exhibits better zero-shot generalization than existing state-of-the-art ADEMs and the ability to easily adapt to new domains with few-shot transfer learning.
翻訳日:2022-12-20 16:21:48 公開日:2022-12-18
# 英語学習者のための文レベルのフィードバック生成:データ拡張は役立つか?

Sentence-level Feedback Generation for English Language Learners: Does Data Augmentation Help? ( http://arxiv.org/abs/2212.08999v1 )

ライセンス: Link先を確認
Shabnam Behzad, Amir Zeldes, Nathan Schneider(参考訳) 本稿では,書字学習におけるフィードバックコメント生成の課題に対して,強いベースラインを提示する。 文とエラーが広がると、そのタスクはエラーを説明するフィードバックコメントを生成する。 文とフィードバックのコメントは両方とも英語です。 LLMを実験し、タスクのための複数の擬似データセットを作成し、それがシステムの性能に与える影響について検討する。 本研究は,英語学習者に対するフィードバックコメント生成における今後の研究を支援することを目的として,生成したコメントの広範囲な分析とともに,課題に対する評価結果を示す。

In this paper, we present strong baselines for the task of Feedback Comment Generation for Writing Learning. Given a sentence and an error span, the task is to generate a feedback comment explaining the error. Sentences and feedback comments are both in English. We experiment with LLMs and also create multiple pseudo datasets for the task, investigating how it affects the performance of our system. We present our results for the task along with extensive analysis of the generated comments with the aim of aiding future studies in feedback comment generation for English language learners.
翻訳日:2022-12-20 16:21:28 公開日:2022-12-18
# 強化学習に基づくニューラルコア参照分解能

Neural Coreference Resolution based on Reinforcement Learning ( http://arxiv.org/abs/2212.09028v1 )

ライセンス: Link先を確認
Yu Wang and Hongxia Jin(参考訳) コリファレンス解決システムの目標は、与えられたコンテキストで同じエンティティを参照するすべての言及をクラスタ化することです。 すべてのコア参照解決システムは2つのサブタスクを解く必要がある: 1つのタスクは潜在的な言及を全て検出すること、もう1つは、可能な言及ごとに先行詞のリンクを学習することである。 本稿では,アクタクリティカルな深層強化学習技術とジョイントトレーニングアルゴリズムを活用することで,参照検出と参照クラスタリングの両方を実現することができる強化学習アクタベースのニューラルコア参照解決システムを提案する。 BERTモデルを用いて異なる入力スパン表現を生成する。 BERTスパン表現を用いた本モデルは,CoNLL-2012Shared Task English Test Setのモデル間の最先端性能を実現する。

The target of a coreference resolution system is to cluster all mentions that refer to the same entity in a given context. All coreference resolution systems need to solve two subtasks; one task is to detect all of the potential mentions, and the other is to learn the linking of an antecedent for each possible mention. In this paper, we propose a reinforcement learning actor-critic-based neural coreference resolution system, which can achieve both mention detection and mention clustering by leveraging an actor-critic deep reinforcement learning technique and a joint training algorithm. We experiment on the BERT model to generate different input span representations. Our model with the BERT span representation achieves the state-of-the-art performance among the models on the CoNLL-2012 Shared Task English Test Set.
翻訳日:2022-12-20 16:21:20 公開日:2022-12-18
# よりよい選択:アスペクト感情三重項抽出のための全空間データセット

A Better Choice: Entire-space Datasets for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2212.09052v1 )

ライセンス: Link先を確認
Yuncong Li, Fang Wang, Sheng-Hua Zhong(参考訳) アスペクト感情三重項抽出(ASTE)は、文章からアスペクト項、感情、意見項三重項を抽出することを目的としている。 asteのモデル評価に使用された最初のデータセットには欠陥があったため、いくつかの研究は後に最初のデータセットを修正し、データセットの新バージョンを独立にリリースした。 その結果、異なる研究が、それぞれの手法を評価するために異なるバージョンのデータセットを選択し、ASTE関連の作業の追跡が困難になる。 本稿では,データセットの異なるバージョン間の関係を解析し,全空間バージョンをASTEに使用することを提案する。 文中の三つ子と三つ子を含む文に加えて、全空間版では三つ子なしの文とどの三つ子にも属さないアスペクト項も含む。 したがって、空間バージョンは実世界のシナリオと一致しており、空間バージョン全体のモデルを評価することで、実世界のシナリオにおけるモデルのパフォーマンスをより良く反映することができる。 さらに,非エンケラスペースデータセット上でのモデル評価が既存のモデルと全空間バージョンでトレーニングされたモデルのパフォーマンスを膨らませることを示す実験結果が得られた。

Aspect sentiment triplet extraction (ASTE) aims to extract aspect term, sentiment and opinion term triplets from sentences. Since the initial datasets used to evaluate models on ASTE had flaws, several studies later corrected the initial datasets and released new versions of the datasets independently. As a result, different studies select different versions of datasets to evaluate their methods, which makes ASTE-related works hard to follow. In this paper, we analyze the relation between different versions of datasets and suggest that the entire-space version should be used for ASTE. Besides the sentences containing triplets and the triplets in the sentences, the entire-space version additionally includes the sentences without triplets and the aspect terms which do not belong to any triplets. Hence, the entire-space version is consistent with real-world scenarios and evaluating models on the entire-space version can better reflect the models' performance in real-world scenarios. In addition, experimental results show that evaluating models on non-entire-space datasets inflates the performance of existing models and models trained on the entire-space version can obtain better performance.
翻訳日:2022-12-20 16:21:08 公開日:2022-12-18
# デジタル「Echoチャンバー」を超えて : 政治的議論における視点多様性の役割

Beyond Digital "Echo Chambers": The Role of Viewpoint Diversity in Political Discussion ( http://arxiv.org/abs/2212.09056v1 )

ライセンス: Link先を確認
Rishav Hada, Amir Ebrahimi Fard, Sarah Shugars, Federico Bianchi, Patricia Rossini, Dirk Hovy, Rebekah Tromble, Nava Tintarev(参考訳) ますますオンライン空間で行われるようになり、現代の政治会話は、通常、非生産的に肯定的であると認識される。 しかし、これまでは、会話における視点の多様性を測定する十分な手段が欠けている。 そこで本稿では,レコメンダシステムのために提案されている2つの視点メトリクスを運用し,それをソーシャルメディアの会話の文脈に適用する。 この2つの指標(表現と断片化)を実世界データに適用し、オンライン会話に特に影響を検討する最初の研究である。 これらの対策を2つのトピック — コントロールの役割を果たすデイライトセーブタイム(dst)と、より政治的に分断された移民のトピック — に適用します。 フラグメンテーションと表現の双方の多様性スコアがDSTよりも低いことが判明した。 さらに、親移民のビューはプラットフォーム上で一貫したプッシュバックを受けるが、反移民のビューはecho chambers内でほとんど機能する。 DSTの重症度は低いが類似したパターンを観察する。 表現と断片化は、視点の多様性の有意義で重要な新しい絵を描く。

Increasingly taking place in online spaces, modern political conversations are typically perceived to be unproductively affirming -- siloed in so called ``echo chambers'' of exclusively like-minded discussants. Yet, to date we lack sufficient means to measure viewpoint diversity in conversations. To this end, in this paper, we operationalize two viewpoint metrics proposed for recommender systems and adapt them to the context of social media conversations. This is the first study to apply these two metrics (Representation and Fragmentation) to real world data and to consider the implications for online conversations specifically. We apply these measures to two topics -- daylight savings time (DST), which serves as a control, and the more politically polarized topic of immigration. We find that the diversity scores for both Fragmentation and Representation are lower for immigration than for DST. Further, we find that while pro-immigrant views receive consistent pushback on the platform, anti-immigrant views largely operate within echo chambers. We observe less severe yet similar patterns for DST. Taken together, Representation and Fragmentation paint a meaningful and important new picture of viewpoint diversity.
翻訳日:2022-12-20 16:20:48 公開日:2022-12-18
# 交渉しよう! 交渉対話システムに関する調査研究

Let's Negotiate! A Survey of Negotiation Dialogue Systems ( http://arxiv.org/abs/2212.09072v1 )

ライセンス: Link先を確認
Haolan Zhan and Yufei Wang and Tao Feng and Yuncheng Hua and Suraj Sharma and Zhuang Li and Lizhen Qu and Gholamreza Haffari(参考訳) 交渉は人間のコミュニケーションにおいて重要な能力の1つであり、近年は交渉対話システムに対する反抗的な研究の関心が高まっており、その目標は、人間が紛争を解決したり、有効な合意に達するのを効率的に支援できるような能力を持つ知的エージェントを強化することである。 交渉対話システムでは多くの調査が行われてきたが、この課題の体系的なレビューはいまだに行われていない。 この目的のために,交渉対話システムの新興分野における現代研究をレビューし,ベンチマーク,評価,方法論を取り上げ,このギャップを埋めることを目指している。 さらに,マルチモーダル,マルチパーティ,異文化間の交渉シナリオなど,今後の方向性についても論じる。 我々の目標は,交渉対話システムの体系的な概要をコミュニティに提供し,今後の研究を刺激することである。

Negotiation is one of the crucial abilities in human communication, and there has been a resurgent research interest in negotiation dialogue systems recently, which goal is to empower intelligent agents with such ability that can efficiently help humans resolve conflicts or reach beneficial agreements. Although there have been many explorations in negotiation dialogue systems, a systematic review of this task has to date remained notably absent. To this end, we aim to fill this gap by reviewing contemporary studies in the emerging field of negotiation dialogue systems, covering benchmarks, evaluations, and methodologies. Furthermore, we also discuss potential future directions, including multi-modal, multi-party, and cross-cultural negotiation scenarios. Our goal is to provide the community with a systematic overview of negotiation dialogue systems and to inspire future research.
翻訳日:2022-12-20 16:20:18 公開日:2022-12-18
# PVGRU:擬似変動機構による多変量および関連対話応答の生成

PVGRU: Generating Diverse and Relevant Dialogue Responses via Pseudo-Variational Mechanism ( http://arxiv.org/abs/2212.09086v1 )

ライセンス: Link先を確認
Yongkang Liu and Shi Feng and Daling Wang and Hinrich Sch\"utze and Yifei Zhang(参考訳) 生成型チャットボットにおけるマルチターン対話の応答生成について検討する。 既存のRNN(Recurrent Neural Networks)に基づく生成モデルは、通常、シーケンスを要約するために最後の隠れ状態を使用するため、異なる対話で観察される微妙な変動を捉えることができず、合成において類似した対話の違いを区別できない。 本稿では,GRUに再帰的な要約変数を導入することで,後続知識のない擬似分散Gated Recurrent Unit (PVGRU) を提案する。 PVGRUは、考案された分布の一貫性と再構成目的によって最適化された変数を要約することで、微妙な意味的変動を認識することができる。 さらに,PVGRUに基づく擬似変数階層対話(PVHD)モデルを構築した。 実験の結果,PVGRUは2つのベンチマークデータセットにおける応答の多様性と関連性を大きく改善できることが示された。

We investigate response generation for multi-turn dialogue in generative-based chatbots. Existing generative models based on RNNs (Recurrent Neural Networks) usually employ the last hidden state to summarize the sequences, which makes models unable to capture the subtle variability observed in different dialogues and cannot distinguish the differences between dialogues that are similar in composition. In this paper, we propose a Pseudo-Variational Gated Recurrent Unit (PVGRU) component without posterior knowledge through introducing a recurrent summarizing variable into the GRU, which can aggregate the accumulated distribution variations of subsequences. PVGRU can perceive the subtle semantic variability through summarizing variables that are optimized by the devised distribution consistency and reconstruction objectives. In addition, we build a Pseudo-Variational Hierarchical Dialogue (PVHD) model based on PVGRU. Experimental results demonstrate that PVGRU can broadly improve the diversity and relevance of responses on two benchmark datasets.
翻訳日:2022-12-20 16:20:06 公開日:2022-12-18
# 既存モデルからの連続学習:ニューラルネットワーク翻訳のための知識蓄積

Continually Learning from Existing Models: Knowledge Accumulation for Neural Machine Translation ( http://arxiv.org/abs/2212.09097v1 )

ライセンス: Link先を確認
Yuanchi Zhang, Peng Li, Maosong Sun, Yang Liu(参考訳) 既存のNMTモデルを新しいドメインや言語に継続的に拡張することは近年、大きな関心を集めているが、既存のNMTモデルから無制限の知識を活用することで、その領域で与えられたNMTモデルを継続的に改善する、等しく価値のある問題は、まだ検討されていない。 そこで本研究では,NMT (KA-NMT) の知識蓄積問題に対して,対応するデータセットと評価指標を用いた公式な定義を提案し,KA-NMTの新しい手法を開発した。 本研究では,既存のモデルから有益な知識をトークンレベルで識別する新しい知識検出アルゴリズムを調査し,有益な知識から学び,他の知識に対して同時に学習し,学習効率を向上させることを提案する。 破滅的な忘れを緩和するために、我々はさらに、与えられたモデルの以前のバージョンから現在のバージョンへ知識を移すよう提案する。 実験の結果,提案手法は,言語ペアの同質,異質,悪質なモデル設定において,代表的ベースラインを大幅に上回ることがわかった。

Although continually extending an existing NMT model to new domains or languages has attracted intensive interest in recent years, the equally valuable problem of continually improving a given NMT model in its domain by leveraging knowledge from an unlimited number of existing NMT models is not explored yet. To facilitate the study, we propose a formal definition for the problem named knowledge accumulation for NMT (KA-NMT) with corresponding datasets and evaluation metrics and develop a novel method for KA-NMT. We investigate a novel knowledge detection algorithm to identify beneficial knowledge from existing models at token level, and propose to learn from beneficial knowledge and learn against other knowledge simultaneously to improve learning efficiency. To alleviate catastrophic forgetting, we further propose to transfer knowledge from previous to current version of the given model. Extensive experiments show that our proposed method significantly and consistently outperforms representative baselines under homogeneous, heterogeneous, and malicious model settings for different language pairs.
翻訳日:2022-12-20 16:19:49 公開日:2022-12-18
# lasque: 定量化モデルとカリキュラム学習による説明によるゼロショット分類の改善

LaSQuE: Improved Zero-Shot Classification from Explanations Through Quantifier Modeling and Curriculum Learning ( http://arxiv.org/abs/2212.09104v1 )

ライセンス: Link先を確認
Sayan Ghosh, Rakesh R Menon, Shashank Srivastava(参考訳) 人間の知性の特徴は、純粋に言語から新しい概念を学ぶ能力である。 最近のいくつかのアプローチでは、自然言語監視による機械学習モデルのトレーニングが検討されている。 しかし、これらのアプローチは言語量化器(alwaysやrarelyなど)を活用し、複雑なタスクを合成的に学習する人間を模倣するのには不足している。 本稿では,(1)説明における言語量化器の意味論のモデル化(「always」>「likely」のような順序的強度関係の活用を含む),(2)注意に基づくメカニズムを用いた複数の説明からの情報を集約する,(3)カリキュラム学習によるモデル学習,という3つの新しい戦略を用いて,言語説明からゼロショット分類を学習する手法であるlasqueを提案する。 これらの戦略により、lasqueは以前の作業よりも優れており、認識できない現実世界の分類タスクの一般化において、7%の絶対的な利益を示している。

A hallmark of human intelligence is the ability to learn new concepts purely from language. Several recent approaches have explored training machine learning models via natural language supervision. However, these approaches fall short in leveraging linguistic quantifiers (such as 'always' or 'rarely') and mimicking humans in compositionally learning complex tasks. Here, we present LaSQuE, a method that can learn zero-shot classifiers from language explanations by using three new strategies - (1) modeling the semantics of linguistic quantifiers in explanations (including exploiting ordinal strength relationships, such as 'always' > 'likely'), (2) aggregating information from multiple explanations using an attention-based mechanism, and (3) model training via curriculum learning. With these strategies, LaSQuE outperforms prior work, showing an absolute gain of up to 7% in generalizing to unseen real-world classification tasks.
翻訳日:2022-12-20 16:19:31 公開日:2022-12-18
# 文書拡張による高密度検索のためのカリキュラムサンプリング

Curriculum Sampling for Dense Retrieval with Document Expansion ( http://arxiv.org/abs/2212.09114v1 )

ライセンス: Link先を確認
Xingwei He, Yeyun Gong, A-Long Jin, Hang Zhang, Anlei Dong, Jian Jiao, Siu Ming Yiu, Nan Duan(参考訳) デュアルエンコーダは高密度検索のためのデファクトアーキテクチャとなっている。 通常、クエリとドキュメントの潜在表現を独立して計算し、クエリとドキュメント間のインタラクションを完全にキャプチャすることができない。 これを軽減するため、最近の作業では、ドキュメントのクエリインフォームド表現が期待されている。 トレーニング中は、ドキュメントを実際のクエリに拡張し、実際のクエリを推論時に生成された擬似クエリに置き換える。 このトレーニングと推論の相違により、密度の高い検索モデルはクエリ情報に注意を向けるが、文書表現を計算する際に文書を無視する。 結果として、生成されたクエリと実際のクエリの関連性に大きく依存するため、バニラ密集型検索モデルよりもパフォーマンスが悪くなります。 本稿では,学習時に擬似クエリを利用するカリキュラムサンプリング戦略を提案し,生成したクエリの実際のクエリとの関連性を徐々に高めている。 このようにして、検索モデルは、ドキュメントからドキュメントとクエリの両方にのみ注意を向けることを学び、高品質なクエリインフォームドドキュメント表現を得ることができる。 いくつかの経路探索データセットの実験結果から,提案手法は従来の高密度検索手法よりも優れていることがわかった。

The dual-encoder has become the de facto architecture for dense retrieval. Typically, it computes the latent representations of the query and document independently, thus failing to fully capture the interactions between the query and document. To alleviate this, recent work expects to get query-informed representations of documents. During training, it expands the document with a real query, while replacing the real query with a generated pseudo query at inference. This discrepancy between training and inference makes the dense retrieval model pay more attention to the query information but ignore the document when computing the document representation. As a result, it even performs worse than the vanilla dense retrieval model, since its performance depends heavily on the relevance between the generated queries and the real query. In this paper, we propose a curriculum sampling strategy, which also resorts to the pseudo query at training and gradually increases the relevance of the generated query to the real query. In this way, the retrieval model can learn to extend its attention from the document only to both the document and query, hence getting high-quality query-informed document representations. Experimental results on several passage retrieval datasets show that our approach outperforms the previous dense retrieval methods1.
翻訳日:2022-12-20 16:19:12 公開日:2022-12-18
# in-context learningを用いた低リソースオーサシップスタイル転送

Low-Resource Authorship Style Transfer with In-Context Learning ( http://arxiv.org/abs/2212.08986v1 )

ライセンス: Link先を確認
Ajay Patel, Nicholas Andrews, Chris Callison-Burch(参考訳) 著者のスタイル転送は、原文の意味を保ちながら、対象とする著者のスタイルに合わせてテキストのスタイルを変更することを含む。 STRAPのような教師なしの著作者スタイル移行への既存のアプローチは、書籍、スピーチ、その他の出版物(Krishna et al., 2020)を通じて、対象とする著作者のスタイル移行に大きく焦点を当てている。 この高リソースのトレーニングデータ要求(しばしば10000語以上)のため、これらのアプローチは出版者、政治家、その他の著名な人物や著作者スタイルへのスタイル移行にのみ有用である。 本稿では,対象著者のスタイルに限定されたテキストしか存在しないような低リソースの著者スタイル転送を試み,より挑戦的な著者スタイル転送のクラスを提案する。 私たちの実験では、Redditのソースとターゲットの作者を選択して、Redditの投稿に対してスタイルの転送を行い、ターゲットの著者のスタイルのたった16の投稿(平均$\approx$500ワード)に制限します。 次に、著者とスタイル表現の埋め込みを利用した低リソースオーサリングスタイル転送タスクの自動評価手法を提案する(Rivera-Soto et al., 2021; Wegmann et al., 2022)。 提案した自動評価手法により,提案方式の変換出力を評価した結果,STYLLはSTRAPや総合的なベースラインよりも優れていることがわかった。

Authorship style transfer involves altering the style of text to match the style of some target author whilst preserving the semantic meaning of the original text. Existing approaches to unsupervised authorship style transfer like STRAP have largely focused on style transfer for target authors with many examples of their writing style through books, speeches, or other published works (Krishna et al., 2020). Due to this high-resource training data requirement (often greater than 100,000 words), these approaches are often only useful for style transfer to the style of published authors, politicians, or other well-known figures and authorship styles. In this paper, we attempt to perform low-resource authorship style transfer, a more challenging class of authorship style transfer where only a limited amount of text in the target author's style may exist. In our experiments, we specifically choose source and target authors from Reddit to perform style transfer over their Reddit posts, limiting ourselves to just 16 posts (on average $\approx$ 500 words) of the target author's style. We then propose a method for automatic evaluation on the low-resource authorship style transfer task utilizing authorship and style representation embeddings (Rivera-Soto et al., 2021; Wegmann et al., 2022). We evaluate our style transferred outputs with the proposed automatic evaluation method and find that our method, STYLL, is able to outperform STRAP and a comprehensive set of baselines.
翻訳日:2022-12-20 16:10:34 公開日:2022-12-18
# 置換フリーカーネル独立性試験

A Permutation-Free Kernel Independence Test ( http://arxiv.org/abs/2212.09108v1 )

ライセンス: Link先を確認
Shubhanshu Shekhar, Ilmun Kim, Aaditya Ramdas(参考訳) 非パラメトリック独立テストでは、i.d.\ data $\{(X_i,Y_i)\}_{i=1}^n$, where $X \in \mathcal{X}, Y \in \mathcal{Y}$が任意の一般空間に存在し、$X$が$Y$から独立であるようなnullをテストする。 カーネルHilbert-Schmidt Independence Criterion (HSIC) や Distance Covariance (dCov) のような現代のテスト統計は、基礎となるU統計の縮退により、難解なnull分布を持つ。 したがって、実際には2次時間統計(例えば、数百回)の再計算を犠牲にして、漸近的な保証を提供する置換テストを使うのが一般的である。 本稿では HSIC と dCov (xHSIC and xdCov, 発音は `cross'' の HSIC/dCov) の単純かつ非自明な修正を提供し、それらが null の下でガウス分布を制限するので、置換は不要である。 これは、Kim and Ramdas (2020) によって新たに開発されたクロスU統計学の理論に基づいて構築され、特にシェハールら(2022)におけるいくつかの非自明な拡張を開発する必要がある。 我々の新しいテストは、オリジナルのテストと同様に、固定された代替品に対して一貫しており、スムーズな局所的な代替品に対して最小値の速度が最適であることを示す。 数値シミュレーションにより、dCovやHSICと比較して、我々の変種は同じパワーを$\sqrt 2$ factorまで持つことが示され、大規模な問題やサンプルサイズではなく計算がボトルネックとなるようなデータ分析パイプラインに対する新たな選択肢が実現された。

In nonparametric independence testing, we observe i.i.d.\ data $\{(X_i,Y_i)\}_{i=1}^n$, where $X \in \mathcal{X}, Y \in \mathcal{Y}$ lie in any general spaces, and we wish to test the null that $X$ is independent of $Y$. Modern test statistics such as the kernel Hilbert-Schmidt Independence Criterion (HSIC) and Distance Covariance (dCov) have intractable null distributions due to the degeneracy of the underlying U-statistics. Thus, in practice, one often resorts to using permutation testing, which provides a nonasymptotic guarantee at the expense of recalculating the quadratic-time statistics (say) a few hundred times. This paper provides a simple but nontrivial modification of HSIC and dCov (called xHSIC and xdCov, pronounced ``cross'' HSIC/dCov) so that they have a limiting Gaussian distribution under the null, and thus do not require permutations. This requires building on the newly developed theory of cross U-statistics by Kim and Ramdas (2020), and in particular developing several nontrivial extensions of the theory in Shekhar et al. (2022), which developed an analogous permutation-free kernel two-sample test. We show that our new tests, like the originals, are consistent against fixed alternatives, and minimax rate optimal against smooth local alternatives. Numerical simulations demonstrate that compared to the full dCov or HSIC, our variants have the same power up to a $\sqrt 2$ factor, giving practitioners a new option for large problems or data-analysis pipelines where computation, not sample size, could be the bottleneck.
翻訳日:2022-12-20 16:04:01 公開日:2022-12-18
# Plankton-FL: 植物プランクトン分類のための深層ニューラルネットワークのプライバシー保護トレーニングのためのフェデレーション学習の探索

Plankton-FL: Exploration of Federated Learning for Privacy-Preserving Training of Deep Neural Networks for Phytoplankton Classification ( http://arxiv.org/abs/2212.08990v1 )

ライセンス: Link先を確認
Daniel Zhang, Vikram Voleti, Alexander Wong and Jason Deglint(参考訳) 植物プランクトンモニタリングのための高性能汎用深層ニューラルネットワークの作成には、多種多様な水源からの大規模データを活用する必要がある。 このようなネットワークをトレーニングする上での大きな課題は、さまざまな施設で収集されたデータが集中的な場所に転送されることを制限する、データプライバシにある。 この課題を克服するための有望なアプローチはフェデレートドラーニング(Federated Learning)であり、ローカルデータ上でサイトレベルでトレーニングが行われ、グローバルモデルを生成するためにネットワーク上でモデルパラメータのみが交換される。 本研究では,植物プランクトン分類のための深層ニューラルネットワークのプライバシー保護トレーニングにフェデレート学習を活用する可能性を検討する。 具体的には、2つの異なるフェデレーション学習フレームワーク、フェデレーション学習(FL)と相互排他的FL(ME-FL)をシミュレートし、それらの性能を従来の集中学習(CL)フレームワークと比較する。 本研究では,植物プランクトンモニタリングにおけるフェデレート学習の可能性と可能性を示す。

Creating high-performance generalizable deep neural networks for phytoplankton monitoring requires utilizing large-scale data coming from diverse global water sources. A major challenge to training such networks lies in data privacy, where data collected at different facilities are often restricted from being transferred to a centralized location. A promising approach to overcome this challenge is federated learning, where training is done at site level on local data, and only the model parameters are exchanged over the network to generate a global model. In this study, we explore the feasibility of leveraging federated learning for privacy-preserving training of deep neural networks for phytoplankton classification. More specifically, we simulate two different federated learning frameworks, federated learning (FL) and mutually exclusive FL (ME-FL), and compare their performance to a traditional centralized learning (CL) framework. Experimental results from this study demonstrate the feasibility and potential of federated learning for phytoplankton monitoring.
翻訳日:2022-12-20 15:55:10 公開日:2022-12-18
# バックドア攻撃を緩和する「ファインチューニング」

Fine-Tuning Is All You Need to Mitigate Backdoor Attacks ( http://arxiv.org/abs/2212.09067v1 )

ライセンス: Link先を確認
Zeyang Sha and Xinlei He and Pascal Berrang and Mathias Humbert and Yang Zhang(参考訳) バックドア攻撃は、機械学習モデルに対する大きな脅威の1つだ。 バックドアを緩和するための様々な努力がなされている。 しかし、既存の防御はますます複雑化しており、高い計算資源を必要とすることも多い。 本研究は,機械学習モデルからバックドアを効果的に取り除き,高モデルユーティリティを維持しつつ,最も一般的かつ容易に学習できる機械学習トレーニング操作の1つであるファインチューニングについて述べる。 3つの機械学習パラダイムに対する大規模な実験は、ファインチューニングと新しいスーパーファインチューニングが強力な防御性能を実現することを示している。 さらに,バックドアの削除前後におけるモデル脆弱性の変化を測定するために,backdoor sequelaという新たな用語を考案した。 実証的な評価は、他の防御方法と比較して、超微細な葉はバックドアの続編に制限されていることを示している。 私たちの結果は、マシンラーニングモデルオーナがバックドアの脅威からモデルを保護するのに役立つことを願っています。 また、機械学習モデルのバックドア脆弱性を総合的に評価するために、より高度な攻撃の設計も求めている。

Backdoor attacks represent one of the major threats to machine learning models. Various efforts have been made to mitigate backdoors. However, existing defenses have become increasingly complex and often require high computational resources or may also jeopardize models' utility. In this work, we show that fine-tuning, one of the most common and easy-to-adopt machine learning training operations, can effectively remove backdoors from machine learning models while maintaining high model utility. Extensive experiments over three machine learning paradigms show that fine-tuning and our newly proposed super-fine-tuning achieve strong defense performance. Furthermore, we coin a new term, namely backdoor sequela, to measure the changes in model vulnerabilities to other attacks before and after the backdoor has been removed. Empirical evaluation shows that, compared to other defense methods, super-fine-tuning leaves limited backdoor sequela. We hope our results can help machine learning model owners better protect their models from backdoor threats. Also, it calls for the design of more advanced attacks in order to comprehensively assess machine learning models' backdoor vulnerabilities.
翻訳日:2022-12-20 15:54:49 公開日:2022-12-18
# 線形混合モデルにおける変数推定のためのリーマン最適化

Riemannian Optimization for Variance Estimation in Linear Mixed Models ( http://arxiv.org/abs/2212.09081v1 )

ライセンス: Link先を確認
Lena Sembach, Jan Pablo Burgard, Volker H. Schulz(参考訳) 線形混合モデルにおける変数パラメータ推定は、確率効果共分散行列の正定値制約による多くの古典的非線形最適化アルゴリズムの課題である。 線形混合モデルにおけるパラメータ推定について,パラメータ空間の固有幾何を生かして,全く新しい視点をとる。 リーマン多様体上の最適化問題として残差最大推定の問題を定式化する。 導入された定式化に基づいて、リーマン勾配とリーマンヘッシアンを通じて問題に関する幾何学的高階情報を与える。 そこで我々はリーマン最適化アルゴリズムを用いて数値解析を行った。 提案手法は,既存の手法と比較して分散パラメータ推定の質が向上する。

Variance parameter estimation in linear mixed models is a challenge for many classical nonlinear optimization algorithms due to the positive-definiteness constraint of the random effects covariance matrix. We take a completely novel view on parameter estimation in linear mixed models by exploiting the intrinsic geometry of the parameter space. We formulate the problem of residual maximum likelihood estimation as an optimization problem on a Riemannian manifold. Based on the introduced formulation, we give geometric higher-order information on the problem via the Riemannian gradient and the Riemannian Hessian. Based on that, we test our approach with Riemannian optimization algorithms numerically. Our approach yields a higher quality of the variance parameter estimates compared to existing approaches.
翻訳日:2022-12-20 15:44:15 公開日:2022-12-18
# ベクターレグレッションのサポート:リスククワッドローグフレームワーク

Support Vector Regression: Risk Quadrangle Framework ( http://arxiv.org/abs/2212.09178v1 )

ライセンス: Link先を確認
Anton Malandii, Stan Uryasev(参考訳) 本稿では,基本リスク四角形パラダイムの文脈におけるSVR(Support Vector Regression)について検討する。 SVR, $\varepsilon$-SVR および $\nu$-SVR の2つの定式化は、それぞれ等価な正則誤差測度(Vapnik error と Superquantile (CVaR) ノルム)の最小化に対応する。 これらの誤差測度は、次に対応するリスク四角形を生じさせる。 さらに、四角形の構築に使用される技法は、$\varepsilon$-SVRと$\nu$-SVRの等価性を証明するための強力なツールである。 SVRに対応する基本リスク四角形を構築することにより、SVRは2つの対称条件量子平均の漸近的に偏りのない推定器であることを示す。 さらに、SVRは、回帰のエラーシェーピング分解を誘発することにより、正規化ペナルティを伴う正規偏差最小化問題として定式化される。 最後に、リスク四角形フレームワークにおけるSVRの二重定式化が導出される。

This paper investigates Support Vector Regression (SVR) in the context of the fundamental risk quadrangle paradigm. It is shown that both formulations of SVR, $\varepsilon$-SVR and $\nu$-SVR, correspond to the minimization of equivalent regular error measures (Vapnik error and superquantile (CVaR) norm, respectively) with a regularization penalty. These error measures, in turn, give rise to corresponding risk quadrangles. Additionally, the technique used for the construction of quadrangles serves as a powerful tool in proving the equivalence between $\varepsilon$-SVR and $\nu$-SVR. By constructing the fundamental risk quadrangle, which corresponds to SVR, we show that SVR is the asymptotically unbiased estimator of the average of two symmetric conditional quantiles. Additionally, SVR is formulated as a regular deviation minimization problem with a regularization penalty by invoking Error Shaping Decomposition of Regression. Finally, the dual formulation of SVR in the risk quadrangle framework is derived.
翻訳日:2022-12-20 15:44:08 公開日:2022-12-18
# 普遍因果性のための階層アーキテクチャ

A Layered Architecture for Universal Causality ( http://arxiv.org/abs/2212.08981v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 我々は,ucla(universal causality layered architecture)と呼ばれる階層型階層型アーキテクチャを提案する。 最上位のレベルでは、因果的介入は順序数の単純圏を用いて組合せ的にモデル化される。 第2層では、因果モデルはグラフ型カテゴリで定義される。 エッジ削除のような因果構造に対する非ランダムな `surgical" 操作は、デジェネリシーと上記の単純な層からの顔演算子を使ってキャプチャされる。 第3のカテゴリ抽象層は因果推論におけるデータ層に対応する。 第4のホモトピー層は、トポロジ空間のような上記のインスタンス層に付加的な構造を持ち、データセット上の因果モデルを評価することができる。 ファンクターはUCLAのすべてのレイヤ間をマップする。 層間の各関手は普遍矢印によって特徴づけられ、各圏の層間の同型を定義する。 これらの普遍矢印は Yoneda Lemma を通じて普遍的要素と表現を定義し、グロタンディークによって導入された構成に基づく新しい種類の要素へと導かれる。 それぞれの層間の因果推論は、対象が圏である可換図式であり、射が異なる種類のファイバーとして特徴づけられる関手であるリフト問題として定義される。 条件付き独立性のための非グラフ型フレームワークを表す整数値多重集合や、対称モノイド圏を用いたグラフや文字列図に基づく因果モデルなど、uclaアーキテクチャを例に挙げる。 我々は、要素の分類の神経のホモトピーコリミットの観点から因果効果を定義する。

We propose a layered hierarchical architecture called UCLA (Universal Causality Layered Architecture), which combines multiple levels of categorical abstraction for causal inference. At the top-most level, causal interventions are modeled combinatorially using a simplicial category of ordinal numbers. At the second layer, causal models are defined by a graph-type category. The non-random ``surgical" operations on causal structures, such as edge deletion, are captured using degeneracy and face operators from the simplicial layer above. The third categorical abstraction layer corresponds to the data layer in causal inference. The fourth homotopy layer comprises of additional structure imposed on the instance layer above, such as a topological space, which enables evaluating causal models on datasets. Functors map between every pair of layers in UCLA. Each functor between layers is characterized by a universal arrow, which defines an isomorphism between every pair of categorical layers. These universal arrows define universal elements and representations through the Yoneda Lemma, and in turn lead to a new category of elements based on a construction introduced by Grothendieck. Causal inference between each pair of layers is defined as a lifting problem, a commutative diagram whose objects are categories, and whose morphisms are functors that are characterized as different types of fibrations. We illustrate the UCLA architecture using a range of examples, including integer-valued multisets that represent a non-graphical framework for conditional independence, and causal models based on graphs and string diagrams using symmetric monoidal categories. We define causal effect in terms of the homotopy colimit of the nerve of the category of elements.
翻訳日:2022-12-20 15:35:41 公開日:2022-12-18
# 指数的基準を用いたリスク感応強化学習

Risk-Sensitive Reinforcement Learning with Exponential Criteria ( http://arxiv.org/abs/2212.09010v1 )

ライセンス: Link先を確認
Erfaun Noorani, Christos Mavridis, John Baras(参考訳) リスクニュートラルな強化学習は多くの応用で実験的に成功したが、システムのパラメータのノイズや摂動に関して非破壊的であることはよく知られている。 このため, リスクに敏感な強化学習アルゴリズムが研究され, 堅牢性とサンプル効率が向上し, 実生活性能が向上した。 そこで本研究では,類似の実装特性を持つ広く用いられているポリシ勾配アルゴリズムのバリエーションとして,モデルフリーなリスク感応強化学習アルゴリズムを導入する。 特に,強化学習エージェントの方針のリスク感受性に及ぼす指数的基準の影響について検討し,モンテカルロ政策勾配アルゴリズムとオンライン・アクタ-クリティックアルゴリズムの変種を開発した。 分析結果は、指数基準の使用が一般的に使用されるアドホック正則化アプローチを一般化することを示している。 提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。

While risk-neutral reinforcement learning has shown experimental success in a number of applications, it is well-known to be non-robust with respect to noise and perturbations in the parameters of the system. For this reason, risk-sensitive reinforcement learning algorithms have been studied to introduce robustness and sample efficiency, and lead to better real-life performance. In this work, we introduce new model-free risk-sensitive reinforcement learning algorithms as variations of widely-used Policy Gradient algorithms with similar implementation properties. In particular, we study the effect of exponential criteria on the risk-sensitivity of the policy of a reinforcement learning agent, and develop variants of the Monte Carlo Policy Gradient algorithm and the online (temporal-difference) Actor-Critic algorithm. Analytical results showcase that the use of exponential criteria generalize commonly used ad-hoc regularization approaches. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
翻訳日:2022-12-20 15:35:16 公開日:2022-12-18
# 医療システムレビュー文献検索における効果的なスクリーニング優先順位付けのためのニューラルネットワーク

Neural Rankers for Effective Screening Prioritisation in Medical Systematic Review Literature Search ( http://arxiv.org/abs/2212.09017v1 )

ライセンス: Link先を確認
Shuai Wang, Harrisen Scells, Bevan Koopman, Guido Zuccon(参考訳) 医学的体系的レビューは通常、検索によって取得されたすべての文書を評価する必要がある。 タスクは `total recall'' を目標としており、Boolean search で検索したドキュメントは順序のない集合であるため、アセスタがサブセットのみを検査できるかどうかは不明だ。 スクリーニング優先化(英語: screening prioritisation)とは、検索された文書の(順序付けされていない)集合をランク付けし、評価者がより早く体系的なレビュー作成の下流プロセスを開始することを可能にするプロセスである。 優先順位付けのスクリーニングには、非常に効果的なランキング方法が必要である。 事前学習された言語モデルは、多くのIRタスクにおいて最先端のものであるが、体系的な事前検査には適用されていない。 本稿では,事前学習された複数の言語モデルを,直接および微調整された体系的レビュー文書ランキングタスクに適用する。 経験的分析では、ニューラルネットワークが従来の手法と比べていかに効果的かを比較している。 また,ニューラルメソッドの文書表現の異なるタイプと,それらのランク付け性能への影響についても検討する。 以上の結果から,BERTをベースとしたランカは,現在のスクリーニング方法よりも優れていた。 しかし、BERTローダと既存のメソッドは実際には補完的であり、共同で使用すればさらなる改善が達成される可能性がある。

Medical systematic reviews typically require assessing all the documents retrieved by a search. The reason is two-fold: the task aims for ``total recall''; and documents retrieved using Boolean search are an unordered set, and thus it is unclear how an assessor could examine only a subset. Screening prioritisation is the process of ranking the (unordered) set of retrieved documents, allowing assessors to begin the downstream processes of the systematic review creation earlier, leading to earlier completion of the review, or even avoiding screening documents ranked least relevant. Screening prioritisation requires highly effective ranking methods. Pre-trained language models are state-of-the-art on many IR tasks but have yet to be applied to systematic review screening prioritisation. In this paper, we apply several pre-trained language models to the systematic review document ranking task, both directly and fine-tuned. An empirical analysis compares how effective neural methods compare to traditional methods for this task. We also investigate different types of document representations for neural methods and their impact on ranking performance. Our results show that BERT-based rankers outperform the current state-of-the-art screening prioritisation methods. However, BERT rankers and existing methods can actually be complementary, and thus, further improvements may be achieved if used in conjunction.
翻訳日:2022-12-20 15:35:00 公開日:2022-12-18
# MeSH Suggester: ブールクエリ構築のシステムレビューのためのMeSH用語提案ライブラリとシステム

MeSH Suggester: A Library and System for MeSH Term Suggestion for Systematic Review Boolean Query Construction ( http://arxiv.org/abs/2212.09018v1 )

ライセンス: Link先を確認
Shuai Wang, Hang Li, Guido Zuccon(参考訳) ブール問合せ構成は、しばしば医学的体系的レビュー文献検索において重要である。 効果的なBooleanクエリを作成するために、システマティックレビュー研究者は通常、効果的なクエリ用語と組み合わせを数週間かけて作成する。 効果的な体系的なレビュー Booleanクエリを作成する上での課題のひとつは、クエリに含める効果的なMeSH用語の選択だ。 これまでの研究では、ニューラルネットワークの用語提案メソッドを作成し、それを最先端のメッシュ用語提案メソッドと比較しました。 ニューラルなMeSH項提案法は高い有効性を示した。 本稿では,(1) web ベースのメッシュターム提案プロトタイプシステムを作成し,(2) 基盤となるメソッドから提案を得られるようにし,(2) メッシュターム提案メソッドを実装し,さらに調査・作成・デプロイしたい研究者を対象としたpython ライブラリを構築した。 本稿では,Web ベースシステムのアーキテクチャと MeSH 項提案タスクの使い方について述べる。 pythonライブラリについては、ライブラリがさらなる研究と実験にどのように使われるかを説明し、標準データセットでライブラリに含まれるメソッドの結果を検証する。 私たちのWebベースのプロトタイプシステムはhttp://ielab-mesh-suggest.uqcloud.netで、Pythonライブラリはhttps://github.com/ielab/meshsuggestlibで利用可能です。

Boolean query construction is often critical for medical systematic review literature search. To create an effective Boolean query, systematic review researchers typically spend weeks coming up with effective query terms and combinations. One challenge to creating an effective systematic review Boolean query is the selection of effective MeSH Terms to include in the query. In our previous work, we created neural MeSH term suggestion methods and compared them to state-of-the-art MeSH term suggestion methods. We found neural MeSH term suggestion methods to be highly effective. In this demonstration, we build upon our previous work by creating (1) a Web-based MeSH term suggestion prototype system that allows users to obtain suggestions from a number of underlying methods and (2) a Python library that implements ours and others' MeSH term suggestion methods and that is aimed at researchers who want to further investigate, create or deploy such type of methods. We describe the architecture of the web-based system and how to use it for the MeSH term suggestion task. For the Python library, we describe how the library can be used for advancing further research and experimentation, and we validate the results of the methods contained in the library on standard datasets. Our web-based prototype system is available at http://ielab-mesh-suggest.uqcloud.net, while our Python library is at https://github.com/ielab/meshsuggestlib.
翻訳日:2022-12-20 15:34:38 公開日:2022-12-18
# グラフニューラルネットワークを用いた児童活動認識

Graph Neural Network based Child Activity Recognition ( http://arxiv.org/abs/2212.09013v1 )

ライセンス: Link先を確認
Sanka Mohottala, Pradeepa Samarasinghe, Dharshana Kasthurirathna, Charith Abhayaratne(参考訳) 本稿では,グラフ畳み込みネットワーク(GCN)に基づく深層学習モデルを用いた児童行動認識(CAR)の実装について述べる。 私たちの知る限りでは、私たちは児童活動認識ドメインでgcnモデルを使った最初の人です。 子行動データセットの小型化という課題を克服するために, 特徴抽出, 微調整, カリキュラム学習などの学習手法が実装され, モデル性能が向上した。 自動車における転校学習の活用に関する矛盾する主張に触発されて,転校学習に関する詳細な実装と分析を行い,これまで取り組まなかった車に対する負転校学習の効果について検討した。 主な貢献として,st-gcnベースの車モデルを開発することができた。データセットのサイズは小さいが,バニラ実装では約50%の精度を得た。 特徴抽出と微調整により、精度は20%-30%向上し、最も高い精度は82.24%であった。 さらに,アクティビティデータセット上で得られた結果は,カリキュラム学習などの手法により事前学習モデルデータセットを慎重に選択することで,精度の向上が期待できることを示す。 最後に,自動車モデルの精度に対するフレームレート効果について予備的な証拠を提示し,今後の研究の方向性について考察する。

This paper presents an implementation on child activity recognition (CAR) with a graph convolution network (GCN) based deep learning model since prior implementations in this domain have been dominated by CNN, LSTM and other methods despite the superior performance of GCN. To the best of our knowledge, we are the first to use a GCN model in child activity recognition domain. In overcoming the challenges of having small size publicly available child action datasets, several learning methods such as feature extraction, fine-tuning and curriculum learning were implemented to improve the model performance. Inspired by the contradicting claims made on the use of transfer learning in CAR, we conducted a detailed implementation and analysis on transfer learning together with a study on negative transfer learning effect on CAR as it hasn't been addressed previously. As the principal contribution, we were able to develop a ST-GCN based CAR model which, despite the small size of the dataset, obtained around 50% accuracy on vanilla implementations. With feature extraction and fine-tuning methods, accuracy was improved by 20%-30% with the highest accuracy being 82.24%. Furthermore, the results provided on activity datasets empirically demonstrate that with careful selection of pre-train model datasets through methods such as curriculum learning could enhance the accuracy levels. Finally, we provide preliminary evidence on possible frame rate effect on the accuracy of CAR models, a direction future research can explore.
翻訳日:2022-12-20 15:27:39 公開日:2022-12-18
# 児童行動認識に基づく2次元ポーズ推定

2D Pose Estimation based Child Action Recognition ( http://arxiv.org/abs/2212.09027v1 )

ライセンス: Link先を確認
Sanka Mohottala, Sandun Abeygunawardana, Pradeepa Samarasinghe, Dharshana Kasthurirathna, Charith Abhayaratne(参考訳) 本稿では、制約のない環境映像を含む新しいベンチマークデータセットに基づいて、RGBモダリティに基づくモデルを用いて、子行動認識タスクにおいて、初めて2次元ポーズ推定を行うグラフ畳み込みネットワークを提案する。

We present a graph convolutional network with 2D pose estimation for the first time on child action recognition task achieving on par results with an RGB modality based model on a novel benchmark dataset containing unconstrained environment based videos.
翻訳日:2022-12-20 15:27:20 公開日:2022-12-18
# 移動可能なブラックボックス攻撃に対する最大モデル差最小化

Minimizing Maximum Model Discrepancy for Transferable Black-box Targeted Attacks ( http://arxiv.org/abs/2212.09035v1 )

ライセンス: Link先を確認
Anqi Zhao, Tong Chu, Yahao Liu, Wen Li, Jingjing Li, Lixin Duan(参考訳) 本研究では,ブラックボックス標的攻撃問題をモデル不一致の観点から検討する。 理論的には,ブラックボックス標的攻撃に限定した一般化誤差を提示し,攻撃の成功を保証するための厳密な理論的解析を行う。 対象モデルに対する攻撃誤差は,代用モデルに対する経験的攻撃誤差と代用モデル間の最大モデル差に依存することが明らかとなった。 アルゴリズム側では,我々の理論解析に基づいてブラックボックス攻撃に対する新たなアルゴリズムを導出し,生成器を訓練して敵の例を生成する際に代用モデルの最大モデル差(M3D)を最小化する。 このようにして、モデル変動に頑健な高度に伝達可能な逆数例を作成でき、ブラックボックスモデルに対する攻撃の成功率を向上させることができる。 我々は,異なる分類モデルを用いたImageNetデータセットの広範な実験を行い,提案手法は既存の最先端手法よりも優れた性能を示す。 私たちのコードはリリースされます。

In this work, we study the black-box targeted attack problem from the model discrepancy perspective. On the theoretical side, we present a generalization error bound for black-box targeted attacks, which gives a rigorous theoretical analysis for guaranteeing the success of the attack. We reveal that the attack error on a target model mainly depends on empirical attack error on the substitute model and the maximum model discrepancy among substitute models. On the algorithmic side, we derive a new algorithm for black-box targeted attacks based on our theoretical analysis, in which we additionally minimize the maximum model discrepancy(M3D) of the substitute models when training the generator to generate adversarial examples. In this way, our model is capable of crafting highly transferable adversarial examples that are robust to the model variation, thus improving the success rate for attacking the black-box model. We conduct extensive experiments on the ImageNet dataset with different classification models, and our proposed approach outperforms existing state-of-the-art methods by a significant margin. Our codes will be released.
翻訳日:2022-12-20 15:27:16 公開日:2022-12-18
# Bort: 境界直交制約を持つ説明可能なニューラルネットワークを目指して

Bort: Towards Explainable Neural Networks with Bounded Orthogonal Constraint ( http://arxiv.org/abs/2212.09062v1 )

ライセンス: Link先を確認
Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu(参考訳) ディープラーニングは人間の社会に革命をもたらしたが、深層ニューラルネットワークのブラックボックスの性質は、信頼性の高い産業へのさらなる適用を妨げる。 それらを解き放つ試みでは、多くの作業が内部変数を観察し、モデルの理解性と透明性を改善するために影響する。 しかし、既存の手法は直観的な仮定に依存し、数学的保証を欠いている。 このギャップを埋めるために、モデル理解性と透明性の十分な条件からモデルパラメータの有界性と直交性制約によるモデル説明可能性を改善する最適化器であるBortを導入する。 我々は,bort が最適化したモデル表現の再構成とバックトラックを行い,モデル説明可能性の明らかな改善を観察する。 bortに基づき、追加のパラメータやトレーニングなしで説明可能な逆サンプルを合成することができる。 驚いたことに、BortはMNIST上のResNetやDeiT、CIFAR-10、ImageNetなど、さまざまなアーキテクチャの分類精度を常に改善している。

Deep learning has revolutionized human society, yet the black-box nature of deep neural networks hinders further application to reliability-demanded industries. In the attempt to unpack them, many works observe or impact internal variables to improve the model's comprehensibility and transparency. However, existing methods rely on intuitive assumptions and lack mathematical guarantees. To bridge this gap, we introduce Bort, an optimizer for improving model explainability with boundedness and orthogonality constraints on model parameters, derived from the sufficient conditions of model comprehensibility and transparency. We perform reconstruction and backtracking on the model representations optimized by Bort and observe an evident improvement in model explainability. Based on Bort, we are able to synthesize explainable adversarial samples without additional parameters and training. Surprisingly, we find Bort constantly improves the classification accuracy of various architectures including ResNet and DeiT on MNIST, CIFAR-10, and ImageNet.
翻訳日:2022-12-20 15:26:59 公開日:2022-12-18
# sparf: 少数の入力画像からの3次元スパース放射の大規模学習

SPARF: Large-Scale Learning of 3D Sparse Radiance Fields from Few Input Images ( http://arxiv.org/abs/2212.09100v1 )

ライセンス: Link先を確認
Abdullah Hamdi, Bernard Ghanem, Matthias Nie{\ss}ner(参考訳) ニューラル・ラジアンス・フィールド(NeRF)の最近の進歩は、新しいビュー合成の問題をスパース・ラジアンス・フィールド(SRF)最適化として、効率的な高速レンダリング(プレノクセル、InstantNGP)のためにスパース・ボクセルを用いて扱っている。 機械学習とSRFを3D表現として採用するために、SPARFは、高解像度(400×400ピクセル)で4万近い形状からレンダリングされた1700万ドルの画像からなる、斬新なビュー合成のための大規模ShapeNetベースの合成データセットである。 このデータセットは、新しいビュー合成のための既存の合成データセットよりも桁違い大きく、複数のボクセル解像度を持つ100万以上の3D最適化放射場を含んでいる。 さらに,少数の視点からスパースボクセル放射場を生成することを学習する新しいパイプライン (SuRFNet) を提案する。 これは、密集したSPARFデータセットと3次元スパース畳み込みを用いて行われる。 SuRFNetは、少数の画像からの部分的なSRFと特別なSRF損失を用いて、新しい視点からレンダリングできる高品質なスパースボクセル放射場を生成する。 提案手法は,最近のベースラインと比較して,ShapeNetのビューがほとんどないため,制約のない新規ビュー合成作業における最先端の成果を実現する。 SPARFデータセットは、プロジェクトのWebサイト https://abdullahamdi.com/sparf/ で、コードとモデルとともに公開されます。

Recent advances in Neural Radiance Fields (NeRFs) treat the problem of novel view synthesis as Sparse Radiance Field (SRF) optimization using sparse voxels for efficient and fast rendering (plenoxels,InstantNGP). In order to leverage machine learning and adoption of SRFs as a 3D representation, we present SPARF, a large-scale ShapeNet-based synthetic dataset for novel view synthesis consisting of $\sim$ 17 million images rendered from nearly 40,000 shapes at high resolution (400 X 400 pixels). The dataset is orders of magnitude larger than existing synthetic datasets for novel view synthesis and includes more than one million 3D-optimized radiance fields with multiple voxel resolutions. Furthermore, we propose a novel pipeline (SuRFNet) that learns to generate sparse voxel radiance fields from only few views. This is done by using the densely collected SPARF dataset and 3D sparse convolutions. SuRFNet employs partial SRFs from few/one images and a specialized SRF loss to learn to generate high-quality sparse voxel radiance fields that can be rendered from novel views. Our approach achieves state-of-the-art results in the task of unconstrained novel view synthesis based on few views on ShapeNet as compared to recent baselines. The SPARF dataset will be made public with the code and models on the project website https://abdullahamdi.com/sparf/ .
翻訳日:2022-12-20 15:26:42 公開日:2022-12-18
# styleganによる顔生成と編集:調査

Face Generation and Editing with StyleGAN: A Survey ( http://arxiv.org/abs/2212.09102v1 )

ライセンス: Link先を確認
Andrew Melnik, Maksim Miasayedzenkau, Dzianis Makarovets, Dzianis Pirshtuk, Eren Akbulut, Dennis Holzmann, Tarek Renusch, Gustav Reichert, Helge Ritter(参考訳) 本調査の目的は,顔生成と編集のための深層学習技術の現状を概観することである。 人気の高い最新のアーキテクチャを取り上げ、インバージョン、潜在表現、損失関数、トレーニング手順、編集方法、クロスドメインスタイルの転送など、それらを機能させる重要なアイデアについて議論する。 特に,高品質な顔画像の生成を可能にし,セマンティクスの編集や写真品質の保存のためのリッチなインターフェースを提供する,StyleGANアプローチで頂点に達したGANベースのアーキテクチャに注目している。 我々は,ディープラーニングの分野に関する基本的な知識を持ち,アクセス可能な紹介や概要を求めている読者に,この分野へのエントリポイントを提供することを目指している。

Our goal with this survey is to provide an overview of the state of the art deep learning technologies for face generation and editing. We will cover popular latest architectures and discuss key ideas that make them work, such as inversion, latent representation, loss functions, training procedures, editing methods, and cross domain style transfer. We particularly focus on GAN-based architectures that have culminated in the StyleGAN approaches, which allow generation of high-quality face images and offer rich interfaces for controllable semantics editing and preserving photo quality. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
翻訳日:2022-12-20 15:26:11 公開日:2022-12-18
# 電気自動車におけるAIによるエネルギー管理の実証分析:強化学習を事例として

Empirical Analysis of AI-based Energy Management in Electric Vehicles: A Case Study on Reinforcement Learning ( http://arxiv.org/abs/2212.09154v1 )

ライセンス: Link先を確認
Jincheng Hu, Yang Lin, Jihao Li, Zhuoran Hou, Dezong Zhao, Quan Zhou, Jingjing Jiang and Yuanjian Zhang(参考訳) 強化学習ベース(RLベース)エネルギー管理戦略(EMS)は、複数の電力源を持つ電気自動車のエネルギー管理において有望な解決策であると考えられる。 省エネとリアルタイム性能に関するエネルギー管理問題において,従来の手法を上回っていることが示されている。 しかし、従来の研究では、RLベースのEMSの本質的要素を体系的に検討していない。 本稿では, プラグインハイブリッド電気自動車 (PHEV) と燃料電池電気自動車 (FCEV) におけるRL系EMSの実証分析を行った。 実験分析は、アルゴリズム、知覚と決定の粒度、ハイパーパラメータ、報酬関数の4つの側面で開発された。 その結果、オフポリシーアルゴリズムは、他のアルゴリズムと比較して、完全な駆動サイクル内でより燃費効率の良い解を効果的に開発することを示した。 認識と意思決定の粒度を改善することは、より望ましい省エネソリューションを生み出しないが、バッテリーの電力と燃料消費量のバランスを良くする。 瞬時電荷状態(soc)変動に基づく等価エネルギー最適化の目標はパラメータに敏感であり、rl-emssがより効率的なエネルギーコスト戦略を達成するのに役立つ。

Reinforcement learning-based (RL-based) energy management strategy (EMS) is considered a promising solution for the energy management of electric vehicles with multiple power sources. It has been shown to outperform conventional methods in energy management problems regarding energy-saving and real-time performance. However, previous studies have not systematically examined the essential elements of RL-based EMS. This paper presents an empirical analysis of RL-based EMS in a Plug-in Hybrid Electric Vehicle (PHEV) and Fuel Cell Electric Vehicle (FCEV). The empirical analysis is developed in four aspects: algorithm, perception and decision granularity, hyperparameters, and reward function. The results show that the Off-policy algorithm effectively develops a more fuel-efficient solution within the complete driving cycle compared with other algorithms. Improving the perception and decision granularity does not produce a more desirable energy-saving solution but better balances battery power and fuel consumption. The equivalent energy optimization objective based on the instantaneous state of charge (SOC) variation is parameter sensitive and can help RL-EMSs to achieve more efficient energy-cost strategies.
翻訳日:2022-12-20 15:19:43 公開日:2022-12-18
# 変圧器を用いたテキスト中の属性の逆ロバスト性の推定

Estimating the Adversarial Robustness of Attributions in Text with Transformers ( http://arxiv.org/abs/2212.09155v1 )

ライセンス: Link先を確認
Adam Ivankay, Mattia Rigotti, Ivan Girardi, Chiara Marchiori, Pascal Frossard(参考訳) 説明はディープニューラルネットワーク(DNN)分類器の重要な部分である。 高い利害関係のアプリケーションでは、忠実で堅牢な説明はDNN分類器の理解と信頼を得るために重要である。 しかし、近年の研究では、テキスト分類器における最先端の帰属法は、正しい予測結果を維持しながら説明を著しく変える不可避な逆摂動の影響を受けやすいことが示されている。 検出されていない場合、これはDNNのユーザーを批判的に誤解させる可能性がある。 したがって、このような敵対的摂動がネットワークの説明と知覚に与える影響を理解することが重要である。 本研究では,リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。 重要なことは、敵の入力変化によって引き起こされる帰属変化とそのような変化の知覚可能性の両方を反映している。 さらに,2つのテキストサンプル間の局所性を効果的に捉えるためのテキスト類似度尺度と,テキスト中の逆摂動の不可避性について紹介する。 そこで本論文では,テキスト分類における帰属ロバスト性を強く推定する強力な敵であるTransformerExplanationAttack(TEA)を提案する。 TEAは最先端の言語モデルを用いて単語置換を抽出し、流動的で文脈的な逆転のサンプルを生成する。 最後に,いくつかのテキスト分類アーキテクチャを用いた実験により,茶は最先端のar推定器を一貫して上回っており,より流動的で知覚力の低い説明に変化をもたらす摂動を生じさせることを示した。

Explanations are crucial parts of deep neural network (DNN) classifiers. In high stakes applications, faithful and robust explanations are important to understand and gain trust in DNN classifiers. However, recent work has shown that state-of-the-art attribution methods in text classifiers are susceptible to imperceptible adversarial perturbations that alter explanations significantly while maintaining the correct prediction outcome. If undetected, this can critically mislead the users of DNNs. Thus, it is crucial to understand the influence of such adversarial perturbations on the networks' explanations and their perceptibility. In this work, we establish a novel definition of attribution robustness (AR) in text classification, based on Lipschitz continuity. Crucially, it reflects both attribution change induced by adversarial input alterations and perceptibility of such alterations. Moreover, we introduce a wide set of text similarity measures to effectively capture locality between two text samples and imperceptibility of adversarial perturbations in text. We then propose our novel TransformerExplanationAttack (TEA), a strong adversary that provides a tight estimation for attribution robustness in text classification. TEA uses state-of-the-art language models to extract word substitutions that result in fluent, contextual adversarial samples. Finally, with experiments on several text classification architectures, we show that TEA consistently outperforms current state-of-the-art AR estimators, yielding perturbations that alter explanations to a greater extent while being more fluent and less perceptible.
翻訳日:2022-12-20 15:19:23 公開日:2022-12-18
# 大規模マルチモーダル変圧器による医療診断--より正確な診断に多様なデータを活用する

Medical Diagnosis with Large Scale Multimodal Transformers -- Leveraging Diverse Data for More Accurate Diagnosis ( http://arxiv.org/abs/2212.09162v1 )

ライセンス: Link先を確認
Firas Khader, Gustav Mueller-Franzes, Tianci Wang, Tianyu Han, Soroosh Tayebi Arasteh, Christoph Haarburger, Johannes Stegmaier, Keno Bressem, Christiane Kuhl, Sven Nebelung, Jakob Nikolas Kather, Daniel Truhn(参考訳) マルチモーダルディープラーニングは臨床の終端を予測し、臨床のルーチンデータから診断するために使われてきた。 それぞれのデータタイプ内の各情報片間のペアリーなインタラクションを学ぶ必要があるため、管理可能なスケールを超えてモデルの複雑さをエスカレートする必要がある。 これにより、マルチモーダルディープラーニングが広く使われるようになった。 本稿では,データモダリティ間の関係的な相互作用のみを選択し,関連するデータの「内部記憶」を保持する「学習可能なシナジー」という新しい技術手法を提案する。 我々のアプローチは容易に拡張可能であり、臨床ルーチンからのマルチモーダルデータ入力に自然に適応する。 このアプローチを放射線学と眼科の3つの大きなマルチモーダルデータセットで実証し,臨床的に関連する診断課題において最先端のモデルを上回ることを示した。 当社の新しいアプローチはトランスファー可能であり、マルチモーダルディープラーニングを幅広い臨床関連の問題に適用することができる。

Multimodal deep learning has been used to predict clinical endpoints and diagnoses from clinical routine data. However, these models suffer from scaling issues: they have to learn pairwise interactions between each piece of information in each data type, thereby escalating model complexity beyond manageable scales. This has so far precluded a widespread use of multimodal deep learning. Here, we present a new technical approach of "learnable synergies", in which the model only selects relevant interactions between data modalities and keeps an "internal memory" of relevant data. Our approach is easily scalable and naturally adapts to multimodal data inputs from clinical routine. We demonstrate this approach on three large multimodal datasets from radiology and ophthalmology and show that it outperforms state-of-the-art models in clinically relevant diagnosis tasks. Our new approach is transferable and will allow the application of multimodal deep learning to a broad set of clinically relevant problems.
翻訳日:2022-12-20 15:18:58 公開日:2022-12-18
# ニューラルネットワークを用いたFhiithful Heteroscedastic Regression

Faithful Heteroscedastic Regression with Neural Networks ( http://arxiv.org/abs/2212.09184v1 )

ライセンス: Link先を確認
Andrew Stirn, Hans-Hermann Wessels, Megan Schertzer, Laura Pereira, Neville E. Sanjana, David A. Knowles(参考訳) ヘテロシデスティック回帰は、ガウス変数の平均と共変量の関数としての分散をモデル化する。 これらのパラメータマップにニューラルネットワークを使用するパラメトリックメソッドは、データ内の複雑な関係を捉えることができる。 しかし、対数確率勾配によるネットワークパラメータの最適化は、最適下限平均と非校正分散推定をもたらす。 現在のソリューションでは、この最適化問題を代理目的やベイズ処理で横取りしている。 代わりに、最適化に2つの簡単な修正を加えます。 特に、それらの組み合わせは、平均推定値がホモスセダティックモデルと同等に正確である(すなわち、平均値が二乗誤差損失に収まる)ヘテロスセダティックモデルを生成する。 様々なネットワークとタスクの複雑さに対して、既存のヘテロシデスティックな解からの平均推定は、同等に表現力のある平均のみのモデルよりはるかに精度が低いことが判明した。 我々のアプローチは、等しく柔軟な平均のみのモデルの精度を維持しつつ、クラス内分散キャリブレーションも提供します。 最後に,提案手法を応用して,基礎となるヘテロシステアシスノイズの分散を回復する方法を示す。

Heteroscedastic regression models a Gaussian variable's mean and variance as a function of covariates. Parametric methods that employ neural networks for these parameter maps can capture complex relationships in the data. Yet, optimizing network parameters via log likelihood gradients can yield suboptimal mean and uncalibrated variance estimates. Current solutions side-step this optimization problem with surrogate objectives or Bayesian treatments. Instead, we make two simple modifications to optimization. Notably, their combination produces a heteroscedastic model with mean estimates that are provably as accurate as those from its homoscedastic counterpart (i.e.~fitting the mean under squared error loss). For a wide variety of network and task complexities, we find that mean estimates from existing heteroscedastic solutions can be significantly less accurate than those from an equivalently expressive mean-only model. Our approach provably retains the accuracy of an equally flexible mean-only model while also offering best-in-class variance calibration. Lastly, we show how to leverage our method to recover the underlying heteroscedastic noise variance.
翻訳日:2022-12-20 15:17:48 公開日:2022-12-18
# 認定ロバスト性のための平滑化分類器の信頼度対応訓練

Confidence-aware Training of Smoothed Classifiers for Certified Robustness ( http://arxiv.org/abs/2212.09000v1 )

ライセンス: Link先を確認
Jongheon Jeong, Seojin Kim, Jinwoo Shin(参考訳) 任意の分類器はガウス雑音下で「スムースアウト」して、ランダムな平滑化によってノイズ上の予測を平均することで、$\ell_2$-adversarial perturbations(viz.)に確実に堅牢な新しい分類器を構築することができる。 滑らかな分類器の下では、精度と(逆)堅牢性の基本的なトレードオフが文献でよく証明されている:すなわち、入力に対する分類器の堅牢性を高めることは、他の入力に対する精度の低下を犠牲にすることができる。 本稿では,このトレードオフを利用した簡易な学習法を提案する。特に,トレーニングサンプル上でのロバスト性のサンプル的制御により,ロバストな平滑化分類器を得る。 この制御は、入力に対する対向ロバスト性の簡易なプロキシとして「ガウス雑音下での精度」を用いて実現可能である。 具体的には、このプロキシによってトレーニングの目標を区別し、最悪の(敵対的な)目標の恩恵を受けにくいサンプルをフィルタリングする。 実験の結果,提案手法は単純さに拘わらず,最先端のトレーニング手法の堅牢性が向上していることが判明した。 多少意外なことに、これらの改善は、例えば、さまざまなタイプの一般的な腐敗に対して、堅牢性という他の概念に対しても持続することがわかった。

Any classifier can be "smoothed out" under Gaussian noise to build a new classifier that is provably robust to $\ell_2$-adversarial perturbations, viz., by averaging its predictions over the noise via randomized smoothing. Under the smoothed classifiers, the fundamental trade-off between accuracy and (adversarial) robustness has been well evidenced in the literature: i.e., increasing the robustness of a classifier for an input can be at the expense of decreased accuracy for some other inputs. In this paper, we propose a simple training method leveraging this trade-off to obtain robust smoothed classifiers, in particular, through a sample-wise control of robustness over the training samples. We make this control feasible by using "accuracy under Gaussian noise" as an easy-to-compute proxy of adversarial robustness for an input. Specifically, we differentiate the training objective depending on this proxy to filter out samples that are unlikely to benefit from the worst-case (adversarial) objective. Our experiments show that the proposed method, despite its simplicity, consistently exhibits improved certified robustness upon state-of-the-art training methods. Somewhat surprisingly, we find these improvements persist even for other notions of robustness, e.g., to various types of common corruptions.
翻訳日:2022-12-20 15:08:03 公開日:2022-12-18
# 連続粒子フィルタを用いた繰り返しニューラルネットワークにおける隠れ状態近似

Hidden State Approximation in Recurrent Neural Networks Using Continuous Particle Filtering ( http://arxiv.org/abs/2212.09008v1 )

ライセンス: Link先を確認
Dexun Li(参考訳) 過去のデータを使用して将来のイベントを予測することは、株価予測やロボットのローカライゼーションなど、現実世界で多くの応用がある。 過去数十年間、畳み込み長短期メモリ(LSTM)ネットワークは、関連する分野におけるシーケンシャルデータで驚くべき成功を収めてきた。 しかし、従来のリカレントニューラルネットワーク(RNN)は、隠れた状態を決定論的に維持する。 本稿では,粒子を用いて潜在状態の分布を近似し,より複雑な形式,すなわちエンコーダ・デコーダ機構にどのように拡張できるかを示す。 提案した連続微分可能スキームでは,ベイズ則に従って付加価値情報を適応的に抽出し,潜時状態を更新することができる。 本研究は,予測タスクにおける提案手法の有効性を実証する。

Using historical data to predict future events has many applications in the real world, such as stock price prediction; the robot localization. In the past decades, the Convolutional long short-term memory (LSTM) networks have achieved extraordinary success with sequential data in the related field. However, traditional recurrent neural networks (RNNs) keep the hidden states in a deterministic way. In this paper, we use the particles to approximate the distribution of the latent state and show how it can extend into a more complex form, i.e., the Encoder-Decoder mechanism. With the proposed continuous differentiable scheme, our model is capable of adaptively extracting valuable information and updating the latent state according to the Bayes rule. Our empirical studies demonstrate the effectiveness of our method in the prediction tasks.
翻訳日:2022-12-20 15:07:37 公開日:2022-12-18
# フェイクレビュー検出における感性分析の影響

Impact of Sentiment Analysis in Fake Review Detection ( http://arxiv.org/abs/2212.08995v1 )

ライセンス: Link先を確認
Amira Yousif and James Buckley(参考訳) フェイクレビューの識別は重要なトピックであり、世界中の専門家の関心を集めている。 偽レビューを特定することは研究者にとって困難であり、偽レビュー検出にはいくつかの主な課題がある。 本稿では,感情分析を用いた偽レビュー調査のための初期研究論文の作成を提案する。 偽レビューを示す10の研究論文が特定され、偽レビューを予測または検出するための現在利用可能なソリューションについて論じている。 また、感情の分析を通じて、偽レビューや真理レビューの分布を示す。 偽レビューに関する過去の研究を要約して比較する。 我々は、感情評価プロセスにおける最も重要な課題を強調し、偽のフィードバックを特定するために使われる感情スコアに重大な影響があることを実証する。

Fake review identification is an important topic and has gained the interest of experts all around the world. Identifying fake reviews is challenging for researchers, and there are several primary challenges to fake review detection. We propose developing an initial research paper for investigating fake reviews by using sentiment analysis. Ten research papers are identified that show fake reviews, and they discuss currently available solutions for predicting or detecting fake reviews. They also show the distribution of fake and truthful reviews through the analysis of sentiment. We summarize and compare previous studies related to fake reviews. We highlight the most significant challenges in the sentiment evaluation process and demonstrate that there is a significant impact on sentiment scores used to identify fake feedback.
翻訳日:2022-12-20 15:01:34 公開日:2022-12-18
# ダンジョン&ドラゴンのためのドメイン固有の大規模データセットの合成と評価

Synthesis and Evaluation of a Domain-specific Large Data Set for Dungeons & Dragons ( http://arxiv.org/abs/2212.09080v1 )

ライセンス: Link先を確認
Akila Peiris, Nisansa de Silva(参考訳) 本稿では,FRW を用いた Forgotten Realms Wiki (FRW) データセットとドメイン固有自然言語生成について,関連する分析とともに紹介する。 forgotten realmsは、人気のオープンエンドテーブルトップファンタジーロールプレイングゲーム、dungeons & dragonsのデファクト設定である。 データセットは、45,200以上の記事からなるthe forgotten realms fandom wikiから抽出された。 FRWデータセットは、原文、記事タイトルで注釈付けされたプレーンテキスト、指示リンクグラフ、wiki記事タイトルで注釈付けされたwikiインフォメーションボックス、最初のリンクグラフのPoincar\'e埋め込み、コーパスの複数Word2VecおよびDoc2Vecモデルなど、11のサブデータセットで構成されている。 これはDungeons & Dragonsドメインにとって、このサイズの最初のデータセットである。 次に類似度尺度を用いたペアワイズ類似度比較ベンチマークを示す。 さらに、コーパスを用いてD&Dドメイン固有の自然言語生成を行い、Forgotten Realmsの伝承に関する名前付きエンティティ分類を評価する。

This paper introduces the Forgotten Realms Wiki (FRW) data set and domain specific natural language generation using FRW along with related analyses. Forgotten Realms is the de-facto default setting of the popular open ended tabletop fantasy role playing game, Dungeons & Dragons. The data set was extracted from the Forgotten Realms Fandom wiki consisting of more than over 45,200 articles. The FRW data set is constituted of 11 sub-data sets in a number of formats: raw plain text, plain text annotated by article title, directed link graphs, wiki info-boxes annotated by the wiki article title, Poincar\'e embedding of first link graph, multiple Word2Vec and Doc2Vec models of the corpus. This is the first data set of this size for the Dungeons & Dragons domain. We then present a pairwise similarity comparison benchmark which utilizes similarity measures. In addition, we perform D&D domain specific natural language generation using the corpus and evaluate the named entity classification with respect to the lore of Forgotten Realms.
翻訳日:2022-12-20 15:01:24 公開日:2022-12-18
# 言語モデル受容性判断は必ずしも文脈にロバストではない

Language model acceptability judgements are not always robust to context ( http://arxiv.org/abs/2212.08979v1 )

ライセンス: Link先を確認
Koustuv Sinha, Jon Gauthier, Aaron Mueller, Kanishka Misra, Keren Fuentes, Roger Levy, Adina Williams(参考訳) 言語モデルの構文的評価は、最小対の許容できない入力よりも構文的に許容されるコンテンツの安定的な嗜好を示すかどうかを問う。 ほとんどのターゲットとなる構文評価データセットは、入力として単一の文脈自由文でこれらの判断を行うようモデルに求める。 これは、入力文が常に周囲のコーパスによって高度に文脈化される言語モデルの訓練体制と一致しない。 このミスマッチは重要な疑問を提起する: 異なるコンテキストにおけるモデルの構文判断はどの程度堅牢か? 本稿では, 言語モデルの性能が, 文脈の長さ, 含んでいる構文現象の種類, 文法性に違反があるか否か, など, 入力コンテキストの特性によって異なる場合, 対象の構文評価に対する安定性について検討する。 ランダムにサンプル化された言語コンテキストに配置すると、モデル判断は概して堅牢である。 しかし、重要なテスト内容と一致する構文構造を含む文脈では、かなり不安定である。 すべての試験モデル (GPT-2 と OPT の5変種) の中で, 一致した構文構造を持つコンテキストを提供することで, モデルの判断を著しく改善し, 一致しないが構文構造に反するコンテキストを用いて, 逆に有意に悪化させた。 この効果は、無関係な入力を除いて、文脈の長さによって増幅される。 これらのモデル性能の変化は、語彙重なりや依存性重なりなど、コンテキストとテストインプットにマッチする単純な機能によって説明できないことを示す。 この文脈の特定の構文的特徴に対する感度は、モデル内の暗黙的な学習能力によってのみ説明できる。

Targeted syntactic evaluations of language models ask whether models show stable preferences for syntactically acceptable content over minimal-pair unacceptable inputs. Most targeted syntactic evaluation datasets ask models to make these judgements with just a single context-free sentence as input. This does not match language models' training regime, in which input sentences are always highly contextualized by the surrounding corpus. This mismatch raises an important question: how robust are models' syntactic judgements in different contexts? In this paper, we investigate the stability of language models' performance on targeted syntactic evaluations as we vary properties of the input context: the length of the context, the types of syntactic phenomena it contains, and whether or not there are violations of grammaticality. We find that model judgements are generally robust when placed in randomly sampled linguistic contexts. However, they are substantially unstable for contexts containing syntactic structures matching those in the critical test content. Among all tested models (GPT-2 and five variants of OPT), we significantly improve models' judgements by providing contexts with matching syntactic structures, and conversely significantly worsen them using unacceptable contexts with matching but violated syntactic structures. This effect is amplified by the length of the context, except for unrelated inputs. We show that these changes in model performance are not explainable by simple features matching the context and the test inputs, such as lexical overlap and dependency overlap. This sensitivity to highly specific syntactic features of the context can only be explained by the models' implicit in-context learning abilities.
翻訳日:2022-12-20 14:49:58 公開日:2022-12-18
# 新しい複雑なtwitterデータセットにおけるロバストなセマンティックフレーム解析パイプライン

A Robust Semantic Frame Parsing Pipeline on a New Complex Twitter Dataset ( http://arxiv.org/abs/2212.08987v1 )

ライセンス: Link先を確認
Yu Wang and Hongxia Jin(参考訳) 最近の音声言語理解のためのセマンティックフレーム解析システムは、繰り返しニューラルネットワークに基づいて設計されている。 これらのシステムは、ATISやSNIPSなどのベンチマークSLUデータセットにおいて、比較的単純なパターンの短い発話を含む良好な性能を示す。 しかし、現在のセマンティックフレーム解析モデルは、分配外(\emph{ood})パターンと語彙外(\emph{oov})トークンを扱うメカニズムを欠いている。 本稿では,より多くの \emph{OOD} パターンと \emph{OOV} トークンと,さらに多くの \emph{OOD} パターンと \emph{OOV} トークンを含む長いつぶやきを含む新しい複雑な Twitter データセットを併用した,ロバストなセマンティックフレーム解析パイプラインを提案する。 新しいパイプラインは、SNIPSデータセットと新しいTwitterデータセットの両方の最先端のベースラインSLUモデルと比較して、はるかに優れた結果を示している(新しいTwitterデータセットはhttps://1drv.ms/u/s!AroHb-W6_OAlavK4begsDsMALfE?e=c8f2XX )。 最後に、E2Eアプリケーションを構築し、アルゴリズムの有効性をデモし、それが実際のアプリケーションで有用である理由を示す。

Most recent semantic frame parsing systems for spoken language understanding (SLU) are designed based on recurrent neural networks. These systems display decent performance on benchmark SLU datasets such as ATIS or SNIPS, which contain short utterances with relatively simple patterns. However, the current semantic frame parsing models lack a mechanism to handle out-of-distribution (\emph{OOD}) patterns and out-of-vocabulary (\emph{OOV}) tokens. In this paper, we introduce a robust semantic frame parsing pipeline that can handle both \emph{OOD} patterns and \emph{OOV} tokens in conjunction with a new complex Twitter dataset that contains long tweets with more \emph{OOD} patterns and \emph{OOV} tokens. The new pipeline demonstrates much better results in comparison to state-of-the-art baseline SLU models on both the SNIPS dataset and the new Twitter dataset (Our new Twitter dataset can be downloaded from https://1drv.ms/u/s!AroHb-W6_OAlavK4begsDsMALfE?e=c8f2XX ). Finally, we also build an E2E application to demo the feasibility of our algorithm and show why it is useful in real application.
翻訳日:2022-12-20 14:43:47 公開日:2022-12-18
# インコンテキスト学習におけるスケールの役割再考--660億スケールでの解釈可能性に基づくケーススタディ

Rethinking the Role of Scale for In-Context Learning: An Interpretability-based Case Study at 66 Billion Scale ( http://arxiv.org/abs/2212.09095v1 )

ライセンス: Link先を確認
Hritik Bansal, Karthik Gopalakrishnan, Saket Dingliwal, Sravan Bodapati, Katrin Kirchhoff, Dan Roth(参考訳) 言語モデルは、コンテキスト内学習パラダイムを通じて、幅広いタスクのスケールを拡大することで、よりよいパフォーマンスを示すことが示されている。 本稿では,大規模言語モデルがタスクをテキスト内で学習する能力が,その基盤となるすべてのコンポーネントに均一に分散していないという仮説を考察する。 6600億のパラメータ言語モデル(OPT-66B)を14のダウンストリームタスクの多様なセットで使用することにより、実際にこれが事実であることが分かる:$\sim$70%の注目ヘッドと$\sim$20%のフィードフォワードネットワークは、タスクパフォーマンスの最小限の低下で除去できる。 タスク間のインコンテキスト学習やインコンテキストの例の数において,注意点の集合が著しく重複していることが判明した。 また,op-66bにおける注意ヘッドの少なさは,文脈内学習,すなわちプレフィックスマッチングとコピーに関連する原始的帰納的操作を行う能力に非常に依存していることを見出した。 これらの誘導ヘッドはタスク固有の重要なヘッドと重なり合い、インコンテクスト学習に関連するより洗練された振る舞いが可能な頭の中に誘導ヘッドがあることを示唆している。 全体として、本研究では、大規模言語モデルが文脈内学習を行うために過小評価されていることを示し、文脈内学習をより効果的に行うために、言語モデルを事前学習する方法に関する疑問を提起する。

Language models have been shown to perform better with an increase in scale on a wide variety of tasks via the in-context learning paradigm. In this paper, we investigate the hypothesis that the ability of a large language model to in-context learn-perform a task is not uniformly spread across all of its underlying components. Using a 66 billion parameter language model (OPT-66B) across a diverse set of 14 downstream tasks, we find this is indeed the case: $\sim$70% of attention heads and $\sim$20% of feed forward networks can be removed with minimal decline in task performance. We find substantial overlap in the set of attention heads (un)important for in-context learning across tasks and number of in-context examples. We also address our hypothesis through a task-agnostic lens, finding that a small set of attention heads in OPT-66B score highly on their ability to perform primitive induction operations associated with in-context learning, namely, prefix matching and copying. These induction heads overlap with task-specific important heads, suggesting that induction heads are among the heads capable of more sophisticated behaviors associated with in-context learning. Overall, our study provides several insights that indicate large language models may be under-trained to perform in-context learning and opens up questions on how to pre-train language models to more effectively perform in-context learning.
翻訳日:2022-12-20 14:43:16 公開日:2022-12-18
# リコール、拡張、多候補クロスエンコード:高速かつ高精度なエンティティタイピング

Recall, Expand and Multi-Candidate Cross-Encode: Fast and Accurate Ultra-Fine Entity Typing ( http://arxiv.org/abs/2212.09125v1 )

ライセンス: Link先を確認
Chengyue Jiang, Wenyang Hui, Yong Jiang, Xiaobin Wang, Pengjun Xie, Kewei Tu(参考訳) ウルトラファインエンティティタイピング(UFET)は、与えられたエンティティの言及(例えばジョー・バイデン)の極めて自由な型(例えば大統領、政治家)を文脈で予測する。 State-of-the-art(SOTA)メソッドは、クロスエンコーダ(CE)ベースのアーキテクチャを使用する。 ceは、各タイプへの言及(とその文脈)を結合し、ペアを事前訓練された言語モデル(plm)に供給し、関連性をスコアする。 パフォーマンスを向上させるために、参照と型の間のより深い相互作用をもたらすが、単一の参照の型を推論するためにN(タイプセットサイズ)を前方に通過する必要がある。 したがって、CE は型集合が大きいとき(例えば UFET の N = 10k など)推論において非常に遅い。 この目的のために,リコールフィルタ方式でエンティティ型付けを行うことを提案する。 リコールおよび拡張ステージは、大きな型集合をプルーンし、各言及に最も関連する型候補K(Kは256未満)を生成する。 フィルタ段階では、MCCEと呼ばれる新しいモデルを用いて、これらのK候補を1つのフォワードパスで同時に符号化し、スコアし、最終的な型予測を得る。 我々は,MCCEの様々な変種について検討し,MCCEが超微細なエンティティタイピングにおいてSOTA性能に到達し,クロスエンコーダよりも数千倍高速であることを示す。 また,MCCEは細粒度 (130型) と粗粒度 (9型) のエンティティタイピングに非常に有効であることがわかった。 私たちのコードは \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE} で利用可能です。

Ultra-fine entity typing (UFET) predicts extremely free-formed types (e.g., president, politician) of a given entity mention (e.g., Joe Biden) in context. State-of-the-art (SOTA) methods use the cross-encoder (CE) based architecture. CE concatenates the mention (and its context) with each type and feeds the pairs into a pretrained language model (PLM) to score their relevance. It brings deeper interaction between mention and types to reach better performance but has to perform N (type set size) forward passes to infer types of a single mention. CE is therefore very slow in inference when the type set is large (e.g., N = 10k for UFET). To this end, we propose to perform entity typing in a recall-expand-filter manner. The recall and expand stages prune the large type set and generate K (K is typically less than 256) most relevant type candidates for each mention. At the filter stage, we use a novel model called MCCE to concurrently encode and score these K candidates in only one forward pass to obtain the final type prediction. We investigate different variants of MCCE and extensive experiments show that MCCE under our paradigm reaches SOTA performance on ultra-fine entity typing and is thousands of times faster than the cross-encoder. We also found MCCE is very effective in fine-grained (130 types) and coarse-grained (9 types) entity typing. Our code is available at \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}.
翻訳日:2022-12-20 14:42:51 公開日:2022-12-18
# コントラストに基づく文表現学習における等方性と学習ダイナミクスについて

On Isotropy and Learning Dynamics of Contrastive-based Sentence Representation Learning ( http://arxiv.org/abs/2212.09170v1 )

ライセンス: Link先を確認
Chenghao Xiao, Yang Long, Noura Al Moubayed(参考訳) 文表現学習(SRL)における対照的な学習目標を組み込むことにより,多くの文レベルNLPタスクにおいて大幅な改善が得られた。 しかし、なぜコントラスト学習が文レベルの意味論の学習に有効であるのかはよく分かっていない。 本稿では,等方性と学習ダイナミクスのレンズを用いたコントラスト文表現学習について,より詳しく検討する。 我々はその成功物語を表現シフトの幾何学を通して解釈する。 対照的な学習は等方性をもたらし、同じ文にあるというシグナルが与えられた場合、驚くほど意味空間の類似の位置にトークンを収束させることを学ぶ。 として形式化したものは、意味的に意味のあるトークンに対して緩和され、機能的に拡張されます。 埋め込み空間はトレーニング中に原点に向かって押し出され、さらに多くの領域が定義されるようになった。 これらの知見を, 異なる学習温度, バッチサイズ, プール法で観察することで要約した。 これらの結果から,文表現学習手法の今後の設計に光を当てることを目指している。

Incorporating contrastive learning objectives in sentence representation learning (SRL) has yielded significant improvements on many sentence-level NLP tasks. However, It is not well understood why contrastive learning works for learning sentence-level semantics. In this paper, we take a closer look at contrastive sentence representation learning through the lens of isotropy and learning dynamics. We interpret its success stories through the geometry of the representation shifts. We show that contrastive learning brings isotropy, and surprisingly learns to converge tokens to similar positions in the semantic space if given the signal that they are in the same sentence. Also, what we formalize as "spurious contextualization" is mitigated for semantically meaningful tokens, while augmented for functional ones. The embedding space is pushed toward the origin during training, with more areas now better defined. We ablate these findings by observing the learning dynamic with different training temperatures, batch sizes and pooling methods. With these findings, we aim to shed light on future designs of sentence representation learning methods.
翻訳日:2022-12-20 14:42:21 公開日:2022-12-18
# BEATs:音響トケナイザによるオーディオ事前学習

BEATs: Audio Pre-Training with Acoustic Tokenizers ( http://arxiv.org/abs/2212.09058v1 )

ライセンス: Link先を確認
Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo Chen, Furu Wei(参考訳) 自己教師型学習(SSL)の大規模な成長は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで見られてきた。 離散ラベル予測は他のモダリティにも広く採用されているが、最先端のオーディオSSLモデルは、まだ事前トレーニングのために再構成損失を使用している。 リコンストラクション損失と比較して、セマンティックリッチな離散ラベル予測は、SSLモデルを高レベルの音声セマンティクスを抽象化し、人間の知覚のように冗長な詳細を破棄することを奨励する。 しかし、一般的な音声事前学習のための意味豊富な音響トークンは、音声や音声のような使用できない音素列の連続性のため、通常は簡単には得られない。 この課題に対処するために,音声変換器から双方向エンコーダ表現を学習する反復型オーディオ事前学習フレームワークBEATを提案する。 最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。 次に、事前学習または微調整されたオーディオsslモデルから意味知識を抽出して、次のイテレーションのための音響トークン化器を訓練する。 この反復は音響トークン化器と音声sslモデルの相互促進を期待して繰り返される。 実験結果から,音響トークン化器は,音声セマンティクスに富んだ離散ラベルを生成でき,オーディオsslモデルは,様々な音響分類ベンチマークにおいて最先端の結果を得ることができた。 具体的には,外部データを使用しないオーディオ専用モデルに対して,オーディオセット2mの50.6%,esc-50の98.1%の精度を新たに設定した。 コードと事前訓練されたモデルはhttps://aka.ms/beats.comで入手できる。

The massive growth of self-supervised learning (SSL) has been witnessed in language, vision, speech, and audio domains over the past few years. While discrete label prediction is widely adopted for other modalities, the state-of-the-art audio SSL models still employ reconstruction loss for pre-training. Compared with reconstruction loss, semantic-rich discrete label prediction encourages the SSL model to abstract the high-level audio semantics and discard the redundant details as in human perception. However, a semantic-rich acoustic tokenizer for general audio pre-training is usually not straightforward to obtain, due to the continuous property of audio and unavailable phoneme sequences like speech. To tackle this challenge, we propose BEATs, an iterative audio pre-training framework to learn Bidirectional Encoder representation from Audio Transformers, where an acoustic tokenizer and an audio SSL model are optimized by iterations. In the first iteration, we use random projection as the acoustic tokenizer to train an audio SSL model in a mask and label prediction manner. Then, we train an acoustic tokenizer for the next iteration by distilling the semantic knowledge from the pre-trained or fine-tuned audio SSL model. The iteration is repeated with the hope of mutual promotion of the acoustic tokenizer and audio SSL model. The experimental results demonstrate our acoustic tokenizers can generate discrete labels with rich audio semantics and our audio SSL models achieve state-of-the-art results across various audio classification benchmarks, even outperforming previous models that use more training data and model parameters significantly. Specifically, we set a new state-of-the-art mAP 50.6% on AudioSet-2M for audio-only models without using any external data, and 98.1% accuracy on ESC-50. The code and pre-trained models are available at https://aka.ms/beats.
翻訳日:2022-12-20 14:33:52 公開日:2022-12-18
# グラフニューラルネットワークに対する影響に基づくミニバッチ

Influence-Based Mini-Batching for Graph Neural Networks ( http://arxiv.org/abs/2212.09083v1 )

ライセンス: Link先を確認
Johannes Gasteiger, Chendi Qian, Stephan G\"unnemann(参考訳) グラフニューラルネットワークを大きなグラフに使用することは、ミニバッチを構築する明確な方法がないため、難しい。 これを解決するために、以前の方法はサンプリングやグラフクラスタリングに依存していた。 これらのアプローチは、しばしば優れたトレーニング収束をもたらすが、高価なランダムデータアクセスによるかなりのオーバーヘッドを導入し、推論時に性能が低下する。 この作業では、代わりに推論中のモデル行動に焦点を当てます。 ノードの出力への影響スコアを最大化することでバッチ構成を理論的にモデル化する。 この定式化は、訓練されたモデルに関する知識がない場合、出力の最適近似をもたらす。 結果の手法をインフルエンスベースのミニバッチ (IBMB) と呼ぶ。 IBMBは、同様の精度に達する従来の方法と比較して、推論を最大130倍高速化する。 注目すべきなのは、適応最適化と適切なトレーニングスケジュールによって、事前に計算されたバッチと連続したメモリアクセスのおかげで、IBMBはトレーニングを大幅に高速化することができることだ。 これにより、エポック毎のトレーニングが最大で18倍、ランタイム毎のコンバージェンスが従来に比べて17倍高速になる。

Using graph neural networks for large graphs is challenging since there is no clear way of constructing mini-batches. To solve this, previous methods have relied on sampling or graph clustering. While these approaches often lead to good training convergence, they introduce significant overhead due to expensive random data accesses and perform poorly during inference. In this work we instead focus on model behavior during inference. We theoretically model batch construction via maximizing the influence score of nodes on the outputs. This formulation leads to optimal approximation of the output when we do not have knowledge of the trained model. We call the resulting method influence-based mini-batching (IBMB). IBMB accelerates inference by up to 130x compared to previous methods that reach similar accuracy. Remarkably, with adaptive optimization and the right training schedule IBMB can also substantially accelerate training, thanks to precomputed batches and consecutive memory accesses. This results in up to 18x faster training per epoch and up to 17x faster convergence per runtime compared to previous methods.
翻訳日:2022-12-20 14:23:17 公開日:2022-12-18
# 短時間負荷予測のための動的注意付き文脈拡張ES-dRNN

Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load Forecasting ( http://arxiv.org/abs/2212.09030v1 )

ライセンス: Link先を確認
Slawek Smyl, Grzegorz Dudek, Pawe{\l} Pe{\l}ka(参考訳) 本稿では,指数的スムーシング(ES)とリカレントニューラルネットワーク(RNN)を組み合わせたコンテキスト拡張型ハイブリッドおよび階層型アーキテクチャに基づく,新しい短期負荷予測(STLF)モデルを提案する。 モデルは、コンテキストトラックとメイントラックの2つの同時に訓練されたトラックで構成されている。 コンテキストトラックは、メイントラックに追加情報を導入する。 代表的なシリーズから抽出され、メイントラックで予測される個々のシリーズに合わせて動的に変調される。 RNNアーキテクチャは、階層的拡張を積み重ねた複数の繰り返し層で構成され、最近提案された減衰性拡張型リカレントセルを備えている。 これらのセルは、時系列にわたって短期的、長期的、季節的な依存関係を捉え、入力情報を動的に重み付けすることができる。 このモデルは点予測と予測間隔の両方を生成する。 35の予測問題に対する実験の結果,提案モデルが従来の精度,標準統計モデル,最先端の機械学習モデルよりも優れていたことが示唆された。

In this paper, we propose a new short-term load forecasting (STLF) model based on contextually enhanced hybrid and hierarchical architecture combining exponential smoothing (ES) and a recurrent neural network (RNN). The model is composed of two simultaneously trained tracks: the context track and the main track. The context track introduces additional information to the main track. It is extracted from representative series and dynamically modulated to adjust to the individual series forecasted by the main track. The RNN architecture consists of multiple recurrent layers stacked with hierarchical dilations and equipped with recently proposed attentive dilated recurrent cells. These cells enable the model to capture short-term, long-term and seasonal dependencies across time series as well as to weight dynamically the input information. The model produces both point forecasts and predictive intervals. The experimental part of the work performed on 35 forecasting problems shows that the proposed model outperforms in terms of accuracy its predecessor as well as standard statistical models and state-of-the-art machine learning models.
翻訳日:2022-12-20 14:16:04 公開日:2022-12-18
# 在庫管理のための共有資源を用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Shared Resources for Inventory Management ( http://arxiv.org/abs/2212.07684v2 )

ライセンス: Link先を確認
Yuandong Ding, Mingxiao Feng, Guozi Liu, Wei Jiang, Chuheng Zhang, Li Zhao, Lei Song, Houqiang Li, Yan Jin, Jiang Bian(参考訳) 本稿では、在庫管理(IM)問題について検討し、その供給と需要のバランスをとるために、多数の在庫管理ユニット(SKU)の補充決定を行う必要がある。 私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。 この構造を共有資源確率ゲーム(SRSG)として定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。 実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることを示した。

In this paper, we consider the inventory management (IM) problem where we need to make replenishment decisions for a large number of stock keeping units (SKUs) to balance their supply and demand. In our setting, the constraint on the shared resources (such as the inventory capacity) couples the otherwise independent control for each SKU. We formulate the problem with this structure as Shared-Resource Stochastic Game (SRSG)and propose an efficient algorithm called Context-aware Decentralized PPO (CD-PPO). Through extensive experiments, we demonstrate that CD-PPO can accelerate the learning procedure compared with standard MARL algorithms.
翻訳日:2022-12-20 11:58:35 公開日:2022-12-18
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v2 )

ライセンス: Link先を確認
Yikun Bai and Bernard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2022-12-20 11:58:25 公開日:2022-12-18