このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230226となっている論文です。

PDF登録状況(公開日: 20230226)

TitleAuthorsAbstract論文公表日・翻訳日
# ビルホフ・フォン・ノイマンの定理に合致する共同測定可能性

Joint measurability meets Birkhoff-von Neumann's theorem ( http://arxiv.org/abs/1809.07366v4 )

ライセンス: Link先を確認
Leonardo Guerini and Alexandre Baraviera(参考訳) 量子測定は確率ベクトルの一般化と解釈でき、非負の実数は正の半定値作用素に置き換えられる。 このアナロジーを外挿して、二重正規化テンソル (DNT) と呼ばれる二重確率行列の一般化を定義し、バーコフ・ヴォン・ノイマンの定理(英語版)(Birkhoff-von Neumann's theorem)の対応するバージョンを定式化する。 我々は、この文脈でDNTの数学的特徴として関節測度が生じることを証明し、バーホフ=ヴォン・ノイマン(Birkhoff-von Neumann)と同様の性格化を確立する必要がある。 逆に、DNTは、一般作用素理論におけるその関連性に言及しながら、結合可測性問題の特定の事例から自然に現れることを示す。

Quantum measurements can be interpreted as a generalisation of probability vectors, in which non-negative real numbers are replaced by positive semi-definite operators. We extrapolate this analogy to define a generalisation of doubly stochastic matrices that we call doubly normalised tensors (DNTs), and formulate a corresponding version of Birkhoff-von Neumann's theorem, which states that permutations are the extremal points of the set of doubly stochastic matrices. We prove that joint measurability arises as a mathematical feature of DNTs in this context, needed to establish a characterisation similar to Birkhoff-von Neumann's. Conversely, we also show that DNTs emerge naturally from a particular instance of a joint measurability problem, remarking its relevance in general operator theory.
翻訳日:2023-03-25 04:50:53 公開日:2023-02-26
# chatgptを用いたヒューマンボット協調ソフトウェア構築に向けて

Towards Human-Bot Collaborative Software Architecting with ChatGPT ( http://arxiv.org/abs/2302.14600v1 )

ライセンス: Link先を確認
Aakash Ahmad, Muhammad Waseem, Peng Liang, Mahdi Fehmideh, Mst Shamima Aktar, Tommi Mikkonen(参考訳) ソフトウェア集約システムのアーキテクチャは複雑なプロセスになり得る。 これは、ステークホルダの視点、デザイナーの知性、ツールベースの自動化、パターン駆動再利用などを統合するという厄介なタスクを扱い、ソフトウェアの実装と評価を導く青写真を描く。 その利点にもかかわらず、アーキテクチャ中心のソフトウェアエンジニアリング(ACSE)は多くの課題を継承します。 ACSEの課題は、標準化されたプロセスの欠如、社会技術的制限、そして既存のおよび創発的なソフトウェア(IoT、ブロックチェーン、量子システムなど)の開発を妨げる人間の専門知識の不足に起因する可能性がある。 大規模言語モデルでトレーニングされたソフトウェア開発ボット(DevBots)は、AIによる意思決定支援によるアーキテクトの知識の相乗効果によって、人間-ボットの共同作業型ACSEにおける迅速なアーキテクチャを実現する。 このコラボレーションを実現するための新たなソリューションがchatgptである。これは、主にソフトウェア工学に導入されるのではなく、自然言語処理に基づいてアーキテクチャアーティファクトを調停し、洗練することができる破壊的な技術である。 我々は、サービス駆動ソフトウェアアプリケーションのアーキテクチャ分析、合成、評価のための初心者ソフトウェアアーキテクトとchatgptのコラボレーションに関するケーススタディを詳述する。 予備的な結果は、ChatGPTがACSEを支援し、しばしばリードするアーキテクトの役割を模倣できることを示している。 今後の研究は、建築家の生産性に関する実証的な証拠の活用と、ACSEの新たな未来的課題に取り組むためのChatGPTによる建築の社会技術的側面の探求に焦点を当てている。

Architecting software-intensive systems can be a complex process. It deals with the daunting tasks of unifying stakeholders' perspectives, designers' intellect, tool-based automation, pattern-driven reuse, and so on, to sketch a blueprint that guides software implementation and evaluation. Despite its benefits, architecture-centric software engineering (ACSE) inherits a multitude of challenges. ACSE challenges could stem from a lack of standardized processes, socio-technical limitations, and scarcity of human expertise etc. that can impede the development of existing and emergent classes of software (e.g., IoTs, blockchain, quantum systems). Software Development Bots (DevBots) trained on large language models can help synergise architects' knowledge with artificially intelligent decision support to enable rapid architecting in a human-bot collaborative ACSE. An emerging solution to enable this collaboration is ChatGPT, a disruptive technology not primarily introduced for software engineering, but is capable of articulating and refining architectural artifacts based on natural language processing. We detail a case study that involves collaboration between a novice software architect and ChatGPT for architectural analysis, synthesis, and evaluation of a services-driven software application. Preliminary results indicate that ChatGPT can mimic an architect's role to support and often lead ACSE, however; it requires human oversight and decision support for collaborative architecting. Future research focuses on harnessing empirical evidence about architects' productivity and exploring socio-technical aspects of architecting with ChatGPT to tackle emerging and futuristic challenges of ACSE.
翻訳日:2023-03-01 16:16:32 公開日:2023-02-26
# 創発的非局所対称性を持つ対称非エルミート皮膚効果

Symmetric non-Hermitian skin effect with emergent nonlocal symmetry ( http://arxiv.org/abs/2302.13213v1 )

ライセンス: Link先を確認
Zhi-Yuan Wang, Jian-Song Hong, and Xiong-Jun Liu(参考訳) 非エルミート皮膚効果(英: non-Hermitian skin effect, NHSE)とは、非エルミート系の多くの固有状態が開境界に局在していることをいう。 ここでは、局所粒子ホール対称性(PHS)により、皮膚モードは異なる境界上に均等に分散されなければならないという普遍的な現象を予測し、非エルミート系に特有の新しい非局所化を示す。 我々は、非エルミート系を二次ヒルベルト空間内の拡張エルミートハミルトニアンと接続し、スキンモードを位相的ゼロモード、phsを多くの体物理学の観点から創発的非局所対称性にマッピングすることによって、創発的非局所対称性保護nhseのジェネリック理論を開発する。 NHSEは摂動に対して頑丈である。 コールド原子実験で利用できる全ての物理次元の予測現象を観測するための光学ラマン格子モデルを提案する。

The non-Hermitian skin effect (NHSE) refers to that an extensive number of eigenstates of a non-Hermitian system are localized in open boundaries. Here we predict a universal phenomenon that with local particle-hole(-like) symmetry (PHS) the skin modes must be equally distributed on different boundaries, manifesting a novel nonlocalization of the local PHS, which is unique to non-Hermitian systems. We develop a generic theory for the emergent nonlocal symmetry-protected NHSE by connecting the non-Hermitian system to an extended Hermitian Hamiltonian in a quadruplicate Hilbert space, which maps the skin modes to the topological zero modes and the PHS to an emergent nonlocal symmetry in the perspective of many body physics. The predicted NHSE is robust against perturbations. We propose optical Raman lattice models to observe the predicted phenomena in all physical dimensions, which are accessible with cold-atom experiments.
翻訳日:2023-02-28 18:23:21 公開日:2023-02-26
# ニューロモルフィックコンピューティングとアプリケーション駆動協調設計のためのautoml:スパイクアーキテクチャの非同期・超並列最適化

AutoML for neuromorphic computing and application-driven co-design: asynchronous, massively parallel optimization of spiking architectures ( http://arxiv.org/abs/2302.13210v1 )

ライセンス: Link先を確認
Angel Yanguas-Gil and Sandeep Madireddy(参考訳) 本研究では,ニューロモルフィックアーキテクチャの探索と最適化に対するautomlインスパイアされたアプローチを拡張した。 スパイクアーキテクチャをシミュレートするシミュレーションフレームワークと並列非同期モデルに基づく検索アプローチの統合により、神経形態的アーキテクチャの構成空間を効率的に探索し、ターゲットとするアプリケーションで最高のパフォーマンスをもたらす条件のサブセットを特定できる。 我々は,この手法を実時間,オンチップ学習アプリケーションで実証した。 この結果から,複雑なアーキテクチャを最適化するために最適化アプローチを効果的に活用できることが示唆された。

In this work we have extended AutoML inspired approaches to the exploration and optimization of neuromorphic architectures. Through the integration of a parallel asynchronous model-based search approach with a simulation framework to simulate spiking architectures, we are able to efficiently explore the configuration space of neuromorphic architectures and identify the subset of conditions leading to the highest performance in a targeted application. We have demonstrated this approach on an exemplar case of real time, on-chip learning application. Our results indicate that we can effectively use optimization approaches to optimize complex architectures, therefore providing a viable pathway towards application-driven codesign.
翻訳日:2023-02-28 18:23:01 公開日:2023-02-26
# 量子力学と古典力学の波動作用素表現

The wave operator representation of quantum and classical dynamics ( http://arxiv.org/abs/2302.13208v1 )

ライセンス: Link先を確認
Gerard McCaul, Dmitry V. Zhdanov, Denys I. Bondar(参考訳) 物理系を記述する際の数学的表現の選択は大きな結果であり、この選択は通常、目の前の問題の性質によって決定される。 ここでは、量子力学のほとんど知られていない波動演算子表現を調べ、量子力学の標準的な方法との接続について検討する。 この方法は密度行列の平方根を中心対象とし、標準表現よりもいくつかの特異な利点を享受する。 これを量子情報から抽出した浄化技術と組み合わせることで、多くの結果を得ることができる。 この形式主義は、位相とヒルベルト空間の量子力学と古典力学の両方の自然な橋渡しを提供するだけでなく、ウェーブ演算表現は、実時間力学と虚時間力学の両方の新たな半古典的近似を導き、古典的極限への透過的な対応をもたらす。 これは2次および4次ハミルトニアンの例を通して実証され、ウェーブ演算子のポテンシャル拡張とその量子古典ハイブリッドへの応用について論じられる。 我々は、ウェーブ演算子は、それまで無関係な表現をリンクする新しい視点を提供し、肯定性が保証されないシナリオ(ハイブリッドなど)の自然な候補モデルであると主張する。

The choice of mathematical representation when describing physical systems is of great consequence, and this choice is usually determined by the properties of the problem at hand. Here we examine the little-known wave operator representation of quantum dynamics, and explore its connection to standard methods of quantum dynamics. This method takes as its central object the square root of the density matrix, and consequently enjoys several unusual advantages over standard representations. By combining this with purification techniques imported from quantum information, we are able to obtain a number of results. Not only is this formalism able to provide a natural bridge between phase and Hilbert space representations of both quantum and classical dynamics, we also find the waveoperator representation leads to novel semiclassical approximations of both real and imaginary time dynamics, as well as a transparent correspondence to the classical limit. This is demonstrated via the example of quadratic and quartic Hamiltonians, while the potential extensions of the waveoperator and its application to quantum-classical hybrids is discussed. We argue that the wave operator provides a new perspective that links previously unrelated representations, and is a natural candidate model for scenarios (such as hybrids) in which positivity cannot be otherwise guaranteed.
翻訳日:2023-02-28 18:22:50 公開日:2023-02-26
# ステレオX線トモグラフィー

Stereo X-ray Tomography ( http://arxiv.org/abs/2302.13207v1 )

ライセンス: Link先を確認
Zhenduo Shang and Thomas Blumensath(参考訳) X線トモグラフィーは強力なボリュームイメージング技術であるが、詳細な3次元イメージングでは大量の個々のX線画像を取得する必要がある。 例えば動的過程を研究する場合、空間情報を迅速に収集する必要がある場合、標準的なx線トモグラフィーは適用されない。 本稿では,立体視に触発されて2つのX線投影画像で動作するX線イメージング法を開発する。 この設定では、追加の強力な事前情報を使用しなければ、3d断層画像を完全に復元するのに十分な情報が得られなくなる。 しかし、ある時点まで、我々は点と線の特徴の空間的位置を抽出することができる。 立体視では、既知の画像幾何学において、同じ点が異なる方向から撮影された2つの画像で特定されると、点の位置が正確に指定されることが知られている。 課題は、画像間のポイントのマッチングです。 X線透過画像は、標準コンピュータビジョンで使用される表面反射画像と根本的に異なるため、特徴識別とマッチングのアプローチを開発する。 実際、ある点のような特徴が特定されると、画像に限られた点がある場合、その点を正確に一致させることができる。 実際、適切な方向から第3の観測を利用すれば、マッチングはユニークになる。 一致すると、3次元空間内の点の位置は幾何学的考察を用いて容易に計算できる。 明確な端点を持つ線形機能は、同様のアプローチで配置することができる。

X-ray tomography is a powerful volumetric imaging technique, but detailed three dimensional (3D) imaging requires the acquisition of a large number of individual X-ray images, which is time consuming. For applications where spatial information needs to be collected quickly, for example, when studying dynamic processes, standard X-ray tomography is therefore not applicable. Inspired by stereo vision, in this paper, we develop X-ray imaging methods that work with two X-ray projection images. In this setting, without the use of additional strong prior information, we no longer have enough information to fully recover the 3D tomographic images. However, up to a point, we are nevertheless able to extract spatial locations of point and line features. From stereo vision, it is well known that, for a known imaging geometry, once the same point is identified in two images taken from different directions, then the point's location in 3D space is exactly specified. The challenge is the matching of points between images. As X-ray transmission images are fundamentally different from the surface reflection images used in standard computer vision, we here develop a different feature identification and matching approach. In fact, once point like features are identified, if there are limited points in the image, then they can often be matched exactly. In fact, by utilising a third observation from an appropriate direction, matching becomes unique. Once matched, point locations in 3D space are easily computed using geometric considerations. Linear features, with clear end points, can be located using a similar approach.
翻訳日:2023-02-28 18:22:28 公開日:2023-02-26
# $\mathcal{PT}$-symmetric, tridiagonal, tight-binding modelに対するデチューニングの効果

Effects of detuning on $\mathcal{PT}$-symmetric, tridiagonal, tight-binding models ( http://arxiv.org/abs/2302.13204v1 )

ライセンス: Link先を確認
Jacob L. Barnett and Yogesh N. Joglekar(参考訳) 非エルミート的、密結合な$\mathcal{pt}$-symmetricモデルが文献で広く研究されている。 ここでは、非エルミートハミルトニアンの2つの形式を調査し、$\mathcal{PT}$-対称性の破れしきい値と、例外点(EP)の対応する曲面の特徴を研究する。 それらは、一様または二周期のトンネル振幅を持つ1次元の鎖、パリティ対称点における1対の平衡利得と損失ポテンシャル、および周期的あるいは開放的な境界条件を含む。 エルミートデチューニングポテンシャルを導入することにより、デチューニングとゲインロス強度のパラメータ空間において、$\mathcal{PT}$-threshold、したがって例外点曲線の依存性を得る。 いくつかのそのような例を考慮すると、与えられた順序のEP曲線が一般に、EPの順序が 1 ずつ増加するような尖点を持つことを示す。 いくつかのケースでは、内部積を再定義することで量子論の複雑な拡張を構築するのに使用できる正定値交叉作用素に対する明示的な解析式を得る。 まとめると、この結果は二対のゲインロスポテンシャルを持つ縮退した強結合モデルの詳細な理解を提供する。

Non-Hermitian, tight-binding $\mathcal{PT}$-symmetric models are extensively studied in the literature. Here, we investigate two forms of non-Hermitian Hamiltonians to study the $\mathcal{PT}$-symmetry breaking thresholds and features of corresponding surfaces of exceptional points (EPs). They include one-dimensional chains with uniform or 2-periodic tunnelling amplitudes, one pair of balanced gain and loss potentials $\Delta\pm\i\gamma$ at parity-symmetric sites, and periodic or open boundary conditions. By introducing a Hermitian detuning potential, we obtain the dependence of the $\mathcal{PT}$-threshold, and therefore the exceptional-point curves, in the parameter space of detuning and gain-loss strength. By considering several such examples, we show that EP curves of a given order generically have cusp-points where the order of the EP increases by one. In several cases, we obtain explicit analytical expressions for positive-definite intertwining operators that can be used to construct a complex extension of quantum theory by re-defining the inner product. Taken together, our results provide a detailed understanding of detuned tight-binding models with a pair of gain-loss potentials.
翻訳日:2023-02-28 18:22:07 公開日:2023-02-26
# 分散ロバストQ-ラーニングのための有限サンプル複素境界

A Finite Sample Complexity Bound for Distributionally Robust Q-learning ( http://arxiv.org/abs/2302.13203v1 )

ライセンス: Link先を確認
Shengbo Wang, Nian Si, Jose Blanchet, and Zhengyuan Zhou(参考訳) 我々は,展開環境が訓練環境と異なる強化学習環境を考える。 堅牢なマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的に堅牢な$Q$ラーニングフレームワークを拡張します。 [2022]. さらに,マルチレベルモンテカルロ推定器の設計と解析を改善した。 シミュレーターへのアクセスを仮定すると、supノルムにおける$\epsilon$エラー内の最適ロバストな$q$-関数を学習するアルゴリズムの最悪のサンプル複雑性は、$\tilde o(|s||a|(1-\gamma)^{-5}\epsilon^{-2}p_{\wedge}^{-6}\delta^{-4})$、すなわち$\gamma$はディスカウントレートであり、$p_{\wedge}$は遷移カーネルの非零最小サポート確率であり、$\delta$は不確実サイズである。 これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。 シミュレーション研究は我々の理論結果をさらに検証する。

We consider a reinforcement learning setting in which the deployment environment is different from the training environment. Applying a robust Markov decision processes formulation, we extend the distributionally robust $Q$-learning framework studied in Liu et al. [2022]. Further, we improve the design and analysis of their multi-level Monte Carlo estimator. Assuming access to a simulator, we prove that the worst-case expected sample complexity of our algorithm to learn the optimal robust $Q$-function within an $\epsilon$ error in the sup norm is upper bounded by $\tilde O(|S||A|(1-\gamma)^{-5}\epsilon^{-2}p_{\wedge}^{-6}\delta^{-4})$, where $\gamma$ is the discount rate, $p_{\wedge}$ is the non-zero minimal support probability of the transition kernels and $\delta$ is the uncertainty size. This is the first sample complexity result for the model-free robust RL problem. Simulation studies further validate our theoretical results.
翻訳日:2023-02-28 18:21:44 公開日:2023-02-26
# CLICKER: 意識に基づく言語間共通知識伝達

CLICKER: Attention-Based Cross-Lingual Commonsense Knowledge Transfer ( http://arxiv.org/abs/2302.13201v1 )

ライセンス: Link先を確認
Ruolin Su, Zhongkai Sun, Sixing Lu, Chengyuan Ma, Chenlei Guo(参考訳) 言語間コモンセンス推論(CSR)の最近の進歩は、多言語事前学習モデル(mPTM)の開発によって促進される。 mPTMは、異なる言語に対するコモンセンス知識を符号化する可能性を示しているが、大規模な英語コーパスで学んだコモンセンス知識を他の言語に転送することは困難である。 そこで本研究では,英語と非英語の言語間の性能差を最小限に抑えるための共通語間コモンセンス知識伝達(clicker)フレームワークを提案する。 CLICKERは、非常識知識とコモンセンス知識を区別することにより、非英語言語のコモンセンス推論を効果的に改善する。 公的なベンチマーク実験の結果、CLICKERは英語以外の言語に対する言語間CSRタスクにおいて顕著な改善を達成していることが示された。

Recent advances in cross-lingual commonsense reasoning (CSR) are facilitated by the development of multilingual pre-trained models (mPTMs). While mPTMs show the potential to encode commonsense knowledge for different languages, transferring commonsense knowledge learned in large-scale English corpus to other languages is challenging. To address this problem, we propose the attention-based Cross-LIngual Commonsense Knowledge transfER (CLICKER) framework, which minimizes the performance gaps between English and non-English languages in commonsense question-answering tasks. CLICKER effectively improves commonsense reasoning for non-English languages by differentiating non-commonsense knowledge from commonsense knowledge. Experimental results on public benchmarks demonstrate that CLICKER achieves remarkable improvements in the cross-lingual CSR task for languages other than English.
翻訳日:2023-02-28 18:21:19 公開日:2023-02-26
# 実現可能性を超えたノンレグレット線形バンディット

No-Regret Linear Bandits beyond Realizability ( http://arxiv.org/abs/2302.13252v1 )

ライセンス: Link先を確認
Chong Liu, Ming Yin, Yu-Xiang Wang(参考訳) 報酬関数が線形でない場合の線形帯域について検討する。 既存の仕事は、最良線形近似の超ノルム誤差を測定する一様不特定化パラメータ$\epsilon$に依存している。 これにより、$\epsilon > 0$ となると、避けられない線形後悔となる。 ここでは、各入力においてx$の近似誤差のみを必要とし、x$の準最適差に比例する、より自然なミス種別モデルを記述する。 最適化問題に対して、近最適領域はより重要であり、準最適領域におけるより大きな近似誤差を許容できるという直感を捉える。 驚くほど驚くべきことに、古典的なLinUCBアルゴリズムは、実現可能なケースのために設計されており、このようなギャップ調整ミスセグメンテーションに対して自動的に堅牢である。 最もよく知られた後悔は、time horizon $t$でほぼ線形である問題に対して、ほぼ最適の$\sqrt{t}$ regretが得られる。 技術的には、我々の証明は、後悔そのものによる不特定性による後悔の一部を束縛する、新しい自己拘束的議論に依存している。

We study linear bandits when the underlying reward function is not linear. Existing work relies on a uniform misspecification parameter $\epsilon$ that measures the sup-norm error of the best linear approximation. This results in an unavoidable linear regret whenever $\epsilon > 0$. We describe a more natural model of misspecification which only requires the approximation error at each input $x$ to be proportional to the suboptimality gap at $x$. It captures the intuition that, for optimization problems, near-optimal regions should matter more and we can tolerate larger approximation errors in suboptimal regions. Quite surprisingly, we show that the classical LinUCB algorithm -- designed for the realizable case -- is automatically robust against such gap-adjusted misspecification. It achieves a near-optimal $\sqrt{T}$ regret for problems that the best-known regret is almost linear in time horizon $T$. Technically, our proof relies on a novel self-bounding argument that bounds the part of the regret due to misspecification by the regret itself.
翻訳日:2023-02-28 18:14:27 公開日:2023-02-26
# ベイジアンノイズ不確実性アライメントによるロバストクロスドメインCT画像再構成

Robust Cross-domain CT Image Reconstruction via Bayesian Noise Uncertainty Alignment ( http://arxiv.org/abs/2302.13251v1 )

ライセンス: Link先を確認
Kecheng Chen, Haoliang Li, Renjie Wan and Hong Yan(参考訳) そこで本研究では, 対象領域としての訓練CTデータと, 対象領域としての試験CTデータを, 解剖学的領域から収集する, クロスドメインシナリオ下でのCT再構成問題に対処する。 スキャン領域と対応するスキャンプロトコルのミスマッチのため、通常、ソース領域とターゲット領域の間のノイズ分布の差(すなわちノイズ分布シフト)があり、結果として、ターゲット領域での再構成性能が壊滅的に低下する。 決定論的モデル(畳み込みニューラルネットワークなど)を使用する代わりに、ロバストなクロスドメインct再構成処理にベイズ型確率フレームワークを導入することにより、ロバストなクロスドメインct再構成処理を実現する。 この確率的枠組みでは,各領域の音源と対象領域間の雑音分布変化を,潜時空間と画像空間の暗黙ノイズモデリングスキームを用いて緩和することを提案する。 具体的には, 潜在空間における暗黙的雑音分布モデリングとアライメントを行うために, 新たなベイズ雑音不確かさアライメント法(bnua)を提案する。 また、新たな残差分布アライメント(rda)により画像空間内の2つの領域間のノイズ分布のばらつきを低減するために、逆学習方法が課される。 頭部および腹部の広範囲なスキャン実験により,提案手法は定量的および質的評価の両面で既存の手法よりもロバストなクロスドメインct再構成を実現できることを示した。

In this work, we tackle the problem of robust computed tomography (CT) reconstruction issue under a cross-domain scenario, i.e., the training CT data as the source domain and the testing CT data as the target domain are collected from different anatomical regions. Due to the mismatches of the scan region and corresponding scan protocols, there is usually a difference of noise distributions between source and target domains (a.k.a. noise distribution shifts), resulting in a catastrophic deterioration of the reconstruction performance on target domain. To render a robust cross-domain CT reconstruction performance, instead of using deterministic models (e.g., convolutional neural network), a Bayesian-endowed probabilistic framework is introduced into robust cross-domain CT reconstruction task due to its impressive robustness. Under this probabilistic framework, we propose to alleviate the noise distribution shifts between source and target domains via implicit noise modeling schemes in the latent space and image space, respectively. Specifically, a novel Bayesian noise uncertainty alignment (BNUA) method is proposed to conduct implicit noise distribution modeling and alignment in the latent space. Moreover, an adversarial learning manner is imposed to reduce the discrepancy of noise distribution between two domains in the image space via a novel residual distribution alignment (RDA). Extensive experiments on the head and abdomen scans show that our proposed method can achieve a better performance of robust cross-domain CT reconstruction than existing approaches in terms of both quantitative and qualitative results.
翻訳日:2023-02-28 18:14:12 公開日:2023-02-26
# 読解における知識ベースを問う言語間質問

Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension ( http://arxiv.org/abs/2302.13241v1 )

ライセンス: Link先を確認
Chen Zhang, Yuxuan Lai, Yansong Feng, Xingyu Shen, Haowei Du, Dongyan Zhao(参考訳) 多くの大規模知識ベース(kbs)は多言語情報を含むと主張しているが、多くの非英語言語への支持はしばしば不完全である。 この不完全性は、提供されたKBとは異なる言語での質問に答えることを目的とした知識ベース(xKBQA)に対する言語間質問応答のタスクを生み出す。 xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことであり、さらなる調査のために限られたリソースが利用できるようになる。 もうひとつの課題は、KBスキーマと自然言語表現を、言語間設定で質問にマッピングすることだ。 本稿では,読解パラダイムにおけるxKBQAの新しいアプローチを提案する。 KBサブグラフをパスに変換し,KBスキーマと問合せのギャップを狭めることにより,多言語事前学習言語モデル (MPLM) と言語間機械読解システム (xMRC) の最近の進歩の恩恵を受けることができる。 具体的には,言語間マッピングの知識の豊富なmplmを用いて,言語間理解を行う。 既存の高品質なxmrcデータセットは、xkbqaのデータ不足問題を大幅に軽減し、モデルの微調整にさらに活用することができます。 12言語における2つのxKBQAデータセットに対する大規模な実験は、我々のアプローチが様々なベースラインを上回り、強力なショット数とゼロショットのパフォーマンスを達成することを示している。 私たちのデータセットとコードは、さらなる研究のためにリリースされます。

Although many large-scale knowledge bases (KBs) claim to contain multilingual information, their support for many non-English languages is often incomplete. This incompleteness gives birth to the task of cross-lingual question answering over knowledge base (xKBQA), which aims to answer questions in languages different from that of the provided KB. One of the major challenges facing xKBQA is the high cost of data annotation, leading to limited resources available for further exploration. Another challenge is mapping KB schemas and natural language expressions in the questions under cross-lingual settings. In this paper, we propose a novel approach for xKBQA in a reading comprehension paradigm. We convert KB subgraphs into passages to narrow the gap between KB schemas and questions, which enables our model to benefit from recent advances in multilingual pre-trained language models (MPLMs) and cross-lingual machine reading comprehension (xMRC). Specifically, we use MPLMs, with considerable knowledge of cross-lingual mappings, for cross-lingual reading comprehension. Existing high-quality xMRC datasets can be further utilized to finetune our model, greatly alleviating the data scarcity issue in xKBQA. Extensive experiments on two xKBQA datasets in 12 languages show that our approach outperforms various baselines and achieves strong few-shot and zero-shot performance. Our dataset and code are released for further research.
翻訳日:2023-02-28 18:13:48 公開日:2023-02-26
# Q-Cogni: 統合因果強化学習フレームワーク

Q-Cogni: An Integrated Causal Reinforcement Learning Framework ( http://arxiv.org/abs/2302.13240v1 )

ライセンス: Link先を確認
Cris Cunha, Wei Liu, Tim French, Ajmal Mian(参考訳) 本稿では,q-learningを自律的因果構造発見法で再設計し,因果推論による学習プロセスを改善するアルゴリズム統合因果強化学習フレームワークq-cogniを提案する。 Q-Cogniは、学習プロセス中にクエリ可能な環境の構造因果モデルを用いて最適な学習を行い、状態-作用空間に埋め込まれた因果関係を推論する。 我々は、強化学習の効率的な手法のサンプルを活用し、より広範な方針の推論を可能にし、強化学習エージェントによる意思決定に高い解釈可能性をもたらす。 車両ルーティング問題(VRP)にQ-Cogniを適用し、最先端の強化学習アルゴリズムと比較する。 我々は,よりよい政策,学習効率の向上,エージェントの意思決定の優れた解釈性を示す結果について報告する。 また,この手法を従来の最短経路探索アルゴリズムと比較し,高次元問題に対する因果強化学習フレームワークの利点を示す。 最後に、Q-Cogniを用いてタクシーの最適経路決定をTaxi & Limousine Commissionのトリップレコードデータを用いて導き、最短パス検索と比較し、実世界のQ-Cogniと同等以上のポリシーで85%のケースを報告した。

We present Q-Cogni, an algorithmically integrated causal reinforcement learning framework that redesigns Q-Learning with an autonomous causal structure discovery method to improve the learning process with causal inference. Q-Cogni achieves optimal learning with a pre-learned structural causal model of the environment that can be queried during the learning process to infer cause-and-effect relationships embedded in a state-action space. We leverage on the sample efficient techniques of reinforcement learning, enable reasoning about a broader set of policies and bring higher degrees of interpretability to decisions made by the reinforcement learning agent. We apply Q-Cogni on the Vehicle Routing Problem (VRP) and compare against state-of-the-art reinforcement learning algorithms. We report results that demonstrate better policies, improved learning efficiency and superior interpretability of the agent's decision making. We also compare this approach with traditional shortest-path search algorithms and demonstrate the benefits of our causal reinforcement learning framework to high dimensional problems. Finally, we apply Q-Cogni to derive optimal routing decisions for taxis in New York City using the Taxi & Limousine Commission trip record data and compare with shortest-path search, reporting results that show 85% of the cases with an equal or better policy derived from Q-Cogni in a real-world domain.
翻訳日:2023-02-28 18:13:25 公開日:2023-02-26
# 人工知能が労働力に与える影響 -- 未来のソフトウェアエンジニアの分析スキルを求めて-

Artificial Intelligence Impact On The Labour Force -- Searching For The Analytical Skills Of The Future Software Engineers ( http://arxiv.org/abs/2302.13229v1 )

ライセンス: Link先を確認
Sabina-Cristiana Necula(参考訳) この体系的な文献レビューは、人工知能(AI)がソフトウェアエンジニアリングにおける労働力に与える影響を調査することを目的としており、特に将来のソフトウェアエンジニアに必要なスキル、ソフトウェアエンジニアリングスキルの需要に対するAIの影響、そしてソフトウェアエンジニアの仕事の将来に焦点を当てている。 このレビューでは、総合的な検索戦略を通じて42の関連論文を特定し、その結果を分析した。 結果は、将来のソフトウェアエンジニアはプログラミングに精通し、問題解決や対人コミュニケーションといったソフトスキルを持つ必要があることを示している。 AIはソフトウエアエンジニアリングの労働力に大きな影響を与え、現在ソフトウェアエンジニアが行っている多くのジョブを自動化する可能性がある。 ソフトウェアエンジニアの役割は変わらず、今後も変わり続ける。AIの支援されたソフトウェア開発は、ソフトウェア工学の専門職に課題を呈している。 このレビューは、ソフトウェアエンジニアリングの専門職が、将来において関連性を持ち、効果的であるように変化する状況に適応する必要があることを示唆している。

This systematic literature review aims to investigate the impact of artificial intelligence (AI) on the labour force in software engineering, with a particular focus on the skills needed for future software engineers, the impact of AI on the demand for software engineering skills, and the future of work for software engineers. The review identified 42 relevant publications through a comprehensive search strategy and analysed their findings. The results indicate that future software engineers will need to be competent in programming and have soft skills such as problem-solving and interpersonal communication. AI will have a significant impact on the software engineering workforce, with the potential to automate many jobs currently done by software engineers. The role of a software engineer is changing and will continue to change in the future, with AI-assisted software development posing challenges for the software engineering profession. The review suggests that the software engineering profession must adapt to the changing landscape to remain relevant and effective in the future.
翻訳日:2023-02-28 18:13:00 公開日:2023-02-26
# ボクナー積分とニューラルネットワーク

Bochner integrals and neural networks ( http://arxiv.org/abs/2302.13228v1 )

ライセンス: Link先を確認
Paul C. Kainen, A. Vogt(参考訳) ボヒナー積分公式(bochner integral formula)は、重みの項で関数とパラメータ化された関数の族を表す公式である。 ポイントワイズ公式との比較を行い、ポイントワイズ積分とボヒナー積分に関するノルム不等式を確立し、変分空間とテンソル積を研究し、例を示す。 本稿では,ニューラルネットワークの機能解析理論を開発し,変分空間がバナッハ空間であることを示す。

A Bochner integral formula is derived that represents a function in terms of weights and a parametrized family of functions. Comparison is made to pointwise formulations, norm inequalities relating pointwise and Bochner integrals are established, variation-spaces and tensor products are studied, and examples are presented. The paper develops a functional analytic theory of neural networks and shows that variation spaces are Banach spaces.
翻訳日:2023-02-28 18:12:43 公開日:2023-02-26
# ネストモンテカルロと局所探索を組み合わせたMaxSATの実現に向けて

Towards Tackling MaxSAT by Combining Nested Monte Carlo with Local Search ( http://arxiv.org/abs/2302.13225v1 )

ライセンス: Link先を確認
Hui Wang, Abdallah Saffidine, Tristan Cazenave(参考訳) 最近の研究は、最大満足度問題(MaxSAT)に対処するUTTMAXSATアルゴリズムを提案し、純粋な確率局所探索アルゴリズム(SLS)よりも優れた性能を示した。 UCTMAXSATはモンテカルロ木探索に基づいているが、純粋にランダムなプレイアウトの代わりにSLSを使用している。 本稿では,UCTMAXSAT上での2つのアルゴリズム的バリエーションを紹介する。 我々は最近のコンペからMaxSATベンチマークを実証分析し、両方のアイデアが性能改善につながることを証明した。 まず、Nested Monte Carlo Searchアルゴリズムにインスパイアされた木探索のネストは、ベンチマークのほとんどのインスタンスタイプに有効である。 第二に、SLSの静的フリップ制限を用いることで、理想的な予算はインスタンスサイズに大きく依存し、動的に設定することを提案する。 追加のチューニングを必要とせずに、さまざまなインスタンスで同等のパフォーマンスを実現するための堅牢な方法であることを示す。

Recent work proposed the UCTMAXSAT algorithm to address Maximum Satisfiability Problems (MaxSAT) and shown improved performance over pure Stochastic Local Search algorithms (SLS). UCTMAXSAT is based on Monte Carlo Tree Search but it uses SLS instead of purely random playouts. In this work, we introduce two algorithmic variations over UCTMAXSAT. We carry an empirical analysis on MaxSAT benchmarks from recent competitions and establish that both ideas lead to performance improvements. First, a nesting of the tree search inspired by the Nested Monte Carlo Search algorithm is effective on most instance types in the benchmark. Second, we observe that using a static flip limit in SLS, the ideal budget depends heavily on the instance size and we propose to set it dynamically. We show that it is a robust way to achieve comparable performance on a variety of instances without requiring additional tuning.
翻訳日:2023-02-28 18:12:36 公開日:2023-02-26
# asrのための教師なしデータ選択に基づく音声コーパス発散

Speech Corpora Divergence Based Unsupervised Data Selection for ASR ( http://arxiv.org/abs/2302.13222v1 )

ライセンス: Link先を確認
Changfeng Gao, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan(参考訳) 自動音声認識(asr)訓練では,データマッチングを行うアプリケーションシナリオの選択が重要であるが,学習コーパスのマッチング度を測定することは困難である。 本研究では,2つの音声コーパス間の類似性を計測できる音声コーパス分散(SCD)に基づく教師なしデータ選択手法を提案する。 まず,自己教師付きヒューバートモデルを用いて音声コーパスをラベル列に識別し,n-gram確率分布を計算する。 次に、N-gram間のKullback-Leibler分散をSCDとして計算する。 最後に、アノテーションとトレーニングのためにターゲットコーパスに最小限のSCDを持つサブセットを選択することができる。 従来のデータ選択法と比較して、SCDデータ選択法はより音響的な詳細に集中し、選択した集合の多様性を保証することができる。 提案手法は共通音声と異なるアクセントで評価する。 実験により、提案されたSCDデータ選択は、ランダム選択に対する14.8%の相対的な改善を実現可能であることが示された。

Selecting application scenarios matching data is important for the automatic speech recognition (ASR) training, but it is difficult to measure the matching degree of the training corpus. This study proposes a unsupervised target-aware data selection method based on speech corpora divergence (SCD), which can measure the similarity between two speech corpora. We first use the self-supervised Hubert model to discretize the speech corpora into label sequence and calculate the N-gram probability distribution. Then we calculate the Kullback-Leibler divergence between the N-grams as the SCD. Finally, we can choose the subset which has minimum SCD to the target corpus for annotation and training. Compared to previous data selection method, the SCD data selection method can focus on more acoustic details and guarantee the diversity of the selected set. We evaluate our method on different accents from Common Voice. Experiments show that the proposed SCD data selection can realize 14.8% relative improvements to the random selection, comparable or even superior to the result of supervised selection.
翻訳日:2023-02-28 18:12:21 公開日:2023-02-26
# データ中心AI: 連続埋め込み空間最適化としての離散サブセットによる深層生成可能な特徴選択

Data-Centric AI: Deep Generative Differentiable Feature Selection via Discrete Subsetting as Continuous Embedding Space Optimization ( http://arxiv.org/abs/2302.13221v1 )

ライセンス: Link先を確認
Xiao Meng and Wang Dongjie and Wu Min and Wang Pengfei and Zhou Yuanchun and Fu Yanjie(参考訳) フィルタ、ラッパー、組込みメソッドなどの機能選択(FS)は、与えられた下流タスクに最適な機能サブセットを見つけることを目的としている。 しかし、現実の多くの実践では。 1)FSの基準は領域によって異なる。 2) FSはデータが高次元かつ小サンプルサイズである場合に脆である。 選択された特徴部分集合はより一般化され、正確で、入力次元に依存しないか? この問題を深く微分可能な特徴選択タスクに一般化し、新しい視点:連続埋め込み空間最適化としての離散的特徴部分集合を提案する。 我々は,deep feature subset encoder, accuracy evaluator, decoder,gradient ascent optimizerを含む汎用的かつ原則的なフレームワークを開発した。 このフレームワークは以下の4つのステップを実行します。 1) 特徴的正確性訓練データ作成 2) 深い特徴部分集合の埋め込み 3)勾配最適化探索 4) 特徴部分集合の再構成。 トレーニングデータジェネレータとしての強化、一般化のための多様なピアと探索的特徴セレクタ知識のアンサンブル、特徴部分集合から連続空間への効果的な埋め込み、そして正確な特徴を選択するための共同最適化と精度損失。 実験の結果,提案手法の有効性が示された。

Feature Selection (FS), such as filter, wrapper, and embedded methods, aims to find the optimal feature subset for a given downstream task. However, in many real-world practices, 1) the criteria of FS vary across domains; 2) FS is brittle when data is a high-dimensional and small sample size. Can selected feature subsets be more generalized, accurate, and input dimensionality agnostic? We generalize this problem into a deep differentiable feature selection task and propose a new perspective: discrete feature subsetting as continuous embedding space optimization. We develop a generic and principled framework including a deep feature subset encoder, accuracy evaluator, decoder, and gradient ascent optimizer. This framework implements four steps: 1) features-accuracy training data preparation; 2) deep feature subset embedding; 3) gradient-optimized search; 4) feature subset reconstruction. We develop new technical insights: reinforcement as a training data generator, ensembles of diverse peer and exploratory feature selector knowledge for generalization, an effective embedding from feature subsets to continuous space along with joint optimizing reconstruction and accuracy losses to select accurate features. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2023-02-28 18:12:03 公開日:2023-02-26
# 注意を急ぐには境界のあるエントリが必要です

Fast Attention Requires Bounded Entries ( http://arxiv.org/abs/2302.13214v1 )

ライセンス: Link先を確認
Josh Alman, Zhao Song(参考訳) 現代の機械学習では、内部製品注意計算はTransformer, GPT-1, BERT, GPT-2, GPT-3, ChatGPTなどの大規模言語モデルを訓練するための基本的なタスクである。 形式的には、この問題では、入力 3 つの行列 $q, k, v \in [-b,b]^{n \times d}$ として与えられるが、目的は行列 $\mathrm{att}(q,k,v) := \mathrm{diag}(a {\bf 1}_n)^{-1} a v \in \mathbb{r}^{n \times d}$ を構成することである。 この問題のストラテフォワード法は、明示的に$n \times n$ attention matrix $A$を計算し、$d = n^{o(1)}$が小さい場合でも、時間$\Omega(n^2)$を必要とする。 本稿では,行列の$A$を暗黙的に利用することで,より高速なアルゴリズムが可能かどうかを検討する。 2つの結果を示し、$b = \theta(\sqrt{\log n})$ の鋭い遷移が存在することを示した。 $\bullet$ if $d = o(\log n)$ and $b = o(\sqrt{\log n})$, $n^{1+o(1)}$ timeアルゴリズムは$\mathrm{att}(q,k,v)$を1/\mathrm{poly}(n)$に近似する。 $\bullet$ if $d = o(\log n)$ and $b = \theta (\sqrt{\log n})$ きめ細かな複雑性理論から強い指数時間仮説を仮定すると、$\mathrm{att}(q,k,v)$を1/\mathrm{poly}(n)$ 真の準次時間$n^{2 - \omega(1)}$ で近似することは不可能である。 これは、実際に観測される現象の理論的な説明であり、入力行列がより小さいエントリを持つ場合、注意計算はずっと効率的である。

In modern machine learning, inner product attention computation is a fundamental task for training large language models such as Transformer, GPT-1, BERT, GPT-2, GPT-3 and ChatGPT. Formally, in this problem, one is given as input three matrices $Q, K, V \in [-B,B]^{n \times d}$, and the goal is to construct the matrix $\mathrm{Att}(Q,K,V) := \mathrm{diag}(A {\bf 1}_n)^{-1} A V \in \mathbb{R}^{n \times d}$, where $A = \exp(QK^\top/d)$ is the `attention matrix', and $\exp$ is applied entry-wise. Straightforward methods for this problem explicitly compute the $n \times n$ attention matrix $A$, and hence require time $\Omega(n^2)$ even when $d = n^{o(1)}$ is small. In this paper, we investigate whether faster algorithms are possible by implicitly making use of the matrix $A$. We present two results, showing that there is a sharp transition at $B = \Theta(\sqrt{\log n})$. $\bullet$ If $d = O(\log n)$ and $B = o(\sqrt{\log n})$, there is an $n^{1+o(1)}$ time algorithm to approximate $\mathrm{Att}(Q,K,V)$ up to $1/\mathrm{poly}(n)$ additive error. $\bullet$ If $d = O(\log n)$ and $B = \Theta (\sqrt{\log n})$, assuming the Strong Exponential Time Hypothesis from fine-grained complexity theory, it is impossible to approximate $\mathrm{Att}(Q,K,V)$ up to $1/\mathrm{poly}(n)$ additive error in truly subquadratic time $n^{2 - \Omega(1)}$. This gives a theoretical explanation for the phenomenon observed in practice that attention computation is much more efficient when the input matrices have smaller entries.
翻訳日:2023-02-28 18:11:42 公開日:2023-02-26
# 大規模クリックスルーログを用いたDNNによるクロススペースマッピングの学習

Learning cross space mapping via DNN using large scale click-through logs ( http://arxiv.org/abs/2302.13275v1 )

ライセンス: Link先を確認
Wei Yu, Kuiyuan Yang, Yalong Bai, Hongxun Yao, Yong Rui(参考訳) 低レベルの視覚信号と高レベルのセマンティクスのギャップは、ディープニューラルネットワーク(DNN)の継続的な開発によって徐々に橋渡しされている。 DNNの最近の進歩により、画像分類タスクのほとんど全てが新しい精度の記録を達成した。 画像検索タスクにおけるDNNの能力を拡張するため,1つのネットワークにおける画像とクエリを同時にモデル化し,画像-クエリ類似度計算のための統合DNNモデルを提案する。 統合DNNは、畳み込み部とクエリ埋め込み部という2つの部分を含むクロススペースマッピング(CSM)モデルと呼ばれる。 画像とクエリはそれぞれ2つの部分を通して共通ベクトル空間にマッピングされ、画像とクエリの類似性は空間内のマッピングの内積として自然に定義される。 DNNの適切な一般化能力を確保するため、100万の画像と170万のクエリの間に2300万のクリックされた画像クエリ対からなる多数のクリックスルーログからDNNの重みを学習する。 1000クエリによる画像検索評価タスクの質的結果と定量的結果の両方が,提案手法の優位性を示している。

The gap between low-level visual signals and high-level semantics has been progressively bridged by continuous development of deep neural network (DNN). With recent progress of DNN, almost all image classification tasks have achieved new records of accuracy. To extend the ability of DNN to image retrieval tasks, we proposed a unified DNN model for image-query similarity calculation by simultaneously modeling image and query in one network. The unified DNN is named the cross space mapping (CSM) model, which contains two parts, a convolutional part and a query-embedding part. The image and query are mapped to a common vector space via these two parts respectively, and image-query similarity is naturally defined as an inner product of their mappings in the space. To ensure good generalization ability of the DNN, we learn weights of the DNN from a large number of click-through logs which consists of 23 million clicked image-query pairs between 1 million images and 11.7 million queries. Both the qualitative results and quantitative results on an image retrieval evaluation task with 1000 queries demonstrate the superiority of the proposed method.
翻訳日:2023-02-28 18:05:15 公開日:2023-02-26
# WENDyを用いたODEモデルのパラメータの直接推定:非線形ダイナミクスの弱形式推定

Direct Estimation of Parameters in ODE Models Using WENDy: Weak-form Estimation of Nonlinear Dynamics ( http://arxiv.org/abs/2302.13271v1 )

ライセンス: Link先を確認
David M. Bortz, Daniel A. Messenger, Vanja. Dukic(参考訳) ODEの非線形系に対するモデルパラメータを推定するためのWendy法を提案する。 中心的な数学的アイデアは、モデルの強形式表現をその弱形式に効率よく変換し、パラメータ推論を実行するために回帰問題を解くことである。 中心となる統計的アイデアは、反復的に再重み付けされた最小二乗アルゴリズムを使用する必要があるErrors-In-Variablesフレームワークに依存している。 さらなる改善は、様々なサポートサイズの$C^{\infty}$バンプ関数のセットから生成される正則なテスト関数を使用することによって得られる。 ウェンディは微分方程式におけるパラメータ推定の高ロバストで効率的な手法であることを示す。 数値微分方程式の解法に頼らず、WENDyは正確な推定値を計算し、大きな(生物学的に関係のある)測定ノイズレベルに頑健である。 控えめなデータ量を持つ低次元システムでは、WENDyは速度と精度の点で従来の前方解法に基づく非線形最小二乗法と競合する。 高次元システムと剛性システムの両方において、WENDyは(しばしば桁違いに)より高速で、前方解法に基づくアプローチよりも正確である。 本手法は,ロジスティック成長,ロトカ・ボルテラ,フィッツヒュー・ナグモ,ヒンドマーシュ・ローズ,タンパク質翻訳ベンチマークモデルなど,一般的な個体群および神経科学モデルにおいてその性能を示す。 サンプルを再現するためのソフトウェアとコードはhttps://github.com/MathBioCU/WENDy.comで入手できる。

We introduce the Weak-form Estimation of Nonlinear Dynamics (WENDy) method for estimating model parameters for non-linear systems of ODEs. The core mathematical idea involves an efficient conversion of the strong form representation of a model to its weak form, and then solving a regression problem to perform parameter inference. The core statistical idea rests on the Errors-In-Variables framework, which necessitates the use of the iteratively reweighted least squares algorithm. Further improvements are obtained by using orthonormal test functions, created from a set of $C^{\infty}$ bump functions of varying support sizes. We demonstrate that WENDy is a highly robust and efficient method for parameter inference in differential equations. Without relying on any numerical differential equation solvers, WENDy computes accurate estimates and is robust to large (biologically relevant) levels of measurement noise. For low dimensional systems with modest amounts of data, WENDy is competitive with conventional forward solver-based nonlinear least squares methods in terms of speed and accuracy. For both higher dimensional systems and stiff systems, WENDy is typically both faster (often by orders of magnitude) and more accurate than forward solver-based approaches. We illustrate the method and its performance in some common population and neuroscience models, including logistic growth, Lotka-Volterra, FitzHugh-Nagumo, Hindmarsh-Rose, and a Protein Transduction Benchmark model. Software and code for reproducing the examples is available at (https://github.com/MathBioCU/WENDy).
翻訳日:2023-02-28 18:04:57 公開日:2023-02-26
# セマンティック親和性基準を用いた音声品質評価の検討

Exploring Opinion-unaware Video Quality Assessment with Semantic Affinity Criterion ( http://arxiv.org/abs/2302.13269v1 )

ライセンス: Link先を確認
Haoning Wu, Liang Liao, Jingwen Hou, Chaofeng Chen, Erli Zhang, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 近年の学習に基づくビデオ品質評価(VQA)アルゴリズムは、人的品質意見のデータ収集コストのため実装に費用がかかり、これらの意見のバイアスのため、様々なシナリオにおいて堅牢性が低い。 これは、意見不明(すなわちゼロショット)なVQAアプローチの探索を動機付けます。 既存のアプローチでは、空間領域や時間領域における低レベルの自然性のみを考慮し、高レベルの意味論の影響を考慮しない。 本研究では,言語画像事前学習(CLIP)モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。 また,ガウス正規化とsgmoid再スケーリング戦略を通じて,従来の低レベル自然性指標を集約する。 Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA) は、セマンティック・テクニカル・メトリック・アグリゲーション(Semantic and Technical Metric Aggregation)によって提案された。

Recent learning-based video quality assessment (VQA) algorithms are expensive to implement due to the cost of data collection of human quality opinions, and are less robust across various scenarios due to the biases of these opinions. This motivates our exploration on opinion-unaware (a.k.a zero-shot) VQA approaches. Existing approaches only considers low-level naturalness in spatial or temporal domain, without considering impacts from high-level semantics. In this work, we introduce an explicit semantic affinity index for opinion-unaware VQA using text-prompts in the contrastive language-image pre-training (CLIP) model. We also aggregate it with different traditional low-level naturalness indexes through gaussian normalization and sigmoid rescaling strategies. Composed of aggregated semantic and technical metrics, the proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA) outperforms existing opinion-unaware VQA methods by at least 20% improvements, and is more robust than opinion-aware approaches.
翻訳日:2023-02-28 18:04:30 公開日:2023-02-26
# 強化学習技術によるゲノムの革新

Revolutionizing Genomics with Reinforcement Learning Techniques ( http://arxiv.org/abs/2302.13268v1 )

ライセンス: Link先を確認
Mohsen Karami, Roohallah Alizadehsani, Khadijeh (Hoda) Jahanian, Ahmadreza Argha, Iman Dehzangi, Hamid Alinejad-Rokny(参考訳) 近年、強化学習(Reinforcement Learning, RL)は、意思決定やゲノム学など幅広い問題を解決する強力なツールとして出現している。 過去20年間の生ゲノムデータの指数関数的な成長は、手動分析の能力を超え、自動データ解析と処理への関心が高まっている。 RLアルゴリズムは、人間の監督を最小限にした経験から学ぶことができ、ゲノムデータ分析と解釈に適している。 RLを使用することの大きな利点の1つは、教師あり学習に必要なラベル付きトレーニングデータ収集に伴うコスト削減である。 ゲノミクスにおける機械学習(ML)の応用について多くの研究がなされているが、本調査は遺伝子制御ネットワーク(GRN)、ゲノム組立、配列アライメントなど、さまざまなゲノム研究分野におけるRLの利用に焦点を当てている。 本稿では,RLのゲノム学への応用に関する既存研究の技術的概要を概観し,これらのアプローチの強みと限界を明らかにする。 次に、RLが報酬関数の精度に大きく依存するため、より洗練された報酬関数の開発、RLと他の機械学習技術の統合、新しいゲノム研究分野へのRLの適用など、将来の探索にふさわしい研究の方向性について論じる。 最後に,本研究の成果を概説し,領域の現況とゲノム学におけるRLの将来展望をまとめた。

In recent years, Reinforcement Learning (RL) has emerged as a powerful tool for solving a wide range of problems, including decision-making and genomics. The exponential growth of raw genomic data over the past two decades has exceeded the capacity of manual analysis, leading to a growing interest in automatic data analysis and processing. RL algorithms are capable of learning from experience with minimal human supervision, making them well-suited for genomic data analysis and interpretation. One of the key benefits of using RL is the reduced cost associated with collecting labeled training data, which is required for supervised learning. While there have been numerous studies examining the applications of Machine Learning (ML) in genomics, this survey focuses exclusively on the use of RL in various genomics research fields, including gene regulatory networks (GRNs), genome assembly, and sequence alignment. We present a comprehensive technical overview of existing studies on the application of RL in genomics, highlighting the strengths and limitations of these approaches. We then discuss potential research directions that are worthy of future exploration, including the development of more sophisticated reward functions as RL heavily depends on the accuracy of the reward function, the integration of RL with other machine learning techniques, and the application of RL to new and emerging areas in genomics research. Finally, we present our findings and conclude by summarizing the current state of the field and the future outlook for RL in genomics.
翻訳日:2023-02-28 18:04:00 公開日:2023-02-26
# park-detect:パッチワイズキーポイント検出によるマルチタスク衛星画像の道路抽出

PaRK-Detect: Towards Efficient Multi-Task Satellite Imagery Road Extraction via Patch-Wise Keypoints Detection ( http://arxiv.org/abs/2302.13263v1 )

ライセンス: Link先を確認
Shenwei Xie, Wanfeng Zheng, Zhenglin Xian, Junli Yang, Chuang Zhang, Ming Wu(参考訳) 衛星画像から道路を自動的に抽出することは、リモートセンシング分野における基本的なコンピュータビジョンの課題である。 ピクセルワイズセマンティックセグメンテーションに基づくアプローチとグラフベースのアプローチは、2つの一般的なスキームである。 しかし、先行研究はセグメンテーションに基づくアプローチが低接続性で道路グラフを生成できないことを示す一方、反復的な探索パラダイムとより小さな受容場を持つグラフベースの手法は、よりローカル情報にフォーカスし、時間も消費することを示している。 本稿では,マルチタスク衛星画像道路抽出,パッチワイズ道路キーポイント検出(パーク検出)のための新しい手法を提案する。 d-linknetアーキテクチャの上に構築し、キーポイント検出の構造を採用することにより、パッチ毎の道路キーポイントの位置と、それら間の隣接関係を予測し、1つのパスで道路グラフを構築する。 一方、マルチタスクフレームワークはピクセル単位で意味的なセグメンテーションを実行し、道路セグメンテーションマスクを生成する。 我々は,DeepGlobe, Massachusetts Roads, RoadTracerの既存の最先端手法に対するアプローチを評価し,競争力やより良い結果を得る。 また、推論速度の点でかなり優れた性能を示す。

Automatically extracting roads from satellite imagery is a fundamental yet challenging computer vision task in the field of remote sensing. Pixel-wise semantic segmentation-based approaches and graph-based approaches are two prevailing schemes. However, prior works show the imperfections that semantic segmentation-based approaches yield road graphs with low connectivity, while graph-based methods with iterative exploring paradigms and smaller receptive fields focus more on local information and are also time-consuming. In this paper, we propose a new scheme for multi-task satellite imagery road extraction, Patch-wise Road Keypoints Detection (PaRK-Detect). Building on top of D-LinkNet architecture and adopting the structure of keypoint detection, our framework predicts the position of patch-wise road keypoints and the adjacent relationships between them to construct road graphs in a single pass. Meanwhile, the multi-task framework also performs pixel-wise semantic segmentation and generates road segmentation masks. We evaluate our approach against the existing state-of-the-art methods on DeepGlobe, Massachusetts Roads, and RoadTracer datasets and achieve competitive or better results. We also demonstrate a considerable outperformance in terms of inference speed.
翻訳日:2023-02-28 18:03:35 公開日:2023-02-26
# 不変神経常微分方程式

Invariant Neural Ordinary Differential Equations ( http://arxiv.org/abs/2302.13262v1 )

ライセンス: Link先を確認
Ilze Amanda Auzina, \c{C}a\u{g}atay Y{\i}ld{\i}z, Sara Magliacane, Matthias Bethge and Efstratios Gavves(参考訳) 潜在神経常微分方程式は任意の列の非線形ダイナミクスを学ぶのに有用であることが証明されている。 機械的手法とは対照的に、ニューラルODEの予測精度は長い予測地平線よりも低下する(Rubanova et al., 2019)。 この問題を緩和するために、時間不変変数から完全にデータ駆動の方法で動的状態の分離を提案し、異なる設定をまたいで一般化可能な堅牢なニューラルODEモデルを実現する。 このような変数は潜時微分関数を制御でき、また潜時変数から観測値へのマッピングをパラメータ化することができる。 時間不変変数を明示的にモデル化することにより,最近の表現学習の進歩を活用できる。 本稿では,これらの変数の学習を円滑に促進する自己指導的目的を導入することでこれを実証する。 低次元発振システムとビデオシーケンスの実験により, 異なる回転速度, 書式, 摩擦定数などの変動要因を学習データに含める場合, 遠絡モデルにより長期予測が向上することが判明した。

Latent neural ordinary differential equations have been proven useful for learning non-linear dynamics of arbitrary sequences. In contrast with their mechanistic counterparts, the predictive accuracy of neural ODEs decreases over longer prediction horizons (Rubanova et al., 2019). To mitigate this issue, we propose disentangling dynamic states from time-invariant variables in a completely data-driven way, enabling robust neural ODE models that can generalize across different settings. We show that such variables can control the latent differential function and/or parameterize the mapping from latent variables to observations. By explicitly modeling the time-invariant variables, our framework enables the use of recent advances in representation learning. We demonstrate this by introducing a straightforward self-supervised objective that enhances the learning of these variables. The experiments on low-dimensional oscillating systems and video sequences reveal that our disentangled model achieves improved long-term predictions, when the training data involve sequence-specific factors of variation such as different rotational speeds, calligraphic styles, and friction constants.
翻訳日:2023-02-28 18:03:11 公開日:2023-02-26
# 深層ニューラルネットワークにおける二重降下のドージング

Dodginge the Double Descent in Deep Neural Networks ( http://arxiv.org/abs/2302.13259v1 )

ライセンス: Link先を確認
Victor Qu\'etu and Enzo Tartaglione(参考訳) ディープラーニングモデルの最適サイズを見つけることは、特に省エネスキームにおいて、非常に現実的で幅広い影響を与える。 最近になって,予期せぬ現象である‘二重降下’が,ディープラーニングコミュニティの注目を集めている。 モデルのサイズが大きくなると、まずパフォーマンスが悪化し、その後は改善に戻ります。 これは、高一般化を維持するために最適なモデルのサイズに関する深刻な疑問を提起する: モデルは十分に過度にパラメータ化する必要があるが、パラメータが多すぎるとトレーニングリソースが浪費される。 効果的な方法で、最良のトレードオフを見つけることは可能か? 本研究は,学習問題の適切な条件付けによって二重降下現象を回避できる可能性を示唆するが,最終的な答えは見当たらない。 我々は、単純な$\ell_2$正則化が既にそのような観点に肯定的な貢献をしているので、適切な正則化を持つ複素シナリオにおいて二重降下が期待されていることを実証的に観察する。

Finding the optimal size of deep learning models is very actual and of broad impact, especially in energy-saving schemes. Very recently, an unexpected phenomenon, the ``double descent'', has caught the attention of the deep learning community. As the model's size grows, the performance gets first worse, and then goes back to improving. It raises serious questions about the optimal model's size to maintain high generalization: the model needs to be sufficiently over-parametrized, but adding too many parameters wastes training resources. Is it possible to find, in an efficient way, the best trade-off? Our work shows that the double descent phenomenon is potentially avoidable with proper conditioning of the learning problem, but a final answer is yet to be found. We empirically observe that there is hope to dodge the double descent in complex scenarios with proper regularization, as a simple $\ell_2$ regularization is already positively contributing to such a perspective.
翻訳日:2023-02-28 18:02:55 公開日:2023-02-26
# モバイルエッジコンピューティングのための量子セキュアブロックチェーンベースの連合学習

Post Quantum Secure Blockchain-based Federated Learning for Mobile Edge Computing ( http://arxiv.org/abs/2302.13258v1 )

ライセンス: Link先を確認
Rongxin Xu, Shiva Raj Pokhrel, Qiujun Lan, Gang Li(参考訳) モバイルエッジコンピューティング(MEC)は、移動中のデータの通信とエッジ処理において有望なパラダイムである。 我々は、完全分散化、不変性、報酬機構を同時に実現するために、統合学習(federated learning、fl)とブロックチェーンの顕著な特徴を、コネクテッド自動運転車のようなmecアーキテクチャに採用することを目指している。 FLは、大量のデータ通信ではなく、中央にモデルアップデートを配信する必要があるため、接続が制限されたモバイルデバイスにとって有利である。 例えば、自律走行のコネクテッドカーにおけるflはデータの多様性を高め、モデルのカスタマイズを可能にし、車両が(ローカルモデルを利用して)短期間接続されていなくても予測が可能である。 しかし,既存の FL と Blockchain は移動性障害により通信コストが非常に高く,MEC ネットワークに直接適用できない。 我々は,BFL-MEC(Blockchained Federated Learning)と呼ばれる,完全に非同期なBFL(Blockchained Federated Learning)フレームワークを提案する。 さらに重要なことに、我々はクライアントのアイデンティティを検証し、悪意のある攻撃から守るために、bfl-mecよりもpost-quantum secure機能を採用しています。 設計の仮定と結果はすべて、広範囲なシミュレーションによって評価される。

Mobile Edge Computing (MEC) has been a promising paradigm for communicating and edge processing of data on the move. We aim to employ Federated Learning (FL) and prominent features of blockchain into MEC architecture such as connected autonomous vehicles to enable complete decentralization, immutability, and rewarding mechanisms simultaneously. FL is advantageous for mobile devices with constrained connectivity since it requires model updates to be delivered to a central point instead of substantial amounts of data communication. For instance, FL in autonomous, connected vehicles can increase data diversity and allow model customization, and predictions are possible even when the vehicles are not connected (by exploiting their local models) for short times. However, existing synchronous FL and Blockchain incur extremely high communication costs due to mobility-induced impairments and do not apply directly to MEC networks. We propose a fully asynchronous Blockchained Federated Learning (BFL) framework referred to as BFL-MEC, in which the mobile clients and their models evolve independently yet guarantee stability in the global learning process. More importantly, we employ post-quantum secure features over BFL-MEC to verify the client's identity and defend against malicious attacks. All of our design assumptions and results are evaluated with extensive simulations.
翻訳日:2023-02-28 18:02:37 公開日:2023-02-26
# 長距離時間情報を利用した連続時空ビデオ超解像

Continuous Space-Time Video Super-Resolution Utilizing Long-Range Temporal Information ( http://arxiv.org/abs/2302.13256v1 )

ライセンス: Link先を確認
Yuantong Zhang, Daiqin Yang, Zhenzhong Chen, Wenpeng Ding(参考訳) 本稿では,時系列ビデオの超解像(st-vsr)という課題について考察する。 しかし、既存のスキームの多くは、トレーニング段階で一定の中間時間とスケールを考慮するか、長期時間情報を利用することができない入力フレーム(例えば2つの隣接フレーム)のプリセットしか受け入れない。 これらの問題に対処するために,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(C-STVSR)法を提案する。 時間軌道補間を実現するため、入力フレームと予測フレーム間の類似構造を保存し、極端運動をよりよく近似するための前方ワーピング誘導フレーム合成モジュールと光フロー誘導コンテキスト整合損失を提案する。 さらに,空間の連続的なアップサンプリングを実現するために,メモリフレンドリーなカスケード深度空間モジュールを設計した。 一方, 光学フローの高度再構成により, 提案手法はメモリにやさしいため, 長距離隣接フレームからの情報を伝達し, より優れた再構成品質を実現することができる。 広範な実験により,提案アルゴリズムは柔軟性が高く,客観的評価と主観的視覚効果の両方において最先端手法と比較して,様々なデータセットで優れた性能が得られることが示された。

In this paper, we consider the task of space-time video super-resolution (ST-VSR), namely, expanding a given source video to a higher frame rate and resolution simultaneously. However, most existing schemes either consider a fixed intermediate time and scale in the training stage or only accept a preset number of input frames (e.g., two adjacent frames) that fails to exploit long-range temporal information. To address these problems, we propose a continuous ST-VSR (C-STVSR) method that can convert the given video to any frame rate and spatial resolution. To achieve time-arbitrary interpolation, we propose a forward warping guided frame synthesis module and an optical-flow-guided context consistency loss to better approximate extreme motion and preserve similar structures among input and prediction frames. In addition, we design a memory-friendly cascading depth-to-space module to realize continuous spatial upsampling. Meanwhile, with the sophisticated reorganization of optical flow, the proposed method is memory friendly, making it possible to propagate information from long-range neighboring frames and achieve better reconstruction quality. Extensive experiments show that the proposed algorithm has good flexibility and achieves better performance on various datasets compared with the state-of-the-art methods in both objective evaluations and subjective visual effects.
翻訳日:2023-02-28 18:02:17 公開日:2023-02-26
# プログラミングコミュニティ質問応答におけるエンティティ予測のためのベイジアンネットワーク

Bayesian Networks for Named Entity Prediction in Programming Community Question Answering ( http://arxiv.org/abs/2302.13253v1 )

ライセンス: Link先を確認
Alexey Gorbatovski and Sergey Kovalchuk(参考訳) そこで本研究では,ベイズネットワークを用いた自然言語処理のための新しい手法を提案する。 ベイジアンネットワークがエンティティ間のセマンティックな関係や依存関係をどうやって検出できるかを論じる。 BIC, BDeu, K2, Chow-Liu木など, ベイジアンネットワークを異なるスコア指標で比較した。 提案手法は,精度測定値においてベースラインモデルより優れる。 また、ベイズネットワークの構造に対するペナルティ項の影響と、それらを用いてエンティティ間の関係を解析する方法についても論じる。 さらに,有向非巡回グラフの可視化を行い,意味的関係を解析する。 記事はさらに、有向非巡回グラフの構造で分離された特定の意味クラスを検出する際の問題を特定する。 最後に,ベイズネットワークアプローチの潜在的な改善について評価する。

Within this study, we propose a new approach for natural language processing using Bayesian networks to predict and analyze the context and how this approach can be applied to the Community Question Answering domain. We discuss how Bayesian networks can detect semantic relationships and dependencies between entities, and this is connected to different score-based approaches of structure-learning. We compared the Bayesian networks with different score metrics, such as the BIC, BDeu, K2 and Chow-Liu trees. Our proposed approach out-performs the baseline model at the precision metric. We also discuss the influence of penalty terms on the structure of Bayesian networks and how they can be used to analyze the relationships between entities. In addition, we examine the visualization of directed acyclic graphs to analyze semantic relationships. The article further identifies issues with detecting certain semantic classes that are separated in the structure of directed acyclic graphs. Finally, we evaluate potential improvements for the Bayesian network approach.
翻訳日:2023-02-28 18:01:54 公開日:2023-02-26
# 実空間における可解非エルミート皮膚効果と高次例外点

Solvable non-Hermitian skin effects and high-order exceptional points in real space ( http://arxiv.org/abs/2302.13309v1 )

ライセンス: Link先を確認
Xintong Zhang, Xiaoxiao Song, Shubo Zhang, Tengfei Zhang, Yuanjie Liao, Xinyi Cai, Jing Li(参考訳) 非エルミート系は、すべての固有状態が格子の境界に蓄積される非エルミート皮膚効果と呼ばれる異常な境界挙動を示すことができる。 非エルミート的皮膚効果を十分に理解し制御するために, 開境界条件下での可解固有値および固有状態の解析式を提供するための厳密な解法を開発し, 一般に1次元非エルミート的開放系に適用できる。 正確な解法は,非エルミート皮膚効果の存在条件や非存在条件を数学的に厳密なレベルで解析することを可能にする。 さらに、正確な解法戦略により、実空間における高次例外点を探索することができる。 本研究の主な成果を説明するために, 長距離結合を持つSu-Schrieffer-Heeger連鎖モデルと非相互相互作用を持つラグモデルという2つの例について, 正確な解を導出する。 我々の正確な解戦略は、様々な非エルミート現象を研究する効率的な方法を提供する。

Non-Hermitian systems can exhibit extraordinary boundary behaviors, called the non-Hermitian skin effects, where all the eigenstates are accumulated at the boundary of lattice. To give a full understanding and control of non-Hermitian skin effects, we develop an exact solution strategy to provide the analytical expression of solvable eigenvalues and eigenstates under open boundary condition, which is generally applicable for one-dimensional non-Hermitian open systems. The exact solution strategy enables us to analyze the condition of existence or non-existence of the non-Hermitian skin effects at a mathematically rigorous level. Additionally, the exact solution strategy allows us to search for the high-order exceptional points in real space. To illustrate our main results, we derive the exact solution for two examples, including the Su-Schrieffer-Heeger chain model with long-range couplings, and the ladder model with non-reciprocal interaction. Our exact solution strategy provides an efficient way to study various non-Hermitian phenomena.
翻訳日:2023-02-28 17:55:49 公開日:2023-02-26
# qcqp-tunneling: 楕円型制約付きエージェントナビゲーション

QCQP-Tunneling: Ellipsoidal Constrained Agent Navigation ( http://arxiv.org/abs/2302.13307v1 )

ライセンス: Link先を確認
Sanjeev Sharma(参考訳) 本稿では,完全未知の連続環境におけるオンライン経路計画の難解な問題に対して,ecan(ellipsoidal restricteded agent navigation)という,convex-qcqpに基づく新しい経路計画アルゴリズムを提案する。 ECANは、エリスポイドの重なり合うトンネルを、環境を通じてオンライン的に作ることで、エージェントの経路を計画している。 楕円体形成ステップにおける凸制約は障害物との衝突を回避する。 オンライントンネルの問題は凸qcqpとして解決される。 本稿では,エージェントの形状や障害物の制約を想定しない。 しかし,本論文ではまず,点サイズの障害物を持つ点質量エージェントの枠組みを紹介する。 楕円形トンネルを描く際の基本原理を説明すると、この枠組みは有限領域(2d空間)と有限体積(3d空間)を持つエージェントと障害物に拡張される。

This paper presents a convex-QCQP based novel path planning algorithm named ellipsoidal constrained agent navigation (ECAN), for a challenging problem of online path planning in completely unknown and unseen continuous environments. ECAN plans path for the agent by making a tunnel of overlapping ellipsoids, in an online fashion, through the environment. Convex constraints in the ellipsoid-formation step circumvent collision with the obstacles. The problem of online-tunneling is solved as a convex-QCQP. This paper assumes no constraints on shape of the agent and the obstacles. However, to make the approach clearer, this paper first introduces the framework for a point-mass agent with point-size obstacles. After explaining the underlying principle in drawing an ellipsoid tunnel, the framework is extended to the agent and obstacles having finite area (2d space) and finite-volume (3d-space).
翻訳日:2023-02-28 17:55:29 公開日:2023-02-26
# ポイントクラウド3次元物体検出のためのピラーR-CNN

Pillar R-CNN for Point Cloud 3D Object Detection ( http://arxiv.org/abs/2302.13301v1 )

ライセンス: Link先を確認
Guangsheng Shi, Ruifeng Li and Chao Ma(参考訳) ポイントクラウド3Dオブジェクト検出ヒンジは、原点、グリッドベースのボクセルまたは柱を効果的に表現する。 最近の2段階の3d検出器は、ポイントボクセルベースのr-cnnパラダイム、すなわち第1段階はバード・アイ・ビュー(bev)表現に基づく3d提案生成のための3dボクセルベースのバックボーン、第2段階は中間点表現を介してそれらを洗練する。 それらの主要なメカニズムは、変換されたBEV表現から実質的な3D構造コンテキストを復元するために中間キーポイントを利用することである。 しかし、熟練したポイントボクセル機能インタラクションにより、検出パイプライン全体がより複雑で計算集約的になる。 本稿では, 柱型BEV表現は3次元構造を維持するのに十分な能力を有する, 異なる視点で考える。 BEVベースの認識の最近の進歩を踏まえ、概念的にシンプルで効果的な2段階の3D検出アーキテクチャ、Pillar R-CNNを考案した。 Pillar R-CNNは、高密度のBEV特徴マップに加えて、特徴ピラミッドアーキテクチャを導入し、様々なスケールで3D提案を生成し、ボックスリファインメントのための単純な2D R-CNNスタイル検出ヘッドを利用できる。 私たちのPillar R-CNNは、大規模なWaymo Open Datasetで最先端の3D検出器に対して好意的に動作します。 自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。

The performance of point cloud 3D object detection hinges on effectively representing raw points, grid-based voxels or pillars. Recent two-stage 3D detectors typically take the point-voxel-based R-CNN paradigm, i.e., the first stage resorts to the 3D voxel-based backbone for 3D proposal generation on bird-eye-view (BEV) representation and the second stage refines them via the intermediate point representation. Their primary mechanisms involve the utilization of intermediary keypoints to restore the substantial 3D structure context from the converted BEV representation. The skilled point-voxel feature interaction, however, makes the entire detection pipeline more complex and compute-intensive. In this paper, we take a different viewpoint -- the pillar-based BEV representation owns sufficient capacity to preserve the 3D structure. In light of the latest advances in BEV-based perception, we devise a conceptually simple yet effective two-stage 3D detection architecture, named Pillar R-CNN. On top of densified BEV feature maps, Pillar R-CNN can easily introduce the feature pyramid architecture to generate 3D proposals at various scales and take the simple 2D R-CNN style detect head for box refinement. Our Pillar R-CNN performs favorably against state-of-the-art 3D detectors on the large-scale Waymo Open Dataset but at a small extra cost. It should be highlighted that further exploration into BEV perception for applications involving autonomous driving is now possible thanks to the effective and elegant Pillar R-CNN architecture.
翻訳日:2023-02-28 17:55:13 公開日:2023-02-26
# オープン量子システムの量子シミュレーション支援

Assisted quantum simulation of open quantum systems ( http://arxiv.org/abs/2302.13299v1 )

ライセンス: Link先を確認
Jin-Min Liang, Qiao-Qiao Lv, Zhi-Xi Wang, Shao-Ming Fei(参考訳) フォールトトレラント量子コンピュータに実装されたユニバーサル量子アルゴリズム(UQA)は、古典的な量子コンピュータよりも指数的なスピードアップを達成することが期待されている。 しかし、深い量子回路により、UQAは現在の時代には不可能である。 ノイズの多い中間規模量子(NISQ)デバイスのみを用いて、NISQ技術を介してUQAの回路深さを低減する量子補助量子アルゴリズムを導入する。 この枠組みに基づき,2つのパラメータ化量子回路を用いて短時間発展を実現するオープン量子システムをシミュレーションする2つの量子支援量子アルゴリズムを提案する。 本稿では,古典ベクトルを浅い量子回路と数量子ビット数で量子状態にロードする副ルーチンとして,変分量子状態生成法を提案する。 振幅減衰チャネルと2つのサイトにおける散逸的横フィールドイジングモデルのオープンバージョンを持つ2レベルシステムに対する数値的なアプローチを実証する。

Universal quantum algorithms (UQA) implemented on fault-tolerant quantum computers are expected to achieve an exponential speedup over classical counterparts. However, the deep quantum circuits makes the UQA implausible in the current era. With only the noisy intermediate-scale quantum (NISQ) devices in hand, we introduce the quantum-assisted quantum algorithm, which reduces the circuit depth of UQA via NISQ technology. Based on this framework, we present two quantum-assisted quantum algorithms for simulating open quantum systems, which utilize two parameterized quantum circuits to achieve a short-time evolution. We propose a variational quantum state preparation method, as a subroutine to prepare the ancillary state, for loading a classical vector into a quantum state with a shallow quantum circuit and logarithmic number of qubits. We demonstrate numerically our approaches for a two-level system with an amplitude damping channel and an open version of the dissipative transverse field Ising model on two sites.
翻訳日:2023-02-28 17:54:43 公開日:2023-02-26
# グリーン関数理論を用いた正規化二階相関法

A regularized second-order correlation method from Green's function theory ( http://arxiv.org/abs/2302.13296v1 )

ライセンス: Link先を確認
Christopher J. N. Coveney and David P. Tew(参考訳) グリーン関数理論によって動機付けられた分子や材料における電子相関を扱えるスケーラブルな単一粒子フレームワークを提案する。 我々は,ゴールドストーン自己エネルギーを導入することによって,単粒子グリーン関数からブリルアン・ウィグナー摂動理論を導出する。 この新たな基底状態相関エネルギーは準粒子MP2理論 (QPMP2) と呼ばれ、強い相関状態にある二階M{\o}ller-Plesset摂動理論 (MP2) と結合クラスタシングルとダブルス (CCSD) の両方に特徴的な違いを避ける。 その結果, ハバードダイマーの正確な基底状態エネルギーと特性はqpmp2によって再現され, 従来の方法の完全な失敗とは対照的に, 金属-絶縁体転移が定性的に再現される6-, 8-および10-サイトハバードモデルに対するアプローチの利点が示された。 この定式化を特徴的相関分子系に適用し、QPMP2がMP2の効率的でサイズに一貫性のある正則化を提供することを示す。

We present a scalable single-particle framework to treat electronic correlation in molecules and materials motivated by Green's function theory. We derive a size-extensive Brillouin-Wigner perturbation theory from the single-particle Green's function by introducing the Goldstone self-energy. This new ground state correlation energy, referred to as Quasi-Particle MP2 theory (QPMP2), avoids the characteristic divergences present in both second-order M{\o}ller-Plesset perturbation theory (MP2) and Coupled Cluster Singles and Doubles (CCSD) within the strongly correlated regime. We show that the exact ground state energy and properties of the Hubbard dimer are reproduced by QPMP2 and demonstrate the advantages of the approach for the six-, eight- and ten-site Hubbard models where the metal-to-insulator transition is qualitatively reproduced, contrasting with the complete failure of traditional methods. We apply this formalism to characteristic strongly correlated molecular systems and show that QPMP2 provides an efficient, size-consistent regularization of MP2.
翻訳日:2023-02-28 17:54:28 公開日:2023-02-26
# PDIWS:侵入警報システムにおける人物検出のための熱画像データセット

PDIWS: Thermal Imaging Dataset for Person Detection in Intrusion Warning Systems ( http://arxiv.org/abs/2302.13293v1 )

ライセンス: Link先を確認
Nguyen Duc Thuan, Le Hai Anh and Hoang Si Hong(参考訳) 本稿では,侵入警報システム(PDIWS)における人物検出のための合成熱画像データセットを提案する。 データセットは2000イメージのトレーニングセットと500イメージのテストセットで構成されている。 各画像は、修正されたポアソン画像編集方法を用いて被写体(イントルーダ)と背景とを合成して合成される。 背景は50種類あり、1000名近い被験者が5つのクラスに分かれている(スキン、クロール、スヌーピング、クライミングなど)。 最初の4つのポーズが検出されれば、侵入者の存在を確認する。 高度なオブジェクト検出アルゴリズムがこのデータセットで実装され、それぞれ0.5のIoUと0.75のMAP値が95.5%、90.9%の比較的良好な結果が得られた。 このデータセットは、https://github.com/thuan-researcher/Intruder-Thermal-Dataset.comで無料で公開されている。

In this paper, we present a synthetic thermal imaging dataset for Person Detection in Intrusion Warning Systems (PDIWS). The dataset consists of a training set with 2000 images and a test set with 500 images. Each image is synthesized by compounding a subject (intruder) with a background using the modified Poisson image editing method. There are a total of 50 different backgrounds and nearly 1000 subjects divided into five classes according to five human poses: creeping, crawling, stooping, climbing and other. The presence of the intruder will be confirmed if the first four poses are detected. Advanced object detection algorithms have been implemented with this dataset and give relatively satisfactory results, with the highest mAP values of 95.5% and 90.9% for IoU of 0.5 and 0.75 respectively. The dataset is freely published online for research purposes at https://github.com/thuan-researcher/Intruder-Thermal-Dataset.
翻訳日:2023-02-28 17:54:07 公開日:2023-02-26
# 継続予習による表現連続性の向上

Improving Representational Continuity via Continued Pretraining ( http://arxiv.org/abs/2302.13289v1 )

ライセンス: Link先を確認
Michael Sun, Ananya Kumar, Divyam Madaan and Percy Liang(参考訳) モデル $M'$ をタスク $T_1, \ldots, T_T$ で逐次事前トレーニングした後、タスク $T_i$ から少量のデータに $M'$ を適用して、古いタスクからの情報を忘れているかどうかを確認する。 knn適応プロトコルの下では、継続的な学習方法がナイーブトレーニング(sgd)よりも忘れることを改善することを示している。 実際、実践者はkNN分類器を使用しません -- 最高の適応法(例えば、微調整)を使用します -- ここでは、強い連続的な学習ベースラインは、ナイーブなトレーニングよりも悪くなります。 興味深いことに、トランスファーラーニングコミュニティ(LP-FT)の手法は、ナイーブトレーニングやその他の継続学習方法よりも優れている。 標準的なkn評価プロトコルであっても、lp-ftはシーケンシャルcifar-10、cifar-100、tinyimagenetの3つの標準ベンチマークで、強力な連続学習手法(よりシンプルで少ないメモリを必要とする)と相性がよい。 LP-FTはまた、実世界の衛星リモートセンシングデータセット(FMoW)の忘れを減らし、LP-FTの変種はNLP連続学習ベンチマークで最先端の精度を得る。

We consider the continual representation learning setting: sequentially pretrain a model $M'$ on tasks $T_1, \ldots, T_T$, and then adapt $M'$ on a small amount of data from each task $T_i$ to check if it has forgotten information from old tasks. Under a kNN adaptation protocol, prior work shows that continual learning methods improve forgetting over naive training (SGD). In reality, practitioners do not use kNN classifiers -- they use the adaptation method that works best (e.g., fine-tuning) -- here, we find that strong continual learning baselines do worse than naive training. Interestingly, we find that a method from the transfer learning community (LP-FT) outperforms naive training and the other continual learning methods. Even with standard kNN evaluation protocols, LP-FT performs comparably with strong continual learning methods (while being simpler and requiring less memory) on three standard benchmarks: sequential CIFAR-10, CIFAR-100, and TinyImageNet. LP-FT also reduces forgetting in a real world satellite remote sensing dataset (FMoW), and a variant of LP-FT gets state-of-the-art accuracies on an NLP continual learning benchmark.
翻訳日:2023-02-28 17:53:52 公開日:2023-02-26
# 一般化可能なディープフェイク検出のためのペアワイズインタラクションの学習

Learning Pairwise Interaction for Generalizable DeepFake Detection ( http://arxiv.org/abs/2302.13288v1 )

ライセンス: Link先を確認
Ying Xu, Kiran Raja, Luisa Verdoliva, Marius Pedersen(参考訳) DeepFakeの生成技術は、既知のタイプのDeepFake向けに設計された検出スキームに挑戦する。 信頼性の高いDeepfake検出アプローチは、さまざまな品質と外観を示す生成タイプに依存しない必要がある。 異なる世代のスキームにまたがる限定的な一般化性は、オープンセットのシナリオで見当たらない攻撃を処理できない場合、検出器の広範囲な展開を制限する。 我々は,異なる色空間表現からのペアワイズ学習のパワーと相補的情報を利用した,MCX-API(Multi-Channel Xception Attention Pairwise Interaction)を提案する。 まず、4つの異なるディープフェイクスキームを持つクラス内設定(クローズドセット)で、公開データセットでアイデアを検証する。 さらに,3つの公開データセットを用いたクラス間設定(オープンセット)において,BOSCの精度を用いてすべての結果を報告する。 実験の結果,提案手法は最先端のDeepfakes検出器よりも一般化可能であることがわかった。 FF++データセットでは98.48%のBOSC精度,CelebDFデータセットでは90.87%のBOSC精度が得られた。 さらにt-SNEとアテンションマップを用いて,提案ネットワークの意思決定プロセスの解釈と可視化を行う。 https://github.com/xuyingzhongguo/MCX-API

A fast-paced development of DeepFake generation techniques challenge the detection schemes designed for known type DeepFakes. A reliable Deepfake detection approach must be agnostic to generation types, which can present diverse quality and appearance. Limited generalizability across different generation schemes will restrict the wide-scale deployment of detectors if they fail to handle unseen attacks in an open set scenario. We propose a new approach, Multi-Channel Xception Attention Pairwise Interaction (MCX-API), that exploits the power of pairwise learning and complementary information from different color space representations in a fine-grained manner. We first validate our idea on a publicly available dataset in a intra-class setting (closed set) with four different Deepfake schemes. Further, we report all the results using balanced-open-set-classification (BOSC) accuracy in an inter-class setting (open-set) using three public datasets. Our experiments indicate that our proposed method can generalize better than the state-of-the-art Deepfakes detectors. We obtain 98.48% BOSC accuracy on the FF++ dataset and 90.87% BOSC accuracy on the CelebDF dataset suggesting a promising direction for generalization of DeepFake detection. We further utilize t-SNE and attention maps to interpret and visualize the decision-making process of our proposed network. https://github.com/xuyingzhongguo/MCX-API
翻訳日:2023-02-28 17:53:28 公開日:2023-02-26
# 深部テンプレートのための透視バイオメトリックスのベンチマーク

Benchmarking of Cancelable Biometrics for Deep Templates ( http://arxiv.org/abs/2302.13286v1 )

ライセンス: Link先を確認
Hatef Otroshi Shahreza, Pietro Melzi, Dail\'e Osorio-Roig, Christian Rathgeb, Christoph Busch, S\'ebastien Marcel, Ruben Tolosana, Ruben Vera-Rodriguez(参考訳) 本稿では,様々な生体計測特性について,いくつかのキャンセル可能な生体計測(CB)手法をベンチマークする。 我々は,BioHashing,Multi-Layer Perceptron (MLP) Hashing,Bloom Filter,およびIndex-of-Maximum (IoM) Hashing(IoM-URPとIoM-GRP)に基づく2つのスキームを検討する。 上記のcbスキームに加えて、ユーザ固有のランダム変換とバイナリ化に基づく(ベースラインとしての)cbスキームを導入する。 顔, 声, 指の静脈, 虹彩などの生理的, 行動的特徴から抽出した深層学習型テンプレートを用いて, これらのCBスキームの非リンク性, 不可逆性, 認識性能(ISO/IEC 24745規格の要求基準)を評価した。 さらに,提案するすべての実験をオープンソースで実装し,再現性の向上を図る。

In this paper, we benchmark several cancelable biometrics (CB) schemes on different biometric characteristics. We consider BioHashing, Multi-Layer Perceptron (MLP) Hashing, Bloom Filters, and two schemes based on Index-of-Maximum (IoM) Hashing (i.e., IoM-URP and IoM-GRP). In addition to the mentioned CB schemes, we introduce a CB scheme (as a baseline) based on user-specific random transformations followed by binarization. We evaluate the unlinkability, irreversibility, and recognition performance (which are the required criteria by the ISO/IEC 24745 standard) of these CB schemes on deep learning based templates extracted from different physiological and behavioral biometric characteristics including face, voice, finger vein, and iris. In addition, we provide an open-source implementation of all the experiments presented to facilitate the reproducibility of our results.
翻訳日:2023-02-28 17:53:04 公開日:2023-02-26
# イルミネーション対応画像分解による3次元表現の生成

Makeup Extraction of 3D Representation via Illumination-Aware Image Decomposition ( http://arxiv.org/abs/2302.13279v1 )

ライセンス: Link先を確認
Xingchao Yang, Takafumi Taketomi, Yoshihiro Kanamori(参考訳) 顔の化粧は、実際の人間だけでなく、仮想キャラクタの美しさを豊かにするため、3D顔モデルの化粧はプロダクションにおいて非常に要求される。 しかし、直接3d顔に絵を描き、現実世界のメイクアップを撮影することは費用がかかり、2d画像からメイクアップを抽出すると、陰影や閉塞に苦しむことが多い。 本稿では,1つのメイクアップポートレートから3次元顔モデルのメイクアップを抽出する最初の方法を提案する。 本手法は以下の3つのステップからなる。 まず, 回帰に基づく逆レンダリングにより, uv空間で表現される幾何学, 拡散・特異アルベドなどの粗材料を抽出することで, 3次元モーファブルモデルの強い先行性を利用する。 第2に,咬合による画素の欠落が疑われる粗い材料を精製する。 塗装と最適化を施す。 最後に, びまん性アルベドから皮膚, 化粧, アルファマットを抽出した。 本手法は,3次元顔モデルだけでなく,2次元ポートレート画像にも応用できる。 抽出されたメークアップは、uv空間によく整列しており、そこから大規模なメークアップデータセットと3d顔のためのパラメトリックメイクアップモデルを構築します。 また, この不整合材料は, 基準画像を使わずに, 強靭なメイク転移と照明対応メイク補間/除去を生じる。

Facial makeup enriches the beauty of not only real humans but also virtual characters; therefore, makeup for 3D facial models is highly in demand in productions. However, painting directly on 3D faces and capturing real-world makeup are costly, and extracting makeup from 2D images often struggles with shading effects and occlusions. This paper presents the first method for extracting makeup for 3D facial models from a single makeup portrait. Our method consists of the following three steps. First, we exploit the strong prior of 3D morphable models via regression-based inverse rendering to extract coarse materials such as geometry and diffuse/specular albedos that are represented in the UV space. Second, we refine the coarse materials, which may have missing pixels due to occlusions. We apply inpainting and optimization. Finally, we extract the bare skin, makeup, and an alpha matte from the diffuse albedo. Our method offers various applications for not only 3D facial models but also 2D portrait images. The extracted makeup is well-aligned in the UV space, from which we build a large-scale makeup dataset and a parametric makeup model for 3D faces. Our disentangled materials also yield robust makeup transfer and illumination-aware makeup interpolation/removal without a reference image.
翻訳日:2023-02-28 17:52:44 公開日:2023-02-26
# mcoco: 多レベル一貫性協調型マルチビュークラスタリング

MCoCo: Multi-level Consistency Collaborative Multi-view Clustering ( http://arxiv.org/abs/2302.13339v1 )

ライセンス: Link先を確認
Yiyang Zhou, Qinghai Zheng, Wenbiao Yan, Yifei Wang, Jihua Zhu(参考訳) マルチビュークラスタリングは、さまざまなビューから一貫した情報を探索し、クラスタリングをガイドする。 既存の作品の多くは、機能空間における浅い一貫性を追求し、複数のビューの情報をクラスタリングのための統一表現に統合することに焦点を当てている。 これらの手法は意味空間における一貫性を十分に考慮し、探求しなかった。 そこで我々は,マルチビュークラスタリングのためのMCoCo(Multi-level Consistency Collaborative Learning framework)を提案する。 具体的には、MCoCoは特徴空間における複数のビューのクラスタ割り当てを共同で学習し、対照的な学習によって意味空間における異なるビューのセマンティックラベルを調整する。 さらに,semantic spaceの一貫した情報を自己教師付き信号として活用し,機能空間におけるクラスタ割り当てと協調するマルチレベル一貫性協調戦略を考案した。 したがって、異なるレベルの空間が相互に連携し、それぞれの一貫性の目標を達成することで、MCoCoは融合せずに異なるビューの一貫性のある情報を完全にマイニングする。 最先端手法と比較して,本手法の有効性と優越性について広範な実験を行った。

Multi-view clustering can explore consistent information from different views to guide clustering. Most existing works focus on pursuing shallow consistency in the feature space and integrating the information of multiple views into a unified representation for clustering. These methods did not fully consider and explore the consistency in the semantic space. To address this issue, we proposed a novel Multi-level Consistency Collaborative learning framework (MCoCo) for multi-view clustering. Specifically, MCoCo jointly learns cluster assignments of multiple views in feature space and aligns semantic labels of different views in semantic space by contrastive learning. Further, we designed a multi-level consistency collaboration strategy, which utilizes the consistent information of semantic space as a self-supervised signal to collaborate with the cluster assignments in feature space. Thus, different levels of spaces collaborate with each other while achieving their own consistency goals, which makes MCoCo fully mine the consistent information of different views without fusion. Compared with state-of-the-art methods, extensive experiments demonstrate the effectiveness and superiority of our method.
翻訳日:2023-02-28 17:47:12 公開日:2023-02-26
# 早期膝関節炎分類におけるデータ拡張のためのキー交換畳み込み自動エンコーダ

Key-Exchange Convolutional Auto-Encoder for Data Augmentation in Early Knee OsteoArthritis Classification ( http://arxiv.org/abs/2302.13336v1 )

ライセンス: Link先を確認
Zhe Wang and Aladine Chetouani and Rachid Jennane(参考訳) 変形性膝関節症(koa)は高齢者の移動を阻害する筋骨格疾患である。 医療分野における十分なデータ不足は、ラベル付けのコストが高いため、学習モデルのトレーニングにおいて常に課題となる。 現在、ディープニューラルネットワークトレーニングは、モデルの一般化能力を改善し、過度な適合を避けるために、データ拡張に強く依存している。 しかし、ローテーション、ガンマ補正等の既存のデータ拡張操作は、元のデータに基づいて設計されており、データの多様性を実質的に増やさない。 本稿では、畳み込み型オートエンコーダに基づく学習モデルと、初期のKOA(KL-0 vs KL-2)診断のための新しいデータを生成するハイブリッド損失戦略を提案する。 エンコーダとデコーダの間には4つの隠蔽層が設計されており、各入力のキーと無関係の特徴をそれぞれ表現している。 そして、2つのキー特徴ベクトルを交換して生成された画像を得る。 これを実現するために、再構成と鍵交換学習を監督するために最適化された重み付き異なる損失関数を用いてハイブリッド損失関数を導出する。 実験結果から, 生成したデータは, モデルの分類性能を大幅に向上できることを示す。

Knee OsteoArthritis (KOA) is a prevalent musculoskeletal condition that impairs the mobility of senior citizens. The lack of sufficient data in the medical field is always a challenge for training a learning model due to the high cost of labelling. At present, Deep neural network training strongly depends on data augmentation to improve the model's generalization capability and avoid over-fitting. However, existing data augmentation operations, such as rotation, gamma correction, etc., are designed based on the original data, which does not substantially increase the data diversity. In this paper, we propose a learning model based on the convolutional Auto-Encoder and a hybrid loss strategy to generate new data for early KOA (KL-0 vs KL-2) diagnosis. Four hidden layers are designed among the encoder and decoder, which represent the key and unrelated features of each input, respectively. Then, two key feature vectors are exchanged to obtain the generated images. To do this, a hybrid loss function is derived using different loss functions with optimized weights to supervise the reconstruction and key-exchange learning. Experimental results show that the generated data are valid as they can significantly improve the model's classification performance.
翻訳日:2023-02-28 17:46:54 公開日:2023-02-26
# 拡散モデルによる行動クローニング

Diffusion Model-Augmented Behavioral Cloning ( http://arxiv.org/abs/2302.13335v1 )

ライセンス: Link先を確認
Hsiang-Chun Wang, Shang-Fu Chen, Shao-Hua Sun(参考訳) 模倣学習は、環境からの報奨信号にアクセスせずに専門家のデモンストレーションを観察することで学習の課題に対処する。 行動クローニング(bc)は、模倣学習を教師あり学習問題として定式化し、サンプル状態-アクションペアから学習する。 その単純さにもかかわらず、しばしばタスクの時間構造と専門家によるデモンストレーションのグローバルな情報を取得することに失敗する。 この研究は、専門家の行動のモデル化に拡散モデルを採用し、政策学習を導くために学習拡散モデルを活用した学習目標を設計することで、bcを増強することを目的としている。 この目的のために,提案した拡散モデル誘導学習目標と相互補完するBC目標を組み合わせた拡散モデル拡張行動クローニング(Diffusion-BC)を提案する。 提案手法は,ナビゲーション,ロボットアーム操作,移動などの連続制御領域において,ベースラインを上回り,競争力を発揮する。 アブレーション研究は設計選択を正当化し、bcと提案する拡散モデル目標のバランスをとる効果について検討する。

Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from the environment. Behavioral cloning (BC) formulates imitation learning as a supervised learning problem and learns from sampled state-action pairs. Despite its simplicity, it often fails to capture the temporal structure of the task and the global information of expert demonstrations. This work aims to augment BC by employing diffusion models for modeling expert behaviors, and designing a learning objective that leverages learned diffusion models to guide policy learning. To this end, we propose diffusion model-augmented behavioral cloning (Diffusion-BC) that combines our proposed diffusion model guided learning objective with the BC objective, which complements each other. Our proposed method outperforms baselines or achieves competitive performance in various continuous control domains, including navigation, robot arm manipulation, and locomotion. Ablation studies justify our design choices and investigate the effect of balancing the BC and our proposed diffusion model objective.
翻訳日:2023-02-28 17:46:35 公開日:2023-02-26
# 多段学習における知識の復元と伝達

Knowledge Restore and Transfer for Multi-label Class-Incremental Learning ( http://arxiv.org/abs/2302.13334v1 )

ライセンス: Link先を確認
Songlin Dong, Haoyu Luo, Yuhang He, Xing Wei Yihong Gong(参考訳) 近年の授業インクリメンタルラーニング研究は主に単段分類タスクに焦点を当てているが、より実用的な応用シナリオを持つマルチラベルクラスインクリメンタルラーニング(mlcil)はほとんど研究されていない。 クラス増分学習における破滅的な忘れを解くためのアンチフォージェッティング法は数多く存在するが、ラベルの欠如や情報希釈によるMLCIL問題の解決には困難である。 本稿では,古いクラス知識を復元するための動的擬似ラベル(DPL)モジュールと,セッション固有の知識を保存し,古いクラス知識を新しいモデルに十分に転送するための漸進的クロスアテンション(ICA)モジュールを含む,LCILのための知識復元・転送(KRT)フレームワークを提案する。 さらに,インクリメンタルなクロスアテンションモジュールを共同で最適化するトークンロスを提案する。 MS-COCO と PASCAL VOC データセットによる実験結果から,認識性能の向上と,マルチラベルクラス増分学習における忘れの軽減効果が示された。

Current class-incremental learning research mainly focuses on single-label classification tasks while multi-label class-incremental learning (MLCIL) with more practical application scenarios is rarely studied. Although there have been many anti-forgetting methods to solve the problem of catastrophic forgetting in class-incremental learning, these methods have difficulty in solving the MLCIL problem due to label absence and information dilution. In this paper, we propose a knowledge restore and transfer (KRT) framework for MLCIL, which includes a dynamic pseudo-label (DPL) module to restore the old class knowledge and an incremental cross-attention(ICA) module to save session-specific knowledge and transfer old class knowledge to the new model sufficiently. Besides, we propose a token loss to jointly optimize the incremental cross-attention module. Experimental results on MS-COCO and PASCAL VOC datasets demonstrate the effectiveness of our method for improving recognition performance and mitigating forgetting on multi-label class-incremental learning tasks.
翻訳日:2023-02-28 17:46:04 公開日:2023-02-26
# テキスト指導によるスタイルガンの入力非依存操作方向の学習

Learning Input-agnostic Manipulation Directions in StyleGAN with Text Guidance ( http://arxiv.org/abs/2302.13331v1 )

ライセンス: Link先を確認
Yoonjeon Kim, Hyunsu Kim, Junho Kim, Yunjey Choi, Eunho Yang(参考訳) 高速推論とヒューマンフレンドリーな柔軟な操作の利点により、テキストガイダンスによる画像に依存しないスタイル操作は、これまで利用できなかった新しいアプリケーションを可能にする。 言語-画像事前学習(CLIP)空間に独立して、StyleGANの各チャネルの表現を埋め込んだ最先端のテキスト誘導画像認識操作法を辞書形式で提供し、推論時間中のチャネル操作方向を迅速に把握する。 しかし,本論文では,単一チャンネルを個別に制御して構築した辞書は,複数のチャンネル間の集団的・対話的関係を考慮しないため,テキストガイダンスの汎用性に配慮できる。 実際、テキストなしでは潜在空間を手動で操作する既存の方法によって見つけられる操作方向の大部分が発見できないことが示されている。 この問題を軽減するために,複数の他のチャネルとの相互作用から生じる操作効果を考慮し,単一のチャネルの表現に対応する辞書を学習する新しい手法を提案する。 提案手法は,教師なし手法やランダムテキストからの未知方向から,リアルタイムの推論速度と非絡み合い能力を維持しつつ,様々な未知方向を検出できないことを実証する。

With the advantages of fast inference and human-friendly flexible manipulation, image-agnostic style manipulation via text guidance enables new applications that were not previously available. The state-of-the-art text-guided image-agnostic manipulation method embeds the representation of each channel of StyleGAN independently in the Contrastive Language-Image Pre-training (CLIP) space, and provides it in the form of a Dictionary to quickly find out the channel-wise manipulation direction during inference time. However, in this paper we argue that this dictionary which is constructed by controlling single channel individually is limited to accommodate the versatility of text guidance since the collective and interactive relation among multiple channels are not considered. Indeed, we show that it fails to discover a large portion of manipulation directions that can be found by existing methods, which manually manipulates latent space without texts. To alleviate this issue, we propose a novel method that learns a Dictionary, whose entry corresponds to the representation of a single channel, by taking into account the manipulation effect coming from the interaction with multiple other channels. We demonstrate that our strategy resolves the inability of previous methods in finding diverse known directions from unsupervised methods and unknown directions from random text while maintaining the real-time inference speed and disentanglement ability.
翻訳日:2023-02-28 17:45:34 公開日:2023-02-26
# 音楽のマルチモーダル:ハイレベルオーディオ機能と歌詞による音楽の感情予測

Multi-Modality in Music: Predicting Emotion in Music from High-Level Audio Features and Lyrics ( http://arxiv.org/abs/2302.13321v1 )

ライセンス: Link先を確認
Tibor Krols, Yana Nikolova, Ninell Oldenburg(参考訳) 本稿では,音楽感情認識(MER)のマルチモーダルアプローチが,ハイレベルな楽曲の特徴や歌詞において,ユニモーダルアプローチよりも優れているかどうかを検証することを目的とする。 spotify apiから検索された11の歌機能を使用し、感情、tf-idf、anewなどの歌詞機能を組み合わせて、deezer mood detection dataset(dmdd)(delbouys et al.、2018年)のvalenceとarousalのスコアを4つの異なる回帰モデルで予測する。 ハイレベルな11曲のうち、主に5曲はパフォーマンスに寄与するが、マルチモーダル機能はヴァレンスを予測するときだけでは音声より優れている。 私たちはコードを一般公開しました。

This paper aims to test whether a multi-modal approach for music emotion recognition (MER) performs better than a uni-modal one on high-level song features and lyrics. We use 11 song features retrieved from the Spotify API, combined lyrics features including sentiment, TF-IDF, and Anew to predict valence and arousal (Russell, 1980) scores on the Deezer Mood Detection Dataset (DMDD) (Delbouys et al., 2018) with 4 different regression models. We find that out of the 11 high-level song features, mainly 5 contribute to the performance, multi-modal features do better than audio alone when predicting valence. We made our code publically available.
翻訳日:2023-02-28 17:44:59 公開日:2023-02-26
# 公正表現学習のための効率的フェアPCA

Efficient fair PCA for fair representation learning ( http://arxiv.org/abs/2302.13319v1 )

ライセンス: Link先を確認
Matth\"aus Kleindessner, Michele Donini, Chris Russell, Muhammad Bilal Zafar(参考訳) そこでは, 人口統計情報を難読化するデータに対して, 最適な低ランク線形近似を学習することを目的とする, 公平な主成分分析(PCA)の問題を再考する。 標準pcaに類似した解析解をカーネル化可能な概念的に単純な手法を提案する。 提案手法は,通常のPCAやカーネルPCAと同じ複雑さを持ち,半定値プログラミングや多様体最適化に基づく従来のPCAよりも高速に動作し,同様の結果が得られる。

We revisit the problem of fair principal component analysis (PCA), where the goal is to learn the best low-rank linear approximation of the data that obfuscates demographic information. We propose a conceptually simple approach that allows for an analytic solution similar to standard PCA and can be kernelized. Our methods have the same complexity as standard PCA, or kernel PCA, and run much faster than existing methods for fair PCA based on semidefinite programming or manifold optimization, while achieving similar results.
翻訳日:2023-02-28 17:44:43 公開日:2023-02-26
# TransferD2:トランスファーラーニング技術を用いたスマートマニュファクチャリングにおける欠陥自動検出手法

TransferD2: Automated Defect Detection Approach in Smart Manufacturing using Transfer Learning Techniques ( http://arxiv.org/abs/2302.13317v1 )

ライセンス: Link先を確認
Atah Nuh Mih, Hung Cao, Joshua Pickard, Monica Wachowicz, Rickey Dubay(参考訳) 製品が出荷される前に製品に欠陥があることを特定するため、スマートマニュファクチャリング業界では品質保証が不可欠である。 現代の機械学習技術は、これらの不完全さを迅速かつ正確に検出するために利用できる。 そこで我々は,トランスファー学習手法であるTransferD2を提案し,ソースオブジェクトのデータセット上の欠陥を正しく識別し,そのアプリケーションを新たな未確認対象オブジェクトに拡張する。 本稿では,小ソースデータセットから大容量データセットを生成するためのデータ拡張手法を提案する。 次に3つの異なる事前学習モデル(xception、resnet101v2、inceptionresnetv2)を分類器ネットワークに統合し、ソースデータとターゲットデータのパフォーマンスを比較する。 識別器を用いて,疑似バウンダリングボックスを用いて,未知のターゲットデータに対する不完全性の検出を行う。 その結果、resnet101v2は95.72%の精度でソースデータ上で最高のパフォーマンスを示す。 xceptionは、91.00%の精度でターゲットデータに対して最善を尽くし、ターゲット画像の欠陥をより正確に予測する。 また,実験を通して,事前学習モデルの選択はネットワークの深さに依存しないことを示した。 提案手法は,モデルのトレーニングに不十分なデータが得られない欠陥検出アプリケーションに適用でき,新たな未知データ中の欠陥を識別するために拡張することができる。

Quality assurance is crucial in the smart manufacturing industry as it identifies the presence of defects in finished products before they are shipped out. Modern machine learning techniques can be leveraged to provide rapid and accurate detection of these imperfections. We, therefore, propose a transfer learning approach, namely TransferD2, to correctly identify defects on a dataset of source objects and extend its application to new unseen target objects. We present a data enhancement technique to generate a large dataset from the small source dataset for building a classifier. We then integrate three different pre-trained models (Xception, ResNet101V2, and InceptionResNetV2) into the classifier network and compare their performance on source and target data. We use the classifier to detect the presence of imperfections on the unseen target data using pseudo-bounding boxes. Our results show that ResNet101V2 performs best on the source data with an accuracy of 95.72%. Xception performs best on the target data with an accuracy of 91.00% and also provides a more accurate prediction of the defects on the target images. Throughout the experiment, the results also indicate that the choice of a pre-trained model is not dependent on the depth of the network. Our proposed approach can be applied in defect detection applications where insufficient data is available for training a model and can be extended to identify imperfections in new unseen data.
翻訳日:2023-02-28 17:44:34 公開日:2023-02-26
# 高圧縮JPEG画像を用いたデータ効率の良いシーケンスベース視覚位置認識

Data-Efficient Sequence-Based Visual Place Recognition with Highly Compressed JPEG Images ( http://arxiv.org/abs/2302.13314v1 )

ライセンス: Link先を確認
Mihnea-Alexandru Tomita, Bruno Ferrarini, Michael Milford, Klaus McDonald-Maier, Shoaib Ehsan(参考訳) 視覚的場所認識(VPR)は、ロボットプラットフォームが環境中をローカライズすることを可能にする基本的なタスクである。 複数のエージェント間で視覚データを送信しなければならない分散VPRアプリケーションの場合、通信チャネルは帯域幅が限られている場合のローカライズプロセスを制限できる。 JPEGは画像圧縮標準であり、VPRアプリケーションの低データ伝送を容易にするために高い圧縮比を使用することができる。 しかし、高レベルのJPEG圧縮を適用すると、画像の明度とサイズが大幅に削減される。 本稿では,JPEG圧縮の高レベル化による性能低下を克服するために,シーケンスベースフィルタリングを多数の確立された学習型,非学習型VPR技術に取り入れる。 位置マッチング性能100%を実現するシーケンス長を報告し、jpeg圧縮のスペクトル全体の転送を行うために各vpr技術に必要なデータ量の解析を行う。 さらに,一様かつ一様でないJPEG圧縮データに対して,各VPR技術による位置マッチングに必要な時間について検討した。 その結果、VPR性能の類似レベルが帯域幅を著しく小さくするので、シーケンス長が大きくなる高度に圧縮されたJPEGデータセットを使用することは有益であることがわかった。 また,本論文では,転送データ量とVPRの実行に必要な合計時間との間にはトレードオフがあることも強調した。 我々の実験は、より効率的な位置マッチングを行うことができるため、クエリ画像を同じ品質の地図に圧縮することが好ましいこともしばしば示唆している。 実験は、軽度から極端なJPEG圧縮の下で、いくつかのVPRデータセットで実施される。

Visual Place Recognition (VPR) is a fundamental task that allows a robotic platform to successfully localise itself in the environment. For decentralised VPR applications where the visual data has to be transmitted between several agents, the communication channel may restrict the localisation process when limited bandwidth is available. JPEG is an image compression standard that can employ high compression ratios to facilitate lower data transmission for VPR applications. However, when applying high levels of JPEG compression, both the image clarity and size are drastically reduced. In this paper, we incorporate sequence-based filtering in a number of well-established, learnt and non-learnt VPR techniques to overcome the performance loss resulted from introducing high levels of JPEG compression. The sequence length that enables 100% place matching performance is reported and an analysis of the amount of data required for each VPR technique to perform the transfer on the entire spectrum of JPEG compression is provided. Moreover, the time required by each VPR technique to perform place matching is investigated, on both uniformly and non-uniformly JPEG compressed data. The results show that it is beneficial to use a highly compressed JPEG dataset with an increased sequence length, as similar levels of VPR performance are reported at a significantly reduced bandwidth. The results presented in this paper also emphasize that there is a trade-off between the amount of data transferred and the total time required to perform VPR. Our experiments also suggest that is often favourable to compress the query images to the same quality of the map, as more efficient place matching can be performed. The experiments are conducted on several VPR datasets, under mild to extreme JPEG compression.
翻訳日:2023-02-28 17:44:07 公開日:2023-02-26
# 言語空間におけるソーシャルメディアクロスモダリティ談話の理解

Understanding Social Media Cross-Modality Discourse in Linguistic Space ( http://arxiv.org/abs/2302.13311v1 )

ライセンス: Link先を確認
Chunpu Xu, Hanzhuo Tan, Jing Li, Piji Li(参考訳) テキストや画像によるマルチメディア通信はソーシャルメディアで人気がある。 しかし、限定的な研究は、画像がテキストで構成され、人間の認知において一貫性のある意味を形成する方法に関するものである。 このギャップを埋めるために,人間の読者がイメージとテキスト理解をどのように結合するかを反映した,クロスモダリティ談話という新しい概念を提案する。 テキスト記述は、まずマルチメディアの文脈における画像(字幕名)から導かれる。 サブタイトルとテキストの構造を形作るために、5つのラベル(エンティティレベルの挿入、投影、コンクリエーション、シーンレベルの復元、拡張)が使われる。 パイロットスタディとして、手動で注釈付き談話ラベルを付けた16Kのマルチメディアツイートを含む、最初のデータセットを構築しました。 実験の結果,キャプション付きマルチヘッドアテンションに基づくマルチメディアエンコーダは最先端の成果を得ることができた。

The multimedia communications with texts and images are popular on social media. However, limited studies concern how images are structured with texts to form coherent meanings in human cognition. To fill in the gap, we present a novel concept of cross-modality discourse, reflecting how human readers couple image and text understandings. Text descriptions are first derived from images (named as subtitles) in the multimedia contexts. Five labels -- entity-level insertion, projection and concretization and scene-level restatement and extension -- are further employed to shape the structure of subtitles and texts and present their joint meanings. As a pilot study, we also build the very first dataset containing 16K multimedia tweets with manually annotated discourse labels. The experimental results show that the multimedia encoder based on multi-head attention with captions is able to obtain the-state-of-the-art results.
翻訳日:2023-02-28 17:43:40 公開日:2023-02-26
# 物体をポーキングして見えない3Dオブジェクトを認識する

Perceiving Unseen 3D Objects by Poking the Objects ( http://arxiv.org/abs/2302.13375v1 )

ライセンス: Link先を確認
Linghao Chen, Yunzhou Song, Hujun Bao, Xiaowei Zhou(参考訳) ロボットのためのインタラクティブな3Dオブジェクト認識のための新しいアプローチを提案する。 既知のオブジェクトモデルや大量の注釈付きトレーニングデータに依存する従来の知覚アルゴリズムとは異なり、ポーキングに基づく3Dオブジェクトの自動検出と再構成を提案する。 ポンキングプロセスにより、ロボットは見えない3dオブジェクトを発見できるだけでなく、オブジェクトの3d再構成のためのマルチビュー観察もできる。 再構成されたオブジェクトは、通常の教師付き学習を伴うニューラルネットワークによって記憶され、新しいテスト画像で認識される。 実世界データを用いた実験により, ロボットによる把持などの実世界の応用が容易な3dオブジェクトを無監督で発見し, 再構成できることが確認された。 コードと補足資料はプロジェクトのページで入手できる。

We present a novel approach to interactive 3D object perception for robots. Unlike previous perception algorithms that rely on known object models or a large amount of annotated training data, we propose a poking-based approach that automatically discovers and reconstructs 3D objects. The poking process not only enables the robot to discover unseen 3D objects but also produces multi-view observations for 3D reconstruction of the objects. The reconstructed objects are then memorized by neural networks with regular supervised learning and can be recognized in new test images. The experiments on real-world data show that our approach could unsupervisedly discover and reconstruct unseen 3D objects with high quality, and facilitate real-world applications such as robotic grasping. The code and supplementary materials are available at the project page: https://zju3dv.github.io/poking_perception.
翻訳日:2023-02-28 17:37:38 公開日:2023-02-26
# マルチモーダル誘導映像におけるモーメントの局所化

Localizing Moments in Long Video Via Multimodal Guidance ( http://arxiv.org/abs/2302.13372v1 )

ライセンス: Link先を確認
Wayner Barrios, Mattia Soldan, Fabian Caba Heilbron, Alberto Mario Ceballos-Arroyo and Bernard Ghanem(参考訳) 最近のビデオにおける言語接地のための大規模長文MADデータセットの導入により、研究者は予期せぬ結果とともに、長文設定における現在の最先端手法の性能を調査できるようになった。 実際、現在の接地法だけでは、長いビデオシーケンスを処理できないため、この困難なタスクとセットアップに対処できない。 本研究では,パイプラインの接地に新たなコンポーネントを導入することで,長期的負担を回避する効果的な方法を提案する。 本モデルの目的は,映像のチャンクに文章を粗くアライメントし,高い相関関係を見出すレガシーなグラウンド化手法を適用することにより,グラウンド化手法の検索空間から無関係なビデオセグメントを効率的に除去することである。 これらのビデオセグメントを説明不能な瞬間とみなす。 この2段階のアプローチは、挑戦的なMADデータセットに基づいて、いくつかの異なる基盤となるベースラインのパフォーマンスを向上し、新しい最先端のパフォーマンスを達成するのに効果的である。

The recent introduction of the large-scale long-form MAD dataset for language grounding in videos has enabled researchers to investigate the performance of current state-of-the-art methods in the long-form setup, with unexpected findings. In fact, current grounding methods alone fail at tackling this challenging task and setup due to their inability to process long video sequences. In this work, we propose an effective way to circumvent the long-form burden by introducing a new component to grounding pipelines: a Guidance model. The purpose of the Guidance model is to efficiently remove irrelevant video segments from the search space of grounding methods by coarsely aligning the sentence to chunks of the movies and then applying legacy grounding methods where high correlation is found. We term these video segments as non-describable moments. This two-stage approach reveals to be effective in boosting the performance of several different grounding baselines on the challenging MAD dataset, achieving new state-of-the-art performance.
翻訳日:2023-02-28 17:37:21 公開日:2023-02-26
# 三次元複合材料の多目的生成設計

Multi-objective Generative Design of Three-Dimensional Composite Materials ( http://arxiv.org/abs/2302.13365v1 )

ライセンス: Link先を確認
Zhengyang Zhang, Han Fang, Zhao Xu, Jiajie Lv, Yao Shen, Yanming Wang(参考訳) 3Dアーキテクチャの複合材料は、様々な用途において、複数の機能要件を満たすように特性を調整できることが望ましい。 材料の内部成分の配置により、複合材料の特性の調整において構造設計は非常に重要である。 しかし、ほとんどの複合構造は既存のパターンに従う経験的設計によって提案されている。 3d構造の複雑さによって、大きな設計空間から複数の望ましい特性を持つカスタマイズされた構造を抽出することは困難である。 本稿では, 幾何学的, 構造的, 機械的要求に応じて3次元複合構造を逆設計する多目的駆動ワッサースタイン生成逆ネットワーク (mdwgan) について述べる。 本フレームワークは, ターゲットデータセットに類似した幾何学的, 構造的特徴を有する3次元複合構造を生成するGANベースネットワークで構成されている。 また, 複合材料における機械的特性と等方性制御の枠組みにも, 複数の目的が導入された。 トレーニングイテレーションにおける特性のリアルタイム計算は、正確な代理モデルによって達成される。 フレームワークを説明するために、小さくて簡潔なデータセットを構築しました。 複数の目的を重み付け, 3D-GAN はソフト制約として作用し, 各種構造の特徴を保ちながら, 生成した複合材の特性を多面的に調整できることが実証された。 小さなデータセットの実現可能性と、他の特性の目的のスケーラビリティは、様々な機能材料に高速で経験のない複合構造設計を提供するための、新しい効果的なアプローチとなります。

Composite materials with 3D architectures are desirable in a variety of applications for the capability of tailoring their properties to meet multiple functional requirements. By the arrangement of materials' internal components, structure design is of great significance in tuning the properties of the composites. However, most of the composite structures are proposed by empirical designs following existing patterns. Hindered by the complexity of 3D structures, it is hard to extract customized structures with multiple desired properties from large design space. Here we report a multi-objective driven Wasserstein generative adversarial network (MDWGAN) to implement inverse designs of 3D composite structures according to given geometrical, structural and mechanical requirements. Our framework consists a GAN based network which generates 3D composite structures possessing with similar geometrical and structural features to the target dataset. Besides, multiple objectives are introduced to our framework for the control of mechanical property and isotropy of the composites. Real time calculation of the properties in training iterations is achieved by an accurate surrogate model. We constructed a small and concise dataset to illustrate our framework. With multiple objectives combined by their weight, and the 3D-GAN act as a soft constraint, our framework is proved to be capable of tuning the properties of the generated composites in multiple aspects, while keeping the selected features of different kinds of structures. The feasibility on small dataset and potential scalability on objectives of other properties make our work a novel, effective approach to provide fast, experience free composite structure designs for various functional materials.
翻訳日:2023-02-28 17:37:02 公開日:2023-02-26
# サイバー・エフェクトのドクトリン:サイバー攻撃の防御のための倫理的枠組み

The Doctrine of Cyber Effect: An Ethics Framework for Defensive Cyber Deception ( http://arxiv.org/abs/2302.13362v1 )

ライセンス: Link先を確認
Quanyan Zhu(参考訳) サイバースペースにおける確立された規則や規則の欠如は、合意された倫理原則の欠如に起因するものであり、説明責任、規則、法律の確立が困難である。 この課題に取り組むには、基本的な哲学原理からサイバースペースを調べる必要がある。 本研究は,サイバー空間における防御的デセプションの使用の倫理に焦点をあて,善意,デオントロジー,無傷,透明性,公平という5つの倫理原理を取り入れたサイバー効果のドクトリンを提案する。 防衛的サイバー・デセプションの設計を導くため、我々は理屈の枠組みである倫理的重複のゲームを開発し、ドクトリンと一致している。 当初はサイバー詐欺を意図していたが、この教義は、AI説明責任やYouTubeの推薦に関する論争など倫理的な問題を含め、幅広い適用性を持っている。 倫理的原則を確立することで、デジタル領域におけるより大きな説明責任、規制、保護を促進することができる。

The lack of established rules and regulations in cyberspace is attributed to the absence of agreed-upon ethical principles, making it difficult to establish accountability, regulations, and laws. Addressing this challenge requires examining cyberspace from fundamental philosophical principles. This work focuses on the ethics of using defensive deception in cyberspace, proposing a doctrine of cyber effect that incorporates five ethical principles: goodwill, deontology, no-harm, transparency, and fairness. To guide the design of defensive cyber deception, we develop a reasoning framework, the game of ethical duplicity, which is consistent with the doctrine. While originally intended for cyber deception, this doctrine has broader applicability, including for ethical issues such as AI accountability and controversies related to YouTube recommendations. By establishing ethical principles, we can promote greater accountability, regulation, and protection in the digital realm.
翻訳日:2023-02-28 17:36:40 公開日:2023-02-26
# eiベースベイズ最適化とベイズモデル平均化による自律実験プラットフォームにおける逐次実験の誘導

Guiding the Sequential Experiments in Autonomous Experimentation Platforms through EI-based Bayesian Optimization and Bayesian Model Averaging ( http://arxiv.org/abs/2302.13360v1 )

ライセンス: Link先を確認
Ahmed Shoyeb Raihan, Imtiaz Ahmed(参考訳) 自律実験プラットフォーム(Autonomous Experimentation Platforms, AEP)は、インテリジェントな制御の下で、材料設計空間(MDS)をシーケンシャルに探索し、望ましい特性でパラメータを識別できる先進的な製造プラットフォームである。 これらのAIPの知的制御の中心は、次の実験を行う場所を選択するためのシーケンシャルな実験を導く政策である。 このような場合、搾取と探検のバランスがとらなければならない。 期待改善ベース(EIベース)取得機能を備えたベイズ最適化(BO)フレームワークは、MDSを効果的に探索し、次の実験を行う場所を案内し、基礎となる関係をより少ない実験で特定できるようにする。 従来のBOフレームワークは、単一のモデルに依存して、ブラックボックスの目的関数を逐次的に最適化しようとする。 しかし、この単一モデルアプローチはモデルの不確かさを考慮しない。 ベイズモデル平均化(BMA)は、複数のモデルを扱うことでこの問題に対処し、モデルの不確実性を考慮する。 本研究では,鋼の疲労強度を予測するための実寿命疲労データセットにおいて,従来のBOアルゴリズムを最もポピュラーなEIベースの実験ポリシーで適用する。 その後、BMAを一連の予測モデルを用いて同一データセットに適用し、BMAの性能を従来のBOアルゴリズムと比較する。 RMSEの観点で比較した結果,BMAは予測タスクにおいて,モデルの不確実性を考慮して,EIベースのBOよりも優れていることがわかった。

Autonomous Experimentation Platforms (AEPs) are advanced manufacturing platforms that, under intelligent control, can sequentially search the material design space (MDS) and identify parameters with the desired properties. At the heart of the intelligent control of these AEPs is the policy guiding the sequential experiments, which is to choose the location to carry out the next experiment. In such cases, a balance between exploitation and exploration must be achieved. A Bayesian Optimization (BO) framework with Expected Improvement based (EI-based) acquisition function can effectively search the MDS and guide where to conduct the next experiments so that the underlying relationship can be identified with a smaller number of experiments. The traditional BO framework tries to optimize a black box objective function in a sequential manner by relying on a single model. However, this single-model approach does not account for model uncertainty. Bayesian Model Averaging (BMA) addresses this issue by working with multiple models and thus considering the uncertainty in the models. In this work, we first apply the conventional BO algorithm with the most popular EI-based experiment policy in a real-life fatigue dataset for steel to predict the fatigue strength of steel. Afterward, we apply BMA to the same dataset by working with a set of predictive models and compare the performance of BMA with the traditional BO algorithm, which relies on a single model for approximation. We compare the results in terms of RMSE and find that BMA performs better than EI-based BO in the prediction task by considering the model uncertainty in its framework.
翻訳日:2023-02-28 17:36:18 公開日:2023-02-26
# 演奏不足:羅生門四重奏の物語

Performance is not enough: a story of the Rashomon's quartet ( http://arxiv.org/abs/2302.13356v1 )

ライセンス: Link先を確認
Przemyslaw Biecek, Hubert Baniecki, Mateusz Krzyznski(参考訳) 予測モデルはしばしば、選択されたモデル品質基準を最適化する単一の最良のモデルを見つけるために還元される。 しかし、もし第2の最良のモデルがデータを均等に表現するが、全く異なる方法で説明するとしたらどうだろう? 第3のベストは? 本稿では,アンスコムのカルテット・ポイントに従って,異なるクラスの4つのモデルがほぼ同一の予測性能を持つ合成データセットを提案する。 しかし、これらのモデルの可視化は、このデータセットをまったく異なる方法で記述していることを明らかにする。 この単純な図は、データサイエンティストが予測モデルをよりよく理解するために視覚化することを促すと信じています。 等しく優れたモデルの集合の説明分析は貴重な情報を提供することができ、我々はこのタスクのためにより多くの技術を開発する必要がある。

Predictive modelling is often reduced to finding a single best model that optimises a selected model quality criterion. But what if the second best model describes the data equally well but in a completely different way? What about the third best? Following the Anscombe's quartet point, in this paper, we present a synthetic dataset for which four models from different classes have practically identical predictive performance. But, visualisation of these models reveals that they describe this dataset in very different ways. We believe that this simple illustration will encourage data scientists to visualise predictive models in order to better understand them. Explanatory analysis of the set of equally good models can provide valuable information and we need to develop more techniques for this task.
翻訳日:2023-02-28 17:35:50 公開日:2023-02-26
# 境界ロバスト推論のためのカーネル条件モーメント制約

Kernel Conditional Moment Constraints for Confounding Robust Inference ( http://arxiv.org/abs/2302.13348v1 )

ライセンス: Link先を確認
Kei Ishikawa, Niao He(参考訳) 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。 感度分析法は、与えられた不確実性セット上での最悪の場合のポリシー値の推定によく用いられる。 しかし、既存の作業はしばしば、トラクタビリティのために設定された不確実性の粗い緩和に頼り、政策価値を過度に保守的に見積もる。 本稿では,政策価値の鋭い下限を提供する一般的な推定器を提案する。 この推定器は,最近提案されているdorn and guo (2022) によるシャープ推定器を特別に含むことを示し,f-divergence を用いた古典的辺縁感度モデルの新たな拡張を可能にする。 提案手法は,従来の非シャープ推定器が考慮しなかった条件付きモーメント制約に対するトラクタブル近似を求めるために,カーネル手法を利用する。 理論的解析では、下位境界推定をバイアスする仕様誤差を保証しないカーネルの選択条件を提供する。 さらに,政策評価と学習の整合性を保証する。 合成および実世界のデータを用いた実験では,提案手法の有効性を示す。

We study policy evaluation of offline contextual bandits subject to unobserved confounders. Sensitivity analysis methods are commonly used to estimate the policy value under the worst-case confounding over a given uncertainty set. However, existing work often resorts to some coarse relaxation of the uncertainty set for the sake of tractability, leading to overly conservative estimation of the policy value. In this paper, we propose a general estimator that provides a sharp lower bound of the policy value. It can be shown that our estimator contains the recently proposed sharp estimator by Dorn and Guo (2022) as a special case, and our method enables a novel extension of the classical marginal sensitivity model using f-divergence. To construct our estimator, we leverage the kernel method to obtain a tractable approximation to the conditional moment constraints, which traditional non-sharp estimators failed to take into account. In the theoretical analysis, we provide a condition for the choice of the kernel which guarantees no specification error that biases the lower bound estimation. Furthermore, we provide consistency guarantees of policy evaluation and learning. In the experiments with synthetic and real-world data, we demonstrate the effectiveness of the proposed method.
翻訳日:2023-02-28 17:35:39 公開日:2023-02-26
# 2次元Bose-Hubbardモデルにおけるモットから超流動相への量子キブル・ズレーククレンチのテンソルネットワークシミュレーション

Tensor network simulation of the quantum Kibble-Zurek quench from the Mott to superfluid phase in the two-dimensional Bose-Hubbard model ( http://arxiv.org/abs/2302.13347v1 )

ライセンス: Link先を確認
Jacek Dziarmaga and Jakub M. Mazur(参考訳) コンメンシュレート充填時のボース・ハッバードモデル (BHM) の量子シミュレーションは, 急激なクエンチの後, それらの伝播速度を推定するのに十分な時間にわたって, 相関の拡散に従うことができる。 本研究では,モットから超流動相への量子kibble-zurek(kz)ランプのテンソルネットワークシミュレーションを行い,相対的に短いランプ・クエンチ時間でもkz機構(kzm)によって予測される動力法則を検証できることを実証する。 これらは相関長と励起エネルギーについて検証できるが、最も信頼性の高いテストは、単一粒子相関関数のkzmスケーリング仮説に基づく:同じスケールされた時間崩壊で評価された異なるクエンチ時間に対する相関関数と、スケールされた距離の同じスケーリング関数との相関関数である。 空間と時間変数のスケーリングは、KZ電力法則に従って行われる。

Quantum simulations of the Bose-Hubbard model (BHM) at commensurate filling can follow spreading of correlations after a sudden quench for times long enough to estimate their propagation velocities. In this work we perform tensor network simulation of the quantum Kibble-Zurek (KZ) ramp from the Mott towards the superfluid phase in the square lattice BHM and demonstrate that even relatively short ramp/quench times allow one to test the power laws predicted by the KZ mechanism (KZM). They can be verified for the correlation length and the excitation energy but the most reliable test is based on the KZM scaling hypothesis for the single particle correlation function: the correlation functions for different quench times evaluated at the same scaled time collapse to the same scaling function of the scaled distance. The scaling of the space and time variables is done according to the KZ power laws.
翻訳日:2023-02-28 17:35:19 公開日:2023-02-26
# 深部画像品質モデルの解析

Analysis of Deep Image Quality Models ( http://arxiv.org/abs/2302.13345v1 )

ライセンス: Link先を確認
Pablo Hern\'andez-C\'amara, Jorge Vila-Tom\'as, Valero Laparra, Jes\'us Malo(参考訳) ディープニューラルネットワークに基づく主観的画質測定は、視覚神経科学のモデルと非常に関係がある。 この接続はエンジニアリングにメリットがあるが、より興味深いのは、ディープネットワークを異なる方法で最適化し、視覚知覚(人間と人工の両方)の背後にある原理を探求する優れたツールとなることだ。 最近、多くの興味深い視覚的タスクに対して、無数のネットワークがうまく最適化されている。 これらのネットは、画像品質やその他の心理物理学を予測するために特別に設計されたものではないが、驚くべき人間のような行動を示した。 その理由は定かではない。 本研究では, 目標(機能), データ(学習環境), アーキテクチャ, 読み出し: 選択層, チャネル関係の微調整, 応答のプレーンな読み出しとは対照的に統計記述子の使用など, 異なる要因を分離することにより, 事前学習したネットの知覚特性(特に画像品質を予測する能力)を徹底的に分析する。 いくつかの結論が導かれる。 すべてのモデルは、SSIMよりも人間の意見とよく相関している。 さらに重要なことに、いくつかのネットは最先端技術であり、余分な洗練や知覚情報がない。 分類などの教師付きタスクのために訓練されたネットは、lpips(画像品質に特化したネット)よりも人間にかなりよく相関している。 興味深いことに、jigsawのような自己管理タスクもLPIPSより優れている。 単純なアーキテクチャは、非常に深い網よりも優れている。 単純な網では、深い層が人間の判断に近いように、人間との相関は深さとともに増加する。 これは非常に深い網では正しくない。 錯覚やコントラスト感度に関する報告とは対照的に、画像環境の小さな変化は大きな違いをもたらさない。 最後に、探索された統計記述子と結合は大きな影響を及ぼさなかった。

Subjective image quality measures based on deep neural networks are very related to models of visual neuroscience. This connection benefits engineering but, more interestingly, the freedom to optimize deep networks in different ways, make them an excellent tool to explore the principles behind visual perception (both human and artificial). Recently, a myriad of networks have been successfully optimized for many interesting visual tasks. Although these nets were not specifically designed to predict image quality or other psychophysics, they have shown surprising human-like behavior. The reasons for this remain unclear. In this work, we perform a thorough analysis of the perceptual properties of pre-trained nets (particularly their ability to predict image quality) by isolating different factors: the goal (the function), the data (learning environment), the architecture, and the readout: selected layer(s), fine-tuning of channel relevance, and use of statistical descriptors as opposed to plain readout of responses. Several conclusions can be drawn. All the models correlate better with human opinion than SSIM. More importantly, some of the nets are in pair of state-of-the-art with no extra refinement or perceptual information. Nets trained for supervised tasks such as classification correlate substantially better with humans than LPIPS (a net specifically tuned for image quality). Interestingly, self-supervised tasks such as jigsaw also perform better than LPIPS. Simpler architectures are better than very deep nets. In simpler nets, correlation with humans increases with depth as if deeper layers were closer to human judgement. This is not true in very deep nets. Consistently with reports on illusions and contrast sensitivity, small changes in the image environment does not make a big difference. Finally, the explored statistical descriptors and concatenations had no major impact.
翻訳日:2023-02-28 17:35:00 公開日:2023-02-26
# 総変分距離を考慮した台詞生成モデル

Tailoring Language Generation Models under Total Variation Distance ( http://arxiv.org/abs/2302.13344v1 )

ライセンス: Link先を確認
Haozhe Ji, Pei Ke, Zhipeng Hu, Rongsheng Zhang, Minlie Huang(参考訳) ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。 分布的視点から見ると、MLEは実際に実際のデータの分布とモデルの分布の間のクルバック・リーブラー分岐(KLD)を最小化する。 しかし、このアプローチはモデルに非ゼロ(時には大きな)確率質量を、その品質に関係なく全てのトレーニングサンプルに分配させる。 さらに、データ分散における低確率領域をカバーしようとする試みにおいて、本モデルは、自己回帰復号時のテキスト劣化の主な原因の一つとして、破損したテキストシーケンスの確率を体系的に過大評価する。 この問題を解決するために, 総変分距離(TVD)を外乱に対する頑健性に活用し, 言語生成に応用するための実践的境界を開発する。 次に,TVD推定のトレードオフをバランスさせるTaiLr の目標を提案する。 直感的には、tailrは、調整可能なペナライゼーション強度を持つ低モデル確率の実際のデータサンプルをダウンウェイトする。 実験により, 多様性を犠牲にすることなく, 生成配列の過大評価を緩和し, テキスト生成タスクにおける生成品質の向上を図った。

The standard paradigm of neural language generation adopts maximum likelihood estimation (MLE) as the optimizing method. From a distributional view, MLE in fact minimizes the Kullback-Leibler divergence (KLD) between the distribution of the real data and that of the model. However, this approach forces the model to distribute non-zero (sometimes large) probability mass to all training samples regardless of their quality. Moreover, in the attempt to cover the low-probability regions in the data distribution, the model systematically overestimates the probability of corrupted text sequences, which we conjecture is one of the main reasons for text degeneration during autoregressive decoding. To remedy this problem, we leverage the total variation distance (TVD) with its robustness to outliers, and develop practical bounds to apply it to language generation. Then, we introduce the TaiLr objective that balances the tradeoff of estimating TVD. Intuitively, TaiLr downweights real data samples that have low model probabilities with tunable penalization intensity. Experimental results show that our method alleviates the overestimation of degenerated sequences without sacrificing diversity and improves generation quality on a wide range of text generation tasks.
翻訳日:2023-02-28 17:34:33 公開日:2023-02-26
# 不均一グラフニューラルネットワークのための経路積分に基づく畳み込みとプーリング

Path Integral Based Convolution and Pooling for Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2302.13399v1 )

ライセンス: Link先を確認
Lingjie Kong and Yun Liao(参考訳) graph neural networks(gnn)はディープラーニングをグラフ構造データセットに拡張する。 画像予測に使用する畳み込みニューラルネットワーク(CNN)と同様に、畳み込み層とプーリング層がグラフ予測タスクにおけるGNNの成功の基礎となっている。 最初のPAN論文では、パス積分に基づくグラフニューラルネットワークを用いてグラフ予測を行う。 具体的には、最大エントロピーランダムウォークに対応する経路長に応じて、メッセージ送信側と受信側を学習可能な重みでリンクする全てのパスを含む畳み込み操作を使用する。 さらに、そのような畳み込み演算を最大エントロピー遷移(MET)と呼ばれる新しい遷移行列に一般化する。 MET行列の対角成分は、部分グラフ中心性に直接関係しているため、集中度スコアに基づくプーリングの試行メカニズムを提供する。 PANの最初の論文ではノードの特徴しか考慮していない。 ノードとエッジの両方の機能を含む複雑な異種グラフを扱う機能をさらに拡張します。

Graph neural networks (GNN) extends deep learning to graph-structure dataset. Similar to Convolutional Neural Networks (CNN) using on image prediction, convolutional and pooling layers are the foundation to success for GNN on graph prediction tasks. In the initial PAN paper, it uses a path integral based graph neural networks for graph prediction. Specifically, it uses a convolution operation that involves every path linking the message sender and receiver with learnable weights depending on the path length, which corresponds to the maximal entropy random walk. It further generalizes such convolution operation to a new transition matrix called maximal entropy transition (MET). Because the diagonal entries of the MET matrix is directly related to the subgraph centrality, it provide a trial mechanism for pooling based on centrality score. While the initial PAN paper only considers node features. We further extends its capability to handle complex heterogeneous graph including both node and edge features.
翻訳日:2023-02-28 17:28:40 公開日:2023-02-26
# ハッシュ符号化を用いた高効率物理インフォームドニューラルネットワーク

Efficient physics-informed neural networks using hash encoding ( http://arxiv.org/abs/2302.13397v1 )

ライセンス: Link先を確認
Xinquan Huang and Tariq Alkhalifah(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の関数表現が柔軟性と精度を提供するため、科学計算において多くの注目を集めている。 しかし、その訓練費は古典的な数値手法の代替手段としての実用性に制限がかかっている。 そこで本研究では,ニューラルネットワークへのローカルアウェア(マルチレゾリューション)座標入力を提供するため,ピンにマルチレゾリューションハッシュエンコーディングを組み込んでトレーニング効率を向上させることを提案する。 ニューラル表現場コミュニティ (NeRF) から引用して, PINN損失項でしばしば必要とされる入力座標に関して, ハッシュ符号化ニューラルネットワークの導関数を計算する頑健性について検討する。 本稿では, 微分の不連続性に対処するために, 自動微分を微分の有限差分計算に置き換えることを提案する。 また,超パラメータを符号化するハッシュに対して,ロバスト導関数を得るための適切な範囲を共有する。 提案手法は,バーガーズ方程式,ヘルムホルツ方程式,ナビエ・ストークス方程式の3つの問題について検証した。 提案手法では,バニラPINN実装の10倍の効率向上が認められている。

Physics-informed neural networks (PINNs) have attracted a lot of attention in scientific computing as their functional representation of partial differential equation (PDE) solutions offers flexibility and accuracy features. However, their training cost has limited their practical use as a real alternative to classic numerical methods. Thus, we propose to incorporate multi-resolution hash encoding into PINNs to improve the training efficiency, as such encoding offers a locally-aware (at multi resolution) coordinate inputs to the neural network. Borrowed from the neural representation field community (NeRF), we investigate the robustness of calculating the derivatives of such hash encoded neural networks with respect to the input coordinates, which is often needed by the PINN loss terms. We propose to replace the automatic differentiation with finite-difference calculations of the derivatives to address the discontinuous nature of such derivatives. We also share the appropriate ranges for the hash encoding hyperparameters to obtain robust derivatives. We test the proposed method on three problems, including Burgers equation, Helmholtz equation, and Navier-Stokes equation. The proposed method admits about a 10-fold improvement in efficiency over the vanilla PINN implementation.
翻訳日:2023-02-28 17:28:27 公開日:2023-02-26
# パターンフィルタとしてのオートエンコーダ

Autoencoders as Pattern Filters ( http://arxiv.org/abs/2302.13393v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) オートエンコーダを"パターンフィルタ"に変換するためのシンプルなアプローチについて論じる。 フィルタリング以外にも、あるクラスのパターンのみをフィルタリングすることを学ぶことによって、このシンプルなアプローチが堅牢な分類器の構築にも利用できることを示す。

We discuss a simple approach to transform autoencoders into "pattern filters". Besides filtering, we show how this simple approach can be used also to build robust classifiers, by learning to filter only patterns of a given class.
翻訳日:2023-02-28 17:28:07 公開日:2023-02-26
# nsanet: ノイズ要求注意ネットワーク

NSANet: Noise Seeking Attention Network ( http://arxiv.org/abs/2302.13392v1 )

ライセンス: Link先を確認
Maryam Jameela and Gunho Sohn(参考訳) LiDAR(Light Detection and Ranging)技術は、多くのアプリケーションで自然と構築された環境を捉えるのに人気がある。 近年の電気光学技術の進歩により、高パルス繰り返し周波数(prf)でのレーザーリターンが得られ、3d点雲の密度が大幅に向上した。 従来の低いPRFを用いた技術は、受信機におけるパルス対間のミスマッチを避けるのに十分な、単一パルス対空気(SPIA)ゾーンを有していた。 新しいマルチプルパルス・イン・エア(MPIA)技術は、1つの飛行ラインとブラインドゾーンの無い様々な運用範囲の窓を保証する。 この技術の欠点は、大気の投射が、隣接する地形の同じパルス・イン・エアゾーンに近づき、興味のある物体と交差する可能性があることである。 これらのノイズ特性はシーンの知覚品質を損ね、既存のフィルタが著しく非効率であるため、新たなノイズフィルタニューラルネットワークの開発を促進する。 本稿では,物理的先行情報と局所的な空間的注意をフィルタノイズに用い,ノイズを検知するニューラルネット(NSANet)を提案する。 本研究は,符号化・復号フェーズにおけるコンピュータビジョンにおける注意の役割を証明するために,特徴統合と注意関与という2つの心理学理論を動機としている。 以上より,nsanetは,最先端のノイズフィルタ型深層畳み込みニューラルネットワークと比較して,注意エンゲージメント理論への傾きと性能向上を示した。

LiDAR (Light Detection and Ranging) technology has remained popular in capturing natural and built environments for numerous applications. The recent technological advancements in electro-optical engineering have aided in obtaining laser returns at a higher pulse repetition frequency (PRF), which considerably increased the density of the 3D point cloud. Conventional techniques with lower PRF had a single pulse-in-air (SPIA) zone, large enough to avoid a mismatch among pulse pairs at the receiver. New multiple pulses-in-air (MPIA) technology guarantees various windows of operational ranges for a single flight line and no blind zones. The disadvantage of the technology is the projection of atmospheric returns closer to the same pulse-in-air zone of adjacent terrain points likely to intersect with objects of interest. These noise properties compromise the perceived quality of the scene and encourage the development of new noise-filtering neural networks, as existing filters are significantly ineffective. We propose a novel dual-attention noise-filtering neural network called Noise Seeking Attention Network (NSANet) that uses physical priors and local spatial attention to filter noise. Our research is motivated by two psychology theories of feature integration and attention engagement to prove the role of attention in computer vision at the encoding and decoding phase. The presented results of NSANet show the inclination towards attention engagement theory and a performance boost compared to the state-of-the-art noise-filtering deep convolutional neural networks.
翻訳日:2023-02-28 17:28:02 公開日:2023-02-26
# MDF-Net:CXR画像と臨床データを用いた異常検出のためのマルチモーダルデュアルフュージョンネットワーク

MDF-Net: Multimodal Dual-Fusion Network for Abnormality Detection using CXR Images and Clinical Data ( http://arxiv.org/abs/2302.13390v1 )

ライセンス: Link先を確認
Chihcheng Hsieh and Isabel Blanco Nobre and Sandra Costa Sousa and Chun Ouyang and Margot Brereton and Jacinto C. Nascimento and Joaquim Jorge and Catarina Moreira(参考訳) 本研究の目的は, 胸部X線画像における深層学習(DL)分類器の性能に及ぼす臨床情報を含めることによる効果を検討することである。 現在の分類器は胸部X線画像のみを用いて高い性能を示すが, 臨床データは画像の解釈や適切な診断に不可欠であると考えられた。 本研究では,患者の臨床データ(構造化データ)と胸部X線(画像データ)を同時に処理できる2つの融合法からなる新しいアーキテクチャを提案する。 これらのデータモダリティは異なる次元空間にあるため、Mask R-CNNモデルにおけるマルチモーダル学習プロセスを容易にするために、空間化と呼ばれる空間配置戦略を提案する。 MIMIC CXR(ケストX線画像)、MIMIC IV-ED(患者の臨床データ)、REFLACX(胸部X線における疾患部位の注釈)の3つのデータセットからなる広範囲な実験的評価を行った。 その結果, 患者の臨床データをDLモデルに組み込むことにより, 胸部X線のみを用いた標準的なMask R-CNNと比較して, 胸部X線における疾患局在の12%向上が得られた。 さらにアブレーション研究は、多モードDLアーキテクチャの重要性と、疾患の局所化における患者の臨床データの取り込みも強調している。 この研究で提案されたアーキテクチャは、研究の科学的再現性を促進するために一般に利用可能である(https://github.com/chihchenghsieh/multimodal-abnormalities-detection)。

This study aims to investigate the effects of including patients' clinical information on the performance of deep learning (DL) classifiers for disease location in chest X-ray images. Although current classifiers achieve high performance using chest X-ray images alone, our interviews with radiologists indicate that clinical data is highly informative and essential for interpreting images and making proper diagnoses. In this work, we propose a novel architecture consisting of two fusion methods that enable the model to simultaneously process patients' clinical data (structured data) and chest X-rays (image data). Since these data modalities are in different dimensional spaces, we propose a spatial arrangement strategy, termed spatialization, to facilitate the multimodal learning process in a Mask R-CNN model. We performed an extensive experimental evaluation comprising three datasets with different modalities: MIMIC CXR (chest X-ray images), MIMIC IV-ED (patients' clinical data), and REFLACX (annotations of disease locations in chest X-rays). Results show that incorporating patients' clinical data in a DL model together with the proposed fusion methods improves the performance of disease localization in chest X-rays by 12\% in terms of Average Precision compared to a standard Mask R-CNN using only chest X-rays. Further ablation studies also emphasize the importance of multimodal DL architectures and the incorporation of patients' clinical data in disease localisation. The architecture proposed in this work is publicly available to promote the scientific reproducibility of our study (https://github.com/ChihchengHsieh/multimodal-abnormalities-detection).
翻訳日:2023-02-28 17:27:37 公開日:2023-02-26
# NBA2Vec:NBA選手の特徴表現

NBA2Vec: Dense feature representations of NBA players ( http://arxiv.org/abs/2302.13386v1 )

ライセンス: Link先を確認
Webster Guan, Nauman Javed, Peter Lu(参考訳) バスケットボールの試合における選手のパフォーマンスを理解するには、チームメイトと相手ラインアップのコンテキストにおける選手の評価が必要である。 本稿では,word2vecに基づくニューラルネットワークモデルであるnba2vecについて述べる。これは,手作りのヒューリスティックや集計統計指標を使わずに遊技結果を予測することによって,各選手の密集した特徴表現を抽出する。 特に,本モデルは,裁判所における攻撃的及び防御的選手の双方から,所有の成果を予測することを目的とした。 1551人の異なるプレイヤーによる350万以上のプレイをトレーニングすることで、経験的プレイ・バイ・プレイ分布に対して0.3k-lの分岐を達成した。 結果として得られる埋め込み空間は、プレイヤーの位置とスタイルの一般的な分類と一致しており、埋め込み次元は伝統的なボックススコアの指標とかなりのレベルで相関している。 最後に,NBA2Vecが2017年のNBAプレーオフシリーズの結果を正確に予測し,最適ラインアップマッチを決定する可能性を示す。 選手のスタイルを特徴付けるnba2vec埋め込みの今後の応用は、チームの成功を最大化するプレイヤー獲得とコーチング決定の予測モデルに革命をもたらす可能性がある。

Understanding a player's performance in a basketball game requires an evaluation of the player in the context of their teammates and the opposing lineup. Here, we present NBA2Vec, a neural network model based on Word2Vec which extracts dense feature representations of each player by predicting play outcomes without the use of hand-crafted heuristics or aggregate statistical measures. Specifically, our model aimed to predict the outcome of a possession given both the offensive and defensive players on the court. By training on over 3.5 million plays involving 1551 distinct players, our model was able to achieve a 0.3 K-L divergence with respect to the empirical play-by-play distribution. The resulting embedding space is consistent with general classifications of player position and style, and the embedding dimensions correlated at a significant level with traditional box score metrics. Finally, we demonstrate that NBA2Vec accurately predicts the outcomes to various 2017 NBA Playoffs series, and shows potential in determining optimal lineup match-ups. Future applications of NBA2Vec embeddings to characterize players' style may revolutionize predictive models for player acquisition and coaching decisions that maximize team success.
翻訳日:2023-02-28 17:27:07 公開日:2023-02-26
# AI通信における文レベル提案とメッセージレベル提案の比較

Comparing Sentence-Level Suggestions to Message-Level Suggestions in AI-Mediated Communication ( http://arxiv.org/abs/2302.13382v1 )

ライセンス: Link先を確認
Liye Fu, Benjamin Newman, Maurice Jakesch, Sarah Kreps(参考訳) 伝統的に、筆記支援システムはショートまたはシングルワードの提案に焦点を合わせてきた。 近年、GPT-3のような大規模言語モデルにより、より高度な支援機会を提供しながら、より長い自然な音を出すことができるようになった。 本研究は、aiによるコミュニケーションのための文とメッセージレベルの提案のトレードオフを検討する。 私たちは120人の参加者を募集し、多くの構成員の懸念に応える必要のある議員事務所のスタッフとして活動しました。 参加者は、異なる種類の支援でメールに返信するよう求められた。 その結果,提案したドラフトを主に編集するため,メッセージレベルの提案を受講した参加者はより早く反応し,経験に満足していた。 また、彼らが書いた本文は他人の役に立つものと評価された。 一方, 文レベルの補助を受けた参加者は, より高いエージェント感を保ったが, 回答の流れを計画し, 提案をいつ使うかを決める必要があるため, 作業に時間がかかった。 本研究は,タスク適合型コミュニケーション支援システムの設計に影響を及ぼす。

Traditionally, writing assistance systems have focused on short or even single-word suggestions. Recently, large language models like GPT-3 have made it possible to generate significantly longer natural-sounding suggestions, offering more advanced assistance opportunities. This study explores the trade-offs between sentence- vs. message-level suggestions for AI-mediated communication. We recruited 120 participants to act as staffers from legislators' offices who often need to respond to large volumes of constituent concerns. Participants were asked to reply to emails with different types of assistance. The results show that participants receiving message-level suggestions responded faster and were more satisfied with the experience, as they mainly edited the suggested drafts. In addition, the texts they wrote were evaluated as more helpful by others. In comparison, participants receiving sentence-level assistance retained a higher sense of agency, but took longer for the task as they needed to plan the flow of their responses and decide when to use suggestions. Our findings have implications for designing task-appropriate communication assistance systems.
翻訳日:2023-02-28 17:26:45 公開日:2023-02-26
# 閉ループ誤差補正学習は熱電材料の実験的発見を加速する

Closed-loop Error Correction Learning Accelerates Experimental Discovery of Thermoelectric Materials ( http://arxiv.org/abs/2302.13380v1 )

ライセンス: Link先を確認
Hitarth Choubisa, Md Azimul Haque, Tong Zhu, Lewei Zeng, Maral Vafaie, Derya Baran, Edward H Sargent(参考訳) 熱電材料の探索は、ドーピングによる指数関数的な自由度と合成経路の多様性とを併せ持つ大きな物質空間を考えると困難である。 ここでは, 誤り訂正学習(ECL)を用いて, 過去のデータを組み込んで, 実験的なフィードバックを用いて更新・改良する。 そこで,従来のデータセットから学習し,パラメータ化が難しい合成と特徴の相違にモデルを適応させる。 次に、この戦略を温度<300{\deg}Cで合成を優先する熱電材料の発見に適用する。 pbse:snsbという熱電材料の既報の化学系を報告し,snsbをドープしたpbseの2 wt%がpbseの2倍以上の力率を示すことを見出した。 本研究は,最先端の機械学習モデルを用いた高スループット検索と比較して,最適化材料を見つけるために必要な実験回数を最大3倍削減することを示す。 また, この改善は, 回帰率の低下を示す方法において, 事前の精度に依存し, 一定の精度に達すると, その傾向を左右する実験経路に関連する要因である。

The exploration of thermoelectric materials is challenging considering the large materials space, combined with added exponential degrees of freedom coming from doping and the diversity of synthetic pathways. Here we seek to incorporate historical data and update and refine it using experimental feedback by employing error-correction learning (ECL). We thus learn from prior datasets and then adapt the model to differences in synthesis and characterization that are otherwise difficult to parameterize. We then apply this strategy to discovering thermoelectric materials where we prioritize synthesis at temperatures < 300{\deg}C. We document a previously unreported chemical family of thermoelectric materials, PbSe:SnSb, finding that the best candidate in this chemical family, 2 wt% SnSb doped PbSe, exhibits a power factor more than 2x that of PbSe. Our investigations show that our closed-loop experimentation strategy reduces the required number of experiments to find an optimized material by as much as 3x compared to high-throughput searches powered by state-of-the-art machine learning models. We also observe that this improvement is dependent on the accuracy of prior in a manner that exhibits diminishing returns, and after a certain accuracy is reached, it is factors associated with experimental pathways that dictate the trends.
翻訳日:2023-02-28 17:26:30 公開日:2023-02-26
# puppeteerとmarionette:中心パターン生成器と上向き駆動の相互作用に基づく予測四足歩行の学習

Puppeteer and Marionette: Learning Anticipatory Quadrupedal Locomotion Based on Interactions of a Central Pattern Generator and Supraspinal Drive ( http://arxiv.org/abs/2302.13378v1 )

ライセンス: Link先を確認
Milad Shafiee, Guillaume Bellegarda, Auke Ijspeert(参考訳) 四足歩行は、脊髄中枢パターン生成器(CPG)、感覚フィードバック、および脳からの上脊髄駆動信号との相互作用から生じる。 CPGの計算モデルは、計算神経科学やバイオインスパイアされたロボティクスにおける動物の運動制御に対する脊髄の寄与を調べるために広く用いられている。 しかし、期待行動、すなわち、前もって計画する(例えば、足場配置)運動行動への超音速駆動の寄与は、まだ正しくは理解されていない。 特に、正確な足の配置のために脳がcpg活性を調節するか、または直接筋肉活動(cpgをバイパスする)を調節するかははっきりしない。 本稿では,ギャップを踏むことを伴う予測移動シナリオにおいて,超音速駆動とCPGの相互作用について検討する。 深部強化学習(DRL)を用いることで、超音速駆動動作を再現するニューラルネットワークポリシーを訓練する。 このポリシーはcpgダイナミクスを調節するか、cpgダイナミクスをバイパスするためにアクティベーションシグナルを直接変更することができる。 以上の結果から,アクチベーション信号への直接的方向寄与は,高いギャップ交差成功率の鍵成分であることが示唆された。 しかし、脊髄のCPGダイナミクスは歩行の滑らかさとエネルギー効率に有益である。 さらに,本研究は,前足距離をギャップまで感知することが,ギャップを横断する学習において最も重要かつ十分な感覚情報であることを示す。 本研究は,ネコや馬が障害物回避のために前肢を主に制御し,後肢が前肢の情報に基づいて内部記憶を追従するという生物学的仮説を支持する。 本手法により,4足歩行ロボットは,明示的なダイナミクスモデリングやモデル予測制御(mpc)を必要とせず,最大20cm(体長50%)のギャップを横切ることができる。

Quadruped animal locomotion emerges from the interactions between the spinal central pattern generator (CPG), sensory feedback, and supraspinal drive signals from the brain. Computational models of CPGs have been widely used for investigating the spinal cord contribution to animal locomotion control in computational neuroscience and in bio-inspired robotics. However, the contribution of supraspinal drive to anticipatory behavior, i.e. motor behavior that involves planning ahead of time (e.g. of footstep placements), is not yet properly understood. In particular, it is not clear whether the brain modulates CPG activity and/or directly modulates muscle activity (hence bypassing the CPG) for accurate foot placements. In this paper, we investigate the interaction of supraspinal drive and a CPG in an anticipatory locomotion scenario that involves stepping over gaps. By employing deep reinforcement learning (DRL), we train a neural network policy that replicates the supraspinal drive behavior. This policy can either modulate the CPG dynamics, or directly change actuation signals to bypass the CPG dynamics. Our results indicate that the direct supraspinal contribution to the actuation signal is a key component for a high gap crossing success rate. However, the CPG dynamics in the spinal cord are beneficial for gait smoothness and energy efficiency. Moreover, our investigation shows that sensing the front feet distances to the gap is the most important and sufficient sensory information for learning gap crossing. Our results support the biological hypothesis that cats and horses mainly control the front legs for obstacle avoidance, and that hind limbs follow an internal memory based on the front limbs' information. Our method enables the quadruped robot to cross gaps of up to 20 cm (50% of body-length) without any explicit dynamics modeling or Model Predictive Control (MPC).
翻訳日:2023-02-28 17:26:09 公開日:2023-02-26
# 時間遅延ニューラルネットワークを用いた句読解再生におけるマルチモーダル音響およびテクスチャ埋め込みの効率的なアンサンブルアーキテクチャ

Efficient Ensemble Architecture for Multimodal Acoustic and Textual Embeddings in Punctuation Restoration using Time-Delay Neural Networks ( http://arxiv.org/abs/2302.13376v1 )

ライセンス: Link先を確認
Xing Yi Liu and Homayoon Beigi(参考訳) 自動音声認識における後処理過程において,句読点復元が重要な役割を担っているが,モデル効率が重要な課題である。 そのために、EfficientPunctを提案する。EfficientPunctはマルチモーダル時間遅延ニューラルネットワークを備えたアンサンブル方式で、現在のベストモデルを1.0F1ポイント上回り、その10分の1未満のパラメータを使って埋め込み処理を行う。 我々は,音声認識器を合理化し,隠れ層潜在ベクトルを句読取回復のためのオーディオ埋め込みとして効率的に出力し,BERTは意味のあるテキスト埋め込みを抽出する。 強制アライメントと時間的畳み込みを用いることで、マルチヘッドアテンションベースの融合の必要性を排除し、計算効率を大幅に向上すると同時に、性能も向上する。 EfficientPunctは、パフォーマンスと効率の両面で、BERTの純粋に言語ベースの予測を、マルチモーダルネットワークの予測よりもわずかに重くするアンサンブルで、新しい技術の状態を設定している。

Punctuation restoration plays an essential role in the post-processing procedure of automatic speech recognition, but model efficiency is a key requirement for this task. To that end, we present EfficientPunct, an ensemble method with a multimodal time-delay neural network that outperforms the current best model by 1.0 F1 points, using less than a tenth of its parameters to process embeddings. We streamline a speech recognizer to efficiently output hidden layer latent vectors as audio embeddings for punctuation restoration, as well as BERT to extract meaningful text embeddings. By using forced alignment and temporal convolutions, we eliminate the need for multi-head attention-based fusion, greatly increasing computational efficiency but also raising performance. EfficientPunct sets a new state of the art, in terms of both performance and efficiency, with an ensemble that weights BERT's purely language-based predictions slightly more than the multimodal network's predictions.
翻訳日:2023-02-28 17:25:40 公開日:2023-02-26
# 量子状態がエピステミックであるため、量子力学は線形である

Quantum dynamics is linear because quantum states are epistemic ( http://arxiv.org/abs/2302.13421v1 )

ライセンス: Link先を確認
Jacques L. Pienaar(参考訳) 量子理論によれば、封印された実験室の科学者は、重ね合わせの中にいるかどうかを判断できない。 したがって、孤立している限り、測定結果が明確な結果をもたらすという矛盾なく仮定することができる。 私たちはこの機能を、局所的な定性と呼ばれる仮定値に引き上げます。 量子状態がオンティックであれば、この仮定は力学法則が線型であると仮定して導出しなければならない。 一方、量子状態が認識論的であれば、仮定は自由である。 それを使って、ダイナミクスが線形であることを証明することができます。 したがって、なぜ実験が非線形力学の証拠を見つけられないのかという最も単純な説明は、量子状態がエピステミックであるということである。

According to quantum theory, a scientist in a sealed laboratory cannot tell whether they are inside a superposition or not. Consequently, so long as they remain isolated, they can assume without inconsistency that their measurements result in definite outcomes. We elevate this feature to a postulate, which we call Local Definiteness. If quantum states are ontic, this postulate must be derived by assuming the dynamical law is linear. On the other hand, if quantum states are epistemic then the postulate comes for free. We can then use it to prove that the dynamics must be linear. Therefore the simplest explanation for why experiments keep failing to find evidence of non-linear dynamics is that quantum states are epistemic.
翻訳日:2023-02-28 17:18:52 公開日:2023-02-26
# ハイブリッド完全正のマルコフ量子古典力学

Hybrid completely positive Markovian quantum-classical dynamics ( http://arxiv.org/abs/2302.13418v1 )

ライセンス: Link先を確認
Lajos Di\'osi(参考訳) ハイブリッド量子古典力学の簡潔かつ自己完結な導出はマルコフのマスター方程式の項で与えられる。 既知の結果の多くは再帰的、修正され、一部は完成または修正されている。 可能な限り単純な方法を用いることで、我々の目標はハイブリッドダイナミクスの最先端技術を簡単に紹介することであり、基礎となるものについての議論は限られている。 量子重力や化学、数値法など、さらなる関連性について議論する必要はない。 ハイブリッド力学は複合量子力学の特別な場合として定義され、2つのサブシステムのうちの1つの可観測物は、一定の基底で対角作用素の可換集合に制限される。 この制限により、ハイブリッド力学方程式の導出は概念上、かつ技術的に単純である。 ジャンプと拡散力学はハイブリッドマスター方程式の形で従う。 その確率的解釈(unravellings)は導出されている。 本稿では,ゲージ型曖昧さ,一意性の問題,および拡散マスター方程式の共分散について論じる。 また、最小ノイズと量子軌道の監視の条件も導出される。 我々は、ハイブリッド形式主義は時間連続量子測定(監視)の標準マルコフ理論と等価であり、他方では動機付けのある代替形式主義である、と結論付けた。

A concise and self-contained derivation of hybrid quantum-classical dynamics is given in terms of Markovian master equations. Many previously known results are re-derived, revised, some of them completed or corrected. Using as simple method as possible, our goal is a brief introduction to state-of-the-art of hybrid dynamics, with a limited discussion of the implications for foundations. and without discussion of further relevance in quantum-gravity, or chemistry, numeric methods, etc. Hybrid dynamics is defined as special case of composite quantum dynamics where the observables of one of the two subsystems are restricted for the commuting set of diagonal operators in a fixed basis. With this restriction, the derivation of hybrid dynamical equations is clear conceptually and simple technically. Jump and diffusive dynamics follow in the form of hybrid master equations. Their stochastic interpretation (called unravellings) is derived. We discuss gauge-type ambiguities, problems of uniqueness, and covariance of the diffusive master equation. Also conditions of minimum noise and of monitoring the quantum trajectory are derived. We conclude that hybrid formalism is equivalent with standard Markovian theory of time-continuous quantum measurement (monitoring) on one hand, and is a motivating alternative formalism on the other hand.
翻訳日:2023-02-28 17:18:44 公開日:2023-02-26
# 構造化雑音によるニューラルネットワークの学習は分類と一般化を改善する

Training neural networks with structured noise improves classification and generalization ( http://arxiv.org/abs/2302.13417v1 )

ライセンス: Link先を確認
Marco Benedetti and Enrico Ventura(参考訳) 学習におけるノイズの有益な役割は、現在、ニューラルネットワークの分野における統合概念である。 ガードナーと共同研究者が提案するトレーニング・ウィズ・ノイズ・アルゴリズムは、繰り返しネットワークにおけるノイズ注入の例である。 ノイズの多いトレーニングデータに構造を加えることで、メモリ性能が大幅に向上し、完全な分類とアトラクションの最大範囲にアプローチできることを示す。 また、ノイズが最大であり、データがネットワークダイナミクスの固定点である場合、いわゆるアンラーニングルールがトレーニング・アズ・ノイズアルゴリズムと一致することも証明する。 さらに, 最適雑音データのサンプリング手法を提案し, 学習手順と無学習手順の両方を上回るように実装した。

The beneficial role of noise in learning is nowadays a consolidated concept in the field of artificial neural networks. The training-with-noise algorithm proposed by Gardner and collaborators is an emblematic example of a noise injection procedure in recurrent networks. We show how adding structure into noisy training data can substantially improve memory performance, allowing to approach perfect classification and maximal basins of attraction. We also prove that the so-called unlearning rule coincides with the training-with-noise algorithm when noise is maximal and data are fixed points of the network dynamics. Moreover, a sampling scheme for optimal noisy data is proposed and implemented to outperform both the training-with-noise and the unlearning procedures.
翻訳日:2023-02-28 17:18:27 公開日:2023-02-26
# シュロディンガーの4階実数値波動方程式の再検討とエネルギー準位への影響

Revisiting Schrodinger's fourth-order, real-valued wave equation and its implications to energy levels ( http://arxiv.org/abs/2302.13416v1 )

ライセンス: Link先を確認
Nicos Makris(参考訳) 第4部ではアン。 Phys の略。 1926年の論文Vol 81, Schrodingerは、物質波の正しい二次分散関係を生成する波動方程式を明確に理解し、空間において4階、時間において2階となる実数値波動方程式を初めて提示した。 ハミルトン・ヤコビ方程式の構造に関連した4階微分方程式の固有値解析に関連する数学的困難さを考えると、シュロディンガーは4階実作用素を2階共役複素作用素の積に分割し、2階複素波動方程式を構成するための2つの複素作用素のうちの1つしか保持しない。 本稿では,シュレーディンガーの4次実数値波動方程式が,化学元素の可視光線スペクトルで観測された可視エネルギー準位を驚くべき成功で予測した2次複素値波動方程式よりも高いエネルギー準位を生成するより強固な方程式であることを示す。 したがって、第4次実数値波動方程式は、化学元素の電子から放出されるエネルギーレベルを予測するには強すぎるため、量子力学は、放射された可視エネルギーに加えてダークエネルギーが放出される場合を除き、より硬度の低い第2次複素値波動方程式でのみ記述できると結論づける。

In his seminal part IV, Ann. der Phys. Vol 81, 1926 paper, Schrodinger has developed a clear understanding about the wave equation that produces the correct quadratic dispersion relation for matter-waves and he first presents a real-valued wave equation that is 4th-order in space and 2nd-order in time. In view of the mathematical difficulties associated with the eigenvalue analysis of a 4th-order, differential equation in association with the structure of the Hamilton-Jacobi equation, Schrodinger splits the 4th-order real operator into the product of two, 2nd-order, conjugate complex operators and retains only one of the two complex operators to construct his iconic 2nd-order, complex-valued wave equation. In this paper we show that Schrodinger's original 4th-order, real-valued wave equation is a stiffer equation that produces higher energy levels than his 2nd-order, complex-valued wave equation that predicted with remarkable success the visible energy levels observed in the visible atomic line-spectra of the chemical elements. Accordingly, the 4th-order, real-valued wave equation is too stiff to predict the emitted energy levels from the electrons of the chemical elements; therefore, the paper concludes that Quantum Mechanics can only be described with the less stiff, 2nd-order complex-valued wave equation; unless in addition to the emitted visible energy there is also dark energy emitted.
翻訳日:2023-02-28 17:18:15 公開日:2023-02-26
# 測度に基づく解析構造に対する抽象論理システムのリンドストローム特性

The Lindstrom's Characterizability of Abstract Logic Systems for Analytic Structures Based on Measures ( http://arxiv.org/abs/2302.13412v1 )

ライセンス: Link先を確認
Krystian Jobczyk and Mirna Dzamonja(参考訳) 1969年、パー・リンドストロムは一階論理を特徴付ける彼の有名な定理を証明し、離散構造に対する形式的理論の一階定義可能性の基準を確立した。 k. j. barwise, s. shelah, j. vaananen らはリンドストロームの特徴づけ可能性プログラムを無限論理系のクラスに拡張し、m. dzamonja と j. vaananen によるカープのチェイン論理に関する最近の論文は補間、不定次性、そしてこれらの性質を持つ論理系のクラスにおいて最大である。 連鎖論理の新規性は、その新しい満足性の定義にある。 本稿では,述語論理系のリンドストローム型キャラクタリゼーションの枠組みを,測度(解析構造)に基づく対象を持つモデルで意味論的に解釈する。 特に、Hajek's Logic of Integralは、新しいタイプのHajekの満足度を持つ抽象論理として再定義され、Lebesgue積分を用いて解析構造を記述しコンパクト性、初等連鎖条件、弱否定を満足する論理体系のクラスにおける最大論理を構成する。

In 1969, Per Lindstrom proved his celebrated theorem characterising the first-order logic and established criteria for the first-order definability of formal theories for discrete structures. K. J. Barwise, S. Shelah, J. Vaananen and others extended Lindstrom's characterizability program to classes of infinitary logic systems, including a recent paper by M. Dzamonja and J. Vaananen on Karp's chain logic, which satisfies interpolation, undefinability of well-order, and is maximal in the class of logic systems with these properties. The novelty of the chain logic is in its new definition of satisfability. In our paper, we give a framework for Lindstrom's type characterizability of predicate logic systems interpreted semantically in models with objects based on measures (analytic structures). In particular, Hajek's Logic of Integral is redefined as an abstract logic with a new type of Hajek's satisfiability and constitutes a maximal logic in the class of logic systems for describing analytic structures with Lebesgue integrals and satisfying compactness, elementary chain condition, and weak negation.
翻訳日:2023-02-28 17:17:47 公開日:2023-02-26
# kwak'wala用ocrシステムのユーザ中心評価

User-Centric Evaluation of OCR Systems for Kwak'wala ( http://arxiv.org/abs/2302.13410v1 )

ライセンス: Link先を確認
Shruti Rijhwani, Daisy Rosenblum, Michayla King, Antonios Anastasopoulos, Graham Neubig(参考訳) 絶滅危惧言語に対するocr(optical character recognition)の改善には、特に多くの文書や書籍が機械可読化されていないため、近年関心が高まっている。 OCRシステムの性能は一般に文字や単語の誤り率などの自動測定値を用いて評価される。 エラー率は異なるモデルやシステムの比較に有用であるが、OCRツールから生成された転写が下流のユーザにとってどのように有用かは測定されていない。 本稿では,OCRシステムの人間中心評価を事例として,Kwak'wala言語に着目した。 ユーザスタディでは、OCRを利用することで、文化的に価値のある文書のマニュアルの書き起こしに費やされる時間を50%以上削減できることが示されている。 この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。

There has been recent interest in improving optical character recognition (OCR) for endangered languages, particularly because a large number of documents and books in these languages are not in machine-readable formats. The performance of OCR systems is typically evaluated using automatic metrics such as character and word error rates. While error rates are useful for the comparison of different models and systems, they do not measure whether and how the transcriptions produced from OCR tools are useful to downstream users. In this paper, we present a human-centric evaluation of OCR systems, focusing on the Kwak'wala language as a case study. With a user study, we show that utilizing OCR reduces the time spent in the manual transcription of culturally valuable documents -- a task that is often undertaken by endangered language community members and researchers -- by over 50%. Our results demonstrate the potential benefits that OCR tools can have on downstream language documentation and revitalization efforts.
翻訳日:2023-02-28 17:17:22 公開日:2023-02-26
# 3次元点雲の生成モデル

Generative Models for 3D Point Clouds ( http://arxiv.org/abs/2302.13408v1 )

ライセンス: Link先を確認
Lingjie Kong, Pankaj Rajak, and Siamak Shakeri(参考訳) 点雲はリッチな幾何学的データ構造であり、3次元構造は3次元空間における表現学習と生成モデリングを理解するための優れた領域を提供する。 本研究では,変圧器エンコーダ,潜時空間フローモデル,自己回帰デコーダを実験することにより,点クラウド潜時空間生成モデルの性能を向上させることを目的とする。 様々なオブジェクトタイプにおけるこれらのモデルの生成および再構成性能を解析・比較した。

Point clouds are rich geometric data structures, where their three dimensional structure offers an excellent domain for understanding the representation learning and generative modeling in 3D space. In this work, we aim to improve the performance of point cloud latent-space generative models by experimenting with transformer encoders, latent-space flow models, and autoregressive decoders. We analyze and compare both generation and reconstruction performance of these models on various object types.
翻訳日:2023-02-28 17:17:05 公開日:2023-02-26
# GNNDelete: グラフニューラルネットワークにおけるアンラーニングの一般的な戦略

GNNDelete: A General Strategy for Unlearning in Graph Neural Networks ( http://arxiv.org/abs/2302.13406v1 )

ライセンス: Link先を確認
Jiali Cheng, George Dasoulas, Huan He, Chirag Agarwal, Marinka Zitnik(参考訳) ノード、ノードラベル、関係などのグラフ要素をトレーニングされたグラフニューラルネットワーク(gnn)モデルから削除することを含むグラフアンラーニングは、データ要素が無関係、不正確、あるいはプライバシに敏感な現実のアプリケーションにとって極めて重要である。 しかしながら、既存のグラフアンラーニング手法では、すべてのノードで共有されるモデルの重み付けを劣化させるか、ローカルなグラフ近傍に依存するためエッジを効果的に削除できない。 これらの制約に対処するため、グラフアンラーニングのために、Deleted Edge ConsistencyとNeighborhood Influenceという2つの重要な特性を最適化する新しいモデル非依存層演算子であるGNNDeleteを導入する。 削除エッジ一貫性(Deleted Edge Consistency)は、削除された要素の影響がモデルウェイトと近隣表現の両方から除去されることを保証する。 GNNDeleteは、学習した知識の残りを保持しながら、モデルからノードとエッジを削除する表現を更新する。 GNNDeleteは、エッジ、ノード、ノードの特徴削除タスクにおいて、最大38.8%(AUC)で既存のアプローチを上回り、非削除エッジと削除エッジを区別する32.2%の性能を示す。 さらに、GNNDeleteは、WordNet18上でGNNをスクラッチからトレーニングするよりも、12.3倍、9.3倍の時間を要する。

Graph unlearning, which involves deleting graph elements such as nodes, node labels, and relationships from a trained graph neural network (GNN) model, is crucial for real-world applications where data elements may become irrelevant, inaccurate, or privacy-sensitive. However, existing methods for graph unlearning either deteriorate model weights shared across all nodes or fail to effectively delete edges due to their strong dependence on local graph neighborhoods. To address these limitations, we introduce GNNDelete, a novel model-agnostic layer-wise operator that optimizes two critical properties, namely, Deleted Edge Consistency and Neighborhood Influence, for graph unlearning. Deleted Edge Consistency ensures that the influence of deleted elements is removed from both model weights and neighboring representations, while Neighborhood Influence guarantees that the remaining model knowledge is preserved after deletion. GNNDelete updates representations to delete nodes and edges from the model while retaining the rest of the learned knowledge. We conduct experiments on seven real-world graphs, showing that GNNDelete outperforms existing approaches by up to 38.8% (AUC) on edge, node, and node feature deletion tasks, and 32.2% on distinguishing deleted edges from non-deleted ones. Additionally, GNNDelete is efficient, taking 12.3x less time and 9.3x less space than retraining GNN from scratch on WordNet18.
翻訳日:2023-02-28 17:16:57 公開日:2023-02-26
# 震災の被災者への支援を求めるメッセージの検出

Tweets Under the Rubble: Detection of Messages Calling for Help in Earthquake Disaster ( http://arxiv.org/abs/2302.13403v1 )

ライセンス: Link先を確認
Cagri Toraman, Izzet Emre Kucukkaya, Oguzhan Ozcelik, Umitcan Sahin(参考訳) ソーシャルメディアの重要性は、2023年のトルコ地震とシリア地震の悲劇に再び表れている。 ごみに閉じ込められた多くの犠牲者は、Twitterにメッセージを投稿することで助けを求めた。 我々は,行方不明者や閉じ込められた人々に対する状況認識と,救助や寄付活動のための災害救助を行うための対話型ツールを提案する。 システム (i)ツイートを収集する。 (ii)助けを求める者を分類する。 (iii)重要なエンティティタグを抽出し、 (iv)インタラクティブマップ画面でそれらを視覚化する。 最初の実験では、F1スコアのパフォーマンスはツイート分類が98.30、エンティティ抽出が84.32であることがわかった。 デモ、データセット、その他の関連ファイルはhttps://github.com/avaapm/depremでアクセスできる。

The importance of social media is again exposed in the recent tragedy of the 2023 Turkey and Syria earthquake. Many victims who were trapped under the rubble called for help by posting messages in Twitter. We present an interactive tool to provide situational awareness for missing and trapped people, and disaster relief for rescue and donation efforts. The system (i) collects tweets, (ii) classifies the ones calling for help, (iii) extracts important entity tags, and (iv) visualizes them in an interactive map screen. Our initial experiments show that the performance in terms of the F1 score is up to 98.30 for tweet classification, and 84.32 for entity extraction. The demonstration, dataset, and other related files can be accessed at https://github.com/avaapm/deprem
翻訳日:2023-02-28 17:16:26 公開日:2023-02-26
# オーディオからシンボリックエンコーディングへ

From Audio to Symbolic Encoding ( http://arxiv.org/abs/2302.13401v1 )

ライセンス: Link先を確認
Shenli Yuan, Lingjie Kong, and Jiushuang Guo(参考訳) 自動音楽書き起こし(AMT)は、生の音声をシンボリックな音楽表現に変換することを目的としている。 音楽情報検索(MIR)の基本的問題として、音響信号に複数のハーモニックが重複しているため、AMTは訓練された人間の専門家にとっても難しい課題であると考えられている。 一方,音声認識は自然言語処理において最も一般的なタスクの一つであり,人間の音声をテキストに翻訳することを目的としている。 amtと音声認識(どちらも音声信号をシンボリックエンコーディングに翻訳するタスクを扱っている)の類似性に基づき、汎用ニューラルネットワークアーキテクチャが両方のタスクで機能する可能性について検討した。 本稿では,現在の最先端のオンセットとフレーム上に構築したニューラルネットワークアーキテクチャを導入し,amtタスクにおけるその多種多様なバリエーションの性能を比較した。 また,音声認識によるアーキテクチャの検証を行った。 AMTの場合、我々のモデルは最先端アーキテクチャを用いて訓練されたモデルよりも優れた結果を得ることができたが、類似したアーキテクチャは音声認識タスクで訓練することができたが、他のタスク固有のモデルと比べて非常に理想的な結果が得られなかった。

Automatic music transcription (AMT) aims to convert raw audio to symbolic music representation. As a fundamental problem of music information retrieval (MIR), AMT is considered a difficult task even for trained human experts due to overlap of multiple harmonics in the acoustic signal. On the other hand, speech recognition, as one of the most popular tasks in natural language processing, aims to translate human spoken language to texts. Based on the similar nature of AMT and speech recognition (as they both deal with tasks of translating audio signal to symbolic encoding), this paper investigated whether a generic neural network architecture could possibly work on both tasks. In this paper, we introduced our new neural network architecture built on top of the current state-of-the-art Onsets and Frames, and compared the performances of its multiple variations on AMT task. We also tested our architecture with the task of speech recognition. For AMT, our models were able to produce better results compared to the model trained using the state-of-art architecture; however, although similar architecture was able to be trained on the speech recognition task, it did not generate very ideal result compared to other task-specific models.
翻訳日:2023-02-28 17:16:15 公開日:2023-02-26
# グレイエリアのナビゲーション:言語モデルにおける過信と不確かさの表現

Navigating the Grey Area: Expressions of Overconfidence and Uncertainty in Language Models ( http://arxiv.org/abs/2302.13439v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Dan Jurafsky, Tatsunori Hashimoto(参考訳) 流動的で関連性があり、一貫性のある言語生成がますます進んでいるにもかかわらず、人間と機械の言語使用方法には大きなギャップが残っている。 我々は、言語モデル(lms)の理解から欠けている重要な次元は、不確実性の表現を解釈し生成するモデルの能力であると主張する。 雨の機会を知らせる天気予報者であれ、診断を行う医師であれ、情報はしばしば白黒ではなく、不確実性の表現は人為的な判断を支援するニュアンスを提供する。 野生におけるLMの展開の増加は、LMが不確実性の表現を解釈できるかどうか、そして不確実性の表現を出力する学習において、LMの挙動がどのように変化するかを調査する動機となる。 不確実性の表現をプロンプト(例えば「答えは...」)に注入すると、gpt3の世代は使用する表現に基づいて80%以上の精度で変化することが分かる。 これらの表現の言語的特徴を分析し,自然主義的表現が存在する場合の精度の低下を見出す。 モデルキャリブレーションがモデルに不確実性ではなく確実性を与えるように教える際に生じる不確実性の表現をモデルに教える場合、同様の効果を見出す。 これらの結果は、不確実性の信頼できる表現を解釈し生成するlmm構築の課題を浮き彫りにしている。

Despite increasingly fluent, relevant, and coherent language generation, major gaps remain between how humans and machines use language. We argue that a key dimension that is missing from our understanding of language models (LMs) is the model's ability to interpret and generate expressions of uncertainty. Whether it be the weatherperson announcing a chance of rain or a doctor giving a diagnosis, information is often not black-and-white and expressions of uncertainty provide nuance to support human-decision making. The increasing deployment of LMs in the wild motivates us to investigate whether LMs are capable of interpreting expressions of uncertainty and how LMs' behaviors change when learning to emit their own expressions of uncertainty. When injecting expressions of uncertainty into prompts (e.g., "I think the answer is..."), we discover that GPT3's generations vary upwards of 80% in accuracy based on the expression used. We analyze the linguistic characteristics of these expressions and find a drop in accuracy when naturalistic expressions of certainty are present. We find similar effects when teaching models to emit their own expressions of uncertainty, where model calibration suffers when teaching models to emit certainty rather than uncertainty. Together, these results highlight the challenges of building LMs that interpret and generate trustworthy expressions of uncertainty.
翻訳日:2023-02-28 17:09:20 公開日:2023-02-26
# p4l: インフラストラクチャレスセットアップのためのピアツーピア学習のプライバシ保護

P4L: Privacy Preserving Peer-to-Peer Learning for Infrastructureless Setups ( http://arxiv.org/abs/2302.13438v1 )

ライセンス: Link先を確認
Ioannis Arapakis, Panagiotis Papadopoulos, Kleomenis Katevas, Diego Perino(参考訳) 分散(あるいはフェデレーション付き)学習は、ユーザが自身のデバイス上で機械学習モデルをトレーニングすることを可能にすると同時に、通常、差分プライベートな方法でモデルの勾配のみを共有する(ユーティリティ損失)。 このような戦略は、従来の集中型アプローチよりも優れたプライバシー保証を提供するが、ユーザの増加とともにボトルネックとなるような集中型インフラストラクチャを盲目的に信頼する必要がある。 本稿では,p4l(p4l:p2p学習システム)を設計・実装した。 当社の設計では、強い暗号プリミティブを使用して、フォールトトレランスとユーザチャーン、近接、デバイス間の通信のためのピアツーピア機構である共有勾配の機密性と有用性を保存する。 異なるネットワーク設定と3つの実生活データセットのMLシナリオによる大規模なシミュレーションは、P4Lがベースラインと競合するパフォーマンスを提供する一方で、異なる中毒攻撃に対する耐性を示していることを示している。 我々はP4Lを実装し, 性能のオーバーヘッドと消費電力が最小限(放電3mAh以下)であることを示す実験結果を得た。

Distributed (or Federated) learning enables users to train machine learning models on their very own devices, while they share only the gradients of their models usually in a differentially private way (utility loss). Although such a strategy provides better privacy guarantees than the traditional centralized approach, it requires users to blindly trust a centralized infrastructure that may also become a bottleneck with the increasing number of users. In this paper, we design and implement P4L: a privacy preserving peer-to-peer learning system for users to participate in an asynchronous, collaborative learning scheme without requiring any sort of infrastructure or relying on differential privacy. Our design uses strong cryptographic primitives to preserve both the confidentiality and utility of the shared gradients, a set of peer-to-peer mechanisms for fault tolerance and user churn, proximity and cross device communications. Extensive simulations under different network settings and ML scenarios for three real-life datasets show that P4L provides competitive performance to baselines, while it is resilient to different poisoning attacks. We implement P4L and experimental results show that the performance overhead and power consumption is minimal (less than 3mAh of discharge).
翻訳日:2023-02-28 17:08:58 公開日:2023-02-26
# 効率的な伝達学習のためのスケーラブルウェイト・リパラメトリゼーション

Scalable Weight Reparametrization for Efficient Transfer Learning ( http://arxiv.org/abs/2302.13435v1 )

ライセンス: Link先を確認
Byeonggeun Kim, Jun-Tae Lee, Seunghan yang, Simyung Chang(参考訳) 本稿では,複数の下流タスクに対して効率的かつ効果的である,スケーラブル・ウェイト・リパラメトリゼーション(SWR)と呼ばれる,新しい効率的な転送学習手法を提案する。 効率的な転送学習は、より大きなデータセットでトレーニングされた事前訓練されたモデルを利用し、事前訓練されたモデルの再利用を最大化するために下流タスクに再設定する。 しかし、以前の研究によりパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。 さらに、更新されたパラメータの数を制御するための実用的な検討は行われていない。 これらの問題に対処するために,事前訓練されたモデルのパラメータ化場所を決定するためのポリシネットワークを,更新されたパラメータの数に対する所定の制約に従って学習することを提案する。 ポリシーネットワークは、転送学習プロセスでのみ使用され、その後は使われない。 その結果,提案した多言語キーワードスポッティングと標準ベンチマークであるImageNet-to-Sketchでは,新たな計算が不要で,パラメータも大幅に少なくなる。

This paper proposes a novel, efficient transfer learning method, called Scalable Weight Reparametrization (SWR) that is efficient and effective for multiple downstream tasks. Efficient transfer learning involves utilizing a pre-trained model trained on a larger dataset and repurposing it for downstream tasks with the aim of maximizing the reuse of the pre-trained model. However, previous works have led to an increase in updated parameters and task-specific modules, resulting in more computations, especially for tiny models. Additionally, there has been no practical consideration for controlling the number of updated parameters. To address these issues, we suggest learning a policy network that can decide where to reparametrize the pre-trained model, while adhering to a given constraint for the number of updated parameters. The policy network is only used during the transfer learning process and not afterward. As a result, our approach attains state-of-the-art performance in a proposed multi-lingual keyword spotting and a standard benchmark, ImageNet-to-Sketch, while requiring zero additional computations and significantly fewer additional parameters.
翻訳日:2023-02-28 17:08:30 公開日:2023-02-26
# 時空間変換器誘導拡散に基づく効率的な骨格型行動認識のためのデータ拡張

Spatial-temporal Transformer-guided Diffusion based Data Augmentation for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2302.13434v1 )

ライセンス: Link先を確認
Yifan Jiang, Han Chen, Hanseok Ko(参考訳) 近年、ヒト骨格のコンパクトな表現が新しい血液をこの研究領域にもたらすため、ヒトの骨格に基づく行動が熱い研究トピックとなっている。 その結果、研究者らはRGBや他のセンサーを使って骨格情報を抽出することで人間の行動を分析することの重要性に気づき始めた。 近年, 深層学習(DL)の急速な発展にともない, 骨格を基盤とした人為的行動のアプローチが, 細かな設計のDL構造で提示されている。 しかし、十分に訓練されたdlモデルは、常に高品質で十分なデータを要求するが、高いコストと人的労力を犠牲にすることなく取得することは困難である。 本稿では,高品質かつ多様な逐次動作を効果的に生成できるスケルトンベース行動認識タスクのための新しいデータ拡張手法を提案する。 自然および現実的な動作系列を得るために, 一連の合成動作系列を生成できる非接触拡散確率モデル (ddpms) を提案し, それらの生成過程を空間-時空間トランスフォーマ (st-trans) により精度良く導出する。 実験の結果,本手法は自然性および多様性の異なる指標に対して,最先端(SOTA)モーション生成手法よりも優れていた。 高品質な合成データが既存の行動認識モデルに効果的に展開でき、性能が大幅に向上することを示した。

Recently, skeleton-based human action has become a hot research topic because the compact representation of human skeletons brings new blood to this research domain. As a result, researchers began to notice the importance of using RGB or other sensors to analyze human action by extracting skeleton information. Leveraging the rapid development of deep learning (DL), a significant number of skeleton-based human action approaches have been presented with fine-designed DL structures recently. However, a well-trained DL model always demands high-quality and sufficient data, which is hard to obtain without costing high expenses and human labor. In this paper, we introduce a novel data augmentation method for skeleton-based action recognition tasks, which can effectively generate high-quality and diverse sequential actions. In order to obtain natural and realistic action sequences, we propose denoising diffusion probabilistic models (DDPMs) that can generate a series of synthetic action sequences, and their generation process is precisely guided by a spatial-temporal transformer (ST-Trans). Experimental results show that our method outperforms the state-of-the-art (SOTA) motion generation approaches on different naturality and diversity metrics. It proves that its high-quality synthetic data can also be effectively deployed to existing action recognition models with significant performance improvement.
翻訳日:2023-02-28 17:08:11 公開日:2023-02-26
# 深部ニューラルネットワークの不確かさ定量化手法に関する調査:不確かさ源の展望

A Survey on Uncertainty Quantification Methods for Deep Neural Networks: An Uncertainty Source Perspective ( http://arxiv.org/abs/2302.13425v1 )

ライセンス: Link先を確認
Wenchong He and Zhe Jiang(参考訳) ディープ・ニューラル・ネットワーク(dnn)は、コンピュータビジョンや自然言語処理、科学や工学領域の正確な予測を行うことに成功した。 しかし、DNNが予期せぬ、誤った、しかし自信過剰な予測をすることもあることもよく認識されている。 これは、自律運転、医療診断、災害対応など、高度な応用において深刻な結果をもたらす可能性がある。 不確かさ定量化(UQ)は、予測精度以上のDNN予測の信頼性を推定することを目的としている。 近年,DNN向けに多くのUQ手法が開発されている。 これらのUQ手法を体系的に分類し、それらの利点と欠点を比較することは、非常に実践的な価値である。 しかし、既存の調査は主に、ニューラルネットワークアーキテクチャの観点からUQ方法論を分類することやベイズ的視点から分類することに焦点を当て、各方法論が組み込むことのできる不確実性の源を無視し、実際に適切なUQ手法を選択するのが困難である。 このギャップを埋めるために,不確実性源の種類(データ不確実性とモデル不確実性)に基づいて,DNNのUQ手法の系統的な分類法を提案する。 我々は各カテゴリの方法の長所と短所を要約する。 uq方法論の分類は、異なる機械学習問題(例えば、アクティブラーニング、ロバストネス、強化学習)におけるuqメソッドの選択を導くのにどのように役立つかを示します。 また,現在の研究ギャップを特定し,今後の研究方向性を提案する。

Deep neural networks (DNNs) have achieved tremendous success in making accurate predictions for computer vision, natural language processing, as well as science and engineering domains. However, it is also well-recognized that DNNs sometimes make unexpected, incorrect, but overconfident predictions. This can cause serious consequences in high-stake applications, such as autonomous driving, medical diagnosis, and disaster response. Uncertainty quantification (UQ) aims to estimate the confidence of DNN predictions beyond prediction accuracy. In recent years, many UQ methods have been developed for DNNs. It is of great practical value to systematically categorize these UQ methods and compare their advantages and disadvantages. However, existing surveys mostly focus on categorizing UQ methodologies from a neural network architecture perspective or a Bayesian perspective and ignore the source of uncertainty that each methodology can incorporate, making it difficult to select an appropriate UQ method in practice. To fill the gap, this paper presents a systematic taxonomy of UQ methods for DNNs based on the types of uncertainty sources (data uncertainty versus model uncertainty). We summarize the advantages and disadvantages of methods in each category. We show how our taxonomy of UQ methodologies can potentially help guide the choice of UQ method in different machine learning problems (e.g., active learning, robustness, and reinforcement learning). We also identify current research gaps and propose several future research directions.
翻訳日:2023-02-28 17:07:48 公開日:2023-02-26
# マニピュレーションのためのSim-and-Real Reinforcement Learning: 合意に基づくアプローチ

Sim-and-Real Reinforcement Learning for Manipulation: A Consensus-based Approach ( http://arxiv.org/abs/2302.13423v1 )

ライセンス: Link先を確認
Wenxing Liu, Hanlin Niu, Wei Pan, Guido Herrmann, Joaquin Carrasco(参考訳) Sim-and-realトレーニングは、ロボット操作のためのsim-to-realトレーニングに代わる有望な代替手段である。 しかし、現在のsim-and-realトレーニングは、最適なポリシーへの収束が遅く、また、実世界の大きさのロボットデータも効率的ではない。 時間とハードウェアの予算が限られているため、sim-and-realトレーニングのパフォーマンスは満足できない。 本稿では,シミュレーションと実世界で同等の性能を示すマニピュレータのピック・アンド・プレースタスクのためのコンセンサスベースsim・アンド・リアル深層強化学習アルゴリズム(csar)を提案する。 このアルゴリズムでは,シミュレーションと実世界のエージェントを訓練し,シミュレーションと実世界の双方の最適なポリシーを得る。 1)シミュレーションにおける最良のポリシーは、シム・アンド・リアルなトレーニングには最適ではない。 2) シミュレーションエージェントが多ければ多いほど,シム・アンド・リアルなトレーニングが向上する。 実験ビデオは、https://youtu.be/mchjtnisteqで見ることができる。

Sim-and-real training is a promising alternative to sim-to-real training for robot manipulations. However, the current sim-and-real training is neither efficient, i.e., slow convergence to the optimal policy, nor effective, i.e., sizeable real-world robot data. Given limited time and hardware budgets, the performance of sim-and-real training is not satisfactory. In this paper, we propose a Consensus-based Sim-And-Real deep reinforcement learning algorithm (CSAR) for manipulator pick-and-place tasks, which shows comparable performance in both sim-and-real worlds. In this algorithm, we train the agents in simulators and the real world to get the optimal policies for both sim-and-real worlds. We found two interesting phenomenons: (1) Best policy in simulation is not the best for sim-and-real training. (2) The more simulation agents, the better sim-and-real training. The experimental video is available at: https://youtu.be/mcHJtNIsTEQ.
翻訳日:2023-02-28 17:07:25 公開日:2023-02-26
# 大規模言語モデルのための連鎖型アクティブプロンプト

Active Prompting with Chain-of-Thought for Large Language Models ( http://arxiv.org/abs/2302.12246v2 )

ライセンス: Link先を確認
Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang(参考訳) 大規模言語モデル(LLM)の規模が大きくなると、算術や常識推論のような推論を必要とする様々な複雑なタスクに創発的能力がもたらされる。 タスク固有のプロンプトの効果的な設計は、llmsの高品質な答えを生み出す能力にとって重要であることが知られている。 特に、複雑な問合せタスクに対する効果的なアプローチは、LLMの性能を大幅に向上させるチェーン・オブ・シークレット(CoT)推論による例ベースのプロンプトである。 しかし、現在のCoT法は人間に注釈を付けた例の固定セットに依存しており、これは必ずしも異なるタスクの最も効果的な例ではない。 本稿では,タスク固有のサンプルプロンプト(人間設計のCoT推論に注釈を付ける)を用いて,LLMを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。 この目的のために、タスク固有のクエリのプールからアノテートする最も重要で有用な質問を決定するという重要な問題に対する解決策を提案する。 不確実性に基づくアクティブラーニングに関連する問題からアイデアを借用することにより,不確実性を特徴付ける指標をいくつか導入し,最も不確実性のある質問を選択する。 実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。 異なる不確実性指標,プールサイズ,ゼロショット学習,正確性不確実性関係のさらなる分析により,本手法の有効性が示された。 私たちのコードはhttps://github.com/shizhediao/active-promptで利用可能です。

The increasing scale of large language models (LLMs) brings emergent abilities to various complex tasks requiring reasoning, such as arithmetic and commonsense reasoning. It is known that the effective design of task-specific prompts is critical for LLMs' ability to produce high-quality answers. In particular, an effective approach for complex question-and-answer tasks is example-based prompting with chain-of-thought (CoT) reasoning, which significantly improves the performance of LLMs. However, current CoT methods rely on a fixed set of human-annotated exemplars, which are not necessarily the most effective examples for different tasks. This paper proposes a new method, Active-Prompt, to adapt LLMs to different tasks with task-specific example prompts (annotated with human-designed CoT reasoning). For this purpose, we propose a solution to the key problem of determining which questions are the most important and helpful ones to annotate from a pool of task-specific queries. By borrowing ideas from the related problem of uncertainty-based active learning, we introduce several metrics to characterize the uncertainty so as to select the most uncertain questions for annotation. Experimental results demonstrate the superiority of our proposed method, achieving state-of-the-art on eight complex reasoning tasks. Further analyses of different uncertainty metrics, pool sizes, zero-shot learning, and accuracy-uncertainty relationship demonstrate the effectiveness of our method. Our code will be available at https://github.com/shizhediao/active-prompt.
翻訳日:2023-02-28 12:18:54 公開日:2023-02-26
# テキスト・画像モデルの高速パーソナライズのためのエンコーダの設計

Designing an Encoder for Fast Personalization of Text-to-Image Models ( http://arxiv.org/abs/2302.12228v2 )

ライセンス: Link先を確認
Rinon Gal, Moab Arar, Yuval Atzmon, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or(参考訳) テキストから画像へのパーソナライゼーションは、学習済みの拡散モデルに、新しいユーザーが提供する概念を推論し、それらを自然言語プロンプトによって誘導された新しいシーンに埋め込むように教えることを目的としている。 しかし、現在のパーソナライゼーションアプローチは、長いトレーニング時間、高いストレージ要件、あるいはアイデンティティの喪失に苦しむ。 これらの制限を克服するため,エンコーダに基づくドメインチューニング手法を提案する。 私たちの重要な洞察は、与えられたドメインから大きな概念セットを満たすことで、一般化を改善し、同じドメインから新しい概念を素早く追加できるモデルを作ることができるということです。 具体的には、まず、特定のドメイン、例えば特定の顔から対象概念の単一イメージを入力として取り込んで、その概念を表す単語埋め込みにマッピングする方法を学ぶエンコーダという2つのコンポーネントを用いる。 第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージモデルのための正規化重み付けのセット。 これらのコンポーネントを併用して、目に見えない概念の学習をガイドし、単一のイメージだけでモデルをパーソナライズし、品質を維持しながら、数十分から秒間のパーソナライズを加速する5つのトレーニングをすることができる。

Text-to-image personalization aims to teach a pre-trained diffusion model to reason about novel, user provided concepts, embedding them into new scenes guided by natural language prompts. However, current personalization approaches struggle with lengthy training times, high storage requirements or loss of identity. To overcome these limitations, we propose an encoder-based domain-tuning approach. Our key insight is that by underfitting on a large set of concepts from a given domain, we can improve generalization and create a model that is more amenable to quickly adding novel concepts from the same domain. Specifically, we employ two components: First, an encoder that takes as an input a single image of a target concept from a given domain, e.g. a specific face, and learns to map it into a word-embedding representing the concept. Second, a set of regularized weight-offsets for the text-to-image model that learn how to effectively ingest additional concepts. Together, these components are used to guide the learning of unseen concepts, allowing us to personalize a model using only a single image and as few as 5 training steps - accelerating personalization from dozens of minutes to seconds, while preserving quality.
翻訳日:2023-02-28 12:18:29 公開日:2023-02-26
# 多視点胸部X線を用いた統一胸部X線と放射線診断レポート生成モデル

Unified Chest X-ray and Radiology Report Generation Model with Multi-view Chest X-rays ( http://arxiv.org/abs/2302.12172v2 )

ライセンス: Link先を確認
Hyungyung Lee, Wonjae Kim, Jin-Hwa Kim, Tackeun Kim, Jihang Kim, Leonard Sunwoo, Edward Choi(参考訳) 医学研究で生成された合成データは、プライバシとセキュリティに敏感なデータを大規模にキュレートされたデータセットに置き換え、データ収集とアノテーションのコストを削減できる。 この取り組みの一環として,統合胸部X線および報告生成モデルであるUniXGenを提案する。 まず,胸部x線を離散視覚トークンに識別するベクトル量子化法を採用し,両タスクをシーケンス生成タスクとして定式化することにより,双方向胸部x線とレポート生成のための統一モデルを設計する。 第2に,所望のビューが利用できない場合に有用な,特定のビューを持つ胸部x線を生成するための特別なトークンをいくつか紹介する。 さらに、UnixGenは単一のビューから複数のビューへの様々な入力を柔軟に受け取り、他のX線ビューで利用可能な追加の発見を利用することができる。 我々は,多視点胸部X線の長距離入力シーケンスを高分解能および長文レポートで処理するために,計算およびメモリ効率の効率的な変換器を採用する。 広範な実験により,本モデルがタスク固有モデルのみを訓練するよりも,両生成タスクに相乗効果があることが確認された。 また、ビュー固有の特別なトークンは、データセットに存在しない場合でも、異なるビューを区別し、特定のビューを適切に生成することができ、マルチビュー胸部X線を利用して、追加のX線による異常な発見を忠実に捉えることができる。 ソースコードは、https://github.com/ttumyche/UniXGenで公開されている。

Generated synthetic data in medical research can substitute privacy and security-sensitive data with a large-scale curated dataset, reducing data collection and annotation costs. As part of this effort, we propose UniXGen, a unified chest X-ray and report generation model, with the following contributions. First, we design a unified model for bidirectional chest X-ray and report generation by adopting a vector quantization method to discretize chest X-rays into discrete visual tokens and formulating both tasks as sequence generation tasks. Second, we introduce several special tokens to generate chest X-rays with specific views that can be useful when the desired views are unavailable. Furthermore, UniXGen can flexibly take various inputs from single to multiple views to take advantage of the additional findings available in other X-ray views. We adopt an efficient transformer for computational and memory efficiency to handle the long-range input sequence of multi-view chest X-rays with high resolution and long paragraph reports. In extensive experiments, we show that our unified model has a synergistic effect on both generation tasks, as opposed to training only the task-specific models. We also find that view-specific special tokens can distinguish between different views and properly generate specific views even if they do not exist in the dataset, and utilizing multi-view chest X-rays can faithfully capture the abnormal findings in the additional X-rays. The source code is publicly available at: https://github.com/ttumyche/UniXGen.
翻訳日:2023-02-28 12:18:06 公開日:2023-02-26
# コミットメントオプティマイザを操作するための学習

Learning to Manipulate a Commitment Optimizer ( http://arxiv.org/abs/2302.11829v2 )

ライセンス: Link先を確認
Yurong Chen, Xiaotie Deng, Jiarui Gan, Yuhao Li(参考訳) 最近の研究では、Stackelbergのゲームでは、フォロワーは真のベストレスポンス行動から逸脱してリーダーを操ることができることが示されている。 このような操作は計算可能であり、従者にとって非常に有益である。 一方、彼らはリーダーにとって大きな損失を被り、時にはファーストマウバーの優位を完全に破ることもある。 コミットメントオプティマイザへの警告として、これらの発見が示すリスクは、操作が依存する厳密な情報によってある程度軽減されているように見える。 つまり、フォロワーは両方の選手の報酬に関する完全な情報を知っているのに対し、リーダーは自分の報酬しか知らない。 本稿では,情報アドバンテージを緩和した操作問題について検討する。 我々は、まずはリーダーの報酬に関する情報をフォロワが与えず、リーダーと対話することで操作を学ぶ必要があるというシナリオを考えます。 フォロワーは、最善の応答行動に対するリーダーの最適なコミットメントを照会することで必要な情報を集めることができる。 その結果,情報アドバンテージは,従者の操作には必ずしも不可欠ではないことが示唆された。従者は,多項式時間において,リーダーの最適コミットメントを多項式的に多数のクエリで操作する最適な方法を学ぶことができる。

It is shown in recent studies that in a Stackelberg game the follower can manipulate the leader by deviating from their true best-response behavior. Such manipulations are computationally tractable and can be highly beneficial for the follower. Meanwhile, they may result in significant payoff losses for the leader, sometimes completely defeating their first-mover advantage. A warning to commitment optimizers, the risk these findings indicate appears to be alleviated to some extent by a strict information advantage the manipulations rely on. That is, the follower knows the full information about both players' payoffs whereas the leader only knows their own payoffs. In this paper, we study the manipulation problem with this information advantage relaxed. We consider the scenario where the follower is not given any information about the leader's payoffs to begin with but has to learn to manipulate by interacting with the leader. The follower can gather necessary information by querying the leader's optimal commitments against contrived best-response behaviors. Our results indicate that the information advantage is not entirely indispensable to the follower's manipulations: the follower can learn the optimal way to manipulate in polynomial time with polynomially many queries of the leader's optimal commitment.
翻訳日:2023-02-28 12:17:19 公開日:2023-02-26