このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230209となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 浄化限界を打破する:ポストセレクションは熱バスアルゴリズムの冷却を促進する Breaking the limits of purification: Postselection enhances heat-bath algorithmic cooling ( http://arxiv.org/abs/2108.08853v3 ) ライセンス: Link先を確認 | Aaron Z. Goldberg and Khabat Heshami | (参考訳) 量子技術は純粋な状態を必要とし、しばしば極端な冷却によって生成される。
熱バスアルゴリズム冷却は理論上最適な冷蔵技術であり、多粒子系から熱浴へのエントロピーを伝播させ、純度の高い量子状態を生成する。
ここでは, 単一バイナリアウトカム測定を生かして, この最適手法を克服する方法を示す。
我々のプロトコルは、最近発見された量子スイッチと呼ばれる装置を用いて、2つの操作を重畳し、完全な精製を認証することで、任意の数の純量子状態を生成することができる。 Quantum technologies require pure states, which are often generated by extreme refrigeration. Heat-bath algorithmic cooling is the theoretically optimal refrigeration technique: it shuttles entropy from a multiparticle system to a thermal bath, thereby generating a quantum state with a high degree of purity. Here, we show how to surpass this hitherto-optimal technique by taking advantage of a single binary-outcome measurement. Our protocols can create arbitrary numbers of pure quantum states without any residual mixedness by using a recently discovered device known as a quantum switch to put two operations in superposition, with postselection certifying the complete purification. | 翻訳日:2023-03-18 00:57:21 公開日:2023-02-09 |
# オンラインインタラクティブゲーム設計のための進化エンジンとしてのchatgptや他の大規模言語モデル ChatGPT and Other Large Language Models as Evolutionary Engines for Online Interactive Collaborative Game Design ( http://arxiv.org/abs/2303.02155v1 ) ライセンス: Link先を確認 | Pier Luca Lanzi and Daniele Loiacono | (参考訳) 大規模言語モデル(llm)は、自然言語処理と人間とコンピュータの相互作用の状況を変え、科学の世界を嵐にさらしている。
これらの強力なツールは複雑な質問に答えることができ、驚くべきことに、挑戦的な創造的なタスク(例えば、問題を解くコードやアプリケーションを生成する、ストーリーを書く、音楽の一部など)を行うことができます。
本稿では,対話型進化と大規模言語モデルを組み合わせて,人間の典型的なデザインプロセスをシミュレートする協調設計フレームワークを提案する。
我々は、ユーザからのフィードバックを利用して、非常に複雑な創造的なタスクのために、最も有望なアイデアと大きな言語モデルを選択する。
私たちのフレームワークでは、プロセスは簡潔で一連の候補設計から始まり、言語モデルを使って生成されたり、ユーザが提案したりします。
次に、ユーザは最も有望なデザインを選択し、再結合し、変更するインタラクティブな遺伝的アルゴリズムにフィードバックを提供することで、デザインプロセスで協力します。
遠隔共同作業を行う人間設計者を対象に,3つのゲームデザインタスクの枠組みを評価した。 Large language models (LLMs) have taken the scientific world by storm, changing the landscape of natural language processing and human-computer interaction. These powerful tools can answer complex questions and, surprisingly, perform challenging creative tasks (e.g., generate code and applications to solve problems, write stories, pieces of music, etc.). In this paper, we present a collaborative design framework that combines interactive evolution and large language models to simulate the typical human design process. We use the former to exploit users' feedback for selecting the most promising ideas and large language models for a very complex creative task -- the recombination and variation of ideas. In our framework, the process starts with a brief and a set of candidate designs, either generated using a language model or proposed by the users. Next, users collaborate on the design process by providing feedback to an interactive genetic algorithm that selects, recombines, and mutates the most promising designs. We evaluated our framework on three game design tasks with human designers who collaborated remotely. | 翻訳日:2023-03-12 03:49:26 公開日:2023-02-09 |
# 任意のマルチキュービットユニタリのT数とT深度 T-count and T-depth of any multi-qubit unitary ( http://arxiv.org/abs/2110.10292v5 ) ライセンス: Link先を確認 | Vlad Gheorghiu, Michele Mosca, Priyanka Mukhopadhyay | (参考訳) 量子アルゴリズムを実装する際、望ましい計算優位性を得るためには、量子資源を減らすことが不可欠である。
ほとんどのフォールトトレラント量子誤り訂正符号において、非クリフォードゲートを実装するコストは、普遍的フォールトトレラントゲートセットのすべてのゲートの中で最高である。
本稿では,Clifford+Tゲートセット上の任意の$n$-qubit$n\geq 1$)単位の$W$2^n\times 2^n$のTカウントを決定するための証明可能なアルゴリズムを設計する。
アルゴリズムの空間と時間の複雑さは、それぞれ$O\left(2^{2n}\right)$と$O\left(2^{2n\mathcal{T}_{\epsilon}(W)+4n}\right)$である。
$\mathcal{t}_{\epsilon}(w)$ (\epsilon$-t-count) は、$d(u,w)\leq\epsilon$ および $\mathcal{t}(u)\leq\mathcal{t}(u')$ のような、正確に実装可能なユニタリの (最小) t-カウントである。
$d(.,.)$は大域位相不変距離である。
このアルゴリズムは、任意のマルチキュービットユニタリの(最小の)t深さの決定にも使用でき、複雑性は、n$と$\epsilon$-t-depthに指数関数的に依存する。
これは、任意のマルチキュービット(n\geq 1$)のTカウントまたはTディープスを与える最初のアルゴリズムである。
十分小さな$\epsilon$の場合、TカウントとT深度最適化回路を合成できる。
その結果,clifford+cs,clifford+v など,clifford および非clifford ゲートからなるユニバーサルゲートセットを備えたマルチキュービットユニタリ実装に必要な非clifford ゲートの最小数(または深さ)を決定することができる。
我々の知る限りでは、任意の普遍ゲート集合における任意のマルチ量子ビットユニタリに対する最適合成アルゴリズムは存在しなかった。 While implementing a quantum algorithm it is crucial to reduce the quantum resources, in order to obtain the desired computational advantage. For most fault-tolerant quantum error-correcting codes the cost of implementing the non-Clifford gate is the highest among all the gates in a universal fault-tolerant gate set. In this paper we design provable algorithm to determine T-count of any $n$-qubit ($n\geq 1$) unitary $W$ of size $2^n\times 2^n$, over the Clifford+T gate set. The space and time complexity of our algorithm are $O\left(2^{2n}\right)$ and $O\left(2^{2n\mathcal{T}_{\epsilon}(W)+4n}\right)$ respectively. $\mathcal{T}_{\epsilon}(W)$ ($\epsilon$-T-count) is the (minimum possible) T-count of an exactly implementable unitary $U$ i.e. $\mathcal{T}(U)$, such that $d(U,W)\leq\epsilon$ and $\mathcal{T}(U)\leq\mathcal{T}(U')$ where $U'$ is any exactly implementable unitary with $d(U',W)\leq\epsilon$. $d(.,.)$ is the global phase invariant distance. Our algorithm can also be used to determine the (minimum possible) T-depth of any multi-qubit unitary and the complexity has exponential dependence on $n$ and $\epsilon$-T-depth. This is the first algorithm that gives T-count or T-depth of any multi-qubit ($n\geq 1$) unitary. For small enough $\epsilon$, we can synthesize the T-count and T-depth-optimal circuits. Our results can be used to determine the minimum count (or depth) of non-Clifford gates required to implement any multi-qubit unitary with a universal gate set consisting of Clifford and non-Clifford gates like Clifford+CS, Clifford+V, etc. To the best of our knowledge, there were no such optimal-synthesis algorithm for arbitrary multi-qubit unitaries in any universal gate set. | 翻訳日:2023-03-11 01:53:58 公開日:2023-02-09 |
# 高次元自動クラスタリングのための改良fireflyアルゴリズムを用いたk-meansのハイブリダイゼーション Hybridization of K-means with improved firefly algorithm for automatic clustering in high dimension ( http://arxiv.org/abs/2302.10765v1 ) ライセンス: Link先を確認 | Afroj Alam | (参考訳) k-meansクラスタリングは、すべてのクラスタリングの中で最もよく知られたパーティショニングアルゴリズムであり、データオブジェクトを複数のクラスタに簡単に分割できる。
しかし、K-meansがデータセットに関する事前のドメイン知識なしで適切な数のクラスタを選択することは、特に高次元のデータオブジェクトでは困難である。
そこで我々は,Silhouette法とElbow法をPCAで実装し,最適なクラスタ数を求める。
また、これまでは自然に触発された多くのメタヒューリスティックなスウォームインテリジェンスアルゴリズムが、自動データクラスタリングの問題を解決するために使われてきた。
fireflyは自動クラスタリングに効率的でロバストです。
しかし,Fireflyアルゴリズムでは,高次元最適化問題における収束速度を低下させ,局所最小値にトラップするサブ集団に,全個体群が自動的に分割される。
そこで本研究では,自動クラスタリングのためのodfaモデルを用いたk-meansのハイブリッド化を提案する。
実験部では、Silhouette法とElbow法の出力とグラフとFireflyアルゴリズムが示されている。 K-means Clustering is the most well-known partitioning algorithm among all clustering, by which we can partition the data objects very easily in to more than one clusters. However, for K-means to choose an appropriate number of clusters without any prior domain knowledge about the dataset is challenging, especially in high-dimensional data objects. Hence, we have implemented the Silhouette and Elbow methods with PCA to find an optimal number of clusters. Also, previously, so many meta-heuristic swarm intelligence algorithms inspired by nature have been employed to handle the automatic data clustering problem. Firefly is efficient and robust for automatic clustering. However, in the Firefly algorithm, the entire population is automatically subdivided into sub-populations that decrease the convergence rate speed and trapping to local minima in high-dimensional optimization problems. Thus, our study proposed an enhanced firefly, i.e., a hybridized K-means with an ODFA model for automatic clustering. The experimental part shows output and graphs of the Silhouette and Elbow methods as well as the Firefly algorithm | 翻訳日:2023-02-26 14:08:06 公開日:2023-02-09 |
# 路上走行データによる運転者の性格特性の推定 Estimating Driver Personality Traits from On-Road Driving Data ( http://arxiv.org/abs/2302.10898v1 ) ライセンス: Link先を確認 | Ryusei Kimura and Takahiro Tanaka and Yuki Yoshihara and Kazuhiro Fujikake and Hitoshi Kanamori and Shogo Okada | (参考訳) 個々の心理的特徴に適応してドライバーを支援する運転支援システムは、適切なフィードバックを提供し、交通事故を防止することができる。
本研究は,このような適応支援システムを実現するための第一歩として,機械学習と深層学習手法を用いた運転行動データから,認知機能,心理的運転様式,作業負荷感受性などのドライバの心理的特性を推定するモデルを開発することを目的とする。
また,レグレッションモデルを用いて,運転行動と軌跡作成テストを含む各種認知機能との関係について検討した。
提案手法は道路情報に着目し,運転行動から観測される時系列データの様々な期間をキャプチャする。
まず,運転状況を考慮し,運転時系列データを幹線道路と交差点の2つの道路タイプに分割する。
第2に,様々な期間の複数のシーケンスにデータを分割する。
第3に、各シーケンスから統計を計算する。
最後に、これらの統計は、心理的特徴を予測する機械学習モデルの入力特徴として使用される。
実験結果から,Pearson相関係数が0.579,0.557,Pearson相関係数が0.579,Pearson相関係数が0.557,Trace Making TestバージョンB,Useful Field of Viewテストスコアが予測可能であることがわかった。
心理的な運転スタイルや作業負荷感度などの特徴は高い精度で予測されるが、様々な持続時間セグメンテーションが精度を向上させるかどうかは特性に依存するため、全ての特性に対して有効ではない。
さらに,認知機能評価のための重要なセンサと道路タイプを明らかにした。 Driving assistance systems that support drivers by adapting individual psychological characteristics can provide appropriate feedback and prevent traffic accidents. As a first step toward implementing such adaptive assistance systems, this research aims to develop a model to estimate drivers' psychological characteristics, such as cognitive function, psychological driving style, and workload sensitivity, from on-road driving behavioral data using machine learning and deep learning techniques. We also investigated the relationship between driving behavior and various cognitive functions including the Trail Making test and Useful Field of View test through regression modeling. The proposed method focuses on road type information and captures various durations of time-series data observed from driving behaviors. First, we segment the driving time-series data into two road types, namely, arterial roads and intersections, to consider driving situations. Second, we further segment data into many sequences of various durations. Third, statistics are calculated from each sequence. Finally, these statistics are used as input features of machine learning models to predict psychological characteristics. The experimental results show that our model can predict a driver's cognitive function, namely, the Trail Making Test version B and Useful Field of View test scores, with Pearson correlation coefficients $r$ of 0.579 and 0.557, respectively. Some characteristics, such as psychological driving style and workload sensitivity, are predicted with high accuracy, but whether various duration segmentation improves accuracy depends on the characteristics, and it is not effective for all characteristics. Additionally, we reveal important sensor and road types for the estimation of cognitive function. | 翻訳日:2023-02-26 13:52:16 公開日:2023-02-09 |
# ダイナミックな人的ニーズのモデリングによる日常活動のシミュレート Learning to Simulate Daily Activities via Modeling Dynamic Human Needs ( http://arxiv.org/abs/2302.10897v1 ) ライセンス: Link先を確認 | Yuan Yuan, Huandong Wang, Jingtao Ding, Depeng Jin, Yong Li | (参考訳) 日常生活における個人の各種活動を記録する日次活動データは、活動スケジューリング、アクティビティレコメンデーション、ポリシー作成など、多くのアプリケーションで広く利用されている。
価値は高いが、収集コストと潜在的なプライバシー問題のためにアクセシビリティは制限されている。
したがって、人間の活動をシミュレーションして大量の高品質なデータを生成することは、実用的な応用のために非常に重要である。
しかし、人間の振る舞いを単純化したルールベースの方法や、実世界のデータに直接適合するデータ駆動手法など、既存のソリューションでは、どちらも一致した現実に完全に対応できない。
本稿では,人間のモチベーションを記述した古典心理学理論であるMaslowの欲求理論を動機として,生成的対人模倣学習に基づく知識駆動型シミュレーションフレームワークを提案する。
生成した活動データの忠実性と有用性を高めるため,シミュレーションモデルにおける活動生成を駆動する基盤となるメカニズムとして,人間のニーズの進化をモデル化する。
具体的には、異なるニーズレベルを分断する階層的モデル構造と、ニーズダイナミクスの分断連続特性をうまく捉えた神経確率微分方程式の使用によって実現される。
大規模な実験により、我々のフレームワークはデータの忠実さと実用性の観点から最先端のベースラインより優れていることが示された。
さらに,要求モデリングの洞察に富む解釈可能性も提示する。
コードはhttps://github.com/tsinghua-fib-lab/sandで入手できる。 Daily activity data that records individuals' various types of activities in daily life are widely used in many applications such as activity scheduling, activity recommendation, and policymaking. Though with high value, its accessibility is limited due to high collection costs and potential privacy issues. Therefore, simulating human activities to produce massive high-quality data is of great importance to benefit practical applications. However, existing solutions, including rule-based methods with simplified assumptions of human behavior and data-driven methods directly fitting real-world data, both cannot fully qualify for matching reality. In this paper, motivated by the classic psychological theory, Maslow's need theory describing human motivation, we propose a knowledge-driven simulation framework based on generative adversarial imitation learning. To enhance the fidelity and utility of the generated activity data, our core idea is to model the evolution of human needs as the underlying mechanism that drives activity generation in the simulation model. Specifically, this is achieved by a hierarchical model structure that disentangles different need levels, and the use of neural stochastic differential equations that successfully captures piecewise-continuous characteristics of need dynamics. Extensive experiments demonstrate that our framework outperforms the state-of-the-art baselines in terms of data fidelity and utility. Besides, we present the insightful interpretability of the need modeling. The code is available at https://github.com/tsinghua-fib-lab/SAND. | 翻訳日:2023-02-26 13:51:50 公開日:2023-02-09 |
# IB-RAR:逆ロバスト性のための正則化器としての情報基盤 IB-RAR: Information Bottleneck as Regularizer for Adversarial Robustness ( http://arxiv.org/abs/2302.10896v1 ) ライセンス: Link先を確認 | Xiaoyun Xu, Guilherme Perin, Stjepan Picek | (参考訳) 本稿では, 対人訓練と非対人訓練の両方において, 対人堅牢性を高めるため, 情報ブートネック (IB) を用いた新しい手法 IB-RAR を提案する。
IB理論を用いて、損失関数の学習目的として正規化器を構築する。
IBで訓練されたネットワークは、その特徴に対して容易に識別可能なMIを提供するので、ラベルとの相互情報(MI)に応じて、中間表現の不必要な特徴をフィルタリングする。
実験の結果,本手法はadversarial trainingと自然に組み合わされ,新しいadversarial例において一貫して精度が向上することが示された。
本手法は,vgg16ネットワークの5つの攻撃に対して平均3.07%の精度を向上し,3つの攻撃訓練ベンチマークとcifar-10データセットを用いてトレーニングを行う。
さらに,提案手法は,クロスエントロピー損失のみのトレーニングなど,無防備な手法にも優れたロバスト性を提供する。
最後に、我々の手法を用いてトレーニングされたVGG16ネットワークとCIFAR-10データセットはPGDの例に対して35.86%の精度に達し、すべてのレイヤを使用すると25.61%の精度に達する。 In this paper, we propose a novel method, IB-RAR, which uses Information Bottleneck (IB) to strengthen adversarial robustness for both adversarial training and non-adversarial-trained methods. We first use the IB theory to build regularizers as learning objectives in the loss function. Then, we filter out unnecessary features of intermediate representation according to their mutual information (MI) with labels, as the network trained with IB provides easily distinguishable MI for its features. Experimental results show that our method can be naturally combined with adversarial training and provides consistently better accuracy on new adversarial examples. Our method improves the accuracy by an average of 3.07% against five adversarial attacks for the VGG16 network, trained with three adversarial training benchmarks and the CIFAR-10 dataset. In addition, our method also provides good robustness for undefended methods, such as training with cross-entropy loss only. Finally, in the absence of adversarial training, the VGG16 network trained using our method and the CIFAR-10 dataset reaches an accuracy of 35.86% against PGD examples, while using all layers reaches 25.61% accuracy. | 翻訳日:2023-02-26 13:51:08 公開日:2023-02-09 |
# CQnet:凸幾何学的解釈と神経ネットワーク軌道の制約 CQnet: convex-geometric interpretation and constraining neural-network trajectories ( http://arxiv.org/abs/2302.10895v1 ) ライセンス: Link先を確認 | Bas Peters | (参考訳) 我々は,凸分割可能性問題と前方後方分割を解くために,CQアルゴリズムに起源を持つニューラルネットワークCQnetを紹介する。
cqnetの軌道は、各層で他の制約集合の要素でありながら、ポイント・ツー・セット距離関数を介して変化する制約セットを追跡する粒子として解釈できる。
cqnetは単に凸幾何学的解釈以上のもので、サンプルやデータに固有の学習および決定論的制約に対応し、各層と出力によって満足される。
さらに、CQnetの状態は各層に設定された別の制約に向かって進行する。
最小の仮定で安定性/非拡張性の証明を提供する。
制約処理と安定性の組み合わせにより、cqnetはネットワークの状態や出力に事前知識が存在する様々なタスクの候補となった。 We introduce CQnet, a neural network with origins in the CQ algorithm for solving convex split-feasibility problems and forward-backward splitting. CQnet's trajectories are interpretable as particles that are tracking a changing constraint set via its point-to-set distance function while being elements of another constraint set at every layer. More than just a convex-geometric interpretation, CQnet accommodates learned and deterministic constraints that may be sample or data-specific and are satisfied by every layer and the output. Furthermore, the states in CQnet progress toward another constraint set at every layer. We provide proof of stability/nonexpansiveness with minimal assumptions. The combination of constraint handling and stability put forward CQnet as a candidate for various tasks where prior knowledge exists on the network states or output. | 翻訳日:2023-02-26 13:50:24 公開日:2023-02-09 |
# 閉じ込めのある1次元量子多体系の予熱 Prethermalization in one-dimensional quantum many-body systems with confinement ( http://arxiv.org/abs/2202.12908v2 ) ライセンス: Link先を確認 | Stefan Birnkammer, Alvise Bastianello, Michael Knap | (参考訳) 拘束された相関拡散と緩慢なエンタングルメント成長を伴う非慣習的非平衡相は、閉じ込められた励起を持つ系に出現し、その熱化ダイナミクスに疑問を呈する。
ここで,閉じ込められた系では,量子クエンチ後の熱化ダイナミクスは,時間スケールを十分に分離した複数の段階を示す。
一例として、順序相の領域壁が中間子を連想させる境界状態を形成するような閉じ込められたイジングスピン鎖を考える。
システムはまず、保存された中間子数を持つギブスのアンサンブルによって記述された前熱状態に向かって緩和する。
熱前状態は、近接して中間子が形成される稀な現象から生じ、散乱現象の雪崩に繋がる。
メソン数保存がシュウィンガー効果に類似したメカニズムによって破られるのは、より後になってようやく真の熱平衡が達成される。
議論された予熱力学は、制限励起を持つ一次元多体系に直接関係している Unconventional nonequilibrium phases with restricted correlation spreading and slow entanglement growth have been proposed to emerge in systems with confined excitations, calling their thermalization dynamics into question. Here, we show that in confined systems the thermalization dynamics after a quantum quench instead exhibits multiple stages with well separated time scales. As an example, we consider the confined Ising spin chain, in which domain walls in the ordered phase form bound states reminiscent of mesons. The system first relaxes towards a prethermal state, described by a Gibbs ensemble with conserved meson number. The prethermal state arises from rare events in which mesons are created in close vicinity, leading to an avalanche of scattering events. Only at much later times a true thermal equilibrium is achieved in which the meson number conservation is violated by a mechanism akin to the Schwinger effect. The discussed prethermalization dynamics is directly relevant to generic one-dimensional, many-body systems with confined excitations | 翻訳日:2023-02-23 23:27:06 公開日:2023-02-09 |
# 置換モーメントによる量子多体系の絡み合いの検出 Detecting entanglement in quantum many-body systems via permutation moments ( http://arxiv.org/abs/2203.08391v2 ) ライセンス: Link先を確認 | Zhenhuan Liu, Yifan Tang, Hao Dai, Pengyu Liu, Shu Chen, Xiongfeng Ma | (参考訳) 多成分の絡み合いは、量子情報科学と多体物理学の両方において重要な役割を果たす。
状態空間の指数的に大きな次元と複雑な幾何学構造のため、多体系の絡み合いの検出は現実的には極めて困難である。
従来の手段では、絡み合いの証人やエントロピー基準のように、研究対象のシステムの事前の知識に依存するか、検出能力が比較的弱い。
そこで本研究では,一般化制御SWAP量子回路とランダムユニタリ手法のいずれかを効果的に実装した,置換モーメントに基づく多部絡み合いの基準を設計するためのフレームワークを提案する。
これらの基準は、長距離$XY$ Hamiltonianを持つマルチキュービットIsingモデルにおいて強い検出能力を示す。
これらの基準に関連付けられた量には明確な物理的意味があり、量子力学相転移におけるエンタングルメントスケーリング遷移を示すエンタングルメント量子化器として使用できる。
さらに、我々のフレームワークは量子多体系のより複雑な絡み合い構造を検出するために一般化することもできる。 Multipartite entanglement plays an essential role in both quantum information science and many-body physics. Due to the exponentially large dimension and complex geometric structure of the state space, the detection of entanglement in many-body systems is extremely challenging in reality. Conventional means, like entanglement witness and entropy criterion, either highly depend on the prior knowledge of the studied systems or the detection capability is relatively weak. In this work, we propose a framework for designing multipartite entanglement criteria based on permutation moments, which have an effective implementation with either the generalized control-SWAP quantum circuits or the random unitary techniques. These criteria show strong detection capability in the multi-qubit Ising model with a long-range $XY$ Hamiltonian. The quantities associated with these criteria have clear physical meaning and can be used as entanglement quantifiers, with which we show the entanglement scaling transition in a quantum dynamical phase transition. Furthermore, our framework can also be generalized to detect the much more complicated entanglement structure in quantum many-body systems. | 翻訳日:2023-02-21 23:17:09 公開日:2023-02-09 |
# 局所回転を持つ個別量子ゲートのスケーラブル高速ベンチマーク Scalable fast benchmarking for individual quantum gates with local twirling ( http://arxiv.org/abs/2203.10320v2 ) ライセンス: Link先を確認 | Yihong Zhang, Wenjun Yu, Pei Zeng, Guoding Liu, Xiongfeng Ma | (参考訳) 制御可能な量子システムの開発により、多ビットゲートの高速かつ実用的な特徴付けが高忠実性量子コンピューティングデバイスの構築に不可欠である。
ランダム化ベンチマークによってこの要求を満たす通常の方法は、多数のマルチキュービット・ツイリングゲートの複雑な実装を求めるものである。
量子過程の忠実度を効率的に確実に推定する方法は、未解決の問題である。
本研究では,局所的なツイリングゲートのみを用いたキャラクタサイクルベンチマークプロトコルとキャラクタ平均ベンチマークプロトコルを提案し,個々のマルチキュービット演算のプロセス忠実度を推定する。
我々のプロトコルは、局所ゲージ変換によってクリフォード群を含む量子ゲートの大規模なクラスを特徴付けることができ、量子コンピューティングの普遍ゲートセットを形成する。
非クリフォードゲート-制御された$(tx)$とクリフォードゲート -- 5量子ビットの量子誤り訂正符号化回路のプロトコルを数値的に示します。
その結果,本プロトコルはゲートプロセスの忠実度を効率よく,かつ確実に特徴付けることができることがわかった。
クロスエントロピーベンチマークと比較すると,キャラクタ平均ベンチマークはサンプリング複雑性の点で3桁の精度向上を実現している。 With the development of controllable quantum systems, fast and practical characterization for multi-qubit gates is essential for building high-fidelity quantum computing devices. The usual way to fulfill this requirement via randomized benchmarking asks for the complicated implementation of numerous multi-qubit twirling gates. How to efficiently and reliably estimate the fidelity of a quantum process remains an open problem. In this work, we propose a character-cycle benchmarking protocol and a character-average benchmarking protocol only using local twirling gates to estimate the process fidelity of an individual multi-qubit operation. Our protocols can characterize a large class of quantum gates including and beyond the Clifford group via the local gauge transformation, which forms a universal gate set for quantum computing. We numerically demonstrate our protocols for a non-Clifford gate -- controlled-$(TX)$ and a Clifford gate -- five-qubit quantum error-correcting encoding circuit. The numerical results show that our protocols can efficiently and reliably characterize the gate process fidelities. Compared with the cross-entropy benchmarking, the simulation results show that the character-average benchmarking achieves three orders of magnitude improvements in terms of sampling complexity. | 翻訳日:2023-02-21 08:44:28 公開日:2023-02-09 |
# グレースケール画像表現のための量子回路の新設計 Novel Design of Quantum Circuits for Representation of Grayscale Images ( http://arxiv.org/abs/2302.07089v1 ) ライセンス: Link先を確認 | Mayukh Sarkar | (参考訳) 量子コンピューティングの出現は世界中の研究者に影響を与え、有望な技術で多くの計算問題を解決した。
計算問題の解法の可能性、および様々な情報の表現により、量子コンピューティングは近い将来、古典的なコンピュータを置き換えることができる。
そのような課題の1つは、量子コンピュータにおけるデジタル画像の表現である。
それを可能にするためにいくつかの研究が行われた。
量子確率画像符号化(Quantum Probability Image Encoding)は、nピクセルの強度がlog_2(n)量子ビットの状態ベクトルとして表される最小の量子ビットを必要とする。
任意の状態ベクトルを得るための量子回路設計技術はあるが、一般のヒルベルト空間では状態ベクトルを考える。
しかし、画像データの場合、実際のベクトル空間のみを考えると、より小さなゲートセットで回路を制約し、必要なゲート数を削減できる可能性がある。
本稿では,そのような量子回路の構築について述べる。 The advent of Quantum Computing has influenced researchers around the world to solve multitudes of computational problems with the promising technology. Feasibility of solutions for computational problems, and representation of various information, may allow quantum computing to replace classical computer in near future. One such challenge is the representation of digital images in quantum computer. Several works have been done to make it possible. One such promising technique, named Quantum Probability Image Encoding, requires minimal number of qubits, where the intensity of n pixels is represented as the statevector of log_2(n) qubits. Though there exist quantum circuit design techniques to obtain arbitrary statevector, they consider statevector in general Hilbert space. But for image data, considering only real vector space is sufficient, that may constraint the circuit in smaller gate set, and possibly can reduce number of gates required. In this paper, construction of such quantum circuits has been proposed. | 翻訳日:2023-02-19 14:22:46 公開日:2023-02-09 |
# Recommender Systems の監査 -- DSA をリスクシナリオベースのアプローチで実践する Auditing Recommender Systems -- Putting the DSA into practice with a risk-scenario-based approach ( http://arxiv.org/abs/2302.04556v1 ) ライセンス: Link先を確認 | Anna-Katharina Me{\ss}mer, Martin Degeling | (参考訳) 今日のオンラインプラットフォームは、コンテンツをユーザーに提供するためのレコメンデーションシステムに大きく依存しています。
そして、リコメンデーションシステムは人工知能アルゴリズムに大きく依存して、誰が何を見るかを決める。
ソーシャルメディアプラットフォームが提供するコンテンツは、それに関わるユーザーと同じくらい多様であるが、プラットフォームが個人、グループ、社会に深刻な害をもたらすことが示されている。
これらの否定的な影響は、個人のメンタルヘルスを悪化させるものから、民主主義を危険にさらすことのできる社会全体の分極を促進するものまで様々である。
これらの害から人々をより保護するために、欧州連合のデジタルサービス法(DSA)は、アルゴリズムシステムをより透明性を高め、デューディリジェンス義務に従うように、プラットフォーム、特に多数のユーザを必要とする。
これらの要件は、オンラインプラットフォームによって引き起こされるシステムリスクを軽減するための重要な立法ステップを構成する。
しかし、dsaは、監査人がこれらのプラットフォームを責任を負うことができるような実行可能な監査プロセスを運用するための具体的なガイドラインを欠いている。
この空白は、監査を利用して彼らの慣行を正当化し、責任を無視する「オーディットウォッシング」の拡散を促進する可能性がある。
このギャップを埋めるために,リスクシナリオに基づく監査プロセスを提案する。
我々は、DSAによるレコメンデーターシステムの監査と評価がどのようなものになるべきかを詳細に説明する。
当社のアプローチでは、プラットフォームの進化する性質も考慮し、推奨システムのコンポーネントの可観測性を強調しています。
結果として得られた監査は、内部(異なる時点における同一システムの監査)と外部互換性(異なるプラットフォームの監査)を促進すると同時に、プラットフォーム自体が実施する緩和策の評価も行う。 Today's online platforms rely heavily on recommendation systems to serve content to their users; social media is a prime example. In turn, recommendation systems largely depend on artificial intelligence algorithms to decide who gets to see what. While the content social media platforms deliver is as varied as the users who engage with them, it has been shown that platforms can contribute to serious harm to individuals, groups and societies. Studies have suggested that these negative impacts range from worsening an individual's mental health to driving society-wide polarisation capable of putting democracies at risk. To better safeguard people from these harms, the European Union's Digital Services Act (DSA) requires platforms, especially those with large numbers of users, to make their algorithmic systems more transparent and follow due diligence obligations. These requirements constitute an important legislative step towards mitigating the systemic risks posed by online platforms. However, the DSA lacks concrete guidelines to operationalise a viable audit process that would allow auditors to hold these platforms accountable. This void could foster the spread of 'audit-washing', that is, platforms exploiting audits to legitimise their practices and neglect responsibility. To fill this gap, we propose a risk-scenario-based audit process. We explain in detail what audits and assessments of recommender systems according to the DSA should look like. Our approach also considers the evolving nature of platforms and emphasises the observability of their recommender systems' components. The resulting audit facilitates internal (among audits of the same system at different moments in time) and external comparability (among audits of different platforms) while also affording the evaluation of mitigation measures implemented by the platforms themselves. | 翻訳日:2023-02-19 14:06:37 公開日:2023-02-09 |
# AI支援のFact-Checkingは、オンラインのマジョリティグループに不相応な利益をもたらすか? Does AI-Assisted Fact-Checking Disproportionately Benefit Majority Groups Online? ( http://arxiv.org/abs/2302.03782v2 ) ライセンス: Link先を確認 | Terrence Neumann and Nicholas Wolczynski | (参考訳) 近年,ファクトチェックパイプラインにアルゴリズムが組み込まれている。
それらは、以前にファクトチェックされた誤情報にフラグを付けるだけでなく、ファクトチェックのためにどのトレンドクレームを優先すべきかの提案にも使われる。
「これらのアルゴリズムの精度を検証した研究はいくつかあるが、これらのアルゴリズムの利点(誤情報への曝露による)が、様々なオンラインコミュニティにどのように分散されているかは研究されていない。
本稿では,AI開発パイプラインの複数段階にわたる多彩な表現が,異なるオンラインコミュニティを対象としたAI支援のファクトチェックによるメリットの分布に与える影響について検討する。
提案するトピック認識型tacit(community-impacted twitter)シミュレータを大規模twitterフォロワネットワーク上で使用し,複数のトピックにわたる真偽情報の現実的なカスケードを生成するように調整した。
最後に、シミュレーションデータをテストベッドとして使用し、多様性の概念を明確に説明するアルゴリズムによる事実チェックの介入を多数実施する。
本研究は, 多数派コミュニティにネットワーク全体の利益を集中させるとともに, 多数派コミュニティと少数派コミュニティ間の利益の不平等を積極的に減らすために, ファクトチェッカーがアルゴリズムレコメンデーションを利用する方法に多様性を取り入れていることを示す。
これらの発見は、ソーシャルメディアプラットフォームやファクトチェック組織によるAI支援ファクトチェックの責任ある実施に関する重要な議論に寄与する。 In recent years, algorithms have been incorporated into fact-checking pipelines. They are used not only to flag previously fact-checked misinformation, but also to provide suggestions about which trending claims should be prioritized for fact-checking - a paradigm called `check-worthiness.' While several studies have examined the accuracy of these algorithms, none have investigated how the benefits from these algorithms (via reduction in exposure to misinformation) are distributed amongst various online communities. In this paper, we investigate how diverse representation across multiple stages of the AI development pipeline affects the distribution of benefits from AI-assisted fact-checking for different online communities. We simulate information propagation through the network using our novel Topic-Aware, Community-Impacted Twitter (TACIT) simulator on a large Twitter followers network, tuned to produce realistic cascades of true and false information across multiple topics. Finally, using simulated data as a test bed, we implement numerous algorithmic fact-checking interventions that explicitly account for notions of diversity. We find that both representative and egalitarian methods for sampling and labeling check-worthiness model training data can lead to network-wide benefit concentrated in majority communities, while incorporating diversity into how fact-checkers use algorithmic recommendations can actively reduce inequalities in benefits between majority and minority communities. These findings contribute to an important conversation around the responsible implementation of AI-assisted fact-checking by social media platforms and fact-checking organizations. | 翻訳日:2023-02-19 14:05:33 公開日:2023-02-09 |
# 音声認識における英語アクセントのグローバルな性能差 Global Performance Disparities Between English-Language Accents in Automatic Speech Recognition ( http://arxiv.org/abs/2208.01157v2 ) ライセンス: Link先を確認 | Alex DiChristofano, Henry Shuster, Shefali Chandra, Neal Patwari | (参考訳) 過去の研究では、人種集団の機能と話者の国籍として、差別的自動音声認識(ASR)のパフォーマンスを特定してきた。
本稿では,話者の個人的起源の関数としての偏見を超えて議論を拡大し,その起源国家の地政学的指向の関数としての偏見を求める。
我々は、171か国で生まれた2700人以上の英語話者を含む音声アクセントアーカイブから、大規模かつグローバルな音声データセットを使用して、最も人気のある英語asrサービスのいくつかを監査する。
複数の言語共変量を制御する場合でも、asrサービスのパフォーマンスは、米国の地政学的権力に対する話者の出生国の政治的アライメントと統計的に有意な関係があることを示している。
これはテスト対象のすべてのASRサービスに当てはまる。
我々は、このバイアスを、グローバルおよび政治的権力を維持するために、歴史的言語の使用という文脈で論じる。 Past research has identified discriminatory automatic speech recognition (ASR) performance as a function of the racial group and nationality of the speaker. In this paper, we expand the discussion beyond bias as a function of the individual national origin of the speaker to look for bias as a function of the geopolitical orientation of their nation of origin. We audit some of the most popular English language ASR services using a large and global data set of speech from The Speech Accent Archive, which includes over 2,700 speakers of English born in 171 different countries. We show that, even when controlling for multiple linguistic covariates, ASR service performance has a statistically significant relationship to the political alignment of the speaker's birth country with respect to the United States' geopolitical power. This holds for all ASR services tested. We discuss this bias in the context of the historical use of language to maintain global and political power. | 翻訳日:2023-02-19 10:15:37 公開日:2023-02-09 |
# 古典的通信による回路編み込み Circuit knitting with classical communication ( http://arxiv.org/abs/2205.00016v2 ) ライセンス: Link先を確認 | Christophe Piveteau, David Sutter | (参考訳) 量子ビットの不足は、近い将来の量子コンピュータの実用化にとって大きな障害となる。
この問題を回避するため、シミュレーションオーバーヘッドを犠牲にして、大規模な量子回路を小さなデバイスに適合するサブ回路に分割する様々な回路編み技術が開発されている。
本研究では,非局所ゲートの準確率シミュレーションに基づいて,サブ回路上で局所的に作用する動作を持つ回路の編み方について検討する。
これらのローカル量子コンピュータ間の古典的コミュニケーションが有効かどうかを検討する。
2つの回路を接続するn$非局所cnotゲートを含む回路では、古典的な情報交換が可能であれば、シミュレーションオーバーヘッドを$o(9^n)$から$o(4^n)$に減らすことができる。
一般のクリフォードゲートや、少なくとも制限された形で、制御された回転ゲートのような他のゲートに対しても同様の改善が得られる。 The scarcity of qubits is a major obstacle to the practical usage of quantum computers in the near future. To circumvent this problem, various circuit knitting techniques have been developed to partition large quantum circuits into subcircuits that fit on smaller devices, at the cost of a simulation overhead. In this work, we study a particular method of circuit knitting based on quasiprobability simulation of nonlocal gates with operations that act locally on the subcircuits. We investigate whether classical communication between these local quantum computers can help. We provide a positive answer by showing that for circuits containing $n$ nonlocal CNOT gates connecting two circuit parts, the simulation overhead can be reduced from $O(9^n)$ to $O(4^n)$ if one allows for classical information exchange. Similar improvements can be obtained for general Clifford gates and, at least in a restricted form, for other gates such as controlled rotation gates. | 翻訳日:2023-02-15 03:51:52 公開日:2023-02-09 |
# 実単語の綴り誤りの修正:新しいハイブリッドアプローチ Correcting Real-Word Spelling Errors: A New Hybrid Approach ( http://arxiv.org/abs/2302.06407v1 ) ライセンス: Link先を確認 | Seyed MohammadSadegh Dashti, Amid Khatibi Bardsiri, Vahid Khatibi Bardsiri | (参考訳) スペル補正は自然言語処理の分野における主要なタスクの1つである。
一般的な綴り誤りとは対照的に、実語誤りは従来の綴り補正法では検出できない。
Mays, Damerau, Mercerによって提案された実単語補正モデルは, 様々な評価において優れた性能を示した。
しかし,本研究では,実語誤りの検出と訂正のために統計的・構文的知識に依存する新しいハイブリッド手法を提案する。
このモデルでは、制約文法(CG)を用いて、探索空間内の修正候補の集合を識別する。
Mays, Damerau と Mercer のトリグラムアプローチは、構文的によく整形された修正候補の確率を推定するために操作される。
提案されたアプローチは、Wall Street Journalのコーパスでテストされている。
このモデルは、WordNetベースのHirstとBudanitskyのメソッドやWilcox-O'HearnとHirstの固定ウィンドウサイズメソッドなど、他のモデルよりも実用的であることが証明できる。 Spelling correction is one of the main tasks in the field of Natural Language Processing. Contrary to common spelling errors, real-word errors cannot be detected by conventional spelling correction methods. The real-word correction model proposed by Mays, Damerau and Mercer showed a great performance in different evaluations. In this research, however, a new hybrid approach is proposed which relies on statistical and syntactic knowledge to detect and correct real-word errors. In this model, Constraint Grammar (CG) is used to discriminate among sets of correction candidates in the search space. Mays, Damerau and Mercer's trigram approach is manipulated to estimate the probability of syntactically well-formed correction candidates. The approach proposed here is tested on the Wall Street Journal corpus. The model can prove to be more practical than some other models, such as WordNet-based method of Hirst and Budanitsky and fixed windows size method of Wilcox-O'Hearn and Hirst. | 翻訳日:2023-02-14 15:11:01 公開日:2023-02-09 |
# 熱力学AIと揺らぎフロンティア Thermodynamic AI and the fluctuation frontier ( http://arxiv.org/abs/2302.06584v1 ) ライセンス: Link先を確認 | Patrick J. Coles | (参考訳) 多くの人工知能(AI)アルゴリズムは物理学にインスパイアされ、確率的ゆらぎを用いる。
これらの物理にインスパイアされたAIアルゴリズムを、私たちがThermodynamic AIと呼ぶ単一の数学的フレームワークの下に統一することで接続する。
例えば、(1)生成拡散モデル、(2)ベイズニューラルネットワーク、(3)モンテカルロサンプリング、(4)シミュレートアニールなどである。
このようなサーモダイナミックAIアルゴリズムは現在、デジタルハードウェア上で実行されており、究極的にはスケーラビリティと全体的なポテンシャルを制限している。
確率的ゆらぎは物理的熱力学系で自然に起こり、そのようなゆらぎは計算資源と見なすことができる。
そこで我々は,ソフトウェアとハードウェアが分離不能となる新しいコンピューティングパラダイムを提案する。
我々のアルゴリズム統一により、そのようなアルゴリズムを加速できる熱力学AIハードウェアを含む単一のフルスタックパラダイムを特定できる。
ノイズがリソースではなくロードブロックである量子コンピューティングと、熱力学aiハードウェアを対比する。
熱力学AIハードウェアは、新しい基本的なビルディングブロックを使用するため、コンピューティングの新たな形態と見なすことができる。
離散的かつ連続的な熱力学AIハードウェア構築ブロックとして、確率ビット(sビット)と確率モード(sモード)を識別する。
これらの確率的ユニットに加えて、Thermodynamic AIハードウェアはマクスウェルのデーモンデバイスを使用してシステムを誘導し、非自明な状態を生成する。
これらのデバイスを構築するためのシンプルな物理アーキテクチャを提供し、ゲートシーケンスを介してハードウェアをプログラミングするためのフォーマリズムを開発する。
この新しいコンピューティングパラダイムに関する議論を刺激したいと思っています。
加速以外にも、ハードウェアとアルゴリズムの設計にも影響を与え、物理とインテリジェンスの関係についてより深く理解していくと信じています。 Many Artificial Intelligence (AI) algorithms are inspired by physics and employ stochastic fluctuations. We connect these physics-inspired AI algorithms by unifying them under a single mathematical framework that we call Thermodynamic AI. Seemingly disparate algorithmic classes can be described by this framework, for example, (1) Generative diffusion models, (2) Bayesian neural networks, (3) Monte Carlo sampling and (4) Simulated annealing. Such Thermodynamic AI algorithms are currently run on digital hardware, ultimately limiting their scalability and overall potential. Stochastic fluctuations naturally occur in physical thermodynamic systems, and such fluctuations can be viewed as a computational resource. Hence, we propose a novel computing paradigm, where software and hardware become inseparable. Our algorithmic unification allows us to identify a single full-stack paradigm, involving Thermodynamic AI hardware, that could accelerate such algorithms. We contrast Thermodynamic AI hardware with quantum computing where noise is a roadblock rather than a resource. Thermodynamic AI hardware can be viewed as a novel form of computing, since it uses a novel fundamental building block. We identify stochastic bits (s-bits) and stochastic modes (s-modes) as the respective building blocks for discrete and continuous Thermodynamic AI hardware. In addition to these stochastic units, Thermodynamic AI hardware employs a Maxwell's demon device that guides the system to produce non-trivial states. We provide a few simple physical architectures for building these devices and we develop a formalism for programming the hardware via gate sequences. We hope to stimulate discussion around this new computing paradigm. Beyond acceleration, we believe it will impact the design of both hardware and algorithms, while also deepening our understanding of the connection between physics and intelligence. | 翻訳日:2023-02-14 14:27:13 公開日:2023-02-09 |
# 非局所性深さのベル不等式 Bell inequalities for nonlocality depth ( http://arxiv.org/abs/2205.04250v2 ) ライセンス: Link先を確認 | Fabian Bernards and Otfried G\"uhne | (参考訳) 3つ以上の粒子が考慮される場合、量子相関はいわゆるハイブリッド局所隠れ変数モデルによって生成される相関よりも強くなり得る。
4粒子および5粒子系の様々なハイブリッドシナリオを特徴付けるためにベルの不等式を徹底的に分類する。
量子力学において、これらの不等式は、絡み合い深さのデバイスに依存しない証人を与える。
さらに、n-粒子系の非局所性深さ(n-1)を検出するために不等式の族を構築する。
さらに,ハイブリッドモデル用に設計された最初のベル不等式であるsvetlichny不等式を2つ一般化した。
結果は,アフィン制約下でベルの不等式を完全に特徴付けるためのコーン射影法に基づく。 When three or more particles are considered, quantum correlations can be stronger than the correlations generated by so-called hybrid local hidden variable models, where some of the particles are considered as a single block inside which communication and signaling is allowed. We provide an exhaustive classification of Bell inequalities to characterize various hybrid scenarios in four- and five-particle systems. In quantum mechanics, these inequalities provide device-independent witnesses for the entanglement depth. In addition, we construct a family of inequalities to detect a non-locality depth of (n-1) in n-particle systems. Moreover, we present two generalizations of the original Svetlichny inequality, which was the first Bell inequality designed for hybrid models. Our results are based on the cone-projection technique, which can be used to completely characterize Bell inequalities under affine constraints; even for many parties, measurements, and outcomes. | 翻訳日:2023-02-13 20:39:47 公開日:2023-02-09 |
# 低検出効率ベル実験へのグラフ理論的アプローチ Graph-theoretic approach to Bell experiments with low detection efficiency ( http://arxiv.org/abs/2205.05098v4 ) ライセンス: Link先を確認 | Zhen-Peng Xu, Jonathan Steinberg, Jaskaran Singh, Antonio J. L\'opez-Tarrida, Jos\'e R. Portillo, Ad\'an Cabello | (参考訳) 検出効率が一定のしきい値であるベル不等式テスト $\eta_{\rm{crit}}$ は局所隠れ変数モデルでシミュレートできる。
ここでは、局所量子システムの低$\eta_{\rm{crit}}$と比較的低次元の$d$を必要とするベルテストを特定する方法を紹介する。
方法には2つのステップがあります。
まず、二部ベルの不等式(英語版)(bipartite bell inequality)の族を示し、最大に絡み合った状態によって生成される相関に対して、$\eta_{\rm{crit}}$ はグラフの不変量の関数によって上界になり、それを用いて小さな$\eta_{\rm{crit}}$ を必要とする相関を識別する。
最大エンタングル状態の場合、$\eta_{\rm{crit}} \le 0.516$ for $d=16$, $\eta_{\rm{crit}} \le 0.407$ for $d=28$, $\eta_{\rm{crit}} \le 0.326$ for $d=32$を示す。
また、$\eta_{\rm{crit}}$の上限を$d=16$で$0.415$に下げる証拠を示し、次元と設定数を増やすことで$\eta_{\rm{crit}}$の上限を任意に小さくする方法を示す。
これらすべての$\eta_{\rm{crit}}$の上限は、ノイズがなければ有効である(文献ではそうであるように)。
第2のステップは、最初のステップで特定された初期状態と測定設定を使用することで、より小さな$\eta_{\rm{crit}}$とより優れたノイズロバスト性を持つベル不等式を構築することができるという観測に基づく。
そのため、最初のステップで使われるグラフの自己同型を利用するギルバートのアルゴリズムの修正版を使用する。
我々は,最初のステップで得られた上限値よりも,$\eta_{\rm{crit}}$が12.38\%低く,必要な可視性が14.62\%低くなる例を明示的に開発することにより,そのパワーを説明する。
ここで提示されたツールは、高次元のループホールフリーベル試験とループホールフリーベル非局所性を長距離で開発することができる。 Bell inequality tests where the detection efficiency is below a certain threshold $\eta_{\rm{crit}}$ can be simulated with local hidden-variable models. Here, we introduce a method to identify Bell tests requiring low $\eta_{\rm{crit}}$ and relatively low dimension $d$ of the local quantum systems. The method has two steps. First, we show a family of bipartite Bell inequalities for which, for correlations produced by maximally entangled states, $\eta_{\rm{crit}}$ can be upper bounded by a function of some invariants of graphs, and use it to identify correlations that require small $\eta_{\rm{crit}}$. We present examples in which, for maximally entangled states, $\eta_{\rm{crit}} \le 0.516$ for $d=16$, $\eta_{\rm{crit}} \le 0.407$ for $d=28$, and $\eta_{\rm{crit}} \le 0.326$ for $d=32$. We also show evidence that the upper bound for $\eta_{\rm{crit}}$ can be lowered down to $0.415$ for $d=16$ and present a method to make the upper bound of $\eta_{\rm{crit}}$ arbitrarily small by increasing the dimension and the number of settings. All these upper bounds for $\eta_{\rm{crit}}$ are valid (as it is the case in the literature) assuming no noise. The second step is based on the observation that, using the initial state and measurement settings identified in the first step, we can construct Bell inequalities with smaller $\eta_{\rm{crit}}$ and better noise robustness. For that, we use a modified version of Gilbert's algorithm that takes advantage of the automorphisms of the graphs used in the first step. We illustrate its power by explicitly developing an example in which $\eta_{\rm{crit}}$ is $12.38\%$ lower and the required visibility is $14.62\%$ lower than the upper bounds obtained in the first step. The tools presented here may allow for developing high-dimensional loophole-free Bell tests and loophole-free Bell nonlocality over long distances. | 翻訳日:2023-02-13 17:33:56 公開日:2023-02-09 |
# 二元化ニューラルマシン翻訳 Binarized Neural Machine Translation ( http://arxiv.org/abs/2302.04907v1 ) ライセンス: Link先を確認 | Yichi Zhang, Ankush Garg, Yuan Cao,{\L}ukasz Lew, Behrooz Ghorbani, Zhiru Zhang, Orhan Firat | (参考訳) 言語モデルの急速なスケーリングは、低ビット幅量子化を用いた研究を動機付けている。
本研究では,機械翻訳(BMT)に適用したトランスフォーマーの新しいバイナライズ手法を提案する。
1ビットの重みとアクティベーションを使用する場合、膨らんだドット製品分散の問題を特定し、対処する。
具体的には、BMTは二項化品質を改善するためにLayerNormsと残留接続を利用する。
WMTデータセットの実験では、1ビットのウェイトオンリートランスフォーマーはフロートと同じ品質を達成できるが、サイズは16倍小さい。
1ビットのアクティベーションは品質低下の程度が異なるが、提案されたアーキテクチャ変更によって緩和される。
さらに,1ビットのウェイトトランスフォーマーがドメイン内およびドメイン外の両方においてスケールし,一般化することを示す,プロダクションスケールの翻訳データセットを用いたスケーリング法の研究も行う。
JAX/Flaxの実装はオープンソースになる。 The rapid scaling of language models is motivating research using low-bitwidth quantization. In this work, we propose a novel binarization technique for Transformers applied to machine translation (BMT), the first of its kind. We identify and address the problem of inflated dot-product variance when using one-bit weights and activations. Specifically, BMT leverages additional LayerNorms and residual connections to improve binarization quality. Experiments on the WMT dataset show that a one-bit weight-only Transformer can achieve the same quality as a float one, while being 16x smaller in size. One-bit activations incur varying degrees of quality drop, but mitigated by the proposed architectural changes. We further conduct a scaling law study using production-scale translation datasets, which shows that one-bit weight Transformers scale and generalize well in both in-domain and out-of-domain settings. Implementation in JAX/Flax will be open sourced. | 翻訳日:2023-02-13 17:25:44 公開日:2023-02-09 |
# adaptsim:sim-to-real転送のためのタスク駆動シミュレーション適応 AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer ( http://arxiv.org/abs/2302.04903v1 ) ライセンス: Link先を確認 | Allen Z. Ren, Hongkai Dai, Benjamin Burchfiel, Anirudha Majumdar | (参考訳) 接触モデルや物体形状近似などのシミュレーションパラメータ設定は、シミュレーションから実世界の展開へ移行できる堅牢なロボットポリシーの訓練に不可欠である。
従来のアプローチでは、そのようなパラメータ(ドメインのランダム化)上の手工芸分布や、実際の環境の力学(システム同定)に最もよく一致するパラメータを識別する。
しかしながら、シミュレーションと現実の間には不可解なギャップがしばしばあり、全ての状態とタスクのシミュレーションと現実のダイナミクスを一致させようとする試みは、実現不可能であり、特定のタスクに対してうまく機能するポリシーを導かない可能性がある。
本稿では,シミュレーションと現実のダイナミクスをマッチングするのではなく,対象(現実)環境でのタスクパフォーマンスを最適化することを目的とした,sim-to-real転送のためのタスク駆動適応フレームワークであるadaptsimを提案する。
まず,目標環境における現在のポリシーの性能に基づいてシミュレーションパラメータ分布を調整するための強化学習を用いたシミュレーションにおける適応ポリシーのメタ学習を行う。
そして, 少量の実データを用いて, 新たなシミュレーションパラメータ分布を推定し, 反復的な実世界適応を行う。
我々は,(1)線形化された二重振り子の跳ね上げ,(2)ボトルの動的テーブルトップ押し,(3)スペチュラを用いた食品の動的スクーピングという3つのロボット作業で実験を行った。
シミュレーションおよびハードウェア実験により,Sys-IDに基づく手法と目標環境におけるタスクポリシーを直接訓練した場合と比較して,AdaptSimが1~3倍の漸近性能と$\sim$2倍の実データ効率を達成することを示した。 Simulation parameter settings such as contact models and object geometry approximations are critical to training robust robotic policies capable of transferring from simulation to real-world deployment. Previous approaches typically handcraft distributions over such parameters (domain randomization), or identify parameters that best match the dynamics of the real environment (system identification). However, there is often an irreducible gap between simulation and reality: attempting to match the dynamics between simulation and reality across all states and tasks may be infeasible and may not lead to policies that perform well in reality for a specific task. Addressing this issue, we propose AdaptSim, a new task-driven adaptation framework for sim-to-real transfer that aims to optimize task performance in target (real) environments -- instead of matching dynamics between simulation and reality. First, we meta-learn an adaptation policy in simulation using reinforcement learning for adjusting the simulation parameter distribution based on the current policy's performance in a target environment. We then perform iterative real-world adaptation by inferring new simulation parameter distributions for policy training, using a small amount of real data. We perform experiments in three robotic tasks: (1) swing-up of linearized double pendulum, (2) dynamic table-top pushing of a bottle, and (3) dynamic scooping of food pieces with a spatula. Our extensive simulation and hardware experiments demonstrate AdaptSim achieving 1-3x asymptotic performance and $\sim$2x real data efficiency when adapting to different environments, compared to methods based on Sys-ID and directly training the task policy in target environments. | 翻訳日:2023-02-13 17:25:28 公開日:2023-02-09 |
# GCI: A (G)raph (C)oncept (I)nterpretation Framework GCI: A (G)raph (C)oncept (I)nterpretation Framework ( http://arxiv.org/abs/2302.04899v1 ) ライセンス: Link先を確認 | Dmitry Kazhdan, Botty Dimanov, Lucie Charlotte Magister, Pietro Barbiero, Mateja Jamnik, Pietro Lio | (参考訳) 説明可能なAI(XAI)は、Deep Neural Networksから人間解釈可能な概念を抽出することに焦点を当てた、概念抽出の研究が最近急増した。
概念抽出アプローチに直面する重要な課題は、特に分子特性予測のような複雑なタスクにおいて、発見された概念を解釈し評価することの難しさである。
グラフニューラルネットワーク(GNN)から発見された概念とそれに対応する人間の解釈とのアライメントを定量的に測定するために使用される(G)raph (C)onterpretationフレームワーク。
GCIは概念解釈を関数としてエンコードし、与えられた解釈と概念定義のアライメントを定量的に測定することができる。
GCIの4つの応用例を示す。
一 概念抽出器を定量的に評価すること
(ii)概念抽出器と人間の解釈のアライメントの測定
三 終了業務に関する解釈の完全性の測定及び
(4) 分子特性予測へのGCIの実践的応用として, 分子特性予測タスクで訓練されたGNNを化学官能基を用いて説明し, 0.76 AUCROC完全性スコアで解釈を実装した。 Explainable AI (XAI) underwent a recent surge in research on concept extraction, focusing on extracting human-interpretable concepts from Deep Neural Networks. An important challenge facing concept extraction approaches is the difficulty of interpreting and evaluating discovered concepts, especially for complex tasks such as molecular property prediction. We address this challenge by presenting GCI: a (G)raph (C)oncept (I)nterpretation framework, used for quantitatively measuring alignment between concepts discovered from Graph Neural Networks (GNNs) and their corresponding human interpretations. GCI encodes concept interpretations as functions, which can be used to quantitatively measure the alignment between a given interpretation and concept definition. We demonstrate four applications of GCI: (i) quantitatively evaluating concept extractors, (ii) measuring alignment between concept extractors and human interpretations, (iii) measuring the completeness of interpretations with respect to an end task and (iv) a practical application of GCI to molecular property prediction, in which we demonstrate how to use chemical functional groups to explain GNNs trained on molecular property prediction tasks, and implement interpretations with a 0.76 AUCROC completeness score. | 翻訳日:2023-02-13 17:24:57 公開日:2023-02-09 |
# 開量子系における単一光子光学の結合強化と対称性 Coupling enhancement and symmetrization of single-photon optomechanics in open quantum systems ( http://arxiv.org/abs/2302.04897v1 ) ライセンス: Link先を確認 | Cheng Shang | (参考訳) キャビティ・オプトメカニクスの課題は、単一光子光力学効果を観察することである。
単一光子キャビティ光学の固有非線形効果を調べるためには、単一光子と有限個のフォノンとの間の放射圧(rp)相互作用を強化する必要がある。
本研究では, 2レーザー駆動を導入し, rp相互作用を超える共振器共振周波数に対する2次補正を考慮し, ファブリペロキャビティの単一光子光機械結合の制御可能な強化を実現する。
2つの駆動レーザのパラメータとクロスケラー(ck)相互作用を調整して、効果的な光機械的カップリングが実数となるようにすることで、理論的に、光子とフォノンによって満足される量子揺らぎダイナミクスの形式が同一である単一光子レベルでの効果的な対称光力学的ダイナミクスを提案する。
対称光学における最適相互輸送について検討する。
レーザー場の最適伝達の臨界挙動を観察することにより,光機械的強結合の境界点を同定する。
回転波近似(rwa)の前後における散逸平衡と非平衡対称光学におけるレーザー場の散乱挙動を比較した。
また,本方式の信頼性のある実験実装も提案する。
この研究は、現在の実験プラットフォームによる単一光子光学効果の研究の道を開くかもしれない。 A challenging task of cavity optomechanics is to observe single-photon optomechanical effects. To explore an intrinsic nonlinear effect of single-photon cavity optomechanics, we need to strengthen the radiation-pressure (RP) interaction between a single photon and a finite number of phonons. In this work, introducing the two-laser driving and considering the second-order correction to the cavity resonance frequency beyond the RP interaction, we realize controllable enhancement of the single-photon optomechanical coupling in a prototypical Fabry-Perot cavity. By adjusting the parameters of the two driving lasers and the cross-Kerr (CK) interaction so that the effective optomechanical coupling may become a real number, we theoretically propose effective symmetric optomechanical dynamics at the single-photon level, in which the forms of the quantum fluctuation dynamics satisfied by the photon and phonon are identical to each other. We study optimal reciprocal transport in symmetric optomechanics. By observing the critical behavior of the optimal transmission of the laser field, we identify the boundary point of the optomechanical strong coupling. We compare the scattering behavior of the laser field in the dissipative equilibrium and non-equilibrium symmetric optomechanics before and after the rotating-wave approximation (RWA). We also present a reliable experimental implementation of the present scheme. This work may pave the way to studying the single-photon optomechanical effects with current experimental platforms. | 翻訳日:2023-02-13 17:24:35 公開日:2023-02-09 |
# 純粋非マルコフ的進化 Pure non-Markovian evolutions ( http://arxiv.org/abs/2302.04883v1 ) ライセンス: Link先を確認 | Dario De Santis | (参考訳) 非マルコフ力学は情報バックフローによって特徴づけられ、進化するオープン量子システムは、以前環境に失われた情報の一部を取得する。
したがって、非マルコビアン性の定義は、進化が騒がしい最初の時間間隔を意味するが、逆流は起こらない。
2種類の初期雑音を同定し, 1 つはシステムの情報内容の劣化にのみ影響を与えるが, 1 つは非マルコフ現象に必須である。
したがって、すべての非マルコフ的進化はノイズ非マルコフ的(NNM)と純粋非マルコフ的(PNM)の2つのクラスに分けられる。
我々は、基本的な非マルコフ現象のタイミング分析を通じて、この区別を行う。
まず,全てのnnmダイナミクスがpnmコアのマルコフ前処理によってシミュレートできることを実証する。
我々はPNMの進化によって提供される情報逆流と非マルコビアン性の測定で得られる利得を定量化する。
同様に, この枠組みにおける絡み合い破壊特性の挙動について検討し, 相関逆流を活性化させる手法について議論する。
最後に、いくつかのよく知られた力学モデルの研究を通して、結果の適用性を示す。 Non-Markovian dynamics are characterized by information backflows, where the evolving open quantum system retrieves part of the information previously lost in the environment. Hence, the very definition of non-Markovianity implies an initial time interval when the evolution is noisy, otherwise no backflow could take place. We identify two types of initial noise, where the first has the only effect of degrading the information content of the system, while the latter is essential for non-Markovian phenomena. Hence, all non-Markovian evolutions can be divided into two classes: noisy non-Markovian (NNM), showing both types of noise, and pure non-Markovian (PNM), implementing solely essential noise. We make this distinction through a timing analysis of fundamental non-Markovian phenomena. First, we prove that all NNM dynamics can be simulated through a Markovian pre-processing of a PNM core. We quantify the gains in terms of information backflows and non-Markovianity measures provided by PNM evolutions. Similarly, we study how the entanglement breaking property behaves in this framework and we discuss a technique to activate correlation backflows. Finally, we show the applicability of our results through the study of several well-know dynamical models. | 翻訳日:2023-02-13 17:24:09 公開日:2023-02-09 |
# モンテカルロ試料の並べ替えによる不確かさの効率的な伝播 Efficient Propagation of Uncertainty via Reordering Monte Carlo Samples ( http://arxiv.org/abs/2302.04945v1 ) ライセンス: Link先を確認 | Danial Khatamsaz, Vahid Attari, Raymundo Arroyave, and Douglas L. Allaire | (参考訳) モデル予測の結果の不確実性解析は、モデルに対する信頼性を確立し、モデルの忠実性を評価するための決定に基づく材料設計の鍵となる要素である。
不確実性伝播 (up) は、入力変数の不確実性に基づいてモデル出力の不確実性を決定する手法である。
モデル入力から出力への不確かさを伝達する最も一般的で最も単純なアプローチは、多くのサンプルをモデルに供給することであり、これはモンテカルロ(mc)シミュレーションと呼ばれ、入力変数分布から徹底的なサンプリングを必要とする。
しかし、mcシミュレーションは計算コストが高いモデルでは実用的ではない。
本研究は,全ての試料が平均的に有用である一方で,他の試料よりも有用であることが示唆された。
したがって、MCサンプルの並べ替えやより有用なサンプルの伝播により、より早く関心のある統計の収束が促進され、UPプロセスの計算負担が軽減される。
本稿では,mcサンプルを適応的に並べ替える手法を紹介し,upプロセスの計算コストを削減する方法を提案する。 Uncertainty analysis in the outcomes of model predictions is a key element in decision-based material design to establish confidence in the models and evaluate the fidelity of models. Uncertainty Propagation (UP) is a technique to determine model output uncertainties based on the uncertainty in its input variables. The most common and simplest approach to propagate the uncertainty from a model inputs to its outputs is by feeding a large number of samples to the model, known as Monte Carlo (MC) simulation which requires exhaustive sampling from the input variable distributions. However, MC simulations are impractical when models are computationally expensive. In this work, we investigate the hypothesis that while all samples are useful on average, some samples must be more useful than others. Thus, reordering MC samples and propagating more useful samples can lead to enhanced convergence in statistics of interest earlier and thus, reducing the computational burden of UP process. Here, we introduce a methodology to adaptively reorder MC samples and show how it results in reduction of computational expense of UP processes. | 翻訳日:2023-02-13 17:16:38 公開日:2023-02-09 |
# サブタスクカリキュラムを用いた複雑なチームワークタスクの学習 Learning Complex Teamwork Tasks using a Sub-task Curriculum ( http://arxiv.org/abs/2302.04944v1 ) ライセンス: Link先を確認 | Elliot Fosong, Arrasy Rahman, Ignacio Carlucho, Stefano V. Albrecht | (参考訳) 大規模政策空間における政策探索や,相互適応エージェントによる非定常性といった課題のために,多エージェント強化学習を通じて複雑なタスクを遂行するチームを訓練することは困難である。
複雑なマルチエージェントタスクの効率的な学習を容易にするために,より単純なマルチエージェントサブタスクのエキスパートによるカリキュラムを用いた手法を提案する。
カリキュラムの各サブタスクにおいて、チーム全体のサブセットは、サブタスク固有のポリシーを取得するように訓練されます。
サブチームはマージされ、ターゲットタスクに転送される。そこでは、より複雑なターゲットタスクを解決するために、そのポリシーをまとめて調整する。
本稿では,各エージェントがサブタスク固有のスキルを利用できる目標タスクの状況を特定するフレキシブルな方法であるMEDoEについて述べる。
我々は, MEDoE とマルチエージェント強化学習ベースラインを比較して, タスクのスクラッチからトレーニングし, 標準的なマルチエージェント強化学習技術のna\" を微調整に応用した。
MEDoEは、スクラッチからトレーニングするか、あるいはna\を多用したベースラインよりも優れており、様々な複雑なチームワークタスクを解決するために、トレーニング時間を大幅に削減する必要がある。 Training a team to complete a complex task via multi-agent reinforcement learning can be difficult due to challenges such as policy search in a large policy space, and non-stationarity caused by mutually adapting agents. To facilitate efficient learning of complex multi-agent tasks, we propose an approach which uses an expert-provided curriculum of simpler multi-agent sub-tasks. In each sub-task of the curriculum, a subset of the entire team is trained to acquire sub-task-specific policies. The sub-teams are then merged and transferred to the target task, where their policies are collectively fined tuned to solve the more complex target task. We present MEDoE, a flexible method which identifies situations in the target task where each agent can use its sub-task-specific skills, and uses this information to modulate hyperparameters for learning and exploration during the fine-tuning process. We compare MEDoE to multi-agent reinforcement learning baselines that train from scratch in the full task, and with na\"ive applications of standard multi-agent reinforcement learning techniques for fine-tuning. We show that MEDoE outperforms baselines which train from scratch or use na\"ive fine-tuning approaches, requiring significantly fewer total training timesteps to solve a range of complex teamwork tasks. | 翻訳日:2023-02-13 17:16:20 公開日:2023-02-09 |
# 近距離ハイパースペクトルデータを用いた開削地表面の無監督鉱石分類 Unsupervised ore/waste classification on open-cut mine faces using close-range hyperspectral data ( http://arxiv.org/abs/2302.04936v1 ) ライセンス: Link先を確認 | Lloyd Windrim, Arman Melkumyan, Richard J. Murphy, Anna Chlingaryan, Raymond Leung | (参考訳) 鉱物のリモートマッピングと表面の鉱石や廃棄物の識別は、鉱業などの地質学的応用にとって重要な課題である。
このようなタスクは、高空間分解能と高スペクトル分解能で環境の反射特性をリモートで測定できる地上型近距離ハイパースペクトルセンサによって実現されている。
しかし,鉱物層と岩層間のスペクトル吸収特性の微妙な差や,風景の照度の変化から,開削鉱山面で測定した鉱物スペクトルの自律的マッピングは依然として困難な課題である。
教師付き学習アルゴリズムをトレーニングするための注釈付きデータが存在しない場合には、さらなる困難が生じる。
近年のハイパースペクトル機械学習の文献から,鉱山面上のスペクトルの教師なしマッピングのためのパイプラインが提案されている。
提案するパイプラインでは,非教師なしおよび自己教師なしのアルゴリズムを統合システムで統合し,人間による訓練データを必要としない地雷面に鉱物をマッピングする。
鉱石マルタイトと非鉱化シェールからなる開削鉱山面のハイパースペクトル画像データセットを用いてパイプラインを評価する。
組み合わせたシステムは,その構成アルゴリズムに優れたマップを生成し,そのマッピング能力の一貫性を2つの異なる時間で取得したデータを用いて示す。 The remote mapping of minerals and discrimination of ore and waste on surfaces are important tasks for geological applications such as those in mining. Such tasks have become possible using ground-based, close-range hyperspectral sensors which can remotely measure the reflectance properties of the environment with high spatial and spectral resolution. However, autonomous mapping of mineral spectra measured on an open-cut mine face remains a challenging problem due to the subtleness of differences in spectral absorption features between mineral and rock classes as well as variability in the illumination of the scene. An additional layer of difficulty arises when there is no annotated data available to train a supervised learning algorithm. A pipeline for unsupervised mapping of spectra on a mine face is proposed which draws from several recent advances in the hyperspectral machine learning literature. The proposed pipeline brings together unsupervised and self-supervised algorithms in a unified system to map minerals on a mine face without the need for human-annotated training data. The pipeline is evaluated with a hyperspectral image dataset of an open-cut mine face comprising mineral ore martite and non-mineralised shale. The combined system is shown to produce a superior map to its constituent algorithms, and the consistency of its mapping capability is demonstrated using data acquired at two different times of day. | 翻訳日:2023-02-13 17:15:57 公開日:2023-02-09 |
# 実例によるインコンテキスト学習 In-Context Learning with Many Demonstration Examples ( http://arxiv.org/abs/2302.04931v1 ) ライセンス: Link先を確認 | Mukai Li, Shansan Gong, Jiangtao Feng, Yiheng Xu, Jun Zhang, Zhiyong Wu, Lingpeng Kong | (参考訳) 大規模事前学習言語モデル(PLM)は、コンテキスト内学習能力を有望に示す。
しかし、バックボーントランスフォーマーアーキテクチャのため、既存のplmは、大きなコンテキストサイズまでスケールアップする際のメモリと計算コストによってボトルネックとなり、多くの実証例の命令チューニングとインコンテキスト学習、さらには長期言語モデリングが未検討のままである。
本研究では,効率的なトランス機構に基づく長距離言語モデルEVALMを提案する。
evalmはバッチライン毎に8kトークンでトレーニングされ、最大256kの長さのコンテキストを外挿でテストすることができる。
EVALMに基づいて、命令チューニングとコンテキスト内学習の両方において、サンプルのサイズを効率的にスケールアップし、より注釈付きデータによるメリットの境界を探索する。
多様なタスクに対する実験結果から、EVALMは平均で4.1%高い精度を達成し、タスクに対して最高の精度のスコアを達成する平均期間は約12kであることがわかった。
インコンテキスト学習は,マルチショット・インストラクション・チューニング(8k)の下でより多くの実演を行うことができ,さらに命令の長さ(16k)を延長することで,インコンテキスト学習のスケールアップの上限をさらに向上させることができる。 Large pre-training language models (PLMs) have shown promising in-context learning abilities. However, due to the backbone transformer architecture, existing PLMs are bottlenecked by the memory and computational cost when scaling up to a large context size, leaving instruction tuning and in-context learning of many demonstration examples, as well as long-range language modeling under-explored. In this study, we propose a long-range language model EVALM based on an efficient transformer mechanism. EVALM is trained with 8k tokens per batch line and can test up to 256k-lengthed contexts with extrapolation, 128 times to the limit of existing PLMs (e.g. GPT3). Based on EVALM, we scale up the size of examples efficiently in both instruction tuning and in-context learning to explore the boundary of the benefits from more annotated data. Experimental results on a diverse set of tasks show that EVALM achieves 4.1% higher accuracy on average, and the average length of achieving the best accuracy score over tasks is around 12k. We find that in-context learning can achieve higher performance with more demonstrations under many-shot instruction tuning (8k), and further extending the length of instructions (16k) can further improve the upper bound of scaling in-context learning. | 翻訳日:2023-02-13 17:15:37 公開日:2023-02-09 |
# 情報理論上界に対する情報理論下界 Information Theoretic Lower Bounds for Information Theoretic Upper Bounds ( http://arxiv.org/abs/2302.04925v1 ) ライセンス: Link先を確認 | Roi Livni | (参考訳) 確率的凸最適化の文脈において,出力モデルと経験的サンプル間の相互情報とアルゴリズムの一般化の関係について検討する。
情報理論の一般化バウンダリへの関心が高まっているにもかかわらず、これらのバウンダリが様々な学習アルゴリズムの異常な性能に関する洞察を与えることができるかどうかは不明である。
確率凸最適化の研究により,真のリスク最小化には次元依存的相互情報が必要であることが明らかになった。
このことは、既存の情報理論の一般化境界は、次元に依存しないサンプル複雑性を持つSGDや正規化ERMのようなアルゴリズムの一般化能力の獲得に不足していることを示している。 We examine the relationship between the mutual information between the output model and the empirical sample and the generalization of the algorithm in the context of stochastic convex optimization. Despite increasing interest in information-theoretic generalization bounds, it is uncertain if these bounds can provide insight into the exceptional performance of various learning algorithms. Our study of stochastic convex optimization reveals that, for true risk minimization, dimension-dependent mutual information is necessary. This indicates that existing information-theoretic generalization bounds fall short in capturing the generalization capabilities of algorithms like SGD and regularized ERM, which have dimension-independent sample complexity. | 翻訳日:2023-02-13 17:15:13 公開日:2023-02-09 |
# 量子多体問題の変分ベンチマーク Variational Benchmarks for Quantum Many-Body Problems ( http://arxiv.org/abs/2302.04919v1 ) ライセンス: Link先を確認 | Dian Wu, Riccardo Rossi, Filippo Vicentini, Nikita Astrakhantsev, Federico Becca, Xiaodong Cao, Juan Carrasquilla, Francesco Ferrari, Antoine Georges, Mohamed Hibat-Allah, Masatoshi Imada, Andreas M. L\"auchli, Guglielmo Mazzola, Antonio Mezzacapo, Andrew Millis, Javier Robledo Moreno, Titus Neupert, Yusuke Nomura, Jannes Nys, Olivier Parcollet, Rico Pohle, Imelda Romero, Michael Schmid, J. Maxwell Silvester, Sandro Sorella, Luca F. Tocchio, Lei Wang, Steven R. White, Alexander Wietek, Qi Yang, Yiqi Yang, Shiwei Zhang, Giuseppe Carleo | (参考訳) 物理学と化学における基底状態問題に対する新しい多体アプローチの開発は、その全体的な進歩を評価する一貫した方法を求めている。
ここでは、変動エネルギーとその分散から得られる変分精度の計量であるVスコアを紹介する。
多体量子システムの変分計算の最も広範なデータセットを提供し、最先端の数値的アプローチが精度に乏しい場合を特定し、量子計算のような新しいアルゴリズムや計算プラットフォームが精度を向上させることができる。
v-scoreは、量子変分法が基底状態問題、特に古典的可視性が不可能である場合の量子優位への進歩を評価するための指標として用いられる。 The continued development of novel many-body approaches to ground-state problems in physics and chemistry calls for a consistent way to assess its overall progress. Here we introduce a metric of variational accuracy, the V-score, obtained from the variational energy and its variance. We provide the most extensive curated dataset of variational calculations of many-body quantum systems to date, identifying cases where state-of-the-art numerical approaches show limited accuracy, and novel algorithms or computational platforms, such as quantum computing, could provide improved accuracy. The V-score can be used as a metric to assess the progress of quantum variational methods towards quantum advantage for ground-state problems, especially in regimes where classical verifiability is impossible. | 翻訳日:2023-02-13 17:15:00 公開日:2023-02-09 |
# ChemVise:ゼロショット学習の新しい応用による分布外化学検出の最大化 ChemVise: Maximizing Out-of-Distribution Chemical Detection with the Novel Application of Zero-Shot Learning ( http://arxiv.org/abs/2302.04917v1 ) ライセンス: Link先を確認 | Alexander M. Moore, Randy C. Paffenroth, Ken T. Ngo, Joshua R. Uzarski | (参考訳) 正確な化学センサーは医療、軍、家庭の安全に不可欠である。
実世界の化学センサーデータに基づいて正確な機械学習モデルをトレーニングするには、データセットを作成するために、制御された実験室の設定において、多種多様なコストを要する。
実際には、大規模データセットはトレーニングされたモデルを実世界のテストディストリビューションに一般化するには不十分かもしれない。
本研究は, 化学分析物の徹底的な混合を必要とする実験を多く行うのではなく, 単分析式露光信号を複合解析空間のビルディングブロックとして用いることで, 単分析式の訓練セットから複雑な露光の近似を学習することを提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善する。
さらに,これらの合成信号を,大量の化学知識を生かした情報密度表現空間のターゲットにペアリングする。
意味論的に意味のある分析対象の表現空間と合成対象の活用により, 未知の学習データに該当せず, 高速な分析対象の分類が可能となる。
分子表現を用いた教師付き学習のための転送学習は、入力データについて仮定する。
その代わり、自然言語と自然画像処理の文献を借用し、任意の化学センサハードウェア設計のための分子セマンティクスを用いた化学センサ信号分類の新しいアプローチを提案する。 Accurate chemical sensors are vital in medical, military, and home safety applications. Training machine learning models to be accurate on real world chemical sensor data requires performing many diverse, costly experiments in controlled laboratory settings to create a data set. In practice even expensive, large data sets may be insufficient for generalization of a trained model to a real-world testing distribution. Rather than perform greater numbers of experiments requiring exhaustive mixtures of chemical analytes, this research proposes learning approximations of complex exposures from training sets of simple ones by using single-analyte exposure signals as building blocks of a multiple-analyte space. We demonstrate this approach to synthetic sensor responses surprisingly improves the detection of out-of-distribution obscured chemical analytes. Further, we pair these synthetic signals to targets in an information-dense representation space utilizing a large corpus of chemistry knowledge. Through utilization of a semantically meaningful analyte representation spaces along with synthetic targets we achieve rapid analyte classification in the presence of obscurants without corresponding obscured-analyte training data. Transfer learning for supervised learning with molecular representations makes assumptions about the input data. Instead, we borrow from the natural language and natural image processing literature for a novel approach to chemical sensor signal classification using molecular semantics for arbitrary chemical sensor hardware designs. | 翻訳日:2023-02-13 17:14:47 公開日:2023-02-09 |
# 汎用言語モデルを用いたテキストからの材料データ抽出のためのフレキシブル・モデル非依存手法 Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models ( http://arxiv.org/abs/2302.04914v1 ) ライセンス: Link先を確認 | Maciej P. Polak, Shrey Modi, Anna Latosinska, Jinming Zhang, Ching-Wen Wang, Shanonan Wang, Ayan Deep Hazra, and Dane Morgan | (参考訳) 研究論文から抽出された正確で包括的な材料データベースは材料科学と工学にとって重要であるが、開発にはかなりの人的努力を要する。
本稿では,小型データベースを迅速に開発するための研究論文の全文から資料データを抽出する簡易な方法を提案する。
この方法は、最小限のコーディング、抽出されたプロパティに関する事前知識、モデルトレーニングを必要とし、結果データベースに高いリコールとほぼ完全な精度を提供する。
この方法は完全に自動化されているが、人間の助けを必要とするステップは1つしかない。
この手法は自然言語処理と大規模汎用言語モデルの上に構築されるが、ほとんどどんなモデルでも動作可能である。
言語モデルgpt-3/3.5, bart, debertav3の比較を行った。
本研究では, バルク弾性率データを抽出する手法の詳細な解析を行い, 作業量に応じて, 96%のリコールで最大90%の精度が得られることを示した。
次に, 金属ガラスの臨界冷却速度データベースを開発することにより, 幅広い有効性を示す。 Accurate and comprehensive material databases extracted from research papers are critical for materials science and engineering but require significant human effort to develop. In this paper we present a simple method of extracting materials data from full texts of research papers suitable for quickly developing modest-sized databases. The method requires minimal to no coding, prior knowledge about the extracted property, or model training, and provides high recall and almost perfect precision in the resultant database. The method is fully automated except for one human-assisted step, which typically requires just a few hours of human labor. The method builds on top of natural language processing and large general language models but can work with almost any such model. The language models GPT-3/3.5, bart and DeBERTaV3 are evaluated here for comparison. We provide a detailed detailed analysis of the methods performance in extracting bulk modulus data, obtaining up to 90% precision at 96% recall, depending on the amount of human effort involved. We then demonstrate the methods broader effectiveness by developing a database of critical cooling rates for metallic glasses. | 翻訳日:2023-02-13 17:14:29 公開日:2023-02-09 |
# 原子配列を用いた量子インタフェースの普遍的アプローチ Universal approach for quantum interfaces with atomic arrays ( http://arxiv.org/abs/2302.04913v1 ) ライセンス: Link先を確認 | Yakov Solomons, Roni Ben-Maimon, and Ephraim Shahmoon | (参考訳) 我々は,原子線プラットフォームを光物質界面として評価するための一般的なアプローチを開発し,量子メモリとフォトニックエンタングルメント生成への応用に焦点をあてる。
我々のアプローチは、原子アレイ問題から集合双極子と相互作用する1次元光モデルへのマッピングに基づいている。
量子記憶と絡み合いを決定する光マッターカップリングの効率は、1次元散乱問題のオン共鳴反射率 $r_0=c/(1+c)$ によって与えられる。
自由空間における2次元および3次元原子配列に対しては、マッピングパラメータ$C$と$r_0$を導出するとともに、アレイの有限サイズや照明ビーム、原子位置の弱障害といった現実的な効果を考慮に入れている。
量子タスクの効率は、古典的な反射率計算へのアプローチによって低下する。
これは、光学格子やツイーザーアレイなど、様々な関連プラットフォームにおける集合光物質結合の解析のための統一的なフレームワークを提供する。
配列以外の集団システムへの一般化について論じる。 We develop a general approach for the characterization of atom-array platforms as light-matter interfaces, focusing on their application in quantum memory and photonic entanglement generation. Our approach is based on the mapping of atom-array problems to a generic 1D model of light interacting with a collective dipole. We find that the efficiency of light-matter coupling, which in turn determines those of quantum memory and entanglement, is given by the on-resonance reflectivity of the 1D scattering problem, $r_0=C/(1+C)$, where $C$ is a cooperativity parameter of the model. For 2D and 3D atomic arrays in free space, we derive the mapping parameter $C$ and hence $r_0$, while accounting for realistic effects such as the finite sizes of the array and illuminating beam and weak disorder in atomic positions. Our analytical results are verified numerically and reveal a key idea: efficiencies of quantum tasks are reduced by our approach to the classical calculation of a reflectivity. This provides a unified framework for the analysis of collective light-matter coupling in various relevant platforms such as optical lattices and tweezer arrays. Generalization to collective systems beyond arrays is discussed. | 翻訳日:2023-02-13 17:14:11 公開日:2023-02-09 |
# 超解像はコヒーレンスに絡み合う Superresolution picks entanglement over coherence ( http://arxiv.org/abs/2302.04909v1 ) ライセンス: Link先を確認 | Abdelali Sajia, and X.-F. Qian | (参考訳) 光の基本波特性は、空間的に分離された2つの点源の超解像の実現に重要な役割を果たしている。
実用光伝搬における必然的特徴である(部分的)コヒーレンスが測定精度に有害であることから、超解像の防止が示されている。
本稿では,超解像の質に及ぼす別の基本特徴である絡み合いの影響を定量的に検討し,コヒーレンスと比較する。
単パラメータ推定と2パラメータ推定の両方を詳細に分析する。
驚くべきことに、コヒーレンスとは対照的に、(フィッシャー情報の観点から)超分解能測定精度は、絡み合いの量が増加するにつれて向上できる。
より重要なことに、我々の分析では、非ゼロの絡み合いは常にフィッシャー情報の非破壊を保証している。
したがって、コヒーレンスは望ましくないが、エンタングルメントは超解像に好都合な特徴である。 Fundamental wave features of light play an important role in the realization of superresolution for two spatially separated point sources. It has been shown that (partial) coherence, which is an inevitable feature in practical light propagation, is harmful to measurement precision thus preventing superresolution. Here we study the quantitative effect of another fundamental feature, entanglement, on the quality of superresolution and compare it with that of coherence. Both single- and two-parameter estimations are analyzed in detail. Surprisingly, contrary to coherence, it is found that superresolution measurement precision (in terms of Fisher Information) can be enhanced as the amount of entanglement increases. More importantly, our analysis shows that non-zero entanglement always guarantees the non-vanishing of Fisher Information. Thus, while coherence is unwanted, entanglement is a favorable feature for superresolution. | 翻訳日:2023-02-13 17:13:51 公開日:2023-02-09 |
# Smooth Nonconvex ERMの微分プライベート最適化 Differentially Private Optimization for Smooth Nonconvex ERM ( http://arxiv.org/abs/2302.04972v1 ) ライセンス: Link先を確認 | Changyu Gao and Stephen J. Wright | (参考訳) 非凸ERMの近似二階解を求めるために、(予測)降下方向に沿って移動する単純な微分プライベート最適化アルゴリズムを開発した。
このアルゴリズムの速度と実用性を改善するために,線探索,ミニバッチ,二相戦略を用いる。
数値実験はこれらの手法の有効性を示す。 We develop simple differentially private optimization algorithms that move along directions of (expected) descent to find an approximate second-order solution for nonconvex ERM. We use line search, mini-batching, and a two-phase strategy to improve the speed and practicality of the algorithm. Numerical experiments demonstrate the effectiveness of these approaches. | 翻訳日:2023-02-13 17:07:08 公開日:2023-02-09 |
# Aggregated Iterative Differentiationによる通信効率の良いフェデレーション過次計算 Communication-Efficient Federated Hypergradient Computation via Aggregated Iterative Differentiation ( http://arxiv.org/abs/2302.04969v1 ) ライセンス: Link先を確認 | Peiyao Xiao and Kaiyi Ji | (参考訳) フェデレーションバイレベル最適化は、新たな機械学習と通信アプリケーションによって、注目を集めている。
最大の課題は、一連の大域的なヘッセン行列の非線形かつ分散構成により、フェデレーション設定における上層目標関数(すなわち超勾配)の勾配を計算することである。
本稿では,aggitd(aggregated iterative differentiation)を用いた,通信効率の高い連関型重回帰推定器を提案する。
aggitdは実装が簡単で、連合超勾配推定と低レベルの最適化を同時に行うことで通信コストを大幅に削減できる。
提案したAggITDに基づくアルゴリズムは,データヘテロジニティの存在下での通信ラウンドがはるかに少ない,既存の近似的暗黙差分法(AID)ベースのアプローチと同一のサンプル複雑性を実現する。
以上の結果から,連合型/分散型高次推定法において,itdによる支援よりも大きな利点が浮かび上がってきた。
これは、ITDがAIDよりも効率が低い非分散二段階最適化の比較とは異なる。
提案手法の有効性と通信効率の実証実験を行った。 Federated bilevel optimization has attracted increasing attention due to emerging machine learning and communication applications. The biggest challenge lies in computing the gradient of the upper-level objective function (i.e., hypergradient) in the federated setting due to the nonlinear and distributed construction of a series of global Hessian matrices. In this paper, we propose a novel communication-efficient federated hypergradient estimator via aggregated iterative differentiation (AggITD). AggITD is simple to implement and significantly reduces the communication cost by conducting the federated hypergradient estimation and the lower-level optimization simultaneously. We show that the proposed AggITD-based algorithm achieves the same sample complexity as existing approximate implicit differentiation (AID)-based approaches with much fewer communication rounds in the presence of data heterogeneity. Our results also shed light on the great advantage of ITD over AID in the federated/distributed hypergradient estimation. This differs from the comparison in the non-distributed bilevel optimization, where ITD is less efficient than AID. Our extensive experiments demonstrate the great effectiveness and communication efficiency of the proposed method. | 翻訳日:2023-02-13 17:07:02 公開日:2023-02-09 |
# qaoa収束の基礎的証明 Elementary Proof of QAOA Convergence ( http://arxiv.org/abs/2302.04968v1 ) ライセンス: Link先を確認 | Lennart Binkowski, Gereon Ko{\ss}mann, Timo Ziegler, Ren\'e Schwonnek | (参考訳) Quantum Alternating Operator Ansatz (QAOA)とそれ以前のQuantum Approximate Optimization Algorithmは、組合せ最適化問題を解決するために最も広く使われている量子アルゴリズムの1つである。
しかし、QAOA に対する厳密な収束の証明がまだ存在しないため、本論文ではそれについて述べる。
この証明は量子アディバティックアルゴリズムとQAOAの接続を遡り、自然に 'phase separator' と 'mixer' キーワードの洗練された定義を示唆している。 The Quantum Alternating Operator Ansatz (QAOA) and its predecessor, the Quantum Approximate Optimization Algorithm, are one of the most widely used quantum algorithms for solving combinatorial optimization problems. However, as there is yet no rigorous proof of convergence for the QAOA, we provide one in this paper. The proof involves retracing the connection between the Quantum Adiabatic Algorithm and the QAOA, and naturally suggests a refined definition of the `phase separator' and `mixer' keywords. | 翻訳日:2023-02-13 17:06:46 公開日:2023-02-09 |
# スピン光学用半導体オンダイアモンドキャビティ Semiconductor-on-diamond cavities for spin optomechanics ( http://arxiv.org/abs/2302.04967v1 ) ライセンス: Link先を確認 | Xinyuan Ma, Prasoon K. Shandilya, and Paul E. Barclay | (参考訳) オプトメカニカルキャビティは、光学的および機械的共鳴を共局在化するナノフォトニック構造を用いて実現できる古典的および量子的情報処理のための強力なツールである。
通常、フォノニック局在は機械エネルギーの垂直漏洩を禁止する浮遊装置を必要とする。
これをダイヤモンドのような有望な量子フォトニック材料で達成するには、他のコンポーネントとの統合を妨げ、加熱関連の課題を悪化させながら、非標準ナノファブリケーション技術が必要である。
代替として,フォトニックモードとフォノニックモードを同時にローカライズする半導体・オン・ダイアモンドプラットフォームを開発した。
我々は,高視機械的カップリングと低散逸を併用した光力学的結晶キャビティを設計し,このプラットフォームがダイヤモンド基板内の量子ビットを回転させることを可能にすることを示す。
これらの特性は、スピン、フォノン、光子相互作用に基づく量子情報処理デバイスを実現するためのこのプラットフォームの将来性を示している。 Optomechanical cavities are powerful tools for classical and quantum information processing that can be realized using nanophotonic structures that co-localize optical and mechanical resonances. Typically, phononic localization requires suspended devices that forbid vertical leakage of mechanical energy. Achieving this in some promising quantum photonic materials such as diamond requires non-standard nanofabrication techniques, while hindering integration with other components and exacerbating heating related challenges. As an alternative, we have developed a semiconductor-on-diamond platform that co-localizes phononic and photonic modes without requiring undercutting. We have designed an optomechanical crystal cavity that combines high optomechanical coupling with low dissipation, and we show that this platform will enable optomechanical coupling to spin qubits in the diamond substrate. These properties demonstrate the promise of this platform for realizing quantum information processing devices based on spin, phonon, and photon interactions. | 翻訳日:2023-02-13 17:06:37 公開日:2023-02-09 |
# 二次記憶は凸最適化における最適クエリ複雑度に必要な:中心はパレート最適 Quadratic Memory is Necessary for Optimal Query Complexity in Convex Optimization: Center-of-Mass is Pareto-Optimal ( http://arxiv.org/abs/2302.04963v1 ) ライセンス: Link先を確認 | Mo\"ise Blanchard, Junhui Zhang and Patrick Jaillet | (参考訳) 我々は、凸最適化と関連する実現可能性問題に対するクエリ複雑性の低い境界を与える。
一階の凸最適化に最適なオラクルの複雑さを達成するには二次記憶が必要であることを示す。
特にこれは、$\tilde o(d^2)$メモリと$\tilde o(d)$クエリを使用する次元$d$のマスカットプレーンズアルゴリズムが、対数因子による凸最適化と実現可能性問題の両方に対してパレート最適であることを示している。
正確には、単位球上の1ドルのリプシッツ凸関数を1/d^4$精度に最小化するためには、最大$d^{2-\delta}$ビットのメモリを使用する決定論的一階アルゴリズムは、任意の$\delta\in[0,1]$に対して$\tilde\omega(d^{1+\delta/3})$クエリを行なわなければならない。
アルゴリズムが分離オラクルにしかアクセスできない実現可能性問題に対して、我々はより強いトレードオフを示す:少なくとも$d^{2-\delta}$メモリの場合、要求されるクエリの数は$\tilde\Omega(d^{1+\delta})$である。
これにより、woodworth と srebro の colt 2019 open problem が解決される。 We give query complexity lower bounds for convex optimization and the related feasibility problem. We show that quadratic memory is necessary to achieve the optimal oracle complexity for first-order convex optimization. In particular, this shows that center-of-mass cutting-planes algorithms in dimension $d$ which use $\tilde O(d^2)$ memory and $\tilde O(d)$ queries are Pareto-optimal for both convex optimization and the feasibility problem, up to logarithmic factors. Precisely, we prove that to minimize $1$-Lipschitz convex functions over the unit ball to $1/d^4$ accuracy, any deterministic first-order algorithms using at most $d^{2-\delta}$ bits of memory must make $\tilde\Omega(d^{1+\delta/3})$ queries, for any $\delta\in[0,1]$. For the feasibility problem, in which an algorithm only has access to a separation oracle, we show a stronger trade-off: for at most $d^{2-\delta}$ memory, the number of queries required is $\tilde\Omega(d^{1+\delta})$. This resolves a COLT 2019 open problem of Woodworth and Srebro. | 翻訳日:2023-02-13 17:06:20 公開日:2023-02-09 |
# ハイパーネットワークは音の暗黙的な神経表現を構築する Hypernetworks build Implicit Neural Representations of Sounds ( http://arxiv.org/abs/2302.04959v1 ) ライセンス: Link先を確認 | Filip Szatkowski, Karol J. Piczak, Przemts{\l}aw Spurek, Jacek Tabor, Tomasz Trzci\'nski | (参考訳) Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。
inrを利用する既存の手法は主に視覚データに焦点を当てており、画像ベースのinrモデルのアーキテクチャ属性に存在する帰納的バイアスのため、オーディオなどの他のモダリティへの応用は非自明である。
この制限に対処するために,ハイパーネットワークを活用したオーディオサンプルのためのINRを生成する最初のメタ学習手法であるHyperSoundを紹介した。
本手法は他の最先端モデルに匹敵する品質でオーディオサンプルを再構成し、スペクトログラムなどの深層ニューラルネットワークで使用される現代音声表現の代替手段を提供する。 Implicit Neural Representations (INRs) are nowadays used to represent multimedia signals across various real-life applications, including image super-resolution, image compression, or 3D rendering. Existing methods that leverage INRs are predominantly focused on visual data, as their application to other modalities, such as audio, is nontrivial due to the inductive biases present in architectural attributes of image-based INR models. To address this limitation, we introduce HyperSound, the first meta-learning approach to produce INRs for audio samples that leverages hypernetworks to generalize beyond samples observed in training. Our approach reconstructs audio samples with quality comparable to other state-of-the-art models and provides a viable alternative to contemporary sound representations used in deep neural networks for audio processing, such as spectrograms. | 翻訳日:2023-02-13 17:05:52 公開日:2023-02-09 |
# QBismはQなしで存在するか?
一般化確率論におけるモルフォリック測度 Can QBism exist without Q? Morphophoric measurements in generalised probabilistic theories ( http://arxiv.org/abs/2302.04957v1 ) ライセンス: Link先を確認 | Anna Szymusiak, Wojciech S{\l}omczy\'nski | (参考訳) 一般化確率論(GPT)では、幾らかの余分な幾何学的構造を付加して、測定結果の分布に変換する状態が類似しているものとして、形態素の測定を定義する。
量子の場合、モルフォリック測度は、2-Design POVMの概念、特にSIC-POVMの概念を一般化する。
この種類の測定に基づいて構築された理論は、量子力学の基礎となるqbismアプローチの主な特徴を保っている。
特に、SIC-POVM向けに設計されたQBismの原始方程式(Urgleichung')を、GPTのモルフォリックケースにどのように拡張するかを示す。
後者の設定では、この方程式はより対称な形式を取るが、その中に現れる全ての量は、元の「ウルグライヒング」のように、確率的かつ操作的用語で解釈することができる。 In a Generalised Probabilistic Theory (GPT) equipped additionally with some extra geometric structure we define the morphophoric measurements as those for which the measurement map transforming states into distributions of the measurement results is a similarity. In the quantum case, morphophoric measurements generalise the notion of a 2-design POVM, thus in particular that of a SIC-POVM. We show that the theory built on this class of measurements retains the chief features of the QBism approach to the basis of quantum mechanics. In particular, we demonstrate how to extend the primal equation (`Urgleichung') of QBism, designed for SIC-POVMs, to the morphophoric case of GPTs. In the latter setting, the equation takes a different, albeit more symmetric, form, but all the quantities that appear in it can be interpreted in probabilistic and operational terms, as in the original `Urgleichung'. | 翻訳日:2023-02-13 17:05:36 公開日:2023-02-09 |
# 熱機械結合系と異種領域に対する物理不定形ニューラルネットワークの混合定式化 Mixed formulation of physics-informed neural networks for thermo-mechanically coupled systems and heterogeneous domains ( http://arxiv.org/abs/2302.04954v1 ) ライセンス: Link先を確認 | Ali Harandi, Ahmad Moeineddin, Michael Kaliske, Stefanie Reese, Shahed Rezaei | (参考訳) 深層学習法は、制御方程式、境界条件、初期条件に基づいてニューラルネットワークの損失関数を定義することで境界値問題の解を見つける。
さらに、多くの工学的問題に関して、一階微分に基づく損失関数を設計すると、特に領域 \cite{REZAEI2022PINN} に不均一性と変数ジャンプが存在する場合、はるかに精度が向上することを示した。
PINNの混合定式化は線形運動量と拡散問題のバランスのような基本的な工学的問題に適用される。
本研究では,多物理問題を解くために混合定式化法をさらに拡張する。
特に, 熱力学的に結合した定常方程式系に着目し, 先端材料の微細構造設計に利用することができる。
第1に,教師なし学習の逐次化,第2に教師なし学習の完全結合について述べる。
各アプローチの結果は、精度と対応する計算コストの観点から比較される。
最後に、転送学習の考え方は、ネットワークの能力に対処するためにデータと物理を組み合わせることで、見えないケースに対するシステムの応答を予測する。
この研究の成果は、dlが複数の連成方程式系で使われる他の多くの工学アプリケーションにとって有用である。 Deep learning methods find a solution to a boundary value problem by defining loss functions of neural networks based on governing equations, boundary conditions, and initial conditions. Furthermore, the authors show that when it comes to many engineering problems, designing the loss functions based on first-order derivatives results in much better accuracy, especially when there is heterogeneity and variable jumps in the domain \cite{REZAEI2022PINN}. The so-called mixed formulation for PINN is applied to basic engineering problems such as the balance of linear momentum and diffusion problems. In this work, the proposed mixed formulation is further extended to solve multi-physical problems. In particular, we focus on a stationary thermo-mechanically coupled system of equations that can be utilized in designing the microstructure of advanced materials. First, sequential unsupervised training, and second, fully coupled unsupervised learning are discussed. The results of each approach are compared in terms of accuracy and corresponding computational cost. Finally, the idea of transfer learning is employed by combining data and physics to address the capability of the network to predict the response of the system for unseen cases. The outcome of this work will be useful for many other engineering applications where DL is employed on multiple coupled systems of equations. | 翻訳日:2023-02-13 17:05:19 公開日:2023-02-09 |
# Monge Gap:すべての交通地図を学習するための正規化ツール The Monge Gap: A Regularizer to Learn All Transport Maps ( http://arxiv.org/abs/2302.04953v1 ) ライセンス: Link先を確認 | Th\'eo Uscidda, Marco Cuturi | (参考訳) 最適輸送(OT)理論は、確率測度を他へ効率的にプッシュフォワードできる地図の研究と特徴付けに機械学習で使用されている。
最近の研究はブレニエの定理から着想を得ており、この定理は、地価が二乗ユークリッド距離であるとき、 '`best'' の写像が $\mathcal{P}(\Rd)$ の連続測度をもう1つの凸函数の勾配でなければならないというものである。
この結果を活用するために、[Makkuva+2020, Korotin+2020]は、Amos+2017が定義した入力凸ニューラルネットワーク(ICNN)である$T=\nabla f_\theta$とサンプルを使用してSGDに適合する$T=\nabla f_\theta$を検討している。
数学的なエレガンスにもかかわらず、OTマップをICNNに適合させることは、$\theta$に課される多くの制約、$f_\theta$の共役を近似する必要性、または正方形ユークリッドコストにのみ作用する制限など、多くの問題を引き起こす。
より一般に、サンプルに適合する候補マップのアーキテクチャを制約するために、密度のみに適用されるbrenierの結果を使うことの関連性を疑問視する。
コスト $c$ と参照測度 $\rho$ を与えられたとき、正規化子である monge gap $\mathcal{m}^c_{\rho}(t)$ の写像 $t$ を導入する。
このギャップは、$T$ が $c$-OT マップから期待する理想的な性質からどれだけ離れるかを定量化する。
実際には、$T$のアーキテクチャ要件をすべて廃止し、$T\sharp\mu$ と $\nu$ の間の距離(例えば Sinkhorn の発散)を $\mathcal{M}^c_\rho(T)$ で正規化する。
我々は$\mathcal{m}^c_{\rho}$を研究し、我々の単純なパイプラインが実際の他のベースラインをかなり上回っていることを示す。 Optimal transport (OT) theory has been been used in machine learning to study and characterize maps that can push-forward efficiently a probability measure onto another. Recent works have drawn inspiration from Brenier's theorem, which states that when the ground cost is the squared-Euclidean distance, the ``best'' map to morph a continuous measure in $\mathcal{P}(\Rd)$ into another must be the gradient of a convex function. To exploit that result, [Makkuva+ 2020, Korotin+2020] consider maps $T=\nabla f_\theta$, where $f_\theta$ is an input convex neural network (ICNN), as defined by Amos+2017, and fit $\theta$ with SGD using samples. Despite their mathematical elegance, fitting OT maps with ICNNs raises many challenges, due notably to the many constraints imposed on $\theta$; the need to approximate the conjugate of $f_\theta$; or the limitation that they only work for the squared-Euclidean cost. More generally, we question the relevance of using Brenier's result, which only applies to densities, to constrain the architecture of candidate maps fitted on samples. Motivated by these limitations, we propose a radically different approach to estimating OT maps: Given a cost $c$ and a reference measure $\rho$, we introduce a regularizer, the Monge gap $\mathcal{M}^c_{\rho}(T)$ of a map $T$. That gap quantifies how far a map $T$ deviates from the ideal properties we expect from a $c$-OT map. In practice, we drop all architecture requirements for $T$ and simply minimize a distance (e.g., the Sinkhorn divergence) between $T\sharp\mu$ and $\nu$, regularized by $\mathcal{M}^c_\rho(T)$. We study $\mathcal{M}^c_{\rho}$, and show how our simple pipeline outperforms significantly other baselines in practice. | 翻訳日:2023-02-13 17:04:59 公開日:2023-02-09 |
# ガウス過程による専門家の階層的混合 Gaussian Process-Gated Hierarchical Mixtures of Experts ( http://arxiv.org/abs/2302.04947v1 ) ライセンス: Link先を確認 | Yuhao Liu, Marzieh Ajirak, Petar Djuric | (参考訳) 本稿では,ゲートとエキスパートを構築するために使用される,ガウスのプロセス付き階層型専門家混合(GPHME)を提案する。
ゲーティングモデルが入力に線形である他の専門家の混合とは異なり、我々のモデルのゲーティング関数は、非線形で非パラメトリックなランダムな特徴に基づいてガウス過程で構築された内部ノードである。
さらに、専門家はガウスプロセスで構築され、テストデータに依存する予測を提供する。
GPHMEの最適化は変分推論によって行われる。
GPHMEにはいくつかの利点がある。
1つは、入力空間でデータを分割するツリーベースのhmeベンチマークよりも優れています。
もうひとつの利点は、複雑さを減らすことで優れたパフォーマンスを実現することです。
GPHMEの3つ目の利点は、深いガウス過程とより一般的に深いベイズニューラルネットワークの解釈可能性を提供することである。
我々のGPHMEは、非常に控えめなサイズであっても、大規模データセットに対して優れた性能を示す。 In this paper, we propose novel Gaussian process-gated hierarchical mixtures of experts (GPHMEs) that are used for building gates and experts. Unlike in other mixtures of experts where the gating models are linear to the input, the gating functions of our model are inner nodes built with Gaussian processes based on random features that are non-linear and non-parametric. Further, the experts are also built with Gaussian processes and provide predictions that depend on test data. The optimization of the GPHMEs is carried out by variational inference. There are several advantages of the proposed GPHMEs. One is that they outperform tree-based HME benchmarks that partition the data in the input space. Another advantage is that they achieve good performance with reduced complexity. A third advantage of the GPHMEs is that they provide interpretability of deep Gaussian processes and more generally of deep Bayesian neural networks. Our GPHMEs demonstrate excellent performance for large-scale data sets even with quite modest sizes. | 翻訳日:2023-02-13 17:04:11 公開日:2023-02-09 |
# AutoNMT:Seq2Seqモデルの研究を合理化するフレームワーク AutoNMT: A Framework to Streamline the Research of Seq2Seq Models ( http://arxiv.org/abs/2302.04981v1 ) ライセンス: Link先を確認 | Salvador Carri\'on, Francisco Casacuberta | (参考訳) 本稿では,データパイプラインの自動化(ファイル管理,データ前処理,探索解析など),ツールキットに依存しない実験の自動化,FairseqやOpenNMTなどの既存のSeq-to-seqツールキットの使用,レポート生成の自動化などにより,セック-to-seqモデルの研究を効率化するフレームワークであるAutoNMTを提案する。
さらに、このライブラリにはSeq-to-seqツールキットが付属しており、ユーザーは非標準タスクを簡単にカスタマイズできる。 We present AutoNMT, a framework to streamline the research of seq-to-seq models by automating the data pipeline (i.e., file management, data preprocessing, and exploratory analysis), automating experimentation in a toolkit-agnostic manner, which allows users to use either their own models or existing seq-to-seq toolkits such as Fairseq or OpenNMT, and finally, automating the report generation (plots and summaries). Furthermore, this library comes with its own seq-to-seq toolkit so that users can easily customize it for non-standard tasks. | 翻訳日:2023-02-13 16:56:38 公開日:2023-02-09 |
# ハイパーパラメーター検索は、トレーニング非依存のバックドアロバストネスに必要なもの Hyperparameter Search Is All You Need For Training-Agnostic Backdoor Robustness ( http://arxiv.org/abs/2302.04977v1 ) ライセンス: Link先を確認 | Eugene Bagdasaryan and Vitaly Shmatikov | (参考訳) 機械学習(ML)技術のコモディティ化と広範な採用は、これらの技術のユーザを新たなセキュリティリスクにさらしている。
現在、多くのモデルはニューラルネットワークに基づいている。
これらのモデルを実世界のアプリケーション向けにトレーニングし、デプロイするには、多くのソースからのデータトレーニングに適用される複雑なハードウェアとソフトウェアパイプラインが必要となる。
信頼できないデータでトレーニングされたモデルは、"バックドア"機能を導入する中毒攻撃に対して脆弱である。
トレーニングデータのごく一部をコンパイルするには、攻撃者からのリソースがほとんど必要ないが、これらの攻撃に対する防御は難しい。
研究文献には数十の防衛策が提案されているが、そのほとんどは既存の訓練パイプラインとの統合や非互換が高価である。
本稿では,実践者が2つの行動可能な質問にどのように答えることができるかを,実践的かつ開発者中心の視点で示す。
トレーニングパイプラインを変更することなく、それをより堅牢にするにはどうすればよいのでしょう?
私たちは、トレーニングデータの漏洩したサブセットのサイズを普遍的なメトリックとして重視する。
そこで我々は,この指標を推定するために,容易に学習できるプリミティブ・サブタスクを提案し,バックドア中毒のベースラインを提供する。
次に、ML開発者がすでに広く使用しているハイパーパラメータ検索を活用して、トレーニングパイプラインを変更することなく、モデルの正確性とロバスト性のバランスをとる方法を示す。
我々は、モデルによるバックドア攻撃のロバスト性を評価するために、メトリクスを使用する方法を示します。
そこで我々は,モデル精度にわずかな影響を与えるだけで頑健性を3~5倍強化するマルチステージハイパーパラメータ探索法(mithridates)の設計,実装,評価を行った。
提案手法によって検出されるハイパーパラメータは,複数種類のバックドア攻撃に対するロバスト性を高め,その手法をAutoMLやフェデレート学習に拡張することを示す。 Commoditization and broad adoption of machine learning (ML) technologies expose users of these technologies to new security risks. Many models today are based on neural networks. Training and deploying these models for real-world applications involves complex hardware and software pipelines applied to training data from many sources. Models trained on untrusted data are vulnerable to poisoning attacks that introduce "backdoor" functionality. Compromising a fraction of the training data requires few resources from the attacker, but defending against these attacks is a challenge. Although there have been dozens of defenses proposed in the research literature, most of them are expensive to integrate or incompatible with the existing training pipelines. In this paper, we take a pragmatic, developer-centric view and show how practitioners can answer two actionable questions: (1) how robust is my model to backdoor poisoning attacks?, and (2) how can I make it more robust without changing the training pipeline? We focus on the size of the compromised subset of the training data as a universal metric. We propose an easy-to-learn primitive sub-task to estimate this metric, thus providing a baseline on backdoor poisoning. Next, we show how to leverage hyperparameter search - a tool that ML developers already extensively use - to balance the model's accuracy and robustness to poisoning, without changes to the training pipeline. We demonstrate how to use our metric to estimate the robustness of models to backdoor attacks. We then design, implement, and evaluate a multi-stage hyperparameter search method we call Mithridates that strengthens robustness by 3-5x with only a slight impact on the model's accuracy. We show that the hyperparameters found by our method increase robustness against multiple types of backdoor attacks and extend our method to AutoML and federated learning. | 翻訳日:2023-02-13 16:56:24 公開日:2023-02-09 |
# 書き起こし制限付き自動音声認識システムの開発に補足的テキストデータを活用する Leveraging supplementary text data to kick-start automatic speech recognition system development with limited transcriptions ( http://arxiv.org/abs/2302.04975v1 ) ライセンス: Link先を確認 | Nay San, Martijn Bartelds, Blaine Billings, Ella de Falco, Hendi Feriza, Johan Safri, Wawan Sahrozi, Ben Foley, Bradley McDonnell, Dan Jurafsky | (参考訳) 事前訓練されたトランスフォーマーモデルを用いた最近の研究は、書き起こされた音声の10分だけで、そのような自動音声認識(ASR)のモデルを微調整できるかもしれないことを示唆している。
しかし、その大量のテキストデータは必要か?
我々は,asrのデコードに可能な単語(例えば *dogz 対 犬)を制約するレキシコンの作成と,システムを確率的な単語シーケンス(例: too dog 対 2 dog)に偏る大きな言語モデルのトレーニングの両方において,異なる量のテキストデータの使用について検討した。
我々は、英語から10分間の書き起こし音声(先行作業の複製のために)と補足テキストデータ(GroningsとFrisian(-7.5Mトークンコーパスが利用可能)とBesemahとNasal(小さなレキシカのみが利用可能)の可用性が異なる2つの追加言語を用いて実験を行う。
すべての言語に対して,レキシコンのみを用いることで,ASRの性能は向上しなかった。
Gronings と Frisian の場合,'novel-length' 80k トークンサブコーパスから派生した語彙モデルと言語モデルにより,単語誤り率 (WER) が平均で39%に減少した。
以上の結果から,数万以上のトークンにテキストコーパスが組み込まれている場合,数分間の音声の書き起こしのみを微調整することで,30%のWER規則近傍で人間の修正可能な転写を得ることが可能となる。 Recent research using pre-trained transformer models suggests that just 10 minutes of transcribed speech may be enough to fine-tune such a model for automatic speech recognition (ASR) -- at least if we can also leverage vast amounts of text data (803 million tokens). But is that much text data necessary? We study the use of different amounts of text data, both for creating a lexicon that constrains ASR decoding to possible words (e.g. *dogz vs. dogs), and for training larger language models that bias the system toward probable word sequences (e.g. too dogs vs. two dogs). We perform experiments using 10 minutes of transcribed speech from English (for replicating prior work) and two additional pairs of languages differing in the availability of supplemental text data: Gronings and Frisian (~7.5M token corpora available), and Besemah and Nasal (only small lexica available). For all languages, we found that using only a lexicon did not appreciably improve ASR performance. For Gronings and Frisian, we found that lexica and language models derived from 'novel-length' 80k token subcorpora reduced the word error rate (WER) to 39% on average. Our findings suggest that where a text corpus in the upper tens of thousands of tokens or more is available, fine-tuning a transformer model with just tens of minutes of transcribed speech holds some promise towards obtaining human-correctable transcriptions near the 30% WER rule-of-thumb. | 翻訳日:2023-02-13 16:55:57 公開日:2023-02-09 |
# 不変スロット注意:スロット中心参照フレームによるオブジェクト発見 Invariant Slot Attention: Object Discovery with Slot-Centric Reference Frames ( http://arxiv.org/abs/2302.04973v1 ) ライセンス: Link先を確認 | Ondrej Biza, Sjoerd van Steenkiste, Mehdi S. M. Sajjadi, Gamaleldin F. Elsayed, Aravindh Mahendran and Thomas Kipf | (参考訳) 生の知覚データから構成可能な抽象化を自動的に発見することは、機械学習における長年の課題である。
自己監督的な方法でオブジェクトを学習する最近のスロットベースのニューラルネットワークは、この方向にエキサイティングな進歩を遂げている。
しかし、一般的には、視覚の世界に存在する空間対称性を適切に捉えられないため、オブジェクトの外観やポーズを絡めるようなサンプルの非効率性が生じる。
本稿では,スロット中心参照フレームによる空間対称性を組み込んだ簡易かつ高効率な手法を提案する。
対象毎のポーズ変換に対する等価性を,変換,スケーリング,回転位置符号化によるスロットアテンションの注意と生成機構に組み込む。
これらの変更は計算オーバーヘッドが少なく、実装が容易であり、データ効率とオブジェクト発見の全体的な改善の観点から大きな利益をもたらす可能性がある。
提案手法は,CLEVR,Tetrominoes,CLEVRTex,Objects Room,MultiShapeNetといった多種多様な合成オブジェクト探索ベンチマークを用いて評価し,現実のWaymo Openデータセットに有望な改善を示す。 Automatically discovering composable abstractions from raw perceptual data is a long-standing challenge in machine learning. Recent slot-based neural networks that learn about objects in a self-supervised manner have made exciting progress in this direction. However, they typically fall short at adequately capturing spatial symmetries present in the visual world, which leads to sample inefficiency, such as when entangling object appearance and pose. In this paper, we present a simple yet highly effective method for incorporating spatial symmetries via slot-centric reference frames. We incorporate equivariance to per-object pose transformations into the attention and generation mechanism of Slot Attention by translating, scaling, and rotating position encodings. These changes result in little computational overhead, are easy to implement, and can result in large gains in terms of data efficiency and overall improvements to object discovery. We evaluate our method on a wide range of synthetic object discovery benchmarks namely CLEVR, Tetrominoes, CLEVRTex, Objects Room and MultiShapeNet, and show promising improvements on the challenging real-world Waymo Open dataset. | 翻訳日:2023-02-13 16:55:25 公開日:2023-02-09 |
# 資源利用予測によるエッジのインテリジェントなアクティブなフォールトトレランス Intelligent Proactive Fault Tolerance at the Edge through Resource Usage Prediction ( http://arxiv.org/abs/2302.05336v1 ) ライセンス: Link先を確認 | Theodoros Theodoropoulos, John Violos, Stylianos Tsanakas, Aris Leivadeas, Konstantinos Tserpes, Theodora Varvarigou | (参考訳) 要求されるアプリケーションとエッジコンピューティングの急増は、基盤となるコンピューティングインフラストラクチャの効率的な管理の必要性を確立し、プロバイダに運用方法を再考するよう促す。
本稿では,リカレントニューラルネットワーク(recurrent neural networks, rnn)によるエッジリソース利用予測を活用したipft(intelligent proactive fault tolerance)手法を提案する。
具体的には、処理能力の欠如により許容可能な範囲でQuality of Service(QoS)を提供するインフラストラクチャの欠如に関連するプロセスフォールトに注目します。
この課題に取り組むために,エッジノードのリソース使用率を予測し,アクティブノードレプリケーションとタスクマイグレーションをトリガーする複合ディープラーニングアーキテクチャを提案する。
また,エッジコンピューティングの基盤も高度に動的で異種であることも考慮し,資源利用モデルの自動適応のための革新的ハイブリッドベイズ進化戦略(HBES)アルゴリズムを提案する。
提案した資源利用予測機構は, 根面正方形誤差 (RMSE) と平均絶対値誤差 (MAE) の観点から, 技術手法の他の状態と比較して実験的に評価されている。
さらに、リソース利用予測を利用したIPFT機構をCloudSim Plusの広範囲なシミュレーションで評価し、信頼性と保守性の観点からは、リアクティブフォールトトレランス法と比較して大幅に改善した。 The proliferation of demanding applications and edge computing establishes the need for an efficient management of the underlying computing infrastructures, urging the providers to rethink their operational methods. In this paper, we propose an Intelligent Proactive Fault Tolerance (IPFT) method that leverages the edge resource usage predictions through Recurrent Neural Networks (RNN). More specifically, we focus on the process-faults, which are related with the inability of the infrastructure to provide Quality of Service (QoS) in acceptable ranges due to the lack of processing power. In order to tackle this challenge we propose a composite deep learning architecture that predicts the resource usage metrics of the edge nodes and triggers proactive node replications and task migration. Taking also into consideration that the edge computing infrastructure is also highly dynamic and heterogeneous, we propose an innovative Hybrid Bayesian Evolution Strategy (HBES) algorithm for automated adaptation of the resource usage models. The proposed resource usage prediction mechanism has been experimentally evaluated and compared with other state of the art methods with significant improvements in terms of Root Mean Squared Error (RMSE) and Mean Absolute Error (MAE). Additionally, the IPFT mechanism that leverages the resource usage predictions has been evaluated in an extensive simulation in CloudSim Plus and the results show significant improvement compared to the reactive fault tolerance method in terms of reliability and maintainability. | 翻訳日:2023-02-13 15:24:37 公開日:2023-02-09 |
# ランダムにスムースを攻撃するための認証防御の爆発 Exploiting Certified Defences to Attack Randomised Smoothing ( http://arxiv.org/abs/2302.04379v1 ) ライセンス: Link先を確認 | Andrew C. Cullen, Paul Montague, Shijie Liu, Sarah M. Erfani, Benjamin I.P. Rubinstein | (参考訳) 境界領域内に敵の例が存在しないことを保証するため、認証メカニズムはニューラルネットワークの堅牢性において重要な役割を果たす。
具体的には、認証機構自体が、攻撃者がより小さな敵の摂動を構築するために悪用できる、現在発見されていない新たな攻撃面を導入することを実証する。
これらの攻撃は認証領域の外に存在するが、摂動基準の最小化は攻撃検出に伴う困難度を大幅に増加させる。
ベースライン攻撃と比較して、我々の新しいフレームワークは、他のアプローチの2倍以上の頻度で摂動を減少させ、結果として中央摂動規範の最大34ドル%の削減をもたらす。
このアプローチでは、PGDのようなアプローチよりも90 \%$の計算時間も必要である。
これらの削減は、この新しい攻撃ベクトルを活用することで、攻撃者が配置されたモデルを保護するように設計されたシステムを利用することで、敵攻撃を検出するのが難しくなることを示唆している。 In guaranteeing that no adversarial examples exist within a bounded region, certification mechanisms play an important role in neural network robustness. Concerningly, this work demonstrates that the certification mechanisms themselves introduce a new, heretofore undiscovered attack surface, that can be exploited by attackers to construct smaller adversarial perturbations. While these attacks exist outside the certification region in no way invalidate certifications, minimising a perturbation's norm significantly increases the level of difficulty associated with attack detection. In comparison to baseline attacks, our new framework yields smaller perturbations more than twice as frequently as any other approach, resulting in an up to $34 \%$ reduction in the median perturbation norm. That this approach also requires $90 \%$ less computational time than approaches like PGD. That these reductions are possible suggests that exploiting this new attack vector would allow attackers to more frequently construct hard to detect adversarial attacks, by exploiting the very systems designed to defend deployed models. | 翻訳日:2023-02-10 17:17:00 公開日:2023-02-09 |
# プロンプトプランニングと知識記憶によるテーブル・ツー・テキスト生成 Few-Shot Table-to-Text Generation with Prompt Planning and Knowledge Memorization ( http://arxiv.org/abs/2302.04415v1 ) ライセンス: Link先を確認 | Zhixin Guo, Minyxuan Yan, Jiexing Qi, Jianping Zhou, Ziwei He, Zhouhan Lin, Guanjie Zheng and Xinbing Wang | (参考訳) 事前学習型言語モデル (PLM) は、表-テキスト生成タスクにおいて顕著な進歩を遂げている。
しかし、ラベル付きドメイン固有の知識の欠如と表データとテキストの間のトポロジーギャップにより、plmが忠実なテキストを得るのが困難になる。
低リソース生成も同様に、このドメインにおけるユニークな課題に直面します。
人間が事前に知識を持って表データを記述する方法に触発されて、私たちは新しいフレームワーク、prompmitizeを提案しました。
私たちのフレームワークの設計は、プロンプトプランナーと知識アダプタの2つの側面で構成されています。
プロンプトプランナーは、表データとテキスト間のトポロジギャップをブリッジするために、PLMのインスタンスガイダンスを提供するプロンプト信号を生成することを目指している。
さらに、知識アダプタは、未ラベルコーパスからドメイン固有の知識を記憶し、生成時に必須情報を提供する。
オープンドメインのnlgデータセットであるhuman, song, bookについて,広範な実験と解析を行った。
従来の最先端手法と比較して,人間および自動評価により評価した品質生成性能は著しく向上した。 Pre-trained language models (PLM) have achieved remarkable advancement in table-to-text generation tasks. However, the lack of labeled domain-specific knowledge and the topology gap between tabular data and text make it difficult for PLMs to yield faithful text. Low-resource generation likewise faces unique challenges in this domain. Inspired by how humans descript tabular data with prior knowledge, we suggest a new framework: PromptMize, which targets table-to-text generation under few-shot settings. The design of our framework consists of two aspects: a prompt planner and a knowledge adapter. The prompt planner aims to generate a prompt signal that provides instance guidance for PLMs to bridge the topology gap between tabular data and text. Moreover, the knowledge adapter memorizes domain-specific knowledge from the unlabelled corpus to supply essential information during generation. Extensive experiments and analyses are investigated on three open domain few-shot NLG datasets: human, song, and book. Compared with previous state-of-the-art approaches, our model achieves remarkable performance in generating quality as judged by human and automatic evaluations. | 翻訳日:2023-02-10 17:07:42 公開日:2023-02-09 |
# スコアベース生成モデルの幾何学 Geometry of Score Based Generative Models ( http://arxiv.org/abs/2302.04411v1 ) ライセンス: Link先を確認 | Sandesh Ghimire, Jinyang Liu, Armand Comas, Davin Hill, Aria Masoomi, Octavia Camps, Jennifer Dy | (参考訳) 本研究では,幾何学的観点からスコアに基づく生成モデル(拡散生成モデルとも呼ばれる)について考察する。
新たな観点から, 雑音を付加し, 雑音を発生させる前方および後方のプロセスが, 確率測度の空間におけるワッサースタイン勾配流れであることを証明する。
私たちはこのつながりを最初に証明した。
スコアベース(および拡散)生成モデルに対する我々の理解は成熟し、ベイズ推論、制御理論、確率微分方程式、シュロディンガーブリッジといった異なる分野のアイデアを導いてより完全になる。
しかし、多くの疑問や課題が残っている。
例えば、サンプリング時間をいかに減らすかという問題があります。
幾何学的視点から見ると、これらの疑問の多くに答え、いくつかの既知の結果に新しい解釈を与えることができる。
さらに幾何学的視点は,より高速なサンプリング問題に対する直感的な幾何学的解法を考案することを可能にする。
従来のスコアベース生成モデルを投影ステップで拡張することにより,サンプリングステップをかなり少なくして高品質な画像を生成することができることを示す。 In this work, we look at Score-based generative models (also called diffusion generative models) from a geometric perspective. From a new view point, we prove that both the forward and backward process of adding noise and generating from noise are Wasserstein gradient flow in the space of probability measures. We are the first to prove this connection. Our understanding of Score-based (and Diffusion) generative models have matured and become more complete by drawing ideas from different fields like Bayesian inference, control theory, stochastic differential equation and Schrodinger bridge. However, many open questions and challenges remain. One problem, for example, is how to decrease the sampling time? We demonstrate that looking from geometric perspective enables us to answer many of these questions and provide new interpretations to some known results. Furthermore, geometric perspective enables us to devise an intuitive geometric solution to the problem of faster sampling. By augmenting traditional score-based generative models with a projection step, we show that we can generate high quality images with significantly fewer sampling-steps. | 翻訳日:2023-02-10 17:07:24 公開日:2023-02-09 |
# 深層学習によるUAV故障診断のシミュレーション Simulation-to-reality UAV Fault Diagnosis with Deep Learning ( http://arxiv.org/abs/2302.04410v1 ) ライセンス: Link先を確認 | Wei Zhang, Junjie Tong, Fang Liao and Yunfeng Zhang | (参考訳) プロペラ故障の正確な診断は,クワッドロータの安全かつ効率的な運転を確保する上で重要である。
シミュレーションデータを使用して障害分類器をトレーニングし、実際のクオータにデプロイすることは、コスト効率が高く安全なアプローチである。
しかし、シミュレーションと現実のギャップは、実飛行で適用した場合、しばしば分類器の性能が低下する。
本研究では,新たに同定された特徴(NIF)を入力として利用し,ドメイン適応手法を用いて,この課題に対処する深層学習モデルを提案する。
さらに,実四重項の振舞いをより正確に反映したトレーニングデータを生成する調整シミュレーションモデルを導入する。
実験の結果,提案手法はプロペラ故障検出に96\%の精度が得られた。
我々の知る限りでは、これはクアドロータプロペラのシミュレーションと現実の故障診断のための最初の信頼性と効率のよい方法である。 Accurate diagnosis of propeller faults is crucial for ensuring the safe and efficient operation of quadrotors. Training a fault classifier using simulated data and deploying it on a real quadrotor is a cost-effective and safe approach. However, the simulation-to-reality gap often leads to poor performance of the classifier when applied in real flight. In this work, we propose a deep learning model that addresses this issue by utilizing newly identified features (NIF) as input and utilizing domain adaptation techniques to reduce the simulation-to-reality gap. In addition, we introduce an adjusted simulation model that generates training data that more accurately reflects the behavior of real quadrotors. The experimental results demonstrate that our proposed approach achieves an accuracy of 96\% in detecting propeller faults. To the best of our knowledge, this is the first reliable and efficient method for simulation-to-reality fault diagnosis of quadrotor propellers. | 翻訳日:2023-02-10 17:07:09 公開日:2023-02-09 |
# 光と精度: 2つの定数共有重み初期化によるニューラルアーキテクチャ検索 Light and Accurate: Neural Architecture Search via Two Constant Shared Weights Initialisations ( http://arxiv.org/abs/2302.04406v1 ) ライセンス: Link先を確認 | Ekaterina Gracheva | (参考訳) 近年、ゼロコストプロキシはニューラルアーキテクチャサーチ(NAS)の基盤となっている。
これらの手法により、与えられたタスクに対する最適なニューラルネットワークを、従来のNAS法よりも高速かつ少ない計算負荷で見つけることができる。
同様に重要なことは、彼らが神経アーキテクチャの内部構造にも光を当てているという事実である。
本稿では,nas-bench-101,nas-bench-201,nas-bench-nlpベンチマークデータセットにおける列車設定精度と高い相関を示す。
アーキテクチャは、2つの異なる一定の共有重みで初期化されます。
そして、初期化毎に固定されたランダムなデータのミニバッチを転送する。
2つの初期化間の出力の分散は、トレーニングされた精度と正の相関を観測する。
平均出力等級で分散を正規化すると相関がさらに向上する。
我々の計量であるepsilonは勾配計算やラベルを必要としない。
これにより、NAS手順は、ハイパーパラメータ、損失メトリクス、および人間のラベル付きデータから解放される。
提案手法は既存のNASアルゴリズムに統合しやすく,1つのネットワークを評価するのに1秒程度を要する。 In recent years, zero-cost proxies are gaining ground in neural architecture search (NAS). These methods allow finding the optimal neural network for a given task faster and with a lesser computational load than conventional NAS methods. Equally important is the fact that they also shed some light on the internal workings of neural architectures. This paper presents a zero-cost metric that highly correlates with the train set accuracy across the NAS-Bench-101, NAS-Bench-201 and NAS-Bench-NLP benchmark datasets. Architectures are initialised with two distinct constant shared weights, one at a time. Then, a fixed random mini-batch of data is passed forward through each initialisation. We observe that the dispersion of the outputs between two initialisations positively correlates with trained accuracy. The correlation further improves when we normalise dispersion by average output magnitude. Our metric, epsilon, does not require gradients computation or labels. It thus unbinds the NAS procedure from training hyperparameters, loss metrics and human-labelled data. Our method is easy to integrate within existing NAS algorithms and takes a fraction of a second to evaluate a single network. | 翻訳日:2023-02-10 17:06:53 公開日:2023-02-09 |
# データから動的システムの解釈可能なラグランジアンを発見する Discovering interpretable Lagrangian of dynamical systems from data ( http://arxiv.org/abs/2302.04400v1 ) ライセンス: Link先を確認 | Tapas Tripura and Souvik Chakraborty | (参考訳) 物理システムの完全な理解には、正確で自然保護則に従うモデルが必要である。
表現学習の最近のトレンドは、運動方程式を直接発見するのではなく、データからラグランジアンを学ぶことである。
方程式発見技術の一般化には大きな可能性があるが、既存のラグランジュ発見フレームワークは本質的にブラックボックスである。
これにより、発見されているラグランジュの再利用性が懸念される。
本稿では,データから解釈可能なラグランジアンを検出するための新しいデータ駆動機械学習アルゴリズムを提案する。
ラグランジアンは解釈可能な形で導出され、保存法則の自動発見や運動方程式の定式化も可能である。
提案されたフレームワークのアーキテクチャは、基礎となるドメインのサブセットからラグランジアンを学習し、無限次元システムのために一般化できるように設計されている。
提案フレームワークの忠実度は、通常の微分方程式とラグランジアンおよび保存量が知られている偏微分方程式の系によって記述された例を用いて例示される。 A complete understanding of physical systems requires models that are accurate and obeys natural conservation laws. Recent trends in representation learning involve learning Lagrangian from data rather than the direct discovery of governing equations of motion. The generalization of equation discovery techniques has huge potential; however, existing Lagrangian discovery frameworks are black-box in nature. This raises a concern about the reusability of the discovered Lagrangian. In this article, we propose a novel data-driven machine-learning algorithm to automate the discovery of interpretable Lagrangian from data. The Lagrangian are derived in interpretable forms, which also allows the automated discovery of conservation laws and governing equations of motion. The architecture of the proposed framework is designed in such a way that it allows learning the Lagrangian from a subset of the underlying domain and then generalizing for an infinite-dimensional system. The fidelity of the proposed framework is exemplified using examples described by systems of ordinary differential equations and partial differential equations where the Lagrangian and conserved quantities are known. | 翻訳日:2023-02-10 17:06:37 公開日:2023-02-09 |
# クラックセグメンテーションにおけるハイブリッドマルジン損失の最適化 Optimized Hybrid Focal Margin Loss for Crack Segmentation ( http://arxiv.org/abs/2302.04395v1 ) ライセンス: Link先を確認 | Jiajie Chen | (参考訳) 多くの損失関数は、大きなマージンソフトマックス損失や焦点損失のようなクロスエントロピー損失関数に由来する。
大きなマージンのソフトマックスの損失は分類をより厳密なものにし、過剰フィットを防ぐ。
焦点損失は、よく分類された例の損失を減らし、オブジェクト検出におけるクラス不均衡を軽減する。
近年の研究では、クロスエントロピーに由来する2つの損失関数が画像分割の分野で有用であることが示されている。
しかし、私たちの知る限りでは、これら2つの損失関数を組み合わせた統一的な定式化が存在しないため、相互に変換できるだけでなく、クラス不均衡と過度な適合に同時に対処することができる。
そこで本研究では,エントロピーに基づく損失をレギュレータに基づくエントロピー損失と焦点ベースのエントロピー損失に分割し,極度のクラス不均衡に対処するために最適化された新しいハイブリッド焦点損失を提案する。
提案を3つのクラックセグメンテーションデータセット(DeepCrack-DB、CRACK500、当社のプライベートPanelCrackデータセット)と比較して評価した。
実験により,focal margin 成分は deepcrack-db の 0.43 と panelcrack データセットの 0.44 のクラックの iou を大幅に増加させることができることを示した。 Many loss functions have been derived from cross-entropy loss functions such as large-margin softmax loss and focal loss. The large-margin softmax loss makes the classification more rigorous and prevents overfitting. The focal loss alleviates class imbalance in object detection by down-weighting the loss of well-classified examples. Recent research has shown that these two loss functions derived from cross entropy have valuable applications in the field of image segmentation. However, to the best of our knowledge, there is no unified formulation that combines these two loss functions so that they can not only be transformed mutually, but can also be used to simultaneously address class imbalance and overfitting. To this end, we subdivide the entropy-based loss into the regularizer-based entropy loss and the focal-based entropy loss, and propose a novel optimized hybrid focal loss to handle extreme class imbalance and prevent overfitting for crack segmentation. We have evaluated our proposal in comparison with three crack segmentation datasets (DeepCrack-DB, CRACK500 and our private PanelCrack dataset). Our experiments demonstrate that the focal margin component can significantly increase the IoU of cracks by 0.43 on DeepCrack-DB and 0.44 on our PanelCrack dataset, respectively. | 翻訳日:2023-02-10 17:06:21 公開日:2023-02-09 |
# データ中心機械学習のための再ラベル法 The Re-Label Method For Data-Centric Machine Learning ( http://arxiv.org/abs/2302.04391v1 ) ライセンス: Link先を確認 | Tong Guo | (参考訳) 業界深層学習アプリケーションでは、手作業でラベル付けしたデータは、一定の数のノイズデータを持っています。
この問題を解決し、開発データセットで90以上のスコアを達成するために、人間のラベル付けにおける参照としてモデル予測を考慮し、ノイズデータを見つけ、ノイズデータを再ラベルする簡単な方法を提案する。
本稿では,分類,シーケンスタグ付け,オブジェクト検出,シーケンス生成,クリックスルー率予測など,幅広いディープラーニングタスクのセットについて述べる。
実験結果と人体評価結果は,我々の考えを検証する。 In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The experimental results and human evaluation results verify our idea. | 翻訳日:2023-02-10 17:05:53 公開日:2023-02-09 |
# 機械学習能力:教師付き機械学習の個別配置への応用によるケース難易度を用いた標準化メトリクス Machine Learning Capability: A standardized metric using case difficulty with applications to individualized deployment of supervised machine learning ( http://arxiv.org/abs/2302.04386v1 ) ライセンス: Link先を確認 | Adrienne Kline and Joon Lee | (参考訳) モデル評価は教師付き機械学習分類解析において重要な要素である。
従来のメトリクスは、現在ケースの難易度を含まない。
これにより、分類結果は一般化のために目立たない。
アイテム応答理論(IRT)と機械学習を用いたコンピュータ適応テスト(CAT)は、最終分類結果とは無関係にデータセットをベンチマークすることができる。
これにより、評価ユーティリティに関する高レベルのケースレベル情報が得られる。
披露するために、2つのデータセットが使われた。
1)健康関連および
2)物理科学。
健康データセットでは,2パラメータIRTモデル,物理科学データセットでは多トンIRTモデルを用いて予測的特徴を分析し,各ケースを困難連続体に配置した。
CATアプローチは、アルゴリズムのパフォーマンスと新しいデータの適用性を確認するために使用された。
この方法は、データセットのごく一部(1%未満)と22-60倍の計算効率でデータをベンチマークする効率的な方法を提供する。
機械学習能力(MLC)と呼ばれるこの新しいメトリクスは、結果の分類に偏りがなく、データセット内およびデータセット間のモデル比較を標準化する方法として、さらなるメリットがある。
MLCは、教師付き機械学習アルゴリズムの制限に関するメトリクスを提供する。
アルゴリズムが不足している状況では、他の入力が意思決定に必要となる。 Model evaluation is a critical component in supervised machine learning classification analyses. Traditional metrics do not currently incorporate case difficulty. This renders the classification results unbenchmarked for generalization. Item Response Theory (IRT) and Computer Adaptive Testing (CAT) with machine learning can benchmark datasets independent of the end-classification results. This provides high levels of case-level information regarding evaluation utility. To showcase, two datasets were used: 1) health-related and 2) physical science. For the health dataset a two-parameter IRT model, and for the physical science dataset a polytonomous IRT model, was used to analyze predictive features and place each case on a difficulty continuum. A CAT approach was used to ascertain the algorithms' performance and applicability to new data. This method provides an efficient way to benchmark data, using only a fraction of the dataset (less than 1%) and 22-60x more computationally efficient than traditional metrics. This novel metric, termed Machine Learning Capability (MLC) has additional benefits as it is unbiased to outcome classification and a standardized way to make model comparisons within and across datasets. MLC provides a metric on the limitation of supervised machine learning algorithms. In situations where the algorithm falls short, other input(s) are required for decision-making. | 翻訳日:2023-02-10 17:05:45 公開日:2023-02-09 |
# sf-sgl:線形測定によるソルバフリースペクトルグラフ学習 SF-SGL: Solver-Free Spectral Graph Learning from Linear Measurements ( http://arxiv.org/abs/2302.04384v1 ) ライセンス: Link先を確認 | Ying Zhang, Zhiqiang Zhao, Zhuo Feng | (参考訳) この研究は、ノード電圧や電流などの線形測定で抵抗ネットワークを学習するためのスペクトルグラフ密度化フレームワーク(SGL)を導入する。
提案するグラフ学習手法は,ラプラシアン的精度行列を用いた古典的グラフィカルラッソ問題の解法と等価であることを示す。
我々は、O(\log N)$対の電圧と電流の測定を与えられた場合、元のグラフ上の有効抵抗距離を適切に保存できるスパース$N$ノード抵抗ネットワークを復元できることを示した。
さらに、学習したグラフは元のグラフの構造(スペクトル)特性も保持しており、多くの回路設計や最適化タスクで利用することができる。
さらに,よりスケーラブルな性能を実現するために,グラフのマルチレベルスペクトル近似を利用したソルバフリー法(sf-sgl)を導入し,複数の固有値クラスタ(周波数帯域)へのグラフスペクトル全体のスケーラブルで柔軟な分解を実現する。
このようなソルバフリーアプローチにより、スペクトル埋め込み歪みの様々な範囲を減らすために、最もスペクトルクリティカルなエッジをより効率的に特定できる。
種々の実世界のテストケースに対する広範な実験を通して,提案手法は,ソリューションの品質を犠牲にすることなく,スパース抵抗ネットワークを学習するのに非常にスケーラブルであることを示す。
また,ベクタレス電力/熱的整合性検証のためのデータ駆動型EDAアルゴリズムを導入し,いくつかの電圧/温度測定を利用して,チップ全体にわたって最悪のケース電圧/温度分布を推定する。 This work introduces a highly-scalable spectral graph densification framework (SGL) for learning resistor networks with linear measurements, such as node voltages and currents. We show that the proposed graph learning approach is equivalent to solving the classical graphical Lasso problems with Laplacian-like precision matrices. We prove that given $O(\log N)$ pairs of voltage and current measurements, it is possible to recover sparse $N$-node resistor networks that can well preserve the effective resistance distances on the original graph. In addition, the learned graphs also preserve the structural (spectral) properties of the original graph, which can potentially be leveraged in many circuit design and optimization tasks. To achieve more scalable performance, we also introduce a solver-free method (SF-SGL) that exploits multilevel spectral approximation of the graphs and allows for a scalable and flexible decomposition of the entire graph spectrum (to be learned) into multiple different eigenvalue clusters (frequency bands). Such a solver-free approach allows us to more efficiently identify the most spectrally-critical edges for reducing various ranges of spectral embedding distortions. Through extensive experiments for a variety of real-world test cases, we show that the proposed approach is highly scalable for learning sparse resistor networks without sacrificing solution quality. We also introduce a data-driven EDA algorithm for vectorless power/thermal integrity verifications to allow estimating worst-case voltage/temperature (gradient) distributions across the entire chip by leveraging a few voltage/temperature measurements. | 翻訳日:2023-02-10 17:05:25 公開日:2023-02-09 |
# 単純複合型テキスト分散ネットワークにおけるプライバシ保護表現学習 Privacy-Preserving Representation Learning for Text-Attributed Networks with Simplicial Complexes ( http://arxiv.org/abs/2302.04383v1 ) ライセンス: Link先を確認 | Huixin Zhan, Victor S. Sheng | (参考訳) 最近のネットワーク表現学習(NRL)は、様々なグラフ推論タスクにおいて優れた性能を示したが、ノードが人や人間に関連する変数を表現した場合、ネットワーク表現の学習は常にプライバシー上の懸念を生じさせる可能性がある。
さらに、グラフから構造情報を利用する標準NRLは、まずペア関係を学習された表現に符号化し、その特性を分析する。
このアプローチは、関係が複数の点を含む問題と基本的には一致せず、トポロジカル構造は対の相互作用を超えて符号化されなければならない。
幸いなことに、トポロジカルデータ解析(tda)と特にsnn(simplicial neural network)のメカニズムは、ノード間の高次相互作用を学ぶ数学的に厳密な枠組みを提供する。
snnからの表現出力が、グラフニューラルネットワーク(gnn)からの正規表現出力よりもペアワイズ相互作用を介して脆弱かどうかを調べることは重要である。
論文の中では、SNNを通してsimplicial Complex(RT4SC)のテキスト属性による表現を学習する。
次に、snsから出力される表現に対する2つの潜在的な攻撃について、(1)あるグラフのノードがgnnモデルのトレーニングデータ内にあるかどうかを推測するメンバーシップ推論攻撃、(2)テキスト属性ネットワークの秘密エッジを推定するグラフ再構成攻撃について研究する。
最後に,マルチプライヤのプライバシ保存型決定論的差分的変動方向法について検討し,マルチスケールな関係を捉えるSNNからセキュアな表現出力を学習し,ローカル構造からテキスト分散ネットワーク上のグローバル不変機能への遷移を容易にする。 Although recent network representation learning (NRL) works in text-attributed networks demonstrated superior performance for various graph inference tasks, learning network representations could always raise privacy concerns when nodes represent people or human-related variables. Moreover, standard NRLs that leverage structural information from a graph proceed by first encoding pairwise relationships into learned representations and then analysing its properties. This approach is fundamentally misaligned with problems where the relationships involve multiple points, and topological structure must be encoded beyond pairwise interactions. Fortunately, the machinery of topological data analysis (TDA) and, in particular, simplicial neural networks (SNNs) offer a mathematically rigorous framework to learn higher-order interactions between nodes. It is critical to investigate if the representation outputs from SNNs are more vulnerable compared to regular representation outputs from graph neural networks (GNNs) via pairwise interactions. In my dissertation, I will first study learning the representations with text attributes for simplicial complexes (RT4SC) via SNNs. Then, I will conduct research on two potential attacks on the representation outputs from SNNs: (1) membership inference attack, which infers whether a certain node of a graph is inside the training data of the GNN model; and (2) graph reconstruction attacks, which infer the confidential edges of a text-attributed network. Finally, I will study a privacy-preserving deterministic differentially private alternating direction method of multiplier to learn secure representation outputs from SNNs that capture multi-scale relationships and facilitate the passage from local structure to global invariant features on text-attributed networks. | 翻訳日:2023-02-10 17:04:58 公開日:2023-02-09 |
# rMultiNet:マルチレイヤネットワーク分析のためのRパッケージ rMultiNet: An R Package For Multilayer Networks Analysis ( http://arxiv.org/abs/2302.04437v1 ) ライセンス: Link先を確認 | Ting Li, Zhongyuan Lyu, Chenyu Ren, Dong Xia | (参考訳) 本稿では,マルチレイヤネットワークデータを解析するためのRパッケージrMultiNetを提案する。
本研究では,最近の文献から,混合多層確率ブロックモデル(mmsbm)と混合多層潜在空間モデル(mmlsm)の2つの一般的な枠組みを提案し,多層ネットワークを生成する。
また、ノードとレイヤの両方の埋め込みを明らかにし、さらにクラスタリングなどのデータ分析方法も提供している。
3つの実データ例がパッケージで処理される。
rMultiNetのソースコードはhttps://github.com/ChenyuzZ73/rMultiNetで入手できる。 This paper develops an R package rMultiNet to analyze multilayer network data. We provide two general frameworks from recent literature, e.g. mixture multilayer stochastic block model(MMSBM) and mixture multilayer latent space model(MMLSM) to generate the multilayer network. We also provide several methods to reveal the embedding of both nodes and layers followed by further data analysis methods, such as clustering. Three real data examples are processed in the package. The source code of rMultiNet is available at https://github.com/ChenyuzZZ73/rMultiNet. | 翻訳日:2023-02-10 16:59:06 公開日:2023-02-09 |
# ベンチマーク作成をガイドするリアルタイムビジュアルフィードバック:ヒューマン・アンド・メトリック・イン・ザ・ループワークフロー Real-Time Visual Feedback to Guide Benchmark Creation: A Human-and-Metric-in-the-Loop Workflow ( http://arxiv.org/abs/2302.04434v1 ) ライセンス: Link先を確認 | Anjana Arunkumar, Swaroop Mishra, Bhavdeep Sachdeva, Chitta Baral, Chris Bryan | (参考訳) 近年の研究では、言語モデルが実際に学習するのではなく、ベンチマークで'成果物'を利用してタスクを解決することが示されている。
優れたベンチマークの作成を追求するため,我々は,nlpのための新しいベンチマーク作成パラダイムであるvaidaを提案する。
VAIDAは、サンプル品質を改善するために、リアルタイムの視覚フィードバックとレコメンデーションを提供することで、サンプル修正を容易にする。
我々のアプローチは、ドメイン、モデル、タスク、メトリック非依存であり、ヒューマン・アンド・メトリック・イン・ザ・ループワークフローによる堅牢で、検証され、動的ベンチマーク作成のためのパラダイムシフトを構成する。
専門家によるレビューとNASA TLXによるユーザスタディによる評価を行った。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減らし, 同時に両ユーザグループのパフォーマンスを45.8%低下させる。
ユーザ調査の結果から,生成したサンプルはモデル間で逆行性であり,31.3% (bert),22.5% (roberta),14.98% (gpt-3 fewshot) のパフォーマンスが低下することがわかった。 Recent research has shown that language models exploit `artifacts' in benchmarks to solve tasks, rather than truly learning them, leading to inflated model performance. In pursuit of creating better benchmarks, we propose VAIDA, a novel benchmark creation paradigm for NLP, that focuses on guiding crowdworkers, an under-explored facet of addressing benchmark idiosyncrasies. VAIDA facilitates sample correction by providing realtime visual feedback and recommendations to improve sample quality. Our approach is domain, model, task, and metric agnostic, and constitutes a paradigm shift for robust, validated, and dynamic benchmark creation via human-and-metric-in-the-loop workflows. We evaluate via expert review and a user study with NASA TLX. We find that VAIDA decreases effort, frustration, mental, and temporal demands of crowdworkers and analysts, simultaneously increasing the performance of both user groups with a 45.8% decrease in the level of artifacts in created samples. As a by product of our user study, we observe that created samples are adversarial across models, leading to decreases of 31.3% (BERT), 22.5% (RoBERTa), 14.98% (GPT-3 fewshot) in performance. | 翻訳日:2023-02-10 16:58:54 公開日:2023-02-09 |
# データベースの観点からみた意思決定フォレスト推論プラットフォームの比較 A Comparison of Decision Forest Inference Platforms from A Database Perspective ( http://arxiv.org/abs/2302.04430v1 ) ライセンス: Link先を確認 | Hong Guan, Mahidhar Reddy Dwarampudi, Venkatesh Gunda, Hong Min, Lei Yu, Jia Zou | (参考訳) RandomForest、XGBoost、LightGBMを含む決定森林は、クレジットカード詐欺の検出、ランキング、ビジネスインテリジェンスなど、多くの産業シナリオで使われている最も人気のある機械学習手法の1つである。
推論プロセスは通常パフォーマンスクリティカルであるため、ONNX、AmazonのTreeLite、GoogleのTensorFlow Decision Forest、MicrosoftのHummingBird、Nvidia FIL、lleavesなど、多くのフレームワークが開発され、決定林の推論に費やされている。
しかし、これらのフレームワークはすべてデータ管理フレームワークと分離されている。
データベース内推論が全体的なパフォーマンスを改善するかどうかは不明だ。
さらに、これらのフレームワークは異なるアルゴリズム、最適化手法、並列性モデルを使用していた。
これらの実装が全体的なパフォーマンスにどのように影響するか、データベース内推論フレームワークの設計決定にどのように影響するかは不明だ。
本稿では,前述の推論フレームワークとデータベース内推論フレームワークであるnetsdbのエンドツーエンドパフォーマンスを包括的に比較することにより,上記の質問について検討した。
本研究では,netsdbが大規模データセット上の小規模モデルや,小規模データセット上の全大規模モデルを扱うのに最も適していることを明らかにし,最大で数百倍の高速化を達成した。
さらに,関係中心の表現により,大規模モデルを扱う際のnetsDBの性能が大幅に向上し,モデル再利用の最適化により,小規模データセットを扱う際のnetsDBの性能が向上した。 Decision forest, including RandomForest, XGBoost, and LightGBM, is one of the most popular machine learning techniques used in many industrial scenarios, such as credit card fraud detection, ranking, and business intelligence. Because the inference process is usually performance-critical, a number of frameworks were developed and dedicated for decision forest inference, such as ONNX, TreeLite from Amazon, TensorFlow Decision Forest from Google, HummingBird from Microsoft, Nvidia FIL, and lleaves. However, these frameworks are all decoupled with data management frameworks. It is unclear whether in-database inference will improve the overall performance. In addition, these frameworks used different algorithms, optimization techniques, and parallelism models. It is unclear how these implementations will affect the overall performance and how to make design decisions for an in-database inference framework. In this work, we investigated the above questions by comprehensively comparing the end-to-end performance of the aforementioned inference frameworks and netsDB, an in-database inference framework we implemented. Through this study, we identified that netsDB is best suited for handling small-scale models on large-scale datasets and all-scale models on small-scale datasets, for which it achieved up to hundreds of times of speedup. In addition, the relation-centric representation we proposed significantly improved netsDB's performance in handling large-scale models, while the model reuse optimization we proposed further improved netsDB's performance in handling small-scale datasets. | 翻訳日:2023-02-10 16:58:30 公開日:2023-02-09 |
# 新しい視覚カテゴリー探索のためのゼロ知識ゼロショット学習 Zero-Knowledge Zero-Shot Learning for Novel Visual Category Discovery ( http://arxiv.org/abs/2302.04427v1 ) ライセンス: Link先を確認 | Zhaonan Li, Hongfu Liu | (参考訳) Generalized Zero-Shot Learning (GZSL) と Open-Set Recognition (OSR) は、従来の視覚オブジェクト認識を大幅に拡張する2つの主流設定である。
しかし、それらの問題設定の制限は無視できない。
gzslの新規なカテゴリには事前定義された意味ラベルが必要であり、osrの過度に単純化された未知のクラスは、新しいカテゴリの生来の細粒度と混合構造の探索に失敗した。
そこで本研究では,ゼロ知識ゼロショット学習 (ZK-ZSL) という,新規クラスの事前知識を前提とせず,見知らぬサンプルを分類し,より詳細な新規カテゴリのセマンティック属性を復元することを目的としている。
そこで本研究では,見知らぬカテゴリのクラスタリング構造を復元する新しいフレームワークを提案し,そのクラス構造をソースラベルでガイドする。
さらに、構造的アライメント損失は、復元された構造を持つ未知のカテゴリのセマンティックラーニングを支援するように設計されている。
4つのベンチマークデータセットの分類とセマンティックリカバリにおいて,本手法の優れた性能を示す実験結果を得た。 Generalized Zero-Shot Learning (GZSL) and Open-Set Recognition (OSR) are two mainstream settings that greatly extend conventional visual object recognition. However, the limitations of their problem settings are not negligible. The novel categories in GZSL require pre-defined semantic labels, making the problem setting less realistic; the oversimplified unknown class in OSR fails to explore the innate fine-grained and mixed structures of novel categories. In light of this, we are motivated to consider a new problem setting named Zero-Knowledge Zero-Shot Learning (ZK-ZSL) that assumes no prior knowledge of novel classes and aims to classify seen and unseen samples and recover semantic attributes of the fine-grained novel categories for further interpretation. To achieve this, we propose a novel framework that recovers the clustering structures of both seen and unseen categories where the seen class structures are guided by source labels. In addition, a structural alignment loss is designed to aid the semantic learning of unseen categories with their recovered structures. Experimental results demonstrate our method's superior performance in classification and semantic recovery on four benchmark datasets. | 翻訳日:2023-02-10 16:58:05 公開日:2023-02-09 |
# 適応サンプリング点雲で定義される多様体上のゲントルスト昇華ダイナミクス Gentlest ascent dynamics on manifolds defined by adaptively sampled point-clouds ( http://arxiv.org/abs/2302.04426v1 ) ライセンス: Link先を確認 | Juan M. Bello-Rivas, Anastasia Georgiou, Hannes Vandecasteele, and Ioannis G. Kevrekidis | (参考訳) 力学系の鞍点を見つけることは分子系の希少事象の研究のような実用的な応用において重要な問題である。
Gentlest Ascent dynamics (GAD) は、力学系においてサドル点を見つけようとする多くのアルゴリズムの1つである。
これは、元のシステムの鞍点が安定平衡となる新しい力学系を導出することで機能する。
GADは最近、等式制約によって記述された多様体(微分代数方程式)上の力学系の研究に一般化され、外生的定式化が与えられた。
本稿では,gad を点クラウドによって定義され,本質的に定式化された多様体へ拡張する。
これらの点雲は、初期配座(典型的には安定平衡近傍)からサドル点へとシステムを駆動する反復過程の間に適応的にサンプリングされる。
我々の手法は反応器(初期コンフォーメーション)を必要とし、明示的な制約方程式を指定する必要はなく、純粋にデータ駆動である。 Finding saddle points of dynamical systems is an important problem in practical applications such as the study of rare events of molecular systems. Gentlest ascent dynamics (GAD) is one of a number of algorithms in existence that attempt to find saddle points in dynamical systems. It works by deriving a new dynamical system in which saddle points of the original system become stable equilibria. GAD has been recently generalized to the study of dynamical systems on manifolds (differential algebraic equations) described by equality constraints and given an extrinsic formulation. In this paper, we present an extension of GAD to manifolds defined by point-clouds and formulated intrinsically. These point-clouds are adaptively sampled during an iterative process that drives the system from the initial conformation (typically in the neighborhood of a stable equilibrium) to a saddle point. Our method requires the reactant (initial conformation), does not require the explicit constraint equations to be specified, and is purely data-driven. | 翻訳日:2023-02-10 16:57:44 公開日:2023-02-09 |
# オープンドメイン音声対話のためのトランスフォーマーを用いた応答評価器 A Transformer-based Response Evaluator for Open-Domain Spoken Conversation ( http://arxiv.org/abs/2302.04424v1 ) ライセンス: Link先を確認 | Vrindavan Harrison and Rishi Rajasekaran and Marilyn Walker | (参考訳) 多くのオープンドメイン対話システムは複数の応答生成器に依存しており、そのどれでも特定のコンテキストにおける対話に対する応答に寄与することができる。
このように、潜在的な応答を比較してベストを選択する能力は、対話システムの一貫性とエンゲージメントを確保する上で重要な役割を果たす。
対話のコヒーレンスは、単に話題に留まるだけでなく、一部のトリビアは、青から言及されたときに話題やエンゲージメントを行うが、会話の文脈では一貫性が保たれない。
Athenaシステムでは、専用のコンテンツと複数のトピック固有の応答生成器を備えたAlexa Prize SocialBotを用いて、応答選択実験を行っている。
まず、Athenaのコーパスを人間の交通機関と収集し、すべての有効応答生成装置からの潜在的な応答をログ化し、その後、応答品質に注釈を付ける。
オープンドメイン対話における既製の応答ランキング法を,第3回Alexa Prizeコンクールでアテナでフィールドテストされたヒューリスティック応答ランキング法であるAthena-Heuristicと比較した。
また、これらをAthena-RRと呼ぶトランスフォーマーベースのレスポンスランサーと比較し、Athenaの会話をトレーニングします。
athena-rrは会話的文脈と対話状態の両方を使用して潜在的な応答をランク付けする。
Athena-RR が 70.79 % の Recall@1 で、Athena-Heuristic とオフザシェルフランクの全てを大きなマージンで上回ります。
次にathena-heuristicとathena-rrを比較し,alexaユーザと6,358件の会話を行った。
Athena-RRは、ヒューリスティックなルールベースのランキングよりもはるかに高いユーザレーティングを受ける会話をはるかに長くすることを示す。 Many open-domain dialogue systems rely on multiple response generators, any of which can contribute a response to the dialogue in a particular context. Thus the ability to compare potential responses and then select the best plays an important role in ensuring a dialogue system is coherent and engaging. Dialogue coherence goes beyond simply remaining on topic -- some trivia may be on topic and engaging when mentioned out of the blue, but may not be coherent and grounded in the context of the conversation. We carry out experiments on response selection in the Athena system, an Alexa Prize SocialBot that has dedicated content and multiple topic-specific response generators for a large number of topics. First, we collect a corpus of Athena conversations with live human traffic, where potential responses from all enabled response generators are logged and subsequently annotated for response quality. We compare several off-the-shelf response ranking methods for open-domain dialogue to Athena-Heuristic, a heuristic response ranker that was field-tested in Athena during the third Alexa Prize competition. We also compare these to a transformer-based response ranker we call Athena-RR, that we train on our Athena conversations. Athena-RR uses both the conversational context and the dialogue state to rank the potential responses. We find that Athena-RR with a Recall@1 of 70.79\% outperforms Athena-Heuristic and all of the off-the-shelf rankers by a large margin. We then conduct a live A/B study comparing Athena-Heuristic to Athena-RR in a 6,358 conversations with Alexa users. We show that Athena-RR leads to significantly longer conversations that receive significantly higher user ratings than the heuristic rule-based ranker. | 翻訳日:2023-02-10 16:57:28 公開日:2023-02-09 |
# 実行時効率変動量子アルゴリズムのための遅延対応型適応ショットアロケーション Latency-aware adaptive shot allocation for run-time efficient variational quantum algorithms ( http://arxiv.org/abs/2302.04422v1 ) ライセンス: Link先を確認 | Kosuke Ito | (参考訳) 変分量子アルゴリズム(VQA)の実用化において,効率的な古典最適化が重要である。
特に,SGD(Stochastic Gradient Descent)資源を効率的にするために,勾配を推定するための計測ショットの数を決定するための適応戦略が提案されている。
しかし、既存の戦略は各イテレーションで発生するオーバーヘッドを見落としています。
ウォールクロックのランタイムに関しては、多くのイテレーションを使用する場合、回路スイッチングと通信遅延が最適化プロセスを遅くする可能性がある。
クラウドサービスを使用する場合の経済的コストという点では、タスクごとの価格が重要になる可能性がある。
これらの問題に対処するために,我々は,各イテレーションにおけるショット数をバランスさせ,オーバーヘッドを明示的に考慮し,単位時間やコスト当たりの期待利得を最大化する適応戦略を提案する。
我々のアプローチは、単純なSGDだけでなく、Adamを含むその変種にも適用できる。
数値シミュレーションにより,我々のアダプティブショット戦略はadamにとって効率的であることが示され,既存のアダプティブショットオプティマイザを上回っている。
しかし、これは単純な SGD には当てはまらない。
リソースとしてショット数にフォーカスすると、ゼロオーバヘッドのアダプティブショットも既存のオプティマイザよりも優れています。 Efficient classical optimizers are crucial in practical implementations of Variational Quantum Algorithms (VQAs). In particular, to make Stochastic Gradient Descent (SGD) resource efficient, adaptive strategies have been proposed to determine the number of measurement shots used to estimate the gradient. However, existing strategies overlook the overhead that occurs in each iteration. In terms of wall-clock runtime, significant circuit-switching and communication latency can slow the optimization process when using a large number of iterations. In terms of economic cost when using cloud services, per-task prices can become significant. To address these issues, we present an adaptive strategy that balances the number of shots in each iteration to maximize expected gain per unit time or cost by explicitly taking into account the overhead. Our approach can be applied to not only to the simple SGD but also its variants, including Adam. Numerical simulations show that our adaptive shot strategy is actually efficient for Adam, outperforming many existing state-of-the-art adaptive shot optimizers. However, this is not the case for the simple SGD. When focusing on the number of shots as the resource, our adaptive-shots Adam with zero-overhead also outperforms existing optimizers. | 翻訳日:2023-02-10 16:56:54 公開日:2023-02-09 |
# クラスタリングのための重要サンプリング決定論的アニーリング Importance Sampling Deterministic Annealing for Clustering ( http://arxiv.org/abs/2302.04421v1 ) ライセンス: Link先を確認 | Jiangshe Zhang, Lizhen Ji, Meng Wang | (参考訳) 多くのクラスタリング手法の現在の仮定は、トレーニングデータと将来のデータが同じ分布から取られるというものである。
しかし、この仮定は現実のシナリオには当てはまらないかもしれない。
本稿では,分布偏差の制約下で予測される歪みの最悪の場合を最小限に抑える,クラスタリング問題に対する重要サンプリングに基づく決定論的アニーリング手法(isda)を提案する。
分散偏差制約は、重要サンプリングから導かれる均一分布を中心とする重み分布の集合上の制約に変換することができる。
提案手法は,最大分解下での損失を最小限に抑えることを目的としており,ラグランジュ法を用いて制約のない問題に再構成し,準ニュートンアルゴリズムによって解くことができる制約付きミニマックス最適化問題である。
合成データセットによる実験結果と実世界の負荷予測問題により,isdaの有効性が検証された。
さらに,ファジィc-meansは対数歪みを伴うISDAの特殊な症例であることを示す。
この観測はファジィc平均と決定論的アニールクラスタリングアルゴリズムの関係に新たな光を当て、ファジィ指数$m$の物理および情報理論的解釈を提供する。 A current assumption of most clustering methods is that the training data and future data are taken from the same distribution. However, this assumption may not hold in some real-world scenarios. In this paper, we propose an importance sampling based deterministic annealing approach (ISDA) for clustering problems which minimizes the worst case of expected distortions under the constraint of distribution deviation. The distribution deviation constraint can be converted to the constraint over a set of weight distributions centered on the uniform distribution derived from importance sampling. The objective of the proposed approach is to minimize the loss under maximum degradation hence the resulting problem is a constrained minimax optimization problem which can be reformulated to an unconstrained problem using the Lagrange method and be solved by the quasi-newton algorithm. Experiment results on synthetic datasets and a real-world load forecasting problem validate the effectiveness of the proposed ISDA. Furthermore, we show that fuzzy c-means is a special case of ISDA with the logarithmic distortion. This observation sheds a new light on the relationship between fuzzy c-means and deterministic annealing clustering algorithms and provides an interesting physical and information-theoretical interpretation for fuzzy exponent $m$. | 翻訳日:2023-02-10 16:56:34 公開日:2023-02-09 |
# 強化学習のための事前学習対象中心表現の検討 An Investigation into Pre-Training Object-Centric Representations for Reinforcement Learning ( http://arxiv.org/abs/2302.04419v1 ) ライセンス: Link先を確認 | Jaesik Yoon, Yi-Fu Wu, Heechul Bae, and Sungjin Ahn | (参考訳) 教師なしオブジェクト指向表現(OCR)学習は近年,視覚表現の新しいパラダイムとして注目されている。
これは、サンプル効率、体系的な一般化、推論という観点から、様々な下流タスクの効果的な事前学習技術になる可能性があるためである。
画像に基づく強化学習(RL)は、こうした下流作業において最も重要かつ頻繁に言及される課題の1つであるが、RLの利点は驚くほど研究されていない。
代わりに、ほとんどの評価は、セグメンテーションの品質やオブジェクトプロパティの予測精度といった、より間接的な指標に焦点を当てている。
本稿では,OCR事前学習による画像に基づく強化学習の有効性を実証実験により検討する。
体系的な評価のために、単純なオブジェクト指向ビジュアルRLベンチマークを導入し、'Does OCR pre-training improve performance on object-centric tasks?'や'Can OCR pre-training help with out-of-distriion generalization?'といった質問に答える実験を行う。
以上の結果から,RLに対するOCR事前学習の有効性と,特定のシナリオにおけるOCR利用の潜在的な限界に関する貴重な知見が得られた。
さらに,視覚複雑な環境におけるパフォーマンスや,オブジェクト表現を集約する適切なプーリング層など,rlにocrを事前トレーニングする上での重要な側面についても検討した。 Unsupervised object-centric representation (OCR) learning has recently drawn attention as a new paradigm of visual representation. This is because of its potential of being an effective pre-training technique for various downstream tasks in terms of sample efficiency, systematic generalization, and reasoning. Although image-based reinforcement learning (RL) is one of the most important and thus frequently mentioned such downstream tasks, the benefit in RL has surprisingly not been investigated systematically thus far. Instead, most of the evaluations have focused on rather indirect metrics such as segmentation quality and object property prediction accuracy. In this paper, we investigate the effectiveness of OCR pre-training for image-based reinforcement learning via empirical experiments. For systematic evaluation, we introduce a simple object-centric visual RL benchmark and conduct experiments to answer questions such as ``Does OCR pre-training improve performance on object-centric tasks?'' and ``Can OCR pre-training help with out-of-distribution generalization?''. Our results provide empirical evidence for valuable insights into the effectiveness of OCR pre-training for RL and the potential limitations of its use in certain scenarios. Additionally, this study also examines the critical aspects of incorporating OCR pre-training in RL, including performance in a visually complex environment and the appropriate pooling layer to aggregate the object representations. | 翻訳日:2023-02-10 16:56:15 公開日:2023-02-09 |
# メタ再重み付けのためのPivotalサンプルの選択を学ぶ Learning to Select Pivotal Samples for Meta Re-weighting ( http://arxiv.org/abs/2302.04418v1 ) ライセンス: Link先を確認 | Yinjun Wu, Adam Stein, Jacob Gardner, Mayur Naik | (参考訳) サンプル再重み付け戦略は、ノイズ付きラベル付きデータやクラス不均衡データなど、機械学習における不完全なトレーニングデータを扱うための有望なメカニズムを提供する。
そのような戦略の1つは、メタ再重み付け問題と呼ばれる二段階最適化問題の定式化であり、その目標は、メタサンプルと呼ばれる完全なピボットサンプルの小さなセットのパフォーマンスを最適化することである。
この問題を効率的に解くために多くのアプローチが提案されている。
しかし、それら全ては完全なメタサンプルセットがすでに提供されていると仮定し、メタサンプルセットの選択がパフォーマンス上重要であることを観察する。
本稿では, 大規模で不完全なトレーニングセットから, メタ再重み付けにおける性能の最適化に使用されるようなメタサンプルを, どのように識別するかについて検討する。
メタサンプル選択問題を厳密な理論的解析により重み付きK平均クラスタリング問題に還元する学習フレームワークを提案する。
本稿では,学習フレームワークにおける2つのクラスタリング手法である表現型クラスタリング法(rbc)と勾配型クラスタリング法(gbc)を提案する。
実験的な研究は, 様々な基本手法に対する手法の性能上の優位性を実証している。 Sample re-weighting strategies provide a promising mechanism to deal with imperfect training data in machine learning, such as noisily labeled or class-imbalanced data. One such strategy involves formulating a bi-level optimization problem called the meta re-weighting problem, whose goal is to optimize performance on a small set of perfect pivotal samples, called meta samples. Many approaches have been proposed to efficiently solve this problem. However, all of them assume that a perfect meta sample set is already provided while we observe that the selections of meta sample set is performance critical. In this paper, we study how to learn to identify such a meta sample set from a large, imperfect training set, that is subsequently cleaned and used to optimize performance in the meta re-weighting setting. We propose a learning framework which reduces the meta samples selection problem to a weighted K-means clustering problem through rigorously theoretical analysis. We propose two clustering methods within our learning framework, Representation-based clustering method (RBC) and Gradient-based clustering method (GBC), for balancing performance and computational efficiency. Empirical studies demonstrate the performance advantage of our methods over various baseline methods. | 翻訳日:2023-02-10 16:55:52 公開日:2023-02-09 |
# ハイブリッド強化学習によるデータ品質を考慮した混合精度量子化 Data Quality-aware Mixed-precision Quantization via Hybrid Reinforcement Learning ( http://arxiv.org/abs/2302.04453v1 ) ライセンス: Link先を確認 | Yingchun Wang and Jingcai Guo and Song Guo and Weizhan Zhang | (参考訳) 混合精度量子化は、非微分ビット幅サンプリングプロセスにより実際のトレーニング前にモデルビット幅設定を事前決定し、準最適性能を得る。
さらに悪いことに、従来の静的な品質一貫性のあるトレーニング設定、すなわち、全てのデータはトレーニングと推論で同じ品質であると仮定され、実世界のアプリケーションにおけるデータ品質の変化を見落とし、量子化されたモデルのロバスト性を損なう可能性がある。
本稿では、DQMQと呼ばれる新しいデータ品質対応混合精度量子化フレームワークを提案し、異なるデータ品質に量子化ビット幅を動的に適応させる。
この適応は、量子化トレーニングと共同で学習できるビット幅決定ポリシーに基づいている。
具体的には、DQMQは、モデルベースのポリシー最適化と教師付き量子化トレーニングを組み合わせたハイブリッド強化学習(RL)タスクとしてモデル化されている。
離散ビット幅サンプリングを、少ない学習可能なパラメータで符号化された連続確率分布に緩和することにより、DQMQは微分可能であり、タスク性能と量子化の利点の両方を考慮して、ハイブリッド最適化ターゲットでエンドツーエンドを直接最適化することができる。
混合品質の画像データセットに基づいてトレーニングされたDQMQは、不均一な入力品質に直面した場合、各レイヤの最も適切なビット幅を暗黙的に選択できる。
様々なベンチマークデータセットとネットワークに関する広範囲な実験により、既存の固定/混合精度量子化法に対するdqmqの優位性が証明された。 Mixed-precision quantization mostly predetermines the model bit-width settings before actual training due to the non-differential bit-width sampling process, obtaining sub-optimal performance. Worse still, the conventional static quality-consistent training setting, i.e., all data is assumed to be of the same quality across training and inference, overlooks data quality changes in real-world applications which may lead to poor robustness of the quantized models. In this paper, we propose a novel Data Quality-aware Mixed-precision Quantization framework, dubbed DQMQ, to dynamically adapt quantization bit-widths to different data qualities. The adaption is based on a bit-width decision policy that can be learned jointly with the quantization training. Concretely, DQMQ is modeled as a hybrid reinforcement learning (RL) task that combines model-based policy optimization with supervised quantization training. By relaxing the discrete bit-width sampling to a continuous probability distribution that is encoded with few learnable parameters, DQMQ is differentiable and can be directly optimized end-to-end with a hybrid optimization target considering both task performance and quantization benefits. Trained on mixed-quality image datasets, DQMQ can implicitly select the most proper bit-width for each layer when facing uneven input qualities. Extensive experiments on various benchmark datasets and networks demonstrate the superiority of DQMQ against existing fixed/mixed-precision quantization methods. | 翻訳日:2023-02-10 16:49:22 公開日:2023-02-09 |
# 非定常帯域学習の情報理論解析 An Information-Theoretic Analysis of Nonstationary Bandit Learning ( http://arxiv.org/abs/2302.04452v1 ) ライセンス: Link先を確認 | Seungki Min, Daniel Russo | (参考訳) 非定常的バンディット学習問題では、意思決定者は継続的に情報を収集し、環境の潜伏状態が発展するにつれて行動選択を適用する必要がある。
それぞれの期間において、潜在的な最適行動は、環境状態下での期待報酬を最大化する。
最適な動作シーケンスを確率的プロセスとみなし、情報理論を用いて達成可能な性能を解析する。
我々は, 最適作用過程のエントロピー率の観点から, 周期毎の後悔を制限する。
この境界は、文献で研究された幅広い問題に適用され、その情報比を通じて問題の情報構造を反映する。 In nonstationary bandit learning problems, the decision-maker must continually gather information and adapt their action selection as the latent state of the environment evolves. In each time period, some latent optimal action maximizes expected reward under the environment state. We view the optimal action sequence as a stochastic process, and take an information-theoretic approach to analyze attainable performance. We bound limiting per-period regret in terms of the entropy rate of the optimal action process. The bound applies to a wide array of problems studied in the literature and reflects the problem's information structure through its information-ratio. | 翻訳日:2023-02-10 16:48:56 公開日:2023-02-09 |
# グラフニューラルネットワークの一般化:グラフ拡散によるPAC-Bayesian境界の改善 Generalization in Graph Neural Networks: Improved PAC-Bayesian Bounds on Graph Diffusion ( http://arxiv.org/abs/2302.04451v1 ) ライセンス: Link先を確認 | Haotian Ju, Dongyue Li, Aneesh Sharma, and Hongyang R. Zhang | (参考訳) グラフニューラルネットワークは、グラフ予測タスクに広く使われている。
経験的性能に動機づけられた先行研究は、最大次数の観点からグラフ構造にスケールするグラフニューラルネットワークの一般化境界を開発した。
本稿では,グラフニューラルネットワークの特徴拡散行列の最大特異値に代えてスケールする一般化境界を提案する。
これらの境界は実世界のグラフの事前境界よりも数値的に小さい。
我々はまた、上界漸近的に一致する一般化ギャップの下界を構成する。
これらの結果を達成するために,先行作業の設定(畳み込みネットワークとメッセージパッシングネットワーク)と新たな設定(グラフ同型ネットワーク)を含む統一モデルを分析する。
我々のキーとなる考え方は、ヘシアンを用いたノイズ摂動に対するグラフニューラルネットワークの安定性を測定することである。
経験的に、ヒッシアンに基づく測定はグラフニューラルネットワークの観測された一般化ギャップと正確に相関し、事前学習されたグラフニューラルネットワークの微調整のためのノイズ安定性特性の最適化もまた、いくつかのグラフレベルの分類タスクにおけるテスト性能を向上させる。 Graph neural networks are widely used tools for graph prediction tasks. Motivated by their empirical performance, prior works have developed generalization bounds for graph neural networks, which scale with graph structures in terms of the maximum degree. In this paper, we present generalization bounds that instead scale with the largest singular value of the graph neural network's feature diffusion matrix. These bounds are numerically much smaller than prior bounds for real-world graphs. We also construct a lower bound of the generalization gap that matches our upper bound asymptotically. To achieve these results, we analyze a unified model that includes prior works' settings (i.e., convolutional and message-passing networks) and new settings (i.e., graph isomorphism networks). Our key idea is to measure the stability of graph neural networks against noise perturbations using Hessians. Empirically, we find that Hessian-based measurements correlate with the observed generalization gaps of graph neural networks accurately; Optimizing noise stability properties for fine-tuning pretrained graph neural networks also improves test performance on several graph-level classification tasks. | 翻訳日:2023-02-10 16:48:45 公開日:2023-02-09 |
# 報酬の読み書き:指導マニュアルの助けを借りてatariをプレイすることを学ぶ Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals ( http://arxiv.org/abs/2302.04449v1 ) ライセンス: Link先を確認 | Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li, Tom M. Mitchell | (参考訳) 高いサンプルの複雑さは、長い間RLにとって課題だった。
一方、人間は対話やデモンストレーションだけでなく、構造化されていないテキスト文書(例えば指示マニュアル)を読むことでタスクを実行することを学ぶ。
インストラクションマニュアルやwikiページは、貴重な機能やポリシー、タスク固有の環境ダイナミクスや報酬構造をエージェントに知らせる最も豊富なデータである。
そこで本研究では,人手による指導マニュアルを活用すれば,特定のタスクの学習方針を支援する能力が,より効率的で優れたエージェントとなると仮定する。
我々は read and reward framework を提案する。
read and rewardは、atari game developersがリリースしたマニュアルを読むことで、atari gamesのrlアルゴリズムを高速化する。
本フレームワークは,手動から関連情報を抽出・要約するQA抽出モジュールと,手動からの情報に基づいてオブジェクトとエージェントのインタラクションを評価するReasoningモジュールから構成される。
相互作用が検出されると、補助報酬が標準A2C RLエージェントに提供される。
我々の設計によりA2Cは、アタリ環境での4つのゲームの改善に成功し、アタリで最も難しいゲームであるスキーのSOTAエージェント57と比べて1000倍少ないトレーニングフレームを必要とする。 High sample complexity has long been a challenge for RL. On the other hand, humans learn to perform tasks not only from interaction or demonstrations, but also by reading unstructured text documents, e.g., instruction manuals. Instruction manuals and wiki pages are among the most abundant data that could inform agents of valuable features and policies or task-specific environmental dynamics and reward structures. Therefore, we hypothesize that the ability to utilize human-written instruction manuals to assist learning policies for specific tasks should lead to a more efficient and better-performing agent. We propose the Read and Reward framework. Read and Reward speeds up RL algorithms on Atari games by reading manuals released by the Atari game developers. Our framework consists of a QA Extraction module that extracts and summarizes relevant information from the manual and a Reasoning module that evaluates object-agent interactions based on information from the manual. Auxiliary reward is then provided to a standard A2C RL agent, when interaction is detected. When assisted by our design, A2C improves on 4 games in the Atari environment with sparse rewards, and requires 1000x less training frames compared to the previous SOTA Agent 57 on Skiing, the hardest game in Atari. | 翻訳日:2023-02-10 16:48:27 公開日:2023-02-09 |
# 深部構造素を用いた輪郭補完 Contour Completion using Deep Structural Priors ( http://arxiv.org/abs/2302.04447v1 ) ライセンス: Link先を確認 | Ali Shiraee, Morteza Rezanejad, Mohammad Khodadad, Dirk B. Walther, Hamidreza Mahyar | (参考訳) 人間は容易に照明の輪郭を知覚でき、断片化された形状の欠落形が完成する。
本研究は,畳み込みニューラルネットワーク(cnns)において,画像から直接計算された深部構造前処理を用いてそのような能力が生ずるかを検討する。
本稿では,切り離された輪郭を完備し,断片化された線と曲線を接続する枠組みを提案する。
提案手法では,輪郭のどの領域が除去されているかを知る必要さえないモデルを提案する。
不完全なイメージを完了させる反復的なプロセスを導入し、これを完了すべき領域を見つけるための新しい手段を提案する。
私たちのモデルは単一のイメージでトレーニングし、追加のトレーニングデータなしで輪郭を埋めます。
我々の研究は、深い構造的前提を用いて輪郭完成を達成するための堅牢なフレームワークを構築し、そのようなモデルをどのように実装するかを広範囲に調査する。 Humans can easily perceive illusory contours and complete missing forms in fragmented shapes. This work investigates whether such capability can arise in convolutional neural networks (CNNs) using deep structural priors computed directly from images. In this work, we present a framework that completes disconnected contours and connects fragmented lines and curves. In our framework, we propose a model that does not even need to know which regions of the contour are eliminated. We introduce an iterative process that completes an incomplete image and we propose novel measures that guide this to find regions it needs to complete. Our model trains on a single image and fills in the contours with no additional training data. Our work builds a robust framework to achieve contour completion using deep structural priors and extensively investigate how such a model could be implemented. | 翻訳日:2023-02-10 16:48:06 公開日:2023-02-09 |
# マルチUAVシステムにおける協調移動アクセスのための量子マルチエージェントアクタクリティカルネットワーク Quantum Multi-Agent Actor-Critic Networks for Cooperative Mobile Access in Multi-UAV Systems ( http://arxiv.org/abs/2302.04445v1 ) ライセンス: Link先を確認 | Chanyoung Park, Won Joon Yun, Jae Pyoung Kim, Tiago Koketsu Rodrigues, Soohyun Park, Soyi Jung, and Joongheon Kim | (参考訳) 本稿では,無人航空機(UAV)を用いたロバストな移動体アクセスシステムを構築するために,新しい量子マルチエージェントアクタクリティカルネットワーク(QMACN)を提案する。
自律型モバイルアクセスのための複数のUAVの協調のために,マルチエージェント強化学習(MARL)手法を検討する。
さらに、トレーニングと推論性能を改善するために量子コンピューティング(QC)の概念も採用しています。
QCを利用することで、スケーラビリティと物理的な問題が発生する可能性がある。
しかし,提案するQMACNアルゴリズムは,このような問題に対処するために,量子批評家と複数のアクタネットワークを構築する。
そこで,提案したQMACNアルゴリズムは,各種データ集約評価におけるトレーニング速度と無線サービス品質の観点から,量子MARLの優れた性能向上を検証した。
さらに,ロバストなモバイルアクセスを実現するために,環境不確実性に対処するためのノイズ注入方式が有効であることを検証した。
データ集約型シミュレーションの結果,提案したQMACNアルゴリズムが既存のアルゴリズムより優れていることを確認した。 This paper proposes a novel quantum multi-agent actor-critic networks (QMACN) algorithm for autonomously constructing a robust mobile access system using multiple unmanned aerial vehicles (UAVs). For the cooperation of multiple UAVs for autonomous mobile access, multi-agent reinforcement learning (MARL) methods are considered. In addition, we also adopt the concept of quantum computing (QC) to improve the training and inference performances. By utilizing QC, scalability and physical issues can happen. However, our proposed QMACN algorithm builds quantum critic and multiple actor networks in order to handle such problems. Thus, our proposed QMACN algorithm verifies the advantage of quantum MARL with remarkable performance improvements in terms of training speed and wireless service quality in various data-intensive evaluations. Furthermore, we validate that a noise injection scheme can be used for handling environmental uncertainties in order to realize robust mobile access. Our data-intensive simulation results verify that our proposed QMACN algorithm outperforms the other existing algorithms. | 翻訳日:2023-02-10 16:47:52 公開日:2023-02-09 |
# 事前学習言語モデルとファインチューニングを用いたEコマース勧告の強化 Enhancing E-Commerce Recommendation using Pre-Trained Language Model and Fine-Tuning ( http://arxiv.org/abs/2302.04443v1 ) ライセンス: Link先を確認 | Nuofan Xu, Chenhui Hu | (参考訳) Pretrained Language Models (PLM) は、自然言語処理(NLP)タスクのボード範囲において大きな成功を収めている。
しかし、それはレコメンデーション・システムの分野で適用され始めたばかりです。
従来のレコメンデーションアルゴリズムは、リッチなテキスト情報をeコマースデータセットに組み込むことができなかった。
本稿では,従来のレコメンダアルゴリズムにplmを組み込む様々な戦略が,eコマースデータセットの1つに与える影響を徹底的に調査し,その結果をバニラレコメンダベースラインモデルと比較する。
我々は、plmとドメイン固有の微調整の適用により、複合モデルの予測能力が向上することを示す。
これらの結果は、eコマースの文脈でテキスト情報を活用することの重要性を強調し、従来のレコメンダシステムアルゴリズムとplmを併用する方法に関する洞察を提供する。
この論文で使われているコードはgithubで入手できる。 Pretrained Language Models (PLM) have been greatly successful on a board range of natural language processing (NLP) tasks. However, it has just started being applied to the domain of recommendation systems. Traditional recommendation algorithms failed to incorporate the rich textual information in e-commerce datasets, which hinderss the performance of those models. We present a thorough investigation on the effect of various strategy of incorporating PLMs into traditional recommender algorithms on one of the e-commerce datasets, and we compare the results with vanilla recommender baseline models. We show that the application of PLMs and domain specific fine-tuning lead to an increase on the predictive capability of combined models. These results accentuate the importance of utilizing textual information in the context of e-commerce, and provides insight on how to better apply PLMs alongside traditional recommender system algorithms. The code used in this paper is available on Github: https://github.com/NuofanXu/bert_retail_recommender. | 翻訳日:2023-02-10 16:47:36 公開日:2023-02-09 |
# 線形バンディットにおける純粋探索のためのマルチタスク表現学習 Multi-task Representation Learning for Pure Exploration in Linear Bandits ( http://arxiv.org/abs/2302.04441v1 ) ライセンス: Link先を確認 | Yihan Du, Longbo Huang, Wen Sun | (参考訳) 逐次意思決定における表現学習の成功にもかかわらず、純粋な探索シナリオ(すなわち、最良の選択肢を特定し、サンプルの複雑さを最小限に抑える)の研究は依然として限られている。
本稿では,リニアバンディット(RepBAI-LB)におけるベストアーム識別のためのマルチタスク表現学習とコンテキスト線形バンディット(RepBPI-CLB)におけるベストポリシー識別について検討する。
これらの2つの問題において、すべてのタスクは共通の低次元線型表現を共有しており、我々の目標は、この機能を利用してすべてのタスクの最高のアーム識別プロセスを加速することである。
これらの問題に対して、我々はDouExpDesとC-DouExpDesの2つの実験を行い、グローバル表現の学習に最適なサンプルアロケーションを計画するアルゴリズムを設計する。
タスク間の共通表現を学習することで,タスクを独立に解くネイティブアプローチよりも,サンプル複雑性が著しく向上することを示す。
私たちの知る限りでは、マルチタスク純粋探索における表現学習の利点を示す最初の研究である。 Despite the recent success of representation learning in sequential decision making, the study of the pure exploration scenario (i.e., identify the best option and minimize the sample complexity) is still limited. In this paper, we study multi-task representation learning for best arm identification in linear bandits (RepBAI-LB) and best policy identification in contextual linear bandits (RepBPI-CLB), two popular pure exploration settings with wide applications, e.g., clinical trials and web content optimization. In these two problems, all tasks share a common low-dimensional linear representation, and our goal is to leverage this feature to accelerate the best arm (policy) identification process for all tasks. For these problems, we design computationally and sample efficient algorithms DouExpDes and C-DouExpDes, which perform double experimental designs to plan optimal sample allocations for learning the global representation. We show that by learning the common representation among tasks, our sample complexity is significantly better than that of the native approach which solves tasks independently. To the best of our knowledge, this is the first work to demonstrate the benefits of representation learning for multi-task pure exploration. | 翻訳日:2023-02-10 16:47:19 公開日:2023-02-09 |
# 特徴度スコア:標本を用いた生成モデルの一般化評価 Feature Likelihood Score: Evaluating Generalization of Generative Models Using Samples ( http://arxiv.org/abs/2302.04440v1 ) ライセンス: Link先を確認 | Marco Jiralerspong, Avishek Joey Bose, Gauthier Gidel | (参考訳) 深層生成モデルは、複雑、高次元、フォトリアリスティックなデータを生成する能力を示した。
しかし、異なる生成モデリングファミリーを評価するための統一的なフレームワークは依然として課題である。
FIDのような純粋なサンプルベースのメトリクスは、トレーニングデータに過度に適合するような既知の障害モードをキャプチャできない。
そこで,本研究では,密度推定を用いて生成した試料の質・多様性を定量的に測定するパラメトリック・サンプルベーススコアであるfeature likelihood score(fls)を提案する。
我々は、以前提案されたメトリクスが失敗しても、FLSが特定の過度な問題ケースを特定する能力を実証的に実証する。
さらに,様々な画像データセットとモデルクラスについて,広範な実験評価を行う。
以上の結果から, FLSはFIDなどの従来の指標の直観と一致し, 一般化能力の低いモデルや過度に評価されたモデルに注目する生成モデルのより包括的評価を提供する。
FLSの計算コードはhttps://github.com/marcojira/flsで提供されている。 Deep generative models have demonstrated the ability to generate complex, high-dimensional, and photo-realistic data. However, a unified framework for evaluating different generative modeling families remains a challenge. Indeed, likelihood-based metrics do not apply in many cases while pure sample-based metrics such as FID fail to capture known failure modes such as overfitting on training data. In this work, we introduce the Feature Likelihood Score (FLS), a parametric sample-based score that uses density estimation to quantitatively measure the quality/diversity of generated samples while taking into account overfitting. We empirically demonstrate the ability of FLS to identify specific overfitting problem cases, even when previously proposed metrics fail. We further perform an extensive experimental evaluation on various image datasets and model classes. Our results indicate that FLS matches intuitions of previous metrics, such as FID, while providing a more holistic evaluation of generative models that highlights models whose generalization abilities are under or overappreciated. Code for computing FLS is provided at https://github.com/marcojira/fls | 翻訳日:2023-02-10 16:46:59 公開日:2023-02-09 |
# 重要度サンプリングに基づくデータ変動ロバスト学習モデル A data variation robust learning model based on importance sampling ( http://arxiv.org/abs/2302.04438v1 ) ライセンス: Link先を確認 | Jiangshe Zhang, Lizhen Ji, Fei Gao, Mengyao Li | (参考訳) 機械学習の最も現在の理論の根底にある重要な仮定は、トレーニング分布がテスト分布と同一であるということである。
しかし、この仮定は現実のアプリケーションでは成り立たないかもしれない。
本稿では,分散逸脱の制約下での損失が最悪の場合を最小限に抑える学習問題に対して,重要サンプリングに基づくデータ変動ロバスト損失(ISloss)を提案する。
分散偏差制約は、重要サンプリング法から導かれる均一分布を中心とする重み分布の集合上の制約に変換することができる。
さらに,対数変換 (logisloss) 下でのislossとpノルム損失との間には関係があることを明らかにした。
提案手法は,Racial FacesのRacial Facesにおける顔認証問題に適用し,大規模な分布偏差下では頑健であることを示す。 A crucial assumption underlying the most current theory of machine learning is that the training distribution is identical to the testing distribution. However, this assumption may not hold in some real-world applications. In this paper, we propose an importance sampling based data variation robust loss (ISloss) for learning problems which minimizes the worst case of loss under the constraint of distribution deviation. The distribution deviation constraint can be converted to the constraint over a set of weight distributions centered on the uniform distribution derived from the importance sampling method. Furthermore, we reveal that there is a relationship between ISloss under the logarithmic transformation (LogISloss) and the p-norm loss. We apply the proposed LogISloss to the face verification problem on Racial Faces in the Wild dataset and show that the proposed method is robust under large distribution deviations. | 翻訳日:2023-02-10 16:46:42 公開日:2023-02-09 |
# 予算制約下におけるマーケティング効率最適化のためのエンドツーエンドフレームワーク An End-to-End Framework for Marketing Effectiveness Optimization under Budget Constraint ( http://arxiv.org/abs/2302.04477v1 ) ライセンス: Link先を確認 | Ziang Yan, Shusen Wang, Guorui Zhou, Jingjian Lin, Peng Jiang | (参考訳) オンラインプラットフォームは、しばしばユーザーエンゲージメントとプラットフォーム収益を改善するために消費者にインセンティブを与える。
異なる消費者はインセンティブに異なる反応をする可能性があるため、個別の予算配分はマーケティングキャンペーンにおいて不可欠なタスクである。
この分野の最近の進歩は、しばしば2段階のパラダイムを用いて予算配分問題に対処している。第1段階は因果推論アルゴリズムを用いて個別レベルの処理効果を推定し、第2段階は整数計画法を実行して最適予算配分解を求める。
これら2つの段階の目標が完全に整合していない可能性があるため、このような2段階のパラダイムは全体的なマーケティング効果を損なう可能性がある。
本稿では,予算制約下でのビジネス目標を直接最適化する新たなエンドツーエンドフレームワークを提案する。
当社の中核となるアイデアは,マーケティング目標を表現し,勾配推定手法を用いて効率的に最適化するためのレギュラライザの構築です。
これにより、得られたモデルがマーケティング目標を直接的かつ正確に最大化することを学ぶことができる。
オフライン実験とオンライン実験の両方において提案手法を広範囲に評価し,本手法が現状の手法より優れていることを示す実験結果を得た。
提案手法は現在,ショートビデオプラットフォーム上で数億のユーザに対してマーケティング予算を割り当て,ビジネス目標の大幅な改善を実現している。
私たちのコードは公開されます。 Online platforms often incentivize consumers to improve user engagement and platform revenue. Since different consumers might respond differently to incentives, individual-level budget allocation is an essential task in marketing campaigns. Recent advances in this field often address the budget allocation problem using a two-stage paradigm: the first stage estimates the individual-level treatment effects using causal inference algorithms, and the second stage invokes integer programming techniques to find the optimal budget allocation solution. Since the objectives of these two stages might not be perfectly aligned, such a two-stage paradigm could hurt the overall marketing effectiveness. In this paper, we propose a novel end-to-end framework to directly optimize the business goal under budget constraints. Our core idea is to construct a regularizer to represent the marketing goal and optimize it efficiently using gradient estimation techniques. As such, the obtained models can learn to maximize the marketing goal directly and precisely. We extensively evaluate our proposed method in both offline and online experiments, and experimental results demonstrate that our method outperforms current state-of-the-art methods. Our proposed method is currently deployed to allocate marketing budgets for hundreds of millions of users on a short video platform and achieves significant business goal improvements. Our code will be publicly available. | 翻訳日:2023-02-10 16:40:24 公開日:2023-02-09 |
# GFM:連続事前訓練による地理空間基盤モデルの構築 GFM: Building Geospatial Foundation Models via Continual Pretraining ( http://arxiv.org/abs/2302.04476v1 ) ライセンス: Link先を確認 | Matias Mendieta, Boran Han, Xingjian Shi, Yi Zhu, Chen Chen, Mu Li | (参考訳) 地空間技術は,地球モニタリングや自然災害対応など,多岐にわたるタスクにおいて,地球空間技術の重要性が高まっている。
これらの地理空間的タスクにおける深層学習モデルの適用性や性能を向上させるため、様々な研究が地理空間的基礎モデル、すなわち、リモートセンシング画像の大規模なコーパスをゼロからトレーニングするアイデアを追求してきた。
しかし、このアプローチは、特に大きな最先端のトランスフォーマーモデルを使用する場合、適切なパフォーマンスを達成するために、かなりの量のデータとトレーニング時間を必要とすることが多い。
これらの課題を踏まえ,地理空間基礎モデル構築のための持続可能なアプローチを検討する。
当社の調査では、プロセスにおける2つの重要な要因を発見しました。
まず,事前学習データの選択が,地理空間領域内においても重要であることを知る。
したがって,事前学習のための簡潔で効果的なデータセットを収集する。
第二に、ImageNet-22kのような多様なデータセットで利用できる事前訓練されたモデルは、地理的基盤モデルを構築する際に無視すべきではない。
むしろ、それらの表現を活用することで、持続可能な方法で地理空間アプリケーションのための強力なモデルを構築することができる。
この目的のために,持続可能な地理空間基礎モデルの訓練のための多目的連続事前学習手法を定式化する。
我々は、さまざまな下流データセットとタスクを実験し、ImageNetベースラインや最先端の地理空間事前学習モデルと比較して、ボード全体で強力なパフォーマンスを実現した。 Geospatial technologies are becoming increasingly essential in our world for a large range of tasks, such as earth monitoring and natural disaster response. To help improve the applicability and performance of deep learning models on these geospatial tasks, various works have pursued the idea of a geospatial foundation model, i.e., training networks from scratch on a large corpus of remote sensing imagery. However, this approach often requires a significant amount of data and training time to achieve suitable performance, especially when employing large state-of-the-art transformer models. In light of these challenges, we investigate a sustainable approach to building geospatial foundation models. In our investigations, we discover two important factors in the process. First, we find that the selection of pretraining data matters, even within the geospatial domain. We therefore gather a concise yet effective dataset for pretraining. Second, we find that available pretrained models on diverse datasets like ImageNet-22k should not be ignored when building geospatial foundation models, as their representations are still surprisingly effective. Rather, by leveraging their representations, we can build strong models for geospatial applications in a sustainable manner. To this end, we formulate a multi-objective continual pretraining approach for training sustainable geospatial foundation models. We experiment on a wide variety of downstream datasets and tasks, achieving strong performance across the board in comparison to ImageNet baselines and state-of-the-art geospatial pretrained models. | 翻訳日:2023-02-10 16:40:03 公開日:2023-02-09 |
# コントラスト学習によるニュース見出しの文脈化引用の検出 Detecting Contextomized Quotes in News Headlines by Contrastive Learning ( http://arxiv.org/abs/2302.04465v1 ) ライセンス: Link先を確認 | Seonyeong Song, Hyeonho Song, Kunwoo Park, Jiyoung Han, Meeyoung Cha | (参考訳) 記事はニュース記事の信頼性を確立するために重要である。
引用符で囲まれた直接引用は、強い視覚的魅力を持ち、信頼できる引用のサインである。
残念なことに、この報道の実践は厳密には守られておらず、見出しの引用はしばしば「文脈化」される。
このような引用は、話者の意図を変える方法で文脈から単語を使い、ボディテキストに意味的に一致する引用がないようにする。
本稿では,ドメイン駆動型肯定的,否定的なサンプルに基づく引用文の埋め込みを表現し,そのような編集戦略を識別する対照的な学習フレームワークQuoteCSEを提案する。
データセットとコードはhttps://github.com/ssu-humane/contextomized-quote-contrastiveで入手できる。 Quotes are critical for establishing credibility in news articles. A direct quote enclosed in quotation marks has a strong visual appeal and is a sign of a reliable citation. Unfortunately, this journalistic practice is not strictly followed, and a quote in the headline is often "contextomized." Such a quote uses words out of context in a way that alters the speaker's intention so that there is no semantically matching quote in the body text. We present QuoteCSE, a contrastive learning framework that represents the embedding of news quotes based on domain-driven positive and negative samples to identify such an editorial strategy. The dataset and code are available at https://github.com/ssu-humane/contextomized-quote-contrastive. | 翻訳日:2023-02-10 16:39:39 公開日:2023-02-09 |
# 多次元個人化エッジモデルによるより公平で効率的なフェデレーション学習を目指して Towards Fairer and More Efficient Federated Learning via Multidimensional Personalized Edge Models ( http://arxiv.org/abs/2302.04464v1 ) ライセンス: Link先を確認 | Yingchun Wang and Jingcai Gun and Song Gun and Weizhan Zhang | (参考訳) フェデレーション学習(FL)は、プライバシーを維持しながら、大規模で地理的に分散したエッジデータをトレーニングする新興技術である。
しかしながら、flはエッジの不均一性が高まることによる公平性と計算効率の面で固有の課題を抱えており、そのため、近年のsota (state-of-the-art) ソリューションでは準最適性能となる。
本稿では,複数の次元からFLの不均一性を除去するカスタム・フェデレート・ラーニング(CFL)システムを提案する。
具体的には、クライアント毎に特別に設計されたグローバルモデルからモデルをパーソナライズし、オンライントレーニングされたモデル検索ヘルパーと新しいアグリゲーションアルゴリズムを共同で指導する。
広範な実験により、cflはflトレーニングとエッジ推論の両方にフルスタックの利点を持ち、somaモデル精度(非ヘテロゲン環境では最大7.2%、異質環境では最大21.8%)、効率、およびflフェアネスを大幅に改善できることが示されている。 Federated learning (FL) is an emerging technique that trains massive and geographically distributed edge data while maintaining privacy. However, FL has inherent challenges in terms of fairness and computational efficiency due to the rising heterogeneity of edges, and thus usually result in sub-optimal performance in recent state-of-the-art (SOTA) solutions. In this paper, we propose a Customized Federated Learning (CFL) system to eliminate FL heterogeneity from multiple dimensions. Specifically, CFL tailors personalized models from the specially designed global model for each client, jointly guided an online trained model-search helper and a novel aggregation algorithm. Extensive experiments demonstrate that CFL has full-stack advantages for both FL training and edge reasoning and significantly improves the SOTA performance w.r.t. model accuracy (up to 7.2% in the non-heterogeneous environment and up to 21.8% in the heterogeneous environment), efficiency, and FL fairness. | 翻訳日:2023-02-10 16:39:26 公開日:2023-02-09 |
# 非線形ランダム行列と二乗階層の和への応用 Nonlinear Random Matrices and Applications to the Sum of Squares Hierarchy ( http://arxiv.org/abs/2302.04462v1 ) ライセンス: Link先を確認 | Goutham Rajendran | (参考訳) 非線形ランダム行列の理論における新しいツールを開発し、それを平均ケース問題における正方形(SoS)階層の性能の研究に応用する。
SoS階層は強力な最適化手法であり、組合せ最適化、ロバスト統計学、機械学習の様々な問題において大きな成功を収めた。
これは凸緩和のファミリーで、近似保証のためにランニングタイムをスムーズに取り除くことができます。
近年の研究では,高次元ノイズデータの復元に極めて有用であることが示されている。
それはまた、悪名高いUnique Games Conjectureに反論する最良のアプローチです。
本研究では,統計学,理論計算機科学,統計物理学などの基礎的問題に対するsos階層のパフォーマンスを分析する。
特に, やや密度の高い部分グラフ, テンソル主成分分析, スパース主成分分析を施したシェリントン・カークパトリックハミルトニアン問題に対して, サブ指数時間sos下限を示す。
これらの SoS の下位境界は、我々の主な貢献である大きなランダム行列の分析を含む。
これらの結果は、仮説検証のための有界時間アルゴリズムのパワーを予測する重要な予想である低次度確率比仮説の真理と洞察の強い証拠を提供する。
また,独立確率変数の関数であるランダム行列の挙動を解析するための汎用ツールを開発した。
これに向けて、Efron-Stein不等式の行列多様体を構築し、一般化する。
特に, 行列濃度に関する一般定理は, 文献に現れる様々な結果を復元する。
これらのランダム行列理論のアイデアは、他の重要な応用を期待する。 We develop new tools in the theory of nonlinear random matrices and apply them to study the performance of the Sum of Squares (SoS) hierarchy on average-case problems. The SoS hierarchy is a powerful optimization technique that has achieved tremendous success for various problems in combinatorial optimization, robust statistics and machine learning. It's a family of convex relaxations that lets us smoothly trade off running time for approximation guarantees. In recent works, it's been shown to be extremely useful for recovering structure in high dimensional noisy data. It also remains our best approach towards refuting the notorious Unique Games Conjecture. In this work, we analyze the performance of the SoS hierarchy on fundamental problems stemming from statistics, theoretical computer science and statistical physics. In particular, we show subexponential-time SoS lower bounds for the problems of the Sherrington-Kirkpatrick Hamiltonian, Planted Slightly Denser Subgraph, Tensor Principal Components Analysis and Sparse Principal Components Analysis. These SoS lower bounds involve analyzing large random matrices, wherein lie our main contributions. These results offer strong evidence for the truth of and insight into the low-degree likelihood ratio hypothesis, an important conjecture that predicts the power of bounded-time algorithms for hypothesis testing. We also develop general-purpose tools for analyzing the behavior of random matrices which are functions of independent random variables. Towards this, we build on and generalize the matrix variant of the Efron-Stein inequalities. In particular, our general theorem on matrix concentration recovers various results that have appeared in the literature. We expect these random matrix theory ideas to have other significant applications. | 翻訳日:2023-02-10 16:39:06 公開日:2023-02-09 |
# 簡易訓練可能なMIMO信号検出用ハバードストラットノビッチ検出器 Hubbard-Stratonovich Detector for Simple Trainable MIMO Signal Detection ( http://arxiv.org/abs/2302.04461v1 ) ライセンス: Link先を確認 | Satoshi Takabe and Takashi Abe | (参考訳) MIMO(Massive multiple-input multiple-output)は、第5世代の無線通信ネットワークで使われる重要な技術である。
近年,深層学習に基づく様々なMIMO信号検出器が提案されている。
特に、既存の反復アルゴリズムの展開とトレーニング可能なパラメータの埋め込みを含むディープ・アンフォールディング(DU)が顕著な検出性能で適用されている。
duは従来のディープニューラルネットワークよりもトレーニング可能なパラメータが少ないが、duベースのmimo検出器は通常、マトリックスインバージョンを使用して検出性能を向上させるため、トレーニングと実行に関連する計算の複雑さが問題となっている。
本研究では,最も単純な構造を持つDU型トレーニング可能なMIMO検出器の構築を試みた。
提案されたハバード・ストラトノヴィチ変換とduに基づく検出器は、訓練可能なhs検出器 (ths) と呼ばれる。
トレーニング可能なパラメータは$o(1)$で、トレーニングと実行のコストは1イテレーションあたり$o(n^2)$である。
数値計算の結果,ths検出器の検出性能は同じ複雑性を持つ既存のアルゴリズムよりも優れており,また,ths検出器よりも高いトレーニングコストと実行コストを有するdu検出器に近いことがわかった。 Massive multiple-input multiple-output (MIMO) is a key technology used in fifth-generation wireless communication networks and beyond. Recently, various MIMO signal detectors based on deep learning have been proposed. Especially, deep unfolding (DU), which involves unrolling of an existing iterative algorithm and embedding of trainable parameters, has been applied with remarkable detection performance. Although DU has a lesser number of trainable parameters than conventional deep neural networks, the computational complexities related to training and execution have been problematic because DU-based MIMO detectors usually utilize matrix inversion to improve their detection performance. In this study, we attempted to construct a DU-based trainable MIMO detector with the simplest structure. The proposed detector based on the Hubbard--Stratonovich (HS) transformation and DU is called the trainable HS (THS) detector. It requires only $O(1)$ trainable parameters and its training and execution cost is $O(n^2)$ per iteration, where $n$ is the number of transmitting antennas. Numerical results show that the detection performance of the THS detector is better than that of existing algorithms of the same complexity and close to that of a DU-based detector, which has higher training and execution costs than the THS detector. | 翻訳日:2023-02-10 16:38:42 公開日:2023-02-09 |
# 言語モデルからデータ抽出を訓練するためのトリックのバグ Bag of Tricks for Training Data Extraction from Language Models ( http://arxiv.org/abs/2302.04460v1 ) ライセンス: Link先を確認 | Weichen Yu, Tianyu Pang, Qian Liu, Chao Du, Bingyi Kang, Yan Huang, Min Lin, Shuicheng Yan | (参考訳) 言語モデルの進歩により、プライバシー保護はより注目を集めている。
そのため、プライバシー漏洩を評価する潜在的なツールとして機能するため、データ抽出のトレーニングは非常に重要である。
しかし、この作業の難しさから、既存の手法のほとんどは概念実証であり、まだ有効ではない。
本稿では,公開データセットを用いたトレーニングデータ抽出手法の検討とベンチマーク手法を提案する。
既存の抽出方法は,テキスト候補を潜在的訓練データとして生成し,特定の基準に基づいてランク付けするパイプラインを使用するため,テキスト生成(サンプリング戦略など)とテキストランキング(トークンレベルの基準など)の両方のトリックに注目している。
実験の結果,これまで見過ごされていたいくつかの手技が,トレーニングデータ抽出の成功に不可欠であることが判明した。
gpt-neo 1.3bの評価結果に基づいて,提案手法は,多くの場合においてベースラインを大きなマージンで上回り,今後の研究においてはるかに強力なベースラインとなる。 With the advance of language models, privacy protection is receiving more attention. Training data extraction is therefore of great importance, as it can serve as a potential tool to assess privacy leakage. However, due to the difficulty of this task, most of the existing methods are proof-of-concept and still not effective enough. In this paper, we investigate and benchmark tricks for improving training data extraction using a publicly available dataset. Because most existing extraction methods use a pipeline of generating-then-ranking, i.e., generating text candidates as potential training data and then ranking them based on specific criteria, our research focuses on the tricks for both text generation (e.g., sampling strategy) and text ranking (e.g., token-level criteria). The experimental results show that several previously overlooked tricks can be crucial to the success of training data extraction. Based on the GPT-Neo 1.3B evaluation results, our proposed tricks outperform the baseline by a large margin in most cases, providing a much stronger baseline for future research. | 翻訳日:2023-02-10 16:38:22 公開日:2023-02-09 |
# ゼロショットイベント引数分類のためのプロンプト付きグローバル制約 Global Constraints with Prompting for Zero-Shot Event Argument Classification ( http://arxiv.org/abs/2302.04459v1 ) ライセンス: Link先を確認 | Zizheng Lin, Hongming Zhang and Yangqiu Song | (参考訳) イベント引数の役割を決定することは、イベント抽出の重要なサブタスクである。
以前の監督モデルの多くはコストのかかるアノテーションを利用するが、これはオープンドメインアプリケーションでは実用的ではない。
本稿では,アノテーションやタスク固有のトレーニングを使わずに,イベント引数の分類に効果的に取り組むことを促すために,グローバル制約の利用を提案する。
具体的には、イベントとその関連通路が与えられると、モデルが最初にプレフィックスプロンプトとclozeプロンプトによっていくつかの新しい通路を作成し、プレフィックスプロンプトがイベントタイプとトリガースパンを示し、clozeプロンプトがそれぞれの候補ロールとターゲット引数スパンを接続する。
次に、事前学習した言語モデルが新しい節をスコア付けし、最初の予測を行う。
我々の新しいプロンプトテンプレートは、手作業なしですべてのイベントと引数タイプに容易に適応できます。
次に、このモデルは、クロスタスク、クロスアロゲーション、クロスイベント関係を利用したグローバル制約による予測を定式化する。
aceおよびereにおける最高のゼロショットベースラインを、与えられた引数スパンで12.5%、ereで10.9%、引数スパンで4.3%、f1を3.3%上回った。
私たちはコードを公開しました。 Determining the role of event arguments is a crucial subtask of event extraction. Most previous supervised models leverage costly annotations, which is not practical for open-domain applications. In this work, we propose to use global constraints with prompting to effectively tackles event argument classification without any annotation and task-specific training. Specifically, given an event and its associated passage, the model first creates several new passages by prefix prompts and cloze prompts, where prefix prompts indicate event type and trigger span, and cloze prompts connect each candidate role with the target argument span. Then, a pre-trained language model scores the new passages, making the initial prediction. Our novel prompt templates can easily adapt to all events and argument types without manual effort. Next, the model regularizes the prediction by global constraints exploiting cross-task, cross-argument, and cross-event relations. Extensive experiments demonstrate our model's effectiveness: it outperforms the best zero-shot baselines by 12.5% and 10.9% F1 on ACE and ERE with given argument spans and by 4.3% and 3.3% F1, respectively, without given argument spans. We have made our code publicly available. | 翻訳日:2023-02-10 16:38:03 公開日:2023-02-09 |
# ERNIE-Music:拡散モデルを用いたテキスト・波形音楽生成 ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models ( http://arxiv.org/abs/2302.04456v1 ) ライセンス: Link先を確認 | Pengfei Zhu, Chao Pang, Shuohuan Wang, Yekun Chai, Yu Sun, Hao Tian, Hua Wu | (参考訳) 近年,拡散モデルを用いた画像生成や音声生成が盛んに行われている。
しかし、自由形式のテキストプロンプトから直接音楽波形を生成することは、まだ未定である。
本稿では,拡散モデルを用いて任意のテキストを受信できる最初のテキスト・波形音楽生成モデルを提案する。
拡散モデルの波形生成過程を導出する条件として,自由形式のテキストプロンプトを組み込む。
このようなテキスト・音楽並列データの欠如を解決するため,インターネットからテキスト・音楽ペアのデータセットを弱監督下で収集する。
さらに,2つの条件付きテキスト(音楽タグと自由形式テキスト)の効果を比較し,テキスト関連性の観点から,本手法の優れた性能を証明した。
さらに、波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりもはるかに優れていることを示す。 In recent years, there has been an increased popularity in image and speech generation using diffusion models. However, directly generating music waveforms from free-form text prompts is still under-explored. In this paper, we propose the first text-to-waveform music generation model that can receive arbitrary texts using diffusion models. We incorporate the free-form textual prompt as the condition to guide the waveform generation process of diffusion models. To solve the problem of lacking such text-music parallel data, we collect a dataset of text-music pairs from the Internet with weak supervision. Besides, we compare the effect of two prompt formats of conditioning texts (music tags and free-form texts) and prove the superior performance of our method in terms of text-music relevance. We further demonstrate that our generated music in the waveform domain outperforms previous works by a large margin in terms of diversity, quality, and text-music relevance. | 翻訳日:2023-02-10 16:37:40 公開日:2023-02-09 |
# ホームレスの修復 - データセットとキーポイント Rehabilitating Homeless: Dataset and Key Insights ( http://arxiv.org/abs/2302.04455v1 ) ライセンス: Link先を確認 | Anna Bykova, Nikolay Filippov, Ivan P. Yamshchikov | (参考訳) 本稿では,ホームレス者のデータ駆動リハビリテーションに関する知見とともに,ホームレスの匿名化データセットを提案する。
データセットは、20年間ホームレスのリハビリテーションに取り組んでいる大手非営利団体が収集した。
これは、リハビリを求める何千人ものホームレスの人々の豊富な情報を含む最初のデータセットです。
ホームレスのリハビリテーションをより効果的かつ成功させる上で,データ分析がいかに役立つかを示す。
そこで,本稿では,データサイエンスのコミュニティに対して,ホームレスの問題を警告する。 This paper presents a large anonymized dataset of homelessness alongside insights into the data-driven rehabilitation of homeless people. The dataset was gathered by a large nonprofit organization working on rehabilitating the homeless for twenty years. This is the first dataset that we know of that contains rich information on thousands of homeless individuals seeking rehabilitation. We show how data analysis can help to make the rehabilitation of homeless people more effective and successful. Thus, we hope this paper alerts the data science community to the problem of homelessness. | 翻訳日:2023-02-10 16:37:27 公開日:2023-02-09 |
# 拡張共分散行列に基づくBCI-EEGの分類 Classification of BCI-EEG based on augmented covariance matrix ( http://arxiv.org/abs/2302.04508v1 ) ライセンス: Link先を確認 | Igor Carrara (UCA, CRISAM, Inria - Cronos Team), Th\'eodore Papadopoulo (UCA, CRISAM, Inria - Cronos Team) | (参考訳) 目的:脳波信号は多次元データセットとして記録される。
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
方法:自己回帰モデルから、対称正定値行列:拡張共分散行列の出現を示すユール=ウォーカー方程式を導出することができる。
共分散行列の分類技術の現状はリーマン幾何学に基づいている。
したがって、かなり自然な考え方は、これらの拡張共分散行列を用いて標準的アプローチを拡張することである。
拡張共分散行列を作成するための方法論は、力学系に対してTakensが提唱した遅延埋め込み定理と自然な関係を示す。
このような埋め込み法は遅延と埋め込み次元という2つのパラメータの知識に基づいており、それぞれラグと自己回帰モデルの順序に関係している。
このアプローチは、標準グリッド探索に加えて、ハイパーパラメータを計算する新しい方法を提供する。
結果: 拡張共分散行列はどの最先端手法よりも顕著に向上した。
我々はMOABBフレームワークを用いて,複数のデータセットと複数の被験者に対して,セッション内評価とクロスセッション評価の両方を用いてアプローチを検証する。
結論: 拡張共分散行列は空間的情報だけでなく時間的情報も含み, 信号の非線形成分を埋め込み処理によって組み込むことにより, 動的システムアルゴリズムの活用が可能となった。
意義: これらの結果はリーマン距離に基づく分類アルゴリズムの概念と結果を拡張する。 Objective: Electroencephalography signals are recorded as a multidimensional dataset. We propose a new framework based on the augmented covariance extracted from an autoregressive model to improve motor imagery classification. Methods: From the autoregressive model can be derived the Yule-Walker equations, which show the emergence of a symmetric positive definite matrix: the augmented covariance matrix. The state-of the art for classifying covariance matrices is based on Riemannian Geometry. A fairly natural idea is therefore to extend the standard approach using these augmented covariance matrices. The methodology for creating the augmented covariance matrix shows a natural connection with the delay embedding theorem proposed by Takens for dynamical systems. Such an embedding method is based on the knowledge of two parameters: the delay and the embedding dimension, respectively related to the lag and the order of the autoregressive model. This approach provides new methods to compute the hyper-parameters in addition to standard grid search. Results: The augmented covariance matrix performed noticeably better than any state-of-the-art methods. We will test our approach on several datasets and several subjects using the MOABB framework, using both within-session and cross-session evaluation. Conclusion: The improvement in results is due to the fact that the augmented covariance matrix incorporates not only spatial but also temporal information, incorporating nonlinear components of the signal through an embedding procedure, which allows the leveraging of dynamical systems algorithms. Significance: These results extend the concepts and the results of the Riemannian distance based classification algorithm. | 翻訳日:2023-02-10 16:31:31 公開日:2023-02-09 |
# 量子ワングタイリングの非周期性 Aperiodicity in Quantum Wang Tilings ( http://arxiv.org/abs/2302.04503v1 ) ライセンス: Link先を確認 | Titouan Carette, Etienne Moutot | (参考訳) タングタイル形式をテンソルで再構成することにより、確率的および量子的設定に対する自然な一般化を提案する。
この新しい枠組みでは、タイリングの概念と周期性を直接拡張する手法を導入する。
一次元の場合、零行列のトレース特性にリンクすることで一般化ドミノ問題の決定可能性を取り戻す。
二次元の場合、弱周期性および強周期性の拡張を提供し、これらの一般化された概念の同値性を示し、古典的な場合においてよく知られた同値性を拡張する。
また、量子的タイル集合は非周期的であるが、その基礎となる古典的タイル集合はそうではない。 By reformulating the Wang tiles formalism with tensors, we propose a natural generalization to the probabilistic and quantum setting. In this new framework, we introduce notions of tilings and periodicity directly extending their classical counterparts. In the one dimensional case, we recover the decidability of the generalized domino problem by linking it to the trace characterization of nilpotent matrices. In the two-dimensional case, we provide extension of weak and strong aperiodicity respectively and show the equivalence of those generalized notions, extending the well known equivalence in the classical case. We also exhibit a quantum tile set being aperiodic while its underlying classical tile set is not, proving that quantum interference can suppress periodic patterns. | 翻訳日:2023-02-10 16:31:10 公開日:2023-02-09 |
# MTS-Mixers:分解時間とチャネル混合による多変量時系列予測 MTS-Mixers: Multivariate Time Series Forecasting via Factorized Temporal and Channel Mixing ( http://arxiv.org/abs/2302.04501v1 ) ライセンス: Link先を確認 | Zhe Li, Zhongwen Rao, Lujia Pan, Zenglin Xu | (参考訳) 多変量時系列予測は様々な実践シナリオで広く用いられている。
近年、Transformerベースのモデルでは、長距離依存の捕捉によるタスクの予測に有意な可能性を示している。
しかし、近年のビジョンとNLPフィールドの研究は、注意モジュールの役割が明確でないことを示しており、他のトークン集約操作に置き換えることができる。
本稿では,時系列予測の性能に対する注意機構の寄与と欠陥について検討する。
具体的には,(1)時間依存の把握には注意が必要ではなく,(2)時間的およびチャネル的相互作用の捕捉における絡み合いと冗長性が予測性能に影響を与え,(3)入力と予測シーケンスのマッピングをモデル化することが重要である。
この目的のために,2つの分解モジュールを用いて時間的およびチャネル的依存関係をキャプチャするMTS-Mixersを提案する。
いくつかの実世界のデータセットにおける実験結果は、mtsミキサーが既存のトランスフォーマーベースのモデルよりも効率が良いことを示している。 Multivariate time series forecasting has been widely used in various practical scenarios. Recently, Transformer-based models have shown significant potential in forecasting tasks due to the capture of long-range dependencies. However, recent studies in the vision and NLP fields show that the role of attention modules is not clear, which can be replaced by other token aggregation operations. This paper investigates the contributions and deficiencies of attention mechanisms on the performance of time series forecasting. Specifically, we find that (1) attention is not necessary for capturing temporal dependencies, (2) the entanglement and redundancy in the capture of temporal and channel interaction affect the forecasting performance, and (3) it is important to model the mapping between the input and the prediction sequence. To this end, we propose MTS-Mixers, which use two factorized modules to capture temporal and channel dependencies. Experimental results on several real-world datasets show that MTS-Mixers outperform existing Transformer-based models with higher efficiency. | 翻訳日:2023-02-10 16:30:57 公開日:2023-02-09 |
# FLAC:分散トランザクションのための実践的障害対応アトミックコミットプロトコル FLAC: Practical Failure-Aware Atomic Commit Protocol for Distributed Transactions ( http://arxiv.org/abs/2302.04500v1 ) ライセンス: Link先を確認 | Hexiang Pan, Quang-Trung Ta, Meihui Zhang, Yeow Meng Chee, Gang Chen, Beng Chin Ooi | (参考訳) 分散トランザクション処理では、アトミックコミットプロトコル(ACP)がデータベースの一貫性を保証するために使用される。
コモディティな計算ノードとネットワークを使用することで、システムクラッシュやネットワーク分割などの障害が一般的になる。
したがって、ACPはデータベースの整合性を確保しつつ、効率的に動作条件に適応することが重要である。
既存のACPは安定な動作条件を前提としており、異なる環境に対して一般化できないか、実際は遅くなる。
本稿では,Failure-Aware Atomic Commit (FLAC) と呼ばれる新しい実用的なACPを提案する。
FLACには3つのサブプロトコールが含まれており、特に3つの異なる環境向けに設計されている。
(i)失敗は発生しない。
二 参加者ノードがクラッシュすることがあるが、遅延接続がない、又は
(iii)クラッシュノードと遅延接続が発生し得る。
これらの環境を障害フリー、クラッシュフェール、ネットワークフェールの堅牢性レベルとしてモデル化する。
運用中、flacは障害が発生したかどうかを監視し、強化学習によってパラメータが微調整されたロバスト性レベル状態マシンを使用して、最も適切なサブプロトコルを操作するように動的に切り替えることができる。
その結果、応答時間とスループットの両方を改善し、クラッシュやネットワーク障害が発生する可能性のあるインターネットに分散したノードを効果的に処理する。
我々は,google percolatorに基づく分散トランザクション型キーバリューストレージシステムにおいてflacを実装し,マイクロベンチマークと実際のワークロードのマクロベンチマークの両方でその性能を評価する。
その結果、flacは最大2.22倍のスループット向上と2.82倍のレイテンシ高速化を達成できた。 In distributed transaction processing, atomic commit protocol (ACP) is used to ensure database consistency. With the use of commodity compute nodes and networks, failures such as system crashes and network partitioning are common. It is therefore important for ACP to dynamically adapt to the operating condition for efficiency while ensuring the consistency of the database. Existing ACPs often assume stable operating conditions, hence, they are either non-generalizable to different environments or slow in practice. In this paper, we propose a novel and practical ACP, called Failure-Aware Atomic Commit (FLAC). In essence, FLAC includes three sub-protocols, which are specifically designed for three different environments: (i) no failure occurs, (ii) participant nodes might crash but there is no delayed connection, or (iii) both crashed nodes and delayed connection can occur. It models these environments as the failure-free, crash-failure, and network-failure robustness levels. During its operation, FLAC can monitor if any failure occurs and dynamically switch to operate the most suitable sub-protocol, using a robustness level state machine, whose parameters are fine-tuned by reinforcement learning. Consequently, it improves both the response time and throughput, and effectively handles nodes distributed across the Internet where crash and network failures might occur. We implement FLAC in a distributed transactional key-value storage system based on Google Percolator and evaluate its performance with both a micro benchmark and a macro benchmark of real workload. The results show that FLAC achieves up to 2.22x throughput improvement and 2.82x latency speedup, compared to existing ACPs for high-contention workloads. | 翻訳日:2023-02-10 16:30:39 公開日:2023-02-09 |
# 広帯域高度観測のためのスケールアウェア型ニューラルキャリブレーション Scale-aware neural calibration for wide swath altimetry observations ( http://arxiv.org/abs/2302.04497v1 ) ライセンス: Link先を確認 | Febvre Quentin, Ubelmann Cl\'ement, Le Sommer Julien and Fablet Ronan | (参考訳) 海面高度(SSH)はメソスケールの海面力学をモニタリングし研究するための重要な物理パラメータである。
数十年間、地域規模と世界規模でのSSH製品のマッピングは、SSHの1次元のみの衛星観測を提供するナディル衛星高度計に依存してきた。
表面水と海洋地形(SWOT)ミッションは、SSHの広視野2次元観測を初めて取得する新しいセンサーを配備する。
これにより、未解決の空間スケールで海洋を観測する新たな手段が提供される。
SWOTデータを利用する上で重要な課題は、SSHを観測中の他の信号から分離することである。
本稿では,このSWOT校正問題に対する学習に基づく新しいアプローチを提案する。
キャリブレーションされたナディアの高度積と、SWOTのスワスト幾何学や様々なプロセスの構造に適応したスケール空間分解の恩恵を受ける。
教師付き設定では、10kmから1000kまでのスペクトル全体を補正しながら、最先端の残留誤差~1.4cmに達する。 Sea surface height (SSH) is a key geophysical parameter for monitoring and studying meso-scale surface ocean dynamics. For several decades, the mapping of SSH products at regional and global scales has relied on nadir satellite altimeters, which provide one-dimensional-only along-track satellite observations of the SSH. The Surface Water and Ocean Topography (SWOT) mission deploys a new sensor that acquires for the first time wide-swath two-dimensional observations of the SSH. This provides new means to observe the ocean at previously unresolved spatial scales. A critical challenge for the exploiting of SWOT data is the separation of the SSH from other signals present in the observations. In this paper, we propose a novel learning-based approach for this SWOT calibration problem. It benefits from calibrated nadir altimetry products and a scale-space decomposition adapted to SWOT swath geometry and the structure of the different processes in play. In a supervised setting, our method reaches the state-of-the-art residual error of ~1.4cm while proposing a correction on the entire spectral from 10km to 1000k | 翻訳日:2023-02-10 16:30:15 公開日:2023-02-09 |
# 双対アルゴリズム推論 Dual Algorithmic Reasoning ( http://arxiv.org/abs/2302.04496v1 ) ライセンス: Link先を確認 | Danilo Numeroso, Davide Bacciu, Petar Veli\v{c}kovi\'c | (参考訳) ニューラルアルゴリズム推論(英語: neural algorithmic reasoning)は、ニューラルネットワークにおけるアルゴリズム計算を融合させようとする機械学習の新しい分野である。
この文脈では、現在の研究の多くは、到達可能性の学習と最短パスグラフアルゴリズムに焦点を合わせており、類似したアルゴリズムによる共同学習が一般化に有用であることを示している。
しかし、より複雑な問題をターゲットにすると、同様のアルゴリズムを見つけるのが難しくなる。
本稿では,基礎となるアルゴリズム問題の双対性を利用してアルゴリズムを学ぶことを提案する。
多くのアルゴリズムが最適化問題を解く。
アルゴリズム学習における最適化問題の2つの定義を同時に学習することで,より優れた学習と質的に優れた解が得られることを示す。
具体的には,この2つのアルゴリズムを合成グラフ上で同時に学習し,提案手法の有効性を実証する。
次に,この2つのアルゴリズム推論器の実用性を検証するため,難易度の高い脳血管分類タスクに配置した。
このようなコンテキスト内でモデルを使用する場合、明確なパフォーマンス向上を示すとともに、max-flowとmin-cutアルゴリズムを一緒に学習することが、この結果を達成する上で重要であることを実証的に示します。 Neural Algorithmic Reasoning is an emerging area of machine learning which seeks to infuse algorithmic computation in neural networks, typically by training neural models to approximate steps of classical algorithms. In this context, much of the current work has focused on learning reachability and shortest path graph algorithms, showing that joint learning on similar algorithms is beneficial for generalisation. However, when targeting more complex problems, such similar algorithms become more difficult to find. Here, we propose to learn algorithms by exploiting duality of the underlying algorithmic problem. Many algorithms solve optimisation problems. We demonstrate that simultaneously learning the dual definition of these optimisation problems in algorithmic learning allows for better learning and qualitatively better solutions. Specifically, we exploit the max-flow min-cut theorem to simultaneously learn these two algorithms over synthetically generated graphs, demonstrating the effectiveness of the proposed approach. We then validate the real-world utility of our dual algorithmic reasoner by deploying it on a challenging brain vessel classification task, which likely depends on the vessels' flow properties. We demonstrate a clear performance gain when using our model within such a context, and empirically show that learning the max-flow and min-cut algorithms together is critical for achieving such a result. | 翻訳日:2023-02-10 16:29:58 公開日:2023-02-09 |
# 球面画像の3次元再構成:技術・応用・展望のレビュー 3D reconstruction of spherical images: A review of techniques, applications, and prospects ( http://arxiv.org/abs/2302.04495v1 ) ライセンス: Link先を確認 | San Jiang, Yaxin Li, Duojie Weng, Kan You, Wu Chen | (参考訳) 3次元再構成は、現代のフォトグラムシステムにおいてますます重要な役割を担っている。
従来の衛星や空中リモートセンシング(RS)プラットフォームは、大規模な地形や都市の3D再構成に必要なデータソースを提供することができる。
低高度のuav(無人航空機)でも、都市キャニオンや屋内シーンなどの複雑な状況下での3d再構成は、カメラフレーム間の頻繁なトラッキング障害と高いデータ収集コストのために困難である。
近年,球面画像は1台のカメラから周囲の環境を撮影する能力から広く利用されている。
視野画像がFOV(Field of View)に制限されているのとは対照的に、球面画像は全シーンを水平および垂直のFOVでカバーし、これらの複雑なシーンにおけるカメラトラッキングとデータ取得を容易にする。
プロ用および消費者向けの球面カメラの急速な進化と広範囲な利用により、球面画像は都市・屋内シーンの3Dモデリングに大きな可能性を示している。
しかし、古典的な3dリコンストラクションパイプラインは、球面画像に直接使用することはできない。
さらに、球面画像の3d再構成のために設計されたソフトウェアパッケージも少なくない。
そこで本研究では,データ取得,特徴検出とマッチング,画像配向,高密度マッチングといった観点で,球面画像の3次元再構成技術の現状を徹底的に調査するとともに,有望な応用例を示し,今後の可能性について議論する。
本研究は今後の研究を導く手がかりとなるだろう。 3D reconstruction plays an increasingly important role in modern photogrammetric systems. Conventional satellite or aerial-based remote sensing (RS) platforms can provide the necessary data sources for the 3D reconstruction of large-scale landforms and cities. Even with low-altitude UAVs (Unmanned Aerial Vehicles), 3D reconstruction in complicated situations, such as urban canyons and indoor scenes, is challenging due to frequent tracking failures between camera frames and high data collection costs. Recently, spherical images have been extensively used due to the capability of recording surrounding environments from one camera exposure. In contrast to perspective images with limited FOV (Field of View), spherical images can cover the whole scene with full horizontal and vertical FOV and facilitate camera tracking and data acquisition in these complex scenes. With the rapid evolution and extensive use of professional and consumer-grade spherical cameras, spherical images show great potential for the 3D modeling of urban and indoor scenes. Classical 3D reconstruction pipelines, however, cannot be directly used for spherical images. Besides, there exist few software packages that are designed for the 3D reconstruction of spherical images. As a result, this research provides a thorough survey of the state-of-the-art for 3D reconstruction of spherical images in terms of data acquisition, feature detection and matching, image orientation, and dense matching as well as presenting promising applications and discussing potential prospects. We anticipate that this study offers insightful clues to direct future research. | 翻訳日:2023-02-10 16:29:36 公開日:2023-02-09 |
# ツリー学習:最適なアルゴリズムとサンプル複雑さ Tree Learning: Optimal Algorithms and Sample Complexity ( http://arxiv.org/abs/2302.04492v1 ) ライセンス: Link先を確認 | Dmitrii Avdiukhin, Grigory Yaroslavtsev, Danny Vainstein, Orr Fischer, Sauman Das, Faraz Mirza | (参考訳) ラベル付きサンプルから,任意の(おそらくは逆)分布から抽出したデータの階層的ツリー表現を学習する問題について検討する。
階層構造に従ってラベル付けされたデータタプルの集合を考える。
続くタプルを正確にラベル付けするために必要となるタプルの最小数は、機械学習におけるデータ収集に対する関心である。
本稿では,PAC学習とオンライン学習を含むいくつかの学習環境において,この問題に対する最適サンプル複雑性境界を提案する。
この結果はナタラジャンの密接な境界と関連する問題のリトルストーン次元に基づいている。
対応する木分類器は、ほぼ直線時間で効率的に構築することができる。 We study the problem of learning a hierarchical tree representation of data from labeled samples, taken from an arbitrary (and possibly adversarial) distribution. Consider a collection of data tuples labeled according to their hierarchical structure. The smallest number of such tuples required in order to be able to accurately label subsequent tuples is of interest for data collection in machine learning. We present optimal sample complexity bounds for this problem in several learning settings, including (agnostic) PAC learning and online learning. Our results are based on tight bounds of the Natarajan and Littlestone dimensions of the associated problem. The corresponding tree classifiers can be constructed efficiently in near-linear time. | 翻訳日:2023-02-10 16:29:11 公開日:2023-02-09 |
# ホスト型産業環境におけるフレキシブル製造のための汎用移動マニピュレータ自動化フレームワーク A General Mobile Manipulator Automation Framework for Flexible Manufacturing in Hostile Industrial Environments ( http://arxiv.org/abs/2302.04486v1 ) ライセンス: Link先を確認 | Can Pu, Chuanyu Yang, Jinnian Pu and Robert B. Fisher | (参考訳) フレキシブルな製造には、1つの教示デモからヒューマンタスクを実行できる移動マニピュレータが不可欠である。
提案手法をMMPA (Mobile Manipulator Process Automation with One-shot Teaching) と呼ぶ。
現在、厳しい産業環境や移動基地の駐車精度の影響を受けない、効果的で堅牢なMMPAフレームワークは存在しない。
提案するmmpaフレームワークは,ロボット学習の指導段階におけるデータ収集(モバイルベースの位置,環境情報,エンドエフェクタパス),エンドエフェクタがワールドフレームの参照パスとほぼ同じ経路を繰り返すことによって,自動化段階における作業を再現する,という2段階からなる。
より具体的には、自動化の段階では、ロボットは正確な駐車を必要とせずに特定の場所に移動する。
そして,カラーポイントクラウド登録に基づいて,提案するipp(iterative pose estimation by eye & hand)アルゴリズムは,マーカーを必要とせずに,ロボットアームベースの正確な6次元相対駐車姿勢を推定できる。
最後に、ロボットは、駐車ポーズのバイアスからエラー補償を学習し、エンドエフェクターの経路を変更し、世界座標系において、教育段階に記録されたほぼ同じ経路を再現する。
厳密な産業条件や駐車精度に関わらず、システムの優れた堅牢性とプロセス自動化の精度を示すために、実際の移動マニピュレータを用いて数百の試験が実施されている。
リリースコードについてはmarketing@amigaga.comに連絡してください。 To enable a mobile manipulator to perform human tasks from a single teaching demonstration is vital to flexible manufacturing. We call our proposed method MMPA (Mobile Manipulator Process Automation with One-shot Teaching). Currently, there is no effective and robust MMPA framework which is not influenced by harsh industrial environments and the mobile base's parking precision. The proposed MMPA framework consists of two stages: collecting data (mobile base's location, environment information, end-effector's path) in the teaching stage for robot learning; letting the end-effector repeat the nearly same path as the reference path in the world frame to reproduce the work in the automation stage. More specifically, in the automation stage, the robot navigates to the specified location without the need of a precise parking. Then, based on colored point cloud registration, the proposed IPE (Iterative Pose Estimation by Eye & Hand) algorithm could estimate the accurate 6D relative parking pose of the robot arm base without the need of any marker. Finally, the robot could learn the error compensation from the parking pose's bias to modify the end-effector's path to make it repeat a nearly same path in the world coordinate system as recorded in the teaching stage. Hundreds of trials have been conducted with a real mobile manipulator to show the superior robustness of the system and the accuracy of the process automation regardless of the harsh industrial conditions and parking precision. For the released code, please contact marketing@amigaga.com | 翻訳日:2023-02-10 16:29:02 公開日:2023-02-09 |
# 低深さ量子最適化のための表現型ansatz An Expressive Ansatz for Low-Depth Quantum Optimisation ( http://arxiv.org/abs/2302.04479v1 ) ライセンス: Link先を確認 | V. Vijendran, Aritra Das, Dax Enshan Koh, Syed M. Assad, Ping Koy Lam | (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、組合せ最適化問題を解くために用いられるハイブリッド量子古典アルゴリズムである。
問題とミキサーハミルトンアンからなるパラメータ化されたアンザッツの反復が複数含まれ、パラメータは古典的に最適化される。
QAOAは短期量子ハードウェアに実装できるが、ゲートノイズ、制限されたキュービット接続、状態準備測定(SPAM)エラーなどの物理的制限は回路深さを制限し性能を低下させる。
これらの制限に対処するため、この研究は、より古典的なパラメータをアンサッツに割り当て、低深さ量子回路の性能を向上させる、eXpressive QAOA (XQAOA)を導入している。
XQAOA はミキサーハミルトニアンに追加の Pauli-Y 成分を含むため、ミキサーは各キュービットに任意のユニタリ変換を実装することができる。
低深さでのXQAOAアンサッツの性能をベンチマークするために、MaxCut問題に対するクローズドフォーム式を導出し、それをQAOA、Multi-Angle QAOA(MA-QAOA)アルゴリズム、CRアルゴリズム、および128ノードと256ノードの非重み付き正規グラフと3から10度の次数で比較する。
以上の結果から,xqaoaは全てのグラフ上でqaoa,ma-qaoa,crアルゴリズムよりも優れた性能を示し,gwアルゴリズムよりも4。
さらに、XQAOA が MaxCut を正確に解く無限のグラフ群を見つけ、解析的に、この族のあるグラフに対して、XQAOA の特殊ケースは QAOA よりも大きな近似比が得られることを示す。
全体として、XQAOAは、古典的なリソースの追加を必要とするにもかかわらず、単一のイテレーションでより良い結果が得られるため、短期量子デバイスに量子組合せ最適化を実装するためのより実行可能な選択肢である。 The Quantum Approximate Optimisation Algorithm (QAOA) is a hybrid quantum-classical algorithm used to approximately solve combinatorial optimisation problems. It involves multiple iterations of a parameterised ansatz that consists of a problem and mixer Hamiltonian, with the parameters being classically optimised. While QAOA can be implemented on near-term quantum hardware, physical limitations such as gate noise, restricted qubit connectivity, and state-preparation-and-measurement (SPAM) errors can limit circuit depth and decrease performance. To address these limitations, this work introduces the eXpressive QAOA (XQAOA), a modified version of QAOA that assigns more classical parameters to the ansatz to improve the performance of low-depth quantum circuits. XQAOA includes an additional Pauli-Y component in the mixer Hamiltonian, thereby allowing the mixer to implement arbitrary unitary transformations on each qubit. To benchmark the performance of the XQAOA ansatz at low depth, we derive its closed-form expression for the MaxCut problem and compare it to QAOA, Multi-Angle QAOA (MA-QAOA), a Classical-Relaxed (CR) algorithm, and the state-of-the-art Goemans-Williamson (GW) algorithm on a set of unweighted regular graphs with 128 and 256 nodes and degrees ranging from 3 to 10. Our results show that XQAOA performs better than QAOA, MA-QAOA, and the CR algorithm on all graphs and outperforms the GW algorithm on graphs with degrees greater than 4. Additionally, we find an infinite family of graphs for which XQAOA solves MaxCut exactly and show analytically that for some graphs in this family, special cases of XQAOA can achieve a larger approximation ratio than QAOA. Overall, XQAOA is a more viable choice for implementing quantum combinatorial optimisation on near-term quantum devices, as it can achieve better results with a single iteration, despite requiring additional classical resources. | 翻訳日:2023-02-10 16:28:35 公開日:2023-02-09 |
# 潜在スパースガウス過程をもつ完全ベイズ自動エンコーダ Fully Bayesian Autoencoders with Latent Sparse Gaussian Processes ( http://arxiv.org/abs/2302.04534v1 ) ライセンス: Link先を確認 | Ba-Hien Tran, Babak Shahbaba, Stephan Mandt, Maurizio Filippone | (参考訳) オートエンコーダとその変種は表現学習と生成モデリングにおいて最も広く使われているモデルの一つである。
しかし、オートエンコーダベースのモデルは通常、学習した表現はd.d.であり、データサンプル間の相関を捉えることができないと仮定する。
この問題に対処するために,我々は,ベイジアンオートエンコーダの潜在空間に先立って完全にベイジアンスパースガウス過程を課す,新しいスパースガウス過程ベイジアンオートエンコーダ(sgpbae)モデルを提案する。
確率勾配ハミルトニアンモンテカルロを用いてこのモデルの後方推定を行う。
提案手法は,表現学習および生成モデリングタスクの幅広い範囲において質的かつ定量的に評価し,変分オートコーダに依存する複数の選択肢を一貫して上回ることを示す。 Autoencoders and their variants are among the most widely used models in representation learning and generative modeling. However, autoencoder-based models usually assume that the learned representations are i.i.d. and fail to capture the correlations between the data samples. To address this issue, we propose a novel Sparse Gaussian Process Bayesian Autoencoder (SGPBAE) model in which we impose fully Bayesian sparse Gaussian Process priors on the latent space of a Bayesian Autoencoder. We perform posterior estimation for this model via stochastic gradient Hamiltonian Monte Carlo. We evaluate our approach qualitatively and quantitatively on a wide range of representation learning and generative modeling tasks and show that our approach consistently outperforms multiple alternatives relying on Variational Autoencoders. | 翻訳日:2023-02-10 16:22:41 公開日:2023-02-09 |
# 視線に基づく意図推定:hriの原理,方法論,応用 Gaze-based intention estimation: principles, methodologies, and applications in HRI ( http://arxiv.org/abs/2302.04530v1 ) ライセンス: Link先を確認 | Anna Belardinelli | (参考訳) 意図予測は、人間-機械と人間-ロボットインタラクションにおける研究の関連分野となっている。
実際、人間の行動を助け、人間のパートナーと協調するように設計されたあらゆる人工システム(co)は、まず人間の現在の意図を推測することで恩恵を受ける。
目標を明確に発話する認知的負担を省くために、この推論は、主に現在の行動を示すと考えられる行動的手がかりに依存する。
眼球運動は、タスク中に展開される単一のステップを非常に期待していることが知られており、意図認識のための非常に早期で信頼性の高い行動キューとして機能することができる。
本総説は、視覚運動制御に関する心理学文献の知見と、技術領域における視線に基づく意図認識の関連応用との関係を、遠隔操作と補助ロボットシステムに焦点をあてるものである。
意図、眼球運動、行動の関係を基礎とする認知的原則から、人間とロボットの相互作用における意図認識のための視線追跡と視線に基づくモデルの使用が、一般的な方法論とそれらの多様な応用とともに検討されている。
最後に、関連するヒューマンファクタの問題や、システムを設計する際に考慮すべき現在の制限について、特に考察する。 Intention prediction has become a relevant field of research in Human-Machine and Human-Robot Interaction. Indeed, any artificial system (co)-operating with and along humans, designed to assist and coordinate its actions with a human partner, would benefit from first inferring the human's current intention. To spare the user the cognitive burden of explicitly uttering their goals, this inference relies mostly on behavioral cues deemed indicative of the current action. It has been long known that eye movements are highly anticipatory of the single steps unfolding during a task, hence they can serve as a very early and reliable behavioural cue for intention recognition. This review aims to draw a line between insights in the psychological literature on visuomotor control and relevant applications of gaze-based intention recognition in technical domains, with a focus on teleoperated and assistive robotic systems. Starting from the cognitive principles underlying the relationship between intentions, eye movements, and action, the use of eye tracking and gaze-based models for intent recognition in Human-Robot Interaction is considered, with prevalent methodologies and their diverse applications. Finally, special consideration is given to relevant human factors issues and current limitations to be factored in when designing such systems. | 翻訳日:2023-02-10 16:22:18 公開日:2023-02-09 |
# 大規模サポートによる説明:q-consistent Summary-Explanationsのための軽量カラムサンプリング最適化 Explaining with Greater Support: Weighted Column Sampling Optimization for q-Consistent Summary-Explanations ( http://arxiv.org/abs/2302.04528v1 ) ライセンス: Link先を確認 | Chen Peng, Zhengqi Dai, Guangping Xia, Yajie Niu, Yihui Lei | (参考訳) 機械学習システムは、医療や刑事司法などの重要な意思決定を必要とする領域の補助ツールとして広く使われている。
ユーザがこれらのシステムに対する信頼を育むためには、意思決定の説明が不可欠である。
近年、データセットの有用な統計情報とともに、特定の決定に関する説明を提供する、グローバルに一貫性のあるルールベースの要約記述とその最大サポート(MS)問題が提案されている。
しかし、複雑さが限定されたグローバルに一貫性のある要約説明は、通常、もしあれば、サポートが小さい。
本稿では,一貫性の低いコストでより大きなサポートを実現することを目的とした,要約説明の緩和版である$q$consistent summary-explanationを提案する。
課題は、$q$-consistent summary-explanation (MSqC) の最大サポート問題は、元のMS問題よりもはるかに複雑であり、その結果、標準分岐とバウンドの解法を用いて過度に拡張された解時間が得られることである。
解の時間効率を改善するために, 簡易増量支援(SIS)値に基づいて, 変数をサンプリングすることで, より小さな問題を解くことに基づく重み付きカラムサンプリング(WCS)手法を提案する。
実験により, 提案手法によるmsqcの解決は, 効率が向上するだけでなく, サポートが向上し, グローバル外挿効率も向上することを確認した。 Machine learning systems have been extensively used as auxiliary tools in domains that require critical decision-making, such as healthcare and criminal justice. The explainability of decisions is crucial for users to develop trust on these systems. In recent years, the globally-consistent rule-based summary-explanation and its max-support (MS) problem have been proposed, which can provide explanations for particular decisions along with useful statistics of the dataset. However, globally-consistent summary-explanations with limited complexity typically have small supports, if there are any. In this paper, we propose a relaxed version of summary-explanation, i.e., the $q$-consistent summary-explanation, which aims to achieve greater support at the cost of slightly lower consistency. The challenge is that the max-support problem of $q$-consistent summary-explanation (MSqC) is much more complex than the original MS problem, resulting in over-extended solution time using standard branch-and-bound solvers. To improve the solution time efficiency, this paper proposes the weighted column sampling~(WCS) method based on solving smaller problems by sampling variables according to their simplified increase support (SIS) values. Experiments verify that solving MSqC with the proposed SIS-based WCS method is not only more scalable in efficiency, but also yields solutions with greater support and better global extrapolation effectiveness. | 翻訳日:2023-02-10 16:21:43 公開日:2023-02-09 |
# 蒸留型ニューラルアーキテクチャ探索と知識伝達を用いた極めて軽量なドライバ認識 Toward Extremely Lightweight Distracted Driver Recognition With Distillation-Based Neural Architecture Search and Knowledge Transfer ( http://arxiv.org/abs/2302.04527v1 ) ライセンス: Link先を確認 | Dichao Liu, Toshihiko Yamasaki, Yu Wang, Kenji Mase, Jien Kato | (参考訳) 近年、世界各国で交通事故が相次いで増加している。
多くの事故は、運転から注意をそらしたドライバーによって引き起こされる。
コンピュータビジョンにおける畳み込みニューラルネットワーク(cnns)の成功に動機づけられた多くの研究者は、ダッシュカムからの注意をそらした運転を認識し、安全でない行動をドライバーに警告するcnnベースのアルゴリズムを開発した。
しかし、現在のモデルにはパラメータが多すぎるため、車載コンピューティングでは不可能である。
この問題を解決するための知識蒸留に基づく新しいフレームワークを提案する。
提案フレームワークはまず,CNNの浅い層から深い層への照明変化に対する頑健さを徐々に強化し,高性能な教師ネットワークを構築する。
次に、教師ネットワークを用いて、知識蒸留による学生ネットワークのアーキテクチャ探索プロセスを指導する。
その後,教師ネットワークを再び利用して,知識蒸留による学生ネットワークに知識を伝達する。
statefarm distracted driver detection dataset と auc distracted driver dataset を用いた実験の結果,提案手法は,(1)教師ネットワークの精度が従来の最高精度を上回り,(2)学生ネットワークは0.12mのパラメータしか持たず,精度が非常に高い(これまでの軽量モデルの約55%)。
さらに、学生ネットワークアーキテクチャは、ビデオクリップから逸脱した運転を認識するために、時空間3DCNNに拡張することができる。
3Dの学生ネットワークは、Drive&Act Dataset上の2.03Mパラメータだけで、これまでの最高精度を大きく上回っている。
ソースコードはhttps://github.com/Dichao-Liu/Lightweight_Distracted_Driver_Recognition_with_Distillation-Based_NAS_ and_Knowledge_Transferで公開されている。 The number of traffic accidents has been continuously increasing in recent years worldwide. Many accidents are caused by distracted drivers, who take their attention away from driving. Motivated by the success of Convolutional Neural Networks (CNNs) in computer vision, many researchers developed CNN-based algorithms to recognize distracted driving from a dashcam and warn the driver against unsafe behaviors. However, current models have too many parameters, which is unfeasible for vehicle-mounted computing. This work proposes a novel knowledge-distillation-based framework to solve this problem. The proposed framework first constructs a high-performance teacher network by progressively strengthening the robustness to illumination changes from shallow to deep layers of a CNN. Then, the teacher network is used to guide the architecture searching process of a student network through knowledge distillation. After that, we use the teacher network again to transfer knowledge to the student network by knowledge distillation. Experimental results on the Statefarm Distracted Driver Detection Dataset and AUC Distracted Driver Dataset show that the proposed approach is highly effective for recognizing distracted driving behaviors from photos: (1) the teacher network's accuracy surpasses the previous best accuracy; (2) the student network achieves very high accuracy with only 0.42M parameters (around 55% of the previous most lightweight model). Furthermore, the student network architecture can be extended to a spatial-temporal 3D CNN for recognizing distracted driving from video clips. The 3D student network largely surpasses the previous best accuracy with only 2.03M parameters on the Drive&Act Dataset. The source code is available at https://github.com/Dichao-Liu/Lightweight_Distracted_Driver_Recognition_with_Distillation-Based_NAS_ and_Knowledge_Transfer. | 翻訳日:2023-02-10 16:21:17 公開日:2023-02-09 |
# フェアネスと安定性について:推定変数は友人か笛か? On Fairness and Stability: Is Estimator Variance a Friend or a Foe? ( http://arxiv.org/abs/2302.04525v1 ) ライセンス: Link先を確認 | Falaah Arif Khan, Denys Herasymuk, Julia Stoyanovich | (参考訳) 推定器の誤差は(統計的)バイアス項、分散項、既約雑音項に分解することができる。
バイアス分析を行う場合,正式には“予測はどの程度良好か?
エラー分解におけるバイアスの役割は明確です – ラベルやターゲットを信頼すれば、エラーを最小限に抑えるために、推定器に可能な限り低いバイアスを持たせたいと考えています。
公平な機械学習は、"予測は、異なる人口層/社会グループに等しく良いのか?
これは自然に、社会的特権と社会的に不利なグループに対応するサブセットに対する統計バイアスのいくつかの尺度を比較する様々な公正度指標につながった。
本稿では,分散におけるグループワイドパリティに基づくパフォーマンス対策の新たなファミリーを提案する。
統計的偏差分析が不完全像を与える場合と, 統計的偏差の程度が異なる設定において, 集団偏差解析が何を示すかを示す。
我々は,不確実性定量化手法をフェアネス解析と照合するオープンソースライブラリを開発し,その利用により,標準ベンチマークにおける分散に基づくフェアネス測定の広範な実証分析を行う。 The error of an estimator can be decomposed into a (statistical) bias term, a variance term, and an irreducible noise term. When we do bias analysis, formally we are asking the question: "how good are the predictions?" The role of bias in the error decomposition is clear: if we trust the labels/targets, then we would want the estimator to have as low bias as possible, in order to minimize error. Fair machine learning is concerned with the question: "Are the predictions equally good for different demographic/social groups?" This has naturally led to a variety of fairness metrics that compare some measure of statistical bias on subsets corresponding to socially privileged and socially disadvantaged groups. In this paper we propose a new family of performance measures based on group-wise parity in variance. We demonstrate when group-wise statistical bias analysis gives an incomplete picture, and what group-wise variance analysis can tell us in settings that differ in the magnitude of statistical bias. We develop and release an open-source library that reconciles uncertainty quantification techniques with fairness analysis, and use it to conduct an extensive empirical analysis of our variance-based fairness measures on standard benchmarks. | 翻訳日:2023-02-10 16:20:46 公開日:2023-02-09 |
# 回路量子力学の非分散レジームにおけるポラリトン状態の特徴 Characterising Polariton States in Non-Dispersive Regime of Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2302.04523v1 ) ライセンス: Link先を確認 | Arvind Mamgain, Samarth Hawaldar, Athreya Shankar and Baladitya Suri | (参考訳) 読み出し共振器に結合された超伝導量子ビットは、現在、複数の量子コンピューティングと量子光学実験の構成要素となっている。
典型的なクビット共振器系は分散系において結合され、クビットと共振器の分解はそれらの結合よりもはるかに大きい。
本研究では,非分散系における超伝導トランスモン共振器を作製し,測定した。
素量子ビットと共振器状態の混合によって形成される着飾った状態は、キュービットに駆動を印加することでさらに混合することができ、偏光子状態の形成につながる。
本研究では,様々な駆動パワーと周波数におけるポラリトン状態間の遷移を実験的に検討し,量子共鳴系の高次レベルの非分散結合がポラリトン固有状態と対応する遷移周波数をどのように修飾するかを示す。
また,Jaynes-Cummingsモデルから得られる分散状態以外の数値結果との密接な一致を報告する。 A superconducting qubit coupled to a read-out resonator is currently the building block of multiple quantum computing as well as quantum optics experiments. A typical qubit-resonator system is coupled in the dispersive regime, where the detuning between qubit and resonator is much greater than the coupling between them. In this work, we fabricated and measured a superconducting transmon-resonator system in the non-dispersive regime. The dressed states formed by the mixing of the bare qubit and resonator states can be further mixed by applying a drive on the qubit, leading to the formation of polariton states. We report experimental studies of transitions between polariton states at varying driving powers and frequencies and show how the non-dispersive coupling of the higher levels of the qubit-resonator system modifies the polariton eigenstates and the corresponding transition frequencies. We also report close agreement with numerical results obtained from a driven Jaynes-Cummings Model beyond the dispersive regime. | 翻訳日:2023-02-10 16:20:26 公開日:2023-02-09 |
# IH-ViT:視覚変換器を用いた集積回路外乱検出 IH-ViT: Vision Transformer-based Integrated Circuit Appear-ance Defect Detection ( http://arxiv.org/abs/2302.04521v1 ) ライセンス: Link先を確認 | Xiaoibin Wang, Shuang Gao, Yuntao Zou, Jianlan Guo and Chu Wang | (参考訳) IC外見欠陥検出における従来の検出手法の低認識率と低認識速度の問題に対して,IC外見欠陥検出アルゴリズムであるIH-ViTを提案する。
提案モデルでは,CNN と ViT のそれぞれの長所を利用して局所的特徴とグローバル的特徴の両面から画像特徴を抽出し,最終的に2つの特徴を融合して欠陥のクラスを決定することにより,IC 欠陥認識の精度を向上させる。
従来のアルゴリズムでは識別が難しいディフ参照にICの外観欠陥が主に反映されている問題に対処するため,バッチ内で追加の畳み込み操作を行うことでトラディションViTを改善した。
データセットの多種多様なソースによるサンプル情報の不均衡問題に対して,2チャンネル画像分割手法を適用し,ic出現欠陥の精度をさらに向上させる。
最後に,提案したハイブリッドIH-ViTモデルの精度は72.51%であり,ResNet50モデルとViTモデルだけでは2.8%,6.06%高かった。
提案アルゴリズムは,IC外観の欠陥を迅速かつ正確に検出し,IC包装・試験会社の生産性を効果的に向上する。 For the problems of low recognition rate and slow recognition speed of traditional detection methods in IC appearance defect detection, we propose an IC appearance defect detection algo-rithm IH-ViT. Our proposed model takes advantage of the respective strengths of CNN and ViT to acquire image features from both local and global aspects, and finally fuses the two features for decision making to determine the class of defects, thus obtaining better accuracy of IC defect recognition. To address the problem that IC appearance defects are mainly reflected in the dif-ferences in details, which are difficult to identify by traditional algorithms, we improved the tra-ditional ViT by performing an additional convolution operation inside the batch. For the problem of information imbalance of samples due to diverse sources of data sets, we adopt a dual-channel image segmentation technique to further improve the accuracy of IC appearance defects. Finally, after testing, our proposed hybrid IH-ViT model achieved 72.51% accuracy, which is 2.8% and 6.06% higher than ResNet50 and ViT models alone. The proposed algorithm can quickly and accurately detect the defect status of IC appearance and effectively improve the productivity of IC packaging and testing companies. | 翻訳日:2023-02-10 16:20:11 公開日:2023-02-09 |
# raynet:強化学習駆動ネットワークプロトコル開発のためのシミュレーションプラットフォーム RayNet: A Simulation Platform for Developing Reinforcement Learning-Driven Network Protocols ( http://arxiv.org/abs/2302.04519v1 ) ライセンス: Link先を確認 | Luca Giacomoni, Basil Benny, George Parisis | (参考訳) 強化学習はネットワークプロトコルの開発において大きな勢いを増している。
しかし、学習ベースのプロトコルはまだ初期段階であり、デプロイ可能なソリューションを構築するにはかなりの研究が必要である。
強化学習に基づくプロトコルの開発は、いくつかのモデル設計の決定を伴う複雑で困難なプロセスであり、実または現実的なネットワークトポロジーにおいて重要なトレーニングと評価を必要とする。
ネットワークシミュレータは、シミュレーションが決定論的で並列に実行できるため、rlベースのプロトコルを非常に効果的なトレーニング環境として提供する。
本稿では,学習ベースのネットワークプロトコルを開発するためのスケーラブルで適応可能なシミュレーションフレームワークraynetを提案する。
RayNetは、完全にプログラム可能なネットワークシミュレータであるOMNeT++と、分散強化学習のためのスケーラブルなトレーニングプラットフォームであるRay/RLlibを統合している。
raynetは最小のオーバーヘッドでrlベースのネットワークプロトコルの方法論的な開発を促進する。
我々は渋滞制御のユースケースを開発し,raynet がコンピュータネットワーク研究コミュニティにとって有用なフレームワークであることを示す。 Reinforcement Learning has gained significant momentum in the development of network protocols. However, learning-based protocols are still in their infancy, and substantial research is required to build deployable solutions. Developing a protocol based on reinforcement learning is a complex and challenging process that involves several model design decisions and requires significant training and evaluation in real or realistic network topologies. Network simulators offer RL-based protocols a highly effective training environment, because simulations are deterministic and can run in parallel. In this paper, we introduce RayNet, a scalable and adaptable simulation framework for the development of learning-based network protocols. RayNet integrates OMNeT++, a fully programmable network simulator, with Ray/RLlib, a scalable training platform for distributed reinforcement learning. RayNet facilitates the methodical development of RL-based network protocols with minimal overhead. We have developed a congestion control use case and present evidence that RayNet can be a valuable framework for the computer networks research community. | 翻訳日:2023-02-10 16:19:47 公開日:2023-02-09 |
# ベイズ逆問題におけるガウス過程回帰の導入と重み付き誤差測度の実験設計 Introduction To Gaussian Process Regression In Bayesian Inverse Problems, With New ResultsOn Experimental Design For Weighted Error Measures ( http://arxiv.org/abs/2302.04518v1 ) ライセンス: Link先を確認 | Tapio Helin, Andrew Stuart, Aretha Teckentrup, Konstantinos Zygalakis | (参考訳) トモグラフィと地下流れにおける偏微分方程式モデルの逆問題を含む現代の応用で生じるベイズ後方分布は、データ可能性を評価する計算コストが大きいため、しばしば計算的に難解である。
この問題を緩和するために, ガウス過程回帰を用いて確率のサロゲートモデルを構築することを検討する。
この研究は、特に逆問題に対する代理モデルを構築する文脈におけるガウス過程回帰の紹介として役立ち、トレーニングポイントの適切な選択に関する新しい洞察を示す。
実後値分布と近似後値分布の誤差は、実後値によって重みづけられた$l^2$-ノルムで測定された実後値と近似値の誤差によって境界づけられ、この基準において実値と近似値との誤差を効率的にバインドすることは、実後値に基づくガウス過程サロゲートモデルにおけるトレーニングポイントの選択を示唆する。 Bayesian posterior distributions arising in modern applications, including inverse problems in partial differential equation models in tomography and subsurface flow, are often computationally intractable due to the large computational cost of evaluating the data likelihood. To alleviate this problem, we consider using Gaussian process regression to build a surrogate model for the likelihood, resulting in an approximate posterior distribution that is amenable to computations in practice. This work serves as an introduction to Gaussian process regression, in particular in the context of building surrogate models for inverse problems, and presents new insights into a suitable choice of training points. We show that the error between the true and approximate posterior distribution can be bounded by the error between the true and approximate likelihood, measured in the $L^2$-norm weighted by the true posterior, and that efficiently bounding the error between the true and approximate likelihood in this norm suggests choosing the training points in the Gaussian process surrogate model based on the true posterior. | 翻訳日:2023-02-10 16:19:30 公開日:2023-02-09 |
# Covid-19ワクチン接種に関するペルシアのツイートの大規模分析 A Large-Scale Analysis of Persian Tweets Regarding Covid-19 Vaccination ( http://arxiv.org/abs/2302.04511v1 ) ライセンス: Link先を確認 | Taha ShabaniMirzaei, Houmaan Chamani, Zhivar Sourati Hassan Zadeh, Behnam Bahrak | (参考訳) 新型コロナウイルス(covid-19)のパンデミックは、私たちの生活、特に人々の相互作用に大きな影響を与えました。
Covid-19ワクチンの導入により、ワクチンの接種の有無に関して、肯定的、否定的な意見の両方が持ち上がった。
本稿では、ツイートやユーザープロフィールを含むTwitterから集めたデータを用いて、イランにおけるコロナウイルスワクチンに関する世論を包括的に分析する。
そこで本研究では,ワクチン関連ツイート抽出のためのトピックモデリング手法と組み合わせた検索クエリ手法を適用した。
トランスフォーマーモデルを用いて, ツイートの内容の分類と予防接種に関するテーマの抽出を行った。
また,この話題に関する世論の幸福感と怒りを評価するために感情分析を行った。
以上の結果から,コビッドウイルスワクチン接種は,政府の問題,安全性,過敏性,副作用など,さまざまな角度から注目されている。
さらに、ワクチン接種や感染率などのコロナウイルス関連現象は、公衆の感情状態やユーザーの相互作用に深く影響した。 The Covid-19 pandemic had an enormous effect on our lives, especially on people's interactions. By introducing Covid-19 vaccines, both positive and negative opinions were raised over the subject of taking vaccines or not. In this paper, using data gathered from Twitter, including tweets and user profiles, we offer a comprehensive analysis of public opinion in Iran about the Coronavirus vaccines. For this purpose, we applied a search query technique combined with a topic modeling approach to extract vaccine-related tweets. We utilized transformer-based models to classify the content of the tweets and extract themes revolving around vaccination. We also conducted an emotion analysis to evaluate the public happiness and anger around this topic. Our results demonstrate that Covid-19 vaccination has attracted considerable attention from different angles, such as governmental issues, safety or hesitancy, and side effects. Moreover, Coronavirus-relevant phenomena like public vaccination and the rate of infection deeply impacted public emotional status and users' interactions. | 翻訳日:2023-02-10 16:19:09 公開日:2023-02-09 |
# ミラーゲームのための完璧な戦略のキャラクタリゼーション A Characterization of Perfect Strategies for Mirror Games ( http://arxiv.org/abs/2302.04557v1 ) ライセンス: Link先を確認 | Sizhuo Yan, Jianting Yang, Tianshi Yu, Lihong Zhi | (参考訳) 我々はミラーゲームとユニバーサルゲーム代数を関連付け、*表現を用いて量子可換作用素戦略を記述する。
ミラーゲームが完全可換操作戦略を持つか否かの代数的特徴付けを提供する。
この新しいキャラクタリゼーは、paulsenらによって導入されたより小さな代数を同期ゲームや、cimpric、helton、そしてコラボレータによって開発された非可換nullstellens\"atzeのために使用する。
ミラーゲームが完全可換作用素戦略を持たないことを証明するために、非可換Gr\に基づくアルゴリズムと半定値プログラミングが与えられる。 We associate mirror games with the universal game algebra and use the *-representation to describe quantum commuting operator strategies. We provide an algebraic characterization of whether or not a mirror game has perfect commuting operator strategies. This new characterization uses a smaller algebra introduced by Paulsen and others for synchronous games and the noncommtative Nullstellens\"atze developed by Cimpric, Helton and collaborators. An algorithm based on noncommutative Gr\"obner basis computation and semidefinite programming is given for certifying that a given mirror game has no perfect commuting operator strategies. | 翻訳日:2023-02-10 16:13:11 公開日:2023-02-09 |
# ファンタジー小説におけるロバストキャラクタ検出のためのデータ拡張 Data Augmentation for Robust Character Detection in Fantasy Novels ( http://arxiv.org/abs/2302.04555v1 ) ライセンス: Link先を確認 | Arthur Amalvy, Vincent Labatut and Richard Dufour | (参考訳) 名前付きエンティティ認識(NER)は、高レベルのNLP問題を解決する基盤としてしばしば使用される低レベルのタスクである。
小説におけるキャラクタ検出の文脈では、ner false negativesは特定のキャラクタや関係を完全に失う可能性があるため問題となることがある。
本稿では,簡単なデータ拡張手法を用いることで,不明瞭なエンティティに関する一定の精度を犠牲にして,より高いリコールを達成するモデルを訓練できることを実証する。
この精度の低下は,モデルに局所的な文脈を与え,曖昧さを解消することで軽減できることを示す。 Named Entity Recognition (NER) is a low-level task often used as a foundation for solving higher level NLP problems. In the context of character detection in novels, NER false negatives can be an issue as they possibly imply missing certain characters or relationships completely. In this article, we demonstrate that applying a straightforward data augmentation technique allows training a model achieving higher recall, at the cost of a certain amount of precision regarding ambiguous entities. We show that this decrease in precision can be mitigated by giving the model more local context, which resolves some of the ambiguities. | 翻訳日:2023-02-10 16:12:57 公開日:2023-02-09 |
# 確率的および逆オンライン凸最適化のための最適オンラインミラーダイス Optimistic Online Mirror Descent for Bridging Stochastic and Adversarial Online Convex Optimization ( http://arxiv.org/abs/2302.04552v1 ) ライセンス: Link先を確認 | Sijia Chen, Wei-Wei Tu, Peng Zhao, Lijun Zhang | (参考訳) Stochastically Extended Adversarial (SEA) モデルは Sachs らによって導入された。
2022] 確率的および逆的オンライン凸最適化の補間である。
滑らかさ条件の下では、楽観的追従正規化リーダ(FTRL)の期待された後悔は、凸函数に対する累積確率分散$\sigma_{1:T}^2$と累積逆変分$\Sigma_{1:T}^2$に依存することを示した。
これらはまた、強凸函数に対して最大確率分散 $\sigma_{\max}^2$ と最大逆変量 $\sigma_{\max}^2$ に基づくわずかに弱い境界を与える。
本研究は,SEAモデルに対する楽観的オンラインミラー降下(OMD)の理論的保証について考察する。
凸函数と滑らかな函数に対しては、個々の函数の凸性要件なしに同じ$\mathcal{O}(\sqrt{\sigma_{1:T}^2}+\sqrt{\Sigma_{1:T}^2})$ regret boundが得られる。
強い凸と滑らかな函数に対して、$\mathcal{O}(\min\{\log (\sigma_{1:T}^2+\Sigma_{1:T}^2), (\sigma_{\max}^2 + \Sigma_{\max}^2) \log T\})$bound を $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log T)$bound とする。
\mbox{exp-concave} と滑らかな函数に対して、新しい $\mathcal{O}(d\log(\sigma_{1:T}^2+\Sigma_{1:T}^2))$bound を達成する。
OMDフレームワークにより、我々は結果をさらに拡張して動的後悔の保証を得ることができ、これは静止しないオンラインシナリオでより好ましい。
得られた結果により,確率的設定の過度なリスク限界と,敵対的設定の後悔的境界を回復し,多くの中間シナリオに対する新たな保証を導出することができる。 Stochastically Extended Adversarial (SEA) model is introduced by Sachs et al. [2022] as an interpolation between stochastic and adversarial online convex optimization. Under the smoothness condition, they demonstrate that the expected regret of optimistic follow-the-regularized-leader (FTRL) depends on the cumulative stochastic variance $\sigma_{1:T}^2$ and the cumulative adversarial variation $\Sigma_{1:T}^2$ for convex functions. They also provide a slightly weaker bound based on the maximal stochastic variance $\sigma_{\max}^2$ and the maximal adversarial variation $\Sigma_{\max}^2$ for strongly convex functions. Inspired by their work, we investigate the theoretical guarantees of optimistic online mirror descent (OMD) for the SEA model. For convex and smooth functions, we obtain the same $\mathcal{O}(\sqrt{\sigma_{1:T}^2}+\sqrt{\Sigma_{1:T}^2})$ regret bound, without the convexity requirement of individual functions. For strongly convex and smooth functions, we establish an $\mathcal{O}(\min\{\log (\sigma_{1:T}^2+\Sigma_{1:T}^2), (\sigma_{\max}^2 + \Sigma_{\max}^2) \log T\})$ bound, better than their $\mathcal{O}((\sigma_{\max}^2 + \Sigma_{\max}^2) \log T)$ bound. For \mbox{exp-concave} and smooth functions, we achieve a new $\mathcal{O}(d\log(\sigma_{1:T}^2+\Sigma_{1:T}^2))$ bound. Owing to the OMD framework, we can further extend our result to obtain dynamic regret guarantees, which are more favorable in non-stationary online scenarios. The attained results allow us to recover excess risk bounds of the stochastic setting and regret bounds of the adversarial setting, and derive new guarantees for many intermediate scenarios. | 翻訳日:2023-02-10 16:12:46 公開日:2023-02-09 |
# 微弱に監視された異常検出:サーベイ Weakly Supervised Anomaly Detection: A Survey ( http://arxiv.org/abs/2302.04549v1 ) ライセンス: Link先を確認 | Minqi Jiang, Chaochuan Hou, Ao Zheng, Xiyang Hu, Songqiao Han, Hailiang Huang, Xiangnan He, Philip S. Yu, Yue Zhao | (参考訳) 異常検出(AD)は、新興疾患の検出、金融詐欺の特定、フェイクニュースの検出など、機械学習における重要なタスクである。
しかし、データアノテーションのコストと困難のために、広告タスクの完全で正確で正確なラベルを得ることは、高価かつ困難である。
この問題に対処するために、研究者は不完全で不正確で不正確な監督を扱うことができる広告手法を開発し、これをまとめてweakly supervised anomaly detection (wsad) 法としてまとめた。
本研究では,4つのデータモダリティ(表,グラフ,時系列,画像/ビデオデータ)にまたがる,上記の3つの弱い監視設定に分類し,WSAD手法の総合的な調査を行った。
各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
将来の研究を支援するため、我々は選択した設定の実験を行い、ソースコードとWSADメソッドとデータのコレクションを公開します。 Anomaly detection (AD) is a crucial task in machine learning with various applications, such as detecting emerging diseases, identifying financial frauds, and detecting fake news. However, obtaining complete, accurate, and precise labels for AD tasks can be expensive and challenging due to the cost and difficulties in data annotation. To address this issue, researchers have developed AD methods that can work with incomplete, inexact, and inaccurate supervision, collectively summarized as weakly supervised anomaly detection (WSAD) methods. In this study, we present the first comprehensive survey of WSAD methods by categorizing them into the above three weak supervision settings across four data modalities (i.e., tabular, graph, time-series, and image/video data). For each setting, we provide formal definitions, key algorithms, and potential future directions. To support future research, we conduct experiments on a selected setting and release the source code, along with a collection of WSAD methods and data. | 翻訳日:2023-02-10 16:11:54 公開日:2023-02-09 |
# 超伝導と周波数符号化マイクロ波光量子ビット間の決定論的スワップゲートの実証 Demonstration of deterministic SWAP gate between superconducting and frequency-encoded microwave-photon qubits ( http://arxiv.org/abs/2302.04548v1 ) ライセンス: Link先を確認 | Kazuki Koshino and Kunihiro Inomata | (参考訳) 単一量子プロセッサに含まれる超伝導量子ビットの数は着実に増加している。
しかし、真に有用な量子コンピュータを実現するには、フライング量子ビットを用いて、遠くのプロセッサ間で量子情報を分散することにより、量子ビット数をさらに増やすことは避けられない。
ここでは、この目標、すなわち超伝導原子とマイクロ波光子量子ビットの間のSWAPゲートに対する重要な要素を示す。
このゲートの動作原理は単光子ラマン相互作用であり、これは1次元の光学系に強い干渉をもたらし、原子量子ビットに取り付けられたキャビティで光子量子ビットをバウンシングすることによって、光子量子ビットのパルス形状に対して高いゲート忠実性を可能にする。
原子と光子量子ビット間の双方向量子状態移動を確認した。
光子対原子(原子対光子)状態移動の平均忠実度は0.829 (0.801)に達し、主に原子量子ビットのエネルギー緩和時間によって制限される。
現在の原子光子ゲートはゲート型のその場調整性を備えており、超伝導量子ビットとマイクロ波光子を用いた分散量子計算に様々な応用が期待できる。 The number of superconducting qubits contained in a single quantum processor is increasing steadily. However, to realize a truly useful quantum computer, it is inevitable to increase the number of qubits much further by distributing quantum information among distant processors using flying qubits. Here, we demonstrate a key element towards this goal, namely, a SWAP gate between the superconducting-atom and microwave-photon qubits. The working principle of this gate is the single-photon Raman interaction, which results from strong interference in one-dimensional optical systems and enables a high gate fidelity insensitively to the pulse shape of the photon qubit, by simply bouncing the photon qubit at a cavity attached to the atom qubit. We confirm the bidirectional quantum state transfer between the atom and photon qubits. The averaged fidelity of the photon-to-atom (atom-to-photon) state transfer reaches 0.829 (0.801), limited mainly by the energy relaxation time of the atom qubit. The present atom-photon gate, equipped with an in situ tunability of the gate type, would enable various applications in distributed quantum computation using superconducting qubits and microwave photons. | 翻訳日:2023-02-10 16:11:36 公開日:2023-02-09 |
# 知識強化協調フィルタリングのためのローレンツ同変モデル Lorentz Equivariant Model for Knowledge-Enhanced Collaborative Filtering ( http://arxiv.org/abs/2302.04545v1 ) ライセンス: Link先を確認 | Bosong Huang, Weihao Yu, Ruzhong Xie, Jing Xiao, Jin Huang | (参考訳) 知識グラフ(KG)から事前補助情報を導入してユーザイットグラフを支援することにより,レコメンダシステムの総合的な性能を向上させることができる。
最近の多くの研究は、双曲空間のアンサンブル特性が上記の2種類のグラフで示されるスケールフリーおよび階層的特性によく適合していることを示している。
しかし、既存の双曲的手法は同値性の考慮を無視するため、与えられた変換の下で対称的な特徴を一般化することはできない。
さらに、不均一性の保存と高次エンティティ情報のマイニングを2つのグラフで行うこともできない。
これらのギャップを埋めるために,厳密なローレンツ群同変知識強化協調フィルタリングモデル(lecf)を提案する。
本稿では,ローレンツ同変変換を用いたLECF層による属性埋め込み(KGからの高次実体信号を含む)と双曲埋め込み(双曲埋め込み間の距離が推奨傾向を示す)を共同で更新する。
さらに,最も情報性の高い隣接ノードをサンプリングするハイパーボリックスパース注意機構を提案する。
ローレンツ同値性はモデル全体を通して厳密に維持され、同値性は実験的に証明される。
3つの実世界のベンチマークによる大規模な実験により、LECFは最先端の手法よりも著しく優れていることが示された。 Introducing prior auxiliary information from the knowledge graph (KG) to assist the user-item graph can improve the comprehensive performance of the recommender system. Many recent studies show that the ensemble properties of hyperbolic spaces fit the scale-free and hierarchical characteristics exhibited in the above two types of graphs well. However, existing hyperbolic methods ignore the consideration of equivariance, thus they cannot generalize symmetric features under given transformations, which seriously limits the capability of the model. Moreover, they cannot balance preserving the heterogeneity and mining the high-order entity information to users across two graphs. To fill these gaps, we propose a rigorously Lorentz group equivariant knowledge-enhanced collaborative filtering model (LECF). Innovatively, we jointly update the attribute embeddings (containing the high-order entity signals from the KG) and hyperbolic embeddings (the distance between hyperbolic embeddings reveals the recommendation tendency) by the LECF layer with Lorentz Equivariant Transformation. Moreover, we propose Hyperbolic Sparse Attention Mechanism to sample the most informative neighbor nodes. Lorentz equivariance is strictly maintained throughout the entire model, and enforcing equivariance is proven necessary experimentally. Extensive experiments on three real-world benchmarks demonstrate that LECF remarkably outperforms state-of-the-art methods. | 翻訳日:2023-02-10 16:11:14 公開日:2023-02-09 |
# 畳み込みニューラルネットワークのためのガウスマスク畳み込み Gaussian Mask Convolution for Convolutional Neural Networks ( http://arxiv.org/abs/2302.04544v1 ) ライセンス: Link先を確認 | Qi Chen, Chao Li, Jia Ning, Kun He | (参考訳) 正方形畳み込みは畳み込み演算のテンソル計算によく適合するため畳み込みニューラルネットワークの既定単位である。
しかし、ネットワークにとって最も重要なのは効果的な受容場(erf)であり、各ピクセルが出力に寄与する程度を示す。
ERFはガウス分布を示し、オフセットでピクセルをサンプリングするだけではモデル化できない。
ERFをシミュレートするため,本稿ではガウスマスク畳み込みカーネル(GMConv)を提案する。
具体的には、GMConvはガウス関数を用いて同心対称マスクを生成し、そのマスクをカーネル上に配置してRFを洗練させる。
我々のGMConvは、既存のCNNの標準の畳み込みを直接置き換えることができ、標準のバックプロパゲーションによって、エンドツーエンドで簡単に訓練することができる。
複数の画像分類ベンチマークデータセットに関する広範囲な実験により,本手法は標準畳み込み法に匹敵し,より優れることが示された。
例えば、gmconv for alexnet と resnet-50 を用いて、imagenet 分類における top-1 の精度を 0.98% と 0.85% で向上させる。 Square convolution is a default unit in convolutional neural networks as it fits well on the tensor computation for convolution operation, which usually has a fixed N x N receptive field (RF). However, what matters most to the network is the effective receptive field (ERF), which indicates the extent each pixel contributes to the output. ERF shows a Gaussian distribution and can not be modeled by simply sampling pixels with offsets. To simulate ERF, we propose a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically, GMConv utilizes the Gaussian function to generate a concentric symmetry mask and put the mask over the kernel to refine the RF. Our GMConv can directly replace the standard convolutions in existing CNNs and can be easily trained end-to-end by standard backpropagation. Extensive experiments on multiple image classification benchmark datasets show that our method is comparable to, and outperforms in many cases, the standard convolution. For instance, using GMConv for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is boosted by 0.98% and 0.85%, respectively. | 翻訳日:2023-02-10 16:10:53 公開日:2023-02-09 |
# ノイズqudit対多重量子ビット : ゲート効率の条件 Noisy Qudit vs Multiple Qubits : Conditions on Gate Efficiency ( http://arxiv.org/abs/2302.04543v1 ) ライセンス: Link先を確認 | Denis Jankovi\'c, Jean-Gabriel Hartmann, Mario Ruben and Paul-Antoine Hervieux | (参考訳) 今日、複数の新しいプラットフォームが量子情報処理(qip)のためのqudit($d$-level quantum bases of information)を実装している。
したがって、従来のqubitプラットフォームと比較して、qipの効率性を調べることが重要である。
我々は、ヒルベルト空間次元と雑音環境の両方で、qudit と $n$-qubit 系の不忠実性スケーリングの比較研究を行う。
AGI (Average Gate Infidelity) のゲートに依存しないリンドブラッド形式における雑音に対する1次応答は、比較される2つのシステムで解析的に計算された。
これにより、各ゲート時間のデコヒーレンス時間単位での比率の臨界曲線 $o(d^2/\log_2(d))$ が得られた。
この量は、これらのシステムにおける時間効率の操作方法を示している。
曲線は、各系が他方よりもAGIの増加率が高い領域を規定する。
このゲート効率の条件は、既存の異なるプラットフォームに適用された。
特定のquditプラットフォームが最先端のqubitプラットフォームと競合するゲート効率を持っていることが判明した。
数値シミュレーションはこの研究を補完し、線形応答形式論の適用性と限界について議論することを可能にした。 Today, multiple new platforms are implementing qudits, $d$-level quantum bases of information, for Quantum Information Processing (QIP). It is, therefore, crucial to study their efficiencies for QIP compared to more traditional qubit platforms. We present a comparative study of the infidelity scalings of a qudit and $n$-qubit systems, both with identical Hilbert space dimensions and noisy environments. The first-order response of the Average Gate Infidelity (AGI) to the noise in the Lindblad formalism, which was found to be gate-independent, was calculated analytically in the two systems being compared. This yielded a critical curve $O(d^2/\log_2(d))$ of the ratio of their respective gate times in units of decoherence time. This quantity indicates how time-efficient operations on these systems are. The curve delineates regions where each system has a higher rate of increase of the AGI than the other. This condition on gate efficiency was applied to different existing platforms. It was found that specific qudit platforms possess gate efficiencies competitive with state-of-the-art qubit platforms. Numerical simulations complemented this work and allowed for discussion of the applicability and limits of the linear response formalism. | 翻訳日:2023-02-10 16:10:33 公開日:2023-02-09 |
# 制御変数による効率的な注意 Efficient Attention via Control Variates ( http://arxiv.org/abs/2302.04542v1 ) ライセンス: Link先を確認 | Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong | (参考訳) ランダム特徴に基づくアテンション(RFA)は、線形実行時と空間の複雑さによるソフトマックスアテンションの効率的な近似である。
しかし、RFAと従来のソフトマックスアテンションの近似ギャップはよく研究されていない。
RFAの以前の進歩に基づいて、制御変数のレンズを通してこのギャップを特徴づけ、シーケンスの各要素に対する複数の制御変数推定器の和に分解可能であることを示す。
この新たなフレームワークは、各制御変数を操作することにより、正確にソフトマックスの注意をRFAから回収できることを明らかにする。
さらに、より柔軟な制御可変量の開発を可能にし、線形複雑性を維持しながら近似ギャップを大幅に削減する新しい注意メカニズムを生み出しました。
広範な実験により,視覚タスクと言語タスクの両方において,最先端の効果的な注意機構よりも優れたモデルが得られた。 Random-feature-based attention (RFA) is an efficient approximation of softmax attention with linear runtime and space complexity. However, the approximation gap between RFA and conventional softmax attention is not well studied. Built upon previous progress of RFA, we characterize this gap through the lens of control variates and show that RFA can be decomposed into a sum of multiple control variate estimators for each element in the sequence. This new framework reveals that exact softmax attention can be recovered from RFA by manipulating each control variate. Besides, it allows us to develop a more flexible form of control variates, resulting in a novel attention mechanism that significantly reduces the approximation gap while maintaining linear complexity. Extensive experiments demonstrate that our model outperforms state-of-the-art efficient attention mechanisms on both vision and language tasks. | 翻訳日:2023-02-10 16:10:10 公開日:2023-02-09 |
# 学生エッセイの執筆支援として、私よりも、あなたの方が良い。 Better by you, better than me, chatgpt3 as writing assistance in students essays ( http://arxiv.org/abs/2302.04536v1 ) ライセンス: Link先を確認 | Zeljana Basic and Ana Banovac and Ivana Kruzic and Ivan Jerkovic | (参考訳) Aim: 学生のエッセイとChatGPT-3を筆記補助具として使用の有無を比較した。
資料と方法:18名の学生が本研究に参加した(チャットgpt-3を用いた実験群では9名,対照群では9名)。
次数 (a-d) と対応する数値 (4-1) でエッセイ要素を採点した。
我々は,エッセイスコアを学生のGPT,執筆時間,信頼性,内容類似度と比較した。
結果: 対照群 (2.39, SD=0.71) と実験群 (2.00, SD=0.73) の2群ともC群であった。
グループ (p=0.184), 筆記期間 (p=0.669), モジュール (p=0.388), gpa (p=0.532) などである。
テキストの精度は実験群でわずかに高かった(11.87%、SD=13.45から9.96%、SD=9.81%)が、エッセイの類似性は概して低い(ジャカード類似度指数は0から0.054)。
実験グループでは、AI分類器がより潜在的なAI生成テキストを認識した。
結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。 Aim: To compare students' essay writing performance with or without employing ChatGPT-3 as a writing assistant tool. Materials and methods: Eighteen students participated in the study (nine in control and nine in the experimental group that used ChatGPT-3). We scored essay elements with grades (A-D) and corresponding numerical values (4-1). We compared essay scores to students' GPTs, writing time, authenticity, and content similarity. Results: Average grade was C for both groups; for control (2.39, SD=0.71) and for experimental (2.00, SD=0.73). None of the predictors affected essay scores: group (P=0.184), writing duration (P=0.669), module (P=0.388), and GPA (P=0.532). The text unauthenticity was slightly higher in the experimental group (11.87%, SD=13.45 to 9.96%, SD=9.81%), but the similarity among essays was generally low in the overall sample (the Jaccard similarity index ranging from 0 to 0.054). In the experimental group, AI classifier recognized more potential AI-generated texts. Conclusions: This study found no evidence that using GPT as a writing tool improves essay quality since the control group outperformed the experimental group in most parameters. | 翻訳日:2023-02-10 16:09:57 公開日:2023-02-09 |
# 統計的量子信号処理による量子チャネルモデリング Quantum Channel Modelling by Statistical Quantum Signal Processing ( http://arxiv.org/abs/2302.04587v1 ) ライセンス: Link先を確認 | Mouli Chakraborty, Harun Siljak, Indrakshi Dey, and Nicola Marchetti | (参考訳) 本稿では,統計信号処理手法による量子信号のモデル化に注目する。
ガウス分布は入力量子信号として考慮され、ガウス状態は重要なロバスト状態のタイプとして証明され、ガウス光によって量子情報の重要な実験が実施されている。
それに伴い、ジョイントノイズモデルが実行され、続いて受信信号モデルが送信信号の畳み込みとジョイント量子ノイズを用いて定式化され、単一量子リンクの理論的達成可能な容量を実現する。
結合量子ノイズモデルでは、古典ガウス雑音を伴う量子ポアソン雑音を考える。
我々は、量子チャネルの容量をSNRと比較し、その全体的な傾向を検出する。
本稿では,確率変数の観点からチャネル方程式を用いて量子信号と雑音モデルを統計的に検討する。
これらの手法は量子統計信号処理を開発するために提案され、そのアイデアは統計信号処理から導かれる。 In this paper we are interested to model quantum signal by statistical signal processing methods. The Gaussian distribution has been considered for the input quantum signal as Gaussian state have been proven to a type of important robust state and most of the important experiments of quantum information are done with Gaussian light. Along with that a joint noise model has been invoked, and followed by a received signal model has been formulated by using convolution of transmitted signal and joint quantum noise to realized theoretical achievable capacity of the single quantum link. In joint quantum noise model we consider the quantum Poisson noise with classical Gaussian noise. We compare the capacity of the quantum channel with respect to SNR to detect its overall tendency. In this paper we use the channel equation in terms of random variable to investigate the quantum signals and noise model statistically. These methods are proposed to develop Quantum statistical signal processing and the idea comes from the statistical signal processing. | 翻訳日:2023-02-10 16:04:01 公開日:2023-02-09 |
# ラフパス理論の応用における新しい方向 New directions in the applications of rough path theory ( http://arxiv.org/abs/2302.04586v1 ) ライセンス: Link先を確認 | Adeline Fermanian, Terry Lyons, James Morrill, Cristopher Salvi | (参考訳) 本稿は、粗い経路理論の機械学習への応用における最近の進歩について、簡潔に概説する。
制御微分方程式 (cdes) は, 流れと物理制御系との相互作用を記述する上で重要な数学的モデルである。
シグネチャとして知られる反復積分の集合は、そのような相互作用によって生成される応答の記述に自然に現れる。
署名にはさまざまな強力なプロパティが備わっており、ストリームデータに理想的な特徴マップになっている。
深層学習とcdesの共生の最近の進歩を概説し、rnnとの関連を研究し、ニューラルネットワークcdeモデルに到達した。
我々はシグネチャカーネルメソッドに関する議論で締めくくった。 This article provides a concise overview of some of the recent advances in the application of rough path theory to machine learning. Controlled differential equations (CDEs) are discussed as the key mathematical model to describe the interaction of a stream with a physical control system. A collection of iterated integrals known as the signature naturally arises in the description of the response produced by such interactions. The signature comes equipped with a variety of powerful properties rendering it an ideal feature map for streamed data. We summarise recent advances in the symbiosis between deep learning and CDEs, studying the link with RNNs and culminating with the Neural CDE model. We concluded with a discussion on signature kernel methods. | 翻訳日:2023-02-10 16:03:45 公開日:2023-02-09 |
# 動的灌流スコープから再構成した時間分離C-arm CTの肝分画 Liver Segmentation in Time-resolved C-arm CT Volumes Reconstructed from Dynamic Perfusion Scans using Time Separation Technique ( http://arxiv.org/abs/2302.04585v1 ) ライセンス: Link先を確認 | Soumick Chatterjee, Hana Haselji\'c, Robert Frysch, Vojt\v{e}ch Kulvait, Vladimir Semshchikov, Bennet Hensen, Frank Wacker, Inga Br\"uschx, Thomas Werncke, Oliver Speck, Andreas N\"urnberger and Georg Rose | (参考訳) perfusion imagingは肝腫瘍の診断と治療計画に有用なツールである。
時間分離法 (TST) は, C-arm cone-beam Computed Tomography (CBCT) の拡散データをモデル化するのに有効である。
再建には肝臓の分節化が伴う - 可視化性が向上し、包括的な灌流マップを生成するために。
近年,TST再建作業においてターボリフト学習が有効であることが確認されているが,TST再建作業から推定されるTRV(Time-resolved Volume)については検討されていない。
TRVのセグメンテーションは、時間の経過とともに肝臓の動きを追跡するのに有用である。
本研究は,TRVの3段階目において,マルチスケールのターボリフト学習UNetを訓練することにより,TRVと効率的に連携できるため,ターボリフト学習の堅牢性を示し,Diceスコアが0.864$\pm$0.004となることを示す。 Perfusion imaging is a valuable tool for diagnosing and treatment planning for liver tumours. The time separation technique (TST) has been successfully used for modelling C-arm cone-beam computed tomography (CBCT) perfusion data. The reconstruction can be accompanied by the segmentation of the liver - for better visualisation and for generating comprehensive perfusion maps. Recently introduced Turbolift learning has been seen to perform well while working with TST reconstructions, but has not been explored for the time-resolved volumes (TRV) estimated out of TST reconstructions. The segmentation of the TRVs can be useful for tracking the movement of the liver over time. This research explores this possibility by training the multi-scale attention UNet of Turbolift learning at its third stage on the TRVs and shows the robustness of Turbolift learning since it can even work efficiently with the TRVs, resulting in a Dice score of 0.864$\pm$0.004. | 翻訳日:2023-02-10 16:03:35 公開日:2023-02-09 |
# 複雑問題のための複雑ネットワーク:CNNと複素数値CNNの比較研究 Complex Network for Complex Problems: A comparative study of CNN and Complex-valued CNN ( http://arxiv.org/abs/2302.04584v1 ) ライセンス: Link先を確認 | Soumick Chatterjee, Pavan Tummala, Oliver Speck and Andreas N\"urnberger | (参考訳) ニューラルネットワーク、特に畳み込みニューラルネットワーク(CNN)は、近年コンピュータビジョンで使われている最も一般的なツールの1つである。
これらのネットワークのほとんどは、実数値機能を使って実数値データを扱う。
複素値畳み込みニューラルネットワーク(cv-cnn)は、複素値入力データの代数構造を保存でき、入力と基底とのより複雑な関係を学習することができる。
異なるタスクに対するCNNとCV-CNNの比較は過去にも行われてきたが、異なるタスクで動作する異なるモデルを比較する大規模な調査は行われていない。
さらに、複雑な特徴は実数成分と虚数成分の両方を含んでいるため、CV-CNNは実数値CNNの2倍のトレーニング可能なパラメータを持つ。
これまでCV-CNNの性能改善は、複雑な特徴のためなのか、それとも単に2倍のトレーニング可能なパラメータの数がまだ検討されていないからなのか。
本稿では,CNN,CNNx2(CNNの2倍のトレーニングパラメータを持つCNN),CV-CNNの比較検討を行った。
実験は脳mriにおける脳腫瘍の分類とセグメンテーションの2つの異なる課題に対して7つのモデルを用いて行った。
その結果,CV-CNNモデルはCNNおよびCNNx2モデルよりも優れていた。 Neural networks, especially convolutional neural networks (CNN), are one of the most common tools these days used in computer vision. Most of these networks work with real-valued data using real-valued features. Complex-valued convolutional neural networks (CV-CNN) can preserve the algebraic structure of complex-valued input data and have the potential to learn more complex relationships between the input and the ground-truth. Although some comparisons of CNNs and CV-CNNs for different tasks have been performed in the past, a large-scale investigation comparing different models operating on different tasks has not been conducted. Furthermore, because complex features contain both real and imaginary components, CV-CNNs have double the number of trainable parameters as real-valued CNNs in terms of the actual number of trainable parameters. Whether or not the improvements in performance with CV-CNN observed in the past have been because of the complex features or just because of having double the number of trainable parameters has not yet been explored. This paper presents a comparative study of CNN, CNNx2 (CNN with double the number of trainable parameters as the CNN), and CV-CNN. The experiments were performed using seven models for two different tasks - brain tumour classification and segmentation in brain MRIs. The results have revealed that the CV-CNN models outperformed the CNN and CNNx2 models. | 翻訳日:2023-02-10 16:03:20 公開日:2023-02-09 |
# 多数の学術論文の構造的概要の作成:データセットと方法 Generating a Structured Summary of Numerous Academic Papers: Dataset and Method ( http://arxiv.org/abs/2302.04580v1 ) ライセンス: Link先を確認 | Shuaiqi Liu, Jiannong Cao, Ruosong Yang, Zhiyuan Wen | (参考訳) 1つの研究トピックに関する調査論文を書くには、通常、多文書要約(MDS)タスクとしてモデル化できる、多くの関連論文からの健全な内容をカバーする必要がある。
既存のmdsデータセットは、通常、いくつかの入力ドキュメントをカバーする構造のない要約の作成に焦点を当てている。
一方、以前の構造化要約作成作業では、単一の文書を複数セクション要約に要約することに焦点を当てている。
これらの既存のデータセットとメソッドは、多くの学術論文を構造化された要約に要約する要件を満たせない。
利用可能なデータの不足に対処するため,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。
我々は,7万件以上の調査論文から対象要約を収集し,その430万件の参考論文の要約を入力文書として活用する。
数十の入力文書から多様なコンテンツを整理し,長いテキスト列の処理効率を確保するために,カテゴリベースアライメントおよびスパーストランスフォーマタ(cast)と呼ばれる要約手法を提案する。
実験の結果,CAST法は様々な高度な要約法よりも優れていた。 Writing a survey paper on one research topic usually needs to cover the salient content from numerous related papers, which can be modeled as a multi-document summarization (MDS) task. Existing MDS datasets usually focus on producing the structureless summary covering a few input documents. Meanwhile, previous structured summary generation works focus on summarizing a single document into a multi-section summary. These existing datasets and methods cannot meet the requirements of summarizing numerous academic papers into a structured summary. To deal with the scarcity of available data, we propose BigSurvey, the first large-scale dataset for generating comprehensive summaries of numerous academic papers on each topic. We collect target summaries from more than seven thousand survey papers and utilize their 430 thousand reference papers' abstracts as input documents. To organize the diverse content from dozens of input documents and ensure the efficiency of processing long text sequences, we propose a summarization method named category-based alignment and sparse transformer (CAST). The experimental results show that our CAST method outperforms various advanced summarization methods. | 翻訳日:2023-02-10 16:02:56 公開日:2023-02-09 |
# 逆例が良い: 逆例による拡散モデルからの絵画模倣の防止 Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples ( http://arxiv.org/abs/2302.04578v1 ) ライセンス: Link先を確認 | Chumeng Liang, Xiaoyu Wu, Yang Hua, Jiaru Zhang, Yiming Xue, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan | (参考訳) 拡散モデル(DM)は、生成タスクにおける最先端のパフォーマンスを実現し、AI for Artの波を加速させる。
一方、商業化の成功にもかかわらず、DMは著作権侵害のためのツールを提供しており、侵害者は、人間の芸術家によって作られた絵画を使ってDMを訓練し、同様のスタイルで新しい絵画を制作する。
本稿では、人間の視覚によく似たイメージ$x'$を作成できるが、DMでは認識できない画像$x'$を作成することができることを示す。
拡散モデルの逆例を定義し,評価するためのフレームワークを構築した。
さらに,この枠組みに基づいて,DMの逆例を生成するアルゴリズムであるAdvDMを提案する。
DMの逆過程からサンプリングされた様々な潜伏変数を最適化することにより、AdvDMはDMの逆例のモンテカルロ推定を行う。
大規模な実験により、推定された敵の例は、DMが特徴を引き出すのを効果的に妨げていることが示された。
我々の方法は、DMベースのAI-for-Artアプリケーションで著作権を侵害者から保護する強力なツールとなり得る。 Diffusion Models (DMs) achieve state-of-the-art performance in generative tasks, boosting a wave in AI for Art. Despite the success of commercialization, DMs meanwhile provide tools for copyright violations, where infringers benefit from illegally using paintings created by human artists to train DMs and generate novel paintings in a similar style. In this paper, we show that it is possible to create an image $x'$ that is similar to an image $x$ for human vision but unrecognizable for DMs. We build a framework to define and evaluate this adversarial example for diffusion models. Based on the framework, we further propose AdvDM, an algorithm to generate adversarial examples for DMs. By optimizing upon different latent variables sampled from the reverse process of DMs, AdvDM conducts a Monte-Carlo estimation of adversarial examples for DMs. Extensive experiments show that the estimated adversarial examples can effectively hinder DMs from extracting their features. Our method can be a powerful tool for human artists to protect their copyright against infringers with DM-based AI-for-Art applications. | 翻訳日:2023-02-10 16:02:37 公開日:2023-02-09 |
# ニュークロン:スパークリオーダー可能な行列とテンソルを一定サイズ圧縮 NeuKron: Constant-Size Lossy Compression of Sparse Reorderable Matrices and Tensors ( http://arxiv.org/abs/2302.04570v1 ) ライセンス: Link先を確認 | Taehyung Kwon, Jihoon Ko, Jinhong Jung, Kijung Shin | (参考訳) 多くの実世界のデータは自然にスパースリオーダー可能な行列として表され、行と列は任意に順序付けられる(例えば、二部グラフの隣接行列)。
従来の方法でスパース行列をストッキングするには、非ゼロ数の空間線型の量が必要であり、スパース行列(例えば、Trncated SVD)の損失圧縮は通常、行数と列数の空間線型の量を必要とする。
本研究では,スパースリオーダー可能な行列を定数サイズ空間に圧縮するためのNeuKronを提案する。
ニュークロンは定数のパラメータを持つリカレントニューラルネットワークを用いてクロネッカー製品を一般化する。
ニュークロンは与えられた行列が積によって近似するようにパラメータを更新し、近似を容易にするために行列の行と列を再順序付けする。
更新には、入力行列内の非零個数を線形にし、各エントリの近似値を対数時間で取り出すことができる。
我々はまた、行列を一般化するスパースリオーダー可能なテンソル(例えば多層グラフ)を圧縮するためにNeuKronを拡張する。
10個の実世界のデータセットの実験を通して、ニュークロンは
(a)コンパクト:類似の近似誤差を持つ競合製品よりも最大5桁のスペースを必要とする。
(b)精度:類似の大きさの出力を持つ競争相手の最大10倍の近似誤差を付与し、
(c)スケーラブル:2億3000万以上の非ゼロエントリを持つマトリックスをうまく圧縮する。 Many real-world data are naturally represented as a sparse reorderable matrix, whose rows and columns can be arbitrarily ordered (e.g., the adjacency matrix of a bipartite graph). Storing a sparse matrix in conventional ways requires an amount of space linear in the number of non-zeros, and lossy compression of sparse matrices (e.g., Truncated SVD) typically requires an amount of space linear in the number of rows and columns. In this work, we propose NeuKron for compressing a sparse reorderable matrix into a constant-size space. NeuKron generalizes Kronecker products using a recurrent neural network with a constant number of parameters. NeuKron updates the parameters so that a given matrix is approximated by the product and reorders the rows and columns of the matrix to facilitate the approximation. The updates take time linear in the number of non-zeros in the input matrix, and the approximation of each entry can be retrieved in logarithmic time. We also extend NeuKron to compress sparse reorderable tensors (e.g. multi-layer graphs), which generalize matrices. Through experiments on ten real-world datasets, we show that NeuKron is (a) Compact: requiring up to five orders of magnitude less space than its best competitor with similar approximation errors, (b) Accurate: giving up to 10x smaller approximation error than its best competitors with similar size outputs, and (c) Scalable: successfully compressing a matrix with over 230 million non-zero entries. | 翻訳日:2023-02-10 16:02:18 公開日:2023-02-09 |
# ミニマムの長さ:偽装のカットオフ? The minimal length: a cut-off in disguise? ( http://arxiv.org/abs/2302.04564v1 ) ライセンス: Link先を確認 | Pasquale Bosso, Luciano Petruzziello, Fabian Wagner | (参考訳) 低エネルギーでの量子重力の含意である最小長のパラダイムは、ハイゼンベルクの不確実性関係の現象論的修正として一般に理解されている。
この修正は、位置表現に共役する空間におけるカットオフ、すなわち運動量空間に必ずしも対応しない波動数の空間と等価であることを示す。
この結果は数次元に一般化され、波の数の適切な定義が与えられると非可換な幾何学が与えられる。
さらに、波数空間における続く境界と最小長スケールとの直接的な関係を見出した。
最小長の存在を明示的に検証できないシナリオについては,提案手法を用いて状況を明らかにすることができる。
実際、一般的なモデルに適用すると、それらのうちの1つが全ての期待に反して、位置測定の任意の精度を許容できることが分かる。
最後に、この分野における我々の発見の一般的な意味についてコメントする。
特に、最小長は純粋にキネマティックであり、実質的には最小長量子力学のモデルが1つしかないことを指摘した。 The minimal-length paradigm, a possible implication of quantum gravity at low energies, is commonly understood as a phenomenological modification of Heisenberg's uncertainty relation. We show that this modification is equivalent to a cut-off in the space conjugate to the position representation, i.e. the space of wave numbers, which does not necessarily correspond to momentum space. This result is generalized to several dimensions and noncommutative geometries once a suitable definition of the wave number is provided. Furthermore, we find a direct relation between the ensuing bound in wave-number space and the minimal-length scale. For scenarios in which the existence of the minimal length cannot be explicitly verified, the proposed framework can be used to clarify the situation. Indeed, applying it to common models, we find that one of them does, against all expectations, allow for arbitrary precision in position measurements. In closing, we comment on general implications of our findings for the field. In particular, we point out that the minimal length is purely kinematical such that, effectively, there is only one model of minimal-length quantum mechanics. | 翻訳日:2023-02-10 16:01:51 公開日:2023-02-09 |
# ドイツ中央銀行の証券投機による適格基準の検討のためのnlpに基づく意思決定支援システム NLP-based Decision Support System for Examination of Eligibility Criteria from Securities Prospectuses at the German Central Bank ( http://arxiv.org/abs/2302.04562v1 ) ライセンス: Link先を確認 | Christian H\"anig, Markus Schl\"osser, Serhii Hamotskyi, Gent Zambaku, Janek Blankenburg | (参考訳) ドイツ連邦銀行(独:deutsche bundesbank)は、デジタル化イニシアチブの一環として、自然言語処理(nlp)が有価証券の審査の適格性基準に基づいて独立的に決定できる範囲について検討したいと考えている。
毎月、ドイツ中央銀行の一般市場総局は、pdfフォーマットでスキャンされた数百の見通しを受け取り、その適格性を決定するために手作業で処理しなければならない。
この退屈で時間のかかるプロセスは、現代のNLPモデルアーキテクチャを用いて、テキストで言語的特徴表現を学習して、現在適格で不可解な基準を識別することで、(半)自動化できることがわかった。
提案する意思決定支援システムは,人間に理解可能な意思決定説明を伴う文書レベルの適格基準の決定を提供する。
本研究の目的は,提案するユースケースをモデル化し,NLP分野の現在の研究成果をどの程度適用できるかを評価することである。
不均一なドメイン固有のデータセットに、関連する基準の許容範囲と非許容範囲のアノテーションが含まれた後、セミオートマチックな決定モデルの構築、トレーニング、デプロイに成功した。
このモデルはトランスフォーマーベースの言語モデルと決定木に基づいており、決定プロセスの確立されたルールベースの部分を統合する。
以上の結果から, 課題を効率的にモデル化し, 意思決定を90%以上に自動化することが可能であることが示唆された。 As part of its digitization initiative, the German Central Bank (Deutsche Bundesbank) wants to examine the extent to which natural Language Processing (NLP) can be used to make independent decisions upon the eligibility criteria of securities prospectuses. Every month, the Directorate General Markets at the German Central Bank receives hundreds of scanned prospectuses in PDF format, which must be manually processed to decide upon their eligibility. We found that this tedious and time-consuming process can be (semi-)automated by employing modern NLP model architectures, which learn the linguistic feature representation in text to identify the present eligible and ineligible criteria. The proposed Decision Support System provides decisions of document-level eligibility criteria accompanied by human-understandable explanations of the decisions. The aim of this project is to model the described use case and to evaluate the extent to which current research results from the field of NLP can be applied to this problem. After creating a heterogeneous domain-specific dataset containing annotations of eligible and non-eligible mentions of relevant criteria, we were able to successfully build, train and deploy a semi-automatic decider model. This model is based on transformer-based language models and decision trees, which integrate the established rule-based parts of the decision processes. Results suggest that it is possible to efficiently model the problem and automate decision making to more than 90% for many of the considered eligibility criteria. | 翻訳日:2023-02-10 16:01:33 公開日:2023-02-09 |
# 超伝導回路を用いた量子情報処理の展望 Quantum information processing with superconducting circuits: a perspective ( http://arxiv.org/abs/2302.04558v1 ) ライセンス: Link先を確認 | G. Wendin | (参考訳) 過去5年間、量子コンピューティングのプラットフォームは劇的な進化を遂げ、物理学の実験から量子ハードウェア、ソフトウェア工学へと分野を移した。
しかし、この量子プロセッサの進歩にもかかわらず、この分野はまだノイズの多い中間スケール量子(NISQ)システムにあり、ソフトウェアアプリケーションの性能を著しく制限している。
重要な問題は、量子最適化と物質科学の有用な応用において量子優位を達成する方法であり、2019年にgoogleによって初めて実証された量子超越性の概念に関連している。
本稿では、量子超越性と量子優位の関連ベンチマークを確立するための最近の研究、最適化と電子構造決定のための変分量子アルゴリズムの応用に関する最近の研究、実用的な量子優位性を達成する方法について論じ、最後に、競合量子システムへのスケールアップに関する現在の研究とアイデアを概説する。 The last five years have seen a dramatic evolution of platforms for quantum computing, taking the field from physics experiments to quantum hardware and software engineering. Nevertheless, despite this progress of quantum processors, the field is still in the noisy intermediate-scale quantum (NISQ) regime, seriously limiting the performance of software applications. Key issues involve how to achieve quantum advantage in useful applications for quantum optimization and materials science, connected to the concept of quantum supremacy first demonstrated by Google in 2019. In this article we will describe recent work to establish relevant benchmarks for quantum supremacy and quantum advantage, present recent work on applications of variational quantum algorithms for optimization and electronic structure determination, discuss how to achieve practical quantum advantage, and finally outline current work and ideas about how to scale up to competitive quantum systems. | 翻訳日:2023-02-10 16:01:08 公開日:2023-02-09 |
# テスト時間適応による分布変化に対するロバストな質問--実証的研究 Robust Question Answering against Distribution Shifts with Test-Time Adaptation: An Empirical Study ( http://arxiv.org/abs/2302.04618v1 ) ライセンス: Link先を確認 | Hai Ye, Yuyang Ding, Juntao Li, Hwee Tou Ng | (参考訳) テストデータがトレーニングデータと比較して分布シフトがある場合、デプロイされた質問応答(QA)モデルは容易に失敗する。
ロバストネスチューニング(RT)法は, モデル展開前の分散シフトに対するモデル堅牢性を高めるために広く研究されている。
しかし、デプロイ後にモデルを改善することはできるだろうか?
この質問に答えるために,テスト時間適応(TTA)を評価し,デプロイ後のモデルを改善する。
まず、テキストの破損や言語やドメインの変更に対する堅牢なQAのための統一評価ベンチマークであるCOLDQAを紹介する。
次に, COLDQAにおける従来のTTA手法を評価し, RT法と比較する。
また,オンライン模倣学習(OIL)と呼ばれる新しいTTA手法を提案する。
広範な実験により、TTAはRT法と同等であり、RT後にTTAを適用することでCOLDQAの性能を大幅に向上できることがわかった。
提案する石油は,ハイパーパラメータやテスト分布の変動に対して,ttaをより頑健に改善する。 A deployed question answering (QA) model can easily fail when the test data has a distribution shift compared to the training data. Robustness tuning (RT) methods have been widely studied to enhance model robustness against distribution shifts before model deployment. However, can we improve a model after deployment? To answer this question, we evaluate test-time adaptation (TTA) to improve a model after deployment. We first introduce COLDQA, a unified evaluation benchmark for robust QA against text corruption and changes in language and domain. We then evaluate previous TTA methods on COLDQA and compare them to RT methods. We also propose a novel TTA method called online imitation learning (OIL). Through extensive experiments, we find that TTA is comparable to RT methods, and applying TTA after RT can significantly boost the performance on COLDQA. Our proposed OIL improves TTA to be more robust to variation in hyper-parameters and test distributions over time. | 翻訳日:2023-02-10 15:54:25 公開日:2023-02-09 |
# テキスト誘導型タンパク質設計フレームワーク A Text-guided Protein Design Framework ( http://arxiv.org/abs/2302.04611v1 ) ライセンス: Link先を確認 | Shengchao Liu, Yutao Zhu, Jiarui Lu, Zhao Xu, Weili Nie, Anthony Gitter, Chaowei Xiao, Jian Tang, Hongyu Guo, Anima Anandkumar | (参考訳) 現在のAI支援タンパク質の設計は、主にタンパク質シーケンシャルおよび構造情報を利用する。
一方、タンパク質の高レベルな性質を記述したテキスト形式には、人間による膨大な知識が存在する。
しかし、このようなテキストデータの組み入れがタンパク質設計のタスクに役立つかどうかはまだ検討されていない。
このギャップを埋めるために,タンパク質設計にテキスト記述を利用するマルチモーダルフレームワークであるproteindtを提案する。
タンパク質DTは以下の3つのステップから構成される: 2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
ProteinDTをトレーニングするために,441Kテキストとタンパク質ペアを備えた大規模なデータセットSwissProtCLAPを構築した。
筆者らは,(1)タンパク質特性予測ベンチマークの6つ中4つにおいて連続的に優れた性能を示し,(2)テキスト誘導タンパク質生成の90%以上の精度を示し,(3)ゼロショットテキスト誘導タンパク質編集の有望な結果を得た。 Current AI-assisted protein design mainly utilizes protein sequential and structural information. Meanwhile, there exists tremendous knowledge curated by humans in the text format describing proteins' high-level properties. Yet, whether the incorporation of such text data can help protein design tasks has not been explored. To bridge this gap, we propose ProteinDT, a multi-modal framework that leverages textual descriptions for protein design. ProteinDT consists of three subsequent steps: ProteinCLAP that aligns the representation of two modalities, a facilitator that generates the protein representation from the text modality, and a decoder that generates the protein sequences from the representation. To train ProteinDT, we construct a large dataset, SwissProtCLAP, with 441K text and protein pairs. We empirically verify the effectiveness of ProteinDT from three aspects: (1) consistently superior performance on four out of six protein property prediction benchmarks; (2) over 90% accuracy for text-guided protein generation; and (3) promising results for zero-shot text-guided protein editing. | 翻訳日:2023-02-10 15:54:10 公開日:2023-02-09 |
# グラフデータのためのoutlier-robust gromov wasserstein Outlier-Robust Gromov Wasserstein for Graph Data ( http://arxiv.org/abs/2302.04610v1 ) ライセンス: Link先を確認 | Lemin Kong, Jiajin Li, Anthony Man-Cho So | (参考訳) gromov wasserstein (gw) 距離は、異なる計量空間上で支持される確率分布を比較調整するための強力なツールである。
幅広いグラフ学習タスクのために異種データをアライメントするための主要なモデリング技術となっている。
しかし、GW距離は外れ値に非常に敏感であることが知られており、目的関数の他のサンプルと同じ重みが与えられた場合、大きな不正確な結果になる可能性がある。
この問題を軽減するため、我々はRGWと呼ばれるGW距離の新しい堅牢バージョンを導入する。
RGWは、$\varphi$-divergence に基づくあいまいさ集合の中で楽観的に摂動する境界制約を特徴とする。
rgwの利点をより使いやすくするために、計算効率の良いアルゴリズムであるbregman proximal alternating linearization minimizationを開発し、理論的収束を保証した。
広範な実験を通じて,RGWがグラフマッチングや部分形状対応などの実世界のグラフ学習タスクにおいて有効であることを示す。 Gromov Wasserstein (GW) distance is a powerful tool for comparing and aligning probability distributions supported on different metric spaces. It has become the main modeling technique for aligning heterogeneous data for a wide range of graph learning tasks. However, the GW distance is known to be highly sensitive to outliers, which can result in large inaccuracies if the outliers are given the same weight as other samples in the objective function. To mitigate this issue, we introduce a new and robust version of the GW distance called RGW. RGW features optimistically perturbed marginal constraints within a $\varphi$-divergence based ambiguity set. To make the benefits of RGW more accessible in practice, we develop a computationally efficient algorithm, Bregman proximal alternating linearization minimization, with a theoretical convergence guarantee. Through extensive experimentation, we validate our theoretical results and demonstrate the effectiveness of RGW on real-world graph learning tasks, such as subgraph matching and partial shape correspondence. | 翻訳日:2023-02-10 15:53:48 公開日:2023-02-09 |
# MECオフロードにおけるパターンプライバシ保護のための微分プライベートQ-Learning Differentially Private Deep Q-Learning for Pattern Privacy Preservation in MEC Offloading ( http://arxiv.org/abs/2302.04608v1 ) ライセンス: Link先を確認 | Shuying Gan, Marie Siew, Chao Xu, Tony Q.S. Quek | (参考訳) モバイルエッジコンピューティング(MEC)は、レイテンシに敏感なIoTアプリケーションの品質(QoS)要件を満たすための、有望なパラダイムである。
しかしながら、攻撃者は、エッジサーバ(es)のキュー情報とユーザの使用パターンを推測するオフロード決定を盗聴して、パターンプライバシ(pp)の問題を引き起こす可能性がある。
そこで本研究では, PP を保ちながら, 遅延, ES のエネルギー消費, タスク削減率を両立させるオフロード戦略を提案する。
まず, 動的計算オフロード手順をマルコフ決定過程(MDP)として定式化する。
次に、差分プライバシー深層Q-ラーニングに基づくオフローディング(DP-DQO)アルゴリズムを開発し、この問題を解決するとともに、生成されたオフローディング決定にノイズを注入することでPP問題に対処する。
これはDQN(Deep Q-network)をFunction-output Gaussianプロセス機構で修正することで実現される。
DP-DQOアルゴリズムの理論的プライバシ保証と実用性保証(学習エラー境界)を提供し、最後に、提案アルゴリズムの性能をgreedyおよびDQNベースのアルゴリズムと比較して評価するシミュレーションを行う。 Mobile edge computing (MEC) is a promising paradigm to meet the quality of service (QoS) requirements of latency-sensitive IoT applications. However, attackers may eavesdrop on the offloading decisions to infer the edge server's (ES's) queue information and users' usage patterns, thereby incurring the pattern privacy (PP) issue. Therefore, we propose an offloading strategy which jointly minimizes the latency, ES's energy consumption, and task dropping rate, while preserving PP. Firstly, we formulate the dynamic computation offloading procedure as a Markov decision process (MDP). Next, we develop a Differential Privacy Deep Q-learning based Offloading (DP-DQO) algorithm to solve this problem while addressing the PP issue by injecting noise into the generated offloading decisions. This is achieved by modifying the deep Q-network (DQN) with a Function-output Gaussian process mechanism. We provide a theoretical privacy guarantee and a utility guarantee (learning error bound) for the DP-DQO algorithm and finally, conduct simulations to evaluate the performance of our proposed algorithm by comparing it with greedy and DQN-based algorithms. | 翻訳日:2023-02-10 15:53:30 公開日:2023-02-09 |
# 弱教師付きワンステップ人物探索のための深層画像内コントラスト学習 Deep Intra-Image Contrastive Learning for Weakly Supervised One-Step Person Search ( http://arxiv.org/abs/2302.04607v1 ) ライセンス: Link先を確認 | Jiabei Wang and Yanwei Pang and Jiale Cao and Hanqing Sun and Zhuang Shao and Xuelong Li | (参考訳) 弱教師付き人物探索は,人境界ボックスアノテーションのみを用いた共同歩行者検出と再識別(re-id)を行うことを目的としている。
近年,コントラスト学習の考え方は,2つの共通コントラスト戦略がメモリベースコントラストと画像内コントラストである弱教師付き人物探索に適用されている。
現在の画像内コントラストは浅く、空間的および咬合レベルのばらつきに悩まされている。
本稿では,シームズネットワークを用いた画像内コントラスト学習について述べる。
2つの重要なモジュールは空間不変コントラスト(SIC)とオクルージョン不変コントラスト(OIC)である。
SICは、シームズネットワークの2つの分枝と、シームズネットワークの1つの分枝における密度予測コントラストとの間に、多対一のコントラストを実行する。
これらの多対一および密接なコントラストにより、sicは空間レベルの分散を解決するために、識別的スケール不変および位置不変特徴を学ぶ傾向がある。
OICは、オクルージョン不変の特徴を学ぶためのマスキング戦略との整合性を高める。
2つの人物探索データセット CUHK-SYSU と PRW に対して,実験を行った。
本手法は弱教師付きワンステップ人物探索手法の最先端性能を実現する。
画像内コントラスト学習が、弱い教師付き人物検索により多くのパラダイムを提供できることを願っています。
ソースコードは \url{https://github.com/jiabeiwangtju/dicl} で入手できる。 Weakly supervised person search aims to perform joint pedestrian detection and re-identification (re-id) with only person bounding-box annotations. Recently, the idea of contrastive learning is initially applied to weakly supervised person search, where two common contrast strategies are memory-based contrast and intra-image contrast. We argue that current intra-image contrast is shallow, which suffers from spatial-level and occlusion-level variance. In this paper, we present a novel deep intra-image contrastive learning using a Siamese network. Two key modules are spatial-invariant contrast (SIC) and occlusion-invariant contrast (OIC). SIC performs many-to-one contrasts between two branches of Siamese network and dense prediction contrasts in one branch of Siamese network. With these many-to-one and dense contrasts, SIC tends to learn discriminative scale-invariant and location-invariant features to solve spatial-level variance. OIC enhances feature consistency with the masking strategy to learn occlusion-invariant features. Extensive experiments are performed on two person search datasets CUHK-SYSU and PRW, respectively. Our method achieves a state-of-the-art performance among weakly supervised one-step person search approaches. We hope that our simple intra-image contrastive learning can provide more paradigms on weakly supervised person search. The source code is available at \url{https://github.com/jiabeiwangTJU/DICL}. | 翻訳日:2023-02-10 15:53:07 公開日:2023-02-09 |
# Contestable Camera Cars: オープンで論争に責任のある公開AIの投機的設計 Contestable Camera Cars: A Speculative Design Exploration of Public AI That Is Open and Responsive to Dispute ( http://arxiv.org/abs/2302.04603v1 ) ライセンス: Link先を確認 | Kars Alfrink, Ianus Keller, Neelke Doorn, Gerd Kortuem | (参考訳) 地方自治体は自動意思決定に人工知能(AI)をますます利用している。
競争性は、システムが紛争に反応するようにし、自律性と尊厳に対する人権を尊重する手段である。
カメラカーの例として, 画像センサを搭載した人間駆動型自動車を用いた都市AIシステムの設計について検討する。
競合可能なAIのための仮フレームワークを適用することで、投機的デザインを使用して、競合可能なカメラカーのコンセプトビデオを作成します。
このコンセプトビデオを使って、ヨーロッパ北西部の大都市で採用されているAIを扱う17人の公務員と、半構造化されたインタビューを行う。
結果のデータは反射論的解析を用いて分析され、公的なAIにおける競合性の実装に直面する主な課題を特定する。
市民参加がいかに代表的問題に直面しているかを説明し、公共AIシステムは既存の民主的慣行と統合されるべきであり、都市はAI開発と運用の責任を負う能力を拡張する必要がある。 Local governments increasingly use artificial intelligence (AI) for automated decision-making. Contestability, making systems responsive to dispute, is a way to ensure they respect human rights to autonomy and dignity. We investigate the design of public urban AI systems for contestability through the example of camera cars: human-driven vehicles equipped with image sensors. Applying a provisional framework for contestable AI, we use speculative design to create a concept video of a contestable camera car. Using this concept video, we then conduct semi-structured interviews with 17 civil servants who work with AI employed by a large northwestern European city. The resulting data is analyzed using reflexive thematic analysis to identify the main challenges facing the implementation of contestability in public AI. We describe how civic participation faces issues of representation, public AI systems should integrate with existing democratic practices, and cities must expand capacities for responsible AI development and operation. | 翻訳日:2023-02-10 15:52:47 公開日:2023-02-09 |
# 優先配向の頂点結合を有する磁気四角形格子 Magnetic square lattice with vertex coupling of a preferred orientation ( http://arxiv.org/abs/2302.04601v1 ) ライセンス: Link先を確認 | Marzieh Baradaran, Pavel Exner, Ji\v{r}\'i Lipovsk\'y | (参考訳) 正方格子グラフを磁場中で解析し、頂点結合が時間反転不変性に違反する特定の型であると仮定する。
プラーペット当たりのフラックスの有理値のスペクトルを数値的に計算すると、この2つの効果が競い合っていることを示し、高エネルギーでは、親しみやすいホフシュタッターの蝶のパターンを漸近的に復元する磁場である。 We analyze a square lattice graph in a magnetic field assuming that the vertex coupling is of a particular type violating the time reversal invariance. Calculating the spectrum numerically for rational values of the flux per plaquette we show how the two effects compete; at the high energies it is the magnetic field which dominates restoring asymptotically the familiar Hofstadter's butterfly pattern. | 翻訳日:2023-02-10 15:52:31 公開日:2023-02-09 |
# 製品設計における一般機能構造の計画的導出 Plan-Based Derivation of General Functional Structures in Product Design ( http://arxiv.org/abs/2302.04600v1 ) ライセンス: Link先を確認 | Philipp Rosenthal, Niels Demke, Frank Mantwill, Oliver Niggemann | (参考訳) 製品設計において、製品機能全体を小さな相互作用関数の集合に分解することは、通常、コンピュータ支援設計ツールにとって重要な第一歩であると考えられている。
本稿では,人工知能に基づく後の解に特に適した関数の分解に対する新しいアプローチを提案する。
提案手法は,計画問題の観点から分解問題を定義する-人工知能における確立された分野である。
計画問題に対して、論理ベースの解法を用いて、設計プロセスに有用な関数構造を計算するソリューションを見つけることができる。
工学の有名な関数ライブラリは、アトミックプランニングのステップとして使われます。
これらのアルゴリズムは2つの異なる応用例を用いて評価され、一般関数分解の伝達性を保証する。 In product design, a decomposition of the overall product function into a set of smaller, interacting functions is usually considered a crucial first step for any computer-supported design tool. Here, we propose a new approach for the decomposition of functions especially suited for later solutions based on Artificial Intelligence. The presented approach defines the decomposition problem in terms of a planning problem--a well established field in Artificial Intelligence. For the planning problem, logic-based solvers can be used to find solutions that compute a useful function structure for the design process. Well-known function libraries from engineering are used as atomic planning steps. The algorithms are evaluated using two different application examples to ensure the transferability of a general function decomposition. | 翻訳日:2023-02-10 15:52:22 公開日:2023-02-09 |
# リフテッドグラフィカルモデルにおける構造学習のための原理的・効率的なモチーフ探索 Principled and Efficient Motif Finding for Structure Learning in Lifted Graphical Models ( http://arxiv.org/abs/2302.04599v1 ) ライセンス: Link先を確認 | Jonathan Feldstein, Dominic Phillips and Efthymia Tsamoura | (参考訳) 構造学習は、ニューロシンボリックAIと統計リレーショナル学習の分野の中心となるAIの中核的な問題である。
データから論理理論を自動的に学習する。
構造学習の基礎は、構造モチーフとして知られるデータの繰り返しパターンをマイニングすることである。
これらのパターンを見つけることは指数探索空間を減らし、したがって公式の学習を導く。
モチーフ学習の重要性にもかかわらず、まだよく理解されていない。
本稿では,一階述語論理と確率論的モデルとをブレンドする言語であるリフト型グラフィカルモデルにおいて,構造モチーフをマイニングする第一原理的手法を提案する。
私たちの最初の貢献は、2つの直感的なハイパーパラメータに依存するアルゴリズムです。1つはエンティティの類似性測度の不確実性を制御するもので、もう1つは結果のルールの柔らかさを制御するものです。
第2のコントリビューションは、最も関連するデータへの検索スペースを減らすために、データの階層的クラスタリングを実行する前処理ステップです。
3つ目の貢献は、構造関連データをクラスタリングするためのO(n ln n)アルゴリズムの導入です。
提案手法は, 標準ベンチマークを用いて評価し, 最先端構造学習手法の精度を最大6%, 実行速度を最大80%向上することを示す。 Structure learning is a core problem in AI central to the fields of neuro-symbolic AI and statistical relational learning. It consists in automatically learning a logical theory from data. The basis for structure learning is mining repeating patterns in the data, known as structural motifs. Finding these patterns reduces the exponential search space and therefore guides the learning of formulas. Despite the importance of motif learning, it is still not well understood. We present the first principled approach for mining structural motifs in lifted graphical models, languages that blend first-order logic with probabilistic models, which uses a stochastic process to measure the similarity of entities in the data. Our first contribution is an algorithm, which depends on two intuitive hyperparameters: one controlling the uncertainty in the entity similarity measure, and one controlling the softness of the resulting rules. Our second contribution is a preprocessing step where we perform hierarchical clustering on the data to reduce the search space to the most relevant data. Our third contribution is to introduce an O(n ln n) (in the size of the entities in the data) algorithm for clustering structurally-related data. We evaluate our approach using standard benchmarks and show that we outperform state-of-the-art structure learning approaches by up to 6% in terms of accuracy and up to 80% in terms of runtime. | 翻訳日:2023-02-10 15:52:12 公開日:2023-02-09 |
# MAPS:ソースフリー領域適応キーポイント検出のためのノイズロスプログレッシブ学習手法 MAPS: A Noise-Robust Progressive Learning Approach for Source-Free Domain Adaptive Keypoint Detection ( http://arxiv.org/abs/2302.04589v1 ) ライセンス: Link先を確認 | Yuhe Ding, Jian Liang, Bo Jiang, Aihua Zheng, Ran He | (参考訳) 既存のクロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要があり、これはデータプライバシー法に違反し、深刻なセキュリティ上の懸念を引き起こす可能性がある。
本稿では,対象領域に十分に訓練されたソースモデルのみを提供する,ソースフリー領域適応キーポイント検出と呼ばれる現実的な問題設定について検討する。
そこで我々はまず,データ拡張とネットワークアンサンブルによる予測を安定化し,教師の学習ベースラインを構築する。
これに基づいて、トレーニング中の未ラベル対象データの偽ラベルを完全に活用するために、Mixup Augmentation and Progressive Selection(MAPS)という統一的なアプローチを提案する。
一方、MAPSは、自己混合増強により、対象サンプル間の単純な線形挙動を正則化し、モデルが過度に適合し、ノイズの予測を妨げている。
一方、MAPSは自己評価学習パラダイムを採用し、学習過程において「easy」から「hard」までの擬似ラベル付きサンプルを段階的に選択し、ノイズ蓄積を減らす。
4つのキーポイント検出データセットの結果は、MAPSがベースラインを上回り、以前の非ソースフリーのデータセットと比較すると、同等またはそれ以上の結果が得られることを示している。 Existing cross-domain keypoint detection methods always require accessing the source data during adaptation, which may violate the data privacy law and pose serious security concerns. Instead, this paper considers a realistic problem setting called source-free domain adaptive keypoint detection, where only the well-trained source model is provided to the target domain. For the challenging problem, we first construct a teacher-student learning baseline by stabilizing the predictions under data augmentation and network ensembles. Built on this, we further propose a unified approach, Mixup Augmentation and Progressive Selection (MAPS), to fully exploit the noisy pseudo labels of unlabeled target data during training. On the one hand, MAPS regularizes the model to favor simple linear behavior in-between the target samples via self-mixup augmentation, preventing the model from over-fitting to noisy predictions. On the other hand, MAPS employs the self-paced learning paradigm and progressively selects pseudo-labeled samples from `easy' to `hard' into the training process to reduce noise accumulation. Results on four keypoint detection datasets show that MAPS outperforms the baseline and achieves comparable or even better results in comparison to previous non-source-free counterparts. | 翻訳日:2023-02-10 15:51:51 公開日:2023-02-09 |
# 平滑化オンライン学習への応用による近似拒絶サンプリングのサンプル複雑性 The Sample Complexity of Approximate Rejection Sampling with Applications to Smoothed Online Learning ( http://arxiv.org/abs/2302.04658v1 ) ライセンス: Link先を確認 | Adam Block and Yury Polyanskiy | (参考訳) 分布$\mu$から$n$独立サンプルにアクセスでき、出力をターゲットディストリビューション$\nu$に可能な限り近いものにすることを目標に、その中の1つを出力したいとします。
この研究において、n$ の関数としての最適な全変動距離は、すべての対のクラスに対して$\nu,\mu$ で与えられ、有界な $f$-divergence $d_f(\nu\|\mu)\leq d$ が与えられる。
以前は、この問題は、$\mu$に対する$\nu$のラドン・ニコディム微分が一様有界である場合にのみ研究された。
次に、一見全く異なるスムーズなオンライン学習分野の応用を考えると、ミニマックスの後悔とオラクル効率アルゴリズムの後悔は、(ラドン-ニコディムの有界な微分とは対照的に、$f$-divergenceを有界とする)敵のゆるい制約の下でも保たれていることを示す。
最後に,関数クラス全体に対する平均推定値に対する重要サンプリングの有効性について検討し,また,重要サンプリングと拒絶サンプリングを比較した。 Suppose we are given access to $n$ independent samples from distribution $\mu$ and we wish to output one of them with the goal of making the output distributed as close as possible to a target distribution $\nu$. In this work we show that the optimal total variation distance as a function of $n$ is given by $\tilde\Theta(\frac{D}{f'(n)})$ over the class of all pairs $\nu,\mu$ with a bounded $f$-divergence $D_f(\nu\|\mu)\leq D$. Previously, this question was studied only for the case when the Radon-Nikodym derivative of $\nu$ with respect to $\mu$ is uniformly bounded. We then consider an application in the seemingly very different field of smoothed online learning, where we show that recent results on the minimax regret and the regret of oracle-efficient algorithms still hold even under relaxed constraints on the adversary (to have bounded $f$-divergence, as opposed to bounded Radon-Nikodym derivative). Finally, we also study efficacy of importance sampling for mean estimates uniform over a function class and compare importance sampling with rejection sampling. | 翻訳日:2023-02-10 15:45:56 公開日:2023-02-09 |
# 変分量子回路のトレーサビリティの効率的な推定 Efficient estimation of trainability for variational quantum circuits ( http://arxiv.org/abs/2302.04649v1 ) ライセンス: Link先を確認 | Valentin Heyraud, Zejian Li, Kaelan Donatella, Alexandre Le Boit\'e, and Cristiano Ciuti | (参考訳) 変分 ans\atze として使用されるパラメータ化量子回路は、量子化学から組合せ最適化までの複雑な問題に対処するための有望なツールとして出現している。
これらの変分量子回路は、システムサイズによるコスト関数勾配の指数関数的消滅によって特徴付けられる、不毛高原の有名な呪いに苦しむ可能性がある。
汎用量子回路を効率的にシミュレートできないため、トレーニング可能性の決定は重要な問題である。
本稿では,コスト関数の勾配とその分散を多種多様な変分量子回路で計算する効率的な方法を見出す。
我々のスキームは、ランダムに初期化された回路からクラフォード回路の集合への正確な写像の証明に依存しており、これは有名なゴッテスマン・クニルの定理によって古典的なコンピュータ上で効率的にシミュレートできる。
この方法はスケーラブルであり、変分量子回路のトレーサビリティを証明し、不毛高原問題を克服する設計戦略を探求するために使用できる。 Parameterized quantum circuits used as variational ans\"atze are emerging as promising tools to tackle complex problems ranging from quantum chemistry to combinatorial optimization. These variational quantum circuits can suffer from the well-known curse of barren plateaus, which is characterized by an exponential vanishing of the cost-function gradient with the system size, making training unfeasible for practical applications. Since a generic quantum circuit cannot be simulated efficiently, the determination of its trainability is an important problem. Here we find an efficient method to compute the gradient of the cost function and its variance for a wide class of variational quantum circuits. Our scheme relies on our proof of an exact mapping from randomly initialized circuits to a set of Clifford circuits that can be efficiently simulated on a classical computer by virtue of the celebrated Gottesmann-Knill theorem. This method is scalable and can be used to certify trainability for variational quantum circuits and explore design strategies that can overcome the barren plateau problem. | 翻訳日:2023-02-10 15:45:34 公開日:2023-02-09 |
# 最適化問題の自動生成のための新しいアプローチ A Novel Approach for Auto-Formulation of Optimization Problems ( http://arxiv.org/abs/2302.04643v1 ) ライセンス: Link先を確認 | Yuting Ning, Jiayu Liu, Longhu Qin, Tong Xiao, Shangzi Xue, Zhenya Huang, Qi Liu, Enhong Chen, Jinze Wu | (参考訳) natural language for optimization (nl4opt)のneurips 2022コンペティションでは、競争相手は最適化ソルバのアクセシビリティとユーザビリティの向上に重点を置いており、subtask 1:最適化問題のコンポーネントに対応するセマンティックエンティティの認識、subtask 2:最適化問題の定式化の生成などを目的としている。
本稿では,チームのソリューションについて述べる。
まず、サブタスク1を、前処理方法、対向訓練、後処理方法、アンサンブル学習を含むソリューションパイプラインで名前付きエンティティ認識(NER)問題として扱う。
さらに,特別に設計されたプロンプト,敵対的トレーニング,後処理法,アンサンブル学習などを含むソリューションパイプラインでは,サブタスク2を生成問題として扱う。
提案手法は,サブタスク1のF1スコアとサブタスク2の0.867の精度を達成し,それぞれ第4位,第3位を獲得した。
私たちのコードはhttps://github.com/bigdata-ustc/nl4optで利用可能です。 In the Natural Language for Optimization (NL4Opt) NeurIPS 2022 competition, competitors focus on improving the accessibility and usability of optimization solvers, with the aim of subtask 1: recognizing the semantic entities that correspond to the components of the optimization problem; subtask 2: generating formulations for the optimization problem. In this paper, we present the solution of our team. First, we treat subtask 1 as a named entity recognition (NER) problem with the solution pipeline including pre-processing methods, adversarial training, post-processing methods and ensemble learning. Besides, we treat subtask 2 as a generation problem with the solution pipeline including specially designed prompts, adversarial training, post-processing methods and ensemble learning. Our proposed methods have achieved the F1-score of 0.931 in subtask 1 and the accuracy of 0.867 in subtask 2, which won the fourth and third places respectively in this competition. Our code is available at https://github.com/bigdata-ustc/nl4opt. | 翻訳日:2023-02-10 15:45:14 公開日:2023-02-09 |
# より良い拡散モデルによる対人訓練の改善 Better Diffusion Models Further Improve Adversarial Training ( http://arxiv.org/abs/2302.04638v1 ) ライセンス: Link先を確認 | Zekai Wang, Tianyu Pang, Chao Du, Min Lin, Weiwei Liu, Shuicheng Yan | (参考訳) DDPM(denoising diffusion probabilistic model)によって生成されたデータは、対向訓練を改善することが認識されている。
拡散モデルにおける2年間の急速な発展の後、自然な疑問が生まれている。
本稿では, DDPMと比較して高効率(20ドルサンプリングステップ)で画像品質(FIDスコアが低い)の最新の拡散モデルを用いて, 肯定的な回答を与える。
我々の敵対的に訓練されたモデルは、生成されたデータ(外部データセットなし)のみを使用してRobostBenchの最先端のパフォーマンスを達成する。
このモデルは$\ell_\infty$-normの脅威モデルで$\epsilon=8/255$で、それぞれ$4.58\%$と$+8.03\%$で、cifar-10とcifar-100で$0.69\%$と$2.67\%$ロバストな精度を達成した。
我々のモデルは、$\epsilon=128/255$の$\ell_2$-norm脅威モデルの下で、cifar-10 (+4.44\%$) で$4.86\% を達成。
これらの結果は、外部データを使用する以前の作業にも匹敵する。
私たちのコードはhttps://github.com/wzekai99/DM-Improves-ATで利用可能です。 It has been recognized that the data generated by the denoising diffusion probabilistic model (DDPM) improves adversarial training. After two years of rapid development in diffusion models, a question naturally arises: can better diffusion models further improve adversarial training? This paper gives an affirmative answer by employing the most recent diffusion model which has higher efficiency ($\sim 20$ sampling steps) and image quality (lower FID score) compared with DDPM. Our adversarially trained models achieve state-of-the-art performance on RobustBench using only generated data (no external datasets). Under the $\ell_\infty$-norm threat model with $\epsilon=8/255$, our models achieve $70.69\%$ and $42.67\%$ robust accuracy on CIFAR-10 and CIFAR-100, respectively, i.e. improving upon previous state-of-the-art models by $+4.58\%$ and $+8.03\%$. Under the $\ell_2$-norm threat model with $\epsilon=128/255$, our models achieve $84.86\%$ on CIFAR-10 ($+4.44\%$). These results also beat previous works that use external data. Our code is available at https://github.com/wzekai99/DM-Improves-AT. | 翻訳日:2023-02-10 15:44:55 公開日:2023-02-09 |
# 機械学習による原始惑星円盤のSEDの解析 Analysing the SEDs of protoplanetary disks with machine learning ( http://arxiv.org/abs/2302.04629v1 ) ライセンス: Link先を確認 | T. Kaeufer, P. Woitke, M. Min, I. Kamp, C. Pinte | (参考訳) ABRIDGED
原始惑星系円盤のスペクトルエネルギー分布(SED)の解析により、それらの物理的性質は高度に縮退することが知られている。
したがって、パラメータの不確かさと退化を得るためにベイズ解析が必要である。
ここでの課題は計算速度であり、ラジエーション伝達モデルには数分間の計算が必要である。
既知の30個の原始惑星円盤についてベイズ解析を行い、不確実性や縮退性などの物理ディスク特性について検討した。
計算コスト問題を回避するため,我々はSED生成過程をエミュレートするニューラルネットワーク(NN)を開発した。
我々は,連続ディスクと不連続ディスクのsedを予測する2つのnnを訓練し,テストするために2セットのラジエーティブ転送ディスクモデルを作成した。
その後、ダイアナ計画によって収集されたsedデータを用いて30個の原始惑星系円盤上でベイズ解析を行い、全てのパラメータの後方分布を決定した。
この分析を2回行った。
(i)前回の研究では、古い距離と追加のパラメータ制約を用いて、結果を比較すること。
(ii)均質で偏りのないモデルパラメータを得るための距離の更新とパラメータの選択の自由。
sed解析から物理ディスクパラメータの決定の不確実性を評価し,最強の縮退を検出・定量化した。
NNは1ms以内のSEDを、放射転送符号によって得られた真のSEDと比較して約5%の不確かさで予測することができる。
パラメータ値と不確かさは、$\chi^2$ fit で得られた以前の値と大きく異なる。
連続円盤と不連続円盤のグローバルな証拠を比較すると、30個の物体のうち26個は、2つの異なる放射帯を持つ円盤によって記述されている。
また、NNが予測したSEDを任意のパラメータの組み合わせで即座に返すインタラクティブツールを作成しました。 ABRIDGED. The analysis of spectral energy distributions (SEDs) of protoplanetary disks to determine their physical properties is known to be highly degenerate. Hence, a Bayesian analysis is required to obtain parameter uncertainties and degeneracies. The challenge here is computational speed, as one radiative transfer model requires a couple of minutes to compute. We performed a Bayesian analysis for 30 well-known protoplanetary disks to determine their physical disk properties, including uncertainties and degeneracies. To circumvent the computational cost problem, we created neural networks (NNs) to emulate the SED generation process. We created two sets of radiative transfer disk models to train and test two NNs that predict SEDs for continuous and discontinuous disks. A Bayesian analysis was then performed on 30 protoplanetary disks with SED data collected by the DIANA project to determine the posterior distributions of all parameters. We ran this analysis twice, (i) with old distances and additional parameter constraints as used in a previous study, to compare results, and (ii) with updated distances and free choice of parameters to obtain homogeneous and unbiased model parameters. We evaluated the uncertainties in the determination of physical disk parameters from SED analysis, and detected and quantified the strongest degeneracies. The NNs are able to predict SEDs within 1ms with uncertainties of about 5% compared to the true SEDs obtained by the radiative transfer code. We find parameter values and uncertainties that are significantly different from previous values obtained by $\chi^2$ fitting. Comparing the global evidence for continuous and discontinuous disks, we find that 26 out of 30 objects are better described by disks that have two distinct radial zones. Also, we created an interactive tool that instantly returns the SED predicted by our NNs for any parameter combination. | 翻訳日:2023-02-10 15:44:10 公開日:2023-02-09 |
# Node-to-Nebourhoodアライメントによる自己教師付きノード表現学習 Self-Supervised Node Representation Learning via Node-to-Neighbourhood Alignment ( http://arxiv.org/abs/2302.04626v1 ) ライセンス: Link先を確認 | Wei Dong, Dawei Yan, and Peng Wang | (参考訳) 自己教師付きノード表現学習は、教師付きノードと競合する未ラベルグラフからノード表現を学ぶことを目的としている。
情報ノード表現を学習する鍵は、グラフ構造からコンテキスト情報を効果的に取得する方法にある。
本研究では,ノードとその周辺領域の隠蔽表現を整列させることにより,簡便な自己教師付きノード表現学習を提案する。
我々の最初のアイデアは、それらの表現間の相互情報を直接的に最大化することで、そのようなノード間アライメントを実現する。
提案手法は,ノード間の構造的依存関係を考慮し,オフラインの正の選択を可能にすることにより,正のサンプリングを行うため,サーロゲートコントラスト損失とトポロジー認識正サンプリング(taps)戦略によって最適化されている。
コントラスト学習の過剰なメモリオーバーヘッドを考慮すると、グラフ信号デコレーション(GSD)制約が表現の崩壊や過度なスムース化を避けるために、負のフリーソリューションを提案する。
GSD制約は既存の制約の一部を統一し、表現の崩壊と戦うために新しい実装を導出するために使用できる。
本手法を単純なmlpベースのノード表現エンコーダ上に適用することにより,小規模から大規模までのグラフ構造データセット上で有望なノード分類性能を実現するノード表現を学習する。 Self-supervised node representation learning aims to learn node representations from unlabelled graphs that rival the supervised counterparts. The key towards learning informative node representations lies in how to effectively gain contextual information from the graph structure. In this work, we present simple-yet-effective self-supervised node representation learning via aligning the hidden representations of nodes and their neighbourhood. Our first idea achieves such node-to-neighbourhood alignment by directly maximizing the mutual information between their representations, which, we prove theoretically, plays the role of graph smoothing. Our framework is optimized via a surrogate contrastive loss and a Topology-Aware Positive Sampling (TAPS) strategy is proposed to sample positives by considering the structural dependencies between nodes, which enables offline positive selection. Considering the excessive memory overheads of contrastive learning, we further propose a negative-free solution, where the main contribution is a Graph Signal Decorrelation (GSD) constraint to avoid representation collapse and over-smoothing. The GSD constraint unifies some of the existing constraints and can be used to derive new implementations to combat representation collapse. By applying our methods on top of simple MLP-based node representation encoders, we learn node representations that achieve promising node classification performance on a set of graph-structured datasets from small- to large-scale. | 翻訳日:2023-02-10 15:43:41 公開日:2023-02-09 |
# 誘導注意機構を用いた弱監視ヒト皮膚切片 Weakly Supervised Human Skin Segmentation using Guidance Attention Mechanisms ( http://arxiv.org/abs/2302.04625v1 ) ライセンス: Link先を確認 | Kooshan Hashemifard, Pau Climent-Perez, Francisco Florez-Revuelta | (参考訳) 人間の皮膚のセグメンテーションはコンピュータビジョンや生体計測システムにおいて重要な課題であるが、肌の色の変化、ポーズ、照明などいくつかの課題がある。
本稿では,コンテキスト情報の統合と効率的なネットワーク設計を通じて,これらの課題に対処する単一の画像に対するロバストなデータ駆動スキン分割手法を提案する。
堅牢性と精度に加えて、リアルタイムシステムとの統合には、計算能力、速度、性能のバランスが慎重に必要である。
提案手法は2つの注意モジュール,Body Attention と Skin Attention を組み込み,コンテキスト情報を用いてセグメンテーション結果を改善する。
これらのモジュールは、それぞれ体の境界と皮膚のピクセルに焦点を当て、望ましい領域に注意を向ける。
さらに、エンコーダ部に効率的なネットワークアーキテクチャを用い、高性能を維持しながら計算能力を最小限に抑える。
皮膚データセットにおけるノイズラベルの問題に対処するため, 提案手法では, Skin Attentionモジュールに依存する弱教師付きトレーニング戦略を用いている。
本研究の結果から,提案手法はベンチマークデータセット上での最先端手法に匹敵する,あるいは優れることを示す。 Human skin segmentation is a crucial task in computer vision and biometric systems, yet it poses several challenges such as variability in skin color, pose, and illumination. This paper presents a robust data-driven skin segmentation method for a single image that addresses these challenges through the integration of contextual information and efficient network design. In addition to robustness and accuracy, the integration into real-time systems requires a careful balance between computational power, speed, and performance. The proposed method incorporates two attention modules, Body Attention and Skin Attention, that utilize contextual information to improve segmentation results. These modules draw attention to the desired areas, focusing on the body boundaries and skin pixels, respectively. Additionally, an efficient network architecture is employed in the encoder part to minimize computational power while retaining high performance. To handle the issue of noisy labels in skin datasets, the proposed method uses a weakly supervised training strategy, relying on the Skin Attention module. The results of this study demonstrate that the proposed method is comparable to, or outperforms, state-of-the-art methods on benchmark datasets. | 翻訳日:2023-02-10 15:43:15 公開日:2023-02-09 |
# 多体観測器の深層学習と量子情報スクランブル Deep learning of many-body observables and quantum information scrambling ( http://arxiv.org/abs/2302.04621v1 ) ライセンス: Link先を確認 | Naeimeh Mohseni, Junheng Shi, Tim Byrnes, Michael Hartmann | (参考訳) 機械学習は量子科学において大きなブレークスルーを示しており、特にディープニューラルネットワークは量子多体システムのモデリングにおいて顕著な力を示した。
本稿では,物理観測値の力学学習におけるデータ駆動型ディープニューラルネットワークの能力が,量子情報のスクランブルとどのように相関するかを検討する。
我々は、モデルのパラメータからランダム量子回路における可観測性の進化へのマッピングを見つけるためにニューラルネットワークを訓練し、その量子スクランブル(英語版)(quantum scrambling)とその \textit{generalization} と \textit{extrapolation} の能力をテストする。
以上の結果から,リカレントニューラルネットワークはシステムサイズや時間ウィンドウ内での予測を一般化し,局所的,スクランブル型,スクランブル型ともにトレーニングされていることが示唆された。
これには、古典的学習アプローチがフルウェーブ関数の表現からサンプリングするのに失敗することが知られているレジームが含まれる。
さらに、考慮されたニューラルネットワークは、スクランブルなレジームではなく、ローカライゼーションを示すモデルのためにトレーニングされた時間ウィンドウとシステムサイズを超えて、その予測に成功している。 Machine learning has shown significant breakthroughs in quantum science, where in particular deep neural networks exhibited remarkable power in modeling quantum many-body systems. Here, we explore how the capacity of data-driven deep neural networks in learning the dynamics of physical observables is correlated with the scrambling of quantum information. We train a neural network to find a mapping from the parameters of a model to the evolution of observables in random quantum circuits for various regimes of quantum scrambling and test its \textit{generalization} and \textit{extrapolation} capabilities in applying it to unseen circuits. Our results show that a particular type of recurrent neural network is extremely powerful in generalizing its predictions within the system size and time window that it has been trained on for both, localized and scrambled regimes. These include regimes where classical learning approaches are known to fail in sampling from a representation of the full wave function. Moreover, the considered neural network succeeds in \textit{extrapolating} its predictions beyond the time window and system size that it has been trained on for models that show localization, but not in scrambled regimes. | 翻訳日:2023-02-10 15:42:56 公開日:2023-02-09 |
# Pruning Proto-Goalsによるゴールベース探索のスケールアップ Scaling Goal-based Exploration via Pruning Proto-goals ( http://arxiv.org/abs/2302.04693v1 ) ライセンス: Link先を確認 | Akhil Bagaria, Ray Jiang, Ramana Kumar, Tom Schaul | (参考訳) 強化学習(RL)における最も厄介な課題の1つは、新規性やカバレッジを求める行動が不足している広大な領域への探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
ゴール発見における中核的な課題は、一般性(手作りではない)とトラクタビリティ(あまり役に立たない)の適切なバランスを見つけることです。
提案手法では,人間設計者が広いが有意義な原ゴール空間を指定でき,自律的な発見プロセスにより,制御可能で到達可能で,新規で,関連性の高い目標の狭い領域に展開することができる。
次に,目標条件付き探索の有効性を3つの課題環境で実証した。 One of the gnarliest challenges in reinforcement learning (RL) is exploration that scales to vast domains, where novelty-, or coverage-seeking behaviour falls short. Goal-directed, purposeful behaviours are able to overcome this, but rely on a good goal space. The core challenge in goal discovery is finding the right balance between generality (not hand-crafted) and tractability (useful, not too many). Our approach explicitly seeks the middle ground, enabling the human designer to specify a vast but meaningful proto-goal space, and an autonomous discovery process to refine this to a narrower space of controllable, reachable, novel, and relevant goals. The effectiveness of goal-conditioned exploration with the latter is then demonstrated in three challenging environments. | 翻訳日:2023-02-10 15:37:24 公開日:2023-02-09 |
# 強レーザー物理、非古典的光状態および量子情報科学 Strong laser physics, non-classical light states and quantum information science ( http://arxiv.org/abs/2302.04692v1 ) ライセンス: Link先を確認 | Utso Bhattacharya, Theocharis Lamprou, Andrew S. Maxwell, Andr\'es F. Ord\'o\~nez, Emilio Pisanty, Javier Rivera-Dean, Philipp Stammer, Marcelo F. Ciappina, Maciej Lewenstein, Paraskevas Tzallas | (参考訳) 強いレーザー物理学は、高出力レーザーの使用に依存する研究方向であり、相対論的粒子加速からアト秒科学まで、興味深い業績をもたらした。
一方、量子光学は低光子数源の利用に基づいて構築されており、量子技術における発見の基盤となり、量子理論の基礎的なテストから量子情報処理まで研究が進められている。
この大きな進展にもかかわらず、最近までこれらの方向は断たれたままである。
これは、強場極限における相互作用の大部分は、電磁場を古典的に扱う半古典近似によって説明され、観測を説明するために場の量子特性を含める必要はないためである。
強いレーザー物理学、量子光学、量子情報科学のつながりは近年発展してきた。
完全量子化およびコンディショニングアプローチに基づく研究は、強いレーザー-物質相互作用が制御可能な絡み合いおよび非古典的な光状態の生成に利用できることを示した。
この業績は、強いレーザー物理学、量子光学、量子情報科学の共生に由来する膨大な数の研究の道を開く。
本稿では,これらの研究の原理を概説した後,レーザー・物質相互作用の完全定量化と非古典的な光状態と絡み合った状態の生成のために開発された手法の最近の進歩について報告する。
また、強いレーザー場を用いた非古典的な光工学の今後の方向性や、超高速・量子情報科学への応用の可能性についても論じる。 Strong laser physics is a research direction that relies on the use of high-power lasers and has led to fascinating achievements ranging from relativistic particle acceleration to attosecond science. On the other hand, quantum optics has been built on the use of low photon number sources and has opened the way for groundbreaking discoveries in quantum technology, advancing investigations ranging from fundamental tests of quantum theory to quantum information processing. Despite the tremendous progress, until recently these directions have remained disconnected. This is because, the majority of the interactions in the strong-field limit have been successfully described by semi-classical approximations treating the electromagnetic field classically, as there was no need to include the quantum properties of the field to explain the observations. The link between strong laser physics, quantum optics, and quantum information science has been developed in the recent past. Studies based on fully quantized and conditioning approaches have shown that intense laser--matter interactions can be used for the generation of controllable entangled and non-classical light states. This achievement opens the way for a vast number of investigations stemming from the symbiosis of strong laser physics, quantum optics, and quantum information science. Here, after an introduction to the fundamentals of these research directions, we report on the recent progress in the fully quantized description of intense laser--matter interaction and the methods that have been developed for the generation of non-classical light states and entangled states. Also, we discuss the future directions of non-classical light engineering using strong laser fields, and the potential applications in ultrafast and quantum information science. | 翻訳日:2023-02-10 15:37:08 公開日:2023-02-09 |
# 量子コンピューティングのための決定図 Decision Diagrams for Quantum Computing ( http://arxiv.org/abs/2302.04687v1 ) ライセンス: Link先を確認 | Robert Wille, Stefan Hillmich, and Lukas Burgholzer | (参考訳) 量子コンピューティングは、従来の計算よりも早く、いくつかの重要な問題を解決することを約束する。
現在利用可能なNISQデバイスは、最初の実用的なアプリケーションがすでに実行されており、将来的なフォールトトレラントな量子ハードウェアによって、より要求の高いアプリケーションが地平線上に存在する可能性を実証している。
それでも、コンピューティングパワーのアドバンテージは、設計自動化とソフトウェア開発コミュニティで対処すべき課題を伴っている。
特に、量子回路シミュレーションや検証のための基礎を提供する状態や演算の非量子表現は、指数関数的なメモリ量を必要とする。
我々は,指数的メモリ要求を克服するためのデータ構造として決定ダイアグラムを用いることを提案する。
本章では、決定図の基礎を概観し、量子回路シミュレーションのタスクや、誤りのないタスク、および量子回路の検証におけるそれらの適用性を明らかにする。
ここで提示されるツールは、すべてオープンソースプロジェクトとしてオンラインで利用可能である。 Quantum computing promises to solve some important problems faster than conventional computations ever could. Currently available NISQ devices on which first practical applications are already executed demonstrate the potential -- with future fault-tolerant quantum hardware for more demanding applications on the horizon. Nonetheless, the advantages in computing power come with challenges to be addressed in the design automation and software development community. In particular, non-quantum representations of states and operations, which provide the basis, e.g., for quantum circuit simulation or verification, require an exponential amount of memory. We propose to use decision diagrams as data structure to conquer the exponential memory requirements in many cases. In this chapter, we review the fundamentals on decision diagrams and highlight their applicability in the tasks of quantum circuit simulation with and without errors as well as in verification of quantum circuits. The tools presented here are all available online as open source projects. | 翻訳日:2023-02-10 15:36:45 公開日:2023-02-09 |
# ピースワイズアフィンサロゲートを用いた混合変数を用いた大域的および選好的最適化 Global and Preference-based Optimization with Mixed Variables using Piecewise Affine Surrogates ( http://arxiv.org/abs/2302.04686v1 ) ライセンス: Link先を確認 | Mengjia Zhu, Alberto Bemporad | (参考訳) 混合変数、すなわち数値的およびカテゴリー的性質の変数を含む最適化問題は、特に複雑な制約が存在する場合、解決が困難である。
さらに、目的関数がシミュレーションや実験の結果である場合、評価は高価である可能性がある。
本稿では,対象関数の断片的なアフィンサロゲートを構成することに基づく,PWASと呼ばれる新しいサロゲートに基づくグローバル最適化アルゴリズムを提案する。
混合整数線形計画法(MILP)を用いて,実現可能な領域を効率的に探索する2種類の探索関数を提案する。
pwaspと呼ばれるアルゴリズムの選好ベースのバージョンも提供しています。これは、目的関数が定量化されていない間、サンプル間のペアワイズ比較のみを取得できる場合にも使用できます。
PWASとPWASpは、制約のない混合変数ベンチマーク問題で試験される。
その結果, PWAS と PWASp は, ごく少数の買収において, 既存の手法よりもよく, あるいは同等の結果が得られることがわかった。 Optimization problems involving mixed variables, i.e., variables of numerical and categorical nature, can be challenging to solve, especially in the presence of complex constraints. Moreover, when the objective function is the result of a simulation or experiment, it may be expensive to evaluate. In this paper, we propose a novel surrogate-based global optimization algorithm, called PWAS, based on constructing a piecewise affine surrogate of the objective function over feasible samples. We introduce two types of exploration functions to efficiently search the feasible domain via mixed integer linear programming (MILP) solvers. We also provide a preference-based version of the algorithm, called PWASp, which can be used when only pairwise comparisons between samples can be acquired while the objective function remains unquantified. PWAS and PWASp are tested on mixed-variable benchmark problems with and without constraints. The results show that, within a small number of acquisitions, PWAS and PWASp can often achieve better or comparable results than other existing methods. | 翻訳日:2023-02-10 15:36:32 公開日:2023-02-09 |
# S-行列フレームワークにおける$\eta$-pseudo-unitary群における行列形式論の計量ウォーク Metric walk in matrix formalism across $\eta$-pseudo-unitary groups in the S-matrix framework ( http://arxiv.org/abs/2302.04681v1 ) ライセンス: Link先を確認 | Dennis Lima | (参考訳) 擬単項回路は、S-行列理論においてサイレントに再帰する。
本稿では、S-行列をT-行列に、従ってユニタリ群を擬ユニタリ群にマッピングする演算に対する行列および図式表現を提案する。
我々はこの操作を部分反転と呼び、その図式表現を置換の観点で示す。
我々は、部分反転後の物理的制約を保持する変形したメトリクスと変形したドット積の表現を見つける。
その後、行列反転における無限大を含む式を単純化する特別な集合を定義する。
最後に,t行列に対する再正規化成長アルゴリズムを応用として提案する。
本研究は、3次元の完全な図式表現を持つ疑似ユニタリ回路とpseudo-ユニタリ回路のファミリーを構築するために必要なすべてのツールを提供する。 Pseudo-unitary circuits are silently recurrent in S-matrix theory. We propose a matrix and diagrammatic representation for the operation that maps S-matrices to T-matrices, and consequently a unitary group to a pseudo-unitary one. We call this operation partial inversion and show its diagrammatic representation in terms of permutations. We find the expressions for the deformed metrics and deformed dot products that preserve physical constraints after partial inversion. Subsequently, we define a special set that allows for the simplification of expressions containing infinities in matrix inversion. Finally, we proposed a renormalized-growth algorithm for the T-matrix as a possible application. Our studies furnish all the tools needed to build a family of pseudo-unitary and inter-pseudo-unitary circuits with full diagrammatic representation in three dimensions. | 翻訳日:2023-02-10 15:36:15 公開日:2023-02-09 |
# マルコフ連鎖と品質保証の混合学習 Learning Mixtures of Markov Chains with Quality Guarantees ( http://arxiv.org/abs/2302.04680v1 ) ライセンス: Link先を確認 | Fabian Spaeh, Charalampos E. Tsourakakis | (参考訳) オンラインで音楽を聴いたり、ウェブを閲覧したり、スマートフォンでナビゲーションアプリを使うなど、多くのモダンなアプリケーションが、多くのユーザー・トレイルを生み出している。
このようなパスを共通のシーケンスパターンでグループにクラスタリングすることで、より優れたレコメンデーションによるユーザエクスペリエンスの改善、さらには自殺の防止 [lmcr14] につながる人間の行動の重要な構造を明らかにすることができる。
この問題を数学的にモデル化する一つのアプローチはマルコフ連鎖の混合である。
近年, Gupta, Kumar, Vassilvitski [GKV16] は, 特異値分解(SVD)に基づくアルゴリズム(GKV-SVD)を導入した。
本研究は, GKV-SVDアルゴリズムの2つの重要な制約を強調し, 対処することにより, マルコフ連鎖を解き放つ問題に寄与する。
我々はこれらの問題をGupta et al. paper[GKV16]で解決する。
具体的には、過剰適合を避けるためにLの値を効率的に選択できる代数的基準を提案する。
さらに,分離鎖の存在下で真の混合を出力し,雑音に対して頑健な再構成アルゴリズムを設計する。
提案手法がGKV-SVDアルゴリズムより優れていることを示すため,合成データと実データの両方で理論的結果を補完する。
最後に,3トラルの分布とマルコフ連鎖の混合に関する再構成誤差の両面において,EMアルゴリズムと我々の手法を併用した手法が有効であることを示す。 A large number of modern applications ranging from listening songs online and browsing the Web to using a navigation app on a smartphone generate a plethora of user trails. Clustering such trails into groups with a common sequence pattern can reveal significant structure in human behavior that can lead to improving user experience through better recommendations, and even prevent suicides [LMCR14]. One approach to modeling this problem mathematically is as a mixture of Markov chains. Recently, Gupta, Kumar and Vassilvitski [GKV16] introduced an algorithm (GKV-SVD) based on the singular value decomposition (SVD) that under certain conditions can perfectly recover a mixture of L chains on n states, given only the distribution of trails of length 3 (3-trail). In this work we contribute to the problem of unmixing Markov chains by highlighting and addressing two important constraints of the GKV-SVD algorithm [GKV16]: some chains in the mixture may not even be weakly connected, and secondly in practice one does not know beforehand the true number of chains. We resolve these issues in the Gupta et al. paper [GKV16]. Specifically, we propose an algebraic criterion that enables us to choose a value of L efficiently that avoids overfitting. Furthermore, we design a reconstruction algorithm that outputs the true mixture in the presence of disconnected chains and is robust to noise. We complement our theoretical results with experiments on both synthetic and real data, where we observe that our method outperforms the GKV-SVD algorithm. Finally, we empirically observe that combining an EM-algorithm with our method performs best in practice, both in terms of reconstruction error with respect to the distribution of 3-trails and the mixture of Markov Chains. | 翻訳日:2023-02-10 15:36:01 公開日:2023-02-09 |
# 普遍的病変検出のための混合順序自己パッチ学習 Mixed-order self-paced curriculum learning for universal lesion detection ( http://arxiv.org/abs/2302.04677v1 ) ライセンス: Link先を確認 | Han Li, Hu Han, and S. Kevin Zhou | (参考訳) 自己評価カリキュラム学習(SCL)は,コンピュータビジョンや自然言語処理などにおいて,その大きな可能性を実証している。
トレーニング中は、オンラインデータの難易度推定に基づいて、簡単なサンプリングを行う。
ほとんどのscl法は、データ難易度を推定し、初期訓練段階で「ハード」サンプルを減量するというロスベース戦略を採用している。
様々な応用で成功を収める一方で、SCLは、普遍的な病変検出など、医用画像解析タスクにおける2つの課題に直面している。
一 損失に基づく困難度測定器が不正確なこと。
二 硬質試料は、脱重機構から未利用である。
本稿では,これらの課題を克服するために,新しい混合順序自己評価カリキュラム学習法(Mo-SCL)を提案する。
我々は、不確実性と損失の両方を統合して、オンライン上での難易度を推定し、同じミニバッチにハードサンプルと簡単なサンプルを混ぜ合わせることで、ハードサンプルの未利用問題を適切に緩和する。
確率的勾配降下最適化の文脈において,本手法の理論的検討を行い,deeplesion benchmark dataset for universal lesion detection (uld) に基づく広範囲な実験を行った。
2つの最先端udd法に適用した場合,提案する混合順序scl法は,特別なネットワーク設計を必要とせず,病変検出精度を自由に向上させることができる。 Self-paced curriculum learning (SCL) has demonstrated its great potential in computer vision, natural language processing, etc. During training, it implements easy-to-hard sampling based on online estimation of data difficulty. Most SCL methods commonly adopt a loss-based strategy of estimating data difficulty and deweighting the `hard' samples in the early training stage. While achieving success in a variety of applications, SCL stills confront two challenges in a medical image analysis task, such as universal lesion detection, featuring insufficient and highly class-imbalanced data: (i) the loss-based difficulty measurer is inaccurate; ii) the hard samples are under-utilized from a deweighting mechanism. To overcome these challenges, in this paper we propose a novel mixed-order self-paced curriculum learning (Mo-SCL) method. We integrate both uncertainty and loss to better estimate difficulty online and mix both hard and easy samples in the same mini-batch to appropriately alleviate the problem of under-utilization of hard samples. We provide a theoretical investigation of our method in the context of stochastic gradient descent optimization and extensive experiments based on the DeepLesion benchmark dataset for universal lesion detection (ULD). When applied to two state-of-the-art ULD methods, the proposed mixed-order SCL method can provide a free boost to lesion detection accuracy without extra special network designs. | 翻訳日:2023-02-10 15:35:25 公開日:2023-02-09 |
# 正方形および三角形格子上の近藤格子モデルのドニハ位相図 Doniach phase diagram for Kondo lattice model on the square and triangular lattices ( http://arxiv.org/abs/2302.04660v1 ) ライセンス: Link先を確認 | Ruixiang Zhou, Xuefeng Zhang, and Gang Li | (参考訳) 幾何学的フラストレーションは反強磁性(AFM)コンド格子モデル(KLM)に新たな競合エネルギースケールを加える。
本研究では,同じ理論枠組みにおける正方格子および三角形格子上のドニハ位相図を体系的に研究し,その2つの格子上での予期せぬ応答を明らかにする。
幾何学的フラストレーションによって生じるポテンシャルエネルギーは、半充填三角形格子上の長距離反強磁性(AFM)秩序を完全に抑制するRuderman-Kittel-Kasuya-Yosida (RKKY)結合に匹敵する。
一方、正方格子上では、長距離AFM順序はRKKYと近藤結合の従来の競合をうまく確立し、構成する。
三角形格子上の幾何学的フラストレーションは、2つの異なる磁気秩序が予期せず現れる穴をあけると部分的に解放される。
2つの順序は相互作用するフェルミ曲面の位相と密接に関連している。
2つの格子上のKLMの包括的比較は、幾何学的フラストレーション、RKKY、近藤結合の低次元システムにおける重要な競合だけでなく、関連する材料における新しい位相の発見にも光を当てる。 Geometric frustration adds a new competing energy scale to the antiferromagnetic (AFM) Kondo lattice model (KLM). In this work, we systematically study the doniach phase diagram on the square and triangular lattices in the same theoretical framework and reveal unexpected responses of it on the two lattices. The potential energy created by the geometric frustration is comparable to the Ruderman-Kittel-Kasuya-Yosida (RKKY) coupling, which completely suppresses the long-range antiferromagnetic (AFM) order on the half-filled triangular lattice. While, on the square lattice, the long-range AFM order successfully establishes and constitutes the conventional competition between the RKKY and Kondo couplings. The geometrical frustration on the triangular lattice is partially released when doped with holes, in which two different magnetic orders emerge unexpectedly. The two orders closely relate to the topology of the interacting Fermi surface. Our comprehensive comparison of the KLM on the two lattices not only reveals a significant competition of geometric frustration, RKKY, and Kondo couplings on low-dimensional systems but also sheds light on experimentally finding new phases in related materials. | 翻訳日:2023-02-10 15:34:41 公開日:2023-02-09 |
# maniskill2: 汎用操作スキルのための統一ベンチマーク ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills ( http://arxiv.org/abs/2302.04659v1 ) ライセンス: Link先を確認 | Jiayuan Gu, Fanbo Xiang, Xuanlin Li, Zhan Ling, Xiqiang Liu, Tongzhou Mu, Yihe Tang, Stone Tao, Xinyue Wei, Yunchao Yao, Xiaodi Yuan, Pengwei Xie, Zhiao Huang, Rui Chen, Hao Su | (参考訳) ロングホライズンや複雑な日々の雑用に対処するために構成できる汎用的な操作スキルは、エンボディードAIの基盤の1つである。
しかし、既存のベンチマークは、主にシミュレーション可能な環境で構成されており、オブジェクトレベルのトポロジカルおよび幾何学的なバリエーションが欠けているため、最先端の研究作業を推進するには不十分であり、完全に動的シミュレーションに基づいていないか、複数の操作タスクに対するネイティブサポートが不足している。
この目的のために,次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を提案する。
ManiSkill2には2000以上のオブジェクトモデルを持つ20の操作タスクファミリと4M以上のデモフレームが含まれており、完全に動的エンジンでシミュレーションされた2D/3D入力データによる固定/移動ベース、シングル/デュアルアーム、剛性/ソフトボディ操作タスクをカバーしている。
これは、幅広いアルゴリズム(例えば、classic sense-plan-act、rl、il)、視覚的観察(point cloud、rgbd)、およびコントローラ(例えば、アクションタイプおよびパラメータ化)をサポートする統一インターフェースおよび評価プロトコルを定義している。
さらに、高速なビジュアル入力学習アルゴリズムにより、CNNベースのポリシーで1GPUと16プロセスのサンプルを、通常のワークステーション上で約2000FPSで収集することができる。
レンダリングサーバインフラストラクチャを実装し、すべての環境にわたってレンダリングリソースを共有できるようにし、メモリ使用量を大幅に削減する。
私たちはベンチマークのすべてのコード(シミュレータ、環境、ベースライン)をオープンソースとして公開し、学際研究者にオープンなオンラインチャレンジを開催しています。 Generalizable manipulation skills, which can be composed to tackle long-horizon and complex daily chores, are one of the cornerstones of Embodied AI. However, existing benchmarks, mostly composed of a suite of simulatable environments, are insufficient to push cutting-edge research works because they lack object-level topological and geometric variations, are not based on fully dynamic simulation, or are short of native support for multiple types of manipulation tasks. To this end, we present ManiSkill2, the next generation of the SAPIEN ManiSkill benchmark, to address critical pain points often encountered by researchers when using benchmarks for generalizable manipulation skills. ManiSkill2 includes 20 manipulation task families with 2000+ object models and 4M+ demonstration frames, which cover stationary/mobile-base, single/dual-arm, and rigid/soft-body manipulation tasks with 2D/3D-input data simulated by fully dynamic engines. It defines a unified interface and evaluation protocol to support a wide range of algorithms (e.g., classic sense-plan-act, RL, IL), visual observations (point cloud, RGBD), and controllers (e.g., action type and parameterization). Moreover, it empowers fast visual input learning algorithms so that a CNN-based policy can collect samples at about 2000 FPS with 1 GPU and 16 processes on a regular workstation. It implements a render server infrastructure to allow sharing rendering resources across all environments, thereby significantly reducing memory usage. We open-source all codes of our benchmark (simulator, environments, and baselines) and host an online challenge open to interdisciplinary researchers. | 翻訳日:2023-02-10 15:34:15 公開日:2023-02-09 |
# 要求分類のためのゼロショット学習:探索的研究 Zero-Shot Learning for Requirements Classification: An Exploratory Study ( http://arxiv.org/abs/2302.04723v1 ) ライセンス: Link先を確認 | Waad Alhoshan, Alessio Ferrari, Liping Zhao | (参考訳) コンテキストとモチベーション: 要件工学(RE)研究者は、要求分類、要求追跡、あいまいさ検出、モデリングなど、さまざまなREタスクに対して、機械学習(ML)とディープラーニング(DL)アプローチを実験してきた。
現在のML-DLアプローチのほとんどは、教師付き学習技術に基づいています。つまり、アノテーション付きデータセットを使用して、アプリケーションドメインのサンプルアイテムにクラスラベルを割り当てる方法を学ぶ必要があるのです。
この制約は、アノテーション付きデータセットの欠如によって、高度なML-DL技術のメリットを完全に活用することが難しくなるため、RE研究者にとって大きな課題となる。
本論文は,この課題に対処するために,ZSL (Unsupervised Zero-Shot Learning) 技術を用いて要求分類を行う手法を提案する。
多くのreタスクを分類問題としてフレーム化できるため,分類タスクに注目する。
本研究では,3つの課題に対するアプローチを実証する。
1) FR-NFR: 機能要件と非機能要件の分類(2) NFR: NFRクラスの識別(3) セキュリティ: セキュリティ要件と非セキュリティ要件の分類。
本研究はZSL法がFR-NFRタスクのF1スコア0.66を達成することを示した。
NFR タスクでは、最も頻繁なクラスを考慮して F1 ~ 0.72-0.80 が得られる。
セキュリティタスクでは、F1 ~ 0.66。
上記のF1スコアはすべて、ゼロトレーニングで達成される。
貢献: 本研究は要件分類におけるZSLの可能性を示す。
重要な意味は、複数のタスクを実行するためのトレーニングデータをほとんど、あるいは全く持たないことである。
提案手法は,REにおけるデータ不足の長年にわたる問題の解決に寄与する。 Context and motivation: Requirements Engineering (RE) researchers have been experimenting Machine Learning (ML) and Deep Learning (DL) approaches for a range of RE tasks, such as requirements classification, requirements tracing, ambiguity detection, and modelling. Question-problem: Most of today's ML-DL approaches are based on supervised learning techniques, meaning that they need to be trained using annotated datasets to learn how to assign a class label to sample items from an application domain. This constraint poses an enormous challenge to RE researchers, as the lack of annotated datasets makes it difficult for them to fully exploit the benefit of advanced ML-DL technologies. Principal ideas-results: To address this challenge, this paper proposes an approach that employs the embedding-based unsupervised Zero-Shot Learning (ZSL) technique to perform requirements classification. We focus on the classification task because many RE tasks can be framed as classification problems. In this study, we demonstrate our approach for three tasks. (1) FR-NFR: classification functional requirements vs non-functional requirements; (2) NFR: identification of NFR classes; (3) Security: classification of security vs non-security requirements. The study shows that the ZSL approach achieves an F1 score of 0.66 for the FR-NFR task. For the NFR task, the approach yields F1 ~ 0.72-0.80, considering the most frequent classes. For the Security task, F1 ~ 0.66. All of the aforementioned F1 scores are achieved with zero-training efforts. Contribution: This study demonstrates the potential of ZSL for requirements classification. An important implication is that it is possible to have very little or no training data to perform multiple tasks. The proposed approach thus contributes to the solution of the longstanding problem of data shortage in RE. | 翻訳日:2023-02-10 15:27:18 公開日:2023-02-09 |
# フランクウルフアルゴリズムによる局所モデルの改良とベル不等式 Improved local models and new Bell inequalities via Frank-Wolfe algorithms ( http://arxiv.org/abs/2302.04721v1 ) ライセンス: Link先を確認 | S\'ebastien Designolle, Gabriele Iommazzo, Mathieu Besan\c{c}on, Sebastian Knebel, Patrick Gel{\ss}, and Sebastian Pokutta | (参考訳) 局所的モデルの構築と超平面の分離、すなわちベルの不等式を導出するという局所的多面体のメンバーシップ問題の2つの側面をアルゴリズム的に検討する。
我々は,いわゆるfrank-wolfeアルゴリズムの最近の発展を利用して,既存の手法の収束率を大幅に向上させる。
そこで本研究では,2量子Werner状態の非局所性に対するしきい値を求める。
ここでは,文献中の上下の境界線を改良し,それに伴う範囲の長さをほぼ半減する。
重要なことに、我々の境界は完全に解析的であり、次数 3 のグロタンディーク定数の値に従えば、1.4376\leqslant k_g(3)\leqslant1.4546$である。
また,マルチパートのベルシナリオにおけるアプローチの効率を実証し,エンタングルメント閾値よりも視認性が高い全射影計測に対して,最初の局所モデルを提案する。
コード全体を、BellPolytopes.jlというJuliaライブラリとしてアクセス可能にする。 In Bell scenarios with two outcomes per party, we algorithmically consider the two sides of the membership problem for the local polytope: constructing local models and deriving separating hyperplanes, that is, Bell inequalities. We take advantage of the recent developments in so-called Frank--Wolfe algorithms to significantly increase the convergence rate of existing methods. As an application, we study the threshold value for the nonlocality of two-qubit Werner states under projective measurements. Here, we improve on both the upper and lower bounds present in the literature, almost halving the length of the accompanying range. Importantly, our bounds are entirely analytical and yield refined bounds $1.4376\leqslant K_G(3)\leqslant1.4546$ on the value of the Grothendieck constant of order three. We also demonstrate the efficiency of our approach in multipartite Bell scenarios, and present the first local models for all projective measurements with visibilities noticeably higher than the entanglement threshold. We make our entire code accessible as a Julia library called BellPolytopes.jl. | 翻訳日:2023-02-10 15:26:48 公開日:2023-02-09 |
# fock-darwinモデル量子ドットエンジンにおける最大出力の効率向上 Enhanced Efficiency at Maximum Power in a Fock-Darwin Model Quantum Dot Engine ( http://arxiv.org/abs/2302.04719v1 ) ライセンス: Link先を確認 | Francisco J. Pe\~na, Nathan M. Myers, Daniel \'Ordenes, Francisco Albarr\'an-Arriagada, Patricio Vargas | (参考訳) 既知のフォック・ダーウィンモデルを用いて1つの量子ドットからなる動作物質を用いた内可逆磁気オットーサイクルの性能について検討した。
パラボラトラップ(幾何学的閉じ込め)の強度の調整が提案サイクルの性能に影響を与え,サイクルがエンジンとして動作するパワー,作業,効率,パラメータ領域によって定量化されることがわかった。
最大出力電力の効率がカーゾン・アルボルン効率を超えるパラメータ領域が存在し、古典的加工物質によって達成される最大出力の効率が証明される。 We study the performance of an endoreversible magnetic Otto cycle with a working substance composed of a single quantum dot described using the well-known Fock-Darwin model. We find that tuning the intensity of the parabolic trap (geometrical confinement) impacts the proposed cycle's performance, quantified by the power, work, efficiency, and parameter region where the cycle operates as an engine. We demonstrate that a parameter region exists where the efficiency at maximum output power exceeds the Curzon-Ahlborn efficiency, the efficiency at maximum power achieved by a classical working substance. | 翻訳日:2023-02-10 15:26:30 公開日:2023-02-09 |
# 多機能組込みによる協調対話分析の一般化可能性の向上 Improving the Generalizability of Collaborative Dialogue Analysis with Multi-Feature Embeddings ( http://arxiv.org/abs/2302.04716v1 ) ライセンス: Link先を確認 | Ayesha Enayet and Gita Sukthankar | (参考訳) コミュニケーションにおけるコンフリクト予測は、タイムリーな支援を提供することでチームワークを成功させる仮想エージェントの設計に不可欠である。
本研究の目的は,会話を分析し,コラボレーションの成功を予測することである。
残念なことに、リソース不足は、多くのトレーニング例を集めることが難しいため、チームワーク研究者が直面する問題である。
この問題を軽減するため,本論文では対話列で訓練された競合予測モデルの一般化性を向上させる多機能組込み(mfeemb)を提案する。
mfeembは、語彙的、対話的行為、感情的特徴を取り入れることで、対話からテキスト的、構造的、セマンティックな情報を活用する。
対話行動と感情特徴の使用は、主に語彙の変化によって引き起こされる自然分布シフトによるパフォーマンス損失を減少させる。
本稿では、1つのタスク領域からの談話に基づいてモデルを訓練し、異なるドメインでのチームパフォーマンスを予測するドメイン適応問題に対するMFeEmbの性能を示す。
MFeEmb の一般化性は Bontonou et al. (2021) によって提唱された類似度尺度を用いて定量化される。
以上の結果から,mfeembは協調的多人数対話における数発モデルのメタプリトレーニングに優れたドメイン非依存表現として機能することが示された。 Conflict prediction in communication is integral to the design of virtual agents that support successful teamwork by providing timely assistance. The aim of our research is to analyze discourse to predict collaboration success. Unfortunately, resource scarcity is a problem that teamwork researchers commonly face since it is hard to gather a large number of training examples. To alleviate this problem, this paper introduces a multi-feature embedding (MFeEmb) that improves the generalizability of conflict prediction models trained on dialogue sequences. MFeEmb leverages textual, structural, and semantic information from the dialogues by incorporating lexical, dialogue acts, and sentiment features. The use of dialogue acts and sentiment features reduces performance loss from natural distribution shifts caused mainly by changes in vocabulary. This paper demonstrates the performance of MFeEmb on domain adaptation problems in which the model is trained on discourse from one task domain and applied to predict team performance in a different domain. The generalizability of MFeEmb is quantified using the similarity measure proposed by Bontonou et al. (2021). Our results show that MFeEmb serves as an excellent domain-agnostic representation for meta-pretraining a few-shot model on collaborative multiparty dialogues. | 翻訳日:2023-02-10 15:26:19 公開日:2023-02-09 |
# DeepCAM:エネルギー効率のよいディープニューラルネットワークのための可変ハッシュ長を持つ完全CAMベースの推論加速器 DeepCAM: A Fully CAM-based Inference Accelerator with Variable Hash Lengths for Energy-efficient Deep Neural Networks ( http://arxiv.org/abs/2302.04712v1 ) ライセンス: Link先を確認 | Duy-Thanh Nguyen, Abhiroop Bhattacharjee, Abhishek Moitra, Priyadarshini Panda | (参考訳) 最先端のパフォーマンスを達成するためにディープニューラルネットワークの深さと幅が増大するにつれて、ディープラーニングの計算能力は大幅に成長し、全体的な計算時間においてドット製品が支配的になっている。
ほとんどの先行研究は、重み付き入力和をニューロンの操作を表すために用いる従来のドット積に基づいている。
しかし、ユークリッド空間における角度と大きさの概念に基づくドット積の別の実装は、限定的な注目を集めている。
本稿では,畳み込みニューラルネットワークの計算時間ボトルネックを軽減するために,2つの重要なイノベーションに基づく推論アクセラレータdeepcamを提案する。
最初の発明はユークリッド空間の計算に基づく近似ドット積であり、加算と乗法を単純なビット演算に置き換えることができる。
第2のイノベーションは、ビットワイズ演算を実行し、より少ない計算時間でCNNを高速化する動的サイズコンテンツアドレスメモリベース(CAMベース)アクセラレータである。
画像認識データセットのベンチマーク実験により、DeepCAMはEyerisやIntel Skylakeのような従来のCPUよりも最大523倍、3498倍高速であることが示された。
さらに、私たちのDeepCAMアプローチで消費されるエネルギーは、アイリスに比べて2.16倍から109倍少ない。 With ever increasing depth and width in deep neural networks to achieve state-of-the-art performance, deep learning computation has significantly grown, and dot-products remain dominant in overall computation time. Most prior works are built on conventional dot-product where weighted input summation is used to represent the neuron operation. However, another implementation of dot-product based on the notion of angles and magnitudes in the Euclidean space has attracted limited attention. This paper proposes DeepCAM, an inference accelerator built on two critical innovations to alleviate the computation time bottleneck of convolutional neural networks. The first innovation is an approximate dot-product built on computations in the Euclidean space that can replace addition and multiplication with simple bit-wise operations. The second innovation is a dynamic size content addressable memory-based (CAM-based) accelerator to perform bit-wise operations and accelerate the CNNs with a lower computation time. Our experiments on benchmark image recognition datasets demonstrate that DeepCAM is up to 523x and 3498x faster than Eyeriss and traditional CPUs like Intel Skylake, respectively. Furthermore, the energy consumed by our DeepCAM approach is 2.16x to 109x less compared to Eyeriss. | 翻訳日:2023-02-10 15:26:03 公開日:2023-02-09 |
# 有効質量をもつ非エルミートフェルミオン Non-Hermitian fermions with effective mass ( http://arxiv.org/abs/2302.04706v1 ) ライセンス: Link先を確認 | F. C. E. Lima, L. N. Monteiro, and C. A. S. Almeida | (参考訳) 本研究では,位置依存質量(PDM)シナリオにおけるディラック方程式の解釈を行う。
ここでは、1+1$次元平時を仮定する有効質量を持つ非エルミートフェルミオン粒子の量子力学を研究する。
PT対称性を持つSchr\"{o}dinger-like理論を求めるとき、複素ポテンシャルを仮定するのは適切である。
この想像上の相互作用は、質量分布に純粋に依存する効果的なポテンシャルを生み出す。
さらに, foldy-wouthuysen変換を用いた非相対論的極限の研究を行った。
結果として、この極限は突然のヘテロ接合を記述する順序に等しい順序を与える。
後天的に,特に集団分布の有意な症例についても検討した。
したがって、効果的な調和振動子を生成し、境界状態の出現を誘導する線形pdmの場合、興味深い結果が得られる。
双曲型PDMでは、効果的な潜在的な障壁が現れる。
しかし、この場合、フェルミオンは正のエネルギーを持つ自由粒子として振る舞う。 In this work, we readdress the Dirac equation in the position-dependent mass (PDM) scenario. Here, one investigates the quantum dynamics of non-Hermitian fermionic particles with effective mass assuming a $(1+1)$-dimension flat spacetime. In seeking a Schr\"{o}dinger-like theory with PT symmetry is appropriate to assume a complex potential. This imaginary interaction produces an effective potential purely dependent on mass distribution. Furthermore, we study the non-relativistic limit by adopting the Foldy-Wouthuysen transformation. As a result, that limit leads to an ordering equivalent to the ordering that describes abrupt heterojunctions. Posteriorly, particular cases of mass distribution also were analyzed. Thus, interesting results arise for the case of a linear PDM, which produces an effective harmonic oscillator and induces the emergence of bound states. For a hyperbolic PDM, an effective potential barrier emerges. However, in this case, the fermions behave as free particles with positive-defined energy. | 翻訳日:2023-02-10 15:25:40 公開日:2023-02-09 |
# rein: mlパイプラインのデータクリーニング方法のための包括的なベンチマークフレームワーク REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in ML Pipelines ( http://arxiv.org/abs/2302.04702v1 ) ライセンス: Link先を確認 | Mohamed Abdelaal, Christian Hammacher, Harald Schoening | (参考訳) 今日では、機械学習(ML)が日々の生活において重要な役割を担っている。
本質的に、優れたMLアプリケーションを構築するには、そのようなアプリケーションのライフサイクル全体を通して高品質なデータを提供する必要があります。
それでも、実際の表データのほとんどは、値の欠如、外れ値、重複、パターン違反、矛盾など、さまざまなタイプの不一致に悩まされている。
このような不一致は通常、データの収集、転送、保存、および/または統合中に発生する。
これらの不一致に対処するため、多くのデータクリーニング手法が導入された。
しかし、そのような手法の大部分は、下流MLモデルによって課される要件を概ね見落としている。
その結果、これらのデータクリーニング手法をMLパイプラインで活用する可能性はほとんど明らかにされていない。
本研究では,データクリーニング手法が各種MLモデルに与える影響を徹底的に調査するための総合ベンチマークREIN1を導入する。
ベンチマークを通じて、データのクリーニングがmlパイプラインに必要なステップであるかどうかなど、重要な研究課題に対する回答を提供する。
この目的のために、ベンチマークは38の単純かつ高度なエラー検出と修復方法を調べる。
これらの手法を評価するために,異なるドメインをカバーする14の公開データセットでトレーニングされたmlモデルの幅広いコレクションを利用し,合成エラープロファイルを包含した。 Nowadays, machine learning (ML) plays a vital role in many aspects of our daily life. In essence, building well-performing ML applications requires the provision of high-quality data throughout the entire life-cycle of such applications. Nevertheless, most of the real-world tabular data suffer from different types of discrepancies, such as missing values, outliers, duplicates, pattern violation, and inconsistencies. Such discrepancies typically emerge while collecting, transferring, storing, and/or integrating the data. To deal with these discrepancies, numerous data cleaning methods have been introduced. However, the majority of such methods broadly overlook the requirements imposed by downstream ML models. As a result, the potential of utilizing these data cleaning methods in ML pipelines is predominantly unrevealed. In this work, we introduce a comprehensive benchmark, called REIN1, to thoroughly investigate the impact of data cleaning methods on various ML models. Through the benchmark, we provide answers to important research questions, e.g., where and whether data cleaning is a necessary step in ML pipelines. To this end, the benchmark examines 38 simple and advanced error detection and repair methods. To evaluate these methods, we utilized a wide collection of ML models trained on 14 publicly-available datasets covering different domains and encompassing realistic as well as synthetic error profiles. | 翻訳日:2023-02-10 15:25:29 公開日:2023-02-09 |
# NLIタスクのアノテーションアーチファクトに対応するNLPデータの拡張 Augmenting NLP data to counter Annotation Artifacts for NLI Tasks ( http://arxiv.org/abs/2302.04700v1 ) ライセンス: Link先を確認 | Armaan Singh Bhullar | (参考訳) 本稿では,大規模に事前学習されたnlpモデルがベンチマークデータセットでハイパフォーマンスを実現するが,実際に基礎タスクを"解決"せず,その代わりにいくつかのデータセットアーティファクト(列車,バリデーション,テストセットに共通する)に依存して正しい答えを求める現象であるアノテーションアーティファクトを考察する。
この現象をよく知られた自然言語推論タスクで検討し、まずコントラストと逆さまの例を用いてモデルの性能の限界を理解し、アノテーションアーチファクトから生じるバイアスの1つを示す(アノテータによるトレーニングデータの構築方法)。
次に,このバイアスを解消し,その効果を測定するためのデータ拡張手法を提案する。 In this paper, we explore Annotation Artifacts - the phenomena wherein large pre-trained NLP models achieve high performance on benchmark datasets but do not actually "solve" the underlying task and instead rely on some dataset artifacts (same across train, validation, and test sets) to figure out the right answer. We explore this phenomenon on the well-known Natural Language Inference task by first using contrast and adversarial examples to understand limitations to the model's performance and show one of the biases arising from annotation artifacts (the way training data was constructed by the annotators). We then propose a data augmentation technique to fix this bias and measure its effectiveness. | 翻訳日:2023-02-10 15:25:11 公開日:2023-02-09 |
# 量子多体格子モデルの鈴木-トロッター分解の量子シミュレーションコスト Quantum simulation costs for Suzuki-Trotter decomposition of quantum many-body lattice models ( http://arxiv.org/abs/2302.04698v1 ) ライセンス: Link先を確認 | Nathan M. Myers, Ryan Scott, Kwon Park, Vito W. Scarola | (参考訳) 量子コンピュータは、古典的デバイス上のシステムサイズと指数関数的にスケールするタスクである量子システムのダイナミクスを効率的にシミュレートする能力を提供する。
短期量子コンピュータが多体系をシミュレートする可能性を評価するために、一階整流器のスケーリングに基づいてシステムの時間発展を正確にシミュレートするのに必要なトロッターステップの数の境界を直接計算するモデル非依存形式を開発した。
この形式を、凝縮物物理学に特有な2つの密接に関連する多体モデル、ハバードモデルとt-jモデルに適用する。
トロッター深度の比較はまずハバードモデルに有利に思われるが, モデルパラメータと正確なシミュレーションのための許容誤差を慎重に検討すると, t-Jモデルにかなり有利であることがわかった。
これらの結果とフォーマリズムは、量子シミュレーションコストの大幅な改善の舞台となった。 Quantum computers offer the potential to efficiently simulate the dynamics of quantum systems, a task whose difficulty scales exponentially with system size on classical devices. To assess the potential for near-term quantum computers to simulate many-body systems we develop a model-independent formalism to straightforwardly compute bounds on the number of Trotter steps needed to accurately simulate the system's time evolution based on the first-order commutator scaling. We apply this formalism to two closely related many-body models prominent in condensed matter physics, the Hubbard and t-J models. We find that, while a naive comparison of the Trotter depth first seems to favor the Hubbard model, careful consideration of the model parameters and the allowable error for accurate simulation leads to a substantial advantage in favor of the t-J model. These results and formalism set the stage for significant improvements in quantum simulation costs. | 翻訳日:2023-02-10 15:24:57 公開日:2023-02-09 |
# 立方相関クラスタリングにおける部分最適性 Partial Optimality in Cubic Correlation Clustering ( http://arxiv.org/abs/2302.04694v1 ) ライセンス: Link先を確認 | David Stein, Silvia Di Gregorio, Bjoern Andres | (参考訳) 高次相関クラスタリング問題は表現モデルであり,近年,いくつかの応用において局所探索ヒューリスティックスが提案されている。
しかし、最適性の証明はNPハードであり、すでに問題文の複雑さによって妨げられている。
本稿では,完全グラフと立方体目的関数の特別な場合に対する部分最適条件の確立に着目する。
さらに、これらの条件をテストするアルゴリズムを定義し、その効果を2つのデータセット上で数値的に検証する。 The higher-order correlation clustering problem is an expressive model, and recently, local search heuristics have been proposed for several applications. Certifying optimality, however, is NP-hard and practically hampered already by the complexity of the problem statement. Here, we focus on establishing partial optimality conditions for the special case of complete graphs and cubic objective functions. In addition, we define and implement algorithms for testing these conditions and examine their effect numerically, on two datasets. | 翻訳日:2023-02-10 15:24:37 公開日:2023-02-09 |
# 粒子勾配降下を伴う高効率変位凸最適化 Efficient displacement convex optimization with particle gradient descent ( http://arxiv.org/abs/2302.04753v1 ) ライセンス: Link先を確認 | Hadi Daneshmand, Jason D. Lee, and Chi Jin | (参考訳) 粒子を確率測度の表現に用い、粒子の勾配降下を並列に行う粒子勾配降下は、確率測度の関数を最適化するために広く使われている。
本稿では,有限個の粒子による粒子勾配降下を考察し,その理論的保証を,測度において 'emph{displacement convex} となる関数を最適化する。
具体的には、$\mathbb{R}^d$の確率で定義されるリプシッツ変位凸関数に対して、$O(1/\epsilon^2)$粒子と$O(d/\epsilon^4)$計算が$\epsilon$-最適解を見つけるのに十分であることを示す。
さらに,滑らかな変位凸関数を最適化するための複雑性境界の改善も行う。
本稿では,2次元入力を持つ特定のニューラルアーキテクチャを用いた関数近似への結果の適用を実証する。 Particle gradient descent, which uses particles to represent a probability measure and performs gradient descent on particles in parallel, is widely used to optimize functions of probability measures. This paper considers particle gradient descent with a finite number of particles and establishes its theoretical guarantees to optimize functions that are \emph{displacement convex} in measures. Concretely, for Lipschitz displacement convex functions defined on probability over $\mathbb{R}^d$, we prove that $O(1/\epsilon^2)$ particles and $O(d/\epsilon^4)$ computations are sufficient to find the $\epsilon$-optimal solutions. We further provide improved complexity bounds for optimizing smooth displacement convex functions. We demonstrate the application of our results for function approximation with specific neural architectures with two-dimensional inputs. | 翻訳日:2023-02-10 15:18:44 公開日:2023-02-09 |
# 自動常識推論のためのベンチマーク: 調査 Benchmarks for Automated Commonsense Reasoning: A Survey ( http://arxiv.org/abs/2302.04752v1 ) ライセンス: Link先を確認 | Ernest Davis | (参考訳) 人工知能(AI)システムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
しかし、これらのベンチマークはしばしば欠陥があり、常識の多くの側面は未検証のままである。
したがって、現在、既存のAIシステムがこれらの能力をどの程度達成したかを測定する信頼できる方法を持っていません。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
我々は、コモンセンスの性質、AIにおけるコモンセンスの役割、コモンセンスベンチマークの構築によるゴール、コモンセンスベンチマークの望ましい特徴について論じる。
ベンチマークの一般的な欠陥を分析し、ベンチマークの例が常に高品質であることを保証するために必要な作業に投資する価値があると論じます。
本稿では,Commonsenseベンチマークの構築方法について検討する。
102のテキストベース,18のイメージベース,12のビデオベース,7つのシミュレートされた物理環境の,139のcommonsenseベンチマークを列挙した。
既存のベンチマークのギャップと既存のベンチマークでは対処されていないコモンセンス推論の側面について論じる。
我々は、Commonsense AIベンチマークの今後の開発について、いくつかの推奨事項で結論付けている。 More than one hundred benchmarks have been developed to test the commonsense knowledge and commonsense reasoning abilities of artificial intelligence (AI) systems. However, these benchmarks are often flawed and many aspects of common sense remain untested. Consequently, we do not currently have any reliable way of measuring to what extent existing AI systems have achieved these abilities. This paper surveys the development and uses of AI commonsense benchmarks. We discuss the nature of common sense; the role of common sense in AI; the goals served by constructing commonsense benchmarks; and desirable features of commonsense benchmarks. We analyze the common flaws in benchmarks, and we argue that it is worthwhile to invest the work needed ensure that benchmark examples are consistently high quality. We survey the various methods of constructing commonsense benchmarks. We enumerate 139 commonsense benchmarks that have been developed: 102 text-based, 18 image-based, 12 video based, and 7 simulated physical environments. We discuss the gaps in the existing benchmarks and aspects of commonsense reasoning that are not addressed in any existing benchmark. We conclude with a number of recommendations for future development of commonsense AI benchmarks. | 翻訳日:2023-02-10 15:18:26 公開日:2023-02-09 |
# ワンウェイ関数による量子アドバンテージ Quantum Advantage from One-Way Functions ( http://arxiv.org/abs/2302.04749v1 ) ライセンス: Link先を確認 | Tomoyuki Morimae, Takashi Yamakawa | (参考訳) 我々はいくつかの基本的な仮定、特に OWF の存在のみに基づく量子優位性を示す。
量子性の非効率検証証明(IV-PoQ)を導入し、古典的なビットコミットメントから構成する。
IV-PoQは、2つの位相からなる量子証明器と検証器の間の対話プロトコルである。
第1フェーズでは、検証器は確率多項式時間であり、証明器と相互作用する。
第2フェーズでは、検証者は非効率になり、第1フェーズの転写に基づいてその決定を行う。
証明者が正直であれば、非効率な検証者は高い確率で受け入れるが、古典的な悪意のある証明者は、その非効率な検証者によって受け入れられる確率は小さい。
1 つの片方向関数が存在するなら、IV-PoQ が存在する。
2) 分布的衝突耐性ハッシュ関数($\mathbf{SZK}$ のハード・オン・平均問題が存在する場合)が存在すれば、定数ラウンド IV-PoQ が存在する。
また,最悪の場合の仮定に基づく量子アドバンテージを示す。
我々は、悪意のある証明者に対して、証明者が騙せないような補助入力が無限に存在することを要求される補助入力IV-PoQ(AI-IV-PoQ)を定義する。
同様の方法でAI-IV-PoQを構築し,(1)補助入力片方向関数が存在する場合($\mathbf{CZK}\not\subseteq\mathbf{BPP}$の場合)、AI-IV-PoQが存在することを示す。
2)補助入力衝突耐性ハッシュ関数($\mathbf{PWPP}\nsubseteq \mathbf{FBPP}$)や$\mathbf{SZK}\nsubseteq \mathbf{BPP}$と等価であれば、定数ラウンドAI-IV-PoQが存在する。 We demonstrate quantum advantage with several basic assumptions, specifically based on only the existence of OWFs. We introduce inefficient-verifier proofs of quantumness (IV-PoQ), and construct it from classical bit commitments. IV-PoQ is an interactive protocol between a verifier and a quantum prover consisting of two phases. In the first phase, the verifier is probabilistic polynomial-time, and it interacts with the prover. In the second phase, the verifier becomes inefficient, and makes its decision based on the transcript of the first phase. If the prover is honest, the inefficient verifier accepts with high probability, but any classical malicious prover only has a small probability of being accepted by the inefficient verifier. Our construction demonstrates the following results: (1)If one-way functions exist, then IV-PoQ exist. (2)If distributional collision-resistant hash functions exist (which exist if hard-on-average problems in $\mathbf{SZK}$ exist), then constant-round IV-PoQ exist. We also demonstrate quantum advantage based on worst-case-hard assumptions. We define auxiliary-input IV-PoQ (AI-IV-PoQ) that only require that for any malicious prover, there exist infinitely many auxiliary inputs under which the prover cannot cheat. We construct AI-IV-PoQ from an auxiliary-input version of commitments in a similar way, showing that (1)If auxiliary-input one-way functions exist (which exist if $\mathbf{CZK}\not\subseteq\mathbf{BPP}$), then AI-IV-PoQ exist. (2)If auxiliary-input collision-resistant hash functions exist (which is equivalent to $\mathbf{PWPP}\nsubseteq \mathbf{FBPP}$) or $\mathbf{SZK}\nsubseteq \mathbf{BPP}$, then constant-round AI-IV-PoQ exist. | 翻訳日:2023-02-10 15:18:08 公開日:2023-02-09 |
# 指数型家族モデルにおけるオンライン切替点検出のための定点差分比検定 A Constant-per-Iteration Likelihood Ratio Test for Online Changepoint Detection for Exponential Family Models ( http://arxiv.org/abs/2302.04743v1 ) ライセンス: Link先を確認 | Kes Ward, Gaetano Romano, Idris Eckley, Paul Fearnhead | (参考訳) 確率比テストに基づくオンライン変更点検出アルゴリズムは、優れた統計特性を有することが示されている。
しかし、単純なオンライン実装は計算上不可能であり、時折$t$の場合、変更の場所として$o(t)$を考える必要がある。
近年, FOCuSアルゴリズムはガウス平均値の変化を検出するために導入され, 定位当たりのコストを$O(\log T)$に下げている。
これは、プランニング(pruning ideas)を使用することによって実現される。これにより、t$から約$\log t$までの時に考慮する必要がある変更点の場所のセットが削減される。
異なる1パラメータの指数関数的ファミリーモデルに対して確率比テストを実行したい場合、正確に同じプルーニング規則が使用できることを示し、繰り返して、イテレーション$t$で約$\log t$の位置を考慮すればよいことを示す。
さらに、アルゴリズムの最大化ステップを適応的に実行して、これらの可能な場所の小さな部分集合に対してテスト統計を最大化するだけでよいことを示す。
実験結果から,様々なモデルで変化を検出可能なオンラインアルゴリズムは,平均的に定値化コストがかかることがわかった。 Online changepoint detection algorithms that are based on likelihood-ratio tests have been shown to have excellent statistical properties. However, a simple online implementation is computationally infeasible as, at time $T$, it involves considering $O(T)$ possible locations for the change. Recently, the FOCuS algorithm has been introduced for detecting changes in mean in Gaussian data that decreases the per-iteration cost to $O(\log T)$. This is possible by using pruning ideas, which reduce the set of changepoint locations that need to be considered at time $T$ to approximately $\log T$. We show that if one wishes to perform the likelihood ratio test for a different one-parameter exponential family model, then exactly the same pruning rule can be used, and again one need only consider approximately $\log T$ locations at iteration $T$. Furthermore, we show how we can adaptively perform the maximisation step of the algorithm so that we need only maximise the test statistic over a small subset of these possible locations. Empirical results show that the resulting online algorithm, which can detect changes under a wide range of models, has a constant-per-iteration cost on average. | 翻訳日:2023-02-10 15:17:35 公開日:2023-02-09 |
# がんにおけるバイオマーカー発見のための生体医学知識グラフ A Biomedical Knowledge Graph for Biomarker Discovery in Cancer ( http://arxiv.org/abs/2302.04737v1 ) ライセンス: Link先を確認 | Md. Rezaul Karim and Lina Comet and Oya Beyan and Michael Cochez and Dietrich Rebholz-Schuhmann and Stefan Decker | (参考訳) 薬物、遺伝子、タンパク質、ウイルス、およびそれらのメカニズムに関する構造的および非構造的なデータや事実は、膨大な数の科学論文に散らばっている。
これらの論文は大規模知識源であり、特定の生物学的プロセスのメカニズムに関する知識の普及に大きな影響を与える可能性がある。
ドメイン固有の知識グラフ~(kg)は、w.r.tの意味的相互関係と関係を表す特定の主題マッタードメインの明示的な概念化である。
KGはそのような事実とデータを統合して構築することができ、データ統合、探索、フェデレーションクエリに使用することができる。
しかし、データ資産やセマンティック技術に関する知識が不足しているため、大規模なKGの探索とクエリは一部のユーザにとって面倒である。
このようなKGは、新しい知識と質問応答(QA)を推論するだけでなく、ドメインの専門家による探索を可能にする。
正確な診断には学際的な説明が重要であるため、KGに問い合わせて学習バイオマーカーに関する対話的な説明を提供することが重要である。
これらに触発されて、特に癌特異的なバイオマーカーの発見のためにドメイン特異的kgを構築した。
KGは、がん関連の知識と複数のソースからの事実を統合することで構築される。
まず、ドメイン固有のオントロジーを構築し、それをOncoNet Ontology (ONO)と呼ぶ。
ONOオントロジーは、疾患と遺伝子の関係を予測するための意味的推論を可能にするために開発された。
KGは、ONO、メタデータスキーマ、オントロジー、制御された語彙、およびBERTベースの情報抽出方法を用いた外部ソースからの追加概念を調和させて開発され、強化される。
BioBERTとSciBERTはPubMedからクロールされた選択項目で微調整される。
我々は、いくつかのクエリとQAの例を列挙し、KGに基づいた知識の推論を行った。 Structured and unstructured data and facts about drugs, genes, protein, viruses, and their mechanism are spread across a huge number of scientific articles. These articles are a large-scale knowledge source and can have a huge impact on disseminating knowledge about the mechanisms of certain biological processes. A domain-specific knowledge graph~(KG) is an explicit conceptualization of a specific subject-matter domain represented w.r.t semantically interrelated entities and relations. A KG can be constructed by integrating such facts and data and be used for data integration, exploration, and federated queries. However, exploration and querying large-scale KGs is tedious for certain groups of users due to a lack of knowledge about underlying data assets or semantic technologies. Such a KG will not only allow deducing new knowledge and question answering(QA) but also allows domain experts to explore. Since cross-disciplinary explanations are important for accurate diagnosis, it is important to query the KG to provide interactive explanations about learned biomarkers. Inspired by these, we construct a domain-specific KG, particularly for cancer-specific biomarker discovery. The KG is constructed by integrating cancer-related knowledge and facts from multiple sources. First, we construct a domain-specific ontology, which we call OncoNet Ontology (ONO). The ONO ontology is developed to enable semantic reasoning for verification of the predictions for relations between diseases and genes. The KG is then developed and enriched by harmonizing the ONO, additional metadata schemas, ontologies, controlled vocabularies, and additional concepts from external sources using a BERT-based information extraction method. BioBERT and SciBERT are finetuned with the selected articles crawled from PubMed. We listed down some queries and some examples of QA and deducing knowledge based on the KG. | 翻訳日:2023-02-10 15:17:13 公開日:2023-02-09 |
# 深層学習予測における不確実性定量化のベンチマーク A Benchmark on Uncertainty Quantification for Deep Learning Prognostics ( http://arxiv.org/abs/2302.04730v1 ) ライセンス: Link先を確認 | Luis Basora, Arthur Viens, Manuel Arias Chao, Xavier Olive | (参考訳) RUL予測に対する信頼性の高い不確実性定量化は、予測保守における情報的意思決定に不可欠である。
この文脈では,先天的深層学習における不確実性定量化の分野における最近の進歩について検討する。
これには、ベイジアンニューラルネットワーク(BNN)の最先端の変分推論アルゴリズムや、モンテカルロ・ドロップアウト(MCD)、ディープアンサンブル(DE)、ヘテロセダスティックニューラルネットワーク(HNN)などの一般的な代替品が含まれる。
すべての推論手法は、関数型モデルと同じ創発的なディープラーニングアーキテクチャを共有します。
アルゴリズムの主な変動パラメータと学習パラメータを最適化するためにハイパーパラメータ探索を行った。
この手法の性能は、航空機エンジン用の大きなnasa ncmapssデータセットのサブセットで評価される。
この評価には、RUL予測精度、予測不確実性の品質、および予測不確実性全体のアレターおよびてんかん部位に分解する可能性が含まれる。
結果は,すべての状況において,他の方法よりも明らかに優れていないことを示している。
全ての手法は精度では近いが、不確実性を推定する方法には違いがある。
したがって、DECとMCDは一般的にBNNよりも保守的な予測の不確実性をもたらす。
驚くべきことに、HNNはトレーニングの複雑さやBNNの余分なパラメータを追加せずに、強力な結果を得ることができる。
認識論的不確実性の分離が必要なアクティブラーニングのようなタスクでは、ラジアルbnnとmcdが最適である。 Reliable uncertainty quantification on RUL prediction is crucial for informative decision-making in predictive maintenance. In this context, we assess some of the latest developments in the field of uncertainty quantification for prognostics deep learning. This includes the state-of-the-art variational inference algorithms for Bayesian neural networks (BNN) as well as popular alternatives such as Monte Carlo Dropout (MCD), deep ensembles (DE) and heteroscedastic neural networks (HNN). All the inference techniques share the same inception deep learning architecture as a functional model. We performed hyperparameter search to optimize the main variational and learning parameters of the algorithms. The performance of the methods is evaluated on a subset of the large NASA NCMAPSS dataset for aircraft engines. The assessment includes RUL prediction accuracy, the quality of predictive uncertainty, and the possibility to break down the total predictive uncertainty into its aleatoric and epistemic parts. The results show no method clearly outperforms the others in all the situations. Although all methods are close in terms of accuracy, we find differences in the way they estimate uncertainty. Thus, DE and MCD generally provide more conservative predictive uncertainty than BNN. Surprisingly, HNN can achieve strong results without the added training complexity and extra parameters of the BNN. For tasks like active learning where a separation of epistemic and aleatoric uncertainty is required, radial BNN and MCD seem the best options. | 翻訳日:2023-02-10 15:16:29 公開日:2023-02-09 |
# 制約付き経験的リスク最小化:理論と実践 Constrained Empirical Risk Minimization: Theory and Practice ( http://arxiv.org/abs/2302.04729v1 ) ライセンス: Link先を確認 | Eric Marcus, Ray Sheombarsing, Jan-Jakob Sonke, Jonas Teuwen | (参考訳) ディープニューラルネットワーク(DNN)は、大きな関数のクラスを効果的に近似する能力に広く利用されている。
しかし、この柔軟性は、DNNの制約の厳格な執行をオープンな問題にする。
本稿では,軽度仮定の下で,dnnなどのパラメータ化された関数集合に対する制約の厳密な実行を可能にする枠組みを提案する。
損失に含まれる追加用語によって"ソフト"制約を課す代わりに、dnnパラメータのサブセットを、トレーニング手順全体を通して正確に制約が満たされる部分多様体に制限します。
我々は,幾何学的深層学習で用いられる等価ネットワークの範囲外の制約に注目した。
このフレームワークの主な例として、畳み込みニューラルネットワーク(cnn)のフィルタをウェーブレットに制限し、医療領域における輪郭予測のタスクにこれらのウェーブレットネットワークを適用する。 Deep Neural Networks (DNNs) are widely used for their ability to effectively approximate large classes of functions. This flexibility, however, makes the strict enforcement of constraints on DNNs an open problem. Here we present a framework that, under mild assumptions, allows the exact enforcement of constraints on parameterized sets of functions such as DNNs. Instead of imposing "soft'' constraints via additional terms in the loss, we restrict (a subset of) the DNN parameters to a submanifold on which the constraints are satisfied exactly throughout the entire training procedure. We focus on constraints that are outside the scope of equivariant networks used in Geometric Deep Learning. As a major example of the framework, we restrict filters of a Convolutional Neural Network (CNN) to be wavelets, and apply these wavelet networks to the task of contour prediction in the medical domain. | 翻訳日:2023-02-10 15:16:05 公開日:2023-02-09 |
# 臨床自然言語処理のための軽量トランスフォーマー Lightweight Transformers for Clinical Natural Language Processing ( http://arxiv.org/abs/2302.04725v1 ) ライセンス: Link先を確認 | Omid Rohanian, Mohammadmahdi Nouriborji, Hannah Jauncey, Samaneh Kouchaki, ISARIC Clinical Characterisation Group, Lei Clifton, Laura Merson, David A. Clifton | (参考訳) 特定の事前訓練された言語モデルは、汎用テキストで訓練されたモデルを上回る可能性があるため、NLPではより頻繁になりつつある。
BioBERT と BioClinicalBERT は医療用 NLP タスクにおいて有望であることを示す2つのモデルの一例である。
これらのモデルの多くは、過剰パラメータとリソース集約であるが、知識蒸留(kd)のような技術のおかげで、より大きなモデルとほぼ同等の性能を持つ小さなバージョンを作成することができる。
本研究は,臨床テキスト(進捗ノート,退院要約など)を処理するためのコンパクト言語モデルの開発に特化している。
我々は,1500万から6500万までのパラメータを用いて,知識蒸留と連続学習を用いた効率的な軽量臨床変換器を開発した。
これらのモデルは、BioBERT や ClinicalBioBERT のようなより大きなモデルと互換性があり、一般的な医療データやバイオメディカルデータに基づいて訓練された他のコンパクトモデルよりも大幅に優れていた。
対象は,自然言語推論,関係抽出,名前付きエンティティ認識,シーケンス分類など,多岐にわたる臨床テキストマイニングタスクであった。
我々の知る限り、この研究は、臨床NLPタスクのための効率的でコンパクトなトランスフォーマーの作成に焦点を当てた初めての総合的研究である。
この研究で使用されたモデルとコードは、https://huggingface.co/nlpieのhuggingfaceプロファイルと、https://github.com/nlpie-research/lightweight-clinical-transformersのgithubページにある。 Specialised pre-trained language models are becoming more frequent in NLP since they can potentially outperform models trained on generic texts. BioBERT and BioClinicalBERT are two examples of such models that have shown promise in medical NLP tasks. Many of these models are overparametrised and resource-intensive, but thanks to techniques like Knowledge Distillation (KD), it is possible to create smaller versions that perform almost as well as their larger counterparts. In this work, we specifically focus on development of compact language models for processing clinical texts (i.e. progress notes, discharge summaries etc). We developed a number of efficient lightweight clinical transformers using knowledge distillation and continual learning, with the number of parameters ranging from 15 million to 65 million. These models performed comparably to larger models such as BioBERT and ClinicalBioBERT and significantly outperformed other compact models trained on general or biomedical data. Our extensive evaluation was done across several standard datasets and covered a wide range of clinical text-mining tasks, including Natural Language Inference, Relation Extraction, Named Entity Recognition, and Sequence Classification. To our knowledge, this is the first comprehensive study specifically focused on creating efficient and compact transformers for clinical NLP tasks. The models and code used in this study can be found on our Huggingface profile at https://huggingface.co/nlpie and Github page at https://github.com/nlpie-research/Lightweight-Clinical-Transformers, respectively, promoting reproducibility of our results. | 翻訳日:2023-02-10 15:15:51 公開日:2023-02-09 |
# 関数回帰による領域一般化 Domain Generalization by Functional Regression ( http://arxiv.org/abs/2302.04724v1 ) ライセンス: Link先を確認 | Markus Holzleitner, Sergei V. Pereverzyev, Werner Zellinger | (参考訳) ドメインの一般化の問題は、異なるソースの分布からのデータから学習することであり、未ラベルのサンプルでのみ見られる新しいターゲットの分布をうまく一般化することが期待できるモデルである。
本稿では,関数回帰問題としての領域一般化について検討する。
我々の概念は、入力の辺分布から入力の対応する条件分布への線形演算子を学習するための新しいアルゴリズムに導かれる。
提案アルゴリズムでは,生成したカーネルHilbert空間のソース分布に依存した構築を予測可能とし,理想化リスクに対する有限サンプル誤差境界を満たす。
数値的な実装とソースコードが利用可能である。 The problem of domain generalization is to learn, given data from different source distributions, a model that can be expected to generalize well on new target distributions which are only seen through unlabeled samples. In this paper, we study domain generalization as a problem of functional regression. Our concept leads to a new algorithm for learning a linear operator from marginal distributions of inputs to the corresponding conditional distributions of outputs given inputs. Our algorithm allows a source distribution-dependent construction of reproducing kernel Hilbert spaces for prediction, and, satisfies finite sample error bounds for the idealized risk. Numerical implementations and source code are available. | 翻訳日:2023-02-10 15:15:18 公開日:2023-02-09 |
# 量子ポテンシャルゲーム、リプリケータダイナミクス、および分離性問題 Quantum Potential Games, Replicator Dynamics, and the Separability Problem ( http://arxiv.org/abs/2302.04789v1 ) ライセンス: Link先を確認 | Wayne Lin, Georgios Piliouras, Ryann Sim, Antonios Varvitsiotis | (参考訳) ゲームでの学習は多くのアプリケーションで機械学習の強力なツールとして登場した。
量子ゼロサムゲーム(quantum zero-sum game)は、プレイヤーが学習の観点から量子リソースにアクセス可能な古典ゲームの拡張である。
競争体制を超えて、この研究は量子ポテンシャルゲームと、このクラスのゲームの学習アルゴリズムを導入している。
連続時間複製子力学と離散時間Baum-Eagon/linear乗法重みの非可換拡張を導入し、それらの収束特性について検討する。
最後に、量子ポテンシャルゲームと量子分離性の間の接続を確立し、学習力学を最良の分離状態問題のアルゴリズムとして再解釈する。
我々は広範な実験を通じて理論的な結果を検証する。 Learning in games has emerged as a powerful tool for Machine Learning with numerous applications. Several recent works have studied quantum zero-sum games, an extension of classical games where players have access to quantum resources, from a learning perspective. Going beyond the competitive regime, this work introduces quantum potential games as well as learning algorithms for this class of games. We introduce non-commutative extensions of the continuous-time replicator dynamics and the discrete-time Baum-Eagon/linear multiplicative weights update and study their convergence properties. Finally, we establish connections between quantum potential games and quantum separability, allowing us to reinterpret our learning dynamics as algorithms for the Best Separable State problem. We validate our theoretical findings through extensive experiments. | 翻訳日:2023-02-10 15:09:24 公開日:2023-02-09 |
# キュラスマシンと逆マシンによる分散学習 Distributed Learning with Curious and Adversarial Machines ( http://arxiv.org/abs/2302.04787v1 ) ライセンス: Link先を確認 | Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, John Stephan | (参考訳) 機密性の高いパブリックドメインアプリケーションにおける分散機械学習(ML)の普及は、データプライバシを保護しつつ、障害や敵の動作に対して堅牢なアルゴリズムを要求する。
プライバシとロバスト性は分散MLでは独立して研究されているが、その合成はあまり理解されていない。
本稿では,一部の敵マシンに対してロバスト性を確保するアルゴリズムや,他の好奇心をそそるエンティティに対して,正直なマシンのデータに対する差分プライバシ(DP)を初めて厳密に分析する。
私たちの分析は、プライバシ、堅牢性、ユーティリティの基本的なトレードオフを示しています。
驚いたことに、このトレードオフのコストは、従来のプライバシ利用トレードオフと比較すると限界である。
下限を証明するために,分散dpとロバスト性制約の下で平均推定を行う場合を考察し,一方通行限界の集中的推定への還元を考案する。
我々は,高次元ロバストアグリゲーションルールを用いて,新しい分散MLアルゴリズムを提案することにより,マッチング上界を証明した。
後者は、(敵の労働者とDPによる)誤差の次元への依存を補正するが、データの統計的性質には依存しない。 The ubiquity of distributed machine learning (ML) in sensitive public domain applications calls for algorithms that protect data privacy, while being robust to faults and adversarial behaviors. Although privacy and robustness have been extensively studied independently in distributed ML, their synthesis remains poorly understood. We present the first tight analysis of the error incurred by any algorithm ensuring robustness against a fraction of adversarial machines, as well as differential privacy (DP) for honest machines' data against any other curious entity. Our analysis exhibits a fundamental trade-off between privacy, robustness, and utility. Surprisingly, we show that the cost of this trade-off is marginal compared to that of the classical privacy-utility trade-off. To prove our lower bound, we consider the case of mean estimation, subject to distributed DP and robustness constraints, and devise reductions to centralized estimation of one-way marginals. We prove our matching upper bound by presenting a new distributed ML algorithm using a high-dimensional robust aggregation rule. The latter amortizes the dependence on the dimension in the error (caused by adversarial workers and DP), while being agnostic to the statistical properties of the data. | 翻訳日:2023-02-10 15:09:01 公開日:2023-02-09 |
# 線形時間不変システムネットワークとしてのビジネスプロセス自動化の解析 Analysis of business process automation as linear time-invariant system network ( http://arxiv.org/abs/2302.04785v1 ) ライセンス: Link先を確認 | Mauricio Jacobo-Romero, Danilo S. Carvalho, Andre Freitas | (参考訳) 本研究では,ビジネスプロセス(bp)生産を信号として検討し,線形時間不変(lti)システムとしてbpワークフローを探索する。
本稿では、BPの周波数領域における生産性を分析し、BP入力信号として労働と資本がどのように振舞うか、その基本周波数がBP生産に与える影響を考察する。
また,自動化手順の導入による生産性向上を推定するために,周波数領域におけるBPのシミュレーションフレームワークを提案する。
我々の最終的な目標は、ソローのパラドックスに対処するために証拠を提供することだった。 In this work, we examined Business Process (BP) production as a signal; this novel approach explores a BP workflow as a linear time-invariant (LTI) system. We analysed BP productivity in the frequency domain; this standpoint examines how labour and capital act as BP input signals and how their fundamental frequencies affect BP production. Our research also proposes a simulation framework of a BP in the frequency domain for estimating productivity gains due to the introduction of automation steps. Our ultimate goal was to supply evidence to address Solow's Paradox. | 翻訳日:2023-02-10 15:08:37 公開日:2023-02-09 |
# clare:オフライン逆強化学習のためのモデルベース報酬学習 CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning ( http://arxiv.org/abs/2302.04782v1 ) ライセンス: Link先を確認 | Sheng Yue, Guanbo Wang, Wei Shao, Zhaofeng Zhang, Sen Lin, Ju Ren, Junshan Zhang | (参考訳) 本研究は,オフライン逆強化学習(irl)において,学習報酬関数がタスクを正しく説明できない場合や,内在的な共変量シフトによりエージェントを認識不能な環境で誤動作させる場合の報酬外挿誤差(reward extrapolation error)という大きな課題に取り組むことを目的とした。
専門家データと低品質の多様なデータの両方を活用することで、学習された報酬関数に「保守性」を統合し、推定された力学モデルを利用してオフラインIRLを効率的に解決するアルゴリズム(CLARE)を考案する。
私たちの理論的分析は、学習した政策と専門家の政策の間のリターンギャップの上限を提供し、そこでは、エクスプロイジョン(専門家データと多様なデータの両方)と探索(推定ダイナミクスモデル)の間の微妙な2層トレードオフを調べることによって、共変量シフトの影響を特徴付ける。
CLAREは、適切なエクスプロレーション-探索バランスを打つことで、報酬外挿誤差を確実に軽減できることを示す。
広範な実験は、ムジョコの連続制御タスク(特に小さなオフラインデータセット)における既存の最先端アルゴリズムよりもクレアの大幅なパフォーマンス向上を裏付けるものであり、学習した報酬はさらなる学習のために非常に指導的である。 This work aims to tackle a major challenge in offline Inverse Reinforcement Learning (IRL), namely the reward extrapolation error, where the learned reward function may fail to explain the task correctly and misguide the agent in unseen environments due to the intrinsic covariate shift. Leveraging both expert data and lower-quality diverse data, we devise a principled algorithm (namely CLARE) that solves offline IRL efficiently via integrating "conservatism" into a learned reward function and utilizing an estimated dynamics model. Our theoretical analysis provides an upper bound on the return gap between the learned policy and the expert policy, based on which we characterize the impact of covariate shift by examining subtle two-tier tradeoffs between the exploitation (on both expert and diverse data) and exploration (on the estimated dynamics model). We show that CLARE can provably alleviate the reward extrapolation error by striking the right exploitation-exploration balance therein. Extensive experiments corroborate the significant performance gains of CLARE over existing state-of-the-art algorithms on MuJoCo continuous control tasks (especially with a small offline dataset), and the learned reward is highly instructive for further learning. | 翻訳日:2023-02-10 15:08:28 公開日:2023-02-09 |
# Adap-tau: 推奨のための埋め込みマグニチュードを適応的に調整する Adap-tau: Adaptively Modulating Embedding Magnitude for Recommendation ( http://arxiv.org/abs/2302.04775v1 ) ライセンス: Link先を確認 | Jiawei Chen, Junkang Wu, Jiancan Wu, Sheng Zhou, Xuezhi Cao, Xiangnan He | (参考訳) 近年,レコメンダシステムにおける組込み型手法が大きな成功を収めている。
適切なパフォーマンスにもかかわらず、これらのメソッドの潜在的な制限 - 埋め込みの規模は明示的に調整されていないため、人気バイアスとトレーニングの不安定性が増し、モデルが良い推奨をすることを妨げる可能性がある、と私たちは主張する。
埋め込み正規化を推奨に活用する動機になります。
ユーザ/イテムの埋め込みを特定の値に正規化することにより、実世界の4つのデータセット上で、印象的なパフォーマンス向上(平均9\%)を経験的に観察する。
また、推奨に正規化を適用する際の深刻な制限も明らかにしています -- 正規化埋め込みのスケールを制御する温度$\tau$の選択に対して、パフォーマンスは極めて敏感です。
正規化のメリットを十分に高めるために、本研究では適切な$\tau$ を適応的に設定する方法を研究した。
この目的に向けて、まず、推奨におけるその役割を完全に理解するために$\tau$の包括的な分析を行います。
そこで我々は,適応性,パーソナライズド,効率性,モデル非依存の4つの望ましい特性を満たす温度適応細粒度戦略adap-$\tau$を開発した。
提案の有効性を検証するために大規模な実験が行われた。
コードは \url{https://github.com/junkangwu/adap_tau} で入手できる。 Recent years have witnessed the great successes of embedding-based methods in recommender systems. Despite their decent performance, we argue one potential limitation of these methods -- the embedding magnitude has not been explicitly modulated, which may aggravate popularity bias and training instability, hindering the model from making a good recommendation. It motivates us to leverage the embedding normalization in recommendation. By normalizing user/item embeddings to a specific value, we empirically observe impressive performance gains (9\% on average) on four real-world datasets. Although encouraging, we also reveal a serious limitation when applying normalization in recommendation -- the performance is highly sensitive to the choice of the temperature $\tau$ which controls the scale of the normalized embeddings. To fully foster the merits of the normalization while circumvent its limitation, this work studied on how to adaptively set the proper $\tau$. Towards this end, we first make a comprehensive analyses of $\tau$ to fully understand its role on recommendation. We then accordingly develop an adaptive fine-grained strategy Adap-$\tau$ for the temperature with satisfying four desirable properties including adaptivity, personalized, efficiency and model-agnostic. Extensive experiments have been conducted to validate the effectiveness of the proposal. The code is available at \url{https://github.com/junkangwu/Adap_tau}. | 翻訳日:2023-02-10 15:08:04 公開日:2023-02-09 |
# HybrIK変換器 HybrIK-Transformer ( http://arxiv.org/abs/2302.04774v1 ) ライセンス: Link先を確認 | Boris N. Oreshkin | (参考訳) HybrIKは解析的逆運動学とディープラーニングを組み合わせて、2次元単眼画像からより正確な3Dポーズ推定を生成する。
HybrIKは、(1)事前学習された畳み込みバックボーン、(2)2次元畳み込み特徴から3次元ポーズをリフトするデコンボリューション、(3)解析的逆運動学は、プラプシブルツイストとスイング角の学習分布を用いてディープラーニング予測を補正する。
本稿では,2次元から3次元への昇降モジュールを改良し,デコンボリューションをTransformerに置き換えることで,元のHybrIK法と比較して精度と計算効率が向上することを示す。
我々は、一般的なh36m、pw3d、coco、hp3dデータセットで結果を示す。
私たちのコードはhttps://github.com/boreshkinai/hybrik-transformerで公開しています。 HybrIK relies on a combination of analytical inverse kinematics and deep learning to produce more accurate 3D pose estimation from 2D monocular images. HybrIK has three major components: (1) pretrained convolution backbone, (2) deconvolution to lift 3D pose from 2D convolution features, (3) analytical inverse kinematics pass correcting deep learning prediction using learned distribution of plausible twist and swing angles. In this paper we propose an enhancement of the 2D to 3D lifting module, replacing deconvolution with Transformer, resulting in accuracy and computational efficiency improvement relative to the original HybrIK method. We demonstrate our results on commonly used H36M, PW3D, COCO and HP3D datasets. Our code is publicly available https://github.com/boreshkinai/hybrik-transformer. | 翻訳日:2023-02-10 15:07:38 公開日:2023-02-09 |
# 近似輸送地図を用いたサンプリングについて On Sampling with Approximate Transport Maps ( http://arxiv.org/abs/2302.04763v1 ) ライセンス: Link先を確認 | Louis Grenioux, Alain Durmus, \'Eric Moulines, Marylou Gabri\'e | (参考訳) トランスポートマップは、扱いやすい分布に変換することで、非自明なジオメトリを持つ分布のサンプリングを容易にすることができる。
このアプローチのポテンシャルは、ターゲットに向かって参照分布をプッシュするようにトレーニングされたディープニューラルネットワークでパラメータ化されたマップである正規化フロー(NF)の開発によって高まっている。
NF強化サンプリング器が最近提案したブレンド(マルコフ連鎖)モンテカルロ法
(i)その流れから引き出すもの,又は
(ii)フローベースの再パラメータ化。
いずれの場合も、学習した輸送条件の品質が向上する。
本研究は,これら2つのアプローチの相対的強みと弱みを初めて明らかにした。
本研究は,マルチモーダルターゲットの信頼性を,中程度の高次元までフローベースの提案で処理できることを結論づける。
対照的に、再パラメトリゼーションに依存する手法はマルチモダリティに苦しむが、高次元の設定や訓練不足においてはより堅牢である。
さらに, 目的-目的の妥当性の影響を明らかにするために, 独立系メトロポリス・ハスティングスサンプリング装置の混合時間に対する新しい定量的境界を導出する。 Transport maps can ease the sampling of distributions with non-trivial geometries by transforming them into distributions that are easier to handle. The potential of this approach has risen with the development of Normalizing Flows (NF) which are maps parameterized with deep neural networks trained to push a reference distribution towards a target. NF-enhanced samplers recently proposed blend (Markov chain) Monte Carlo methods with either (i) proposal draws from the flow or (ii) a flow-based reparametrization. In both cases, the quality of the learned transport conditions performance. The present work clarifies for the first time the relative strengths and weaknesses of these two approaches. Our study concludes that multimodal targets can reliability be handled with flow-based proposals up to moderately high dimensions. In contrast, methods relying on reparametrization struggle with multimodality but are more robust otherwise in high-dimensional settings and under poor training. To further illustrate the influence of target-proposal adequacy, we also derive a new quantitative bound for the mixing time of the Independent Metropolis-Hastings sampler. | 翻訳日:2023-02-10 15:07:21 公開日:2023-02-09 |
# 量子エンジンとしてのジョセフソン接合 The Josephson junction as a quantum engine ( http://arxiv.org/abs/2302.04762v1 ) ライセンス: Link先を確認 | Robert Alicki and Micha{\l} Horodecki and Alejandro Jenkins and Marcin {\L}obejko and Gerardo Su\'arez | (参考訳) ジョゼフソン接合(jj)の超伝導電極におけるクーパー対を開放系として扱い、アンドレエフ散乱を介して電子の外部浴槽に結合する。
浴槽間の不平衡はJJに適用される直流バイアスを生成する。
弱結合極限では、電流電圧特性の形式、ヒステリシス、離散シャピロステップのAC駆動の下での出現を含む、JJの主特徴と一致する単純な動的記述を提供するマルコフマスター方程式を得る。
本モデルでは, 周波数$\omega = 2 e V / \hbar$を平均電圧$V$付近でJJの電気双極子の自己発振を示す。
この自己振動は、非線形運動方程式の「隠れ引力」と関連付けられ、周波数$\omega$とその調和を持つ非熱放射の観測結果を説明する。
量子エンジンとしてのJJのこの図は、ジョセフソン効果を不可逆的な過程として解き、量子熱力学や力学系の理論において新たな視点を開こうとするものである。 We treat the Cooper pairs in the superconducting electrodes of a Josephson junction (JJ) as an open system, coupled via Andreev scattering to external baths of electrons. The disequilibrium between the baths generates the DC bias applied to the JJ. In the weak-coupling limit we obtain a Markovian master equation that provides a simple dynamical description consistent with the main features of the JJ, including the form of the current-voltage characteristic, its hysteresis, and the appearance under AC driving of discrete Shapiro steps. For small dissipation, our model also exhibits a self-oscillation of the JJ's electrical dipole with frequency $\omega = 2 e V / \hbar$ around mean voltage $V$. This self-oscillation, associated with "hidden attractors" of the nonlinear equations of motion, explains the observed production of non-thermal radiation with frequency $\omega$ and its harmonics. We argue that this picture of the JJ as a quantum engine resolves open questions about the Josephson effect as an irreversible process and could open new perspectives in quantum thermodynamics and in the theory of dynamical systems. | 翻訳日:2023-02-10 15:07:04 公開日:2023-02-09 |
# Toolformer: 言語モデルを使ってツールを学べる Toolformer: Language Models Can Teach Themselves to Use Tools ( http://arxiv.org/abs/2302.04761v1 ) ライセンス: Link先を確認 | Timo Schick, Jane Dwivedi-Yu, Roberto Dess\`i, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom | (参考訳) 言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
パラドックス的にも、算術や事実のルックアップといった基本的な機能に苦労し、もっとシンプルで小さなモデルが優れている。
本稿では,LMがシンプルなAPIを通じて外部ツールの使用を自覚し,両世界のベストを達成できることを示す。
これは、どのapiを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測にどのように組み込むかを決めるように訓練されたモデルです。
これは自己管理的な方法で行われ、各APIに対してほんの少しのデモしか必要としない。
計算機,Q&Aシステム,2つの異なる検索エンジン,翻訳システム,カレンダーなど,さまざまなツールが組み込まれています。
toolformerは、さまざまなダウンストリームタスクにおけるゼロショットパフォーマンスを大幅に改善し、コア言語モデリング能力を犠牲にすることなく、より大きなモデルと競合することが多い。 Language models (LMs) exhibit remarkable abilities to solve new tasks from just a few examples or textual instructions, especially at scale. They also, paradoxically, struggle with basic functionality, such as arithmetic or factual lookup, where much simpler and smaller models excel. In this paper, we show that LMs can teach themselves to use external tools via simple APIs and achieve the best of both worlds. We introduce Toolformer, a model trained to decide which APIs to call, when to call them, what arguments to pass, and how to best incorporate the results into future token prediction. This is done in a self-supervised way, requiring nothing more than a handful of demonstrations for each API. We incorporate a range of tools, including a calculator, a Q\&A system, two different search engines, a translation system, and a calendar. Toolformer achieves substantially improved zero-shot performance across a variety of downstream tasks, often competitive with much larger models, without sacrificing its core language modeling abilities. | 翻訳日:2023-02-10 15:06:46 公開日:2023-02-09 |
# ロバストかつスケーラブルなベイズオンライン変更点検出 Robust and Scalable Bayesian Online Changepoint Detection ( http://arxiv.org/abs/2302.04759v1 ) ライセンス: Link先を確認 | Matias Altamirano, Fran\c{c}ois-Xavier Briol, Jeremias Knoblauch | (参考訳) 本稿では,オンラインかつ実現可能なロバストでスケーラブルな変更点検出手法を提案する。
このアルゴリズムは、一般化されたベイズ的視点を利用して証明可能な堅牢性を提供し、また、以前の試みのスケーラビリティ問題にも対処する。
具体的には、提案する一般化ベイズ形式は拡散スコアマッチングを活用し、パラメータが閉じた形で利用可能となる共役後続性をもたらす。
結果のアルゴリズムは正確で、単純な代数で更新でき、最も近い競合より10倍以上高速である。 This paper proposes an online, provably robust, and scalable Bayesian approach for changepoint detection. The resulting algorithm has key advantages over previous work: it provides provable robustness by leveraging the generalised Bayesian perspective, and also addresses the scalability issues of previous attempts. Specifically, the proposed generalised Bayesian formalism leads to conjugate posteriors whose parameters are available in closed form by leveraging diffusion score matching. The resulting algorithm is exact, can be updated through simple algebra, and is more than 10 times faster than its closest competitor. | 翻訳日:2023-02-10 15:06:27 公開日:2023-02-09 |
# 文脈内学習のためのラベルなしデータを用いた説明選択 Explanation Selection Using Unlabeled Data for In-Context Learning ( http://arxiv.org/abs/2302.04813v1 ) ライセンス: Link先を確認 | Xi Ye and Greg Durrett | (参考訳) 最近の研究は、チェーン・オブ・シント・パラダイムによる説明を伴う大規模言語モデルの導入によって、テキスト推論の課題に対処している。
しかし、微妙に異なる説明は下流のタスクの正確さを大きく変化させる可能性があるため、非専門家によって書かれたオフ・ザ・棚の説明のようなタスクの「調整」されていない説明は、中途半端なパフォーマンスにつながる可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に取り組む。
まず,各例の候補説明のセットを,return-one-outスキームを用いてプロンプトで生成する。
次に、2段階のフレームワークを使用し、プロキシメトリクスに従って、各コンテキスト内の例に対する説明を分離して評価します。
最後に,銀のラベル付き開発集合に対して高い性能を示す集合を探索し,非ラベル付きデータ上での言語モデルのブートストラップ化に関する最近の研究から着想を得た。
質問応答,数学的推論,自然言語推論にまたがる4つのテキスト推論タスクにおいて,提案手法は根拠真理の正確さと相関し,提案手法は群集のアノテーションやナイーブな検索戦略よりも効果的にプロンプトを改善できることを示す。 Recent work has addressed textual reasoning tasks by prompting large language models with explanations via the chain-of-thought paradigm. However, subtly different explanations can yield widely varying downstream task accuracy, so explanations that have not been "tuned" for a task, such as off-the-shelf explanations written by nonexperts, may lead to mediocre performance. This paper tackles the problem of how to optimize explanation-infused prompts in a black-box fashion. We first generate sets of candidate explanations for each example in the prompt using a leave-one-out scheme. We then use a two-stage framework where we first evaluate explanations for each in-context example in isolation according to proxy metrics. Finally, we search over sets of explanations to find a set which yields high performance against a silver-labeled development set, drawing inspiration from recent work on bootstrapping language models on unlabeled data. Across four textual reasoning tasks spanning question answering, mathematical reasoning, and natural language inference, results show that our proxy metrics correlate with ground truth accuracy and our overall method can effectively improve prompts over crowdworker annotations and naive search strategies. | 翻訳日:2023-02-10 14:59:52 公開日:2023-02-09 |
# 記述の言語選択における視覚的制約に関する大規模多言語研究 A Large-Scale Multilingual Study of Visual Constraints on Linguistic Selection of Descriptions ( http://arxiv.org/abs/2302.04811v1 ) ライセンス: Link先を確認 | Uri Berger, Lea Frermann, Gabriel Stanovsky, Omri Abend | (参考訳) 本研究では,4言語と5つの言語特性(動詞の推移性や数字の使用など)を網羅し,視覚が言語選択をいかに制限するかを多言語的に検討する。
そこで本研究では,既存の画像コーパスをネイティブ話者によるキャプションで活用し,600k画像と3Mキャプションからなる9コーパスに適用する手法を提案する。
視覚入力と言語選択の関係を分類器の訓練により検討し、生画像からプロパティを表現する確率を予測するとともに、言語特性が言語間の視覚的文脈によって制約されているという主張を支持する証拠を見いだした。
この研究をコーパス研究で補完し、数字のテストケースを取り上げます。
具体的には、字幕中の数字表現の使用に対する異なる視覚条件の影響を調べるために既存のアノテーション(数やオブジェクトの種類)を使用し、同様のパターンが言語にまたがって現れることを示す。
本手法と知見は,認知文学における既存の研究を確認・拡張するものである。
また,言語生成への応用についても論じる。 We present a large, multilingual study into how vision constrains linguistic choice, covering four languages and five linguistic properties, such as verb transitivity or use of numerals. We propose a novel method that leverages existing corpora of images with captions written by native speakers, and apply it to nine corpora, comprising 600k images and 3M captions. We study the relation between visual input and linguistic choices by training classifiers to predict the probability of expressing a property from raw images, and find evidence supporting the claim that linguistic properties are constrained by visual context across languages. We complement this investigation with a corpus study, taking the test case of numerals. Specifically, we use existing annotations (number or type of objects) to investigate the effect of different visual conditions on the use of numeral expressions in captions, and show that similar patterns emerge across languages. Our methods and findings both confirm and extend existing research in the cognitive literature. We additionally discuss possible applications for language generation. | 翻訳日:2023-02-10 14:59:26 公開日:2023-02-09 |
# 現実世界の機械学習システム: データ指向アーキテクチャの観点からの調査 Real-world Machine Learning Systems: A survey from a Data-Oriented Architecture Perspective ( http://arxiv.org/abs/2302.04810v1 ) ライセンス: Link先を確認 | Christian Cabrera, Andrei Paleyes, Pierre Thodoroff, Neil D. Lawrence | (参考訳) もともと学術環境で開発された人工知能機械学習(ML)アルゴリズムへの関心が高まり、今では大量の異種、動的、高次元のデータを扱う現実のシステムの一部として展開されている。
mlメソッドの実際の運用は、データ管理からシステムデプロイメント、監視、メンテナンスに至るまで、システムライフサイクル全体にわたって課題が発生しやすい。
Data-Oriented Architecture(DOA)は、データ駆動、疎結合、分散化、オープンシステムを構築するための一連の原則を提案し、これらの課題を緩和する可能性を持つ、新興ソフトウェアエンジニアリングパラダイムである。
しかし、概念としてのDOAはまだ普及しておらず、実際にどのように実現できるかについての共通理解は存在しない。
このレビューでは、MLシステムの課題を通じて、DOAパラダイムを支える原則をコンテキスト化することによって、この問題に対処する。
MLベースの現実世界システムの現在のアーキテクチャがDOAの原則をどの程度実践したかを検討する。
また、DOAパラダイムのさらなる発展に向けたオープンな研究課題と方向性を定式化する。 With the upsurge of interest in artificial intelligence machine learning (ML) algorithms, originally developed in academic environments, are now being deployed as parts of real-life systems that deal with large amounts of heterogeneous, dynamic, and high-dimensional data. Deployment of ML methods in real life is prone to challenges across the whole system life-cycle from data management to systems deployment, monitoring, and maintenance. Data-Oriented Architecture (DOA) is an emerging software engineering paradigm that has the potential to mitigate these challenges by proposing a set of principles to create data-driven, loosely coupled, decentralised, and open systems. However DOA as a concept is not widespread yet, and there is no common understanding of how it can be realised in practice. This review addresses that problem by contextualising the principles that underpin the DOA paradigm through the ML system challenges. We explore the extent to which current architectures of ML-based real-world systems have implemented the DOA principles. We also formulate open research challenges and directions for further development of the DOA paradigm. | 翻訳日:2023-02-10 14:59:10 公開日:2023-02-09 |
# 相対的エントロピー障害の半連続性とその役割 Lower semicontinuity of the relative entropy disturbance and its corollaries ( http://arxiv.org/abs/2302.04809v1 ) ライセンス: Link先を確認 | M. E. Shirokov | (参考訳) 量子演算の作用による量子相対エントロピーの減少は、その一対の引数の半連続関数の下限であることが証明された。
この性質は、特に、量子相対エントロピーの局所不連続なジャンプが量子演算の作用下では増加しないことを意味する。
これはまた、量子相対エントロピー(量子状態のアンサンブルの関数として)の結合凸率のモジュラーの低い半連続性を意味する。
これらの結果の様々な概要と応用について考察する。 It is proved that the decrease of the quantum relative entropy under action of a quantum operation is a lower semicontinuous function of a pair of its arguments. This property implies, in particular, that the local discontinuity jumps of the quantum relative entropy do not increase under action of quantum operations. It implies also the lower semicontinuity of the modulus of the joint convexity of the quantum relative entropy (as a function of ensembles of quantum states). Various corollaries and applications of these results are considered. | 翻訳日:2023-02-10 14:58:52 公開日:2023-02-09 |
# 逐次シュミット分解による次元減少と冗長性除去 Dimension reduction and redundancy removal through successive Schmidt decompositions ( http://arxiv.org/abs/2302.04801v1 ) ライセンス: Link先を確認 | Ammar Daskin, Rishabh Gupta, Sabre Kais | (参考訳) 量子コンピュータは、機械学習アプリケーションで見られる巨大なデータサイズを処理する能力を持つと考えられている。
これらの応用では、一般にデータは古典的である。
したがって、量子コンピュータ上でそれらを処理するためには、量子状態の古典データを簡潔にマッピングできる効率的な方法が必要となる。
一方、量子コンピュータの結果を検証し、量子アルゴリズムを研究するためには、量子演算をいくつかのエラーで古典的コンピュータでシミュレートし易い形式に近似することができる必要がある。
これらのニーズにより、この論文では、連続シュミット分解によって得られるテンソル積を用いて行列とベクトルの近似を研究する。
均一, ポアソン, 指数, あるいはこれらの分布に類似した分布を持つデータは, 量子回路に容易にマッピングできる数項のみを用いて近似できることを示す。
例えば、異なる分布のランダムデータ、虹彩花のグラム行列、手書きの数字、20ニュースグループ、野生のラベル付き顔などである。
同様に、量子フーリエ変換や小さな深さを持つ変分量子回路などの量子演算も、古典的なコンピュータで容易にシミュレートできるいくつかの項で近似することができる。
さらに、量子ハミルトニアンは量子ハミルトニアンの単純化にどのように使用できるかを示し、特に、ランダムに生成された横フィールドイジングモデルハミルトニアンの応用を示す。
還元ハミルトニアンは簡単に量子回路にマッピングできるので、より効率的にシミュレーションできる。 Quantum computers are believed to have the ability to process huge data sizes which can be seen in machine learning applications. In these applications, the data in general is classical. Therefore, to process them on a quantum computer, there is a need for efficient methods which can be used to map classical data on quantum states in a concise manner. On the other hand, to verify the results of quantum computers and study quantum algorithms, we need to be able to approximate quantum operations into forms that are easier to simulate on classical computers with some errors. Motivated by these needs, in this paper we study the approximation of matrices and vectors by using their tensor products obtained through successive Schmidt decompositions. We show that data with distributions such as uniform, Poisson, exponential, or similar to these distributions can be approximated by using only a few terms which can be easily mapped onto quantum circuits. The examples include random data with different distributions, the Gram matrices of iris flower, handwritten digits, 20newsgroup, and labeled faces in the wild. And similarly, some quantum operations such as quantum Fourier transform and variational quantum circuits with a small depth also may be approximated with a few terms that are easier to simulate on classical computers. Furthermore, we show how the method can be used to simplify quantum Hamiltonians: In particular, we show the application to randomly generated transverse field Ising model Hamiltonians. The reduced Hamiltonians can be mapped into quantum circuits easily and therefore can be simulated more efficiently. | 翻訳日:2023-02-10 14:58:45 公開日:2023-02-09 |
# 詳細への描画注意:細粒度オブジェクト分類のための自己注意による詩のアライメント Drawing Attention to Detail: Pose Alignment through Self-Attention for Fine-Grained Object Classification ( http://arxiv.org/abs/2302.04800v1 ) ライセンス: Link先を確認 | Salwa Al Khatib, Mohamed El Amine Boudjoghra, Jameel Hassan | (参考訳) オープンワールドにおけるクラス内変異は、分類タスクに様々な課題をもたらす。
これらの課題を克服するために、きめ細かい分類を導入し、多くのアプローチが提案された。
画像内の識別可能な局所的な部分の配置と利用に依存して、視点の変化、クラス内の違い、局所的な部分の変形を実現する。
我々のアプローチはP2P-Netにインスパイアされたもので、エンドツーエンドでトレーニング可能なアテンションベースのアライメントモジュールを提供しています。
注目モジュールは、グローバルな損失に貢献する前に、互いに参加しながら部品の最適配置を学習することができる。 Intra-class variations in the open world lead to various challenges in classification tasks. To overcome these challenges, fine-grained classification was introduced, and many approaches were proposed. Some rely on locating and using distinguishable local parts within images to achieve invariance to viewpoint changes, intra-class differences, and local part deformations. Our approach, which is inspired by P2P-Net, offers an end-to-end trainable attention-based parts alignment module, where we replace the graph-matching component used in it with a self-attention mechanism. The attention module is able to learn the optimal arrangement of parts while attending to each other, before contributing to the global loss. | 翻訳日:2023-02-10 14:58:21 公開日:2023-02-09 |
# 変種 MuZero Equivariant MuZero ( http://arxiv.org/abs/2302.04798v1 ) ライセンス: Link先を確認 | Andreea Deac, Th\'eophane Weber, George Papamakarios | (参考訳) 深い強化学習は、ゲーム(Chess、Go、StarCraft)のようなクローズドで明確に定義されたドメインで繰り返し成功します。
次のフロンティアは現実世界のシナリオで、セットアップは多様で多様です。
そのため、エージェントは、訓練されたものと異なる条件をしっかりと一般化するために、環境を管理する基本的なルールを学ぶ必要がある。
MuZeroのようなモデルに基づく強化学習アルゴリズムは、世界モデルを学ぶことでこれを達成しようとしている。
しかし、世界モデルを活用することは、モデルなしの代替品と比較して、常に大きな一般化能力を示すわけではない。
本研究では,環境の対称性を世界モデルアーキテクチャに明示的に組み込むことで,MuZeroのデータ効率と一般化能力の向上を提案する。
我々は、MuZeroが使用するニューラルネットワークが環境に作用する特定の対称性群に同値である限り、MuZeroの行動選択アルゴリズムの全体性も同値であることを示す。
手続き的に生成されたminipacman と procgen suite の chaser: training on a set of mazes, and test on unseen rotationd version について同変 muzero を評価し,同分散の利点を証明した。
さらに、Equivariant MuZero の成分のいくつかだけが厳密な等式に従わなくても、我々の性能改善が成り立つことを検証する。 Deep reinforcement learning repeatedly succeeds in closed, well-defined domains such as games (Chess, Go, StarCraft). The next frontier is real-world scenarios, where setups are numerous and varied. For this, agents need to learn the underlying rules governing the environment, so as to robustly generalise to conditions that differ from those they were trained on. Model-based reinforcement learning algorithms, such as the highly successful MuZero, aim to accomplish this by learning a world model. However, leveraging a world model has not consistently shown greater generalisation capabilities compared to model-free alternatives. In this work, we propose improving the data efficiency and generalisation capabilities of MuZero by explicitly incorporating the symmetries of the environment in its world-model architecture. We prove that, so long as the neural networks used by MuZero are equivariant to a particular symmetry group acting on the environment, the entirety of MuZero's action-selection algorithm will also be equivariant to that group. We evaluate Equivariant MuZero on procedurally-generated MiniPacman and on Chaser from the ProcGen suite: training on a set of mazes, and then testing on unseen rotated versions, demonstrating the benefits of equivariance. Further, we verify that our performance improvements hold even when only some of the components of Equivariant MuZero obey strict equivariance, which highlights the robustness of our construction. | 翻訳日:2023-02-10 14:58:07 公開日:2023-02-09 |
# 部分整列モーメントによる任意次元二成分量子系の絡み合い検出 Entanglement detection in arbitrary dimensional bipartite quantum systems through partial realigned moments ( http://arxiv.org/abs/2302.04797v1 ) ライセンス: Link先を確認 | Shruti Aggarwal, Satyabrata Adhikari, A. S. Majumdar | (参考訳) 量子状態の部分的知識による絡み合いの検出は、効率的な実装が困難である。
ここでは、リアライン密度行列の部分モーメントを用いた任意の次元量子状態における二部構造絡み検出のための分離性基準を提案する。
提案手法は, 共用枠組みを用いて蒸留可能状態と有界絡み状態の両方の検出を可能にする。
本手法の効率を上記の2つのカテゴリに属する状態の例を通して説明するが、これは部分的状態情報に依存する他のスキームと同等の手法では検出できない。
ここで提案する部分的な再配置モーメントを用いる形式は、2量子ビットシステムにも有効であることが示され、分離可能性基準を少し修正した。 Detection of entanglement through partial knowledge of the quantum state is a challenge to implement efficiently. Here we propose a separability criterion for detecting bipartite entanglement in arbitrary dimensional quantum states using partial moments of the realigned density matrix. Our approach enables detection of both distillable and bound entangled states through a common framework. We illustrate the efficiency of our method through examples of states belonging to both the above categories, which are not detectable using comparable other schemes relying on partial state information. The formalism of employing partial realigned moments proposed here is further shown to be effective for two-qubit systems too, with a slight modification of our separability criterion. | 翻訳日:2023-02-10 14:57:44 公開日:2023-02-09 |
# 原始関数を用いたブラックボックスのメタモデル Symbolic Metamodels for Interpreting Black-boxes Using Primitive Functions ( http://arxiv.org/abs/2302.04791v1 ) ライセンス: Link先を確認 | Mahed Abroshan, Saumitra Mishra, Mohammad Mahdi Khalili | (参考訳) ブラックボックス機械学習モデルを解釈する1つのアプローチは、メタモデル(モデルのモデル)と呼ばれる単純な解釈可能な関数を使ってモデルのグローバルな近似を見つけることである。
メタモデルでブラックボックスを近似することもできる。
1) 事例的特徴の重要性を見積もる。
2) モデルの機能形式を理解すること。
3)機能相互作用の分析。
本稿では,解釈可能なメタモデルを見つけるための新しい手法を提案する。
提案手法では,多変量関数を単変量関数(我々の原始パラメータ化関数)の合成として表現するコルモゴロフ重ね合わせ定理を用いる。
この構成は木の形で表現することができる。
シンボリック回帰に触発され、様々な木の構成を探索するために遺伝子プログラミングの修正版を使用する。
勾配降下(GD)は、所定の構成のパラメータを最適化するために用いられる。
本手法は,GDを数値定数のトレーニングだけでなく,ビルディングブロックのトレーニングにも利用する,新しいメメティックアルゴリズムである。
いくつかの実験により,提案手法はブラックボックスを解釈するためのメタモデリング手法よりも優れていることが示された。 One approach for interpreting black-box machine learning models is to find a global approximation of the model using simple interpretable functions, which is called a metamodel (a model of the model). Approximating the black-box with a metamodel can be used to 1) estimate instance-wise feature importance; 2) understand the functional form of the model; 3) analyze feature interactions. In this work, we propose a new method for finding interpretable metamodels. Our approach utilizes Kolmogorov superposition theorem, which expresses multivariate functions as a composition of univariate functions (our primitive parameterized functions). This composition can be represented in the form of a tree. Inspired by symbolic regression, we use a modified form of genetic programming to search over different tree configurations. Gradient descent (GD) is used to optimize the parameters of a given configuration. Our method is a novel memetic algorithm that uses GD not only for training numerical constants but also for the training of building blocks. Using several experiments, we show that our method outperforms recent metamodeling approaches suggested for interpreting black-boxes. | 翻訳日:2023-02-10 14:57:33 公開日:2023-02-09 |
# 低資源インド語からの言語間ファクト抽出のための多言語多言語モデル Massively Multilingual Language Models for Cross Lingual Fact Extraction from Low Resource Indian Languages ( http://arxiv.org/abs/2302.04790v1 ) ライセンス: Link先を確認 | Bhavyajeet Singh, Pavan Kandru, Anubhav Sharma, Vasudeva Varma | (参考訳) Wikidataのような膨大な知識グラフは、複数のエンティティに関する世界の知識を捉えようとする。
最近のアプローチは、テキストからこれらのKGを自動的に強化することに集中している。
しかし、低リソース言語で自然言語として存在する多くの情報は欠落していることが多い。
言語間情報抽出は、低資源インド語テキストから英語三重項の形で事実情報を抽出することを目的としている。
巨大な可能性にもかかわらず、このタスクの進展は、単言語情報抽出と比べて遅延している。
本稿では,テキストから言語間ファクト抽出(clfe)を行うタスクを提案し,77.46の総合f1スコアを達成するためのエンドツーエンド生成手法を提案する。 Massive knowledge graphs like Wikidata attempt to capture world knowledge about multiple entities. Recent approaches concentrate on automatically enriching these KGs from text. However a lot of information present in the form of natural text in low resource languages is often missed out. Cross Lingual Information Extraction aims at extracting factual information in the form of English triples from low resource Indian Language text. Despite its massive potential, progress made on this task is lagging when compared to Monolingual Information Extraction. In this paper, we propose the task of Cross Lingual Fact Extraction(CLFE) from text and devise an end-to-end generative approach for the same which achieves an overall F1 score of 77.46. | 翻訳日:2023-02-10 14:57:16 公開日:2023-02-09 |
# FrameBERT:フレーム埋め込み学習による概念メタファー検出 FrameBERT: Conceptual Metaphor Detection with Frame Embedding Learning ( http://arxiv.org/abs/2302.04834v1 ) ライセンス: Link先を確認 | Yucheng Li, Shun Wang, Chenghua Lin, Frank Guerin, Lo\"ic Barrault | (参考訳) 本稿では,RoBERTa ベースモデルである FrameBERT を提案し,概念レベルのメタファ検出のために FrameNet Embeddings を明示的に学習し,組み込む。
framebertは最先端と同等の性能を発揮するだけでなく、既存のモデルと比較してより説明可能で解釈可能であり、framenetの外部知識を考慮できる能力に起因する。 In this paper, we propose FrameBERT, a RoBERTa-based model that can explicitly learn and incorporate FrameNet Embeddings for concept-level metaphor detection. FrameBERT not only achieves better or comparable performance to the state-of-the-art, but also is more explainable and interpretable compared to existing models, attributing to its ability of accounting for external knowledge of FrameNet. | 翻訳日:2023-02-10 14:51:06 公開日:2023-02-09 |
# CAREによるSim2Realギャップのブリッジ:条件アライメントと再重み付けによる検出適応の改善 Bridging the Sim2Real gap with CARE: Supervised Detection Adaptation with Conditional Alignment and Reweighting ( http://arxiv.org/abs/2302.04832v1 ) ライセンス: Link先を確認 | Viraj Prabhu, David Acuna, Andrew Liao, Rafid Mahmood, Marc T. Law, Judy Hoffman, Sanja Fidler, James Lucas | (参考訳) sim2real domain adaptation (da) 研究はラベル付き合成ソースドメインからラベル付きまたはラベルなしの実対象ドメインへの適応の制約付き設定に焦点を当てている。
しかし、ハイテイクなアプリケーション(例えば、自動運転)では、十分な自動ラベル付きソースデータ(例えば、運転シミュレーターから)に加えて、人間ラベル付き実データが少ないことが一般的である。
本研究では2次元物体検出に応用した教師付きsim2real DAの設定について検討する。
本論文では,sim2現実の外観とコンテンツギャップを明示的に閉じるために,ターゲットラベルを体系的に活用する新しいアルゴリズムである条件付きアライメントと再重み付け(care)によるドメイン翻訳を提案する。
本稿では,提案アルゴリズムの解析的正当性を示し,標準ベンチマーク上での競合手法よりも強い利得を示す。 Sim2Real domain adaptation (DA) research focuses on the constrained setting of adapting from a labeled synthetic source domain to an unlabeled or sparsely labeled real target domain. However, for high-stakes applications (e.g. autonomous driving), it is common to have a modest amount of human-labeled real data in addition to plentiful auto-labeled source data (e.g. from a driving simulator). We study this setting of supervised sim2real DA applied to 2D object detection. We propose Domain Translation via Conditional Alignment and Reweighting (CARE) a novel algorithm that systematically exploits target labels to explicitly close the sim2real appearance and content gaps. We present an analytical justification of our algorithm and demonstrate strong gains over competing methods on standard benchmarks. | 翻訳日:2023-02-10 14:50:59 公開日:2023-02-09 |
# ゼロショット協調のための協調学習フレームワーク Cooperative Open-ended Learning Framework for Zero-shot Coordination ( http://arxiv.org/abs/2302.04831v1 ) ライセンス: Link先を確認 | Yang Li, Shao Zhang, Jichen Sun, Yali Du, Ying Wen, Xinbing Wang, Wei Pan | (参考訳) 協調型人工知能(ai)におけるゼロショットコーディネーションは依然として大きな課題であり、幅広い未知のパートナーと効果的に協調することを意味する。
以前のアルゴリズムは、戦略や行動の多様性を改善するために集団内の固定目標を最適化することで、この問題に対処しようとした。
しかし、これらのアプローチは学習の喪失と集団内の特定の戦略、すなわち協調的非互換性の欠如に繋がる可能性がある。
そこで本稿では,各戦略の協調能力を評価するために,グラフ理論の観点から2人のプレイヤーと協調ゲームにおけるオープンエンド目標を構築する協調オープンエンド学習(cole)フレームワークを提案する。
さらに,ゲーム理論とグラフ理論の知識を活用した実用的なアルゴリズムを提案する。
さらに,アルゴリズムの学習過程の解析により,協調的不整合を効率的に克服できることを示した。
オーバークッキングゲーム環境における実験結果から,本手法は,異なるレベルのパートナとのコーディネートにおいて,現在の最先端手法よりも優れていることが示された。
私たちのコードとデモはhttps://sites.google.com/view/cole-2023で利用可能です。 Zero-shot coordination in cooperative artificial intelligence (AI) remains a significant challenge, which means effectively coordinating with a wide range of unseen partners. Previous algorithms have attempted to address this challenge by optimizing fixed objectives within a population to improve strategy or behavior diversity. However, these approaches can result in a loss of learning and an inability to cooperate with certain strategies within the population, known as cooperative incompatibility. To address this issue, we propose the Cooperative Open-ended LEarning (COLE) framework, which constructs open-ended objectives in cooperative games with two players from the perspective of graph theory to assess and identify the cooperative ability of each strategy. We further specify the framework and propose a practical algorithm that leverages knowledge from game theory and graph theory. Furthermore, an analysis of the learning process of the algorithm shows that it can efficiently overcome cooperative incompatibility. The experimental results in the Overcooked game environment demonstrate that our method outperforms current state-of-the-art methods when coordinating with different-level partners. Our code and demo are available at https://sites.google.com/view/cole-2023. | 翻訳日:2023-02-10 14:50:43 公開日:2023-02-09 |
# 潜在集団を用いたcovid-19症例のモデル化と予測 Modeling and Forecasting COVID-19 Cases using Latent Subpopulations ( http://arxiv.org/abs/2302.04829v1 ) ライセンス: Link先を確認 | Roberto Vega, Zehra Shah, Pouria Ramazi, Russell Greiner | (参考訳) 古典的疫学モデルは同種集団を仮定する。
年齢層や地理的位置などのサブ人口の同一性が知られている場合、異種個体群をモデル化するための重要な拡張がなされている。
そこで本研究では,潜伏するサブ人口の線形結合として,時間とともに感染する人の数をモデル化する2つの新しい手法を提案する。
メソッド#1は辞書ベースのアプローチで、事前定義された多数のサブ人口モデル(それぞれが独自の開始時間、形状などを持つ)から始まり、小さな(リードされた)サブ人口の(正の)重量を決定する。
メソッド #2 は$m$ の混合可能な曲線で、使用すべきサブ人口の数である $m$ がユーザによって与えられる。
どちらの手法も任意のパラメトリックモデルと互換性がある。
(a)-ガウス曲線、それから
(b)~SIR軌道
まず,提案手法の性能を実証的に示す。
(i)観測データをモデル化し、それから、
(二)事前に1〜4週間の感染者数を予測すること。
187か国で,従来のSIRモデルと比較した場合,辞書のアプローチは平均絶対誤差が最低であり,また,従来のSIRモデルよりも低分散であり,また,新型コロナウイルスの予測のために開発されたモデルの多くを上回り,強力なベースラインであった。 Classical epidemiological models assume homogeneous populations. There have been important extensions to model heterogeneous populations, when the identity of the sub-populations is known, such as age group or geographical location. Here, we propose two new methods to model the number of people infected with COVID-19 over time, each as a linear combination of latent sub-populations -- i.e., when we do not know which person is in which sub-population, and the only available observations are the aggregates across all sub-populations. Method #1 is a dictionary-based approach, which begins with a large number of pre-defined sub-population models (each with its own starting time, shape, etc), then determines the (positive) weight of small (learned) number of sub-populations. Method #2 is a mixture-of-$M$ fittable curves, where $M$, the number of sub-populations to use, is given by the user. Both methods are compatible with any parametric model; here we demonstrate their use with first (a)~Gaussian curves and then (b)~SIR trajectories. We empirically show the performance of the proposed methods, first in (i) modeling the observed data and then in (ii) forecasting the number of infected people 1 to 4 weeks in advance. Across 187 countries, we show that the dictionary approach had the lowest mean absolute percentage error and also the lowest variance when compared with classical SIR models and moreover, it was a strong baseline that outperforms many of the models developed for COVID-19 forecasting. | 翻訳日:2023-02-10 14:50:23 公開日:2023-02-09 |
# 変圧器-CNNセグメンテーションによるリチウム電池の品質管理 Lithium Metal Battery Quality Control via Transformer-CNN Segmentation ( http://arxiv.org/abs/2302.04824v1 ) ライセンス: Link先を確認 | Jerome Quenum, David Perlmutter, Ying Huang, Iryna Zenyuk, and Daniela Ushizima | (参考訳) リチウム・メタル・バッテリ(LMB)は理論エネルギー密度が高いため次世代のバッテリシステムとなる可能性がある。
しかし、デンドライトとして知られる欠陥は、LMBの開発と利用を妨げる不均一なリチウム(Li)めっきによって形成される。
デンドライト形態を観察する非破壊的手法は、しばしばコンピュータ化されたX線トモグラフィー(XCT)を用いて断面ビューを提供する。
電池内部の3次元構造を検索するためには,XCT画像の定量的解析に画像セグメンテーションが不可欠である。
本稿では,xctデータからデンドライトをセグメント化できるトランスフォーマーベースニューラルネットワーク(t-net)モデルを用いた,新たなバイナリ意味セグメンテーション手法を提案する。
さらに,提案したT-Netの性能を,XCT解析のためのEnsemble Networkモデルからなる他の3つのアルゴリズム(U-Net,Y-Net,E-Net)と比較した。
この結果から,T-Netを用いたオブジェクトメトリクス(mIoU平均)やDice similarity Coefficient平均(mDSC平均)などの利点が得られた。 Lithium metal battery (LMB) has the potential to be the next-generation battery system because of their high theoretical energy density. However, defects known as dendrites are formed by heterogeneous lithium (Li) plating, which hinder the development and utilization of LMBs. Non-destructive techniques to observe the dendrite morphology often use computerized X-ray tomography (XCT) imaging to provide cross-sectional views. To retrieve three-dimensional structures inside a battery, image segmentation becomes essential to quantitatively analyze XCT images. This work proposes a new binary semantic segmentation approach using a transformer-based neural network (T-Net) model capable of segmenting out dendrites from XCT data. In addition, we compare the performance of the proposed T-Net with three other algorithms, such as U-Net, Y-Net, and E-Net, consisting of an Ensemble Network model for XCT analysis. Our results show the advantages of using T-Net in terms of object metrics, such as mean Intersection over Union (mIoU) and mean Dice Similarity Coefficient (mDSC) as well as qualitatively through several comparative visualizations. | 翻訳日:2023-02-10 14:49:58 公開日:2023-02-09 |
# 都市環境における自律運転のための中レベル入力生成による階層型逆数模倣学習 Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments ( http://arxiv.org/abs/2302.04823v1 ) ライセンス: Link先を確認 | Gustavo Claudio Karl Couto and Eric Aislan Antonelo | (参考訳) 現実的な都市ナビゲーションシナリオに対する堅牢な制御ポリシの導出は、簡単な作業ではない。
エンドツーエンドのアプローチでは、これらのポリシーは車両のカメラからの高次元画像をステアリングやスロットルのような低レベルのアクションにマッピングする必要がある。
純粋強化学習 (rl) のアプローチは報酬のみに基づいているが、生成的敵意模倣学習 (generative adversarial imitation learning, gail) エージェントは、環境と相互作用しながら専門家のデモンストレーションから学習する。
本研究では, エージェント環境の中間レベル入力表現を同時に学習しながら, 低レベル動作に直接知覚知覚をマッピングする, エンドツーエンドアプローチで車両の自律ナビゲーションを解決するためのhGAILアーキテクチャを提案する。
The proposed hGAIL consists of an hierarchical Adversarial Imitation Learning architecture composed of two main modules: the GAN (Generative Adversarial Nets) which generates the Bird's-Eye View (BEV) representation mainly from the images of three frontal cameras of the vehicle, and the GAIL which learns to control the vehicle based mainly on the BEV predictions from the GAN as input.Our experiments have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training, was able to autonomously navigate successfully in all intersections of the city. Deriving robust control policies for realistic urban navigation scenarios is not a trivial task. In an end-to-end approach, these policies must map high-dimensional images from the vehicle's cameras to low-level actions such as steering and throttle. While pure Reinforcement Learning (RL) approaches are based exclusively on rewards,Generative Adversarial Imitation Learning (GAIL) agents learn from expert demonstrations while interacting with the environment, which favors GAIL on tasks for which a reward signal is difficult to derive. In this work, the hGAIL architecture was proposed to solve the autonomous navigation of a vehicle in an end-to-end approach, mapping sensory perceptions directly to low-level actions, while simultaneously learning mid-level input representations of the agent's environment. The proposed hGAIL consists of an hierarchical Adversarial Imitation Learning architecture composed of two main modules: the GAN (Generative Adversarial Nets) which generates the Bird's-Eye View (BEV) representation mainly from the images of three frontal cameras of the vehicle, and the GAIL which learns to control the vehicle based mainly on the BEV predictions from the GAN as input.Our experiments have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training, was able to autonomously navigate successfully in all intersections of the city. | 翻訳日:2023-02-10 14:49:37 公開日:2023-02-09 |
# 高忠実解釈可能な逆リグ:四角形ブレンド形状モデルに最適化された高精度でスパースな解 High-fidelity Interpretable Inverse Rig: An Accurate and Sparse Solution Optimizing the Quartic Blendshape Model ( http://arxiv.org/abs/2302.04820v1 ) ライセンス: Link先を確認 | Stevo Rackovi\'c, Cl\'audia Sores, Du\v{s}an Jakoveti\'c, Zoranka Desnica | (参考訳) 本研究では,人間顔アニメーションにおける逆リグ問題を解くことにより,任意の精度でブレンド形状リグモデルに適合する手法を提案する。
この方法では、追加補正のレベルが異なるブレンドシェープモデルを考慮し、座標勾配を用いて正規化された最小二乗問題を解く。
最適化の容易化に加えて、このアプローチでは、相互排他的なコントローラが同時にアクティベートされず、イテレーション毎に適合性が向上する。
提案手法は, 重みベクトル(20%以上)の濃度を著しく低下させながら, メッシュ誤差が最先端の手法と同等か低いかの解が得られることを実験的に示し, ポストプロダクションで操作しやすい参照表現の忠実度の高い再構成を可能にする。
アルゴリズム用のpythonスクリプトは、論文が受け入れられると公開される予定だ。 We propose a method to fit arbitrarily accurate blendshape rig models by solving the inverse rig problem in realistic human face animation. The method considers blendshape models with different levels of added corrections and solves the regularized least-squares problem using coordinate descent, i.e., iteratively estimating blendshape weights. Besides making the optimization easier to solve, this approach ensures that mutually exclusive controllers will not be activated simultaneously and improves the goodness of fit after each iteration. We show experimentally that the proposed method yields solutions with mesh error comparable to or lower than the state-of-the-art approaches while significantly reducing the cardinality of the weight vector (over 20 percent), hence giving a high-fidelity reconstruction of the reference expression that is easier to manipulate in the post-production manually. Python scripts for the algorithm will be publicly available upon acceptance of the paper. | 翻訳日:2023-02-10 14:49:14 公開日:2023-02-09 |
# 直交性のエッジ: byol tickの作り方をシンプルに見る The Edge of Orthogonality: A Simple View of What Makes BYOL Tick ( http://arxiv.org/abs/2302.04817v1 ) ライセンス: Link先を確認 | Pierre H. Richemond, Allison Tam, Yunhao Tang, Florian Strub, Bilal Piot, Felix Hill | (参考訳) BYOLやSimSiamのような自己予測的教師なし学習手法は印象的な結果を示しており、反故意に、自明な表現に崩壊しない。
本研究では,自己予測型教師なし学習の根底にあるメカニズムを説明するために,最も単純な数学的議論を提案する。
まず、これらの手法が予測ネットワーク(および停止段階)の存在に依存しているという観測から始める。
単純な線形代数を用いて,線形予測器を用いた場合,最適予測器は直交射影に近いことを証明し,ビオールがなぜ機能するのかを解釈し直観化できる正規化に基づく一般的な枠組みを提案する。
さらに,BYOLにおける指数移動平均と停止勾配演算子を,効率的な正規化機構として重要な役割を担っている。
これらの知見を用いて, byol の4つの新しい変種を提案, 解析支援に用いた。
クローズドフォーム予測器は、標準的な線形トレーニング可能な予測器であるBYOLを100ドル、300ドル(ImageNetで1ドル以上)で上回ります。 Self-predictive unsupervised learning methods such as BYOL or SimSiam have shown impressive results, and counter-intuitively, do not collapse to trivial representations. In this work, we aim at exploring the simplest possible mathematical arguments towards explaining the underlying mechanisms behind self-predictive unsupervised learning. We start with the observation that those methods crucially rely on the presence of a predictor network (and stop-gradient). With simple linear algebra, we show that when using a linear predictor, the optimal predictor is close to an orthogonal projection, and propose a general framework based on orthonormalization that enables to interpret and give intuition on why BYOL works. In addition, this framework demonstrates the crucial role of the exponential moving average and stop-gradient operator in BYOL as an efficient orthonormalization mechanism. We use these insights to propose four new \emph{closed-form predictor} variants of BYOL to support our analysis. Our closed-form predictors outperform standard linear trainable predictor BYOL at $100$ and $300$ epochs (top-$1$ linear accuracy on ImageNet). | 翻訳日:2023-02-10 14:48:55 公開日:2023-02-09 |
# 射影作用素の最適半古典正則性と強いワイル則 Optimal Semiclassical Regularity of Projection Operators and Strong Weyl Law ( http://arxiv.org/abs/2302.04816v1 ) ライセンス: Link先を確認 | Laurent Lafleche | (参考訳) 射影作用素は、量子力学や決定過程の研究のような分野におけるスレーター行列式に関連する1つの粒子密度作用素として自然に現れる。
量子力学の半古典近似の文脈において、射影作用素は不連続函数である位相空間の部分集合の特性関数の類似と見なすことができる。
射影作用素は相空間の標数関数に実際に収束し、量子ソボレフ空間の観点では、標数関数と同じ極大正則性を示すことを証明する。
これは、シャッテンノルムにおける可換体の大きさに関する半古典的漸近として解釈できる。
我々の研究はまた、ワイル法則に対して強い収束結果を与える。 Projection operators arise naturally as one particle density operators associated to Slater determinants in fields such as quantum mechanics and the study of determinantal processes. In the context of the semiclassical approximation of quantum mechanics, projection operators can be seen as the analogue of characteristic functions of subsets of the phase space, which are discontinuous functions. We prove that projection operators indeed converge to characteristic functions of the phase space and that in terms of quantum Sobolev spaces, they exhibit the same maximal regularity as characteristic functions. This can be interpreted as a semiclassical asymptotic on the size of commutators in Schatten norms. Our study also gives a strong convergence result for the Weyl law. | 翻訳日:2023-02-10 14:48:34 公開日:2023-02-09 |
# 知覚する、知覚しない:軽量に積み重ねられた砂時計網 To Perceive or Not to Perceive: Lightweight Stacked Hourglass Network ( http://arxiv.org/abs/2302.04815v1 ) ライセンス: Link先を確認 | Jameel Hassan Abdul Samadh, Salwa K. Al Khatib | (参考訳) HPE(Human pose Estimation)は、コンピュータビジョンにおける古典的なタスクであり、関節の位置を特定して人の向きを表現することに焦点を当てている。
我々は,モデルの性能を最小に抑えながら,積み重ねられた砂時計網の軽量化を設計。
軽量の2段式時計は、奥行きの分離可能な畳み込み、連結による残差接続、および時計の首間の残差接続を有するチャネル数を減らしている。
最終モデルは、パラメータ数が79%減少し、MAddsも同様の低下で、性能が限界低下する。 Human pose estimation (HPE) is a classical task in computer vision that focuses on representing the orientation of a person by identifying the positions of their joints. We design a lighterversion of the stacked hourglass network with minimal loss in performance of the model. The lightweight 2-stacked hourglass has a reduced number of channels with depthwise separable convolutions, residual connections with concatenation, and residual connections between the necks of the hourglasses. The final model has a marginal drop in performance with 79% reduction in the number of parameters and a similar drop in MAdds | 翻訳日:2023-02-10 14:48:22 公開日:2023-02-09 |
# プロジェクションフリーオンラインExp-concave最適化 Projection-free Online Exp-concave Optimization ( http://arxiv.org/abs/2302.04859v1 ) ライセンス: Link先を確認 | Dan Garber, Ben Kretzu | (参考訳) 我々は、\textit{exp-concave}損失を伴うオンライン凸最適化(oco)の設定を検討する。
この設定で知られている最大の後悔は$O(n\log{}T)$であり、$n$は次元であり、$T$は予測ラウンドの数であり(他の全ての量を定数として扱い、$T$が十分大きいと仮定する)、よく知られたオンラインニュートンステップアルゴリズム(ONS)を通して達成可能である。
しかし、ons は(ある行列誘起ノルムによる)射影を高次元の設定や非自明な構造を持つ場合にしばしば計算的に禁止される可換凸集合上に計算するために各イテレーションで要求される。
この作業では、プロジェクションフリーのオンラインアルゴリズムをexp-concaveとスムースな損失のために考慮し、プロジェクションフリーのアルゴリズムでは、実行可能集合に対する線形最適化オラクル(loo)の可用性のみに依存するアルゴリズムを参照します。
loo をベースとする ons 方式のアルゴリズムでは,合計 $o(t)$ を loo にコールすることで,$\widetilde{o}(n^{2/3}t^{2/3})$ (n,t$ を除くすべての量を無視する) という最悪の場合の後悔を保証する。
しかし、我々のアルゴリズムは、重要かつ妥当な低次元データシナリオにおいて最も興味深い: もし勾配が最大$\rho$, $\rho << n$ で次元の部分空間を(概ね)またぐ場合、後悔の境界は$\widetilde{o}(\rho^{2/3}t^{2/3})$に改善され、標準決定論的スケッチ技術を適用することにより、空間と平均的な追加毎のランタイム要求は$o(\rho{}n)$($o(n^2)$の代わりに)である。
これは、最近提案されたOCOのLOOベースのアルゴリズムの改善であり、このアルゴリズムは水平線に対する最先端の依存性と同じ$T$を持つが、$\sqrt{n}$以上でスケールする後悔とオークルの複雑さに悩まされている。 We consider the setting of online convex optimization (OCO) with \textit{exp-concave} losses. The best regret bound known for this setting is $O(n\log{}T)$, where $n$ is the dimension and $T$ is the number of prediction rounds (treating all other quantities as constants and assuming $T$ is sufficiently large), and is attainable via the well-known Online Newton Step algorithm (ONS). However, ONS requires on each iteration to compute a projection (according to some matrix-induced norm) onto the feasible convex set, which is often computationally prohibitive in high-dimensional settings and when the feasible set admits a non-trivial structure. In this work we consider projection-free online algorithms for exp-concave and smooth losses, where by projection-free we refer to algorithms that rely only on the availability of a linear optimization oracle (LOO) for the feasible set, which in many applications of interest admits much more efficient implementations than a projection oracle. We present an LOO-based ONS-style algorithm, which using overall $O(T)$ calls to a LOO, guarantees in worst case regret bounded by $\widetilde{O}(n^{2/3}T^{2/3})$ (ignoring all quantities except for $n,T$). However, our algorithm is most interesting in an important and plausible low-dimensional data scenario: if the gradients (approximately) span a subspace of dimension at most $\rho$, $\rho << n$, the regret bound improves to $\widetilde{O}(\rho^{2/3}T^{2/3})$, and by applying standard deterministic sketching techniques, both the space and average additional per-iteration runtime requirements are only $O(\rho{}n)$ (instead of $O(n^2)$). This improves upon recently proposed LOO-based algorithms for OCO which, while having the same state-of-the-art dependence on the horizon $T$, suffer from regret/oracle complexity that scales with $\sqrt{n}$ or worse. | 翻訳日:2023-02-10 14:42:32 公開日:2023-02-09 |
# Re-ViLM:ZeroとFew-Shot画像キャプションのための検索拡張ビジュアル言語モデル Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning ( http://arxiv.org/abs/2302.04858v1 ) ライセンス: Link先を確認 | Zhuolin Yang, Wei Ping, Zihan Liu, Vijay Korthikanti, Weili Nie, De-An Huang, Linxi Fan, Zhiding Yu, Shiyi Lan, Bo Li, Ming-Yu Liu, Yuke Zhu, Mohammad Shoeybi, Bryan Catanzaro, Chaowei Xiao, Anima Anandkumar | (参考訳) 事前訓練された言語モデル(LM)を視覚エンコーダ(例えばFlamingo)で拡張することで、画像からテキスト生成の最先端結果が得られる。
しかしながら、これらのモデルは全ての知識をパラメータに格納するため、豊富な視覚概念と非常に豊富なテキスト記述をモデル化するために巨大なモデルパラメータを必要とすることが多い。
さらに、新しいデータを取り込むのに効率が悪く、計算効率のよい微調整プロセスが必要となる。
本稿では,フラミンゴ上に構築された検索型ビジュアル言語モデルであるre-vilmを導入することで,外部データベースから関連する知識をゼロおよびインコンテキストの少数ショット画像からテキストへの世代で検索することを支援する。
特定の知識を外部データベースに明示的に格納することで、モデルパラメータの数を減らし、データベースを単純に更新することで、評価中に容易に新しいデータに対応できる。
また,インターリーブされた画像とテキストデータを構築し,テキスト内数ショット学習機能を実現する。
本稿では,画像からテキストへの生成タスク,特に領域外設定におけるゼロショットおよび少数ショット生成において,ベースラインメソッドと比較して4倍のパラメータで,re-vilmが性能を大幅に向上させることを示す。 Augmenting pretrained language models (LMs) with a vision encoder (e.g., Flamingo) has obtained state-of-the-art results in image-to-text generation. However, these models store all the knowledge within their parameters, thus often requiring enormous model parameters to model the abundant visual concepts and very rich textual descriptions. Additionally, they are inefficient in incorporating new data, requiring a computational-expensive fine-tuning process. In this work, we introduce a Retrieval-augmented Visual Language Model, Re-ViLM, built upon the Flamingo, that supports retrieving the relevant knowledge from the external database for zero and in-context few-shot image-to-text generations. By storing certain knowledge explicitly in the external database, our approach reduces the number of model parameters and can easily accommodate new data during evaluation by simply updating the database. We also construct an interleaved image and text data that facilitates in-context few-shot learning capabilities. We demonstrate that Re-ViLM significantly boosts performance for image-to-text generation tasks, especially for zero-shot and few-shot generation in out-of-domain settings with 4 times less parameters compared with baseline methods. | 翻訳日:2023-02-10 14:41:43 公開日:2023-02-09 |
# 分散視点とデモ拡張によるワンショット視覚模倣 One-shot Visual Imitation via Attributed Waypoints and Demonstration Augmentation ( http://arxiv.org/abs/2302.04856v1 ) ライセンス: Link先を確認 | Matthew Chang, Saurabh Gupta | (参考訳) 本稿では,既存の手法の挙動を分析し,ワンショット視覚模倣問題に対する新しい解決策を設計する。
この設定では、エージェントは単一の視覚的なデモンストレーションだけを与えられた新しいタスクのインスタンスを解決しなければならない。
分析の結果,DAgger問題,オブジェクトとのインタラクションにおける最終センチメートル誤差,実際のタスクではなくタスクコンテキストへの不適合という3つの誤りが原因で,現在の手法が不足していることが判明した。
このことがモジュラー・アプローチの設計を動機付けます
a)タスクの実行からタスク推論(何をすべきか)を分離し、
b)ミスフィッティングを緩和するためにデータ拡張および生成技術を開発すること。
前者はタスクの実行に手作りのモータープリミティブを活用でき、後者はタスクコンテキストではなくタスクに集中することができます。
我々のモデルは、最近の2つのベンチマークで100%と48%の成功率を獲得し、それぞれ90%と20%の改善を実現しています。 In this paper, we analyze the behavior of existing techniques and design new solutions for the problem of one-shot visual imitation. In this setting, an agent must solve a novel instance of a novel task given just a single visual demonstration. Our analysis reveals that current methods fall short because of three errors: the DAgger problem arising from purely offline training, last centimeter errors in interacting with objects, and mis-fitting to the task context rather than to the actual task. This motivates the design of our modular approach where we a) separate out task inference (what to do) from task execution (how to do it), and b) develop data augmentation and generation techniques to mitigate mis-fitting. The former allows us to leverage hand-crafted motor primitives for task execution which side-steps the DAgger problem and last centimeter errors, while the latter gets the model to focus on the task rather than the task context. Our model gets 100% and 48% success rates on two recent benchmarks, improving upon the current state-of-the-art by absolute 90% and 20% respectively. | 翻訳日:2023-02-10 14:41:21 公開日:2023-02-09 |
# 階層型変分オートエンコーダにおける潜在者間の取引情報 Trading Information between Latents in Hierarchical Variational Autoencoders ( http://arxiv.org/abs/2302.04855v1 ) ライセンス: Link先を確認 | Tim Z. Xiao, Robert Bamler | (参考訳) 変分オートエンコーダ(VAE)はもともと(Kingma & Welling, 2014)、近似ベイズ推論を行う確率的生成モデルとして動機付けられていた。
The proposal of $\beta$-VAEs (Higgins et al., 2017) はこの解釈を破り、VAEを生成的モデリング(例えば、表現学習、クラスタリング、損失データ圧縮)を超えたアプリケーションドメインに一般化し、実践者が潜伏表現の情報コンテンツ(ビットレート)と再構成データの歪み(Alemi et al., 2018)をトレードオフできる客観的関数を導入する。
本稿では,階層的vaes,すなわち,複数の潜在変数層を有するvaesの文脈において,このレート/ゆがみトレードオフを再考する。
我々は、各層からレートを貢献に分割できる一般的な推論モデルのクラスを特定し、それを独立して調整できる。
ダウンストリームタスクの性能に関する理論的境界を各レイヤの速度関数として導出し,大規模実験で理論的知見を検証した。
本研究は,対象とするアプリケーションに対して,どの領域の利率空間を対象とするかを示す。 Variational Autoencoders (VAEs) were originally motivated (Kingma & Welling, 2014) as probabilistic generative models in which one performs approximate Bayesian inference. The proposal of $\beta$-VAEs (Higgins et al., 2017) breaks this interpretation and generalizes VAEs to application domains beyond generative modeling (e.g., representation learning, clustering, or lossy data compression) by introducing an objective function that allows practitioners to trade off between the information content ("bit rate") of the latent representation and the distortion of reconstructed data (Alemi et al., 2018). In this paper, we reconsider this rate/distortion trade-off in the context of hierarchical VAEs, i.e., VAEs with more than one layer of latent variables. We identify a general class of inference models for which one can split the rate into contributions from each layer, which can then be tuned independently. We derive theoretical bounds on the performance of downstream tasks as functions of the individual layers' rates and verify our theoretical findings in large-scale experiments. Our results provide guidance for practitioners on which region in rate-space to target for a given application. | 翻訳日:2023-02-10 14:41:03 公開日:2023-02-09 |
# SparseProp: ニューラルネットワークの高速トレーニングのための効率的なスパースバックプロパゲーション SparseProp: Efficient Sparse Backpropagation for Faster Training of Neural Networks ( http://arxiv.org/abs/2302.04852v1 ) ライセンス: Link先を確認 | Mahdi Nikdan, Tommaso Pegolotti, Eugenia Iofinova, Eldar Kurtic, Dan Alistarh | (参考訳) トレーニング中のニューラルネットワークの重みが不足している場合に特化して、バックプロパゲーションアルゴリズムの新たな効率的なバージョンを提供する。
我々のアルゴリズムは、任意の(非構造的な)スパーシリティと共通層タイプ(例えば、畳み込みや線形)に適用されるため、一般的なものである。
我々は、コモディティcpuの高速ベクトル化実装を提供し、既に分離されたネットワークを用いた転送学習と、スパースネットワークをスクラッチからトレーニングすることで、エンド・ツー・エンドのランタイム実験で高速化できることを示す。
そこで本研究は,コモディティハードウェアにおけるスパーストレーニングの最初のサポートを提供する。 We provide a new efficient version of the backpropagation algorithm, specialized to the case where the weights of the neural network being trained are sparse. Our algorithm is general, as it applies to arbitrary (unstructured) sparsity and common layer types (e.g., convolutional or linear). We provide a fast vectorized implementation on commodity CPUs, and show that it can yield speedups in end-to-end runtime experiments, both in transfer learning using already-sparsified networks, and in training sparse networks from scratch. Thus, our results provide the first support for sparse training on commodity hardware. | 翻訳日:2023-02-10 14:40:40 公開日:2023-02-09 |
# 確率的局所更新を用いた遅延型階層型学習 Delay Sensitive Hierarchical Federated Learning with Stochastic Local Updates ( http://arxiv.org/abs/2302.04851v1 ) ライセンス: Link先を確認 | Abdulmoneam Ali, Ahmed Arafa | (参考訳) クライアントとパラメータサーバ間の通信遅延が存在する場合,局所平均化がフェデレーション学習(fl)システムの性能に及ぼす影響について検討した。
遅延の影響を最小限に抑えるため、クライアントは異なるグループに割り当てられ、それぞれがクライアントのモデルを集約する独自のローカルパラメータサーバ(LPS)を持つ。
グループのモデルは、LPSとのみ通信するグローバルパラメータサーバ(GPS)に集約される。
このような設定は階層FL (hierarchical FL) として知られている。
文献のほとんどの作品とは異なり、我々の作品における局所的およびグローバル的コミュニケーションラウンドの数は、各クライアントが経験する(異なる)遅延によってランダムに決定されます。
具体的には、局所平均ラウンドの数は、同期時間$S$というウォールクロック時間に結び付けられ、その後、LPSはGPSと共有することでモデルを同期させる。
このような同期時間$S$は、グローバルウォールタイムが終了するまで再適用される。 The impact of local averaging on the performance of federated learning (FL) systems is studied in the presence of communication delay between the clients and the parameter server. To minimize the effect of delay, clients are assigned into different groups, each having its own local parameter server (LPS) that aggregates its clients' models. The groups' models are then aggregated at a global parameter server (GPS) that only communicates with the LPSs. Such setting is known as hierarchical FL (HFL). Different from most works in the literature, the number of local and global communication rounds in our work is randomly determined by the (different) delays experienced by each group of clients. Specifically, the number of local averaging rounds are tied to a wall-clock time period coined the sync time $S$, after which the LPSs synchronize their models by sharing them with the GPS. Such sync time $S$ is then reapplied until a global wall-clock time is exhausted. | 翻訳日:2023-02-10 14:40:27 公開日:2023-02-09 |
# ロボットの合成: 音と感情を誘導するAIペイント Robot Synesthesia: A Sound and Emotion Guided AI Painter ( http://arxiv.org/abs/2302.04850v1 ) ライセンス: Link先を確認 | Vihaan Misra, Peter Schaldenbrand and Jean Oh | (参考訳) 絵が千語を描けば、音は百万声になるかもしれない。
最近のロボット絵画や画像合成手法は、テキスト入力から視覚を生成する進歩を遂げているが、音声から画像への変換は極めて未開拓である。
一般に、音声インタフェースと音素相互作用は、ユーザへのアクセシビリティと制御を広げ、複雑な感情や現実世界の動的な側面を伝える手段を提供する可能性がある。
本稿では,ロボット合成と呼ばれる,ロボットによる絵画プロセスの指導に音声と音声を用いる手法を提案する。
一般的な音では、シミュレーションされた絵画と入力音を同じ潜在空間にエンコードする。
音声の場合、音声を書き起こされたテキストと音声のトーンに分離する。
テキストを使って内容を制御する一方で、トーンからの感情を推定し、絵のムードを導く。
提案手法はロボット絵画フレームワークであるFRIDAと完全に統合され,テキストやスタイルなど,FRIDAの既存の入力モダリティに音声と音声を付加する。
2つの調査では、被験者は与えられた絵画をランダムな確率の2倍以上の確率で生成するのに使用される感情や自然な音を正確に推測することができた。
音響誘導画像操作と音楽誘導絵画について質的に検討した。 If a picture paints a thousand words, sound may voice a million. While recent robotic painting and image synthesis methods have achieved progress in generating visuals from text inputs, the translation of sound into images is vastly unexplored. Generally, sound-based interfaces and sonic interactions have the potential to expand accessibility and control for the user and provide a means to convey complex emotions and the dynamic aspects of the real world. In this paper, we propose an approach for using sound and speech to guide a robotic painting process, known here as robot synesthesia. For general sound, we encode the simulated paintings and input sounds into the same latent space. For speech, we decouple speech into its transcribed text and the tone of the speech. Whereas we use the text to control the content, we estimate the emotions from the tone to guide the mood of the painting. Our approach has been fully integrated with FRIDA, a robotic painting framework, adding sound and speech to FRIDA's existing input modalities, such as text and style. In two surveys, participants were able to correctly guess the emotion or natural sound used to generate a given painting more than twice as likely as random chance. On our sound-guided image manipulation and music-guided paintings, we discuss the results qualitatively. | 翻訳日:2023-02-10 14:40:14 公開日:2023-02-09 |
# この損失は有益ですか。
決定論的客観的評価によるテキストインバージョン高速化 Is This Loss Informative? Speeding Up Textual Inversion with Deterministic Objective Evaluation ( http://arxiv.org/abs/2302.04841v1 ) ライセンス: Link先を確認 | Anton Voronov, Mikhail Khoroshikh, Artem Babenko, Max Ryabinin | (参考訳) テキスト・ツー・イメージ生成モデルは、画像合成における進化の次のステップであり、フレキシブルできめ細かな制御の自然な手段を提供する。
新たな研究領域の1つは、より小さなデータセットや新しい視覚概念に大規模なテキスト・イメージ・モデルの迅速な適応である。
しかし、テキスト・インバージョンと呼ばれる最も効率的な適応法は、実用的応用を制限し、研究のための実験時間を増大させる、長い訓練時間の既知の制限を有する。
本研究では,テキスト反転の学習ダイナミクスについて検討し,その高速化を目的とした。
ほとんどの概念は初期段階で学習され、その後の品質は向上しないが、標準的なモデル収束メトリクスはそれを示さない。
その代わり、我々は、すべてのトレーニングイテレーションで同じ入力でテキストの反転損失を計算するだけでよい単純な早期停止基準を提案します。
93概念の潜在拡散モデルと安定拡散モデルの両方について実験を行った結果,本手法の性能は最大15倍まで向上し,品質の低下はみられなかった。 Text-to-image generation models represent the next step of evolution in image synthesis, offering natural means of flexible yet fine-grained control over the result. One emerging area of research is the rapid adaptation of large text-to-image models to smaller datasets or new visual concepts. However, the most efficient method of adaptation, called textual inversion, has a known limitation of long training time, which both restricts practical applications and increases the experiment time for research. In this work, we study the training dynamics of textual inversion, aiming to speed it up. We observe that most concepts are learned at early stages and do not improve in quality later, but standard model convergence metrics fail to indicate that. Instead, we propose a simple early stopping criterion that only requires computing the textual inversion loss on the same inputs for all training iterations. Our experiments on both Latent Diffusion and Stable Diffusion models for 93 concepts demonstrate the competitive performance of our method, speeding adaptation up to 15 times with no significant drops in quality. | 翻訳日:2023-02-10 14:39:39 公開日:2023-02-09 |
# メタ認知学習の基礎となるメカニズムは何か? What are the mechanisms underlying metacognitive learning? ( http://arxiv.org/abs/2302.04840v1 ) ライセンス: Link先を確認 | Ruiqi He, Falk Lieder | (参考訳) 人間は認知資源が限られているにもかかわらず、複雑な計画課題を効率的に解決できるのだろうか?
理由の1つは、限られた計算資源を使って巧妙な選択をする方法を知る能力である。
我々は、この能力を試行錯誤(メタ認知強化学習)から学ぶことを仮定する。
ここでは、基礎となる学習メカニズムのモデルを体系化し、より洗練された追加メカニズムで強化する。
メタ認知学習の異なる現象を実証し,ベイズモデル選択を行った過去の実験で得られたデータに,結果の86モデルを適合させた。
以上より,認知戦略の空間における勾配上昇は,観察された質的現象のほとんどを説明でき,それゆえメタ認知的学習の基礎となるメカニズムを説明する有望な候補であることが示唆された。 How is it that humans can solve complex planning tasks so efficiently despite limited cognitive resources? One reason is its ability to know how to use its limited computational resources to make clever choices. We postulate that people learn this ability from trial and error (metacognitive reinforcement learning). Here, we systematize models of the underlying learning mechanisms and enhance them with more sophisticated additional mechanisms. We fit the resulting 86 models to human data collected in previous experiments where different phenomena of metacognitive learning were demonstrated and performed Bayesian model selection. Our results suggest that a gradient ascent through the space of cognitive strategies can explain most of the observed qualitative phenomena, and is therefore a promising candidate for explaining the mechanism underlying metacognitive learning. | 翻訳日:2023-02-10 14:39:22 公開日:2023-02-09 |
# In-N-Out: ボリューム分解による顔ビデオのインバージョンと編集 In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition ( http://arxiv.org/abs/2302.04871v1 ) ライセンス: Link先を確認 | Yiran Xu, Zhixin Shu, Cameron Smith, Jia-Bin Huang, Seoung Wug Oh | (参考訳) 3d対応ganは、ビュー合成などの創造的なコンテンツ編集機能を提供し、また2d対応の編集能力も維持する。
GANインバージョンを用いることで、潜伏コードを最適化・予測し、潜伏コードを操作することでセマンティックな編集を実現することにより、画像やビデオを再構成することができる。
しかしながら、顔データセット(例えばffhq)で事前トレーニングされたモデルは、しばしば、分散(ood)オブジェクト(例えば、重いメイクアップやオクルージョン)で顔を扱うのに苦労する。
顔ビデオのOODオブジェクトを明示的にモデル化することでこの問題に対処する。
我々の中心となる考え方は、2つのニューラルラジアンス場(In-distriion)とout-of-distriion(out-distriion)データ(out-distriion)を使い、それらを合成して再構築することです。
このような明示的な分解は、レコンストラクション忠実性と編集可能性の間の固有のトレードオフを緩和する。
提案手法の再現精度と編集性を評価し,他のベースラインに対して良好な結果を示す。 3D-aware GANs offer new capabilities for creative content editing, such as view synthesis, while preserving the editing capability of their 2D counterparts. Using GAN inversion, these methods can reconstruct an image or a video by optimizing/predicting a latent code and achieve semantic editing by manipulating the latent code. However, a model pre-trained on a face dataset (e.g., FFHQ) often has difficulty handling faces with out-of-distribution (OOD) objects, (e.g., heavy make-up or occlusions). We address this issue by explicitly modeling OOD objects in face videos. Our core idea is to represent the face in a video using two neural radiance fields, one for in-distribution and the other for out-of-distribution data, and compose them together for reconstruction. Such explicit decomposition alleviates the inherent trade-off between reconstruction fidelity and editability. We evaluate our method's reconstruction accuracy and editability on challenging real videos and showcase favorable results against other baselines. | 翻訳日:2023-02-10 14:33:48 公開日:2023-02-09 |
# オフサイトチューニング:フルモデルのないトランスファーラーニング Offsite-Tuning: Transfer Learning without Full Model ( http://arxiv.org/abs/2302.04870v1 ) ライセンス: Link先を確認 | Guangxuan Xiao, Ji Lin, Song Han | (参考訳) 転移学習は、下流のタスクに適応する基礎モデルにとって重要である。
しかし、多くのファンデーションモデルはプロプライエタリなので、ユーザーはモデルを微調整するためにモデル所有者とデータを共有しなければなりません。
さらに、微調整された大規模基盤モデルは、ほとんどの下流ユーザーにとって計算集約的で非現実的です。
本稿では,全モデルにアクセスせずに10億パラメータの基礎モデルから下流データに適応可能な,プライバシの保存と効率的な転送学習フレームワークであるオフサイトチューニングを提案する。
オフサイトチューニングでは、モデルオーナが軽量アダプタと圧縮エミュレータをデータオーナに送信し、エミュレータの助けを借りて下流データ上のアダプタを微調整する。
微調整されたアダプタはモデルオーナに返され、それをフルモデルにプラグインして、適応された基礎モデルを作成する。
オフサイトチューニングは双方のプライバシーを守り、モデルの全重みへのアクセスを必要とする既存の微調整方法よりも計算効率が良い。
様々な大規模言語および視覚基盤モデルにおけるオフサイトチューニングの有効性を示す。
オフサイトチューニングは、プライバシ保存と効率が良く、6.5倍のスピードアップと5.6倍のメモリ削減を実現している。
コードはhttps://github.com/mit-han-lab/offsite-tuningで入手できる。 Transfer learning is important for foundation models to adapt to downstream tasks. However, many foundation models are proprietary, so users must share their data with model owners to fine-tune the models, which is costly and raise privacy concerns. Moreover, fine-tuning large foundation models is computation-intensive and impractical for most downstream users. In this paper, we propose Offsite-Tuning, a privacy-preserving and efficient transfer learning framework that can adapt billion-parameter foundation models to downstream data without access to the full model. In offsite-tuning, the model owner sends a light-weight adapter and a lossy compressed emulator to the data owner, who then fine-tunes the adapter on the downstream data with the emulator's assistance. The fine-tuned adapter is then returned to the model owner, who plugs it into the full model to create an adapted foundation model. Offsite-tuning preserves both parties' privacy and is computationally more efficient than the existing fine-tuning methods that require access to the full model weights. We demonstrate the effectiveness of offsite-tuning on various large language and vision foundation models. Offsite-tuning can achieve comparable accuracy as full model fine-tuning while being privacy-preserving and efficient, achieving 6.5x speedup and 5.6x memory reduction. Code is available at https://github.com/mit-han-lab/offsite-tuning. | 翻訳日:2023-02-10 14:33:28 公開日:2023-02-09 |
# 可逆視覚変換器 Reversible Vision Transformers ( http://arxiv.org/abs/2302.04869v1 ) ライセンス: Link先を確認 | Karttikeya Mangalam, Haoqi Fan, Yanghao Li, Chao-Yuan Wu, Bo Xiong, Christoph Feichtenhofer, Jitendra Malik | (参考訳) 本稿では,視覚認識のためのメモリ効率の良いアーキテクチャ設計であるReversible Vision Transformersを提案する。
モデルの深さからGPUメモリ要求を分離することで、Reversible Vision Transformersは効率的なメモリ使用量でアーキテクチャのスケールアップを可能にする。
我々は,視覚トランスフォーマーと多スケール視覚トランスフォーマーという2つの人気のあるモデルを可逆型に適応させ,画像分類,物体検出,映像分類などのモデルサイズとタスクをまたいだベンチマークを行った。
可逆ビジョントランスフォーマは、ほぼ同じモデルの複雑さ、パラメータ、精度で最大15.5倍のメモリフットプリントを削減し、ハードウェアリソースの限られたトレーニングレジームの効率的なバックボーンとして可逆ビジョントランスフォーマの可能性を実証する。
最後に、より深いモデルでは、アクティベーションを再計算する余分な計算負担が克服され、スループットは非可逆モデルよりも2.3倍向上する。
フルコードとトレーニングされたモデルはhttps://github.com/facebookresearch/slowfastで入手できる。
シンプルで分かりやすく、修正しやすいバージョンもhttps://github.com/karttikeya/minrevで入手できる。 We present Reversible Vision Transformers, a memory efficient architecture design for visual recognition. By decoupling the GPU memory requirement from the depth of the model, Reversible Vision Transformers enable scaling up architectures with efficient memory usage. We adapt two popular models, namely Vision Transformer and Multiscale Vision Transformers, to reversible variants and benchmark extensively across both model sizes and tasks of image classification, object detection and video classification. Reversible Vision Transformers achieve a reduced memory footprint of up to 15.5x at roughly identical model complexity, parameters and accuracy, demonstrating the promise of reversible vision transformers as an efficient backbone for hardware resource limited training regimes. Finally, we find that the additional computational burden of recomputing activations is more than overcome for deeper models, where throughput can increase up to 2.3x over their non-reversible counterparts. Full code and trained models are available at https://github.com/facebookresearch/slowfast. A simpler, easy to understand and modify version is also available at https://github.com/karttikeya/minREV | 翻訳日:2023-02-10 14:33:04 公開日:2023-02-09 |
# megane: 変身可能な眼鏡とアバターネットワーク MEGANE: Morphable Eyeglass and Avatar Network ( http://arxiv.org/abs/2302.04868v1 ) ライセンス: Link先を確認 | Junxuan Li, Shunsuke Saito, Tomas Simon, Stephen Lombardi, Hongdong Li, Jason Saragih | (参考訳) 眼鏡はアイデンティティの認識において重要な役割を果たす。
真正な顔の仮想表現は、その包含から大きな利益を得られる。
しかし、メガネの幾何学的および外観的相互作用と人間の仮想表現の面のモデル化は困難である。
ガラスと顔は接触点における互いの幾何学に影響を与え、光輸送による外観の変化も引き起こす。
既存のほとんどのアプローチは、眼鏡と顔を独立にモデル化するため、これらの物理的相互作用を捉えない。
他の者は、2次元画像合成問題として相互作用を解決しようと試み、視野や時間的矛盾に悩まされる。
本研究では,高忠実度および光度相互作用効果を正確に組み込んだ3次元合成可能な眼鏡モデルを提案する。
ガラスのトポロジーの大きな変化を効率的に支援するために,表面形状と体積表現を組み合わせたハイブリッド表現を用いる。
体積的アプローチとは異なり, ガラス間の対応性は自然に保持されるため, レンズ挿入やフレーム変形などの形状の明示的な修正は大幅に単純化される。
また,我々のモデルは点灯や自然照明の下では可照性であり,透明なプラスチックや金属を含む各種フレーム材料の高忠実度レンダリングを単一モルファブルモデルでサポートする。
重要なことは、我々のアプローチは、顔と眼鏡の間の影を鋳造するなど、グローバルな光輸送効果をモデル化する。
我々の眼鏡の変形可能なモデルは、逆レンダリングによって新しいメガネにも適合する。
このアプローチを最先端の手法と比較し,大幅な品質改善を示す。 Eyeglasses play an important role in the perception of identity. Authentic virtual representations of faces can benefit greatly from their inclusion. However, modeling the geometric and appearance interactions of glasses and the face of virtual representations of humans is challenging. Glasses and faces affect each other's geometry at their contact points, and also induce appearance changes due to light transport. Most existing approaches do not capture these physical interactions since they model eyeglasses and faces independently. Others attempt to resolve interactions as a 2D image synthesis problem and suffer from view and temporal inconsistencies. In this work, we propose a 3D compositional morphable model of eyeglasses that accurately incorporates high-fidelity geometric and photometric interaction effects. To support the large variation in eyeglass topology efficiently, we employ a hybrid representation that combines surface geometry and a volumetric representation. Unlike volumetric approaches, our model naturally retains correspondences across glasses, and hence explicit modification of geometry, such as lens insertion and frame deformation, is greatly simplified. In addition, our model is relightable under point lights and natural illumination, supporting high-fidelity rendering of various frame materials, including translucent plastic and metal within a single morphable model. Importantly, our approach models global light transport effects, such as casting shadows between faces and glasses. Our morphable model for eyeglasses can also be fit to novel glasses via inverse rendering. We compare our approach to state-of-the-art methods and demonstrate significant quality improvements. | 翻訳日:2023-02-10 14:32:43 公開日:2023-02-09 |
# UniPC: 拡散モデルの高速サンプリングのための統一予測コレクタフレームワーク UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2302.04867v1 ) ライセンス: Link先を確認 | Wenliang Zhao, Lujia Bai, Yongming Rao, Jie Zhou, Jiwen Lu | (参考訳) 拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。
しかしながら、事前訓練されたDPMからのサンプリングは通常、数百のモデル評価を必要とする。
dpmの高次ソルバの設計は近年進展しているが、特に非常に少ないステップ(例えば5〜10ステップ)では、さらなるスピードアップの余地がある。
ODEソルバの予測器コレクタにインスパイアされ,既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し,モデル評価を余分に行わずに精度を高めるとともに,任意の順序を副生成物としてサポートする統一予測器(UniP)を導出する。
そこで,unip と unic を組み合わせることで,dpms の高速サンプリングのための統一予測子補正フレームワーク unipc を提案する。
我々は,画素空間と潜在空間DPMを用いた非条件サンプリングと条件サンプリングの両方を含む広範囲な実験により評価を行った。
我々のUniPCは、CIFAR10(unconditional)で3.87 FID、ImageNet 256$\times$256(conditional)で7.51 FIDを達成できる。
コードはhttps://github.com/wl-zhao/UniPCで入手できる。 Diffusion probabilistic models (DPMs) have demonstrated a very promising ability in high-resolution image synthesis. However, sampling from a pre-trained DPM usually requires hundreds of model evaluations, which is computationally expensive. Despite recent progress in designing high-order solvers for DPMs, there still exists room for further speedup, especially in extremely few steps (e.g., 5~10 steps). Inspired by the predictor-corrector for ODE solvers, we develop a unified corrector (UniC) that can be applied after any existing DPM sampler to increase the order of accuracy without extra model evaluations, and derive a unified predictor (UniP) that supports arbitrary order as a byproduct. Combining UniP and UniC, we propose a unified predictor-corrector framework called UniPC for the fast sampling of DPMs, which has a unified analytical form for any order and can significantly improve the sampling quality over previous methods. We evaluate our methods through extensive experiments including both unconditional and conditional sampling using pixel-space and latent-space DPMs. Our UniPC can achieve 3.87 FID on CIFAR10 (unconditional) and 7.51 FID on ImageNet 256$\times$256 (conditional) with only 10 function evaluations. Code is available at https://github.com/wl-zhao/UniPC | 翻訳日:2023-02-10 14:32:21 公開日:2023-02-09 |
# relightablehands: 有声手モデルの効率的なニューラルリライト RelightableHands: Efficient Neural Relighting of Articulated Hand Models ( http://arxiv.org/abs/2302.04866v1 ) ライセンス: Link先を確認 | Shun Iwase, Shunsuke Saito, Tomas Simon, Stephen Lombardi, Timur Bagautdinov, Rohan Joshi, Fabian Prada, Takaaki Shiratori, Yaser Sheikh, Jason Saragih | (参考訳) 我々は、新しい照明下でリアルタイムでアニメーションできる高忠実度パーソナライズドハンドをレンダリングするための、最初の神経リライト方式を提案する。
提案手法では,光ステージで撮影した画像から単点光の下での出現を教師が学習し,任意の照度で手を合成するが,計算量が多い教師・教師の枠組みを採用している。
教師モデルによって表現されたイメージをトレーニングデータとして利用することにより,学生モデルは自然照度下での外観を直接リアルタイムで予測する。
一般化を実現するために,粗いプロキシ幾何上に計算された可視性,拡散陰影,鏡面反射といった物理に触発された照明特性を学生モデルに条件付けし,計算オーバーヘッドを小さく抑える。
私たちの重要な洞察は、これらの機能はその後のグローバル光輸送効果と強い相関を持ち、ニューラルネットワークのコンディショニングデータとして十分であることが証明されるということです。
さらに、ボトルネック照明条件とは対照的に、これらの特徴は下層の幾何学に基づいて空間的に整列し、目に見えない照明やポーズをより一般化する。
実験では,照明特徴表現の有効性を実証し,ベースラインのアプローチに優れることを示した。
また,我々のアプローチは,相互に作用する手をリアルタイムにリライトできることを示した。
https://sh8.io/#/relightable_hands We present the first neural relighting approach for rendering high-fidelity personalized hands that can be animated in real-time under novel illumination. Our approach adopts a teacher-student framework, where the teacher learns appearance under a single point light from images captured in a light-stage, allowing us to synthesize hands in arbitrary illuminations but with heavy compute. Using images rendered by the teacher model as training data, an efficient student model directly predicts appearance under natural illuminations in real-time. To achieve generalization, we condition the student model with physics-inspired illumination features such as visibility, diffuse shading, and specular reflections computed on a coarse proxy geometry, maintaining a small computational overhead. Our key insight is that these features have strong correlation with subsequent global light transport effects, which proves sufficient as conditioning data for the neural relighting network. Moreover, in contrast to bottleneck illumination conditioning, these features are spatially aligned based on underlying geometry, leading to better generalization to unseen illuminations and poses. In our experiments, we demonstrate the efficacy of our illumination feature representations, outperforming baseline approaches. We also show that our approach can photorealistically relight two interacting hands at real-time speeds. https://sh8.io/#/relightable_hands | 翻訳日:2023-02-10 14:31:54 公開日:2023-02-09 |
# 身体的視覚ナビゲーションとタスク完了のためのエイキングによる学習 Learning by Asking for Embodied Visual Navigation and Task Completion ( http://arxiv.org/abs/2302.04865v1 ) ライセンス: Link先を確認 | Ying Shen and Ismini Lourentzou | (参考訳) 研究コミュニティは、タスクの達成を支援するインテリジェントな具体化エージェントの設計への関心が高まっている。
視覚言語ベンチマークの最近の進歩にもかかわらず、ほとんどの先行研究は、内挿エージェントではなく指示に従うエージェントを構築することに重点を置いてきた。
本研究は,人間と対話する能力を持つエンボディエージェントを強化するために,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するEmbodied Learning-By-Asking(ELBA)モデルを提案する。
teaching vision-dialog navigation と task completion dataset を用いたモデルの評価を行った。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。 The research community has shown increasing interest in designing intelligent embodied agents that can assist humans in accomplishing tasks. Despite recent progress on related vision-language benchmarks, most prior work has focused on building agents that follow instructions rather than endowing agents the ability to ask questions to actively resolve ambiguities arising naturally in embodied environments. To empower embodied agents with the ability to interact with humans, in this work, we propose an Embodied Learning-By-Asking (ELBA) model that learns when and what questions to ask to dynamically acquire additional information for completing the task. We evaluate our model on the TEACH vision-dialog navigation and task completion dataset. Experimental results show that ELBA achieves improved task performance compared to baseline models without question-answering capabilities. | 翻訳日:2023-02-10 14:31:28 公開日:2023-02-09 |
# 知識は微調整言語モデルのための重み空間の領域である Knowledge is a Region in Weight Space for Fine-tuned Language Models ( http://arxiv.org/abs/2302.04863v1 ) ライセンス: Link先を確認 | Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz, Leshem Choshen | (参考訳) ニューラルネットワークの研究は、単一のデータセットでトレーニングされた単一のモデルを理解することに集中してきた。
しかしながら、異なるモデル、特に異なるデータセットでトレーニングまたはテストされたモデル間の関係について、比較的知られていない。
我々は、異なるモデルの重量空間と下層の損失景観がどのように相互に関連付けられているかを研究することでこの問題に対処する。
具体的には、ハイパフォーマンスに最適化された微調整されたモデルが、重み空間内の明確に定義された領域に存在し、その逆もまた、これらの領域に存在するモデルがハイパフォーマンスであることを示す。
具体的には、同じデータセットに微調整された言語モデルが重み空間の密クラスタを形成し、同じタスクから異なるデータセットに微調整されたモデルがより緩いクラスタを形成することを示す。
さらに、モデル間の領域を横切ると、元のモデルが微調整されていないタスクであっても、微調整によって発見されたモデルと同等あるいはそれ以上の性能を持つ新しいモデルに到達します。
本研究は, モデル間の関係を考察し, 2つの類似モデルの間に配置されたモデルが両者の知識を得られることを示した。
この発見と設計を利用して、効率的な微調整のためのより良いモデルを選択する。
具体的には、12のデータセットのうち11のトレーニング済みモデルよりも、リージョンの中心から始める方が良いか良いかを示し、平均で3.06の精度向上を示す。 Research on neural networks has largely focused on understanding a single model trained on a single dataset. However, relatively little is known about the relationships between different models, especially those trained or tested on different datasets. We address this by studying how the weight space and underlying loss landscape of different models are interconnected. Specifically, we demonstrate that fine-tuned models that were optimized for high performance, reside in well-defined regions in weight space, and vice versa -- that any model that resides anywhere in those regions also has high performance. Specifically, we show that language models that have been fine-tuned on the same dataset form a tight cluster in the weight space and that models fine-tuned on different datasets from the same underlying task form a looser cluster. Moreover, traversing around the region between the models reaches new models that perform comparably or even better than models found via fine-tuning, even on tasks that the original models were not fine-tuned on. Our findings provide insight into the relationships between models, demonstrating that a model positioned between two similar models can acquire the knowledge of both. We leverage this finding and design a method to pick a better model for efficient fine-tuning. Specifically, we show that starting from the center of the region is as good or better than the pre-trained model in 11 of 12 datasets and improves accuracy by 3.06 on average. | 翻訳日:2023-02-10 14:31:13 公開日:2023-02-09 |
# サブバンド分解・操作のための多項式ニューラルフィールド Polynomial Neural Fields for Subband Decomposition and Manipulation ( http://arxiv.org/abs/2302.04862v1 ) ライセンス: Link先を確認 | Guandao Yang and Sagie Benaim and Varun Jampani and Kyle Genova and Jonathan T. Barron and Thomas Funkhouser and Bharath Hariharan and Serge Belongie | (参考訳) ニューラルネットワークは、信号の最適化が容易でコンパクトに処理できるため、信号を表現するための新しいパラダイムとして登場した。
しかし、ほとんどのアプリケーションでは、神経場はブラックボックスのように扱われ、多くの信号操作タスクを妨げている。
本稿では,多項式ニューラルフィールド(PNF)と呼ばれる新しいニューラルネットワークのクラスを提案する。
PNFの鍵となる利点は、信号が多くの操作可能かつ解釈可能なコンポーネントの合成として表現でき、神経場表現の利点を失わないことである。
PNFを解析・設計するための一般的な理論的枠組みを開発する。
ニューラルフィールドを使用する信号表現タスクにおける最先端のパフォーマンスにマッチするフーリエpnfの設計に,このフレームワークを使用する。
さらに、フーリエPNFがテクスチャ転送やスケール空間補間といった信号操作の応用を可能にすることを実証的に実証した。
コードはhttps://github.com/stevenygd/pnfで入手できる。 Neural fields have emerged as a new paradigm for representing signals, thanks to their ability to do it compactly while being easy to optimize. In most applications, however, neural fields are treated like black boxes, which precludes many signal manipulation tasks. In this paper, we propose a new class of neural fields called polynomial neural fields (PNFs). The key advantage of a PNF is that it can represent a signal as a composition of a number of manipulable and interpretable components without losing the merits of neural fields representation. We develop a general theoretical framework to analyze and design PNFs. We use this framework to design Fourier PNFs, which match state-of-the-art performance in signal representation tasks that use neural fields. In addition, we empirically demonstrate that Fourier PNFs enable signal manipulation applications such as texture transfer and scale-space interpolation. Code is available at https://github.com/stevenygd/PNF. | 翻訳日:2023-02-10 14:30:47 公開日:2023-02-09 |
# 多層空間型アンカーによる多面体動作予測 Diverse Human Motion Prediction Guided by Multi-Level Spatial-Temporal Anchors ( http://arxiv.org/abs/2302.04860v1 ) ライセンス: Link先を確認 | Sirui Xu, Yu-Xiong Wang, Liang-Yan Gui | (参考訳) 一連の歴史的なポーズによって多様な人間の動きを予測することが注目されている。
急速な進歩にもかかわらず、既存の研究は、主にモード崩壊が広く観測されている可能性に基づくサンプリングを通して、人間の動作のマルチモーダルな性質を捉えている。
本稿では,アンカーと呼ばれる決定論的学習可能なコンポーネントでランダムにサンプリングされたコードを分離し,サンプル精度と多様性を促進する,単純かつ効果的な手法を提案する。
アンカーはさらに空間的アンカーと時間的アンカーに分解され、空間的時間的格差に対する魅力的な制御を提供する。
原則として、時空間アンカーベースサンプリング(STARS)は、異なる動き予測器に適用できる。
本稿では,人間の運動(例えば空間的局所性)の事前知識を符号化し,アンカーを組み込む対話型時空間グラフ畳み込みネットワーク(ie-stgcn)を提案する。
大規模な実験により,人間の動きをモデル化するための統一的な枠組みとして,確率的,決定論的両方の予測において,我々のアプローチが技術の現状より優れていることが示された。
私たちのコードと事前訓練されたモデルはhttps://github.com/Sirui-Xu/STARS.comで公開されています。 Predicting diverse human motions given a sequence of historical poses has received increasing attention. Despite rapid progress, existing work captures the multi-modal nature of human motions primarily through likelihood-based sampling, where the mode collapse has been widely observed. In this paper, we propose a simple yet effective approach that disentangles randomly sampled codes with a deterministic learnable component named anchors to promote sample precision and diversity. Anchors are further factorized into spatial anchors and temporal anchors, which provide attractively interpretable control over spatial-temporal disparity. In principle, our spatial-temporal anchor-based sampling (STARS) can be applied to different motion predictors. Here we propose an interaction-enhanced spatial-temporal graph convolutional network (IE-STGCN) that encodes prior knowledge of human motions (e.g., spatial locality), and incorporate the anchors into it. Extensive experiments demonstrate that our approach outperforms state of the art in both stochastic and deterministic prediction, suggesting it as a unified framework for modeling human motions. Our code and pretrained models are available at https://github.com/Sirui-Xu/STARS. | 翻訳日:2023-02-10 14:30:32 公開日:2023-02-09 |
# マルチ組織セグメンテーション : 希少アノテーションによる学習パラダイムの進歩的探索 Multi-organ segmentation: a progressive exploration of learning paradigms under scarce annotation ( http://arxiv.org/abs/2302.03296v2 ) ライセンス: Link先を確認 | Shiman Li, Haoran Wang, Yucong Meng, Chenxi Zhang, Zhijian Song | (参考訳) 医療画像からの人体の複数の臓器や異常領域の正確な脱線は、コンピュータ支援診断、手術シミュレーション、画像誘導介入、特に放射線治療計画において重要な役割を果たす。
このように、深層学習に基づくアプローチが急速に発展し、マルチ組織セグメンテーションにおける顕著な進歩を目の当たりにした、自動セグメンテーションアプローチを検討することは極めて重要である。
しかし、複数の臓器の適切な大きさの微粒化アノテートデータセットを得ることは非常に困難で高価である。
このような希少なアノテーションは、高性能なマルチ組織セグメンテーションモデルの開発を制限するが、多くのアノテーション効率の学習パラダイムを促進する。
その中には、外部データセットを活用したトランスファーラーニング、無注釈データセットを用いた半教師付き学習、部分ラベル付きデータセットの統合などが含まれる。
まず, 従来の完全教師付き手法を概観し, 技術的, 方法論的両面から多組織セグメンテーションの文脈において, 上記の3つの学習パラダイムを包括的かつ体系的に検討し, 課題と今後の傾向をまとめる。 Precise delineation of multiple organs or abnormal regions in the human body from medical images plays an essential role in computer-aided diagnosis, surgical simulation, image-guided interventions, and especially in radiotherapy treatment planning. Thus, it is of great significance to explore automatic segmentation approaches, among which deep learning-based approaches have evolved rapidly and witnessed remarkable progress in multi-organ segmentation. However, obtaining an appropriately sized and fine-grained annotated dataset of multiple organs is extremely hard and expensive. Such scarce annotation limits the development of high-performance multi-organ segmentation models but promotes many annotation-efficient learning paradigms. Among these, studies on transfer learning leveraging external datasets, semi-supervised learning using unannotated datasets and partially-supervised learning integrating partially-labeled datasets have led the dominant way to break such dilemma in multi-organ segmentation. We first review the traditional fully supervised method, then present a comprehensive and systematic elaboration of the 3 abovementioned learning paradigms in the context of multi-organ segmentation from both technical and methodological perspectives, and finally summarize their challenges and future trends. | 翻訳日:2023-02-10 12:12:55 公開日:2023-02-09 |
# 指導指導におけるエキスパート言語モデルの訓練効果を探る Exploring the Benefits of Training Expert Language Models over Instruction Tuning ( http://arxiv.org/abs/2302.03202v2 ) ライセンス: Link先を確認 | Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo | (参考訳) 近年,言語モデル (LM) は,マルチタスク型ファインチューニング (MT) としても知られる複数のタスクに適応し,未知のタスクに一般化する能力を示している。
これまでの研究によると、トレーニングタスクの数を拡大することが、より強力なMT LMを作る上で重要な要素であった。
本研究では,1つのタスクのみに微調整された専門家LMが,11の異なる未知のデータセットで300以上のタスクを訓練したMT LMと,平均精度3.20%と1.29%でBIG-benchベンチマークの13のデータセットをそれぞれ上回り得ることを発見した。
この発見は、単にタスクの数を拡大するだけでMT LMがより強くなるという、これまで信じられていた信念に疑問を投げかけている。
さらに, ゼロショット推論のための単一のMT LMではなく, 個別の訓練タスクごとに個別の専門家LMを訓練する分散手法は, 1) 指導指導中に頻繁に発生する負のタスク伝達を回避すること, (2) 破滅的な忘れを抑えるために, (3) 個々の専門家をまとめて構成能力を示すことなく, 新たなタスクを継続的に学習できること, など多くの利点があることを示した。
コードはhttps://github.com/joeljang/elmで入手できる。 Recently, Language Models (LMs) instruction-tuned on multiple tasks, also known as multitask-prompted fine-tuning (MT), have shown the capability to generalize to unseen tasks. Previous work has shown that scaling the number of training tasks is the key component in making stronger MT LMs. In this work, we report an unexpected finding that an expert LM fine-tuned on just a single task can outperform an MT LM trained with 300+ different tasks on 11 different unseen datasets and on 13 datasets of the BIG-bench benchmark by a mean accuracy of 3.20% and 1.29%, respectively. This finding casts doubt on the previously held belief that simply scaling the number of tasks makes stronger MT LMs. Leveraging this finding, we further show that this distributed approach of training a separate expert LM per training task instead of a single MT LM for zero-shot inference possesses many benefits including (1) avoiding negative task transfer that often occurs during instruction tuning, (2) being able to continually learn new tasks without having to re-train on previous tasks to avoid catastrophic forgetting, and (3) showing compositional capabilities when merging individual experts together. The code is available at https://github.com/joeljang/ELM. | 翻訳日:2023-02-10 12:12:19 公開日:2023-02-09 |
# spatial functa: imagenet分類と生成へのfunctaのスケーリング Spatial Functa: Scaling Functa to ImageNet Classification and Generation ( http://arxiv.org/abs/2302.03130v2 ) ライセンス: Link先を確認 | Matthias Bauer, Emilien Dupont, Andy Brock, Dan Rosenbaum, Jonathan Richard Schwarz, Hyunjik Kim | (参考訳) 暗黙的な神経表現としても知られる神経場は、様々な様相の複雑な信号を表現する強力な手段として出現した。
この dupont et al. (2022) に基づいて、ニューラルネットワークをデータとして見るフレームワーク *functa* を導入し、このニューラルネットワークのデータセットでディープラーニングを直接行うことを提案している。
本研究では,CIFAR-10のような中程度に複雑なデータセットにスケールアップする場合,提案するフレームワークが限界に直面することを示す。
次に、空間配置されたニューラルネットワークの潜在表現を用いて、これらの制限を克服し、256×256の解像度でImageNet-1kへのアプローチをスケールアップする*spatial functa*を提案する。
画像生成における視覚変換器(Steiner et al., 2022)とラテント拡散器(Rombach et al., 2022)との競合性能を示す。 Neural fields, also known as implicit neural representations, have emerged as a powerful means to represent complex signals of various modalities. Based on this Dupont et al. (2022) introduce a framework that views neural fields as data, termed *functa*, and proposes to do deep learning directly on this dataset of neural fields. In this work, we show that the proposed framework faces limitations when scaling up to even moderately complex datasets such as CIFAR-10. We then propose *spatial functa*, which overcome these limitations by using spatially arranged latent representations of neural fields, thereby allowing us to scale up the approach to ImageNet-1k at 256x256 resolution. We demonstrate competitive performance to Vision Transformers (Steiner et al., 2022) on classification and Latent Diffusion (Rombach et al., 2022) on image generation respectively. | 翻訳日:2023-02-10 12:11:47 公開日:2023-02-09 |
# OTRE: 最適なトランスポートガイドによる画像から画像への翻訳が正規化を促進 OTRE: Where Optimal Transport Guided Unpaired Image-to-Image Translation Meets Regularization by Enhancing ( http://arxiv.org/abs/2302.03003v3 ) ライセンス: Link先を確認 | Wenhui Zhu, Peijie Qiu, Oana M. Dumitrascu, Jacob M. Sobczak, Mohammad Farazi, Zhangsihao Yang, Keshav Nandakumar, Yalin Wang | (参考訳) 瞳孔拡張を必要とせず,術者,全身的不完全性,患者関連疾患などにより品質が低下する可能性があるため,非扁桃体網膜色眼底撮影(cfp)が広く利用可能である。
正確な診断と自動解析のために最適な網膜画像品質が義務付けられている。
そこで我々は,低品質の網膜CFPを高品質にマッピングするための画像と画像の非ペア変換方式を提案するために,OT(Optimal Transport)理論を利用した。
さらに, 臨床における画像強調パイプラインの柔軟性, ロバスト性, 適用性を向上させるため, ot誘導画像対画像翻訳ネットワークで学習した先行処理をプラグインすることで, 最先端のモデルベース画像再構成法を一般化した。
我々はそれを拡張(RE)により正規化した。
糖尿病性網膜症格付け,血管分画,糖尿病性病変分画などのダウンストリームタスクにおける改善後の品質と性能を評価することで,3つの網膜画像データセットで統合フレームワークotreを検証した。
実験の結果,提案手法は,最先端の競争相手や最先端の監視手法よりも優れていることが示された。 Non-mydriatic retinal color fundus photography (CFP) is widely available due to the advantage of not requiring pupillary dilation, however, is prone to poor quality due to operators, systemic imperfections, or patient-related causes. Optimal retinal image quality is mandated for accurate medical diagnoses and automated analyses. Herein, we leveraged the Optimal Transport (OT) theory to propose an unpaired image-to-image translation scheme for mapping low-quality retinal CFPs to high-quality counterparts. Furthermore, to improve the flexibility, robustness, and applicability of our image enhancement pipeline in the clinical practice, we generalized a state-of-the-art model-based image reconstruction method, regularization by denoising, by plugging in priors learned by our OT-guided image-to-image translation network. We named it as regularization by enhancing (RE). We validated the integrated framework, OTRE, on three publicly available retinal image datasets by assessing the quality after enhancement and their performance on various downstream tasks, including diabetic retinopathy grading, vessel segmentation, and diabetic lesion segmentation. The experimental results demonstrated the superiority of our proposed framework over some state-of-the-art unsupervised competitors and a state-of-the-art supervised method. | 翻訳日:2023-02-10 12:11:32 公開日:2023-02-09 |
# MixFormer: 反復的混合注意によるエンドツーエンドトラッキング MixFormer: End-to-End Tracking with Iterative Mixed Attention ( http://arxiv.org/abs/2302.02814v2 ) ライセンス: Link先を確認 | Yutao Cui, Cheng Jiang, Gangshan Wu and Limin Wang | (参考訳) ビジュアルオブジェクト追跡では、機能抽出、ターゲット情報統合、バウンディングボックス推定の多段階パイプラインが使用されることが多い。
本稿では,このパイプラインを簡素化し,特徴抽出とターゲット情報統合のプロセスを統合するために,トランスフォーマー上に構築されたMixFormerと呼ばれる,コンパクトな追跡フレームワークを提案する。
我々の中核となる設計は、注意操作の柔軟性を活用し、特徴抽出と目標情報の統合を同時に行うための混合注意モジュール(MAM)を提案することである。
この同期モデリング手法により、ターゲット固有の識別特徴を抽出し、ターゲットと検索領域間の広範な通信を行うことができる。
MAMに基づいて、MixFormerトラッカーを構築するには、複数のMAMを積み重ねて、その上にローカライズヘッドを置くだけです。
具体的には、階層型トラッカーmixcvtと非階層型トラッカーmixvitの2つのタイプのmixformerトラッカーをインスタンス化する。
これら2つのトラッカーについて,MixFormerトラッカーにおける教師付き事前学習と自己指導型事前学習の相違点を明らかにする。
また、マスク付き事前トレーニングをMixFormerトラッカーに拡張し、競合するTrackMAE事前トレーニング技術を設計する。
最後に、オンライントラッキング中に複数のターゲットテンプレートを処理するために、計算コストを削減するためにMAMに非対称なアテンションスキームを考案し、高品質テンプレートを選択するための効果的なスコア予測モジュールを提案する。
私たちのMixFormerトラッカーは,LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100, UAV123を含む7つのトラッキングベンチマークに対して,最先端のパフォーマンスを新たに設定しました。
特に、MixViT-Lは、LaSOTで73.3%、追跡Netで86.1%、VOT2020で0.584、GOT-10kで75.7%のAUCスコアを達成した。
コードとトレーニングされたモデルはhttps://github.com/mcg-nju/mixformerで公開されている。 Visual object tracking often employs a multi-stage pipeline of feature extraction, target information integration, and bounding box estimation. To simplify this pipeline and unify the process of feature extraction and target information integration, in this paper, we present a compact tracking framework, termed as MixFormer, built upon transformers. Our core design is to utilize the flexibility of attention operations, and propose a Mixed Attention Module (MAM) for simultaneous feature extraction and target information integration. This synchronous modeling scheme allows to extract target-specific discriminative features and perform extensive communication between target and search area. Based on MAM, we build our MixFormer trackers simply by stacking multiple MAMs and placing a localization head on top. Specifically, we instantiate two types of MixFormer trackers, a hierarchical tracker MixCvT, and a non-hierarchical tracker MixViT. For these two trackers, we investigate a series of pre-training methods and uncover the different behaviors between supervised pre-training and self-supervised pre-training in our MixFormer trackers. We also extend the masked pre-training to our MixFormer trackers and design the competitive TrackMAE pre-training technique. Finally, to handle multiple target templates during online tracking, we devise an asymmetric attention scheme in MAM to reduce computational cost, and propose an effective score prediction module to select high-quality templates. Our MixFormer trackers set a new state-of-the-art performance on seven tracking benchmarks, including LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 and UAV123. In particular, our MixViT-L achieves AUC score of 73.3% on LaSOT, 86.1% on TrackingNet, EAO of 0.584 on VOT2020, and AO of 75.7% on GOT-10k. Code and trained models are publicly available at https://github.com/MCG-NJU/MixFormer. | 翻訳日:2023-02-10 12:11:08 公開日:2023-02-09 |
# ベイズニューラルネットワークを探索するフラット Flat Seeking Bayesian Neural Networks ( http://arxiv.org/abs/2302.02713v2 ) ライセンス: Link先を確認 | Van-Anh Nguyen, Tung-Long Vuong, Hoang Phan, Thanh-Toan Do, Dinh Phung, Trung Le | (参考訳) ベイズニューラルネットワーク(bnns)は、モデルパラメータに事前分布を付与し、観測データに基づいて後続分布を参照することにより、ディープラーニングモデルの確率論的解釈を提供する。
後方分布からサンプリングされたモデルは、アンサンブル予測と予測の不確かさの定量化に使用できる。
シャープさの低いディープラーニングモデルは、より優れた一般化能力を持つことはよく知られている。
それでも、既存の後部推論はシャープネスとフラットネスを意識していないため、サンプルモデルに対して高いシャープネスをもたらす可能性がある。
本稿では,ベイズ設定の理論と,シャープネスを意識した後部における変分推論手法を開発する。
特に, このシャープネス認識後部と最適近似後部から採取したモデルの方が, より平坦であり, 高い一般化能力を有する可能性が示唆された。
我々は、最先端のベイズニューラルネットワークとシャープネス認識後部を併用して実験を行い、平らな探索相手が関心のあるすべての指標においてベースラインを上回っていることを示す。 Bayesian Neural Networks (BNNs) offer a probabilistic interpretation for deep learning models by imposing a prior distribution over model parameters and inferencing a posterior distribution based on observed data. The model sampled from the posterior distribution can be used for providing ensemble predictions and quantifying prediction uncertainty. It is well-known that deep learning models with a lower sharpness have a better generalization ability. Nonetheless, existing posterior inferences are not aware of sharpness/flatness, hence possibly leading to high sharpness for the models sampled from it. In this paper, we develop theories, the Bayesian setting, and the variational inference approach for the sharpness-aware posterior. Specifically, the models sampled from our sharpness-aware posterior and the optimal approximate posterior estimating this sharpness-aware posterior have a better flatness, hence possibly possessing a higher generalization ability. We conduct experiments by leveraging the sharpness-aware posterior with the state-of-the-art Bayesian Neural Networks, showing that the flat-seeking counterparts outperform their baselines in all metrics of interest. | 翻訳日:2023-02-10 12:10:32 公開日:2023-02-09 |
# パーキンソン病治療のための閉ループ深部脳刺激制御器のオフライン学習 Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease Treatment ( http://arxiv.org/abs/2302.02477v2 ) ライセンス: Link先を確認 | Qitong Gao, Stephen L. Schimdt, Afsana Chowdhury, Guangyu Feng, Jennifer J. Peters, Katherine Genty, Warren M. Grill, Dennis A. Turner, Miroslav Pajic | (参考訳) 深部脳刺激(DBS)は、パーキンソン病(PD)による運動障害の治療において、脳の基底ガングリア(BG)領域に電気的パルスを伝達することで大きな期待を示している。
しかし、米国食品医薬品局(fda)が承認したdbsデバイスは、連続的なdbs(cdbs)刺激を一定の振幅でのみ供給することができ、このエネルギーの非効率な操作はデバイスのバッテリ寿命を減少させ、活動に動的に対応できず、重大な副作用(例えば歩行障害)を引き起こす可能性がある。
本研究では,従来の臨床データを用いてリアルタイムにRLポリシーをトレーニングし,エネルギー使用量を削減し,cDBSと同じレベルの治療効果(すなわちコントロール)を維持しながら,刺激振幅をリアルタイムで調整するオフライン強化学習(RL)フレームワークを提案する。
さらに、臨床プロトコルでは、患者のデプロイ前に、そのようなRLコントローラの安全性と性能を実証する必要がある。
また,患者に展開する前に,過去のデータを用いてRLポリシーの性能を推定するオフラインポリシー評価(OPE)手法も導入する。
本研究は,rc+s dbsシステムを搭載した4名のpd患者を対象に, 月々臨床訪問時にrlコントローラを用い, 症状の重症度(ブラジキネジア, 震え), pdバイオメーカの変化(局所的フィールド電位), 患者格付けによる総合的コントロールの有効性を評価した。
臨床実験の結果,RLをベースとした制御器は,cDBSと同等の制御能を有するが,刺激エネルギーは著しく低下することがわかった。
さらに、rlコントローラの期待値を正確に推定し、ランク付けするのに、ope法が有効であることを示す。 Deep brain stimulation (DBS) has shown great promise toward treating motor symptoms caused by Parkinson's disease (PD), by delivering electrical pulses to the Basal Ganglia (BG) region of the brain. However, DBS devices approved by the U.S. Food and Drug Administration (FDA) can only deliver continuous DBS (cDBS) stimuli at a fixed amplitude; this energy inefficient operation reduces battery lifetime of the device, cannot adapt treatment dynamically for activity, and may cause significant side-effects (e.g., gait impairment). In this work, we introduce an offline reinforcement learning (RL) framework, allowing the use of past clinical data to train an RL policy to adjust the stimulation amplitude in real time, with the goal of reducing energy use while maintaining the same level of treatment (i.e., control) efficacy as cDBS. Moreover, clinical protocols require the safety and performance of such RL controllers to be demonstrated ahead of deployments in patients. Thus, we also introduce an offline policy evaluation (OPE) method to estimate the performance of RL policies using historical data, before deploying them on patients. We evaluated our framework on four PD patients equipped with the RC+S DBS system, employing the RL controllers during monthly clinical visits, with the overall control efficacy evaluated by severity of symptoms (i.e., bradykinesia and tremor), changes in PD biomakers (i.e., local field potentials), and patient ratings. The results from clinical experiments show that our RL-based controller maintains the same level of control efficacy as cDBS, but with significantly reduced stimulation energy. Further, the OPE method is shown effective in accurately estimating and ranking the expected returns of RL controllers. | 翻訳日:2023-02-10 12:10:13 公開日:2023-02-09 |
# ChatGPTとその他の大規模生成AIモデルの制御 Regulating ChatGPT and other Large Generative AI Models ( http://arxiv.org/abs/2302.02337v3 ) ライセンス: Link先を確認 | Philipp Hacker, Andreas Engel, Marco Mauer | (参考訳) ChatGPTやStable Diffusionのような大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーション、図示、作成の方法に急速に変化しています。
しかし、EUなどでは、AI規制は主にLGAIMではなく、従来のAIモデルに焦点を当てている。
本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討し、その能力にどのように適合するかを問う。
技術基盤を整備した後は、(1)直接規制、(2)データ保護、(3)コンテンツモデレーション、(4)政策提案の4段階に進む。
これは、LGAIMの開発者、デプロイ者、プロフェッショナルおよび非プロフェッショナルのユーザ、およびLGAIMのアウトプットを区別することで、LGAIM設定でAIバリューチェーンをキャプチャする新しい用語を提案する。
我々は、これらの異なるアクターに対する規制業務をバリューチェーンに沿って調整し、LGAIMが社会全体の利益のために信頼でき、デプロイされることを保証するための4つの戦略を提案する。
ai法やその他の直接規制の規則は、事前訓練されたモデルの特異性に合致しなければならない。
特に、規制は事前訓練されたモデル自身ではなく、具体的なハイリスクなアプリケーションに焦点を当てるべきであり、含めるべきである。
一 透明性に関する義務及び義務
(ii)リスク管理。
非差別規定
しかし、(iii)LGAIM開発者には適用できる。
最後に
(4) DSA コンテンツモデレーションルールの中核は LGAIM をカバーするように拡張されるべきである。
これには通知とアクションのメカニズム、信頼できるフラグガーが含まれる。
あらゆる分野において、規制当局や議員はチャットgptなどのダイナミクスを追跡するために迅速に行動する必要がある。 Large generative AI models (LGAIMs), such as ChatGPT or Stable Diffusion, are rapidly transforming the way we communicate, illustrate, and create. However, AI regulation, in the EU and beyond, has primarily focused on conventional AI models, not LGAIMs. This paper will situate these new generative models in the current debate on trustworthy AI regulation, and ask how the law can be tailored to their capabilities. After laying technical foundations, the legal part of the paper proceeds in four steps, covering (1) direct regulation, (2) data protection, (3) content moderation, and (4) policy proposals. It suggests a novel terminology to capture the AI value chain in LGAIM settings by differentiating between LGAIM developers, deployers, professional and non-professional users, as well as recipients of LGAIM output. We tailor regulatory duties to these different actors along the value chain and suggest four strategies to ensure that LGAIMs are trustworthy and deployed for the benefit of society at large. Rules in the AI Act and other direct regulation must match the specificities of pre-trained models. In particular, regulation should focus on concrete high-risk applications, and not the pre-trained model itself, and should include (i) obligations regarding transparency and (ii) risk management. Non-discrimination provisions (iii) may, however, apply to LGAIM developers. Lastly, (iv) the core of the DSA content moderation rules should be expanded to cover LGAIMs. This includes notice and action mechanisms, and trusted flaggers. In all areas, regulators and lawmakers need to act fast to keep track with the dynamics of ChatGPT et al. | 翻訳日:2023-02-10 12:09:37 公開日:2023-02-09 |
# クライアントの不均質性を考慮したフェデレーションミニマックス最適化 Federated Minimax Optimization with Client Heterogeneity ( http://arxiv.org/abs/2302.04249v2 ) ライセンス: Link先を確認 | Pranay Sharma, Rohan Panda, Gauri Joshi | (参考訳) ミニマックス最適化はgansのようなモダンなアプリケーションの出現によって関心が高まり、本質的には単純な最小化よりも困難である。
これらのクライアントがヘテロジニアスなデータセットとローカルな計算能力を持つことができる場合、複数のエッジデバイスに存在するトレーニングデータや \textit{clients} によって困難は悪化する。
そこで我々は,そのような設定とローカルSGDAなどの既存手法を仮定した,汎用的な最小限最適化フレームワークを提案する。
異種局所進行の自然な凝集は, 従来標準フェデレーションの最小化で見られた, 一致した目的関数を最適化する。
この問題を解決するため,連続する通信ラウンド間のローカルステップ数によるクライアント更新の正規化を提案する。
非凸凹関数と非凸凹関数のクラスに対する提案アルゴリズムの収束を解析し、不均一なクライアントデータ、部分的クライアント参加および不均一なローカル計算の影響を特徴づける。
本分析は,これまで文献で考えられてきたよりも,クライアント内ノイズとクライアント間不均一性について,より一般的な仮定のもとに行われる。
検討したすべての関数クラスに対して、既存の計算と通信の複雑さを著しく改善する。
実験結果は理論的な主張を支持する。 Minimax optimization has seen a surge in interest with the advent of modern applications such as GANs, and it is inherently more challenging than simple minimization. The difficulty is exacerbated by the training data residing at multiple edge devices or \textit{clients}, especially when these clients can have heterogeneous datasets and local computation capabilities. We propose a general federated minimax optimization framework that subsumes such settings and several existing methods like Local SGDA. We show that naive aggregation of heterogeneous local progress results in optimizing a mismatched objective function -- a phenomenon previously observed in standard federated minimization. To fix this problem, we propose normalizing the client updates by the number of local steps undertaken between successive communication rounds. We analyze the convergence of the proposed algorithm for classes of nonconvex-concave and nonconvex-nonconcave functions and characterize the impact of heterogeneous client data, partial client participation, and heterogeneous local computations. Our analysis works under more general assumptions on the intra-client noise and inter-client heterogeneity than so far considered in the literature. For all the function classes considered, we significantly improve the existing computation and communication complexity results. Experimental results support our theoretical claims. | 翻訳日:2023-02-10 12:03:13 公開日:2023-02-09 |
# 入射ニューラル表現を用いたハイパースペクトル画像圧縮 Hyperspectral Image Compression Using Implicit Neural Representation ( http://arxiv.org/abs/2302.04129v2 ) ライセンス: Link先を確認 | Shima Rezasoltani, Faisal Z. Qureshi | (参考訳) ハイパースペクトル画像は、シーンの画像中のピクセルの電磁スペクトルを記録し、しばしば1ピクセルあたり数百のチャネルを格納し、典型的な同様の大きさのカラー画像よりも桁違いに多くの情報を含む。
その結果、これらの画像の撮影コストの低減と相まって、ハイパースペクトル画像の保存、送信、解析のための効率的な技術を開発する必要がある。
本稿では,多層型パーセプトロンネットワークである$\phi_\theta$ と正弦波活性化関数 ``learns'' を用いて,与えられた超スペクトル画像 $i$ の画素位置をピクセル強度にマッピングする,暗黙的ニューラルネットワークを用いたハイパースペクトル画像圧縮法を開発した。
したがって$\phi_\theta$は、この画像の圧縮符号化として機能する。
元の画像は、各ピクセル位置で$\Phi_\theta$を評価することで再構成される。
本手法はインドマツ, カップライト, パヴィア大学, ジャスパーリッジの4つのベンチマークで評価し, 低ビットレートでjpeg, jpeg2000, pca-dctよりも優れた圧縮を実現することを示す。 Hyperspectral images, which record the electromagnetic spectrum for a pixel in the image of a scene, often store hundreds of channels per pixel and contain an order of magnitude more information than a typical similarly-sized color image. Consequently, concomitant with the decreasing cost of capturing these images, there is a need to develop efficient techniques for storing, transmitting, and analyzing hyperspectral images. This paper develops a method for hyperspectral image compression using implicit neural representations where a multilayer perceptron network $\Phi_\theta$ with sinusoidal activation functions ``learns'' to map pixel locations to pixel intensities for a given hyperspectral image $I$. $\Phi_\theta$ thus acts as a compressed encoding of this image. The original image is reconstructed by evaluating $\Phi_\theta$ at each pixel location. We have evaluated our method on four benchmarks -- Indian Pines, Cuprite, Pavia University, and Jasper Ridge -- and we show the proposed method achieves better compression than JPEG, JPEG2000, and PCA-DCT at low bitrates. | 翻訳日:2023-02-10 12:02:51 公開日:2023-02-09 |
# WF-UNet: 降雨予報のための気象融合UNet WF-UNet: Weather Fusion UNet for Precipitation Nowcasting ( http://arxiv.org/abs/2302.04102v2 ) ライセンス: Link先を確認 | Christos Kaparakis, Siamak Mehrkanoon | (参考訳) 厳しい天候や都市洪水や地すべりなどの影響に対する早期警戒システムの設計には、降水の正確な短期予測(現在の予測)が必要である。
nowcastingは、農業管理や飛行安全の向上など、いくつかの環境応用において重要なタスクである。
本研究では,UNetコアモデルの利用状況と西ヨーロッパでの降水量の増加について,最大3時間前に検討した。
特に,コア3D-UNetモデルを用いて,降水および風速変数を学習プロセスの入力として統合し,降水目標タスクに与える影響を解析する天気融合UNet(WF-UNet)モデルを提案する。
欧州14カ国の2016年1月から2021年12月までの6年間の降水と風のレーダー画像を収集し,ERA5データセットに基づいた時間分解能と31平方kmの空間分解能を欧州連合の地球観測プログラムであるCopernicusによって提供した。
提案したWF-UNetモデルと,降雨レーダ入力データのみを用いてトレーニングされた他のUNetアーキテクチャとの比較を行った。
その結果,WF-UNetは22%,8%,6%低いMSEをそれぞれ1,2,3時間で比較した。 Designing early warning systems for harsh weather and its effects, such as urban flooding or landslides, requires accurate short-term forecasts (nowcasts) of precipitation. Nowcasting is a significant task with several environmental applications, such as agricultural management or increasing flight safety. In this study, we investigate the use of a UNet core-model and its extension for precipitation nowcasting in western Europe for up to 3 hours ahead. In particular, we propose the Weather Fusion UNet (WF-UNet) model, which utilizes the Core 3D-UNet model and integrates precipitation and wind speed variables as input in the learning process and analyze its influences on the precipitation target task. We have collected six years of precipitation and wind radar images from Jan 2016 to Dec 2021 of 14 European countries, with 1-hour temporal resolution and 31 square km spatial resolution based on the ERA5 dataset, provided by Copernicus, the European Union's Earth observation programme. We compare the proposed WF-UNet model to persistence model as well as other UNet based architectures that are trained only using precipitation radar input data. The obtained results show that WF-UNet outperforms the other examined best-performing architectures by 22%, 8% and 6% lower MSE at a horizon of 1, 2 and 3 hours respectively. | 翻訳日:2023-02-10 12:02:32 公開日:2023-02-09 |
# Zero-ShotからFew-Shot Learningへ:埋め込み型生成モデルのステップ From Zero-Shot to Few-Shot Learning: A Step of Embedding-Aware Generative Models ( http://arxiv.org/abs/2302.04060v2 ) ライセンス: Link先を確認 | Liangjun Feng, Jiancheng Zhao, Chunhui Zhao | (参考訳) 埋め込み認識生成モデル(EAGM)は、意味的空間と視覚的埋め込み空間の間にジェネレータを構築することにより、ゼロショット学習(ZSL)におけるデータ不足問題に対処する。
事前定義されたベンチマークとプロトコルのおかげで、ZSL用のEAGMが急速に増えている。
我々は一歩後退し、埋め込み型生成パラダイムを再考する時が来たと論じる。
本論文の目的は3倍である。
まず、ベンチマークデータセットの現在の組み込み機能が何らかの時代遅れであるという事実から、組み込み機能に対する恥ずかしいほど単純な修正によって、zslのeagmsのパフォーマンスが著しく向上します。
これは重要な貢献であり、EAGMの埋め込みがより注目に値する結果となった。
第2に,多数のEAGMを深く比較し,分析する。
5つのベンチマークデータセットに基づいて、ZSLの最先端の結果を更新し、古典的未確認の複数ショットラーニング(UFSL)や、より難易度の高い数ショットラーニング(SFSL)を含む、数ショットラーニング(FSL)の強力なベースラインを提供する。
最後に、ZSLとFSLのためのEAGMのモデル、特徴、パラメータ、設定を含む包括的な生成モデルリポジトリ、すなわち、GASL(generative any-shot learning)リポジトリが提供される。
本論文の任意の結果は,GASLに基づく1つのコマンド行だけで容易に再現できる。 Embedding-aware generative model (EAGM) addresses the data insufficiency problem for zero-shot learning (ZSL) by constructing a generator between semantic and visual embedding spaces. Thanks to the predefined benchmark and protocols, the number of proposed EAGMs for ZSL is increasing rapidly. We argue that it is time to take a step back and reconsider the embedding-aware generative paradigm. The purpose of this paper is three-fold. First, given the fact that the current embedding features in benchmark datasets are somehow out-of-date, we improve the performance of EAGMs for ZSL remarkably with embarrassedly simple modifications on the embedding features. This is an important contribution, since the results reveal that the embedding of EAGMs deserves more attention. Second, we compare and analyze a significant number of EAGMs in depth. Based on five benchmark datasets, we update the state-of-the-art results for ZSL and give a strong baseline for few-shot learning (FSL), including the classic unseen-class few-shot learning (UFSL) and the more challenging seen-class few-shot learning (SFSL). Finally, a comprehensive generative model repository, namely, generative any-shot learning (GASL) repository, is provided, which contains the models, features, parameters, and settings of EAGMs for ZSL and FSL. Any results in this paper can be readily reproduced with only one command line based on GASL. | 翻訳日:2023-02-10 12:02:09 公開日:2023-02-09 |
# 層注意によるクロスレイヤレトロスペクティブ検索 Cross-Layer Retrospective Retrieving via Layer Attention ( http://arxiv.org/abs/2302.03985v2 ) ライセンス: Link先を確認 | Yanwen Fang, Yuxi Cai, Jintai Chen, Jingyu Zhao, Guangjian Tian, Guodong Li | (参考訳) 層間相互作用の強化はディープニューラルネットワークの表現力を高め、自己注意はクエリアクティベートされた情報を取得することによって相互依存の学習に長けている、という証拠がますます増えている。
そこで我々は,マルチヘッドリカレント層アテンション (mrla) と呼ばれる層間アテンション機構を考案し,この機構により,従来のすべてのレイヤに現在のレイヤのクエリ表現を送信し,さまざまなレベルのレセプティブフィールドからクエリ関連情報を取得する。
また,2次計算コストを削減するため,MRLAの軽量バージョンも提案されている。
提案されたレイヤアテンション機構は、cnnや視覚トランスフォーマーなど、最先端のビジョンネットワークの表現力を増強することができる。
その効果は画像分類、オブジェクト検出、インスタンス分割タスクにおいて広く評価されており、改善は一貫して観察できる。
例えば、MRLAはResNet-50で1.6\%のTop-1精度を向上できます。
驚くべきことに、密度の高い予測タスクにおいて、パフォーマンスを3~4倍に向上させることができる。
私たちのコードはhttps://github.com/joyfang1106/MRLAで利用可能です。 More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6\% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4\% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA. | 翻訳日:2023-02-10 12:01:43 公開日:2023-02-09 |
# 自動学習:自然言語生成のための2つの事前学習モデルの逆処理 Auto-Learning: An Adversarial Process of Two Pre-trained Models for Natural Language Generation ( http://arxiv.org/abs/2302.03896v2 ) ライセンス: Link先を確認 | Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yuelin Lu | (参考訳) 事前訓練されたモデルは、自然言語理解からコンピュータビジョン、自然言語生成まで、近年多くの分野で使われている。
現在、これらの自然言語生成モデルの性能は、モデルのスケールとデータセットのサイズに大きく依存しています。
より大きな言語モデルはいくつかの点で優れているが、最新の知識を学ぶことはできず、再学習が比較的困難である。
本稿では,新たな逆プロセス学習手法であるAuto-Learningを用いて,追加データセットを使わずに任意の自然言語生成モデルの性能を向上させる。
自動学習には2つのモデルがある:$G$はテキスト生成モデルであり、$D$はGによって生成されたデータが合法かどうかをテストすることができる。
まず、細調整されたD$モデルは、プロセスの前に脳の知識基盤として使用される。
次に$G$モデルによって生成されたテキストを$D$の入力として使用して、テキストが正当かどうかを判断する。
最後に、$D$の出力に応じて$G$を微調整する。
この敵対的プロセスは、事前知識を通じて脳の自己エスカレーションのようなものです。
この敵対的なシステムが何か新しいことを学びたい場合、単に$D$モデルに精通するだけです。
我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。
オートラーニングにより、構造の変化なしに8つのモデルが10の自然言語処理タスクで安定した改善を達成できる。 Pre-trained models have been used in many fields in recent years, ranging from natural language understanding to computer vision and natural language generation. Nowadays, the performance of these natural language generation models is overly dependent on the model's scale and the dataset's size. While the larger language model is excellent in some respects, it cannot learn up-to-date knowledge and is relatively difficult to relearn. In this paper, a new adversarial process learning method is called Auto-Learning, which can improve the performance of any natural language generation model without the help of additional datasets. Auto-Learning includes two models: $G$ is a text generation model, and $D$ can test whether the data generated by G is legitimate. Firstly, the fine-tuned $D$ model is used as the brain's knowledge base before the process. Then the text generated by the $G$ model is used as the input of $D$ to determine whether the text is legitimate. Finally, $G$ is fine-tuned according to the output of $D$. This adversarial process is like a self-escalation of the brain through some a priori knowledge. When this adversarial system wants to learn something new, simply fine-tune the $D$ model. Our approach applies to Autoregressive Language Modeling for all Transformer classes. Auto-Learning enables 8 models to achieve stable improvement in 10 natural language processing tasks without any change in structure. | 翻訳日:2023-02-10 12:01:19 公開日:2023-02-09 |
# 非凸ミニマックス問題に対する分散リーマンアルゴリズム Decentralized Riemannian Algorithm for Nonconvex Minimax Problems ( http://arxiv.org/abs/2302.03825v2 ) ライセンス: Link先を確認 | Xidong Wu, Zhengmian Hu and Heng Huang | (参考訳) リーマン多様体上のミニマックス最適化(おそらく非凸制約)は、ロバスト次元の縮小や直交重みを持つディープニューラルネットワーク(スティフェル多様体)のような多くの問題を解決するために積極的に適用されてきた。
ユークリッド環境ではミニマックス問題の最適化アルゴリズムが数多く開発されているが、それらをリーマンケースに変換することは困難であり、非凸制約付きミニマックス問題のアルゴリズムはさらに稀である。
一方で、ビッグデータの課題に対処するために、通信オーバーヘッドを削減し、サーバノードのボトルネック問題を回避するために、分散(サーバーレス)トレーニング技術が最近登場している。
それでも分散リーマンミニマックス問題のアルゴリズムは研究されていない。
本稿では,スタイフェル多様体上の分散非凸強凸ミニマックス最適化問題を研究し,決定論的および確率的ミニマックス法を提案する。
局所モデルは非凸強凸であり、ステイフェル多様体は非凸集合である。
大域関数は局所関数の有限和として表現される。
決定論的設定のために、DRGDAを提案し、決定論的手法が穏やかな条件下で$O( \epsilon^{-2})$の勾配複雑性を達成することを証明した。
確率的設定に対しては、DSSGDAを提案し、我々の確率的手法が$O(\epsilon^{-4})$の勾配複雑性を達成することを証明する。
DRGDAとDRSGDAは、厳密な収束を伴う非凸制約を持つ分散ミニマックス最適化のための最初のアルゴリズムである。
stiefel多様体上のディープニューラルネットワーク(dnns)トレーニングに関する広範な実験結果から,アルゴリズムの効率性が証明された。 The minimax optimization over Riemannian manifolds (possibly nonconvex constraints) has been actively applied to solve many problems, such as robust dimensionality reduction and deep neural networks with orthogonal weights (Stiefel manifold). Although many optimization algorithms for minimax problems have been developed in the Euclidean setting, it is difficult to convert them into Riemannian cases, and algorithms for nonconvex minimax problems with nonconvex constraints are even rare. On the other hand, to address the big data challenges, decentralized (serverless) training techniques have recently been emerging since they can reduce communications overhead and avoid the bottleneck problem on the server node. Nonetheless, the algorithm for decentralized Riemannian minimax problems has not been studied. In this paper, we study the distributed nonconvex-strongly-concave minimax optimization problem over the Stiefel manifold and propose both deterministic and stochastic minimax methods. The local model is non-convex strong-concave and the Steifel manifold is a non-convex set. The global function is represented as the finite sum of local functions. For the deterministic setting, we propose DRGDA and prove that our deterministic method achieves a gradient complexity of $O( \epsilon^{-2})$ under mild conditions. For the stochastic setting, we propose DRSGDA and prove that our stochastic method achieves a gradient complexity of $O(\epsilon^{-4})$. The DRGDA and DRSGDA are the first algorithms for distributed minimax optimization with nonconvex constraints with exact convergence. Extensive experimental results on the Deep Neural Networks (DNNs) training over the Stiefel manifold demonstrate the efficiency of our algorithms. | 翻訳日:2023-02-10 12:00:58 公開日:2023-02-09 |
# ソースプライバシによるドメインシフトのためのプロトタイプ指向クラスタリング A Prototype-Oriented Clustering for Domain Shift with Source Privacy ( http://arxiv.org/abs/2302.03807v2 ) ライセンス: Link先を確認 | Korawat Tanwisuth, Shujian Zhang, Pengcheng He, Mingyuan Zhou | (参考訳) ドメインシフト(UCDS)下での教師なしクラスタリングは、複数のソースドメインから豊富なラベルなしデータから知識を転送し、ターゲットドメイン内のラベルなしデータの表現を学ぶ方法を研究する。
本稿では,既存のUCDS法の性能と適用性の向上だけでなく,ソースドメインのデータとモデルの両方のプライバシ保護に関する懸念にも対処するため,PCD(Prototype-oriented Clustering with Distillation)を導入する。
PCDはまず、プロトタイプとデータの分布を整列することで、ソースクラスタリングモデルを構築する。
そして、ターゲットデータをクラスタリングしながら、ソースモデルが提供するクラスタラベルを通じて、知識をターゲットモデルに蒸留する。
最後に、ソースモデルからのガイダンスなしに、ターゲットドメインデータのターゲットモデルを洗練します。
複数のベンチマークで実験した結果,ソースプライットクラスタリング手法の有効性と一般化性が確認された。 Unsupervised clustering under domain shift (UCDS) studies how to transfer the knowledge from abundant unlabeled data from multiple source domains to learn the representation of the unlabeled data in a target domain. In this paper, we introduce Prototype-oriented Clustering with Distillation (PCD) to not only improve the performance and applicability of existing methods for UCDS, but also address the concerns on protecting the privacy of both the data and model of the source domains. PCD first constructs a source clustering model by aligning the distributions of prototypes and data. It then distills the knowledge to the target model through cluster labels provided by the source model while simultaneously clustering the target data. Finally, it refines the target model on the target domain data without guidance from the source model. Experiments across multiple benchmarks show the effectiveness and generalizability of our source-private clustering method. | 翻訳日:2023-02-10 12:00:31 公開日:2023-02-09 |
# MMA-RNN:心房細動の識別と局在のためのマルチレベルマルチタスク注意に基づくリカレントニューラルネットワーク MMA-RNN: A Multi-level Multi-task Attention-based Recurrent Neural Network for Discrimination and Localization of Atrial Fibrillation ( http://arxiv.org/abs/2302.03731v2 ) ライセンス: Link先を確認 | Yifan Sun, Jingyan Shen, Yunfan Jiang, Zhaohui Huang, Minsheng Hao, Xuegong Zhang | (参考訳) 心電図(ECG)信号による心房細動の自動検出は臨床的にも実用的にも広く注目されている。
ノイズや歪みにより、循環パターン、長さの変化、不安定な品質でECG信号を処理することは困難である。
さらに、発作性心房細動から持続性心房細動を分離する研究は不十分であり、AFエピソードの開始点と終了点の特定についてはほとんど議論されていない。
ステージバイステージのアプローチに固有の誤りを避けながら、これら2つの異なるが相互に関連するタスクをうまく実行するのはさらに難しい。
本稿では,多段階マルチタスク・アテンションに基づくリカレントニューラルネットワークを提案する。
本モデルでは,双方向長短記憶ネットワーク(Bi-LSTM)とアテンション層を用いた階層構造に基づく3段階の逐次的特徴を抽出し,マルチヘッド分類器を同時に実現している。
このモデルは、情報インタラクションを強化し、エラーの蓄積を減らすためのエンドツーエンドフレームワークとして設計されている。
最後に、CPSC 2021データセットを用いて実験を行い、本手法の優れた性能を示し、MMA-RNNのウェアラブルモバイルデバイスへの応用の可能性を示し、定期的なAFモニタリングと早期診断を行う。 The automatic detection of atrial fibrillation based on electrocardiograph (ECG) signals has received wide attention both clinically and practically. It is challenging to process ECG signals with cyclical pattern, varying length and unstable quality due to noise and distortion. Besides, there has been insufficient research on separating persistent atrial fibrillation from paroxysmal atrial fibrillation, and little discussion on locating the onsets and end points of AF episodes. It is even more arduous to perform well on these two distinct but interrelated tasks, while avoiding the mistakes inherent from stage-by-stage approaches. This paper proposes the Multi-level Multi-task Attention-based Recurrent Neural Network for three-class discrimination on patients and localization of the exact timing of AF episodes. Our model captures three-level sequential features based on a hierarchical architecture utilizing Bidirectional Long and Short-Term Memory Network (Bi-LSTM) and attention layers, and accomplishes the two tasks simultaneously with a multi-head classifier. The model is designed as an end-to-end framework to enhance information interaction and reduce error accumulation. Finally, we conduct experiments on CPSC 2021 dataset and the result demonstrates the superior performance of our method, indicating the potential application of MMA-RNN to wearable mobile devices for routine AF monitoring and early diagnosis. | 翻訳日:2023-02-10 12:00:19 公開日:2023-02-09 |
# OSRT:歪み認識変換器を用いた全方位画像超解像 OSRT: Omnidirectional Image Super-Resolution with Distortion-aware Transformer ( http://arxiv.org/abs/2302.03453v2 ) ライセンス: Link先を確認 | Fanghua Yu, Xintao Wang, Mingdeng Cao, Gen Li, Ying Shan, Chao Dong | (参考訳) ODI(Omnidirectional Image)は没入感のある体験に多くの研究関心を集めている。
ODIはシーン全体の詳細を捉えるのに非常に高解像度を必要とするが、ほとんどのODIの解像度は不十分である。
従来の方法では、等方射影(ERP)画像上の画像超解像(SR)を用いてこの問題を解決する。
しかし、分解過程におけるERPの幾何学的性質を省略し、それらのモデルは実際のERP画像にはほとんど一般化できない。
本稿では,実世界の撮像過程を模倣し,より現実的な低解像度サンプルを合成する魚眼ダウンサンプリングを提案する。
次に、ERP歪みを連続的かつ自己適応的に変調する歪み対応変換器(OSRT)を設計する。
煩雑なプロセスがなければ、OSRTはPSNRで約0.2dBの従来の手法より性能が良い。
さらに,疑似ERP画像を平易な画像から合成する便利なデータ拡張戦略を提案する。
この単純な戦略は、大規模ネットワークの過度に適合する問題を緩和し、ODISRの性能を大幅に向上させることができる。
大規模な実験により,OSRTの最先端性能が実証された。
コードとモデルはhttps://github.com/Fanghua-Yu/OSRTで入手できる。 Omnidirectional images (ODIs) have obtained lots of research interest for immersive experiences. Although ODIs require extremely high resolution to capture details of the entire scene, the resolutions of most ODIs are insufficient. Previous methods attempt to solve this issue by image super-resolution (SR) on equirectangular projection (ERP) images. However, they omit geometric properties of ERP in the degradation process, and their models can hardly generalize to real ERP images. In this paper, we propose Fisheye downsampling, which mimics the real-world imaging process and synthesizes more realistic low-resolution samples. Then we design a distortion-aware Transformer (OSRT) to modulate ERP distortions continuously and self-adaptively. Without a cumbersome process, OSRT outperforms previous methods by about 0.2dB on PSNR. Moreover, we propose a convenient data augmentation strategy, which synthesizes pseudo ERP images from plain images. This simple strategy can alleviate the over-fitting problem of large networks and significantly boost the performance of ODISR. Extensive experiments have demonstrated the state-of-the-art performance of our OSRT. Codes and models will be available at https://github.com/Fanghua-Yu/OSRT. | 翻訳日:2023-02-10 11:59:53 公開日:2023-02-09 |