このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230128となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 常温帯電動作用デュアルゲートGaAs-ナノワイヤFET:NEGFアプローチ Dual-Gate GaAs-Nanowire FET for Room Temperature Charge-Qubit Operation: A NEGF Approach ( http://arxiv.org/abs/2111.01548v2 ) ライセンス: Link先を確認 | Basudev Nag Chowdhury and Sanatan Chattopadhyay | (参考訳) 本研究は、室温で動作する電荷量子ビットデバイスとしての二ゲートGaAsナノワイヤFETの性能について検討する。
最先端の古典的ビット技術と互換性があり、ナノワイヤFETの単一ゲートを2つの局所ゲートに置き換えて、そのような充電量子ビット動作を実現することができる。
局所化ゲートに対する関連するバイアスの適用により、静電制御された単状態占有率とドート間カップリングを有するナノワイヤチャネル内に2つの電圧可変量子ドットが生成され、室温での電荷量子ビット動作に繋がる。
関連する電子輸送は、非平衡グリーンs関数(NEGF)形式に基づいて理論的にモデル化される。
適切なゲート電圧を適用してキュービット動作の初期化及び操作を行う一方、小さなドレインバイアスを適用して測定を行い、〜pAオーダーのパルス電流を得る。
量子ビットに対して25mhzのコヒーレント振動の周波数を観測し、70 ns程度の特性減衰時間を達成する。
このような二重ゲートナノワイヤFETは室温での電荷量子演算に有望なアーキテクチャであることが示唆された。 The current work investigates the performance of dual-gate GaAs-nanowire FET as a charge-qubit device operating at room temperature. In compatibility with the state-of-the-art classical bit technology, it is shown that the single gate of a nanowire FET can be replaced by two localized gates to achieve such charge-qubit operation. On application of relevant biases to the localized gates, two voltage tunable quantum dots are created within the nanowire channel with electrostatically controlled single-state-occupancy and inter-dot coupling leading to charge-qubit operation at room temperature. The associated electron transport is theoretically modeled on the basis of non-equilibrium Green s function (NEGF) formalism. The initialization and manipulation for qubit operation are performed by applying suitable gate voltages, whereas the measurement is executed by applying a small drain bias to obtain a pulse current of ~pA order. A ~25 MHz frequency of coherent oscillation is observed for the qubit and a characteristic decay time of ~ 70 ns is achieved. The results suggest that such dual gate nanowire FET is a promising architecture for charge-qubit operation at room temperature. | 翻訳日:2023-03-09 20:49:40 公開日:2023-01-28 |
# 注意型リカレント畳み込みニューラルネットワークを用いた心電図からの特発性心室性不整脈の起源の特定 Localizing the Origin of Idiopathic Ventricular Arrhythmia from ECG Using an Attention-Based Recurrent Convolutional Neural Network ( http://arxiv.org/abs/2302.10824v1 ) ライセンス: Link先を確認 | Mohammadreza Shahsavari, Niloufar Delfan, Mohamad Forouzanfar | (参考訳) 特発性心室不整脈(IVAs)は、非治療後に致命的な心臓リズムを乱す異常な心拍数である。
心臓カテーテルアブレーションはIVAの治療の標準的なアプローチであるが、このアブレーションの必須条件はIVAの起源の局在である。
現在のIVAローカライゼーション技術は侵入的であり、専門家の解釈に依存している。
本研究では,専門的な手動解析を必要とせずに,ECG信号からIVAの起点を自動的に同定できる新しいディープラーニングアルゴリズムを開発した。
開発した深層学習アルゴリズムは,多チャンネルECGデータから最も情報性の高い特徴を抽出するための空間融合,ECG時系列の進化パターンを捉えた時間モデリング,最も重要な時間的特徴の重み付けとモデル解釈性の向上のための注意機構から構成された。
このアルゴリズムは、IVAを経験し、IVAの正確な起源を決定するカテーテルアブレーション手術を成功させた334人(女性230人)から収集した12個の心電図データセットで検証された。
提案手法は,93%の曲線,94%の精度,97%の感度,95%の精度,F1のスコアを96%の精度で達成し,ISAの起源と既存自動・半自動アルゴリズムの精度を向上した。
心臓カテーテルアブレーション前におけるIVA患者の自動的,非侵襲的評価への期待を示す。 Idiopathic ventricular arrhythmia (IVAs) is extra abnormal heartbeats disturbing the regular heart rhythm that can become fatal if left untreated. Cardiac catheter ablation is the standard approach to treat IVAs, however, a crucial prerequisite for the ablation is the localization of IVAs' origin. The current IVA localization techniques are invasive, rely on expert interpretation, or are inaccurate. In this study, we developed a new deep-learning algorithm that can automatically identify the origin of IVAs from ECG signals without the need for expert manual analysis. Our developed deep learning algorithm was comprised of a spatial fusion to extract the most informative features from multichannel ECG data, temporal modeling to capture the evolving pattern of the ECG time series, and an attention mechanism to weigh the most important temporal features and improve the model interpretability. The algorithm was validated on a 12-lead ECG dataset collected from 334 patients (230 females) who experienced IVA and successfully underwent a catheter ablation procedure that determined IVA's exact origins. The proposed method achieved an area under the curve of 93%, an accuracy of 94%, a sensitivity of 97%, a precision of 95%, and an F1 score of 96% in locating the origin of IVAs and outperformed existing automatic and semi-automatic algorithms. The proposed method shows promise toward automatic and noninvasive evaluation of IVA patients before cardiac catheter ablation. | 翻訳日:2023-02-26 14:00:14 公開日:2023-01-28 |
# GDBN:動的ベイズネットワークに対するグラフニューラルネットワークアプローチ GDBN: a Graph Neural Network Approach to Dynamic Bayesian Network ( http://arxiv.org/abs/2302.10804v1 ) ライセンス: Link先を確認 | Yang Sun and Yifan Xie | (参考訳) 多変量時系列間の因果関係を特定することは、力学系の基礎となる複雑なメカニズムを理解するための最も重要な要素の1つである。
科学やビジネス分析の予測、シミュレーション、介入のための重要なツールを提供する。
本稿では,離散時間時間グラフにおける因果依存性をキャプチャするスパースDAGの学習を目的としたスコアに基づくグラフニューラルネットワーク手法を提案する。
グラフニューラルネットワークを用いた手法は,動的ベイジアンネットワーク推論を用いた他の最先端手法よりも優れていた。
さらに, 実験結果から, 構造因果モデルの方が, Notears などの手法で発見された線形 SCM よりも精度が高いことがわかった。 Identifying causal relations among multi-variate time series is one of the most important elements towards understanding the complex mechanisms underlying the dynamic system. It provides critical tools for forecasting, simulations and interventions in science and business analytics. In this paper, we proposed a graph neural network approach with score-based method aiming at learning a sparse DAG that captures the causal dependencies in a discretized time temporal graph. We demonstrate methods with graph neural network significantly outperformed other state-of-the-art methods with dynamic bayesian networking inference. In addition, from the experiments, the structural causal model can be more accurate than a linear SCM discovered by the methods such as Notears. | 翻訳日:2023-02-26 13:59:46 公開日:2023-01-28 |
# Orcasはセマンティック言語を持っているか?
部分ラベル音声データを用いたorca行動予測のための機械学習 Do Orcas Have Semantic Language? Machine Learning to Predict Orca Behaviors Using Partially Labeled Vocalization Data ( http://arxiv.org/abs/2302.10983v1 ) ライセンス: Link先を確認 | Sophia Sandholm | (参考訳) orcinus orca (キラークジラ) は複雑な鳴き声を示す。
約1秒続く。
コールでは、通常、オーカは複数の周波数を同時に使用し、周波数を変え、ボリュームを変える。
行動データは、orcasが水中に生息し、素早く移動するため入手が難しい。
音声データは比較的容易に取得できる。
科学の目標として、オーカの発声が意味言語であるかどうかを知りたい。
機械学習が発声から振舞いを予測できるかどうかを調べることでこれを実現している。
このような予測は、音を捉えるだけで行動を予測することができるため、科学的研究や安全性の応用にも役立つだろう。
このプロセスにおける重要な課題はラベル付きデータの欠如である。
我々は、マクマード・サウンド・オーカス(wellard et al. 2020)の最近の録音について、録音中に観察された挙動をラベル付けした。
これは、音声セグメント(コールシーケンスまたはより一般的な構造と考えることができる連続的な発声)が過剰な振る舞いでラベル付けされるデータセットを生成する。
それにもかかわらず、最近の機械学習技術と慎重に組み合わせることで、96.4%の分類精度が得られる。
これはorcasが意味言語を使っていることを示唆している。
研究や応用にも有望である。 Orcinus orca (killer whales) exhibit complex calls. They last about a second. In a call, an orca typically uses multiple frequencies simultaneously, varies the frequencies, and varies their volumes. Behavior data is hard to obtain because orcas live under water and travel quickly. Sound data is relatively easy to capture. As a science goal, we would like to know whether orca vocalizations constitute a semantic language. We do this by studying whether machine learning can predict behavior from vocalizations. Such prediction would also help scientific research and safety applications because one would like to predict behavior while only having to capture sound. A significant challenge in this process is lack of labeled data. We work with recent recordings of McMurdo Sound orcas [Wellard et al. 2020] where each recording is labeled with the behaviors observed during the recording. This yields a dataset where sound segments - continuous vocalizations that can be thought of as call sequences or more general structures - within the recordings are labeled with superfluous behaviors. Despite that, with a careful combination of recent machine learning techniques, we achieve 96.4% classification accuracy. This suggests that orcas do use a semantic language. It is also promising for research and applications. | 翻訳日:2023-02-26 13:33:12 公開日:2023-01-28 |
# エネルギーモデルを用いた分布外検出 Out-of-distribution Detection with Energy-based Models ( http://arxiv.org/abs/2302.12002v1 ) ライセンス: Link先を確認 | Sven Elflein | (参考訳) 現在、ディープラーニングは、自動運転や医療診断のようなセキュリティクリティカルな状況にますます適用されている。
その成功にもかかわらず、ディープネットワークの振る舞いと堅牢性はまだ完全には理解されておらず、重大なリスクをもたらしている。
特に最近研究者たちは、ニューラルネットワークは、これまで見たことのないデータでも、その予測に過度に自信を持っていることを発見しました。
この問題に取り組むために、文献における2つのアプローチを区別することができる。
1つは予測の不確実性を考慮し、もう1つはトレーニングデータの基盤となる密度を推定し、与えられた入力がトレーニングデータに近いかどうかを判断し、ネットワークが期待通りに実行可能であることを示し、本論文では、トレーニングデータ分布を適合させるタスクにおけるebmsの能力を調査し、分散(ood)入力の検出を行う。
ほとんどのデータセットでは、EDMは柔軟性に拘わらず、OODデータの検出において、本質的に他の密度推定器よりも優れているわけではない。
そこで本研究では,ebmsの性能に対する監督,寸法削減,アーキテクチャ変更の影響についても検討した。
OOD検出問題に対処する2つのアプローチのギャップを埋め、EBM内の様々な不確かさを分類するために推定できるEnergy-Prior Network(EPN)を提案する。
EBMにおけるディリクレ分布の濃度パラメータと接合エネルギーとの間の関係を同定する。
さらに、一部のアプリケーションでは利用できない、あるいはコストのかかるOODデータセットを保持せずに最適化できる。
最後に, エネルギー優先ネットワーク (epn) がood入力, データセットシフト, 逆例として検出できることを実証的に示す。
理論的には、EPNは、入力がトレーニングデータから遠く離れた場合、漸近的ケースに対して好ましい特性を提供する。 Today, deep learning is increasingly applied in security-critical situations such as autonomous driving and medical diagnosis. Despite its success, the behavior and robustness of deep networks are not fully understood yet, posing a significant risk. In particular, researchers recently found that neural networks are overly confident in their predictions, even on data they have never seen before. To tackle this issue, one can differentiate two approaches in the literature. One accounts for uncertainty in the predictions, while the second estimates the underlying density of the training data to decide whether a given input is close to the training data, and thus the network is able to perform as expected.In this thesis, we investigate the capabilities of EBMs at the task of fitting the training data distribution to perform detection of out-of-distribution (OOD) inputs. We find that on most datasets, EBMs do not inherently outperform other density estimators at detecting OOD data despite their flexibility. Thus, we additionally investigate the effects of supervision, dimensionality reduction, and architectural modifications on the performance of EBMs. Further, we propose Energy-Prior Network (EPN) which enables estimation of various uncertainties within an EBM for classification, bridging the gap between two approaches for tackling the OOD detection problem. We identify a connection between the concentration parameters of the Dirichlet distribution and the joint energy in an EBM. Additionally, this allows optimization without a held-out OOD dataset, which might not be available or costly to collect in some applications. Finally, we empirically demonstrate that Energy-Prior Network (EPN) is able to detect OOD inputs, datasets shifts, and adversarial examples. Theoretically, EPN offers favorable properties for the asymptotic case when inputs are far from the training data. | 翻訳日:2023-02-26 13:24:43 公開日:2023-01-28 |
# 量子崩壊法則の分析:量子トンネルは本当に指数関数的か? Analysis of quantum decay law: Is quantum tunneling really exponential? ( http://arxiv.org/abs/2203.10134v2 ) ライセンス: Link先を確認 | M. S. Hosseini-Ghalehni, B. Azadegan, S. A. Alavi | (参考訳) 指数減衰法則は1928年の導出以来確立されているが、正確なものではなく、近似的な記述に過ぎない。
近年、非指数崩壊の実験的および理論的兆候が報告されている。
まず, 無限の壁と有限幅の矩形障壁と, 正方形ポテンシャルの列として考慮し, カット調和振動子ポテンシャルとからなるポテンシャルに対して, 時間依存性のシュル=オディンガー方程式を1次元で解析的に解く。
次に,スタッガード・ホップ・フロッグ法を用いて,カット型高調波発振器ポテンシャルに対する時間依存schr\"odinger方程式を解く。
いずれの方法においても、粒子の生存確率と崩壊パラメータ {\lambda} の時間依存性を分析する。
その結果,短期および中期の生存確率の非指数的挙動を示した。 The exponential decay law is well established since its first derivation in 1928, however it is not exact but only an approximate description. In recent years some experimental and theoretical indications for non-exponential decay have been documented. First we solve analytically the time-dependent Schr\"odinger equation in one dimension for a potential consisting of an infinite wall plus a rectangular barrier with finite width and also a cut harmonic oscillator potential by considering it as a sequence of square potentials. Then using the staggered Leap-Frog method, we solve the time-dependent Schr\"odinger equation for the cut harmonic oscillator potential. In both methods, time dependence of the survival probability of the particle and the decay parameter {\lambda} are analyzed. The results exhibit non-exponential behavior for survival probability at short and intermediate times. | 翻訳日:2023-02-21 12:24:38 公開日:2023-01-28 |
# コーポレートロビイストとしての大規模言語モデル Large Language Models as Corporate Lobbyists ( http://arxiv.org/abs/2301.01181v7 ) ライセンス: Link先を確認 | John J. Nay | (参考訳) コーポレートロビー活動を行う大規模言語モデルの概念実証を実証する。
自己回帰的大言語モデル(OpenAIのtext-davinci-003)は、提案された米国議会法案が特定の公共企業に関連するかどうかを決定し、説明と信頼レベルを提供する。
モデルが関連するものとみなす法案について、モデルは提案された法律を変更するよう議会に説得するために、法案のスポンサーに手紙を起草する。
我々は、そのモデルの性能をベンチマークするために、企業に対する法案の関連性に関する、数百の新たな地道ラベルを使用します。
これは無関係の最も一般的な結果を予測する基準よりも優れている。
また,従来のOpenAI GPT-3モデル(text-davinci-002)の性能評価を行った。
text-davinci-002の性能は単純なベースラインよりも悪い。
長期的には、AIが人間の意図の直接的な延長ではない方法で法律に影響を与え始めた場合、このことは、情報としての法が人間とAIを結びつける上で果たす重要な役割を脅かす。
当初AIは、人間のロビイストを日々のタスクのごく一部に増やすために使われていました。
しかし、企業は政策思想の自動評価や規制機関や議会職員との文書によるコミュニケーションに対して、人的監視を少なくするインセンティブを持っている。
一番の疑問は、人間主導とai主導の政策の影響の線引きだ。 We demonstrate a proof-of-concept of a large language model conducting corporate lobbying related activities. An autoregressive large language model (OpenAI's text-davinci-003) determines if proposed U.S. Congressional bills are relevant to specific public companies and provides explanations and confidence levels. For the bills the model deems as relevant, the model drafts a letter to the sponsor of the bill in an attempt to persuade the congressperson to make changes to the proposed legislation. We use hundreds of novel ground-truth labels of the relevance of a bill to a company to benchmark the performance of the model. It outperforms the baseline of predicting the most common outcome of irrelevance. We also benchmark the performance of the previous OpenAI GPT-3 model (text-davinci-002), which was the state-of-the-art model on many academic natural language tasks until text-davinci-003 was recently released. The performance of text-davinci-002 is worse than the simple baseline. Longer-term, if AI begins to influence law in a manner that is not a direct extension of human intentions, this threatens the critical role that law as information could play in aligning AI with humans. Initially, AI is being used to simply augment human lobbyists for a small portion of their daily tasks. However, firms have an incentive to use less and less human oversight over automated assessments of policy ideas and the written communication to regulatory agencies and Congressional staffers. The core question raised is where to draw the line between human-driven and AI-driven policy influence. | 翻訳日:2023-02-19 13:26:09 公開日:2023-01-28 |
# DBE-KT22:オンライン学生評価に基づく知識追跡データセット DBE-KT22: A Knowledge Tracing Dataset Based on Online Student Evaluation ( http://arxiv.org/abs/2208.12651v3 ) ライセンス: Link先を確認 | Ghodai Abdelrahman, Sherif Abdelfattah, Qing Wang, Yu Lin | (参考訳) オンライン教育は、世界中の学生に安価な高品質の教育を提供するために、過去10年間でますます重要になっている。
これは世界的なパンデミックの間にさらに拡大し、より多くの学生がオンライン学習に切り替えた。
オンライン教育タスクの大多数、例えばコースレコメンデーション、エクササイズレコメンデーション、自動評価は、生徒の知識の進歩を追跡することに依存している。
これは文献において \emph{knowledge tracing}問題として知られている。
この問題に対処するには、時間とともに知識の進化を反映できる学生評価データを集める必要がある。
本稿では,オーストラリアのオーストラリア国立大学において,オンライン学生演習システムから収集された知識追跡のためのデータベースエクササイズ(dbe-kt22)という新しい知識追跡データセットを提案する。
DBE-KT22データセットの特徴を考察し、知識追跡文献における既存のデータセットと対比する。
私たちのデータセットは、australian data archive platformを介してパブリックアクセスできます。 Online education has gained an increasing importance over the last decade for providing affordable high-quality education to students worldwide. This has been further magnified during the global pandemic as more students switched to study online. The majority of online education tasks, e.g., course recommendation, exercise recommendation, or automated evaluation, depends on tracking students' knowledge progress. This is known as the \emph{Knowledge Tracing} problem in the literature. Addressing this problem requires collecting student evaluation data that can reflect their knowledge evolution over time. In this paper, we propose a new knowledge tracing dataset named Database Exercises for Knowledge Tracing (DBE-KT22) that is collected from an online student exercise system in a course taught at the Australian National University in Australia. We discuss the characteristics of the DBE-KT22 dataset and contrast it with the existing datasets in the knowledge tracing literature. Our dataset is available for public access through the Australian Data Archive platform. | 翻訳日:2023-02-19 10:47:48 公開日:2023-01-28 |
# クリックベイト分類におけるテキストからデータを生成する方法 How learners produce data from text in classifying clickbait ( http://arxiv.org/abs/2302.01292v1 ) ライセンス: Link先を確認 | Nicholas J. Horton and Jie Chao and Phebe Palmer and William Finzer | (参考訳) テキストは、分類問題の動機付けと探索に使用できる非構造化データの魅力的な例を提供する。
テキストの特徴の表現と、文字列としてのテキスト表現と、基礎となる現象との接続を埋め込んだ特徴の識別に関する課題が生じる。
ドメインの特定の側面を解明するためにデザインされたシナリオにおいて、学生がテキストデータをどのように判断するかを観察するために、6対の大学生からなる構造化プロトコルを用いたタスクベースの面接手法を採用した。
我々のゴールは、見出しを「クリックベイト」または「ニュース」と分類する動機づけタスクを用いて、学生がテキストをデータとして理解することを強調することだった。
3種類の機能(機能、コンテンツ、フォーム)が表面化しており、その大半は最初のシナリオによるものである。
インタビューの分析から,この一連の活動は,人間知覚レベルとコンピュータ抽出レベルの両方の思考と,それらの相互関係の概念化に参加者が関与していることが示唆された。 Text provides a compelling example of unstructured data that can be used to motivate and explore classification problems. Challenges arise regarding the representation of features of text and student linkage between text representations as character strings and identification of features that embed connections with underlying phenomena. In order to observe how students reason with text data in scenarios designed to elicit certain aspects of the domain, we employed a task-based interview method using a structured protocol with six pairs of undergraduate students. Our goal was to shed light on students' understanding of text as data using a motivating task to classify headlines as "clickbait" or "news". Three types of features (function, content, and form) surfaced, the majority from the first scenario. Our analysis of the interviews indicates that this sequence of activities engaged the participants in thinking at both the human-perception level and the computer-extraction level and conceptualizing connections between them. | 翻訳日:2023-02-05 04:20:54 公開日:2023-01-28 |
# 行列積状態の非安定化性の定量化 Quantifying nonstabilizerness of matrix product states ( http://arxiv.org/abs/2207.13076v3 ) ライセンス: Link先を確認 | Tobias Haug, Lorenzo Piroli | (参考訳) 非安定化性(nonstabilizerness)またはマジック(magic)は、量子状態を作成するのに必要な非クリフォード演算の数を定量化する。
典型的な測度では、最小化手順または計算コスト指数がクォービット数$N$に関係しているため、多体状態の特徴付けが難しいことが知られている。
本研究では,最近導入された安定化器r\'enyiエントロピー (sres) によって定量化された非安定化性が行列積状態 (mpss) に対して効率的に計算できることを示す。
具体的には、結合次元 $\chi$ と整数 R\'enyi index $n>1$ の MPS が与えられたとき、SRE は結合次元 $\chi^{2n}$ の MPS のノルムで表現できることを示す。
変換不変状態の場合、これは1つのテンソル、転送行列からそれを抽出することができるが、ジェネリック mpss の場合、この構成は$n$ で線形な計算コストと$\chi$ の多項式をもたらす。
我々はこの観測を利用して量子イジング鎖の基底状態の非安定化の研究を再考し、より大きなシステムサイズまで正確な数値結果を提供する。
臨界に近いsreを解析し,その局所計算ベースへの依存度を調べ,臨界点では一般に最大ではないことを示した。 Nonstabilizerness, also known as magic, quantifies the number of non-Clifford operations needed in order to prepare a quantum state. As typical measures either involve minimization procedures or a computational cost exponential in the number of qubits $N$, it is notoriously hard to characterize for many-body states. In this work, we show that nonstabilizerness, as quantified by the recently introduced Stabilizer R\'enyi Entropies (SREs), can be computed efficiently for matrix product states (MPSs). Specifically, given an MPS of bond dimension $\chi$ and integer R\'enyi index $n>1$, we show that the SRE can be expressed in terms of the norm of an MPS with bond dimension $\chi^{2n}$. For translation-invariant states, this allows us to extract it from a single tensor, the transfer matrix, while for generic MPSs this construction yields a computational cost linear in $N$ and polynomial in $\chi$. We exploit this observation to revisit the study of ground-state nonstabilizerness in the quantum Ising chain, providing accurate numerical results up to large system sizes. We analyze the SRE near criticality and investigate its dependence on the local computational basis, showing that it is in general not maximal at the critical point. | 翻訳日:2023-02-03 16:53:30 公開日:2023-01-28 |
# 局所近似モデルによるニューラル画像圧縮の統計的忠実度向上 Improving Statistical Fidelity for Neural Image Compression with Implicit Local Likelihood Models ( http://arxiv.org/abs/2301.11189v2 ) ライセンス: Link先を確認 | Matthew J. Muckley, Alaaeldin El-Nouby, Karen Ullrich, Herv\'e J\'egou, Jakob Verbeek | (参考訳) ロスシー画像圧縮は、オリジナルへの忠実さを維持しながら、可能な限り数ビットで画像を表現することを目的としている。
理論的には、PSNRやMS-SSIMなどの歪み測定値の最適化は、圧縮された画像のぼやけによってしばしば現れる、特に低ビットレートでの再構成画像と元の画像の統計に違いをもたらす。
以前の研究では、adversarial discriminatorsを利用して統計の忠実性を改善した。
しかし、生成的モデリングタスクから採用されているこれらのバイナリ判別器は、画像圧縮に理想的ではないかもしれない。
本稿では,VQ-VAEオートエンコーダを用いて得られた局所像の量子化を条件とした非バイナリ判別器を提案する。
CLIC2020,DIV2K,Kodakのデータセットによる評価から,我々の判別器は現状のHiFiCモデルよりも歪み(PSNRなど)と統計的忠実度(FIDなど)を共同最適化するのに有効であることが示された。
CLIC2020テストセットでは、30~40%ビット少ないHiFiCと同じFIDを得る。 Lossy image compression aims to represent images in as few bits as possible while maintaining fidelity to the original. Theoretical results indicate that optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a discrepancy in the statistics of original images from those of reconstructions, in particular at low bitrates, often manifested by the blurring of the compressed images. Previous work has leveraged adversarial discriminators to improve statistical fidelity. Yet these binary discriminators adopted from generative modeling tasks may not be ideal for image compression. In this paper, we introduce a non-binary discriminator that is conditioned on quantized local image representations obtained via VQ-VAE autoencoders. Our evaluations on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more effective for jointly optimizing distortion (e.g., PSNR) and statistical fidelity (e.g., FID) than the state-of-the-art HiFiC model. On the CLIC2020 test set, we obtain the same FID as HiFiC with 30-40% fewer bits. | 翻訳日:2023-01-31 20:26:39 公開日:2023-01-28 |
# quick$^3$ -- 宇宙における量子通信と拡張物理理論実験のための衛星ベースの量子光源の設計 QUICK$^3$ -- Design of a satellite-based quantum light source for quantum communication and extended physical theory tests in space ( http://arxiv.org/abs/2301.11177v2 ) ライセンス: Link先を確認 | Najme Ahmadi, Sven Schwertfeger, Philipp Werner, Lukas Wiese, Joseph Lester, Elisa Da Ros, Josefine Krause, Sebastian Ritter, Mostafa Abasifard, Chanaprom Cholsuk, Ria G. Kr\"amer, Simone Atzeni, Mustafa G\"undo\u{g}an, Subash Sachidananda, Daniel Pardo, Stefan Nolte, Alexander Lohrmann, Alexander Ling, Julian Bartholom\"aus, Giacomo Corrielli, Markus Krutzik, Tobias Vogl | (参考訳) 現代の量子技術は、例えば長距離量子通信のような宇宙アプリケーションで使用できるように成熟している。
本稿では,衛星ベースの量子鍵分布シナリオにおいて,従来のレーザ光源と比較してセキュアなデータレートを向上できるコンパクトな単一光子源の設計について述べる。
我々の量子光源は六方晶窒化ホウ素の蛍光色中心である。
エミッタはダイオードレーザーによってオフ共鳴励起され、集積フォトニックプロセッサに直接結合され、光子を直接チップ上で行う異なる実験に導かれる。
(i)単一光子源の特性及び特性
(ii)量子力学の基本的な仮定、すなわち確率密度と波動関数の関係(ボーンの法則として知られる)をテストすること。
このペイロードは現在3u cubesatに統合されており、2024年に低軌道に打ち上げられる予定である。
したがって、真の単一光子源と空間における再構成可能なフォトニック回路の実現可能性を評価することができる。
これは高速量子ネットワークへの有望な経路を提供する。 Modern quantum technologies have matured such that they can now be used in space applications, e.g., long-distance quantum communication. Here, we present the design of a compact true single photon source that can enhance the secure data rates in satellite-based quantum key distribution scenarios compared to conventional laser-based light sources. Our quantum light source is a fluorescent color center in hexagonal boron nitride. The emitter is off-resonantly excited by a diode laser and directly coupled to an integrated photonic processor that routes the photons to different experiments performed directly on-chip: (i) the characterization of the single photon source and (ii) testing a fundamental postulate of quantum mechanics, namely the relation of the probability density and the wave function (known as Born's rule). The described payload is currently being integrated into a 3U CubeSat and scheduled for launch in 2024 into low Earth orbit. We can therefore evaluate the feasibility of true single photon sources and reconfigurable photonic circuits in space. This provides a promising route toward a high-speed quantum network. | 翻訳日:2023-01-31 20:26:11 公開日:2023-01-28 |
# 映像異常検出のための再構成ベース手法の再検討 Making Reconstruction-based Method Great Again for Video Anomaly Detection ( http://arxiv.org/abs/2301.12048v1 ) ライセンス: Link先を確認 | Yizhou Wang, Can Qin, Yue Bai, Yi Xu, Xu Ma, Yun Fu | (参考訳) ビデオにおける異常検出は、非常に難しい問題である。
ディープニューラルネットワークに基づく以前のアプローチでは、レコンストラクションベースか予測ベースのアプローチを採用している。
それにもかかわらず、既存の再建法
1) 昔ながらの畳み込み自己エンコーダに頼り、時間的依存のモデル化に乏しい。
2) トレーニングサンプルに過度に適合する傾向があり, 推測段階での正常フレームと異常フレームの復元誤りが相違する。
そのような問題に対処するために、まず、transformer s}$patio-${\textbf t}$emporal ${\textbf a}$uto-${\textbf t}$rans-${\textbf e}$ncoder、$\textbf{state}$と呼ばれる新しい連続フレーム再構成のためのオートエンコーダモデルを提案する。
私たちの状態は、効率的な時間学習と推論のための、特別に設計された学習可能な畳み込み注意モジュールを備えています。
第2に,異常フレームを更に区別するために,新しい再構成に基づく入力摂動手法を提案する。
同じ摂動の大きさで、通常のフレームの試験再構成誤差は異常フレームの試験誤差よりも小さくなり、再構成の過度な問題を軽減するのに寄与する。
フレームの異常とフレーム内のオブジェクトの関連性が高いため、原フレームと対応する光フローパッチの両方を用いてオブジェクトレベルの再構成を行う。
最後に、乱れ入力を用いた生と動の復元誤差の組み合わせに基づいて、異常スコアを設計する。
ベンチマークビデオ異常検出データセットに関する広範囲な実験により,本手法が従来の再構成ベース手法を有意なマージンで上回り,最先端異常検出性能を一貫して達成していることが示された。
コードはhttps://github.com/wyzjack/mrmga4vadで入手できる。 Anomaly detection in videos is a significant yet challenging problem. Previous approaches based on deep neural networks employ either reconstruction-based or prediction-based approaches. Nevertheless, existing reconstruction-based methods 1) rely on old-fashioned convolutional autoencoders and are poor at modeling temporal dependency; 2) are prone to overfit the training samples, leading to indistinguishable reconstruction errors of normal and abnormal frames during the inference phase. To address such issues, firstly, we get inspiration from transformer and propose ${\textbf S}$patio-${\textbf T}$emporal ${\textbf A}$uto-${\textbf T}$rans-${\textbf E}$ncoder, dubbed as $\textbf{STATE}$, as a new autoencoder model for enhanced consecutive frame reconstruction. Our STATE is equipped with a specifically designed learnable convolutional attention module for efficient temporal learning and reasoning. Secondly, we put forward a novel reconstruction-based input perturbation technique during testing to further differentiate anomalous frames. With the same perturbation magnitude, the testing reconstruction error of the normal frames lowers more than that of the abnormal frames, which contributes to mitigating the overfitting problem of reconstruction. Owing to the high relevance of the frame abnormality and the objects in the frame, we conduct object-level reconstruction using both the raw frame and the corresponding optical flow patches. Finally, the anomaly score is designed based on the combination of the raw and motion reconstruction errors using perturbed inputs. Extensive experiments on benchmark video anomaly detection datasets demonstrate that our approach outperforms previous reconstruction-based methods by a notable margin, and achieves state-of-the-art anomaly detection performance consistently. The code is available at https://github.com/wyzjack/MRMGA4VAD. | 翻訳日:2023-01-31 19:33:59 公開日:2023-01-28 |
# エンドツーエンドモデルベース学習のためのフォールド最適化 Folded Optimization for End-to-End Model-Based Learning ( http://arxiv.org/abs/2301.12047v1 ) ライセンス: Link先を確認 | James Kotary, My H. Dinh, Ferdinando Fioretto | (参考訳) 深いネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、両方の領域において有望な進歩をもたらした。
この設定の主な課題は最適化マッピングによるバックプロパゲーションであり、通常は閉じた形式が欠けている。
一般的なアプローチはアンローリングであり、反復解法の操作による自動微分に依存する。
柔軟で汎用的なアンローリングは、実際には正確さと効率性の問題がある。
これらの問題は最適化マッピングを解析的に区別することで回避できるが、現在のフレームワークは最適化問題の形式に厳格な要件を課している。
本稿では,未ロールオプティマイザのバックプロパゲーションに関する理論的知見を提供し,等価だが効率的な解析モデルを生成するシステムを提案する。
さらに,制約付き最適化マッピングによる展開と解析的微分の統一的視点を提案する。
様々な構造化予測と意思決定中心の学習タスクに関する実験は、計算的および表現性の向上の観点からアプローチの可能性を示している。 The integration of constrained optimization models as components in deep networks has led to promising advances in both these domains. A primary challenge in this setting is backpropagation through the optimization mapping, which typically lacks a closed form. A common approach is unrolling, which relies on automatic differentiation through the operations of an iterative solver. While flexible and general, unrolling can encounter accuracy and efficiency issues in practice. These issues can be avoided by differentiating the optimization mapping analytically, but current frameworks impose rigid requirements on the optimization problem's form. This paper provides theoretical insights into the backpropagation of unrolled optimizers, which lead to a system for generating equivalent but efficiently solvable analytical models. Additionally, it proposes a unifying view of unrolling and analytical differentiation through constrained optimization mappings. Experiments over various structured prediction and decision-focused learning tasks illustrate the potential of the approach both computationally and in terms of enhanced expressiveness. | 翻訳日:2023-01-31 19:33:25 公開日:2023-01-28 |
# 意味的属性による顔認識における意味的対立攻撃 Semantic Adversarial Attacks on Face Recognition through Significant Attributes ( http://arxiv.org/abs/2301.12046v1 ) ライセンス: Link先を確認 | Yasmeen M. Khedr, Yifeng Xiong, Kun He | (参考訳) 顔認識は、敵の顔画像に対して脆弱であることが知られている。
既存の作業は、画像の本質的な属性を意識せずに、単一の属性を無差別に変更することにより、対向画像を作成する。
そこで本研究では,saa-starganと呼ばれる,画像毎に重要な顔属性を改ざんする新しい意味的敵意攻撃を提案する。
我々はコサイン類似度や確率スコアを適用して最も重要な属性を予測する。
確率スコア法は属性予測タスクの顔検証モデルを訓練し、属性毎にクラス確率スコアを求める。
この予測プロセスは、対向顔画像をより簡単かつ効率的に作成し、対向性を向上させる。
そして、最も重要な顔属性を変更し、その1つ以上の顔属性を、ホワイトボックスとブラックボックスの設定で、偽装およびドッジアタックのために変更する。
実験の結果, 顔の認識に影響を及ぼすことなく, 多様で現実的な顔画像を生成することができた。
SAA-StarGANはブラックボックスモデルに対する80.5%の攻撃成功率を達成し、既存の手法を35.5%上回った。
ブラックボックス設定に関して、SAA-StarGANは様々なモデルで高い攻撃成功率を達成する。
実験により、最も重要な属性の予測は、ホワイトボックスとブラックボックスの両方における敵攻撃の成功に大きく影響し、敵の例の転送性を高めることが確認された。 Face recognition is known to be vulnerable to adversarial face images. Existing works craft face adversarial images by indiscriminately changing a single attribute without being aware of the intrinsic attributes of the images. To this end, we propose a new Semantic Adversarial Attack called SAA-StarGAN that tampers with the significant facial attributes for each image. We predict the most significant attributes by applying the cosine similarity or probability score. The probability score method is based on training a Face Verification model for an attribute prediction task to obtain a class probability score for each attribute. The prediction process will help craft adversarial face images more easily and efficiently, as well as improve the adversarial transferability. Then, we change the most significant facial attributes, with either one or more of the facial attributes for impersonation and dodging attacks in white-box and black-box settings. Experimental results show that our method could generate diverse and realistic adversarial face images meanwhile avoid affecting human perception of the face recognition. SAA-StarGAN achieves an 80.5% attack success rate against black-box models, outperforming existing methods by 35.5% under the impersonation attack. Concerning the black-box setting, SAA-StarGAN achieves high attack success rates on various models. The experiments confirm that predicting the most important attributes significantly affects the success of adversarial attacks in both white-box and black-box settings and could enhance the transferability of the crafted adversarial examples. | 翻訳日:2023-01-31 19:33:11 公開日:2023-01-28 |
# ProtST:タンパク質配列とバイオメディカルテキストのマルチモーダル学習 ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts ( http://arxiv.org/abs/2301.12040v1 ) ライセンス: Link先を確認 | Minghao Xu, Xinyu Yuan, Santiago Miret, Jian Tang | (参考訳) 現在のタンパク質言語モデル(plm)は、主にそれらの配列に基づいてタンパク質の表現を学習し、共進化的な情報をうまく捉えているが、タンパク質の表現学習の最終目標であるタンパク質の機能を明示的に獲得することはできない。
幸いなことに、多くのタンパク質では、それらの様々な機能を記述するために、それらのテキスト的特性記述が利用可能である。
この事実に動機づけられ、まずprotdescribeデータセットを構築し、その機能とその他の重要な特性のテキスト記述でタンパク質配列を増強する。
本稿では,タンパク質配列の事前学習とバイオメディカルテキストによる理解を促進するためのProtSTフレームワークを提案する。
プレトレーニング中,我々は3種類のタスク,すなわちユニモーダルマスク予測,マルチモーダル表現アライメント,マルチモーダルマスク予測をデザインし,異なる粒度を持つタンパク質特性情報を持つplmを強化し,同時にplmの本来の表現力を保持する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
多様な表現学習ベンチマークにおいて, ProtST による PLM の優位性を検証する。
ゼロショット設定では, ゼロショットタンパク質分類におけるProtSTの有効性が示され, また, ProtSTは機能アノテーションなしで大規模データベースから機能的タンパク質検索を可能にする。 Current protein language models (PLMs) learn protein representations mainly based on their sequences, thereby well capturing co-evolutionary information, but they are unable to explicitly acquire protein functions, which is the end goal of protein representation learning. Fortunately, for many proteins, their textual property descriptions are available, where their various functions are also described. Motivated by this fact, we first build the ProtDescribe dataset to augment protein sequences with text descriptions of their functions and other important properties. Based on this dataset, we propose the ProtST framework to enhance Protein Sequence pre-training and understanding by biomedical Texts. During pre-training, we design three types of tasks, i.e., unimodal mask prediction, multimodal representation alignment and multimodal mask prediction, to enhance a PLM with protein property information with different granularities and, at the same time, preserve the PLM's original representation power. On downstream tasks, ProtST enables both supervised learning and zero-shot prediction. We verify the superiority of ProtST-induced PLMs over previous ones on diverse representation learning benchmarks. Under the zero-shot setting, we show the effectiveness of ProtST on zero-shot protein classification, and ProtST also enables functional protein retrieval from a large-scale database without any function annotation. | 翻訳日:2023-01-31 19:32:47 公開日:2023-01-28 |
# IoTマルウェア検出のための決定木のパワーを損なう Harnessing the Power of Decision Trees to Detect IoT Malware ( http://arxiv.org/abs/2301.12039v1 ) ライセンス: Link先を確認 | Marwan Omar | (参考訳) シンプルなインストールと接続性のため、IoT(Internet of Things)はマルウェア攻撃の影響を受けやすい。
自律的に操作できること。
IoTデバイスが普及するにつれ、マルウェアの最も魅力的なターゲットとなっている。
弱い、推測可能な、またはハードコードされたパスワードとセキュリティ対策の欠如は、これらの脆弱性と、ネットワーク接続の不安全性と古い更新手順に寄与する。
IoTマルウェアを理解するために、現在のメソッドと静的メソッドを使用する分析は効果がない。
ディープラーニングの分野は、その膨大なデータマイニング、学習、表現能力によって、近年大きな進歩を遂げている。
その結果、マルウェアのアナリストはマルウェアの分析にあまり時間を費やす必要がなくなる。
本稿では,決定木のパワーと簡易性を活用した新しい検出・解析手法を提案する。
実験は、公開されているデータセットであるMaleVisを使って実施されている。
その結果,提案手法は既存の最先端ソリューションよりも97.23%の精度,95.89%のリコールを実現していることがわかった。
比は96.58%、f1-scoreは96.40%、精度96.43。 Due to its simple installation and connectivity, the Internet of Things (IoT) is susceptible to malware attacks. Being able to operate autonomously. As IoT devices have become more prevalent, they have become the most tempting targets for malware. Weak, guessable, or hard-coded passwords, and a lack of security measures contribute to these vulnerabilities along with insecure network connections and outdated update procedures. To understand IoT malware, current methods and analysis ,using static methods, are ineffective. The field of deep learning has made great strides in recent years due to their tremendous data mining, learning, and expression capabilities, cybersecurity has enjoyed tremendous growth in recent years. As a result, malware analysts will not have to spend as much time analyzing malware. In this paper, we propose a novel detection and analysis method that harnesses the power and simplicity of decision trees. The experiments are conducted using a real word dataset, MaleVis which is a publicly available dataset. Based on the results, we show that our proposed approach outperforms existing state-of-the-art solutions in that it achieves 97.23% precision and 95.89% recall in terms of detection and classification. A specificity of 96.58%, F1-score of 96.40%, an accuracy of 96.43. | 翻訳日:2023-01-31 19:32:24 公開日:2023-01-28 |
# STEERING: モデルに基づく強化学習のためのスタイン情報指向探索 STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2301.12038v1 ) ライセンス: Link先を確認 | Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Mengdi Wang, Furong Huang, Dinesh Manocha | (参考訳) ディレクテッド・エクスプロレーション(Directed Exploration)は、特に報酬が不足している場合、強化学習(RL)において重要な課題である。
情報比を最適化する情報指向サンプリング(IDS)は,情報獲得による後悔の増大を図り,その実現を目指している。
しかし、情報ゲインの推定は計算的に難解であり、多くの実例での使用を禁止する制限的な仮定に依存している。
本研究では、遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点で別の探索インセンティブを仮定し、適切な条件下では、カーネル化されたスタイン差分(KSD)で閉じた形で計算することができる。
KSD に基づく新しいアルゴリズム STEERING を開発した。 モデルベース \textbf{R}einforcement Learn\textbf{ING} のための情報 dir\textbf{E}cted Explored。
その導出を可能にするために, 離散条件分布に対する ksd の基本的な新しい変種を開発した。
さらに,STEERINGは,情報付加型MBRL(IDS)の事前学習率を改善するとともに,ベイジアン後悔をサブリニア化する。
実験により,提案アルゴリズムは計算に手頃な価格であり,いくつかの先行手法より優れていることを示す。 Directed Exploration is a crucial challenge in reinforcement learning (RL), especially when rewards are sparse. Information-directed sampling (IDS), which optimizes the information ratio, seeks to do so by augmenting regret with information gain. However, estimating information gain is computationally intractable or relies on restrictive assumptions which prohibit its use in many practical instances. In this work, we posit an alternative exploration incentive in terms of the integral probability metric (IPM) between a current estimate of the transition model and the unknown optimal, which under suitable conditions, can be computed in closed form with the kernelized Stein discrepancy (KSD). Based on KSD, we develop a novel algorithm STEERING: \textbf{STE}in information dir\textbf{E}cted exploration for model-based \textbf{R}einforcement Learn\textbf{ING}. To enable its derivation, we develop fundamentally new variants of KSD for discrete conditional distributions. We further establish that STEERING archives sublinear Bayesian regret, improving upon prior learning rates of information-augmented MBRL, IDS included. Experimentally, we show that the proposed algorithm is computationally affordable and outperforms several prior approaches. | 翻訳日:2023-01-31 19:32:09 公開日:2023-01-28 |
# 偽データ注入攻撃と防御を考慮したランプ計測アプリケーションにおける深部強化学習アルゴリズムのロバスト性の解析 Analyzing Robustness of the Deep Reinforcement Learning Algorithm in Ramp Metering Applications Considering False Data Injection Attack and Defense ( http://arxiv.org/abs/2301.12036v1 ) ライセンス: Link先を確認 | Diyi Liu, Lanmin Liu, Lee D Han | (参考訳) ランプ計測の実践は、下流の体積を制御し、インターウィービングトラフィックを円滑にすることで、ランプ計測が全走行時間を短縮し、衝撃波を緩和し、後方衝突を低減し、汚染を低減できることを示した。
ALIENAアルゴリズムのような従来の手法以外にも、ランプ計測によるより細かい制御を構築するために、Deep Reinforcement Learningアルゴリズムが最近確立されている。
しかし、これらのディープラーニングモデルは、敵対的な攻撃に敬意を表しています。
したがって、これらのモデルのFalse Data Injection攻撃下での堅牢性を検討することが重要である。
さらに、クリーンデータから異常データを検出するアルゴリズムは、ディープラーニングアルゴリズムを保護する鍵となる。
本研究では、敵データとクリーンデータとを区別できるオンラインアルゴリズムをテストする。
その結果、ほとんどの場合、異常データはクリーンデータと区別できるが、その違いは人間によって手動で区別するには小さすぎることがわかった。
実際には、敵対的/有害なデータが検出されると、システムは固定制御プログラムにフォールバックし、専門家は実際の損傷が起こる前に検出器の状態やセキュリティプロトコルを調査する必要がある。 Decades of practices of ramp metering, by controlling downstream volume and smoothing the interweaving traffic, have proved that ramp metering can decrease total travel time, mitigate shockwaves, decrease rear-end collisions, reduce pollution, etc. Besides traditional methods like ALIENA algorithms, Deep Reinforcement Learning algorithms have been established recently to build finer control on ramp metering. However, those Deep Learning models may be venerable to adversarial attacks. Thus, it is important to investigate the robustness of those models under False Data Injection adversarial attack. Furthermore, algorithms capable of detecting anomaly data from clean data are the key to safeguard Deep Learning algorithm. In this study, an online algorithm that can distinguish adversarial data from clean data are tested. Results found that in most cases anomaly data can be distinguished from clean data, although their difference is too small to be manually distinguished by humans. In practice, whenever adversarial/hazardous data is detected, the system can fall back to a fixed control program, and experts should investigate the detectors status or security protocols afterwards before real damages happen. | 翻訳日:2023-01-31 19:31:42 公開日:2023-01-28 |
# 合成スパースニューラルネットワークのノルム一般化境界 Norm-based Generalization Bounds for Compositionally Sparse Neural Networks ( http://arxiv.org/abs/2301.12033v1 ) ライセンス: Link先を確認 | Tomer Galanti, Mengjia Xu, Liane Galanti, Tomaso Poggio | (参考訳) 本稿では,各ニューロンが少数の入力を受信する深部スパースニューラルネットワークのRademacher複雑性について検討する。
畳み込みニューラルネットワークを含む多層スパースReLUニューラルネットワークに対する一般化境界を証明する。
これらの境界は、結合したトエプリッツ行列のノルムではなく畳み込みフィルタのノルムをニューロン間の重みの共有とは独立に考えるため、以前のものと異なる。
理論的に示すように、これらの境界は標準ノルム基底の一般化境界よりも桁違いに良く、経験的に、様々な単純な分類問題における一般化を推定するのにはほとんど空でない。
これらの結果は, 深いニューラルネットワークの成功には, 対象関数の組成空間が重要であることを示唆している。 In this paper, we investigate the Rademacher complexity of deep sparse neural networks, where each neuron receives a small number of inputs. We prove generalization bounds for multilayered sparse ReLU neural networks, including convolutional neural networks. These bounds differ from previous ones, as they consider the norms of the convolutional filters instead of the norms of the associated Toeplitz matrices, independently of weight sharing between neurons. As we show theoretically, these bounds may be orders of magnitude better than standard norm-based generalization bounds and empirically, they are almost non-vacuous in estimating generalization in various simple classification problems. Taken together, these results suggest that compositional sparsity of the underlying target function is critical to the success of deep neural networks. | 翻訳日:2023-01-31 19:31:23 公開日:2023-01-28 |
# BinaryVQA:VQAモデルのアウト・オブ・ディストリビューション一般化を評価するためのVersatile Test Set BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models ( http://arxiv.org/abs/2301.12032v1 ) ライセンス: Link先を確認 | Ali Borji | (参考訳) 我々は,VQAモデルの限界を押し上げるために,BinaryVQAと呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
モデル評価を容易にするため、二項問題のみを考える。
質問と回答は慎重に手動で定式化され、検証される。
質問の約63%は肯定的な回答を持っている。
画像ごとの質問の中央値と質問の長さはそれぞれ7と5である。
最先端のOFAモデルは、BinaryVQAデータセット上で75%の精度を実現しており、VQA v2 test-devデータセット(94.7%)のパフォーマンスよりも大幅に低い。
また、いくつかの次元に沿ってモデル行動を分析する。
a) テキスト,計数及び視線方向などの異なるカテゴリに対するパフォーマンス
b) モデル解釈可能性
c) 質問の長さが精度に及ぼす影響
d) 正の回答に対するモデルのバイアス及びShuffleAccと呼ばれる新しいスコアの導入
e) 綴り及び文法の誤りに対する感受性。
我々の調査はデータセットの難しさを実証し、今後数年間VQAモデルに挑戦できることを示す。
データとコードは: DataとCODEで公開されています。 We introduce a new test set for visual question answering (VQA) called BinaryVQA to push the limits of VQA models. Our dataset includes 7,800 questions across 1,024 images and covers a wide variety of objects, topics, and concepts. For easy model evaluation, we only consider binary questions. Questions and answers are formulated and verified carefully and manually. Around 63% of the questions have positive answers. The median number of questions per image and question length are 7 and 5, respectively. The state of the art OFA model achieves 75% accuracy on BinaryVQA dataset, which is significantly lower than its performance on the VQA v2 test-dev dataset (94.7%). We also analyze the model behavior along several dimensions including: a) performance over different categories such as text, counting and gaze direction, b) model interpretability, c) the effect of question length on accuracy, d) bias of models towards positive answers and introduction of a new score called the ShuffleAcc, and e) sensitivity to spelling and grammar errors. Our investigation demonstrates the difficulty of our dataset and shows that it can challenge VQA models for next few years. Data and code are publicly available at: DATA and CODE. | 翻訳日:2023-01-31 19:31:09 公開日:2023-01-28 |
# (原始)分散バイアスフィードバックによるカーネル化バンド (Private) Kernelized Bandits with Distributed Biased Feedback ( http://arxiv.org/abs/2301.12061v1 ) ライセンス: Link先を確認 | Fengjiao Li, Xingyu Zhou, and Bo Ji | (参考訳) 本稿では,分散バイアスフィードバックを用いた分散バンディットについて検討する。
この問題は、複数の実世界のアプリケーション(動的価格設定、セルラーネットワーク構成、ポリシー作成など)によって動機付けられており、大人口のユーザが中央組織が選択した行動の報奨に貢献するが、すべてのユーザーからのフィードバックを集めることは困難である。
代わりに、ユーザのサブセットからの(ユーザの不均一性による)偏りのあるフィードバックしか利用できない。
このような偏りのあるフィードバックに加えて、通信コストと計算複雑性の2つの現実的な課題に直面している。
これらの課題に対処するために,我々は,フィードバックを収集するフェーズでユーザをサンプリングしてバイアスを低減し,各フェーズ内のバッチ内のアクションを選択するための,新しい \emph{distributed phase-then-batch-based elimination (\texttt{dpbe})}アルゴリズムを慎重に設計する。
位相長、バッチサイズ、サブオプティカルアクションの除去に用いられる信頼度幅を適切に選択することにより、\textt{dpbe} は$\tilde{o}(t^{1-\alpha/2}+\sqrt{\gamma_t t})$(ここで $\alpha\in (0,1)$ は、チューニング可能なユーザサンプリングパラメータである。
さらに、'texttt{DPBE} は分散カーネル化帯域における通信コストと計算の複雑さを、最先端のアルゴリズム(元は標準カーネル化帯域のために開発された)の変種と比較して著しく低減することができる。
さらに,各種のemph{differential privacy}モデル(中央モデル,局所モデル,シャッフルモデルを含む)を組み込むことで,分散学習プロセスに参加するユーザに対して,プライバシ保証を提供する。
最後に,理論結果を検証し,実験結果を評価するために,広範なシミュレーションを行う。 In this paper, we study kernelized bandits with distributed biased feedback. This problem is motivated by several real-world applications (such as dynamic pricing, cellular network configuration, and policy making), where users from a large population contribute to the reward of the action chosen by a central entity, but it is difficult to collect feedback from all users. Instead, only biased feedback (due to user heterogeneity) from a subset of users may be available. In addition to such partial biased feedback, we are also faced with two practical challenges due to communication cost and computation complexity. To tackle these challenges, we carefully design a new \emph{distributed phase-then-batch-based elimination (\texttt{DPBE})} algorithm, which samples users in phases for collecting feedback to reduce the bias and employs \emph{maximum variance reduction} to select actions in batches within each phase. By properly choosing the phase length, the batch size, and the confidence width used for eliminating suboptimal actions, we show that \texttt{DPBE} achieves a sublinear regret of $\tilde{O}(T^{1-\alpha/2}+\sqrt{\gamma_T T})$, where $\alpha\in (0,1)$ is the user-sampling parameter one can tune. Moreover, \texttt{DPBE} can significantly reduce both communication cost and computation complexity in distributed kernelized bandits, compared to some variants of the state-of-the-art algorithms (originally developed for standard kernelized bandits). Furthermore, by incorporating various \emph{differential privacy} models (including the central, local, and shuffle models), we generalize \texttt{DPBE} to provide privacy guarantees for users participating in the distributed learning process. Finally, we conduct extensive simulations to validate our theoretical results and evaluate the empirical performance. | 翻訳日:2023-01-31 19:25:30 公開日:2023-01-28 |
# Vision Transformer Detector (ViTDet) を用いた空中物体検出 Aerial Image Object Detection With Vision Transformer Detector (ViTDet) ( http://arxiv.org/abs/2301.12058v1 ) ライセンス: Link先を確認 | Liya Wang, Alex Tien | (参考訳) 近年、環境研究、都市計画、情報監視といった大規模な地球科学的研究に重要な価値があるため、空中画像検出への関心が高まっている。
しかし、鳥眼の視点、複雑な背景、大きく様々な画像サイズ、異なるオブジェクトの外観、そしてよく注釈されたデータセットの不足のため、この課題は非常に難しい。
コンピュータビジョンの最近の進歩は、挑戦に取り組むことを約束している。
特に視覚トランスフォーマー検出器 (vitdet) は, 物体検出のためのマルチスケール特徴を抽出するために提案されている。
実験的な研究により、ViTDetのシンプルな設計は自然のシーン画像に優れた性能を発揮し、どんな検出器アーキテクチャにも容易に組み込めることを示した。
これまでのところ、航空画像の物体検出に挑戦するヴィットーの潜在的な利点は探求されていない。
そこで本研究では,Airbus Aircraft,RarePlanes,Dataset of Object DeTection in Aerial Image (DOTA)の3つのよく知られたデータセットに対して,VTDetの有効性を評価するために25の実験を行った。
以上の結果から,VTDetは水平有界箱(HBB)オブジェクト検出において,その畳み込みニューラルネットワークよりも高い精度(平均精度で最大17%)を実現し,指向性有界箱(OBB)オブジェクト検出の競合性能を達成できることが示唆された。
今後の研究のベースラインも確立しています。 The past few years have seen an increased interest in aerial image object detection due to its critical value to large-scale geo-scientific research like environmental studies, urban planning, and intelligence monitoring. However, the task is very challenging due to the birds-eye view perspective, complex backgrounds, large and various image sizes, different appearances of objects, and the scarcity of well-annotated datasets. Recent advances in computer vision have shown promise tackling the challenge. Specifically, Vision Transformer Detector (ViTDet) was proposed to extract multi-scale features for object detection. The empirical study shows that ViTDet's simple design achieves good performance on natural scene images and can be easily embedded into any detector architecture. To date, ViTDet's potential benefit to challenging aerial image object detection has not been explored. Therefore, in our study, 25 experiments were carried out to evaluate the effectiveness of ViTDet for aerial image object detection on three well-known datasets: Airbus Aircraft, RarePlanes, and Dataset of Object DeTection in Aerial images (DOTA). Our results show that ViTDet can consistently outperform its convolutional neural network counterparts on horizontal bounding box (HBB) object detection by a large margin (up to 17% on average precision) and that it achieves the competitive performance for oriented bounding box (OBB) object detection. Our results also establish a baseline for future research. | 翻訳日:2023-01-31 19:24:52 公開日:2023-01-28 |
# 点雲上の単一物体追跡のためのオブジェクト保存シアームネットワーク Object Preserving Siamese Network for Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2301.12057v1 ) ライセンス: Link先を確認 | Kaijie Zhao, Haitao Zhao, Zhongze Wang, Jingchao Peng, Zhengwei Hu | (参考訳) 明らかに、オブジェクトは3Dシングルオブジェクト追跡(SOT)タスクの重要な要素である。
しかし、以前のシームズベースのトラッカーは、バックボーンサンプリング中にランダムに落下したオブジェクトポイントによって引き起こされる負の効果を見落とし、トラッカーが正確なバウンディングボックス(BBox)を予測するのを妨げる。
オブジェクトポイントとそのオブジェクト認識特徴の保存を最大化しようとするアプローチの探索は、特に重要である。
そこで本研究では,オブジェクトの整合性を著しく維持し,トラッキング性能を向上するObject Preserving Siamese Network (OPSNet)を提案する。
まず、オブジェクトハイライトモジュールは、オブジェクト認識機能を強化し、テンプレートや検索領域から識別的特徴を抽出する。
そして、オブジェクト保存サンプリングは、オブジェクト保存された検索領域のシードを取得するオブジェクト候補を選択し、追跡に寄与しないバックグラウンドポイントをドロップする。
最後に、オブジェクトローカライゼーションネットワークは、オブジェクト保存された検索エリアシードに基づいて、3D BBoxを正確に検出する。
我々の手法は最先端のパフォーマンス(KITTIとWaymo Open Datasetでそれぞれ9.4%、成功率2.5%)を上回っている。 Obviously, the object is the key factor of the 3D single object tracking (SOT) task. However, previous Siamese-based trackers overlook the negative effects brought by randomly dropped object points during backbone sampling, which hinder trackers to predict accurate bounding boxes (BBoxes). Exploring an approach that seeks to maximize the preservation of object points and their object-aware features is of particular significance. Motivated by this, we propose an Object Preserving Siamese Network (OPSNet), which can significantly maintain object integrity and boost tracking performance. Firstly, the object highlighting module enhances the object-aware features and extracts discriminative features from template and search area. Then, the object-preserved sampling selects object candidates to obtain object-preserved search area seeds and drop the background points that contribute less to tracking. Finally, the object localization network precisely locates 3D BBoxes based on the object-preserved search area seeds. Extensive experiments demonstrate our method outperforms the state-of-the-art performance (9.4% and 2.5% success gain on KITTI and Waymo Open Dataset respectively). | 翻訳日:2023-01-31 19:24:28 公開日:2023-01-28 |
# オフポリティ評価のための変分枝モデル Variational Latent Branching Model for Off-Policy Evaluation ( http://arxiv.org/abs/2301.12056v1 ) ライセンス: Link先を確認 | Qitong Gao, Ge Gao, Min Chi, Miroslav Pajic | (参考訳) モデルに基づく手法は、最近、オフ政治評価(OPE)に大きな可能性を示しており、行動政策によって誘導されるオフライン軌道は、シミュレーションされた軌道のロールアウトとポリシーの性能評価に使用されるマルコフ決定過程(MDP)の遷移に適合している。
モデルベースのOPE手法には2つの課題がある。
まず、オフライントラジェクタは通常固定されるため、状態とアクションスペースが制限される傾向がある。
第二に、モデルに基づく手法の性能はパラメータの初期化に敏感である。
本研究では, 環境力学をコンパクトな潜在空間として定式化し, 次の状態と報酬をサンプリングすることにより, MDPの遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
具体的には、VLBMの変分(符号化)部と生成(復号)部の間の情報の流れを円滑にすることで、限られたトレーニングデータの基礎となる情報を取り出すために設計された、リカレント状態アライメント(RSA)を用いて、変分推論フレームワークを活用して拡張する。
さらに,ランダムに初期化されたモデル重みに対するモデルのロバスト性を改善するために,分岐アーキテクチャを導入する。
VLBMの有効性は、Dep OPE(DOPE)ベンチマークで評価され、トレーニング軌道は状態-作用空間の様々なカバレッジをもたらすように設計されている。
VLBM は既存の OPE 手法よりも高い性能を示す。 Model-based methods have recently shown great potential for off-policy evaluation (OPE); offline trajectories induced by behavioral policies are fitted to transitions of Markov decision processes (MDPs), which are used to rollout simulated trajectories and estimate the performance of policies. Model-based OPE methods face two key challenges. First, as offline trajectories are usually fixed, they tend to cover limited state and action space. Second, the performance of model-based methods can be sensitive to the initialization of their parameters. In this work, we propose the variational latent branching model (VLBM) to learn the transition function of MDPs by formulating the environmental dynamics as a compact latent space, from which the next states and rewards are then sampled. Specifically, VLBM leverages and extends the variational inference framework with the recurrent state alignment (RSA), which is designed to capture as much information underlying the limited training data, by smoothing out the information flow between the variational (encoding) and generative (decoding) part of VLBM. Moreover, we also introduce the branching architecture to improve the model's robustness against randomly initialized model weights. The effectiveness of the VLBM is evaluated on the deep OPE (DOPE) benchmark, from which the training trajectories are designed to result in varied coverage of the state-action space. We show that the VLBM outperforms existing state-of-the-art OPE methods in general. | 翻訳日:2023-01-31 19:24:09 公開日:2023-01-28 |
# tido:非定常環境におけるソースフリータスクインクリメンタル学習 TIDo: Source-free Task Incremental Learning in Non-stationary Environments ( http://arxiv.org/abs/2301.12055v1 ) ライセンス: Link先を確認 | Abhinit Kumar Ambastha, Leong Tze Yun | (参考訳) この研究は、自律エージェントが非定常環境で新しいタスクを学習するための漸進的な学習手法を示す。
DNNモデルベースのエージェントを更新して新しいターゲットタスクを学習するには、過去のトレーニングデータを格納する必要がある。
いくつかのラベル付き代表と大きなラベル付きターゲットデータセットを使用して、トレーニングされたモデルを適用してプライベートターゲットクラスを学ぶことで、ラベル付きターゲットデータセットの制限を克服するタスクインクリメンタル学習手法はほとんどない。
しかし、これらのメソッドはソースとターゲットのタスクが定常であると仮定している。
本研究では,非定常的および目標的タスクに適応可能なワンショットタスクインクリメンタル学習手法を提案する。
提案手法は,モデルの特徴空間とインクリメンタルデータとの相反性を最小限に抑え,更新仮説を学習する。
また, 蒸留損失を利用して, 従来学習した課題の破滅的な忘れ込みを低減する。
最後に、gaussianのプロトタイプを使用して、過去のトレーニングデータを格納する必要をなくしたexemplarインスタンスを生成します。
タスクインクリメンタルな学習における現在の作業とは異なり、私たちのモデルはソースとターゲットのタスク更新の両方をインクリメンタルに学習することができます。
本手法は,インクリメンタルオブジェクト検出と疾患予測モデル更新のための様々な問題設定について評価する。
我々は,共有クラスの性能を測定し,個人クラスの予測を対象とするアプローチを評価する。
その結果,既存のタスクインクリメンタル学習手法と比較して,パフォーマンスが向上した。 This work presents an incremental learning approach for autonomous agents to learn new tasks in a non-stationary environment. Updating a DNN model-based agent to learn new target tasks requires us to store past training data and needs a large labeled target task dataset. Few-shot task incremental learning methods overcome the limitation of labeled target datasets by adapting trained models to learn private target classes using a few labeled representatives and a large unlabeled target dataset. However, the methods assume that the source and target tasks are stationary. We propose a one-shot task incremental learning approach that can adapt to non-stationary source and target tasks. Our approach minimizes adversarial discrepancy between the model's feature space and incoming incremental data to learn an updated hypothesis. We also use distillation loss to reduce catastrophic forgetting of previously learned tasks. Finally, we use Gaussian prototypes to generate exemplar instances eliminating the need to store past training data. Unlike current work in task incremental learning, our model can learn both source and target task updates incrementally. We evaluate our method on various problem settings for incremental object detection and disease prediction model update. We evaluate our approach by measuring the performance of shared class and target private class prediction. Our results show that our approach achieved improved performance compared to existing state-of-the-art task incremental learning methods. | 翻訳日:2023-01-31 19:23:43 公開日:2023-01-28 |
# adversarial learning network: ソースフリーな教師なしドメインインクリメンタル学習 Adversarial Learning Networks: Source-free Unsupervised Domain Incremental Learning ( http://arxiv.org/abs/2301.12054v1 ) ライセンス: Link先を確認 | Abhinit Kumar Ambastha, Leong Tze Yun | (参考訳) この研究は、非定常環境でディープニューラルネットワーク(DNN)モデルを漸進的に更新するアプローチを示す。
DNNモデルは入力データ分布の変化に敏感であり、定常的な入力データセットによる問題設定に制限される。
非定常環境では、DNNモデルの更新にはパラメータの再トレーニングやモデル微調整が必要である。
DNN分類モデルを更新するための教師なしソースフリー手法を提案する。
この作品の貢献は2つある。
第二に、教師なしのドメイン適応を用いて、ラベルなしのデータを使って既存のモデルを段階的に適応させる。
既存の手法とは異なり,本手法では過去のトレーニングデータを格納することなく,非定常的なソースとターゲットタスクに対して段階的にDNNモデルを更新することができる。
我々はインクリメンタルな感情予測とインクリメンタルな疾患予測アプリケーションについての研究を評価し、最先端の連続学習、ドメイン適応、アンサンブル学習法と比較した。
その結果,既存のインクリメンタル学習手法と比較して,学習性能が向上した。
多くのイテレーションで過去の知識を最小限に忘れることが、教師なしの自己学習システムの開発に役立ちます。 This work presents an approach for incrementally updating deep neural network (DNN) models in a non-stationary environment. DNN models are sensitive to changes in input data distribution, which limits their application to problem settings with stationary input datasets. In a non-stationary environment, updating a DNN model requires parameter re-training or model fine-tuning. We propose an unsupervised source-free method to update DNN classification models. The contributions of this work are two-fold. First, we use trainable Gaussian prototypes to generate representative samples for future iterations; second, using unsupervised domain adaptation, we incrementally adapt the existing model using unlabelled data. Unlike existing methods, our approach can update a DNN model incrementally for non-stationary source and target tasks without storing past training data. We evaluated our work on incremental sentiment prediction and incremental disease prediction applications and compared our approach to state-of-the-art continual learning, domain adaptation, and ensemble learning methods. Our results show that our approach achieved improved performance compared to existing incremental learning methods. We observe minimal forgetting of past knowledge over many iterations, which can help us develop unsupervised self-learning systems. | 翻訳日:2023-01-31 19:23:20 公開日:2023-01-28 |
# 厳密なバウンディングボックスアノテーションを超えた弱教師付き画像セグメンテーション Weakly Supervised Image Segmentation Beyond Tight Bounding Box Annotations ( http://arxiv.org/abs/2301.12053v1 ) ライセンス: Link先を確認 | Juan Wang and Bin Xia | (参考訳) 文献における弱教師付き画像分割アプローチは,厳密なバウンディングボックスによる高いセグメンテーション性能を達成し,ゆるいバウンディングボックスによって監督された場合の性能を著しく低下させる。
しかしながら、ゆるいバウンディングボックスと比較して、ボックスの4辺の正確な位置に関する厳密な要件のため、タイトなバウンディングボックスを取得することははるかに困難である。
そこで本研究では,ゆるい境界ボックスを監督として使用する場合に,セグメンテーション性能を良好に維持できるかどうかを検討する。
本研究は、画像分割を支援するために極変換に基づくMIL戦略を統合することにより、厳密な境界ボックス管理のための従来の並列変換に基づくマルチインスタンス学習(MIL)を拡張した。
提案する極性変換に基づくミルの定式化は、密接な境界ボックスとゆるい境界ボックスの両方で動作し、正の袋は境界ボックスの極性ライン内のピクセルとして定義され、一方のエンドポイントはボックスで囲まれたオブジェクトの内側にあり、もう一方のエンドポイントはボックスの4つの側面のどちらかにある。
さらに、極性変換の原点に近いピクセルがボックス内のオブジェクトに属する可能性が高いという観測を組み込むために、重み付き滑らかな最大近似が導入された。
実験では, 異なる精度の箱が検討された場合, ダイス係数を用いて2つの公開データセット上で評価を行った。
提案手法は,すべての精度レベルで境界ボックスの最先端性能を実現し,ゆるい境界ボックスアノテーションにおける緩やかで適度なエラーに対して頑健であることを示す。
コードは \url{https://github.com/wangjuan313/wsis-beyond-tightbb} で入手できる。 Weakly supervised image segmentation approaches in the literature usually achieve high segmentation performance using tight bounding box supervision and decrease the performance greatly when supervised by loose bounding boxes. However, compared with loose bounding box, it is much more difficult to acquire tight bounding box due to its strict requirements on the precise locations of the four sides of the box. To resolve this issue, this study investigates whether it is possible to maintain good segmentation performance when loose bounding boxes are used as supervision. For this purpose, this work extends our previous parallel transformation based multiple instance learning (MIL) for tight bounding box supervision by integrating an MIL strategy based on polar transformation to assist image segmentation. The proposed polar transformation based MIL formulation works for both tight and loose bounding boxes, in which a positive bag is defined as pixels in a polar line of a bounding box with one endpoint located inside the object enclosed by the box and the other endpoint located at one of the four sides of the box. Moreover, a weighted smooth maximum approximation is introduced to incorporate the observation that pixels closer to the origin of the polar transformation are more likely to belong to the object in the box. The proposed approach was evaluated on two public datasets using dice coefficient when bounding boxes at different precision levels were considered in the experiments. The results demonstrate that the proposed approach achieves state-of-the-art performance for bounding boxes at all precision levels and is robust to mild and moderate errors in the loose bounding box annotations. The codes are available at \url{https://github.com/wangjuan313/wsis-beyond-tightBB}. | 翻訳日:2023-01-31 19:23:01 公開日:2023-01-28 |
# サブセット選択における重要度の導入 Leveraging Importance Weights in Subset Selection ( http://arxiv.org/abs/2301.12052v1 ) ライセンス: Link先を確認 | Gui Citovsky, Giulia DeSalvo, Sanjiv Kumar, Srikumar Ramalingam, Afshin Rostamizadeh, Yunjuan Wang | (参考訳) 本稿では,任意のモデルファミリと組むように設計したサブセット選択アルゴリズムを提案する。
このような設定では、アルゴリズムは一度に1つのサンプルをサンプリングできるが、オーバーヘッドコストを制限するために、十分な量のサンプルが選択されると、その状態(つまり、さらなるトレーニングモデル重み)を更新できるだけである。
IWeSアルゴリズムは、各サンプルに割り当てられたサンプリング確率が、以前選択されたバッチでトレーニングされたモデルのエントロピーに基づいて、重要サンプリングによってサンプルを選択する。
IWeSは7つの公開データセットの他のサブセット選択アルゴリズムと比較して、大幅なパフォーマンス向上を認めた。
また、選択時にラベル情報を利用できないアクティブラーニング環境では競争力がある。
また,重み付け手法の重要性を裏付ける最初の理論解析を行い,一般化とサンプリング率の限界を証明した。 We present a subset selection algorithm designed to work with arbitrary model families in a practical batch setting. In such a setting, an algorithm can sample examples one at a time but, in order to limit overhead costs, is only able to update its state (i.e. further train model weights) once a large enough batch of examples is selected. Our algorithm, IWeS, selects examples by importance sampling where the sampling probability assigned to each example is based on the entropy of models trained on previously selected batches. IWeS admits significant performance improvement compared to other subset selection algorithms for seven publicly available datasets. Additionally, it is competitive in an active learning setting, where the label information is not available at selection time. We also provide an initial theoretical analysis to support our importance weighting approach, proving generalization and sampling rate bounds. | 翻訳日:2023-01-31 19:22:30 公開日:2023-01-28 |
# 生理的信号を用いた学生のエクサムスコア予測 Predicting Students' Exam Scores Using Physiological Signals ( http://arxiv.org/abs/2301.12051v1 ) ライセンス: Link先を確認 | Willie Kang, Sean Kim, Eliot Yoo, Samuel Kim | (参考訳) 急性ストレスは, 成績に肯定的, 否定的な影響があることが示されているが, 学生の成績にストレスが及ぼす影響についてはあまり分かっていない。
そこで本研究では,生理的ストレス信号と試験成績の相関関係について検討した。
本研究は、3つの異なる試験で10人の大学生の複数の生理的シグナルを用いて行った。
この研究は、皮膚温度、心拍数、電磁気活動の3つの信号に焦点を当てた。
特徴として統計を抽出し,様々なバイナリ分類器に入力し,相対的に上位または下位のグレードを予測する。
実験結果は、様々な機械学習アルゴリズムのうち、k-nearest 近傍アルゴリズムで 0.81 ROC-AUC が得られた。 While acute stress has been shown to have both positive and negative effects on performance, not much is known about the impacts of stress on students grades during examinations. To answer this question, we examined whether a correlation could be found between physiological stress signals and exam performance. We conducted this study using multiple physiological signals of ten undergraduate students over three different exams. The study focused on three signals, i.e., skin temperature, heart rate, and electrodermal activity. We extracted statistics as features and fed them into a variety of binary classifiers to predict relatively higher or lower grades. Experimental results showed up to 0.81 ROC-AUC with k-nearest neighbor algorithm among various machine learning algorithms. | 翻訳日:2023-01-31 19:22:15 公開日:2023-01-28 |
# 身体的なエージェントは めちゃめちゃな羊の夢を?
言語指導世界モデルを用いた身体的意思決定 Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling ( http://arxiv.org/abs/2301.12050v1 ) ライセンス: Link先を確認 | Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, Roy Fox | (参考訳) 強化学習(Reinforcement Learning, RL)エージェントは通常、世界の知識のないタブララザを学習する。
高レベルサブゴールの知識とサブゴール間の遷移を初期化すれば、RLエージェントはこの抽象世界モデル(AWM)を計画と探索に利用できる。
そこで本研究では,LL エージェントのサンプル効率を向上させるため,探索中に検証・検証された AWM を仮説化するために,LLM を用いた少数ショット大言語モデルを提案する。
筆者らのDECKARDエージェントは,(1) LLMを用いてタスクをサブゴールの列に分解するドリームフェーズ,(2) エージェントが各サブゴールのモジュラポリシを学習し,その経験に基づいて仮定されたAWMを検証または修正するウェイクフェーズの2段階において,Minecraftの項目作成にLLM誘導探索を適用した。
LLM による AWM の仮説を立て,エージェント経験に基づく AWM の検証を行う手法は,従来の手法によるサンプリング効率を桁違いに向上させるだけでなく,LLM の誤りに対して頑健であり,環境力学に基づく知識と LLM からのノイズの多いインターネットスケール情報とのブレンドに成功している。 Reinforcement learning (RL) agents typically learn tabula rasa, without prior knowledge of the world, which makes learning complex tasks with sparse rewards difficult. If initialized with knowledge of high-level subgoals and transitions between subgoals, RL agents could utilize this Abstract World Model (AWM) for planning and exploration. We propose using few-shot large language models (LLMs) to hypothesize an AWM, that is tested and verified during exploration, to improve sample efficiency in embodied RL agents. Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft in two phases: (1) the Dream phase where the agent uses an LLM to decompose a task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase where the agent learns a modular policy for each subgoal and verifies or corrects the hypothesized AWM on the basis of its experiences. Our method of hypothesizing an AWM with LLMs and then verifying the AWM based on agent experience not only increases sample efficiency over contemporary methods by an order of magnitude but is also robust to and corrects errors in the LLM, successfully blending noisy internet-scale information from LLMs with knowledge grounded in environment dynamics. | 翻訳日:2023-01-31 19:22:05 公開日:2023-01-28 |
# DALI:雑音のある部分的なラベル学習におけるラベルの重要性を動的に調整する DALI: Dynamically Adjusted Label Importance for Noisy Partial Label Learning ( http://arxiv.org/abs/2301.12077v1 ) ライセンス: Link先を確認 | Mingyu Xu, Zheng Lian, Lei Feng, Bin Liu, Jianhua Tao | (参考訳) ノイズのある部分ラベル学習(noisy pll)は、弱い教師付き学習の重要な分野である。
基底トラスラベルが候補セットになければならないPLLとは異なり、ノイズPLLはこの制約を緩和し、基底トラスラベルが候補セットに含まれないようにする。
この問題に対処するため、既存の作業ではノイズサンプルを検出し、各ノイズサンプルの接地ラベルを推定しようと試みている。
しかし、検出エラーは避けられず、これらのエラーはトレーニング中に蓄積され、モデル最適化に継続的に影響を及ぼす。
この課題に対処するために,我々は '`Dynamically Adjusted Label Importance (DALI)'' と呼ばれる,ノイズの多いPLLのための新しいフレームワークを提案する。
これは、初期候補セットとモデル出力を理論的保証でトレーディングすることで、検出エラーの負の影響を低減することを目的としている。
複数のデータセットに対する実験結果から、DALIはノイズの多いPLLに対する既存の最先端アプローチに成功していることが示された。
私たちのコードはまもなく公開されます。 Noisy partial label learning (noisy PLL) is an important branch of weakly supervised learning. Unlike PLL where the ground-truth label must reside in the candidate set, noisy PLL relaxes this constraint and allows the ground-truth label may not be in the candidate set. To address this problem, existing works attempt to detect noisy samples and estimate the ground-truth label for each noisy sample. However, detection errors are inevitable, and these errors will accumulate during training and continuously affect model optimization. To address this challenge, we propose a novel framework for noisy PLL, called ``Dynamically Adjusted Label Importance (DALI)''. It aims to reduce the negative impact of detection errors by trading off the initial candidate set and model outputs with theoretical guarantees. Experimental results on multiple datasets demonstrate that our DALI succeeds over existing state-of-the-art approaches on noisy PLL. Our code will soon be publicly available. | 翻訳日:2023-01-31 19:15:52 公開日:2023-01-28 |
# 注記付き例を使わずに内在性バイアス評価尺度の比較 Comparing Intrinsic Gender Bias Evaluation Measures without using Human Annotated Examples ( http://arxiv.org/abs/2301.12074v1 ) ライセンス: Link先を確認 | Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki | (参考訳) プレトレーニング言語モデル (plm) では, 様々な社会的バイアスが同定され, それらのバイアスを定量化するための内在的バイアス評価手法が提案されている。
先行研究は、既存の内在バイアス評価尺度を比較するために、人間の注釈付き例に依存している。
しかしながら、このアプローチは、人間のアノテーションをリクルートする際のコストや困難のため、異なる言語に適応することは容易ではなく、大規模な評価にも適応できない。
この制限を克服するために,人間に注釈された事例に頼らずに本質的ジェンダーバイアス評価尺度を比較する手法を提案する。
具体的には,男女関係の単語リストを用いた無記名コーパスから自動的に抽出した,男性と男女の異なる文を用いて,複数のバイアス制御型plmを作成する。
次に、各バイアス制御PLMを固有バイアス評価尺度を用いて評価し、計算されたバイアススコアとPLMの微調整に用いる性別比とのランク相関を算出する。
複数コーパスとPLMを用いた実験の結果,提案手法では人間の注釈例を必要としない相関関係が,先行研究における人間の注釈例と同等であることがわかった。 Numerous types of social biases have been identified in pre-trained language models (PLMs), and various intrinsic bias evaluation measures have been proposed for quantifying those social biases. Prior works have relied on human annotated examples to compare existing intrinsic bias evaluation measures. However, this approach is not easily adaptable to different languages nor amenable to large scale evaluations due to the costs and difficulties when recruiting human annotators. To overcome this limitation, we propose a method to compare intrinsic gender bias evaluation measures without relying on human-annotated examples. Specifically, we create multiple bias-controlled versions of PLMs using varying amounts of male vs. female gendered sentences, mined automatically from an unannotated corpus using gender-related word lists. Next, each bias-controlled PLM is evaluated using an intrinsic bias evaluation measure, and the rank correlation between the computed bias scores and the gender proportions used to fine-tune the PLMs is computed. Experiments on multiple corpora and PLMs repeatedly show that the correlations reported by our proposed method that does not require human annotated examples are comparable to those computed using human annotated examples in prior work. | 翻訳日:2023-01-31 19:15:35 公開日:2023-01-28 |
# CCUBデータセットを用いたテキスト・画像合成モデルの等価表現に向けて Towards Equitable Representation in Text-to-Image Synthesis Models with the Cross-Cultural Understanding Benchmark (CCUB) Dataset ( http://arxiv.org/abs/2301.12073v1 ) ライセンス: Link先を確認 | Zhixuan Liu, Youeun Shin, Beverley-Claire Okogwu, Youngsik Yun, Lia Coleman, Peter Schaldenbrand, Jihie Kim, Jean Oh | (参考訳) メディアの正確な表現は、それを消費する人々の幸福を改善できることが示されている。
対照的に、不正確な表現は視聴者に悪影響を与え、他の文化の有害な知覚につながる。
生成した画像の包括的表現を実現するために,私たちが収集した小さいが文化的にキュレートされたデータセットをCCUB(Cross-Cultural Understanding Benchmark)データセットとして利用し,巨大なデータセットで広く使われているバイアスに対処する手法を提案する。
提案手法は,(1)事前学習したテキストと画像の合成モデルである安定拡散をCCUBのテキストと画像のペアに微調整することで視覚的コンテキストを付加し,(2)微調整された大言語モデルであるGPT-3を用いて自動プロンプトエンジニアリングにより意味的コンテキストを付加する。
CCUBデータセットをキュレートし,その文化と個人的関係を持つ人々からアプローチを評価した。
本研究は,テキストと画像の両方を用いたプライミングが,品質を維持しつつ,生成画像の文化的妥当性の向上と不快感の低減に有効であることを示す。 It has been shown that accurate representation in media improves the well-being of the people who consume it. By contrast, inaccurate representations can negatively affect viewers and lead to harmful perceptions of other cultures. To achieve inclusive representation in generated images, we propose a culturally-aware priming approach for text-to-image synthesis using a small but culturally curated dataset that we collected, known here as Cross-Cultural Understanding Benchmark (CCUB) Dataset, to fight the bias prevalent in giant datasets. Our proposed approach is comprised of two fine-tuning techniques: (1) Adding visual context via fine-tuning a pre-trained text-to-image synthesis model, Stable Diffusion, on the CCUB text-image pairs, and (2) Adding semantic context via automated prompt engineering using the fine-tuned large language model, GPT-3, trained on our CCUB culturally-aware text data. CCUB dataset is curated and our approach is evaluated by people who have a personal relationship with that particular culture. Our experiments indicate that priming using both text and image is effective in improving the cultural relevance and decreasing the offensiveness of generated images while maintaining quality. | 翻訳日:2023-01-31 19:15:15 公開日:2023-01-28 |
# RCsearcher:Deep Q-Learningによる再合成における反応中心の同定 RCsearcher: Reaction Center Identification in Retrosynthesis via Deep Q-Learning ( http://arxiv.org/abs/2301.12071v1 ) ライセンス: Link先を確認 | Zixun Lan, Zuo Zeng, Binjie Hong, Zhenfu Liu and Fei Ma | (参考訳) 反応中心は生成物中の原子で、局所的性質は反応物中の対応する原子と同一ではない。
反応中心の同定に関する以前の研究は、主に半テンプレートのレトロシンセシス法に基づいている。
さらに、それらは単一反応中心同定に限られる。
しかし、多くの反応中心は実際には複数の結合や原子で構成されている。
これを多重反応中心(multiple reaction center)と呼ぶ。
本稿では,グラフニューラルネットワークと深部強化学習の利点を組み合わせた,単一および複数反応中心同定のための統合フレームワークRCsearcherを提案する。
この枠組みにおける重要な洞察は、単一または多重の反応中心は分子製品グラフのノード誘起部分グラフでなければならないということである。
各ステップにおいて、分子積グラフ内の1つのノードを選択し、探索されたノード誘発サブグラフにそれを作用として追加することを検討する。
総合的な実験は、RCsearcherが他のベースラインを一貫して上回り、トレーニングセットにない反応中心パターンを外挿できることを示した。
アブレーション実験は、ビーム探索やアクション空間のワンホップ制約を含む個々の成分の有効性を検証する。 The reaction center consists of atoms in the product whose local properties are not identical to the corresponding atoms in the reactants. Prior studies on reaction center identification are mainly on semi-templated retrosynthesis methods. Moreover, they are limited to single reaction center identification. However, many reaction centers are comprised of multiple bonds or atoms in reality. We refer to it as the multiple reaction center. This paper presents RCsearcher, a unified framework for single and multiple reaction center identification that combines the advantages of the graph neural network and deep reinforcement learning. The critical insight in this framework is that the single or multiple reaction center must be a node-induced subgraph of the molecular product graph. At each step, it considers choosing one node in the molecular product graph and adding it to the explored node-induced subgraph as an action. Comprehensive experiments demonstrate that RCsearcher consistently outperforms other baselines and can extrapolate the reaction center patterns that have not appeared in the training set. Ablation experiments verify the effectiveness of individual components, including the beam search and one-hop constraint of action space. | 翻訳日:2023-01-31 19:14:48 公開日:2023-01-28 |
# Epsilon-Near-Zero 行動の追跡とフィードバック制御による動的生成 Dynamical Generation of Epsilon-Near-Zero Behaviour via Tracking and Feedback Control ( http://arxiv.org/abs/2301.12069v1 ) ライセンス: Link先を確認 | Jacob Masur, Denys I. Bondar, Gerard McCaul | (参考訳) 現在までに、無限位相速度を特徴とするEpsilon near zero (ENZ) 反応は、主に調整されたメタマテリアルに単色光源を適用することで達成されている。
そこで本研究では,多体システムにおいて動的に発生するブロードバンドENZ応答をトラッキングとフィードバック制御により誘導する方程式を導出する。
さらに、この反応が理想インダクタと同一の電流-エネルギー関係をもたらすことが分かる。
我々はFermi-Hubbardモデルを用いて,ナノスケールでの光学計算を推し進める可能性のあるこれらの結果を数値的に検証する。 To date, epsilon near zero (ENZ) responses, characterized by an infinite phase velocity, are primarily achieved by applying a monochromatic light source to a tailored metamaterial. Here, we derive the equations for inducing a dynamically generated broadband ENZ response in a large class of many-body systems via tracking and feedback control. We further find that this response leads to a current-energy relationship identical to that of an ideal inductor. Using a Fermi-Hubbard model, we numerically confirm these results which have the potential to advance optical computation on the nanoscale. | 翻訳日:2023-01-31 19:14:32 公開日:2023-01-28 |
# シームス配列構造拡散軌道予測による物理誘起タンパク質エンコーダの事前学習 Physics-Inspired Protein Encoder Pre-Training via Siamese Sequence-Structure Diffusion Trajectory Prediction ( http://arxiv.org/abs/2301.12068v1 ) ライセンス: Link先を確認 | Zuobai Zhang, Minghao Xu, Aur\'elie Lozano, Vijil Chenthamarakshan, Payel Das, Jian Tang | (参考訳) タンパク質の事前学習法は近年関心を集めており、タンパク質の配列や構造を利用している。
そこで本研究では, タンパク質エンコーダをプレトレーニングするDiffPreTアプローチを, 配列構造多モード拡散モデルにより提案する。
DiffPreTはエンコーダを誘導し、配列と構造の結合分布を取得する多モーダル拡散軌道に沿って摂動されたタンパク質配列と構造を復元する。
必須タンパク質のコンフォメーション変化を考慮すると,シムズ拡散軌道予測(SiamDiff)と呼ばれる物理に着想を得たDiffPreTを増強し,タンパク質のコンフォメーションの異なるコンフォメーション間の相関を捉える。
SiamDiffはこの目標を達成するために、構造的に相関したコンバータの拡散軌跡の表現間の相互情報を最大化する。
DiffPreTとSiamDiffが原子レベルおよび残基レベルの構造に基づくタンパク質理解タスクに与える影響について検討した。
実験結果から,全タスクにおいてDiffPreTのパフォーマンスは一貫して競争力があり,SiamDiffは全タスクの平均ランクを考慮して,新たな最先端のパフォーマンスを実現していることがわかった。
ソースコードは受理後に公開される。 Pre-training methods on proteins are recently gaining interest, leveraging either protein sequences or structures, while modeling their joint energy landscape is largely unexplored. In this work, inspired by the success of denoising diffusion models, we propose the DiffPreT approach to pre-train a protein encoder by sequence-structure multimodal diffusion modeling. DiffPreT guides the encoder to recover the native protein sequences and structures from the perturbed ones along the multimodal diffusion trajectory, which acquires the joint distribution of sequences and structures. Considering the essential protein conformational variations, we enhance DiffPreT by a physics-inspired method called Siamese Diffusion Trajectory Prediction (SiamDiff) to capture the correlation between different conformers of a protein. SiamDiff attains this goal by maximizing the mutual information between representations of diffusion trajectories of structurally-correlated conformers. We study the effectiveness of DiffPreT and SiamDiff on both atom- and residue-level structure-based protein understanding tasks. Experimental results show that the performance of DiffPreT is consistently competitive on all tasks, and SiamDiff achieves new state-of-the-art performance, considering the mean ranks on all tasks. The source code will be released upon acceptance. | 翻訳日:2023-01-31 19:14:16 公開日:2023-01-28 |
# 部分的不変性による最適特徴の学習 Learning Optimal Features via Partial Invariance ( http://arxiv.org/abs/2301.12067v1 ) ライセンス: Link先を確認 | Moulik Choraria, Ibtihal Ferwana, Ankur Mani, Lav R. Varshney | (参考訳) テスト時の分散シフトに堅牢な学習モデルは、ドメインの一般化と、実際の適用可能性のより広いコンテキストにおいて重要な関心事である。
不変リスク最小化(IRM、Invariant Risk Minimization)は、複数のドメインから深い不変性を学ぶことを目的とした特定のフレームワークである。
これらの手法の成功の鍵となる仮定は、基礎となる因果的メカニズムと特徴がドメイン間で不変であり、真の不変な特徴は最適な予測子を学ぶのに十分であるということである。
実際の問題設定では、これらの仮定はしばしば満たされず、irmはそのタスクの最適でない予測子を学習する。
本稿では、IRMフレームワークの緩和として部分的不変性の概念を提案する。
問題設定では、まずIRMソリューションのサブ最適性を強調します。
次に、トレーニングドメインの分割が、ドメインに関するメタ情報へのアクセスを前提として、部分的不変性を通じて不変モデルの性能を改善する方法を示す。
最後に,線形設定と言語分類タスク,深層モデルを用いた画像のいずれにおいても実験を行い,結論を検証した。 Learning models that are robust to test-time distribution shifts is a key concern in domain generalization, and in the wider context of their real-life applicability. Invariant Risk Minimization (IRM) is one particular framework that aims to learn deep invariant features from multiple domains and has subsequently led to further variants. A key assumption for the success of these methods requires that the underlying causal mechanisms/features remain invariant across domains and the true invariant features be sufficient to learn the optimal predictor. In practical problem settings, these assumptions are often not satisfied, which leads to IRM learning a sub-optimal predictor for that task. In this work, we propose the notion of partial invariance as a relaxation of the IRM framework. Under our problem setting, we first highlight the sub-optimality of the IRM solution. We then demonstrate how partitioning the training domains, assuming access to some meta-information about the domains, can help improve the performance of invariant models via partial invariance. Finally, we conduct several experiments, both in linear settings as well as with classification tasks in language and images with deep models, which verify our conclusions. | 翻訳日:2023-01-31 19:13:35 公開日:2023-01-28 |
# truth machines: ai言語モデルにおけるveracityの合成 Truth Machines: Synthesizing Veracity in AI Language Models ( http://arxiv.org/abs/2301.12066v1 ) ライセンス: Link先を確認 | Luke Munn, Liam Magee, Vanicka Arora | (参考訳) AI技術が医療、アカデミック、人的資源、法律、その他多くの分野に展開されるにつれ、彼らは真実のデファクト・アービターとなる。
しかし、真実は多くの異なる定義とアプローチで、非常に議論されている。
本稿では,AIシステムにおける真理の闘争と,現在までの一般的な対応について論じる。
次に、大規模な言語モデルであるInstructGPTにおける真理の生成を調査し、データの収集、モデルアーキテクチャ、社会的フィードバックメカニズムがどのように異なる妥当性の理解を織り込むかを強調した。
この性能を真理の運用化として概念化し、しばしば矛盾する主張がスムーズに合成され、真理の主張に自信を持って提示される。
これら同じ論理と矛盾がinstructの後継であるchatgptで発生し、真理を非自明な問題として繰り返し論じている。
我々は,社会性の向上と「現実性」の強化が,将来の言語モデルの真理評価能力を高めるための有望な2つのベクトルであることを示唆する。
しかし、aiの真理を社会的な実践として考えることから、私たちはどのような“真実”を望むのか、という結論に至りました。 As AI technologies are rolled out into healthcare, academia, human resources, law, and a multitude of other domains, they become de-facto arbiters of truth. But truth is highly contested, with many different definitions and approaches. This article discusses the struggle for truth in AI systems and the general responses to date. It then investigates the production of truth in InstructGPT, a large language model, highlighting how data harvesting, model architectures, and social feedback mechanisms weave together disparate understandings of veracity. It conceptualizes this performance as an operationalization of truth, where distinct, often conflicting claims are smoothly synthesized and confidently presented into truth-statements. We argue that these same logics and inconsistencies play out in Instruct's successor, ChatGPT, reiterating truth as a non-trivial problem. We suggest that enriching sociality and thickening "reality" are two promising vectors for enhancing the truth-evaluating capacities of future language models. We conclude, however, by stepping back to consider AI truth-telling as a social practice: what kind of "truth" do we as listeners desire? | 翻訳日:2023-01-31 19:13:14 公開日:2023-01-28 |
# プライバシー保護分散比較のための分散エントロピー最適輸送 Decentralized Entropic Optimal Transport for Privacy-preserving Distributed Distribution Comparison ( http://arxiv.org/abs/2301.12065v1 ) ライセンス: Link先を確認 | Xiangfeng Wang and Hongteng Xu and Moyi Yang | (参考訳) プライバシ保護分散比較(privacy-preserving distributed distribution comparison)は、データが分散システム内の異なるエージェントに分散され、エージェント間で共有できないディストリビューション間の距離を測定する。
本研究では,プライバシ保護と通信効率の両立を理論的に保証した,新しい分散エントロピー最適輸送法(eot)を提案する。
特に,最小バッチランダム化ブロック座標降下法(MRBCD)を設計し,分散EOT距離を2倍に最適化する。
二重変数は異なるエージェントに分散し、部分エージェント間の限られた通信でローカルかつ反復的に更新される。
双対変数の勾配に関与するカーネル行列を分散カーネル近似法により推定し、各エージェントは一発の通信でサブカーネル行列を近似して保存するだけで、生データを共有できる。
本稿では,本手法の通信複雑性を解析し,収束誤差,近似カーネル,ストレージと通信プロトコル間のミスマッチに起因する近似誤差の理論的バウンダリを提供する。
合成データと実世界の分散ドメイン適応タスクの実験により,本手法の有効性が示された。 Privacy-preserving distributed distribution comparison measures the distance between the distributions whose data are scattered across different agents in a distributed system and cannot be shared among the agents. In this study, we propose a novel decentralized entropic optimal transport (EOT) method, which provides a privacy-preserving and communication-efficient solution to this problem with theoretical guarantees. In particular, we design a mini-batch randomized block-coordinate descent (MRBCD) scheme to optimize the decentralized EOT distance in its dual form. The dual variables are scattered across different agents and updated locally and iteratively with limited communications among partial agents. The kernel matrix involved in the gradients of the dual variables is estimated by a distributed kernel approximation method, and each agent only needs to approximate and store a sub-kernel matrix by one-shot communication and without sharing raw data. We analyze our method's communication complexity and provide a theoretical bound for the approximation error caused by the convergence error, the approximated kernel, and the mismatch between the storage and communication protocols. Experiments on synthetic data and real-world distributed domain adaptation tasks demonstrate the effectiveness of our method. | 翻訳日:2023-01-31 19:12:55 公開日:2023-01-28 |
# HAT-GAE:階層型適応型マスキングとトレーニング可能な破壊を備えた自己監督型グラフ自動エンコーダ HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive Masking and Trainable Corruption ( http://arxiv.org/abs/2301.12063v1 ) ライセンス: Link先を確認 | Chengyu Sun | (参考訳) 近年,コンピュータビジョンや自然言語処理における表現学習のフレームワークとして自己教師付きオートエンコーダが登場しているが,画像やテキストと比較して非ユークリッド的かつ複雑なグラフ構造や,従来のオートエンコーダアーキテクチャの制限により,グラフデータへの応用は限られた性能で達成されている。
本稿では,グラフデータに対する自動エンコーダの性能に影響する要因を調査し,グラフ表現学習のための新しい自動エンコーダモデルを提案する。
本モデルでは,階層的適応マスク機構を取り入れ,人間の認知学習の過程を模倣する訓練の難しさを段階的に高め,学習表現のロバスト性を高めるための学習可能な腐敗スキームを具体化する。
10個のベンチマークデータセットの広範な実験を通じて,提案手法が最先端グラフ表現学習モデルよりも優れていることを示す。 Self-supervised auto-encoders have emerged as a successful framework for representation learning in computer vision and natural language processing in recent years, However, their application to graph data has been met with limited performance due to the non-Euclidean and complex structure of graphs in comparison to images or text, as well as the limitations of conventional auto-encoder architectures. In this paper, we investigate factors impacting the performance of auto-encoders on graph data and propose a novel auto-encoder model for graph representation learning. Our model incorporates a hierarchical adaptive masking mechanism to incrementally increase the difficulty of training in order to mimic the process of human cognitive learning, and a trainable corruption scheme to enhance the robustness of learned representations. Through extensive experimentation on ten benchmark datasets, we demonstrate the superiority of our proposed method over state-of-the-art graph representation learning models. | 翻訳日:2023-01-31 19:12:35 公開日:2023-01-28 |
# 無バイアスで効率的な自己監督型インクリメンタルコントラスト学習 Unbiased and Efficient Self-Supervised Incremental Contrastive Learning ( http://arxiv.org/abs/2301.12104v1 ) ライセンス: Link先を確認 | Cheng Ji, Jianxin Li, Hao Peng, Jia Wu, Xingcheng Fu, Qingyun Sun, Phillip S. Yu | (参考訳) コントラスト学習(CL)は、コンピュータビジョンやグラフ表現学習など幅広い分野において、強力な自己教師型アプローチであることが証明されている。
しかし、CLの漸進的な学習問題が研究されることはめったになく、現実のアプリケーションに適用する際の制限が生じる。
コントラスト学習(Contrastive learning)は、インクリメンタルシナリオで変化するノイズ分布から、負のサンプルを識別する。
したがって、ノイズ分布のないデータ変更だけを適合させることでバイアスが生じ、直接再トレーニングすることで効率が低下する。
そこで本研究では,本研究のギャップを埋めるために,自己教師付きインクリメンタルコントラスト学習(icl)フレームワークを提案する。
(i)新しいインフォデンス(nce-ii)損失関数は、古いデータのノイズ分布の変化を推定し、再訓練に関してバイアスを伴わないようにする。
二 学習過程の状況に応じて学習率を適応的に学習し、段階的な学習に欠かせない高速収束を実現することができる深層強化学習速度学習(LRL)機構によるメタ最適化。
理論的には、提案されたiclは、固体数学的導出に基づく再訓練と同値である。
実際には、異なる領域での広範な実験により、新しいモデルを再訓練することなく、ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。 Contrastive Learning (CL) has been proved to be a powerful self-supervised approach for a wide range of domains, including computer vision and graph representation learning. However, the incremental learning issue of CL has rarely been studied, which brings the limitation in applying it to real-world applications. Contrastive learning identifies the samples with the negative ones from the noise distribution that changes in the incremental scenarios. Therefore, only fitting the change of data without noise distribution causes bias, and directly retraining results in low efficiency. To bridge this research gap, we propose a self-supervised Incremental Contrastive Learning (ICL) framework consisting of (i) a novel Incremental InfoNCE (NCE-II) loss function by estimating the change of noise distribution for old data to guarantee no bias with respect to the retraining, (ii) a meta-optimization with deep reinforced Learning Rate Learning (LRL) mechanism which can adaptively learn the learning rate according to the status of the training processes and achieve fast convergence which is critical for incremental learning. Theoretically, the proposed ICL is equivalent to retraining, which is based on solid mathematical derivation. In practice, extensive experiments in different domains demonstrate that, without retraining a new model, ICL achieves up to 16.7x training speedup and 16.8x faster convergence with competitive results. | 翻訳日:2023-01-31 19:07:29 公開日:2023-01-28 |
# ニューラルネットワーク制御系の到達可能性解析 Reachability Analysis of Neural Network Control Systems ( http://arxiv.org/abs/2301.12100v1 ) ライセンス: Link先を確認 | Chi Zhang, Wenjie Ruan, Peipei Xu | (参考訳) ニューラルネットワークコントローラ(NNC)は、自律型およびサイバー物理システムにおいて大きな可能性を秘めている。
ニューラルネットワークに対する様々な検証アプローチにもかかわらず、NCCの安全性分析は未解決の問題である。
ニューラルネットワーク制御システム(NNCS)の既存の検証アプローチは、限られたタイプのアクティベーション関数でしか動作できないか、あるいは時間の経過とともに非自明なオーバー近似エラーが発生する。
本稿では,DeepNNCと呼ばれるリプシッツ最適化に基づくNNCSの検証フレームワークを提案する。
まず,閉ループNNCSのリプシッツ連続性をループの展開と除去によって証明する。
次に,nncs検証にリプシッツ最適化を適用する作業原理を明らかにし,適応クルーズ制御モデルを検証することでそれを説明する。
最先端の検証手法と比較して、DeepNNCは幅広いNCよりも効率と精度の点で優れた性能を示している。
また、実世界の実用的で複雑なシステムを扱うためのDeepNNCの能力を実証するためのケーススタディも提供する。
ツール \textbf{DeepNNC} は \url{https://github.com/TrustAI/DeepNNC} で利用可能です。 Neural network controllers (NNCs) have shown great promise in autonomous and cyber-physical systems. Despite the various verification approaches for neural networks, the safety analysis of NNCs remains an open problem. Existing verification approaches for neural network control systems (NNCSs) either can only work on a limited type of activation functions, or result in non-trivial over-approximation errors with time evolving. This paper proposes a verification framework for NNCS based on Lipschitzian optimisation, called DeepNNC. We first prove the Lipschitz continuity of closed-loop NNCSs by unrolling and eliminating the loops. We then reveal the working principles of applying Lipschitzian optimisation on NNCS verification and illustrate it by verifying an adaptive cruise control model. Compared to state-of-the-art verification approaches, DeepNNC shows superior performance in terms of efficiency and accuracy over a wide range of NNCs. We also provide a case study to demonstrate the capability of DeepNNC to handle a real-world, practical, and complex system. Our tool \textbf{DeepNNC} is available at \url{https://github.com/TrustAI/DeepNNC}. | 翻訳日:2023-01-31 19:07:06 公開日:2023-01-28 |
# 非モデル化制約付きコントローラ性能最適化のための違反対応コンテキストベイズ最適化 Violation-Aware Contextual Bayesian Optimization for Controller Performance Optimization with Unmodeled Constraints ( http://arxiv.org/abs/2301.12099v1 ) ライセンス: Link先を確認 | Wenjie Xu, Colin N Jones, Bratislav Svetozarevic, Christopher R. Laughman, Ankush Chakrabarty | (参考訳) 非モデル化力学を用いた閉ループ制御システムの性能最適化問題について検討する。
ベイズ最適化(BO)は,制御器ゲインや参照セットポイントを自動的にモデルフリーでチューニングすることにより,閉ループ性能向上に有効であることが示されている。
しかし、bo法が非モデル化制約と時変環境条件を持つ力学系でテストされることは滅多にない。
本稿では,時間変動環境下で制約対応ソリューションを学習しながら,閉ループ性能を最適化する,違反認識型コンテキストBOアルゴリズム(VACBO)を提案する。
制約違反を無制限に許容する従来の制約付きboメソッドや、保守的でゼロに近い違反で動作しようとする'安全'なboアルゴリズムとは異なり、予算制限違反は制約学習を改善し最適化を加速する。
産業用蒸気圧縮システムの時変環境温度および湿度下でのエネルギー最小化に対するvacbo法の有効性を実証する。 We study the problem of performance optimization of closed-loop control systems with unmodeled dynamics. Bayesian optimization (BO) has been demonstrated to be effective for improving closed-loop performance by automatically tuning controller gains or reference setpoints in a model-free manner. However, BO methods have rarely been tested on dynamical systems with unmodeled constraints and time-varying ambient conditions. In this paper, we propose a violation-aware contextual BO algorithm (VACBO) that optimizes closed-loop performance while simultaneously learning constraint-feasible solutions under time-varying ambient conditions. Unlike classical constrained BO methods which allow unlimited constraint violations, or 'safe' BO algorithms that are conservative and try to operate with near-zero violations, we allow budgeted constraint violations to improve constraint learning and accelerate optimization. We demonstrate the effectiveness of our proposed VACBO method for energy minimization of industrial vapor compression systems under time-varying ambient temperature and humidity. | 翻訳日:2023-01-31 19:06:49 公開日:2023-01-28 |
# 低次元ニューラルODEモデルと深部強化学習を用いた平面クエット流の乱流制御 Turbulence control in plane Couette flow using low-dimensional neural ODE-based models and deep reinforcement learning ( http://arxiv.org/abs/2301.12098v1 ) ライセンス: Link先を確認 | Alec J. Linot and Kevin Zeng and Michael D. Graham | (参考訳) 乱流の高次元と複雑な力学は制御戦略の発見と実装の障害として残っている。
深部強化学習(英: Deep reinforcement learning、RL)は、これらの障害を克服するために有望な方法であるが、RLエージェントがフロー環境と反復的に相互作用して制御ポリシーを学ぶための訓練段階を必要とする。
我々はこの課題を、私たちがDManD-RL(DmanD-RL)と呼ぶフレームワークを用いて克服し、RLトレーニングに使用するシステムのデータ駆動型低次元モデルを生成する。
提案手法では,Re=400の平面クーエット流の乱流最小流量単位の直接数値シミュレーション(DNS)において,2つのスロットジェットを1つの壁面に用いた抵抗を最小化する。
我々は、自由度$\mathcal{O}(10^5)$自由度を持つDNSデータから、オートエンコーダとニューラル常微分方程式を組み合わせることにより、力学の25次元DManDモデルを得る。
このモデルを環境として使用することにより、RL制御エージェントをトレーニングし、DNS上でのトレーニングよりも440倍のスピードアップを実現し、同等の制御性能を得る。
エージェントは900時間以内の未確認DNSテスト軌道の84%をラミナライズするポリシーを学び、アクティベーション権限がより制限されているにもかかわらず、古典的な反対制御(58%)を著しく上回る。
エージェントはしばしば、2つの低速ストリークの形成を駆動する反直感的な戦略によってラミナリゼーションを達成し、自給自足するには小さすぎる波長を持つ。
このエージェントは,壁面せん断速度に限って観測を行う場合と同じ性能を示す。 The high dimensionality and complex dynamics of turbulent flows remain an obstacle to the discovery and implementation of control strategies. Deep reinforcement learning (RL) is a promising avenue for overcoming these obstacles, but requires a training phase in which the RL agent iteratively interacts with the flow environment to learn a control policy, which can be prohibitively expensive when the environment involves slow experiments or large-scale simulations. We overcome this challenge using a framework we call "DManD-RL" (data-driven manifold dynamics-RL), which generates a data-driven low-dimensional model of our system that we use for RL training. With this approach, we seek to minimize drag in a direct numerical simulation (DNS) of a turbulent minimal flow unit of plane Couette flow at Re=400 using two slot jets on one wall. We obtain, from DNS data with $\mathcal{O}(10^5)$ degrees of freedom, a 25-dimensional DManD model of the dynamics by combining an autoencoder and neural ordinary differential equation. Using this model as the environment, we train an RL control agent, yielding a 440-fold speedup over training on the DNS, with equivalent control performance. The agent learns a policy that laminarizes 84% of unseen DNS test trajectories within 900 time units, significantly outperforming classical opposition control (58%), despite the actuation authority being much more restricted. The agent often achieves laminarization through a counterintuitive strategy that drives the formation of two low-speed streaks, with a spanwise wavelength that is too small to be self-sustaining. The agent demonstrates the same performance when we limit observations to wall shear rate. | 翻訳日:2023-01-31 19:06:34 公開日:2023-01-28 |
# MetaNO:隠れた物理学を学ぶための知識の伝達方法 MetaNO: How to Transfer Your Knowledge on Learning Hidden Physics ( http://arxiv.org/abs/2301.12095v1 ) ライセンス: Link先を確認 | Lu Zhang, Huaiqian You, Tian Gao, Mo Yu, Chung-Hao Lee, Yue Yu | (参考訳) 勾配に基づくメタ学習法は主に画像分類などの古典的な機械学習タスクに適用されている。
近年、ニューラル演算子などのPDE解決深層学習法は、観測データから直接複雑な物理系の応答を学習し予測することに重要な影響を与え始めている。
この文脈でのデータ取得は一般的に困難で費用がかかるため、既存の知識を新規で未認識の物理システムに移行することはさらに深刻である。
そこで本研究では, パラメータフィールドの異なる支配的(未知の)PDE間で解演算子の知識を伝達する, ニューラル演算子のメタラーニング手法を提案する。
提案手法は, 従来のメタ学習法における最終層移動とは対照的に, ニューラルネットワークモデルの第1層において, 基礎となるパラメータ場を捕捉できるという理論的な考察を取り入れた, 複数のPDE問題解決タスクに対する証明可能な普遍解演算子である。
本稿では,提案手法が提案するpdeに基づくデータセットと実世界の物質モデリング問題の有効性を実証し,非知覚タスクのサンプリング効率を大幅に向上しつつ,複雑で非線形な物理応答学習タスクを処理可能であることを示す。 Gradient-based meta-learning methods have primarily been applied to classical machine learning tasks such as image classification. Recently, PDE-solving deep learning methods, such as neural operators, are starting to make an important impact on learning and predicting the response of a complex physical system directly from observational data. Since the data acquisition in this context is commonly challenging and costly, the call of utilization and transfer of existing knowledge to new and unseen physical systems is even more acute. Herein, we propose a novel meta-learning approach for neural operators, which can be seen as transferring the knowledge of solution operators between governing (unknown) PDEs with varying parameter fields. Our approach is a provably universal solution operator for multiple PDE solving tasks, with a key theoretical observation that underlying parameter fields can be captured in the first layer of neural operator models, in contrast to typical final-layer transfer in existing meta-learning methods. As applications, we demonstrate the efficacy of our proposed approach on PDE-based datasets and a real-world material modeling problem, illustrating that our method can handle complex and nonlinear physical response learning tasks while greatly improving the sampling efficiency in unseen tasks. | 翻訳日:2023-01-31 19:06:02 公開日:2023-01-28 |
# 局所コントラストとグローバルコンテクスト情報が赤外線を再び小さくする Local Contrast and Global Contextual Information Make Infrared Small Object Salient Again ( http://arxiv.org/abs/2301.12093v1 ) ライセンス: Link先を確認 | Chenyi Wang, Huan Wang, Peiwen Pan | (参考訳) 赤外線小物体検出(英語: infrared small object detection、isos)は、赤外線画像の背景から複数の画素だけで覆われた小物体を分割することを目的としている。
それは、大きな挑戦です。
1) 小物には,十分な強度,形状及びテクスチャ情報がないこと。
2) 検出モデル,例えばディープニューラルネットワーク,高レベルのセマンティック特徴と画像レベルの受容場を連続的なダウンサンプリングによって取得するプロセスにおいて,小さなオブジェクトは容易に失われる。
本稿では,この2つの問題をうまく処理できるUCFNetと呼ばれるISOSの信頼性検出モデルを提案する。
中心差分畳み込み(CDC)と高速フーリエ畳み込み(FFC)を基盤としている。
一方、CDCは、ISOSタスクを扱う人間の視覚システムにおいて、コントラスト情報が非常に重要であるため、小さなオブジェクトと背景の間のコントラスト情報を学習するためにネットワークを効果的にガイドすることができる。
一方、ffcは画像レベルの受容野を得て、小さなオブジェクトが圧倒されるのを防ぎながら、グローバル情報を抽出することができる。いくつかの公開データセットにおける実験では、この手法が最先端のisosモデルを大幅に上回っており、より優れたisos深層モデルを設計するための有用なガイドラインを提供することができる。
コードはもうすぐ入手できる。 Infrared small object detection (ISOS) aims to segment small objects only covered with several pixels from clutter background in infrared images. It's of great challenge due to: 1) small objects lack of sufficient intensity, shape and texture information; 2) small objects are easily lost in the process where detection models, say deep neural networks, obtain high-level semantic features and image-level receptive fields through successive downsampling. This paper proposes a reliable detection model for ISOS, dubbed UCFNet, which can handle well the two issues. It builds upon central difference convolution (CDC) and fast Fourier convolution (FFC). On one hand, CDC can effectively guide the network to learn the contrast information between small objects and the background, as the contrast information is very essential in human visual system dealing with the ISOS task. On the other hand, FFC can gain image-level receptive fields and extract global information while preventing small objects from being overwhelmed.Experiments on several public datasets demonstrate that our method significantly outperforms the state-of-the-art ISOS models, and can provide useful guidelines for designing better ISOS deep models. Codes will be available soon. | 翻訳日:2023-01-31 19:05:39 公開日:2023-01-28 |
# チーム成長ダイナミクスにおける情報多様性と親和性バイアス Informational Diversity and Affinity Bias in Team Growth Dynamics ( http://arxiv.org/abs/2301.12091v1 ) ライセンス: Link先を確認 | Hoda Heidari, Solon Barocas, Jon Kleinberg, and Karen Levy | (参考訳) 以前の作業は、組織的な設定において、タスクにさまざまな情報と視点をもたらすチームは、そうでないチームよりも効果的である、という強い証拠を提供した。
このような情報多様性がパフォーマンスのアドバンテージを損なう場合、なぜ多くが均質なチームだと考えるのか?
情報の多様性の利点は親和性バイアスと緊張関係にあるという標準的な主張がある。
この緊張がチームの構成に与える影響をよりよく理解するために、個人がチームのパフォーマンスを気にするチーム形成のシーケンシャルモデル(機能セットに基づいて将来の成果を正確に予測する観点で獲得)を分析し、予測タスクに異なるアプローチを使うチームメイトと対話した結果、コストが発生することを経験する。
このシンプルなモデルを分析すると、チーム成長のダイナミクスが示す微妙な振る舞いの集合が明らかになる。
(i) 特定の初期チーム構成から、彼らはより良いパフォーマンスに向かって前進するが、最適な多様なチームへ行き詰まることができる。
(ii)他の初期構成から、多数派グループが少数派の意見を広めようとすると、彼らはこの最適なバランスから離れることもできる。
チームの最初の構成は、ダイナミクスがパフォーマンスの最適性に向かって動くかどうかを判断し、チームの構成における非効率性のパス依存の図を描きます。
本研究は,組織における情報多様性を促進するためのユーティリティに基づくモチベーションの基本的な制限を定式化し,情報多様性とパフォーマンスを同時に向上させるような介入を示唆する。 Prior work has provided strong evidence that, within organizational settings, teams that bring a diversity of information and perspectives to a task are more effective than teams that do not. If this form of informational diversity confers performance advantages, why do we often see largely homogeneous teams in practice? One canonical argument is that the benefits of informational diversity are in tension with affinity bias. To better understand the impact of this tension on the makeup of teams, we analyze a sequential model of team formation in which individuals care about their team's performance (captured in terms of accurately predicting some future outcome based on a set of features) but experience a cost as a result of interacting with teammates who use different approaches to the prediction task. Our analysis of this simple model reveals a set of subtle behaviors that team-growth dynamics can exhibit: (i) from certain initial team compositions, they can make progress toward better performance but then get stuck partway to optimally diverse teams; while (ii) from other initial compositions, they can also move away from this optimal balance as the majority group tries to crowd out the opinions of the minority. The initial composition of the team can determine whether the dynamics will move toward or away from performance optimality, painting a path-dependent picture of inefficiencies in team compositions. Our results formalize a fundamental limitation of utility-based motivations to drive informational diversity in organizations and hint at interventions that may improve informational diversity and performance simultaneously. | 翻訳日:2023-01-31 19:05:16 公開日:2023-01-28 |
# 多レベルモンテカルロアクター・クリティカルを用いた平均逆強化学習における指数的高速混合 Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic ( http://arxiv.org/abs/2301.12083v1 ) ライセンス: Link先を確認 | Wesley A. Suttle, Amrit Singh Bedi, Bhrij Patel, Brian Sadler, Alec Koppel, Dinesh Manocha | (参考訳) 既存の強化学習(RL)法の多くは、データ生成プロセスがステップサイズ選択に現れるレートパラメータと指数関数的に高速に混在するという仮説に基づいて、後端の確率勾配反復を用いている。
残念ながら、この仮定は大きな状態空間やスパース報酬を持つ設定に違反しており、混合時間は不明であり、ステップサイズが動作不能である。
本研究では,批評家,俳優,およびacアルゴリズムに埋め込まれた報酬の平均値に対してマルチレベルモンテカルロ推定器を用いることにより,混合時間に応じたrl手法を提案する。
このメソッドは \textbf{m}ulti-level \textbf{a}ctor-\textbf{c}ritic (mac) と呼ばれ、特に無限ホリゾン平均リワード設定のために開発されており、パラメータ選択におけるoracleの混合時間に関する知識や指数的減衰を前提としないため、混合時間が遅いアプリケーションにも容易に適用できる。
それでも、最先端のACアルゴリズムに匹敵する収束率を達成する。
不安定な報酬を伴うRL問題において, 安定に必要な技術的条件の緩和は, 性能的に優れていることを示す。 Many existing reinforcement learning (RL) methods employ stochastic gradient iteration on the back end, whose stability hinges upon a hypothesis that the data-generating process mixes exponentially fast with a rate parameter that appears in the step-size selection. Unfortunately, this assumption is violated for large state spaces or settings with sparse rewards, and the mixing time is unknown, making the step size inoperable. In this work, we propose an RL methodology attuned to the mixing time by employing a multi-level Monte Carlo estimator for the critic, the actor, and the average reward embedded within an actor-critic (AC) algorithm. This method, which we call \textbf{M}ulti-level \textbf{A}ctor-\textbf{C}ritic (MAC), is developed especially for infinite-horizon average-reward settings and neither relies on oracle knowledge of the mixing time in its parameter selection nor assumes its exponential decay; it, therefore, is readily applicable to applications with slower mixing times. Nonetheless, it achieves a convergence rate comparable to the state-of-the-art AC algorithms. We experimentally show that these alleviated restrictions on the technical conditions required for stability translate to superior performance in practice for RL problems with sparse rewards. | 翻訳日:2023-01-31 19:04:51 公開日:2023-01-28 |
# 業界ビジョンにおける数発異常検出の限界を押し上げる - graphcore Pushing the Limits of Fewshot Anomaly Detection in Industry Vision: Graphcore ( http://arxiv.org/abs/2301.12082v1 ) ライセンス: Link先を確認 | Guoyang Xie, Jingbao Wang, Jiaqi Liu, Feng Zheng, Yaochu Jin | (参考訳) fewshot Anomaly Detection (FSAD) の領域では、効率的な視覚的特徴がメモリバンクM法において重要な役割を担っている。
しかし,これらの手法は視覚特徴と回転する視覚特徴との関係を考慮せず,異常検出性能を大幅に制限している。
この限界を推し進めるために、回転不変の特徴特性が産業ベースのFSADに大きな影響を与えることを明らかにした。
具体的には、FSADにおけるグラフ表現を利用し、新しい視覚等尺不変特徴(VIIF)を異常測定特徴として提供する。
これにより、VIIFは異常判別能力を良好に向上することができ、Mに格納された冗長な特徴の規模をさらに小さくすることができる。
さらに,教師なしFSADトレーニングを高速に実装し,異常検出の性能を向上させることができる新しいモデルGraphCoreを提供する。
提案したスプリットショット異常検出設定の下で,GraphCoreと他のSOTA異常検出モデルを比較するための総合評価結果が得られた。これは,平均AUCが5.8%,4.1%,3.4%,MVTec ADが1.6%,MPDDが25.5%,22.0%,16.9%,14.1%に増加可能であることを示している。 In the area of fewshot anomaly detection (FSAD), efficient visual feature plays an essential role in memory bank M-based methods. However, these methods do not account for the relationship between the visual feature and its rotated visual feature, drastically limiting the anomaly detection performance. To push the limits, we reveal that rotation-invariant feature property has a significant impact in industrial-based FSAD. Specifically, we utilize graph representation in FSAD and provide a novel visual isometric invariant feature (VIIF) as anomaly measurement feature. As a result, VIIF can robustly improve the anomaly discriminating ability and can further reduce the size of redundant features stored in M by a large amount. Besides, we provide a novel model GraphCore via VIIFs that can fast implement unsupervised FSAD training and can improve the performance of anomaly detection. A comprehensive evaluation is provided for comparing GraphCore and other SOTA anomaly detection models under our proposed fewshot anomaly detection setting, which shows GraphCore can increase average AUC by 5.8%, 4.1%, 3.4%, and 1.6% on MVTec AD and by 25.5%, 22.0%, 16.9%, and 14.1% on MPDD for 1, 2, 4, and 8-shot cases, respectively. | 翻訳日:2023-01-31 19:04:27 公開日:2023-01-28 |
# マルチパーティイト非局所性とデバイス非依存効果ウィットネスの階層性 A Hierarchy of Multipartite Nonlocality and Device-Independent Effect Witnesses ( http://arxiv.org/abs/2301.12081v1 ) ライセンス: Link先を確認 | Peter Bierhorst, Jitendra Prakash | (参考訳) 最近の新しい定義によれば、マルチパーティの行動が真にマルチパーティの非ローカル(gmnl)であるとは、すべてのパーティが共有するローカル(古典的)リソースを補完する二パートのみの非ローカルリソースの基盤ネットワーク上の測定値からモデル化できない場合である。
新しい定義は、基礎となる二成分資源間の絡み合いの計測と/または超量子の振る舞いを許容するかどうかによって異なる。
本稿では,これらの新しいGMNLの候補定義の階層構造を3つの量子ネットワークに分類し,デバイスに依存しないネットワーク効果の目撃者への親密な関係を明らかにする。
A key finding is the existence of a behavior in the simplest nontrivial multi-partite measurement scenario (3 parties, 2 measurement settings, and 2 outcomes) that cannot be simulated in a bipartite network prohibiting entangled measurements and superquantum resources -- thus witnessing the most general form of GMNL -- but can be simulated with bipartite-only quantum states with an entangled measurement, indicating an approach to device independent certification of entangled measurements with fewer settings than in previous protocols.
驚くべきことに、この3,2,2)の挙動は、従来はアンタングル測定のデバイス非依存の目撃者として研究されていたものと同様に、アンタングル測定を禁止しつつ、超量子双極子資源を許容するGMNL階層のより高いエケロンでシミュレートできる。
これは、二部類非局所性とは異なる観測可能な現象として、絡み合った測定の理論に依存しない理解に挑戦する。 According to recent new definitions, a multi-party behavior is genuinely multipartite nonlocal (GMNL) if it cannot be modeled by measurements on an underlying network of bipartite-only nonlocal resources, possibly supplemented with local (classical) resources shared by all parties. The new definitions differ on whether to allow entangled measurements upon, and/or superquantum behaviors among, the underlying bipartite resources. Here, we categorize the full hierarchy of these new candidate definitions of GMNL in three-party quantum networks, highlighting the intimate link to device-independent witnesses of network effects. A key finding is the existence of a behavior in the simplest nontrivial multi-partite measurement scenario (3 parties, 2 measurement settings, and 2 outcomes) that cannot be simulated in a bipartite network prohibiting entangled measurements and superquantum resources -- thus witnessing the most general form of GMNL -- but can be simulated with bipartite-only quantum states with an entangled measurement, indicating an approach to device independent certification of entangled measurements with fewer settings than in previous protocols. Surprisingly, we also find that this (3,2,2) behavior, as well as the others previously studied as device-independent witnesses of entangled measurements, can all be simulated at a higher echelon of the GMNL hierarchy that allows superquantum bipartite resources while still prohibiting entangled measurements. This poses a challenge to a theory-independent understanding of entangled measurements as an observable phenomenon distinct from bipartite nonlocality. | 翻訳日:2023-01-31 19:04:00 公開日:2023-01-28 |
# 多成分量子系におけるユニタリ非同値局所および大域フーリエ変換 Unitarily inequivalent local and global Fourier transforms in multipartite quantum systems ( http://arxiv.org/abs/2301.12137v1 ) ライセンス: Link先を確認 | C. Lei, A. Vourdas | (参考訳) n$サブシステムからなる多部系は、それぞれ${\mathbb Z}(d)$の「局所変数」と$d$次元ヒルベルト空間$H(d)$で記述される。
各サブシステムの局所フーリエ変換が定義され、関連する位相空間法が議論される(置換作用素、ウィグナー関数、ワイル関数など)。
同じ系の全体論的見方は、強い相互作用の場合にはより適切であり、これは${\mathbb z}(d^n)$ と $d^n$-次元ヒルベルト空間 $h(d^n)$ で「グローバル変数」を用いる。
その後、大域フーリエ変換が定義され、関連する位相空間法が議論される。
局所的な形式主義は、グローバルな形式主義と比較され、対比される。
d,n$ の値に依存すると、局所フーリエ変換はユニタリに等しいか、大域フーリエ変換と同値である。
ローカル変数とグローバル変数の両方の観点からシステムの時間発展について論じる。
形式化は高速フーリエ変換の一般領域で有用である。 A multipartite system comprised of $n$ subsystems, each of which is described with `local variables' in ${\mathbb Z}(d)$ and with a $d$-dimensional Hilbert space $H(d)$, is considered. Local Fourier transforms in each subsystem are defined and related phase space methods are discussed (displacement operators, Wigner and Weyl functions, etc). A holistic view of the same system might be more appropriate in the case of strong interactions, which uses `global variables' in ${\mathbb Z}(d^n)$ and a $d^n$-dimensional Hilbert space $H(d^n)$. A global Fourier transform is then defined and related phase space methods are discussed. The local formalism is compared and contrasted with the global formalism. Depending on the values of $d,n$ the local Fourier transform is unitarily inequivalent or unitarily equivalent to the global Fourier transform. Time evolution of the system in terms of both local and global variables, is discussed. The formalism can be useful in the general area of Fast Fourier transforms. | 翻訳日:2023-01-31 18:57:08 公開日:2023-01-28 |
# adasfm:大きめのグローバル構造から微妙な漸進的適応構造へ AdaSfM: From Coarse Global to Fine Incremental Adaptive Structure from Motion ( http://arxiv.org/abs/2301.12135v1 ) ライセンス: Link先を確認 | Yu Chen, Zihao Yu, Shu Song, Tianning Yu, Jianming Li, Gim Hee Lee | (参考訳) 多くの既存のStructure from Motion (SfM)アプローチによって達成された印象的な結果にもかかわらず、多くのアウトリーマッチとスパースビューグラフを持つ大規模シーンの堅牢性、正確性、効率性を改善する必要がある。
本稿では,大規模かつ挑戦的なデータセットに対してスケーラブルな,粗粒度適応型SfMアプローチであるAdaSfMを提案する。
提案手法はまず,慣性測定ユニット(imus)やホイールエンコーダなどの低コストセンサによる測定値を活用することで,ビューグラフの信頼性を向上させる粗いグローバルsfmを行う。
その後、粗いグローバルSfMの結果によって規則化された微細局所増分SfMにより並列に精製されたサブシーンにビューグラフを分割し、カメラ登録精度を改善し、シーンドリフトを緩和する。
最後に,全局所再構成をグローバルSfMの座標フレームに整合させるために,しきい値適応戦略を用いる。
大規模ベンチマークデータセットの大規模な実験により、我々の手法が最先端の精度と効率を達成することが示された。 Despite the impressive results achieved by many existing Structure from Motion (SfM) approaches, there is still a need to improve the robustness, accuracy, and efficiency on large-scale scenes with many outlier matches and sparse view graphs. In this paper, we propose AdaSfM: a coarse-to-fine adaptive SfM approach that is scalable to large-scale and challenging datasets. Our approach first does a coarse global SfM which improves the reliability of the view graph by leveraging measurements from low-cost sensors such as Inertial Measurement Units (IMUs) and wheel encoders. Subsequently, the view graph is divided into sub-scenes that are refined in parallel by a fine local incremental SfM regularised by the result from the coarse global SfM to improve the camera registration accuracy and alleviate scene drifts. Finally, our approach uses a threshold-adaptive strategy to align all local reconstructions to the coordinate frame of global SfM. Extensive experiments on large-scale benchmark datasets show that our approach achieves state-of-the-art accuracy and efficiency. | 翻訳日:2023-01-31 18:56:48 公開日:2023-01-28 |
# 水中ロボット意味解析アシスタント Underwater Robotics Semantic Parser Assistant ( http://arxiv.org/abs/2301.12134v1 ) ライセンス: Link先を確認 | Parth Parekh, Cedric McGuire, Jake Imyak | (参考訳) 意味的構文解析は、自然言語をコンピュータが理解できる形で表現する手段である。
自然言語の発話をラムダ計算式(論理を記述する数学的関数)に形成するアプローチには、数多くのものがある。
ここでは,自然言語発話を取り,それをラムダ計算式に変換し,それを解析し,有限状態機械で使用可能なxmlフォーマットに配置するシーケンスからシーケンスモデルを実験する。
実験結果から,ロボット分野における技術と非技術とのギャップを埋めることのできる高精度なモデルを持つことが示唆された。 Semantic parsing is a means of taking natural language and putting it in a form that a computer can understand. There has been a multitude of approaches that take natural language utterances and form them into lambda calculus expressions -- mathematical functions to describe logic. Here, we experiment with a sequence to sequence model to take natural language utterances, convert those to lambda calculus expressions, when can then be parsed, and place them in an XML format that can be used by a finite state machine. Experimental results show that we can have a high accuracy model such that we can bridge the gap between technical and nontechnical individuals in the robotics field. | 翻訳日:2023-01-31 18:56:27 公開日:2023-01-28 |
# AutoPEFT:パラメータ効率の良いファインチューニングのための自動構成検索 AutoPEFT: Automatic Configuration Search for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2301.12132v1 ) ライセンス: Link先を確認 | Han Zhou, Xingchen Wan, Ivan Vuli\'c, Anna Korhonen | (参考訳) 大規模な事前学習言語モデルは、タスク固有の微調整によって下流のNLPタスクで広く使われている。
近年,パラメータ効率の良いファインチューニング(PEFT)手法の配列も,完全なモデルチューニングに比べてはるかに少ないパラメータを更新しながら,高いタスク性能を実現している。
しかし、PEFTアーキテクチャとモジュールの選択、調整可能なパラメータの数、そしてPEFTモジュールが挿入される層について、タスク毎の設計選択(つまりPEFT構成を作成する)を行うのは簡単ではない。
その結果,現在手動で設定されているPEFT構成は,性能と効率のトレードオフの観点から,多くのタスクに最適である可能性が極めて高い。
性能とパラメータ効率のバランスを最大化することを目的としたPEFT構成選択の中核的な問題に対処するために、まず、複数の代表PEFTモジュールにまたがるリッチな構成探索空間と、モジュール上のよりきめ細かい構成決定(パラメータ予算、挿入層など)を定義する。
次に、この構成空間を横断する新しいフレームワークであるAutoPEFTを提案し、高次元ベイズ最適化により複数のPEFTモジュールを自動的に構成する。
本稿では,AutoPEFT-Fund設定のリソースのスケーラビリティとタスク転送性を示し,既存のPEFT手法を標準GLUEベンチマークで平均的に上回り,単一のタスクで構成探索を行う。
タスクごとのAutoPEFTベースの設定検索は、フルモデルの微調整よりも優れています。 Large pretrained language models have been widely used in downstream NLP tasks via task-specific fine-tuning. Recently, an array of Parameter-Efficient Fine-Tuning (PEFT) methods have also achieved strong task performance while updating a much smaller number of parameters compared to full model tuning. However, it is non-trivial to make informed per-task design choices (i.e., to create PEFT configurations) concerning the selection of PEFT architectures and modules, the number of tunable parameters, and even the layers in which the PEFT modules are inserted. Consequently, it is highly likely that the current, manually set PEFT configurations might be suboptimal for many tasks from the perspective of the performance-to-efficiency trade-off. To address the core question of the PEFT configuration selection that aims to control and maximise the balance between performance and parameter efficiency, we first define a rich configuration search space spanning multiple representative PEFT modules along with finer-grained configuration decisions over the modules (e.g., parameter budget, insertion layer). We then propose AutoPEFT, a novel framework to traverse this configuration space: it automatically configures multiple PEFT modules via high-dimensional Bayesian optimisation. We show the resource scalability and task transferability of AutoPEFT-found configurations, outperforming existing PEFT methods on average on the standard GLUE benchmark while conducting the configuration search on a single task. The per-task AutoPEFT-based configuration search even outperforms full-model fine-tuning. | 翻訳日:2023-01-31 18:56:16 公開日:2023-01-28 |
# 連続学習のための制限直交勾配投影法 Restricted Orthogonal Gradient Projection for Continual Learning ( http://arxiv.org/abs/2301.12131v1 ) ライセンス: Link先を確認 | Zeyuan Yang, Zonghan Yang, Peng Li, Yang Liu | (参考訳) 継続的な学習は、破滅的な忘れ物を避け、学習経験を効果的に活用して新しい知識を習得することを目的としている。
既存の勾配投影法は、新しいタスクが干渉を最小限に抑えるために最適化空間に厳しい制約を課す。
この問題に対処するため、近年の手法では、成長するネットワークで凍結パラメータを再利用し、計算コストが高い。
したがって、固定されたネットワークアーキテクチャを用いて勾配投影アプローチの知識伝達を改善できるかは依然として課題である。
本研究では,制約直交勾配法(ROGO)フレームワークを提案する。
基本的な考え方は、制限された直交制約を採用し、凍った空間全体に対して斜め方向のパラメータを最適化し、以前の知識を統合しながら知識の転送を促進することである。
私たちのフレームワークはデータバッファも余分なパラメータも必要ありません。
広範な実験により、いくつかの強力なベースラインに対するフレームワークの優位性が実証された。
また,緩和戦略に対する理論的保証も提供する。 Continual learning aims to avoid catastrophic forgetting and effectively leverage learned experiences to master new knowledge. Existing gradient projection approaches impose hard constraints on the optimization space for new tasks to minimize interference, which simultaneously hinders forward knowledge transfer. To address this issue, recent methods reuse frozen parameters with a growing network, resulting in high computational costs. Thus, it remains a challenge whether we can improve forward knowledge transfer for gradient projection approaches using a fixed network architecture. In this work, we propose the Restricted Orthogonal Gradient prOjection (ROGO) framework. The basic idea is to adopt a restricted orthogonal constraint allowing parameters optimized in the direction oblique to the whole frozen space to facilitate forward knowledge transfer while consolidating previous knowledge. Our framework requires neither data buffers nor extra parameters. Extensive experiments have demonstrated the superiority of our framework over several strong baselines. We also provide theoretical guarantees for our relaxing strategy. | 翻訳日:2023-01-31 18:55:49 公開日:2023-01-28 |
# APAC: オフライン強化学習のための権限付き確率制御アクタークリティカル APAC: Authorized Probability-controlled Actor-Critic For Offline Reinforcement Learning ( http://arxiv.org/abs/2301.12130v1 ) ライセンス: Link先を確認 | Jing Zhang, Chi Zhang, Wenjia Wang, Bing-Yi Jing | (参考訳) 環境と対話できないため、オフライン強化学習(RL)手法は、アウト・オブ・ディストリビューション(OOD)ポイントを推定する課題に直面している。
ほとんどの既存のメソッドはOOD領域を除外するか、$Q$関数の値を制限する。
しかし、これらの手法は過保存的かモデル不確実性予測に苦しむ。
本稿では,認証された確率制御ポリシー学習(APAC)手法を提案する。
提案手法はフローGANモデルを用いて実現可能な状態/動作の分布特性を学習する。
具体的には、APACは行動ポリシーの低確率密度領域での行動を避け、認証された高確率密度領域での探索を可能にする。
APACの利点を正当化するための理論的証明が提供されている。
実証的には、APACは様々なシミュレーションタスクにおいて既存の代替品よりも優れており、より高い期待されたリターンをもたらす。 Due to the inability to interact with the environment, offline reinforcement learning (RL) methods face the challenge of estimating the Out-of-Distribution (OOD) points. Most existing methods exclude the OOD areas or restrict the value of $Q$ function. However, these methods either are over-conservative or suffer from model uncertainty prediction. In this paper, we propose an authorized probabilistic-control policy learning (APAC) method. The proposed method learns the distribution characteristics of the feasible states/actions by utilizing the flow-GAN model. Specifically, APAC avoids taking action in the low probability density region of behavior policy, while allows exploration in the authorized high probability density region. Theoretical proofs are provided to justify the advantage of APAC. Empirically, APAC outperforms existing alternatives on a variety of simulated tasks, and yields higher expected returns. | 翻訳日:2023-01-31 18:55:34 公開日:2023-01-28 |
# 自己駆動ハイブリッド原子スピン発振器 Self-driven Hybrid Atom Spin Oscillator ( http://arxiv.org/abs/2301.12121v1 ) ライセンス: Link先を確認 | Erwei Li, Qianjin Ma, Guobin Liu, Peter Yun and Shougang Zhang | (参考訳) 自己駆動型ハイブリッド原子スピン発振器を理論実証し、気相rb-xeデュアルスピン系の実験を行った。
Rbスピン発振の生信号は増幅され、位相シフトされ、Xeスピンをコヒーレントに駆動するために送り返される。
駆動磁場強度と位相を微調整することにより、周波数シフトゼロの自己持続スピン発振信号を得る。
有効コヒーレンス時間はxeスピンの固有コヒーレンス時間を超えて無限に長くなり、ハイブリッド原子スピン発振器を形成する。
スペクトル分析により13.1nHzの周波数分解能が達成され、磁場の検出感度が向上した。
アラン偏差解析はスピン発振器がスピンメーザのように連続波モードで動作可能であることを示している。
プロトタイプスピン発振器は、他のハイブリッドスピン系に容易に組み込むことができ、アルカリ金属-ノーブルガスコマグネトメータの検出感度を高めることができる。 A self-driven hybrid atom spin oscillator is demonstrated in theory and experiment with a vapor Rb-Xe dual-spin system. The raw signal of Rb spin oscillation is amplified, phase-shifted and sent back to drive the Xe spins coherently. By fine tuning the driving field strength and phase, a self-sustaining spin oscillation signal with zero frequency shift is obtained. The effective coherence time is infinitely prolonged beyond the intrinsic coherence time of Xe spins, forming a hybrid atom spin oscillator. Spectral analysis indicates that a frequency resolution of 13.1 nHz is achieved, enhancing the detection sensitivity for magnetic field. Allan deviation analysis shows that the spin oscillator can operate in continuous wave mode like a spin maser. The prototype spin oscillator can be easily implanted into other hybrid spin systems and enhance the detection sensitivity of alkali metal-noble gas comagnetometers. | 翻訳日:2023-01-31 18:55:22 公開日:2023-01-28 |
# 物理インフォームドニューラルネットワーク:微分方程式の解法における再パラメータ化の効果 Physics-informed Neural Network: The Effect of Reparameterization in Solving Differential Equations ( http://arxiv.org/abs/2301.12118v1 ) ライセンス: Link先を確認 | Siddharth Nand, Yuecheng Cai | (参考訳) 微分方程式は、様々な分野における複雑なシステムの振る舞いをモデル化し予測するために用いられ、それらを解決する能力は、これらのシステムの振る舞いを理解し予測するための重要な資産である。
複雑な物理学では、解析的に解くのが難しい微分方程式がほとんどである。
近年, 物理インフォームドニューラルネットワークは, 様々な微分方程式の解法系において非常によく機能することが示されている。
近似微分方程式の主な方法は、ペナルティ関数と再パラメータ化である。
ほとんどの研究者は、再パラメータ化を実装する複雑さのため、再パラメータ化よりもペナルティ関数を使用する。
本研究では,物理インフォームドニューラルネットワークモデルと近似誤差を用いた再パラメータ化の有無を定量的に比較する。
1次元バー問題と2次元曲げビーム問題という2つのベンチマーク機械工学的問題に基づいて再パラメータ化性能を示す。
その結果, 複素微分方程式を扱う場合, 再パラメータ化を適用すると近似誤差が小さくなることがわかった。 Differential equations are used to model and predict the behaviour of complex systems in a wide range of fields, and the ability to solve them is an important asset for understanding and predicting the behaviour of these systems. Complicated physics mostly involves difficult differential equations, which are hard to solve analytically. In recent years, physics-informed neural networks have been shown to perform very well in solving systems with various differential equations. The main ways to approximate differential equations are through penalty function and reparameterization. Most researchers use penalty functions rather than reparameterization due to the complexity of implementing reparameterization. In this study, we quantitatively compare physics-informed neural network models with and without reparameterization using the approximation error. The performance of reparameterization is demonstrated based on two benchmark mechanical engineering problems, a one-dimensional bar problem and a two-dimensional bending beam problem. Our results show that when dealing with complex differential equations, applying reparameterization results in a lower approximation error. | 翻訳日:2023-01-31 18:55:04 公開日:2023-01-28 |
# 多体物理学からの強い量子メトロロジー限界 Strong quantum metrological limit from many-body physics ( http://arxiv.org/abs/2301.12113v1 ) ライセンス: Link先を確認 | Yaoming Chu, Xiangbei Li, and Jianming Cai | (参考訳) 標準の量子限界を超え、量子エンタングルメントを用いてハイゼンベルク限界に達することさえも、量子メトロロジーの聖杯を表している。
しかし、量子絡み合いは、価格なしでは得られない貴重な資源である。
大規模な絡み合った状態を作るための例外的なオーバーヘッドは、ハイゼンベルク限界が根本的に達成可能であるかどうかについての不満を生じさせる。
ここでは、量子フィッシャー情報成長のためのリーブ・ロビンソン光円錐によって設定された普遍的な速度制限を見つけ、その準備中の量子資源状態の計量ポテンシャルを特徴づける。
我々の主な成果は、多体量子資源状態準備の複雑さを考慮に入れた量子気象学の強い精度限界を確立し、ハイゼンベルク限界に達するための基本的な制約を明らかにする。
この結果から,量子メトロロジーの量子長所を実現する上で重要な量子多体系の本質的特徴を同定することができ,量子メトロロジーから多体量子ダイナミクスを理解するための新たな視点がもたらされた。 Surpassing the standard quantum limit and even reaching the Heisenberg limit using quantum entanglement, represents the Holy Grail of quantum metrology. However, quantum entanglement is a valuable resource that does not come without a price. The exceptional overhead for the preparation of large-scale entangled states raises disconcerting concerns about whether the Heisenberg limit is fundamentally achievable. Here we find a universal speed limit set by the Lieb-Robinson light cone for the quantum Fisher information growth to characterize the metrological potential of quantum resource states during their preparation. Our main result establishes a strong precision limit of quantum metrology accounting for the complexity of many-body quantum resource state preparation and reveals a fundamental constraint for reaching the Heisenberg limit. Our result makes it possible to identify the essential features of quantum many-body systems that are crucial for achieving the quantum advantage of quantum metrology and brings a new perspective to understanding many-body quantum dynamics from quantum metrology. | 翻訳日:2023-01-31 18:54:49 公開日:2023-01-28 |
# 抗体の事前学習言語モデルについて On Pre-trained Language Models for Antibody ( http://arxiv.org/abs/2301.12112v1 ) ライセンス: Link先を確認 | Danqing Wang, Fei Ye, Hao Zhou | (参考訳) 抗体は人体を病原体から強く保護する重要なタンパク質である。
一般的なタンパク質と抗体特異的な事前訓練言語モデルの開発は、どちらも抗体予測作業を容易にする。
しかし、異なる抗体問題に対する異なる事前学習言語モデルの表現能力を包括的に研究する研究はほとんどない。
そこで本研究では,(1)訓練済みの言語モデルが特異性が異なる抗体課題においてどのように機能するか,という疑問に答えることを目的とする。
2)プレトレーニングプロセスに特定の生物学的メカニズムを導入すると、モデルに何のメリットがあるのか?
3) 学習抗体は, 創薬や免疫過程の理解など, 現実世界の抗体問題において有効か?
これまでのベンチマークでは、これらの疑問に答える研究がほとんど妨げられませんでした。
調査を容易にするために、AnTibody Understanding Evaluation (ATUE)ベンチマークを提供する。
タンパク質事前学習言語モデルの性能を実証研究により総合的に評価し,結論と新たな知見を得た。
ATUEとコードはhttps://github.com/dqwang122/EATLM.comで公開されています。 Antibodies are vital proteins offering robust protection for the human body from pathogens. The development of general protein and antibody-specific pre-trained language models both facilitate antibody prediction tasks. However, few studies comprehensively explore the representation capability of distinct pre-trained language models on different antibody problems. Here, to investigate the problem, we aim to answer the following key questions: (1) How do pre-trained language models perform in antibody tasks with different specificity? (2) How many benefits will the model gain if we introduce the specific biological mechanism to the pre-training process? (3) Do the learned antibody pre-trained representations make sense in real-world antibody problems, like drug discovery and immune process understanding? Previously, no benchmark available largely hindered the study to answer these questions. To facilitate the investigation, we provide an AnTibody Understanding Evaluation (ATUE) benchmark. We comprehensively evaluate the performance of protein pre-trained language models by empirical study along with conclusions and new insights. Our ATUE and code are released at https://github.com/dqwang122/EATLM. | 翻訳日:2023-01-31 18:54:33 公開日:2023-01-28 |
# clusterfug: マルチカットによる完全連結グラフのクラスタリング ClusterFuG: Clustering Fully connected Graphs by Multicut ( http://arxiv.org/abs/2301.12159v1 ) ライセンス: Link先を確認 | Ahmed Abbas and Paul Swoboda | (参考訳) 完全グラフ上のマルチカット(重み付き相関クラスタリング)に基づくグラフクラスタリングの定式化を提案する。
我々の定式化は、もともとのマルチカットのスパースな定式化のようにグラフトポロジーの仕様を必要とせず、我々のアプローチをシンプルにし、性能を向上させる。
非重み付き相関クラスタリングとは対照的に、より表現力のある重み付きコスト構造を実現する。
密マルチカットでは、クラスタリングの対象はノード特徴ベクトルの内部積として分解形式で与えられる。
これにより、完全なグラフを扱う際に少なくとも二次表現と計算複雑性を持つマルチカット/重み付き相関クラスタリングとは対照的に、効率的な定式化と推論が可能になる。
我々は、密集した環境でのマルチカットのための古典的欲求アルゴリズムの書き直し方法と、それらをより効率よく解品質に修正する方法を示す。
特に、我々のアルゴリズムは数万のノードを持つグラフにスケールする。
CityscapesのインスタンスセグメンテーションとImageNetデータセットのクラスタリングに関する実証的な証拠は、我々のアプローチの利点を示している。 We propose a graph clustering formulation based on multicut (a.k.a. weighted correlation clustering) on the complete graph. Our formulation does not need specification of the graph topology as in the original sparse formulation of multicut, making our approach simpler and potentially better performing. In contrast to unweighted correlation clustering we allow for a more expressive weighted cost structure. In dense multicut, the clustering objective is given in a factorized form as inner products of node feature vectors. This allows for an efficient formulation and inference in contrast to multicut/weighted correlation clustering, which has at least quadratic representation and computation complexity when working on the complete graph. We show how to rewrite classical greedy algorithms for multicut in our dense setting and how to modify them for greater efficiency and solution quality. In particular, our algorithms scale to graphs with tens of thousands of nodes. Empirical evidence on instance segmentation on Cityscapes and clustering of ImageNet datasets shows the merits of our approach. | 翻訳日:2023-01-31 18:48:36 公開日:2023-01-28 |
# オンライン顧客支援のための人間とAIのコラボレーションシステム A system for Human-AI collaboration for Online Customer Support ( http://arxiv.org/abs/2301.12158v1 ) ライセンス: Link先を確認 | Debayan Banerjee, Mathis Poser, Christina Wiethof, Varun Shankar Subramanian, Richard Paucar, Eva A. C. Bittner, Chris Biemann | (参考訳) aiを有効にしたチャットボットは最近、カスタマーサービスの問い合わせに答えるために使われるようになったが、ボットには個人的なタッチがなく、しばしばユーザーの質問の本当の意図が理解できないというユーザーからの一般的なフィードバックである。
この目的のためには、カスタマーサービスプロセスに人間が関与することが望ましい。
本研究では,人間支援エージェントがAIエージェントとリアルタイムで協調して顧客の質問に満足して答えるシステムを提案する。
本稿では,AIエージェントに関わる機械学習技術とともに,ソリューションのユーザインタラクション要素について述べる。 AI enabled chat bots have recently been put to use to answer customer service queries, however it is a common feedback of users that bots lack a personal touch and are often unable to understand the real intent of the user's question. To this end, it is desirable to have human involvement in the customer servicing process. In this work, we present a system where a human support agent collaborates in real-time with an AI agent to satisfactorily answer customer queries. We describe the user interaction elements of the solution, along with the machine learning techniques involved in the AI agent. | 翻訳日:2023-01-31 18:48:20 公開日:2023-01-28 |
# レイアウト対応Webページの品質評価 Layout-aware Webpage Quality Assessment ( http://arxiv.org/abs/2301.12152v1 ) ライセンス: Link先を確認 | Anfeng Cheng, Yiding Liu, Weibin Li, Qian Dong, Shuaiqiang Wang, Zhengjie Huang, Shikun Feng, Zhicong Cheng and Dawei Yin | (参考訳) 高品質なWebページの特定は,ユーザの認知的負担を軽減し,ユーザのニーズを満たす現実世界の検索エンジンの基本となる。
emph{webpage quality assessment}の初期の研究は、通常、特定のwebページ(例えば、ショッピングウェブサイト、医療ウェブサイト)のカテゴリのみで動作する手作りの機能を設計する。
さまざまなタイプのウェブページを提供する現実世界の検索エンジンにはほとんど適用できない。
本稿では,現在検索エンジンに実装されているレイアウト対応ウェブページ品質評価モデルを提案する。
直感的には、レイアウトは異なるカテゴリのウェブページの品質評価のための普遍的で重要な次元である。
これに基づいて、私たちは、Webページ、すなわちドキュメントオブジェクトモデル(DOM)ツリーを記述したメタデータを直接モデル入力として使用します。
domツリーデータは、異なるカテゴリと目的のウェブページの表現を統一し、ウェブページのレイアウトを示す。
複雑なDOMツリーデータからWebページの品質を評価するために,エンド・ツー・エンドでWebページの品質を示すリッチなレイアウト認識情報を抽出するグラフニューラルネットワーク(GNN)を提案する。
さらに,注意読み出し機能,外部webカテゴリ,カテゴリ対応サンプリング手法を用いてgnn法を改善した。
提案手法が実際の検索エンジンに有効であることを示すために,厳密なオフラインおよびオンライン実験を実施し,全体のユーザビリティとユーザエクスペリエンスを向上させる。 Identifying high-quality webpages is fundamental for real-world search engines, which can fulfil users' information need with the less cognitive burden. Early studies of \emph{webpage quality assessment} usually design hand-crafted features that may only work on particular categories of webpages (e.g., shopping websites, medical websites). They can hardly be applied to real-world search engines that serve trillions of webpages with various types and purposes. In this paper, we propose a novel layout-aware webpage quality assessment model currently deployed in our search engine. Intuitively, layout is a universal and critical dimension for the quality assessment of different categories of webpages. Based on this, we directly employ the meta-data that describes a webpage, i.e., Document Object Model (DOM) tree, as the input of our model. The DOM tree data unifies the representation of webpages with different categories and purposes and indicates the layout of webpages. To assess webpage quality from complex DOM tree data, we propose a graph neural network (GNN) based method that extracts rich layout-aware information that implies webpage quality in an end-to-end manner. Moreover, we improve the GNN method with an attentive readout function, external web categories and a category-aware sampling method. We conduct rigorous offline and online experiments to show that our proposed solution is effective in real search engines, improving the overall usability and user experience. | 翻訳日:2023-01-31 18:48:10 公開日:2023-01-28 |
# 敵の攻撃による損害リスクに基づくモデルの選択 Selecting Models based on the Risk of Damage Caused by Adversarial Attacks ( http://arxiv.org/abs/2301.12151v1 ) ライセンス: Link先を確認 | Jona Klemenc, Holger Trittenbach | (参考訳) 規制、法的責任、社会的懸念は、安全およびセキュリティクリティカルなアプリケーションにおけるAIの採用に挑戦する。
重要な懸念の1つは、敵が検出されずにモデル予測を操作することで害を引き起こす可能性があることである。
そのため、規制は敵による損害のリスクの評価を要求する。
しかし、この高いレベルの需要を損害のリスクを定量化する実行可能な指標に変換する方法は存在しない。
本稿では,敵攻撃による被害の確率をモデル化し,統計的に推定する手法を提案する。
提案した推定器は統計的に一貫し, 偏りがないことを示す。
実験では,提案手法の計算結果が明確で動作可能な解釈であり,従来の指標よりも優れていることを示す。
次に、オペレーターが推定結果を使って最小のリスクでモデルを確実に選択する方法を示す。 Regulation, legal liabilities, and societal concerns challenge the adoption of AI in safety and security-critical applications. One of the key concerns is that adversaries can cause harm by manipulating model predictions without being detected. Regulation hence demands an assessment of the risk of damage caused by adversaries. Yet, there is no method to translate this high-level demand into actionable metrics that quantify the risk of damage. In this article, we propose a method to model and statistically estimate the probability of damage arising from adversarial attacks. We show that our proposed estimator is statistically consistent and unbiased. In experiments, we demonstrate that the estimation results of our method have a clear and actionable interpretation and outperform conventional metrics. We then show how operators can use the estimation results to reliably select the model with the lowest risk. | 翻訳日:2023-01-31 18:47:46 公開日:2023-01-28 |
# POSTER V2: よりシンプルで強力な表情認識ネットワーク POSTER V2: A simpler and stronger facial expression recognition network ( http://arxiv.org/abs/2301.12149v1 ) ライセンス: Link先を確認 | Jiawei Mao, Rui Xu, Xuesong Yin, Yuanqi Chang, Binling Nie, Aibin Huang | (参考訳) 表情認識(fer)は、人間とコンピュータの相互作用など、様々な現実世界のアプリケーションにおいて重要な役割を果たす。
POSTER V1は、顔のランドマークと画像の特徴を2ストリームのピラミッドクロスフュージョン設計で効果的に組み合わせることで、FERの最先端(SOTA)性能を実現する。
しかし、POSTER V1のアーキテクチャは間違いなく複雑である。
それは高価な計算コストを引き起こす。
本稿では,POSTER V1の計算圧力を軽減するために,POSTER V2を提案する。
POSTER V1は、クロスフュージョン、2ストリーム、マルチスケールの特徴抽出の3方向に改善されている。
クロスフュージョンでは,バニラクロスアテンション機構に代わるウィンドウベースのクロスアテンション機構を用いる。
2ストリーム設計における画像とランドマークの分岐を除去する。
マルチスケールの特徴抽出のために、POSTER V2は画像とランドマークのマルチスケール機能を組み合わせて、POSTER V1のピラミッド設計を置き換える。
いくつかの標準データセットに対する大規模な実験は、POSTER V2が最小計算コストでSOTA FER性能を達成することを示している。
例えば、POSTER V2はRAF-DBで92.21\%、AffectNetで67.49\%、AffectNetで63.77\%に達し、8.4G浮動小数点演算(FLOP)と43.7Mパラメータ(Param)のみを使用した。
これは我々の改善の有効性を示している。
コードとモデルは ~\url{https://github.com/Talented-Q/POSTER_V2} で入手できる。 Facial expression recognition (FER) plays an important role in a variety of real-world applications such as human-computer interaction. POSTER V1 achieves the state-of-the-art (SOTA) performance in FER by effectively combining facial landmark and image features through two-stream pyramid cross-fusion design. However, the architecture of POSTER V1 is undoubtedly complex. It causes expensive computational costs. In order to relieve the computational pressure of POSTER V1, in this paper, we propose POSTER V2. It improves POSTER V1 in three directions: cross-fusion, two-stream, and multi-scale feature extraction. In cross-fusion, we use window-based cross-attention mechanism replacing vanilla cross-attention mechanism. We remove the image-to-landmark branch in the two-stream design. For multi-scale feature extraction, POSTER V2 combines images with landmark's multi-scale features to replace POSTER V1's pyramid design. Extensive experiments on several standard datasets show that our POSTER V2 achieves the SOTA FER performance with the minimum computational cost. For example, POSTER V2 reached 92.21\% on RAF-DB, 67.49\% on AffectNet (7 cls) and 63.77\% on AffectNet (8 cls), respectively, using only 8.4G floating point operations (FLOPs) and 43.7M parameters (Param). This demonstrates the effectiveness of our improvements. The code and models are available at ~\url{https://github.com/Talented-Q/POSTER_V2}. | 翻訳日:2023-01-31 18:47:33 公開日:2023-01-28 |
# 基準点を用いた参照型進化的多目的最適化のための品質指標:レビューと分析 Quality Indicators for Preference-based Evolutionary Multi-objective Optimization Using a Reference Point: A Review and Analysis ( http://arxiv.org/abs/2301.12148v1 ) ライセンス: Link先を確認 | Ryoji Tanabe and Ke Li | (参考訳) 参照点を用いた選好に基づく進化的多目的最適化アルゴリズムのための品質指標がいくつか提案されている。
品質指標の体系的なレビューと分析は、ベンチマークと実用的な意思決定の両方に役立つが、どちらも実施されていない。
本稿では,まず,既存の関心領域と基準点を用いた嗜好に基づく進化的多目的最適化のための品質指標について概説する。
各品質指標は異なる関心領域のために設計されていると指摘する。
そこで本研究では,品質指標の特性について検討する。
目的空間における解から基準点までの距離は,達成度スカラー化関数値が必ずしも一致しないことを示す。
我々は、基準点の位置とパレート前面の形状によって、興味のある領域が著しく異なることを観察する。
いくつかの品質指標の望ましくない性質を識別する。
また,選好に基づく進化的多目的最適化アルゴリズムのランク付けは,品質指標の選択に大きく依存することを示した。 Some quality indicators have been proposed for benchmarking preference-based evolutionary multi-objective optimization algorithms using a reference point. Although a systematic review and analysis of the quality indicators are helpful for both benchmarking and practical decision-making, neither has been conducted. In this context, first, this paper reviews existing regions of interest and quality indicators for preference-based evolutionary multi-objective optimization using the reference point. We point out that each quality indicator was designed for a different region of interest. Then, this paper investigates the properties of the quality indicators. We demonstrate that an achievement scalarizing function value is not always consistent with the distance from a solution to the reference point in the objective space. We observe that the regions of interest can be significantly different depending on the position of the reference point and the shape of the Pareto front. We identify undesirable properties of some quality indicators. We also show that the ranking of preference-based evolutionary multi-objective optimization algorithms significantly depends on the choice of quality indicators. | 翻訳日:2023-01-31 18:47:05 公開日:2023-01-28 |
# 編集能力の低下は?
改良型GANインバージョンのためのドメイン特化ハイブリッドリファインメント What Decreases Editing Capability? Domain-Specific Hybrid Refinement for Improved GAN Inversion ( http://arxiv.org/abs/2301.12141v1 ) ライセンス: Link先を確認 | Pu Cao, Lu Yang, Dongxu Liu, Zhiwei Liu, Shan Li, Qing Song | (参考訳) 近年、インバージョン手法は、組み込まれた潜在コードからインバージョンや編集結果を洗練するために、ジェネレータ(例えば重み付けや中間機能)に高次情報を追加することに重点を置いている。
これらの技術は再構築において合理的な改善をもたらすが、特に複雑な画像(例えば、閉塞物、詳細な背景、アーティファクトを含む)の編集能力は低下する。
重要なcruxは、編集能力の低下を避けるために、反転結果の精細化である。
この問題に対処するため,本研究では2つの主流改良手法の利点とデメリットを活かしたDHR(Domain-Specific Hybrid Refinement)を導入する。
具体的には、まず、ドメイン内部分とドメイン外部分の2つの部分に分割するドメイン固有のセグメンテーションを提案する。
リファインメントプロセスは、ドメイン内領域の編集性を維持し、2つのドメインの忠実性を改善することを目的としている。
これら2つの部分を重み変調と特徴変調により精錬し、これをハイブリッド変調精錬と呼ぶ。
提案手法は,すべての潜在コード組込み手法と互換性がある。
拡張実験により,本手法は実画像の反転と編集において最先端の成果が得られることを示す。
コードはhttps://github.com/caopulan/domain-specific_hybrid_refinement_inversionで入手できる。 Recently, inversion methods have focused on additional high-rate information in the generator (e.g., weights or intermediate features) to refine inversion and editing results from embedded latent codes. Although these techniques gain reasonable improvement in reconstruction, they decrease editing capability, especially on complex images (e.g., containing occlusions, detailed backgrounds, and artifacts). A vital crux is refining inversion results, avoiding editing capability degradation. To tackle this problem, we introduce Domain-Specific Hybrid Refinement (DHR), which draws on the advantages and disadvantages of two mainstream refinement techniques to maintain editing ability with fidelity improvement. Specifically, we first propose Domain-Specific Segmentation to segment images into two parts: in-domain and out-of-domain parts. The refinement process aims to maintain the editability for in-domain areas and improve two domains' fidelity. We refine these two parts by weight modulation and feature modulation, which we call Hybrid Modulation Refinement. Our proposed method is compatible with all latent code embedding methods. Extension experiments demonstrate that our approach achieves state-of-the-art in real image inversion and editing. Code is available at https://github.com/caopulan/Domain-Specific_Hybrid_Refinement_Inversion. | 翻訳日:2023-01-31 18:46:51 公開日:2023-01-28 |
# 多言語単語アグナーとしての多言語文変換器 Multilingual Sentence Transformer as A Multilingual Word Aligner ( http://arxiv.org/abs/2301.12140v1 ) ライセンス: Link先を確認 | Weikang Wang, Guanhua Chen, Hanqing Wang, Yue Han, Yun Chen | (参考訳) 多言語事前学習言語モデル(mPLM)は、多言語単語アライメント誘導においてその効果を示した。
しかし、これらの手法は通常mBERTやXLM-Rから始まる。
本稿では,多言語文変換言語であるLaBSEが,多言語語調合語であるかどうかを検討する。
LaBSEは言語に依存しない文レベルの埋め込みを学習するために訓練されているが、アライメント抽出タスクは言語に依存しない単語レベルの埋め込みを必要とする。
我々は,現在アライメントタスクで使用されている他のmPLMよりもバニラLaBSEの方が優れており,さらに改善するために並列コーパス上でのLaBSEの微調整を提案する。
7つの言語ペアの実験結果から、我々の最善の調整器は、すべての多様体の以前の最先端モデルよりも優れています。
さらに,コーディネータは1つのモデルで異なる言語ペアをサポートし,ファインタニングプロセスにはないゼロショット言語ペアに対して,新たな最先端技術を実現する。 Multilingual pretrained language models (mPLMs) have shown their effectiveness in multilingual word alignment induction. However, these methods usually start from mBERT or XLM-R. In this paper, we investigate whether multilingual sentence Transformer LaBSE is a strong multilingual word aligner. This idea is non-trivial as LaBSE is trained to learn language-agnostic sentence-level embeddings, while the alignment extraction task requires the more fine-grained word-level embeddings to be language-agnostic. We demonstrate that the vanilla LaBSE outperforms other mPLMs currently used in the alignment task, and then propose to finetune LaBSE on parallel corpus for further improvement. Experiment results on seven language pairs show that our best aligner outperforms previous state-of-the-art models of all varieties. In addition, our aligner supports different language pairs in a single model, and even achieves new state-of-the-art on zero-shot language pairs that does not appear in the finetuning process. | 翻訳日:2023-01-31 18:46:30 公開日:2023-01-28 |
# Bipol:ベンチマークデータセットで説明可能なバイアスのマルチアックス評価 Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark Datasets ( http://arxiv.org/abs/2301.12139v1 ) ライセンス: Link先を確認 | Tosin Adewumi, Isabella S\"odergren, Lama Alkhaled, Sana Sabah Sabry, Foteini Liwicki and Marcus Liwicki | (参考訳) 我々は、複数の軸に沿って5つの英語NLPベンチマークデータセット(SuperGLUEリーダーボードで利用可能)をバイアスとして評価する。
データセットは、Boolean Question (Boolq)、CommitmentBank (CB)、Winograd Schema Challenge (WSC)、Winogender Diagnostic (AXg)、Recognising Textual Entailment (RTE)である。
バイアスは有害であり、MLモデルが学習するデータに共通していることが知られている。
データのバイアスを軽減するためには,それを客観的に見積もることが不可欠である。
説明可能性を持つ新しい多軸バイアスメトリックであるbipolを使用して、これらのデータセットにどの程度のバイアスが存在するかを定量化し、説明します。
多言語多軸バイアス評価はあまり一般的ではない。
それゆえ,我々は,約200万のサンプルを含む,新たにラベル付きスウェーデンバイアス検出データセットを,英語版から翻訳した。
さらに,スウェーデン語で新たに多軸レキシカを用いてバイアス検出を行った。
バイアス検出のための新しいデータセットでSotAモデルをトレーニングする。
コード、モデル、新しいデータセットを公開しています。 We evaluate five English NLP benchmark datasets (available on the superGLUE leaderboard) for bias, along multiple axes. The datasets are the following: Boolean Question (Boolq), CommitmentBank (CB), Winograd Schema Challenge (WSC), Winogender diagnostic (AXg), and Recognising Textual Entailment (RTE). Bias can be harmful and it is known to be common in data, which ML models learn from. In order to mitigate bias in data, it is crucial to be able to estimate it objectively. We use bipol, a novel multi-axes bias metric with explainability, to quantify and explain how much bias exists in these datasets. Multilingual, multi-axes bias evaluation is not very common. Hence, we also contribute a new, large labelled Swedish bias-detection dataset, with about 2 million samples; translated from the English version. In addition, we contribute new multi-axes lexica for bias detection in Swedish. We train a SotA model on the new dataset for bias detection. We make the codes, model, and new dataset publicly available. | 翻訳日:2023-01-31 18:46:12 公開日:2023-01-28 |
# 量子シミュレータによる位相不規則位相図のマッピング Mapping a topology-disorder phase diagram with a quantum simulator ( http://arxiv.org/abs/2301.12138v1 ) ライセンス: Link先を確認 | Xue-Gang Li, Hui-Kai Xu, Jun-Hua Wang, Ling-Zhi Tang, Dan-Wei Zhang, Chu-Hong Yang, Tang Su, Chen-Lu Wang, Zhen-Yu Mi, Wei-Jie Sun, Xue-Hui Liang, Mo Chen, Cheng-Yao Li, Ying-Shan Zhang, Ke-Huan Linghu, Jia-Xiu Han, Wei-Yang Liu, Yu-Long Feng, Pei Liu, Guang-Ming Xue, Jing-Ning Zhang, Yi-Rong Jin, Shi-Liang Zhu, Hai-Feng Yu, Qi-Kun Xue | (参考訳) トポロジーと無秩序の競争と相互作用は、凝縮物質物理学の分野で最も有名な話題の1つとなっている。
トポロジカルに自明で局所的なフェーズにシステムを組み込む直感的な傾向に加えて、障害は非自明なトポロジや輸送を誘発することも発見されている。
リッチで多様な位相構造を明らかにするために、位相図のマッピングは理論面と実験面の両方において重要な役割を果たす。
量子シミュレーションは、ターゲットモデルを研究し、位相図を探索し、基礎となるメカニズムを明らかにするための将来の方法を提供する。
前例のない制御性のおかげで、超伝導量子シミュレータは複雑な多体物理学を研究し、思考実験を現実に持ち込むために導入された。
私たちの知る限りでは、位相図をリッチな構造にマッピングする努力はまだ不十分です。
本稿では,32キュービットの位相不規則位相図をプログラム可能なアナログ量子シミュレータ上で体系的に実験する。
広いパラメータ範囲に1次元(1次元)不規則な二量体密結合モデルを実装し、トポロジカルアンダーソン絶縁体(TAI)や逆アンダーソン局在(ial)を含む様々な位相を観察する。
本実験は超伝導回路素子の効率, 精度, 柔軟性を示し, 雑音中規模量子シミュレータを用いた多体現象の実証と理解への道を開く。 The competition and interplay of topology and disorder has been one of the most famous topics in the field of condensed matter physics. In addition to the intuitive tendency to bring the system into a topologically trivial and localized phase, it has been discovered that disorder can also induce nontrivial topology and transport. To reveal rich and diverse phase structures, mapping phase diagrams plays an important role in both theoretical and experimental sides. Quantum simulation provides a prospective way to study the target model, explore the phase diagram and reveal the underlying mechanism. Thanks to the unprecedented controllability, superconducting quantum simulators have been introduced to investigate complex many-body physics and bring thought experiments into reality. To our best knowledge, the effort to map a phase diagram with a rich structure is still lacking. Here we report a systematic experimental study of the topology-disorder phase diagram with 32 qubits on a programmable analog quantum simulator. We implement one-dimensional (1D) disordered dimerized tight-binding models over a wide parameter range and observe diverse phases, including the topological Anderson insulator (TAI) and the inverse Anderson localization (IAL). Our experiment manifests the efficiency, accuracy and flexibility of the superconducting-circuit device and paves the way to the demonstration and understanding of many-body phenomena with noisy intermediate-scale quantum simulators. | 翻訳日:2023-01-31 18:45:52 公開日:2023-01-28 |
# 2段階動的プログラミングによる高効率遅延対応cnn奥行き圧縮 Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic Programming ( http://arxiv.org/abs/2301.12187v1 ) ライセンス: Link先を確認 | Jinuk Kim, Yeonwoo Jeong, Deokjae Lee, Hyun Oh Song | (参考訳) ニューラルネットワークのプルーニングに関する最近の研究は、チャネルプルーニングによるネットワーク幅の削減よりも、ネットワークの深さの削減が実行時のメモリ使用量の削減と推論遅延の高速化に有効である、と提唱している。
この点に関して、近年の研究では畳み込み層をマージする深度圧縮アルゴリズムが提案されている。
しかし、既存のアルゴリズムは制限付き検索空間を持ち、人間工学的なヒューリスティックに依存している。
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
本稿では,非効率なアクティベーション層を同一関数に置き換え,連続畳み込み操作を最小等価畳み込み操作に最適にマージし,効率的なエンドツーエンド推論レイテンシを実現する部分集合選択問題を提案する。
提案したサブセット選択問題はNPハードであるため,数秒以内に2段階動的プログラミングによって正確に解くことができる代用最適化問題を定式化する。
提案手法とベースラインを TensorRT で評価し,推定遅延の比較を行った。
提案手法は,ImageNetデータセット上のMobileNetV2において,高精度かつ高速な推論速度でベースライン法より優れる。
具体的には、ImageNet上のMobileNetV2-1.4の0.62$\%pの精度低下で、1.61\times$speed-upを達成した。 Recent works on neural network pruning advocate that reducing the depth of the network is more effective in reducing run-time memory usage and accelerating inference latency than reducing the width of the network through channel pruning. In this regard, some recent works propose depth compression algorithms that merge convolution layers. However, the existing algorithms have a constricted search space and rely on human-engineered heuristics. In this paper, we propose a novel depth compression algorithm which targets general convolution operations. We propose a subset selection problem that replaces inefficient activation layers with identity functions and optimally merges consecutive convolution operations into shallow equivalent convolution operations for efficient end-to-end inference latency. Since the proposed subset selection problem is NP-hard, we formulate a surrogate optimization problem that can be solved exactly via two-stage dynamic programming within a few seconds. We evaluate our methods and baselines by TensorRT for a fair inference latency comparison. Our method outperforms the baseline method with higher accuracy and faster inference speed in MobileNetV2 on the ImageNet dataset. Specifically, we achieve $1.61\times$speed-up with only $0.62$\%p accuracy drop in MobileNetV2-1.4 on the ImageNet. | 翻訳日:2023-01-31 18:39:50 公開日:2023-01-28 |
# 多層ハイパーグラフにおけるラプラシアンに基づく半教師付き学習 Laplacian-based Semi-Supervised Learning in Multilayer Hypergraphs by Coordinate Descent ( http://arxiv.org/abs/2301.12184v1 ) ライセンス: Link先を確認 | Sara Venturini, Andrea Cristofari, Francesco Rinaldi, Francesco Tudisco | (参考訳) Graph Semi-Supervised Learningは重要なデータ分析ツールであり、グラフとラベル付きノードのセットが与えられたら、ラベルを残らないノードに推論することを目的としている。
本稿では,無向グラフ問題に対する最適化に基づく定式化の検討から始めて,この定式化を多層ハイパーグラフに拡張する。
異なる座標勾配法を用いて問題を解き、古典的な勾配勾配法で得られた手法と比較する。
合成および実世界のデータセットの実験は、適切な選択規則を持つ座標降下法を用いることの可能性を示している。 Graph Semi-Supervised learning is an important data analysis tool, where given a graph and a set of labeled nodes, the aim is to infer the labels to the remaining unlabeled nodes. In this paper, we start by considering an optimization-based formulation of the problem for an undirected graph, and then we extend this formulation to multilayer hypergraphs. We solve the problem using different coordinate descent approaches and compare the results with the ones obtained by the classic gradient descent method. Experiments on synthetic and real-world datasets show the potential of using coordinate descent methods with suitable selection rules. | 翻訳日:2023-01-31 18:39:31 公開日:2023-01-28 |
# MVKT-ECG:多視点知識伝達によるマルチラベル不整脈の効率的な単誘導心電図分類 MVKT-ECG: Efficient Single-lead ECG Classification on Multi-Label Arrhythmia by Multi-View Knowledge Transferring ( http://arxiv.org/abs/2301.12178v1 ) ライセンス: Link先を確認 | Yuzhen Qin, Li Sun, Hui Chen, Wei-qiang Zhang, Wenming Yang, Jintao Fei, Guijin Wang | (参考訳) ECG用のスマートデバイスの普及により、インテリジェントなシングルリードECGベースの診断システムへの需要が高まった。
しかし,いくつかの重要な疾患情報がないため,複数疾患診断のための単一リード型ECG解釈モデルの開発は困難である。
本研究では, シングルリード心電図のマルチラベル診断能力を高めるために, リード間多視点心電図伝達方式を提案する。
このトレーニング戦略は、複数のECG(例えば12リードのECG)の異なる視点から1リードのECG解釈モデルに優れた疾患知識を移し、ニューラルネットワークによって容易に見落とされる単一リードのECG信号で詳細をマイニングすることができる。
MVKT-ECGは、教師がマルチリードECGを観察し、単一リードECGのみを観察する学生を教育する、教師-学生パラダイムにおける指導信号として、このリードバリアントを許容する。
シングルリード心電図とミューリリード心電図の相互疾患情報は,知識伝達において重要な役割を担っているため,シングルリード心電図とミューリリード心電図の相互疾患情報を改善するために,新たにCLT(Contrastive Lead-information Transfering)を提案する。
また,従来の知識蒸留法をマルチラベル病知識蒸留法(mkd)に変更し,マルチラベル病診断に適用した。
MVKT-ECGは単葉心電図の診断効果を向上させるのに優れた性能を示した。 The widespread emergence of smart devices for ECG has sparked demand for intelligent single-lead ECG-based diagnostic systems. However, it is challenging to develop a single-lead-based ECG interpretation model for multiple diseases diagnosis due to the lack of some key disease information. In this work, we propose inter-lead Multi-View Knowledge Transferring of ECG (MVKT-ECG) to boost single-lead ECG's ability for multi-label disease diagnosis. This training strategy can transfer superior disease knowledge from multiple different views of ECG (e.g. 12-lead ECG) to single-lead-based ECG interpretation model to mine details in single-lead ECG signals that are easily overlooked by neural networks. MVKT-ECG allows this lead variety as a supervision signal within a teacher-student paradigm, where the teacher observes multi-lead ECG educates a student who observes only single-lead ECG. Since the mutual disease information between the single-lead ECG and muli-lead ECG plays a key role in knowledge transferring, we present a new disease-aware Contrastive Lead-information Transferring(CLT) to improve the mutual disease information between the single-lead ECG and muli-lead ECG. Moreover, We modify traditional Knowledge Distillation to multi-label disease Knowledge Distillation (MKD) to make it applicable for multi-label disease diagnosis. The comprehensive experiments verify that MVKT-ECG has an excellent performance in improving the diagnostic effect of single-lead ECG. | 翻訳日:2023-01-31 18:39:21 公開日:2023-01-28 |
# 磁気共鳴画像データを用いた脳腫瘍検出のための神経ガスネットワーク画像の特徴とセグメンテーション Neural Gas Network Image Features and Segmentation for Brain Tumor Detection Using Magnetic Resonance Imaging Data ( http://arxiv.org/abs/2301.12176v1 ) ライセンス: Link先を確認 | S. Muhammad Hossein Mousavi | (参考訳) 脳腫瘍の正確な検出は、多くの命を救える可能性があり、ほんの数パーセントでもこの二分分類の精度を高めることは、非常に重要である。
Neural Gas Networks (NGN) は、高速で教師なしのアルゴリズムであり、データクラスタリング、画像パターン認識、画像セグメンテーションに使用できる。
本研究では,画像コントラストを前処理としてメタヒューリスティックなfireflyアルゴリズム(fa)を用い,kaggleプラットフォームからの2つの脳腫瘍データセットにおけるmriデータの特徴抽出とセグメンテーションにngn重みを用いた。
また,SVM(Support Vector Machine)分類アルゴリズムを用いて腫瘍の分類を行い,深層学習技術と,列車および試験段階における他の特徴との比較を行った。
さらに、ngn腫瘍のセグメンテーションは、精度、f-measure、jaccardなどの有名なパフォーマンス指標によって評価され、従来のセグメンテーション技術と比較される。
提案法は他の方法と比較して腫瘍分類と分節処理の両方において高速かつ正確である。
95.14 %の分類精度と0.977の分割精度を提案手法により達成した。 Accurate detection of brain tumors could save lots of lives and increasing the accuracy of this binary classification even as much as a few percent has high importance. Neural Gas Networks (NGN) is a fast, unsupervised algorithm that could be used in data clustering, image pattern recognition, and image segmentation. In this research, we used the metaheuristic Firefly Algorithm (FA) for image contrast enhancement as pre-processing and NGN weights for feature extraction and segmentation of Magnetic Resonance Imaging (MRI) data on two brain tumor datasets from the Kaggle platform. Also, tumor classification is conducted by Support Vector Machine (SVM) classification algorithms and compared with a deep learning technique plus other features in train and test phases. Additionally, NGN tumor segmentation is evaluated by famous performance metrics such as Accuracy, F-measure, Jaccard, and more versus ground truth data and compared with traditional segmentation techniques. The proposed method is fast and precise in both tasks of tumor classification and segmentation compared with other methods. A classification accuracy of 95.14 % and segmentation accuracy of 0.977 is achieved by the proposed method. | 翻訳日:2023-01-31 18:38:53 公開日:2023-01-28 |
# 確率次元還元法による政策最適化法 Stochastic Dimension-reduced Second-order Methods for Policy Optimization ( http://arxiv.org/abs/2301.12174v1 ) ライセンス: Link先を確認 | Jinsong Liu, Chenghan Xie, Qi Deng, Dongdong Ge, Yinyu Ye | (参考訳) 本稿では,各イテレーションで勾配とヘッセンベクトルの積のみを必要とする,政策最適化のための確率的2次アルゴリズムをいくつか提案する。
具体的には,投影された二次元信頼領域部分問題を繰り返し解く次元縮小二階法(dr-sopo)を提案する。
近似1次定常条件と部分空間2次定常条件に到達するために、dr-sopo は $\mathcal{o}(\epsilon^{-3.5})$ の複雑性を得る。
さらに, 分散低減法に基づき, 複雑性を$\mathcal{O}(\epsilon^{-3})$に向上させる拡張アルゴリズム(DVR-SOPO)を提案する。
予備実験により,提案アルゴリズムは確率的および分散還元されたポリシー勾配法と比較して好適な性能を示した。 In this paper, we propose several new stochastic second-order algorithms for policy optimization that only require gradient and Hessian-vector product in each iteration, making them computationally efficient and comparable to policy gradient methods. Specifically, we propose a dimension-reduced second-order method (DR-SOPO) which repeatedly solves a projected two-dimensional trust region subproblem. We show that DR-SOPO obtains an $\mathcal{O}(\epsilon^{-3.5})$ complexity for reaching approximate first-order stationary condition and certain subspace second-order stationary condition. In addition, we present an enhanced algorithm (DVR-SOPO) which further improves the complexity to $\mathcal{O}(\epsilon^{-3})$ based on the variance reduction technique. Preliminary experiments show that our proposed algorithms perform favorably compared with stochastic and variance-reduced policy gradient methods. | 翻訳日:2023-01-31 18:38:35 公開日:2023-01-28 |
# ZegOT: テキストプロンプトの最適輸送によるゼロショットセグメンテーション ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts ( http://arxiv.org/abs/2301.12171v1 ) ライセンス: Link先を確認 | Kwanyoung Kim, Yujin Oh, Jong Chul Ye | (参考訳) 最近の大規模コントラスト言語-画像事前学習(clip)の成功は、画像テキストに整合した知識をピクセルレベルの分類に移すことで、ゼロショット意味セグメンテーションにおいて大きな期待を呼んでいる。
しかし、既存のメソッドは通常、追加のイメージエンコーダやCLIPモジュールの再トレーニング/チューニングを必要とする。
ここでは,CLIPモジュール全体の凍結を維持しつつ,そのリッチな情報を完全に活用するテキストプロンプト学習を用いた費用対効果戦略を提案する。
具体的には、複数のテキストプロンプトと最適なトランスポートによる凍結画像埋め込みとを一致させるZegOT(Zero-shot segmentation with Optimal Transport)法を提案する。
さらに,テキストプロンプトと冷凍画像エンコーダ層の中間的局所的特徴とを深く整合させ,ゼロショットセグメンテーション性能を大幅に向上させるDLFA(Deep Local Feature Alignment)を提案する。
ベンチマークデータセットの広範な実験により,本手法は従来のSOTA手法と比較して,x7の軽いパラメータのみを用いて,最先端(SOTA)性能を実現することを示す。 Recent success of large-scale Contrastive Language-Image Pre-training (CLIP) has led to great promise in zero-shot semantic segmentation by transferring image-text aligned knowledge to pixel-level classification. However, existing methods usually require an additional image encoder or retraining/tuning the CLIP module. Here, we present a cost-effective strategy using text-prompt learning that keeps the entire CLIP module frozen while fully leveraging its rich information. Specifically, we propose a novel Zero-shot segmentation with Optimal Transport (ZegOT) method that matches multiple text prompts with frozen image embeddings through optimal transport, which allows each text prompt to efficiently focus on specific semantic attributes. Additionally, we propose Deep Local Feature Alignment (DLFA) that deeply aligns the text prompts with intermediate local feature of the frozen image encoder layers, which significantly boosts the zero-shot segmentation performance. Through extensive experiments on benchmark datasets, we show that our method achieves the state-of-the-art (SOTA) performance with only x7 lighter parameters compared to previous SOTA approaches. | 翻訳日:2023-01-31 18:38:18 公開日:2023-01-28 |
# 予測、アンサンブル、プルーン:集約早期出口による畳み込みニューラルネットワークの改善 Anticipate, Ensemble and Prune: Improving Convolutional Neural Networks via Aggregated Early Exits ( http://arxiv.org/abs/2301.12168v1 ) ライセンス: Link先を確認 | Simone Sarti, Eugenio Lomurno, Matteo Matteucci | (参考訳) 今日、ニューラルネットワークは、特に画像分類において、様々な複雑なタスクを解決するための最先端の技術である。
このようなアーキテクチャは、有用な情報を抽出し、分類器によって処理することで正確な予測を行う目的で、積み重ねられたレイヤのシーケンスで構成されている。
しかし、そのようなモデル内の中間情報はよく使われない。
エッジコンピューティングのコンテキストのような他のケースでは、これらのアーキテクチャは、分類の精度を極端に損なうことなく計算負荷と時間負荷を減少させることを目的として、初期の出口、すなわち中間分類器を含む機能化される複数のパーティションに分割される。
本稿では,初期出口の重み付けアンサンブルに基づく新たなトレーニング手法であるPrecipate, Ensemble and Prune(AEP)を提案する。
総合的な実験を通じて,本手法の利用により,従来のトレーニングと比較して,平均精度が最大15%向上することを示す。
ハイブリッドウェイト構成では、AEPの内部プルーニング操作はパラメータの数を最大41%削減し、乗算と加算の数を18%削減し、遅延時間を16%短縮する。
AEPを使用することで、早期出口が単一出力参照モデルから得られるものよりも精度の高い値が得られる重みを学習することもできる。 Today, artificial neural networks are the state of the art for solving a variety of complex tasks, especially in image classification. Such architectures consist of a sequence of stacked layers with the aim of extracting useful information and having it processed by a classifier to make accurate predictions. However, intermediate information within such models is often left unused. In other cases, such as in edge computing contexts, these architectures are divided into multiple partitions that are made functional by including early exits, i.e. intermediate classifiers, with the goal of reducing the computational and temporal load without extremely compromising the accuracy of the classifications. In this paper, we present Anticipate, Ensemble and Prune (AEP), a new training technique based on weighted ensembles of early exits, which aims at exploiting the information in the structure of networks to maximise their performance. Through a comprehensive set of experiments, we show how the use of this approach can yield average accuracy improvements of up to 15% over traditional training. In its hybrid-weighted configuration, AEP's internal pruning operation also allows reducing the number of parameters by up to 41%, lowering the number of multiplications and additions by 18% and the latency time to make inference by 16%. By using AEP, it is also possible to learn weights that allow early exits to achieve better accuracy values than those obtained from single-output reference models. | 翻訳日:2023-01-31 18:37:55 公開日:2023-01-28 |
# N-tuple-based reinforcement learning によるルービックキューブの学習 Towards Learning Rubik's Cube with N-tuple-based Reinforcement Learning ( http://arxiv.org/abs/2301.12167v1 ) ライセンス: Link先を確認 | Wolfgang Konen | (参考訳) この研究は、一般ボードゲーム(GBG)学習およびプレイフレームワークにおいて、ルービックキューブゲーム(またはパズル)の学習と解決方法を詳細に記述している。
キューブサイズは2x2x2と3x3x3です。
我々はキューブの状態表現を詳細に記述し、それをねじれ、全キューブ回転、色変換で変換する方法を説明し、ルービックキューブにおける対称性の使用を説明する。
次に、キューブの異なるn-タプル表現、強化学習によるエージェントのトレーニング方法、およびmctsラッピングによる評価中のエージェントの改善方法について論じる。
本稿では, MCTS の包みをゼロから学習し, MCTS の包みを伴わないエージェントに対して, MCTS の包みと対称性の両面から, 計算コストを増大させるとともに, より優れた結果をもたらすことを示す。
2x2x2立方体を完全に解くことができ、3x3x3立方体の大部分は、p = 15(qtm)までのスクランブル立方体である。
15以上のねじれで3x3x3立方体を確実に解くことはできない。
計算コストはmctsラッピングと対称性よりも高いが、これまでのルービックキューブ学習エージェントを提供するmcaleer et al.(2018年、2019年)やagostinelli et al.(2019年)のアプローチよりもはるかに低い。 This work describes in detail how to learn and solve the Rubik's cube game (or puzzle) in the General Board Game (GBG) learning and playing framework. We cover the cube sizes 2x2x2 and 3x3x3. We describe in detail the cube's state representation, how to transform it with twists, whole-cube rotations and color transformations and explain the use of symmetries in Rubik's cube. Next, we discuss different n-tuple representations for the cube, how we train the agents by reinforcement learning and how we improve the trained agents during evaluation by MCTS wrapping. We present results for agents that learn Rubik's cube from scratch, with and without MCTS wrapping, with and without symmetries and show that both, MCTS wrapping and symmetries, increase computational costs, but lead at the same time to much better results. We can solve the 2x2x2 cube completely, and the 3x3x3 cube in the majority of the cases for scrambled cubes up to p = 15 (QTM). We cannot yet reliably solve 3x3x3 cubes with more than 15 scrambling twists. Although our computational costs are higher with MCTS wrapping and with symmetries than without, they are still considerably lower than in the approaches of McAleer et al. (2018, 2019) and Agostinelli et al. (2019) who provide the best Rubik's cube learning agents so far. | 翻訳日:2023-01-31 18:37:30 公開日:2023-01-28 |
# フェデレーションサバイバル解析シミュレーションのための不均一データセット Heterogeneous Datasets for Federated Survival Analysis Simulation ( http://arxiv.org/abs/2301.12166v1 ) ライセンス: Link先を確認 | Alberto Archetti, Eugenio Lomurno, Francesco Lattari, Andr\'e Martin, Matteo Matteucci | (参考訳) 生存分析は、集団に起こる関心事に対する時間モデリング技術を研究する。
生存分析は医療、工学、社会科学に広く応用された。
しかし、生存モデルをトレーニングするために必要なデータは、しばしば分散、不完全、検閲、機密である。
このコンテキストでは、連合学習を活用して、ユーザのプライバシを維持しながら、分散データでトレーニングされたモデルの品質を大幅に向上させることができる。
しかし、フェデレーションサバイバル分析はまだ初期段階であり、フェデレーションサバイバルモデルをテストするための一般的なベンチマークデータセットは存在しない。
本研究では,既存の非フェデレーションデータセットから再現可能な方法で開始することにより,現実的な不均一データセットを構築する新しい手法を提案する。
具体的には、ディリクレ分布に基づく2つの新しいデータセット分割アルゴリズムを提供し、各データサンプルを慎重に選択されたクライアントに割り当てる。
さらに、これらのアルゴリズムは、1つのハイパーパラメータを変更することで異質性の異なるレベルを得ることができる。
最後に, 数値実験により, ログランクテストによる不均一性の定量的評価と, 生成した分割の質的解析が得られた。
提案手法の実装は再現性に賛成し、生存分析のための連帯環境をシミュレートするための一般的な慣行を奨励するために公に利用可能である。 Survival analysis studies time-modeling techniques for an event of interest occurring for a population. Survival analysis found widespread applications in healthcare, engineering, and social sciences. However, the data needed to train survival models are often distributed, incomplete, censored, and confidential. In this context, federated learning can be exploited to tremendously improve the quality of the models trained on distributed data while preserving user privacy. However, federated survival analysis is still in its early development, and there is no common benchmarking dataset to test federated survival models. This work proposes a novel technique for constructing realistic heterogeneous datasets by starting from existing non-federated datasets in a reproducible way. Specifically, we provide two novel dataset-splitting algorithms based on the Dirichlet distribution to assign each data sample to a carefully chosen client: quantity-skewed splitting and label-skewed splitting. Furthermore, these algorithms allow for obtaining different levels of heterogeneity by changing a single hyperparameter. Finally, numerical experiments provide a quantitative evaluation of the heterogeneity level using log-rank tests and a qualitative analysis of the generated splits. The implementation of the proposed methods is publicly available in favor of reproducibility and to encourage common practices to simulate federated environments for survival analysis. | 翻訳日:2023-01-31 18:37:02 公開日:2023-01-28 |
# マルチスケール条件間符号化による動的点クラウド幾何圧縮 Dynamic Point Cloud Geometry Compression Using Multiscale Inter Conditional Coding ( http://arxiv.org/abs/2301.12165v1 ) ライセンス: Link先を確認 | Jianqiang Wang, Dandan Ding, Hao Chen, Zhan Ma | (参考訳) この研究は、静的ポイントクラウド幾何圧縮(PCGC)のために開発されたマルチスケールスパース表現(MSR)フレームワークを拡張し、マルチスケールインターコンディショナルコーディングを用いて動的PCGCをサポートする。
この目的のために、先行するポイントクラウド幾何(PCG)フレームの再構築を段階的にダウンスケールし、その後、スケール的に転送され、同じフレームから低スケールの空間先行と統合され、コンテキスト情報を形成し、現在のPCGフレームをあるスケールから別のスケールに処理する際の占有確率近似を改善する。
標準化委員会で定義された共通テスト条件 (ctc) に従って, 提案手法は最先端の圧縮性能を示し, 標準に準拠したv-pccでは78%, 最新のg-pccでは45%のロスレスビットレート削減を実現する。
近年の学習ベースソリューションにおいても,本手法は依然として大きな性能向上を示す。 This work extends the Multiscale Sparse Representation (MSR) framework developed for static Point Cloud Geometry Compression (PCGC) to support the dynamic PCGC through the use of multiscale inter conditional coding. To this end, the reconstruction of the preceding Point Cloud Geometry (PCG) frame is progressively downscaled to generate multiscale temporal priors which are then scale-wise transferred and integrated with lower-scale spatial priors from the same frame to form the contextual information to improve occupancy probability approximation when processing the current PCG frame from one scale to another. Following the Common Test Conditions (CTC) defined in the standardization committee, the proposed method presents State-Of-The-Art (SOTA) compression performance, yielding 78% lossy BD-Rate gain to the latest standard-compliant V-PCC and 45% lossless bitrate reduction to the latest G-PCC. Even for recently-emerged learning-based solutions, our method still shows significant performance gains. | 翻訳日:2023-01-31 18:36:42 公開日:2023-01-28 |
# 知識グラフを用いた会話質問に対する意味解析 Semantic Parsing for Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2301.12217v1 ) ライセンス: Link先を確認 | Laura Perez-Beltrachini, Parag Jain, Emilio Monti, Mirella Lapata | (参考訳) 本稿では、ユーザとの会話に埋め込まれた自然言語質問を理解し、非常に大きな語彙を持つ汎用知識グラフ(KG)における定義上の形式的なクエリを基盤とするセマンティックパーザの開発に興味がある(数千の概念名や関係、数百万のエンティティ)。
そこで本研究では,ユーザの質問にsparqlパースをアノテートし,システム応答が実行結果に対応するデータセットを開発した。
我々は2つの異なる意味解析アプローチを示し,タスクの課題を強調する。大きな語彙の扱い,会話コンテキストのモデリング,複数のエンティティによるクエリの予測,テスト時の新たな質問への一般化である。
当社のデータセットが,対話型セマンティックパーサの開発に有用なテストベッドになることを期待しています。
データセットとモデルはhttps://github.com/EdinburghNLP/SPICE.comで公開されています。 In this paper, we are interested in developing semantic parsers which understand natural language questions embedded in a conversation with a user and ground them to formal queries over definitions in a general purpose knowledge graph (KG) with very large vocabularies (covering thousands of concept names and relations, and millions of entities). To this end, we develop a dataset where user questions are annotated with Sparql parses and system answers correspond to execution results thereof. We present two different semantic parsing approaches and highlight the challenges of the task: dealing with large vocabularies, modelling conversation context, predicting queries with multiple entities, and generalising to new questions at test time. We hope our dataset will serve as useful testbed for the development of conversational semantic parsers. Our dataset and models are released at https://github.com/EdinburghNLP/SPICE. | 翻訳日:2023-01-31 18:30:26 公開日:2023-01-28 |
# マルコフ等価DAGの効率的な列挙 Efficient Enumeration of Markov Equivalent DAGs ( http://arxiv.org/abs/2301.12212v1 ) ライセンス: Link先を確認 | Marcel Wien\"obst and Malte Luttermann and Max Bannach and Maciej Li\'skiewicz | (参考訳) マルコフ同値類(MEC)の有向非巡回グラフ(DAG)を列挙することは因果解析において重要な原始的である。
計算複雑性の観点からの中心的なリソースは、クラスのすべてのメンバーをリストアップするアルゴリズムが2つの連続した出力の間に必要となる遅延である。
このタスクによく使われるアルゴリズムは、Meek (1995) が提案した規則や Chickering (1995) による変換特性を利用しており、どちらも超線形遅延をもたらす。
本稿では,最初の線形時間遅延アルゴリズムを提案する。
理論的には,MPDAGなどの背景知識を組み込んだモデルで表現されたDAGを列挙するために,我々のアルゴリズムを一般化できることが示される。
線形時間遅延アルゴリズムの補完として、マルコフ等価性自体に興味深い洞察を与える: MECのすべてのメンバーを列挙して、2つの連続DAGが少なくとも3つの構造的ハミング距離を持つようにすることができる。 Enumerating the directed acyclic graphs (DAGs) of a Markov equivalence class (MEC) is an important primitive in causal analysis. The central resource from the perspective of computational complexity is the delay, that is, the time an algorithm that lists all members of the class requires between two consecutive outputs. Commonly used algorithms for this task utilize the rules proposed by Meek (1995) or the transformational characterization by Chickering (1995), both resulting in superlinear delay. In this paper, we present the first linear-time delay algorithm. On the theoretical side, we show that our algorithm can be generalized to enumerate DAGs represented by models that incorporate background knowledge, such as MPDAGs; on the practical side, we provide an efficient implementation and evaluate it in a series of experiments. Complementary to the linear-time delay algorithm, we also provide intriguing insights into Markov equivalence itself: All members of an MEC can be enumerated such that two successive DAGs have structural Hamming distance at most three. | 翻訳日:2023-01-31 18:30:10 公開日:2023-01-28 |
# 高次・方向相互作用予測のためのニューラルテンポラリポイントプロセス Neural Temporal Point Process for Forecasting Higher Order and Directional Interactions ( http://arxiv.org/abs/2301.12210v1 ) ライセンス: Link先を確認 | Tony Gracious, Arman Gupta, Ambedkar Dukkipati | (参考訳) 現実世界のシステムは、時間とともに進化する相互作用する実体から成り立っている。
エンティティのダイナミクスを学習することでインタラクションを予測できるモデルを作成することは、多くの分野において重要な問題である。
初期の作業では、動的グラフモデルを使用してこれを実現した。
しかし、実世界の相互作用は2つ以上の実体を含むため、ペアワイズよりも複雑であり、これらの高次相互作用の多くは方向成分を持つ。
これらの例は、送信者や複数の受信者を含む電子メール交換や、著者が他人の仕事を描く引用ネットワークなど、コミュニケーションネットワークで見ることができる。
本稿では,ハイパーエッジがノードの変動数間の関係をモデル化するためのネイティブフレームワークを提供するため,超エッジイベント予測のためのディープニューラルネットワークベースモデル \textit{Directed HyperNode Temporal Point Process} を提案することによって,高階指向インタラクション予測の問題を解決する。
提案手法は,まずイベントが観測されるノードを予測し,候補ハイパーエッジを生成することにより,候補ハイパーエッジの探索空間を削減する。
モデルの有効性を実証するため,4つのデータセットをキュレートし,広範な実験を行った。
これは、高次方向の相互作用を予測する問題を解決する最初の仕事だと信じています。 Real-world systems are made of interacting entities that evolve with time. Creating models that can forecast interactions by learning the dynamics of entities is an important problem in numerous fields. Earlier works used dynamic graph models to achieve this. However, real-world interactions are more complex than pairwise, as they involve more than two entities, and many of these higher-order interactions have directional components. Examples of these can be seen in communication networks such as email exchanges that involve a sender, and multiple recipients, citation networks, where authors draw upon the work of others, and so on. In this paper, we solve the problem of higher-order directed interaction forecasting by proposing a deep neural network-based model \textit{Directed HyperNode Temporal Point Process} for directed hyperedge event forecasting, as hyperedge provides native framework for modeling relationships among the variable number of nodes. Our proposed technique reduces the search space of possible candidate hyperedges by first forecasting the nodes at which events will be observed, based on which it generates candidate hyperedges. To demonstrate the efficiency of our model, we curated four datasets and conducted an extensive empirical study. We believe that this is the first work that solves the problem of forecasting higher-order directional interactions. | 翻訳日:2023-01-31 18:29:51 公開日:2023-01-28 |
# LSTM-CRFを用いた意味的タグ付け Semantic Tagging with LSTM-CRF ( http://arxiv.org/abs/2301.12206v1 ) ライセンス: Link先を確認 | Farshad Noravesh | (参考訳) 本稿では,共通意味タグデータセットのセマンティックタグ付けのためのLSTM-CRFとBERT-LSTM-CRFの2つのモデルを示す。
実験により、第一のモデルは、bert埋め込みを利用する第二のモデルは、収束するのに長い時間がかかり、セムタグが効果的になるために大きなデータセットが必要であるのに対して、より収束しやすいことが示されている。 In the present paper, two models are presented namely LSTM-CRF and BERT-LSTM-CRF for semantic tagging of universal semantic tag dataset. The experiments show that the first model is much easier to converge while the second model that leverages BERT embedding, takes a long time to converge and needs a big dataset for semtagging to be effective. | 翻訳日:2023-01-31 18:29:31 公開日:2023-01-28 |
# 開示回避システムのプライバシーとバイアス分析 Privacy and Bias Analysis of Disclosure Avoidance Systems ( http://arxiv.org/abs/2301.12204v1 ) ライセンス: Link先を確認 | Keyu Zhu, Ferdinando Fioretto, Pascal Van Hentenryck, Saswat Das, Christine Task | (参考訳) 情報開示回避システム(DA)は、データの機密性を保護し、分析目的で分析および散布を可能にする。
これらの方法、例えば細胞抑制、スワップング、k匿名性は一般的に適用され、社会的、経済的に重要な意味を持つ。
しかし、プライバシとバイアスの保証に関する公式な分析は欠如している。
本稿では,このギャップに対処したフレームワークを提案する。このメカニズムの差分プライベートバージョンを提案し,プライバシバウンダリを導出する。
さらに、米国国勢調査データリリースと分類タスクにおける精度と公平性の観点から、従来の差分プライバシーメカニズムと比較した。
その結果,従来の差分プライバシ技術は,広く使用されているda機構の差分プライバシ技術よりも正確性や公平性が優れている可能性が示唆された。 Disclosure avoidance (DA) systems are used to safeguard the confidentiality of data while allowing it to be analyzed and disseminated for analytic purposes. These methods, e.g., cell suppression, swapping, and k-anonymity, are commonly applied and may have significant societal and economic implications. However, a formal analysis of their privacy and bias guarantees has been lacking. This paper presents a framework that addresses this gap: it proposes differentially private versions of these mechanisms and derives their privacy bounds. In addition, the paper compares their performance with traditional differential privacy mechanisms in terms of accuracy and fairness on US Census data release and classification tasks. The results show that, contrary to popular beliefs, traditional differential privacy techniques may be superior in terms of accuracy and fairness to differential private counterparts of widely used DA mechanisms. | 翻訳日:2023-01-31 18:29:24 公開日:2023-01-28 |
# saformer: オフライン安全強化学習のための条件列モデリングアプローチ SaFormer: A Conditional Sequence Modeling Approach to Offline Safe Reinforcement Learning ( http://arxiv.org/abs/2301.12203v1 ) ライセンス: Link先を確認 | Qin Zhang and Linrui Zhang and Haoran Xu and Li Shen and Bowen Wang and Yongzhe Chang and Xueqian Wang and Bo Yuan and Dacheng Tao | (参考訳) オフラインの安全なrlは、現実世界のアプリケーションにエージェントをデプロイするのに非常に実用的です。
しかし、固定データセットから制約満足ポリシーを取得することは、従来のアプローチでは非自明である。
さらに悪いことに、学習された制約は静止しており、オンラインの安全要件が変更されると無効になる可能性がある。
本稿では,条件付きシーケンスモデリングによって上記の問題に取り組むsaformerと呼ばれる,オフラインの安全なrlアプローチを提案する。
既存のシーケンスモデルとは対照的に,アクション空間を制限するためのコスト関連トークンと,制約を明示的に強制するための後続安全検証を提案する。
具体的には、SaFormerは最大残コストで2段階の自動回帰を行い、実現可能な候補を生成する。
その後、安全でない試行をフィルタリングし、最も期待されるリターンで最適なアクションを実行する。
大規模な実験では,(1)厳密な制約満足度を持つ競争的リターン,(2)トレーニングを伴わないオフラインデータの範囲内コスト値への適応性,(3)現在のデータセットを超えた制約に対する一般化性など,SaFormerの有効性が示された。 Offline safe RL is of great practical relevance for deploying agents in real-world applications. However, acquiring constraint-satisfying policies from the fixed dataset is non-trivial for conventional approaches. Even worse, the learned constraints are stationary and may become invalid when the online safety requirement changes. In this paper, we present a novel offline safe RL approach referred to as SaFormer, which tackles the above issues via conditional sequence modeling. In contrast to existing sequence models, we propose cost-related tokens to restrict the action space and a posterior safety verification to enforce the constraint explicitly. Specifically, SaFormer performs a two-stage auto-regression conditioned by the maximum remaining cost to generate feasible candidates. It then filters out unsafe attempts and executes the optimal action with the highest expected return. Extensive experiments demonstrate the efficacy of SaFormer featuring (1) competitive returns with tightened constraint satisfaction; (2) adaptability to the in-range cost values of the offline data without retraining; (3) generalizability for constraints beyond the current dataset. | 翻訳日:2023-01-31 18:29:11 公開日:2023-01-28 |
# シーケンシャルレコメンデーションのための相互wasserstein判別最小化 Mutual Wasserstein Discrepancy Minimization for Sequential Recommendation ( http://arxiv.org/abs/2301.12197v1 ) ライセンス: Link先を確認 | Ziwei Fan, Zhiwei Liu, Hao Peng, Philip S Yu | (参考訳) 自己教師付きシーケンシャルレコメンデーションは、よく設計されたデータ拡張による相互情報の最大化により、リコメンデーション性能を著しく向上させる。
しかしながら、相互情報推定は、非対称推定、サンプルサイズの指数的必要性、トレーニング不安定性など、いくつかの制限を伴うkullback leiblerの発散の計算に基づいている。
また、既存のデータ拡張はほとんど確率的であり、ランダムな修正とシーケンシャルな相関を破る可能性がある。
これらの2つの問題は、不確実性をモデル化し、klの分岐制限を緩和できる代替ロバストな相互情報計測について検討する動機付けとなる。
そこで本研究では,シーケンシャルレコメンデーションのための相互wasserstein離散化最小化msteinに基づく,新しい自己教師付き学習フレームワークを提案する。
拡張シーケンス間の相互情報を測定するために,ワッサースタイン離散度測定法を提案する。
Wasserstein Disrepancy Measurementは2-Wasserstein距離の上に構築され、より堅牢で、小さなバッチサイズで効率が良く、確率的増大過程の不確かさをモデル化できる。
また,wassersteinの不一致測定に基づく新しいコントラスト学習損失を提案する。
4つのベンチマークデータセットに関する広範な実験は、ベースラインに対するmsteinの有効性を示している。
より定量的な分析は、バッチサイズでの摂動に対する堅牢性とトレーニング効率を示している。
最後に、改善分析は、大きな不確実性を持つ人気ユーザーやアイテムの表現の改善を示している。
ソースコードはhttps://github.com/zfan20/MSteinにある。 Self-supervised sequential recommendation significantly improves recommendation performance by maximizing mutual information with well-designed data augmentations. However, the mutual information estimation is based on the calculation of Kullback Leibler divergence with several limitations, including asymmetrical estimation, the exponential need of the sample size, and training instability. Also, existing data augmentations are mostly stochastic and can potentially break sequential correlations with random modifications. These two issues motivate us to investigate an alternative robust mutual information measurement capable of modeling uncertainty and alleviating KL divergence limitations. To this end, we propose a novel self-supervised learning framework based on Mutual WasserStein discrepancy minimization MStein for the sequential recommendation. We propose the Wasserstein Discrepancy Measurement to measure the mutual information between augmented sequences. Wasserstein Discrepancy Measurement builds upon the 2-Wasserstein distance, which is more robust, more efficient in small batch sizes, and able to model the uncertainty of stochastic augmentation processes. We also propose a novel contrastive learning loss based on Wasserstein Discrepancy Measurement. Extensive experiments on four benchmark datasets demonstrate the effectiveness of MStein over baselines. More quantitative analyses show the robustness against perturbations and training efficiency in batch size. Finally, improvements analysis indicates better representations of popular users or items with significant uncertainty. The source code is at https://github.com/zfan20/MStein. | 翻訳日:2023-01-31 18:28:55 公開日:2023-01-28 |
# フェデレーション学習は本当にバックプロパゲーションを必要とするか? Does Federated Learning Really Need Backpropagation? ( http://arxiv.org/abs/2301.12195v1 ) ライセンス: Link先を確認 | Haozhe Feng, Tianyu Pang, Chao Du, Wei Chen, Shuicheng Yan, Min Lin | (参考訳) フェデレートラーニング(FL)は、分散クライアントがローカルデータを共有せずにサーバモデルをまとめて訓練する一般的な原則である。
flは実用的なアプリケーションを持つ有望なフレームワークだが、標準的なトレーニングパラダイムでは、クライアントがモデルをバックプロパゲートして勾配を計算する必要がある。
これらのクライアントは一般的にエッジデバイスであり、完全に信頼されていないため、バックプロパゲーションを実行すると、計算やストレージのオーバーヘッドやホワイトボックスの脆弱性が発生する。
これを踏まえ、バックプロパゲーションを複数のフォワードプロセスに置き換えて勾配を推定する、BAFFLEと呼ばれるバックプロパゲーションフリーなフェデレーション学習を開発する。
BAFFLEは
1) メモリ効率が高く,アップロード帯域幅に適合する。
2 推論のみのハードウェア最適化及びモデル量子化又はプルーニングとの互換性
3) baffleのクライアントは前方の伝搬のみを実行し、サーバにスカラーのセットを返すため、信頼できる実行環境に適しています。
実証的には、BAFFLEを使用して、深いモデルをスクラッチからトレーニングしたり、事前訓練されたモデルを微調整して、許容可能な結果を達成する。
コードはhttps://github.com/FengHZ/BAFFLEで入手できる。 Federated learning (FL) is a general principle for decentralized clients to train a server model collectively without sharing local data. FL is a promising framework with practical applications, but its standard training paradigm requires the clients to backpropagate through the model to compute gradients. Since these clients are typically edge devices and not fully trusted, executing backpropagation on them incurs computational and storage overhead as well as white-box vulnerability. In light of this, we develop backpropagation-free federated learning, dubbed BAFFLE, in which backpropagation is replaced by multiple forward processes to estimate gradients. BAFFLE is 1) memory-efficient and easily fits uploading bandwidth; 2) compatible with inference-only hardware optimization and model quantization or pruning; and 3) well-suited to trusted execution environments, because the clients in BAFFLE only execute forward propagation and return a set of scalars to the server. Empirically we use BAFFLE to train deep models from scratch or to finetune pretrained models, achieving acceptable results. Code is available in https://github.com/FengHZ/BAFFLE. | 翻訳日:2023-01-31 18:28:33 公開日:2023-01-28 |
# CyclicFL: 効果的なフェデレーション学習のためのサイクルモデル事前学習アプローチ CyclicFL: A Cyclic Model Pre-Training Approach to Efficient Federated Learning ( http://arxiv.org/abs/2301.12193v1 ) ライセンス: Link先を確認 | Pengyu Zhang, Yingbo Zhou, Ming Hu, Xin Fu, Xian Wei, and Mingsong Chen | (参考訳) フェデレーション学習(fl)におけるランダム初期モデルでは、非規則的確率勾配降下(sgd)過程が容易に生じるため、既存のfl法は、特に非iidシナリオでは、収束が遅く、精度が低くなる。
そこで本研究では,SGDプロセスの導出に有効な初期モデルを高速に導出し,FLトレーニング性能を向上する,CyclicFLという新しいFL手法を提案する。
連続学習(CL)の概念に基づいて,CyclicFLが既存の集中型事前学習手法を,分類と予測性能の観点から近似していることを示す。
一方、CyclicFLの事前学習と訓練段階間のデータ一貫性の重要性を正式に分析し、CyclicFLによる事前学習モデルの損失の限定性を示す。
パブリックなプロキシデータを必要とする従来の集中型事前トレーニング方法とは異なり、cyclicflは、ローカルデータを露光することなく、選択したクライアントで初期モデルを事前トレーニングする。
したがって、セキュリティクリティカルなFLメソッドに簡単に統合できる。
総合実験の結果, cyclicflは, 分類精度を最大16.21%向上させるだけでなく, 総合的なflトレーニングプロセスを著しく向上できることがわかった。 Since random initial models in Federated Learning (FL) can easily result in unregulated Stochastic Gradient Descent (SGD) processes, existing FL methods greatly suffer from both slow convergence and poor accuracy, especially for non-IID scenarios. To address this problem, we propose a novel FL method named CyclicFL, which can quickly derive effective initial models to guide the SGD processes, thus improving the overall FL training performance. Based on the concept of Continual Learning (CL), we prove that CyclicFL approximates existing centralized pre-training methods in terms of classification and prediction performance. Meanwhile, we formally analyze the significance of data consistency between the pre-training and training stages of CyclicFL, showing the limited Lipschitzness of loss for the pre-trained models by CyclicFL. Unlike traditional centralized pre-training methods that require public proxy data, CyclicFL pre-trains initial models on selected clients cyclically without exposing their local data. Therefore, they can be easily integrated into any security-critical FL methods. Comprehensive experimental results show that CyclicFL can not only improve the classification accuracy by up to 16.21%, but also significantly accelerate the overall FL training processes. | 翻訳日:2023-01-31 18:28:12 公開日:2023-01-28 |
# 投影頭部の解読:自己指導型学習の表現評価 Deciphering the Projection Head: Representation Evaluation Self-supervised Learning ( http://arxiv.org/abs/2301.12189v1 ) ライセンス: Link先を確認 | Jiajun Ma, Tianyang Hu, Wenjia Wang | (参考訳) self-supervised learning (ssl) はラベルなしで本質的な特徴を学ぶことを目的としている。
SSLメソッドの多様なアーキテクチャにもかかわらず、プロジェクションヘッドは常に下流タスクのパフォーマンス向上に重要な役割を果たす。
本研究では,SSLにおけるプロジェクションヘッドの役割を系統的に検討する。
具体的には、プロジェクションヘッドはSSLの均一部分をターゲットにしており、異なるサンプルを互いに切り離して、エンコーダがセマンティックな特徴の抽出に集中できるようにする。
この理解に基づいて、表現と投影ベクトルの間のショートカット接続を構築するSSLモデルにおける表現評価設計(RED)を提案する。
SimCLR、MoCo-V2、SimSiamといったさまざまなアーキテクチャによる大規模な実験は、表現評価設計が下流タスクのベースラインモデルを一貫して改善できることを実証している。
red-sslモデルから得られた学習された表現は、見えない拡張や分散データに対して優れた堅牢性を示している。 Self-supervised learning (SSL) aims to learn intrinsic features without labels. Despite the diverse architectures of SSL methods, the projection head always plays an important role in improving the performance of the downstream task. In this work, we systematically investigate the role of the projection head in SSL. Specifically, the projection head targets the uniformity part of SSL, which pushes the dissimilar samples away from each other, thus enabling the encoder to focus on extracting semantic features. Based on this understanding, we propose a Representation Evaluation Design (RED) in SSL models in which a shortcut connection between the representation and the projection vectors is built. Extensive experiments with different architectures, including SimCLR, MoCo-V2, and SimSiam, on various datasets, demonstrate that the representation evaluation design can consistently improve the baseline models in the downstream tasks. The learned representation from the RED-SSL models shows superior robustness to unseen augmentations and out-of-distribution data. | 翻訳日:2023-01-31 18:27:48 公開日:2023-01-28 |
# 少数ショットの分類をもう一度見てみよう A Closer Look at Few-shot Classification Again ( http://arxiv.org/abs/2301.12246v1 ) ライセンス: Link先を確認 | Xu Luo, Hao Wu, Ji Zhang, Lianli Gao, Jing Xu, Jingkuan Song | (参考訳) 少数ショット分類は、比較的大きなデータセットでモデルが学習されるトレーニングフェーズと、学習されたモデルをラベル付きサンプルが限定された未認識のタスクに適応する適応フェーズからなる。
本稿では,学習アルゴリズムと適応アルゴリズムが完全に絡み合っていることを実証的に証明し,各フェーズごとに個別にアルゴリズム解析と設計を行うことを可能にする。
相別メタ分析では,視覚表現学習や転帰学習といった他分野との関わりや数発の分類の重要側面をよりよく理解する上で,いくつかの興味深い洞察が得られている。
この論文で明らかになった洞察と研究の課題が、今後の研究を関連する方向に促すことを願っている。 Few-shot classification consists of a training phase where a model is learned on a relatively large dataset and an adaptation phase where the learned model is adapted to previously-unseen tasks with limited labeled samples. In this paper, we empirically prove that the training algorithm and the adaptation algorithm can be completely disentangled, which allows algorithm analysis and design to be done individually for each phase. Our meta-analysis for each phase reveals several interesting insights that may help better understand key aspects of few-shot classification and connections with other fields such as visual representation learning and transfer learning. We hope the insights and research challenges revealed in this paper can inspire future work in related directions. | 翻訳日:2023-01-31 18:21:12 公開日:2023-01-28 |
# 管理複雑性と知識蒸留における役割 Supervision Complexity and its Role in Knowledge Distillation ( http://arxiv.org/abs/2301.12245v1 ) ライセンス: Link先を確認 | Hrayr Harutyunyan, Ankit Singh Rawat, Aditya Krishna Menon, Seungyeon Kim, Sanjiv Kumar | (参考訳) 知識蒸留の人気と有効性にもかかわらず、なぜそれが役立つのかの理解は限られている。
そこで,本研究では,教師が提案する教師監督と生徒の神経伝達核との整合性の尺度である,監督複雑性を利用した新たな理論的枠組みを提案する。
この枠組みは教師の正確さ、教師の予測に対する生徒のマージン、教師の予測の複雑さの間の繊細な相互作用を浮き彫りにしている。
具体的には、早期停止や温度スケーリングといった蒸留の文脈でよく見られる様々な技術の有用性を厳格に正当化する。
さらに本分析は, 学生が教育の異なる段階の教師から, より複雑な指導を受けるオンライン蒸留の利用を示唆している。
本稿では, オンライン蒸留の有効性を実証し, 画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。 Despite the popularity and efficacy of knowledge distillation, there is limited understanding of why it helps. In order to study the generalization behavior of a distilled student, we propose a new theoretical framework that leverages supervision complexity: a measure of alignment between teacher-provided supervision and the student's neural tangent kernel. The framework highlights a delicate interplay among the teacher's accuracy, the student's margin with respect to the teacher predictions, and the complexity of the teacher predictions. Specifically, it provides a rigorous justification for the utility of various techniques that are prevalent in the context of distillation, such as early stopping and temperature scaling. Our analysis further suggests the use of online distillation, where a student receives increasingly more complex supervision from teachers in different stages of their training. We demonstrate efficacy of online distillation and validate the theoretical findings on a range of image classification benchmarks and model architectures. | 翻訳日:2023-01-31 18:21:00 公開日:2023-01-28 |
# オートエンコーダに基づく不等なエラー保護符号 Autoencoder-Based Unequal Error Protection Codes ( http://arxiv.org/abs/2301.12231v1 ) ライセンス: Link先を確認 | Vukan Ninkovic, Dejan Vukobratovic, Christian H\"ager, Henk Wymeersch, Alexandre Graell i Amat | (参考訳) 今日の通信システムの多くは、符号化されたメッセージ全体(コードワード)を受信した後、信頼できるメッセージリカバリをターゲットに設計されている。
しかし、多くの現実的なシナリオでは、完全なコードワードを受け取る前に送信プロセスが中断されることがある。
本稿では、ノイズの多いコードワードが完全に受信される前に、送信メッセージの復号に適した、新しいレートレスオートエンコーダ(AE)ベースのコード設計を提案する。
訓練中に適用される特定のドロップアウト戦略を用いることで、レートレスae符号は復号遅延と信頼性のトレードオフを可能にし、さらに受信されたコードワード記号で後者を優雅に改善する。
提案するレートレスaeは,より低い復号遅延で信頼性をトレードオフすることが望ましいシナリオにおいて,従来のae設計を大きく上回っている。 Most of today's communication systems are designed to target reliable message recovery after receiving the entire encoded message (codeword). However, in many practical scenarios, the transmission process may be interrupted before receiving the complete codeword. This paper proposes a novel rateless autoencoder (AE)-based code design suitable for decoding the transmitted message before the noisy codeword is fully received. Using particular dropout strategies applied during the training process, rateless AE codes allow to trade off between decoding delay and reliability, providing a graceful improvement of the latter with each additionally received codeword symbol. The proposed rateless AEs significantly outperform the conventional AE designs for scenarios where it is desirable to trade off reliability for lower decoding delay. | 翻訳日:2023-01-31 18:20:46 公開日:2023-01-28 |
# 連続的なグラフ学習: サーベイ Continual Graph Learning: A Survey ( http://arxiv.org/abs/2301.12230v1 ) ライセンス: Link先を確認 | Qiao Yuan, Sheng-Uei Guan, Pin Ni, Tianlun Luo, Ka Lok Man, Prudence Wong, Victor Chang | (参考訳) 連続学習(CL)の研究は主にユークリッド空間で表されるデータに焦点を当て、グラフ構造化データの研究は少ない。
さらに、ほとんどのグラフ学習モデルは静的グラフ用に調整されている。
しかし、グラフは通常現実世界で継続的に進化する。
グラフ学習モデルが漸進的にトレーニングされるとき、破滅的な忘れ方も現れます。
これにより、堅牢で効果的で効率的な連続グラフ学習アプローチを開発する必要がある。
連続グラフ学習(cgl)は、グラフ構造化データ上での連続学習を実現することを目的とした新興分野である。
この調査は、この新興領域に光を当てるために書かれたものだ。
CGLの基本概念を導入し、グラフによってもたらされる2つのユニークな課題を強調します。
そして、最近の最先端のアプローチをレビューし分類し、CGLのユニークな課題に取り組むための戦略を分析します。
さらに、CGLメソッドの各ファミリーの主な関心事について論じ、潜在的なソリューションを提供する。
最後に、cglのオープンイシューと潜在的な応用を探求する。 Research on continual learning (CL) mainly focuses on data represented in the Euclidean space, while research on graph-structured data is scarce. Furthermore, most graph learning models are tailored for static graphs. However, graphs usually evolve continually in the real world. Catastrophic forgetting also emerges in graph learning models when being trained incrementally. This leads to the need to develop robust, effective and efficient continual graph learning approaches. Continual graph learning (CGL) is an emerging area aiming to realize continual learning on graph-structured data. This survey is written to shed light on this emerging area. It introduces the basic concepts of CGL and highlights two unique challenges brought by graphs. Then it reviews and categorizes recent state-of-the-art approaches, analyzing their strategies to tackle the unique challenges in CGL. Besides, it discusses the main concerns in each family of CGL methods, offering potential solutions. Finally, it explores the open issues and potential applications of CGL. | 翻訳日:2023-01-31 18:20:33 公開日:2023-01-28 |
# 深層演算子学習によるPDEの次元曲線の学習 Deep Operator Learning Lessens the Curse of Dimensionality for PDEs ( http://arxiv.org/abs/2301.12227v1 ) ライセンス: Link先を確認 | Ke Chen, Chunmei Wang, and Haizhao Yang | (参考訳) ディープニューラルネットワーク(DNN)は多くの分野で大きな成功を収めており、PDE関連の問題の開発は急速に増加している。
本稿では, DNN を用いたバナッハ空間上のリプシッツ演算子学習の一般化誤差と様々な PDE 解演算子への応用を推定する。
目標は、特定のテストエラーを保証するために必要なDNN幅、深さ、トレーニングサンプルの数を指定することだ。
データ分布や演算子構造を軽度に仮定すると、深層演算子学習はPDEの離散化分解に緩やかに依存し、従って多くのPDE関連問題における次元性の呪いを減らすことができる。
この結果は楕円型方程式、放物型方程式、バーガース方程式など様々なPDEに適用する。 Deep neural networks (DNNs) have seen tremendous success in many fields and their developments in PDE-related problems are rapidly growing. This paper provides an estimate for the generalization error of learning Lipschitz operators over Banach spaces using DNNs with applications to various PDE solution operators. The goal is to specify DNN width, depth, and the number of training samples needed to guarantee a certain testing error. Under mild assumptions on data distributions or operator structures, our analysis shows that deep operator learning can have a relaxed dependence on the discretization resolution of PDEs and, hence, lessen the curse of dimensionality in many PDE-related problems. We apply our results to various PDEs, including elliptic equations, parabolic equations, and Burgers equations. | 翻訳日:2023-01-31 18:20:19 公開日:2023-01-28 |
# ハイパーグラフにおける因果影響最大化 Causal Influence Maximization in Hypergraph ( http://arxiv.org/abs/2301.12226v1 ) ライセンス: Link先を確認 | Xinyan Su, Zhiheng Zhang | (参考訳) インフルエンス・最大化(IM)とは、あるネットワーク内の一定の数のシードノードを選択し、拡散効果を最大化するタスクである。
近年,効率的なアルゴリズムの研究が盛んに行われているが,グラフ構造や目的関数のさらなる探索は無視されることが多い。
このモチベーションにより、我々は新たな因果目的を持つハイパーグラフベースのIMの最初の試みを行う。
それぞれのハイパーグラフノードが個別治療効果(ITE)の特定の属性を持つ場合,すなわち感染前後の潜在的な結果の変化を因果推論の観点から検討する。
多くのシナリオにおいて、感染したITEの総和は影響を広げる上でより合理的な目的であるが、現在のIMアルゴリズムでは達成が困難である。
本稿では,新しいアルゴリズムである \textbf{cauim} を提案する。
まず,各ノードの ite を観測データで復元し,重み付けした greedy アルゴリズムにより感染した各ノードの ite の総和を最大化する。
理論的には、よく知られた$(1-\frac{1}{e})$の最適保証を超えて広がる一般化された下界の影響を示し、ロバスト性解析を提供する。
実世界実験において、実世界実験では、 \textbf{cauim} の有効性と頑健性を示す。
従来のIMやランダム化手法よりも大幅に優れています。 Influence Maximization (IM) is the task of selecting a fixed number of seed nodes in a given network to maximize dissemination benefits. Although the research for efficient algorithms has been dedicated recently, it is usually neglected to further explore the graph structure and the objective function inherently. With this motivation, we take the first attempt on the hypergraph-based IM with a novel causal objective. We consider the case that each hypergraph node carries specific attributes with Individual Treatment Effect (ITE), namely the change of potential outcomes before/after infections in a causal inference perspective. In many scenarios, the sum of ITEs of the infected is a more reasonable objective for influence spread, whereas it is difficult to achieve via current IM algorithms. In this paper, we introduce a new algorithm called \textbf{CauIM}. We first recover the ITE of each node with observational data and then conduct a weighted greedy algorithm to maximize the sum of ITEs of the infected. Theoretically, we mainly present the generalized lower bound of influence spread beyond the well-known $(1-\frac{1}{e})$ optimal guarantee and provide the robustness analysis. Empirically, in real-world experiments, we demonstrate the effectiveness and robustness of \textbf{CauIM}. It outperforms the previous IM and randomized methods significantly. | 翻訳日:2023-01-31 18:20:04 公開日:2023-01-28 |
# 軽量ユーザフィードバックによる対話型ログ解析 Interactive Log Parsing via Light-weight User Feedbacks ( http://arxiv.org/abs/2301.12225v1 ) ライセンス: Link先を確認 | Liming Wang, Hong Xie, Ye Li, Jian Tan and John C.S. Lui | (参考訳) テンプレートマイニングはログ解析をサポートする基本的なタスクのひとつであり、大規模なwebアプリケーションの診断とトラブルシューティングをサポートする。
本稿では,実世界のWebアプリケーションの診断やトラブルシューティングにおいて非常に望ましい対話型ログ解析を支援するためのテンプレートマイニングフレームワークを開発するが,従来のテンプレートマイニングアルゴリズムではサポートできない。
3種類の軽量ユーザフィードバックを定式化し,それに基づいて3種類のアトミック・イン・ザ・ループ・テンプレートマイニングアルゴリズムを設計する。
提案するアルゴリズムの出力が確実に正しい軽度条件を導出する。
また,各アルゴリズムの計算複雑性と問合せ複雑性の上限を導出する。
16種類のベンチマークデータセットを用いた5つの代表的なアルゴリズムのテンプレートマイニング精度を向上させることにより,提案アルゴリズムの汎用性を示す。 Template mining is one of the foundational tasks to support log analysis, which supports the diagnosis and troubleshooting of large scale Web applications. This paper develops a human-in-the-loop template mining framework to support interactive log analysis, which is highly desirable in real-world diagnosis or troubleshooting of Web applications but yet previous template mining algorithms fails to support it. We formulate three types of light-weight user feedbacks and based on them we design three atomic human-in-the-loop template mining algorithms. We derive mild conditions under which the outputs of our proposed algorithms are provably correct. We also derive upper bounds on the computational complexity and query complexity of each algorithm. We demonstrate the versatility of our proposed algorithms by combining them to improve the template mining accuracy of five representative algorithms over sixteen widely used benchmark datasets. | 翻訳日:2023-01-31 18:19:43 公開日:2023-01-28 |
# 有限ゲージ群を持つ格子yang-mills-like理論のハミルトニアンとゲージ不変ヒルベルト空間 Hamiltonians and gauge-invariant Hilbert space for lattice Yang-Mills-like theories with finite gauge group ( http://arxiv.org/abs/2301.12224v1 ) ライセンス: Link先を確認 | A. Mariani, S. Pradhan, E. Ercolessi | (参考訳) 量子シミュレーションに動機づけられ、有限ゲージ群を持つヤン・ミルズゲージ理論、例えばコンパクトリー群の有限部分群に対する格子ハミルトニアンを考える。
電場ハミルトニアンは有限アーベル群または非アーベル群上のある自然で非単調なラプラシアン作用素として解釈し、この事実からいくつかの結果を引き出す。
選択されたハミルトニアンとは独立に、純粋ゲージ理論に対する物理的なゲージ不変ヒルベルト空間の完全な明示的な記述を提供し、その次元を計算するための単純な公式を導出する。
我々は、小さな周期格子上の二面ゲージ理論を対角化するためにゲージ不変基底を用いることを説明する。 Motivated by quantum simulation, we consider lattice Hamiltonians for Yang-Mills gauge theories with finite gauge group, for example a finite subgroup of a compact Lie group. We show that the electric Hamiltonian admits an interpretation as a certain natural, non-unique Laplacian operator on the finite Abelian or non-Abelian group, and derive some consequences from this fact. Independently of the chosen Hamiltonian, we provide a full explicit description of the physical, gauge-invariant Hilbert space for pure gauge theories and derive a simple formula to compute its dimension. We illustrate the use of the gauge-invariant basis to diagonalize a dihedral gauge theory on a small periodic lattice. | 翻訳日:2023-01-31 18:19:30 公開日:2023-01-28 |
# 遺伝子発現データを用いた癌分類のための機械学習手法の検討 Machine Learning Methods for Cancer Classification Using Gene Expression Data: A Review ( http://arxiv.org/abs/2301.12222v1 ) ライセンス: Link先を確認 | Fadi Alharbi and Aleksandar Vakanski | (参考訳) がん(がん、英: cancer)は、細胞の異常な増殖によって引き起こされる疾患群を指す用語である。
世界保健機関(who)によると、心臓血管疾患の2番目に大きな死因は癌である。
遺伝子発現は、組織や細胞の生化学的過程や生物の遺伝的特性を示すため、癌の早期発見において基本的な役割を果たす。
deoxyribonucleic acid (dna) microarrays and ribonucleic acid (rna)-sequencing method for gene expression dataにより、遺伝子の発現レベルを定量化し、計算分析に有用なデータを生成する。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
従来型と深層型の両方のアプローチを概観し, 各種癌に特有の遺伝子パターンを同定する上での利点として, 深層学習モデルのap-plicationに着目した。
最も一般的に使用されるディープニューラルネットワークアーキテクチャを使用する関連作業は、多層パーセプトロン、畳み込み、再帰、グラフ、トランスフォーマーネットワークなどをカバーする。
本調査では、遺伝子発現解析のためのデータ収集手法の概要と、このタスクの教師あり機械学習によく使用される重要なデータセットをリストアップする。
さらに、データサンプルに存在する多数の遺伝子によって引き起こされる遺伝子発現データの高次元性を扱うために一般的に使用される、機能工学とデータ前処理のための関連する技術がレビューされている。
本稿では,癌分類のための機械学習に基づく遺伝子発現解析の今後の研究方向性について論じる。 Cancer is a term that denotes a group of diseases caused by abnormal growth of cells that can spread in different parts of the body. According to the World Health Organization (WHO), cancer is the second major cause of death after cardiovascular diseases. Gene expression can play a fundamental role in the early detection of cancer, as it is indicative of the biochemical processes in tissue and cells, as well as the genetic characteristics of an organism. Deoxyribonucleic Acid (DNA) microarrays and Ribonucleic Acid (RNA)- sequencing methods for gene expression data allow quantifying the expression levels of genes and produce valuable data for computational analysis. This study reviews recent progress in gene expression analysis for cancer classification using machine learning methods. Both conventional and deep learning-based approaches are reviewed, with an emphasis on the ap-plication of deep learning models due to their comparative advantages for identifying gene patterns that are distinctive for various types of cancers. Relevant works that employ the most commonly used deep neural network architectures are covered, including multi-layer perceptrons, convolutional, recurrent, graph, and transformer networks. This survey also presents an overview of the data collection methods for gene expression analysis and lists important datasets that are commonly used for supervised machine learning for this task. Furthermore, reviewed are pertinent techniques for feature engineering and data preprocessing that are typically used to handle the high dimensionality of gene expression data, caused by a large number of genes present in data samples. The paper concludes with a discussion of future research directions for machine learning-based gene expression analysis for cancer classification. | 翻訳日:2023-01-31 18:19:15 公開日:2023-01-28 |
# デカップリングシーケンシャル検出ヘッドによるacne検出の高精度化に向けて Towards Accurate Acne Detection via Decoupled Sequential Detection Head ( http://arxiv.org/abs/2301.12219v1 ) ライセンス: Link先を確認 | Xin Wei, Lei Zhang, Jianwei Zhang, Junyou Wang, Wenjie Liu, Jiaqi Li and Xian Jiang | (参考訳) 正確なacne検出は、正確な診断と適切な治療を行う上で重要な役割を果たす。
しかし, acne病巣の曖昧な境界と任意次元は既存の方法の性能を著しく制限している。
本稿では,これらの課題を,メインストリームの2段階検出器で容易に適用可能な新しいデカップリングシーケンス検出ヘッド(DSDH)を用いて解決する。
dsdhはacne検出に2つのシンプルだが効果的な改善をもたらす。
まず、オフセットタスクとスケーリングタスクを明示的に導入し、その非互換性をタスク分離機構によって解決し、クレーン病変の位置とサイズを予測する能力を向上させる。
第2に,タスクシーケンス機構を提案し,オフセットとスケーリングを逐次実行することで,acne病変の次元をより包括的に把握する。
さらに, DSDHの有効性を検証するために, ACNE-DET という高品質なクレーン検出データセットを構築した。
ACNE-DET と公開ベンチマーク ACNE04 の実験により,本手法は最先端の手法よりも有意なマージンで優れていることが示された。
私たちのコードとデータセットは(一時的に匿名で)公開されています。 Accurate acne detection plays a crucial role in acquiring precise diagnosis and conducting proper therapy. However, the ambiguous boundaries and arbitrary dimensions of acne lesions severely limit the performance of existing methods. In this paper, we address these challenges via a novel Decoupled Sequential Detection Head (DSDH), which can be easily adopted by mainstream two-stage detectors. DSDH brings two simple but effective improvements to acne detection. Firstly, the offset and scaling tasks are explicitly introduced, and their incompatibility is settled by our task-decouple mechanism, which improves the capability of predicting the location and size of acne lesions. Second, we propose the task-sequence mechanism, and execute offset and scaling sequentially to gain a more comprehensive insight into the dimensions of acne lesions. In addition, we build a high-quality acne detection dataset named ACNE-DET to verify the effectiveness of DSDH. Experiments on ACNE-DET and the public benchmark ACNE04 show that our method outperforms the state-of-the-art methods by significant margins. Our code and dataset are publicly available at (temporarily anonymous). | 翻訳日:2023-01-31 18:18:48 公開日:2023-01-28 |
# michael janas, michael e. cuffaro, michel janssenによる量子ラッフルの理解 Foreword to Understanding Quantum Raffles, by Michael Janas, Michael E. Cuffaro, Michel Janssen ( http://arxiv.org/abs/2301.12266v1 ) ライセンス: Link先を確認 | Jeffrey Bub | (参考訳) Michael Janas, Michael E. Cuffaro, Michel Janssen, Understanding Quantum Raffles
情報的アプローチに関する量子力学:構造と理論(boston studies in the philosophy and history of science, 340)(springer, 2022) Foreword to Michael Janas, Michael E. Cuffaro, Michel Janssen, Understanding Quantum Raffles. Quantum Mechanics on an Informational Approach: Structure and Theory (Boston Studies in the Philosophy and History of Science, 340) (Springer, 2022). | 翻訳日:2023-01-31 18:12:47 公開日:2023-01-28 |
# エネルギーモデルによる操舵制御 Controlling Steering with Energy-Based Models ( http://arxiv.org/abs/2301.12264v1 ) ライセンス: Link先を確認 | Mykyta Baliesnyi, Ardi Tampuu, Tambet Matiisen | (参考訳) エネルギーベースのモデルを用いたいわゆる暗黙的行動クローニングは、ロボット操作タスクにおいて有望な結果を示している。
エンド・ツー・エンドの運転モデルを用いて、実際の自動運転車のステアリングを制御する方法の利点を検証した。
我々は、暗黙的行動クローニングアプローチと明示的なベースラインアプローチを広範囲に比較し、すべて同じニューラルネットワークバックボーンアーキテクチャを共有した。
ベースライン明示モデルは回帰損失 (mae) 、分類損失 (softmax and cross-entropy on a discretization)、または混合密度ネットワーク (mdn) を用いて訓練された。
エネルギーベースの定式化を用いたモデルは、安全運転者の介入の観点からのベースラインアプローチと比較すると、高いホワイトネス尺度を示し、高いジャークを示している。
これを軽減するために, ステアリングの平滑性を改善するための2つの方法を示す。
エネルギーベースモデルでは, 単純な回帰よりも若干, マルチモーダル性を扱うことが確認できたが, 運転能力は著しく向上しなかった。
我々は、ステアリングのみの道路追従作業はエネルギーベースのモデルから恩恵を受けるには多様さが少なすぎると主張している。
このことは、実世界のタスクに暗黙的な行動的クローンを適用することは困難であり、エネルギーベースモデルの理論的優位性を引き出すためにさらなる調査が必要であることを示している。 So-called implicit behavioral cloning with energy-based models has shown promising results in robotic manipulation tasks. We tested if the method's advantages carry on to controlling the steering of a real self-driving car with an end-to-end driving model. We performed an extensive comparison of the implicit behavioral cloning approach with explicit baseline approaches, all sharing the same neural network backbone architecture. Baseline explicit models were trained with regression (MAE) loss, classification loss (softmax and cross-entropy on a discretization), or as mixture density networks (MDN). While models using the energy-based formulation performed comparably to baseline approaches in terms of safety driver interventions, they had a higher whiteness measure, indicating higher jerk. To alleviate this, we show two methods that can be used to improve the smoothness of steering. We confirmed that energy-based models handle multimodalities slightly better than simple regression, but this did not translate to significantly better driving ability. We argue that the steering-only road-following task has too few multimodalities to benefit from energy-based models. This shows that applying implicit behavioral cloning to real-world tasks can be challenging, and further investigation is needed to bring out the theoretical advantages of energy-based models. | 翻訳日:2023-01-31 18:12:42 公開日:2023-01-28 |
# temporai: 医学の時間領域タスクにおける機械学習イノベーションの促進 TemporAI: Facilitating Machine Learning Innovation in Time Domain Tasks for Medicine ( http://arxiv.org/abs/2301.12260v1 ) ライセンス: Link先を確認 | Evgeny S. Saveliev and Mihaela van der Schaar | (参考訳) TemporAIは、タイムコンポーネントを備えたデータを含む機械学習(ML)タスクのためのオープンソースのPythonソフトウェアライブラリで、医療と医療のユースケースに焦点を当てている。
時系列、静的、イベントモダリティのデータをサポートし、予測、因果推論、時間対イベント分析のためのインターフェース、一般的な前処理ユーティリティやモデル解釈可能性メソッドを提供する。
このライブラリは、モデル開発、プロトタイピング、ベンチマークのための標準化された時間設定ツールキットを提供し、ML研究、医療専門家、医療・薬学産業、データサイエンスコミュニティのギャップを埋めることによって、医療ML分野のイノベーションを促進することを目的としている。
TemporAIはGitHubで入手できる(https://github.com/vanderschaarlab/temporai)。 TemporAI is an open source Python software library for machine learning (ML) tasks involving data with a time component, focused on medicine and healthcare use cases. It supports data in time series, static, and eventmodalities and provides an interface for prediction, causal inference, and time-to-event analysis, as well as common preprocessing utilities and model interpretability methods. The library aims to facilitate innovation in the medical ML space by offering a standardized temporal setting toolkit for model development, prototyping and benchmarking, bridging the gaps in the ML research, healthcare professional, medical/pharmacological industry, and data science communities. TemporAI is available on GitHub (https://github.com/vanderschaarlab/temporai) and we welcome community engagement through use, feedback, and code contributions. | 翻訳日:2023-01-31 18:12:21 公開日:2023-01-28 |
# GAN事前蒸留による顔画像翻訳 Few-shot Face Image Translation via GAN Prior Distillation ( http://arxiv.org/abs/2301.12257v1 ) ライセンス: Link先を確認 | Ruoyu Zhao, Mingrui Zhu, Xiaoyu Wang and Nannan Wang | (参考訳) 近年,顔画像の翻訳が顕著な進歩を遂げている。
しかし、限られたデータでトレーニングする場合、既存のアプローチのパフォーマンスは大幅に低下する。
この問題に対処しようとする研究もあるが、数発(10点未満)を達成できなかったり、最適以下の結果しか得られなかったりする。
本稿では,顔画像の効果的翻訳を実現するためのGPD (GPD) を提案する。
GPDには、教師ネットワークと、エンドツーエンドの翻訳を行う学生ネットワークの2つのモデルが含まれている。
具体的には、ソースドメインの大規模データに基づいてトレーニングされた教師ネットワークを、ターゲットドメインの知識を学習できる少数のサンプルでターゲットドメインに適応させる。
そして、同じ潜在コードと共に、ソースドメインとターゲットドメインイメージを同時に生成することで、少数ショットの強化を実現することができる。
本稿では,教師ネットワークの知識を学生ネットワークに抽出するために,トレーニングと強化データの違いを完全に活用できるアンカーベースの知識蒸留モジュールを提案する。
訓練された学生ネットワークは、追加知識を吸収して優れた一般化性能を達成する。
質的かつ定量的な実験により,本手法は最先端の手法よりも数発で優れた結果が得られることを示した。 Face image translation has made notable progress in recent years. However, when training on limited data, the performance of existing approaches significantly declines. Although some studies have attempted to tackle this problem, they either failed to achieve the few-shot setting (less than 10) or can only get suboptimal results. In this paper, we propose GAN Prior Distillation (GPD) to enable effective few-shot face image translation. GPD contains two models: a teacher network with GAN Prior and a student network that fulfills end-to-end translation. Specifically, we adapt the teacher network trained on large-scale data in the source domain to the target domain with only a few samples, where it can learn the target domain's knowledge. Then, we can achieve few-shot augmentation by generating source domain and target domain images simultaneously with the same latent codes. We propose an anchor-based knowledge distillation module that can fully use the difference between the training and the augmented data to distill the knowledge of the teacher network into the student network. The trained student network achieves excellent generalization performance with the absorption of additional knowledge. Qualitative and quantitative experiments demonstrate that our method achieves superior results than state-of-the-art approaches in a few-shot setting. | 翻訳日:2023-01-31 18:12:04 公開日:2023-01-28 |
# 多項ロジットモデルにおける最適アソートメントの推理 Inference on the Optimal Assortment in the Multinomial Logit Model ( http://arxiv.org/abs/2301.12254v1 ) ライセンス: Link先を確認 | Shuting Shen, Xi Chen, Ethan X. Fang, Junwei Lu | (参考訳) 過去数十年間、アソシエーションの最適化は実践的な重要性から活発な探索を受けてきた。
最適化アルゴリズムと潜在スコア推定を扱う広範な文献があるにもかかわらず、最適な分類のための不確実性定量化は依然として検討され、非常に実用的な意味を持つ。
決定者は、完全な最適提案セットを推定し、回復する代わりに、最適集合にいくつかの興味のある製品を含めるべきかどうか、最適集合が含めるべき製品のカテゴリ数など、与えられた性質が最適選択に対して真であるかどうかをテストすることに関心があるかもしれない。
本稿では,そのような特性をテストするための新しい推論フレームワークを提案する。
我々は、広く採用されている多項ロジット(mnl)モデルを検討し、各顧客が製品に関連付けられた嗜好スコアに比例する確率で提供された製品の中でアイテムを購入すると仮定する。
我々は、限界収益ギャップの符号変化点検出に伴う不確実性を定量化するために、一般的な最適収差特性を推定する。
限界収益ギャップ推定器の漸近正規度を示し、ギャップ推定器を介して最大統計値を構築し、符号変化点を検出する。
最大統計量の分布をマルチプライアブートストラップ法で近似することにより,有効なテスト手順を提案する。
また,本手法の性能評価のための数値実験を行った。 Assortment optimization has received active explorations in the past few decades due to its practical importance. Despite the extensive literature dealing with optimization algorithms and latent score estimation, uncertainty quantification for the optimal assortment still needs to be explored and is of great practical significance. Instead of estimating and recovering the complete optimal offer set, decision makers may only be interested in testing whether a given property holds true for the optimal assortment, such as whether they should include several products of interest in the optimal set, or how many categories of products the optimal set should include. This paper proposes a novel inferential framework for testing such properties. We consider the widely adopted multinomial logit (MNL) model, where we assume that each customer will purchase an item within the offered products with a probability proportional to the underlying preference score associated with the product. We reduce inferring a general optimal assortment property to quantifying the uncertainty associated with the sign change point detection of the marginal revenue gaps. We show the asymptotic normality of the marginal revenue gap estimator, and construct a maximum statistic via the gap estimators to detect the sign change point. By approximating the distribution of the maximum statistic with multiplier bootstrap techniques, we propose a valid testing procedure. We also conduct numerical experiments to assess the performance of our method. | 翻訳日:2023-01-31 18:11:45 公開日:2023-01-28 |
# シリコンフォトニクスを用いた2.5Dチップレットプラットフォームの機械学習加速器 Machine Learning Accelerators in 2.5D Chiplet Platforms with Silicon Photonics ( http://arxiv.org/abs/2301.12252v1 ) ライセンス: Link先を確認 | Febin Sunny, Ebadollah Taheri, Mahdi Nikdast, Sudeep Pasricha | (参考訳) GoogleのTPUやAppleのNeural Engineといったドメイン固有機械学習(ML)アクセラレータが、エネルギー効率の高いML処理のためにCPUとGPUを支配している。
しかし、電子加速器の進化は、モノリシック処理チップの計算密度の制限と遅い金属配線に依存するため、根本的な限界に直面している。
本稿では,光計算と通信を2.5dチップレットプラットフォームに統合して,まったく新しいタイプの持続可能でスケーラブルなmlハードウェアアクセラレータを実現するためのビジョンを提案する。
我々は、光デバイス、回路、アーキテクチャ、ハードウェア/ソフトウェアコードデザインの層間設計と製造が、より効率的なフォトニクスベースの2.5Dチップレットプラットフォームの設計にどのように役立つかを説明する。 Domain-specific machine learning (ML) accelerators such as Google's TPU and Apple's Neural Engine now dominate CPUs and GPUs for energy-efficient ML processing. However, the evolution of electronic accelerators is facing fundamental limits due to the limited computation density of monolithic processing chips and the reliance on slow metallic interconnects. In this paper, we present a vision of how optical computation and communication can be integrated into 2.5D chiplet platforms to drive an entirely new class of sustainable and scalable ML hardware accelerators. We describe how cross-layer design and fabrication of optical devices, circuits, and architectures, and hardware/software codesign can help design efficient photonics-based 2.5D chiplet platforms to accelerate emerging ML workloads. | 翻訳日:2023-01-31 18:11:23 公開日:2023-01-28 |
# DeciLS-PBO:擬似ブール最適化のための効率的な局所探索法 DeciLS-PBO: an Effective Local Search Method for Pseudo-Boolean Optimization ( http://arxiv.org/abs/2301.12251v1 ) ライセンス: Link先を確認 | Luyu Jiang, Dantong Ouyang, Qi Zhang, and Liming Zhang | (参考訳) 局所探索は大規模組合せ最適化問題を解く効果的な手法であり,近年,いくつかの微妙なメカニズムにより著しい進歩を遂げている。
本稿では,PBO(Pseudo-Boolean Optimization)の解法において,局所探索アルゴリズムを改善する2つの方法を見出した。まず,PBOの解法として一般化可能なMaxSATの解法において,単位伝搬などの機構を単に用いているだけであり,既存の局所探索アルゴリズムでは変数のヒューリスティック(英語版)(いわゆるスコア)を用いて探索を指導している。
我々は、変数と与えられた式の間のブリッジを構築する中間者の役割を担っているので、この条項に関するさらなる洞察を得ようと試みる。
そこで我々はまず,PBO問題への単位伝搬に基づくデシミテーションアルゴリズムの組合せを拡張し,PBO問題に対する単位節の定義をさらに一般化し,初期割り当てを構築するための既存の解法LS-PBOに適用した。
最小帯域信頼バンド,無線センサネットワーク最適化,座席配置問題を含む3つの実世界のアプリケーションベンチマーク実験により,我々のアルゴリズムであるDeciLS-PBOが最先端のアルゴリズムと比較して有望な性能を示した。 Local search is an effective method for solving large-scale combinatorial optimization problems, and it has made remarkable progress in recent years through several subtle mechanisms. In this paper, we found two ways to improve the local search algorithms in solving Pseudo-Boolean Optimization(PBO): Firstly, some of those mechanisms such as unit propagation are merely used in solving MaxSAT before, which can be generalized to solve PBO as well; Secondly, the existing local search algorithms utilize the heuristic on variables, so-called score, to mainly guide the search. We attempt to gain more insights into the clause, as it plays the role of a middleman who builds a bridge between variables and the given formula. Hence, we first extended the combination of unit propagation-based decimation algorithm to PBO problem, giving a further generalized definition of unit clause for PBO problem, and apply it to the existing solver LS-PBO for constructing an initial assignment; then, we introduced a new heuristic on clauses, dubbed care, to set a higher priority for the clauses that are less satisfied in current iterations. Experiments on three real-world application benchmarks including minimum-width confidence band, wireless sensor network optimization, and seating arrangement problems show that our algorithm DeciLS-PBO has a promising performance compared to the state-of-the-art algorithms. | 翻訳日:2023-01-31 18:11:08 公開日:2023-01-28 |
# サブガウス分布の高速, サンプル効率, アフィン不変プライベート平均と共分散推定 Fast, Sample-Efficient, Affine-Invariant Private Mean and Covariance Estimation for Subgaussian Distributions ( http://arxiv.org/abs/2301.12250v1 ) ライセンス: Link先を確認 | Gavin Brown, Samuel B. Hopkins and Adam Smith | (参考訳) ほぼ最適なサンプル複雑性を持つ高次元共分散平均推定のための高速かつ微分プライベートなアルゴリズムを提案する。
この保証を達成するのは指数時間推定器のみであった。
未知の平均$\mu$ と共分散 $\sigma$ から$n$のサンプルが与えられると、我々の$(\varepsilon,\delta)$ は$\tilde{\mu}$を生成し、$n \gtrsim \tfrac d {\alpha^2} + \tfrac{d \sqrt{\log 1/\delta}}{\alpha \varepsilon}+\frac{d\log 1/\delta}{\varepsilon}$となる。
mahalanobis error metric $\|\mu - \hat{\mu}\|_{\sigma}$は、$\hat \mu$ と$\mu$ の間の距離を測定し、サンプル平均の誤差を特徴付ける。
我々のアルゴリズムは時間$\tilde{O}(nd^{\omega - 1} + nd/\varepsilon)$で動き、$\omega < 2.38$は行列乗算指数である。
brown, gaboardi, smith, ullman, zakynthinou (2021) の指数時間アプローチを適用し,安定平均と共分散推定サブルーチンの効率的な変種を与え,サンプルの複雑さを上述の最適境界まで向上させた。
安定共分散推定器は非制限部分ガウス分布のプライベート共分散推定に変換できる。
n\gtrsim d^{3/2}$サンプルでは、スペクトルノルムで推定が正確である。
これは$n= o(d^2)$ サンプルを用いた最初のそのようなアルゴリズムであり、alabiら (2022) が提起した解答である。
n\gtrsim d^2$サンプルでは、この推定はフロベニウスノルムで正確である。
これにより、テレビ距離における非制限ガウス分布のプライベート学習のための高速でほぼ最適なアルゴリズムが導かれる。
duchi, haque, kuditipudi (2023)も同様の結果が独立して得られた。 We present a fast, differentially private algorithm for high-dimensional covariance-aware mean estimation with nearly optimal sample complexity. Only exponential-time estimators were previously known to achieve this guarantee. Given $n$ samples from a (sub-)Gaussian distribution with unknown mean $\mu$ and covariance $\Sigma$, our $(\varepsilon,\delta)$-differentially private estimator produces $\tilde{\mu}$ such that $\|\mu - \tilde{\mu}\|_{\Sigma} \leq \alpha$ as long as $n \gtrsim \tfrac d {\alpha^2} + \tfrac{d \sqrt{\log 1/\delta}}{\alpha \varepsilon}+\frac{d\log 1/\delta}{\varepsilon}$. The Mahalanobis error metric $\|\mu - \hat{\mu}\|_{\Sigma}$ measures the distance between $\hat \mu$ and $\mu$ relative to $\Sigma$; it characterizes the error of the sample mean. Our algorithm runs in time $\tilde{O}(nd^{\omega - 1} + nd/\varepsilon)$, where $\omega < 2.38$ is the matrix multiplication exponent. We adapt an exponential-time approach of Brown, Gaboardi, Smith, Ullman, and Zakynthinou (2021), giving efficient variants of stable mean and covariance estimation subroutines that also improve the sample complexity to the nearly optimal bound above. Our stable covariance estimator can be turned to private covariance estimation for unrestricted subgaussian distributions. With $n\gtrsim d^{3/2}$ samples, our estimate is accurate in spectral norm. This is the first such algorithm using $n= o(d^2)$ samples, answering an open question posed by Alabi et al. (2022). With $n\gtrsim d^2$ samples, our estimate is accurate in Frobenius norm. This leads to a fast, nearly optimal algorithm for private learning of unrestricted Gaussian distributions in TV distance. Duchi, Haque, and Kuditipudi (2023) obtained similar results independently and concurrently. | 翻訳日:2023-01-31 18:10:41 公開日:2023-01-28 |
# Sim-to-Real Transfer Learningを用いた高精度モデルフリーロボットグラスピングに向けて Towards Precise Model-free Robotic Grasping with Sim-to-Real Transfer Learning ( http://arxiv.org/abs/2301.12249v1 ) ライセンス: Link先を確認 | Lei Zhang, Kaixin Bai, Zhaopeng Chen, Yunlei Shi and Jianwei Zhang | (参考訳) いくつかの新しい物体をロボットで正確に把握することは、製造、自動化、ロジスティクスにおいて大きな課題である。
モデルフリーハンドリングの現在の方法の多くは、データセット把握におけるスパースデータや、センサデータやコンタクトモデルにおける誤差によって不利である。
本研究は,データ生成とsim-to-real転送学習を組み合わせることで,sim-to-real間ギャップを低減し,正確かつ信頼性の高いモデルフリーな把握を可能にする。
領域ランダム化法と深層学習に基づくロボット把持のための新しいデータ拡張法を用いて、密接な把持ラベルを持つ大規模ロボット把持データセットを生成し、データスパース問題を解決する。
本稿では,把持オプティマイザを用いたエンドツーエンドロボット把持ネットワークを提案する。
把握ポリシはsim-to-real転送学習でトレーニングされる。
以上の結果から, 把持フレームワークはデータセット, センサデータ, コンタクトモデルの不確実性を低減できることが示唆された。
ロボット実験では, 1つの既知の物体と, 90.91%の成功率を持つ新しい複合住宅物体を把持した。
多目的ロボットによる複雑なシナリオでは、成功率は85.71%であった。
提案する把持フレームワークは, 未知のロボット把持法と未知のロボット把持法の両方において, 最先端の2つの手法を上回った。 Precise robotic grasping of several novel objects is a huge challenge in manufacturing, automation, and logistics. Most of the current methods for model-free grasping are disadvantaged by the sparse data in grasping datasets and by errors in sensor data and contact models. This study combines data generation and sim-to-real transfer learning in a grasping framework that reduces the sim-to-real gap and enables precise and reliable model-free grasping. A large-scale robotic grasping dataset with dense grasp labels is generated using domain randomization methods and a novel data augmentation method for deep learning-based robotic grasping to solve data sparse problem. We present an end-to-end robotic grasping network with a grasp optimizer. The grasp policies are trained with sim-to-real transfer learning. The presented results suggest that our grasping framework reduces the uncertainties in grasping datasets, sensor data, and contact models. In physical robotic experiments, our grasping framework grasped single known objects and novel complex-shaped household objects with a success rate of 90.91%. In a complex scenario with multi-objects robotic grasping, the success rate was 85.71%. The proposed grasping framework outperformed two state-of-the-art methods in both known and unknown object robotic grasping. | 翻訳日:2023-01-31 18:09:44 公開日:2023-01-28 |
# SEGA:セマンティック次元を用いた拡散指導 SEGA: Instructing Diffusion using Semantic Dimensions ( http://arxiv.org/abs/2301.12247v1 ) ライセンス: Link先を確認 | Manuel Brack, Felix Friedrich, Dominik Hintersdorf, Lukas Struppek, Patrick Schramowski, Kristian Kersting | (参考訳) テキストから画像への拡散モデルは最近、テキストのみから高精細な画像を生成するという驚くべき能力で多くの関心を集めている。
しかし、ユーザの意図に沿ったワンショット生成を実現することはほぼ不可能であるが、入力プロンプトの小さな変更は、しばしば非常に異なる画像をもたらす。
これによりユーザはセマンティックコントロールがほとんどなくなる。
ユーザを制御するために、拡散プロセスと対話して、セマンティックな方向に沿って柔軟に操る方法を示す。
この意味指導(SEGA)は、微妙で広範囲な編集、構成とスタイルの変化、および全体的な芸術的概念の最適化を可能にする。
各種タスクにおけるSEGAの有効性を実証し、その汎用性と柔軟性を示す。 Text-to-image diffusion models have recently received a lot of interest for their astonishing ability to produce high-fidelity images from text only. However, achieving one-shot generation that aligns with the user's intent is nearly impossible, yet small changes to the input prompt often result in very different images. This leaves the user with little semantic control. To put the user in control, we show how to interact with the diffusion process to flexibly steer it along semantic directions. This semantic guidance (SEGA) allows for subtle and extensive edits, changes in composition and style, as well as optimizing the overall artistic conception. We demonstrate SEGA's effectiveness on a variety of tasks and provide evidence for its versatility and flexibility. | 翻訳日:2023-01-31 18:09:24 公開日:2023-01-28 |
# ACL-Fig: 科学的フィギュア分類のためのデータセット ACL-Fig: A Dataset for Scientific Figure Classification ( http://arxiv.org/abs/2301.12293v1 ) ライセンス: Link先を確認 | Zeba Karishma, Shaurya Rohatgi, Kavya Shrinivas Puranik, Jian Wu, C. Lee Giles | (参考訳) 既存の大規模学術検索エンジンのほとんどは、テキストベースの情報を取得するために作られている。
しかし、科学的な数字や表の大規模な検索サービスはない。
このようなサービスの課題の1つは、科学的な人物のセマンティクス、例えばその種類や目的を理解することである。
重要な障害は、アノテートされた科学的な図形とテーブルを含むデータセットの必要性である。
本稿では,科学文献から図形と表を抽出するパイプラインと,視覚特徴を用いて科学的図形を分類するディープラーニングフレームワークを開発した。
このパイプラインを用いて,ACLアンソロジーにおける56K以上の研究論文から抽出された112,052個の科学的データからなる,最初の大規模自動注釈コーパスACL-Figを構築した。
ACL-Fig-Pilotデータセットには、19のカテゴリに属する1,671の科学的数字が含まれている。
データセットはCC BY-NCライセンス下でhttps://huggingface.co/datasets/citeseerx/ACL-figでアクセスできる。 Most existing large-scale academic search engines are built to retrieve text-based information. However, there are no large-scale retrieval services for scientific figures and tables. One challenge for such services is understanding scientific figures' semantics, such as their types and purposes. A key obstacle is the need for datasets containing annotated scientific figures and tables, which can then be used for classification, question-answering, and auto-captioning. Here, we develop a pipeline that extracts figures and tables from the scientific literature and a deep-learning-based framework that classifies scientific figures using visual features. Using this pipeline, we built the first large-scale automatically annotated corpus, ACL-Fig, consisting of 112,052 scientific figures extracted from ~56K research papers in the ACL Anthology. The ACL-Fig-Pilot dataset contains 1,671 manually labeled scientific figures belonging to 19 categories. The dataset is accessible at https://huggingface.co/datasets/citeseerx/ACL-fig under a CC BY-NC license. | 翻訳日:2023-01-31 18:03:27 公開日:2023-01-28 |
# ゼロショット因果学習 Zero-shot causal learning ( http://arxiv.org/abs/2301.12292v1 ) ライセンス: Link先を確認 | Hamed Nilforoshan, Michael Moor, Yusuf Roohani, Yining Chen, Anja \v{S}urina, Michihiro Yasunaga, Sara Oblak, Jure Leskovec | (参考訳) パーソナライズされた医療、公共政策、オンラインマーケティングなど様々な分野において、異なる介入が特定の個人に因果的にどのように影響するかを予測することは重要である。
しかし、既存のほとんどの因果的手法は、介入を受けた個人にデータを必要とするため、以前は目に見えない介入(例えば、新しく発明された薬物)の効果を予測するには一般化できない。
ここでは、ゼロショット因果学習(ゼロショット因果学習)について考察する。
この問題に対処するために,各介入の効果をタスクとしてパーソナライズした予測を定式化する因果メタラーニングフレームワークであるCaMLを提案する。
介入ごとに個別のモデルを訓練する代わりに、CaMLは何千ものタスクにまたがって単一のメタモデルとして訓練し、それぞれが介入をサンプリングして構築され、それを受け取らなかったり受け取らなかったりした。
介入情報(例えば、薬物の属性)と個々の特徴(例えば、患者の歴史)の両方を活用することで、CaMLは目に見えない介入のパーソナライズされた効果を予測することができる。
大規模医療クレームとセルライン摂動における実世界データセットの実験結果は,本手法の有効性を示している。
最も驚くべきことに、CaMLゼロショット予測は、検討対象の介入のデータに直接アクセスする強力なベースラインよりも優れています。 Predicting how different interventions will causally affect a specific individual is important in a variety of domains such as personalized medicine, public policy, and online marketing. However, most existing causal methods cannot generalize to predicting the effects of previously unseen interventions (e.g., a newly invented drug), because they require data for individuals who received the intervention. Here, we consider zero-shot causal learning: predicting the personalized effects of novel, previously unseen interventions. To tackle this problem, we propose CaML, a causal meta-learning framework which formulates the personalized prediction of each intervention's effect as a task. Rather than training a separate model for each intervention, CaML trains as a single meta-model across thousands of tasks, each constructed by sampling an intervention and individuals who either did or did not receive it. By leveraging both intervention information (e.g., a drug's attributes) and individual features (e.g., a patient's history), CaML is able to predict the personalized effects of unseen interventions. Experimental results on real world datasets in large-scale medical claims and cell-line perturbations demonstrate the effectiveness of our approach. Most strikingly, CaML zero-shot predictions outperform even strong baselines which have direct access to data of considered target interventions. | 翻訳日:2023-01-31 18:03:12 公開日:2023-01-28 |
# 大規模なctスキャンを用いた8つの主要癌の検出, 分節化, 診断のための単一統一モデルの構築 Towards a Single Unified Model for Effective Detection, Segmentation, and Diagnosis of Eight Major Cancers Using a Large Collection of CT Scans ( http://arxiv.org/abs/2301.12291v1 ) ライセンス: Link先を確認 | Jieneng Chen, Yingda Xia, Jiawen Yao, Ke Yan, Jianpeng Zhang, Le Lu, Fakai Wang, Bo Zhou, Mingyan Qiu, Qihang Yu, Mingze Yuan, Wei Fang, Yuxing Tang, Minfeng Xu, Jian Zhou, Yuqian Zhao, Qifeng Wang, Xianghua Ye, Xiaoli Yin, Yu Shi, Xin Chen, Jingren Zhou, Alan Yuille, Zaiyi Liu, Ling Zhang | (参考訳) 人間の読者や放射線科医は臨床でフルボディのマルチディセーゼ検出と診断を日常的に行っているが、ほとんどの医療aiシステムは、いくつかの病気の限られたリストを持つ単一の臓器に焦点を当てるように作られている。
これはAIの臨床的採用を著しく制限する可能性がある。
特定の数のAIモデルを非自明に組み立てて、CTスキャンを読んでいる人の診断プロセスと一致させる必要がある。
本稿では,ctスキャンにおいて腫瘍トランスフォーマ(unit)モデルを構築し,腫瘍の存在と位置を検出し,腫瘍の特徴を診断する。
unitはクエリベースのマスクトランスフォーマーモデルで、マルチオーガンとマルチトゥルータセマンティクスセグメンテーションの出力を持つ。
対象クエリをオルガンクエリ,検出クエリ,診断クエリに分離し,さらに3つのグループ間の階層的関係を確立する。
この臨床的にインスパイアされたアーキテクチャは、腫瘍の組織間および組織内表現学習を効果的に支援し、これらの複雑で解剖学的に関連した多臓器癌画像読取タスクの解決を促進する。
UniTは8種類のがんを含む10,042人の大規模CT画像と非癌腫瘍(いずれも放射線医が注釈を付けた3D腫瘍マスクで診断された)を用いて、エンドツーエンドに訓練されている。
631例の検査群において, 腫瘍検出, 分節, 診断において, 多臓器分節法と8種の単臓器エキスパートモデルにほぼ匹敵する, 臨床的に関連のある評価指標の組において, 高い性能を示した。
このような統合マルチカメラ画像読取モデル(UniT)は、複合マルチシステムモデルによって生成される偽陽性の数を著しく削減することができる。
これは、普遍的な高性能がんスクリーニングツールに一歩近づいた。 Human readers or radiologists routinely perform full-body multi-organ multi-disease detection and diagnosis in clinical practice, while most medical AI systems are built to focus on single organs with a narrow list of a few diseases. This might severely limit AI's clinical adoption. A certain number of AI models need to be assembled non-trivially to match the diagnostic process of a human reading a CT scan. In this paper, we construct a Unified Tumor Transformer (UniT) model to detect (tumor existence and location) and diagnose (tumor characteristics) eight major cancer-prevalent organs in CT scans. UniT is a query-based Mask Transformer model with the output of multi-organ and multi-tumor semantic segmentation. We decouple the object queries into organ queries, detection queries and diagnosis queries, and further establish hierarchical relationships among the three groups. This clinically-inspired architecture effectively assists inter- and intra-organ representation learning of tumors and facilitates the resolution of these complex, anatomically related multi-organ cancer image reading tasks. UniT is trained end-to-end using a curated large-scale CT images of 10,042 patients including eight major types of cancers and occurring non-cancer tumors (all are pathology-confirmed with 3D tumor masks annotated by radiologists). On the test set of 631 patients, UniT has demonstrated strong performance under a set of clinically relevant evaluation metrics, substantially outperforming both multi-organ segmentation methods and an assembly of eight single-organ expert models in tumor detection, segmentation, and diagnosis. Such a unified multi-cancer image reading model (UniT) can significantly reduce the number of false positives produced by combined multi-system models. This moves one step closer towards a universal high-performance cancer screening tool. | 翻訳日:2023-01-31 18:02:47 公開日:2023-01-28 |
# 電子カルテとトランスフォーマーを用いた閉塞型睡眠時無呼吸症の来院コスト予測 Predicting Visit Cost of Obstructive Sleep Apnea using Electronic Healthcare Records with Transformer ( http://arxiv.org/abs/2301.12289v1 ) ライセンス: Link先を確認 | Zhaoyang Chen, Lina Siltala-Li, Mikko Lassila, Pekka Malo, Eeva Vilkkumaa, Tarja Saaresranta, Arho Veli Virkki | (参考訳) 背景:肥満の増加に伴い、多くの国で閉塞性睡眠時無呼吸症(OSA)が増加傾向にある。
OSAの十分かつ効果的な治療には、医療の社会的・経済的コストが高い。
目的: 治療目的では, OSA患者の来院費を予測することが重要である。
信頼度の高い見積もりは、医療意思決定者が病院への資源の効果的な分配のために注意深く財政管理と予算を適切に行うことを可能にする。
高品質な患者のデータの不足によって生じる課題は、osa患者から得られたデータのうち3分の1が分析モデルのトレーニングに使用できるという事実によって悪化している。
方法と手順:2つのトランスフォーマーモデルを適用する手法を提案する。1つは、短い訪問履歴からのデータによる入力を増大させる方法と、もう1つは、1年以上経過した材料とケースの両方を考慮してコストを予測する方法である。
結果: この2モデルソリューションは、OSA患者データの限られた本体を生産的に使用可能にする。
高品質な患者データの3分の1しか使用していないシングルトランスフォーマーのソリューションと比較して、2つのモデルによるソリューションは予測性能を88.8%から97.5%に改善した。
モデル拡張データを使用したベースラインモデルでも、61.6%から81.9%に大幅にR^{2}$が向上した。
結論: 提案手法は, 来年の支出可能性に関する質問に対して直接的関係のない細部を慎重に活用することにより, 利用可能な高品質データの大部分で予測を行う。 Background: Obstructive sleep apnea (OSA) is growing increasingly prevalent in many countries as obesity rises. Sufficient, effective treatment of OSA entails high social and financial costs for healthcare. Objective: For treatment purposes, predicting OSA patients' visit expenses for the coming year is crucial. Reliable estimates enable healthcare decision-makers to perform careful fiscal management and budget well for effective distribution of resources to hospitals. The challenges created by scarcity of high-quality patient data are exacerbated by the fact that just a third of those data from OSA patients can be used to train analytics models: only OSA patients with more than 365 days of follow-up are relevant for predicting a year's expenditures. Methods and procedures: The authors propose a method applying two Transformer models, one for augmenting the input via data from shorter visit histories and the other predicting the costs by considering both the material thus enriched and cases with more than a year's follow-up. Results: The two-model solution permits putting the limited body of OSA patient data to productive use. Relative to a single-Transformer solution using only a third of the high-quality patient data, the solution with two models improved the prediction performance's $R^{2}$ from 88.8% to 97.5%. Even using baseline models with the model-augmented data improved the $R^{2}$ considerably, from 61.6% to 81.9%. Conclusion: The proposed method makes prediction with the most of the available high-quality data by carefully exploiting details, which are not directly relevant for answering the question of the next year's likely expenditure. | 翻訳日:2023-01-31 18:02:15 公開日:2023-01-28 |
# 言語モデリングのための文脈対応差分プライバシー Context-Aware Differential Privacy for Language Modeling ( http://arxiv.org/abs/2301.12288v1 ) ライセンス: Link先を確認 | My H. Dinh, Ferdinando Fioretto | (参考訳) 言語モデル(LM)の驚くべき能力は、AIとセキュリティのインターフェースにも課題をもたらしている。
重要な課題は、これらのモデルがどれだけの情報を保持し、トレーニングデータについてリークしているかである。
lmsの典型的な開発は、メールやチャットログなど、巨大で高感度なデータに依存しているため、これは特に緊急である。
この欠点とは対照的に、この論文では、2つの重要な洞察に依存するプライバシー保護lmフレームワークであるcontext-aware differentially private language model (cadp-lm)を紹介している。
第2に、機密情報を保護し、プライバシー漏洩を特徴付けるために、差分プライバシーの概念を採用する。
CADP-LMのユニークな特徴は、センシティブな文と文脈のみの保護を目標とし、極めて正確なプライベートモデルを提供する能力である。
様々なデータセットと設定の実験は、CADP-LMの強みを示している。 The remarkable ability of language models (LMs) has also brought challenges at the interface of AI and security. A critical challenge pertains to how much information these models retain and leak about the training data. This is particularly urgent as the typical development of LMs relies on huge, often highly sensitive data, such as emails and chat logs. To contrast this shortcoming, this paper introduces Context-Aware Differentially Private Language Model (CADP-LM) , a privacy-preserving LM framework that relies on two key insights: First, it utilizes the notion of \emph{context} to define and audit the potentially sensitive information. Second, it adopts the notion of Differential Privacy to protect sensitive information and characterize the privacy leakage. A unique characteristic of CADP-LM is its ability to target the protection of sensitive sentences and contexts only, providing a highly accurate private model. Experiments on a variety of datasets and settings demonstrate these strengths of CADP-LM. | 翻訳日:2023-01-31 18:01:31 公開日:2023-01-28 |
# 実践的公平性:成果格差制御による政策の展開 Pragmatic Fairness: Developing Policies with Outcome Disparity Control ( http://arxiv.org/abs/2301.12278v1 ) ライセンス: Link先を確認 | Limor Gultchin, Siyuan Guo, Alan Malek, Silvia Chiappa, Ricardo Silva | (参考訳) 公平性制約を満たす最適ポリシーを設計するための因果的枠組みを提案する。
私たちに利用可能なアクションスペースと、過去のデータへのアクセスのみを問う実践的なアプローチを取ります。
We propose two different fairness constraints: a moderation breaking constraint which aims at blocking moderation paths from the action and sensitive attribute to the outcome, and by that at reducing disparity in outcome levels as much as the provided action space permits; and an equal benefit constraint which aims at distributing gain from the new and maximized policy equally across sensitive attribute levels, and thus at keeping pre-existing preferential treatment in place or avoiding the introduction of new disparity.
制約を実装するための実践的手法を紹介し,半合成モデルを用いた実験での利用例を示す。 We introduce a causal framework for designing optimal policies that satisfy fairness constraints. We take a pragmatic approach asking what we can do with an action space available to us and only with access to historical data. We propose two different fairness constraints: a moderation breaking constraint which aims at blocking moderation paths from the action and sensitive attribute to the outcome, and by that at reducing disparity in outcome levels as much as the provided action space permits; and an equal benefit constraint which aims at distributing gain from the new and maximized policy equally across sensitive attribute levels, and thus at keeping pre-existing preferential treatment in place or avoiding the introduction of new disparity. We introduce practical methods for implementing the constraints and illustrate their uses on experiments with semi-synthetic models. | 翻訳日:2023-01-31 18:01:03 公開日:2023-01-28 |
# クラス特異的ネットワーク中毒のためのノードインジェクション Node Injection for Class-specific Network Poisoning ( http://arxiv.org/abs/2301.12277v1 ) ライセンス: Link先を確認 | Ansh Kumar Sharma and Rahul Kukreja and Mayank Kharbanda and Tanmoy Chakraborty | (参考訳) グラフニューラルネットワーク(GNN)は、下流タスクのパフォーマンスを補助するリッチネットワーク表現を学習する上で強力である。
しかし、最近の研究では、GNNはノード注入やネットワーク摂動を含む敵攻撃に弱いことが示されている。
これらのうち、ノードインジェクション攻撃は、既存のネットワークで操作する必要がなく、より現実的に実行できるため、より実用的です。
本稿では,攻撃者がターゲットクラスの特定のノードを,ノードインジェクションを用いて異なるクラスに誤分類することを目的とした,グラフに対するクラス固有の毒物攻撃である,新しい問題文を提案する。
さらに、ノードは良性ノードとしてカモフラージュするように注入される。
本稿では,gnnベースのノード分類器の性能を妨害する最適化に基づく手法を用いた新しい攻撃戦略であるnickiを提案する。
nickiは2つのフェーズで動作します - まずノード表現を学習し、注入されたノードの特徴とエッジを生成します。
4つのベンチマークネットワークに関する大規模な実験とアブレーション研究により、NICKIはターゲットクラスのノードを誤分類するための4つのベースライン攻撃戦略よりも一貫して優れていることが示された。
また、注入されたノードは良性として適切にカモフラージュされることを示し、毒されたグラフはその清浄版 w.r. の様々な位相特性と区別できないことを示す。 Graph Neural Networks (GNNs) are powerful in learning rich network representations that aid the performance of downstream tasks. However, recent studies showed that GNNs are vulnerable to adversarial attacks involving node injection and network perturbation. Among these, node injection attacks are more practical as they don't require manipulation in the existing network and can be performed more realistically. In this paper, we propose a novel problem statement - a class-specific poison attack on graphs in which the attacker aims to misclassify specific nodes in the target class into a different class using node injection. Additionally, nodes are injected in such a way that they camouflage as benign nodes. We propose NICKI, a novel attacking strategy that utilizes an optimization-based approach to sabotage the performance of GNN-based node classifiers. NICKI works in two phases - it first learns the node representation and then generates the features and edges of the injected nodes. Extensive experiments and ablation studies on four benchmark networks show that NICKI is consistently better than four baseline attacking strategies for misclassifying nodes in the target class. We also show that the injected nodes are properly camouflaged as benign, thus making the poisoned graph indistinguishable from its clean version w.r.t various topological properties. | 翻訳日:2023-01-31 18:00:47 公開日:2023-01-28 |
# ProtoSeg: プロトタイプ部品を用いた解釈可能なセマンティックセグメンテーション ProtoSeg: Interpretable Semantic Segmentation with Prototypical Parts ( http://arxiv.org/abs/2301.12276v1 ) ライセンス: Link先を確認 | Miko{\l}aj Sacha, Dawid Rymarczyk, {\L}ukasz Struski, Jacek Tabor, Bartosz Zieli\'nski | (参考訳) ProtoSegは意味的イメージセグメンテーションを解釈可能な新しいモデルであり、トレーニングセットから同様のパッチを用いて予測を構築する。
ベースライン法に匹敵する精度を達成するため,プロトタイプ部品の機構に適応し,各クラスにおけるプロトタイプの多様性を増大させる多様性損失関数を導入する。
ProtoSegは標準的なセグメンテーションモデルとは対照的にセグメンテーションの概念を発見する。
Pascal VOCとCityscapesのデータセットを用いた実験により,提案手法の精度と透明性が確認された。 We introduce ProtoSeg, a novel model for interpretable semantic image segmentation, which constructs its predictions using similar patches from the training set. To achieve accuracy comparable to baseline methods, we adapt the mechanism of prototypical parts and introduce a diversity loss function that increases the variety of prototypes within each class. We show that ProtoSeg discovers semantic concepts, in contrast to standard segmentation models. Experiments conducted on Pascal VOC and Cityscapes datasets confirm the precision and transparency of the presented method. | 翻訳日:2023-01-31 18:00:24 公開日:2023-01-28 |
# 空洞内原子における多光子遷移の存在による断熱除去 Adiabatic elimination in the presence of multiphoton transitions in atoms inside a cavity ( http://arxiv.org/abs/2301.12275v1 ) ライセンス: Link先を確認 | Prosenjit Maity | (参考訳) 文献では原子系の非共鳴レベルを排除し、有効ハミルトニアンを導出するために様々なアプローチが用いられている。
これらのうち重要なものは、確率振幅のレベルにおける除去技術、共鳴レベルの部分空間にダイナミクスを投影する作用素技術、グリーンの関数技術、ジェームズの効果的なハミルトン的アプローチなどである。
以前のアプローチは、キャビティ内状況において効果的なハミルトニアンの導出には適していない。
しかし、ジェームズのアプローチは空洞内の2光子遷移のみの場合に有効である。
ジェームズのアプローチの一般化は、キャビティ内の3光子遷移の場合に作用するが、ラマン共鳴条件下でのみ作用する。
断熱的除去のもう一つの重要なアプローチは、システムバス相互作用の理論でよく知られるマルコフ近似の適応に基づいている。
しかし、このアプローチは空洞内状況では有効ではない。
本稿では,多光子遷移の存在下で空洞内の原子を断熱的に除去する方法を提案する。
我々はハイゼンベルク図で研究しており、ラマン共鳴条件が成立していない場合でも効果的なハミルトニアンを導出できるという利点がある。 Various approaches have been used in the literature for eliminating nonresonant levels in atomic systems and deriving effective Hamiltonians. Important among these are elimination techniques at the level of probability amplitudes, operator techniques to project the dynamics on to the subspace of resonant levels, Green's function techniques, the James' effective Hamiltonian approach, etc. None of the previous approaches is suitable for deriving effective Hamiltonians in intracavity situations. However, the James' approach does work in the case of only two-photon transitions in a cavity. A generalization of the James' approach works in the case of three-photon transitions in a cavity, but only under Raman-like resonant conditions. Another important approach for adiabatic elimination is based on an adaptation of the Markov approximation well-known in the theory of system-bath interactions. However, this approach has not been shown to work in intracavity situations. In this paper, we present a method of adiabatic elimination for atoms inside cavities in the presence of multiphoton transitions. We work in the Heisenberg picture, and our approach has the advantage that it allows one to derive effective Hamiltonians even when Raman-like resonance conditions do not hold. | 翻訳日:2023-01-31 18:00:15 公開日:2023-01-28 |
# 運転者の行動監視方法とツール Methods and Tools for Monitoring Driver's Behavior ( http://arxiv.org/abs/2301.12269v1 ) ライセンス: Link先を確認 | Muhammad Tanveer Jan, Sonia Moshfeghi, Joshua William Conniff, Jinwoo Jang, Kwangsoo Yang, Jiannan Zhai, Monica Rosselli, David Newman, Ruth Tappen, Borko Furht | (参考訳) 車内センシング技術は、コネクテッドカーや自動運転車といった主要な技術開発をサポートする能力により、大きな注目を集めている。
車内センシングデータは交通管理システムにとって貴重なデータソースである。
本稿では,非邪魔な車内センサの革新的なアーキテクチャと,運転者の動作を測定するための方法とツールを提案する。
我々のNIHプロジェクトでは,早期認知症ドライバの監視と識別にメソッドやツールを含むアーキテクチャが用いられている。 In-vehicle sensing technology has gained tremendous attention due to its ability to support major technological developments, such as connected vehicles and self-driving cars. In-vehicle sensing data are invaluable and important data sources for traffic management systems. In this paper we propose an innovative architecture of unobtrusive in-vehicle sensors and present methods and tools that are used to measure the behavior of drivers. The proposed architecture including methods and tools are used in our NIH project to monitor and identify older drivers with early dementia | 翻訳日:2023-01-31 17:59:56 公開日:2023-01-28 |
# 深部ネットワークのリプシッツ定数と二重輝線について On the Lipschitz Constant of Deep Networks and Double Descent ( http://arxiv.org/abs/2301.12309v1 ) ライセンス: Link先を確認 | Matteo Gamba, Hossein Azizpour, M{\aa}rten Bj\"orkman | (参考訳) ディープ・ネットワークの一般化誤差に関する既存の境界は、入力変数への滑らかなあるいは有界な依存を前提としており、実際にはそのような要因を制御しているメカニズムを研究できない。
本研究では,二重降下を行う深層ネットワークの経験的リプシッツ定数を広範囲に実験し,テスト誤差に強く相関する非単調傾向に注目した。
臨界点付近でSGDのパラメータ空間と入力空間勾配の接続を構築することで、臨界点周辺での最適化ダイナミクスと、訓練データを超えてもモデル関数の複雑さを制御する2つの重要な因子、すなわち損失ランドスケープ曲率と初期化からの距離を分離する。
本研究は,過パラメータ化による暗黙の正規化に関する新しい知見と,実際に訓練されたネットワークの効果的なモデル複雑性を提案する。 Existing bounds on the generalization error of deep networks assume some form of smooth or bounded dependence on the input variable, falling short of investigating the mechanisms controlling such factors in practice. In this work, we present an extensive experimental study of the empirical Lipschitz constant of deep networks undergoing double descent, and highlight non-monotonic trends strongly correlating with the test error. Building a connection between parameter-space and input-space gradients for SGD around a critical point, we isolate two important factors -- namely loss landscape curvature and distance of parameters from initialization -- respectively controlling optimization dynamics around a critical point and bounding model function complexity, even beyond the training data. Our study presents novels insights on implicit regularization via overparameterization, and effective model complexity for networks trained in practice. | 翻訳日:2023-01-31 17:52:40 公開日:2023-01-28 |
# MQAG:要約における情報整合性評価のための複数選択質問応答と生成 MQAG: Multiple-choice Question Answering and Generation for Assessing Information Consistency in Summarization ( http://arxiv.org/abs/2301.12307v1 ) ライセンス: Link先を確認 | Potsawee Manakul, Adian Liusie, Mark J. F. Gales | (参考訳) 最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、ソースに存在しない事実的不一致と/または情報が含まれている可能性がある。
したがって、要約の品質を評価する重要な要素は、ソースと要約の間に情報整合性があるかどうかを決定することである。
既存のアプローチは典型的には語彙マッチングや表現ベースメソッドに基づいている。
本研究では,ソースと要約に存在する情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
本稿では,自動生成された複数質問に対する要約とソース応答分布のKL偏差を計算し,その情報一貫性を近似するMultiple-choice Question Answering and GenerationフレームワークMQAGを提案する。
このアプローチは、予測された回答分布を簡単に比較できるため、多重選択解確率を利用する。
QAG-CNNDM/XSum, XSum-Faithfulness, Podcast Assessment, SummEvalの4つの要約評価データセットについて実験を行った。
実験の結果、MQAG(RASでトレーニングされたモデルを使用する)は、タスクの大部分で既存の評価方法よりも優れています。 State-of-the-art summarization systems can generate highly fluent summaries. These summaries, however, may contain factual inconsistencies and/or information not present in the source. Hence, an important component of assessing the quality of summaries is to determine whether there is information consistency between the source and the summary. Existing approaches are typically based on lexical matching or representation-based methods. In this work, we introduce an alternative scheme based on standard information-theoretic measures in which the information present in the source and summary is directly compared. We propose a Multiple-choice Question Answering and Generation framework, MQAG, which approximates the information consistency by computing the expected KL-divergence between summary and source answer distributions over automatically generated multiple-choice questions. This approach exploits multiple-choice answer probabilities, as predicted answer distributions can be easily compared. We conduct experiments on four summary evaluation datasets: QAG-CNNDM/XSum, XSum-Faithfulness, Podcast Assessment, and SummEval. Experiments show that MQAG (using models trained on RACE) outperforms existing evaluation methods on the majority of tasks. | 翻訳日:2023-01-31 17:52:22 公開日:2023-01-28 |
# 地中放射線測定はOrch OR理論を否定したか? Have underground radiation measurements refuted the Orch OR theory? ( http://arxiv.org/abs/2301.12306v1 ) ライセンス: Link先を確認 | Kelvin J McQueen | (参考訳) [1] では、[2] で記述された放射放射の測定に基づいて、orch OR 理論の特定の「変種」が否定されていると主張されている。
私はこの主張に賛成です。
しかし、Orch OR per seにおけるこの結果の重要性は明らかでない。
結局のところ、反論された「変種」は、誰からも支持されず、Orch OR[3]を発明したHameroffとPenrose(以下HP)の見解と矛盾している。
私の目標は、この状況を明確にすることです。
ここで「変量」を言うのが妥当であると私は議論する。
Orch ORは現実の完全なモデルではなく、進行中の作業です。
その核心では、波動関数の崩壊は重力(or)と何らかの関係を持つ真の物理的事象であり、意識は微小管の崩壊(orch)に依存すると主張している。
これらの基本概念を正確にする多くの方法があるので、多くの「変種」が存在する。
さらに、HPがこれらのアイデアを正確にする方法は急進的で不完全である。
うまくいかなければ、Orch ORは別の変種にフォールバックする必要がある。
したがって、Orch OR における[1-2] の重要性は、HP が好む変種を含む、いくつかの可能な変種を排除し、残りの問題や課題を残している点にあります。 In [1] it is claimed that, based on radiation emission measurements described in [2], a certain "variant" of the Orch OR theory has been refuted. I agree with this claim. However, the significance of this result for Orch OR per se is unclear. After all, the refuted "variant" was never advocated by anyone, and it contradicts the views of Hameroff and Penrose (hereafter: HP) who invented Orch OR [3]. My aim is to get clear on this situation. I argue that it is indeed reasonable to speak of "variants" here. Orch OR is not a complete model of reality but a work in progress. At its core, it claims that wavefunction collapse is a real physical event that has something to do with gravity ("OR") and that consciousness depends on orchestrated collapses in microtubules ("Orch"). There are many ways one could make these base ideas precise hence many "variants". Furthermore, the ways that HP aim to make these ideas precise are radical and incomplete. If they don't work out, Orch OR will need to fall back on another variant. Thus, I believe the significance of [1-2] for Orch OR is that it cuts out a small class of possible variants and leaves behind questions and challenges for the rest, including the variant preferred by HP. | 翻訳日:2023-01-31 17:52:07 公開日:2023-01-28 |
# Modular Successor Feature Approximatorによるタスク知識の構成 Composing Task Knowledge with Modular Successor Feature Approximators ( http://arxiv.org/abs/2301.12305v1 ) ライセンス: Link先を確認 | Wilka Carvalho, Angelos Filos, Richard L. Lewis, Honglak lee and Satinder Singh | (参考訳) 近年,予測知識と行動の学習,構成,伝達の手段として,後継機能と一般化政策改善(sf&gpi)フレームワークが提案されている。
SF&GPIはエージェントに予測表現(SF)を学習させ、GPIで新しいタスクに移行させる。
しかし、このアプローチを効果的にするためには、予測に有用な状態機能が必要であり、これらの状態機能は通常手作業で設計される。
本研究では,新しいニューラルネットワークアーキテクチャである"Modular Successor Feature Approximator"(MSFA)を提案する。
SFやモジュールアーキテクチャを学習するベースラインアーキテクチャと比較して,MSFAがより一般化可能であることを示す。 Recently, the Successor Features and Generalized Policy Improvement (SF&GPI) framework has been proposed as a method for learning, composing, and transferring predictive knowledge and behavior. SF&GPI works by having an agent learn predictive representations (SFs) that can be combined for transfer to new tasks with GPI. However, to be effective this approach requires state features that are useful to predict, and these state-features are typically hand-designed. In this work, we present a novel neural network architecture, "Modular Successor Feature Approximators" (MSFA), where modules both discover what is useful to predict, and learn their own predictive representations. We show that MSFA is able to better generalize compared to baseline architectures for learning SFs and modular architectures | 翻訳日:2023-01-31 17:51:44 公開日:2023-01-28 |
# エモティコン、ハッシュタグ、スラングといった非公式言語の存在は、ソーシャルメディアテキストにおける感情分析モデルのパフォーマンスに影響するか? Presence of informal language, such as emoticons, hashtags, and slang, impact the performance of sentiment analysis models on social media text? ( http://arxiv.org/abs/2301.12303v1 ) ライセンス: Link先を確認 | Aadil Gani Ganie | (参考訳) 本研究の目的は,エモティコンやスラングといった非公式言語の存在がソーシャルメディアテキストに適用された感情分析モデルの性能に与える影響を検討することである。
畳み込みニューラルネットワーク(cnn)モデルは、サルカズムデータセット、感情データセット、エモティコンデータセットの3つのデータセットに基づいて開発、訓練された。
モデルアーキテクチャはすべての実験で一定に保たれ、モデルは80%のデータでトレーニングされ、20%でテストされた。
結果は、Sarcasmデータセットで96.47%の精度を達成し、クラス1では最も低い精度を示した。
感情データセットでは、モデルは95.28%の精度を達成した。
サーカズムと感情データセットの融合により、モデルの精度は95.1%に向上し、エモティコンデータセットの追加はモデルの精度に95.37%の正の影響を与えている。
この研究は、非公式言語の存在がソーシャルメディアテキストに適用された感情分析モデルの性能に制限的な影響を与えることを示唆している。
しかし、モデルにエモティコンデータを含めることで、精度をわずかに向上させることができる。 This study aimed to investigate the influence of the presence of informal language, such as emoticons and slang, on the performance of sentiment analysis models applied to social media text. A convolutional neural network (CNN) model was developed and trained on three datasets: a sarcasm dataset, a sentiment dataset, and an emoticon dataset. The model architecture was held constant for all experiments and the model was trained on 80% of the data and tested on 20%. The results revealed that the model achieved an accuracy of 96.47% on the sarcasm dataset, with the lowest accuracy for class 1. On the sentiment dataset, the model achieved an accuracy of 95.28%. The amalgamation of sarcasm and sentiment datasets improved the accuracy of the model to 95.1%, and the addition of emoticon dataset has a slight positive impact on the accuracy of the model to 95.37%. The study suggests that the presence of informal language has a restricted impact on the performance of sentiment analysis models applied to social media text. However, the inclusion of emoticon data to the model can enhance the accuracy slightly. | 翻訳日:2023-01-31 17:51:31 公開日:2023-01-28 |
# コヒーレンスを定量化する密度行列の主対角要素 Principal diagonal elements of density matrix to quantify coherence ( http://arxiv.org/abs/2301.12295v1 ) ライセンス: Link先を確認 | Manis Hazra and Debabrata Goswami | (参考訳) 非負、自己正規化、単調なコヒーレンスの主対角差(C_PDD)は、コヒーレンスを定量化する複雑な機能の中で、単純で容易に評価できるアプローチを考案した。
コヒーレンス進化の数値的研究により、C_PDDの応答はコヒーレンス(C_(r.e))の相対エントロピーとコヒーレンス(C_(l_1 ))のl_1-ノルムの両方よりも純粋な状態にあることが示された。
興味深いことに、密度行列対角要素は任意の純量子状態のコヒーレンス(あるいは重ね合わせ)に関する完全な情報を運ぶ。 Amid complex-looking functionals in quantifying coherence, we set forth a simple and easy-to-evaluate approach: Principal diagonal difference of coherence (C_PDD), which is non-negative, self-normalized, and monotonic (under any incoherent operation). The numerical study of coherence evolution shows that the response of C_PDD is better than both the relative entropy of coherence (C_(r.e)) and l_1-norm of coherence (C_(l_1 )) in a pure-state regime. Interestingly, density-matrix diagonal elements carry complete information on the coherence (or superposition) of any pure quantum state. | 翻訳日:2023-01-31 17:51:12 公開日:2023-01-28 |