このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230601となっている論文です。

PDF登録状況(公開日: 20230601)

TitleAuthorsAbstract論文公表日・翻訳日
# モンドリアン共形予測器を用いたエンタプライズディスクドライブスクラブ

Enterprise Disk Drive Scrubbing Based on Mondrian Conformal Predictors ( http://arxiv.org/abs/2306.17169v1 )

ライセンス: Link先を確認
Rahul Vishwakarma, Jinha Hwang, Soundouss Messoudi, Ava Hedayatipour(参考訳) ディスクスクラブ(英: disk scrubbing)は、ディスクからデータを読み込み、ディスク上の読み取りエラーを解決するプロセスである。 しかし、ストレージアレイ全体を一度にスクラップすることはシステム性能、特に高入力/出力操作の期間に悪影響を及ぼす可能性がある。 さらに、スクラブ時のディスクからのデータの連続的な読み取りは、特に大きな容量ディスクにおいて、大きな時間とエネルギー消費を伴うため、摩耗や裂け目を引き起こす可能性がある。 これらの問題に対処するため、データセンター全体の信頼性と電力効率を向上させる選択的ディスクスクラブ法を提案する。 本手法では,mondrian conformal predictionに基づく機械学習モデルを用いて,ストレージプール内の各ディスクの健康状態を積極的に予測し,事前にn日を予測し,オープンソースのデータセットを用いてスクラブ用ディスクを識別する。 健康でないと予測されたディスクについては、追加のアクションなしに置き換えをマークします。 健全なドライブでは、予測者の自信に基づいて、セットを作成し、ストレージプール全体の相対的な健康を定量化する。 これにより、スクラブサイクルに基づいて、確立されたスクラブ周波数でドライブの選択スクラブを優先順位付けできる。 本提案手法は,エンタープライズディスクドライブ管理のための効率的かつ信頼性の高いソリューションを提供する。 全ストレージディスクの22.7%をスクレイプすることで、最適化されたエネルギー消費を実現し、データセンターの炭素フットプリントを削減できる。

Disk scrubbing is a process aimed at resolving read errors on disks by reading data from the disk. However, scrubbing the entire storage array at once can adversely impact system performance, particularly during periods of high input/output operations. Additionally, the continuous reading of data from disks when scrubbing can result in wear and tear, especially on larger capacity disks, due to the significant time and energy consumption involved. To address these issues, we propose a selective disk scrubbing method that enhances the overall reliability and power efficiency in data centers. Our method employs a Machine Learning model based on Mondrian Conformal prediction to identify specific disks for scrubbing, by proactively predicting the health status of each disk in the storage pool, forecasting n-days in advance, and using an open-source dataset. For disks predicted as non-healthy, we mark them for replacement without further action. For healthy drives, we create a set and quantify their relative health across the entire storage pool based on the predictor's confidence. This enables us to prioritize selective scrubbing for drives with established scrubbing frequency based on the scrub cycle. The method we propose provides an efficient and dependable solution for managing enterprise disk drives. By scrubbing just 22.7% of the total storage disks, we can achieve optimized energy consumption and reduce the carbon footprint of the data center.
翻訳日:2023-07-09 14:18:26 公開日:2023-06-01
# 言語モデルを代数トポロジーに適用する: ウーの公式における多重ラベルを用いた単純サイクルの生成

Applying language models to algebraic topology: generating simplicial cycles using multi-labeling in Wu's formula ( http://arxiv.org/abs/2306.16951v1 )

ライセンス: Link先を確認
Kirill Brilliantov, Fedor Pavutnitskiy, Dmitry Pasechnyuk, German Magai(参考訳) 球面のホモトピー群を計算することは、長い間代数トポロジーの基本的な目的であった。 この問題に取り組むために、様々な理論とアルゴリズムのアプローチが開発されている。 本稿では,機械学習の力を生かして,これらのホモトピー群の生成者の群論的構造を理解することを目指す。 具体的には、wu の公式の単純群設定において、dyck 言語に関連するアルゴリズムデータセットの交叉からサンプリングする問題として、単純サイクルを生成する問題を再検討する。 入力シーケンスにマルチラベル情報を用いる言語モデリング手法を,必要なグループ理論的ツールキットと非ニューラルベースラインとともに提示し,評価する。

Computing homotopy groups of spheres has long been a fundamental objective in algebraic topology. Various theoretical and algorithmic approaches have been developed to tackle this problem. In this paper we take a step towards the goal of comprehending the group-theoretic structure of the generators of these homotopy groups by leveraging the power of machine learning. Specifically, in the simplicial group setting of Wu's formula, we reformulate the problem of generating simplicial cycles as a problem of sampling from the intersection of algorithmic datasets related to Dyck languages. We present and evaluate language modelling approaches that employ multi-label information for input sequences, along with the necessary group-theoretic toolkit and non-neural baselines.
翻訳日:2023-07-02 13:07:24 公開日:2023-06-01
# 運動療法のための3次元ポーズ推定と慣性モーションキャプチャシステムの強みと弱み

Strengths and Weaknesses of 3D Pose Estimation and Inertial Motion Capture System for Movement Therapy ( http://arxiv.org/abs/2306.06117v1 )

ライセンス: Link先を確認
Shawan Mohammed, Hannah Siebers, Ted Preu{\ss}(参考訳) 3Dポーズ推定は、高速で非侵襲的で正確な動き分析の機会を提供する。 これは臨床利用にも特に興味がある。 現在、モーションキャプチャシステムは、堅牢で正確なデータ取得を提供するため使われており、臨床応用においては必須である。 本研究では,既存の慣性センサシステムMTw Awindaと比べ,最先端の3D位置推定手法であるMeTrabsの精度について検討した。 本研究は,運動療法訓練中の被験者10名を対象に,パラレル記録の評価データセットを活用し,提供する。 Awindaシステムからの情報と単眼ポーズ推定用フレームとを同期させる。 比較のために, 異なる運動, カメラ位置, 衣料品について算出した関節角度の平均, 中央値, 最大偏差を用いて, 足首, 膝, 背, 肘屈伸伸筋の関節角度について臨床的に関連のあるパラメータを推定し, 評価した。 解析の結果, 平均偏差と中央値偏差は, 研究対象の角度に対して5{\deg}以下に維持できることがわかった。 これらの関節は15{\deg}の最大偏差を考慮しても医療用途として考慮できる。 しかし、特に問題のある関節には注意が必要である。 特に肘屈曲は最大50{\deg}の最大偏差を示した。 さらに,3次元位置推定法の信頼性と安全性の確保には,運動の種類が重要な役割を担っている。 例えば、すべての関節角度は、地面付近での運動中に顕著な性能低下を示した。

3D pose estimation offers the opportunity for fast, non-invasive, and accurate motion analysis. This is of special interest also for clinical use. Currently, motion capture systems are used, as they offer robust and precise data acquisition, which is essential in the case of clinical applications. In this study, we investigate the accuracy of the state-of-the-art 3D position estimation approach MeTrabs, compared to the established inertial sensor system MTw Awinda for specific motion exercises. The study uses and provides an evaluation dataset of parallel recordings from 10 subjects during various movement therapy exercises. The information from the Awinda system and the frames for monocular pose estimation are synchronized. For the comparison, clinically relevant parameters for joint angles of ankle, knee, back, and elbow flexion-extension were estimated and evaluated using mean, median, and maximum deviation between the calculated joint angles for the different exercises, camera positions, and clothing items. The results of the analysis indicate that the mean and median deviations can be kept below 5{\deg} for some of the studied angles. These joints could be considered for medical applications even considering the maximum deviations of 15{\deg}. However, caution should be applied to certain particularly problematic joints. In particular, elbow flexions, which showed high maximum deviations of up to 50{\deg} in our analysis. Furthermore, the type of exercise plays a crucial role in the reliable and safe application of the 3D position estimation method. For example, all joint angles showed a significant deterioration in performance during exercises near the ground.
翻訳日:2023-06-18 12:52:44 公開日:2023-06-01
# 網膜血管セグメンテーションのための深部学習法の概要

Overview of Deep Learning Methods for Retinal Vessel Segmentation ( http://arxiv.org/abs/2306.06116v1 )

ライセンス: Link先を確認
Gorana Goji\'c, Ognjen Kunda\v{c}ina, Dragi\v{s}a Mi\v{s}kovi\'c, Dinu Dragan(参考訳) 網膜血管の自動分割法は、多くの眼疾患や全身疾患の治療や診断において重要な役割を果たす。 深層学習法の急速な発展に伴い、より多くの網膜血管分割法が深層ニューラルネットワークとして実装されている。 本稿では,高度に影響力のある雑誌やカンファレンスの最近の深層学習手法について概説する。 本研究の目的は,(1) 最新の手法の設計特性を評価すること,(2) 性能評価指標の定量的価値を報告・分析すること,(3) 最新のソリューションの利点と欠点を分析すること,である。

Methods for automated retinal vessel segmentation play an important role in the treatment and diagnosis of many eye and systemic diseases. With the fast development of deep learning methods, more and more retinal vessel segmentation methods are implemented as deep neural networks. In this paper, we provide a brief review of recent deep learning methods from highly influential journals and conferences. The review objectives are: (1) to assess the design characteristics of the latest methods, (2) to report and analyze quantitative values of performance evaluation metrics, and (3) to analyze the advantages and disadvantages of the recent solutions.
翻訳日:2023-06-18 12:52:19 公開日:2023-06-01
# sam-helps-shadow氏: セグメンテーションモデルがシャドウ除去を満たすとき

SAM-helps-Shadow:When Segment Anything Model meet shadow removal ( http://arxiv.org/abs/2306.06113v1 )

ライセンス: Link先を確認
Xiaofeng Zhang, Chaochen Gu, Shanying Zhu(参考訳) ISTD/SRDのような制約付きデータセットだけでなく、実際の画像への画像シャドウ除去の適用に関する課題は、この分野におけるゼロショット学習の緊急の必要性を強調している。 本研究では, SAM-helps-Shadowを導入し, シャドー検出とシャドー除去を一つのステージに効果的に統合することで, SAM(セグメンツ・アズ・モデル)を斬新に応用した。 提案手法では,モデルの検出結果を,影検出を容易にするための強力な先行手法として活用し,続いて2次ディープアンフォールディングネットワークを用いた影除去を行った。 SAM-helps-Shadowのソースコードはhttps://github.com/zhangbaijin/SAM-helps-Shadowから入手できる。

The challenges surrounding the application of image shadow removal to real-world images and not just constrained datasets like ISTD/SRD have highlighted an urgent need for zero-shot learning in this field. In this study, we innovatively adapted the SAM (Segment anything model) for shadow removal by introducing SAM-helps-Shadow, effectively integrating shadow detection and removal into a single stage. Our approach utilized the model's detection results as a potent prior for facilitating shadow detection, followed by shadow removal using a second-order deep unfolding network. The source code of SAM-helps-Shadow can be obtained from https://github.com/zhangbaijin/SAM-helps-Shadow.
翻訳日:2023-06-18 12:52:10 公開日:2023-06-01
# 完全分解型S_{0}およびS_{2}振動正常モードを用いたカロテンのアブ初期光吸収スペクトルのシミュレーション

Simulation of ab initio optical absorption spectrum of \beta-carotene with fully resolved S_{0} and S_{2} vibrational normal modes ( http://arxiv.org/abs/2306.07286v1 )

ライセンス: Link先を確認
Mantas Jaku\v{c}ionis, Ignas Gai\v{z}i\=unas, Juozas \v{S}ulskus, Darius Abramavi\v{c}ius(参考訳) β-カロテン(b-Car)の電子吸収スペクトルは、量子化学と量子力学シミュレーションを用いて研究されている。 振動正規モードは時間依存密度汎関数理論を用いて電子基底状態s0と光学的に励起されたs2状態の最適化ジオメトリで計算された。 S2状態正規モードを基底状態モードで表現することにより、基底モードと励起状態振動モードとの1対1対応が存在しないことが分かる。 このab initio結果を用いて, モデル溶媒中の全282振動モードのb-car吸収スペクトルを, 時間依存性dirac-frenkel変分原理 (tdvp) を用いて300kでシミュレーションし, 全吸収線形状を定性的に再現する。 282モードモデルと、カロテノイド実験の解釈に広く用いられている顕著な2モードモデルを比較することで、フル282モードモデルはカロテノイド吸収スペクトルの高周波進行をよりよく記述し、S0->S2光励起中に振動モードが高度に混合されることが分かる。 その結果, 電子エネルギー散逸は多数の振動モードによって媒介されることがわかった。

Electronic absorption spectrum of beta-carotene (b-Car) is studied using quantum chemistry and quantum dynamics simulations. Vibrational normal modes were computed in optimized geometries of the electronic ground state S0 and the optically bright excited S2 state using the time-dependent density functional theory. By expressing the S2 state normal modes in terms of the ground state modes, we find that no one-to-one correspondence between the ground and excited state vibrational modes exists. Using the ab initio results, we simulated b-Car absorption spectrum with all 282 vibrational modes in a model solvent at 300K using the time-dependent Dirac-Frenkel variational principle (TDVP) and are able to qualitatively reproduce the full absorption lineshape. By comparing the 282-mode model with the prominent 2-mode model, widely used to interpret carotenoid experiments, we find that the full 282-mode model better describe the high frequency progression of carotenoid absorption spectra, hence, vibrational modes become highly mixed during the S0 -> S2 optical excitation. The obtained results suggest that electronic energy dissipation is mediated by numerous vibrational modes.
翻訳日:2023-06-18 12:30:03 公開日:2023-06-01
# ニューラルネットワークを用いたソースコード中のバッファオーバーフロー脆弱性の検出

Feature Engineering-Based Detection of Buffer Overflow Vulnerability in Source Code Using Neural Networks ( http://arxiv.org/abs/2306.07981v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Juan Rodriguez Cardenas, Sheikh Iqbal Ahamed, and Alfredo Cuzzocrea(参考訳) ソフトウェアコード監査の分野で最も重要な課題の1つは、ソフトウェアソースコードに脆弱性が存在することである。 毎年、プロプライエタリなコードまたは公開コードで、より多くのソフトウェア欠陥が発見される。 これらの欠陥は悪用される可能性が高く、システムの妥協やデータ漏洩、サービス拒否につながる可能性がある。 関数レベルの脆弱性識別のための大規模機械学習システムを構築するために,数百万の関数を含むcとc++の大規模なデータセットとバッファオーバーフローエクスプロイトを利用した。 ソースコードから抽出した特徴を学習するニューラルネットワークモデルに基づく,効率的でスケーラブルな脆弱性検出手法を開発した。 ソースコードは最初、不要なコンポーネントを削除し、依存関係を短くするために中間表現に変換される。 我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。 埋め込みベクターはLSTM、BiLSTM、LSTM Autoencoder、word2vec、BERT、GPT2などのニューラルネットワークに入力され、潜在的な脆弱性を分類する。 我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。 埋め込みベクターはLSTM、BiLSTM、LSTM Autoencoder、word2vec、BERT、GPT2などのニューラルネットワークに入力され、潜在的な脆弱性を分類する。 さらに,従来のニューラルネットワークにまつわる問題を克服できるニューラルネットワークモデルも提案した。 F1スコア,精度,リコール,精度,総実行時間などの評価指標を用いて評価を行った。 我々は,最小限のテキスト表現と意味情報と構文情報を含む特徴から得られた結果の比較分析を行った。

One of the most significant challenges in the field of software code auditing is the presence of vulnerabilities in software source code. Every year, more and more software flaws are discovered, either internally in proprietary code or publicly disclosed. These flaws are highly likely to be exploited and can lead to system compromise, data leakage, or denial of service. To create a large-scale machine learning system for function level vulnerability identification, we utilized a sizable dataset of C and C++ open-source code containing millions of functions with potential buffer overflow exploits. We have developed an efficient and scalable vulnerability detection method based on neural network models that learn features extracted from the source codes. The source code is first converted into an intermediate representation to remove unnecessary components and shorten dependencies. We maintain the semantic and syntactic information using state of the art word embedding algorithms such as GloVe and fastText. The embedded vectors are subsequently fed into neural networks such as LSTM, BiLSTM, LSTM Autoencoder, word2vec, BERT, and GPT2 to classify the possible vulnerabilities. We maintain the semantic and syntactic information using state of the art word embedding algorithms such as GloVe and fastText. The embedded vectors are subsequently fed into neural networks such as LSTM, BiLSTM, LSTM Autoencoder, word2vec, BERT, and GPT2 to classify the possible vulnerabilities. Furthermore, we have proposed a neural network model that can overcome issues associated with traditional neural networks. We have used evaluation metrics such as F1 score, precision, recall, accuracy, and total execution time to measure the performance. We have conducted a comparative analysis between results derived from features containing a minimal text representation and semantic and syntactic information.
翻訳日:2023-06-18 12:21:10 公開日:2023-06-01
# 研究成果の拡散に対するCOVID-19の影響に関する科学的分析

A scientometric analysis of the effect of COVID-19 on the spread of research outputs ( http://arxiv.org/abs/2306.03941v1 )

ライセンス: Link先を確認
Gianpaolo Zammarchi, Andrea Carta, Silvia Columbu, Luca Frigau, Monica Musio(参考訳) 2020年のSars-COV-2パンデミックは、私たち全員のライフコースに大きな影響を与えた。 この急速な普及は、さまざまな側面において、covid-19に関連するトピックにおける研究生産の増加も引き起こしている。 残念ながらイタリアは、この病気の発生に大きく関与した最初の国の一つだ。 本稿では,グローバルな研究成果(パンデミック開始から2年目以降の文献)と地域レベルの研究成果(イタリア系著者による新型コロナウイルス文献)について,広範囲にわたるサイエントメトリクス分析を行った。 以上の結果から,米国と中国は出版物数でもっとも活発な国であり,地理的距離によって機関間の協力数が異なることが示された。 また,文献生産の分野では,医療生物学が最大の成長の分野であることも確認した。 さらに,引用数とデータセットから得られる変数(例えば,記事あたりの著者数)との関係についても検討した。 複数の対応分析と質的回帰を用いることで、ジャーナルのトピックスとインパクトファクター、記事の種類、研究分野、そしてこれらの要素が引用に与える影響を明らかにした。

The spread of the Sars-COV-2 pandemic in 2020 had a huge impact on the life course of all of us. This rapid spread has also caused an increase in the research production in topics related to COVID-19 with regard to different aspects. Italy has, unfortunately, been one of the first countries to be massively involved in the outbreak of the disease. In this paper we present an extensive scientometric analysis of the research production both at global (entire literature produced in the first 2 years after the beginning of the pandemic) and local level (COVID-19 literature produced by authors with an Italian affiliation). Our results showed that US and China are the most active countries in terms of number of publications and that the number of collaborations between institutions varies according to geographical distance. Moreover, we identified the medical-biological as the fields with the greatest growth in terms of literature production. Furthermore, we also better explored the relationship between the number of citations and variables obtained from the data set (e.g. number of authors per article). Using multiple correspondence analysis and quantile regression we shed light on the role of journal topics and impact factor, the type of article, the field of study and how these elements affect citations.
翻訳日:2023-06-11 13:40:09 公開日:2023-06-01
# アラビア語方言識別のロバスト性について

On the Robustness of Arabic Speech Dialect Identification ( http://arxiv.org/abs/2306.03789v1 )

ライセンス: Link先を確認
Peter Sullivan, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) アラビア方言識別(ADI)ツールは、音声認識モデルの訓練に必要な大規模データ収集パイプラインの重要な部分である。 これらのパイプラインは、ドメイン外データに対するADIツールの適用を必要とするため、このドメインシフトに対するツールの脆弱性について調査することを目指している。 自己教師付き学習(SSL)モデルを出発点として、転送学習とSSL機能からの直接分類を評価する。 我々は、事前訓練されたモデルからADIシステムを開発し、最終的に新たに収集したデータの性能を評価することを目標として、リッチな条件下で評価を行う。 モデル決定にどのような要因が寄与するかを理解するため、我々はデータのサブセットについて慎重に人間の研究を行う。 我々の分析は、ドメインシフトがADIモデルにとって大きな課題であることを確認した。 また、自己学習はこれらの課題を緩和するが、現実的な状況では不十分である。

Arabic dialect identification (ADI) tools are an important part of the large-scale data collection pipelines necessary for training speech recognition models. As these pipelines require application of ADI tools to potentially out-of-domain data, we aim to investigate how vulnerable the tools may be to this domain shift. With self-supervised learning (SSL) models as a starting point, we evaluate transfer learning and direct classification from SSL features. We undertake our evaluation under rich conditions, with a goal to develop ADI systems from pretrained models and ultimately evaluate performance on newly collected data. In order to understand what factors contribute to model decisions, we carry out a careful human study of a subset of our data. Our analysis confirms that domain shift is a major challenge for ADI models. We also find that while self-training does alleviate this challenges, it may be insufficient for realistic conditions.
翻訳日:2023-06-11 13:38:14 公開日:2023-06-01
# いくつかの音声はあまりにも一般的である:共通音声データセットを用いた公正な音声認識システムの構築

Some voices are too common: Building fair speech recognition systems using the Common Voice dataset ( http://arxiv.org/abs/2306.03773v1 )

ライセンス: Link先を確認
Lucas Maison, Yannick Est\`eve(参考訳) 自動音声認識(ASR)システムは、自己教師付き学習のようなニューラルネットワークトレーニングの新たな進歩により、効率が向上する。 しかし、特定のグループ、例えばアクセントで話す人々に対して不公平であることが知られている。 本研究では,前訓練されたwav2vec~2.0モデルのバイアスを数集団に対して定量化するために,フランスの共通音声データセットを用いた。 各種の定型的・精巧な訓練セットに事前学習モデルを微調整することにより,話者多様性の重要性を実証する。 また、共通音声コーパスの詳細な分析を行い、このデータセットのユーザが考慮すべき重要な欠点を特定します。

Automatic speech recognition (ASR) systems become increasingly efficient thanks to new advances in neural network training like self-supervised learning. However, they are known to be unfair toward certain groups, for instance, people speaking with an accent. In this work, we use the French Common Voice dataset to quantify the biases of a pre-trained wav2vec~2.0 model toward several demographic groups. By fine-tuning the pre-trained model on a variety of fixed-size, carefully crafted training sets, we demonstrate the importance of speaker diversity. We also run an in-depth analysis of the Common Voice corpus and identify important shortcomings that should be taken into account by users of this dataset.
翻訳日:2023-06-11 13:37:59 公開日:2023-06-01
# 社会技術的ギャップを狭めるモデル評価の再検討

Rethinking Model Evaluation as Narrowing the Socio-Technical Gap ( http://arxiv.org/abs/2306.03100v1 )

ライセンス: Link先を確認
Q. Vera Liao, Ziang Xiao(参考訳) 最近のジェネレーティブ言語モデル(llm)の開発は、研究コミュニティや業界が取り組んでいるモデル評価に新たな挑戦をもたらしている。 これらのモデルの汎用性は興奮を喚起する一方で、必然的に均質化へと跳躍する。 本稿では、この均質化によってもたらされる課題や責任に対処する上で、モデル評価の実践が重要な課題となることを論じる: 下流のユースケースにおける人間のニーズが、与えられたモデルによってどの程度満足できるかを、有効に評価する(\textit{socio-technical gap})。 社会科学、ヒューマン・コンピュータ・インタラクション(HCI)、説明可能なAI(XAI)の学際的な分野から学ぶことにより、現実の社会要求に基づく評価手法の開発をコミュニティに促し、現実主義と社会要求と実用的コストのトレードオフを認め、多様な評価手法を取り入れるよう促す。 HCI と現在の NLG 評価手法をマッピングすることにより,社会技術的ギャップを狭め,オープンな疑問を呈する LLM の新たな評価手法を提案する。

The recent development of generative and large language models (LLMs) poses new challenges for model evaluation that the research community and industry are grappling with. While the versatile capabilities of these models ignite excitement, they also inevitably make a leap toward homogenization: powering a wide range of applications with a single, often referred to as ``general-purpose'', model. In this position paper, we argue that model evaluation practices must take on a critical task to cope with the challenges and responsibilities brought by this homogenization: providing valid assessments for whether and how much human needs in downstream use cases can be satisfied by the given model (\textit{socio-technical gap}). By drawing on lessons from the social sciences, human-computer interaction (HCI), and the interdisciplinary field of explainable AI (XAI), we urge the community to develop evaluation methods based on real-world socio-requirements and embrace diverse evaluation methods with an acknowledgment of trade-offs between realism to socio-requirements and pragmatic costs. By mapping HCI and current NLG evaluation methods, we identify opportunities for new evaluation methods for LLMs to narrow the socio-technical gap and pose open questions.
翻訳日:2023-06-11 13:37:03 公開日:2023-06-01
# 簡易空間認識技術を活用したGEOGLAMのEOデータに基づくカザフスタンの国別小麦収量予測の改善

Improve State-Level Wheat Yield Forecasts in Kazakhstan on GEOGLAM's EO Data by Leveraging A Simple Spatial-Aware Technique ( http://arxiv.org/abs/2306.04646v1 )

ライセンス: Link先を確認
Anh Nhat Nhu, Ritvik Sahajpal, Christina Justice, Inbal Becker-Reshef(参考訳) 正確な利回り予測は、食料安全保障のためのインフォームドポリシーや長期的な意思決定に不可欠である。 地球観測(eo)データと機械学習アルゴリズムは、畑から全国規模までの作物の状態の包括的かつタイムリーな視点を提供する上で重要な役割を果たす。 しかし、機械学習アルゴリズムの予測精度は、作物管理戦略の違いなどリモートセンシングデータに反映されない外因性要因によって生じる空間的不均一性によってしばしば損なわれる。 本稿では,カザフスタンにおけるクロスリージョン収率の不均一性に明示的に対処する,ステートワイド加法バイアスと呼ばれる簡単な手法を提案し,検討する。 ベースライン機械学習モデル(Random Forest, CatBoost, XGBoost)と比較して, RMSE全体の8.9\%, 州別RMSEの28.37\%を削減した。 状態方向加法バイアスの有効性は、空間的不均質性に明示的に対応し、収率予測のための空間対応機械学習アルゴリズムと一般的な地理空間予測問題に対する今後の研究を動機付けることによって、機械学習の性能を大幅に改善できることを示している。

Accurate yield forecasting is essential for making informed policies and long-term decisions for food security. Earth Observation (EO) data and machine learning algorithms play a key role in providing a comprehensive and timely view of crop conditions from field to national scales. However, machine learning algorithms' prediction accuracy is often harmed by spatial heterogeneity caused by exogenous factors not reflected in remote sensing data, such as differences in crop management strategies. In this paper, we propose and investigate a simple technique called state-wise additive bias to explicitly address the cross-region yield heterogeneity in Kazakhstan. Compared to baseline machine learning models (Random Forest, CatBoost, XGBoost), our method reduces the overall RMSE by 8.9\% and the highest state-wise RMSE by 28.37\%. The effectiveness of state-wise additive bias indicates machine learning's performance can be significantly improved by explicitly addressing the spatial heterogeneity, motivating future work on spatial-aware machine learning algorithms for yield forecasts as well as for general geospatial forecasting problems.
翻訳日:2023-06-11 13:27:44 公開日:2023-06-01
# AIと創造的領域:現在と将来の応用の短いレビュー

AI and the creative realm: A short review of current and future applications ( http://arxiv.org/abs/2306.01795v1 )

ライセンス: Link先を確認
Fabio Crimaldi, Manuele Leonelli(参考訳) 本研究では,創造性と人工知能(AI)の概念とその最近の統合について考察する。 AIは伝統的に、新しいアイデアを生み出したり、アートを創造することができないと考えられてきたが、より洗練されたAIモデルの開発と人間とコンピュータの相互作用ツールの普及は、芸術的創造におけるAIの新たな可能性を開く。 本研究は,創造的文脈におけるaiの様々な応用について検討し,使用する芸術,言語,アルゴリズムの類型を区別する。 また、AIと創造性の哲学的意味を考察し、意識が機械やAIの潜在的な関心と意思決定能力で研究できるかどうかを疑問視する。 全体として、創造的な文脈におけるAIの使用と倫理的意味についての考察を刺激することを目指している。

This study explores the concept of creativity and artificial intelligence (AI) and their recent integration. While AI has traditionally been perceived as incapable of generating new ideas or creating art, the development of more sophisticated AI models and the proliferation of human-computer interaction tools have opened up new possibilities for AI in artistic creation. This study investigates the various applications of AI in a creative context, differentiating between the type of art, language, and algorithms used. It also considers the philosophical implications of AI and creativity, questioning whether consciousness can be researched in machines and AI's potential interests and decision-making capabilities. Overall, we aim to stimulate a reflection on AI's use and ethical implications in creative contexts.
翻訳日:2023-06-07 00:22:15 公開日:2023-06-01
# DiffPack: 自己回帰型タンパク質側鎖包装のためのねじり拡散モデル

DiffPack: A Torsional Diffusion Model for Autoregressive Protein Side-Chain Packing ( http://arxiv.org/abs/2306.01794v1 )

ライセンス: Link先を確認
Yangtian Zhan, Zuobai Zhang, Bozitao Zhong, Sanchit Misra, Jian Tang(参考訳) タンパク質は生物学的機能の実行において重要な役割を担い、3D構造はそれらの機能を決定するのに不可欠である。 タンパク質の構造予測、設計、タンパク質-タンパク質相互作用の応用において、タンパク質側鎖の構造を正確に予測することが重要である。 従来の手法は計算集約的で精度に制限があるが、既存の機械学習手法は問題を回帰タスクとして扱い、一定の共有結合長と角度によって課される制限を無視する。 本研究では, 側鎖の束縛における自由度である側鎖の束縛角度の結合分布を, 側鎖の束縛空間を拡散し, 偏微分することによって学習する, 対角拡散モデルDiffPackを提案する。 これら4つの反り角の同時摂動から生じる問題を回避するため、各反り角に対する4つの反り角を \c{hi}1 から \c{hi}4 に自己回帰的に生成し、拡散モデルを訓練する。 本手法はタンパク質側鎖充填のベンチマークで評価し,casp13とcasp14の角度精度が11.9%,13.5%向上した。 さらに,alphafold2モデルにおける側鎖予測の強化に本手法の有効性を示す。 コードは受理時に利用可能になる。

Proteins play a critical role in carrying out biological functions, and their 3D structures are essential in determining their functions. Accurately predicting the conformation of protein side-chains given their backbones is important for applications in protein structure prediction, design and protein-protein interactions. Traditional methods are computationally intensive and have limited accuracy, while existing machine learning methods treat the problem as a regression task and overlook the restrictions imposed by the constant covalent bond lengths and angles. In this work, we present DiffPack, a torsional diffusion model that learns the joint distribution of side-chain torsional angles, the only degrees of freedom in side-chain packing, by diffusing and denoising on the torsional space. To avoid issues arising from simultaneous perturbation of all four torsional angles, we propose autoregressively generating the four torsional angles from \c{hi}1 to \c{hi}4 and training diffusion models for each torsional angle. We evaluate the method on several benchmarks for protein side-chain packing and show that our method achieves improvements of 11.9% and 13.5% in angle accuracy on CASP13 and CASP14, respectively, with a significantly smaller model size (60x fewer parameters). Additionally, we show the effectiveness of our method in enhancing side-chain predictions in the AlphaFold2 model. Code will be available upon the accept.
翻訳日:2023-06-07 00:22:00 公開日:2023-06-01
# タスク関係を意識したユーザ表現学習

Task Relation-aware Continual User Representation Learning ( http://arxiv.org/abs/2306.01792v1 )

ライセンス: Link先を確認
Sein Kim, Namkyeong Lee, Donghyun Kim, Minchul Yang, Chanyoung Park(参考訳) ユーザを過去の行動に基づいて低次元表現空間に表現することを学ぶユーザモデリングは、ユーザにパーソナライズされたサービスを提供する業界から注目を集めている。 ユーザモデリングにおける以前の取り組みは、主に1つのタスク用に設計されたタスク固有のユーザ表現の学習に焦点を当てていた。 しかし、タスク固有のユーザ表現を学習することは不可能であるため、近年の研究では、様々なタスクに関連するユーザのより一般化された表現であるユニバーサルユーザ表現の概念を導入している。 その効果にもかかわらず、データ要求、破滅的な忘れ込み、継続的な追加タスクの限られた学習能力のために、ユーザ表現を学習するための既存のアプローチは現実のアプリケーションでは実用的ではない。 本稿では,タスク間の関係を捉えながら,学習数が増加するにつれて学習能力が制限されない,TERACONと呼ばれる新しいユーザ表現学習手法を提案する。 主なアイデアは、各タスク、すなわちタスク埋め込みへの埋め込みを導入することである。これは、トレーニングシーケンスの終了までモデルパラメータ全体を更新できるだけでなく、キャプチャされるタスク間の関係を容易にするタスク固有のソフトマスクを生成するために使用される。 さらに,継続学習の長年の問題,すなわち破滅的な忘れ込みを解消する疑似ラベル戦略を備えた新しい知識保持モジュールを導入する。 パブリックおよびプロプライエタリな実世界のデータセットに関する大規模な実験は、TERACONの優位性と実用性を示している。 私たちのコードはhttps://github.com/Sein-Kim/TERACONで公開されています。

User modeling, which learns to represent users into a low-dimensional representation space based on their past behaviors, got a surge of interest from the industry for providing personalized services to users. Previous efforts in user modeling mainly focus on learning a task-specific user representation that is designed for a single task. However, since learning task-specific user representations for every task is infeasible, recent studies introduce the concept of universal user representation, which is a more generalized representation of a user that is relevant to a variety of tasks. Despite their effectiveness, existing approaches for learning universal user representations are impractical in real-world applications due to the data requirement, catastrophic forgetting and the limited learning capability for continually added tasks. In this paper, we propose a novel continual user representation learning method, called TERACON, whose learning capability is not limited as the number of learned tasks increases while capturing the relationship between the tasks. The main idea is to introduce an embedding for each task, i.e., task embedding, which is utilized to generate task-specific soft masks that not only allow the entire model parameters to be updated until the end of training sequence, but also facilitate the relationship between the tasks to be captured. Moreover, we introduce a novel knowledge retention module with pseudo-labeling strategy that successfully alleviates the long-standing problem of continual learning, i.e., catastrophic forgetting. Extensive experiments on public and proprietary real-world datasets demonstrate the superiority and practicality of TERACON. Our code is available at https://github.com/Sein-Kim/TERACON.
翻訳日:2023-06-07 00:21:34 公開日:2023-06-01
# Cook-Gen: レシピからの調理行動のロバストな生成モデル

Cook-Gen: Robust Generative Modeling of Cooking Actions from Recipes ( http://arxiv.org/abs/2306.01805v1 )

ライセンス: Link先を確認
Revathy Venkataramanan, Kaushik Roy, Kanak Raj, Renjith Prasad, Yuxin Zi, Vignesh Narayanan, Amit Sheth(参考訳) 人々が食べ物の選択に気付くにつれて、健康的な食事習慣を維持するために食品計算モデルがますます人気を集めている。 例えば、食品レコメンデーションシステムは、栄養内容の評価とレシピレコメンデーションを提供するためのレシピの指示を分析する。 近年、自動回帰型大規模言語モデルのような生成的ai手法の成功は、表面レベルの栄養内容評価以上の健康的な食品推奨のレシピをより包括的に理解するためのロバストな方法につながる可能性がある。 本研究では,食材や食材の分析を主体とした,現在の食品計算モデルを拡張するための生成的AI手法の利用について検討し,調理行為(塩を加え,肉を揚げる,野菜を煮るなど)を取り入れた。 料理のアクションは、不規則なデータパターンのために統計的学習方法を使ってモデル化することが難しいことで悪名高く、同じ行動(例えば、肉をマリネートし、一夜にして出発する)に対する自然言語記述が著しく変化し、しばしば発生するパターン(例えば、塩を加えることは、肉をマリネートするよりもはるかに頻繁に起こる)である。 不規則なデータパターンを扱うための原型的アプローチは、モデルを桁違いに吸収するデータの量を増やすことである。 残念なことに、調理領域では、これらの問題は、単にスケールアップすることで簡単には処理できない、ユニークなチャレンジを示す大きなデータボリュームとさらに複雑になる。 本研究では,不規則なデータパターンが困難であるにも関わらず,レシピからの調理動作を確実に生成する,集約型生成型ai手法であるcook-genを提案する。

As people become more aware of their food choices, food computation models have become increasingly popular in assisting people in maintaining healthy eating habits. For example, food recommendation systems analyze recipe instructions to assess nutritional contents and provide recipe recommendations. The recent and remarkable successes of generative AI methods, such as auto-regressive large language models, can lead to robust methods for a more comprehensive understanding of recipes for healthy food recommendations beyond surface-level nutrition content assessments. In this study, we explore the use of generative AI methods to extend current food computation models, primarily involving the analysis of nutrition and ingredients, to also incorporate cooking actions (e.g., add salt, fry the meat, boil the vegetables, etc.). Cooking actions are notoriously hard to model using statistical learning methods due to irregular data patterns - significantly varying natural language descriptions for the same action (e.g., marinate the meat vs. marinate the meat and leave overnight) and infrequently occurring patterns (e.g., add salt occurs far more frequently than marinating the meat). The prototypical approach to handling irregular data patterns is to increase the volume of data that the model ingests by orders of magnitude. Unfortunately, in the cooking domain, these problems are further compounded with larger data volumes presenting a unique challenge that is not easily handled by simply scaling up. In this work, we propose novel aggregation-based generative AI methods, Cook-Gen, that reliably generate cooking actions from recipes, despite difficulties with irregular data patterns, while also outperforming Large Language Models and other strong baselines.
翻訳日:2023-06-07 00:10:24 公開日:2023-06-01
# 拡散モデルから報酬関数を抽出する

Extracting Reward Functions from Diffusion Models ( http://arxiv.org/abs/2306.01804v1 )

ライセンス: Link先を確認
Felipe Nuti, Tim Franzmeyer, Jo\~ao F. Henriques(参考訳) 拡散モデルは画像生成において顕著な結果をもたらしており、連続的な意思決定タスクでハイパフォーマンスなポリシーを学ぶためにも同様に使われている。 意思決定拡散モデルは、低品質のデータに基づいて訓練し、報酬関数で操り、準最適軌道を生成する。 報酬関数の抽出は,低逆の振る舞いをモデル化した意思決定拡散モデルと高逆の振る舞いをモデル化したモデル,逆強化学習に関連する設定を比較して行う。 まず、2つの拡散モデルの相対報酬関数の概念を定義し、それが存在して一意である条件を示す。 次に、ニューラルネットワークによってパラメータ化される報酬関数の勾配を両拡散モデルの出力の差に合わせることにより、それを抽出するための実用的な学習アルゴリズムを考案する。 本手法はナビゲーション環境において正しい報酬関数を探索し,学習した報酬関数でベースモデルを操ることで,標準ロコモーションベンチマークの性能が著しく向上することを示す。 最後に,2つの大規模画像生成拡散モデルから報酬様関数を学習することにより,逐次決定を超越した一般化を実証する。 抽出された報酬関数は、有害な画像に対して低い報酬をうまく割り当てる。

Diffusion models have achieved remarkable results in image generation, and have similarly been used to learn high-performing policies in sequential decision-making tasks. Decision-making diffusion models can be trained on lower-quality data, and then be steered with a reward function to generate near-optimal trajectories. We consider the problem of extracting a reward function by comparing a decision-making diffusion model that models low-reward behavior and one that models high-reward behavior; a setting related to inverse reinforcement learning. We first define the notion of a relative reward function of two diffusion models and show conditions under which it exists and is unique. We then devise a practical learning algorithm for extracting it by aligning the gradients of a reward function -- parametrized by a neural network -- to the difference in outputs of both diffusion models. Our method finds correct reward functions in navigation environments, and we demonstrate that steering the base model with the learned reward functions results in significantly increased performance in standard locomotion benchmarks. Finally, we demonstrate that our approach generalizes beyond sequential decision-making by learning a reward-like function from two large-scale image generation diffusion models. The extracted reward function successfully assigns lower rewards to harmful images.
翻訳日:2023-06-07 00:09:52 公開日:2023-06-01
# ニューラルスパイク列車の潜在軌道推定のための線形時間gps

Linear Time GPs for Inferring Latent Trajectories from Neural Spike Trains ( http://arxiv.org/abs/2306.01802v1 )

ライセンス: Link先を確認
Matthew Dowling, Yuan Zhao, Il Memming Park(参考訳) 潜在ガウス過程(GP)モデルは、主に神経活動記録において、シーケンシャルな観察から隠れた状態の進化を明らかにするために神経科学で広く用いられている。 遅延GPモデルは理論上は原理的かつ強力な解を提供するが、非共役設定における難解な後部は近似推論スキームを必要とする。 本研究では,hida-mat\'ernカーネルと共役計算変分推論(cvi)を用いた潜在gpモデルの汎用推論フレームワークcvhmを提案する。 cvHMでは、任意の確率で線形時間複雑性を持つ潜在神経軌道の変分推定を行うことができる。 Hida-Mat\'ern GPs を用いた定常カーネルの再パラメータ化は、動的システムによる事前仮定を符号化する潜在変数モデルと、GPs による軌道仮定を符号化する変数モデルとの結合に役立つ。 従来の作業とは対照的に,双方向情報フィルタリングを用いることで,より簡潔な実装を実現しています。 さらに,Whittle近似を用いて高効率なハイパーパラメータ学習を実現する。

Latent Gaussian process (GP) models are widely used in neuroscience to uncover hidden state evolutions from sequential observations, mainly in neural activity recordings. While latent GP models provide a principled and powerful solution in theory, the intractable posterior in non-conjugate settings necessitates approximate inference schemes, which may lack scalability. In this work, we propose cvHM, a general inference framework for latent GP models leveraging Hida-Mat\'ern kernels and conjugate computation variational inference (CVI). With cvHM, we are able to perform variational inference of latent neural trajectories with linear time complexity for arbitrary likelihoods. The reparameterization of stationary kernels using Hida-Mat\'ern GPs helps us connect the latent variable models that encode prior assumptions through dynamical systems to those that encode trajectory assumptions through GPs. In contrast to previous work, we use bidirectional information filtering, leading to a more concise implementation. Furthermore, we employ the Whittle approximate likelihood to achieve highly efficient hyperparameter learning.
翻訳日:2023-06-07 00:09:33 公開日:2023-06-01
# AIデータ豊かさの倫理的曖昧性:研究倫理規範と実践のギャップを測る

The ethical ambiguity of AI data enrichment: Measuring gaps in research ethics norms and practices ( http://arxiv.org/abs/2306.01800v1 )

ライセンス: Link先を確認
Will Hawkins and Brent Mittelstadt(参考訳) 人工知能(AI)研究の技術的進歩は、コンピュータ科学、統計学、数学などの分野におけるブレークスルーの上に構築されている。 しかし、この10年間でAI研究者は、モデル開発における課題を解決するために、人間のインタラクションに目を向けるようになった。 クラウドソーシング労働者にデータの生成やキュレート、あるいはデータ豊か化を納めることは、自然言語処理から人間からのフィードバック(RLHF)からの強化学習まで、AI研究の多くの分野において不可欠である。 心理学のようなクラウドソーシング労働者と日常的に交流する他の分野は、倫理的に研究が行われることを保証するための共通のガバナンス要件と規範を生み出している。 本研究は、ai研究とデータエンリッチメントのために、同等の研究倫理要件と規範がいかにして開発されたかを調査している。 我々は、ICLRとNeurIPSの2つの主要なカンファレンスと、雑誌発行者のSpringerのアプローチに焦点を当てています。 受理された論文の縦断的研究と、心理学やCHIの論文との比較により、主要なAI施設が人間のデータ収集のプロトコルを確立し始めていることが分かるが、これらは矛盾するものである。 クラウドソーシング(クラウドソーシング)に関わる心理学論文は、倫理レビューや支払いデータ、人口統計データなどの情報を頻繁に開示するが、同様のガイダンスにもかかわらず、主要なAI会場では同様の開示が一般的ではない。 この研究は、研究倫理の実践におけるこれらのギャップとその影響についての考察を説明する仮説で締めくくられている。

The technical progression of artificial intelligence (AI) research has been built on breakthroughs in fields such as computer science, statistics, and mathematics. However, in the past decade AI researchers have increasingly looked to the social sciences, turning to human interactions to solve the challenges of model development. Paying crowdsourcing workers to generate or curate data, or data enrichment, has become indispensable for many areas of AI research, from natural language processing to reinforcement learning from human feedback (RLHF). Other fields that routinely interact with crowdsourcing workers, such as Psychology, have developed common governance requirements and norms to ensure research is undertaken ethically. This study explores how, and to what extent, comparable research ethics requirements and norms have developed for AI research and data enrichment. We focus on the approach taken by two leading conferences: ICLR and NeurIPS, and journal publisher Springer. In a longitudinal study of accepted papers, and via a comparison with Psychology and CHI papers, this work finds that leading AI venues have begun to establish protocols for human data collection, but these are are inconsistently followed by authors. Whilst Psychology papers engaging with crowdsourcing workers frequently disclose ethics reviews, payment data, demographic data and other information, similar disclosures are far less common in leading AI venues despite similar guidance. The work concludes with hypotheses to explain these gaps in research ethics practices and considerations for its implications.
翻訳日:2023-06-07 00:09:16 公開日:2023-06-01
# 広告オークションにおける福祉最大化のためのクリックスルー率予測の対数ランキング損失

Pairwise Ranking Losses of Click-Through Rates Prediction for Welfare Maximization in Ad Auctions ( http://arxiv.org/abs/2306.01799v1 )

ライセンス: Link先を確認
Boxiang Lyu, Zhe Feng, Zachary Robertson, Sanmi Koyejo(参考訳) 本稿では,クリックスルーレート(CTR)における損失関数の設計と,広告オークションにおける社会福祉の最適化について検討する。 既存の作業は、オークションにおけるビジネス目的(例えば、福祉)を考慮せずにCTRの予測にのみ焦点をあてるか、または、参加者の期待するコスト・パー・プレッション(eCPM)の分布が予め知られていると仮定するかのいずれかであり、CTRの予測のための損失関数を導出するために、分布のパラメトリックな形式に関する様々な仮定を用いる。 本研究では,広告オークションの福祉目的をCTR予測に戻すとともに,CTRモデルをトレーニングするための新たなランクロスを提案する。 既存の文献と比較して,本手法は,eCPMの分布を前提とせず,既存の学習からランクへの手法の適用の難しさを回避しつつ,福祉の保証を提供する。 さらに,教師ネットワークが$\ell_2$一般化誤差を持つことを前提として,教師ネットワークから生成したラベルを用いて損失を校正する理論的正当化手法を提案する。 最後に,提案する合成データおよび実世界のデータに対する損失の利点を示す。

We study the design of loss functions for click-through rates (CTR) to optimize (social) welfare in advertising auctions. Existing works either only focus on CTR predictions without consideration of business objectives (e.g., welfare) in auctions or assume that the distribution over the participants' expected cost-per-impression (eCPM) is known a priori, then use various additional assumptions on the parametric form of the distribution to derive loss functions for predicting CTRs. In this work, we bring back the welfare objectives of ad auctions into CTR predictions and propose a novel weighted rankloss to train the CTR model. Compared to existing literature, our approach provides a provable guarantee on welfare but without assumptions on the eCPMs' distribution while also avoiding the intractability of naively applying existing learning-to-rank methods. Further, we propose a theoretically justifiable technique for calibrating the losses using labels generated from a teacher network, only assuming that the teacher network has bounded $\ell_2$ generalization error. Finally, we demonstrate the advantages of the proposed loss on synthetic and real-world data.
翻訳日:2023-06-07 00:08:47 公開日:2023-06-01
# 人間-AIストーリー執筆におけるEFL学生の迅速なエンジニアリングの探求--アクティビティ理論の視点から

Exploring EFL students' prompt engineering in human-AI story writing: an Activity Theory perspective ( http://arxiv.org/abs/2306.01798v1 )

ライセンス: Link先を確認
David James Woo, Kai Guo, Hengky Susanto(参考訳) 本研究では,外国語(EFL)の学生が,短編執筆中に生成人工知能(AI)ツールをどのように促すかを検討するために,活動理論を適用した。 香港中学生67人が、オープンソースの言語モデルを用いて生成AIツールを作成し、それらを手書きした。 この研究は、学生の生成AIツール、短編小説、そして彼らの状況や目的について書かれたリフレクションを収集し、分析した。 この研究は、学生が短編執筆中に生成AIツールを促進させる目的、すなわち、目的の認識の欠如、作家のブロックを克服し、ストーリーの開発、拡大、改善の3つの主要なテーマを特定した。 また, 児童生徒の活動システムの特徴として, 生成型AIツールの高度化, 物語の質, 学校全体の学業成績などを明らかにし, 短編執筆における3つの目的のための生成型AIツールの推進について検討した。 本研究の成果は,教師が生成型AIツールの指導や足場指導を行うための学生の目的を意識すべきであることを示唆している。 この発見は、生成AIツールを使用する際に、様々なレベルのストーリー開発を行うユーザに対して、デザイナが区別された指示を提供するのに役立つかもしれない。

This study applies Activity Theory to investigate how English as a foreign language (EFL) students prompt generative artificial intelligence (AI) tools during short story writing. Sixty-seven Hong Kong secondary school students created generative-AI tools using open-source language models and wrote short stories with them. The study collected and analyzed the students' generative-AI tools, short stories, and written reflections on their conditions or purposes for prompting. The research identified three main themes regarding the purposes for which students prompt generative-AI tools during short story writing: a lack of awareness of purposes, overcoming writer's block, and developing, expanding, and improving the story. The study also identified common characteristics of students' activity systems, including the sophistication of their generative-AI tools, the quality of their stories, and their school's overall academic achievement level, for their prompting of generative-AI tools for the three purposes during short story writing. The study's findings suggest that teachers should be aware of students' purposes for prompting generative-AI tools to provide tailored instructions and scaffolded guidance. The findings may also help designers provide differentiated instructions for users at various levels of story development when using a generative-AI tool.
翻訳日:2023-06-07 00:08:24 公開日:2023-06-01
# 量子コンピュータにおけるミラーベンチマークの理論と実演

Theory of mirror benchmarking and demonstration on a quantum computer ( http://arxiv.org/abs/2108.10431v2 )

ライセンス: Link先を確認
Karl Mayer, Alex Hall, Thomas Gatterman, Si Khadir Halit, Kenny Lee, Justin Bohnet, Dan Gresh, Aaron Hankin, Kevin Gilmore, Justin Gerber and John Gaebler(参考訳) 量子コンピュータのシステムレベルの性能を測定するため、ミラーベンチマークと呼ばれる新しいプロトコルが最近提案された。 これらのプロトコルはランダムなゲート列を持つ回路を含み、続いてミラーリング、すなわち各ゲートを逆転させる。 トワイリング群が2つの設計を成すと、一様雑音仮定の下で、ミラーベンチマークがシーケンス長による生存確率の指数関数的減衰をもたらすという簡単な証明を与える。 崩壊速度は、誤差チャネルの二次関数である量によって決定され、ある種のエラーに対してはユニタリ性に等しい。 この結果は、雑音のコヒーレンスを推定する新しい方法をもたらす。 我々はHoneywell System Model H1上で動作するミラーベンチマーク実験のデータを示す。 このデータは、量子ビット数と回路深さの関数としてランダム回路の成功確率を示す一連の性能曲線を構成する。

A new class of protocols called mirror benchmarking was recently proposed to measure the system-level performance of quantum computers. These protocols involve circuits with random sequences of gates followed by mirroring, that is, inverting each gate in the sequence. We give a simple proof that mirror benchmarking leads to an exponential decay of the survival probability with sequence length, under the uniform noise assumption, provided the twirling group forms a 2-design. The decay rate is determined by a quantity that is a quadratic function of the error channel, and for certain types of errors is equal to the unitarity. This result yields a new method for estimating the coherence of noise. We present data from mirror benchmarking experiments run on the Honeywell System Model H1. This data constitutes a set of performance curves, indicating the success probability for random circuits as a function of qubit number and circuit depth.
翻訳日:2023-06-05 21:24:52 公開日:2023-06-01
# 分散システムにおける異常検出のためのグラフベースディープラーニングの検討

A Survey of Graph-based Deep Learning for Anomaly Detection in Distributed Systems ( http://arxiv.org/abs/2206.04149v2 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Arnab A Purkayastha, Jagannadh Vempati, Otto Martin, and Hamed Tabkhi(参考訳) 異常検出は複雑な分散システムにおいて重要なタスクである。 異常検出の要件と課題を徹底的に理解することは、そのようなシステムのセキュリティ、特に現実のデプロイメントにとって重要である。 この問題を扱う作業やアプリケーションドメインはたくさんありますが、そのようなシステムについて深く検討しようとする試みはごくわずかです。 本研究では,分散システムにおける異常を同定するグラフベースアルゴリズムの可能性について検討する。 これらの系は不均一あるいは均質であり、異なる要求をもたらす。 目的の1つは、不均一性や動的構造といった現実世界の課題に対処するそれらの能力を概念的に分析するためのグラフベースのアプローチを詳細に検討することである。 本研究は,その分野における現状研究論文の概要と,その特性を比較比較・比較するものである。 より包括的な理解を容易にするために、ユースケースとして様々な抽象化を持つ3つのシステムを提案する。 このようなシステムにおける異常検出に関わる具体的な課題について検討する。 その後,このようなシステムにおけるグラフの有効性を解明し,その利点を明らかにする。 次に、SotAの手法を掘り下げて、その強みと弱点を強調し、改善の可能性と今後の作業の分野を指摘します。

Anomaly detection is a crucial task in complex distributed systems. A thorough understanding of the requirements and challenges of anomaly detection is pivotal to the security of such systems, especially for real-world deployment. While there are many works and application domains that deal with this problem, few have attempted to provide an in-depth look at such systems. In this survey, we explore the potentials of graph-based algorithms to identify anomalies in distributed systems. These systems can be heterogeneous or homogeneous, which can result in distinct requirements. One of our objectives is to provide an in-depth look at graph-based approaches to conceptually analyze their capability to handle real-world challenges such as heterogeneity and dynamic structure. This study gives an overview of the State-of-the-Art (SotA) research articles in the field and compare and contrast their characteristics. To facilitate a more comprehensive understanding, we present three systems with varying abstractions as use cases. We examine the specific challenges involved in anomaly detection within such systems. Subsequently, we elucidate the efficacy of graphs in such systems and explicate their advantages. We then delve into the SotA methods and highlight their strength and weaknesses, pointing out the areas for possible improvements and future works.
翻訳日:2023-06-05 21:19:07 公開日:2023-06-01
# 電子メール不正に対するアクティブ対策

Active Countermeasures for Email Fraud ( http://arxiv.org/abs/2210.15043v2 )

ライセンス: Link先を確認
Wentao Chen, Fuzhou Wang, Matthew Edwards(参考訳) オンライン犯罪の主要な要素として、メールベースの詐欺は毎年大きな経済的損失をもたらす脅威である。 これらの詐欺に対処するため、詐欺師と呼ばれるボランティアは被害者の役割を担い、詐欺に応答し、長く非生産的な会話で時間と注意を無駄にしようとする。 メール詐欺を抑止し、詐欺行為の有効性を拡大するために、詐欺行為を自動的に行うことができる拡張可能な詐欺行為メールサーバを開発し、デプロイした。 3つの異なるモデルを用いて3つの返信戦略を実装し,130種類の詐欺師から150のメッセージを引き出す1ヶ月間の実験を行った。 我々は,詐欺の注意を惹きつけるための各戦略のパフォーマンスを比較し,人手による対応戦略と自動対応戦略のトレードオフを見出す。 2つ目の実験では、2つのサーバインスタンスを使用して12日間にわたって92の異なる詐欺師と接触した。 私たちは、オンライン詐欺を防ぐための今後の作業をサポートするために、プラットフォームとデータセットの両方をリリースします。

As a major component of online crime, email-based fraud is a threat that causes substantial economic losses every year. To counteract these scammers, volunteers called scam-baiters play the roles of victims, reply to scammers, and try to waste their time and attention with long and unproductive conversations. To curb email fraud and magnify the effectiveness of scam-baiting, we developed and deployed an expandable scam-baiting mailserver that can conduct scam-baiting activities automatically. We implemented three reply strategies using three different models and conducted a one-month-long experiment during which we elicited 150 messages from 130 different scammers. We compare the performance of each strategy at attracting and holding the attention of scammers, finding tradeoffs between human-written and automatically-generated response strategies. We also demonstrate that scammers can be engaged concurrently by multiple servers deploying these strategies in a second experiment, which used two server instances to contact 92 different scammers over 12 days. We release both our platform and a dataset containing conversations between our automatic scam-baiters and real human scammers, to support future work in preventing online fraud.
翻訳日:2023-06-05 20:47:57 公開日:2023-06-01
# 磁気リードアウトによる無調波電位下で磁気浮上する超伝導マイクロスフィア

Superconducting microsphere magnetically levitated in an anharmonic potential with integrated magnetic readout ( http://arxiv.org/abs/2210.13451v3 )

ライセンス: Link先を確認
Mart\'i Gutierrez Latorre and Gerard Higgins and Achintya Paradkar and Thilo Bauch and Witlef Wieczorek(参考訳) 磁気浮上型超伝導微粒子は、ピコグラムを用いた量子実験からマイクログラムオブジェクトへの有望な経路を提供する。 本研究は, 検出を集積した磁気チップトラップにおいて, 700ng$\sim 10^{17}$amu超伝導マイクロスフィアを浮揚する。 我々はDC-SQUID磁気センサを用いて粒子の中心運動を測定する。 トラップ周波数は30Hzから160Hzの間で連続的に調整可能であり、粒子は希釈冷凍機環境下で数日にわたって安定に捕捉される。 我々は、トラップ不調和、すなわちダッフィング非線形性とモード結合から生じる運動振幅依存性の周波数シフトを特徴付ける。 チップに基づくトラップポテンシャルの有限要素モデリングを用いて, この非線形挙動を説明する。 この研究は、磁気浮上超伝導微粒子を用いた量子実験と超感度慣性センサへの第一歩となる。

Magnetically levitated superconducting microparticles offer a promising path to quantum experiments with picogram to microgram objects. In this work, we levitate a 700ng $\sim 10^{17}$amu superconducting microsphere in a magnetic chip trap in which detection is integrated. We measure the particle's center-of-mass motion using a DC-SQUID magnetometer. The trap frequencies are continuously tunable between 30 and 160 Hz and the particle remains stably trapped over days in a dilution refrigerator environment. We characterize motional-amplitude-dependent frequency shifts, which arise from trap anharmonicities, namely Duffing nonlinearities and mode couplings. We explain this nonlinear behavior using finite element modelling of the chip-based trap potential. This work constitutes a first step towards quantum experiments and ultrasensitive inertial sensors with magnetically levitated superconducting microparticles.
翻訳日:2023-06-05 20:47:38 公開日:2023-06-01
# Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning

Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.11942v4 )

ライセンス: Link先を確認
Matthias Gerstgrasser, David C. Parkes(参考訳) Stackelberg equilibriaは、セキュリティゲームや間接メカニズム設計など、さまざまな一般的な学習問題に自然に現れ、強化学習文学において注目を集めている。 本稿では,マルチエージェントRL問題としてStackelberg equilibria Searchを実装するための一般的なフレームワークを提案する。 このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように考えられるかについて議論する。 重要な洞察として、設計空間は、例えば、マルチタスクとメタRL技術を利用して従者収束を図り、これまで文献になかったアプローチを可能にすることに留意する。 我々は,このような手法を文脈ポリシーを用いて提案し,標準領域と新しいベンチマーク領域の両方で実験的に評価し,従来の手法に比べてサンプル効率が大幅に向上したことを示す。 最後に,フレームワークの境界外におけるアルゴリズム設計の適用効果について検討する。

Stackelberg equilibria arise naturally in a range of popular learning problems, such as in security games or indirect mechanism design, and have received increasing attention in the reinforcement learning literature. We present a general framework for implementing Stackelberg equilibria search as a multi-agent RL problem, allowing a wide range of algorithmic design choices. We discuss how previous approaches can be seen as specific instantiations of this framework. As a key insight, we note that the design space allows for approaches not previously seen in the literature, for instance by leveraging multitask and meta-RL techniques for follower convergence. We propose one such approach using contextual policies, and evaluate it experimentally on both standard and novel benchmark domains, showing greatly improved sample efficiency compared to previous approaches. Finally, we explore the effect of adopting algorithm designs outside the borders of our framework.
翻訳日:2023-06-05 20:47:07 公開日:2023-06-01
# ソーシャルメディアにおける国家支援トロル活動の特徴と検出

Characterizing and Detecting State-Sponsored Troll Activity on Social Media ( http://arxiv.org/abs/2210.08786v5 )

ライセンス: Link先を確認
Fatima Ezzeddine and Luca Luceri and Omran Ayoub and Ihab Sbeity and Gianluca Nogara and Emilio Ferrara and Silvia Giordano(参考訳) 影響力のあるキャンペーンで運用されている国家支援トロールの検出は、研究コミュニティにとって重要かつ未解決の課題である。 この課題に対処するために,我々は2段階のプロセスを通じて,共有行動シーケンスやトラジェクタを解析し,国が支援するトロルアカウントを識別する新しいaiベースのソリューションを提案する。 まず, lstmに基づく分類器を用いて, アカウントの軌跡を, 州が支援するトロルまたは有機的正規ユーザのいずれかに分類する。 第二に、分類されたトラジェクトリを使用して、 '`Troll Score'' と呼ばれるメトリックを計算し、アカウントが状態支援トロルのように振る舞う程度を定量化する。 当社のアプローチを評価するため、2016年アメリカ合衆国大統領選挙におけるロシアの干渉キャンペーンについて検討する。 実験の結果,本手法は,約99%のaucでアカウントの軌跡を識別でき,aucの91%でロシアのトロルと有機ユーザを正確に分類できることがわかった。 さらに,様々な国から発生した異なる影響キャンペーンに対するソリューションの汎用性を評価し,今後の研究を導く有望な結果を見出した。

The detection of state-sponsored trolls operating in influence campaigns is a critical and unsolved challenge for the research community, which has significant implications beyond the online realm. To address this challenge, we propose a new AI-based solution that identifies state-sponsored troll accounts by analyzing their sharing activity sequences, or trajectories, through a two-step process. First, we classify accounts' trajectories using an LSTM-based classifier as belonging to either a state-sponsored troll or an organic, legitimate user. Second, we utilize the classified trajectories to compute a metric, named ``Troll Score'', to quantify the extent to which an account behaves like a state-sponsored troll. To evaluate our approach, we examine the Russian interference campaign during the 2016 U.S. Presidential election. The results of our experiments show that our method can identify account trajectories with an AUC close to 99% and accurately classify Russian trolls and organic users with an AUC of 91%. Additionally, we assessed the generalizability of our solution to different influence campaigns originating from various countries and found promising results that will guide future research.
翻訳日:2023-06-05 20:46:30 公開日:2023-06-01
# 断熱スパイラル法によるハイゼンベルクモデルの状態形成

State Preparation in the Heisenberg Model through Adiabatic Spiraling ( http://arxiv.org/abs/2210.04965v7 )

ライセンス: Link先を確認
Anthony N. Ciavarella, Stephan Caspar, Marc Illa, Martin J. Savage(参考訳) ハイゼンベルクモデルでは, 断熱スパイラルと呼ばれる断熱的状態調製法が提案されている。 この手法は、Rydberg原子、閉じ込められたイオン、超伝導量子ビットなどの多くの量子シミュレーションプラットフォームの実装に適している。 小さなシステムの古典的なシミュレーションは、近い将来にうまく実装できることを示唆している。 トロータライズド時間発展との比較を行い,アダイアバティックスパイラルがトロータライズドアダイアバティックを上回ることができることを示した。

An adiabatic state preparation technique, called the adiabatic spiral, is proposed for the Heisenberg model. This technique is suitable for implementation on a number of quantum simulation platforms such as Rydberg atoms, trapped ions, or superconducting qubits. Classical simulations of small systems suggest that it can be successfully implemented in the near future. A comparison to Trotterized time evolution is performed and it is shown that the adiabatic spiral is able to outperform Trotterized adiabatics.
翻訳日:2023-06-05 20:45:47 公開日:2023-06-01
# なぜ鶏は道路を渡ったのか? VQAにおける曖昧な質問の言い直しと分析

Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA ( http://arxiv.org/abs/2211.07516v2 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Jimena Guallar-Blasco, Yi Zhou, Benjamin Van Durme(参考訳) 自然言語は曖昧である。 あいまいな質問を解決することが、答える上で鍵となる。 画像に関する質問に注目して,曖昧な例のデータセットを作成する。 私たちはこれらに注釈を付け、それらが対処する根底にある質問によって回答をグループ化し、曖昧さを減らすために各グループの質問を言い換えます。 本分析は,視覚的問題における曖昧性の理由の言語学的に整合したオントロジーを明らかにする。 そして、自動的および人的評価により、よりあいまいな質問を生成する英語の質問生成モデルを開発する。 さらに,本モデルを用いた質問生成の目的により,直接の監督なしに回答グループ情報を統合できることを示す。

Natural language is ambiguous. Resolving ambiguous questions is key to successfully answering them. Focusing on questions about images, we create a dataset of ambiguous examples. We annotate these, grouping answers by the underlying question they address and rephrasing the question for each group to reduce ambiguity. Our analysis reveals a linguistically-aligned ontology of reasons for ambiguity in visual questions. We then develop an English question-generation model which we demonstrate via automatic and human evaluation produces less ambiguous questions. We further show that the question generation objective we use allows the model to integrate answer group information without any direct supervision.
翻訳日:2023-06-05 20:37:51 公開日:2023-06-01
# PATO:スケーラブルロボットデータ収集のためのポリシー支援遠隔操作

PATO: Policy Assisted TeleOperation for Scalable Robot Data Collection ( http://arxiv.org/abs/2212.04708v2 )

ライセンス: Link先を確認
Shivin Dass, Karl Pertsch, Hejia Zhang, Youngwoon Lee, Joseph J. Lim, Stefanos Nikolaidis(参考訳) 大規模データは、自然言語処理とコンピュータビジョン研究の最近の進歩で示されているように、機械学習の重要な要素である。 しかし、大規模なロボットデータの収集は、各オペレーターが一度に1つのロボットしか制御できないため、はるかに高価で遅い。 本稿では,このコストのかかるデータ収集プロセスを効率的かつスケーラブルにするために,学習された支援ポリシーを用いてデモ収集プロセスの一部を自動化するシステムであるPATO(Policy Assisted TeleOperation)を提案する。 PATOはデータ収集における反復的な動作を自律的に実行し、どのサブタスクや動作を実行するかが不確実な場合にのみ人間の入力を要求する。 我々は,実際のロボットとシミュレーションロボットの両方を用いて遠隔操作ユーザ研究を行い,データ収集効率を向上しつつ,人間の心的負担を軽減できることを実証した。 さらに、単一のオペレータが複数のロボットを並列に制御できるので、スケーラブルなロボットデータ収集への第一歩となる。 コードとビデオの結果はhttps://clvrai.com/patoを参照。

Large-scale data is an essential component of machine learning as demonstrated in recent advances in natural language processing and computer vision research. However, collecting large-scale robotic data is much more expensive and slower as each operator can control only a single robot at a time. To make this costly data collection process efficient and scalable, we propose Policy Assisted TeleOperation (PATO), a system which automates part of the demonstration collection process using a learned assistive policy. PATO autonomously executes repetitive behaviors in data collection and asks for human input only when it is uncertain about which subtask or behavior to execute. We conduct teleoperation user studies both with a real robot and a simulated robot fleet and demonstrate that our assisted teleoperation system reduces human operators' mental load while improving data collection efficiency. Further, it enables a single operator to control multiple robots in parallel, which is a first step towards scalable robotic data collection. For code and video results, see https://clvrai.com/pato
翻訳日:2023-06-05 20:28:29 公開日:2023-06-01
# マルウェアのサンプルからフラクタル画像へ:分類の新しいパラダイム。 (バージョン2.0、以前のバージョン名:マルウェアを見たことがあるか?)

From Malware Samples to Fractal Images: A New Paradigm for Classification. (Version 2.0, Previous version paper name: Have you ever seen malware?) ( http://arxiv.org/abs/2212.02341v2 )

ライセンス: Link先を確認
Ivan Zelinka, Miloslav Szczypka, Jan Plucar, Nikolay Kuznetsov(参考訳) これまで、マルウェアの分類、その識別、異なる家族への分類、マルウェアとグッドウェアの区別に関する多くの研究論文が書かれてきた。 これらの研究は、捕獲されたマルウェアのサンプルに基づいており、人工知能の分野の技法を含む様々な技術を用いてマルウェアやグッドウェアを分析しようと試みている。 例えば、ニューラルネットワークはこれらの分類法において重要な役割を果たす。 この研究のいくつかは、その視覚化を使ってマルウェアを分析している。 これらは通常、マルウェアの構造をキャプチャするマルウェアのサンプルを画像構造に変換し、それが画像処理の対象となる。 本稿では,視覚的に非常に興味深い画像が,良質なマルウェアの分類に使用されるという考えから,動的行動解析に基づくマルウェアの視覚化に対する極めて従来型で斬新なアプローチを提案する。 提案手法は今後の議論のための広範な話題を開き,結論として,マルウェア解析と分類研究の新たな方向性を多数提示する。 実験の結果は、6つの589 997 goodware、827 853の潜在的に望ましくないアプリケーション、4つの174 203のマルウェアサンプルと選択された実験データ(画像、多項式式の生成、画像生成ソフトウェア)のデータベースに基づいている。 そこで本論文は,比較実験の結果を報告する総合的なコンパクトな研究ではなく,マルウェア解析に応用可能な可視化分野の新たな方向性を示すものである。

To date, a large number of research papers have been written on the classification of malware, its identification, classification into different families and the distinction between malware and goodware. These works have been based on captured malware samples and have attempted to analyse malware and goodware using various techniques, including techniques from the field of artificial intelligence. For example, neural networks have played a significant role in these classification methods. Some of this work also deals with analysing malware using its visualisation. These works usually convert malware samples capturing the structure of malware into image structures, which are then the object of image processing. In this paper, we propose a very unconventional and novel approach to malware visualisation based on dynamic behaviour analysis, with the idea that the images, which are visually very interesting, are then used to classify malware concerning goodware. Our approach opens an extensive topic for future discussion and provides many new directions for research in malware analysis and classification, as discussed in conclusion. The results of the presented experiments are based on a database of 6 589 997 goodware, 827 853 potentially unwanted applications and 4 174 203 malware samples provided by ESET and selected experimental data (images, generating polynomial formulas and software generating images) are available on GitHub for interested readers. Thus, this paper is not a comprehensive compact study that reports the results obtained from comparative experiments but rather attempts to show a new direction in the field of visualisation with possible applications in malware analysis.
翻訳日:2023-06-05 20:27:50 公開日:2023-06-01
# True Detective: GPT-3 と GPT-4 の混在が不可能なディープ・アブダクティブ・推論ベンチマーク

True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3 and Challenging for GPT-4 ( http://arxiv.org/abs/2212.10114v2 )

ライセンス: Link先を確認
Maksym Del and Mark Fishel(参考訳) 大規模言語モデル (LLM) は、現在のテストタスクのパフォーマンスに反映された、ゼロショット推論機能を示す。 これにより、より高度な推論能力を必要とするより困難なベンチマークが要求される。 本稿では,探偵パズルとして構築された191の長文(平均1200語)の謎物語からなるベンチマークを紹介する。 Puzzlesは"5 Minute Mystery"プラットフォームから提供されており、評価のための複数の質問が含まれている。 平均してパズルを解くのは人間の47%に過ぎず、最高の解法者は80%以上の成功率を達成した。 GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。 これは、LLMとヒトの深い推論能力にはまだ大きなギャップがあることを示し、この分野におけるさらなる研究の必要性を強調している。 我々の研究は言語モデルにおける推論の今後の研究のための挑戦的なベンチマークを導入し、LLMの能力の限界をよりよく理解するために貢献する。

Large language models (LLMs) have demonstrated solid zero-shot reasoning capabilities, which is reflected in their performance on the current test tasks. This calls for a more challenging benchmark requiring highly advanced reasoning ability to be solved. In this paper, we introduce such a benchmark, consisting of 191 long-form (1200 words on average) mystery narratives constructed as detective puzzles. Puzzles are sourced from the "5 Minute Mystery" platform and include a multiple-choice question for evaluation. Only 47% of humans solve a puzzle successfully on average, while the best human solvers achieve over 80% success rate. We show that GPT-3 models barely outperform random on this benchmark (with 28% accuracy) while state-of-the-art GPT-4 solves only 38% of puzzles. This indicates that there is still a significant gap in the deep reasoning abilities of LLMs and humans and highlights the need for further research in this area. Our work introduces a challenging benchmark for future studies on reasoning in language models and contributes to a better understanding of the limits of LLMs' abilities.
翻訳日:2023-06-05 20:18:49 公開日:2023-06-01
# CHAD:シャーロット異常データセット

CHAD: Charlotte Anomaly Dataset ( http://arxiv.org/abs/2212.09258v3 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Babak Rahimi Ardabili, Christopher Neff, Hamed Tabkhi(参考訳) 近年,映像の特定のフレームが異常な動作を含むかどうかをアルゴリズムが判断しなければならない,映像異常検出のためのデータ駆動型ディープラーニングアプローチが注目されている。 しかし、ビデオ異常検出は特にコンテキスト固有であり、代表データセットの可用性は現実世界の精度を著しく制限する。 さらに、現在のほとんどの最先端メソッドによって報告されているメトリクスは、実際のシナリオでモデルがどのように機能するかを反映していないことが多い。 本稿では,シャーロット異常データセット(chad)について述べる。 CHADは商用駐車場における高解像度マルチカメラ異常データセットである。 フレームレベルの異常ラベルに加えて、CHADはバウンディングボックス、アイデンティティ、各アクターに対するアノテーションを含む最初の異常データセットである。 これはスケルトンに基づく異常検出に特に有用であり、実世界での計算需要の低減に有用である。 CHADは、同じシーンの複数のビューを含む最初の異常データセットである。 4つのカメラビューと115万フレーム以上のフレームを持つCHADは、静止カメラからの連続ビデオストリームから収集された個人アノテーションを含む、完全注釈付き異常検出データセットとして最大である。 トレーニングおよび評価におけるCHADの有効性を実証するため,CHADに2つの最先端スケルトンに基づく異常検出アルゴリズムをベンチマークし,定量的結果と定性検査の両方を含む包括的解析を行った。 データセットはhttps://github.com/TeCSAR-UNCC/CHADで公開されている。

In recent years, we have seen a significant interest in data-driven deep learning approaches for video anomaly detection, where an algorithm must determine if specific frames of a video contain abnormal behaviors. However, video anomaly detection is particularly context-specific, and the availability of representative datasets heavily limits real-world accuracy. Additionally, the metrics currently reported by most state-of-the-art methods often do not reflect how well the model will perform in real-world scenarios. In this article, we present the Charlotte Anomaly Dataset (CHAD). CHAD is a high-resolution, multi-camera anomaly dataset in a commercial parking lot setting. In addition to frame-level anomaly labels, CHAD is the first anomaly dataset to include bounding box, identity, and pose annotations for each actor. This is especially beneficial for skeleton-based anomaly detection, which is useful for its lower computational demand in real-world settings. CHAD is also the first anomaly dataset to contain multiple views of the same scene. With four camera views and over 1.15 million frames, CHAD is the largest fully annotated anomaly detection dataset including person annotations, collected from continuous video streams from stationary cameras for smart video surveillance applications. To demonstrate the efficacy of CHAD for training and evaluation, we benchmark two state-of-the-art skeleton-based anomaly detection algorithms on CHAD and provide comprehensive analysis, including both quantitative results and qualitative examination. The dataset is available at https://github.com/TeCSAR-UNCC/CHAD.
翻訳日:2023-06-05 20:17:28 公開日:2023-06-01
# 確率計画におけるMCMCの自動マージ

Automatically Marginalized MCMC in Probabilistic Programming ( http://arxiv.org/abs/2302.00564v2 )

ライセンス: Link先を確認
Jinlin Lai, Javier Burroni, Hui Guan, Daniel Sheldon(参考訳) Hamiltonian Monte Carlo (HMC) はベイズモデルから潜伏変数をサンプリングする強力なアルゴリズムである。 確率型プログラミング言語(PPL)の出現により、ユーザーは推論アルゴリズムを書くことができなくなり、モデリングに集中することができる。 しかし、HMCが直接解決するのは難しいモデルが多く、しばしばモデル再パラメータ化のようなトリックを必要とする。 私たちは、これらのモデルの多くがマージン化によって単純化できるという事実に動機づけられています。 本稿では,実世界の階層モデルからのサンプリングを大幅に改善するPPLから抽出したグラフィカルモデルにおいて,HMCを用いたサンプリングプロセスの一部として自動残差化を提案する。

Hamiltonian Monte Carlo (HMC) is a powerful algorithm to sample latent variables from Bayesian models. The advent of probabilistic programming languages (PPLs) frees users from writing inference algorithms and lets users focus on modeling. However, many models are difficult for HMC to solve directly, and often require tricks like model reparameterization. We are motivated by the fact that many of those models could be simplified by marginalization. We propose to use automatic marginalization as part of the sampling process using HMC in a graphical model extracted from a PPL, which substantially improves sampling from real-world hierarchical models.
翻訳日:2023-06-05 20:09:06 公開日:2023-06-01
# 線形関数近似を用いた逆MDPの精製レグレット

Refined Regret for Adversarial MDPs with Linear Function Approximation ( http://arxiv.org/abs/2301.12942v2 )

ライセンス: Link先を確認
Yan Dai, Haipeng Luo, Chen-Yu Wei, Julian Zimmert(参考訳) 我々は,mdp(adversarial markov decision process)において,損失関数がk$エピソード以上で任意に変化し,状態空間が任意に大きくなるような学習を考える。 任意の方針の q-函数は、ある既知の特徴、すなわち線型関数近似において線型であると仮定する。 この設定に対する最大の後悔の上界(Luo et al., 2021)は、シミュレータへのアクセスを条件に、$\tilde{\mathcal O}(K^{2/3})$(他のすべての依存関係を省略)である。 本稿では,同じ設定で$\tilde{\mathcal O}(\sqrt K)$に対する後悔を改善する2つのアルゴリズムを提案する。 我々の最初のアルゴリズムは、FTRLアルゴリズムをログバリア正規化器を用いて精巧に解析する。 この分析により、損失推定者は任意に負であり、独立した関心を持つことができる。 第2のアルゴリズムは、マグニチュード低減損失推定器を開発し、第1のアルゴリズムのアクション数に対する多項式依存性をさらに取り除き、(対数項と水平線への依存性まで)最適な後悔境界へと導く。 さらに、最初のアルゴリズムをシミュレータフリーな線形MDPに拡張し、$\tilde{\mathcal O}(K^{8/9})を後悔し、$\tilde{\mathcal O}(K^{14/15})$に対して大幅に改善する。 このアルゴリズムは、neu & olkhovskaya (2020) による行列幾何学的再サンプリング手順のより良い代替法に依存している。

We consider learning in an adversarial Markov Decision Process (MDP) where the loss functions can change arbitrarily over $K$ episodes and the state space can be arbitrarily large. We assume that the Q-function of any policy is linear in some known features, that is, a linear function approximation exists. The best existing regret upper bound for this setting (Luo et al., 2021) is of order $\tilde{\mathcal O}(K^{2/3})$ (omitting all other dependencies), given access to a simulator. This paper provides two algorithms that improve the regret to $\tilde{\mathcal O}(\sqrt K)$ in the same setting. Our first algorithm makes use of a refined analysis of the Follow-the-Regularized-Leader (FTRL) algorithm with the log-barrier regularizer. This analysis allows the loss estimators to be arbitrarily negative and might be of independent interest. Our second algorithm develops a magnitude-reduced loss estimator, further removing the polynomial dependency on the number of actions in the first algorithm and leading to the optimal regret bound (up to logarithmic terms and dependency on the horizon). Moreover, we also extend the first algorithm to simulator-free linear MDPs, which achieves $\tilde{\mathcal O}(K^{8/9})$ regret and greatly improves over the best existing bound $\tilde{\mathcal O}(K^{14/15})$. This algorithm relies on a better alternative to the Matrix Geometric Resampling procedure by Neu & Olkhovskaya (2020), which could again be of independent interest.
翻訳日:2023-06-05 20:08:27 公開日:2023-06-01
# N-best T5:複数入力仮説と制約付き復号空間を用いたロバストASR誤り訂正

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space ( http://arxiv.org/abs/2303.00456v2 )

ライセンス: Link先を確認
Rao Ma, Mark J. F. Gales, Kate M. Knill, Mengjie Qian(参考訳) 誤り訂正モデルは、書き起こしの可読性と品質を改善するために、自動音声認識(ASR)後処理の重要な部分を形成する。 ほとんどの先行研究は1-best asr仮説を入力として使用しており、1文内の文脈を活用することでのみ修正を行うことができる。 本研究では,T5モデルから微調整を行い,モデル入力としてASR N-best Listを利用する,新しいN-best T5モデルを提案する。 事前学習された言語モデルから知識を転送し、asr復号空間からよりリッチな情報を得ることにより、提案手法は強いコンフォーメータ・トランスデューサベースラインを上回る。 標準エラー訂正のもう1つの問題は、生成プロセスが適切に制御されていないことである。 これを解決するために、N-bestリストまたはASR格子に基づく制約付き復号プロセスが使用され、追加情報を伝播することができる。

Error correction models form an important part of Automatic Speech Recognition (ASR) post-processing to improve the readability and quality of transcriptions. Most prior works use the 1-best ASR hypothesis as input and therefore can only perform correction by leveraging the context within one sentence. In this work, we propose a novel N-best T5 model for this task, which is fine-tuned from a T5 model and utilizes ASR N-best lists as model input. By transferring knowledge from the pre-trained language model and obtaining richer information from the ASR decoding space, the proposed approach outperforms a strong Conformer-Transducer baseline. Another issue with standard error correction is that the generation process is not well-guided. To address this a constrained decoding process, either based on the N-best list or an ASR lattice, is used which allows additional information to be propagated.
翻訳日:2023-06-05 20:01:05 公開日:2023-06-01
# 固定点経路積分による位相誤差補正過程

Topological error correcting processes from fixed-point path integrals ( http://arxiv.org/abs/2303.16405v2 )

ライセンス: Link先を確認
Andreas Bauer(参考訳) 幾何学的局所チャネルと測定の動的回路としてトポロジカル量子誤り訂正符号を解析・構築するための統一パラダイムを提案する。 この目的のために、これらの回路をユークリッド時空における離散的不動点経路積分に関連付け、その基礎となる位相順序を次のように記述する: 測定結果の履歴を固定すると、位相欠陥のパターンを含む不動点経路積分が得られる。 一例として、安定化器のトーリックコード、サブシステムのトーリックコード、CSSのフロケットコードは、異なる時空格子上で同一のコードとみなすことができ、ハニカムのフロケットコードは、基底の変化の下でCSSのフロケットコードと等価であることを示す。 私たちはまた、2つの新しい誤り訂正符号、すなわち2体の測定だけで3+1ドルのトーリック符号のフロッケバージョンと、ダブルセムの文字列-ネット経路積分に基づく動的コードも導出しています。

We propose a unifying paradigm for analyzing and constructing topological quantum error correcting codes as dynamical circuits of geometrically local channels and measurements. To this end, we relate such circuits to discrete fixed-point path integrals in Euclidean spacetime, which describe the underlying topological order: If we fix a history of measurement outcomes, we obtain a fixed-point path integral carrying a pattern of topological defects. As an example, we show that the stabilizer toric code, subsystem toric code, and CSS Floquet code can be viewed as one and the same code on different spacetime lattices, and the honeycomb Floquet code is equivalent to the CSS Floquet code under a change of basis. We also use our formalism to derive two new error-correcting codes, namely a Floquet version of the $3+1$-dimensional toric code using only 2-body measurements, as well as a dynamic code based on the double-semion string-net path integral.
翻訳日:2023-06-05 19:49:51 公開日:2023-06-01
# 量子メッセージの署名方法

How to Sign Quantum Messages ( http://arxiv.org/abs/2304.06325v2 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 量子メッセージの署名は、計算的な仮定の下でも不可能であることが証明された。 我々は、署名手続きが何らかの次元で変化した場合、この結果は回避できると認識する。 具体的には、公衆の妥当性を保証した最初の量子メッセージに署名する2つのアプローチを提供する: (1) 片方向関数を仮定した時間依存シグネチャを用語とする概念を構築する。 この設定では、メッセージの署名は署名された時間に依存し、その結果、検証手順は署名が受信された時間に依存する。 キーはクラシックだが、検証キーは継続的に更新する必要がある。 2) 敵が有界量子メモリを持つ有界量子記憶モデルにおいて,情報理論的にセキュアなシグネチャスキームを構築する。 提案手法は,伝送量を大きくすることで,任意に大きな量子メモリを持つ敵に対して安全である。一方,正直なユーザは,平文の量子メッセージのサイズである$\ell$ の$o(\ell^2)$ の量子メモリしか必要ではない。 さらに,一方向関数のみを仮定したタスクの実行に時間依存シグネチャを適用する。 (a)敵対的改ざんに抵抗する量子公開鍵を認証した量子公開鍵暗号スキームを構築する。 b) 公開鍵の量子マネースキームを、寿命の制限のある、忘れられない、実行不能で、公に検証可能な紙幣で構築すること。

Signing quantum messages was proven to be impossible even under computational assumptions. We realize that this result can be circumvented if the signing procedure varies with respect to some dimension. Specifically, we provide two approaches to sign quantum messages that are the first to ensure authenticity with public verifiability: (1) We construct a notion we term time-dependent signatures assuming one-way functions. In this setting, the signature of a message depends on the time it is signed and, as a result, the verification procedure depends on the time that the signature is received. The keys are classical but the verification key needs to be continually updated. (2) We construct an information-theoretically secure signature scheme in the bounded quantum storage model where adversaries have bounded quantum memories. Our scheme can be made secure against adversaries with arbitrarily large quantum memories by increasing the size of the transmissions sufficiently, while honest users only need $O(\ell^2)$ quantum memory where $\ell$ is the size of the plaintext quantum messages. Furthermore, we apply our time-dependent signatures to perform the following tasks assuming only one-way functions: (a) Construct a quantum public key encryption scheme with authenticated quantum public keys which resist adversarial tampering. (b) Build a public-key quantum money scheme with unforgeable, unclonable, and publicly verifiable banknotes that have a limited lifespan.
翻訳日:2023-06-05 19:41:21 公開日:2023-06-01
# AIによるテキスト検出の可能性について

On the Possibilities of AI-Generated Text Detection ( http://arxiv.org/abs/2304.04736v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Sicheng Zhu, Bang An, Dinesh Manocha, and Furong Huang(参考訳) 本研究では,大規模言語モデル(llm)が生成する出力を,人間が生成した出力と区別するために検出する課題に着目した。 この能力は多くの応用において最も重要である。 しかし、そのような認識の可能性はコミュニティ内で議論の対象となっている。 したがって、中心となる疑問は、aiが生成したテキストを検出できるかどうかと、それがいつなのかである。 本研究では,人間と機械生成テキストの分布がサポート全体において全く同じでない限り,AI生成テキストをほぼ常に検出できることの証拠を提供する。 この観察は、情報理論における標準的な結果に続き、機械テキストがより人間らしくなった場合、それを検出するためにより多くのサンプルが必要であるという事実に依存している。 ai生成テキストの検出に必要なサンプル数を示す、ai生成テキスト検出の正確なサンプル複雑性を導出する。 これにより、より複雑な検出器を設計し、(たった1つではなく)検出に$n$のサンプルを取り入れることが、このトピックに関する将来の研究のスコープとなる。 さまざまな実・合成データセットに関する実証的な評価は、より良い検出器の存在に関する我々の主張を支持し、AI生成したテキスト検出がほとんどのシナリオで達成可能であることを実証する。 我々の理論と結果は、OpenAIの経験的発見(シーケンス長に関して)と一致し、これらの結果に対して確固たる理論的正当化を初めて提供する。

Our work focuses on the challenge of detecting outputs generated by Large Language Models (LLMs) to distinguish them from those generated by humans. This ability is of the utmost importance in numerous applications. However, the possibility of such discernment has been the subject of debate within the community. Therefore, a central question is whether we can detect AI-generated text and, if so, when. In this work, we provide evidence that it should almost always be possible to detect AI-generated text unless the distributions of human and machine-generated texts are exactly the same over the entire support. This observation follows from the standard results in information theory and relies on the fact that if the machine text becomes more human-like, we need more samples to detect it. We derive a precise sample complexity bound of AI-generated text detection, which tells how many samples are needed to detect AI-generated text. This gives rise to additional challenges of designing more complicated detectors that take in $n$ samples for detection (rather than just one), which is the scope of future research on this topic. Our empirical evaluations on various real and synthetic datasets support our claim about the existence of better detectors, demonstrating that AI-generated text detection should be achievable in the majority of scenarios. Our theory and results align with OpenAI's empirical findings, (in relation to sequence length), and we are the first to provide a solid theoretical justification for these outcomes.
翻訳日:2023-06-05 19:41:02 公開日:2023-06-01
# クイック・デンス・リトリーバーとKALE:非対称二重エンコーダ用エンベディングのトレーニング・コールバック・リブラーアライメント

Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders ( http://arxiv.org/abs/2304.01016v3 )

ライセンス: Link先を確認
Daniel Campos, Alessandro Magnani, and ChengXiang Zhai(参考訳) 本稿では,コンテクストとクエリエンコーダ間の構造的圧縮とモデルサイズ非対称性を導入することで,言語モデルに基づく高密度検索システムの推論遅延を改善する問題を考える。 まず,MSMARCO,Natural Questions,TriviaQA,SQUAD,SCIFACTに対する事前および後圧縮の影響について検討し,高密度検索における二重エンコーダの非対称性が推論効率の向上につながることを示した。 そこで我々はKulback Leibler Alignment of Embeddings (KALE)を紹介した。これは学習後にクエリエンコーダをプルーニング・アライメントすることで、高密度検索手法の推論効率を高めるための効率的かつ正確な方法である。 具体的には、双方向エンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。 KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。

In this paper, we consider the problem of improving the inference latency of language model-based dense retrieval systems by introducing structural compression and model size asymmetry between the context and query encoders. First, we investigate the impact of pre and post-training compression on the MSMARCO, Natural Questions, TriviaQA, SQUAD, and SCIFACT, finding that asymmetry in the dual encoders in dense retrieval can lead to improved inference efficiency. Knowing this, we introduce Kullback Leibler Alignment of Embeddings (KALE), an efficient and accurate method for increasing the inference efficiency of dense retrieval methods by pruning and aligning the query encoder after training. Specifically, KALE extends traditional Knowledge Distillation after bi-encoder training, allowing for effective query encoder compression without full retraining or index generation. Using KALE and asymmetric training, we can generate models which exceed the performance of DistilBERT despite having 3x faster inference.
翻訳日:2023-06-05 19:39:36 公開日:2023-06-01
# HyperMODEST:信頼スコアフィルタリングによる自己監督型3次元物体検出

HyperMODEST: Self-Supervised 3D Object Detection with Confidence Score Filtering ( http://arxiv.org/abs/2304.14446v2 )

ライセンス: Link先を確認
Jenny Xu and Steven L. Waslander(参考訳) 現在のLiDARベースの自動運転用3Dオブジェクト検出器は、特定の地理的領域で収集された人間の注釈付きデータにほぼ完全に訓練されているため、異なる領域に適応することは困難である。 MODESTはラベルなしで3Dオブジェクト検出器を訓練する最初の試みである。 我々の研究であるHyperMODESTは、MODESTの上に実装された普遍的な手法を提案しており、これは自己学習プロセスを大幅に加速し、特定のデータセットのチューニングを必要としない。 信頼度の低いデータ拡張に用いる中間擬似ラベルをフィルタリングする。 nuScenesデータセットでは、IoU=0.25で0-80mでAP BEVが1.6%、IoU=0.5で0-80mでAP BEVが1.7%向上し、MODESTによるトレーニング時間の5分の1しか使われていない。 Lyftデータセットでは、第1ラウンドの反復的自己トレーニングのベースラインの改善も観察しています。 本研究では,提案手法と他の2つのスコアフィルタリング手法,すなわち静的ラベル保持の有無を考慮した疑似ラベルの信頼度スコアフィルタリングを比較し,自己学習プロセスの初期段階における高精度と高リコールのトレードオフを検討する。 この作業のコードとモデルはhttps://github.com/trailab/hypermodestで入手できる。

Current LiDAR-based 3D object detectors for autonomous driving are almost entirely trained on human-annotated data collected in specific geographical domains with specific sensor setups, making it difficult to adapt to a different domain. MODEST is the first work to train 3D object detectors without any labels. Our work, HyperMODEST, proposes a universal method implemented on top of MODEST that can largely accelerate the self-training process and does not require tuning on a specific dataset. We filter intermediate pseudo-labels used for data augmentation with low confidence scores. On the nuScenes dataset, we observe a significant improvement of 1.6% in AP BEV in 0-80m range at IoU=0.25 and an improvement of 1.7% in AP BEV in 0-80m range at IoU=0.5 while only using one-fifth of the training time in the original approach by MODEST. On the Lyft dataset, we also observe an improvement over the baseline during the first round of iterative self-training. We explore the trade-off between high precision and high recall in the early stage of the self-training process by comparing our proposed method with two other score filtering methods: confidence score filtering for pseudo-labels with and without static label retention. The code and models of this work are available at https://github.com/TRAILab/HyperMODEST
翻訳日:2023-06-05 19:29:20 公開日:2023-06-01
# タスク指向多目的最適化による逆例生成

Generating Adversarial Examples with Task Oriented Multi-Objective Optimization ( http://arxiv.org/abs/2304.13229v2 )

ライセンス: Link先を確認
Anh Bui, Trung Le, He Zhao, Quan Tran, Paul Montague, Dinh Phung(参考訳) ディープラーニングモデルは、最先端のモデルでさえも、敵の例に非常に脆弱です。 敵の訓練はモデルの堅牢性を改善する最も効率的な方法の1つである。 敵意トレーニングの成功の鍵となる要因は、目標/ゴール(例えば、複数のモデルを同時に攻撃するモデルの損失を最大化する敵意的な例を見つける)を満たす、適格で多様な敵意の例を生成する能力である。 したがって、多目的最適化(MOO)は、複数の目的/目標を同時に達成するための逆例生成の自然なツールである。 しかし,MOOの単純適用は,目標/目標がまだ達成されているかどうかを気にすることなく,すべての目標/目標を等しく最大化する傾向にある。 これにより、目標達成タスクをさらに改善し、目標達成タスクへのフォーカスを減らし、無駄な労力がかかります。 本稿では,タスクの目標達成を明示的に定義できる状況において,この問題に対処するためのemph{Task Oriented MOO}を提案する。 私たちの原則は、目標達成タスクのみを維持しながら、最適化者が目標達成タスクの改善により多くの労力を費やすことです。 我々は,タスク指向mooに対して,様々な逆例生成方式に関する包括的実験を行う。 実験結果は,提案手法のメリットを確証するものである。 我々のコードは \url{https://github.com/tuananhbui89/TAMOO} で入手できる。

Deep learning models, even the-state-of-the-art ones, are highly vulnerable to adversarial examples. Adversarial training is one of the most efficient methods to improve the model's robustness. The key factor for the success of adversarial training is the capability to generate qualified and divergent adversarial examples which satisfy some objectives/goals (e.g., finding adversarial examples that maximize the model losses for simultaneously attacking multiple models). Therefore, multi-objective optimization (MOO) is a natural tool for adversarial example generation to achieve multiple objectives/goals simultaneously. However, we observe that a naive application of MOO tends to maximize all objectives/goals equally, without caring if an objective/goal has been achieved yet. This leads to useless effort to further improve the goal-achieved tasks, while putting less focus on the goal-unachieved tasks. In this paper, we propose \emph{Task Oriented MOO} to address this issue, in the context where we can explicitly define the goal achievement for a task. Our principle is to only maintain the goal-achieved tasks, while letting the optimizer spend more effort on improving the goal-unachieved tasks. We conduct comprehensive experiments for our Task Oriented MOO on various adversarial example generation schemes. The experimental results firmly demonstrate the merit of our proposed approach. Our code is available at \url{https://github.com/tuananhbui89/TAMOO}.
翻訳日:2023-06-05 19:28:34 公開日:2023-06-01
# マルコフ決定過程における静的リスク対策の動的プログラミング分解について

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes ( http://arxiv.org/abs/2304.12477v2 )

ライセンス: Link先を確認
Jia Lin Hau, Erick Delage, Mohammad Ghavamzadeh, Marek Petrik(参考訳) マルコフ決定過程における静的リスク回避目標の最適化は、強化学習(rl)アルゴリズムに共通する標準的な動的プログラミング方程式を認めないため困難である。 状態空間を個別のリスクレベルで拡張する動的プログラミング分解は、最近rlコミュニティで人気を集めている。 先行研究により、これらの分解はリスクレベルが十分に離散化されている場合に最適であることが示されている。 しかし, 条件値-at-Risk (CVaR) とエントロピー-値-at-Risk (EVaR) の分解は, 離散化レベルに関係なく本質的に準最適であることを示す。 特に,先行文献において保持されると考えられるサドル点特性が侵害される可能性があることを示す。 しかしながら、分解はバリュー・アット・リスクを保ち、このリスク尺度がCVaRとEVaRとどのように異なるかを示す。 リスク回避アルゴリズムは高リスク環境において用いられており,その正確性は極めて重要である。

Optimizing static risk-averse objectives in Markov decision processes is difficult because they do not admit standard dynamic programming equations common in Reinforcement Learning (RL) algorithms. Dynamic programming decompositions that augment the state space with discrete risk levels have recently gained popularity in the RL community. Prior work has shown that these decompositions are optimal when the risk level is discretized sufficiently. However, we show that these popular decompositions for Conditional-Value-at-Risk (CVaR) and Entropic-Value-at-Risk (EVaR) are inherently suboptimal regardless of the discretization level. In particular, we show that a saddle point property assumed to hold in prior literature may be violated. However, a decomposition does hold for Value-at-Risk and our proof demonstrates how this risk measure differs from CVaR and EVaR. Our findings are significant because risk-averse algorithms are used in high-stake environments, making their correctness much more critical.
翻訳日:2023-06-05 19:28:10 公開日:2023-06-01
# 『i'm full who i am』 : オープン言語生成におけるバイアスを測定するためにトランスジェンダーとノンバイナリの声を中心に

"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation ( http://arxiv.org/abs/2305.09941v4 )

ライセンス: Link先を確認
Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta(参考訳) トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。 近年の言語生成技術の普及と普及を考えると、この人口のさらなる疎外化の可能性は増大するのみである。 NLPフェアネスの文献は、性別バイアスの照明と対処に焦点を当てているが、TGNBのアイデンティティに対する性別の害を評価するには、そのようなアイデンティティが社会的性規範とどのように一意に相互作用するか、そしてそれらがジェンダーバイナリ中心の視点とどのように異なるかを理解する必要がある。 このような測定フレームワークは本質的には、ジェンダー非包摂的NLPと彼らが誰に仕えるかの調整を支援するために、中心的なTGNB音声を必要とする。 この目標に向けて、我々はTGNBのコミュニティと既存の学際文献を基盤として、TGNBの人々が経験した限界化を取り巻く社会的現実がオープン言語生成(OLG)にどのように貢献し、持続するかを評価する。 この社会的知識は,(1) 性別開示に対する誤認と(2) 有害な反応の2つの主要な側面から,ポピュラーな大言語モデル(LLM)を評価するためのガイドとして機能する。 そこで本研究では,TGNB指向のコミュニティから収集したテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。 モデルによって反映される二項性規範の優位性を見出した; LLMは二項代名詞を用いたプロンプトによって引き起こされた、生成テキスト中の最少の性別の被験者である。 一方,singular theyとneopronounsで発生をトリガーする場合,ミスジェネレーションが最も一般的であった。 TGNBの開示は、性別の開示によって最も厳格な言語を生み出し、平均して最も有毒な結果を得た。 我々の研究は、TLMにおけるTGNBの有害性に関するさらなる研究を保証し、コミュニティ音声や学際文学におけるジェンダー非包括的AIの設計を具体化するための幅広いケーススタディとして役立っている。

Transgender and non-binary (TGNB) individuals disproportionately experience discrimination and exclusion from daily life. Given the recent popularity and adoption of language generation technologies, the potential to further marginalize this population only grows. Although a multitude of NLP fairness literature focuses on illuminating and addressing gender biases, assessing gender harms for TGNB identities requires understanding how such identities uniquely interact with societal gender norms and how they differ from gender binary-centric perspectives. Such measurement frameworks inherently require centering TGNB voices to help guide the alignment between gender-inclusive NLP and whom they are intended to serve. Towards this goal, we ground our work in the TGNB community and existing interdisciplinary literature to assess how the social reality surrounding experienced marginalization of TGNB persons contributes to and persists within Open Language Generation (OLG). This social knowledge serves as a guide for evaluating popular large language models (LLMs) on two key aspects: (1) misgendering and (2) harmful responses to gender disclosure. To do this, we introduce TANGO, a dataset of template-based real-world text curated from a TGNB-oriented community. We discover a dominance of binary gender norms reflected by the models; LLMs least misgendered subjects in generated text when triggered by prompts whose subjects used binary pronouns. Meanwhile, misgendering was most prevalent when triggering generation with singular they and neopronouns. When prompted with gender disclosures, TGNB disclosure generated the most stigmatizing language and scored most toxic, on average. Our findings warrant further research on how TGNB harms manifest in LLMs and serve as a broader case study toward concretely grounding the design of gender-inclusive AI in community voices and interdisciplinary literature.
翻訳日:2023-06-05 19:21:55 公開日:2023-06-01
# ProKnow:メンタルヘルス診断支援のための安全・説明可能な質問生成のためのプロセス知識

ProKnow: Process Knowledge for Safety Constrained and Explainable Question Generation for Mental Health Diagnostic Assistance ( http://arxiv.org/abs/2305.08010v2 )

ライセンス: Link先を確認
Kaushik Roy, Manas Gaur, Misagh Soltani, Vipula Rawte, Ashwin Kalyan, Amit Sheth(参考訳) 現在のバーチャルメンタルヘルスアシスタント(vmhas)はカウンセリングと示唆的なケアを提供する。 彼らは安全性と専門的な臨床プロセス知識の訓練が不足しているため、患者の診断支援を控えている。 本研究では,Proknowをエビデンスに基づくガイドラインやドメインの専門家に対する概念理解のカテゴリにマップする情報集合として定義する。 また,医療従事者が使用する安全制約やプロノウハウによって誘導される,新たな診断会話データセットも導入する。 患者からの診断情報を対話的に収集する自然言語質問生成法(NLG)を開発した。 このデータセットで最先端の大規模言語モデル(LM)を使用することの限界を実証する。 我々のアルゴリズムは、安全性、知識獲得、説明可能性を明確にモデル化することでプロセスの知識をモデル化する。 ProKnowガイド法で拡張したLMは、うつ病や不安領域でより安全な89%の質問を発生させた。 生成した質問の説明性は、抑うつや不安に関する知識ベースの概念と類似した計算によって評価される。 総じて,本手法を改良したlmsのタイプに関わらず,安全性,説明可能性,プロセスガイドによる質問生成において,事前学習した単純なlmsと比較して平均82%の改善を達成できた。 提案手法の有効性を定量的に定量的に評価し,安全性,説明可能性,プロセス知識の順守に関する3つの新しい評価指標を導入する。

Current Virtual Mental Health Assistants (VMHAs) provide counseling and suggestive care. They refrain from patient diagnostic assistance because they lack training in safety-constrained and specialized clinical process knowledge. In this work, we define Proknow as an ordered set of information that maps to evidence-based guidelines or categories of conceptual understanding to experts in a domain. We also introduce a new dataset of diagnostic conversations guided by safety constraints and Proknow that healthcare professionals use. We develop a method for natural language question generation (NLG) that collects diagnostic information from the patient interactively. We demonstrate the limitations of using state-of-the-art large-scale language models (LMs) on this dataset. Our algorithm models the process knowledge through explicitly modeling safety, knowledge capture, and explainability. LMs augmented with ProKnow guided method generated 89% safer questions in the depression and anxiety domain. The Explainability of the generated question is assessed by computing similarity with concepts in depression and anxiety knowledge bases. Overall, irrespective of the type of LMs augmented with our ProKnow, we achieved an average 82% improvement over simple pre-trained LMs on safety, explainability, and process-guided question generation. We qualitatively and quantitatively evaluate the efficacy of the proposed ProKnow-guided methods by introducing three new evaluation metrics for safety, explainability, and process knowledge adherence.
翻訳日:2023-06-05 19:20:45 公開日:2023-06-01
# sentecon: 人間の解釈可能な言語表現を学ぶためにレキシコンを活用する

SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language Representations ( http://arxiv.org/abs/2305.14728v2 )

ライセンス: Link先を確認
Victoria Lin, Louis-Philippe Morency(参考訳) 近年,深層言語表現が言語破局の主流となっているが,多くの場面でモデルの意思決定プロセスを理解することが重要である。 これは解釈可能なモデルだけでなく、解釈可能な機能を必要とする。 特に、言語は原文をよく特徴付けながら解釈可能な方法で実現されなければならない。 本稿では,深層言語表現における人間の解釈可能性の導入方法であるSenteConを提案する。 テキストの一節を与えられたSenteConは、テキストを解釈可能なカテゴリの層としてエンコードし、各次元が特定のカテゴリの関連性に対応する。 経験的な評価から,steconによる言語エンコーディングは,下流タスクの予測性能にほとんど,あるいはまったくコストを要しない高レベルな解釈性を提供することが示唆された。 さらに,SenteConは,そのダウンストリーム性能とテキストの人為的特徴との一致に関して,既存の解釈可能な言語表現よりも優れていることがわかった。

Although deep language representations have become the dominant form of language featurization in recent years, in many settings it is important to understand a model's decision-making process. This necessitates not only an interpretable model but also interpretable features. In particular, language must be featurized in a way that is interpretable while still characterizing the original text well. We present SenteCon, a method for introducing human interpretability in deep language representations. Given a passage of text, SenteCon encodes the text as a layer of interpretable categories in which each dimension corresponds to the relevance of a specific category. Our empirical evaluations indicate that encoding language with SenteCon provides high-level interpretability at little to no cost to predictive performance on downstream tasks. Moreover, we find that SenteCon outperforms existing interpretable language representations with respect to both its downstream performance and its agreement with human characterizations of the text.
翻訳日:2023-06-05 19:10:55 公開日:2023-06-01
# 信仰とフェイト:構成性に関するトランスフォーマーの限界

Faith and Fate: Limits of Transformers on Compositionality ( http://arxiv.org/abs/2305.18654v2 )

ライセンス: Link先を確認
Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi(参考訳) transformer large language models (llms) は、複雑なマルチステップ推論を必要とするタスクにおける例外的なパフォーマンスを賞賛している。 しかし、これらのモデルは驚くほど自明な問題に対して同時に失敗を示す。 これらのエラーは偶発的か、それともより重大な制限を示すのか? トランスフォーマーを非神秘化しようとする試みとして,多桁乗算,論理格子パズル,古典的な動的プログラミング問題という,3つの代表的な構成タスクにまたがるモデルの限界について検討する。 これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。 合成タスクを計算グラフとして定式化し、複雑性のレベルを体系的に定量化し、推論ステップを中間のサブ手続きに分割する。 実験により,多段階合成推論を線形化部分グラフマッチングに還元することで,トランスフォーマーが構成課題を解くことを示唆した。 実験的な研究をまとめるために、トランスフォーマーのパフォーマンスがタスクの複雑さの増大とともに急速に低下することを示す抽象的な多段階推論問題について理論的に論じる。

Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify Transformers, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that Transformers solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how Transformers' performance will rapidly decay with increased task complexity.
翻訳日:2023-06-05 19:02:48 公開日:2023-06-01
# ハバード量子シミュレータに現れる双極子量子固体

Dipolar quantum solids emerging in a Hubbard quantum simulator ( http://arxiv.org/abs/2306.00888v1 )

ライセンス: Link先を確認
Lin Su, Alexander Douglas, Michal Szurek, Robin Groth, S. Furkan Ozturk, Aaron Krahn, Anne H. H\'ebert, Gregory A. Phelps, Sepehr Ebadi, Susannah Dickerson, Francesca Ferlaino, Ognjen Markovi\'c, Markus Greiner(参考訳) 量子力学多体系では、長距離相互作用と異方性相互作用はリッチな空間構造を促進し、量子フラストレーションを引き起こし、複雑な強い相関を持つ量子位相を生じる。 長距離相互作用は自然界において重要な役割を果たすが、格子系の量子シミュレーションはそのような相互作用をほとんど実現できていない。 極性分子、リドバーグ原子、光学キャビティ、磁性原子を用いた長距離相互作用格子系の研究が進行中である。 本研究では,超低温磁性エルビウム原子を用いた長距離双極子相互作用を持つ強相関格子系における新しい量子相を実現する。 双極子相互作用を我々の系で支配的なエネルギースケールにチューニングすると、超流動から双極子量子固体への量子相転移を観測し、量子ガス顕微鏡を用いて直接検出する。 ダイポールの配向による相互作用異方性制御により、様々なストライプ秩序状態を実現することができる。 さらに, 強相関状態を通じて非アダイアバティックに遷移することにより, 準安定ストライプ秩序状態の出現を観察した。 この研究は、光学格子における長距離双極子相互作用を用いて、新しい強い相関の量子相が実現できることを示し、長距離および異方性相互作用を持つ幅広い格子モデルの量子シミュレーションへの扉を開く。

In quantum mechanical many-body systems, long-range and anisotropic interactions promote rich spatial structure and can lead to quantum frustration, giving rise to a wealth of complex, strongly correlated quantum phases. Long-range interactions play an important role in nature; however, quantum simulations of lattice systems have largely not been able to realize such interactions. A wide range of efforts are underway to explore long-range interacting lattice systems using polar molecules, Rydberg atoms, optical cavities, and magnetic atoms. Here, we realize novel quantum phases in a strongly correlated lattice system with long-range dipolar interactions using ultracold magnetic erbium atoms. As we tune the dipolar interaction to be the dominant energy scale in our system, we observe quantum phase transitions from a superfluid into dipolar quantum solids, which we directly detect using quantum gas microscopy. Controlling the interaction anisotropy by orienting the dipoles enables us to realize a variety of stripe ordered states. Furthermore, by transitioning non-adiabatically through the strongly correlated regime, we observe the emergence of a range of metastable stripe-ordered states. This work demonstrates that novel strongly correlated quantum phases can be realized using long-range dipolar interaction in optical lattices, opening the door to quantum simulations of a wide range of lattice models with long-range and anisotropic interactions.
翻訳日:2023-06-05 18:51:17 公開日:2023-06-01
# MaxwellのDemonがウォール街へ:確率的熱力学と期待された実用性理論

Maxwell's Demon walks into Wall Street: Stochastic Thermodynamics meets Expected Utility Theory ( http://arxiv.org/abs/2306.00449v1 )

ライセンス: Link先を確認
Andres F. Ducuara, Paul Skrzypczyk, Francesco Buscemi, Peter Sidajaya, Valerio Scarani(参考訳) 熱力学と情報理論の相互作用は長い歴史があるが、その定量的表現はまだ研究されている。 我々は、期待効用理論から経済学から確率的熱力学へ道具をインポートする。 クルックスのゆらぎ関係に従う過程において、すべての$\alpha$ R\'enyi が前処理と逆処理の間で分岐していることが、リスク・アバージョン $r=\alpha-1$ のプレイヤーに対して、散逸された作業(あるいはエントロピー生産)の 'certainty equivalent'' の操作的意味を持つことを証明している。 既知の2つのケース$\alpha=1$と$\alpha=\infty$は、それぞれリスクニュートラルと極端なリスクアバースプレーヤーに関連付けられているという新しい解釈を受け取る。 新しい結果のうち、$\alpha=0$の条件は、第二法則の過渡的違反に賭けようとするリスクを問う選手の行動を記述する。 我々のアプローチは、さらに一般化されたジャージンスキー等式をもたらし、より広範な統計分岐のクラスに一般化する。

The interplay between thermodynamics and information theory has a long history, but its quantitative manifestations are still being explored. We import tools from expected utility theory from economics into stochastic thermodynamics. We prove that, in a process obeying Crooks' fluctuation relations, every $\alpha$ R\'enyi divergence between the forward process and its reverse has the operational meaning of the ``certainty equivalent'' of dissipated work (or, more generally, of entropy production) for a player with risk aversion $r=\alpha-1$. The two known cases $\alpha=1$ and $\alpha=\infty$ are recovered and receive the new interpretation of being associated to a risk-neutral and an extreme risk-averse player respectively. Among the new results, the condition for $\alpha=0$ describes the behavior of a risk-seeking player willing to bet on the transient violations of the second law. Our approach further leads to a generalized Jarzynski equality, and generalizes to a broader class of statistical divergences.
翻訳日:2023-06-05 18:50:54 公開日:2023-06-01
# PV2TEA: テキスト情報抽出への視覚的モダリティの対応

PV2TEA: Patching Visual Modality to Textual-Established Information Extraction ( http://arxiv.org/abs/2306.01016v1 )

ライセンス: Link先を確認
Hejie Cui, Rongmei Lin, Nasser Zalmout, Chenwei Zhang, Jingbo Shang, Carl Yang, Xian Li(参考訳) 属性値抽出などの情報抽出は、テキストのみに基づいて広く研究され、定式化されている。 しかし、多くの属性は、色、形状、パターンなど、画像に基づく抽出の恩恵を受けることができる。 視覚モダリティは、主にマルチモーダルなアノテーションの難しさから、長い間使われていなかった。 本稿では,テキスト化された属性情報抽出器に視覚的モダリティをパッチすることを目的とする。 C1) 画像とテキスト記述は、サンプル内とサンプル間の疎結合である; (C2) 画像は通常、予測を誤解させる可能性のある豊富な背景を含んでいる; (C3) テキスト確立された抽出器からの弱い教師付きラベルは、マルチモーダルトレーニングに偏っている。 本稿では,3つのバイアス低減方式を備えたエンコーダ・デコーダアーキテクチャであるPV2TEAについて述べる。 (S1) ラベルの平滑化コントラストを改良し,ゆるやかにペアリングされた画像とテキストの相互アライメントを改善する; (S2) 視覚的前景を適応的に区別するアテンション・プルーニング; (S3) ラベルのテキストバイアスを軽減する2段階の近傍正規化。 実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。

Information extraction, e.g., attribute value extraction, has been extensively studied and formulated based only on text. However, many attributes can benefit from image-based extraction, like color, shape, pattern, among others. The visual modality has long been underutilized, mainly due to multimodal annotation difficulty. In this paper, we aim to patch the visual modality to the textual-established attribute information extractor. The cross-modality integration faces several unique challenges: (C1) images and textual descriptions are loosely paired intra-sample and inter-samples; (C2) images usually contain rich backgrounds that can mislead the prediction; (C3) weakly supervised labels from textual-established extractors are biased for multimodal training. We present PV2TEA, an encoder-decoder architecture equipped with three bias reduction schemes: (S1) Augmented label-smoothed contrast to improve the cross-modality alignment for loosely-paired image and text; (S2) Attention-pruning that adaptively distinguishes the visual foreground; (S3) Two-level neighborhood regularization that mitigates the label textual bias via reliability estimation. Empirical results on real-world e-Commerce datasets demonstrate up to 11.74% absolute (20.97% relatively) F1 increase over unimodal baselines.
翻訳日:2023-06-05 18:42:38 公開日:2023-06-01
# 事前学習音声モデルのモデル伝達可能性の推定法

How to Estimate Model Transferability of Pre-Trained Speech Models? ( http://arxiv.org/abs/2306.01015v1 )

ライセンス: Link先を確認
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shou-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath(参考訳) 本研究では,学習対象タスクに対する事前学習音声モデル(PSM)の伝達可能性を評価するための'スコアベースアセスメント'フレームワークを提案する。 我々は,ベイズ推定法と最適移動法という2つの表現理論を用いて,抽出した表現を用いてpsm候補のランクスコアを生成する。 提案手法は, 時間的独立仮説を定めて, 候補モデルやレイヤの微調整をすることなく, 転送可能性スコアを効率的に計算する。 公開データを用いて,一般的な教師付き音声モデル (Conformer RNN-Transducerなど) と自己教師付き音声モデル (HuBERTなど) をクロス層およびクロスモデル設定で評価する。 実験の結果,スピアマンのランク相関は高く,評価フレームワークと微調整の土台真実との間にはp$-値が低いことがわかった。 提案する転送性フレームワークは計算時間と資源を少なくし,音声基礎モデルをチューニングするための資源節約と時間効率のアプローチとなる。

In this work, we introduce a ``score-based assessment'' framework for estimating the transferability of pre-trained speech models (PSMs) for fine-tuning target tasks. We leverage upon two representation theories, Bayesian likelihood estimation and optimal transport, to generate rank scores for the PSM candidates using the extracted representations. Our framework efficiently computes transferability scores without actual fine-tuning of candidate models or layers by making a temporal independent hypothesis. We evaluate some popular supervised speech models (e.g., Conformer RNN-Transducer) and self-supervised speech models (e.g., HuBERT) in cross-layer and cross-model settings using public data. Experimental results show a high Spearman's rank correlation and low $p$-value between our estimation framework and fine-tuning ground truth. Our proposed transferability framework requires less computational time and resources, making it a resource-saving and time-efficient approach for tuning speech foundation models.
翻訳日:2023-06-05 18:42:11 公開日:2023-06-01
# 時間進化グラフのためのグラフレベル埋め込み

Graph-Level Embedding for Time-Evolving Graphs ( http://arxiv.org/abs/2306.01012v1 )

ライセンス: Link先を確認
Lili Wang, Chenghan Huang, Weicheng Ma, Xinyuan Cao, and Soroush Vosoughi(参考訳) グラフ表現学習(ネットワーク埋め込みとも呼ばれる)は、ノードからグラフまで、様々なレベルの粒度で広く研究されている。 この分野でのほとんどの先行研究はノードレベルの表現に焦点を当てているが、グラフレベルの埋め込み、特に動的ネットワークや時間的ネットワークに関する限られた研究が行われている。 しかし、動的ネットワークに対する低次元グラフレベルの表現の学習は、時間グラフ類似度ランキング、時間グラフ同型、異常検出などの下流グラフ検索タスクにおいて重要である。 本稿では,このギャップに対処する時間グラフレベルの埋め込み手法を提案する。 提案手法では,多層グラフの構築と時間的バックトラックを用いたランダムウォークを用いて,グラフノードの時間的コンテキストを生成する。 次に、これらのコンテキストで"ドキュメントレベル"言語モデルをトレーニングして、グラフレベルの埋め込みを生成します。 提案手法は, 時間グラフ類似度ランキングの課題として, 公開されている5つのデータセット上で提案モデルを評価し, ベースライン法を上回っている。 実験により,動的ネットワークに対するグラフレベルの埋め込み生成における本手法の有効性を実証した。

Graph representation learning (also known as network embedding) has been extensively researched with varying levels of granularity, ranging from nodes to graphs. While most prior work in this area focuses on node-level representation, limited research has been conducted on graph-level embedding, particularly for dynamic or temporal networks. However, learning low-dimensional graph-level representations for dynamic networks is critical for various downstream graph retrieval tasks such as temporal graph similarity ranking, temporal graph isomorphism, and anomaly detection. In this paper, we present a novel method for temporal graph-level embedding that addresses this gap. Our approach involves constructing a multilayer graph and using a modified random walk with temporal backtracking to generate temporal contexts for the graph's nodes. We then train a "document-level" language model on these contexts to generate graph-level embeddings. We evaluate our proposed model on five publicly available datasets for the task of temporal graph similarity ranking, and our model outperforms baseline methods. Our experimental results demonstrate the effectiveness of our method in generating graph-level embeddings for dynamic networks.
翻訳日:2023-06-05 18:41:55 公開日:2023-06-01
# 同時運動量と位置測定とインストゥルメンタルワイル・ハイゼンベルク群

Simultaneous Momentum and Position Measurement and the Instrumental Weyl-Heisenberg Group ( http://arxiv.org/abs/2306.01045v1 )

ライセンス: Link先を確認
Christopher S. Jackson and Carlton M. Caves(参考訳) 標準可換関係、$[Q,P] = i\hbar$ は量子論の基礎とヒルベルト空間の原点である。 可観測性としての$P$ & $Q$の解釈は、ヒルベルト空間のユニタリ変換と古典位相空間の正準変換(つまり接触)の間の類似に常に依存している。 量子測度の理論は本質的に完備である(これはしばらく時間がかかった)ため、一元変換ではなく正の変換に関する量子論の基礎を定める方法で正の可換関係を再考することができる。 本稿では,同時計測の概念が基本的な微分幾何学問題にどのようにつながるかを示し,その解を次のように示す。 同時計測 (p$ & $q$) 測定 (spqm) は,7次元多様体の形をとる普遍計測器を定義し,それをインストゥルメンタルワイル・ハイゼンベルク群 (iwh) と呼ぶ。 群 IWH は、正の演算値測度 (POVM) がエネルギー量子化の完全な代替となるほど、予期せぬ方法で古典位相空間にアイデンティティを接続する。 5つの次元は、容易に認識し理解できるプロセスを定義する。 他の2次元、IWHの中心における正規化と位相は、あまり知られていない。 正規化は特に、SPQMを記述し理解するために特別な処理を必要とする。

The canonical commutation relation, $[Q,P] = i\hbar$, stands at the foundation of quantum theory and the original Hilbert space. The interpretation of $P$ & $Q$ as observables has always relied on the analogies that exist between the unitary transformations of Hilbert space and the canonical (a.k.a. contact) transformations of classical phase space. Now that the theory of quantum measurement is essentially complete (this took a while), it is possible to revisit the canonical commutation relation in a way that sets the foundation of quantum theory not on unitary transformations, but on positive transformations. This paper shows how the concept of simultaneous measurement leads to a fundamental differential geometric problem whose solution shows us the following: The simultaneous $P$ & $Q$ measurement (SPQM) defines a universal measuring instrument, which takes the shape of a 7-dimensional manifold, a universal covering group we call the Instrumental Weyl-Heisenberg Group, IWH. The group IWH connects the identity to classical phase space in unexpected ways that are significant enough that the positive-operator-valued measure (POVM) offers a complete alternative to energy quantization. Five of the dimensions define processes that can be easily recognized and understood. The other two dimensions, the normalization and phase in the center of IWH, are less familiar. The normalization, in particular, requires special handling in order to describe and understand the SPQM instrument.
翻訳日:2023-06-05 18:33:06 公開日:2023-06-01
# Cayley Graph Quotients の Clifford 軌道

Clifford Orbits from Cayley Graph Quotients ( http://arxiv.org/abs/2306.01043v1 )

ライセンス: Link先を確認
Cynthia Keeler, William Munizzi, Jason Pollack(参考訳) 我々は、Cayley グラフによる $n$-qubit Clifford 群 $\mathcal{C}_n$ の構造を説明し、その頂点は群要素を表し、エッジは生成元を表す。 与えられた量子状態に対するクリフォード・ゲートの作用を得るために、商手続きを導入する。 状態の安定化子部分群によるケイリーグラフの引用は、状態のクリフォード軌道を表す縮小グラフを与える。 このプロトコルを使って、arXiv:2204.07593で導入された到達可能性グラフを再現し、一般化する。 手順は状態非依存であるため、w状態やディッケ状態を含む非安定化状態まで研究を拡大する。 我々の新しい構造はクリフォード回路作用の下での状態進化をより正確に理解する。

We describe the structure of the $n$-qubit Clifford group $\mathcal{C}_n$ via Cayley graphs, whose vertices represent group elements and edges represent generators. In order to obtain the action of Clifford gates on a given quantum state, we introduce a quotient procedure. Quotienting the Cayley graph by the stabilizer subgroup of a state gives a reduced graph which depicts the state's Clifford orbit. Using this protocol for $\mathcal{C}_2$, we reproduce and generalize the reachability graphs introduced in arXiv:2204.07593. Since the procedure is state-independent, we extend our study to non-stabilizer states, including the W and Dicke states. Our new construction provides a more precise understanding of state evolution under Clifford circuit action.
翻訳日:2023-06-05 18:32:40 公開日:2023-06-01
# ランダム数保存量子回路からのユニタリk設計

Unitary k-designs from random number-conserving quantum circuits ( http://arxiv.org/abs/2306.01035v1 )

ライセンス: Link先を確認
Sumner N. Hearth, Michael O. Flynn, Anushya Chandran, and Chris R. Laumann(参考訳) 局所ランダム回路は効率的にスクランブルするので、量子情報や量子力学の応用範囲が広い。 しかし、グローバルな$U(1)$チャージにより、スクランブル能力は減少し、例えば、そのようなランダム回路は数保存ユニタリの全体を生成するわけではない。 我々は、k$-fold 複製回路の統計力学を用いて2つの結果を確立する。 まず,有限モーメントは,局所ランダム回路が生成するアンサンブルを,数保存ユニタリ群全体のハールアンサンブルから区別できないことを示す。 具体的には、回路は$k_c$-designと$k_c = O(L^d)$を、線形次元$L$のシステムに対して形成する。 第二に、$k < k_c$ に対して、深さ $\tau$ は $k$-design に収束し、$\tau \gtrsim k L^{d+2}$ となる。 対照的に、数保存のない$\tau \gtrsim k L^{d}$ である。 回路アンサンブルの収束はフラストレーションのない量子統計モデルの低エネルギー特性によって制御され、k$ $u(1)$ 対称性を自発的に破る。 関連するゴールドストーンモードはギャップがなく、予測スケーリングが$\tau$になる。 我々の変分境界は任意の空間次元とqudit次元に対して成り立つ。

Local random circuits scramble efficiently and accordingly have a range of applications in quantum information and quantum dynamics. With a global $U(1)$ charge however, the scrambling ability is reduced; for example, such random circuits do not generate the entire group of number-conserving unitaries. We establish two results using the statistical mechanics of $k$-fold replicated circuits. First, we show that finite moments cannot distinguish the ensemble that local random circuits generate from the Haar ensemble on the entire group of number conserving unitaries. Specifically, the circuits form a $k_c$-design with $k_c = O(L^d)$ for a system in $d$ spatial dimensions with linear dimension $L$. Second, for $k < k_c$, the depth $\tau$ to converge to a $k$-design scales as $\tau \gtrsim k L^{d+2}$. In contrast, without number conservation $\tau \gtrsim k L^{d}$. The convergence of the circuit ensemble is controlled by the low-energy properties of a frustration-free quantum statistical model which spontaneously breaks $k$ $U(1)$ symmetries. The associated Goldstone modes are gapless and lead to the predicted scaling of $\tau$. Our variational bounds hold for arbitrary spatial and qudit dimensions; we conjecture they are tight.
翻訳日:2023-06-05 18:32:26 公開日:2023-06-01
# 単一正のマルチラベル学習のための擬似ラベル

Pseudo Labels for Single Positive Multi-Label Learning ( http://arxiv.org/abs/2306.01034v1 )

ライセンス: Link先を確認
Julio Arroyo(参考訳) データアノテーションのコストは、マルチラベル画像分類の実質的な障害であり、すべての画像において、すべてのカテゴリは、現在または欠落としてラベル付けされなければならない。 単一正のマルチラベル(spml)学習はコスト効率の良いソリューションであり、モデルが画像毎に単一の正のラベルでトレーニングされる。 したがって、SPMLは、欠落したラベルを扱う必要があるため、より困難なドメインである。 本研究では,1つの正のデータを完全なラベル付きデータに変換する手法を提案する。 教師ネットワークは基本的に、単一のポジティブラベルで訓練される。 そして,教師モデルのトレーニングデータに対する予測を地味ラベルとして扱い,学生ネットワークをフルラベル画像で訓練する。 この簡単なアプローチにより、学生モデルによって達成された性能が、実際の完全ラベル付き画像に基づいて訓練されたモデルの性能に近づくことを示す。

The cost of data annotation is a substantial impediment for multi-label image classification: in every image, every category must be labeled as present or absent. Single positive multi-label (SPML) learning is a cost-effective solution, where models are trained on a single positive label per image. Thus, SPML is a more challenging domain, since it requires dealing with missing labels. In this work, we propose a method to turn single positive data into fully-labeled data: Pseudo Multi-Labels. Basically, a teacher network is trained on single positive labels. Then, we treat the teacher model's predictions on the training data as ground-truth labels to train a student network on fully-labeled images. With this simple approach, we show that the performance achieved by the student model approaches that of a model trained on the actual fully-labeled images.
翻訳日:2023-06-05 18:31:55 公開日:2023-06-01
# 適応学習率にもかかわらず大規模マルチエージェント学習におけるカオスの持続

Chaos persists in large-scale multi-agent learning despite adaptive learning rates ( http://arxiv.org/abs/2306.01032v1 )

ライセンス: Link先を確認
Emmanouil-Vasileios Vlatakis-Gkaragkounis, Lampros Flokas and Georgios Piliouras(参考訳) マルチエージェント学習は本質的に難しく、単一のエージェント最適化よりも不安定で予測不能である。 このため、多くの専門的なヒューリスティックや技術が自己プレイにおける均衡への収束を達成するために設計されている。 そのような著名なアプローチの1つは、動的適応学習率の使用である。 このような手法は、小規模ゲームにおける収束保証を改善することが知られているが、エージェントの集団でより関連性の高い設定でそれらを分析することはずっと困難である。 本研究は, ユビキタスな乗算重み更新アルゴリズムにおいても, 適応的な学習率を用いても, 人口密集ゲームにおいてカオスが持続することを示すものである。 技術的なレベルでは、システムの非自発的性質から、不変集合、体積展開、乱流集合を含む力学の基本特性を研究することにより、従来の周期 3 技術の li-yorke を超越したアプローチである。 我々は,システムパラメータのわずかな変化が様々な予測不能な振る舞いを引き起こすことを示す実験によって,理論的な洞察を補完する。

Multi-agent learning is intrinsically harder, more unstable and unpredictable than single agent optimization. For this reason, numerous specialized heuristics and techniques have been designed towards the goal of achieving convergence to equilibria in self-play. One such celebrated approach is the use of dynamically adaptive learning rates. Although such techniques are known to allow for improved convergence guarantees in small games, it has been much harder to analyze them in more relevant settings with large populations of agents. These settings are particularly hard as recent work has established that learning with fixed rates will become chaotic given large enough populations.In this work, we show that chaos persists in large population congestion games despite using adaptive learning rates even for the ubiquitous Multiplicative Weight Updates algorithm, even in the presence of only two strategies. At a technical level, due to the non-autonomous nature of the system, our approach goes beyond conventional period-three techniques Li-Yorke by studying fundamental properties of the dynamics including invariant sets, volume expansion and turbulent sets. We complement our theoretical insights with experiments showcasing that slight variations to system parameters lead to a wide variety of unpredictable behaviors.
翻訳日:2023-06-05 18:31:32 公開日:2023-06-01
# バイパス時間分類:不完全書き起こしを用いた弱教師付き自動音声認識

Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts ( http://arxiv.org/abs/2306.01031v1 )

ライセンス: Link先を確認
Dongji Gao and Matthew Wiesner and Hainan Xu and Leibny Paola Garcia and Daniel Povey and Sanjeev Khudanpur(参考訳) 本稿では,不完全な学習データを持つ自動音声認識(asr)モデルを構築するための新しいアルゴリズムを提案する。 不完全書き起こし音声は、ASRモデルの性能を低下させる人間の注釈付き音声コーパスにおいて一般的な問題である。 この問題に対処するために,接続性時間分類(CTC)基準の拡張として,Bypass Temporal Classification (BTC)を提案する。 BTCは、トレーニング中に転写に関する不確実性を明示的にエンコードする。 これは、重み付き有限状態トランスデューサ(WFST)合成として実装されたトレーニンググラフの柔軟性を向上させることで達成される。 提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。 私たちの実装はオープンソースになります。

This paper presents a novel algorithm for building an automatic speech recognition (ASR) model with imperfect training data. Imperfectly transcribed speech is a prevalent issue in human-annotated speech corpora, which degrades the performance of ASR models. To address this problem, we propose Bypass Temporal Classification (BTC) as an expansion of the Connectionist Temporal Classification (CTC) criterion. BTC explicitly encodes the uncertainties associated with transcripts during training. This is accomplished by enhancing the flexibility of the training graph, which is implemented as a weighted finite-state transducer (WFST) composition. The proposed algorithm improves the robustness and accuracy of ASR systems, particularly when working with imprecisely transcribed speech corpora. Our implementation will be open-sourced.
翻訳日:2023-06-05 18:30:50 公開日:2023-06-01
# SPINEX: 機械学習における回帰・分類タスクの類似性に基づく予測と説明可能な近傍探索

SPINEX: Similarity-based Predictions and Explainable Neighbors Exploration for Regression and Classification Tasks in Machine Learning ( http://arxiv.org/abs/2306.01029v1 )

ライセンス: Link先を確認
M.Z. Naser, M.K. albashiti, A.Z. Naser(参考訳) 機械学習(ML)の分野は近年大きく進歩している。 しかし、多くの既存のアルゴリズムは解釈可能性に欠け、高次元と不均衡なデータを扱う。 本稿では,これらの制約に対処する新しい類似性に基づく解釈可能な近接探索アルゴリズムSPINEXを提案する。 このアルゴリズムは、アンサンブル学習と特徴インタラクション分析を組み合わせて、各特徴の予測への寄与を定量化し、特徴間の相互作用を識別することにより、正確な予測と有意義な洞察を実現する。 SPINEXの性能を評価するため,回帰処理と分類処理の両方において59種類の合成データセットと実データセットについて広範な実験を行った。 その結果、SPINEXは比較性能を達成でき、いくつかのシナリオでは、一般的に採用されているMLアルゴリズムよりも優れていることが示された。 同じ知見はSPINEXの有効性と競争力を示し、様々な実世界のアプリケーションに有望なアプローチである。

The field of machine learning (ML) has witnessed significant advancements in recent years. However, many existing algorithms lack interpretability and struggle with high-dimensional and imbalanced data. This paper proposes SPINEX, a novel similarity-based interpretable neighbor exploration algorithm designed to address these limitations. This algorithm combines ensemble learning and feature interaction analysis to achieve accurate predictions and meaningful insights by quantifying each feature's contribution to predictions and identifying interactions between features, thereby enhancing the interpretability of the algorithm. To evaluate the performance of SPINEX, extensive experiments on 59 synthetic and real datasets were conducted for both regression and classification tasks. The results demonstrate that SPINEX achieves comparative performance and, in some scenarios, may outperform commonly adopted ML algorithms. The same findings demonstrate the effectiveness and competitiveness of SPINEX, making it a promising approach for various real-world applications.
翻訳日:2023-06-05 18:30:29 公開日:2023-06-01
# Tsetlin マシンを用いたオンライン学習のためのFPGAアーキテクチャ

An FPGA Architecture for Online Learning using the Tsetlin Machine ( http://arxiv.org/abs/2306.01027v1 )

ライセンス: Link先を確認
Samuel Prescott and Adrian Wheeldon and Rishad Shafik and Tousif Rahman and Alex Yakovlev and Ole-Christoffer Granmo(参考訳) 教師なしの状況下で進化する機械学習モデルが必要である。 新たな分類が導入されたり、予期せぬ故障が発生したり、データセットが正常な操作中にシステムに提示されるデータポイントに比べて小さい場合があります。 ニューラルネットワークを用いたこのようなシステムの実装には、重要な数学的複雑さが伴う。 本稿では,オンライン学習のための新しいフィールドプログラミング可能なゲートアレイ基盤を提案し,tsetlin machineと呼ばれる低複雑さ機械学習アルゴリズムを実装した。 このインフラストラクチャは、ランタイム学習管理のためのカスタム設計のアーキテクチャを備え、オンチップのオフラインおよびオンライン学習を提供する。 このアーキテクチャを使用すると、推論が行われる前に、事前に分類されたデータで \ac{FPGA} 上でオンデマンドでトレーニングを実行することができる。 さらに、我々のアーキテクチャはオンライン学習を提供し、そこではトレーニングを運用中に推論とインターリーブすることができる。 Tsetlin Machine (TM) のトレーニングは、TMがさらにトレーニングされるにつれてフィードバックを発行する確率を減らすために使用される閾値ハイパーパラメータにも関連付けられる。 提案するアーキテクチャはモジュール化され、データ入力ソースの変更が容易になる一方で、組み込みのクロスバリデーションインフラストラクチャでは、システムテスト中に信頼性と代表的な結果が得られる。 提案するインフラを用いたオンライン学習のユースケースについて,エネルギー/性能/精度のトレードオフを実証する。

There is a need for machine learning models to evolve in unsupervised circumstances. New classifications may be introduced, unexpected faults may occur, or the initial dataset may be small compared to the data-points presented to the system during normal operation. Implementing such a system using neural networks involves significant mathematical complexity, which is a major issue in power-critical edge applications. This paper proposes a novel field-programmable gate-array infrastructure for online learning, implementing a low-complexity machine learning algorithm called the Tsetlin Machine. This infrastructure features a custom-designed architecture for run-time learning management, providing on-chip offline and online learning. Using this architecture, training can be carried out on-demand on the \ac{FPGA} with pre-classified data before inference takes place. Additionally, our architecture provisions online learning, where training can be interleaved with inference during operation. Tsetlin Machine (TM) training naturally descends to an optimum, with training also linked to a threshold hyper-parameter which is used to reduce the probability of issuing feedback as the TM becomes trained further. The proposed architecture is modular, allowing the data input source to be easily changed, whilst inbuilt cross-validation infrastructure allows for reliable and representative results during system testing. We present use cases for online learning using the proposed infrastructure and demonstrate the energy/performance/accuracy trade-offs.
翻訳日:2023-06-05 18:30:13 公開日:2023-06-01
# 相対論的量子力学の新しい時空間アプローチによる量子計測の謎の解明

Unraveling the Mystery of Quantum Measurement with A New Space-Time Approach to Relativistic Quantum Mechanics ( http://arxiv.org/abs/2306.01026v1 )

ライセンス: Link先を確認
Wei Wen(参考訳) 量子計測は量子力学の分野における基本的な概念である。 量子計測の作用は、測定された量子系の重畳状態が一定の出力状態へと導かれるため、量子力学と古典力学の矛盾を解消するだけでなく、読み書きを含む量子状態の操作を促進する。 その重要性にもかかわらず、ランダム性、瞬時性、非可逆性、好ましくないという4つの根本的な問題は、量子測定の幅広い応用と量子力学の総合的な理解に重大な課題をもたらし続けている。 本研究では,相対論的量子力学に新しい時空アプローチを適用し,この問題を体系的に解決する。 このアプローチは、量子計測と量子ユニタリ進化の複雑な関係の包括的解明と、非局所相関と相対論的理論の相互依存性の深い解析を提供する。 これにより、量子力学における伝統的な時間発展方程式を超えて、より基本的な力学理論が明らかにされ、量子測定の公理が自然に系として現れる。 これらの知見は関連分野の発展に寄与し、量子力学の分野における将来の研究と応用に潜在的に示唆されている。

Quantum measurement is a fundamental concept in the field of quantum mechanics. The action of quantum measurement, leading the superposition state of the measured quantum system into a definite output state, not only reconciles contradictions between quantum and classical mechanics but also facilitates quantum state manipulations, including reading and resetting. Despite its significance, four fundamental issues -- randomness, instantaneousness, irreversibility, and preferred-basis -- continue to pose significant challenges to the broader application of quantum measurement and our overall understanding of quantum mechanics. In this work, we employ a new space-time approach to relativistic quantum mechanics to address these issues systematically. Our approach provides a comprehensive elucidation of the intricate connections between quantum measurement and quantum unitary evolution, as well as an in-depth analysis for the interdependence of non-local correlations and relativistic theories. We thereby reveal a more fundamental dynamical theory, beyond the traditional time-evolution equation in quantum mechanics, where the axioms of quantum measurement naturally emerge as a corollary. These findings contribute to the advancement of related fields, and our work holds potential implications for future research and applications in the realm of quantum mechanics.
翻訳日:2023-06-05 18:29:49 公開日:2023-06-01
# ビトゥルフォース型スウォームアルゴリズムによるバランスの取れた円形バンドル問題の解法

A Vitual-Force Based Swarm Algorithm for Balanced Circular Bin Packing Problems ( http://arxiv.org/abs/2306.01021v1 )

ライセンス: Link先を確認
Juliette Gamot, Mathieu Balesdent, Romain Wuilbercq, Arnault Tremolet, Nouredine Melab, El-Ghazali Talbi(参考訳) バランスの取れた円形ビンパッキング問題は、平衡制約を満たすとともに、円形容器の半径を最小化するために、所定の数の重み付き円を配置することである。 これらの問題はNPハードで、非常に制約があり、次元である。 本稿では,バランスの取れた円ビン充填問題を解くために,仮想力システムに基づくスウォームアルゴリズムを提案する。 提案手法では,各コンポーネントに力の系を適用し,制約を考慮し,動力学の基本原理を用いて目的関数を最小化する。 提案アルゴリズムは,最大300円のバランスの取れた円箱包装問題のベンチマークを用いて実験・検証を行った。 報告された結果から,提案手法の有効性を文献による既存の結果と比較して評価することができる。

Balanced circular bin packing problems consist in positioning a given number of weighted circles in order to minimize the radius of a circular container while satisfying equilibrium constraints. These problems are NP-hard, highly constrained and dimensional. This paper describes a swarm algorithm based on a virtual-force system in order to solve balanced circular bin packing problems. In the proposed approach, a system of forces is applied to each component allowing to take into account the constraints and minimizing the objective function using the fundamental principle of dynamics. The proposed algorithm is experimented and validated on benchmarks of various balanced circular bin packing problems with up to 300 circles. The reported results allow to assess the effectiveness of the proposed approach compared to existing results from the literature.
翻訳日:2023-06-05 18:29:27 公開日:2023-06-01
# 自然言語理解のための変圧器の量子化とテンソル圧縮訓練

Quantization-Aware and Tensor-Compressed Training of Transformers for Natural Language Understanding ( http://arxiv.org/abs/2306.01076v1 )

ライセンス: Link先を確認
Zi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang(参考訳) 微調整トランスフォーマーモデルは、多くの自然言語タスクにおいて優れた性能を示している。 しかし、大きなモデルサイズは、リソース制約のあるデバイスに高性能トランスフォーマーモデルを展開することを禁止している。 本稿では,モデルサイズ,演算演算,最終的にトランスフォーマーモデルの実行待ち時間を削減するために,量子化認識テンソル圧縮トレーニング手法を提案する。 我々はトランスの埋め込み層と線形層を小さな低ランクテンソルコアに圧縮し、モデルパラメータを著しく削減する。 テンソル圧縮モデルの低精度表現を得るために、学習可能なスケール因子を用いた量子化アウェアトレーニングを用いる。 開発されたアプローチは、エンドツーエンドのトレーニングと蒸留ベースのトレーニングの両方に使用できる。 収束性を向上させるため, 既訓練変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。 パフォーマンスは2つの自然言語理解タスクで実証され、最大63\times$の圧縮率、精度の低下、驚くべき推論とトレーニングのスピードアップが示される。

Fine-tuned transformer models have shown superior performances in many natural language tasks. However, the large model size prohibits deploying high-performance transformer models on resource-constrained devices. This paper proposes a quantization-aware tensor-compressed training approach to reduce the model size, arithmetic operations, and ultimately runtime latency of transformer-based models. We compress the embedding and linear layers of transformers into small low-rank tensor cores, which significantly reduces model parameters. A quantization-aware training with learnable scale factors is used to further obtain low-precision representations of the tensor-compressed models. The developed approach can be used for both end-to-end training and distillation-based training. To improve the convergence, a layer-by-layer distillation is applied to distill a quantized and tensor-compressed student model from a pre-trained transformer. The performance is demonstrated in two natural language understanding tasks, showing up to $63\times$ compression ratio, little accuracy loss and remarkable inference and training speedup.
翻訳日:2023-06-05 18:23:24 公開日:2023-06-01
# 3次元キーポイントを用いた歩行者横断行動認識と軌道予測

Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D Human Keypoints ( http://arxiv.org/abs/2306.01075v1 )

ライセンス: Link先を確認
Jiachen Li, Xinwei Shi, Feiyu Chen, Jonathan Stroud, Zhishuai Zhang, Tian Lan, Junhua Mao, Jeonhyung Kang, Khaled S. Refaat, Weilong Yang, Eugene Ie, Congcong Li(参考訳) 人間の行動の正確な理解と予測は自動運転車にとって重要な前提条件であり、特に密集した都市部の交差点のような高度にダイナミックでインタラクティブなシナリオでは重要である。 本研究は,横断歩行者の識別と今後の軌跡の予測を目的とする。 これらの目的を達成するためには,道路形状や交通参加者の文脈情報だけでなく,人間の行動や動き,行動など,人間のキーポイントから推測できる詳細な情報も必要である。 本稿では,センサデータから抽出した3次元キーポイントを用いて,歩行者横断行動認識と軌跡予測のためのマルチタスク学習フレームワークを提案する。 さらに,2つの補助タスクと対照学習を適用し,補助監督による学習キーポイント表現の改善を可能にし,主要なタスクの性能をさらに高めることを提案する。 当社のアプローチは,大規模社内データセットと公開ベンチマークデータセット上で検証し,幅広い評価指標で最先端のパフォーマンスを実現することを実証する。 各モデル成分の有効性を詳細なアブレーション研究で検証する。

Accurate understanding and prediction of human behaviors are critical prerequisites for autonomous vehicles, especially in highly dynamic and interactive scenarios such as intersections in dense urban areas. In this work, we aim at identifying crossing pedestrians and predicting their future trajectories. To achieve these goals, we not only need the context information of road geometry and other traffic participants but also need fine-grained information of the human pose, motion and activity, which can be inferred from human keypoints. In this paper, we propose a novel multi-task learning framework for pedestrian crossing action recognition and trajectory prediction, which utilizes 3D human keypoints extracted from raw sensor data to capture rich information on human pose and activity. Moreover, we propose to apply two auxiliary tasks and contrastive learning to enable auxiliary supervisions to improve the learned keypoints representation, which further enhances the performance of major tasks. We validate our approach on a large-scale in-house dataset, as well as a public benchmark dataset, and show that our approach achieves state-of-the-art performance on a wide range of evaluation metrics. The effectiveness of each model component is validated in a detailed ablation study.
翻訳日:2023-06-05 18:23:07 公開日:2023-06-01
# 階層型注意エンコーダデコーダ

Hierarchical Attention Encoder Decoder ( http://arxiv.org/abs/2306.01070v1 )

ライセンス: Link先を確認
Asier Mujika(参考訳) 近年の大規模言語モデルの進歩により、自己回帰モデリングは多くの実世界のアプリケーションを持つ複雑で新しいシーケンスを生成することができる。 しかし、これらのモデルはアウトプットを自動回帰的に生成し、長いシーケンスを扱うのに時間がかかる。 圧縮データを圧縮する階層的自己回帰的アプローチが提案されているが、これらの手法は依然として元のデータ周波数で出力を生成し、低速かつメモリ集約的なモデルとなる。 本稿では,階層型再帰エンコーダデコーダ(hred)アーキテクチャに基づくモデルを提案する。 このモデルは、グローバルコンテキストのない入力サブシーケンスを独立に符号化し、これらのシーケンスを低周波モデルを用いて処理し、元のデータ周波数で出力を復号する。 エンコーダを暗黙的に定義された埋め込み行列として解釈し、サンプルソフトマックス推定を用いて、階層的アプローチの最もメモリと計算集約的な部分である高周波デコーダを使わずにモデル全体を訓練できる訓練アルゴリズムを開発する。 最後の短いフェーズでは、デコーダをトレーニングして、元の粒度でデータを生成する。 本アルゴリズムは,自己回帰モデルの学習に必要なメモリを著しく削減し,また,壁面の総時間も改善する。

Recent advances in large language models have shown that autoregressive modeling can generate complex and novel sequences that have many real-world applications. However, these models must generate outputs autoregressively, which becomes time-consuming when dealing with long sequences. Hierarchical autoregressive approaches that compress data have been proposed as a solution, but these methods still generate outputs at the original data frequency, resulting in slow and memory-intensive models. In this paper, we propose a model based on the Hierarchical Recurrent Encoder Decoder (HRED) architecture. This model independently encodes input sub-sequences without global context, processes these sequences using a lower-frequency model, and decodes outputs at the original data frequency. By interpreting the encoder as an implicitly defined embedding matrix and using sampled softmax estimation, we develop a training algorithm that can train the entire model without a high-frequency decoder, which is the most memory and compute-intensive part of hierarchical approaches. In a final, brief phase, we train the decoder to generate data at the original granularity. Our algorithm significantly reduces memory requirements for training autoregressive models and it also improves the total training wall-clock time.
翻訳日:2023-06-05 18:22:50 公開日:2023-06-01
# TimelineQA: タイムラインに対する質問回答のベンチマーク

TimelineQA: A Benchmark for Question Answering over Timelines ( http://arxiv.org/abs/2306.01069v1 )

ライセンス: Link先を確認
Wang-Chiew Tan, Jane Dwivedi-Yu, Yuliang Li, Lambert Mathias, Marzieh Saeidi, Jing Nathan Yan, Alon Y. Halevy(参考訳) ライフログ(Lifelog)とは、人生で経験した経験を記述したものである。 lifelogsは、オンライン写真、地図、ショッピング、コンテンツストリーミングサービスなど、多数のデジタルサービスからのデータを使って作成される。 ライフログに対する質問応答は、文脈でアドバイスを提供しようとするときに、パーソナルアシスタントに重要なリソースを提供する。 しかしながら、ライフログに関する質問に対する回答を得ることは、様々な理由から質問応答技術の現状を超えており、最も顕著なのは、ライフログが自由テキストと時間的・地理的情報といったある程度の構造を結合していることである。 ライフログのクエリの進捗を加速するベンチマークであるTimelineQA1を作成した。 TimelineQAは想像上の人々のライフログを生成する。 ライフログのエピソードは、高校卒業などの主要な人生のエピソードから、走りに行くなど日常的に起こるエピソードまで様々である。 本稿では,いくつかの最先端QAモデルを用いたTimelineQA実験について述べる。 実験の結果,原子クエリでは,抽出QAシステムは最先端の検索拡張QAシステムよりも大幅に優れていた。 集約を含むマルチホップクエリでは,回答を導出するエピソードの根本的真理セットが利用可能であることを前提として,最先端のテーブルQA技術を用いて最良の結果が得られることを示す。

Lifelogs are descriptions of experiences that a person had during their life. Lifelogs are created by fusing data from the multitude of digital services, such as online photos, maps, shopping and content streaming services. Question answering over lifelogs can offer personal assistants a critical resource when they try to provide advice in context. However, obtaining answers to questions over lifelogs is beyond the current state of the art of question answering techniques for a variety of reasons, the most pronounced of which is that lifelogs combine free text with some degree of structure such as temporal and geographical information. We create and publicly release TimelineQA1, a benchmark for accelerating progress on querying lifelogs. TimelineQA generates lifelogs of imaginary people. The episodes in the lifelog range from major life episodes such as high school graduation to those that occur on a daily basis such as going for a run. We describe a set of experiments on TimelineQA with several state-of-the-art QA models. Our experiments reveal that for atomic queries, an extractive QA system significantly out-performs a state-of-the-art retrieval-augmented QA system. For multi-hop queries involving aggregates, we show that the best result is obtained with a state-of-the-art table QA technique, assuming the ground truth set of episodes for deriving the answer is available.
翻訳日:2023-06-05 18:22:29 公開日:2023-06-01
# シリコンフォトニックチップ上の量子状態の忠実度推定

Fidelity estimation of quantum states on a silicon photonic chip ( http://arxiv.org/abs/2306.01068v1 )

ライセンス: Link先を確認
Sabine Wollmann, Xiaogang Qiang, Ashley Montanaro, Noah Linden, and Jonathan C.F. Matthews(参考訳) 2つの量子状態の「近接性」の尺度として、忠実性は量子情報理論において基本的な役割を果たす。 忠実度推定プロトコルは、実験から得られた情報と、その実装の効率のバランスを、プロトコルが消費する状態の数の観点から取ろうとする。 ここでは、2量子状態の忠実度推定のために、以前に報告された最適状態検証プロトコル(Phys. Rev. 120, 170502, 2018)を適用する。 完全プログラム可能なシリコンフォトニック2量子ビットチップを用いて実験を行った。 提案プロトコルは、他の広く使われている推定プロトコルと比較して、ポイント推定の誤差バーを著しく小さくし、実用的な装置によって生成された量子状態の忠実度を推定する能力の明確な進歩を示す。

As a measure of the 'closeness' of two quantum states, fidelity plays a fundamental role in quantum information theory. Fidelity estimation protocols try to strike a balance between information gleaned from an experiment, and the efficiency of its implementation, in terms of the number of states consumed by the protocol. Here we adapt a previously reported optimal state verification protocol (Phys. Rev. Lett. 120, 170502, 2018) for fidelity estimation of two-qubit states. We demonstrate the protocol experimentally using a fully-programmable silicon photonic two-qubit chip. Our protocol outputs significantly smaller error bars of its point estimate in comparison with another widely-used estimation protocol, showing a clear step forward in the ability to estimate the fidelity of quantum states produced by a practical device.
翻訳日:2023-06-05 18:22:09 公開日:2023-06-01
# 監視量子イジング鎖における偽真空崩壊に対するモンテカルロ行列生成状態のアプローチ

Monte Carlo matrix-product-state approach to the false vacuum decay in the monitored quantum Ising chain ( http://arxiv.org/abs/2306.01067v1 )

ライセンス: Link先を確認
Jeff Maki, Anna Berti, Iacopo Carusotto, Alberta Biella(参考訳) 本研究では, 強磁性量子イジング鎖の局所磁化の連続的なモニタリングにより, 弱長手磁場下での真空崩壊を特徴付ける。 準安定状態, 偽真空でシステムを初期化することにより, 真真空の共鳴気泡を生成するコヒーレントダイナミクスと, 熱を誘導し量子相関の量を減少させる測定との競合について検討する。 この目的のために, 行列積状態と確率的量子軌道との組合せに基づく数値的手法を応用し, 連続的測定の存在下で相互作用する多体系の軌道分解非平衡ダイナミクスのシミュレーションを可能にする。 測定値の存在が真空崩壊にどのように影響するかを示す。短時間で局所的な最小値からの離脱が加速され、長い時間でシステムは無限温度の非コヒーレント混合物に熱化する。 大きな測定レートでは、システムは量子ゼノレジームに入る。 擬似真空崩壊と熱化物理学は、磁化、連結相関関数、軌道分解エントロピーによって特徴づけられる。

In this work we characterize the false vacuum decay in the ferromagnetic quantum Ising chain with a weak longitudinal field subject to continuous monitoring of the local magnetization. Initializing the system in a metastable state, the false vacuum, we study the competition between coherent dynamics, which tends to create resonant bubbles of the true vacuum, and measurements which induce heating and reduce the amount of quantum correlations. To this end we exploit a numerical approach based on the combination of matrix product states with stochastic quantum trajectories which allows for the simulation of the trajectory-resolved non-equilibrium dynamics of interacting many-body systems in the presence of continuous measurements. We show how the presence of measurements affects the false vacuum decay: at short times the departure from the local minimum is accelerated while at long times the system thermalizes to an infinite-temperature incoherent mixture. For large measurement rates the system enters a quantum Zeno regime. The false vacuum decay and the thermalization physics are characterized in terms of the magnetization, connected correlation function, and the trajectory-resolved entanglement entropy.
翻訳日:2023-06-05 18:21:55 公開日:2023-06-01
# 深部補強学習によるモリス水迷路の航法戦略の検討

Investigating Navigation Strategies in the Morris Water Maze through Deep Reinforcement Learning ( http://arxiv.org/abs/2306.01066v1 )

ライセンス: Link先を確認
Andrew Liu, Alla Borisyuk(参考訳) ナビゲーションは、動物と人間の長い研究の歴史を持つ複雑な技術である。 本研究では,モリス水迷路を2次元でシミュレートし,深層強化学習エージェントを訓練する。 ナビゲーション戦略の自動分類を行い, 人工エージェントが使用する戦略の分布を解析し, 実験データと比較し, 人間やげっ歯類に見られるような学習動態を示す。 環境特異的な補助タスクを開発し,その有用性に影響を与える要因を検討する。 我々は、最も有益なタスクは、実際のエージェントの使用がより生物学的に可能であることを示唆する。 最後に,人工エージェントニューラルネットワークの活性化における内部表現の開発について検討する。 これらの表現はマウスの脳にある場所細胞や頭部指向細胞に似ており、それらの存在は人工エージェントが採用するナビゲーション戦略と相関している。

Navigation is a complex skill with a long history of research in animals and humans. In this work, we simulate the Morris Water Maze in 2D to train deep reinforcement learning agents. We perform automatic classification of navigation strategies, analyze the distribution of strategies used by artificial agents, and compare them with experimental data to show similar learning dynamics as those seen in humans and rodents. We develop environment-specific auxiliary tasks and examine factors affecting their usefulness. We suggest that the most beneficial tasks are potentially more biologically feasible for real agents to use. Lastly, we explore the development of internal representations in the activations of artificial agent neural networks. These representations resemble place cells and head-direction cells found in mouse brains, and their presence has correlation to the navigation strategies that artificial agents employ.
翻訳日:2023-06-05 18:21:38 公開日:2023-06-01
# 検索用拡張言語モデルの再検討

Reimagining Retrieval Augmented Language Models for Answering Queries ( http://arxiv.org/abs/2306.01061v1 )

ライセンス: Link先を確認
Wang-Chiew Tan, Yuliang Li, Pedro Rodriguez, Richard James, Xi Victoria Lin, Alon Halevy, Scott Yih(参考訳) 本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。 このような言語モデルは半パラメトリックであり、モデルが外部データソースからのモデルパラメータと知識を統合して予測を行う。 半パラメトリックアーキテクチャは、ビュー、クエリアナライザ/プランナ、および証明によって拡張され、精度と効率の点でより強力な質問応答システムを実現し、また他のNLPタスクにも適用可能であるという最初の実験結果を与える。

We present a reality check on large language models and inspect the promise of retrieval augmented language models in comparison. Such language models are semi-parametric, where models integrate model parameters and knowledge from external data sources to make their predictions, as opposed to the parametric nature of vanilla large language models. We give initial experimental findings that semi-parametric architectures can be enhanced with views, a query analyzer/planner, and provenance to make a significantly more powerful system for question answering in terms of accuracy and efficiency, and potentially for other NLP tasks
翻訳日:2023-06-05 18:21:25 公開日:2023-06-01
# モチベーション半古典重力:二成分量子系に対する古典量子近似

Motivating semiclassical gravity: a classical-quantum approximation for bipartite quantum systems ( http://arxiv.org/abs/2306.01060v1 )

ライセンス: Link先を確認
Viqar Husain, Irfan Javed, Sanjeev S. Seahra, and Nomaan X(参考訳) 完全量子力学から2成分量子系の広いクラスに対する「古典量子」近似スキームを導出する。 この近似では、1つのサブシステムは量子補正を伴う古典的な運動方程式によって進化し、もう1つのサブシステムは古典的な自由度によって伝達される運動方程式によって量子力学的に進化する。 摂動理論を用いて、サブシステムの絡み合いの増大率を推定し、サブシステムが初期製品状態から著しく絡み合うのに必要な時間を「スクランブルタイム」と推定する。 古典量子近似の妥当性に必要条件は、初期データの一般化されたボーア対応原理との整合性である。 非線形結合を持つ2つの振動子系の完全量子、完全古典、および古典量子力学を数値的に研究することで、一般形式性を説明する。 このシステムはパラメトリック共鳴を呈し、量子効果が後期のパラメトリック共鳴を焼成することを示す。 最後に、相互作用する発振器系のフォン・ノイマン絡み合いの平均値と、その総エネルギーとの興味深い深夜スケーリング関係を示す:$S\sim 2/3 \ln E$。

We derive a "classical-quantum" approximation scheme for a broad class of bipartite quantum systems from fully quantum dynamics. In this approximation, one subsystem evolves via classical equations of motion with quantum corrections, and the other subsystem evolves quantum mechanically with equations of motion informed by the evolving classical degrees of freedom. Using perturbation theory, we derive an estimate for the growth rate of entanglement of the subsystems and deduce a "scrambling time" - the time required for the subsystems to become significantly entangled from an initial product state. We argue that a necessary condition for the validity of the classical-quantum approximation is consistency of initial data with the generalized Bohr correspondence principle. We illustrate the general formalism by numerically studying the fully quantum, fully classical, and classical-quantum dynamics of a system of two oscillators with nonlinear coupling. This system exhibits parametric resonance, and we show that quantum effects quench parametric resonance at late times. Lastly, we present a curious late-time scaling relation between the average value of the von Neumann entanglement of the interacting oscillator system and its total energy: $S\sim 2/3 \ln E$.
翻訳日:2023-06-05 18:21:15 公開日:2023-06-01
# Layout-Infused Language ModelsはLayout Distribution Shiftsにロバストか? 科学文書を用いた事例研究

Are Layout-Infused Language Models Robust to Layout Distribution Shifts? A Case Study with Scientific Documents ( http://arxiv.org/abs/2306.01058v1 )

ライセンス: Link先を確認
Catherine Chen, Zejiang Shen, Dan Klein, Gabriel Stanovsky, Doug Downey and Kyle Lo(参考訳) 近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。 レイアウトを融合したlmmは、慣れ親しんだレイアウト機能を持つ文書(例えば、同じ出版社の論文)で評価されることが多いが、実際には、テキストサイズやスタイルの新しい組み合わせ、テキスト要素の新しい空間構成など、レイアウト特徴の見慣れない分布を持つ文書に遭遇する。 本研究は,レイアウト注入型LMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。 ケーススタディとして、科学論文をその構造カテゴリ(例えば、「タイトル」、「捕獲」、「参照」など)に分割し、科学的文書構造回復のタスクを用いる。 実際に発生する分散シフトをエミュレートするために、GROTOAP2データセットを再分割する。 レイアウト分布下では,モデル性能が最大20 f1に低下することがわかった。 トレーニング多様性の増大のような単純なトレーニング戦略は、この劣化を35%以上の相対f1で減少させることができるが、実験済みのアウトオブディストリビューション条件では、モデルが分散性能に達しない。 本研究は,モデル評価中にレイアウト分布のシフトを考慮する必要性を浮き彫りにして,その評価を行う方法論を提案する。

Recent work has shown that infusing layout features into language models (LMs) improves processing of visually-rich documents such as scientific papers. Layout-infused LMs are often evaluated on documents with familiar layout features (e.g., papers from the same publisher), but in practice models encounter documents with unfamiliar distributions of layout features, such as new combinations of text sizes and styles, or new spatial configurations of textual elements. In this work we test whether layout-infused LMs are robust to layout distribution shifts. As a case study we use the task of scientific document structure recovery, segmenting a scientific paper into its structural categories (e.g., "title", "caption", "reference"). To emulate distribution shifts that occur in practice we re-partition the GROTOAP2 dataset. We find that under layout distribution shifts model performance degrades by up to 20 F1. Simple training strategies, such as increasing training diversity, can reduce this degradation by over 35% relative F1; however, models fail to reach in-distribution performance in any tested out-of-distribution conditions. This work highlights the need to consider layout distribution shifts during model evaluation, and presents a methodology for conducting such evaluations.
翻訳日:2023-06-05 18:20:56 公開日:2023-06-01
# インターネットをどう消したか

How We Ruined The Internet ( http://arxiv.org/abs/2306.01101v1 )

ライセンス: Link先を確認
Micah Beck Terry Moore(参考訳) 19世紀末、論理学者のC・S・パース(英語版)は「我々の知識は絶対ではなく、常に泳いでいるという教義」を「不確実性と不確定性の連続体」と定義した。 科学的実践の観点では、我々は仮定、証拠、そしてその後の経験が疑わしい結論のための議論を再検討する義務を負うことになる。 本稿では,インターネットアーキテクチャ開発の基盤となるもの,すなわち疎同期のポイント・ツー・ポイント・データグラム配信サービスが,世界規模でコンテンツやサービスを配信するアプリケーションを含むすべてのネットワークアプリケーションのニーズを十分に満たすことができるという仮定を検討する。 このような非同期・ポイント・ツー・マルチポイント・アプリケーションをサポートするための公開かつ手頃なメカニズムをネットワークコミュニティが提供できないことが,CDNやクラウドネットワークといったプライベート・オーバーレイ・インフラストラクチャの開発につながったかを検討する。 これらの初期目標と過大なオーバーレイインフラストラクチャーオペレータの独占的商業命令との矛盾は、最も利益率の高いアプリケーション(ソーシャルメディアなど)と戦略(ターゲット広告など)の負の影響によって生じる明らかな矛盾の重要な理由である、と我々は主張する。 我々は、パースの処方則に従って、この矛盾を解決することは、深い仮定を再考することによってのみ解決できると提案する。

At the end of the 19th century the logician C.S. Peirce coined the term "fallibilism" for the "... the doctrine that our knowledge is never absolute but always swims, as it were, in a continuum of uncertainty and of indeterminacy". In terms of scientific practice, this means we are obliged to reexamine the assumptions, the evidence, and the arguments for conclusions that subsequent experience has cast into doubt. In this paper we examine an assumption that underpinned the development of the Internet architecture, namely that a loosely synchronous point-to-point datagram delivery service could adequately meet the needs of all network applications, including those which deliver content and services to a mass audience at global scale. We examine how the inability of the Networking community to provide a public and affordable mechanism to support such asynchronous point-to-multipoint applications led to the development of private overlay infrastructure, namely CDNs and Cloud networks, whose architecture stands at odds with the Open Data Networking goals of the early Internet advocates. We argue that the contradiction between those initial goals and the monopolistic commercial imperatives of hypergiant overlay infrastructure operators is an important reason for the apparent contradiction posed by the negative impact of their most profitable applications (e.g., social media) and strategies (e.g., targeted advertisement). We propose that, following the prescription of Peirce, we can only resolve this contradiction by reconsidering some of our deeply held assumptions.
翻訳日:2023-06-05 18:13:03 公開日:2023-06-01
# ALO-VC:低遅延音声変換

ALO-VC: Any-to-any Low-latency One-shot Voice Conversion ( http://arxiv.org/abs/2306.01100v1 )

ライセンス: Link先を確認
Bohan Wang, Damien Ronssin, Milos Cernak(参考訳) 本稿では,非並列低遅延1ショット音声後部グラフ(PPG)に基づく音声変換手法であるALO-VCを提案する。 ALO-VCは、ターゲット話者からの1つの発声のみを使用して、任意の音声変換を可能にする。 提案するハイブリッド信号処理と機械学習パイプラインは、事前学習された話者エンコーダと、変換音声の韻律を予測するピッチ予測器と、音素の位置情報を伝える位置符号化を組み合わせたものである。 本稿では,事前学習したd-vector話者エンコーダを使用するALO-VC-Rと,ECAPA-TDNN話者エンコーダを用いた性能改善を行うALO-VC-Eの2つのシステムバージョンを紹介する。 ALO-VC-RとALO-VC-Eの両方が、VCTKデータセットと2つの外部データセットの非因果ベースラインシステムに匹敵する性能を達成できることを示す実験結果が得られた。 さらに、どちらのシステムも、55msのレイテンシと 0.78リアルタイムファクタを持つ単一のcpuコアにデプロイできる。 デモはオンラインで公開しています。

This paper presents ALO-VC, a non-parallel low-latency one-shot phonetic posteriorgrams (PPGs) based voice conversion method. ALO-VC enables any-to-any voice conversion using only one utterance from the target speaker, with only 47.5 ms future look-ahead. The proposed hybrid signal processing and machine learning pipeline combines a pre-trained speaker encoder, a pitch predictor to predict the converted speech's prosody, and positional encoding to convey the phoneme's location information. We introduce two system versions: ALO-VC-R, which uses a pre-trained d-vector speaker encoder, and ALO-VC-E, which improves performance using the ECAPA-TDNN speaker encoder. The experimental results demonstrate both ALO-VC-R and ALO-VC-E can achieve comparable performance to non-causal baseline systems on the VCTK dataset and two out-of-domain datasets. Furthermore, both proposed systems can be deployed on a single CPU core with 55 ms latency and 0.78 real-time factor. Our demo is available online.
翻訳日:2023-06-05 18:12:32 公開日:2023-06-01
# 涙のない高速な行列乗算:制約プログラミングアプローチ

Fast Matrix Multiplication Without Tears: A Constraint Programming Approach ( http://arxiv.org/abs/2306.01097v1 )

ライセンス: Link先を確認
Arnaud Deza, Chang Liu, Pashootan Vaezipoor, Elias B. Khalil(参考訳) $N \times M$行列と$M \times P$行列の乗算は、単純な$NMP$アプローチが示唆するよりも少ない乗算で行うことが知られている。 最も有名な例はストラッセンのアルゴリズムで、8つの乗法の代わりに 2$ 2$ の行列を 7 で乗算する。 これにより、高速行列乗法における制約満足度問題が発生し、出力行列上の正しさ制約を満たすために、$R < NMP$ 乗法項の集合を選択して組み合わせなければならない。 組み合わせ性が高いにもかかわらず、最近のAlphaTensorの深層強化学習アプローチのように、この問題は、その観点から徹底的に検討されていない。 本研究では, 高速行列乗算のための非可換アルゴリズムや, 非可換性を証明するための制約プログラミング手法を提案する。 本稿では, 対称性を破る制約と有効不等式を提案する。 実現可能な面では、スパース性に基づく問題分解と組み合わせた解法性能変動の活用により、高速行列乗算のより大きな(実現可能な)インスタンスの解を見つけることができる。 cpオプティマイザを用いた実験結果から,行列の高速行列乗算アルゴリズムを,短時間で3-\times 3$まで得ることができた。

It is known that the multiplication of an $N \times M$ matrix with an $M \times P$ matrix can be performed using fewer multiplications than what the naive $NMP$ approach suggests. The most famous instance of this is Strassen's algorithm for multiplying two $2\times 2$ matrices in 7 instead of 8 multiplications. This gives rise to the constraint satisfaction problem of fast matrix multiplication, where a set of $R < NMP$ multiplication terms must be chosen and combined such that they satisfy correctness constraints on the output matrix. Despite its highly combinatorial nature, this problem has not been exhaustively examined from that perspective, as evidenced for example by the recent deep reinforcement learning approach of AlphaTensor. In this work, we propose a simple yet novel Constraint Programming approach to find non-commutative algorithms for fast matrix multiplication or provide proof of infeasibility otherwise. We propose a set of symmetry-breaking constraints and valid inequalities that are particularly helpful in proving infeasibility. On the feasible side, we find that exploiting solver performance variability in conjunction with a sparsity-based problem decomposition enables finding solutions for larger (feasible) instances of fast matrix multiplication. Our experimental results using CP Optimizer demonstrate that we can find fast matrix multiplication algorithms for matrices up to $3\times 3$ in a short amount of time.
翻訳日:2023-06-05 18:12:12 公開日:2023-06-01
# 大バッチ・ニューラル多目的ベイズ最適化

Large-Batch, Neural Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2306.01095v1 )

ライセンス: Link先を確認
Navid Ansari, Hans-Peter Seidel, Vahid Babaei(参考訳) ベイズ最適化はブラックボックスと高価な評価関数のグローバル最適化のための強力なフレームワークを提供する。 しかし、デフォルトのガウスプロセスサロゲートのスケーラビリティが低かったため、特に多目的設定において、データ集約的な問題を扱う能力に制限がある。 これらの制約に対処するための新しいベイズ最適化フレームワークを提案する。 本手法は,ベイズ型ニューラルネットワークを用いてサロゲートモデリングを行う。 これにより、大量のデータを効率的に処理し、複雑な問題をモデル化し、予測の不確実性を生成することができる。 さらに,提案手法は,よく知られた,容易にデプロイ可能なNSGA-IIに基づく,スケーラブルで不確実性を考慮した買収戦略を取り入れている。 この完全並列化戦略は、未編入領域の効率的な探索を促進する。 我々のフレームワークは、最小限のイテレーション数でデータ集約環境における効果的な最適化を可能にします。 本手法を最先端の多目的最適化と比較し,その優越性を示す。 実世界の2つの問題であるエアフォイルデザインとカラー印刷について評価を行い,提案手法の適用性と効率性を示す。 コードは、https://github.com/an-on-ym-ous/lbn\_moboで入手できる。

Bayesian optimization provides a powerful framework for global optimization of black-box, expensive-to-evaluate functions. However, it has a limited capacity in handling data-intensive problems, especially in multi-objective settings, due to the poor scalability of default Gaussian Process surrogates. We present a novel Bayesian optimization framework specifically tailored to address these limitations. Our method leverages a Bayesian neural networks approach for surrogate modeling. This enables efficient handling of large batches of data, modeling complex problems, and generating the uncertainty of the predictions. In addition, our method incorporates a scalable, uncertainty-aware acquisition strategy based on the well-known, easy-to-deploy NSGA-II. This fully parallelizable strategy promotes efficient exploration of uncharted regions. Our framework allows for effective optimization in data-intensive environments with a minimum number of iterations. We demonstrate the superiority of our method by comparing it with state-of-the-art multi-objective optimizations. We perform our evaluation on two real-world problems - airfoil design and color printing - showcasing the applicability and efficiency of our approach. Code is available at: https://github.com/an-on-ym-ous/lbn\_mobo
翻訳日:2023-06-05 18:11:48 公開日:2023-06-01
# ucas-iie-nlp at semeval-2023 task 12: 低リソース感情分析のための多言語bertの一般化

UCAS-IIE-NLP at SemEval-2023 Task 12: Enhancing Generalization of Multilingual BERT for Low-resource Sentiment Analysis ( http://arxiv.org/abs/2306.01093v1 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu(参考訳) 本稿では,SemEval-2023 Task 12: Sentiment Analysis for African Languageについて述べる。 このタスクで直面する課題は、低リソース環境におけるラベル付きデータと言語資源の不足である。 そこで本稿では,低リソース言語に対する感情分析のための汎用多言語システムSACL-XLMRを提案する。 具体的には,語彙に基づく多言語BERTを設計し,言語適応と感情認識表現学習を容易にする。 さらに,教師付きコントラスト学習手法を適用し,感情のスプレッド構造表現を学習し,モデルの一般化を促進する。 本システムは,多言語およびゼロショット感情分類サブタスクのベースラインを上回って,競争力のある結果を得た。 特に、システムは、公式のランキングにおいて、ゼロショット分類サブタスクの1位を獲得した。 広範な実験により,本システムの有効性が実証された。

This paper describes our system designed for SemEval-2023 Task 12: Sentiment analysis for African languages. The challenge faced by this task is the scarcity of labeled data and linguistic resources in low-resource settings. To alleviate these, we propose a generalized multilingual system SACL-XLMR for sentiment analysis on low-resource languages. Specifically, we design a lexicon-based multilingual BERT to facilitate language adaptation and sentiment-aware representation learning. Besides, we apply a supervised adversarial contrastive learning technique to learn sentiment-spread structured representations and enhance model generalization. Our system achieved competitive results, largely outperforming baselines on both multilingual and zero-shot sentiment classification subtasks. Notably, the system obtained the 1st rank on the zero-shot classification subtask in the official ranking. Extensive experiments demonstrate the effectiveness of our system.
翻訳日:2023-06-05 18:11:31 公開日:2023-06-01
# 双対拡張による要約システムのロバスト性向上

Improving the Robustness of Summarization Systems with Dual Augmentation ( http://arxiv.org/abs/2306.01090v1 )

ライセンス: Link先を確認
Xiuying Chen, Guodong Long, Chongyang Tao, Mingzhe Li, Xin Gao, Chengqi Zhang, Xiangliang Zhang(参考訳) 頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。 本稿では,まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 セマンティック一貫性を持つ代用語を生成するために,言語モデルに基づく対数サンプルを生成するための効率的なアプローチであるSummAttackerを提案する。 実験結果から, 現状の要約モデルでは, 対向性および雑音性試験セットの性能が著しく低下していることがわかった。 次に,要約システムの脆弱性を分析し,データ拡張による堅牢性の向上を検討する。 特に、私たちが発見した最初の脆さ要因は、入力中の頻繁な単語の理解が不十分であることです。 それに応じて、入力空間でsummattackerによって作成されたより多様なケースでエンコーダを供給します。 もう1つの要因は、攻撃された入力が隠れた状態により多くのバリエーションをもたらす潜時空間にある。 そこで我々は,逆デコーダ入力を構築し,多様体ソフトミキシング演算を隠れ空間で考案し,より多様性をもたらす。 Gigaword と CNN/DM データセットの実験結果から,我々の手法は強いベースラインよりも大幅に向上し,ノイズ,攻撃,クリーンなデータセットに対して高いロバスト性を示すことが示された。

A robust summarization system should be able to capture the gist of the document, regardless of the specific word choices or noise in the input. In this work, we first explore the summarization models' robustness against perturbations including word-level synonym substitution and noise. To create semantic-consistent substitutes, we propose a SummAttacker, which is an efficient approach to generating adversarial samples based on language models. Experimental results show that state-of-the-art summarization models have a significant decrease in performance on adversarial and noisy test sets. Next, we analyze the vulnerability of the summarization systems and explore improving the robustness by data augmentation. Specifically, the first brittleness factor we found is the poor understanding of infrequent words in the input. Correspondingly, we feed the encoder with more diverse cases created by SummAttacker in the input space. The other factor is in the latent space, where the attacked inputs bring more variations to the hidden states. Hence, we construct adversarial decoder input and devise manifold softmixing operation in hidden space to introduce more diversity. Experimental results on Gigaword and CNN/DM datasets demonstrate that our approach achieves significant improvements over strong baselines and exhibits higher robustness on noisy, attacked, and clean datasets.
翻訳日:2023-06-05 18:11:15 公開日:2023-06-01
# 構造類似度指標による半教師付きコミュニティ検出

Semi-supervised Community Detection via Structural Similarity Metrics ( http://arxiv.org/abs/2306.01089v1 )

ライセンス: Link先を確認
Yicong Jiang, Tracy Ke(参考訳) そこで本研究では,ネットワークトポロジーと既存ノードのコミュニティラベルを用いて,新しいノードのコミュニティラベルを推定することを目的とした,半教師ありコミュニティ検出問題を提案する。 ネットワークは次数補正確率ブロックモデルを用いてモデル化され、重度不均一性と潜在的に非代替的なコミュニティを可能にする。 ラベル付きおよびラベルなしデータを集約することにより,新しいノードと$K$コミュニティ間の'構造的類似度メトリック'を計算するアルゴリズムを提案する。 新しいノードの推定ラベルは、この類似度メトリックを最大化する$k$の値に対応する。 提案手法は,既存の半教師付きアルゴリズムよりも高速かつ数値的に優れている。 理論的には、誤分類誤差の明示的な境界を導出し、理想的な分類器と比較することにより、手法の効率性を示す。 我々の知る限りでは、理論的な保証を提供する最初の半教師付きコミュニティ検出アルゴリズムである。

Motivated by social network analysis and network-based recommendation systems, we study a semi-supervised community detection problem in which the objective is to estimate the community label of a new node using the network topology and partially observed community labels of existing nodes. The network is modeled using a degree-corrected stochastic block model, which allows for severe degree heterogeneity and potentially non-assortative communities. We propose an algorithm that computes a `structural similarity metric' between the new node and each of the $K$ communities by aggregating labeled and unlabeled data. The estimated label of the new node corresponds to the value of $k$ that maximizes this similarity metric. Our method is fast and numerically outperforms existing semi-supervised algorithms. Theoretically, we derive explicit bounds for the misclassification error and show the efficiency of our method by comparing it with an ideal classifier. Our findings highlight, to the best of our knowledge, the first semi-supervised community detection algorithm that offers theoretical guarantees.
翻訳日:2023-06-05 18:10:55 公開日:2023-06-01
# 異種処理効果推定のためのマルチスタディr-learner

Multi-study R-learner for Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2306.01086v1 )

ライセンス: Link先を確認
Cathy Shyr, Boyu Ren, Prasad Patil, and Giovanni Parmigiani(参考訳) 複数の研究において不均一な処理効果を推定するアルゴリズムの一般クラスを提案する。 マルチスタディr-リアナー(multi-study r-learner)と呼ばれるアプローチは、r-リアナーを研究間不均一性を考慮して一般化し、結合調整のクロススタディロバストネスを達成する。 マルチスタディのr-learnerは、不均一な処理効果、迷惑機能、メンバーシップ確率を推定するための多くの機械学習技術を組み込む能力において柔軟である。 マルチスタディ型r-リアナー治療効果推定器は, 系列推定フレームワーク内で漸近的に正常であることを示す。 さらに,本手法がr-learnerよりも低い推定誤差をもたらすことを現実的癌データ実験により示す。

We propose a general class of algorithms for estimating heterogeneous treatment effects on multiple studies. Our approach, called the multi-study R-learner, generalizes the R-learner to account for between-study heterogeneity and achieves cross-study robustness of confounding adjustment. The multi-study R-learner is flexible in its ability to incorporate many machine learning techniques for estimating heterogeneous treatment effects, nuisance functions, and membership probabilities. We show that the multi-study R-learner treatment effect estimator is asymptotically normal within the series estimation framework. Moreover, we illustrate via realistic cancer data experiments that our approach results in lower estimation error than the R-learner as between-study heterogeneity increases.
翻訳日:2023-06-05 18:10:41 公開日:2023-06-01
# 4DSR-GCN:グラフ畳み込みネットワークを用いた4Dビデオポイントクラウドアップサンプリング

4DSR-GCN: 4D Video Point Cloud Upsampling using Graph Convolutional Networks ( http://arxiv.org/abs/2306.01081v1 )

ライセンス: Link先を確認
Lorenzo Berlincioni, Stefano Berretti, Marco Bertini, Alberto Del Bimbo(参考訳) 3Dポイントクラウド(または4Dポイントクラウド)の時間的変化は、現在、いくつかのアプリケーション(例えば、自動運転やアシスト運転におけるLiDAR)で増加ペースで取得されている。 多くの場合、そのようなデータが送信されるため、適切な圧縮ツールが適用され、解像度または帯域幅が減少する。 本稿では,重く圧縮された後,時間変動する3dビデオポイント雲のスケールアップと復元のための新しいソリューションを提案する。 近年の3Dアプリケーションとの関連性を考慮すると、 % はユーザ側のアップスケーリングと3Dビデオポイントクラウドのアーティファクト削除を可能にするモデルに焦点を当てた。 我々のモデルは、動的エッジ畳み込みとグラフアテンションネットワークを組み合わせた、特に設計されたグラフ畳み込みネットワーク(GCN)から構成される。 PointNet++にインスピレーションを与えることで、これらのモジュールをシナジーで動作させ、各ノードにその周辺に関する十分な機能を提供し、後に新しい頂点を生成するための別の方法を提示します。 同じ課題に対処する文献の他のソリューションと比較して、提案したモデルは、かなり少ないパラメータ(約300KB)を使用しながら、再構成の品質の観点から同等の結果を得ることができるため、LiDARのようなエッジコンピューティングデバイスにソリューションをデプロイすることができる。

Time varying sequences of 3D point clouds, or 4D point clouds, are now being acquired at an increasing pace in several applications (e.g., LiDAR in autonomous or assisted driving). In many cases, such volume of data is transmitted, thus requiring that proper compression tools are applied to either reduce the resolution or the bandwidth. In this paper, we propose a new solution for upscaling and restoration of time-varying 3D video point clouds after they have been heavily compressed. In consideration of recent growing relevance of 3D applications, %We focused on a model allowing user-side upscaling and artifact removal for 3D video point clouds, a real-time stream of which would require . Our model consists of a specifically designed Graph Convolutional Network (GCN) that combines Dynamic Edge Convolution and Graph Attention Networks for feature aggregation in a Generative Adversarial setting. By taking inspiration PointNet++, We present a different way to sample dense point clouds with the intent to make these modules work in synergy to provide each node enough features about its neighbourhood in order to later on generate new vertices. Compared to other solutions in the literature that address the same task, our proposed model is capable of obtaining comparable results in terms of quality of the reconstruction, while using a substantially lower number of parameters (about 300KB), making our solution deployable in edge computing devices such as LiDAR.
翻訳日:2023-06-05 18:10:26 公開日:2023-06-01
# 雑音環境における最適分散マルチパラメータ推定

Optimal distributed multiparameter estimation in noisy environments ( http://arxiv.org/abs/2306.01077v1 )

ライセンス: Link先を確認
Arne Hamann, Pavel Sekatski, Wolfgang D\"ur(参考訳) 分散センサのネットワークによる強い相関雑音の存在下での多重パラメータ推定の課題を考察する。 ノイズ非感受性戦略の発見と改善方法について検討する。 ghz状態の逐次検出は最大4.0倍まで最適である。 これにより、この問題を単一パラメータ推定に結びつけることができ、デコヒーレンスのない部分空間における相関ノイズに対する保護や局所的な測定による読み出しといった手法を用いることができる。

We consider the task of multiple parameter estimation in the presence of strong correlated noise with a network of distributed sensors. We study how to find and improve noise-insensitive strategies. We show that sequentially probing GHZ states is optimal up to a factor of at most 4. This allows us to connect the problem to single parameter estimation, and to use techniques such as protection against correlated noise in a decoherence-free subspace, or read-out by local measurements.
翻訳日:2023-06-05 18:09:58 公開日:2023-06-01
# 重み付きリワードを用いた個人用強調学習

Differentially Private Episodic Reinforcement Learning with Heavy-tailed Rewards ( http://arxiv.org/abs/2306.01121v1 )

ライセンス: Link先を確認
Yulian Wu, Xingyu Zhou, Sayak Ray Chowdhury and Di Wang(参考訳) 本稿では,差分プライバシ(DP)の制約の下で,重み付き報酬を伴う(有限地平線表型)マルコフ決定プロセス(MDP)の問題について検討する。 DPを確保するために、通常、報酬を仮定する私的強化学習の以前の研究と比較すると、報酬分布が有限の$(1+v)$-第モーメントと約$v \in (0,1]$を持つ設定を考える。 報酬に対するロバスト平均推定器を利用することで、まず重み付きMDPのための2つのフレームワーク、すなわち価値反復のためのフレームワークとポリシー最適化のためのフレームワークを提案する。 各フレームワークでは,共同微分プライバシ(JDP)モデルと局所微分プライバシ(LDP)モデルの両方を検討する。 当社の枠組みに基づいて,JDP と LDP の双方のケースに対して,残念な上限を設け,配布時期とプライバシ予算の両方が後悔に重大な影響を及ぼすことを示す。 最後に,JDPモデルにおける重装マルチアームバンディットのインスタンス非依存な下限に減らして,重装マルチアームバンディットに対する最小限の最小限の最小化を実現する。 また,いくつかのプライベート minimax メソッドを採用することで,ldp の問題に対する下限を示す。 その結果,サブガウシアンによるプライベートrl問題と,重み付き報酬問題との間には,根本的な違いがあることが判明した。

In this paper, we study the problem of (finite horizon tabular) Markov decision processes (MDPs) with heavy-tailed rewards under the constraint of differential privacy (DP). Compared with the previous studies for private reinforcement learning that typically assume rewards are sampled from some bounded or sub-Gaussian distributions to ensure DP, we consider the setting where reward distributions have only finite $(1+v)$-th moments with some $v \in (0,1]$. By resorting to robust mean estimators for rewards, we first propose two frameworks for heavy-tailed MDPs, i.e., one is for value iteration and another is for policy optimization. Under each framework, we consider both joint differential privacy (JDP) and local differential privacy (LDP) models. Based on our frameworks, we provide regret upper bounds for both JDP and LDP cases and show that the moment of distribution and privacy budget both have significant impacts on regrets. Finally, we establish a lower bound of regret minimization for heavy-tailed MDPs in JDP model by reducing it to the instance-independent lower bound of heavy-tailed multi-armed bandits in DP model. We also show the lower bound for the problem in LDP by adopting some private minimax methods. Our results reveal that there are fundamental differences between the problem of private RL with sub-Gaussian and that with heavy-tailed rewards.
翻訳日:2023-06-05 18:04:33 公開日:2023-06-01
# 言語モデルにおけるファーストネームの因果関係の検討--ソーシャル・コモンセンス・推論の場合

Examining the Causal Effect of First Names on Language Models: The Case of Social Commonsense Reasoning ( http://arxiv.org/abs/2306.01117v1 )

ライセンス: Link先を確認
Sullam Jeoung, Jana Diesner, Halil Kilicoglu(参考訳) 言語モデルは、個人的および社会的関連性の応用に引き続き統合されるので、特にセンシティブな属性に関係なく一貫した出力を生成するという点において、これらのモデルの信頼性を保証することが重要である。 ファーストネームが社会デミノグラフィー表現のプロキシとして機能することを考えると、ファーストネームがコモンセンス推論能力に与える影響を調べることが不可欠である。 本稿では,特定の入力に対するモデルの推論が,提供された最初の名前に基づいて異なるかどうかについて検討する。 私たちの根底にある前提は、アリスの推論はジェームズの推論と異なるべきではないということです。 我々は,初号の因果効果をコモンセンス推論に測定するための制御実験フレームワークを提案し,実装し,偶然によるモデル予測と実際の関心要因によるモデル予測の区別を可能にした。 以上の結果から,ファーストネームの頻度はモデル予測に直接的な影響を与えることを示し,より頻繁な名前に比べて,より異種な予測を生じさせる可能性が示唆された。 これらの行動に寄与するモデルの内部メカニズムに関する洞察を得るため、我々は詳細な説明可能な分析を行う。 全体として、モデルの堅牢性を確保するためには、設定段階でより多様なファーストネームを持つデータセットを拡張することが不可欠である。

As language models continue to be integrated into applications of personal and societal relevance, ensuring these models' trustworthiness is crucial, particularly with respect to producing consistent outputs regardless of sensitive attributes. Given that first names may serve as proxies for (intersectional) socio-demographic representations, it is imperative to examine the impact of first names on commonsense reasoning capabilities. In this paper, we study whether a model's reasoning given a specific input differs based on the first names provided. Our underlying assumption is that the reasoning about Alice should not differ from the reasoning about James. We propose and implement a controlled experimental framework to measure the causal effect of first names on commonsense reasoning, enabling us to distinguish between model predictions due to chance and caused by actual factors of interest. Our results indicate that the frequency of first names has a direct effect on model prediction, with less frequent names yielding divergent predictions compared to more frequent names. To gain insights into the internal mechanisms of models that are contributing to these behaviors, we also conduct an in-depth explainable analysis. Overall, our findings suggest that to ensure model robustness, it is essential to augment datasets with more diverse first names during the configuration stage.
翻訳日:2023-06-05 18:04:04 公開日:2023-06-01
# RefinedWeb Dataset for Falcon LLM:WebデータとWebデータのみによるキュレーションコーパスのパフォーマンス向上

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only ( http://arxiv.org/abs/2306.01116v1 )

ライセンス: Link先を確認
Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay(参考訳) 大規模な言語モデルは通常、フィルタリングされたWebデータと、ソーシャルメディアの会話、書籍、技術論文などの高品質なコーパスの混合に基づいて訓練される。 このキュレーションプロセスは、幅広いゼロショット一般化能力を持つパフォーマンスモデルを作成するために必要であると考えられている。 しかしながら,数兆単位のトークンを事前トレーニングする必要のある大規模モデルが検討されているため,キュレーションのスケーラブル性や,間もなくユニークな高品質なデータを使い果たせるかどうかは不明だ。 従来の信念と相違して、適切にフィルタリングされ、分離されたWebデータは、強力なモデルに繋がる可能性を示し、さらにThe Pileで訓練された最先端のモデルよりもはるかに優れている。 広範囲なフィルタリングにもかかわらず、webから抽出した高品質なデータは依然として豊富であり、commoncrawlから5兆のトークンを得ることができる。 RefinedWebデータセットから600億個のトークンを抽出し、それに基づいてトレーニングされた1.3/7.5Bのパラメータ言語モデルを公開しています。

Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.
翻訳日:2023-06-05 18:03:41 公開日:2023-06-01
# 日平均太陽照度時系列予測を時空間で豊かにするとどうなるか?

What if We Enrich day-ahead Solar Irradiance Time Series Forecasting with Spatio-Temporal Context? ( http://arxiv.org/abs/2306.01112v1 )

ライセンス: Link先を確認
Oussama Boussif, Ghait Boukachab, Dan Assouline, Stefano Massaroli, Tianle Yuan, Loubna Benabbou, Yoshua Bengio(参考訳) 太陽発電はCO$_{2}$の排出量を大幅に削減することで気候変動を緩和する大きな可能性を秘めている。 それでも、太陽光の固有の変動は、太陽エネルギーを電力網にシームレスに統合する上で大きな課題となる。 従来の研究の大半は、太陽の予測に時間的な時系列に基づく手法を採用することに集中してきたが、雲や周囲の物理的文脈などの要因を考慮に入れた研究はごく少数しかなかった。 本稿では,衛星データを用いた時空間的コンテキストを活用した深層学習アーキテクチャを考案し,ghi(global horizontal irradiance)の予測に重点を置いた,任意の局に対する高精度な時系列予測を実現する。 また,予測に付随する不確実性の指標として,各時間ステップ予測毎に分布を抽出する手法を提案する。 モデルを評価する際には,重要な状況下でのモデル性能を捉えるために,特に困難な例を簡単な例から分離するテスト手法を提案する。 さらに、複数の地理的に多様な太陽観測所から、太陽放射や関連する物理的変数を観測するための、大規模なゾーンと時系列に衛星画像を収集する新しいマルチモーダルデータセットを提案する。 提案手法は、観測されていない太陽ステーションでのゼロショット一般化試験を含む太陽照射予測において堅牢な性能を示し、太陽エネルギーのグリッドへの効果的な統合を促進する上で非常に有望である。

Solar power harbors immense potential in mitigating climate change by substantially reducing CO$_{2}$ emissions. Nonetheless, the inherent variability of solar irradiance poses a significant challenge for seamlessly integrating solar power into the electrical grid. While the majority of prior research has centered on employing purely time series-based methodologies for solar forecasting, only a limited number of studies have taken into account factors such as cloud cover or the surrounding physical context. In this paper, we put forth a deep learning architecture designed to harness spatio-temporal context using satellite data, to attain highly accurate \textit{day-ahead} time-series forecasting for any given station, with a particular emphasis on forecasting Global Horizontal Irradiance (GHI). We also suggest a methodology to extract a distribution for each time step prediction, which can serve as a very valuable measure of uncertainty attached to the forecast. When evaluating models, we propose a testing scheme in which we separate particularly difficult examples from easy ones, in order to capture the model performances in crucial situations, which in the case of this study are the days suffering from varying cloudy conditions. Furthermore, we present a new multi-modal dataset gathering satellite imagery over a large zone and time series for solar irradiance and other related physical variables from multiple geographically diverse solar stations. Our approach exhibits robust performance in solar irradiance forecasting, including zero-shot generalization tests at unobserved solar stations, and holds great promise in promoting the effective integration of solar power into the grid.
翻訳日:2023-06-05 18:03:23 公開日:2023-06-01
# 間質性肺疾患分類におけるZero-Shot CLIPの有用性の検討

Exploring the Versatility of Zero-Shot CLIP for Interstitial Lung Disease Classification ( http://arxiv.org/abs/2306.01111v1 )

ライセンス: Link先を確認
Cara Van Uden and Christian Bluethgen and Maayane Attias and Malgorzata Polacin and Haiwei Henry Guo and Neha Simha and Rishi Raj and Curtis Langlotz(参考訳) 間質性肺疾患(ILD:interstitial lung disease, ILD)は, 診断上の課題である。 そこで本研究では,ILD分類のためのマルチモーダル(画像とテキスト)自己教師モデルであるCLIPを用いた機械学習手法を提案する。 ワークフロー全体を通じてゼロショットCLIPを広範囲に統合し、ボリュームCTスキャンから画像パッチを抽出し、"パッチモンタージュ"を用いてILD分類に進む。 さらに,タスク固有画像を用いたdapt(domain adaptive pretraining)クリップ(ct "patch montages" と/またはテキスト(放射線学レポートのlung-specific section of radiology reports)が下流icd分類性能に与える影響について検討した。 CLIP抽出した「パッチモンタージュ」とDAPTを利用して、ラベル付きトレーニングデータを必要としない0.893のAUROCを含む強力なゼロショットLD分類結果を得る。 この研究は、ラベル付きデータが不足している医療画像分類タスクのためのクリップのようなマルチモーダルモデルの汎用性と可能性を強調している。

Interstitial lung diseases (ILD) present diagnostic challenges due to their varied manifestations and overlapping imaging features. To address this, we propose a machine learning approach that utilizes CLIP, a multimodal (image and text) self-supervised model, for ILD classification. We extensively integrate zero-shot CLIP throughout our workflow, starting from the initial extraction of image patches from volumetric CT scans and proceeding to ILD classification using "patch montages". Furthermore, we investigate how domain adaptive pretraining (DAPT) CLIP with task-specific images (CT "patch montages" extracted with ILD-specific prompts for CLIP) and/or text (lung-specific sections of radiology reports) affects downstream ILD classification performance. By leveraging CLIP-extracted "patch montages" and DAPT, we achieve strong zero-shot ILD classification results, including an AUROC of 0.893, without the need for any labeled training data. This work highlights the versatility and potential of multimodal models like CLIP for medical image classification tasks where labeled data is scarce.
翻訳日:2023-06-05 18:02:57 公開日:2023-06-01
# mlに基づく不安検出における騒音の影響の比較研究

Comparative Study on the Effects of Noise in ML-Based Anxiety Detection ( http://arxiv.org/abs/2306.01110v1 )

ライセンス: Link先を確認
Samuel Schapiro, Abdul Alkurdi, Elizabeth Hsiao-Wecksler(参考訳) ウェアラブルな健康デバイスは、継続的かつ非侵襲的な遠隔監視の新時代を支えている。 この技術の応用の一つは不安検出である。 コントロールされたラボ環境では、不安検出の多くの進歩が起きているが、ノイズはこれらの進歩が現実の状況に一般化することを妨げている。 我々は,騒音がモデル性能に与える影響を検証し,ノイズの多い実環境にロバストなモデルを開発し,それゆえ日常生活の混乱に合わせたモデルを開発することにより,この分野の進展を目指す。 本研究では,従来の手法が失敗した理由と方法を検討する。 ウェアラブルストレスと影響検出(wesad)データセットを用いて,3つの分類問題における生理的覚醒レベルを分類する機械学習モデルに対する,さまざまなノイズ強度の影響を比較した。 ノイズを導入する前に、私たちのベースラインモデルのパフォーマンスは98.7%に達し、schmidt 2018の80.3%と比較した。 本稿では,特徴抽出とモデルアーキテクチャの選択を慎重に評価することで,この相違点の可能性について論じる。 最後に、ノイズの導入後、各モデルアーキテクチャに対するノイズの影響を徹底的に分析する。

Wearable health devices are ushering in a new age of continuous and noninvasive remote monitoring. One application of this technology is in anxiety detection. Many advancements in anxiety detection have happened in controlled lab settings, but noise prevents these advancements from generalizing to real-world conditions. We seek to progress the field by studying how noise impacts model performance and developing models that are robust to noisy, real-world conditions and, hence, attuned to the commotion of everyday life. In this study we look to investigate why and how previous methods have failed. Using the wearable stress and affect detection (WESAD) dataset, we compare the effect of various intensities of noise on machine learning models classifying levels of physiological arousal in the three-class classification problem: baseline vs. stress vs. amusement. Before introducing noise, our baseline model performance reaches 98.7%, compared to Schmidt 2018's 80.3%. We discuss potential sources of this discrepancy in results through a careful evaluation of feature extraction and model architecture choices. Finally, after the introduction of noise, we provide a thorough analysis of the effect of noise on each model architecture.
翻訳日:2023-06-05 18:02:34 公開日:2023-06-01
# ウェアラブル型ヒューマンアクティビティ認識のための自己スーパービジョンによる離散表現の学習に向けて

Towards Learning Discrete Representations via Self-Supervision for Wearables-Based Human Activity Recognition ( http://arxiv.org/abs/2306.01108v1 )

ライセンス: Link先を確認
Harish Haresamudram, Irfan Essa, Thomas Ploetz(参考訳) ウェアラブルコンピューティングにおけるヒューマンアクティビティ認識(HAR)は通常、センサーデータの直接処理に基づいている。 センサ読み込みは、専用の前処理によって導かれるか、エンドツーエンドの学習に統合される。 それらの起源とは独立に、現代のHARの大部分は、これらの表現は本質的に連続である。 それはいつもそうであるとは限らない。 harの初期において、離散化のアプローチは、主に計算要件を最小化したいという願望に動機付けられてきたが、アクティビティ発見、指紋認証、大規模検索といった単なる認識以外のアプリケーションも視野に入れている。 しかし、これらの伝統的な離散化アプローチは、下流のタスクに有害な影響をもたらす結果の表現において、精度と解像度が著しく低下する。 時代が変わり、本稿では、離散化表現への回帰を提案する。 近年のベクトル量子化(VQ)の進歩をウェアラブルアプリケーションに適用し,センサデータの短区間とベクターのコードブック間のマッピングを直接学習し,その結果,現代の連続的な認識性能(時にはそれを上回ることもある)が達成された。 そこで本研究では,効果的な離散表現の導出を実証するための概念実証を行い,単なる活動分類以上の応用を可能にするとともに,自然言語処理などの領域から既知の記号列解析のための高度なツールにも応用できることを示す。 ウェアラブルベースのベンチマークharタスクスイートの広範な実験評価に基づいて,学習した離散化手法の可能性を示し,センサデータ解析がharに大きな変化をもたらす可能性について論じる。

Human activity recognition (HAR) in wearable computing is typically based on direct processing of sensor data. Sensor readings are translated into representations, either derived through dedicated preprocessing, or integrated into end-to-end learning. Independent of their origin, for the vast majority of contemporary HAR, those representations are typically continuous in nature. That has not always been the case. In the early days of HAR, discretization approaches have been explored - primarily motivated by the desire to minimize computational requirements, but also with a view on applications beyond mere recognition, such as, activity discovery, fingerprinting, or large-scale search. Those traditional discretization approaches, however, suffer from substantial loss in precision and resolution in the resulting representations with detrimental effects on downstream tasks. Times have changed and in this paper we propose a return to discretized representations. We adopt and apply recent advancements in Vector Quantization (VQ) to wearables applications, which enables us to directly learn a mapping between short spans of sensor data and a codebook of vectors, resulting in recognition performance that is generally on par with their contemporary, continuous counterparts - sometimes surpassing them. Therefore, this work presents a proof-of-concept for demonstrating how effective discrete representations can be derived, enabling applications beyond mere activity classification but also opening up the field to advanced tools for the analysis of symbolic sequences, as they are known, for example, from domains such as natural language processing. Based on an extensive experimental evaluation on a suite of wearables-based benchmark HAR tasks, we demonstrate the potential of our learned discretization scheme and discuss how discretized sensor data analysis can lead to substantial changes in HAR.
翻訳日:2023-06-05 18:02:17 公開日:2023-06-01
# ヘイトスピーチベンチマークを再考する: データキュレーションからシステム展開へ

Revisiting Hate Speech Benchmarks: From Data Curation to System Deployment ( http://arxiv.org/abs/2306.01105v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Sarah Masud, Vikram Goyal, Tanmoy Chakraborty(参考訳) ソーシャルメディアには憎悪的なコンテンツが溢れており、その多くが言語や話題の多様性に満ちている。 ヘイトスピーチ検出に使用されるベンチマークデータセットは、ヘイトレキシコンを使用して主にコンパイルされるため、そのような拡散を考慮しない。 しかし、中立に封じられた悪意のあるコンテンツでは、ヘイト信号の捕獲が困難になる。 したがって、憎しみの現実的な多様性を模倣するモデルやデータセットを設計することは、さらなる調査となる。 GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソーシングした大規模データセットである。 GOTHateは中立的にシードされ、異なる言語やトピックを含んでいる。 我々は,既存のヘイトスピーチデータセットとgothateの詳細な比較を行い,その新しさを強調する。 最近の10のベースラインでベンチマークします。 実験およびベンチマーク実験により,GOTHateはテキストのみのセットアップでは分類が困難であることが示唆された。 そこで本研究では,内因性信号の付加がヘイトスピーチ検出タスクをいかに強化するかを検討する。 我々はGOTHateをユーザのタイムライン情報とegoネットワークで拡張し、ヘイトフルコンテンツを理解するための実際の設定にデータソースを近づける。 提案するHEN-mBERTは,言語サブスペースを,歴史,トポロジ,先例からの潜在内在的信号で拡張するモジュール型,多言語混在型エキスパートモデルである。 HEN-mBERTは、マクロF1およびヘイトクラスF1において、それぞれ2.5%と5%の最高のベースラインを超越する。 私たちの実験に触発されて、Wipro AIと連携して、オンラインの害に対処するミッションの一環として、ヘイトフルコンテンツを検出する半自動化パイプラインを開発しています。

Social media is awash with hateful content, much of which is often veiled with linguistic and topical diversity. The benchmark datasets used for hate speech detection do not account for such divagation as they are predominantly compiled using hate lexicons. However, capturing hate signals becomes challenging in neutrally-seeded malicious content. Thus, designing models and datasets that mimic the real-world variability of hate warrants further investigation. To this end, we present GOTHate, a large-scale code-mixed crowdsourced dataset of around 51k posts for hate speech detection from Twitter. GOTHate is neutrally seeded, encompassing different languages and topics. We conduct detailed comparisons of GOTHate with the existing hate speech datasets, highlighting its novelty. We benchmark it with 10 recent baselines. Our extensive empirical and benchmarking experiments suggest that GOTHate is hard to classify in a text-only setup. Thus, we investigate how adding endogenous signals enhances the hate speech detection task. We augment GOTHate with the user's timeline information and ego network, bringing the overall data source closer to the real-world setup for understanding hateful content. Our proposed solution HEN-mBERT is a modular, multilingual, mixture-of-experts model that enriches the linguistic subspace with latent endogenous signals from history, topology, and exemplars. HEN-mBERT transcends the best baseline by 2.5% and 5% in overall macro-F1 and hate class F1, respectively. Inspired by our experiments, in partnership with Wipro AI, we are developing a semi-automated pipeline to detect hateful content as a part of their mission to tackle online harm.
翻訳日:2023-06-05 18:01:50 公開日:2023-06-01
# グラフアウトオブディストリビューション一般化のためのラベルと環境因果独立の連成学習

Joint Learning of Label and Environment Causal Independence for Graph Out-of-Distribution Generalization ( http://arxiv.org/abs/2306.01103v1 )

ライセンス: Link先を確認
Shurui Gui, Meng Liu, Xiner Li, Youzhi Luo, Shuiwang Ji(参考訳) 本稿では,分散グラフ(OOD)の一般化問題に取り組む。 既存のグラフOODアルゴリズムは、制限された仮定に依存するか、あるいはトレーニングデータの環境情報を利用することができない。 本稿では,ラベルと環境の因果独立性(leci)を同時に組み込んでラベル情報と環境情報を完全に活用し,因果と不変部分グラフの識別において先行手法が直面する課題を解決することを提案する。 さらに,これら2つの特性を理論的に保証されたカジュアルなサブグラフ発見のために共同で最適化する,敵対的訓練戦略を考案する。 大規模な実験と分析により、LECIは合成データセットと実世界のデータセットの両方において先行手法を著しく上回り、LECIをグラフOOD一般化のための実用的で効果的なソリューションとして確立した。

We tackle the problem of graph out-of-distribution (OOD) generalization. Existing graph OOD algorithms either rely on restricted assumptions or fail to exploit environment information in training data. In this work, we propose to simultaneously incorporate label and environment causal independence (LECI) to fully make use of label and environment information, thereby addressing the challenges faced by prior methods on identifying causal and invariant subgraphs. We further develop an adversarial training strategy to jointly optimize these two properties for casual subgraph discovery with theoretical guarantees. Extensive experiments and analysis show that LECI significantly outperforms prior methods on both synthetic and real-world datasets, establishing LECI as a practical and effective solution for graph OOD generalization.
翻訳日:2023-06-05 18:01:25 公開日:2023-06-01
# LLMatic: 大規模言語モデルによるニューラルアーキテクチャ探索と品質多様性最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality-Diversity Optimization ( http://arxiv.org/abs/2306.01102v1 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-06-05 18:01:10 公開日:2023-06-01
# 無線アドホックネットワークにおける低確率検出のためのフェデレーショングラフ学習

Federated Graph Learning for Low Probability of Detection in Wireless Ad-Hoc Networks ( http://arxiv.org/abs/2306.01143v1 )

ライセンス: Link先を確認
Sivaram Krishnan, Jihong Park, Subhash Sagar, Gregory Sherman, Benjamin Campbell, and Jinho Choi(参考訳) low probability of detection (lpd) は、ワイヤレスネットワークのプライバシーとセキュリティを強化する手段として最近登場した。 既存の無線セキュリティ技術とは異なり、LPD対策は、ユーザから送信された情報を保護するのではなく、無線通信の存在全体を隠蔽することを目的としている。 本稿では,無線アドホックネットワーク全体の検出性を最小化し,無線ネットワークの各ノードに対する最適な通信領域を予測し,外部アクターから検出されていないまま通信できるように,グラフニューラルネットワークに基づくプライバシ保護分散フレームワークについて検討する。 また,提案手法の有効性を,平均絶対誤差と中央値絶対誤差という2つの性能尺度を用いて実証する。

Low probability of detection (LPD) has recently emerged as a means to enhance the privacy and security of wireless networks. Unlike existing wireless security techniques, LPD measures aim to conceal the entire existence of wireless communication instead of safeguarding the information transmitted from users. Motivated by LPD communication, in this paper, we study a privacy-preserving and distributed framework based on graph neural networks to minimise the detectability of a wireless ad-hoc network as a whole and predict an optimal communication region for each node in the wireless network, allowing them to communicate while remaining undetected from external actors. We also demonstrate the effectiveness of the proposed method in terms of two performance measures, i.e., mean absolute error and median absolute error.
翻訳日:2023-06-05 17:52:48 公開日:2023-06-01
# 顔ビデオからのプライバシー保全型遠隔心拍数推定

Privacy-Preserving Remote Heart Rate Estimation from Facial Videos ( http://arxiv.org/abs/2306.01141v1 )

ライセンス: Link先を確認
Divij Gupta, Ali Etemad(参考訳) remote photoplethysmography(rppg)は、顔ビデオからppgを推定するプロセスである。 このアプローチは接触のないインタラクションの恩恵を受けるが、多くの場合、重要なプライバシー上の懸念を構成する顔のビデオに依存している。 近年の研究では、ディープラーニング技術が攻撃に弱いことが明らかにされており、データ漏洩によって深いrPPG推定がさらにセンシティブになる可能性がある。 この問題に対処するために,顔の特定領域を識別情報が少なく抽出し,次いでピクセルシャッフルとぼやけを伴って抽出するデータ摂動法を提案する。 2つの rPPG データセット (PURE と UBFC) を実験した結果,rPPG 抽出に最小限の影響を伴って,顔認識アルゴリズムの精度を60%以上削減できることがわかった。 また,3つの顔認識データセット(LFW, CALFW, AgeDB)を用いて,提案手法の有効性を50%近く低減した。 本研究は,rppg推定のための効果的なプライバシー保護ソリューションとしてのアプローチの可能性を示す。

Remote Photoplethysmography (rPPG) is the process of estimating PPG from facial videos. While this approach benefits from contactless interaction, it is reliant on videos of faces, which often constitutes an important privacy concern. Recent research has revealed that deep learning techniques are vulnerable to attacks, which can result in significant data breaches making deep rPPG estimation even more sensitive. To address this issue, we propose a data perturbation method that involves extraction of certain areas of the face with less identity-related information, followed by pixel shuffling and blurring. Our experiments on two rPPG datasets (PURE and UBFC) show that our approach reduces the accuracy of facial recognition algorithms by over 60%, with minimal impact on rPPG extraction. We also test our method on three facial recognition datasets (LFW, CALFW, and AgeDB), where our approach reduced performance by nearly 50%. Our findings demonstrate the potential of our approach as an effective privacy-preserving solution for rPPG estimation.
翻訳日:2023-06-05 17:52:35 公開日:2023-06-01
# 非可換確率論の基礎(拡張抽象)

Foundations of non-commutative probability theory (Extended abstract) ( http://arxiv.org/abs/2306.01131v1 )

ライセンス: Link先を確認
Daniel Lehmann(参考訳) コルモゴロフの確率論に対する設定は、量子力学から生じる確率を考慮に入れた独自の一般化を与える。 サンプル空間はこの表現において中心的な役割を持ち、確率変数、すなわち可観測変数は自然な方法で定義され、同じ状態では観測できない(非可換)可観測変数で満たされる代数方程式で示される謎は解明される。

Kolmogorov's setting for probability theory is given an original generalization to account for probabilities arising from Quantum Mechanics. The sample space has a central role in this presentation and random variables, i.e., observables, are defined in a natural way.The mystery presented by the algebraic equations satisfied by (non-commuting) observables that cannot be observed in the same states is elucidated.
翻訳日:2023-06-05 17:52:17 公開日:2023-06-01
# 混合状態の量子古典遷移:スケールされたフォン・ノイマン方程式

Quantum Classical Transition for Mixed States: The Scaled Von Neumann Equation ( http://arxiv.org/abs/2306.01130v1 )

ライセンス: Link先を確認
S. V. Mousavi and S. Miret-Art\'es(参考訳) 本研究では,フォン・ノイマンの公式なアンサンブルの枠組みを用いて,量子状態から古典状態への滑らかな遷移波動方程式を提案し,等価スケール方程式を得た。 これにより、量子力学のよく知られたウィグナー・モヤールアプローチに従って、スケールド統計理論を開発することができた。 このスケールド非平衡統計力学は、古典的および量子的な理論のすべての要素を、2つの極端なケースの間の全ての動的レジームを示す連続的なパラメータとして記述している。 最後に, 確率密度プロット, スケールド軌道, 到着時間など様々な量を計算し, 鏡からの反射によるスケールド形式を簡易に応用した。

In this work, we proposed a smooth transition wave equation from a quantum to classical regime in the framework of von Neumann formalism for ensembles and then obtained an equivalent scaled equation. This led us to develop a scaled statistical theory following the well-known Wigner-Moyal approach of quantum mechanics. This scaled nonequilibrium statistical mechanics has in it all the ingredients of the classical and quantum theory described in terms of a continuous parameter displaying all the dynamical regimes in between the two extreme cases. Finally, a simple application of our scaled formalism consisting of reflection from a mirror by computing various quantities, including probability density plots, scaled trajectories, and arrival times, was analyzed.
翻訳日:2023-06-05 17:52:10 公開日:2023-06-01
# スパースレート低減によるホワイトボックス変圧器

White-Box Transformers via Sparse Rate Reduction ( http://arxiv.org/abs/2306.01129v1 )

ライセンス: Link先を確認
Yaodong Yu and Sam Buchanan and Druv Pai and Tianzhe Chu and Ziyang Wu and Shengbang Tong and Benjamin D. Haeffele and Yi Ma(参考訳) 本稿では,表現学習の目的は,非一貫性部分空間上で支持される低次元ガウス分布の混合に対して,トークン集合などのデータの分布を圧縮して変換することである。 最終的な表現の品質はスパースレート低減と呼ばれる統一目的関数によって測定できる。 この観点から、トランスフォーマーのような一般的なディープネットワークは、この目標を漸進的に最適化するための反復的なスキームを実現すると見なすことができる。 特に、標準変圧器ブロックは、この目的の相補的な部分の交互な最適化から導出できることを示す: 多頭自己照準演算子は、損失の少ない符号化レートを最小化することでトークン集合を圧縮するための勾配降下ステップと見なすことができ、その後の多層パーセプトロンは、トークンの表現をスパース化しようとするものと見なすことができる。 これは、数学的に完全に解釈可能な、ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーにつながる。 これらのネットワークは、ImageNetのような大規模な現実世界のビジョンデータセットの表現を圧縮し、分散させ、ViTのような徹底的に設計されたトランスフォーマーに非常に近いパフォーマンスを達成する。 コードは \url{https://github.com/Ma-Lab-Berkeley/CRATE} にある。

In this paper, we contend that the objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a mixture of low-dimensional Gaussian distributions supported on incoherent subspaces. The quality of the final representation can be measured by a unified objective function called sparse rate reduction. From this perspective, popular deep networks such as transformers can be naturally viewed as realizing iterative schemes to optimize this objective incrementally. Particularly, we show that the standard transformer block can be derived from alternating optimization on complementary parts of this objective: the multi-head self-attention operator can be viewed as a gradient descent step to compress the token sets by minimizing their lossy coding rate, and the subsequent multi-layer perceptron can be viewed as attempting to sparsify the representation of the tokens. This leads to a family of white-box transformer-like deep network architectures which are mathematically fully interpretable. Despite their simplicity, experiments show that these networks indeed learn to optimize the designed objective: they compress and sparsify representations of large-scale real-world vision datasets such as ImageNet, and achieve performance very close to thoroughly engineered transformers such as ViT. Code is at \url{https://github.com/Ma-Lab-Berkeley/CRATE}.
翻訳日:2023-06-05 17:51:59 公開日:2023-06-01
# 学習用トランスフォーマープログラム

Learning Transformer Programs ( http://arxiv.org/abs/2306.01128v1 )

ライセンス: Link先を確認
Dan Friedman, Alexander Wettig, Danqi Chen(参考訳) 機械的解釈可能性に関する最近の研究は、ネットワークの重みとアクティベーションを慎重に調べることでリバースエンジニアリングトランスフォーマーモデルを試みている。 しかし、これらのアプローチにはかなりの手作業が必要であり、基礎となるアルゴリズムの完全な忠実な記述を提供するには不足している。 本研究では,設計によって機械的に解釈可能なトランスフォーマーの訓練手順を紹介する。 私たちは、Transformerの重みにコンパイルできるプログラミング言語であるRASP [Weiss et al., 2021] をベースにしています。 人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングし、自動的に個別の人間可読プログラムに変換できる改良されたTransformerを設計する。 これらのモデルをTransformer Programsと呼ぶ。 提案手法を検証するために,テキスト内学習タスク,アルゴリズム上の問題(例えば,ダイク言語を分類,認識する),名前付きエンティティ認識やテキスト分類を含むNLPタスクなど,さまざまな問題に対してTransformer Programsを学習する。 トランスフォーマープログラムは、同等の大きさの標準トランスフォーマーと同等の性能で実行することで、合理的なソリューションを自動的に見つけることができる。 これらの利点を実証するために、トランスフォーマーをPythonプログラムに変換し、既製のコード解析ツールを使用してモデルエラーをデバッグし、異なるサブプロブレムを解決するために使用される ``circuits'' を識別する。 トランスフォーマープログラムが、本質的に解釈可能な機械学習の目標に向けて、新たな道を開くことを願っている。

Recent research in mechanistic interpretability has attempted to reverse-engineer Transformer models by carefully inspecting network weights and activations. However, these approaches require considerable manual effort and still fall short of providing complete, faithful descriptions of the underlying algorithms. In this work, we introduce a procedure for training Transformers that are mechanistically interpretable by design. We build on RASP [Weiss et al., 2021], a programming language that can be compiled into Transformer weights. Instead of compiling human-written programs into Transformers, we design a modified Transformer that can be trained using gradient-based optimization and then be automatically converted into a discrete, human-readable program. We refer to these models as Transformer Programs. To validate our approach, we learn Transformer Programs for a variety of problems, including an in-context learning task, a suite of algorithmic problems (e.g. sorting, recognizing Dyck-languages), and NLP tasks including named entity recognition and text classification. The Transformer Programs can automatically find reasonable solutions, performing on par with standard Transformers of comparable size; and, more importantly, they are easy to interpret. To demonstrate these advantages, we convert Transformers into Python programs and use off-the-shelf code analysis tools to debug model errors and identify the ``circuits'' used to solve different sub-problems. We hope that Transformer Programs open a new path toward the goal of intrinsically interpretable machine learning.
翻訳日:2023-06-05 17:51:34 公開日:2023-06-01
# 励起状態量子相転移を利用した精密磁気計測

Precision magnetometry exploiting excited state quantum phase transitions ( http://arxiv.org/abs/2306.01126v1 )

ライセンス: Link先を確認
Qian Wang, Ugo Marzolino(参考訳) 相転移における臨界挙動は精密計測の資源である。 理由は、フィッシャー情報として知られるこの関数が臨界点において超指数関数であり、同時にメトロジープロトコルのパフォーマンスを定量化するからである。 したがって、位相遷移におけるメロジカルプローブの作成により、遷移制御パラメータの測定精度が向上する。 我々は、異なる磁場で励起状態量子相転移を示すリプキン-メシュコフ-グリックモデルに焦点を当てる。 モデルスペクトル特性に基づき、フィッシャー情報の広いピークを示し、高精度磁力計の効率的なスキームを提案する。 lipkin-meshkov-glickモデルは、超伝導と核系のために初めて導入され、最近いくつかの凝縮物プラットフォームで実現された。 上記のメトロロジースキームは、リプキン-メシュコフ-グリック模型をシミュレートできるシステムの微視的性質を測定するためにも利用できる。

Critical behaviour in phase transitions is a resource for enhanced precision metrology. The reason is that the function, known as Fisher information, is superextensive at critical points, and, at the same time, quantifies performances of metrological protocols. Therefore, preparing metrological probes at phase transitions provides enhanced precision in measuring the transition control parameter. We focus on the Lipkin-Meshkov-Glick model that exhibits excited state quantum phase transitions at different magnetic fields. Resting on the model spectral properties, we show broad peaks of the Fisher information, and propose efficient schemes for precision magnetometry. The Lipkin-Meshkov-Glick model was first introduced for superconductivity and for nuclear systems, and recently realised in several condensed matter platforms. The above metrological schemes can be also exploited to measure microscopic properties of systems able to simulate the Lipkin-Meshkov-Glick model.
翻訳日:2023-06-05 17:51:08 公開日:2023-06-01
# 知覚不能摂動による学習画像圧縮の再構成歪み

Reconstruction Distortion of Learned Image Compression with Imperceptible Perturbations ( http://arxiv.org/abs/2306.01125v1 )

ライセンス: Link先を確認
Yang Sui, Zhuohang Li, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Zhenzhong Chen(参考訳) Learned Image Compression (LIC)は近年,その顕著な性能から画像伝送のトレンド技術となっている。 その人気にもかかわらず、画像再構成の質に関するlicの堅牢性は未検討のままである。 本稿では,リコンの復元品質を効果的に低下させるため,再構成画像の任意のオブジェクトが事実上不可能なノイズにより,再構成画像が著しく破壊されるようにする。 具体的には、Frobeniusノルムに基づく損失関数を導入し、元の画像と再構成された逆例との差を最大化する。 さらに,人間の視覚に高周波成分の不感性を活用することで,摂動が目立たないことを保証するために,不感性制約(ic)を導入する。 様々なlicモデルを用いてkodakデータセット上で行った実験が有効性を示している。 さらに,今後の防御設計について,いくつかの知見と提案を行う。

Learned Image Compression (LIC) has recently become the trending technique for image transmission due to its notable performance. Despite its popularity, the robustness of LIC with respect to the quality of image reconstruction remains under-explored. In this paper, we introduce an imperceptible attack approach designed to effectively degrade the reconstruction quality of LIC, resulting in the reconstructed image being severely disrupted by noise where any object in the reconstructed images is virtually impossible. More specifically, we generate adversarial examples by introducing a Frobenius norm-based loss function to maximize the discrepancy between original images and reconstructed adversarial examples. Further, leveraging the insensitivity of high-frequency components to human vision, we introduce Imperceptibility Constraint (IC) to ensure that the perturbations remain inconspicuous. Experiments conducted on the Kodak dataset using various LIC models demonstrate effectiveness. In addition, we provide several findings and suggestions for designing future defenses.
翻訳日:2023-06-05 17:50:51 公開日:2023-06-01
# 経路依存型PDEを解くニューラルネットワークRDEモデル

A Neural RDE-based model for solving path-dependent PDEs ( http://arxiv.org/abs/2306.01123v1 )

ライセンス: Link先を確認
Bowen Fang, Hao Ni, Yue Wu(参考訳) 経路依存偏微分方程式(PPDE)の概念は、金融市場の経路依存微分の文脈で最初に導入された。 その半線型形式は後に非マルコフ的後方確率微分方程式 (BSDE) として同定された。 古典的な PDE と比較して、PPDE の解は無限次元空間変数を含むため、不可能ではないとしても近似が難しい。 本稿では,PPDE を学習するためのニューラル粗微分方程式 (NRDE) に基づくモデルを提案する。 提案したPPDEソリューションの連続時間モデルは、効率的なメモリ使用率と次元でスケールする能力の利点を提供する。 提案モデルの性能を文献の強い基準と比較するために,いくつかの数値実験を行い,その有効性を実証した。

The concept of the path-dependent partial differential equation (PPDE) was first introduced in the context of path-dependent derivatives in financial markets. Its semilinear form was later identified as a non-Markovian backward stochastic differential equation (BSDE). Compared to the classical PDE, the solution of a PPDE involves an infinite-dimensional spatial variable, making it challenging to approximate, if not impossible. In this paper, we propose a neural rough differential equation (NRDE)-based model to learn PPDEs, which effectively encodes the path information through the log-signature feature while capturing the fundamental dynamics. The proposed continuous-time model for the PPDE solution offers the benefits of efficient memory usage and the ability to scale with dimensionality. Several numerical experiments, provided to validate the performance of the proposed model in comparison to the strong baseline in the literature, are used to demonstrate its effectiveness.
翻訳日:2023-06-05 17:50:37 公開日:2023-06-01
# 座標上昇変分推論の収束について

On the Convergence of Coordinate Ascent Variational Inference ( http://arxiv.org/abs/2306.01122v1 )

ライセンス: Link先を確認
Anirban Bhattacharya, Debdeep Pati, Yun Yang(参考訳) マルコフ連鎖モンテカルロの計算的な代替として、変分推論(vi)は、同等の有効性と優れた効率性のため、大規模ベイズモデルにおける難解な後続分布を近似するためにますます普及している。 近年のいくつかの研究は、パラメータ推定の統計的最適性を様々な条件下で証明することで、VIの理論的正当性を証明している。 本稿では, 平均場(MF) VI を係数分布の空間上でのKullback-Leibler分散目的関数の最適化に向けて実装するための共通座標アセント変分推論(CAVI)アルゴリズムについて検討する。 2ブロックの場合に着目し,機能解析と最適化から広範なツールボックスを活用することでCAVIの収束を分析する。 我々はCAVIの大域的あるいは局所的な指数収束を証明するための一般的な条件を提供する。 具体的には、vi目的汎関数に影響を与える構成ブロック間の相互作用を特徴付ける新しい一般化相関の概念を導入し、理論により2ブロックcaviのアルゴリズム的収縮率を定量化する。 具体例として,開発理論をいくつかの例に適用し,アルゴリズム的収縮率の明示的な問題依存上界を導出する。

As a computational alternative to Markov chain Monte Carlo approaches, variational inference (VI) is becoming more and more popular for approximating intractable posterior distributions in large-scale Bayesian models due to its comparable efficacy and superior efficiency. Several recent works provide theoretical justifications of VI by proving its statistical optimality for parameter estimation under various settings; meanwhile, formal analysis on the algorithmic convergence aspects of VI is still largely lacking. In this paper, we consider the common coordinate ascent variational inference (CAVI) algorithm for implementing the mean-field (MF) VI towards optimizing a Kullback--Leibler divergence objective functional over the space of all factorized distributions. Focusing on the two-block case, we analyze the convergence of CAVI by leveraging the extensive toolbox from functional analysis and optimization. We provide general conditions for certifying global or local exponential convergence of CAVI. Specifically, a new notion of generalized correlation for characterizing the interaction between the constituting blocks in influencing the VI objective functional is introduced, which according to the theory, quantifies the algorithmic contraction rate of two-block CAVI. As illustrations, we apply the developed theory to a number of examples, and derive explicit problem-dependent upper bounds on the algorithmic contraction rate.
翻訳日:2023-06-05 17:50:24 公開日:2023-06-01
# エッジノード配置とワークロード割り当てのための量子ベース分散アルゴリズム

Quantum-based Distributed Algorithms for Edge Node Placement and Workload Allocation ( http://arxiv.org/abs/2306.01159v1 )

ライセンス: Link先を確認
Duong The Do and Ni Trieu and Duong Tung Nguyen(参考訳) エッジコンピューティングは、優れたユーザエクスペリエンスを提供し、様々な革新的なモノのインターネットアプリケーションを可能にする有望な技術である。 本稿では,npハードであることが知られている最適エッジサーバ配置とワークロード割り当てのための混合整数線形プログラミング(milp)モデルを提案する。 この目的のために,量子コンピューティングを用いてこの問題に対処する可能性を検討する。 しかし、既存の量子解法は制約のないバイナリプログラミングの問題に限られている。 この障害を克服するために、元の問題を2次非制約バイナリ最適化(QUBO)問題と線形プログラム(LP)サブプロブレムに分解するハイブリッド量子古典解を提案する。 QUBO問題は量子ソルバで解くことができ、LPサブプロブレムは従来のLPソルバで解くことができる。 数値実験により,エッジコンピューティングの複雑な最適化問題を解くために量子超越性を活用できることが実証された。

Edge computing is a promising technology that offers a superior user experience and enables various innovative Internet of Things applications. In this paper, we present a mixed-integer linear programming (MILP) model for optimal edge server placement and workload allocation, which is known to be NP-hard. To this end, we explore the possibility of addressing this computationally challenging problem using quantum computing. However, existing quantum solvers are limited to solving unconstrained binary programming problems. To overcome this obstacle, we propose a hybrid quantum-classical solution that decomposes the original problem into a quadratic unconstrained binary optimization (QUBO) problem and a linear program (LP) subproblem. The QUBO problem can be solved by a quantum solver, while the LP subproblem can be solved using traditional LP solvers. Our numerical experiments demonstrate the practicality of leveraging quantum supremacy to solve complex optimization problems in edge computing.
翻訳日:2023-06-05 17:44:38 公開日:2023-06-01
# 不均一知識に基づく拡張型モジュール強化学習

Augmented Modular Reinforcement Learning based on Heterogeneous Knowledge ( http://arxiv.org/abs/2306.01158v1 )

ライセンス: Link先を確認
Lorenz Wolf, Mirco Musolesi(参考訳) 強化学習(rl)の非効率を緩和するために,様々なタスクを遂行できるエージェントを導出するための異なる意思決定方針を構成するモジュラーアプローチが提案されている。 これらのアーキテクチャに基づくモジュールは一般的に再利用可能なもので、"プラグ・アンド・プレイ"統合も可能である。 しかし、そのようなソリューションにはルール、サブゴール、スキルといった複数の種類の情報(知識)を処理し統合する能力が欠けている。 これらの制約に対処するため、AMRL(Augmented Modular Reinforcement Learning)を提案する。 この新しいフレームワークは、仲裁器を使って異種モジュールを選択し、異なるタイプの知識をシームレスに組み込む。 さらに,選択機構の変種,すなわち,時間情報を利用する能力を付加したメモリ提示型調停器を導入する。 提案手法の確立と新しい環境の評価を行い,それらを深部RLアルゴリズムと比較した。 この結果から, 従来のモジュールRLを異種知識で拡張することにより, 性能改善を実現することができた。

In order to mitigate some of the inefficiencies of Reinforcement Learning (RL), modular approaches composing different decision-making policies to derive agents capable of performing a variety of tasks have been proposed. The modules at the basis of these architectures are generally reusable, also allowing for "plug-and-play" integration. However, such solutions still lack the ability to process and integrate multiple types of information (knowledge), such as rules, sub-goals, and skills. We propose Augmented Modular Reinforcement Learning (AMRL) to address these limitations. This new framework uses an arbitrator to select heterogeneous modules and seamlessly incorporate different types of knowledge. Additionally, we introduce a variation of the selection mechanism, namely the Memory-Augmented Arbitrator, which adds the capability of exploiting temporal information. We evaluate the proposed mechanisms on established as well as new environments and benchmark them against prominent deep RL algorithms. Our results demonstrate the performance improvements that can be achieved by augmenting traditional modular RL with other forms of heterogeneous knowledge.
翻訳日:2023-06-05 17:44:23 公開日:2023-06-01
# 非同定型隠れ結合によるdelphicオフライン強化学習

Delphic Offline Reinforcement Learning under Nonidentifiable Hidden Confounding ( http://arxiv.org/abs/2306.01157v1 )

ライセンス: Link先を確認
Aliz\'ee Pace, Hugo Y\`eche, Bernhard Sch\"olkopf, Gunnar R\"atsch, Guy Tennenholtz(参考訳) オフライン強化学習(RL)の顕著な課題は、隠れた共起の問題である: 観測されていない変数は、エージェントが取る行動と観察結果の両方に影響を及ぼす可能性がある。 隠れた結合は、データから引き出された因果的結論の有効性を損なう可能性があり、効果的なオフラインrlへの大きな障害となる。 本稿では,同定不能な設定において隠れた共起の問題に取り組む。 デルフィック不確実性(delphic uncertainty)とよばれる隠された共起バイアスによる不確実性の定義を,観測と整合する世界モデル上での変動を用いて提案し,よく知られた認識論的・随伴的不確実性と区別する。 提案手法は,3種類の不確かさを推定し,それらを考慮した悲観的なオフラインRLアルゴリズムを構築する。 提案手法は,観察されていない共同創設者の識別性を仮定せず,共起バイアスの低減を試みている。 本研究は、広範囲な実験を通じて、敗血症管理ベンチマークおよび電子健康記録におけるアプローチの有効性を実証する。 この結果から,非同定不能な隠れ共起バイアスを緩和して,オフラインRLソリューションを実際に改善できることが示唆された。

A prominent challenge of offline reinforcement learning (RL) is the issue of hidden confounding: unobserved variables may influence both the actions taken by the agent and the observed outcomes. Hidden confounding can compromise the validity of any causal conclusion drawn from data and presents a major obstacle to effective offline RL. In the present paper, we tackle the problem of hidden confounding in the nonidentifiable setting. We propose a definition of uncertainty due to hidden confounding bias, termed delphic uncertainty, which uses variation over world models compatible with the observations, and differentiate it from the well-known epistemic and aleatoric uncertainties. We derive a practical method for estimating the three types of uncertainties, and construct a pessimistic offline RL algorithm to account for them. Our method does not assume identifiability of the unobserved confounders, and attempts to reduce the amount of confounding bias. We demonstrate through extensive experiments and ablations the efficacy of our approach on a sepsis management benchmark, as well as on electronic health records. Our results suggest that nonidentifiable hidden confounding bias can be mitigated to improve offline RL solutions in practice.
翻訳日:2023-06-05 17:44:05 公開日:2023-06-01
# ディープリニアネットワーク学習のための勾配降下におけるparsimonyの法則

The Law of Parsimony in Gradient Descent for Learning Deep Linear Networks ( http://arxiv.org/abs/2306.01154v1 )

ライセンス: Link先を確認
Can Yaras, Peng Wang, Wei Hu, Zhihui Zhu, Laura Balzano, and Qing Qu(参考訳) 過去数年間、ディープネットワークのトレーニングで広く研究された現象は、従順解に対する勾配降下の暗黙のバイアスである。 本研究では,この現象を,深い線形ネットワークに焦点を絞ることで検討する。 本研究では,データに低次元構造を持つ場合の学習ダイナミクスにおける驚くべき「パリティの法則」を明らかにする。 具体的には、直交初期化から始まる勾配降下の進化は、すべての重み行列における特異ベクトル空間の最小部分にしか影響しないことを示す。 言い換えれば、学習プロセスは各重み行列の小さな不変部分空間内でのみ行われるが、すべての重みパラメータはトレーニングを通じて更新される。 この学習ダイナミクスの単純さは、効率的なトレーニングと深層ネットワークのより深い理解の両方に重大な影響を与える可能性がある。 まず,学習ダイナミクスの低次元構造を生かして,学習効率を大幅に向上させることができる。 より広いネットワークの利点を犠牲にすることなく、より小さく等価な深い線形ネットワークを構築することができる。 第二に、浅層から深層への表現の線形漸進的分離と集中を解明することにより、深層表現学習の理解を深める。 理論的結果を支持する数値実験も実施する。 実験のコードはhttps://github.com/cjyaras/lawofparsimony.comにある。

Over the past few years, an extensively studied phenomenon in training deep networks is the implicit bias of gradient descent towards parsimonious solutions. In this work, we investigate this phenomenon by narrowing our focus to deep linear networks. Through our analysis, we reveal a surprising "law of parsimony" in the learning dynamics when the data possesses low-dimensional structures. Specifically, we show that the evolution of gradient descent starting from orthogonal initialization only affects a minimal portion of singular vector spaces across all weight matrices. In other words, the learning process happens only within a small invariant subspace of each weight matrix, despite the fact that all weight parameters are updated throughout training. This simplicity in learning dynamics could have significant implications for both efficient training and a better understanding of deep networks. First, the analysis enables us to considerably improve training efficiency by taking advantage of the low-dimensional structure in learning dynamics. We can construct smaller, equivalent deep linear networks without sacrificing the benefits associated with the wider counterparts. Second, it allows us to better understand deep representation learning by elucidating the linear progressive separation and concentration of representations from shallow to deep layers. We also conduct numerical experiments to support our theoretical results. The code for our experiments can be found at https://github.com/cjyaras/lawofparsimony.
翻訳日:2023-06-05 17:43:43 公開日:2023-06-01
# 逐次後進推論による多様で忠実な知識に基づく対話生成

Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference ( http://arxiv.org/abs/2306.01153v1 )

ライセンス: Link先を確認
Yan Xu, Deqian Kong, Dehong Xu, Ziwei Ji, Bo Pang, Pascale Fung, Ying Nian Wu(参考訳) 事実知識を用いて多様性と忠実さで応答を生成する能力は、人間のような信頼できる対話システムを構築する上で最重要である。 共通戦略は、知識選択と応答生成を別々に最適化する2段階のパラダイムを採用し、これらの2つのタスクの固有の相関性を見落とし、条件付き変分法を利用して推論ネットワークを用いて知識選択と応答生成を協調的に最適化する。 本稿では,後続分布からおよそサンプリングすることで,知識を選択し,対話を生成する,逐次的後続推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。 他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。 この直感的で直感的なSPI推論手順は、応答生成モデルを直接クエリし、正確な知識選択と忠実な応答の生成を可能にする。 また,2つの共通対話データセット(ウィザード・オブ・ウィキペディアとホール-E)を用いた実験結果から,SPIが従来の強力なベースラインを自動評価と人的評価の両方で上回ることを示した。

The capability to generate responses with diversity and faithfulness using factual knowledge is paramount for creating a human-like, trustworthy dialogue system. Common strategies either adopt a two-step paradigm, which optimizes knowledge selection and response generation separately, and may overlook the inherent correlation between these two tasks, or leverage conditional variational method to jointly optimize knowledge selection and response generation by employing an inference network. In this paper, we present an end-to-end learning framework, termed Sequential Posterior Inference (SPI), capable of selecting knowledge and generating dialogues by approximately sampling from the posterior distribution. Unlike other methods, SPI does not require the inference network or assume a simple geometry of the posterior distribution. This straightforward and intuitive inference procedure of SPI directly queries the response generation model, allowing for accurate knowledge selection and generation of faithful responses. In addition to modeling contributions, our experimental results on two common dialogue datasets (Wizard of Wikipedia and Holl-E) demonstrate that SPI outperforms previous strong baselines according to both automatic and human evaluation metrics.
翻訳日:2023-06-05 17:43:24 公開日:2023-06-01
# 指示は読んだか? 授業学習におけるタスク定義の有効性再考

Did You Read the Instructions? Rethinking the Effectiveness of Task Definitions in Instruction Learning ( http://arxiv.org/abs/2306.01150v1 )

ライセンス: Link先を確認
Fan Yin, Jesse Vig, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Jason Wu(参考訳) 大規模言語モデル(LLM)は、目に見えないタスクを解決するために、自然言語命令に従うことで素晴らしいパフォーマンスを示している。 しかし、モデルがタスク定義を本当に理解しているか、そして、人間が書いた定義が最適かどうかは不明である。 本稿では,授業学習におけるタスク定義の役割を体系的に研究する。 まず,タスク定義のどの部分が最も重要かを理解するために,人間のアノテーションに通知されたアブレーション分析を行い,タスクの出力を記述する内容,特にラベル情報を削除すると,モデルの性能が著しく低下することがわかった。 次に,タスク定義を最小サポートトークン集合に圧縮する自動アルゴリズムを提案し,モデル性能を維持したり改良したりしながら,60\%のトークンを除去できることを示す。 これらの結果に基づき,(1)共通構造化形式におけるタスクのキー情報のみを提供する,(2)モデルの定義をより理解するためのメタチューニングステージを追加する,という2つの手法を提案する。 これら2つの戦略により、119の未認識のテストタスクに対して4.2ルージュlの改善を達成しました。

Large language models (LLMs) have shown impressive performance in following natural language instructions to solve unseen tasks. However, it remains unclear whether models truly understand task definitions and whether the human-written definitions are optimal. In this paper, we systematically study the role of task definitions in instruction learning. We first conduct an ablation analysis informed by human annotations to understand which parts of a task definition are most important, and find that model performance only drops substantially when removing contents describing the task output, in particular label information. Next, we propose an automatic algorithm to compress task definitions to a minimal supporting set of tokens, and find that 60\% of tokens can be removed while maintaining or even improving model performance. Based on these results, we propose two strategies to help models better leverage task instructions: (1) providing only key information for tasks in a common structured format, and (2) adding a meta-tuning stage to help the model better understand the definitions. With these two strategies, we achieve a 4.2 Rouge-L improvement over 119 unseen test tasks.
翻訳日:2023-06-05 17:43:01 公開日:2023-06-01
# AIライカビリティ保険とAIによるe-diagnosisシステムの例

AI Liability Insurance With an Example in AI-Powered E-diagnosis System ( http://arxiv.org/abs/2306.01149v1 )

ライセンス: Link先を確認
Yunfei Ge and Quanyan Zhu(参考訳) 人工知能(AI)は、複数の分野で注目を集めている。 ai駆動システムの不確実性とリスクは、彼らの大胆な採用に抵抗を生み出した。 潜在的な損害を補う経済ソリューションとして、ai責任保険は、日常生活へのaiの統合を強化する有望な市場である。 本研究では、AIによるE-diagnosisシステムを用いて、AI責任保険の研究を行う。 証拠に基づく数値分析を用いた定量的リスク評価モデルを提案する。 我々は,AI技術の信頼性基準について議論し,AI製品の特徴に対応するために必要な調整を提案する。 我々は、AI責任保険がコンプライアンス行動のインセンティブを与えるための規制メカニズムとして機能し、高品質なAIシステムの証明書として機能することを示します。 さらに,AIの本質的不確実性の動的進化を反映したプレミアム調整を提案する。 モラルハザード問題について議論し、AI責任保険の提案を行う。

Artificial Intelligence (AI) has received an increasing amount of attention in multiple areas. The uncertainties and risks in AI-powered systems have created reluctance in their wild adoption. As an economic solution to compensate for potential damages, AI liability insurance is a promising market to enhance the integration of AI into daily life. In this work, we use an AI-powered E-diagnosis system as an example to study AI liability insurance. We provide a quantitative risk assessment model with evidence-based numerical analysis. We discuss the insurability criteria for AI technologies and suggest necessary adjustments to accommodate the features of AI products. We show that AI liability insurance can act as a regulatory mechanism to incentivize compliant behaviors and serve as a certificate of high-quality AI systems. Furthermore, we suggest premium adjustment to reflect the dynamic evolution of the inherent uncertainty in AI. Moral hazard problems are discussed and suggestions for AI liability insurance are provided.
翻訳日:2023-06-05 17:42:44 公開日:2023-06-01
# ニューラルネットワークにおける意味的・視覚的アライメントの相違

Addressing Discrepancies in Semantic and Visual Alignment in Neural Networks ( http://arxiv.org/abs/2306.01148v1 )

ライセンス: Link先を確認
Natalie Abreu, Nathan Vaska, Victoria Helus(参考訳) 画像分類のタスクでは、ニューラルネットワークは主に視覚パターンに依存します。 堅牢なネットワークでは、視覚的に類似したクラスが同じように表現されることを期待する。 意味的に類似するクラスが視覚的に異なっていたり、類似しないクラスの間に視覚的類似性が存在するときの問題を考える。 本稿では,意味論的に類似したクラスと任意の(視覚的でない)意味的関係をよりよく整合させる目的で,データ拡張手法を提案する。 拡散に基づくセマンティックミキシングにおける最近の研究を活用して、2つのクラスのセマンティックハイブリットを生成し、これらのハイブリットを拡張データとしてトレーニングセットに追加する。 本手法は,あるクラスを類似表現されたクラスに切り替える方が容易であるという考えから,逆摂動データにおけるモデル性能を評価することにより,意味的アライメントが向上するかどうかを評価する。 その結果,提案手法を用いて意味的に類似したクラスのアライメントが増加することが示された。

For the task of image classification, neural networks primarily rely on visual patterns. In robust networks, we would expect for visually similar classes to be represented similarly. We consider the problem of when semantically similar classes are visually dissimilar, and when visual similarity is present among non-similar classes. We propose a data augmentation technique with the goal of better aligning semantically similar classes with arbitrary (non-visual) semantic relationships. We leverage recent work in diffusion-based semantic mixing to generate semantic hybrids of two classes, and these hybrids are added to the training set as augmented data. We evaluate whether the method increases semantic alignment by evaluating model performance on adversarially perturbed data, with the idea that it should be easier for an adversary to switch one class to a similarly represented class. Results demonstrate that there is an increase in alignment of semantically similar classes when using our proposed data augmentation method.
翻訳日:2023-06-05 17:42:28 公開日:2023-06-01
# 滑らかな単調ネットワーク

Smooth Monotonic Networks ( http://arxiv.org/abs/2306.01147v1 )

ライセンス: Link先を確認
Christian Igel(参考訳) 単調性制約は統計モデリングにおける強力な正則化器である。 コンピュータが支援する意思決定の公平性をサポートし、データ駆動科学モデルにおける可能性を高めることができる。 セミナル min-max (MM) ニューラルネットワークアーキテクチャは、単調性を保証するが、勾配が消えるため、トレーニング中に望ましくない局所最適状態に陥ることがしばしばある。 本稿では,この問題を緩和するスムーズな非線形性を用いたMMネットワークの簡易な修正を提案する。 結果として生じるスムーズなmin-max(SMM)ネットワークモジュールは、MMアーキテクチャから漸近近似特性を継承する。 エンドツーエンドでトレーニングされた大規模なディープラーニングシステムで使用することができる。 SMMモジュールは、モノトニックモデリングのための最先端のニューラルネットワークよりもはるかにシンプルで、計算量も少ない。 それでも我々の実験では、一般化性能の観点からは、代替神経および非神経アプローチに好適な比較を行いました。

Monotonicity constraints are powerful regularizers in statistical modelling. They can support fairness in computer supported decision making and increase plausibility in data-driven scientific models. The seminal min-max (MM) neural network architecture ensures monotonicity, but often gets stuck in undesired local optima during training because of vanishing gradients. We propose a simple modification of the MM network using strictly-increasing smooth non-linearities that alleviates this problem. The resulting smooth min-max (SMM) network module inherits the asymptotic approximation properties from the MM architecture. It can be used within larger deep learning systems trained end-to-end. The SMM module is considerably simpler and less computationally demanding than state-of-the-art neural networks for monotonic modelling. Still, in our experiments, it compared favorably to alternative neural and non-neural approaches in terms of generalization performance.
翻訳日:2023-06-05 17:42:01 公開日:2023-06-01
# 合成タスクデータを用いたマルチモーダル推論モデルの能力評価

Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data ( http://arxiv.org/abs/2306.01144v1 )

ライセンス: Link先を確認
Nathan Vaska, Victoria Helus(参考訳) 大規模言語と統合言語と視覚理解モデルの印象的な進歩と応用により、潜在的な推論能力を調べる方法の必要性が高まっている。 しかし、複雑なマルチモーダル推論タスクに対する自然に発生するデータ収集の難しさは、すでに学術データセットでカバーされていないタスクに対するAIメソッドの評価をボトルネックにしている。 本研究では,高解像度テキスト・画像生成の最近の進歩を活用し,マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。 このフレームワークをコンテキスト依存の異常データ生成に適用し、既存のデータセットではあまりカバーされていない課題タスクで合成データセットを作成する。 本手法によって生成されたデータに対して,最先端のビジュアル質問応答(vqa)モデルの性能をベンチマークし,そのタスクが扱いやすい一方で,通常のvqaタスクよりもコンテキスト依存異常検出タスクにおいて著しく性能が低下することを示す。

The impressive advances and applications of large language and joint language-and-visual understanding models has led to an increased need for methods of probing their potential reasoning capabilities. However, the difficulty of gather naturally-occurring data for complex multi-modal reasoning tasks bottlenecks the evaluation of AI methods on tasks which are not already covered by an academic dataset. In this work, we leverage recent advances in high resolution text-to-image generation to develop a framework for generating evaluation data for multi-modal reasoning tasks. We apply this framework to generate context-dependent anomaly data, creating a synthetic dataset on a challenging task which is not well covered by existing datasets. We benchmark the performance of a state-of-the-art visual question answering (VQA) model against data generated with this method, and demonstrate that while the task is tractable, the model performs significantly worse on the context-dependent anomaly detection task than on standard VQA tasks.
翻訳日:2023-06-05 17:41:39 公開日:2023-06-01
# 連続時間ガウス過程回帰による時間分解能を考慮したイベントベースビジュアルオドメトリー

Event-based Visual Odometry with Full Temporal Resolution via Continuous-time Gaussian Process Regression ( http://arxiv.org/abs/2306.01188v1 )

ライセンス: Link先を確認
Jianeng Wang, Jonathan D. Gammell(参考訳) イベントベースのカメラは、シーン内の個々の視覚変化を非同期に捉えます。 これにより、従来のフレームベースのカメラよりも、非常にダイナミックな動きと照明が弱い。 それはまた、シーン内のすべての測定が、ユニークなタイミングで起こりうることを意味する。 これらの異なる測定時間を扱うことは、イベントベースのカメラを使用する上で大きな課題である。 視覚計測(VO)パイプラインでは、時間的に近い測定を1つの共通の時間で行うように近似することで、しばしば対処される。 このグルーピングは推定問題を単純化するが、イベントベースカメラの時間分解能を犠牲にする。 そこで本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。 連続時間軌道推定を用いて、物理的動機付け前のガウス過程の回帰を通じて、イベントベースのカメラの時間的忠実度と非同期性を維持する。 その性能はMVSECデータセットで評価され、2つの独立したシーケンスで7.9e-3と5.9e-3の相対誤差を達成し、既存の公開イベントベースのステレオVOパイプラインをそれぞれ2回と4回上回る。

Event-based cameras asynchronously capture individual visual changes in a scene. This makes them more robust than traditional frame-based cameras to highly dynamic motions and poor illumination. It also means that every measurement in a scene can occur at a unique time. Handling these different measurement times is a major challenge of using event-based cameras. It is often addressed in visual odometry (VO) pipelines by approximating temporally close measurements as occurring at one common time. This grouping simplifies the estimation problem but sacrifices the inherent temporal resolution of event-based cameras. This paper instead presents a complete stereo VO pipeline that estimates directly with individual event-measurement times without requiring any grouping or approximation. It uses continuous-time trajectory estimation to maintain the temporal fidelity and asynchronous nature of event-based cameras through Gaussian process regression with a physically motivated prior. Its performance is evaluated on the MVSEC dataset, where it achieves 7.9e-3 and 5.9e-3 RMS relative error on two independent sequences, outperforming the existing publicly available event-based stereo VO pipeline by two and four times, respectively.
翻訳日:2023-06-05 17:33:57 公開日:2023-06-01
# カオスアトラクションの不変性維持のためのニューラルオペレーターの訓練

Training neural operators to preserve invariant measures of chaotic attractors ( http://arxiv.org/abs/2306.01187v1 )

ライセンス: Link先を確認
Ruoxi Jiang, Peter Y. Lu, Elena Orlova, Rebecca Willett(参考訳) カオスシステムは、初期状態の小さな摂動がトラジェクトリを指数的な速度で発散させるため、長期の水平予測を難しくする。 この設定では、ニューラルネットワークオペレータは2乗誤差損失を最小限に抑えながら、正確な短期予測が可能でありながら、長い時間的地平線上での力学の統計的または構造的特性の再現に失敗し、縮退する結果をもたらすことができる。 本稿では,力学の時間不変な統計特性を特徴付けるカオス的アトラクタの不変測度を保存するための代替フレームワークを提案する。 具体的には,マルチ環境設定(各サンプル軌道がわずかに異なるダイナミクスによって制御される)において,ノイズデータを用いたトレーニングを行うための2つの新しい手法を検討する。 まず、観測されたダイナミクスとニューラルネットワークの出力との間の最適な輸送距離に基づく損失を提案する。 このアプローチでは、最適な輸送損失に含まれる統計的特徴を決定するために基礎となる物理学の専門知識が必要である。 第2に,特別な事前知識を必要としないコントラスト学習フレームワークは,最適移動アプローチと同様に,力学の統計的性質を保存できることを示した。 様々なカオス系において, 本手法はカオスアトラクタの不変測度を保存するための実証的手法である。

Chaotic systems make long-horizon forecasts difficult because small perturbations in initial conditions cause trajectories to diverge at an exponential rate. In this setting, neural operators trained to minimize squared error losses, while capable of accurate short-term forecasts, often fail to reproduce statistical or structural properties of the dynamics over longer time horizons and can yield degenerate results. In this paper, we propose an alternative framework designed to preserve invariant measures of chaotic attractors that characterize the time-invariant statistical properties of the dynamics. Specifically, in the multi-environment setting (where each sample trajectory is governed by slightly different dynamics), we consider two novel approaches to training with noisy data. First, we propose a loss based on the optimal transport distance between the observed dynamics and the neural operator outputs. This approach requires expert knowledge of the underlying physics to determine what statistical features should be included in the optimal transport loss. Second, we show that a contrastive learning framework, which does not require any specialized prior knowledge, can preserve statistical properties of the dynamics nearly as well as the optimal transport approach. On a variety of chaotic systems, our method is shown empirically to preserve invariant measures of chaotic attractors.
翻訳日:2023-06-05 17:33:40 公開日:2023-06-01
# ゼロショットパーソナリティ推定のためのGPT-3のシステム評価

Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation ( http://arxiv.org/abs/2306.01183v1 )

ライセンス: Link先を確認
Adithya V Ganesan, Yash Kumar Lal, August H{\aa}kan Nilsson, H. Andrew Schwartz(参考訳) 非常に大きな言語モデル(LLM)は、ゼロショット設定でのNLPタスクのスペクトルにおいて非常によく機能する。 しかしながら、人格特性の評価など、心理的概念の理解に依存する人間レベルのNLP問題に対する彼らの業績については、ほとんど分かっていない。 本研究では,GPT-3のゼロショット機能を用いて,ユーザのソーシャルメディア投稿からBig 5の性格特性を推定する。 系統的な実験により,ゼロショットgpt-3の性能は,プロンプトにその特性に関する知識を注入することで,より広い分類のために既存の事前学習されたsomaに近いことが判明した。 しかし、きめ細かい分類を提供するように促されると、その性能は単純な最も頻繁なクラス(mfc)ベースラインに近くなる。 我々はさらに、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、人間のNLPタスクにおけるLCMを改善する方法を提案する。

Very large language models (LLMs) perform extremely well on a spectrum of NLP tasks in a zero-shot setting. However, little is known about their performance on human-level NLP problems which rely on understanding psychological concepts, such as assessing personality traits. In this work, we investigate the zero-shot ability of GPT-3 to estimate the Big 5 personality traits from users' social media posts. Through a set of systematic experiments, we find that zero-shot GPT-3 performance is somewhat close to an existing pre-trained SotA for broad classification upon injecting knowledge about the trait in the prompts. However, when prompted to provide fine-grained classification, its performance drops to close to a simple most frequent class (MFC) baseline. We further analyze where GPT-3 performs better, as well as worse, than a pretrained lexical model, illustrating systematic errors that suggest ways to improve LLMs on human-level NLP tasks.
翻訳日:2023-06-05 17:33:18 公開日:2023-06-01
# TMI! 微調整モデル、事前訓練データから個人情報を漏洩

TMI! Finetuned Models Leak Private Information from their Pretraining Data ( http://arxiv.org/abs/2306.01181v1 )

ライセンス: Link先を確認
John Abascal, Stanley Wu, Alina Oprea, Jonathan Ullman(参考訳) トランスファー学習は、関連するタスクの微調整モデルの構築を支援するために、1つのタスクのためにトレーニングされた事前トレーニングされたモデルを活用する手段として、機械学習でますます普及しているテクニックである。 このパラダイムは機械学習において特にプライバシとして人気があり、事前訓練されたモデルは公開され、微調整のためのデータのみが機密視されている。 しかし、事前トレーニングに使用するデータがまだセンシティブであると考える理由があり、微調整されたモデルが事前トレーニングデータについてどの程度の情報漏えいするかを理解することが不可欠である。 本研究では,対戦相手が微調整されたモデルにのみアクセスでき,事前学習データのメンバシップを推測する新たな会員推論脅威モデルを提案する。 この脅威モデルを実現するために、下流タスクの予測に対する記憶済み事前学習サンプルの影響を利用した新しいメタ分類器ベースの攻撃TMIを実装した。 我々は、視覚と自然言語の両方のタスクにおいて、異なるプライバシによる微調整を含む複数のトランスファー学習設定でTMIを評価した。 評価の結果,TMIは,提案モデルに対するクエリアクセスを用いて,事前学習したサンプルのメンバシップを推測できることがわかった。

Transfer learning has become an increasingly popular technique in machine learning as a way to leverage a pretrained model trained for one task to assist with building a finetuned model for a related task. This paradigm has been especially popular for privacy in machine learning, where the pretrained model is considered public, and only the data for finetuning is considered sensitive. However, there are reasons to believe that the data used for pretraining is still sensitive, making it essential to understand how much information the finetuned model leaks about the pretraining data. In this work we propose a new membership-inference threat model where the adversary only has access to the finetuned model and would like to infer the membership of the pretraining data. To realize this threat model, we implement a novel metaclassifier-based attack, TMI, that leverages the influence of memorized pretraining samples on predictions in the downstream task. We evaluate TMI on both vision and natural language tasks across multiple transfer learning settings, including finetuning with differential privacy. Through our evaluation, we find that TMI can successfully infer membership of pretraining examples using query access to the finetuned model.
翻訳日:2023-06-05 17:33:02 公開日:2023-06-01
# スナップショット圧縮画像の協調的ハードウェア・プロンプト学習

Cooperative Hardware-Prompt Learning for Snapshot Compressive Imaging ( http://arxiv.org/abs/2306.01176v1 )

ライセンス: Link先を確認
Jiamian Wang, Zongliang Wu, Yulun Zhang, Xin Yuan, Tao Lin, Zhiqiang Tao(参考訳) スナップショット圧縮イメージングは、現実世界のハイパースペクトル信号を取得するための有望な技術として現れる。 光学エンコーダを用いて2次元計測を圧縮的に生成し、3次元ハイパースペクトルデータを深部再構成ネットワークをトレーニングすることで検索する。 既存の再構成モデルは、ハードウェアの摂動や置換に弱い単一ハードウェアインスタンスでトレーニングされ、物理的な構成に過度に適合する問題を示す。 この欠陥は、未確認のハードウェアに組み立てられた場合、大きなパフォーマンス劣化に悩まされるため、事前訓練されたモデルのデプロイを制限する。 新しいハードウェアによる再構築モデルをより容易にするため、従来の取り組みは、機関間の独占資産を扱う際には非現実的なマルチハードウエアとデータ収集による集中的なトレーニングに頼っていた。 これを踏まえて、フェデレートドラーニング(FL)は、プライバシーを破ることなく、クロスハードウェアな協調を可能にするための実現可能なソリューションとなっている。 しかしながら、単純なFedAvgは、ハードウェアの不整合を所有するデータの不均一性にクライアントのドリフトを受けます。 そこで本研究では,FLを用いた高速チューニングを併用して,初めて圧縮画像のスナップショット化を行い,FedHP(Federated Hardware-prompt Learning)手法を提案する。 学習多様体にのみ作用するが入力データ空間に根ざした不均一性には触れない勾配を修正してクライアントドリフトを緩和する代わりに、提案するfedhpは、異なる予め定義された符号化された開口部から生じるデータ不整合の指標となる、データ分布を調整するためのハードウェアコンディショニングプロンサをグローバルに学習する。 広範な実験により,提案手法が事前学習したモデルをよく調整し,ハードウェア構成を不確定化することを示した。

Snapshot compressive imaging emerges as a promising technology for acquiring real-world hyperspectral signals. It uses an optical encoder and compressively produces the 2D measurement, followed by which the 3D hyperspectral data can be retrieved via training a deep reconstruction network. Existing reconstruction models are trained with a single hardware instance, whose performance is vulnerable to hardware perturbation or replacement, demonstrating an overfitting issue to the physical configuration. This defect limits the deployment of pre-trained models since they would suffer from large performance degradation when are assembled to unseen hardware. To better facilitate the reconstruction model with new hardware, previous efforts resort to centralized training by collecting multi-hardware and data, which is impractical when dealing with proprietary assets among institutions. In light of this, federated learning (FL) has become a feasible solution to enable cross-hardware cooperation without breaking privacy. However, the naive FedAvg is subject to client drift upon data heterogeneity owning to the hardware inconsistency. In this work, we tackle this challenge by marrying prompt tuning with FL to snapshot compressive imaging for the first time and propose an federated hardware-prompt learning (FedHP) method. Rather than mitigating the client drift by rectifying the gradients, which only takes effect on the learning manifold but fails to touch the heterogeneity rooted in the input data space, the proposed FedHP globally learns a hardware-conditioned prompter to align the data distribution, which serves as an indicator of the data inconsistency stemming from different pre-defined coded apertures. Extensive experiments demonstrate that the proposed method well coordinates the pre-trained model to indeterminate hardware configurations.
翻訳日:2023-06-05 17:32:42 公開日:2023-06-01
# ニューラル理想大渦シミュレーション:ニューラル確率微分方程式による乱流のモデル化

Neural Ideal Large Eddy Simulation: Modeling Turbulence with Neural Stochastic Differential Equations ( http://arxiv.org/abs/2306.01174v1 )

ライセンス: Link先を確認
Anudhyan Boral, Zhong Yi Wan, Leonardo Zepeda-N\'u\~nez, James Lottes, Qing Wang, Yi-fan Chen, John Roberts Anderson, Fei Sha(参考訳) 本稿では,乱流閉包モデルからの理想的な大渦シミュレーション(LES)と確率的モデリングのためのニューラル確率微分方程式(SDE)の2つの強力なアイデアを同化するデータ駆動学習フレームワークを提案する。 理想的なLESは、各全階軌道を基礎となる力学のランダムな実現として扱うことでLESの流れをモデル化する。 しかし、理想 les は解析的に難解である。 本研究では、確率過程の進化をモデル化するために潜時ニューラルネットワークSDEと、潜時空間と所望の理想の流れ場の間の変換のためのエンコーダデコーダペアを用いる。 これは、各軌道が力学の決定論的実現として扱われる閉包モデルの他のタイプの神経パラメータ化とは対照的である。 我々のアプローチ (niLES - Neural ideal LES) のカオス力学系に対する効果を示す: Kolmogorov flow at a Reynolds number 20,000。 競合する手法と比較して,非構造メッシュを用いて不均一なジオメトリをシームレスに処理できる。 特にナイルズはより正確な統計量を持つ軌道につながり、特に長いホリゾンのロールアウトにおいて安定性を高めている。

We introduce a data-driven learning framework that assimilates two powerful ideas: ideal large eddy simulation (LES) from turbulence closure modeling and neural stochastic differential equations (SDE) for stochastic modeling. The ideal LES models the LES flow by treating each full-order trajectory as a random realization of the underlying dynamics, as such, the effect of small-scales is marginalized to obtain the deterministic evolution of the LES state. However, ideal LES is analytically intractable. In our work, we use a latent neural SDE to model the evolution of the stochastic process and an encoder-decoder pair for transforming between the latent space and the desired ideal flow field. This stands in sharp contrast to other types of neural parameterization of closure models where each trajectory is treated as a deterministic realization of the dynamics. We show the effectiveness of our approach (niLES - neural ideal LES) on a challenging chaotic dynamical system: Kolmogorov flow at a Reynolds number of 20,000. Compared to competing methods, our method can handle non-uniform geometries using unstructured meshes seamlessly. In particular, niLES leads to trajectories with more accurate statistics and enhances stability, particularly for long-horizon rollouts.
翻訳日:2023-06-05 17:32:11 公開日:2023-06-01
# C2F-FARとChatGPTを用いたハイブリッド長文要約 : 実践的研究

Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A Practical Study ( http://arxiv.org/abs/2306.01169v1 )

ライセンス: Link先を確認
Guang Lu, Sylvia B. Larcher, Tu Tran(参考訳) テキスト要約は、言語モデルの理解と生成能力に挑戦する下流自然言語処理(NLP)タスクである。 ニュース記事のような短い文章を自動的に要約することでかなりの進歩があり、しばしば満足のいく結果に繋がる。 しかし、長い文書の要約は依然として大きな課題である。 これは、テキスト内の複雑なコンテキスト情報と、モデルパフォーマンスの開発とテストに使用できるオープンソースのベンチマークデータセットや評価フレームワークが欠如していることによるものだ。 本研究では,大規模言語モデル(LLM)分野における最新のブレークスルーであるChatGPTと,抽出要約モデルC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)を併用して,ビジネス記事や書籍などの長期文書を対象としたハイブリッド抽出と要約パイプラインを提案する。 私たちは世界有数の企業である getAbstract AG と協力して,専門的な書籍要約の専門知識と経験を活用しています。 実践的な研究により,現在の自動評価指標を用いて評価すると,機械生成サマリーは少なくとも人書きサマリーと同等の性能を発揮することが示されている。 しかし,ChatGPTが人間による評価を通じて生成したテキストについてより精査した結果,テキストのコヒーレンス,忠実性,スタイルにはまだ重要な問題があることが判明した。 以上の結果から,ChatGPTの使用は長い文書を要約するための非常に有望なアプローチであり,人間の編集者のインスピレーションとなることが示唆された。 我々は,長い文書を要約するChatGPTの能力が,実践者のニーズとどのように重複しているかを,NLP研究者に知らせることを期待している。 提案したハイブリッド要約パイプライン(特にGPT-4を含む)のテストや,長い文書の要約作業に適した新たな評価フレームワークの提案には,さらなる作業が必要である。

Text summarization is a downstream natural language processing (NLP) task that challenges the understanding and generation capabilities of language models. Considerable progress has been made in automatically summarizing short texts, such as news articles, often leading to satisfactory results. However, summarizing long documents remains a major challenge. This is due to the complex contextual information in the text and the lack of open-source benchmarking datasets and evaluation frameworks that can be used to develop and test model performance. In this work, we use ChatGPT, the latest breakthrough in the field of large language models (LLMs), together with the extractive summarization model C2F-FAR (Coarse-to-Fine Facet-Aware Ranking) to propose a hybrid extraction and summarization pipeline for long documents such as business articles and books. We work with the world-renowned company getAbstract AG and leverage their expertise and experience in professional book summarization. A practical study has shown that machine-generated summaries can perform at least as well as human-written summaries when evaluated using current automated evaluation metrics. However, a closer examination of the texts generated by ChatGPT through human evaluations has shown that there are still critical issues in terms of text coherence, faithfulness, and style. Overall, our results show that the use of ChatGPT is a very promising but not yet mature approach for summarizing long documents and can at best serve as an inspiration for human editors. We anticipate that our work will inform NLP researchers about the extent to which ChatGPT's capabilities for summarizing long documents overlap with practitioners' needs. Further work is needed to test the proposed hybrid summarization pipeline, in particular involving GPT-4, and to propose a new evaluation framework tailored to the task of summarizing long documents.
翻訳日:2023-06-05 17:31:48 公開日:2023-06-01
# YouTube上の公衆衛生検査のための自然言語処理の活用:COVID-19のケーススタディ

Leveraging Natural Language Processing For Public Health Screening On YouTube: A COVID-19 Case Study ( http://arxiv.org/abs/2306.01164v1 )

ライセンス: Link先を確認
Ahrar Bin Aslam (1), Zafi Sherhan Syed (1), Muhammad Faiz Khan (1), Asghar Baloch (1), and Muhammad Shehram Shah Syed (1) ((1) Mehran University of Engineering and Technology)(参考訳) 背景: ソーシャルメディアプラットフォームは医療情報の有効な情報源となり、患者や医療専門家が医療関連情報を共有し、病気を追跡できるようになっている。 同様に、世界最大のビデオ共有プラットフォームであるyoutubeには、個人が病気について話すvlogが含まれている。 本研究の目的は、2019年の新型コロナウイルス(covid-19)の診断に関連するyoutube vlogの音声コンテンツの特定に自然言語処理(nlp)を用いた公衆衛生スクリーニングを行うことである。 方法:YouTube上のCOVID-19ビデオは関連キーワードを使って検索された。 英語で話されている合計1000本のビデオがダウンロードされ、そのうち791本がvlog、192本が非vlog、17本がチャンネルによって削除された。 ビデオはMicrosoft Streamsを使ってテキストフォーマットに変換された。 テキストデータは基礎的および高度な前処理法を用いて前処理された。 新型コロナウイルスに関連する言葉を含む200語からなる辞書が作成された。 データはトピックモデリング、ワードクラウド、辞書マッチングを用いて分析された。 結果:"マスク"や"アイソレーション"といった一般的な用語とともに、新型コロナウイルスの症状に関する議論が明らかになった。 語彙分析では、96.46%の患者が一般的な用語を話し、95.45%の患者が新型コロナウイルスの症状について話した。 LDA Topic Modelingの結果は、YouTubeのvlogsにおけるCOVID-19の診断に関する主要なテーマとコンテンツをうまく捉えたトピックも生成した。 結論:YouTubeのvlogにNLP技術を活用することで、公衆衛生実践者はパンデミックの影響を緩和し、公衆衛生上の課題に効果的に対応する能力を高めることができる。

Background: Social media platforms have become a viable source of medical information, with patients and healthcare professionals using them to share health-related information and track diseases. Similarly, YouTube, the largest video-sharing platform in the world contains vlogs where individuals talk about their illnesses. The aim of our study was to investigate the use of Natural Language Processing (NLP) to identify the spoken content of YouTube vlogs related to the diagnosis of Coronavirus disease of 2019 (COVID-19) for public health screening. Methods: COVID-19 videos on YouTube were searched using relevant keywords. A total of 1000 videos being spoken in English were downloaded out of which 791 were classified as vlogs, 192 were non-vlogs, and 17 were deleted by the channel. The videos were converted into a textual format using Microsoft Streams. The textual data was preprocessed using basic and advanced preprocessing methods. A lexicon of 200 words was created which contained words related to COVID-19. The data was analyzed using topic modeling, word clouds, and lexicon matching. Results: The word cloud results revealed discussions about COVID-19 symptoms like "fever", along with generic terms such as "mask" and "isolation". Lexical analysis demonstrated that in 96.46% of videos, patients discussed generic terms, and in 95.45% of videos, people talked about COVID-19 symptoms. LDA Topic Modeling results also generated topics that successfully captured key themes and content related to our investigation of COVID-19 diagnoses in YouTube vlogs. Conclusion: By leveraging NLP techniques on YouTube vlogs public health practitioners can enhance their ability to mitigate the effects of pandemics and effectively respond to public health challenges.
翻訳日:2023-06-05 17:31:17 公開日:2023-06-01
# エッジ人工知能のための統合センシング通信計算

Integrated Sensing-Communication-Computation for Edge Artificial Intelligence ( http://arxiv.org/abs/2306.01162v1 )

ライセンス: Link先を確認
Dingzhu Wen, Xiaoyang Li, Yong Zhou, Yuanming Shi, Sheng Wu, and Chunxiao Jiang(参考訳) エッジ人工知能(AI)は、あらゆるインテリジェンスを達成するために、デジタルツイン、ホログラム投影、セマンティックコミュニケーション、自動運転といった一連の高度な技術を強化するために、6Gに対する有望なソリューションである。 エッジ学習やエッジAI推論を含むエッジAIタスクのパフォーマンスは、データ取得のセンシング、情報抽出の計算、情報伝達の通信という3つの高度に結合されたプロセスの品質に依存する。 しかし、これらの3つのモジュールは、サービスの品質を向上させるためにネットワークリソースと競合する必要がある。 この目的のために、統合センシング通信計算(ISCC)は、リソース利用の改善と、エッジAIタスクのカスタマイズされた目標達成に最重要となる。 本稿では,これら3つのモジュール間の相互作用を調べることにより,アプリケーション層と物理層の両方において,融合エッジ学習タスクとエッジai推論タスクのための各種isccスキームを提案する。

Edge artificial intelligence (AI) has been a promising solution towards 6G to empower a series of advanced techniques such as digital twin, holographic projection, semantic communications, and auto-driving, for achieving intelligence of everything. The performance of edge AI tasks, including edge learning and edge AI inference, depends on the quality of three highly coupled processes, i.e., sensing for data acquisition, computation for information extraction, and communication for information transmission. However, these three modules need to compete for network resources for enhancing their own quality-of-services. To this end, integrated sensing-communication-computation (ISCC) is of paramount significance for improving resource utilization as well as achieving the customized goals of edge AI tasks. By investigating the interplay among the three modules, this article presents various kinds of ISCC schemes for federated edge learning tasks and edge AI inference tasks in both application and physical layers.
翻訳日:2023-06-05 17:30:47 公開日:2023-06-01
# スパースフラッシュアテンションによる大規模シーケンスに対するより高速な因果注意

Faster Causal Attention Over Large Sequences Through Sparse Flash Attention ( http://arxiv.org/abs/2306.01160v1 )

ライセンス: Link先を確認
Matteo Pagliardini, Daniele Paliotta, Martin Jaggi, Fran\c{c}ois Fleuret(参考訳) トランスフォーマーベースの言語モデルは、長いシーケンスを処理しなければならない様々なアプリケーションを見出している。 これらのアプリケーションでは、シーケンス長を二次的にスケーリングする唯一のコンポーネントである因果的自己アテンション(causal self-attention)が中心的関心事となる。 多くの作品では注意パターンのスパース化と自己注意の計算オーバーヘッドの削減が提案されているが、それらはしばしば実装上の懸念によって制限され、注意行列の上にシンプルで静的な構造を課すことになる。 逆に、よりダイナミックなスパース・アテンションを実装すると、daoら(2022年)のflash実装を使ったフルアテンションの計算よりもランタイムが大幅に遅くなります。 FlashAttentionを拡張して、特にキー/クエリのドロップやハッシュベースのアテンションを含む、大規模な注目空間パターンに対応します。 これにより、計算の複雑さのオーバーヘッドがなく、FlashAttention上でのランタイムの高速化が実現する。 比較的低いスパース度であっても, 配列長の増加に伴ってフラッシュアテンションを可視的に改善する。 複雑さを犠牲にすることなく、トランスフォーマー言語モデルのトレーニング速度を$2.0\times$と$3.3\times$で、それぞれ$8k$と$16k$トークンのシーケンスで増加させます。

Transformer-based language models have found many diverse applications requiring them to process sequences of increasing length. For these applications, the causal self-attention -- which is the only component scaling quadratically w.r.t. the sequence length -- becomes a central concern. While many works have proposed schemes to sparsify the attention patterns and reduce the computational overhead of self-attention, those are often limited by implementations concerns and end up imposing a simple and static structure over the attention matrix. Conversely, implementing more dynamic sparse attentions often results in runtimes significantly slower than computing the full attention using the Flash implementation from Dao et al. (2022). We extend FlashAttention to accommodate a large class of attention sparsity patterns that, in particular, encompass key/query dropping and hashing-based attention. This leads to implementations with no computational complexity overhead and a multi-fold runtime speedup on top of FlashAttention. Even with relatively low degrees of sparsity, our method improves visibly upon FlashAttention as the sequence length increases. Without sacrificing perplexity, we increase the training speed of a transformer language model by $2.0\times$ and $3.3\times$ for sequences of respectively $8k$ and $16k$ tokens.
翻訳日:2023-06-05 17:30:29 公開日:2023-06-01
# SelFLoc: 大規模クラウドによる位置認識のための選択的特徴融合

SelFLoc: Selective Feature Fusion for Large-scale Point Cloud-based Place Recognition ( http://arxiv.org/abs/2306.01205v1 )

ライセンス: Link先を確認
Qibo Qiu, Haiming Gao, Wenxiao Wang, Zhiyi Su, Tian Xie, Wei Hua, and Xiaofei He(参考訳) ポイントクラウドベースの位置認識は、特にグローバル位置センサがアクセスできない場合、モバイルロボットや自動運転車にとって不可欠である。 物体や建物の表面にはLiDARの点が散在しており、異なる軸に沿って強い形状の先行している。 特定の軸に沿ったメッセージパッシングを改善するために,本論文の主なコントリビューションの一つであるSACB(Stacked Asymmetric Convolution Block)が設計されている。 包括的な実験により、非対称畳み込みとそのsacbが採用する戦略が、ポイントクラウド機能のより効果的な表現に寄与できることが示されている。 そこで本研究では,特定のキー領域における局所的特徴を選択的に高め,融合前の特徴を整列するために,ポイント・チャネル・ワイズ・ゲーティング層を予め定義された配列に積み重ねて形成した選択的特徴融合ブロック(sffb)を提案する。 SACBとSFFBは、SelFLocと呼ばれるポイントクラウドベースの位置認識のための堅牢で正確なアーキテクチャを構築するために結合される。 比較実験の結果、selflocはoxfordや他の3つの社内ベンチマークにおいて、平均リコール@1で1.6の絶対パーセンテージの改善で最先端(sota)のパフォーマンスを達成していることがわかった。

Point cloud-based place recognition is crucial for mobile robots and autonomous vehicles, especially when the global positioning sensor is not accessible. LiDAR points are scattered on the surface of objects and buildings, which have strong shape priors along different axes. To enhance message passing along particular axes, Stacked Asymmetric Convolution Block (SACB) is designed, which is one of the main contributions in this paper. Comprehensive experiments demonstrate that asymmetric convolution and its corresponding strategies employed by SACB can contribute to the more effective representation of point cloud feature. On this basis, Selective Feature Fusion Block (SFFB), which is formed by stacking point- and channel-wise gating layers in a predefined sequence, is proposed to selectively boost salient local features in certain key regions, as well as to align the features before fusion phase. SACBs and SFFBs are combined to construct a robust and accurate architecture for point cloud-based place recognition, which is termed SelFLoc. Comparative experimental results show that SelFLoc achieves the state-of-the-art (SOTA) performance on the Oxford and other three in-house benchmarks with an improvement of 1.6 absolute percentages on mean average recall@1.
翻訳日:2023-06-05 17:24:00 公開日:2023-06-01
# 物理インフォームド・ユニセットによる不均一材料中の隠れ弾性の発見

Physics-informed UNets for Discovering Hidden Elasticity in Heterogeneous Materials ( http://arxiv.org/abs/2306.01204v1 )

ライセンス: Link先を確認
Ali Kamali, Kaveh Laksari(参考訳) 軟質の生体組織は、しばしば構造成分の変化による複雑な機械的特性を持つ。 本稿では, 入力画像, 通常の応力境界条件, ドメイン物理情報から, 機械的パラメータの空間分布を推定するための, 弾性の反転(El-UNet)のための新しいUNetベースニューラルネットワークモデルを開発する。 等方的線形弾性に対する未知パラメータと応力分布の推定において,El-UNetの精度と計算コストの両面において,完全連結な物理情報ニューラルネットワークと比較して優れた性能を示す。 我々は,el-unetの異なるバリエーションを特徴付け,自己適応型空間損失重み付け手法を提案する。 インバージョンモデルを検証するため, 材料パラメータの異種分布を持つ等方性領域の有限要素シミュレーションを行い, 合成データを生成する。 El-UNetは、未知のフィールドの分布を解く際に、完全に接続された物理インフォームの実装よりも高速で正確である。 実験されたモデルのうち、自己適応型空間重み付けモデルが最も正確な復元を等しい計算時間で行った。 学習した空間重み分布は,非重み付けモデルが不正確に解いている領域と明確に一致した。 本研究では,畳み込みニューラルネットワークを用いた弾性イメージングのための計算効率の高い逆変換アルゴリズムを示し,従来提案してきた手法では達成できなかった3次元逆弾性問題に対する潜在的高速枠組みを提案する。

Soft biological tissues often have complex mechanical properties due to variation in structural components. In this paper, we develop a novel UNet-based neural network model for inversion in elasticity (El-UNet) to infer the spatial distributions of mechanical parameters from strain maps as input images, normal stress boundary conditions, and domain physics information. We show superior performance, both in terms of accuracy and computational cost, by El-UNet compared to fully-connected physics-informed neural networks in estimating unknown parameters and stress distributions for isotropic linear elasticity. We characterize different variations of El-UNet and propose a self-adaptive spatial loss weighting approach. To validate our inversion models, we performed various finite-element simulations of isotropic domains with heterogenous distributions of material parameters to generate synthetic data. El-UNet is faster and more accurate than the fully-connected physics-informed implementation in resolving the distribution of unknown fields. Among the tested models, the self-adaptive spatially weighted models had the most accurate reconstructions in equal computation times. The learned spatial weighting distribution visibly corresponded to regions that the unweighted models were resolving inaccurately. Our work demonstrates a computationally efficient inversion algorithm for elasticity imaging using convolutional neural networks and presents a potential fast framework for three-dimensional inverse elasticity problems that have proven unachievable through previously proposed methods.
翻訳日:2023-06-05 17:23:36 公開日:2023-06-01
# 発話の学習:オフラインモデルを用いた同時音声合成のためのレイテンシと品質トレードオフ

Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models ( http://arxiv.org/abs/2306.01201v1 )

ライセンス: Link先を確認
Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor Zordan(参考訳) 音声から音声への翻訳(s2st)における最近の研究は、オフラインの設定に重点を置いている。 しかし、これは多くの現実世界のシナリオでは妥当ではない。 完全な発話を待つのではなく、レイテンシに敏感なアプリケーションでは、入力の情報が存在するとすぐに翻訳が話される。 本研究では,実世界のユースケースを対象とした同時S2STシステムを提案する。 我々のシステムは、出力シーケンスをいつ話すかを決定する4つのポリシーを含む、出力のレイテンシを動的に調整可能なパラメータで57言語から英語への翻訳をサポートする。 これらのポリシーは,Greedy(wait-$k$)ベースライン上でのレイテンシの増加を最小限に抑え,オフラインレベルの精度を実現する。 我々は、将来のSimulS2ST研究とアプリケーション開発を支援するために、評価コードとインタラクティブなテストスクリプトをオープンソース化する。

Recent work in speech-to-speech translation (S2ST) has focused primarily on offline settings, where the full input utterance is available before any output is given. This, however, is not reasonable in many real-world scenarios. In latency-sensitive applications, rather than waiting for the full utterance, translations should be spoken as soon as the information in the input is present. In this work, we introduce a system for simultaneous S2ST targeting real-world use cases. Our system supports translation from 57 languages to English with tunable parameters for dynamically adjusting the latency of the output -- including four policies for determining when to speak an output sequence. We show that these policies achieve offline-level accuracy with minimal increases in latency over a Greedy (wait-$k$) baseline. We open-source our evaluation code and interactive test script to aid future SimulS2ST research and application development.
翻訳日:2023-06-05 17:23:14 公開日:2023-06-01
# インコンテキスト学習によるテキスト要約の多次元評価

Multi-Dimensional Evaluation of Text Summarization with In-Context Learning ( http://arxiv.org/abs/2306.01200v1 )

ライセンス: Link先を確認
Sameer Jain, Vaishakh Keshava, Swarnashree Mysore Sathyendra, Patrick Fernandes, Pengfei Liu, Graham Neubig and Chunting Zhou(参考訳) 自然言語生成(NLG)の評価は複雑で多次元である。 生成されたテキストは、流布、コヒーレンス、事実性、その他の興味のある次元に対して評価することができる。 このような多次元評価を行うほとんどのフレームワークは、手作業または合成生成されたデータセットのトレーニングを必要とする。 本稿では,大規模学習データセットの必要性を回避し,文脈内学習を用いた多次元評価器としての大規模言語モデルの有効性を検討する。 本実験は,テキスト要約作業における学習評価フレームワークと,関連性や事実整合性といった次元の最先端性を確立することを目的とした。 次に,コンテキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。 最後に,GPT-3 などの大規模言語モデルによるゼロショット要約の評価において,文脈内学習に基づく評価器の有効性を検討した。

Evaluation of natural language generation (NLG) is complex and multi-dimensional. Generated text can be evaluated for fluency, coherence, factuality, or any other dimensions of interest. Most frameworks that perform such multi-dimensional evaluation require training on large manually or synthetically generated datasets. In this paper, we study the efficacy of large language models as multi-dimensional evaluators using in-context learning, obviating the need for large training datasets. Our experiments show that in-context learning-based evaluators are competitive with learned evaluation frameworks for the task of text summarization, establishing state-of-the-art on dimensions such as relevance and factual consistency. We then analyze the effects of factors such as the selection and number of in-context examples on performance. Finally, we study the efficacy of in-context learning based evaluators in evaluating zero-shot summaries written by large language models such as GPT-3.
翻訳日:2023-06-05 17:23:00 公開日:2023-06-01
# マッチング作業におけるエラー率の信頼区間:批判的レビューと勧告

Confidence Intervals for Error Rates in Matching Tasks: Critical Review and Recommendations ( http://arxiv.org/abs/2306.01198v1 )

ライセンス: Link先を確認
Riccardo Fogliato, Pratik Patil, Pietro Perona(参考訳) マッチングアルゴリズムは、コレクション内のアイテム間のマッチングを予測するために一般的に使用される。 例えば、1:1の顔認証では、マッチングアルゴリズムが2つの顔画像が同一人物を表すかどうかを予測する。 このようなアルゴリズムの誤り率の不確実性を正確に評価することは、データが依存していてエラー率が低い場合には困難であり、文献でしばしば見過ごされている2つの側面がある。 本研究では,1:1の顔認証などのタスクにおける誤り率に対する信頼区間を構築する手法について検討する。 提案手法の統計的特性を導出し, サンプルサイズ, 誤差率, およびデータ依存度に応じて, 実世界と実世界の両方のデータセットを用いて, 範囲と間隔幅がいかに異なるかを示す。 そこで本研究では,マッチングタスクにおける誤り率の信頼区間を構築するためのベストプラクティスを提案する。

Matching algorithms are commonly used to predict matches between items in a collection. For example, in 1:1 face verification, a matching algorithm predicts whether two face images depict the same person. Accurately assessing the uncertainty of the error rates of such algorithms can be challenging when data are dependent and error rates are low, two aspects that have been often overlooked in the literature. In this work, we review methods for constructing confidence intervals for error rates in matching tasks such as 1:1 face verification. We derive and examine the statistical properties of these methods and demonstrate how coverage and interval width vary with sample size, error rates, and degree of data dependence using both synthetic and real-world datasets. Based on our findings, we provide recommendations for best practices for constructing confidence intervals for error rates in matching tasks.
翻訳日:2023-06-05 17:22:45 公開日:2023-06-01
# 生存モデルを評価する効果的な方法

An Effective Meaningful Way to Evaluate Survival Models ( http://arxiv.org/abs/2306.01196v1 )

ライセンス: Link先を確認
Shi-ang Qi, Neeraj Kumar, Mahtab Farrokh, Weijie Sun, Li-Hao Kuan, Rajesh Ranganath, Ricardo Henao, Russell Greiner(参考訳) 生存予測モデルを評価するための簡単な指標の1つは、平均絶対誤差(MAE)に基づいており、モデルによって予測される時間と真のイベント時間との絶対差の平均である。 残念ながら、このテストセットには(正しい)検閲された個人が含まれているため、これは難しい。 本稿では,検閲された個人を含む生存データセットのMAEを推定するための様々な指標について検討する。 さらに,メトリクスの評価を容易にするために,リアルな半合成サバイバルデータセットを生成する新しい効果的手法を提案する。 半合成データセットの分析結果から,提案した測定値(擬似観測値を用いたMAE)が,その性能に基づいて精度よくモデルにランク付けでき,真のMAEとよく一致することが判明した。

One straightforward metric to evaluate a survival prediction model is based on the Mean Absolute Error (MAE) -- the average of the absolute difference between the time predicted by the model and the true event time, over all subjects. Unfortunately, this is challenging because, in practice, the test set includes (right) censored individuals, meaning we do not know when a censored individual actually experienced the event. In this paper, we explore various metrics to estimate MAE for survival datasets that include (many) censored individuals. Moreover, we introduce a novel and effective approach for generating realistic semi-synthetic survival datasets to facilitate the evaluation of metrics. Our findings, based on the analysis of the semi-synthetic datasets, reveal that our proposed metric (MAE using pseudo-observations) is able to rank models accurately based on their performance, and often closely matches the true MAE -- in particular, is better than several alternative methods.
翻訳日:2023-06-05 17:22:31 公開日:2023-06-01
# 視覚言語モデルのための一貫性誘導型プロンプト学習

Consistency-guided Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2306.01195v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) そこで本稿では,視覚言語モデルのための新しい微調整手法copromptを提案する。これは,数ショット設定で下流タスクを微調整しながら,大規模基礎モデルの一般化能力向上の課題に対処するものである。 CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。 さらに,2つの入力に一貫性を強制し,チューニング,プロンプト,アダプタという2つの支配的なパラダイムを組み合わせることで,一貫性の制約をさらに向上させます。 摂動入力における一貫性の強化は、一貫性の制約をさらに規則化し、最適化を効果的に改善すると同時に、プロンプトとアダプタによる追加パラメータのチューニングにより、下流タスクのパフォーマンスが向上する。 広範な実験により、copromptは、ベース・ツー・ノベルの一般化、ドメインの一般化、データセット間の評価タスクなど、さまざまな評価スイートで既存のメソッドよりも優れていることが示されている。 一般化タスクでは、CoPromptはゼロショットタスクで2.09%、11の認識データセットで1.93%改善している。 詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。

We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning method for vision-language models that addresses the challenge of improving the generalization capability of large foundation models while fine-tuning them on downstream tasks in a few-shot setting. The basic idea of CoPrompt is to enforce a consistency constraint in the prediction of the trainable and pre-trained models to prevent overfitting on the downstream task. Additionally, we introduce the following two components into our consistency constraint to further boost the performance: enforcing consistency on two perturbed inputs and combining two dominant paradigms of tuning, prompting and adapter. Enforcing consistency on perturbed input further regularizes the consistency constraint, effectively improving generalization, while tuning additional parameters with prompting and adapters improves the performance on downstream tasks. Extensive experiments show that CoPrompt outperforms existing methods on a range of evaluation suites, including base-to-novel generalization, domain generalization, and cross-dataset evaluation tasks. On the generalization task, CoPrompt improves the state-of-the-art by 2.09% on the zero-shot task and 1.93% on the harmonic mean over 11 recognition datasets. Detailed ablation studies show the effectiveness of each of the components in CoPrompt.
翻訳日:2023-06-05 17:22:15 公開日:2023-06-01
# 部分ラベルデータによる共形予測

Conformal Prediction with Partially Labeled Data ( http://arxiv.org/abs/2306.01191v1 )

ライセンス: Link先を確認
Alireza Javanmardi, Yusuf Sale, Paul Hofman, Eyke H\"ullermeier(参考訳) 共形予測によって生成された予測はセット値であるが、トレーニングや校正に使用されるデータは正確である。 超集合学習や部分ラベルからの学習の設定において、弱い教師付き学習の亜種は、全く逆の方法である:トレーニングデータは、おそらく不正確(セット評価)であるが、このデータから引き起こされたモデルは、正確な予測をもたらす。 本稿では,この2つの設定を組み合わせて,定値トレーニングデータに共形予測を適用可能にする。 本稿では,定値トレーニングおよび校正データに適用可能な共形予測手順の一般化を提案する。 提案手法の有効性を実証し,本手法が自然ベースラインと好適に比較した実験的検討を行った。

While the predictions produced by conformal prediction are set-valued, the data used for training and calibration is supposed to be precise. In the setting of superset learning or learning from partial labels, a variant of weakly supervised learning, it is exactly the other way around: training data is possibly imprecise (set-valued), but the model induced from this data yields precise predictions. In this paper, we combine the two settings by making conformal prediction amenable to set-valued training data. We propose a generalization of the conformal prediction procedure that can be applied to set-valued training and calibration data. We prove the validity of the proposed method and present experimental studies in which it compares favorably to natural baselines.
翻訳日:2023-06-05 17:21:48 公開日:2023-06-01
# 脳外科手術における術中超音波像の可視組織同定法とその応用

Identifying Visible Tissue in Intraoperative Ultrasound Images during Brain Surgery: A Method and Application ( http://arxiv.org/abs/2306.01190v1 )

ライセンス: Link先を確認
Alistair Weld, Luke Dixon, Giulio Anichini, Michael Dyck, Alex Ranne, Sophie Camp, Stamatia Giannarou(参考訳) 術中超音波検査は精査を要する作業である。 オペレーターは超音波の視点を同時に配置し、プローブの姿勢を手作業で調整し、過度の力を加えるか、組織に接触しないようにし、可視的な組織を特徴付ける必要がある。 本稿では,超音波プローブと組織接触を音響シャドウの検出と知覚的サリエンスの信頼度マップの構築を通じて解析できる可視的組織同定法を提案する。 in vivoおよびphantomデータによる詳細な検証を行う。 まず, 未知の0.87データに対して, 平均2値分類精度で, 最先端の音響陰影線分類を実現できることを示す。 第2に、信頼度マップを構築するためのフレームワークは、最適性内外に向けたプローブの姿勢に対する理想的な応答を生成できることを示し、0.174の5つのスキャンで平均rmseを達成する。 臨床訓練支援とロボット支援超音波組織スキャンの最適化の両方に使用できる方法の潜在的な臨床価値を正当化する。

Intraoperative ultrasound scanning is a demanding visuotactile task. It requires operators to simultaneously localise the ultrasound perspective and manually perform slight adjustments to the pose of the probe, making sure not to apply excessive force or breaking contact with the tissue, whilst also characterising the visible tissue. In this paper, we propose a method for the identification of the visible tissue, which enables the analysis of ultrasound probe and tissue contact via the detection of acoustic shadow and construction of confidence maps of the perceptual salience. Detailed validation with both in vivo and phantom data is performed. First, we show that our technique is capable of achieving state of the art acoustic shadow scan line classification - with an average binary classification accuracy on unseen data of 0.87. Second, we show that our framework for constructing confidence maps is able to produce an ideal response to a probe's pose that is being oriented in and out of optimality - achieving an average RMSE across five scans of 0.174. The performance evaluation justifies the potential clinical value of the method which can be used both to assist clinical training and optimise robot-assisted ultrasound tissue scanning.
翻訳日:2023-06-05 17:21:36 公開日:2023-06-01
# ニューラルSDE-RNNによる不確実性定量のための一般的なフレームワーク

A General Framework for Uncertainty Quantification via Neural SDE-RNN ( http://arxiv.org/abs/2306.01189v1 )

ライセンス: Link先を確認
Shweta Dahale, Sai Munikoti, Balasubramaniam Natarajan(参考訳) 不確かさの定量化は、特に不規則なサンプル測定を伴う時系列計算において、ディープラーニングにとって重要な課題であるが未解決の課題である。 そこで本研究では, 再帰型ニューラルネットワークの原理と, 不規則サンプリング値の整合性を考慮したニューラル確率微分方程式を提案する。 任意の時間スケールで測定を行い、原理的な方法で計算の不確実性を定量化する。 具体的には,認識的不確かさを時間的瞬間にわたって定量化し,伝播する解析的表現を導出する。 ieee 37 バステスト配信システムにおける実験により,時系列データインプットに対する不確実性定量化手法を超越できることを明らかにした。

Uncertainty quantification is a critical yet unsolved challenge for deep learning, especially for the time series imputation with irregularly sampled measurements. To tackle this problem, we propose a novel framework based on the principles of recurrent neural networks and neural stochastic differential equations for reconciling irregularly sampled measurements. We impute measurements at any arbitrary timescale and quantify the uncertainty in the imputations in a principled manner. Specifically, we derive analytical expressions for quantifying and propagating the epistemic and aleatoric uncertainty across time instants. Our experiments on the IEEE 37 bus test distribution system reveal that our framework can outperform state-of-the-art uncertainty quantification approaches for time-series data imputations.
翻訳日:2023-06-05 17:21:18 公開日:2023-06-01
# 適応不能なASRシステムへの適応

Adapting an Unadaptable ASR System ( http://arxiv.org/abs/2306.01208v1 )

ライセンス: Link先を確認
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill(参考訳) 音声認識モデルのサイズとトレーニングデータ要件が大きくなるにつれて、システムはモデルそのものに直接アクセスするのではなく、オンラインサービスプロバイダのAPIを通じてのみ利用できるようになる。 このシナリオでは、システムを特定のターゲットドメインに適応させることが難しい。 この問題に対処するため,最近リリースされたOpenAI Whisper ASRを,適応手法を評価するための大規模ASRシステムの例として検討した。 エラー修正に基づくアプローチは、モデルへのアクセスを必要としないため採用されているが、通常はASR API経由で利用できる1-bestまたはN-bestの出力からトレーニングすることができる。 librispeechは適応の主要なターゲットドメインとして使用される。 次に、2つの異なる次元におけるシステムの一般化能力を評価する。 第1に、補正モデルの形式が他の音声認識領域に移植可能かどうか、第2に、異なるアーキテクチャを持つASRモデルに使用できるかどうか。

As speech recognition model sizes and training data requirements grow, it is increasingly common for systems to only be available via APIs from online service providers rather than having direct access to models themselves. In this scenario it is challenging to adapt systems to a specific target domain. To address this problem we consider the recently released OpenAI Whisper ASR as an example of a large-scale ASR system to assess adaptation methods. An error correction based approach is adopted, as this does not require access to the model, but can be trained from either 1-best or N-best outputs that are normally available via the ASR API. LibriSpeech is used as the primary target domain for adaptation. The generalization ability of the system in two distinct dimensions are then evaluated. First, whether the form of correction model is portable to other speech recognition domains, and secondly whether it can be used for ASR models having a different architecture.
翻訳日:2023-06-05 17:11:16 公開日:2023-06-01
# ドメイン内およびドメイン外サンプル間の意味的類似性の推定

Estimating Semantic Similarity between In-Domain and Out-of-Domain Samples ( http://arxiv.org/abs/2306.01206v1 )

ライセンス: Link先を確認
Rhitabrat Pokharel and Ameeta Agrawal(参考訳) 従来の作業では、トレーニングセットとは別のデータセットやソース(s)に由来するものと同じタスクのために、ドメイン外(ood)または分散外(oodist)のサンプルを記述する。 in-domain (id) サンプルと比較すると、モデルは通常 ood サンプルでより貧弱であることが知られているが、この観測は一致しない。 もう一つの研究のスレッドは、主に教師付きアプローチを用いたOOD検出に焦点を当てている。 本研究では,まず,OOD と OODist の複数の定義を整理し,体系的に分析する。 次に、IDおよびOOD/OODist設定下でのモデルの性能を原則的に分析する。 最後に,OOD/OODistサンプルを訓練モデルを用いずに確実に同定する教師なし手法を提案する。 4つのタスクから12のデータセットを用いて広範囲に評価した結果、このタスクにおける教師なしメトリクスの可能性が示唆された。

Prior work typically describes out-of-domain (OOD) or out-of-distribution (OODist) samples as those that originate from dataset(s) or source(s) different from the training set but for the same task. When compared to in-domain (ID) samples, the models have been known to usually perform poorer on OOD samples, although this observation is not consistent. Another thread of research has focused on OOD detection, albeit mostly using supervised approaches. In this work, we first consolidate and present a systematic analysis of multiple definitions of OOD and OODist as discussed in prior literature. Then, we analyze the performance of a model under ID and OOD/OODist settings in a principled way. Finally, we seek to identify an unsupervised method for reliably identifying OOD/OODist samples without using a trained model. The results of our extensive evaluation using 12 datasets from 4 different tasks suggest the promising potential of unsupervised metrics in this task.
翻訳日:2023-06-05 17:11:01 公開日:2023-06-01
# 一般KDEモード探索のための次元化

Dimensionality Reduction for General KDE Mode Finding ( http://arxiv.org/abs/2305.18755v3 )

ライセンス: Link先を確認
Xinyu Luo, Christopher Musco, Cas Widdershoven(参考訳) 高次元確率分布のモードの発見 $d$ は統計学やデータ分析における基本的なアルゴリズム問題である。 d$ が混合モデルまたはカーネル密度推定として表現されるとき、この問題の効率的な解法には特に関心があるが、最悪の場合の近似と実行時の保証を伴うアルゴリズム的な結果はほとんど知られていない。 本研究では,ガウス混合モデルのモード近似における (LeeLiMusco:2021) の結果を著しく一般化する。 本研究では,一般的なロジスティック,シグモイド,一般化ガウス核を含む,幅広い種類のカーネルを含む混合系のランダム次元低減法を開発した。 Leeらの研究と同様に、我々の次元減少結果は、任意の$\epsilon > 0$に対して、乗法精度(1-\epsilon)$のモード探索のための準多項式アルゴリズムを生成する。 さらに、勾配降下と組み合わせると、この問題に対する効率的な実用的ヒューリスティックが生まれる。 正の結果に加えて、ボックスカーネルの硬度結果も証明し、$\mathit{P} = \mathit{NP}$でない限り、カーネル密度推定のモードを見つける多項式時間アルゴリズムは存在しないことを示した。 現実に使われているカーネル(ガウスやロジスティックカーネルなど)の同様のハードネス結果を得ることは、興味深い将来的な方向性である。

Finding the mode of a high dimensional probability distribution $D$ is a fundamental algorithmic problem in statistics and data analysis. There has been particular interest in efficient methods for solving the problem when $D$ is represented as a mixture model or kernel density estimate, although few algorithmic results with worst-case approximation and runtime guarantees are known. In this work, we significantly generalize a result of (LeeLiMusco:2021) on mode approximation for Gaussian mixture models. We develop randomized dimensionality reduction methods for mixtures involving a broader class of kernels, including the popular logistic, sigmoid, and generalized Gaussian kernels. As in Lee et al.'s work, our dimensionality reduction results yield quasi-polynomial algorithms for mode finding with multiplicative accuracy $(1-\epsilon)$ for any $\epsilon > 0$. Moreover, when combined with gradient descent, they yield efficient practical heuristics for the problem. In addition to our positive results, we prove a hardness result for box kernels, showing that there is no polynomial time algorithm for finding the mode of a kernel density estimate, unless $\mathit{P} = \mathit{NP}$. Obtaining similar hardness results for kernels used in practice (like Gaussian or logistic kernels) is an interesting future direction.
翻訳日:2023-06-05 11:21:24 公開日:2023-06-01
# 応答性判断課題によるモデル伝達可能性

Model Transferability With Responsive Decision Subjects ( http://arxiv.org/abs/2107.05911v4 )

ライセンス: Link先を確認
Yatong Chen, Zeyu Tang, Kun Zhang, Yang Liu(参考訳) 戦略的な人的決定課題からなる情報源の集団で正確であるアルゴリズム的予測器を考えると、人口がそれに対応していれば正確か? 私たちの設定では、エージェントまたはユーザは、分布$\cal{D}$から引き出されたサンプル$(X,Y)$に対応し、モデル$h$とその分類結果$h(X)$に直面する。 エージェントは$X$を$h$に適応させることができ、$(X,Y)$の分散シフトが発生する。 当社の定式化は、デプロイされた機械学習モデルがヒューマンエージェントに従属し、最終的に応答性とインタラクティブなデータ分散に直面するアプリケーションによって動機付けられたものです。 我々は、利用可能なソース分散(データ)でトレーニングされたモデルのパフォーマンスが、その誘導されたドメインのパフォーマンスにどのように変換されるかを研究することによって、モデルの転送可能性に関する議論を形式化する。 我々は、誘導されたドメインシフトによるパフォーマンスギャップの上限と、分類器がソーストレーニング分布または誘導されたターゲット分布に悩まさなければならないトレードオフの上限の両方を提供する。 共変量シフトと目標シフトを含む2つの一般的なドメイン適応設定のさらなるインスタンス化分析を提供する。

Given an algorithmic predictor that is accurate on some source population consisting of strategic human decision subjects, will it remain accurate if the population respond to it? In our setting, an agent or a user corresponds to a sample $(X,Y)$ drawn from a distribution $\cal{D}$ and will face a model $h$ and its classification result $h(X)$. Agents can modify $X$ to adapt to $h$, which will incur a distribution shift on $(X,Y)$. Our formulation is motivated by applications where the deployed machine learning models are subjected to human agents, and will ultimately face responsive and interactive data distributions. We formalize the discussions of the transferability of a model by studying how the performance of the model trained on the available source distribution (data) would translate to the performance on its induced domain. We provide both upper bounds for the performance gap due to the induced domain shift, as well as lower bounds for the trade-offs that a classifier has to suffer on either the source training distribution or the induced target distribution. We provide further instantiated analysis for two popular domain adaptation settings, including covariate shift and target shift.
翻訳日:2023-06-03 02:34:02 公開日:2023-06-01
# 適応的リアルタイム知覚のための学習ランタイム決定

Learning Runtime Decisions for Adaptive Real-Time Perception ( http://arxiv.org/abs/2106.05665v2 )

ライセンス: Link先を確認
Anurag Ghosh, Akshay Nambi, Vaibhav Balloli, Aditya Singh, Tanuja Ganu(参考訳) リアルタイムの知覚には計画された資源利用が必要である。 リアルタイム知覚における計算計画には、精度とレイテンシという2つの考慮事項がある。 特定のハードウェアの性能に影響を与えるトレードオフを誘発する実行時決定(例えば、入力解像度の選択)があり、本質的(コンテンツ、シーンクラッタなど)と外生的(システム、リソース競合など)の特性から生じる。 以前のランタイム実行フレームワークはルールベースの決定アルゴリズムを採用し、これらの懸念のバランスをとるためにアルゴリズムの遅延予算を固定した。 ストリーミング認識パラダイムから自然に派生した学習された近似実行フレームワークであるChanakyaを提案し、代わりにこれらのトレードオフによって引き起こされる決定を自動的に学習する。 Chanakyaは、どちらの目標も近似することなく、正確さとレイテンシを暗黙的にバランスさせる新しい報酬を通じてトレーニングされている。 チャナキヤは内在的な文脈と外在的な文脈を同時に考慮し、柔軟な方法で決定を予測する。 オーバーヘッドを念頭に設計されたChanakyaは、サーバGPUとエッジデバイスの両方のパブリックデータセット上で、最先端の静的および動的実行ポリシより優れています。

Real-time perception requires planned resource utilization. Computational planning in real-time perception is governed by two considerations -- accuracy and latency. There exist run-time decisions (e.g. choice of input resolution) that induce tradeoffs affecting performance on a given hardware, arising from intrinsic (content, e.g. scene clutter) and extrinsic (system, e.g. resource contention) characteristics. Earlier runtime execution frameworks employed rule-based decision algorithms and operated with a fixed algorithm latency budget to balance these concerns, which is sub-optimal and inflexible. We propose Chanakya, a learned approximate execution framework that naturally derives from the streaming perception paradigm, to automatically learn decisions induced by these tradeoffs instead. Chanakya is trained via novel rewards balancing accuracy and latency implicitly, without approximating either objectives. Chanakya simultaneously considers intrinsic and extrinsic context, and predicts decisions in a flexible manner. Chanakya, designed with low overhead in mind, outperforms state-of-the-art static and dynamic execution policies on public datasets on both server GPUs and edge devices.
翻訳日:2023-06-03 02:33:40 公開日:2023-06-01
# Rational ClosureによるRDFSのデフォルト化

Defeasible RDFS via Rational Closure ( http://arxiv.org/abs/2007.07573v2 )

ライセンス: Link先を確認
Giovanni Casini, Umberto Straccia(参考訳) 非単調論理の分野では、Rational Closure(RC)の概念が顕著なアプローチとして認められている。 近年、RCは、クラスや役割を主とするセマンティックWeb標準オントロジー言語OWL 2の基盤となるロジックである記述論理(DL)の文脈でさらに人気が高まっている。 本稿では,三重言語rdfsにrcを組み込む方法について述べる。owl2とともに,semantic web ontologyの2つの主要な標準言語である。 そのために、RDFSの背後にあるロジックである$\rho df$から始まり、それを$\rho df_\bot$に拡張します。 最終的に、典型的なRC構成によるデファシブル$\rho df_\bot$を提案する。 私たちのアプローチの主な特徴は (i)単調rdf上に余分な非単調規則層を追加する他のほとんどのアプローチとは異なり、defeasible $\rho df_\bot$は構文的には三重言語であり、特定の意味を持つ新しい述語記号を導入することで$\rho df_\bot$の単純な拡張である。 特に、RDFSの推論/ストアは、新しい述語記号の余分な意味を考慮したくない場合は、それらを通常の用語として扱うことができる。 (ii)defeasible $\rho df_\bot$ entailment 決定手続きは、$\rho df_\bot$ entailment 決定手順の上に構築されており、これは、潜在的な実装を支持するいくつかの追加の推論ルールを介して$\rho df$ の拡張である。 (iii) defeasible $\rho df_\bot$ entailment は多項式時間で決定できる。

In the field of non-monotonic logics, the notion of Rational Closure (RC) is acknowledged as a prominent approach. In recent years, RC has gained even more popularity in the context of Description Logics (DLs), the logic underpinning the semantic web standard ontology language OWL 2, whose main ingredients are classes and roles. In this work, we show how to integrate RC within the triple language RDFS, which together with OWL2 are the two major standard semantic web ontology languages. To do so, we start from $\rho df$, which is the logic behind RDFS, and then extend it to $\rho df_\bot$, allowing to state that two entities are incompatible. Eventually, we propose defeasible $\rho df_\bot$ via a typical RC construction. The main features of our approach are: (i) unlike most other approaches that add an extra non-monotone rule layer on top of monotone RDFS, defeasible $\rho df_\bot$ remains syntactically a triple language and is a simple extension of $\rho df_\bot$ by introducing some new predicate symbols with specific semantics. In particular, any RDFS reasoner/store may handle them as ordinary terms if it does not want to take account for the extra semantics of the new predicate symbols; (ii) the defeasible $\rho df_\bot$ entailment decision procedure is build on top of the $\rho df_\bot$ entailment decision procedure, which in turn is an extension of the one for $\rho df$ via some additional inference rules favouring an potential implementation; and (iii) defeasible $\rho df_\bot$ entailment can be decided in polynomial time.
翻訳日:2023-06-03 02:31:58 公開日:2023-06-01
# コントラスト多重対応分析(cmca) : コントラスト学習を用いた政党における潜在部分集団の同定

Contrastive Multiple Correspondence Analysis (cMCA): Using Contrastive Learning to Identify Latent Subgroups in Political Parties ( http://arxiv.org/abs/2007.04540v3 )

ライセンス: Link先を確認
Takanori Fujiwara, Tzu-Ping Liu(参考訳) スケーリング手法は長い間、高次元データの単純化とクラスタ化に利用されてきた。 しかし、これらの方法から導かれるすべての予め定義された群にまたがる一般の潜在空間は、しばしば群内の特定のパターンに関する研究者の関心の対象とならない。 この問題に取り組むために,我々はコントラスト学習と呼ばれる新しい分析手法を採用する。 我々は、社会科学者がしばしば遭遇するデータの分析を可能にするために、そのアイデアを複数の対応分析(MCA)に拡張することで、この成長分野に貢献する。 この結果から,cmcaは従来の手法で見過ごされているサブグループの中で,統計的に重要な次元と分割を識別できることが示唆され,また,他のケースでは,cmcaが従来の手法で中程度に見られたサブグループを強調する潜在特性を導出することができる。

Scaling methods have long been utilized to simplify and cluster high-dimensional data. However, the general latent spaces across all predefined groups derived from these methods sometimes do not fall into researchers' interest regarding specific patterns within groups. To tackle this issue, we adopt an emerging analysis approach called contrastive learning. We contribute to this growing field by extending its ideas to multiple correspondence analysis (MCA) in order to enable an analysis of data often encountered by social scientists -- containing binary, ordinal, and nominal variables. We demonstrate the utility of contrastive MCA (cMCA) by analyzing two different surveys of voters in the U.S. and U.K. Our results suggest that, first, cMCA can identify substantively important dimensions and divisions among subgroups that are overlooked by traditional methods; second, for other cases, cMCA can derive latent traits that emphasize subgroups seen moderately in those derived by traditional methods.
翻訳日:2023-06-03 02:31:24 公開日:2023-06-01
# グラフニューラルネットワークによるグラフクラスタリング

Graph Clustering with Graph Neural Networks ( http://arxiv.org/abs/2006.16904v3 )

ライセンス: Link先を確認
Anton Tsitsulin, John Palowitch, Bryan Perozzi, Emmanuel M\"uller(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測といった多くのグラフ解析タスクにおいて,最先端の結果を得た。 しかし、グラフクラスタリングのようなグラフ上の重要な教師なしの問題は、GNNの進歩に抵抗性があることが証明されている。 グラフクラスタリングはGNNのノードプーリングと同じ目標を持っていますが、これはGNNプーリングメソッドがクラスタリンググラフでうまく機能することを意味していますか? 現在のGNNプーリングメソッドは、学習した表現に適用されるk-meansのような単純なベースラインがうまく機能する場合、クラスタ構造を回復できないことが多い。 グラフ構造と属性データの両方において異なる信号対雑音のシナリオを研究するための一連の実験を慎重に設計してさらに検討する。 クラスタリングにおけるこれらの手法の貧弱な性能に対処するため,クラスタリング品質のモジュラリティ尺度にインスパイアされた教師なしプーリング手法であるDeep Modularity Networks (DMoN)を導入し,実際のグラフのクラスタリング構造の回復にどのように取り組むかを示す。 同様に、実世界のデータでは、DMoNは、地上の真理ラベルと強く相関する高品質なクラスタを生成し、異なるメトリクスにわたる他のプール手法よりも40%以上改善された最先端の結果を達成する。

Graph Neural Networks (GNNs) have achieved state-of-the-art results on many graph analysis tasks such as node classification and link prediction. However, important unsupervised problems on graphs, such as graph clustering, have proved more resistant to advances in GNNs. Graph clustering has the same overall goal as node pooling in GNNs - does this mean that GNN pooling methods do a good job at clustering graphs? Surprisingly, the answer is no - current GNN pooling methods often fail to recover the cluster structure in cases where simple baselines, such as k-means applied on learned representations, work well. We investigate further by carefully designing a set of experiments to study different signal-to-noise scenarios both in graph structure and attribute data. To address these methods' poor performance in clustering, we introduce Deep Modularity Networks (DMoN), an unsupervised pooling method inspired by the modularity measure of clustering quality, and show how it tackles recovery of the challenging clustering structure of real-world graphs. Similarly, on real-world data, we show that DMoN produces high quality clusters which correlate strongly with ground truth labels, achieving state-of-the-art results with over 40% improvement over other pooling methods across different metrics.
翻訳日:2023-06-03 02:31:08 公開日:2023-06-01
# 条件付き確率に基づくランク整合順序回帰のためのディープニューラルネットワーク

Deep Neural Networks for Rank-Consistent Ordinal Regression Based On Conditional Probabilities ( http://arxiv.org/abs/2111.08851v5 )

ライセンス: Link先を確認
Xintong Shi, Wenzhi Cao, Sebastian Raschka(参考訳) 近年、ディープニューラルネットワークは様々な分類やパターン認識タスクにおいて優れた予測性能を達成している。 しかし、実世界の多くの予測問題は順序応答変数を持ち、この順序情報は多カテゴリークロスエントロピーのような従来の分類損失によって無視される。 ディープニューラルネットワークのための順序回帰手法がこれに対処する。 そのような手法の1つは、初期のバイナリラベル拡張フレームワークに基づくCORAL法であり、重み付け制約を課すことで出力層タスク間のランク一貫性を実現する。 しかし、以前の実験では、コーラルのランク一貫性は性能に有益であるが、ニューラルネットワークの完全連結出力層における重み共有制約によって制限され、コーラルで訓練されたネットワークの表現力と能力を制限する可能性がある。 本稿では,この制限を伴わないランク一貫性の順序回帰法を提案する。 ランク整合順序回帰フレームワーク(corn)は,新しいトレーニングスキームによってランク一貫性を実現する。 条件付き確率分布の連鎖規則を適用することにより、条件付きトレーニングセットを用いて無条件のランク確率を得る。 各種データセットを用いた実験により,本手法の有効性が示され,重み共有制限がないことにより,サンゴ基準法に比べて性能が大幅に向上した。 さらに、推奨されるコーン法は特定のアーキテクチャに縛られず、任意のディープニューラルネットワーク分類器を使って順序回帰タスクを訓練することができる。

In recent times, deep neural networks achieved outstanding predictive performance on various classification and pattern recognition tasks. However, many real-world prediction problems have ordinal response variables, and this ordering information is ignored by conventional classification losses such as the multi-category cross-entropy. Ordinal regression methods for deep neural networks address this. One such method is the CORAL method, which is based on an earlier binary label extension framework and achieves rank consistency among its output layer tasks by imposing a weight-sharing constraint. However, while earlier experiments showed that CORAL's rank consistency is beneficial for performance, it is limited by a weight-sharing constraint in a neural network's fully connected output layer, which may restrict the expressiveness and capacity of a network trained using CORAL. We propose a new method for rank-consistent ordinal regression without this limitation. Our rank-consistent ordinal regression framework (CORN) achieves rank consistency by a novel training scheme. This training scheme uses conditional training sets to obtain the unconditional rank probabilities through applying the chain rule for conditional probability distributions. Experiments on various datasets demonstrate the efficacy of the proposed method to utilize the ordinal target information, and the absence of the weight-sharing restriction improves the performance substantially compared to the CORAL reference approach. Additionally, the suggested CORN method is not tied to any specific architecture and can be utilized with any deep neural network classifier to train it for ordinal regression tasks.
翻訳日:2023-06-03 02:23:14 公開日:2023-06-01
# 最大相対エントロピーの平滑化と量子プライバシー増幅のためのタイト指数解析

Tight Exponential Analysis for Smoothing the Max-Relative Entropy and for Quantum Privacy Amplification ( http://arxiv.org/abs/2111.01075v3 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao, Masahito Hayashi(参考訳) 最大相対エントロピーとその滑らかなバージョンは、量子情報理論の基本的な道具である。 本稿では, 量子状態の小さな変化による漸近崩壊の正確な指数を導出し, 精製された距離に基づいて最大相対エントロピーを滑らか化する。 次に、この結果を量子側情報に対するプライバシー増幅問題に適用し、精製された距離または相対エントロピーを用いて測定した非セキュリティの漸近的減少指数の上限を求める。 我々の上界は林が確立した初期の下界を補完し、2つの境界はランダム性抽出の速度が臨界値を超えるときに一致する。 したがって、高いレートの場合、厳密なセキュリティ指数を決定した。 この後、例を挙げて、低レートの場合、上界も下界も一般には厳密でないことを示す。 これは、チャネル符号化におけるエラー指数に類似した画像を示す。 最後に, 従来量子環境では扱わなかった位数 $s\in (1,2]$ のサンドイッチ付き R'enyi 偏差を用いて, 等価性とその指数の漸近性について検討する。

The max-relative entropy together with its smoothed version is a basic tool in quantum information theory. In this paper, we derive the exact exponent for the asymptotic decay of the small modification of the quantum state in smoothing the max-relative entropy based on purified distance. We then apply this result to the problem of privacy amplification against quantum side information, and we obtain an upper bound for the exponent of the asymptotic decreasing of the insecurity, measured using either purified distance or relative entropy. Our upper bound complements the earlier lower bound established by Hayashi, and the two bounds match when the rate of randomness extraction is above a critical value. Thus, for the case of high rate, we have determined the exact security exponent. Following this, we give examples and show that in the low-rate case, neither the upper bound nor the lower bound is tight in general. This exhibits a picture similar to that of the error exponent in channel coding. Lastly, we investigate the asymptotics of equivocation and its exponent under the security measure using the sandwiched R\'enyi divergence of order $s\in (1,2]$, which has not been addressed previously in the quantum setting.
翻訳日:2023-06-03 02:22:51 公開日:2023-06-01
# モデル再利用のための物質モデル探索

Finding Materialized Models for Model Reuse ( http://arxiv.org/abs/2110.06532v5 )

ライセンス: Link先を確認
Minjun Zhao, Lu Chen, Keyu Yang, Yuntao Du, Yunjun Gao(参考訳) 物質化モデルクエリは、モデル再利用の初期モデルとして最も適切な物質化モデルを見つけることを目的としている。 これはモデル再利用の前提条件であり、最近多くの注目を集めている。 それにもかかわらず、既存の手法は、物質化モデルのターゲット関連知識を測定するための適切な指標を構築していないため、ソースデータ、限られた範囲のアプリケーション、非効率性を提供する必要がある。 これに対処するために,我々は,ソースデータフリーで汎用的,効率的,効率的なモデルクエリフレームワークである \textsf{mmq} を提案する。 これは、分離度と呼ばれるガウス混合計量を用いて、物質化されたモデルをランク付けする。 各物質化モデルについて、まずこのモデルを直接適用してターゲットデータセットのサンプルを確率ベクトルにベクトル化し、その後、ガウス分布を用いて各確率ベクトルのクラスに適合し、最終的にガウス分布上の分離度を用いて物質化モデルのターゲット関連知識を測定する。 さらに,改良された \textsf{MMQ} (\textsf{I-MMQ}) を提案する。 実用的モデル再利用ワークロードの広範囲な実験は、 \textsf{mmq}の有効性と効率を示している。

Materialized model query aims to find the most appropriate materialized model as the initial model for model reuse. It is the precondition of model reuse, and has recently attracted much attention. {Nonetheless, the existing methods suffer from the need to provide source data, limited range of applications, and inefficiency since they do not construct a suitable metric to measure the target-related knowledge of materialized models. To address this, we present \textsf{MMQ}, a source-data free, general, efficient, and effective materialized model query framework.} It uses a Gaussian mixture-based metric called separation degree to rank materialized models. For each materialized model, \textsf{MMQ} first vectorizes the samples in the target dataset into probability vectors by directly applying this model, then utilizes Gaussian distribution to fit for each class of probability vectors, and finally uses separation degree on the Gaussian distributions to measure the target-related knowledge of the materialized model. Moreover, we propose an improved \textsf{MMQ} (\textsf{I-MMQ}), which significantly reduces the query time while retaining the query performance of \textsf{MMQ}. Extensive experiments on a range of practical model reuse workloads demonstrate the effectiveness and efficiency of \textsf{MMQ}.
翻訳日:2023-06-03 02:22:10 公開日:2023-06-01
# 縦断CTによるCOVID-19感染定量のためのインタラクティブセグメンテーション

Interactive Segmentation for COVID-19 Infection Quantification on Longitudinal CT scans ( http://arxiv.org/abs/2110.00948v2 )

ライセンス: Link先を確認
Michelle Xiao-Lin Foo, Seong Tae Kim, Magdalini Paschali, Leili Goli, Egon Burian, Marcus Makowski, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 病状進行と治療に対する反応を正確に評価するためには,複数の時点にまたがる患者のCTスキャンの連続的セグメンテーションが不可欠である。 既存の医療画像の自動およびインタラクティブセグメンテーションモデルは、単一の時点(静的)のデータのみを使用する。 しかし、以前の時点からの貴重なセグメンテーション情報は、患者のフォローアップスキャンのセグメンテーションを助けるためにはあまり使われない。 また、完全自動セグメンテーション技術は、臨床使用のためにさらなる編集を必要とする結果をもたらすことが多い。 本研究では,利用可能な全ての過去の情報を十分に活用し,フォローアップスキャンのセグメント化を洗練するインタラクティブセグメンテーションのための新しい単一ネットワークモデルを提案する。 第1のセグメンテーションラウンドでは、2つの時点(ターゲットと参照)から3dの医療画像を取り込んだスライスとして、追加の参照時点セグメンテーションをガイドとして、ターゲットスキャンをセグメンテーションする。 その後のセグメンテーション改良ラウンドでは、セグメンテーションを補正するスクリブル形式のユーザフィードバックと、ターゲットの以前のセグメンテーション結果がモデルに付加される。 これにより、以前の精錬ラウンドからのセグメンテーション情報が保持される。 施設内における多クラス縦断型COVID-19データセットの実験結果から、提案モデルが静的バージョンより優れており、患者のフォローアップスキャンでCOVID-19感染の局所化を支援できることが判明した。

Consistent segmentation of COVID-19 patient's CT scans across multiple time points is essential to assess disease progression and response to therapy accurately. Existing automatic and interactive segmentation models for medical images only use data from a single time point (static). However, valuable segmentation information from previous time points is often not used to aid the segmentation of a patient's follow-up scans. Also, fully automatic segmentation techniques frequently produce results that would need further editing for clinical use. In this work, we propose a new single network model for interactive segmentation that fully utilizes all available past information to refine the segmentation of follow-up scans. In the first segmentation round, our model takes 3D volumes of medical images from two-time points (target and reference) as concatenated slices with the additional reference time point segmentation as a guide to segment the target scan. In subsequent segmentation refinement rounds, user feedback in the form of scribbles that correct the segmentation and the target's previous segmentation results are additionally fed into the model. This ensures that the segmentation information from previous refinement rounds is retained. Experimental results on our in-house multiclass longitudinal COVID-19 dataset show that the proposed model outperforms its static version and can assist in localizing COVID-19 infections in patient's follow-up scans.
翻訳日:2023-06-03 02:21:41 公開日:2023-06-01
# 鉱業地区と地域影響による時間ネットワークにおける帰納的表現学習

Inductive Representation Learning in Temporal Networks via Mining Neighborhood and Community Influences ( http://arxiv.org/abs/2110.00267v3 )

ライセンス: Link先を確認
Meng Liu, Yong Liu(参考訳) ネットワーク表現学習は、ノード分類やリンク予測などの下流機械学習タスクを容易にするネットワーク内の各ノードへの埋め込みを生成することを目的としている。 現在の研究は主にトランスダクティブネットワーク表現学習(すなわち、実世界のアプリケーションには適さない固定ノード埋め込みの生成)に焦点を当てている。 そこで本研究では,マイニング地区と時間ネットワークにおけるコミュニティの影響から,MNCIと呼ばれる新しい帰納的ネットワーク表現学習手法を提案する。 本研究では,地域の影響をコミュニティの影響と統合してノード埋め込みを生成するアグリゲータ関数を提案する。 複数の実世界のデータセットについて広範な実験を行い、ノード分類やネットワーク可視化など、様々なタスクにおけるmnciと最先端のベースライン手法を比較した。 実験の結果,MNCIはベースラインよりも優れた性能を示した。

Network representation learning aims to generate an embedding for each node in a network, which facilitates downstream machine learning tasks such as node classification and link prediction. Current work mainly focuses on transductive network representation learning, i.e. generating fixed node embeddings, which is not suitable for real-world applications. Therefore, we propose a new inductive network representation learning method called MNCI by mining neighborhood and community influences in temporal networks. We propose an aggregator function that integrates neighborhood influence with community influence to generate node embeddings at any time. We conduct extensive experiments on several real-world datasets and compare MNCI with several state-of-the-art baseline methods on various tasks, including node classification and network visualization. The experimental results show that MNCI achieves better performance than baselines.
翻訳日:2023-06-03 02:21:06 公開日:2023-06-01
# レーティング遷移予測:フィルタリングアプローチ

Rating transitions forecasting: a filtering approach ( http://arxiv.org/abs/2109.10567v4 )

ライセンス: Link先を確認
Areski Cousin (IRMA), J\'er\^ome Lelong (DAO), Tom Picard (DAO)(参考訳) 特にストレステストの規制当局からの圧力が高まっているため、この15年間、ビジネスサイクルがレーティング移行に与える影響を分析することは大きな関心事となっている。 本稿では,評価移動のダイナミクスが観測されていない潜在要因によって制御されていることを考察する。 点過程フィルタリングフレームワークでは,評価履歴の観測から隠蔽因子の現在の状態を効率的に推定する方法について説明する。 次に、古典的なbaum-welshアルゴリズムを設定に適応させ、潜在因子パラメータを推定する方法を示す。 一度校正すれば、レーティングマイグレーションのダイナミクスに影響を与える経済変化をリアルタイムで明らかにし、検出することができる。 この目的のために、外部共変量を用いることなく、経済体制に従って将来の遷移確率を予測するために使用できるフィルタリング公式を適用する。 離散バージョンと連続バージョンという2つのフィルタリングフレームワークを提案する。 我々は,企業信用格付けデータベースと企業信用格付けデータベースの両方におけるアプローチの効率を実証し,比較する。 この方法は、小売ローンにも適用できる。

Analyzing the effect of business cycle on rating transitions has been a subject of great interest these last fifteen years, particularly due to the increasing pressure coming from regulators for stress testing. In this paper, we consider that the dynamics of rating migrations is governed by an unobserved latent factor. Under a point process filtering framework, we explain how the current state of the hidden factor can be efficiently inferred from observations of rating histories. We then adapt the classical Baum-Welsh algorithm to our setting and show how to estimate the latent factor parameters. Once calibrated, we may reveal and detect economic changes affecting the dynamics of rating migration, in real-time. To this end we adapt a filtering formula which can then be used for predicting future transition probabilities according to economic regimes without using any external covariates. We propose two filtering frameworks: a discrete and a continuous version. We demonstrate and compare the efficiency of both approaches on fictive data and on a corporate credit rating database. The methods could also be applied to retail credit loans.
翻訳日:2023-06-03 02:20:54 公開日:2023-06-01
# 機械学習における汚損について:理論と応用

On Tilted Losses in Machine Learning: Theory and Applications ( http://arxiv.org/abs/2109.06141v3 )

ライセンス: Link先を確認
Tian Li, Ahmad Beirami, Maziar Sanjabi, Virginia Smith(参考訳) 指数傾き(英: Exponential tilting)は、統計学、確率、情報理論、パラメトリック分布シフトを生成する最適化などの分野でよく用いられる技法である。 関連する分野での流行にもかかわらず、傾きは機械学習で広く使われていない。 本研究では,リスク最小化における傾きの利用を探求することにより,このギャップを埋めることを目的とする。 本研究では, 個別損失の影響を柔軟に調整するために指数傾斜を用いたERM(傾き型経験的リスク最小化法)の簡易拡張について検討した。 結果のフレームワークにはいくつかの有用な性質がある: TERM は、それぞれ、公平性や堅牢性を実現するために、外乱の影響を増大または減少させることができること、一般化に寄与する分散還元特性を持ち、損失の尾の確率の滑らかな近似と見なすことができる。 我々の研究は、TERMと関連する目的、例えばValue-at-Risk、Conditional Value-at-Risk、分散ロバストな最適化(DRO)との間の厳密な接続を可能にします。 我々は,TERMを解くためのバッチおよび確率論的一階最適化手法を開発し,解法に対する収束保証を提供し,そのフレームワークが共通の代替案に対して効率的に解けることを示す。 最後に,サブグループ間の公平さの強化,アウトレーヤの効果の緩和,クラス不均衡の処理など,多数の機械学習応用にTERMが利用できることを示す。 TERMは従来のERMの目的に直感的な修正を加えるが、このフレームワークはEMMを一貫して上回り、最先端の問題解決アプローチと競合する性能を提供できる。

Exponential tilting is a technique commonly used in fields such as statistics, probability, information theory, and optimization to create parametric distribution shifts. Despite its prevalence in related fields, tilting has not seen widespread use in machine learning. In this work, we aim to bridge this gap by exploring the use of tilting in risk minimization. We study a simple extension to ERM -- tilted empirical risk minimization (TERM) -- which uses exponential tilting to flexibly tune the impact of individual losses. The resulting framework has several useful properties: We show that TERM can increase or decrease the influence of outliers, respectively, to enable fairness or robustness; has variance-reduction properties that can benefit generalization; and can be viewed as a smooth approximation to the tail probability of losses. Our work makes rigorous connections between TERM and related objectives, such as Value-at-Risk, Conditional Value-at-Risk, and distributionally robust optimization (DRO). We develop batch and stochastic first-order optimization methods for solving TERM, provide convergence guarantees for the solvers, and show that the framework can be efficiently solved relative to common alternatives. Finally, we demonstrate that TERM can be used for a multitude of applications in machine learning, such as enforcing fairness between subgroups, mitigating the effect of outliers, and handling class imbalance. Despite the straightforward modification TERM makes to traditional ERM objectives, we find that the framework can consistently outperform ERM and deliver competitive performance with state-of-the-art, problem-specific approaches.
翻訳日:2023-06-03 02:20:37 公開日:2023-06-01
# システムダイナミクスのロバスト予測のための遠絡生成モデル

Disentangled Generative Models for Robust Prediction of System Dynamics ( http://arxiv.org/abs/2108.11684v3 )

ライセンス: Link先を確認
Stathi Fotiadis, Mario Lino, Shunlong Hu, Stef Garasto, Chris D Cantwell, Anil Anthony Bharath(参考訳) ディープニューラルネットワークは、動的システムの予測にますます関心が寄せられているが、分散の一般化と長期的な安定性は依然として困難である。 本研究では,動的システムの領域パラメータをデータ生成過程の変動要因として扱う。 教師付き乱れと因果因果分解からアイデアを活用することで、生成モデルの潜在空間におけるダイナミクスからドメインパラメータを分離することを目指している。 実験では、位相空間とビデオシーケンスの両方でダイナミクスをモデル化し、厳密なOOD評価を行う。 その結果,不整合VAEはトレーニングデータに存在しない領域パラメータ空間に適応することが示唆された。 同時に、ビデオシーケンスにおける最先端モデルの長期的および外部的予測を改善することができる。

Deep neural networks have become increasingly of interest in dynamical system prediction, but out-of-distribution generalization and long-term stability still remains challenging. In this work, we treat the domain parameters of dynamical systems as factors of variation of the data generating process. By leveraging ideas from supervised disentanglement and causal factorization, we aim to separate the domain parameters from the dynamics in the latent space of generative models. In our experiments we model dynamics both in phase space and in video sequences and conduct rigorous OOD evaluations. Results indicate that disentangled VAEs adapt better to domain parameters spaces that were not present in the training data. At the same time, disentanglement can improve the long-term and out-of-distribution predictions of state-of-the-art models in video sequences.
翻訳日:2023-06-03 02:20:05 公開日:2023-06-01
# SMARAGD: 高精度かつ高速なグラフ距離学習のためのSMatch

SMARAGD: Learning SMatch for Accurate and Rapid Approximate Graph Distance ( http://arxiv.org/abs/2203.13226v2 )

ライセンス: Link先を確認
Juri Opitz and Philipp Meier and Anette Frank(参考訳) 意味表現 (MRs) のようなグラフ構造の類似性は、しばしば Smatch (Cai and Knight, 2013) のような構造マッチングアルゴリズムによって評価される。 しかし、smatchにはnp完全性に苦しむ組合せ問題があり、グラフクラスタリングや検索といった大規模アプリケーションでは実現不可能である。 この問題を緩和するために、SMARAGD: Semantic Match for Accurate and Rapid Approximate Graph Distanceを学ぶ。 Smatchスコアを近似するニューラルネットワークの可能性を示す。 一 機械翻訳フレームワークを用いてアライメントの予測を直線的に行うこと。 ii)シームズCNNを用いて一定の時間内にSmatchスコアを直接予測する。 近似誤差はデータ拡張とグラフ匿名化によって大幅に低減できることを示す。

The similarity of graph structures, such as Meaning Representations (MRs), is often assessed via structural matching algorithms, such as Smatch (Cai and Knight, 2013). However, Smatch involves a combinatorial problem that suffers from NP-completeness, making large-scale applications, e.g., graph clustering or search, infeasible. To alleviate this issue, we learn SMARAGD: Semantic Match for Accurate and Rapid Approximate Graph Distance. We show the potential of neural networks to approximate Smatch scores, i) in linear time using a machine translation framework to predict alignments, or ii) in constant time using a Siamese CNN to directly predict Smatch scores. We show that the approximation error can be substantially reduced through data augmentation and graph anonymization.
翻訳日:2023-06-03 02:14:08 公開日:2023-06-01
# 自律走行車知覚のオンライン自己評価のための品質指標と方法

A Quality Index Metric and Method for Online Self-Assessment of Autonomous Vehicles Sensory Perception ( http://arxiv.org/abs/2203.02588v2 )

ライセンス: Link先を確認
Ce Zhang and Azim Eskandarian(参考訳) カメラを用いた信頼性の高い物体検出は、自動運転車が周囲を知覚する上で重要な役割を果たす。 しかし、既存のカメラによる自律走行のためのオブジェクト検出アプローチでは、個々のフレームに対する検出性能に対する包括的なフィードバックを提供する能力が欠如している。 この制限に対処するため,検出品質指標(DQI)と呼ばれる新しい評価指標を提案し,カメラを用いた物体検出アルゴリズムの性能を評価し,検出品質に対するフレーム単位のフィードバックを提供する。 DQIは、細粒度分布マップの強度とオブジェクト検出アルゴリズムの出力結果とを組み合わせて生成される。 さらに,生の画素とスーパーピクセルを入力として,提案するdqi評価指標を予測するスーパーピクセルベースのアテンションネットワーク(spa-net)を開発した。 このアプローチを検証するために、3つのオープンソースデータセットの実験を行った。 その結果,自動走行環境におけるカメラベースシステムの検知品質を精度良く評価できることがわかった。 さらに、提案したSPA-NETは他の画像ベースの品質回帰モデルよりも優れている。 このことは、DQIが視覚シーンを知覚するカメラの能力を評価する上での有効性を強調している。 われわれの研究は、自動運転車におけるカメラによる物体検出のための貴重な自己評価ツールを導入している。

Reliable object detection using cameras plays a crucial role in enabling autonomous vehicles to perceive their surroundings. However, existing camera-based object detection approaches for autonomous driving lack the ability to provide comprehensive feedback on detection performance for individual frames. To address this limitation, we propose a novel evaluation metric, named as the detection quality index (DQI), which assesses the performance of camera-based object detection algorithms and provides frame-by-frame feedback on detection quality. The DQI is generated by combining the intensity of the fine-grained saliency map with the output results of the object detection algorithm. Additionally, we have developed a superpixel-based attention network (SPA-NET) that utilizes raw image pixels and superpixels as input to predict the proposed DQI evaluation metric. To validate our approach, we conducted experiments on three open-source datasets. The results demonstrate that the proposed evaluation metric accurately assesses the detection quality of camera-based systems in autonomous driving environments. Furthermore, the proposed SPA-NET outperforms other popular image-based quality regression models. This highlights the effectiveness of the DQI in evaluating a camera's ability to perceive visual scenes. Overall, our work introduces a valuable self-evaluation tool for camera-based object detection in autonomous vehicles.
翻訳日:2023-06-03 02:13:56 公開日:2023-06-01
# 2次元量子スピン系における翻訳不変性から生じるSPT指標

SPT indices emerging from translation invariance in two dimensional quantum spin systems ( http://arxiv.org/abs/2202.11758v4 )

ライセンス: Link先を確認
Tijl Jappens(参考訳) 2次元量子スピン系に対するオンサイト$G$(ここで$G$は任意の有限群)対称性を持つSPT相を考える。 すると、一方向の変換不変性を課し、$H^3(G,\mathbb{T})$-valued index の上に \cite{ogata2021h3gmathbb} で構築された $H^2(G,\mathbb{T})$-valued index が出現することを観察する。 また, 2 方向の変換不変性が与えられた場合, 期待される $h^3(g,\mathbb{t})\oplus h^2(g,\mathbb{t})\oplus h^2(g,\mathbb{t})$ valued index に加えて, $h^1(g,\mathbb{t})$-valued index が出現することを示した。

We consider SPT-phases with on-site $G$ (where $G$ is any finite group) symmetry for two-dimensional quantum spin systems. We then impose translation invariance in one direction and observe that on top of the $H^3(G,\mathbb{T})$-valued index constructed in \cite{ogata2021h3gmathbb}, an additional $H^2(G,\mathbb{T})$-valued index emerges. We also show that if we impose translation invariance in two directions, on top of the expected $H^3(G,\mathbb{T})\oplus H^2(G,\mathbb{T})\oplus H^2(G,\mathbb{T})$ valued index, an additional $H^1(G,\mathbb{T})$-valued index emerges.
翻訳日:2023-06-03 02:13:22 公開日:2023-06-01
# 等尺法を超えたロバストネスの法則

A Law of Robustness beyond Isoperimetry ( http://arxiv.org/abs/2202.11592v2 )

ライセンス: Link先を確認
Yihan Wu, Heng Huang, Hongyang Zhang(参考訳) 有界空間上で支持される任意のデータ分布のロバスト補間問題を研究し、ロバスト性に関する2次元法則を提案する。 ロバスト補間(Robust interpolation)とは、リプシッツ関数によって$\mathbb{R}^d$で$n$ノイズの多いトレーニングデータポイントを補間する問題を指す。 この問題はイソペリメトリー分布からサンプルを引き出す際によく理解されているが、一般分布や最悪の場合においてもその性能については不明な点が多い。 我々は任意のデータ分布に対して$p$パラメータを持つ補間ニューラルネットワークの低境界$\Omega(\sqrt{n/p})$を証明する。 この結果から, 多項式重み付き2層ニューラルネットワークにおいて, bubeck, li, nagarajによる先行研究におけるロバストネス予想の法則を検証する。 そして、任意の補間近似子に結果を拡張し、ロバスト補間のために下限の$\omega(n^{1/d})$ を証明する。 私たちの結果は、堅牢性の2倍の法則を示します。 i) $n=\mathrm{poly}(d)$, and and then $n=\mathrm{poly}(d)$, and overparametrization による滑らかなデータ補間の可能性を示す。 i)$n=\exp(\omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。

We study the robust interpolation problem of arbitrary data distributions supported on a bounded space and propose a two-fold law of robustness. Robust interpolation refers to the problem of interpolating $n$ noisy training data points in $\mathbb{R}^d$ by a Lipschitz function. Although this problem has been well understood when the samples are drawn from an isoperimetry distribution, much remains unknown concerning its performance under generic or even the worst-case distributions. We prove a Lipschitzness lower bound $\Omega(\sqrt{n/p})$ of the interpolating neural network with $p$ parameters on arbitrary data distributions. With this result, we validate the law of robustness conjecture in prior work by Bubeck, Li, and Nagaraj on two-layer neural networks with polynomial weights. We then extend our result to arbitrary interpolating approximators and prove a Lipschitzness lower bound $\Omega(n^{1/d})$ for robust interpolation. Our results demonstrate a two-fold law of robustness: i) we show the potential benefit of overparametrization for smooth data interpolation when $n=\mathrm{poly}(d)$, and ii) we disprove the potential existence of an $O(1)$-Lipschitz robust interpolating function when $n=\exp(\omega(d))$.
翻訳日:2023-06-03 02:12:59 公開日:2023-06-01
# ハイパーパラメータ構成の多元性競合の監視

Supervising the Multi-Fidelity Race of Hyperparameter Configurations ( http://arxiv.org/abs/2202.09774v2 )

ライセンス: Link先を確認
Martin Wistuba, Arlind Kadra, Josif Grabocka(参考訳) 近年,多自由度(グレーボックス)ハイパーパラメータ最適化技術 (HPO) が深層学習法をチューニングするための有望な方向として登場した。 しかし、既存の手法ではhpo予算をハイパーパラメータ構成に最適に割り当てることができない。 そこで本研究では,動的レースにおいてどのハイパーパラメータ構成をトレーニングすべきかを学習するベイズ最適化手法であるdyhpoを提案する。 本稿では,学習曲線ダイナミクスを組み込んだガウス過程のための新しい深層カーネルと,マルチバジェット情報を含む獲得関数を提案する。 我々は,50のデータセット(Tabular, Image, NLP)と多様なアーキテクチャ(MLP, CNN/NAS, RNN)からなる大規模実験により,DyHPOの最先端ハイパーパラメータ最適化手法に対する大きな優位性を示す。

Multi-fidelity (gray-box) hyperparameter optimization techniques (HPO) have recently emerged as a promising direction for tuning Deep Learning methods. However, existing methods suffer from a sub-optimal allocation of the HPO budget to the hyperparameter configurations. In this work, we introduce DyHPO, a Bayesian Optimization method that learns to decide which hyperparameter configuration to train further in a dynamic race among all feasible configurations. We propose a new deep kernel for Gaussian Processes that embeds the learning curve dynamics, and an acquisition function that incorporates multi-budget information. We demonstrate the significant superiority of DyHPO against state-of-the-art hyperparameter optimization methods through large-scale experiments comprising 50 datasets (Tabular, Image, NLP) and diverse architectures (MLP, CNN/NAS, RNN).
翻訳日:2023-06-03 02:12:39 公開日:2023-06-01
# エネルギー効率の良い音声モデルのためのニューラルアーキテクチャ探索

Neural Architecture Search for Energy Efficient Always-on Audio Models ( http://arxiv.org/abs/2202.05397v2 )

ライセンス: Link先を確認
Daniel T. Speckhard, Karolis Misiunas, Sagi Perel, Tenghui Zhu, Simon Carlile, Malcolm Slaney(参考訳) 常時オンの分類タスクのためのモバイルおよびエッジコンピューティングデバイスは、エネルギー効率のよいニューラルネットワークアーキテクチャを必要とする。 本稿では,ニューラルネットワークサーチ(NAS)の実践的状況における成功の可能性を改善するためのいくつかの変更について述べる。 検索は,ネットワークの精度,エネルギー効率,メモリ使用量を同時に最適化する。 実際のハードウェアで検索のパフォーマンスをベンチマークするが、実際のハードウェアで何千ものテストを実行することは難しいため、ランダムフォレストモデルを用いて、候補ネットワークのエネルギー使用量を概ね予測する。 本稿では,粒子群を用いたベイジアン探索と正規化進化探索の両方を用いた探索戦略を提案し,計算負荷を軽減するために早期停止を用いる。 本研究では,AudioSetをベースとした音響イベント分類データセットで評価した結果,基本となるMobileNetV1/V2実装よりもはるかに少ないエネルギーとメモリフットプリントを実現し,タスク精度をわずかに改善した。 また,2次元スペクトログラムと多くのフィルタの畳み込みを組み合わせれば,音声分類の計算ボトルネックが生じ,計算負担を低減できるがタスク精度を犠牲にする手法が提案されている。

Mobile and edge computing devices for always-on classification tasks require energy-efficient neural network architectures. In this paper we present several changes to neural architecture searches (NAS) that improve the chance of success in practical situations. Our search simultaneously optimizes for network accuracy, energy efficiency and memory usage. We benchmark the performance of our search on real hardware, but since running thousands of tests with real hardware is difficult we use a random forest model to roughly predict the energy usage of a candidate network. We present a search strategy that uses both Bayesian and regularized evolutionary search with particle swarms, and employs early-stopping to reduce the computational burden. Our search, evaluated on a sound-event classification dataset based upon AudioSet, results in an order of magnitude less energy per inference and a much smaller memory footprint than our baseline MobileNetV1/V2 implementations while slightly improving task accuracy. We also demonstrate how combining a 2D spectrogram with a convolution with many filters causes a computational bottleneck for audio classification and that alternative approaches reduce the computational burden but sacrifice task accuracy.
翻訳日:2023-06-03 02:12:23 公開日:2023-06-01
# 表面誘導ganを用いた実物匿名化

Realistic Full-Body Anonymization with Surface-Guided GANs ( http://arxiv.org/abs/2201.02193v2 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Morten Smebye, Rudolf Mester, Frank Lindseth(参考訳) 画像匿名化に関する最近の研究は、生成的敵ネットワーク(gans)が個人を匿名化するためにほぼフォトリアリスティックな顔を生成することができることを示した。 しかし、これらのネットワークを人体全体に拡大することは、困難でありながら未解決の課題である。 In-the-wild画像のためのリアルな人間を生成する新しい匿名化手法を提案する。 我々の設計の鍵となるのは、画像と正準3次元表面との間の高密度画素対面対応による対向ネットの誘導である。 本稿では,ジェネレータ全体にサーフェス情報を埋め込む可変表面適応変調(V-SAM)を提案する。 これを新しい識別器表面監視損失と組み合わせることで、複雑な場面や様々な場面で様々な外観で高品質な人間を合成することができる。 表面指導は画像品質とサンプルの多様性を著しく改善し,実用性の高い生成装置となることを実証する。 最後に,コンピュータビジョンモデルのトレーニング用画像データセットの収集において,プライバシを侵害することなくデータのユーザビリティを保護できることを示す。 ソースコードと付録は以下の通りである。 \href{https://github.com/hukkelas/full_body_anonymization}{github.com/hukkelas/full\_body\_anonymization}

Recent work on image anonymization has shown that generative adversarial networks (GANs) can generate near-photorealistic faces to anonymize individuals. However, scaling up these networks to the entire human body has remained a challenging and yet unsolved task. We propose a new anonymization method that generates realistic humans for in-the-wild images. A key part of our design is to guide adversarial nets by dense pixel-to-surface correspondences between an image and a canonical 3D surface. We introduce Variational Surface-Adaptive Modulation (V-SAM) that embeds surface information throughout the generator. Combining this with our novel discriminator surface supervision loss, the generator can synthesize high quality humans with diverse appearances in complex and varying scenes. We demonstrate that surface guidance significantly improves image quality and diversity of samples, yielding a highly practical generator. Finally, we show that our method preserves data usability without infringing privacy when collecting image datasets for training computer vision models. Source code and appendix is available at: \href{https://github.com/hukkelas/full_body_anonymization}{github.com/hukkelas/full\_body\_anonymization}
翻訳日:2023-06-03 02:12:04 公開日:2023-06-01
# NN2Poly:ディープフィードフォワード人工ニューラルネットワークの多項式表現

NN2Poly: A polynomial representation for deep feed-forward artificial neural networks ( http://arxiv.org/abs/2112.11397v3 )

ライセンス: Link先を確認
Pablo Morala (1 and 2), Jenny Alexandra Cifuentes (3), Rosa E. Lillo (1 and 2), I\~naki Ucar (1 and 2) ((1) uc3m-Santander Big Data Institute, Universidad Carlos III de Madrid. Spain., (2) Department of Statistics, Universidad Carlos III de Madrid. Spain., (3) ICADE, Department of Quantitative Methods, Faculty of Economics and Business Administration, Universidad Pontificia Comillas. Spain.)(参考訳) ニューラルネットワークの解釈可能性とその基礎となる理論的振る舞いは、特にディープラーニングの出現において、実践的応用の大きな成功の後でも、研究のオープンフィールドのままである。 NN2Polyは、すでに訓練済みの完全接続フィードフォワード人工ニューラルネットワーク(多層パーセプトロンまたはMLP)の正確な表現を提供する明示的な多項式モデルを得るための理論的アプローチである。 このアプローチは、レグレッションタスクと分類タスクの両方で任意に深いMLPを扱うために、単一の隠れ層ネットワークに限定された文献で提案された以前のアイデアを拡張している。 本研究の目的は,各層における活性化関数のテイラー展開を用いて,いくつかの組合せ特性を用いて所望の多項式の係数を計算することである。 本手法の主な計算上の課題と,訓練段階で一定の制約を課すことで克服する方法について考察を行った。 最後に,提案手法の有効性を示すため,シミュレーション実験と実データセットへの適用について述べる。

Interpretability of neural networks and their underlying theoretical behavior remain an open field of study even after the great success of their practical applications, particularly with the emergence of deep learning. In this work, NN2Poly is proposed: a theoretical approach to obtain an explicit polynomial model that provides an accurate representation of an already trained fully-connected feed-forward artificial neural network (a multilayer perceptron or MLP). This approach extends a previous idea proposed in the literature, which was limited to single hidden layer networks, to work with arbitrarily deep MLPs in both regression and classification tasks. The objective of this paper is to achieve this by using a Taylor expansion on the activation function, at each layer, and then using several combinatorial properties to calculate the coefficients of the desired polynomials. Discussion is presented on the main computational challenges of this method, and the way to overcome them by imposing certain constraints during the training phase. Finally, simulation experiments as well as an application to a real data set are presented to demonstrate the effectiveness of the proposed method.
翻訳日:2023-06-03 02:11:19 公開日:2023-06-01
# 結び目と絡み目

Knots and entanglement ( http://arxiv.org/abs/2112.08398v2 )

ライセンス: Link先を確認
Jin-Long Huang, John McGreevy, Bowen Shi(参考訳) 絡み合うブートストラップアプローチを (3+1)-次元に拡張する。 3+1次元液体トポロジカル秩序の結び付き励起とループのエキゾチック融合過程について検討した。 2+1)次元の以前の研究と同様に、基底状態エンタングルメントエントロピー上の2つの公理から様々な超選択セクターと融合空間を定義する。 特に、結び目に関連する融合空間を同定する。 我々は情報凸集合を没入領域と呼ばれる新しい種類の領域に一般化し、この新しい文脈に様々な定理を奨励する。 例えば、結び目多重性の具体的な計算は、トレフォイル結び目の結び目補集合が量子情報を格納できることを示している。 我々は、トーラス結び目とフラックスのスパイラル融合の一貫性関係を理解することができるスパイラル写像を定義する。

We extend the entanglement bootstrap approach to (3+1)-dimensions. We study knotted excitations of (3+1)-dimensional liquid topological orders and exotic fusion processes of loops. As in previous work in (2+1)-dimensions, we define a variety of superselection sectors and fusion spaces from two axioms on the ground state entanglement entropy. In particular, we identify fusion spaces associated with knots. We generalize the information convex set to a new class of regions called immersed regions, promoting various theorems to this new context. Examples from solvable models are provided; for instance, a concrete calculation of knot multiplicity shows that the knot complement of a trefoil knot can store quantum information. We define spiral maps that allow us to understand consistency relations for torus knots as well as spiral fusions of fluxes.
翻訳日:2023-06-03 02:11:03 公開日:2023-06-01
# 非線形ICAの識別可能性について:スパーシリティと超越性

On the Identifiability of Nonlinear ICA: Sparsity and Beyond ( http://arxiv.org/abs/2206.07751v4 )

ライセンス: Link先を確認
Yujia Zheng, Ignavier Ng, Kun Zhang(参考訳) 非線形独立成分分析(ICA)は、観測可能な非線形混合物から基礎となる独立潜伏源を回収することを目的としている。 非線形icaモデルを特定の自明な不確定性まで識別する方法は、教師なし学習における長年の問題である。 最近のブレークスルーは、補助変数(例えばクラスラベルやドメイン/時間インデックス)が弱い監督や帰納バイアスとして与えられる条件付き独立性としてソースの標準的な独立性仮定を再構成している。 しかし、非条件事前を持つ非線形ICAはそのような発展の恩恵を受けることができない。 我々は、代替経路を探究し、構造空間のような混合過程の仮定のみを考える。 このような制約の特定のインスタンス化の下では、独立潜水源は置換や成分変換まで非線形混合から同定でき、補助変数のない非線形ICAの非自明な識別性を実現することができる。 評価法と理論結果の検証を実験的に行う。 画像データの結果から,我々の条件は多くの実用的データ生成プロセスに保持される可能性が示唆された。

Nonlinear independent component analysis (ICA) aims to recover the underlying independent latent sources from their observable nonlinear mixtures. How to make the nonlinear ICA model identifiable up to certain trivial indeterminacies is a long-standing problem in unsupervised learning. Recent breakthroughs reformulate the standard independence assumption of sources as conditional independence given some auxiliary variables (e.g., class labels and/or domain/time indexes) as weak supervision or inductive bias. However, nonlinear ICA with unconditional priors cannot benefit from such developments. We explore an alternative path and consider only assumptions on the mixing process, such as Structural Sparsity. We show that under specific instantiations of such constraints, the independent latent sources can be identified from their nonlinear mixtures up to a permutation and a component-wise transformation, thus achieving nontrivial identifiability of nonlinear ICA without auxiliary variables. We provide estimation methods and validate the theoretical results experimentally. The results on image data suggest that our conditions may hold in a number of practical data generating processes.
翻訳日:2023-06-03 02:03:49 公開日:2023-06-01
# 低ロバストサンプルにより規則化を施すことによる対向ロバスト性の改善

Improving Adversarial Robustness by Putting More Regularizations on Less Robust Samples ( http://arxiv.org/abs/2206.03353v4 )

ライセンス: Link先を確認
Dongyoon Yang, Insung Kong, Yongdai Kim(参考訳) 敵の攻撃に対する堅牢性を高めるための敵意トレーニングは、与えられた深層ニューラルネットワークを欺くために、人間の知覚可能なデータの摂動を生成することが容易であるため、多くの注目を集めている。 本稿では,既存のアルゴリズムよりも理論的にモチベーションが高く,経験的に優れている新しい学習アルゴリズムを提案する。 提案アルゴリズムの新たな特徴は、既存の正規化アルゴリズムよりも敵攻撃に弱いデータに対してより規則化を適用することである。 理論的には,本アルゴリズムはロバストリスクの新たな上限から誘導される正規化経験的リスクを最小化するためのアルゴリズムとして理解できることを示す。 数値実験により,提案アルゴリズムは一般化(実例の精度)と強靭性(敵攻撃の精度)を同時に改善し,最先端の性能を実現する。

Adversarial training, which is to enhance robustness against adversarial attacks, has received much attention because it is easy to generate human-imperceptible perturbations of data to deceive a given deep neural network. In this paper, we propose a new adversarial training algorithm that is theoretically well motivated and empirically superior to other existing algorithms. A novel feature of the proposed algorithm is to apply more regularization to data vulnerable to adversarial attacks than other existing regularization algorithms do. Theoretically, we show that our algorithm can be understood as an algorithm of minimizing the regularized empirical risk motivated from a newly derived upper bound of the robust risk. Numerical experiments illustrate that our proposed algorithm improves the generalization (accuracy on examples) and robustness (accuracy on adversarial attacks) simultaneously to achieve the state-of-the-art performance.
翻訳日:2023-06-03 02:02:28 公開日:2023-06-01
# geneva: 数百のイベントタイプと引数ロールによるイベント引数抽出のためのベンチマーク汎用性

GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles ( http://arxiv.org/abs/2205.12505v5 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) イベント引数抽出(EAE)の最近の研究は、新しいイベントやドメインに対応するためのモデル一般化性の改善に焦点を当てている。 しかし、ACEやEREのような標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。 限られた多様性とカバレッジは、これらのデータセットがEAEモデルの一般化可能性を適切に評価することを妨げる。 本稿では,EAEオントロジーを大規模かつ多種多様なものにすることで貢献する。 このオントロジーは、これら2つのタスク間の類似性を利用して、EAEのための包括的なセマンティックロールラベル(SRL)データセットであるFrameNetを変換することによって作成される。 次に、徹底した人間専門家のアノテーションを収集してオントロジーを構築し、115のイベントと220の引数の役割を結論付け、その役割の大部分はエンティティではない。 このオントロジを利用して,4つのテストスイートからなる多種多様な汎用性ベンチマークデータセットであるgenevaをさらに紹介する。 各種のEAEモデルを6種類ベンチマークする。 その結果,非エンタテイメントの議論の役割から,最高の評価モデルであっても39%のF1スコアしか達成できないことが判明した。 全体として、我々の大規模で多様なEAEオントロジーは、より包括的な将来的なリソースを作成するのに役立つ一方、GENEVAは、EAEの一般化性を改善するためのさらなる研究を奨励する、挑戦的なベンチマークデータセットである。 コードとデータはhttps://github.com/PlusLabNLP/GENEVAで確認できる。

Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models' ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.
翻訳日:2023-06-03 02:02:12 公開日:2023-06-01
# 航空ビジョン・アンド・ダイアログナビゲーション

Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2205.12219v3 )

ライセンス: Link先を確認
Yue Fan, Winson Chen, Tongzhou Jiang, Chun Zhou, Yi Zhang, Xin Eric Wang(参考訳) 人間と会話し、自然言語コマンドに従う能力は、インテリジェントな無人航空機(ドローン)にとって不可欠である。 コントローラーを常に持ち続けることの負担を軽減し、マルチタスクを可能にし、障害のある人や手を使ってドローンの制御をより容易に行えるようにする。 この目的のために,Aerial Vision-and-Dialog Navigation (AVDN)を導入し,自然言語による会話を通じてドローンをナビゲートする。 我々は、連続したフォトリアリスティック環境を備えたドローンシミュレータを構築し、3k以上のナビゲーショントラジェクトリの新たなAVDNデータセットを、指揮官とフォロワー間の非同期な人間と人間の対話で収集する。 コマンドは初期ナビゲーションの指示と要求によるガイダンスを提供するが、フォロワーはシミュレータでドローンをナビゲートし、必要なときに質問する。 データ収集中、ドローンの視覚的観察に対するフォロワーの注意も記録されている。 AVDNデータセットに基づいて、(フル)ダイアログ履歴から空中ナビゲーションのタスクを調査し、ナビゲーションの経路と人間の注意の両方を予測する効果的なヒューマンアテンション支援トランスフォーマーモデル(HAA-Transformer)を提案する。

The ability to converse with humans and follow natural language commands is crucial for intelligent unmanned aerial vehicles (a.k.a. drones). It can relieve people's burden of holding a controller all the time, allow multitasking, and make drone control more accessible for people with disabilities or with their hands occupied. To this end, we introduce Aerial Vision-and-Dialog Navigation (AVDN), to navigate a drone via natural language conversation. We build a drone simulator with a continuous photorealistic environment and collect a new AVDN dataset of over 3k recorded navigation trajectories with asynchronous human-human dialogs between commanders and followers. The commander provides initial navigation instruction and further guidance by request, while the follower navigates the drone in the simulator and asks questions when needed. During data collection, followers' attention on the drone's visual observation is also recorded. Based on the AVDN dataset, we study the tasks of aerial navigation from (full) dialog history and propose an effective Human Attention Aided Transformer model (HAA-Transformer), which learns to predict both navigation waypoints and human attention.
翻訳日:2023-06-03 02:01:46 公開日:2023-06-01
# MixFlows: 混合フローによる原理的変動推論

MixFlows: principled variational inference via mixed flows ( http://arxiv.org/abs/2205.07475v5 )

ライセンス: Link先を確認
Zuheng Xu, Naitong Chen, Trevor Campbell(参考訳) この研究は、地図の繰り返し適用を初期参照分布に混合した新しい変分族である混合変分流(MixFlows)を提示する。 まず,サンプリング,密度評価,偏りのないELBO推定のための効率的なアルゴリズムを提案する。 次に, フローマップがエルゴードかつ測度保存である場合, 混合フローはmcmcライクな収束を保証し, フローマップを近似する実用的な実装のために誤差の蓄積に関する境界を与えることを示す。 最後に, 決定論的運動量リフレッシュを併用した非補正離散ハミルトン力学に基づく混合フローの実装を開発した。 シミュレーションおよび実データ実験により、MixFlowsは複数のブラックボックス正規化フローよりも信頼性の高い後部近似を提供し、また最先端MCMCMC法と同等の品質のサンプルを提供することが示された。

This work presents mixed variational flows (MixFlows), a new variational family that consists of a mixture of repeated applications of a map to an initial reference distribution. First, we provide efficient algorithms for i.i.d. sampling, density evaluation, and unbiased ELBO estimation. We then show that MixFlows have MCMC-like convergence guarantees when the flow map is ergodic and measure-preserving, and provide bounds on the accumulation of error for practical implementations where the flow map is approximated. Finally, we develop an implementation of MixFlows based on uncorrected discretized Hamiltonian dynamics combined with deterministic momentum refreshment. Simulated and real data experiments show that MixFlows can provide more reliable posterior approximations than several black-box normalizing flows, as well as samples of comparable quality to those obtained from state-of-the-art MCMC methods.
翻訳日:2023-06-03 02:01:08 公開日:2023-06-01
# コミュニケーション効率の良いDNNトレーニングを実現するには? 変換、圧縮、正しい

How to Attain Communication-Efficient DNN Training? Convert, Compress, Correct ( http://arxiv.org/abs/2204.08211v2 )

ライセンス: Link先を確認
Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang and Stefano Rini(参考訳) 本稿では,通信効率の高いDeep Neural Network (DNN) トレーニングのためのアルゴリズムであるCO3を紹介する。 CO3は、リモートユーザからパラメータサーバにローカルDNN勾配を送信する際の通信負荷を低減する3つの処理から名付けられた。 通称。 (i)浮動小数点変換による勾配量子化 (ii)定量勾配の損失のない圧縮、 三 量子化誤差補正 上記の各ステップを慎重に設計し,コミュニケーション速度の制約下で良好なトレーニング性能を保証する。 特にステップでは (i)および (II) DNN勾配は一般化正規分布に従って分布しているという仮定を採用し、本論文で数値的に検証する。 ステップ (iii)ステップで導入された量子化誤差を補正するために,メモリ減衰機構を用いた誤差フィードバックを用いる。 (i)。 学習速度と同様に、記憶減衰係数は収束性を改善するために最適に調整できると主張する。 提案したCO3とSGDとの厳密な収束解析を行う。 さらに,CO3は,スケッチや局所勾配の非一様量子化を用いた文献において,既存の勾配圧縮方式と比較して性能が向上することを示した。

This paper introduces CO3 -- an algorithm for communication-efficient federated Deep Neural Network (DNN) training. CO3 takes its name from three processing applied which reduce the communication load when transmitting the local DNN gradients from the remote users to the Parameter Server. Namely: (i) gradient quantization through floating-point conversion, (ii) lossless compression of the quantized gradient, and (iii) quantization error correction. We carefully design each of the steps above to assure good training performance under a constraint on the communication rate. In particular, in steps (i) and (ii), we adopt the assumption that DNN gradients are distributed according to a generalized normal distribution, which is validated numerically in the paper. For step (iii), we utilize an error feedback with memory decay mechanism to correct the quantization error introduced in step (i). We argue that the memory decay coefficient, similarly to the learning rate, can be optimally tuned to improve convergence. A rigorous convergence analysis of the proposed CO3 with SGD is provided. Moreover, with extensive simulations, we show that CO3 offers improved performance when compared with existing gradient compression schemes in the literature which employ sketching and non-uniform quantization of the local gradients.
翻訳日:2023-06-03 02:00:54 公開日:2023-06-01
# 孤立符号と後処理を用いた連続手話における単語分離

Word separation in continuous sign language using isolated signs and post-processing ( http://arxiv.org/abs/2204.00923v4 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera(参考訳) . 連続手話認識(cslr)は、手話中の単語間の明示的な境界を検出するのが困難であるため、コンピュータビジョンにおいて長い課題である。 この課題に対処するため,我々は2段階モデルを提案する。 第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。 第2段階では,モデルの第一部分から得られたソフトマックス出力に後処理アルゴリズムを適用し,連続符号の孤立した符号を分離する。 提案手法は, 同一のフレーム数を持つ孤立符号クラス上で訓練されるが, 分離符号クラスごとに異なるフレーム長を持つ連続符号ビデオ上で評価される。 符号列とそれに対応する孤立符号の両方を含む大きなデータセットがないため、独立手話認識(ISLR)、RKS-PERSIANSIGN、ASLLVDの2つの公開データセットが評価に使用される。 連続手話ビデオの結果は、孤立手話境界検出に対処するために提案したモデルの効率性を確認する。

. Continuous Sign Language Recognition (CSLR) is a long challenging task in Computer Vision due to the difficulties in detecting the explicit boundaries between the words in a sign sentence. To deal with this challenge, we propose a two-stage model. In the first stage, the predictor model, which includes a combination of CNN, SVD, and LSTM, is trained with the isolated signs. In the second stage, we apply a post-processing algorithm to the Softmax outputs obtained from the first part of the model in order to separate the isolated signs in the continuous signs. While the proposed model is trained on the isolated sign classes with similar frame numbers, it is evaluated on the continuous sign videos with a different frame length per each isolated sign class. Due to the lack of a large dataset, including both the sign sequences and the corresponding isolated signs, two public datasets in Isolated Sign Language Recognition (ISLR), RKS-PERSIANSIGN and ASLLVD, are used for evaluation. Results of the continuous sign videos confirm the efficiency of the proposed model to deal with isolated sign boundaries detection.
翻訳日:2023-06-03 02:00:36 公開日:2023-06-01
# マジック角のカイラルモデルにおける平面バンドの微細構造

Fine structure of flat bands in a chiral model of magic angles ( http://arxiv.org/abs/2208.01628v2 )

ライセンス: Link先を確認
Simon Becker, Tristan Humbert, Maciej Zworski(参考訳) 我々は,Becker--Embree--Wittsten--Zworskiによって導入されたフレームワークに従って,Tarnopolsky--Kruchkov--Vishwanath型二層グラフェン(TBG)の魔法角におけるブロッホ固有関数の対称性を解析した。 ディラック点から遠ざかる最初のブロッホ固有値の消失は、すべての瞬間においてその消失を意味する、すなわち平坦なバンドの存在を示す。 また、平面バンドの多重度がブロッホ固有関数の結節集合とどのように関係しているかを示す。 フラットバンドの構造に関する2つの数値的観測を終える。

We analyze symmetries of Bloch eigenfunctions at magic angles for the Tarnopolsky--Kruchkov--Vishwanath chiral model of the twisted bilayer graphene (TBG) following the framework introduced by Becker--Embree--Wittsten--Zworski. We show that vanishing of the first Bloch eigenvalue away from the Dirac points implies its vanishing at all momenta, that is the existence of a flat band. We also show how the multiplicity of the flat band is related to the nodal set of the Bloch eigenfunctions. We conclude with two numerical observations about the structure of flat bands.
翻訳日:2023-06-03 01:54:54 公開日:2023-06-01
# マジック角のカイラルモデルにおける積分可能性

Integrability in the chiral model of magic angles ( http://arxiv.org/abs/2208.01620v3 )

ライセンス: Link先を確認
Simon Becker, Tristan Humbert, Maciej Zworski(参考訳) ツイスト二層グラフェンのキラルモデルにおけるマジック角は、ビストリッツァー=マクドナルド・ハミルトニアンのキラルバージョンがエネルギーゼロで平坦なバンドを示すパラメータである。 我々は(複素)マジック角の和を計算し、それを用いてマジック角の集合が無限であることを示す。 また、第1次マジックアングルの存在を証明し、対応するフラットバンドがすべての対称性を満たすポテンシャルの最も単純な選択に対して最小の乗算性を持つことを示す。 これらの結果は(証明できないが)カイラルモデルの隠れた可積分性を示している。

Magic angles in the chiral model of twisted bilayer graphene are parameters for which the chiral version of the Bistritzer--MacDonald Hamiltonian exhibits a flat band at energy zero. We compute the sums over powers of (complex) magic angles and use that to show that the set of magic angles is infinite. We also provide a new proof of the existence of the first real magic angle, showing also that the corresponding flat band has minimal multiplicity for the simplest possible choice of potentials satisfying all symmetries. These results indicate (though do not prove) a hidden integrability of the chiral model.
翻訳日:2023-06-03 01:54:42 公開日:2023-06-01
# Claim-Dissector:ジョイントリグレードとVeracity予測を備えた解釈可能なFact-Checkingシステム

Claim-Dissector: An Interpretable Fact-Checking System with Joint Re-ranking and Veracity Prediction ( http://arxiv.org/abs/2207.14116v3 )

ライセンス: Link先を確認
Martin Fajcik, Petr Motlicek, Pavel Smrz(参考訳) ファクトチェックと分析のための新しい潜在変数モデルであり、クレームと検索されたエビデンスが共同で識別することを学ぶ。 (i)当該クレームに関連する証拠 (ii)クレームの妥当性。 本稿では,各証拠関連確率とその最終妥当性確率への寄与を解釈可能な方法で解き放つことを提案し,その最終的な妥当性確率は,各証拠関連確率の線形アンサンブルに比例する。 このようにして、最終的な予測確率に対する証拠の個々の寄与を特定できる。 このモデルでは,各証拠が(s) を支持しているか,(r) を反論しているか,さらに識別することができる。 これにより、S/R確率が最終的な判定にどの程度貢献するかを定量化したり、不一致の証拠を検出することができる。 その解釈可能な性質にもかかわらず、本システムはFEVERデータセットの最先端と競合する結果を、典型的な2段階のシステムパイプラインと比較して実現し、パラメータは大幅に少ない。 また、faviqとrealfcデータセットに新しい最先端を設定する。 さらに,我々のモデルでは,粗粒度監視を用いて細粒度関係の学習が可能であり,その2つの方法が示されている。 i)本モデルでは,段落レベルの関連性監視のみを用いながら,競争力のある文のリコールが可能であることを示す。 (ii) 妥当性の最も細かい粒度に目を向けると, このモデルはトークンレベルで妥当性を識別できることを示す。 そこで我々は,トークンレベルの解釈可能性に着目した新しいベンチマークTLR-FEVERを提案する。 そして、モデルが注目しているトークンにこれらのアノテーションがどの程度似ているかを測定します。

We present Claim-Dissector: a novel latent variable model for fact-checking and analysis, which given a claim and a set of retrieved evidences jointly learns to identify: (i) the relevant evidences to the given claim, (ii) the veracity of the claim. We propose to disentangle the per-evidence relevance probability and its contribution to the final veracity probability in an interpretable way -- the final veracity probability is proportional to a linear ensemble of per-evidence relevance probabilities. In this way, the individual contributions of evidences towards the final predicted probability can be identified. In per-evidence relevance probability, our model can further distinguish whether each relevant evidence is supporting (S) or refuting (R) the claim. This allows to quantify how much the S/R probability contributes to the final verdict or to detect disagreeing evidence. Despite its interpretable nature, our system achieves results competitive with state-of-the-art on the FEVER dataset, as compared to typical two-stage system pipelines, while using significantly fewer parameters. It also sets new state-of-the-art on FAVIQ and RealFC datasets. Furthermore, our analysis shows that our model can learn fine-grained relevance cues while using coarse-grained supervision, and we demonstrate it in 2 ways. (i) We show that our model can achieve competitive sentence recall while using only paragraph-level relevance supervision. (ii) Traversing towards the finest granularity of relevance, we show that our model is capable of identifying relevance at the token level. To do this, we present a new benchmark TLR-FEVER focusing on token-level interpretability -- humans annotate tokens in relevant evidences they considered essential when making their judgment. Then we measure how similar are these annotations to the tokens our model is focusing on.
翻訳日:2023-06-03 01:54:30 公開日:2023-06-01
# 予測集約のサンプル複雑性

Sample Complexity of Forecast Aggregation ( http://arxiv.org/abs/2207.13126v3 )

ライセンス: Link先を確認
Yiling Chen, Tao Lin(参考訳) ベイズ予測集約モデルでは、未知のバイナリイベントに関するプライベートなシグナルを観察した後、そのイベントに関する後発の信念をプリンシパルに報告し、そのレポートを単一の予測に集約する。 専門家の信号とイベントの結果は、プリンシパルに知られていない共同分布に従うが、プリンシパルは、各サンプルが専門家の報告(信号ではない)とイベントの実現のタプルである分布から、i.i.d.の「サンプル」にアクセスすることができる。 これらのサンプルを用いて、主目的は$\varepsilon$-approximately optimal aggregatorを見つけることである。 この問題のサンプル複雑性は、任意の離散分布に対して少なくとも$\tilde \Omega(m^{n-2} / \varepsilon)$である。 このサンプルの複雑さは専門家の数で指数関数的に増加する。 しかし、専門家の信号が事象の実現に独立して条件付けされている場合、サンプルの複雑さは著しく減少し、$n$に依存しない$\tilde o(1 / \varepsilon^2)$となる。 結果は非バイナリイベントに一般化できる。 この結果の証明は,分布学習問題からの削減を用い,予測集約が分布学習と同程度に困難であることを示す。

We consider a Bayesian forecast aggregation model where $n$ experts, after observing private signals about an unknown binary event, report their posterior beliefs about the event to a principal, who then aggregates the reports into a single prediction for the event. The signals of the experts and the outcome of the event follow a joint distribution that is unknown to the principal, but the principal has access to i.i.d. "samples" from the distribution, where each sample is a tuple of the experts' reports (not signals) and the realization of the event. Using these samples, the principal aims to find an $\varepsilon$-approximately optimal aggregator, where optimality is measured in terms of the expected squared distance between the aggregated prediction and the realization of the event. We show that the sample complexity of this problem is at least $\tilde \Omega(m^{n-2} / \varepsilon)$ for arbitrary discrete distributions, where $m$ is the size of each expert's signal space. This sample complexity grows exponentially in the number of experts $n$. But, if the experts' signals are independent conditioned on the realization of the event, then the sample complexity is significantly reduced, to $\tilde O(1 / \varepsilon^2)$, which does not depend on $n$. Our results can be generalized to non-binary events. The proof of our results uses a reduction from the distribution learning problem and reveals the fact that forecast aggregation is almost as difficult as distribution learning.
翻訳日:2023-06-03 01:53:57 公開日:2023-06-01
# クアドネット:CT金属アーチファクト低減のためのクアドドメインネットワーク

Quad-Net: Quad-domain Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2207.11678v2 )

ライセンス: Link先を確認
Zilong Li, Qi Gao, Yaping Wu, Chuang Niu, Junping Zhang, Meiyun Wang, Ge Wang, Hongming Shan(参考訳) 患者の金属インプラントやその他の高密度物体は、ct画像に重度のストレッチアーティファクトを導入し、画像品質と診断性能を損なう。 過去数十年間、最新のデュアルドメインディープネットワークを含む様々な方法がCT金属アーティファクト削減のために開発されたが、残っている金属アーティファクトは、多くの場合、まだ臨床的に困難である。 ここでは、最先端のデュアルドメインディープネットワークアプローチをクワッドドメインに拡張し、シングラム、画像、およびそれに対応するフーリエドメインの全ての特徴を相乗化して、構造的微妙性を損なうことなく金属のアーティファクトを最適に除去する。 提案手法はquad-netと呼ばれ,フーリエ変換が高効率であるため計算コストをほとんど必要とせず,大域的および局所的特徴とそれらの関係を学習するために4つの受容的分野にまたがって機能する。 具体的には,まずシンノグラム領域とそのフーリエ空間内のシンノグラム-フーリエ復元ネットワーク(sfr-net)を忠実に塗装された金属腐食跡に設計した。 次に、sfr-netに画像とフーリエスペクトルの両方を取り込む画像フーリエリファインメントネットワーク(ifr-net)を結合し、クロスドメインコンテキスト情報を用いてsfr-net出力から再構成されたct画像を改善する。 quad-netは、複合損失関数を最小化するために臨床データセットでトレーニングされる。 クアッドネットは正確な金属マスクを必要としないため、臨床では非常に重要である。 実験結果は,最先端のmar法に対するquad-netの優位性を定量的,視覚的,統計的に示している。 Quad-Netコードはhttps://github.com/longzilicart/Quad-Netで公開されている。

Metal implants and other high-density objects in patients introduce severe streaking artifacts in CT images, compromising image quality and diagnostic performance. Although various methods were developed for CT metal artifact reduction over the past decades, including the latest dual-domain deep networks, remaining metal artifacts are still clinically challenging in many cases. Here we extend the state-of-the-art dual-domain deep network approach into a quad-domain counterpart so that all the features in the sinogram, image, and their corresponding Fourier domains are synergized to eliminate metal artifacts optimally without compromising structural subtleties. Our proposed quad-domain network for MAR, referred to as Quad-Net, takes little additional computational cost since the Fourier transform is highly efficient, and works across the four receptive fields to learn both global and local features as well as their relations. Specifically, we first design a Sinogram-Fourier Restoration Network (SFR-Net) in the sinogram domain and its Fourier space to faithfully inpaint metal-corrupted traces. Then, we couple SFR-Net with an Image-Fourier Refinement Network (IFR-Net) which takes both an image and its Fourier spectrum to improve a CT image reconstructed from the SFR-Net output using cross-domain contextual information. Quad-Net is trained on clinical datasets to minimize a composite loss function. Quad-Net does not require precise metal masks, which is of great importance in clinical practice. Our experimental results demonstrate the superiority of Quad-Net over the state-of-the-art MAR methods quantitatively, visually, and statistically. The Quad-Net code is publicly available at https://github.com/longzilicart/Quad-Net.
翻訳日:2023-06-03 01:53:28 公開日:2023-06-01
# エッジにおけるリアルタイムビジュアル処理のための超低消費電力TinyMLシステム

An Ultra-low Power TinyML System for Real-time Visual Processing at Edge ( http://arxiv.org/abs/2207.04663v2 )

ライセンス: Link先を確認
Kunran Xu, Huawei Zhang, Yishi Li, Yuhao Zhang, Rui Lai and Yi Liu(参考訳) リソースと電力を厳密に制限されたシステム上でaiワークロードを実行するtinyml(small machine learning)は、重要かつ困難なトピックである。 まず、様々な視覚タスクのための高効率cnnモデルを構築するための非常に小さなバックボーンを示す。 そして、特別に設計されたニューラルコプロセッサ(ncp)をmcuと接続して超低消費電力のtinymlシステムを構築し、チップにすべての機能と重みを格納し、チップ外のメモリアクセスにおけるレイテンシと消費電力の両方を完全に排除する。 さらに、アジャイル開発と迅速なデプロイメントを実現するためのアプリケーション固有の命令セットも提示されている。 実験の結果,提案したTinyMLシステムは精度が高く,オブジェクト検出と認識を30FPSで実現しつつ,160mWの超低消費電力を実現していることがわかった。 デモビデオは \url{https://www.youtube.com/watch? v=mIZPxtJ-9EY}。

Tiny machine learning (TinyML), executing AI workloads on resource and power strictly restricted systems, is an important and challenging topic. This brief firstly presents an extremely tiny backbone to construct high efficiency CNN models for various visual tasks. Then, a specially designed neural co-processor (NCP) is interconnected with MCU to build an ultra-low power TinyML system, which stores all features and weights on chip and completely removes both of latency and power consumption in off-chip memory access. Furthermore, an application specific instruction-set is further presented for realizing agile development and rapid deployment. Extensive experiments demonstrate that the proposed TinyML system based on our model, NCP and instruction set yields considerable accuracy and achieves a record ultra-low power of 160mW while implementing object detection and recognition at 30FPS. The demo video is available on \url{https://www.youtube.com/watch?v=mIZPxtJ-9EY}.
翻訳日:2023-06-03 01:52:57 公開日:2023-06-01
# クラス不均衡下における学習ダイナミクスの理論解析

A Theoretical Analysis of the Learning Dynamics under Class Imbalance ( http://arxiv.org/abs/2207.00391v3 )

ライセンス: Link先を確認
Emanuele Francazi, Marco Baity-Jesi, Aurelien Lucchi(参考訳) データ不均衡は機械学習において一般的な問題であり、モデルの性能に重大な影響を与える可能性がある。 様々な解決策が存在するが、その学習ダイナミクスの収束への影響は理解されていない。 ここでは,データ不均衡が学習に与える影響を解明し,マイノリティクラスとマイノリティクラスの学習曲線が,グラデーションに基づくオプティマイザを用いた学習において,準最適軌道に従うことを示した。 この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。 我々の主な貢献は、全バッチ(GD)と確率勾配降下(SGD)の収束の解析と、各クラスごとの勾配の寄与を再正規化する変種の分析である。 GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。 SGDでは、クラス不均衡が勾配の方向に付加的な影響を与え、マイノリティクラスは高い指向性ノイズに悩まされ、クラスごとの勾配正規化の有効性が低下する。 以上の結果から,クラス毎の勾配を含む戦略の可能性と限界を把握できるだけでなく,従来使用されていたオーバーサンプリングなどのクラス不均衡に対するソリューションの有効性も把握できた。

Data imbalance is a common problem in machine learning that can have a critical effect on the performance of a model. Various solutions exist but their impact on the convergence of the learning dynamics is not understood. Here, we elucidate the significant negative impact of data imbalance on learning, showing that the learning curves for minority and majority classes follow sub-optimal trajectories when training with a gradient-based optimizer. This slowdown is related to the imbalance ratio and can be traced back to a competition between the optimization of different classes. Our main contribution is the analysis of the convergence of full-batch (GD) and stochastic gradient descent (SGD), and of variants that renormalize the contribution of each per-class gradient. We find that GD is not guaranteed to decrease the loss for each class but that this problem can be addressed by performing a per-class normalization of the gradient. With SGD, class imbalance has an additional effect on the direction of the gradients: the minority class suffers from a higher directional noise, which reduces the effectiveness of the per-class gradient normalization. Our findings not only allow us to understand the potential and limitations of strategies involving the per-class gradients, but also the reason for the effectiveness of previously used solutions for class imbalance such as oversampling.
翻訳日:2023-06-03 01:52:40 公開日:2023-06-01
# the quantum internet:ハードウェアレビュー

The Quantum Internet: A Hardware Review ( http://arxiv.org/abs/2206.15376v2 )

ライセンス: Link先を確認
Rohit K. Ramakrishnan, Aravinth Balaji Ravichandran, Ishwar Kaushik, Gopalkrishna Hegde, Srinivas Talabattula, Peter P. Rohde(参考訳) その発見から1世紀が経ち、量子物理学の応用が技術の可能性の新しい世界を開く。 量子超越性を目の当たりにするこの10年で、量子技術はすでに情報の生成、送信、保存、処理の方法を変え始めている。 量子技術における次の大きなマイルストーンは、すでに急速に出現している。 光は量子通信の最も論理的な候補であるため、量子フォトニクスは重要な技術である。 本稿では,主にフォトニクスの観点から,量子インターネットのハードウェア面を概観する。 近年、多くの量子技術やデバイスが登場していますが、私たちは量子インターネットを可能にするデバイスやコンポーネントに重点を置いています。 我々のアプローチは主に質的であり、大規模な量子インターネットに必要な技術の概要を提供する。

In the century following its discovery, applications for quantum physics are opening a new world of technological possibilities. With the current decade witnessing quantum supremacy, quantum technologies are already starting to change the ways information is generated, transmitted, stored and processed. The next major milestone in quantum technology is already rapidly emerging -- the quantum internet. Since light is the most logical candidate for quantum communication, quantum photonics is a critical enabling technology. This paper reviews the hardware aspects of the quantum internet, mainly from a photonics perspective. Though a plethora of quantum technologies and devices have emerged in recent years, we are more focused on devices or components that may enable the quantum internet. Our approach is primarily qualitative, providing a broad overview of the necessary technologies for a large-scale quantum internet.
翻訳日:2023-06-03 01:52:18 公開日:2023-06-01
# 非適応20問の解答限界 : 移動対象の探索

Resolution Limits of Non-Adaptive 20 Questions Search for a Moving Target ( http://arxiv.org/abs/2206.08884v2 )

ライセンス: Link先を確認
Lin Zhou and Alfred Hero(参考訳) 問合せ依存雑音を伴う20問推定フレームワークを用いて,未知の初期位置と速度を有する単位立方体上の移動対象の非適応探索戦略を区分的定数速度モデルを用いて検討する。 この検索問題では、ターゲットの即時位置をいつでも知っているオラクルがいます。 我々のタスクは、特定の時間にターゲットの位置を正確に推定するために、できるだけ数回オラクルに問い合わせることです。 まず,各クエリに対するオラクルの回答が離散ノイズによって損なわれるケースを調査し,その結果を白色ガウスノイズに一般化した。 我々の定式化では、性能基準は解像度であり、真の位置と推定位置の間の最大$l_\infty$距離として定義される。 非漸近的および漸近的境界を導出することにより、有限数のクエリで最適な非適応的クエリ手順の最小解法を特徴付ける。 私たちの境界は、クエリ数が一定の条件を満たす場合の1次漸近的な感覚と、目標が一定の速度で移動する場合のより強い2次漸近的な感覚とが密接である。 この結果を証明するために、チャネル符号化、有限ブロック長情報理論からのアイデアの借用、および量子化された対象軌道の数に基づく構成境界について、現状の問題点を考察する。

Using the 20 questions estimation framework with query-dependent noise, we study non-adaptive search strategies for a moving target over the unit cube with unknown initial location and velocities under a piecewise constant velocity model. In this search problem, there is an oracle who knows the instantaneous location of the target at any time. Our task is to query the oracle as few times as possible to accurately estimate the location of the target at any specified time. We first study the case where the oracle's answer to each query is corrupted by discrete noise and then generalize our results to the case of additive white Gaussian noise. In our formulation, the performance criterion is the resolution, which is defined as the maximal $L_\infty$ distance between the true locations and estimated locations. We characterize the minimal resolution of an optimal non-adaptive query procedure with a finite number of queries by deriving non-asymptotic and asymptotic bounds. Our bounds are tight in the first-order asymptotic sense when the number of queries satisfies a certain condition and our bounds are tight in the stronger second-order asymptotic sense when the target moves with a constant velocity. To prove our results, we relate the current problem to channel coding, borrow ideas from finite blocklength information theory and construct bounds on the number of possible quantized target trajectories.
翻訳日:2023-06-03 01:51:45 公開日:2023-06-01
# 真空中の巨視体に対する量子力学からのニュートン方程式

Newton's equations from quantum mechanics for macroscopic bodies in the vacuum ( http://arxiv.org/abs/2209.07318v4 )

ライセンス: Link先を確認
Kenichi Konishi(参考訳) ニュートンの力法則 $\frac{d {\bf P}}{dt} = {\bf F}$ は、孤立したマクロ体、例えば$N\sim 10^{25}, 10^{51}, \ldots$ 原子と分子の有限体温度での合成状態である Schr\"odinger 方程式から導かれる。 この文脈でまず量子力学(QM)の3つの側面を概観する。 (i)ハイゼンベルクの質量中心の不確実性関係(cm) (ii)c.m.波束の拡散、及び (iii) 身体の準安定(混合)状態を意味する有限の体温:光子放出と自己解離。 これらは、マクロな物体の古典的軌道の起源を説明する。 CMの量子ゆらぎが有効である範囲である$R_q$と、体の(線形)サイズである$L_0$と$R_q/L_0 \lesssim 1$と$R_q/L_0 \gg 1$との比は、それぞれ古典的または量子力学的に挙動するかどうかを示す。 最初のケースでは、そのCMに対するニュートンの力法則はエレンフェストの定理から従う。 弱い重力力、調和振動子ポテンシャル、宇宙空間でゆっくりと変化する一定の外部電磁場について説明する。 多体系に対する標準ハミルトン方程式の導出についても論じる。 重力潮流力のような物体の有限サイズの影響は摂動理論に現れる。 我々の研究は、古典物理学のQMにおける出現は環境誘起のデコヒーレンスに起因するというよく知られた考え方と一致しているが、ニュートンの方程式がQMから従う条件を明確にし、それらを明示的に導出することによってそれを補完し完成させる。

Newton's force law $\frac{d {\bf P}}{dt} = {\bf F}$ is derived from the Schr\"odinger equation for isolated macroscopic bodies, composite states of e.g., $N\sim 10^{25}, 10^{51}, \ldots$ atoms and molecules, at finite body temperatures. We first review three aspects of quantum mechanics (QM) in this context: (i) Heisenberg's uncertainty relations for their center of mass (CM), (ii) the diffusion of the C.M. wave packet, and (iii) a finite body-temperature which implies a metastable (mixed-) state of the body: photon emissions and self-decoherence. They explain the origin of the classical trajectory for a macroscopic body. The ratio between the range $R_q$ over which the quantum fluctuations of its CM are effective, and the body's (linear) size $L_0$, $R_q /L_0 \lesssim 1$ or $R_q/ L_0 \gg 1$, tells whether the body's CM behaves classically or quantum mechanically, respectively. In the first case, Newton's force law for its CM follows from the Ehrenfest theorem. We illustrate this for weak gravitational forces, a harmonic-oscillator potential, and for constant external electromagnetic fields slowly varying in space. The derivation of the canonical Hamilton equations for many-body systems is also discussed. Effects due to the body's finite size such as the gravitational tidal forces appear in perturbation theory. Our work is consistent with the well-known idea that the emergence of classical physics in QM is due to the environment-induced decoherence, but complements and completes it, by clarifying the conditions under which Newton's equations follow from QM, and by deriving them explicitly.
翻訳日:2023-06-03 01:44:45 公開日:2023-06-01
# 準周期連鎖を結合した臨界相への一般的アプローチ

The general approach to the critical phase with coupled quasiperiodic chains ( http://arxiv.org/abs/2209.03060v2 )

ライセンス: Link先を確認
Xiaoshui Lin, Xiaoman Chen, Guang-Can Guo and Ming Gong(参考訳) 障害系では、Schr\"{o}dinger 方程式の波動関数は、拡張相から局所相への遷移を示し、境界あるいは移動端の状態は多重フラクタル性を示す。 一方、全ての状態が多重フラクタル構造を示す臨界相(cp)も、過去数十年で大きな注目を集めている。 しかし、オンデマンドでcpを構築する一般的な方法はまだ不明である。 ここで、この位相に対する一般的なアプローチは、2つの結合準周期鎖(英語版)を用いて示され、鎖は、結合する前に一方が拡張状態を持ち、もう一方が局所状態を持つように選択される。 マルチフラクタル解析に基づくフラクタル次元と最小スケーリング指数を用いた鎖間結合の存在下での重畳スペクトルにおけるCPの存在を示す。 次に、重なり合ったスペクトルにもCPが現れる鎖間結合と準周期ポテンシャルの形式を変化させて、この物理学の一般性を検討する。 我々は、この位相の出現を、特異な連続スペクトルを生じさせ、重なり合う状態における拡張状態を排除する効果的な非有界ポテンシャルの結果として考慮する。 最後に、このCPを二色不規則光格子を持つ超低温原子を用いた連続モデルで実現することについても論じる。 2つの鎖の可変性のため、この研究はcpを可変的に実現するための一般的なアプローチを提供する。 このアプローチはcpの実験的な検出に広く応用でき、多体cpの相互作用の存在下でより興味深い物理学に一般化することができる。

In disordered systems, wave functions in the Schr\"{o}dinger equation may exhibit a transition from the extended phase to the localized phase, in which the states at the boundaries or mobility edges may exhibit multifractality. Meanwhile, the Critical Phase (CP), where all states exhibit multifractal structures, has also attracted much attention in the past decades. However, a generic way to construct the CP on demand still remains elusive. Here, a general approach for this phase is presented using two coupled quasiperiodic chains, where the chains are chosen so that before coupling one of them has extended states while the other one has localized states. We demonstrate the existence of CP in the overlapped spectra in the presence of inter-chain coupling using fractal dimension and minimal scaling index based on multifractal analysis. Then we examine the generality of this physics by changing the forms of inter-chain coupling and quasiperiodic potential, where the CP also emerges in the overlapped spectra. We account for the emergence of this phase as a result of effective unbounded potential, which yields singular continuous spectra and excludes the extended states in the overlapped regimes. Finally, the realization of this CP in the continuous model using ultracold atoms with bichromatic incommensurate optical lattice is also discussed. Due to the tunability of the two chains, this work provides a general approach to realizing the CP in a tunable way. This approach may have wide applications in the experimental detection of CP and can be generalized to much more intriguing physics in the presence of interaction for the many-body CP.
翻訳日:2023-06-03 01:44:08 公開日:2023-06-01
# 大きな言語モデルは、人間が知っていることを知っていますか?

Do Large Language Models know what humans know? ( http://arxiv.org/abs/2209.01515v3 )

ライセンス: Link先を確認
Sean Trott, Cameron Jones, Tyler Chang, James Michaelov, Benjamin Bergen(参考訳) 人間は信念を他人に当てはめることができる。 しかし、この能力が生来の生物学的養育や、発達を通じて得られた経験、特に他者の精神状態を記述する言語にどの程度影響するかは不明である。 文中の文字の暗黙的知識状態に対して,多量の人間の言語に露出したモデルが感性を示すか否かを評価することで,言語暴露仮説の有効性を検証する。 事前登録された分析では,False Belief Task の言語版を人間と大規模言語モデル GPT-3 に提示する。 どちらも他人の信念に敏感だが、言語モデルは確率的行動を大幅に上回るが、人間と同等に機能するわけではない。 これは、言語曝露による統計的学習が、人間が他人の精神状態について推論する能力をいかに発達させるかを説明する一方で、他のメカニズムも責任を負っていることを示唆している。

Humans can attribute beliefs to others. However, it is unknown to what extent this ability results from an innate biological endowment or from experience accrued through child development, particularly exposure to language describing others' mental states. We test the viability of the language exposure hypothesis by assessing whether models exposed to large quantities of human language display sensitivity to the implied knowledge states of characters in written passages. In pre-registered analyses, we present a linguistic version of the False Belief Task to both human participants and a Large Language Model, GPT-3. Both are sensitive to others' beliefs, but while the language model significantly exceeds chance behavior, it does not perform as well as the humans, nor does it explain the full extent of their behavior -- despite being exposed to more language than a human would in a lifetime. This suggests that while statistical learning from language exposure may in part explain how humans develop the ability to reason about the mental states of others, other mechanisms are also responsible.
翻訳日:2023-06-03 01:43:42 公開日:2023-06-01
# 関連事実は存在しない。 関係量子力学は、jay lawrence, marcin markiewicz, marek \'{z}ukowskiによる「量子力学とは相容れない」

Comments on: `Relative facts do not exist. Relational quantum mechanics is incompatible with quantum mechanics' by Jay Lawrence, Marcin Markiewicz and Marek \'{Z}ukowski ( http://arxiv.org/abs/2209.01237v2 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) リレーショナル量子力学(Relational Quantum Mechanics、RQM)は、Cによって提唱された量子力学の代替解釈である。 ロヴェリ。 RQM はコペンハーゲン (orthodox) 解釈の論理的完備化と一般化と見なすことができるが、ハイゼンベルクの量子 'shifty-split' あるいは 'cut' の仲裁性は、観測されたサブシステムと観測されたサブシステムとを分離している。 コペンハーゲン解釈とは異なり、カットは巨視的領域に限定されず、観測および観測システムの役割は相対的であり、反転することができる。 したがって、RQMはより対称で一般的なアプローチである。 さらに、近年RQMは様々な著者によって批判され評価されている。 本コメントの目的は,最近のjに対する短い回答を提供することである。 〜Lawrence et al. article [arxiv: 2210.09025] では、RQMと量子文脈性の役割について論じている。

The Relational Quantum Mechanics (RQM) is an alternative interpretation of quantum mechanics that was proposed originally by C.~Rovelli. RQM can be seen as a logical completion and generalization of the Copenhagen (orthodox) interpretation but where the arbitrariness of Heisenberg's quantum `shifty-split' or `cut', which is separating observed and observing subsystems, is taken more seriously. Unlike, the Copenhagen interpretation the cut is not confined to the macroscopic domain and the roles of observed and observing systems are relative and can be inverted. RQM is therefore a more symmetric and general approach.\\ Moreover, recently RQM has been criticized and assessed by various authors. The aim of the present comment is to give a short reply to the recent J.~Lawrence et al. article [arxiv: 2210.09025] that concerns RQM and the role of quantum contextuality.
翻訳日:2023-06-03 01:43:26 公開日:2023-06-01
# 絡み合い支援通信のための強 Converse Exponent

Strong Converse Exponent for Entanglement-Assisted Communication ( http://arxiv.org/abs/2209.00555v2 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao(参考訳) 量子チャネルの絡み合い支援による古典的通信の厳密な逆指数を決定する。 我々の主な貢献は、サンドイッチされたR'enyi分散を特徴とする強逆指数の上界の導出である。 この上限は gupta と wilde の下限と一致することが判明した(数学 phys 334:867--887, 2015)。 したがって、強い逆指数はこれら2つの境界の組み合わせから従う。 私たちの結果は2つの意味を持つ。 第一に、コニー、モソニ、ワイルド(Commun Math Phys 344:797-829, 2016)が導いた量子フィードバック支援古典通信の強い逆性に対する指数的境界が最適であることを意味する。 これは、肯定的な質問に答える。 それゆえ、我々はこの問題に対する厳密な逆指数も決定しました。 第二に、Lung と Matthews の観測により、エンタングルメントや量子フィードバックの助けを借りて量子情報の伝達を扱うことができ、同様の結果が得られる。 上記の結果は、チャネルのサンドイッチ化されたR'enyi情報に対して初めて、$\alpha > 1$の完全な操作解釈を提供する。

We determine the exact strong converse exponent for entanglement-assisted classical communication of a quantum channel. Our main contribution is the derivation of an upper bound for the strong converse exponent which is characterized by the sandwiched R\'enyi divergence. It turns out that this upper bound coincides with the lower bound of Gupta and Wilde (Commun Math Phys 334:867--887, 2015). Thus, the strong converse exponent follows from the combination of these two bounds. Our result has two implications. Firstly, it implies that the exponential bound for the strong converse property of quantum-feedback-assisted classical communication, derived by Cooney, Mosonyi and Wilde (Commun Math Phys 344:797--829, 2016), is optimal. This answers their open question in the affirmative. Hence, we have determined the exact strong converse exponent for this problem as well. Secondly, due to an observation of Leung and Matthews, it can be easily extended to deal with the transmission of quantum information under the assistance of entanglement or quantum feedback, yielding similar results. The above findings provide, for the first time, a complete operational interpretation to the channel's sandwiched R\'enyi information of order $\alpha > 1$.
翻訳日:2023-06-03 01:42:58 公開日:2023-06-01
# テンソルネットワークと直交関数展開による量子状態の振幅に符号化された関数の抽出

Extracting a function encoded in amplitudes of a quantum state by tensor network and orthogonal function expansion ( http://arxiv.org/abs/2208.14623v2 )

ライセンス: Link先を確認
Koichi Miyamoto, Hiroshi Ueda(参考訳) 偏微分方程式の解法のような一連の条件を満たす関数 $f$ を見つける量子アルゴリズムがあり、それらは既存の古典的手法と比較して指数関数的量子スピードアップ(特に $f$ の変数の$d$ が大きい場合)を達成する。 しかし、一般にこれらのアルゴリズムは振幅で$f$を符号化する量子状態を出力し、そのような状態から古典的なデータとして$f$の値を読み取るのに時間がかかり、量子スピードアップが破壊される。 本研究では,この関数読み出しタスクの一般的な方法を提案する。 テンソルネットワークと直交関数展開の組み合わせによる関数近似に基づいて、量子回路とその最適化手順を示し、d$に対して自由度多項式数を持ち、古典コンピュータ上で効率的に蒸発可能な近似関数を得る。 また,金融モチベーション関数を近似し,提案手法が有効であることを示す数値実験を行った。

There are quantum algorithms for finding a function $f$ satisfying a set of conditions, such as solving partial differential equations, and these achieve exponential quantum speedup compared to existing classical methods, especially when the number $d$ of the variables of $f$ is large. In general, however, these algorithms output the quantum state which encodes $f$ in the amplitudes, and reading out the values of $f$ as classical data from such a state can be so time-consuming that the quantum speedup is ruined. In this study, we propose a general method for this function readout task. Based on the function approximation by a combination of tensor network and orthogonal function expansion, we present a quantum circuit and its optimization procedure to obtain an approximating function of $f$ that has a polynomial number of degrees of freedom with respect to $d$ and is efficiently evaluable on a classical computer. We also conducted a numerical experiment to approximate a finance-motivated function to demonstrate that our method works.
翻訳日:2023-06-03 01:42:38 公開日:2023-06-01
# Oracle の強化学習における不確実性指標によるポリシの導入

Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics ( http://arxiv.org/abs/2208.10533v2 )

ライセンス: Link先を確認
Jun Jet Tai, Jordan K. Terry, Mauro S. Innocente, James Brusey, Nadjim Horri(参考訳) 強化学習の本質的な問題は、ランダムな行動を通じて環境を探索することであり、その大部分は非生産的である。 代わりに、学習ポリシーを既存の(学習あるいはハードコードされた)オラクルポリシー、オフラインデータ、あるいはデモで初期化することで、探索を改善することができる。 oracleのポリシを使用する場合、サンプル効率の学習を最大化する方法で、oracleのポリシの経験を学習ポリシに組み込む方法が明確になる可能性がある。 本稿では,このようなoracleポリシーを標準のアクタ-批判的強化学習アルゴリズムに組み込むための,批判的信頼度誘導探索(ccge)という手法を提案する。 より具体的には、CCGEは託宣方針の行動を提案として受け取り、不確実性が高ければ学習計画にこの情報を組み込むとともに、不確実性が低い場合は無視する。 CCGEは不確実性を推定する手法に非依存であり、2つの異なる手法でも同様に有効であることを示す。 CCGEが様々なベンチマーク強化学習タスクに与える影響を実証的に評価し、このアイデアがサンプル効率と最終性能の向上につながることを示す。 さらに、スパース報酬環境の評価において、CCGEは、オラクルポリシーも活用する隣接するアルゴリズムに対して競合的に実行することができる。 本実験は,不確実性をヒューリスティックとして活用して,強化学習におけるオラクルを用いた探索をガイドできることを示唆する。 さまざまなヒューリスティックを使って学習指導の方向性を決定することで、この方向にさらなる研究がもたらされることを期待する。

An inherent problem of reinforcement learning is performing exploration of an environment through random actions, of which a large portion can be unproductive. Instead, exploration can be improved by initializing the learning policy with an existing (previously learned or hard-coded) oracle policy, offline data, or demonstrations. In the case of using an oracle policy, it can be unclear how best to incorporate the oracle policy's experience into the learning policy in a way that maximizes learning sample efficiency. In this paper, we propose a method termed Critic Confidence Guided Exploration (CCGE) for incorporating such an oracle policy into standard actor-critic reinforcement learning algorithms. More specifically, CCGE takes in the oracle policy's actions as suggestions and incorporates this information into the learning scheme when uncertainty is high, while ignoring it when the uncertainty is low. CCGE is agnostic to methods of estimating uncertainty, and we show that it is equally effective with two different techniques. Empirically, we evaluate the effect of CCGE on various benchmark reinforcement learning tasks, and show that this idea can lead to improved sample efficiency and final performance. Furthermore, when evaluated on sparse reward environments, CCGE is able to perform competitively against adjacent algorithms that also leverage an oracle policy. Our experiments show that it is possible to utilize uncertainty as a heuristic to guide exploration using an oracle in reinforcement learning. We expect that this will inspire more research in this direction, where various heuristics are used to determine the direction of guidance provided to learning.
翻訳日:2023-06-03 01:41:50 公開日:2023-06-01
# 量子化学への応用のための変分量子アルゴリズムにおける異なる最適化器のベンチマーク

Benchmarking of Different Optimizers in the Variational Quantum Algorithms for Applications in Quantum Chemistry ( http://arxiv.org/abs/2208.10285v3 )

ライセンス: Link先を確認
Harshdeep Singh, Sabyashachi Mishra, Sonjoy Majumder(参考訳) 古典最適化器は変分量子アルゴリズムの精度と収束を決定する上で重要な役割を果たす。 文献では、それぞれ独自のアーキテクチャを持つ多くのオプティマイザが、異なるアプリケーションに適切に採用されている。 本研究では,量子化学における変動量子アルゴリズムの性能を,現実的な雑音環境下で評価する手法を提案する。 我々は、水素、水素化リチウム、水素化ベリリウム、水、フッ化水素などの単純な分子の量子シミュレーションに基づく臨界解析で最適化器をベンチマークした。 基底状態エネルギー、解離エネルギー、双極子モーメントの誤差は、ヤードスティックとして使われるパラメータである。 すべてのシミュレーションは理想的な量子回路シミュレータ、ノイズ量子回路シミュレータ、およびibm cairo量子デバイスからノイズを埋め込んだノイズシミュレータを用いて行われ、理想的で現実的な量子環境における古典的最適化の性能を理解した。 計算には標準ユニタリ結合クラスター (ucc) ansatz を用い, フッ化水素中では水素分子から10量子ビットまで, 量子ビットの数は2つから10つに変化した。 理想的な量子回路におけるこれらのオプティマイザの性能に基づいて、共役勾配(CG)、限定メモリのブロイデン=フレッチャー=ゴールドファーブ=シャンノ境界(L_BFGS)B、および逐次最小二乗計画(SLSQP)最適化器が最適性能の勾配に基づく最適化器であることが判明した。 線形近似法(cobyla)とパウエル法(powell)による制約付き最適化が最も効率的である。 しかし、ノイズ量子回路では、同時摂動確率近似(spsa)、パウエル(powell)、コビラ(cobyla)が最適である。

Classical optimizers play a crucial role in determining the accuracy and convergence of variational quantum algorithms. In literature, many optimizers, each having its own architecture, have been employed expediently for different applications. In this work, we consider a few popular optimizers and assess their performance in variational quantum algorithms for applications in quantum chemistry in a realistic noisy setting. We benchmark the optimizers with critical analysis based on quantum simulations of simple molecules, such as Hydrogen, Lithium Hydride, Beryllium Hydride, water, and Hydrogen Fluoride. The errors in the ground-state energy, dissociation energy, and dipole moment are the parameters used as yardsticks. All the simulations were carried out with an ideal quantum circuit simulator, a noisy quantum circuit simulator, and a noisy simulator with noise embedded from the IBM Cairo quantum device to understand the performance of the classical optimizers in ideal and realistic quantum environments. We used the standard unitary coupled cluster (UCC) ansatz for simulations, and the number of qubits varied from two, starting from the Hydrogen molecule to ten qubits, in Hydrogen Fluoride. Based on the performance of these optimizers in the ideal quantum circuits, the conjugate gradient (CG), limited-memory Broyden-Fletcher-Goldfarb-Shanno bound (L_BFGS)B), and sequential least squares programming (SLSQP) optimizers are found to be the best-performing gradient-based optimizers. While constrained optimization by linear approximation (COBYLA) and POWELL perform most efficiently among the gradient-free methods. However, in noisy quantum circuit conditions, Simultaneous Perturbation Stochastic Approximation (SPSA), POWELL, and COBYLA are among the best-performing optimizers.
翻訳日:2023-06-03 01:41:23 公開日:2023-06-01
# 楕円体のランダム点への準最適嵌合

Near-optimal fitting of ellipsoids to random points ( http://arxiv.org/abs/2208.09493v4 )

ライセンス: Link先を確認
Aaron Potechin, Paxton Turner, Prayaag Venkat, Alexander S. Wein(参考訳) 独立標準ガウス点 $v_1, \ldots, v_n$ in dimension $d$, for what value of $(n, d)$ は高確率で存在し、同時にすべての点を通過する原点対称楕円体が存在するか? 楕円体をランダムな点に当てはめるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析と関係している。 Saunderson, Parrilo, and Willsky [Proc. of Conference on Decision and Control, pp. 6031-6036, 2013] の強い数値的証拠に基づいて、楕円体嵌合問題は、点数$n$が増加し、鋭い閾値が$n \sim d^2/4$となるにつれて、実現不可能から不可能へと遷移する。 我々はこの予想を、ある$n = \Omega( \, d^2/\mathrm{polylog}(d) \,)$ の適合楕円体を構築し、Ghosh et al の以前の仕事を改善することで対数的因子に分解する。 [コンピュータ科学の基礎シンポジウム, pp. 954-965, 2020]$n = o(d^{3/2})$. 我々の証明は、ある非標準確率行列の便利な分解とグラフ行列の理論によるノイマン展開の注意深い解析を用いて、サンダーソン等最小二乗構成の実現可能性を示す。

Given independent standard Gaussian points $v_1, \ldots, v_n$ in dimension $d$, for what values of $(n, d)$ does there exist with high probability an origin-symmetric ellipsoid that simultaneously passes through all of the points? This basic problem of fitting an ellipsoid to random points has connections to low-rank matrix decompositions, independent component analysis, and principal component analysis. Based on strong numerical evidence, Saunderson, Parrilo, and Willsky [Proc. of Conference on Decision and Control, pp. 6031-6036, 2013] conjecture that the ellipsoid fitting problem transitions from feasible to infeasible as the number of points $n$ increases, with a sharp threshold at $n \sim d^2/4$. We resolve this conjecture up to logarithmic factors by constructing a fitting ellipsoid for some $n = \Omega( \, d^2/\mathrm{polylog}(d) \,)$, improving prior work of Ghosh et al. [Proc. of Symposium on Foundations of Computer Science, pp. 954-965, 2020] that requires $n = o(d^{3/2})$. Our proof demonstrates feasibility of the least squares construction of Saunderson et al. using a convenient decomposition of a certain non-standard random matrix and a careful analysis of its Neumann expansion via the theory of graph matrices.
翻訳日:2023-06-03 01:40:50 公開日:2023-06-01
# 因果的位置スケール騒音モデルの同定可能性と推定について

On the Identifiability and Estimation of Causal Location-Scale Noise Models ( http://arxiv.org/abs/2210.09054v2 )

ライセンス: Link先を確認
Alexander Immer, Christoph Schultheiss, Julia E. Vogt, Bernhard Sch\"olkopf, Peter B\"uhlmann, Alexander Marx(参考訳) 位置スケールまたはヘテロシドスティックノイズモデル(lsnms)のクラスについて検討し、y$ は原因 $x$ の関数として書くことができ、ノイズソースは $x$ から独立して $n$ であり、それは原因よりも正の関数 $g$ でスケールできる。 モデルクラスの一般化にもかかわらず,病的症例では因果方向が特定可能であることを示す。 これらの理論的知見を実証的に検証するために、lsnmの2つの推定器、すなわち(非線形な)特徴マップに基づく推定器と、ニューラルネットワークに基づく推定器を提案する。 どちらも、自然パラメータによってパラメータ化されたガウス型として与えられる$x$の条件分布をモデル化する。 特徴マップが正しく指定された場合、我々の推定器は合同で凹凸であり、因果効果識別タスクの一貫した推定器であることが証明される。 ニューラルネットワークはこれらの保証を継承しないが、任意の複雑性の関数に適合し、ベンチマーク全体で最先端のパフォーマンスに達する。

We study the class of location-scale or heteroscedastic noise models (LSNMs), in which the effect $Y$ can be written as a function of the cause $X$ and a noise source $N$ independent of $X$, which may be scaled by a positive function $g$ over the cause, i.e., $Y = f(X) + g(X)N$. Despite the generality of the model class, we show the causal direction is identifiable up to some pathological cases. To empirically validate these theoretical findings, we propose two estimators for LSNMs: an estimator based on (non-linear) feature maps, and one based on neural networks. Both model the conditional distribution of $Y$ given $X$ as a Gaussian parameterized by its natural parameters. When the feature maps are correctly specified, we prove that our estimator is jointly concave, and a consistent estimator for the cause-effect identification task. Although the the neural network does not inherit those guarantees, it can fit functions of arbitrary complexity, and reaches state-of-the-art performance across benchmarks.
翻訳日:2023-06-03 01:34:00 公開日:2023-06-01
# フレーズ表現検索による名前付きエンティティ認識データセットの自動生成

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations ( http://arxiv.org/abs/2210.07586v4 )

ライセンス: Link先を確認
Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jaewoo Kang(参考訳) 殆どの弱い教師付き名前付きエンティティ認識(ner)モデルは専門家が提供したドメイン固有辞書に依存している。 このアプローチは辞書が存在しない多くのドメインでは実現不可能である。 最近の研究では、句検索モデルがwikipediaから抽出されたエンティティを持つ疑似辞書を構築するのに使われたが、これらの辞書は、レトリバーが珍しいものよりも人気の高いエンティティを検索する可能性が高いため、カバーが限られていることが多い。 本研究では,高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。 具体的には,様々なエンティティに密集した空間を検索することを促す句埋め込み探索と呼ばれる新しい検索手法を用いて,エンティティに富む辞書を作成する。 さらに,エンティティ参照候補とエンティティタイプ間の埋め込み距離に基づく新しい検証プロセスを用いて,高被覆辞書によって生成された弱ラベルの偽陽性ノイズを低減する。 5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。

Most weakly supervised named entity recognition (NER) models rely on domain-specific dictionaries provided by experts. This approach is infeasible in many domains where dictionaries do not exist. While a phrase retrieval model was used to construct pseudo-dictionaries with entities retrieved from Wikipedia automatically in a recent study, these dictionaries often have limited coverage because the retriever is likely to retrieve popular entities rather than rare ones. In this study, we present a novel framework, HighGEN, that generates NER datasets with high-coverage pseudo-dictionaries. Specifically, we create entity-rich dictionaries with a novel search method, called phrase embedding search, which encourages the retriever to search a space densely populated with various entities. In addition, we use a new verification process based on the embedding distance between candidate entity mentions and entity types to reduce the false-positive noise in weak labels generated by high-coverage dictionaries. We demonstrate that HighGEN outperforms the previous best model by an average F1 score of 4.7 across five NER benchmark datasets.
翻訳日:2023-06-03 01:33:23 公開日:2023-06-01
# SQuId: 多くの言語における音声の自然度の測定

SQuId: Measuring Speech Naturalness in Many Languages ( http://arxiv.org/abs/2210.06324v2 )

ライセンス: Link先を確認
Thibault Sellam, Ankur Bapna, Joshua Camp, Diana Mackinnon, Ankur P. Parikh, Jason Riesa(参考訳) テキストから音声への研究の多くは、人的評価に依存しているため、コストがかかり、開発プロセスが遅くなる。 特に多言語アプリケーションでは、採用とポーリングの審査員が数週間かかることがある。 我々は,100万人以上のレーティングで訓練され,65箇所でテストされた多言語自然性予測モデルであるsquid(speech quality identification)を紹介する。 主な洞察は、多くのローカルでの1つのモデルのトレーニングが、単ローカルベースラインを一貫して上回ることである。 本稿では,W2v-BERTとVoiceMOSに基づく競争ベースラインを50.0%上回る性能を示した。 次に, 微調整時のクロスロケール転送の有効性を実証し, その効果をゼロショットロケール, すなわち微調整データがないロケールに強調する。 クロスローカリー転送における音響アーチファクトなどの非言語的効果の役割を,一連の分析を通じて強調する。 最後に,いくつかのアブレーション実験を用いて,モデルサイズ,事前学習の多様性,言語リバランスなど,設計決定の効果について述べる。

Much of text-to-speech research relies on human evaluation, which incurs heavy costs and slows down the development process. The problem is particularly acute in heavily multilingual applications, where recruiting and polling judges can take weeks. We introduce SQuId (Speech Quality Identification), a multilingual naturalness prediction model trained on over a million ratings and tested in 65 locales-the largest effort of this type to date. The main insight is that training one model on many locales consistently outperforms mono-locale baselines. We present our task, the model, and show that it outperforms a competitive baseline based on w2v-BERT and VoiceMOS by 50.0%. We then demonstrate the effectiveness of cross-locale transfer during fine-tuning and highlight its effect on zero-shot locales, i.e., locales for which there is no fine-tuning data. Through a series of analyses, we highlight the role of non-linguistic effects such as sound artifacts in cross-locale transfer. Finally, we present the effect of our design decision, e.g., model size, pre-training diversity, and language rebalancing with several ablation experiments.
翻訳日:2023-06-03 01:33:07 公開日:2023-06-01
# E3Bind:タンパク質-リガンドドッキングのためのエンドツーエンドの等価ネットワーク

E3Bind: An End-to-End Equivariant Network for Protein-Ligand Docking ( http://arxiv.org/abs/2210.06069v2 )

ライセンス: Link先を確認
Yangtian Zhang, Huiyu Cai, Chence Shi, Bozitao Zhong, Jian Tang(参考訳) 特定のタンパク質標的に対するリガンド結合反応のシリコ予測は、薬物発見において決定的だが難しい課題である。 本研究は, ドッキング分子の位置, 配向, 配向の予測を目的とした, ブラインドフレキシブルな自己ドッキングに焦点を当てる。 従来の物理学に基づく手法は通常、不正確なスコアリング機能と高い推論コストに苦しむ。 近年,深層学習技術に基づくデータ駆動手法は,推論時の効率や有望な性能により,関心が高まりつつある。 これらの方法は通常、まずタンパク質とリガンドの間の距離を予測し、その後、予測された距離に基づいて最終的な座標を生成する2段階のアプローチを採用するか、あるいはリガンドのグローバルロート変換を直接予測する。 本稿では,異なる経路を採る。 タンパク質構造予測におけるAlphaFold2の再検討の成功に触発されて,リガンドポーズを反復的に更新するエンドツーエンドの同変ネットワークであるE3Bindを提案する。 E3Bindはドッキングにおける幾何学的制約と結合部位の局所的文脈を慎重に考慮し、タンパク質-リガンド相互作用をモデル化する。 標準ベンチマークデータセットの実験は、従来の、最近提案されたディープラーニング手法と比較して、エンドツーエンドのトレーニング可能なモデルの優れたパフォーマンスを示している。

In silico prediction of the ligand binding pose to a given protein target is a crucial but challenging task in drug discovery. This work focuses on blind flexible selfdocking, where we aim to predict the positions, orientations and conformations of docked molecules. Traditional physics-based methods usually suffer from inaccurate scoring functions and high inference cost. Recently, data-driven methods based on deep learning techniques are attracting growing interest thanks to their efficiency during inference and promising performance. These methods usually either adopt a two-stage approach by first predicting the distances between proteins and ligands and then generating the final coordinates based on the predicted distances, or directly predicting the global roto-translation of ligands. In this paper, we take a different route. Inspired by the resounding success of AlphaFold2 for protein structure prediction, we propose E3Bind, an end-to-end equivariant network that iteratively updates the ligand pose. E3Bind models the protein-ligand interaction through careful consideration of the geometric constraints in docking and the local context of the binding site. Experiments on standard benchmark datasets demonstrate the superior performance of our end-to-end trainable model compared to traditional and recently-proposed deep learning methods.
翻訳日:2023-06-03 01:32:45 公開日:2023-06-01
# 多様性とプライバシ保護のための特徴ベース学習

Feature-based Learning for Diverse and Privacy-Preserving Counterfactual Explanations ( http://arxiv.org/abs/2209.13446v5 )

ライセンス: Link先を確認
Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung(参考訳) 解釈可能な機械学習は、説明可能性の欠如で長年悪名高い複雑なブラックボックスシステムの推論プロセスを理解しようとする。 優れたアプローチの1つは、ユーザーが結果を変更するために何ができるかを示唆する反事実的な説明を通じてである。 偽の例がブラックボックス分類器の当初の予測に逆らわなければならないだけでなく、実用上の様々な制約を満たすべきである。 多様性は、議論の少ない重要な制約の1つです。 多様な反事実は理想的であるが、他の制約に同時に対処することは計算的に困難である。 さらに、リリースされた偽データに対するプライバシーの懸念が高まっている。 そこで本研究では,非現実的制約を効果的に処理し,プライベートな説明モデルのプールに寄与する機能ベースの学習フレームワークを提案する。 本手法の柔軟性と有効性を実証し,その有効性を検証した。 我々のカウンターファクトエンジンは同じキャパシティのエンジンよりも効率的であり、低い再識別リスクをもたらす。

Interpretable machine learning seeks to understand the reasoning process of complex black-box systems that are long notorious for lack of explainability. One flourishing approach is through counterfactual explanations, which provide suggestions on what a user can do to alter an outcome. Not only must a counterfactual example counter the original prediction from the black-box classifier but it should also satisfy various constraints for practical applications. Diversity is one of the critical constraints that however remains less discussed. While diverse counterfactuals are ideal, it is computationally challenging to simultaneously address some other constraints. Furthermore, there is a growing privacy concern over the released counterfactual data. To this end, we propose a feature-based learning framework that effectively handles the counterfactual constraints and contributes itself to the limited pool of private explanation models. We demonstrate the flexibility and effectiveness of our method in generating diverse counterfactuals of actionability and plausibility. Our counterfactual engine is more efficient than counterparts of the same capacity while yielding the lowest re-identification risks.
翻訳日:2023-06-03 01:32:08 公開日:2023-06-01
# テキストから画像へのモデルのベストプロンプトとその検索方法

Best Prompts for Text-to-Image Models and How to Find Them ( http://arxiv.org/abs/2209.11711v3 )

ライセンス: Link先を確認
Nikita Pavlichenko and Dmitry Ustalov(参考訳) 生成モデル、特にテキスト誘導拡散モデルにおける最近の進歩は、プロのヒトアーティストの作品に類似した美的なイメージの制作を可能にしている。 しかし、プロンプトと呼ばれるテキスト記述を慎重に作成し、明確なキーワードのセットで拡張する必要がある。 審美学は計算的評価が難しいため、最適な迅速な定式化とキーワードの組み合わせを決定するには人間のフィードバックが必要である。 本稿では,遺伝的アルゴリズムを用いて,命令キーワードの最も有用な組み合わせを学習するための,ループ内の人間的アプローチを提案する。 また,このようなアプローチが,同一の描写を表現した画像の美的魅力をいかに改善するかを示す。

Recent progress in generative models, especially in text-guided diffusion models, has enabled the production of aesthetically-pleasing imagery resembling the works of professional human artists. However, one has to carefully compose the textual description, called the prompt, and augment it with a set of clarifying keywords. Since aesthetics are challenging to evaluate computationally, human feedback is needed to determine the optimal prompt formulation and keyword combination. In this paper, we present a human-in-the-loop approach to learning the most useful combination of prompt keywords using a genetic algorithm. We also show how such an approach can improve the aesthetic appeal of images depicting the same descriptions.
翻訳日:2023-06-03 01:31:53 公開日:2023-06-01
# 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック

Iterative autoregression: a novel trick to improve your low-latency speech enhancement model ( http://arxiv.org/abs/2211.01751v2 )

ライセンス: Link先を確認
Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov(参考訳) ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。 ストリーミングレシエーションは、将来の情報の小さなコンテキストのみを使用するように、音声強調モデルを制約する。 その結果、低レイテンシのストリーミング設定は一般的に困難なタスクと考えられ、モデルの品質に重大な悪影響を及ぼす。 しかし、ストリーミング生成のシーケンシャルな性質は、従来の予測を利用して現在の予測を行うという、自己回帰の自然な可能性を提供する。 従来の自己回帰モデルの訓練方法は、教師の強制であるが、その主な欠点は、品質の大幅な劣化につながる訓練-推論ミスマッチにある。 本研究では,自己回帰型低遅延音声強調モデルの訓練において,単純かつ効果的な代替手法を提案する。 提案手法が多様なアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを実証する。

Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information. As a result, the low-latency streaming setup is generally considered a challenging task and has a significant negative impact on the model's quality. However, the sequential nature of streaming generation offers a natural possibility for autoregression, that is, utilizing previous predictions while making current ones. The conventional method for training autoregressive models is teacher forcing, but its primary drawback lies in the training-inference mismatch that can lead to a substantial degradation in quality. In this study, we propose a straightforward yet effective alternative technique for training autoregressive low-latency speech enhancement models. We demonstrate that the proposed approach leads to stable improvement across diverse architectures and training scenarios.
翻訳日:2023-06-03 01:24:13 公開日:2023-06-01
# ネストフーリエニューラルネットワークを用いたリアルタイム高分解能co$_2$地層貯留予測

Real-time high-resolution CO$_2$ geological storage prediction using nested Fourier neural operators ( http://arxiv.org/abs/2210.17051v2 )

ライセンス: Link先を確認
Gege Wen, Zongyi Li, Qirui Long, Kamyar Azizzadenesheli, Anima Anandkumar, Sally M. Benson(参考訳) 炭素捕獲貯蔵(CCS)は、地球規模の脱炭酸に不可欠な役割を担っている。 CCS展開のスケールアップには, 貯水池圧力上昇とガス配管マイグレーションの高精度かつ高精度なモデリングが必要である。 しかし、既存の数値計算手法の計算コストが高いため、そのようなモデリングは非常に困難である。 この課題はストレージの機会を評価する上で大きな不確実性をもたらし、大規模なCCSデプロイメントのペースを遅らせる可能性がある。 我々は,高分解能な3D CO2ストレージモデリングのための機械学習フレームワークであるNested Fourier Neural Operator (FNO)を,盆地スケールで導入した。 Nested FNOは、FNOの階層構造を用いて異なる洗練レベルで予測を生成し、既存の手法と比較して70,000倍近いフロー予測を高速化する。 偏微分方程式の族に対する解演算子を学習することにより、ネステッドFNOは多様な貯留条件、地質的不均一性、注入スキームを持つCO2貯蔵の汎用的な数値シミュレータを作成する。 我々のフレームワークは,グローバルCCS展開のスケールアップを支援する,前例のないリアルタイムモデリングと確率的シミュレーションを実現する。

Carbon capture and storage (CCS) plays an essential role in global decarbonization. Scaling up CCS deployment requires accurate and high-resolution modeling of the storage reservoir pressure buildup and the gaseous plume migration. However, such modeling is very challenging at scale due to the high computational costs of existing numerical methods. This challenge leads to significant uncertainties in evaluating storage opportunities, which can delay the pace of large-scale CCS deployment. We introduce Nested Fourier Neural Operator (FNO), a machine-learning framework for high-resolution dynamic 3D CO2 storage modeling at a basin scale. Nested FNO produces forecasts at different refinement levels using a hierarchy of FNOs and speeds up flow prediction nearly 700,000 times compared to existing methods. By learning the solution operator for the family of governing partial differential equations, Nested FNO creates a general-purpose numerical simulator alternative for CO2 storage with diverse reservoir conditions, geological heterogeneity, and injection schemes. Our framework enables unprecedented real-time modeling and probabilistic simulations that can support the scale-up of global CCS deployment.
翻訳日:2023-06-03 01:23:20 公開日:2023-06-01
# GPA-Net:マルチタスクグラフ畳み込みネットワークによる非参照点クラウド品質評価

GPA-Net:No-Reference Point Cloud Quality Assessment with Multi-task Graph Convolutional Network ( http://arxiv.org/abs/2210.16478v3 )

ライセンス: Link先を確認
Ziyu Shan, Qi Yang, Rui Ye, Yujie Zhang, Yiling Xu, Xiaozhong Xu and Shan Liu(参考訳) 3Dビジョンの急速な発展に伴い、ポイントクラウドはますます人気のある3Dビジュアルメディアコンテンツになりつつある。 不規則な構造のため、ポイントクラウドは、圧縮、伝達、レンダリング、品質評価など、関連する研究に新たな課題をもたらした。 これらの最新の研究で、ポイントクラウドの品質評価(PCQA)は、特に参照ポイントクラウドが利用できない場合において、実用的なアプリケーションを導く上で重要な役割を担っているため、広く注目を集めている。 しかし、一般的なディープニューラルネットワークに基づく現在の非参照メトリクスには明らかな欠点がある。 例えば、点雲の不規則構造に適応するためには、余分な歪みをもたらすボキセル化やプロジェクションのような前処理が必要であり、Convolutional Neural Networksのような応用グリッドカーネルネットワークは、効果的な歪み関連の特徴を抽出できない。 さらに、彼らは様々な歪みパターンや、PCQAがシフト、スケーリング、回転不変性を示すべきという哲学を考えることはめったにない。 本稿では,グラフ畳み込みPCQAネットワーク (GPA-Net) と呼ばれる新しい非参照PCQAメトリックを提案する。 PCQAに有効な特徴を抽出するために,構造とテクスチャの摂動を注意深く捉えた新しいグラフ畳み込みカーネル,すなわちGPAConvを提案する。 次に,1つのメインタスク(品質回帰)と2つの補助タスク(歪タイプと次数予測)からなるマルチタスクフレームワークを提案する。 最後に,GPAConvの結果をシフト,スケール,回転変換で安定化させる座標正規化モジュールを提案する。 2つの独立したデータベースの実験結果から、GPA-Netは最先端の非参照PCQAメトリクスと比較して最高のパフォーマンスを達成している。

With the rapid development of 3D vision, point cloud has become an increasingly popular 3D visual media content. Due to the irregular structure, point cloud has posed novel challenges to the related research, such as compression, transmission, rendering and quality assessment. In these latest researches, point cloud quality assessment (PCQA) has attracted wide attention due to its significant role in guiding practical applications, especially in many cases where the reference point cloud is unavailable. However, current no-reference metrics which based on prevalent deep neural network have apparent disadvantages. For example, to adapt to the irregular structure of point cloud, they require preprocessing such as voxelization and projection that introduce extra distortions, and the applied grid-kernel networks, such as Convolutional Neural Networks, fail to extract effective distortion-related features. Besides, they rarely consider the various distortion patterns and the philosophy that PCQA should exhibit shifting, scaling, and rotational invariance. In this paper, we propose a novel no-reference PCQA metric named the Graph convolutional PCQA network (GPA-Net). To extract effective features for PCQA, we propose a new graph convolution kernel, i.e., GPAConv, which attentively captures the perturbation of structure and texture. Then, we propose the multi-task framework consisting of one main task (quality regression) and two auxiliary tasks (distortion type and degree predictions). Finally, we propose a coordinate normalization module to stabilize the results of GPAConv under shift, scale and rotation transformations. Experimental results on two independent databases show that GPA-Net achieves the best performance compared to the state-of-the-art no-reference PCQA metrics, even better than some full-reference metrics in some cases.
翻訳日:2023-06-03 01:23:01 公開日:2023-06-01
# 算術サンプリング:大規模言語モデルのための並列ディバースデコーディング

Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models ( http://arxiv.org/abs/2210.15458v2 )

ライセンス: Link先を確認
Luke Vilnis, Yury Zemlyanskiy, Patrick Murray, Alexandre Passos, Sumit Sanghai(参考訳) 大規模言語モデルの復号法は、しばしば出力の多様性と計算の並列性の間でトレードオフがある。 ビームサーチやガンベルトップkサンプリングのような手法はビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。 あるいは、温度サンプリングとその修正方法(トップkサンプリング、核サンプリング、典型的な復号化など)は恥ずかしく並列であるが、重複サンプルについては保証がない。 本稿では,大言語モデルによって暗黙的に定義された算術コードブックに従ってサンプリングを行うためのフレームワークを提案する。 本稿では, wmt機械翻訳における提案手法の有効性を実証し, 期待bleuスコアの報酬を推定する際の標準偏差を半減し, 独立サンプリングとビーム探索の間のbleuスコアギャップを最大63%削減した。

Decoding methods for large language models often trade-off between diversity of outputs and parallelism of computation. Methods such as beam search and Gumbel top-k sampling can guarantee a different output for each element of the beam, but are not easy to parallelize. Alternatively, methods such as temperature sampling and its modifications (top-k sampling, nucleus sampling, typical decoding, and others), are embarrassingly parallel, but have no guarantees about duplicate samples. We present a framework for sampling according to an arithmetic code book implicitly defined by a large language model, compatible with common sampling variations, with provable beam diversity under certain conditions, as well as being embarrassingly parallel and providing unbiased and consistent expectations from the original model. We demonstrate the effectiveness of our approach on WMT machine translation, more than halving the standard deviation when estimating expected BLEU score reward, and closing the BLEU score gap between independent sampling and beam search by up to 63%.
翻訳日:2023-06-03 01:22:30 公開日:2023-06-01
# midpoint mixupによるマルチビューデータの多様な特徴の学習

Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup ( http://arxiv.org/abs/2210.13512v3 )

ライセンス: Link先を確認
Muthu Chidambaram, Xiang Wang, Chenwei Wu, Rong Ge(参考訳) Mixupはデータポイントとラベルのランダムな凸組み合わせを使用したトレーニングに依存するデータ拡張技術である。 近年、ミックスアップは、一般化とロバスト性に関して経験的リスク最小化よりもメリットがあるため、最先端の画像分類モデルのトレーニングで使用される標準的なプリミティブとなっている。 本研究では、機能学習の観点から、この成功のいくつかを説明しようとしている。 我々は,各クラスがクラスを正確に予測できる複数の関連する特徴(あるいはビュー)を持つ可能性のある分類問題に注目する。 実験的リスク最小化を用いた2層畳み込みネットワークの学習は, クラス毎に2つの特徴を持つ非自明なデータ分布のクラスでは, ほぼすべてのクラスで1つの特徴しか学習できない一方で, Mixup の特定のインスタンス化による学習は各クラスで2つの特徴の学習に成功していることを示す。 また、これらの理論的洞察が、複数の特徴を持つように修正された画像ベンチマークの実践的な設定にまで拡張されることを実証的に示す。

Mixup is a data augmentation technique that relies on training using random convex combinations of data points and their labels. In recent years, Mixup has become a standard primitive used in the training of state-of-the-art image classification models due to its demonstrated benefits over empirical risk minimization with regards to generalization and robustness. In this work, we try to explain some of this success from a feature learning perspective. We focus our attention on classification problems in which each class may have multiple associated features (or views) that can be used to predict the class correctly. Our main theoretical results demonstrate that, for a non-trivial class of data distributions with two features per class, training a 2-layer convolutional network using empirical risk minimization can lead to learning only one feature for almost all classes while training with a specific instantiation of Mixup succeeds in learning both features for every class. We also show empirically that these theoretical insights extend to the practical settings of image benchmarks modified to have multiple features.
翻訳日:2023-06-03 01:22:12 公開日:2023-06-01
# カナリア・イン・ア・カルミン : 対立的クエリを組み込んだより良いメンバーシップ推論

Canary in a Coalmine: Better Membership Inference with Ensembled Adversarial Queries ( http://arxiv.org/abs/2210.10750v2 )

ライセンス: Link先を確認
Yuxin Wen, Arpit Bansal, Hamid Kazemi, Eitan Borgnia, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 産業アプリケーションは、機械学習モデルによってますます自動化されているため、個人データ所有と知的財産権の強制は、トレーニングデータを正当な所有者に遡る必要がある。 会員推論アルゴリズムは、統計的手法を用いて、対象サンプルがモデルのトレーニングセットに含まれるかどうかを識別する。 しかし、既存の手法では、変更されていないターゲットサンプルまたは単純なターゲットの加算のみを使用して統計を計算する。 このようなモデルの振る舞いをまばらにサンプリングすると、情報が少なくなり、推論能力が低下する。 本研究では,識別的かつ多様なクエリを直接最適化するために,逆ツールを用いる。 我々の改善は、既存の方法、特にオフラインシナリオや法的な設定において重要な低い偽陽性体制において、かなり正確な会員推測を実現する。 コードはhttps://github.com/yuxinwenrick/canary-in-a-coalmineで入手できる。

As industrial applications are increasingly automated by machine learning models, enforcing personal data ownership and intellectual property rights requires tracing training data back to their rightful owners. Membership inference algorithms approach this problem by using statistical techniques to discern whether a target sample was included in a model's training set. However, existing methods only utilize the unaltered target sample or simple augmentations of the target to compute statistics. Such a sparse sampling of the model's behavior carries little information, leading to poor inference capabilities. In this work, we use adversarial tools to directly optimize for queries that are discriminative and diverse. Our improvements achieve significantly more accurate membership inference than existing methods, especially in offline scenarios and in the low false-positive regime which is critical in legal settings. Code is available at https://github.com/YuxinWenRick/canary-in-a-coalmine.
翻訳日:2023-06-03 01:21:33 公開日:2023-06-01
# Recommendation Denoisingのための効率的なバイレベル最適化

Efficient Bi-Level Optimization for Recommendation Denoising ( http://arxiv.org/abs/2210.10321v2 )

ライセンス: Link先を確認
Zongwei Wang, Min Gao, Wentao Li, Junliang Yu, Linxin Guo, Hongzhi Yin(参考訳) 現実世界のレコメンデーションシステムにおける明示的なユーザーフィードバック(例えば評価)の獲得は、アクティブなユーザー関与の必要性によってしばしば妨げられる。 この問題を緩和するために、ユーザブラウジング中に発生する暗黙のフィードバック(例えばクリック)は、実行可能な代用として利用される。 しかし、暗黙的なフィードバックは高いノイズを持ち、推薦品質を著しく損なう。 様々な重み付けを暗黙のフィードバックに割り当てることでこの問題に対処する多くの手法が提案されているが、(1)これらの方法における重み計算は、前回の反復における重みの影響を考慮せずに、イテレーション非依存であり、(2)重み計算は、しばしば事前の知識に依存している。 この2つの制約を克服するために,二段階最適化問題として推奨をモデル化した。 内的最適化は、推奨のための効果的なモデルと重量決定を導くことを目的としており、それによって事前の知識の必要性を排除している。 外的最適化は内的最適化の勾配を活用し、前回の重みの影響を考慮した方法で重みを調整する。 この二段階最適化問題を効率的に解くために,重み発生器を用いて重みの記憶と1段階の勾配マッチングに基づく損失を回避し,計算時間を著しく短縮する。 3つのベンチマークデータセットによる実験結果から,提案手法は最先端の一般モデルとデノーミングレコメンデーションモデルの両方より優れていることが示された。 コードはhttps://github.com/coderwzw/bodで入手できる。

The acquisition of explicit user feedback (e.g., ratings) in real-world recommender systems is often hindered by the need for active user involvement. To mitigate this issue, implicit feedback (e.g., clicks) generated during user browsing is exploited as a viable substitute. However, implicit feedback possesses a high degree of noise, which significantly undermines recommendation quality. While many methods have been proposed to address this issue by assigning varying weights to implicit feedback, two shortcomings persist: (1) the weight calculation in these methods is iteration-independent, without considering the influence of weights in previous iterations, and (2) the weight calculation often relies on prior knowledge, which may not always be readily available or universally applicable. To overcome these two limitations, we model recommendation denoising as a bi-level optimization problem. The inner optimization aims to derive an effective model for the recommendation, as well as guiding the weight determination, thereby eliminating the need for prior knowledge. The outer optimization leverages gradients of the inner optimization and adjusts the weights in a manner considering the impact of previous weights. To efficiently solve this bi-level optimization problem, we employ a weight generator to avoid the storage of weights and a one-step gradient-matching-based loss to significantly reduce computational time. The experimental results on three benchmark datasets demonstrate that our proposed approach outperforms both state-of-the-art general and denoising recommendation models. The code is available at https://github.com/CoderWZW/BOD.
翻訳日:2023-06-03 01:21:17 公開日:2023-06-01
# ドーナツ核を用いたパターン注目トランス

Pattern Attention Transformer with Doughnut Kernel ( http://arxiv.org/abs/2211.16961v4 )

ライセンス: Link先を確認
WenYuan Sheng(参考訳) 本稿では,新しいドーナツカーネルからなる新しいアーキテクチャであるPattern Attention Transformer(PAT)を提案する。 NLPフィールドのトークンと比較すると、コンピュータビジョンのトランスフォーマーは画像中のピクセルの高解像度処理に問題がある。 ViTでは、画像を正方形のパッチにカットする。 ViTの後継として、Swin Transformerは、モデルの最小単位として「2つの連結Swin Transformerブロック」を発生させる固定境界の存在を減らすための追加ステップを提案する。 パッチ/ウィンドウのアイデアを継承することで、downutカーネルはパッチの設計をさらに強化します。 ラインカットの境界を、センサーと更新という2つのタイプの領域に置き換える。 ドーナツカーネルはまた、正方形を超えてカーネルの形に関する新しいトピックをもたらす。 画像分類の性能を検証するため、PATは通常の八角形ドーナツカーネルのトランスフォーマーブロックを用いて設計されている。 そのアーキテクチャはより軽量で、最小のパターン注意層は各ステージに1つしかない。 同様の計算の複雑さの下で、imagenet 1kの性能は高いスループット(+10%)に達し、スウィントランス(+0.8acc1)を超える。

We present in this paper a new architecture, the Pattern Attention Transformer (PAT), that is composed of the new doughnut kernel. Compared with tokens in the NLP field, Transformer in computer vision has the problem of handling the high resolution of pixels in images. In ViT, an image is cut into square-shaped patches. As the follow-up of ViT, Swin Transformer proposes an additional step of shifting to decrease the existence of fixed boundaries, which also incurs 'two connected Swin Transformer blocks' as the minimum unit of the model. Inheriting the patch/window idea, our doughnut kernel enhances the design of patches further. It replaces the line-cut boundaries with two types of areas: sensor and updating, which is based on the comprehension of self-attention (named QKVA grid). The doughnut kernel also brings a new topic about the shape of kernels beyond square. To verify its performance on image classification, PAT is designed with Transformer blocks of regular octagon shape doughnut kernels. Its architecture is lighter: the minimum pattern attention layer is only one for each stage. Under similar complexity of computation, its performances on ImageNet 1K reach higher throughput (+10%) and surpass Swin Transformer (+0.8 acc1).
翻訳日:2023-06-03 01:14:58 公開日:2023-06-01
# ニューラルHMMを用いた韻律制御型自発性TS

Prosody-controllable spontaneous TTS with neural HMMs ( http://arxiv.org/abs/2211.13533v2 )

ライセンス: Link先を確認
Harm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely(参考訳) 自発音声には多くの感情的・実践的な機能があり、TSのモデル化は興味深い。 しかし, 自発音声における調音, 補聴器, 繰り返し, その他の不一致の存在は, テキストや音響の整合性を, 注意に基づくTTSでは問題となる読み上げ音声よりも小さくする。 本稿では, 自然発話における表現現象の多様性を再現しながら, 小型・不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。 具体的には,自発音声に対して安定な単調アライメントが可能な既存のニューラルhmmベースのttsシステムに発話レベルの韻律制御を追加する。 制御精度を客観的に評価し,韻律制御が合成品質を劣化させないことを示す知覚テストを行う。 複雑な自然発声現象を再現するための韻律制御と生態学的に有効なデータの組み合わせの力を例示するために,2種類のクレーキー音声を合成するシステムの能力を評価する。 オーディオサンプルはhttps://www.speech.kth.se/tts-demos/prosodic-hmm/で入手できる。

Spontaneous speech has many affective and pragmatic functions that are interesting and challenging to model in TTS. However, the presence of reduced articulation, fillers, repetitions, and other disfluencies in spontaneous speech make the text and acoustics less aligned than in read speech, which is problematic for attention-based TTS. We propose a TTS architecture that can rapidly learn to speak from small and irregular datasets, while also reproducing the diversity of expressive phenomena present in spontaneous speech. Specifically, we add utterance-level prosody control to an existing neural HMM-based TTS system which is capable of stable, monotonic alignments for spontaneous speech. We objectively evaluate control accuracy and perform perceptual tests that demonstrate that prosody control does not degrade synthesis quality. To exemplify the power of combining prosody control and ecologically valid data for reproducing intricate spontaneous speech phenomena, we evaluate the system's capability of synthesizing two types of creaky voice. Audio samples are available at https://www.speech.kth.se/tts-demos/prosodic-hmm/
翻訳日:2023-06-03 01:14:15 公開日:2023-06-01
# 連続クラスタリングと機械学習によるシンボル検出のための因子グラフの構造最適化

Structural Optimization of Factor Graphs for Symbol Detection via Continuous Clustering and Machine Learning ( http://arxiv.org/abs/2211.11406v2 )

ライセンス: Link先を確認
Lukas Rapp, Luca Schmid, Andrej Rode, Laurent Schmalen(参考訳) 本稿では,因子グラフの構造をグラフベース推論に最適化する新しい手法を提案する。 例として,線形シンボル間干渉チャネルにおけるシンボル検出について考察する。 因子グラフフレームワークは、低複雑さのシンボル検出器を生成する可能性がある。 しかし、循環係数グラフ上の和積アルゴリズムは最適以下であり、その性能は基礎となるグラフに非常に敏感である。 そこで,機械学習を用いて,基礎となる因子グラフの構造をエンドツーエンドに最適化する。 その目的のために,構造最適化を,既知のチャネルモデルを最適化に組み込んだ低次因子ノードのクラスタリング問題に変換する。 さらに,本手法とニューラル信念伝搬の組合せについて検討し,特定のチャネルに対する後部シンボル検出性能を最大に近いものにした。

We propose a novel method to optimize the structure of factor graphs for graph-based inference. As an example inference task, we consider symbol detection on linear inter-symbol interference channels. The factor graph framework has the potential to yield low-complexity symbol detectors. However, the sum-product algorithm on cyclic factor graphs is suboptimal and its performance is highly sensitive to the underlying graph. Therefore, we optimize the structure of the underlying factor graphs in an end-to-end manner using machine learning. For that purpose, we transform the structural optimization into a clustering problem of low-degree factor nodes that incorporates the known channel model into the optimization. Furthermore, we study the combination of this approach with neural belief propagation, yielding near-maximum a posteriori symbol detection performance for specific channels.
翻訳日:2023-06-03 01:13:55 公開日:2023-06-01
# 量子アニーラを用いた特徴選択の利点

An Advantage Using Feature Selection with a Quantum Annealer ( http://arxiv.org/abs/2211.09756v4 )

ライセンス: Link先を確認
Andrew Vlasic, Hunter Grant and Salvatore Certo(参考訳) 特徴選択(英: feature selection)は、対象変数と強い統計接続を持つレコード中の特徴を識別する統計予測モデリングの手法である。 トレーニングにおいて、ターゲット変数に弱い統計的接続を持つ特徴は、データの次元を減少させるだけでなく、アルゴリズムの時間的複雑さを減少させるだけでなく、過度な適合を避けるのに役立つデータ内のノイズも減少させる。 全体として、特徴選択は、良好に動作し安定な堅牢な統計モデルのトレーニングを支援する。 古典的な計算におけるスケーラビリティの欠如を考えると、現在のテクニックは機能の予測能力のみを考慮し、機能自体の冗長性は考慮しない。 量子アニール(QA)を利用した最近の特徴選択の進歩は、冗長性を最小化しながら特徴の予測力を最大化することを目的としたスケーラブルな技術を提供する。 その結果、このアルゴリズムはバイアス/分散トレードオフを補助し、統計モデルのトレーニングにより良い特徴をもたらすことが期待できる。 本稿では,オープンソースのデータセットを用いて,古典的手法に対する直観性を検証し,各訓練された統計モデルでよく知られた予測アルゴリズムの有効性を評価する。 数値結果は,QAを利用したアルゴリズムから選択した特徴を利用した利点を示す。

Feature selection is a technique in statistical prediction modeling that identifies features in a record with a strong statistical connection to the target variable. Excluding features with a weak statistical connection to the target variable in training not only drops the dimension of the data, which decreases the time complexity of the algorithm, it also decreases noise within the data which assists in avoiding overfitting. In all, feature selection assists in training a robust statistical model that performs well and is stable. Given the lack of scalability in classical computation, current techniques only consider the predictive power of the feature and not redundancy between the features themselves. Recent advancements in feature selection that leverages quantum annealing (QA) gives a scalable technique that aims to maximize the predictive power of the features while minimizing redundancy. As a consequence, it is expected that this algorithm would assist in the bias/variance trade-off yielding better features for training a statistical model. This paper tests this intuition against classical methods by utilizing open-source data sets and evaluate the efficacy of each trained statistical model well-known prediction algorithms. The numerical results display an advantage utilizing the features selected from the algorithm that leveraged QA.
翻訳日:2023-06-03 01:13:43 公開日:2023-06-01
# トーリック符号ハミルトニアンの非摂動フロケット工学とその基底状態

Non-perturbative Floquet engineering of the toric-code Hamiltonian and its ground state ( http://arxiv.org/abs/2211.09724v2 )

ライセンス: Link先を確認
Francesco Petiziol, Sandro Wimberger, Andr\'e Eckardt, Florian Mintert(参考訳) 理論的には、時間周期駆動に基づく量子スピン液体のパラダイムモデルであるトーリック符号ハミルトニアンの量子シミュレーションスキームを提案する。 ターゲットハミルトニアンの異なる項の可換性を利用するハイブリッドな連続デジタル戦略を開発した。 非摂動的な方法で必要な4体相互作用を実現し、強い結合と望ましくないプロセスの抑制を実現する。 さらに,高忠実度でトポロジカルに順序付けられた基底状態を作成するための最適プロトコルを設計する。 トポロジカルデバイスの実装とそのトポロジカル位相遷移をシミュレートするための利用についても論じる。 提案手法は超伝導量子ビットとチューナブルカップリングのアーキテクチャにおいて自然に実装されている。

We theoretically propose a quantum simulation scheme for the toric-code Hamiltonian, the paradigmatic model of a quantum spin liquid, based on time-periodic driving. We develop a hybrid continuous-digital strategy that exploits the commutativity of different terms in the target Hamiltonian. It allows one to realize the required four-body interactions in a nonperturbative way, attaining strong coupling and the suppression of undesired processes. In addition, we design an optimal protocol for preparing the topologically ordered ground states with high fidelity. A proof-of-principle implementation of a topological device and its use to simulate the topological phase transition are also discussed. The proposed scheme finds natural implementation in architectures of superconducting qubits with tuneable couplings.
翻訳日:2023-06-03 01:13:22 公開日:2023-06-01
# 条件付きテキスト生成における報酬ゲーム

Reward Gaming in Conditional Text Generation ( http://arxiv.org/abs/2211.08714v3 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Vishakh Padmakumar, Thibault Sellam, Ankur P. Parikh, He He(参考訳) 条件付きテキスト生成モデル出力を所望の動作に合わせるため,人間アノテーションから学習した報酬関数と強化学習(RL)を用いたモデルのトレーニングに注目が集まっている。 この枠組みでは,ノイズ誘発スプリアス相関,自然発生スプリアス相関,共変量シフトという,望ましくないパターンに対して高い報酬が誤って割り当てられる一般的な3つの事例を同定する。 学習した指標が報酬関数のトレーニングに使用されるデータの分布において高いパフォーマンスを達成しても,テキスト生成モデルのrlトレーニング中に望ましくないパターンが増幅される可能性がある。 RLや安全コミュニティでは報酬ゲームが議論されているが、本稿では、具体的な条件付きテキスト生成例を用いて自然言語生成(NLG)コミュニティにおける報酬ゲームを強調し、今後の作業の潜在的な修正や領域について議論したい。

To align conditional text generation model outputs with desired behaviors, there has been an increasing focus on training the model using reinforcement learning (RL) with reward functions learned from human annotations. Under this framework, we identify three common cases where high rewards are incorrectly assigned to undesirable patterns: noise-induced spurious correlation, naturally occurring spurious correlation, and covariate shift. We show that even though learned metrics achieve high performance on the distribution of the data used to train the reward function, the undesirable patterns may be amplified during RL training of the text generation model. While there has been discussion about reward gaming in the RL or safety community, in this discussion piece, we would like to highlight reward gaming in the natural language generation (NLG) community using concrete conditional text generation examples and discuss potential fixes and areas for future work.
翻訳日:2023-06-03 01:13:08 公開日:2023-06-01
# MTメトリクスと同時音声翻訳の人間のレーティングの関係

MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation ( http://arxiv.org/abs/2211.08633v2 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar, Raj Dabre(参考訳) BLEU、chrF2、BertScore、COMETなど、人間の評価とオフライン機械翻訳(MT)評価の相関に関するメタ評価研究がいくつか行われている。 これらの指標は同時音声翻訳(SST)の評価に用いられてきたが、最近CRとして収集されたSSTの人間評価との相関は明らかでない。 本稿では,IWSLT 2022における英独SSTタスクに提案される候補システムの評価を活用し,CRと上記のメトリクスの広範な相関分析を行う。 本研究は、オフラインメトリクスがCRとよく相関しており、テストセットサイズに制限のある同時モードで機械翻訳を評価するために確実に使用できることを示した。 SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができる。 また, 同時解釈よりも, 基準値と翻訳値の相関が有意に高いことを観察し, 信頼性の高い評価のために前者を推薦する。

There have been several meta-evaluation studies on the correlation between human ratings and offline machine translation (MT) evaluation metrics such as BLEU, chrF2, BertScore and COMET. These metrics have been used to evaluate simultaneous speech translation (SST) but their correlations with human ratings of SST, which has been recently collected as Continuous Ratings (CR), are unclear. In this paper, we leverage the evaluations of candidate systems submitted to the English-German SST task at IWSLT 2022 and conduct an extensive correlation analysis of CR and the aforementioned metrics. Our study reveals that the offline metrics are well correlated with CR and can be reliably used for evaluating machine translation in simultaneous mode, with some limitations on the test set size. We conclude that given the current quality levels of SST, these metrics can be used as proxies for CR, alleviating the need for large scale human evaluation. Additionally, we observe that correlations of the metrics with translation as a reference is significantly higher than with simultaneous interpreting, and thus we recommend the former for reliable evaluation.
翻訳日:2023-06-03 01:12:50 公開日:2023-06-01
# メカニスティックモード接続性

Mechanistic Mode Connectivity ( http://arxiv.org/abs/2211.08422v3 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Eric J. Bigelow, Robert P. Dick, David Krueger, Hidenori Tanaka(参考訳) 本研究では,データセット上でのトレーニングによって得られたニューラルネットワークの最小値が,低損失の単純な経路を介して接続される,モード接続のレンズを通してニューラルネットワークロスランドスケープを調査した。 特に、以下の疑問に答える: 損失の少ない単純な経路を通して予測を結び付けるための異なるメカニズムに依存している最小化器は? 入力変換に対する共有不変性としての機械的類似性の定義を提供し、2つのモデル間の線形接続の欠如が、それらの予測に相似メカニズムを使うことを実証する。 実際に、この結果は、ダウンストリームデータセットに内在する微調整が、モデルのメカニズムを変更することに失敗する可能性があること、例えば、微調整は、モデルのスプリアス属性への依存をなくすことを実証するのに役立ちます。 また,本分析は,接続型ファインチューニング(CBFT)と呼ばれるモデル機構のターゲット変更を動機付け,複数の合成データセットを用いてモデルがスプリアス属性に依存する度合いを低減させる手法である。

We study neural network loss landscapes through the lens of mode connectivity, the observation that minimizers of neural networks retrieved via training on a dataset are connected via simple paths of low loss. Specifically, we ask the following question: are minimizers that rely on different mechanisms for making their predictions connected via simple paths of low loss? We provide a definition of mechanistic similarity as shared invariances to input transformations and demonstrate that lack of linear connectivity between two models implies they use dissimilar mechanisms for making their predictions. Relevant to practice, this result helps us demonstrate that naive fine-tuning on a downstream dataset can fail to alter a model's mechanisms, e.g., fine-tuning can fail to eliminate a model's reliance on spurious attributes. Our analysis also motivates a method for targeted alteration of a model's mechanisms, named connectivity-based fine-tuning (CBFT), which we analyze using several synthetic datasets for the task of reducing a model's reliance on spurious attributes.
翻訳日:2023-06-03 01:12:31 公開日:2023-06-01
# 複数の言語を話すことが言語モデルのモラルバイアスに影響を及ぼす

Speaking Multiple Languages Affects the Moral Bias of Language Models ( http://arxiv.org/abs/2211.07733v2 )

ライセンス: Link先を確認
Katharina H\"ammerl, Bj\"orn Deiseroth, Patrick Schramowski, Jind\v{r}ich Libovick\'y, Constantin A. Rothkopf, Alexander Fraser, Kristian Kersting(参考訳) 事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。 しかし、pmlmは各言語のさまざまな量のデータに基づいて訓練される。 実際には、他の多くの言語よりも英語の方がパフォーマンスが優れている。 道徳的規範にもどの程度適用できるかを探求する。 モデルは英語から道徳的規範を捉え、他の言語に強制するか? モデルは特定の言語にランダムで潜在的に有害な信念を示すか? どちらの問題も言語間移動に悪影響を及ぼし、有害な結果をもたらす可能性がある。 本稿では,(1)ドイツ語,チェコ語,アラビア語,中国語,英語の結果を比較して,MoralDirectionフレームワークを多言語モデルに適用し,(2)フィルタリングしたパラレル字幕コーパスのモデル挙動を分析し,(3)Moral Foundations Questionnaireに適用し,異なる国の人的反応と比較する。 実験の結果,pmlmsは異なる道徳バイアスをコード化しているが,必ずしも人間の意見における文化的差異や共通性に対応しているとは限らない。 コードとモデルをリリースします。

Pre-trained multilingual language models (PMLMs) are commonly used when dealing with data from multiple languages and cross-lingual transfer. However, PMLMs are trained on varying amounts of data for each language. In practice this means their performance is often much better on English than many other languages. We explore to what extent this also applies to moral norms. Do the models capture moral norms from English and impose them on other languages? Do the models exhibit random and thus potentially harmful beliefs in certain languages? Both these issues could negatively impact cross-lingual transfer and potentially lead to harmful outcomes. In this paper, we (1) apply the MoralDirection framework to multilingual models, comparing results in German, Czech, Arabic, Chinese, and English, (2) analyse model behaviour on filtered parallel subtitles corpora, and (3) apply the models to a Moral Foundations Questionnaire, comparing with human responses from different countries. Our experiments demonstrate that, indeed, PMLMs encode differing moral biases, but these do not necessarily correspond to cultural differences or commonalities in human opinions. We release our code and models.
翻訳日:2023-06-03 01:12:13 公開日:2023-06-01
# チェーン・オブ・サート・プロンプティングの理解に向けて--何が重要かの実証的研究

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters ( http://arxiv.org/abs/2212.10001v2 )

ライセンス: Link先を確認
Boshi Wang, Sewon Min, Xiang Deng, Jiaming Shen, You Wu, Luke Zettlemoyer, Huan Sun(参考訳) CoT(Chain-of-Thought)は大規模言語モデル(LLM)の多段階推論能力を劇的に改善する。 CoTは、デモにおいて一連の推論ステップを提供することで、問題を解くための中間的論理を生成することを明示的にLLMに促している。 その成功にもかかわらず、cotを効果的に促す要因と、実証された推論ステップのどの側面がそのパフォーマンスに寄与するかについては、いまだに理解されていない。 本稿では,CoTの推理を無効にした場合であっても,CoTの推理が可能であることを示し,その推算において,CoTを用いて得られた性能の80~90%以上を推算しながら,推論中に一貫性のある推理線を生成できることを示す。 さらなる実験により、クエリに関連する他の側面や推論ステップの順序付けが、効果的なcot推論にとってより重要であることが示されている。 全体として、これらの知見はCoTの促進に対する理解を深め、LLMが文脈で推論を学ぶ能力について新たな疑問を提起する。

Chain-of-Thought (CoT) prompting can dramatically improve the multi-step reasoning abilities of large language models (LLMs). CoT explicitly encourages the LLM to generate intermediate rationales for solving a problem, by providing a series of reasoning steps in the demonstrations. Despite its success, there is still little understanding of what makes CoT prompting effective and which aspects of the demonstrated reasoning steps contribute to its performance. In this paper, we show that CoT reasoning is possible even with invalid demonstrations - prompting with invalid reasoning steps can achieve over 80-90% of the performance obtained using CoT under various metrics, while still generating coherent lines of reasoning during inference. Further experiments show that other aspects of the rationales, such as being relevant to the query and correctly ordering the reasoning steps, are much more important for effective CoT reasoning. Overall, these findings both deepen our understanding of CoT prompting, and open up new questions regarding LLMs' capability to learn to reason in context.
翻訳日:2023-06-03 01:04:08 公開日:2023-06-01
# 小さな言語モデルに推論を教える

Teaching Small Language Models to Reason ( http://arxiv.org/abs/2212.08410v3 )

ライセンス: Link先を確認
Lucie Charlotte Magister, Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn(参考訳) 思考の連鎖は、大きな言語モデルの推論能力を改善することに成功し、さまざまなデータセット上で技術結果の状態を達成します。 しかし、これらの推論能力は、1000億以上のパラメータを持つモデルでのみ現れるように見える。 本稿では,1000億以上のパラメータを持つモデルへの知識蒸留による推論能力の移転について検討する。 具体的には,より大きな教師モデルによって生成された思考アウトプットの連鎖に学生モデルを適用した。 提案手法は算術,コモンセンス,シンボリック推論データセット全体のタスク性能を向上させる。 例えば、GSM8K 上の T5 XXL の精度は PaLM-540B で微調整すると 8.11% から 21.99% に向上する。

Chain of thought prompting successfully improves the reasoning capabilities of large language models, achieving state of the art results on a range of datasets. However, these reasoning capabilities only appear to emerge in models with a size of over 100 billion parameters. In this paper, we explore the transfer of such reasoning capabilities to models with less than 100 billion parameters via knowledge distillation. Specifically, we finetune a student model on the chain of thought outputs generated by a larger teacher model. Our experiments show that the proposed method improves task performance across arithmetic, commonsense and symbolic reasoning datasets. For example, the accuracy of T5 XXL on GSM8K improves from 8.11% to 21.99% when finetuned on PaLM-540B generated chains of thought.
翻訳日:2023-06-03 01:03:50 公開日:2023-06-01
# gaussianの個人的推定:効率的、ロバスト、最適

Privately Estimating a Gaussian: Efficient, Robust and Optimal ( http://arxiv.org/abs/2212.08018v2 )

ライセンス: Link先を確認
Daniel Alabi, Pravesh K. Kothari, Pranay Tankala, Prayaag Venkat, Fred Zhang(参考訳) 本研究では,標本複雑性の次元に最適に依存する純粋および近似微分プライバシー(DP)モデルにおいて,ガウス分布をプライベートに推定する効率的なアルゴリズムを提案する。 純粋なDP設定では、未知の$d$次元ガウス分布を$\widetilde{O}(d^2 \log \kappa)$サンプルを用いて任意の小さな総変分誤差まで推定し、対数外乱の一定割合を許容する効率的なアルゴリズムを与える。 ここで、$\kappa$ は対象共分散行列の条件数である。 サンプル境界は、次元(多対数因子まで)への依存において最良の非プライベートな推定値に一致する。 差分的にプライベートな共分散推定における新しい下界を証明し、上記のサンプル境界における条件数$\kappa$への依存も厳密であることを示す。 我々の研究に先立って、この問題は識別可能性(非効率な超多項時間アルゴリズム)の結果のみが知られていた。 近似dp設定では、非未知のガウス分布を任意に小さい総変動誤差まで推定する効率的なアルゴリズムを$\widetilde{o}(d^2)$のサンプルを用いて与え、その逆の外れ値の一定分数を解き放つ。 我々の研究に先立ち、全ての効率的なDPアルゴリズムは超4次サンプルコストを発生させた。 平均推定の特別な場合、我々のアルゴリズムは、$\widetilde O(d)$の最適なサンプル複雑性を達成し、以前の作業から有界な$\widetilde O(d^{1.5})$を改善する。 我々の純粋なDPアルゴリズムは、最近のプライベート平均推定(Hopkins et al., 2022)の成果を利用した再帰的なプライベートプレコンディショニングサブルーチンに依存している。 我々の近似DPアルゴリズムは, [Kothari et al., 2022] で導入された凸緩和を安定化する手法の大幅なアップグレードに基づいている。

In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
翻訳日:2023-06-03 01:03:22 公開日:2023-06-01
# AirfRANS:レイノルズ平均Navier-Stokes溶液の近似のための高忠実度計算流体力学データセット

AirfRANS: High Fidelity Computational Fluid Dynamics Dataset for Approximating Reynolds-Averaged Navier-Stokes Solutions ( http://arxiv.org/abs/2212.07564v3 )

ライセンス: Link先を確認
Florent Bonnet, Ahmed Jocelyn Mazari, Paola Cinnella, Patrick Gallinari(参考訳) サーロゲートモデルは、再帰的な数値解法がしばしば必然的に高価であるため、物理力学において有意義な量を最適化するために必要である。 これは主に流体力学とナビエ・ストークス方程式の分解のケースである。 しかし、物理システムのデータ駆動モデルが急速に成長しているにもかかわらず、実世界の現象を表す参照データセットは不足している。 本研究では,2次元非圧縮性定常状態Reynolds-Averaged Navier-Stokes方程式をサブソニックな状態と異なる攻撃角度で観測するためのデータセットであるAirfRANSを開発した。 また,ジオメトリ表面における応力力の指標と境界層の可視化を導入し,問題の有意義な情報を正確に予測するモデルの能力を評価する。 最後に,4つの機械学習タスクに基づくディープラーニングベースラインを提案し,大小のデータ構造,レイノルズ数,攻撃外挿角度など,さまざまな制約下でAirfRANSを研究する。

Surrogate models are necessary to optimize meaningful quantities in physical dynamics as their recursive numerical resolutions are often prohibitively expensive. It is mainly the case for fluid dynamics and the resolution of Navier-Stokes equations. However, despite the fast-growing field of data-driven models for physical systems, reference datasets representing real-world phenomena are lacking. In this work, we develop AirfRANS, a dataset for studying the two-dimensional incompressible steady-state Reynolds-Averaged Navier-Stokes equations over airfoils at a subsonic regime and for different angles of attacks. We also introduce metrics on the stress forces at the surface of geometries and visualization of boundary layers to assess the capabilities of models to accurately predict the meaningful information of the problem. Finally, we propose deep learning baselines on four machine learning tasks to study AirfRANS under different constraints for generalization considerations: big and scarce data regime, Reynolds number, and angle of attack extrapolation.
翻訳日:2023-06-03 01:02:51 公開日:2023-06-01
# 量子資源理論におけるロバストネス測定の連続性

Continuity of robustness measures in quantum resource theories ( http://arxiv.org/abs/2212.06654v2 )

ライセンス: Link先を確認
Jonathan Schluck, Gl\'aucia Murta, Hermann Kampermann, Dagmar Bru{\ss} and Nikolai Wyderka(参考訳) ロバストネス測度は、絡み合いやコヒーレンスのような量子資源理論のために導入された顕著なリソース量化器である。 これらの測度の一般性にもかかわらず、その有用性は、その数学的性質のいくつかが、特に資源のない状態の集合が凸でないとき、不明確であるという事実によって妨げられている。 本稿では, 異なるロバスト性関数の連続性特性について検討する。 それらの連続性は自由状態の集合の形に依存することを示す。 特に、多くの場合、恒星凸性はロバスト性のリプシッツ連続性に十分であり、非連続測度につながる集合の具体例を提供する。 最後に, テレポータビリティと量子不一致のロバスト性を定義することにより, 結果の適用性を示す。

Robustness measures are increasingly prominent resource quantifiers that have been introduced for quantum resource theories such as entanglement and coherence. Despite the generality of these measures, their usefulness is hindered by the fact that some of their mathematical properties remain unclear, especially when the set of resource-free states is non-convex. In this paper, we investigate continuity properties of different robustness functions. We show that their continuity depends on the shape of the set of free states. In particular, we demonstrate that in many cases, star-convexity is sufficient for Lipschitz-continuity of the robustness, and we provide specific examples of sets leading to non-continuous measures. Finally, we illustrate the applicability of our results by defining a robustness of teleportability and of quantum discord.
翻訳日:2023-06-03 01:02:33 公開日:2023-06-01
# 動的デカップリングにおける連続的問合せによる測定精度の向上

Enhanced measurement precision with continuous interrogation during dynamical decoupling ( http://arxiv.org/abs/2212.04829v2 )

ライセンス: Link先を確認
Jun Zhang, Peng Du, Lei Jing, Peng Xu, Li You, Wenxian Zhang(参考訳) 動的デカップリング(DD)は通常、直流測定では効果がない。 単純な実装では、DDはノイズを抑えながらDC信号も無効にする。 本研究は,多くのDDサイクル上で連続的にDC信号を問うことができる位相リレー法(PRM)を提案する。 原子スピノルBose-Einstein凝縮体を用いた弱い直流磁場の測定に応用した場合の有効性を述べる。 標準量子限界(sql)またはハイゼンベルク極限(hl)に接近する感度は、それぞれ10,000原子のコヒーレントスピン状態(css)またはスクイーズスピン状態(sss)に対して可能であり、周囲実験室レベルのノイズはddによって抑制される。 本研究は,直流計測に対するddの限界を緩和するための実用的なアプローチを提供し,量子センシングや量子情報処理研究におけるコヒーレンスを活用するための他の応用を期待する。

Dynamical decoupling (DD) is normally ineffective when applied to DC measurement. In its straightforward implementation, DD nulls out DC signal as well while suppressing noise. This work proposes a phase relay method (PRM) that is capable of continuously interrogating the DC signal over many DD cycles. We illustrate its efficacy when applied to measurement of a weak DC magnetic field with an atomic spinor Bose-Einstein condensate. Sensitivities approaching standard quantum limit (SQL) or Heisenberg limit (HL) are potentially realizable for a coherent spin state (CSS) or a squeezed spin state (SSS) of 10,000 atoms respectively, while ambient laboratory level noise is suppressed by DD. Our work offers a practical approach to mitigate the limitations of DD to DC measurement and will like find other applications for resorting coherence in quantum sensing and quantum information processing research.
翻訳日:2023-06-03 01:02:19 公開日:2023-06-01
# 時間反転対称性の破れた構造浴における巨大原子の崩壊ダイナミクス

Decay dynamics of a giant atom in a structured bath with broken time-reversal symmetry ( http://arxiv.org/abs/2212.04208v2 )

ライセンス: Link先を確認
Lei Du, Yao-Tong Chen, Yan Zhang, Yong Li, and Jin-Hui Wu(参考訳) 本研究では, 均一な磁束に露出した準1次元のソートゥース格子に結合した2層巨大原子の崩壊ダイナミクスについて検討する。 2つの部分格子が大きなデチューンを持つ場合、巨大原子は、フラックス制御エネルギーバンドと時間反転対称性を持つ単一バンド構造浴槽に効果的に結合される。 この特徴は、放出された光子の伝播と同様に、巨大原子の崩壊ダイナミクスに大きく影響する。 特に、巨大原子はキラルな自発放出を示すことができ、非相互遅延光を許すが、この格子に小さな原子を結合させることで達成できない。 周波数の異なる巨大原子は、異なる方向と異なるグループ速度の光子を放出するように設計することができる。 我々の結果は、量子ネットワークのエンジニアリングと巨大原子干渉効果の操作への道を開いた。

We study in this paper the decay dynamics of a two-level giant atom, which is coupled to a quasi-one-dimensional sawtooth lattice exposed to uniform synthetic magnetic fluxes. In the case where the two sublattices have a large detuning, the giant atom is effectively coupled to a single-band structured bath with flux-controlled energy band and time-reversal symmetry. This feature significantly affects the decay dynamics of the giant atom as well as the propagation of the emitted photon. In particular, the giant atom can exhibit chiral spontaneous emission and allow for nonreciprocal delayed light, which are however unattainable by coupling a small atom to this lattice. Giant atoms with different frequencies can be designed to emit photons towards different directions and with different group velocities. Our results pave the way towards engineering quantum networks and manipulating giant-atom interference effects.
翻訳日:2023-06-03 01:02:02 公開日:2023-06-01
# super-clevr:ビジュアル推論におけるドメインロバストネスを診断する仮想ベンチマーク

Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning ( http://arxiv.org/abs/2212.00259v2 )

ライセンス: Link先を確認
Zhuowan Li, Xingrui Wang, Elias Stengel-Eskin, Adam Kortylewski, Wufei Ma, Benjamin Van Durme, Alan Yuille(参考訳) ビジュアル質問応答(vqa)モデルは、しばしば分散データで性能が悪く、ドメインの一般化に苦しむ。 このタスクのマルチモーダル性のため、変動の複数の要因が絡み合っており、一般化は分析が困難である。 これにより、VQAドメインシフトの異なる要因を分離して、その効果を独立して研究できる仮想ベンチマークであるSuper-CLEVRを導入することができる。 視覚の複雑さ、質問の冗長性、概念分布、概念構成性である。 制御されたデータにより、テストデータが各軸に沿ったトレーニングデータと異なる状況下で、Super-CLEVRはVQAメソッドをテストすることができる。 2つのニューラルシンボリックメソッドNSCLとNSVQAと2つの非シンボリックメソッドFiLMとmDETRを含む4つの既存手法と、不確実な推論でNSVQAを拡張する確率的NSVQA(P-NSVQA)を提案する。 P-NSVQAは4つの領域シフト因子のうち3つで他の手法より優れている。 この結果から,確率的不確実性と相まって,ドメインシフトに対してより堅牢な強いVQAモデルを形成することが示唆された。 データセットとコードはhttps://github.com/lizw14/super-clevrでリリースされる。

Visual Question Answering (VQA) models often perform poorly on out-of-distribution data and struggle on domain generalization. Due to the multi-modal nature of this task, multiple factors of variation are intertwined, making generalization difficult to analyze. This motivates us to introduce a virtual benchmark, Super-CLEVR, where different factors in VQA domain shifts can be isolated in order that their effects can be studied independently. Four factors are considered: visual complexity, question redundancy, concept distribution and concept compositionality. With controllably generated data, Super-CLEVR enables us to test VQA methods in situations where the test data differs from the training data along each of these axes. We study four existing methods, including two neural symbolic methods NSCL and NSVQA, and two non-symbolic methods FiLM and mDETR; and our proposed method, probabilistic NSVQA (P-NSVQA), which extends NSVQA with uncertainty reasoning. P-NSVQA outperforms other methods on three of the four domain shift factors. Our results suggest that disentangling reasoning and perception, combined with probabilistic uncertainty, form a strong VQA model that is more robust to domain shifts. The dataset and code are released at https://github.com/Lizw14/Super-CLEVR.
翻訳日:2023-06-03 01:01:48 公開日:2023-06-01
# 非線形アドバンテージ:学習ネットワークは複雑ではないかもしれない

Nonlinear Advantage: Trained Networks Might Not Be As Complex as You Think ( http://arxiv.org/abs/2211.17180v2 )

ライセンス: Link先を確認
Christian H.X. Ali Mehmeti-G\"opel, Jan Disselhoff(参考訳) 我々は,ネットワーク内の非線形ユニットの総数に先立って,その特徴チャネルの一部を完全に線形化する場合に,ディープネットワークの挙動に関する実証的研究を行う。 画像分類および機械翻訳タスクの実験において,性能低下前の線形性に対するネットワーク機能をどの程度単純化できるかを検討する。 まず, ネットワーク機能の非線形性を早期に低下させる場合, トレーニングの遅れに対して, データ依存NTKの時間進化に関する最近の観測をインラインで行う。 第2に,訓練後,高い性能を維持しながらかなりの数の非線形単位を線形化することができ,ネットワークの表現性の多くは未使用のままであるが,トレーニングの初期段階では勾配降下に寄与することを示す。 得られた部分線形化ネットワークの深さを特徴付けるために,ネットワークグラフの経路に沿って発生するアクティブ非線形の平均数を表す平均経路長という尺度を導入する。 スパルシティ圧力下では、残りの非線形ユニットは異なる構造に組織され、ほぼ一定の有効深さと幅のコアネットワークを形成し、それはタスクの難易度に依存する。

We perform an empirical study of the behaviour of deep networks when fully linearizing some of its feature channels through a sparsity prior on the overall number of nonlinear units in the network. In experiments on image classification and machine translation tasks, we investigate how much we can simplify the network function towards linearity before performance collapses. First, we observe a significant performance gap when reducing nonlinearity in the network function early on as opposed to late in training, in-line with recent observations on the time-evolution of the data-dependent NTK. Second, we find that after training, we are able to linearize a significant number of nonlinear units while maintaining a high performance, indicating that much of a network's expressivity remains unused but helps gradient descent in early stages of training. To characterize the depth of the resulting partially linearized network, we introduce a measure called average path length, representing the average number of active nonlinearities encountered along a path in the network graph. Under sparsity pressure, we find that the remaining nonlinear units organize into distinct structures, forming core-networks of near constant effective depth and width, which in turn depend on task difficulty.
翻訳日:2023-06-03 01:01:24 公開日:2023-06-01
# 地球モニタリングの基礎モデルに向けて:自然災害セグメンテーションのための一般化可能な深層学習モデル

Toward Foundation Models for Earth Monitoring: Generalizable Deep Learning Models for Natural Hazard Segmentation ( http://arxiv.org/abs/2301.09318v3 )

ライセンス: Link先を確認
Johannes Jakubik, Michal Muszynski, Michael V\"ossing, Niklas K\"uhl, Thomas Brunschwiler(参考訳) 気候変動は、社会やビジネスを世界的な規模で危険にさらす極端な気象事象の確率を増加させる。 したがって、自然災害のほぼリアルタイムマッピングは、自然災害の救済、リスク管理、政府の政策決定の伝達を支援するための新たな優先事項である。 リアルタイムに近いマッピングを実現するための最近の手法は、ディープラーニング(DL)を活用している。 しかし、DLベースのアプローチは、衛星データの特定の周波数帯域に基づいて、1つの地理的領域における1つの特定のタスクのために設計されている。 そのため、特定の自然災害をマップするために使われるDLモデルは、目に見えない地域での他の種類の自然災害への一般化に苦しむ。 本研究では,適切なプレタスクによる事前学習に基づいて,DL自然災害マッパーの一般化可能性を大幅に向上させる手法を提案する。 対象領域からのデータにアクセスせずに、4つのU-Netアーキテクチャにまたがる一般化可能性の向上を実証する。 重要な点として,本手法は衛星データの周波数帯域の種類と地理的差に不変である。 公開可能な対象領域からのラベルなし画像の特性を活用することで,より微調整することなく,一般化動作をさらに改善することができる。 そこで本研究では,衛星画像の異なる領域にまたがる未知の自然災害を直接分類することを目的として,地球観測のための基盤モデルの開発を支援する。

Climate change results in an increased probability of extreme weather events that put societies and businesses at risk on a global scale. Therefore, near real-time mapping of natural hazards is an emerging priority for the support of natural disaster relief, risk management, and informing governmental policy decisions. Recent methods to achieve near real-time mapping increasingly leverage deep learning (DL). However, DL-based approaches are designed for one specific task in a single geographic region based on specific frequency bands of satellite data. Therefore, DL models used to map specific natural hazards struggle with their generalization to other types of natural hazards in unseen regions. In this work, we propose a methodology to significantly improve the generalizability of DL natural hazards mappers based on pre-training on a suitable pre-task. Without access to any data from the target domain, we demonstrate this improved generalizability across four U-Net architectures for the segmentation of unseen natural hazards. Importantly, our method is invariant to geographic differences and differences in the type of frequency bands of satellite data. By leveraging characteristics of unlabeled images from the target domain that are publicly available, our approach is able to further improve the generalization behavior without fine-tuning. Thereby, our approach supports the development of foundation models for earth monitoring with the objective of directly segmenting unseen natural hazards across novel geographic regions given different sources of satellite imagery.
翻訳日:2023-06-03 00:55:23 公開日:2023-06-01
# 境界カオス: 厳密な絡み合いダイナミクス

Boundary Chaos: Exact Entanglement Dynamics ( http://arxiv.org/abs/2301.08168v3 )

ライセンス: Link先を確認
Felix Fritzsch, Roopayan Ghosh, Toma\v{z} Prosen(参考訳) 我々は、エルゴードと混合量子多体力学を生成する最小のセットアップにおける絡み合いのダイナミクスを計算する。 これは自由で非相互作用のブリックワーク量子回路から成り、カオスとエルゴディシティは不純物相互作用、すなわち2量子ゲートが系の境界に配置されている。 我々は、初期積状態に対する不純物相互作用を含む連結部分系と、初期局所作用素のいわゆる作用素エンタングルメントエントロピーに関して、従来の二部交絡エントロピーを計算する。 これにより、非常に小さなサブシステムまたは非常に大きなサブシステムに対して、時間とシステムサイズの両方の特定のスケーリング制限の正確な結果を提供する。 不純物相互作用の異なるクラスは、非常に異なる絡み合いダイナミクスをもたらすことを示す。 初期状態のバルクを形成する局所生成状態を保存する不純物ゲートに対して、状態の絡み合いエントロピーは、システムサイズによって設定された周期で持続的なスパイクを示し、エルゴード系の予測線形成長とは対照的に、間の絡み合いを抑制する。 一般不純物に対する作用素絡みの同様のダイナミクスを観察する。 対照的に、部分変換の下でユニタリなT-双対不純物に対しては、状態と作用素の絡み合いエントロピーは、系の幾何学によって許容される最大速度に間に合うように線形に成長する。 あらゆるケースにおける相互作用の集中的な性質は、システムサイズに比例する広範な時間スケールで絡み合いを増大させる。

We compute the dynamics of entanglement in the minimal setup producing ergodic and mixing quantum many-body dynamics, which we previously dubbed {\em boundary chaos}. This consists of a free, non-interacting brickwork quantum circuit, in which chaos and ergodicity is induced by an impurity interaction, i.e., an entangling two-qudit gate, placed at the system's boundary. We compute both the conventional bipartite entanglement entropy with respect to a connected subsystem including the impurity interaction for initial product states as well as the so-called operator entanglement entropy of initial local operators. Thereby we provide exact results in a particular scaling limit of both time and system size going to infinity for either very small or very large subsystems. We show that different classes of impurity interactions lead to very distinct entanglement dynamics. For impurity gates preserving a local product state forming the bulk of the initial state, entanglement entropies of states show persistent spikes with period set by the system size and suppressed entanglement in between, contrary to the expected linear growth in ergodic systems. We observe similar dynamics of operator entanglement for generic impurities. In contrast, for T-dual impurities, which remain unitary under partial transposition, we find entanglement entropies of both states and operators to grow linearly in time with the maximum possible speed allowed by the geometry of the system. The intensive nature of interactions in all cases cause entanglement to grow on extensive time scales proportional to system size.
翻訳日:2023-06-03 00:55:03 公開日:2023-06-01
# 量子重力による多ビット絡み合い

Multiqubit entanglement due to quantum gravity ( http://arxiv.org/abs/2301.05437v2 )

ライセンス: Link先を確認
Shaomin Liu, Lin Chen, Mengfan Liang(参考訳) 質量間の量子重力は、思考実験で絡み合った状態を生み出すことができる。 実験を三部構成に拡張し、確率的局所演算および古典的通信の下で、グリーンベルガー・ホーン・ザイリンガー状態およびW状態に相当する状態を構築する。 絡み合いは重力相互作用によって引き起こされる進化相と関連している。 実験により多くの質量を巻き込むと、同様の方法で多粒子交絡状態を構築することができる。 幾何測度の計算により多成分の絡み合いの程度を測定する。 幾何学的測度と進化相の関係について述べる。 強固な絡み合いで状態を探すのに役立ちます。

Quantum gravity between masses can produce entangled states in thought experiments. We extend the experiments to tripartite case and construct states equivalent to Greenberger- Horne-Zeilinger states and W states under stochastic local operations and classical communication. The entanglement relates to the evolution phases induced by gravitational interaction. When we involve more masses in the experiments, multipartite entangled states can be constructed in a similar way. We measure the degree of multipartite entanglement by calculating the geometric measure. We describe the relationship between geometric measure and the evolution phases. It helps in searching out the states with robust entanglement.
翻訳日:2023-06-03 00:54:37 公開日:2023-06-01
# 高速フーリエ変換を用いた誤り関連表現の学習

Learning Decorrelated Representations Efficiently Using Fast Fourier Transform ( http://arxiv.org/abs/2301.01569v2 )

ライセンス: Link先を確認
Yutaro Shigeto, Masashi Shimbo, Yuya Yoshikawa, Akikazu Takeuchi(参考訳) Barlow Twins と VICReg は、正規化子を使って特徴をデコレーションする自己教師型表現学習モデルである。 これらのモデルは従来の表現学習モデルと同じくらい効果的であるが、投影された埋め込みの次元dが高い場合、その訓練は計算的に要求される。 正規化器は相互相関行列や共分散行列の個々の要素で定義されるので、n 個のサンプルの損失を計算するのに O(n d^2) 時間を要する。 本稿では,高速フーリエ変換によりo(n d log d)時間で計算できる緩和された相関正規化器を提案する。 また,緩和に伴う局所的な極小化を緩和する安価な手法を提案する。 提案する正規化器は下流タスクにおける既存の正規化器に匹敵する精度を示すが,その訓練では少ないメモリを必要とする。 ソースコードは利用可能である。

Barlow Twins and VICReg are self-supervised representation learning models that use regularizers to decorrelate features. Although these models are as effective as conventional representation learning models, their training can be computationally demanding if the dimension d of the projected embeddings is high. As the regularizers are defined in terms of individual elements of a cross-correlation or covariance matrix, computing the loss for n samples takes O(n d^2) time. In this paper, we propose a relaxed decorrelating regularizer that can be computed in O(n d log d) time by Fast Fourier Transform. We also propose an inexpensive technique to mitigate undesirable local minima that develop with the relaxation. The proposed regularizer exhibits accuracy comparable to that of existing regularizers in downstream tasks, whereas their training requires less memory and is faster for large d. The source code is available.
翻訳日:2023-06-03 00:54:01 公開日:2023-06-01
# 転送可能エネルギー貯蔵入札者

Transferable Energy Storage Bidder ( http://arxiv.org/abs/2301.01233v2 )

ライセンス: Link先を確認
Yousuf Baker, Ningkun Zheng, Bolun Xu(参考訳) エネルギー貯蔵資源は、電力市場全体に参加する際に価格の不確実性と物理的な運用特性の両方を考慮する必要がある。 電力価格は不安定であり、エネルギー貯蔵は効率の損失、電力、エネルギーの制約があるため、これは難しい問題である。 本稿では,エネルギー貯蔵のための畳み込み型長期記憶ネットワークとモデルベース最適化を組み合わせることで,電力市場への応答や入札を可能とした,新しい,多用途で転送可能な手法を提案する。 提案手法をニューヨーク州の歴史的価格を用いて検証し, エネルギー貯蔵期間の異なる価格反応とホールセール市場での入札条件の両方において, 完全フォアテアケースと比較して70%から90%の利益率を達成した。 また,ニューヨークのデータを用いて入札モデルを事前学習し,オーストラリアのクイーンズランド州の仲裁に適用することで,転校学習アプローチをテストした。 その結果、トランスファーラーニングは3日間のローカルトレーニングデータで例外的な仲裁収益性を実現し、データの可用性が極めて制限されたシナリオにおいて、スクラッチからのトレーニングよりも大きな優位性を示している。

Energy storage resources must consider both price uncertainties and their physical operating characteristics when participating in wholesale electricity markets. This is a challenging problem as electricity prices are highly volatile, and energy storage has efficiency losses, power, and energy constraints. This paper presents a novel, versatile, and transferable approach combining model-based optimization with a convolutional long short-term memory network for energy storage to respond to or bid into wholesale electricity markets. We test our proposed approach using historical prices from New York State, showing it achieves state-of-the-art results, achieving between 70% to near 90% profit ratio compared to perfect foresight cases, in both price response and wholesale market bidding setting with various energy storage durations. We also test a transfer learning approach by pre-training the bidding model using New York data and applying it to arbitrage in Queensland, Australia. The result shows transfer learning achieves exceptional arbitrage profitability with as little as three days of local training data, demonstrating its significant advantage over training from scratch in scenarios with very limited data availability.
翻訳日:2023-06-03 00:53:44 公開日:2023-06-01
# インコンテキスト学習に関する調査

A Survey on In-context Learning ( http://arxiv.org/abs/2301.00234v3 )

ライセンス: Link先を確認
Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li and Zhifang Sui(参考訳) 大規模言語モデル(LLM)の能力の増大に伴い、インコンテキスト学習(ICL)は自然言語処理(NLP)の新しいパラダイムとなり、LLMはいくつかの例で拡張されたコンテキストに基づいてのみ予測を行う。 ICLを探索してLLMの能力を評価・外挿する新たな傾向がみられた。 本稿では,ICLの進歩と課題を調査し,整理することを目的とする。 まず, iclの形式的定義と関連する研究との関係を明らかにする。 そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。 最後に,ICLの課題について論じ,今後の研究の方向性を示す。 iclの動作と改善について、私たちの研究がさらなる研究を促進することを期待しています。

With the increasing ability of large language models (LLMs), in-context learning (ICL) has become a new paradigm for natural language processing (NLP), where LLMs make predictions only based on contexts augmented with a few examples. It has been a new trend to explore ICL to evaluate and extrapolate the ability of LLMs. In this paper, we aim to survey and summarize the progress and challenges of ICL. We first present a formal definition of ICL and clarify its correlation to related studies. Then, we organize and discuss advanced techniques, including training strategies, demonstration designing strategies, as well as related analysis. Finally, we discuss the challenges of ICL and provide potential directions for further research. We hope that our work can encourage more research on uncovering how ICL works and improving ICL.
翻訳日:2023-06-03 00:52:59 公開日:2023-06-01
# 戸外空間におけるブラインドナビゲーション手法の実装

Implementation of a Blind navigation method in outdoors/indoors areas ( http://arxiv.org/abs/2212.12185v2 )

ライセンス: Link先を確認
Mohammad Javadian Farzaneh, Hossein Mahvash Mohammadi(参考訳) WHO統計によると、視覚障害者の数は毎年増加している。 視覚障害者にとって最も重要な必需品の1つは、安全に移動できる能力である。 本稿では,単眼カメラを用いた視覚スラムとヨロアルゴリズムに基づくナビゲーションシステムを提案する。 提案システムは,障害物距離推定,経路偏差検出,次段階予測の3段階からなる。 提案手法は,ORB-SLAMアルゴリズムを用いて事前に定義された経路から地図を作成し,利用者に経路に留まるように誘導する。 さらに、このシステムはYOLOアルゴリズムを使って経路上の障害物を検出し、ユーザーに警告する。 ラップトップカメラを用いた実験の結果,提案システムは,屋内および屋外において,予め定義された11メートルの経路内でユーザを誘導しながら,毎秒30フレームで動作可能であることがわかった。 位置決めシステムの精度は8cmであり、事前に定義された経路から60cm以上ずれた場合にはユーザーに通知する。

According to WHO statistics, the number of visually impaired people is increasing annually. One of the most critical necessities for visually impaired people is the ability to navigate safely. This paper proposes a navigation system based on the visual slam and Yolo algorithm using monocular cameras. The proposed system consists of three steps: obstacle distance estimation, path deviation detection, and next-step prediction. Using the ORB-SLAM algorithm, the proposed method creates a map from a predefined route and guides the users to stay on the route while notifying them if they deviate from it. Additionally, the system utilizes the YOLO algorithm to detect obstacles along the route and alert the user. The experimental results, obtained by using a laptop camera, show that the proposed system can run in 30 frame per second while guiding the user within predefined routes of 11 meters in indoors and outdoors. The accuracy of the positioning system is 8cm, and the system notifies the users if they deviate from the predefined route by more than 60 cm.
翻訳日:2023-06-03 00:52:46 公開日:2023-06-01
# DISCO: 大規模言語モデルによるファラカル・カウンティファクトの蒸留

DISCO: Distilling Phrasal Counterfactuals with Large Language Models ( http://arxiv.org/abs/2212.10534v2 )

ライセンス: Link先を確認
Zeming Chen and Qiyue Gao and Antoine Bosselut and Ashish Sabharwal and Kyle Richardson(参考訳) 反証的に拡張されたデータでトレーニングされたモデルは、タスクの因果構造の表現を学習し、堅牢な一般化を可能にする。 しかし、高品質な偽データはほとんどのタスクで不足しており、大規模に生成するのは容易ではない。 クラウドソースされた場合、そのようなデータは一般的に規模や多様性に制限されるが、教師付き手法で生成された場合、新しいカウンターファクト次元に拡張する計算コストがかかる。 そこで本研究では,高品質な偽データの自動生成手法であるdisco (distilled counterfactual data) を提案する。 DISCOエンジニアは、大きな汎用言語モデルでフレーズ摂動を生成するよう促す。 そして、タスク固有の教師モデルがこれらの世代をフィルタリングし、高品質なカウンターファクトデータを蒸留する。 タスク非依存では、パイプラインを自然言語推論(NLI)タスクに適用し、NLIストレステスト(NLI stress test)のような挑戦的な評価において、disCO生成した偽物によりトレーニングされた比較的小さな学生モデルの方がより堅牢(6%絶対)であり、データ強化なしでトレーニングされたモデルと比較して分散(2%)を一般化する。 さらに、ディスコ拡張モデルは、3つの評価セットで反事実ペア間で10%一貫性があり、ディスコ拡張によりモデルがより確実に因果表現を学習できることを示している。 私たちのリポジトリは、https://github.com/eric11eca/discoで利用可能です。

Models trained with counterfactually augmented data learn representations of the causal structure of tasks, enabling robust generalization. However, high-quality counterfactual data is scarce for most tasks and not easily generated at scale. When crowdsourced, such data is typically limited in scale and diversity; when generated using supervised methods, it is computationally expensive to extend to new counterfactual dimensions. In this work, we introduce DISCO (DIStilled COunterfactual Data), a new method for automatically generating high quality counterfactual data at scale. DISCO engineers prompts to generate phrasal perturbations with a large general language model. Then, a task-specific teacher model filters these generations to distill high-quality counterfactual data. While task-agnostic, we apply our pipeline to the task of natural language inference (NLI) and find that on challenging evaluations such as the NLI stress test, comparatively smaller student models trained with DISCO generated counterfactuals are more robust (6% absolute) and generalize better across distributions (2%) compared to models trained without data augmentation. Furthermore, DISCO augmented models are 10% more consistent between counterfactual pairs on three evaluation sets, demonstrating that DISCO augmentation enables models to more reliably learn causal representations. Our repository is available at: https://github.com/eric11eca/disco
翻訳日:2023-06-03 00:52:30 公開日:2023-06-01
# ニューラルエージェントにおける言語普遍性の創発を駆動するコミュニケーション:単語順/ケースマーキングトレードオフからの証拠

Communication Drives the Emergence of Language Universals in Neural Agents: Evidence from the Word-order/Case-marking Trade-off ( http://arxiv.org/abs/2301.13083v2 )

ライセンス: Link先を確認
Yuchen Lian, Arianna Bisazza, Tessa Verhoef(参考訳) 人工学習者は、神経エージェントに基づく言語の発生と変化のシミュレーションの文脈で、人間の学習者と異なる振る舞いをすることが多い。 一般的な説明は、学習者に適切な認知バイアスがないことである。 しかし、言語学習と使用のより自然主義的な設定が、より人間的な結果をもたらすことも提案されている。 本稿では,この単語順/ケースマーキングのトレードオフに着目し,特にシミュレーションが困難であることが証明された,広く証明された言語普遍性について考察する。 本稿では,会話エージェントと聞き取りエージェントのペアが教師付き学習を通じてまずミニチュア言語を学習し,強化学習によるコミュニケーションに最適化する,ニューラルエージェント型言語学習・コミュニケーションフレームワーク(nellcom)を提案する。 初期の人間実験のセットアップに追随して、エージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークとのトレードオフを複製することに成功した。 これは、ニューラル学習者による言語普遍性の調査に不可欠なステップだと考えています。

Artificial learners often behave differently from human learners in the context of neural agent-based simulations of language emergence and change. A common explanation is the lack of appropriate cognitive biases in these learners. However, it has also been proposed that more naturalistic settings of language learning and use could lead to more human-like results. We investigate this latter account focusing on the word-order/case-marking trade-off, a widely attested language universal that has proven particularly hard to simulate. We propose a new Neural-agent Language Learning and Communication framework (NeLLCom) where pairs of speaking and listening agents first learn a miniature language via supervised learning, and then optimize it for communication via reinforcement learning. Following closely the setup of earlier human experiments, we succeed in replicating the trade-off with the new framework without hard-coding specific biases in the agents. We see this as an essential step towards the investigation of language universals with neural learners.
翻訳日:2023-06-03 00:44:35 公開日:2023-06-01
# 基準点を用いた参照型進化的多目的最適化のための品質指標:レビューと分析

Quality Indicators for Preference-based Evolutionary Multi-objective Optimization Using a Reference Point: A Review and Analysis ( http://arxiv.org/abs/2301.12148v2 )

ライセンス: Link先を確認
Ryoji Tanabe and Ke Li(参考訳) 参照点を用いた選好に基づく進化的多目的最適化アルゴリズムのための品質指標がいくつか提案されている。 品質指標の体系的なレビューと分析は、ベンチマークと実用的な意思決定の両方に役立つが、どちらも実施されていない。 本稿では,まず,既存の関心領域と基準点を用いた嗜好に基づく進化的多目的最適化のための品質指標について概説する。 各品質指標は異なる関心領域のために設計されていると指摘する。 そこで本研究では,品質指標の特性について検討する。 目的空間における解から基準点までの距離は,達成度スカラー化関数値が必ずしも一致しないことを示す。 我々は、基準点の位置とパレート前面の形状によって、興味のある領域が著しく異なることを観察する。 いくつかの品質指標の望ましくない性質を識別する。 また,選好に基づく進化的多目的最適化アルゴリズムのランキングは品質指標の選択に依存することを示した。

Some quality indicators have been proposed for benchmarking preference-based evolutionary multi-objective optimization algorithms using a reference point. Although a systematic review and analysis of the quality indicators are helpful for both benchmarking and practical decision-making, neither has been conducted. In this context, first, this paper reviews existing regions of interest and quality indicators for preference-based evolutionary multi-objective optimization using the reference point. We point out that each quality indicator was designed for a different region of interest. Then, this paper investigates the properties of the quality indicators. We demonstrate that an achievement scalarizing function value is not always consistent with the distance from a solution to the reference point in the objective space. We observe that the regions of interest can be significantly different depending on the position of the reference point and the shape of the Pareto front. We identify undesirable properties of some quality indicators. We also show that the ranking of preference-based evolutionary multi-objective optimization algorithms depends on the choice of quality indicators.
翻訳日:2023-06-03 00:43:57 公開日:2023-06-01
# 真空揺らぎによる電子の運動

Motion of an electron through vacuum fluctuations ( http://arxiv.org/abs/2301.11946v2 )

ライセンス: Link先を確認
Anirudh Gundhi and Angelo Bassi(参考訳) 非相対論的電子の動きに対する電磁真空の効果について検討する。 まず、電子の位置演算子の期待値に対する運動方程式を導出する。 この方程式が古典的アブラハム・ローレンツ方程式とどのように同じ形式を持つかを示すが、同時に、よく知られた暴走解を含まない。 次に真空揺らぎによるデコヒーレンスについて検討する。 本研究では,電子の密度行列の低下レベルに現れる真空ゆらぎによるデコヒーレンスは,放射場を追跡して得られるが,実際の非可逆的なコヒーレンス損失とは一致しないことを示す。

We study the effects of the electromagnetic vacuum on the motion of a nonrelativistic electron. First, we derive the equation of motion for the expectation value of the electron's position operator. We show how this equation has the same form as the classical Abraham-Lorentz equation but, at the same time, is free of the well known runaway solution. Second, we study decoherence induced by vacuum fluctuations. We show that decoherence due to vacuum fluctuations that appears at the level of the reduced density matrix of the electron, obtained after tracing over the radiation field, does not correspond to actual irreversible loss of coherence.
翻訳日:2023-06-03 00:43:18 公開日:2023-06-01
# D$^2$CSG: 2次補足とドロップアウトを持つ小型CSG木の教師なし学習

D$^2$CSG: Unsupervised Learning of Compact CSG Trees with Dual Complements and Dropouts ( http://arxiv.org/abs/2301.11497v2 )

ライセンス: Link先を確認
Fenggen Yu, Qimin Chen, Maham Tanveer, Ali Mahdavi Amiri, Hao Zhang(参考訳) 3次元cad形状のコンパクトな構成的立体幾何学(csg)表現の教師なし学習のために,2つのネットワーク分岐とドロップアウトからなるニューラルモデルであるd$^2$csgを提案する。 ネットワークは2次プリミティブの固定階組立により3次元形状を再構築し、両枝が原始交叉や逆の結合を生成する。 D$^2$CSGと以前の全てのニューラルCSGモデルの主な違いは、カバーブランチによってモデル化された全体形状から引かれる、潜在的に複雑な形状補体を組み立てる専用の残留枝である。 形状補間により,本ネットワークは確実に一般化され,余剰プリミティブを除去することによりCSGツリーのコンパクト性はさらに向上する。 我々は、D$^2$CSGが既存のすべての代替品、特に複雑なCAD形状よりも優れた品質とより自然なプリミティブを持つコンパクトCSG再構成を生成することを定量的かつ定性的に示す。

We present D$^2$CSG, a neural model composed of two dual and complementary network branches, with dropouts, for unsupervised learning of compact constructive solid geometry (CSG) representations of 3D CAD shapes. Our network is trained to reconstruct a 3D shape by a fixed-order assembly of quadric primitives, with both branches producing a union of primitive intersections or inverses. A key difference between D$^2$CSG and all prior neural CSG models is its dedicated residual branch to assemble the potentially complex shape complement, which is subtracted from an overall shape modeled by the cover branch. With the shape complements, our network is provably general, while the weight dropout further improves compactness of the CSG tree by removing redundant primitives. We demonstrate both quantitatively and qualitatively that D$^2$CSG produces compact CSG reconstructions with superior quality and more natural primitives than all existing alternatives, especially over complex and high-genus CAD shapes.
翻訳日:2023-06-03 00:43:07 公開日:2023-06-01
# Pairwise と $K$-wise の比較による人間のフィードバックによる原則強化学習

Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons ( http://arxiv.org/abs/2301.11270v4 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。 解析により、真の報酬関数が線型であるとき、広く用いられる最大極大推定器(MLE)はブラッドリー・テリー・ルーシ(BTL)モデルとプラケット・ルーシ(PL)モデルの両方に収束することを示した。 しかし、学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。 さらに、plモデルの下では、$k$-wise比較をペアワイズ比較に分割する真のmleと代替mleの両方が収束することを示す。 さらに、真のMLEは漸近的により効率的である。 InstructGPTにおける既存のRLHFアルゴリズムの実証的成功を検証し,アルゴリズム設計の新しい知見を提供する。 さらに,RLHFと最大エントロピー逆強化学習(IRL)の問題を統一し,最大エントロピーIRLに束縛された最初のサンプル複雑性を提供する。

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and max-entropy Inverse Reinforcement Learning (IRL), and provide the first sample complexity bound for max-entropy IRL.
翻訳日:2023-06-03 00:42:46 公開日:2023-06-01
# ハードプロンプトが容易になった:プロンプトチューニングと発見のための勾配に基づく離散最適化

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery ( http://arxiv.org/abs/2302.03668v2 )

ライセンス: Link先を確認
Yuxin Wen, Neel Jain, John Kirchenbauer, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 現代の生成モデルの強みは、テキストベースのプロンプトによって制御できる能力にある。 典型的な「硬い」プロンプトは解釈可能な単語とトークンから作られ、人間が手作りしなければならない。 連続的な特徴ベクトルからなる"ソフト"プロンプトもある。 これらは強力な最適化手法で発見できるが、容易に解釈したり、モデル間で再使用したり、テキストベースのインターフェイスに差し込むことはできない。 本稿では,効率的な勾配に基づく最適化により,テキストプロンプトを頑健に最適化する手法について述べる。 本手法では,テキストから画像へのプロンプトとテキストからテキストへのプロンプトの両方に対して,テキストベースのプロンプトを自動的に生成する。 テキスト・トゥ・イメージ・セッティングでは、拡散モデルのハードプロンプトを生成し、モデルのプロンプトに関する事前知識なしに、APIユーザーが容易に画像概念を生成、発見、混合できる。 テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることを示す。

The strength of modern generative models lies in their ability to be controlled through text-based prompts. Typical "hard" prompts are made from interpretable words and tokens, and must be hand-crafted by humans. There are also "soft" prompts, which consist of continuous feature vectors. These can be discovered using powerful optimization methods, but they cannot be easily interpreted, re-used across models, or plugged into a text-based interface. We describe an approach to robustly optimize hard text prompts through efficient gradient-based optimization. Our approach automatically generates hard text-based prompts for both text-to-image and text-to-text applications. In the text-to-image setting, the method creates hard prompts for diffusion models, allowing API users to easily generate, discover, and mix and match image concepts without prior knowledge on how to prompt the model. In the text-to-text setting, we show that hard prompts can be automatically discovered that are effective in tuning LMs for classification.
翻訳日:2023-06-03 00:36:12 公開日:2023-06-01
# SSLのインタープレイ:拡張、インダクティブバイアス、一般化

The SSL Interplay: Augmentations, Inductive Bias, and Generalization ( http://arxiv.org/abs/2302.02774v2 )

ライセンス: Link先を確認
Vivien Cabannes, Bobak T. Kiani, Randall Balestriero, Yann LeCun, Alberto Bietti(参考訳) 自己教師付き学習(SSL)は、監視なしで生データから表現を学習する強力なフレームワークとして登場した。 しかし実際には、エンジニアはチューニングオプティマイザの不安定さやトレーニング中の表現の崩壊といった問題に直面している。 このような課題は、データ拡張の選択、ネットワークアーキテクチャ、トレーニングアルゴリズムの間の複雑な相互作用に光を当てる理論の必要性を動機付けている。 本研究では,理論フレンドリな設定において,事前学習タスクと下流タスクの両方における一般化性能の正確な解析を行い,我々の理論から生じるSSL実践者に対するいくつかの知見を明らかにする。

Self-supervised learning (SSL) has emerged as a powerful framework to learn representations from raw data without supervision. Yet in practice, engineers face issues such as instability in tuning optimizers and collapse of representations during training. Such challenges motivate the need for a theory to shed light on the complex interplay between the choice of data augmentation, network architecture, and training algorithm. We study such an interplay with a precise analysis of generalization performance on both pretraining and downstream tasks in a theory friendly setup, and highlight several insights for SSL practitioners that arise from our theory.
翻訳日:2023-06-03 00:35:54 公開日:2023-06-01
# 低ビットビジョン変換器の無振動量子化

Oscillation-free Quantization for Low-bit Vision Transformers ( http://arxiv.org/abs/2302.02210v2 )

ライセンス: Link先を確認
Shih-Yang Liu, Zechun Liu, Kwang-Ting Cheng(参考訳) 重み振動は量子化対応トレーニングの望ましくない副作用であり、量子化された重みは2つの量子化レベルの間で頻繁にジャンプし、トレーニングの不安定性と準最適最終モデルをもたらす。 学習可能なスケーリング係数である$\textit{de facto}$の量子化設定は、重みの振動を増大させる。 本研究では,学習可能なスケーリング因子と量的重み振動との関係について検討し,vitをケースドライバとして活用し,その発見と改善について検討した。 さらに、量子化重みの相互依存性が$\textit{query}$と$\textit{key}$の自己アテンション層であることから、ViTは振動に弱いことが判明した。 そこで,本研究では, 統計的量量化($\rm StatsQ$)による量子化ロバスト性の向上と, 一般的な学習可能スケール法と比較しての信頼性向上($\rm CGA$)による重み付けを凍結し, 発振重みを緩和する($\textit{high confidence}$, $\textit{query}$-$\textit{key}$再パラメータ化($\rm QKR$)によるクエリキーの相互交叉振動の解消と, 結果の勾配推定の緩和を行う($\rm QKR$)3つの手法を提案する。 広汎な実験により、これらの手法は重量振動を緩和し、一貫して画像ネットの精度を向上することを示した。 具体的には、我々の2ビットのDeiT-T/DeiT-Sアルゴリズムは、それぞれ9.8%と7.7%で先行技術を上回っている。 コードとモデルは \url{https://github.com/nbasyl/ofq} で利用可能である。

Weight oscillation is an undesirable side effect of quantization-aware training, in which quantized weights frequently jump between two quantized levels, resulting in training instability and a sub-optimal final model. We discover that the learnable scaling factor, a widely-used $\textit{de facto}$ setting in quantization aggravates weight oscillation. In this study, we investigate the connection between the learnable scaling factor and quantized weight oscillation and use ViT as a case driver to illustrate the findings and remedies. In addition, we also found that the interdependence between quantized weights in $\textit{query}$ and $\textit{key}$ of a self-attention layer makes ViT vulnerable to oscillation. We, therefore, propose three techniques accordingly: statistical weight quantization ($\rm StatsQ$) to improve quantization robustness compared to the prevalent learnable-scale-based method; confidence-guided annealing ($\rm CGA$) that freezes the weights with $\textit{high confidence}$ and calms the oscillating weights; and $\textit{query}$-$\textit{key}$ reparameterization ($\rm QKR$) to resolve the query-key intertwined oscillation and mitigate the resulting gradient misestimation. Extensive experiments demonstrate that these proposed techniques successfully abate weight oscillation and consistently achieve substantial accuracy improvement on ImageNet. Specifically, our 2-bit DeiT-T/DeiT-S algorithms outperform the previous state-of-the-art by 9.8% and 7.7%, respectively. Code and models are available at: \url{https://github.com/nbasyl/OFQ}.
翻訳日:2023-06-03 00:35:44 公開日:2023-06-01
# LazyGNN: Lazy Propagationによる大規模グラフニューラルネットワーク

LazyGNN: Large-Scale Graph Neural Networks via Lazy Propagation ( http://arxiv.org/abs/2302.01503v2 )

ライセンス: Link先を確認
Rui Xue, Haoyu Han, MohamadAli Torkamani, Jian Pei, Xiaorui Liu(参考訳) 最近の研究は、より深いグラフニューラルネットワーク(GNN)によるグラフの長距離依存性のキャプチャの利点を示している。 しかし、より深いGNNは、大規模なグラフにおける近隣の爆発問題による長期にわたるスケーラビリティの問題に悩まされている。 本研究では,より深いモデルではなく,より浅いモデルによってグラフの長距離依存性を捉え,より効率的なグラフ表現学習モデルlazygnnを提案する。 さらに,LazyGNNは,ミニバッチLazyGNNの開発を通じて,さらなる高速化を実現するため,既存のスケーラブルなアプローチ(サンプリング手法など)と互換性があることを実証した。 総合的な実験は、大規模なベンチマークで優れた予測性能とスケーラビリティを示す。 LazyGNNの実装はhttps://github.com/RXPHD/Lazy_GNNで公開されている。

Recent works have demonstrated the benefits of capturing long-distance dependency in graphs by deeper graph neural networks (GNNs). But deeper GNNs suffer from the long-lasting scalability challenge due to the neighborhood explosion problem in large-scale graphs. In this work, we propose to capture long-distance dependency in graphs by shallower models instead of deeper models, which leads to a much more efficient model, LazyGNN, for graph representation learning. Moreover, we demonstrate that LazyGNN is compatible with existing scalable approaches (such as sampling methods) for further accelerations through the development of mini-batch LazyGNN. Comprehensive experiments demonstrate its superior prediction performance and scalability on large-scale benchmarks. The implementation of LazyGNN is available at https://github.com/RXPHD/Lazy_GNN.
翻訳日:2023-06-03 00:35:04 公開日:2023-06-01
# Fed-GLOSS-DP: 最高レベルの差分プライバシーを持つ合成集合を用いたグローバル学習

Fed-GLOSS-DP: Federated, Global Learning using Synthetic Sets with Record Level Differential Privacy ( http://arxiv.org/abs/2302.01068v2 )

ライセンス: Link先を確認
Hui-Po Wang, Dingfan Chen, Raouf Kerkouche, Mario Fritz(参考訳) 本研究は,フェデレーション学習のための新しいプライバシ保護手法であるFed-GLOSS-DPを提案する。 fedavg のような従来の線形点方向勾配共有方式とは異なり、クライアントから受信した合成サンプルを活用し、大域的な最適化を実現する。 これらの合成サンプルは、損失サーロゲートとして機能し、局所領域内の実画像の有用性をシミュレートして、局所的損失景観を近似する。 また,近似の質を反映した効果的な近似領域の測定手法を提案する。 したがって、サーバはグローバルな損失状況を回復し、モデルを総合的に最適化することができる。 さらに,新たなプライバシの懸念に動機づけられて,当社のアプローチが記録レベルの差分プライバシ(dp)とシームレスに連携し,クライアント上のデータレコード毎に理論的プライバシ保証を付与できることを実証した。 その結果,高度に歪んだ分布を持つ各種データセットに対する定式化の有効性が検証された。 特にDPによる高歪分布と雑音勾配を考慮すると,本手法はベースラインを常に改善する。 ソースコードは公開時に公開される。

This work proposes Fed-GLOSS-DP, a novel privacy-preserving approach for federated learning. Unlike previous linear point-wise gradient-sharing schemes, such as FedAvg, our formulation enables a type of global optimization by leveraging synthetic samples received from clients. These synthetic samples, serving as loss surrogates, approximate local loss landscapes by simulating the utility of real images within a local region. We additionally introduce an approach to measure effective approximation regions reflecting the quality of the approximation. Therefore, the server can recover the global loss landscape and comprehensively optimize the model. Moreover, motivated by the emerging privacy concerns, we demonstrate that our approach seamlessly works with record-level differential privacy (DP), granting theoretical privacy guarantees for every data record on the clients. Extensive results validate the efficacy of our formulation on various datasets with highly skewed distributions. Our method consistently improves over the baselines, especially considering highly skewed distributions and noisy gradients due to DP. The source code will be released upon publication.
翻訳日:2023-06-03 00:34:54 公開日:2023-06-01
# マルチモーダル入力と出力のための画像への接地言語モデル

Grounding Language Models to Images for Multimodal Inputs and Outputs ( http://arxiv.org/abs/2301.13823v3 )

ライセンス: Link先を確認
Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried(参考訳) 本研究では,事前学習したテキストのみの言語モデルを視覚領域に最適化し,任意にインターリーブされた画像とテキストデータを処理し,検索した画像でインターリーブされたテキストを生成する。 本手法は,インコンテキスト学習やフリーフォームテキスト生成など,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。 我々は、言語モデルを凍結させ、相互モダリティ相互作用を可能にするために、入出力線形層を微調整する。 これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。 本研究では,コンテキスト画像検索やマルチモーダル対話などの接地タスクにおいて,強いゼロショット性能を実現し,魅力的な対話能力を示す。 当社のアプローチは市販の言語モデルと連携し,事前学習した言語モデルを視覚的に基盤とした環境で活用するための,効果的で汎用的なソリューションへの道を開く。

We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process arbitrarily interleaved image-and-text data, and generate text interleaved with retrieved images. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.
翻訳日:2023-06-03 00:34:34 公開日:2023-06-01
# デュアルバリューネットワークによる再合成計画

Retrosynthetic Planning with Dual Value Networks ( http://arxiv.org/abs/2301.13755v2 )

ライセンス: Link先を確認
Guoqing Liu, Di Xue, Shufang Xie, Yingce Xia, Austin Tripp, Krzysztof Maziarz, Marwin Segler, Tao Qin, Zongzhang Zhang, Tie-Yan Liu(参考訳) 市販の開始物質から標的分子を合成する経路を見つけることを目的とした再合成は、薬物発見と材料設計において重要な課題である。 近年,MLに基づく単段階反応予測器と多段階計画器の組み合わせにより,有望な結果が得られた。 しかしながら、シングルステップ予測器は、完全なルートを考慮せずに、主にオフラインでトレーニングされ、シングルステップ精度を最適化する。 ここでは,木形MDPを用いて完全経路を最適化することにより,強化学習(RL)を活用して単段階予測を改善する。 具体的には,計画段階と更新段階を交互に行う2値ネットワークを用いたオンライン学習アルゴリズム,planning with dual value networks (pdvn)を提案する。 pdvnでは,分子の合成可能性とコストを予測するために2つの値ネットワークを構築した。 単段精度を維持するため,単段予測器のための2分岐ネットワーク構造を設計する。 広く使われているUSPTOデータセットでは、PDVNアルゴリズムは既存のマルチステッププランナの検索成功率を改善する(Retro*では85.79%から98.95%に増加し、RetroGraphでは99.47%の分子を解きながらモデルの呼び出し回数を半分に減らす)。 さらにpdvnは、より短い合成経路(例えば、レトロ*では5.76から4.83、レトログラフでは5.63から4.78)を見つけるのに役立つ。

Retrosynthesis, which aims to find a route to synthesize a target molecule from commercially available starting materials, is a critical task in drug discovery and materials design. Recently, the combination of ML-based single-step reaction predictors with multi-step planners has led to promising results. However, the single-step predictors are mostly trained offline to optimize the single-step accuracy, without considering complete routes. Here, we leverage reinforcement learning (RL) to improve the single-step predictor, by using a tree-shaped MDP to optimize complete routes. Specifically, we propose a novel online training algorithm, called Planning with Dual Value Networks (PDVN), which alternates between the planning phase and updating phase. In PDVN, we construct two separate value networks to predict the synthesizability and cost of molecules, respectively. To maintain the single-step accuracy, we design a two-branch network structure for the single-step predictor. On the widely-used USPTO dataset, our PDVN algorithm improves the search success rate of existing multi-step planners (e.g., increasing the success rate from 85.79% to 98.95% for Retro*, and reducing the number of model calls by half while solving 99.47% molecules for RetroGraph). Additionally, PDVN helps find shorter synthesis routes (e.g., reducing the average route length from 5.76 to 4.83 for Retro*, and from 5.63 to 4.78 for RetroGraph).
翻訳日:2023-06-03 00:33:54 公開日:2023-06-01
# マイクロctで得られた鉱物試料からの個々の粒子のスケーラブル・アウト・オブ・ザ・ボックスセグメンテーション

[Work in progress] Scalable, out-of-the box segmentation of individual particles from mineral samples acquired with micro CT ( http://arxiv.org/abs/2301.13319v3 )

ライセンス: Link先を確認
Karol Gotkowski and Shuvam Gupta and Jose R. A. Godinho and Camila G. S. Tochtrop and Klaus H. Maier-Hein and Fabian Isensee(参考訳) 鉱物は機能する現代社会に欠かせない。 しかし、その供給量は限られており、鉱石とリサイクル可能な材料の両方から探査と抽出を最適化する必要がある。 通常、これらのプロセスは、加工された粒子の正確な性質、形状、外観、および全体的な材料組成の広範な特徴に慎重に適応する必要がある。 現在のアプローチでは、マイクロctで撮像された粒子のバルクセグメンテーションとキャラクタリゼーションに基づいて分析を行い、接触粒子を分離する基本的な後処理技術に依存している。 しかしながら、この分離を確実に実行できないことと、新しいイメージごとにメソッドをトレーニングまたは再構成する必要から、これらのアプローチは未解決のポテンシャルを生かすことになる。 本稿では,エポキシマトリクスに埋め込まれた鉱物試料から採取した大型マイクロct画像から個々の粒子を抽出できるインスタンス分割法である particleeg3d を提案する。 我々のアプローチは、強力なnnU-Netフレームワークをベースとして、粒子サイズ正規化を導入し、境界コア表現を用いてインスタンスセグメンテーションを可能にし、多数の異なる材料や鉱物の粒子を含む大規模なデータセットで訓練する。 本研究では,トレーニングセットに含まれていない材料や外観を含む多種多様な粒子タイプに対して,箱外で粒子eg3dを適用できることを実証する。 したがって、新しいミネラルサンプルに適用する場合、手動のアノテーションや再訓練は不要であり、既存の手法よりも実験のスケーラビリティが著しく向上する。 私たちのコードとデータセットは公開されています。

Minerals are indispensable for a functioning modern society. Yet, their supply is limited causing a need for optimizing their exploration and extraction both from ores and recyclable materials. Typically, these processes must be meticulously adapted to the precise properties of the processed particles, an extensive characterization of their shapes, appearances as well as the overall material composition. Current approaches perform this analysis based on bulk segmentation and characterization of particles imaged with a micro CT, and rely on rudimentary postprocessing techniques to separate touching particles. However, due to their inability to reliably perform this separation as well as the need to retrain or reconfigure methods for each new image, these approaches leave untapped potential to be leveraged. Here, we propose ParticleSeg3D, an instance segmentation method that is able to extract individual particles from large micro CT images taken from mineral samples embedded in an epoxy matrix. Our approach is based on the powerful nnU-Net framework, introduces a particle size normalization, makes use of a border-core representation to enable instance segmentation and is trained with a large dataset containing particles of numerous different materials and minerals. We demonstrate that ParticleSeg3D can be applied out-of-the box to a large variety of particle types, including materials and appearances that have not been part of the training set. Thus, no further manual annotations and retraining are required when applying the method to new mineral samples, enabling substantially higher scalability of experiments than existing methods. Our code and dataset are made publicly available.
翻訳日:2023-06-03 00:33:04 公開日:2023-06-01
# マシンラーニングのセキュリティ防衛における品質測定

Measuring Equality in Machine Learning Security Defenses ( http://arxiv.org/abs/2302.08973v5 )

ライセンス: Link先を確認
Luke E. Richards, Edward Raff, Cynthia Matuszek(参考訳) 機械学習セキュリティコミュニティは、過去10年間にわたって、回避攻撃に対する無数の防御を開発してきた。 このコミュニティの未熟な疑問は: この防御策は誰を擁護するのか? 本研究では,学習システムを守るための一般的なアプローチと,それらのアプローチが異なるサブ集団で使用する場合,予期せぬ性能の低下をもたらすかどうかを検討する。 機械学習のセキュリティ手法の公正性に関する実証的な結果を通じて、この問題に答えることのできる単純なパリティ指標と分析のためのフレームワークについて概説する。 直接的害を引き起こす可能性のある多くの手法が提案されているが、これは偏りの脆弱性と偏りの拒絶である。 当社のフレームワークとメトリックは,堅牢にトレーニングされたモデル,前処理ベースのメソッド,セキュリティ予算を越える行動をキャプチャする拒否メソッドにも適用可能です。 我々は、防衛の平等性を測定するのに適した合理的な計算コストを持つ現実的なデータセットを特定する。 音声認識におけるケーススタディを通じて、このような防衛が社会的サブグループに対して平等な保護を提供していないこと、そして、ロバストネストレーニングのためにそのような分析を行う方法を示し、ランダム化スムーシングとニューラルリジェクションの2つの拒否に基づく防御の公平性の比較を示す。 我々は, 公平防衛と相関する要因のさらなる分析を行い, 今後, 防衛体制の整備を支援する方法についての調査を促進させる。 我々の知る限りでは、音声データの正確さと損益性とのトレードオフの公平性を検証し、拒絶に基づく防御に対する公平性評価に対処する最初の研究である。

The machine learning security community has developed myriad defenses for evasion attacks over the past decade. An understudied question in that community is: for whom do these defenses defend? In this work, we consider some common approaches to defending learned systems and whether those approaches may offer unexpected performance inequities when used by different sub-populations. We outline simple parity metrics and a framework for analysis that can begin to answer this question through empirical results of the fairness implications of machine learning security methods. Many methods have been proposed that can cause direct harm, which we describe as biased vulnerability and biased rejection. Our framework and metric can be applied to robustly trained models, preprocessing-based methods, and rejection methods to capture behavior over security budgets. We identify a realistic dataset with a reasonable computational cost suitable for measuring the equality of defenses. Through a case study in speech command recognition, we show how such defenses do not offer equal protection for social subgroups and how to perform such analyses for robustness training, and we present a comparison of fairness between two rejection-based defenses: randomized smoothing and neural rejection. We offer further analysis of factors that correlate to equitable defenses to stimulate the future investigation of how to assist in building such defenses. To the best of our knowledge, this is the first work that examines the fairness disparity in the accuracy-robustness trade-off in speech data and addresses fairness evaluation for rejection-based defenses.
翻訳日:2023-06-03 00:26:09 公開日:2023-06-01
# 確率的ライジングバンドのためのベストアーム識別

Best Arm Identification for Stochastic Rising Bandits ( http://arxiv.org/abs/2302.07510v2 )

ライセンス: Link先を確認
Marco Mussi, Alessandro Montenegro, Francesco Trov\'o, Marcello Restelli and Alberto Maria Metelli(参考訳) 確率的上昇バンディット(srbs)は、選択する度に利用可能なオプションの期待報酬が増加する逐次的な意思決定問題である。 この設定は、利用可能な選択肢が、時間とともにパフォーマンスが向上する(期待して)学習エンティティである、幅広いシナリオをキャプチャします。 先行研究が後悔の最小化問題に対処する一方で,本論文はsrbsにおける固定予算最善アーム識別(bai)問題に焦点を当てている。 このシナリオでは、ラウンドの固定予算を前提として、識別プロセスの終了時に最適な選択肢について推奨することを求めます。 提案手法は, UCBのようなアプローチを取り入れたR-UCBEと, 逐次リジェクション手法を用いたR-SRという2つのアルゴリズムを提案する。 そして、十分な予算で、学習プロセスの終了時に最適な選択肢を適切に特定する確率を保証できることを証明した。 さらに、R-SR(対数因子まで)で一致した誤差確率の低い境界を導出し、SRB設定において十分に大きな予算の必要性が避けられないことを示す。 最後に,提案アルゴリズムを合成環境と実環境の両方で数値的に検証し,現在利用可能なBAI戦略と比較する。

Stochastic Rising Bandits (SRBs) model sequential decision-making problems in which the expected rewards of the available options increase every time they are selected. This setting captures a wide range of scenarios in which the available options are learning entities whose performance improves (in expectation) over time. While previous works addressed the regret minimization problem, this paper, focuses on the fixed-budget Best Arm Identification (BAI) problem for SRBs. In this scenario, given a fixed budget of rounds, we are asked to provide a recommendation about the best option at the end of the identification process. We propose two algorithms to tackle the above-mentioned setting, namely R-UCBE, which resorts to a UCB-like approach, and R-SR, which employs a successive reject procedure. Then, we prove that, with a sufficiently large budget, they provide guarantees on the probability of properly identifying the optimal option at the end of the learning process. Furthermore, we derive a lower bound on the error probability, matched by our R-SR (up to logarithmic factors), and illustrate how the need for a sufficiently large budget is unavoidable in the SRB setting. Finally, we numerically validate the proposed algorithms in both synthetic and real-world environments and compare them with the currently available BAI strategies.
翻訳日:2023-06-03 00:25:41 公開日:2023-06-01
# 電磁誘導透過による周波数領域Hong-Ou-Mandel干渉の制御

Controlling Frequency-Domain Hong-Ou-Mandel Interference via Electromagnetically Induced Transparency ( http://arxiv.org/abs/2302.06888v2 )

ライセンス: Link先を確認
Zi-Yu Liu, Jiun-Shiuan Shiu, Chin-Yao Cheng, Yong-Fan Chen(参考訳) ホン・ウー・マンデル(hom)干渉は、単一光子の非古典的性質を示す説得力のある量子現象である。 本研究では、量子化光場の観点から、電磁誘導透過型ダブルロンバダ$4波混合系について検討する。 このシステムは周波数領域における効率的なHOM干渉を実現するために使用できる。 還元密度演算子理論を用いることで, 2つの入射単光子の閉ループの場合において, ダブルロンビダ$媒体は位相依存性を示さないが, 周波数領域HOM二光子干渉が発生することを示した。 実験的に達成可能な光深度条件では、この倍の$\Lambda$スキームは、周波数符号化された単一光子量子ビット上で高忠実なアダマールゲート演算を行い、0.99以上の光度を持つHOM二光子NOON状態を生成することができる。 さらに,レーザーデチューニングと位相制御を単純に行い,多機能性を示し,スケーラブルな光学量子コンピューティングへの新たな経路を提供することにより,任意の単一量子ゲートと2量子スワップゲートを実現することができることを示す。

Hong-Ou-Mandel (HOM) interference is a compelling quantum phenomenon that demonstrates the nonclassical nature of single photons. In this study, we investigate an electromagnetically induced transparency-based double-$\Lambda$ four-wave mixing system from the perspective of quantized light fields. The system can be used to realize efficient HOM interference in the frequency domain. By using the reduced density operator theory, we demonstrate that, although the double-$\Lambda$ medium does not exhibit phase-dependent properties for the closed-loop case of two incident single photons, frequency-domain HOM two-photon interference occurs. For experimentally achievable optical depth conditions, our theory indicates that this double-$\Lambda$ scheme can perform high-fidelity Hadamard gate operations on frequency-encoded single-photon qubits, and thereby generate HOM two-photon NOON states with a fidelity greater than 0.99. Furthermore, we demonstrate that this scheme can be used to realize arbitrary single-qubit gates and two-qubit SWAP gates by simply controlling the laser detuning and phase, exhibiting its multifunctional properties and providing a new route to scalable optical quantum computing.
翻訳日:2023-06-03 00:25:18 公開日:2023-06-01
# 平均h\"older smoothnessを用いた近最適学習

Near-optimal learning with average H\"older smoothness ( http://arxiv.org/abs/2302.06005v2 )

ライセンス: Link先を確認
Steve Hanneke, Aryeh Kontorovich, Guy Kornowski(参考訳) 我々は、Ashlagi et al. (COLT 2021) によって提案された平均リプシッツの滑らかさの概念を、H\"古い滑らかさに拡張することで一般化する。 我々は, 平均H\"高齢者の滑らかさの観点から, 可逆性および非可逆性(雑音性)の回帰設定を, 平均リプシッツの滑らかさの特殊な場合においても, 既知率と既知率の両方で改善する。 さらに,我々の下限は,ログ係数に対する実現可能な設定に密着しているため,minimaxレートが確立される。 アルゴリズムの観点からは, 平均滑らか性の概念は未知の分布に対して定義されるため, 学習者は関数クラスの明示的な表現を持たないため, ERMの実行は不可能である。 それにもかかわらず、我々は(ほぼ)最適な学習率を達成する異なる学習アルゴリズムを提供する。 我々の結果は任意の完全有界距離空間を持ち、その内在幾何学の観点で述べられている。 総じて,h\"older smoothness の古典的な最悪ケース概念は,本質的に平均値に置き換えられ,よりシャープな保証が得られることを示した。

We generalize the notion of average Lipschitz smoothness proposed by Ashlagi et al. (COLT 2021) by extending it to H\"older smoothness. This measure of the "effective smoothness" of a function is sensitive to the underlying distribution and can be dramatically smaller than its classic "worst-case H\"older constant. We consider both the realizable and the agnostic (noisy) regression settings, proving upper and lower risk bounds in terms of the average H\"older smoothness; these rates improve upon both previously known rates even in the special case of average Lipschitz smoothness. Moreover, our lower bound is tight in the realizable setting up to log factors, thus we establish the minimax rate. From an algorithmic perspective, since our notion of average smoothness is defined with respect to the unknown underlying distribution, the learner does not have an explicit representation of the function class, hence is unable to execute ERM. Nevertheless, we provide distinct learning algorithms that achieve both (nearly) optimal learning rates. Our results hold in any totally bounded metric space, and are stated in terms of its intrinsic geometry. Overall, our results show that the classic worst-case notion of H\"older smoothness can be essentially replaced by its average, yielding considerably sharper guarantees.
翻訳日:2023-06-03 00:24:56 公開日:2023-06-01
# 大規模言語モデルによるレベル生成

Level Generation Through Large Language Models ( http://arxiv.org/abs/2302.05817v2 )

ライセンス: Link先を確認
Graham Todd, Sam Earle, Muhammad Umair Nasir, Michael Cerny Green, Julian Togelius(参考訳) 大規模な言語モデル(llm)は強力なツールであり、自然言語のトレーニングを活用してストーリーを書き、コードを生成し、質問に答えることができる。 しかし、彼らは機能的なビデオゲームレベルを生成できるだろうか? 複雑な機能的制約と1次元以上の空間的関係を持つゲームレベルは、LLMがトレーニング中に一般的に見るデータの種類とは大きく異なる。 ゲームレベルのデータセットも難しいため、これらのデータ格納モデルの能力に課税される可能性がある。 我々は,ゲーム sokoban のレベルを生成するための llms の使用について検討し,llm が実際に実現可能であり,その性能はデータセットサイズとともに劇的に向上することを確認した。 また,LLMレベルジェネレータの制御に関する予備実験を行い,今後の課題について検討する。

Large Language Models (LLMs) are powerful tools, capable of leveraging their training on natural language to write stories, generate code, and answer questions. But can they generate functional video game levels? Game levels, with their complex functional constraints and spatial relationships in more than one dimension, are very different from the kinds of data an LLM typically sees during training. Datasets of game levels are also hard to come by, potentially taxing the abilities of these data-hungry models. We investigate the use of LLMs to generate levels for the game Sokoban, finding that LLMs are indeed capable of doing so, and that their performance scales dramatically with dataset size. We also perform preliminary experiments on controlling LLM level generators and discuss promising areas for future work.
翻訳日:2023-06-03 00:24:34 公開日:2023-06-01
# 物体検出のための二重関係知識蒸留

Dual Relation Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2302.05637v2 )

ライセンス: Link先を確認
Zhenliang Ni, Fukui Yang, Shengzhao Wen, Gang Zhang(参考訳) 知識蒸留はモデル圧縮に有効な方法である。 しかし,検出課題に知識蒸留を適用することは依然として難しい課題である。 検出タスクの蒸留性能が低下する2つのキーポイントがある。 ひとつはフォアグラウンドとバックグラウンド機能の深刻な不均衡です。もうひとつは、小さなオブジェクトには十分な機能表現が欠けていることです。 以上の課題を解決するために,二元関係知識蒸留(drkd)と呼ばれる,画素関係蒸留とインスタンス関係蒸留を含む新しい蒸留法を提案する。 画素ワイド関係蒸留はグラフ空間に画素ワイド特徴を埋め込み、グラフ畳み込みを適用してグローバルな画素関係を捉える。 グローバル画素関係を蒸留することにより、学生検出器は、前景と背景の特徴の関係を学習し、特徴不均衡問題に対して直接特徴を蒸留することの難しさを回避することができる。 さらに、インスタンスワイド関係は、小さなオブジェクトに対する独立した特徴以上の貴重な知識を補う。 これにより、異なるインスタンスの類似度を計算して関係行列を得る、インスタンス回り関係蒸留が設計される。 さらに重要なことに、リレーションフィルタモジュールは、価値のあるインスタンス関係を強調するように設計されている。 提案する二重関係知識蒸留は一般的であり、一段階と二段階の両方の検出器に容易に適用できる。 ResNet50をベースとした高速R-CNNを38.4%から41.6%mAPに改善し、ResNet50をベースとしたRetinaNetを37.4%から40.3%mAPに改善した。

Knowledge distillation is an effective method for model compression. However, it is still a challenging topic to apply knowledge distillation to detection tasks. There are two key points resulting in poor distillation performance for detection tasks. One is the serious imbalance between foreground and background features, another one is that small object lacks enough feature representation. To solve the above issues, we propose a new distillation method named dual relation knowledge distillation (DRKD), including pixel-wise relation distillation and instance-wise relation distillation. The pixel-wise relation distillation embeds pixel-wise features in the graph space and applies graph convolution to capture the global pixel relation. By distilling the global pixel relation, the student detector can learn the relation between foreground and background features, and avoid the difficulty of distilling features directly for the feature imbalance issue. Besides, we find that instance-wise relation supplements valuable knowledge beyond independent features for small objects. Thus, the instance-wise relation distillation is designed, which calculates the similarity of different instances to obtain a relation matrix. More importantly, a relation filter module is designed to highlight valuable instance relations. The proposed dual relation knowledge distillation is general and can be easily applied for both one-stage and two-stage detectors. Our method achieves state-of-the-art performance, which improves Faster R-CNN based on ResNet50 from 38.4% to 41.6% mAP and improves RetinaNet based on ResNet50 from 37.4% to 40.3% mAP on COCO 2017.
翻訳日:2023-06-03 00:24:07 公開日:2023-06-01
# 因果強化学習に関する調査研究

A Survey on Causal Reinforcement Learning ( http://arxiv.org/abs/2302.05209v3 )

ライセンス: Link先を確認
Yan Zeng, Ruichu Cai, Fuchun Sun, Libo Huang, Zhifeng Hao(参考訳) 強化学習(Reinforcement Learning, RL)は多くの領域の逐次決定問題において大きな成功を収める一方で、データ非効率性と解釈可能性の欠如という重要な課題に直面している。 興味深いことに、近年多くの研究者が因果関係の文献からの洞察を活用して、因果関係の利点を統一し、RLの課題にうまく対処するための卓越した成果を生み出している。 そのため、これらの因果強化学習(CRL)の成果を照合し、CRL手法のレビューを行い、因果性からRLへの潜在的な機能について検討することが極めて重要である。 特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。 さらに、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から各カテゴリを解析する。 さらに,今後のCRL開発に向けての展望とともに,新たなアプリケーションについて議論しながら,評価行列とオープンソースを要約する。

While Reinforcement Learning (RL) achieves tremendous success in sequential decision-making problems of many domains, it still faces key challenges of data inefficiency and the lack of interpretability. Interestingly, many researchers have leveraged insights from the causality literature recently, bringing forth flourishing works to unify the merits of causality and address well the challenges from RL. As such, it is of great necessity and significance to collate these Causal Reinforcement Learning (CRL) works, offer a review of CRL methods, and investigate the potential functionality from causality toward RL. In particular, we divide existing CRL approaches into two categories according to whether their causality-based information is given in advance or not. We further analyze each category in terms of the formalization of different models, ranging from the Markov Decision Process (MDP), Partially Observed Markov Decision Process (POMDP), Multi-Arm Bandits (MAB), and Dynamic Treatment Regime (DTR). Moreover, we summarize the evaluation matrices and open sources while we discuss emerging applications, along with promising prospects for the future development of CRL.
翻訳日:2023-06-03 00:23:35 公開日:2023-06-01
# より良い拡散モデルによる対人訓練の改善

Better Diffusion Models Further Improve Adversarial Training ( http://arxiv.org/abs/2302.04638v2 )

ライセンス: Link先を確認
Zekai Wang, Tianyu Pang, Chao Du, Min Lin, Weiwei Liu, Shuicheng Yan(参考訳) DDPM(denoising diffusion probabilistic model)によって生成されたデータは、対向訓練を改善することが認識されている。 拡散モデルにおける2年間の急速な発展の後、自然な疑問が生まれている。 本稿では, DDPMと比較して高効率(20ドルサンプリングステップ)で画像品質(FIDスコアが低い)の最新の拡散モデルを用いて, 肯定的な回答を与える。 我々の敵対的に訓練されたモデルは、生成されたデータ(外部データセットなし)のみを使用してRobostBenchの最先端のパフォーマンスを達成する。 このモデルは$\ell_\infty$-normの脅威モデルで$\epsilon=8/255$で、それぞれ$4.58\%$と$+8.03\%$で、cifar-10とcifar-100で$0.69\%$と$2.67\%$ロバストな精度を達成した。 我々のモデルは、$\epsilon=128/255$の$\ell_2$-norm脅威モデルの下で、cifar-10 (+4.44\%$) で$4.86\% を達成。 これらの結果は、外部データを使用する以前の作業にも匹敵する。 また,SVHN と TinyImageNet のデータセットにも魅力的な結果が得られた。 私たちのコードはhttps://github.com/wzekai99/DM-Improves-ATで利用可能です。

It has been recognized that the data generated by the denoising diffusion probabilistic model (DDPM) improves adversarial training. After two years of rapid development in diffusion models, a question naturally arises: can better diffusion models further improve adversarial training? This paper gives an affirmative answer by employing the most recent diffusion model which has higher efficiency ($\sim 20$ sampling steps) and image quality (lower FID score) compared with DDPM. Our adversarially trained models achieve state-of-the-art performance on RobustBench using only generated data (no external datasets). Under the $\ell_\infty$-norm threat model with $\epsilon=8/255$, our models achieve $70.69\%$ and $42.67\%$ robust accuracy on CIFAR-10 and CIFAR-100, respectively, i.e. improving upon previous state-of-the-art models by $+4.58\%$ and $+8.03\%$. Under the $\ell_2$-norm threat model with $\epsilon=128/255$, our models achieve $84.86\%$ on CIFAR-10 ($+4.44\%$). These results also beat previous works that use external data. We also provide compelling results on the SVHN and TinyImageNet datasets. Our code is available at https://github.com/wzekai99/DM-Improves-AT.
翻訳日:2023-06-03 00:23:04 公開日:2023-06-01
# 言語モデルからデータ抽出を訓練するためのトリックのバグ

Bag of Tricks for Training Data Extraction from Language Models ( http://arxiv.org/abs/2302.04460v2 )

ライセンス: Link先を確認
Weichen Yu, Tianyu Pang, Qian Liu, Chao Du, Bingyi Kang, Yan Huang, Min Lin, Shuicheng Yan(参考訳) 言語モデルの進歩により、プライバシー保護はより注目を集めている。 そのため、プライバシー漏洩を評価する潜在的なツールとして機能するため、データ抽出のトレーニングは非常に重要である。 しかし、この作業の難しさから、既存の手法のほとんどは概念実証であり、まだ有効ではない。 本稿では,公開データセットを用いたトレーニングデータ抽出手法の検討とベンチマーク手法を提案する。 既存の抽出方法は,テキスト候補を潜在的訓練データとして生成し,特定の基準に基づいてランク付けするパイプラインを使用するため,テキスト生成(サンプリング戦略など)とテキストランキング(トークンレベルの基準など)の両方のトリックに注目している。 実験の結果,これまで見過ごされていたいくつかの手技が,トレーニングデータ抽出の成功に不可欠であることが判明した。 gpt-neo 1.3bの評価結果に基づいて,提案手法は,多くの場合においてベースラインを大きなマージンで上回り,今後の研究においてはるかに強力なベースラインとなる。 コードはhttps://github.com/weichen-yu/lm-extractionで入手できる。

With the advance of language models, privacy protection is receiving more attention. Training data extraction is therefore of great importance, as it can serve as a potential tool to assess privacy leakage. However, due to the difficulty of this task, most of the existing methods are proof-of-concept and still not effective enough. In this paper, we investigate and benchmark tricks for improving training data extraction using a publicly available dataset. Because most existing extraction methods use a pipeline of generating-then-ranking, i.e., generating text candidates as potential training data and then ranking them based on specific criteria, our research focuses on the tricks for both text generation (e.g., sampling strategy) and text ranking (e.g., token-level criteria). The experimental results show that several previously overlooked tricks can be crucial to the success of training data extraction. Based on the GPT-Neo 1.3B evaluation results, our proposed tricks outperform the baseline by a large margin in most cases, providing a much stronger baseline for future research. The code is available at https://github.com/weichen-yu/LM-Extraction.
翻訳日:2023-06-03 00:22:44 公開日:2023-06-01
# おしゃべりしよう! ChatGPTとの会話:技術・応用・限界

Let's have a chat! A Conversation with ChatGPT: Technology, Applications, and Limitations ( http://arxiv.org/abs/2302.13817v3 )

ライセンス: Link先を確認
Sakib Shahriar and Kadhim Hayawi(参考訳) 人間のような文を生成し、一貫性のあるエッセイを書くことができるAIベースのチャットボットの出現は、世界の注目を集めている。 本稿ではチャットボットの歴史的概要とチャット生成事前学習トランス(ChatGPT)を支える技術について述べる。 さらに、医療、教育、研究など様々な分野におけるChatGPTの応用の可能性を強調した。 有望な結果にもかかわらず、ChatGPTにはいくつかのプライバシーと倫理上の懸念がある。 さらに、現在のバージョンのChatGPTの重要な制限をいくつか強調する。 また、ChatGPTにその視点を提供して、答えようとするいくつかの質問に対する回答を提示するように求めます。

The emergence of an AI-powered chatbot that can generate human-like sentences and write coherent essays has caught the world's attention. This paper discusses the historical overview of chatbots and the technology behind Chat Generative Pre-trained Transformer, better known as ChatGPT. Moreover, potential applications of ChatGPT in various domains, including healthcare, education, and research, are highlighted. Despite promising results, there are several privacy and ethical concerns surrounding ChatGPT. In addition, we highlight some of the important limitations of the current version of ChatGPT. We also ask ChatGPT to provide its point of view and present its responses to several questions we attempt to answer.
翻訳日:2023-06-03 00:15:57 公開日:2023-06-01
# データを隠すことが助けになる: スパースコーディングのためのマスキングの利点

Hiding Data Helps: On the Benefits of Masking for Sparse Coding ( http://arxiv.org/abs/2302.12715v2 )

ライセンス: Link先を確認
Muthu Chidambaram, Chenwei Wu, Yu Cheng, Rong Ge(参考訳) スパース符号化(Sparse coding)は、学習辞書の要素の疎線形結合としての信号のモデリングであり、信号処理、コンピュータビジョン、医用画像などの応用において成功(かつ解釈可能な)アプローチであることが証明されている。 この成功は、学習辞書が基礎辞書と同じ大きさである場合の辞書回復の証明可能な保証に多くの取り組みを駆り立ててきたが、基礎真理に関して学習辞書がより大きく(あるいは過剰に実現されている)設定が比較的新鮮である。 この設定における既存の理論的結果は、ノイズのないデータの場合に制約されている。 本研究では,ノイズが存在する場合,標準辞書学習目標の最小化は,データ生成過程における信号の大きさによらず,実現過剰な状況下での辞書の要素の回復に失敗することを示す。 さらに, 自己教師型学習における研究の進展から, 大規模データ生成プロセスにおいて, 信号が増大するにつれて, 地上構造辞書の復元が実際最適となる新しいマスキング目標を提案する。 我々は,提案する目的が標準の再構成目的よりも優れた経験的性能を享受できることを示す複数のパラメータレジームをまたいだ実験で理論的結果と照合した。

Sparse coding, which refers to modeling a signal as sparse linear combinations of the elements of a learned dictionary, has proven to be a successful (and interpretable) approach in applications such as signal processing, computer vision, and medical imaging. While this success has spurred much work on provable guarantees for dictionary recovery when the learned dictionary is the same size as the ground-truth dictionary, work on the setting where the learned dictionary is larger (or over-realized) with respect to the ground truth is comparatively nascent. Existing theoretical results in this setting have been constrained to the case of noise-less data. We show in this work that, in the presence of noise, minimizing the standard dictionary learning objective can fail to recover the elements of the ground-truth dictionary in the over-realized regime, regardless of the magnitude of the signal in the data-generating process. Furthermore, drawing from the growing body of work on self-supervised learning, we propose a novel masking objective for which recovering the ground-truth dictionary is in fact optimal as the signal increases for a large class of data-generating processes. We corroborate our theoretical results with experiments across several parameter regimes showing that our proposed objective also enjoys better empirical performance than the standard reconstruction objective.
翻訳日:2023-06-03 00:15:36 公開日:2023-06-01
# オンライン意思決定のためのadversarial calibrated regression

Adversarial Calibrated Regression for Online Decision Making ( http://arxiv.org/abs/2302.12196v2 )

ライセンス: Link先を確認
Volodymyr Kuleshov, Shachi Deshpande(参考訳) 不確実性を正確に推定することは、機械学習における意思決定と予測の重要な要素である。 しかし、既存の不確実性推定手法は、トレーニング中に見られる分布にデータが従わなければ失敗する可能性がある。 ここでは、敵が選択したデータを含む任意のデータポイントのストリームで信頼性が保証されるオンライン不確実性推定アルゴリズムを導入する。 具体的には、我々のアルゴリズムは、ブラックボックス回帰モデルのポストホックな再校正を行い、確実に校正された出力を生成する。すなわち、80%の信頼区間は、実際の結果の80%を包含し、ベースモデルの学習目標に対して後悔が少ない。 我々は,データ分散が時間とともに変化するオンラインモデルに基づく意思決定タスクであるベイズ最適化(Bayesian Optimization)のコンテキストにアルゴリズムを適用する。 以上の結果から,ロバストな不確実性定量化はオンライン意思決定を改善する可能性を示唆する。

Accurately estimating uncertainty is an essential component of decision-making and forecasting in machine learning. However, existing uncertainty estimation methods may fail when data no longer follows the distribution seen during training. Here, we introduce online uncertainty estimation algorithms that are guaranteed to be reliable on arbitrary streams of data points, including data chosen by an adversary. Specifically, our algorithms perform post-hoc recalibration of a black-box regression model and produce outputs that are provably calibrated -- i.e., an 80% confidence interval will contain the true outcome 80% of the time -- and that have low regret relative to the learning objective of the base model. We apply our algorithms in the context of Bayesian optimization, an online model-based decision-making task in which the data distribution shifts over time, and observe accelerated convergence to improved optima. Our results suggest that robust uncertainty quantification has the potential to improve online decision-making.
翻訳日:2023-06-03 00:15:13 公開日:2023-06-01
# 自己教師型音声モデルのための韻律ベンチマークProsAudit

ProsAudit, a prosodic benchmark for self-supervised speech models ( http://arxiv.org/abs/2302.12057v3 )

ライセンス: Link先を確認
Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux(参考訳) 本稿では,自己教師付き学習(ssl)における構造的韻律知識を評価するための英語ベンチマークprosauditを提案する。 2つのサブタスク、対応するメトリクス、評価データセットで構成される。 プロトシンタックスタスクでは、モデルは強くて弱い韻律境界を正確に識別しなければならない。 語彙的タスクでは、モデルが単語と単語の間に挿入されたポーズを正しく区別する必要がある。 このベンチマークでは人による評価スコアも提供する。 SSLモデルを一連のモデルで評価した結果,見当たらない言語で評価した場合でも,いずれも両タスクにおいてより高い確率で実行可能であることがわかった。 しかし、非ネイティブモデルは語彙課題においてネイティブモデルよりも著しく悪く、この課題における語彙知識の重要性を強調した。 また、2つのサブタスクにおいて、より多くのデータに基づいてトレーニングされたモデルによるサイズの影響も明らかになりました。

We present ProsAudit, a benchmark in English to assess structural prosodic knowledge in self-supervised learning (SSL) speech models. It consists of two subtasks, their corresponding metrics, and an evaluation dataset. In the protosyntax task, the model must correctly identify strong versus weak prosodic boundaries. In the lexical task, the model needs to correctly distinguish between pauses inserted between words and within words. We also provide human evaluation scores on this benchmark. We evaluated a series of SSL models and found that they were all able to perform above chance on both tasks, even when evaluated on an unseen language. However, non-native models performed significantly worse than native ones on the lexical task, highlighting the importance of lexical knowledge in this task. We also found a clear effect of size with models trained on more data performing better in the two subtasks.
翻訳日:2023-06-03 00:14:58 公開日:2023-06-01
# 機械学習のためのVQE生成量子回路データセット

VQE-generated Quantum Circuit Dataset for Machine Learning ( http://arxiv.org/abs/2302.09751v2 )

ライセンス: Link先を確認
Akimoto Nakayama, Kosuke Mitarai, Leonardo Placidi, Takanori Sugimoto, Keisuke Fujii(参考訳) 量子機械学習は、古典的な機械学習を計算的に上回る可能性を秘めているが、実際に現実的な問題に価値があるかどうかはまだ分かっていない。 いくつかの人工的なシナリオでは、特定の量子機械学習技術が従来のものに比べて有利である可能性が示されているが、量子機械学習がmnistのようなポピュラーな古典的データセットの伝統的な手法を上回っている可能性は低い。 対照的に、量子状態や回路のような量子データを扱うことは、量子手法の恩恵を受けることができるタスクであるかもしれない。 したがって、量子手法が優れていると期待する実用的な量子データセットを開発することが重要である。 本稿では,量子回路のクラスタリングと分類という,現実の世界でまもなく発生するであろう機械学習タスクを提案する。 変動量子固有解法により最適化された量子回路のデータセットを提供する。 我々は、凝縮物質物理学において6つの一般的な種類のハミルトンを4から16キュービットの範囲で利用し、それぞれ300のサンプルを含む6つの異なるクラスの量子回路データセットを生成するために、深さの異なる10種類のアンス\"{a}tzeを適用した。 このデータセットは量子的手法で容易に学習できることを示す。 特に、IBMQを通じて利用可能な実際の4ビットデバイスを用いて、データセットの分類に成功したことを実証する。 量子機械学習が有益な設定と基本データセットを提供することで、フィールドの進歩を奨励し、緩和したいと思っています。

Quantum machine learning has the potential to computationally outperform classical machine learning, but it is not yet clear whether it will actually be valuable for practical problems. While some artificial scenarios have shown that certain quantum machine learning techniques may be advantageous compared to their classical counterpart, it is unlikely that quantum machine learning will outclass traditional methods on popular classical datasets such as MNIST. In contrast, dealing with quantum data, such as quantum states or circuits, may be the task where we can benefit from quantum methods. Therefore, it is important to develop practically meaningful quantum datasets for which we expect quantum methods to be superior. In this paper, we propose a machine learning task that is likely to soon arise in the real world: clustering and classification of quantum circuits. We provide a dataset of quantum circuits optimized by the variational quantum eigensolver. We utilized six common types of Hamiltonians in condensed matter physics, with a range of 4 to 16 qubits, and applied ten different ans\"{a}tze with varying depths (ranging from 3 to 32) to generate a quantum circuit dataset of six distinct classes, each containing 300 samples. We show that this dataset can be easily learned using quantum methods. In particular, we demonstrate a successful classification of our dataset using real 4-qubit devices available through IBMQ. By providing a setting and an elementary dataset where quantum machine learning is expected to be beneficial, we hope to encourage and ease the advancement of the field.
翻訳日:2023-06-03 00:14:44 公開日:2023-06-01
# 予測誤差保証による分散オフラインポリシー評価

Distributional Offline Policy Evaluation with Predictive Error Guarantees ( http://arxiv.org/abs/2302.09456v2 )

ライセンス: Link先を確認
Runzhe Wu, Masatoshi Uehara, Wen Sun(参考訳) 本研究では,ポリシから生成されていないオフラインデータセット,すなわち分散オフラインポリシ評価(OPE)を用いて,ポリシの戻り値の分布を推定する問題について検討する。 本稿では,mle (maximum likelihood estimation) のシーケンスを実行し,mle を通じて訓練できる限り,任意の状態確率的生成モデルを統合する柔軟性を有する適応度推定 (adapted likelihood estimation, fle) というアルゴリズムを提案する。 FLEは、報酬が多次元ベクトルとなるような有限水平と無限水平の割引設定の両方に使うことができる。 我々の理論的結果は、有限水平と無限水平の割引設定の両方において、FLEは総変分距離とワッサーシュタイン距離で基底真理に近い分布を学習できることを示している。 我々の理論的結果は、オフラインデータがテストポリシーのトレースをカバーし、教師付き学習MLEが成功するという条件下で成り立つ。 実験では,2つの生成モデル,ガウス混合モデルと拡散モデルを用いてFLEの性能を示す。 多次元報酬設定では、拡散モデルを持つFLEは、テストポリシの戻りの複雑な分布を推定することができる。

We study the problem of estimating the distribution of the return of a policy using an offline dataset that is not generated from the policy, i.e., distributional offline policy evaluation (OPE). We propose an algorithm called Fitted Likelihood Estimation (FLE), which conducts a sequence of Maximum Likelihood Estimation (MLE) and has the flexibility of integrating any state-of-the-art probabilistic generative models as long as it can be trained via MLE. FLE can be used for both finite-horizon and infinite-horizon discounted settings where rewards can be multi-dimensional vectors. Our theoretical results show that for both finite-horizon and infinite-horizon discounted settings, FLE can learn distributions that are close to the ground truth under total variation distance and Wasserstein distance, respectively. Our theoretical results hold under the conditions that the offline data covers the test policy's traces and that the supervised learning MLE procedures succeed. Experimentally, we demonstrate the performance of FLE with two generative models, Gaussian mixture models and diffusion models. For the multi-dimensional reward setting, FLE with diffusion models is capable of estimating the complicated distribution of the return of a test policy.
翻訳日:2023-06-03 00:14:18 公開日:2023-06-01
# 強化学習によるロバスト二足跳躍制御

Robust and Versatile Bipedal Jumping Control through Reinforcement Learning ( http://arxiv.org/abs/2302.09450v2 )

ライセンス: Link先を確認
Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath(参考訳) この研究は、トルク制御二足歩行ロボットが現実世界でロバストで多用途な動的ジャンプを行えるようにすることで、二足歩行ロボットのアジリティの限界を押し上げることを目的としている。 本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。 そこで我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを提供する新しいポリシー構造を開発した。 多様なジャンプポリシーを訓練するために,異なる目的のために異なるトレーニング段階を含む多段階のトレーニングスキームを利用する。 マルチステージトレーニングの後、ポリシーは本物の2足歩行のカシーロボットに直接転送できる。 さまざまなタスクのトレーニングと、より多様なシナリオの探索は、現実世界の展開中に摂動や低着陸から回復するために、多種多様な学習操作を活用できる非常に堅牢なポリシーにつながる。 提案されたポリシーのロバスト性により、カッシーは長いジャンプ、高架プラットフォームへのジャンプ、マルチアックスジャンプなど、現実世界での様々な挑戦的なジャンプタスクを完了することができる。

This work aims to push the limits of agility for bipedal robots by enabling a torque-controlled bipedal robot to perform robust and versatile dynamic jumps in the real world. We present a reinforcement learning framework for training a robot to accomplish a large variety of jumping tasks, such as jumping to different locations and directions. To improve performance on these challenging tasks, we develop a new policy structure that encodes the robot's long-term input/output (I/O) history while also providing direct access to a short-term I/O history. In order to train a versatile jumping policy, we utilize a multi-stage training scheme that includes different training stages for different objectives. After multi-stage training, the policy can be directly transferred to a real bipedal Cassie robot. Training on different tasks and exploring more diverse scenarios lead to highly robust policies that can exploit the diverse set of learned maneuvers to recover from perturbations or poor landings during real-world deployment. Such robustness in the proposed policy enables Cassie to succeed in completing a variety of challenging jump tasks in the real world, such as standing long jumps, jumping onto elevated platforms, and multi-axes jumps.
翻訳日:2023-06-03 00:13:57 公開日:2023-06-01
# インストラクション-NeRF2NeRF:インストラクションによる3Dシーンの編集

Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions ( http://arxiv.org/abs/2303.12789v2 )

ライセンス: Link先を確認
Ayaan Haque, Matthew Tancik, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa(参考訳) テキストインストラクションによるnrfシーンの編集手法を提案する。 シーンのNeRFと画像の再構成に使用される画像の収集を前提として,画像条件の拡散モデル(InstructPix2Pix)を用いて画像の編集を反復的に行い,編集命令を尊重する最適化された3Dシーンを生成する。 提案手法は,大規模で現実的なシーンの編集が可能であり,従来よりもリアルで目標とした編集を実現できることを示す。

We propose a method for editing NeRF scenes with text-instructions. Given a NeRF of a scene and the collection of images used to reconstruct it, our method uses an image-conditioned diffusion model (InstructPix2Pix) to iteratively edit the input images while optimizing the underlying scene, resulting in an optimized 3D scene that respects the edit instruction. We demonstrate that our proposed method is able to edit large-scale, real-world scenes, and is able to accomplish more realistic, targeted edits than prior work.
翻訳日:2023-06-03 00:05:39 公開日:2023-06-01
# 対物的テクスト記述を用いた推薦システム

Explaining Recommendation System Using Counterfactual Textual Explanations ( http://arxiv.org/abs/2303.11160v2 )

ライセンス: Link先を確認
Niloofar Ranjbar and Saeedeh Momtazi and MohammadMehdi Homayounpour(参考訳) 現在、ディープラーニングモデルの説明可能性と解釈可能性を改善するために、人工知能の分野でかなりの研究が行われている。 エンドユーザーが何らかのアウトプットを生産する理由を理解すれば、システムへの信頼がより容易になる。 レコメンダシステムは、アウトプットをより説明しやすくするために非常に努力されたシステムの例である。 より説明可能な出力を生成する方法の1つは、最小限の機能を変更することで、システム出力を変更する結果となる対実アイテムを生成する、反実的推論を使用することである。 このプロセスは、望ましいアウトプットに大きな影響を与える入力特徴の識別を可能にし、効果的な説明につながる。 本稿では,表とテキストの特徴の両面について,反実的説明を生成する手法を提案する。 提案手法の性能を実世界の3つのデータセットで評価し,ベースライン法と比較して,有効性(モデルに基づく測度に基づく)を求める上で,+5\%の改善効果を示した。

Currently, there is a significant amount of research being conducted in the field of artificial intelligence to improve the explainability and interpretability of deep learning models. It is found that if end-users understand the reason for the production of some output, it is easier to trust the system. Recommender systems are one example of systems that great efforts have been conducted to make their output more explainable. One method for producing a more explainable output is using counterfactual reasoning, which involves altering minimal features to generate a counterfactual item that results in changing the output of the system. This process allows the identification of input features that have a significant impact on the desired output, leading to effective explanations. In this paper, we present a method for generating counterfactual explanations for both tabular and textual features. We evaluated the performance of our proposed method on three real-world datasets and demonstrated a +5\% improvement on finding effective features (based on model-based measures) compared to the baseline method.
翻訳日:2023-06-03 00:05:27 公開日:2023-06-01
# VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] ( http://arxiv.org/abs/2303.04068v2 )

ライセンス: Link先を確認
Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, and Magdalena Balazinska(参考訳) VOCALExploreは,ビデオデータセット上でのドメイン固有モデル構築を支援するシステムである。 VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。 VOCALExploreは、収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。 また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。 最後に、VOCALExploreはモデル性能を犠牲にすることなく低レイテンシを実現する最適化を実装している。 VOCALExploreは、候補取得関数と特徴抽出器が与えられたモデル品質に最も近い性能で、可視遅延が低く(イテレーション1秒あたり約1秒)、高価な前処理が不要であることを示す。

We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
翻訳日:2023-06-03 00:04:44 公開日:2023-06-01
# Bures-Wasserstein 損失を学習した線形生成ネットワークの臨界点と収束解析

Critical Points and Convergence Analysis of Generative Deep Linear Networks Trained with Bures-Wasserstein Loss ( http://arxiv.org/abs/2303.03027v2 )

ライセンス: Link先を確認
Pierre Br\'echet, Katerina Papagiannouli, Jing An, Guido Mont\'ufar(参考訳) 我々は、bures-wasserstein距離で訓練された共分散行列の深い行列分解モデルを考える。 最近の研究は、過パラメータ化低ランク行列近似の最適化問題の研究において重要な進歩を遂げているが、判別的設定と正方形損失に重点が置かれている。 対照的に、このモデルは別の興味深いタイプの損失を考え、生成的設定と結びつける。 我々は、ランク境界行列の空間上のbures-wasserstein距離の臨界点と最小点を特徴付ける。 低ランク行列の場合、この損失のヘシアンは理論的に爆発し、オプティミザトン法の収束を分析するのに挑戦する。 有限ステップサイズ勾配降下に対する損失および収束結果の滑らかな摂動バージョンを用いて,初期重み付けに対する一定の仮定下での勾配流の収束結果を確立する。

We consider a deep matrix factorization model of covariance matrices trained with the Bures-Wasserstein distance. While recent works have made important advances in the study of the optimization problem for overparametrized low-rank matrix approximation, much emphasis has been placed on discriminative settings and the square loss. In contrast, our model considers another interesting type of loss and connects with the generative setting. We characterize the critical points and minimizers of the Bures-Wasserstein distance over the space of rank-bounded matrices. For low-rank matrices the Hessian of this loss can theoretically blow up, which creates challenges to analyze convergence of optimizaton methods. We establish convergence results for gradient flow using a smooth perturbative version of the loss and convergence results for finite step size gradient descent under certain assumptions on the initial weights.
翻訳日:2023-06-03 00:04:30 公開日:2023-06-01
# 特権情報はいつラベルノイズを取り除くのか?

When does Privileged Information Explain Away Label Noise? ( http://arxiv.org/abs/2303.01806v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Mark Collier, Anant Nawalgaria, Alexander D'Amour, Jesse Berent, Rodolphe Jenatton, Effrosyni Kokiopoulou(参考訳) 特権情報(pi)や、トレーニング中に利用可能だがテスト時ではない機能を活用することは、最近ラベルノイズに対処する効果的な方法であることが示されている。 しかし、その効果の理由はよく理解されていない。 本研究では,PIの特性の違いによるラベルノイズの除去に果たす役割について検討した。 実PI(CIFAR-N/H)と新しい大規模ベンチマークであるImageNet-PIによる複数のデータセットの実験により,ネットワークがノイズの多いデータとクリーンなデータを容易に区別できると同時に,学習ショートカットによってノイズの多いサンプルを記憶できることが確認できた。 興味深いことに、PIがターゲットラベルを予測しすぎると、PIメソッドは非PIベースラインよりもパフォーマンスが悪くなります。 これらの知見に基づいて,最新のPI手法のいくつかの改良を提案し,ラベルノイズに対処する手段としてのPIの可能性を示す。 最後に、ラベルノイズに対処するための既存のno-PI手法と結果のPIアプローチを簡単に組み合わせる方法について述べる。

Leveraging privileged information (PI), or features available during training but not at test time, has recently been shown to be an effective method for addressing label noise. However, the reasons for its effectiveness are not well understood. In this study, we investigate the role played by different properties of the PI in explaining away label noise. Through experiments on multiple datasets with real PI (CIFAR-N/H) and a new large-scale benchmark ImageNet-PI, we find that PI is most helpful when it allows networks to easily distinguish clean from noisy data, while enabling a learning shortcut to memorize the noisy examples. Interestingly, when PI becomes too predictive of the target label, PI methods often perform worse than their no-PI baselines. Based on these findings, we propose several enhancements to the state-of-the-art PI methods and demonstrate the potential of PI as a means of tackling label noise. Finally, we show how we can easily combine the resulting PI approaches with existing no-PI techniques designed to deal with label noise.
翻訳日:2023-06-03 00:04:03 公開日:2023-06-01
# 相対表現のためのブートストラップ並列アンカー

Bootstrapping Parallel Anchors for Relative Representations ( http://arxiv.org/abs/2303.00721v2 )

ライセンス: Link先を確認
Irene Cannistraci, Luca Moschella, Valentino Maiorca, Marco Fumero, Antonio Norelli, Emanuele Rodol\`a(参考訳) 潜在埋め込みに対する相対表現の使用は、幅広いアプリケーションにわたって潜在空間通信とゼロショットモデルステッチを可能にする可能性を示している。 それにもかかわらず、相対表現は入力として与えられる一定の量の平行アンカーに依存しており、特定のシナリオでは実現不可能である。 この制限を克服するために、限定された既知の集合(シード)から新しい並列アンカーを発見する最適化手法を提案する。 提案手法は,異なるドメイン間の意味的対応を見つけ,それらの相対空間を整列させ,複数のタスクにおいて競合的な結果が得られる。

The use of relative representations for latent embeddings has shown potential in enabling latent space communication and zero-shot model stitching across a wide range of applications. Nevertheless, relative representations rely on a certain amount of parallel anchors to be given as input, which can be impractical to obtain in certain scenarios. To overcome this limitation, we propose an optimization-based method to discover new parallel anchors from a limited known set (seed). Our approach can be used to find semantic correspondence between different domains, align their relative spaces, and achieve competitive results in several tasks.
翻訳日:2023-06-03 00:03:27 公開日:2023-06-01
# 最小観測可能性原理による量子力学

Quantum Mechanics From Principle of Least Observability ( http://arxiv.org/abs/2302.14619v4 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) 非相対論的量子力学の定式化は最小観測可能性の原理から導出できることを示す。 可観測性(observability)は、物理オブジェクトがそのダイナミクス中に示す識別性(またはトレーサビリティ)を測定するためにここで導入された概念である。 可観測性を定量化するために、プランク定数は、観測可能となるために物理オブジェクトが提示する必要がある離散的なアクション量を定義すると仮定する。 そして観測可能性を計算する 1) 動作変数をプランク定数で古典的な経路に沿って分割し、 2 真空変動による識別可能性に関する情報指標の追加 最小観測可能性原理は不確実性関係を含む量子定式化を回復するだけでなく、位置表現と運動量表現の両方においてschr\"{o}dinger方程式を含む。 概念レベルでは、真空揺らぎに関する情報指標は、基礎となる物理的相互作用を伴わずに絡み合い効果を示すものであり、絡み合い効果が非因果関係であることを示唆している。 数学のレベルでは、相対エントロピーのより一般的な定義を用いて真空揺らぎの情報量を定義することは、相対エントロピーの順序に依存する一般化されたシュルンディンガー方程式をもたらす。 観測可能性の最も低い原理は、新しい数学的ツールであり、他の高度な量子定式化を得られることを期待する。

We show that the formulations of non-relativistic quantum mechanics can be derived from the principle of least observability. Observability is a concept introduced here to measure the distinguishability (or traceability) that a physical object exhibits during its dynamics. To quantify observability, we assume that the Planck constant defines the discrete amount of action a physical object needs to exhibit in order to be observable. Then, observability is calculated by 1.) dividing the action variable along the classical path by the Planck constant, and 2.) adding information metrics on distinguishability due to vacuum fluctuations. The least observability principle not only recovers quantum formulations including the uncertainty relation and the Schr\"{o}dinger equation in both position and momentum representations, but also brings in new results on two fronts. At the conceptual level, we find that the information metrics for vacuum fluctuations are responsible for manifesting entanglement effects without underlying physical interactions, implying that entanglement effects are non-causal. At the mathematical level, defining the information metrics for vacuum fluctuations using more general definitions of relative entropy results in a generalized Schr\"{o}dinger equation that depends on the order of relative entropy. The least observability principle is a new mathematical tool, and we expect other advanced quantum formulations can be obtained from it.
翻訳日:2023-06-03 00:03:16 公開日:2023-06-01
# MCDIP-ADMM : DIPによるCT再構成におけるオーバーフィッティングの克服

MCDIP-ADMM: Overcoming Overfitting in DIP-based CT reconstruction ( http://arxiv.org/abs/2304.03895v3 )

ライセンス: Link先を確認
Chen Cheng, Qingping Zhou(参考訳) 本稿では,CT再構成における教師なし学習手法の適用について検討する。 本研究の動機付けとして,既存のガウス前駆体,l_1$前駆体,全変動前駆体,深部画像前駆体(DIP)について検討した。 DIPは表現能力と視覚性能の点で他の3つよりも優れていた。 しかし、オーバーフィットによりイテレーション数が一定のしきい値を超えるとディップの性能が低下する。 この問題に対処するために,マルチコード深層画像優先法と,マルチプライヤのプラグアンドプレイ代替方向法に基づく新しい手法(MCDIP-ADMM)を提案する。 具体的には、MCDIPは複数の潜在コードを使用して、ジェネレータモデル内の中間層で一連の特徴写像を生成する。 これらの地図はトレーニング可能な重みで構成され、前の完全なイメージを表す。 MCDIP-ADMMは既存の3つの競合と比較して優れた性能を示した。 ガウス雑音を伴う平行ビーム投影の場合、MCDIP-ADMMはDIPで4.3dB、ADMM DIP-WTVで1.7dB、PSNRで1.2dBとなる。 同様に、ポアソンノイズを伴うファンビーム投影では、CDIP-ADMMはDIP平均3.09dB、ADMM DIP-WTV平均1.86dB、PSNRではPnP-DIP平均0.84dBを達成する。

This paper investigates the application of unsupervised learning methods for computed tomography (CT) reconstruction. To motivate our work, we review several existing priors, namely the truncated Gaussian prior, the $l_1$ prior, the total variation prior, and the deep image prior (DIP). We find that DIP outperforms the other three priors in terms of representational capability and visual performance. However, the performance of DIP deteriorates when the number of iterations exceeds a certain threshold due to overfitting. To address this issue, we propose a novel method (MCDIP-ADMM) based on Multi-Code Deep Image Prior and plug-and-play Alternative Direction Method of Multipliers. Specifically, MCDIP utilizes multiple latent codes to generate a series of feature maps at an intermediate layer within a generator model. These maps are then composed with trainable weights, representing the complete image prior. Experimental results demonstrate the superior performance of the proposed MCDIP-ADMM compared to three existing competitors. In the case of parallel beam projection with Gaussian noise, MCDIP-ADMM achieves an average improvement of 4.3 dB over DIP, 1.7 dB over ADMM DIP-WTV, and 1.2 dB over PnP-DIP in terms of PSNR. Similarly, for fan-beam projection with Poisson noise, MCDIP-ADMM achieves an average improvement of 3.09 dB over DIP, 1.86 dB over ADMM DIP-WTV, and 0.84 dB over PnP-DIP in terms of PSNR.
翻訳日:2023-06-02 23:57:58 公開日:2023-06-01
# 機械学習とドメイン知識を用いたデジタル健康行動変化介入のパーソナライズ

Personalising Digital Health Behavior Change Interventions using Machine Learning and Domain Knowledge ( http://arxiv.org/abs/2304.03392v3 )

ライセンス: Link先を確認
Aneta Lisowska, Szymon Wilk, Mor Peleg(参考訳) 我々は,患者の行動変化介入(BCI)への適応を支援する仮想コーチングシステムを開発している。 提案システムは, 患者が対象行動を行うかどうかを予測し, bciのパーソナライズを導くために, 機能制御を伴う偽例を用いる。 患者データを様々なレベルの受容性を持つシミュレーションデータを用いて介入を行い,本システムの評価を可能にする研究設計に着く。

We are developing a virtual coaching system that helps patients adhere to behavior change interventions (BCI). Our proposed system predicts whether a patient will perform the targeted behavior and uses counterfactual examples with feature control to guide personalizsation of BCI. We use simulated patient data with varying levels of receptivity to intervention to arrive at the study design which would enable evaluation of our system.
翻訳日:2023-06-02 23:57:25 公開日:2023-06-01
# スコアベース拡散ポリシーを用いた目標条件付き模倣学習

Goal-Conditioned Imitation Learning using Score-based Diffusion Policies ( http://arxiv.org/abs/2304.02532v2 )

ライセンス: Link先を確認
Moritz Reuss, Maximilian Li, Xiaogang Jia, Rudolf Lioutikov(参考訳) 本稿では,スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。 我々は、ゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しいポリシー表現を適用し、報酬のない大規模未計算データセットから汎用目標特定ポリシーを学習する。 我々の新しいゴール条件付きポリシーアーキテクチャ "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) は、生成的なスコアベースの拡散モデルをポリシーとして活用する。 BESOは、スコアモデルの学習を推論サンプリングプロセスから切り離し、その結果、他の拡散ベースのポリシーの30以上のステップと比較して、わずか3ステップでゴール特定行動を生成する高速サンプリング戦略を可能にする。 また、besoは表現力が高く、プレイデータの解空間に存在するマルチモダリティを効果的に捉えることができる。 latent planやc-betのような従来の方法とは異なり、besoは効果的な目標条件付き行動学習のために複雑な階層ポリシーや追加のクラスタリングに依存しない。 最後に, BESO を用いてプレイデータからゴールに依存しないポリシーを学習する方法を示す。 私たちの知る限りでは これが最初の作品です a)そのような分離されたsdmに基づく行動方針を表す b)GCILの領域でSDMに基づく政策を学習し、 c) プレイデータからゴール依存とゴール非依存のポリシーを同時に学習する方法を提供する。 詳細なシミュレーションによりbesoを評価し,課題ベンチマークにおいて,最先端の目標条件付き模倣学習手法を一貫して上回っていることを示す。 また,目標条件付き行動生成法の有効性を示すため,広範囲なアブレーション研究と実験を行った。 デモとコードはhttps://intuitive-robots.github.io/beso-website/で入手できる。

We propose a new policy representation based on score-based diffusion models (SDMs). We apply our new policy representation in the domain of Goal-Conditioned Imitation Learning (GCIL) to learn general-purpose goal-specified policies from large uncurated datasets without rewards. Our new goal-conditioned policy architecture "$\textbf{BE}$havior generation with $\textbf{S}$c$\textbf{O}$re-based Diffusion Policies" (BESO) leverages a generative, score-based diffusion model as its policy. BESO decouples the learning of the score model from the inference sampling process, and, hence allows for fast sampling strategies to generate goal-specified behavior in just 3 denoising steps, compared to 30+ steps of other diffusion based policies. Furthermore, BESO is highly expressive and can effectively capture multi-modality present in the solution space of the play data. Unlike previous methods such as Latent Plans or C-Bet, BESO does not rely on complex hierarchical policies or additional clustering for effective goal-conditioned behavior learning. Finally, we show how BESO can even be used to learn a goal-independent policy from play-data using classifier-free guidance. To the best of our knowledge this is the first work that a) represents a behavior policy based on such a decoupled SDM b) learns an SDM based policy in the domain of GCIL and c) provides a way to simultaneously learn a goal-dependent and a goal-independent policy from play-data. We evaluate BESO through detailed simulation and show that it consistently outperforms several state-of-the-art goal-conditioned imitation learning methods on challenging benchmarks. We additionally provide extensive ablation studies and experiments to demonstrate the effectiveness of our method for goal-conditioned behavior generation. Demonstrations and Code are available at https://intuitive-robots.github.io/beso-website/
翻訳日:2023-06-02 23:57:16 公開日:2023-06-01
# テキストに基づく人物検索のためのクロスモーダル特徴の校正

Calibrating Cross-modal Features for Text-Based Person Searching ( http://arxiv.org/abs/2304.02278v2 )

ライセンス: Link先を確認
Donglai Wei, Sipeng Zhang, Tong Yang, Yang Liu, Jing Liu(参考訳) テキストベースPerson Searching (TBPS) は,大規模ギャラリーからの歩行者対象の画像の特定を目的としている。 クロスモーダルなtbpsタスクでは、共通の埋め込み空間でよく分布した表現を得ることが重要であり、モーダル間ギャップを減少させる。 さらに,詳細な画像テキスト対応を効率的に学習し,類似したターゲットを識別し,きめ細かいターゲット探索を可能にすることも重要である。 これらの課題に対処するために,我々は,これらの2つの視点からクロスモーダルな特徴を包含する単純かつ効果的な手法を提案する。 本手法は,細粒度のクロスモーダル特性を提供するための2つの新しい損失からなる。 Sewキャリブレーションの損失は、テキストキャプションの品質をガイダンスとして取り、画像とテキストのモダリティを調整します。 一方、マスキングキャプションモデリング(mcm)ロスは、マスキングキャプション予測タスクを利用して、テキスト部品と視覚部品間の詳細かつ汎用的な関係を確立する。 提案手法は費用対効果が高く,テキストキャプションによる特定人物の検索が容易である。 アーキテクチャはマルチレベルブランチや余分なインタラクションモジュールを持たないデュアルエンコーダのみを持ち、高速推論を行う。 提案手法は, CUHK-PEDES, ICFG-PEDES, RSTPReIDにおいて, 73.81%, 74.25%, 57.35%の精度で3つのベンチマークの上位結果を得た。 当社のスケーラブルな手法が強固なベースラインとして機能し、TBPSの将来的な研究を容易にすることを願っています。 コードは公開される予定だ。

Text-Based Person Searching (TBPS) aims to identify the images of pedestrian targets from a large-scale gallery with given textual caption. For cross-modal TBPS task, it is critical to obtain well-distributed representation in the common embedding space to reduce the inter-modal gap. Furthermore, it is also essential to learn detailed image-text correspondence efficiently to discriminate similar targets and enable fine-grained target search. To address these challenges, we present a simple yet effective method that calibrates cross-modal features from these two perspectives. Our method consists of two novel losses to provide fine-grained cross-modal features. The Sew calibration loss takes the quality of textual captions as guidance and aligns features between image and text modalities. On the other hand, the Masking Caption Modeling (MCM) loss leverages a masked captions prediction task to establish detailed and generic relationships between textual and visual parts. The proposed method is cost-effective and can easily retrieve specific persons with textual captions. The architecture has only a dual-encoder without multi-level branches or extra interaction modules, making a high-speed inference. Our method achieves top results on three popular benchmarks with 73.81%, 74.25% and 57.35% Rank1 accuracy on the CUHK-PEDES, ICFG-PEDES, and RSTPReID, respectively. We hope our scalable method will serve as a solid baseline and help ease future research in TBPS. The code will be publicly available.
翻訳日:2023-06-02 23:56:47 公開日:2023-06-01
# 軽量ビジョントランスにおける局所認識の再考

Rethinking Local Perception in Lightweight Vision Transformer ( http://arxiv.org/abs/2303.17803v5 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He(参考訳) 視覚変換器(ViT)は様々な視覚タスクに有効であることが示されている。 しかし、それらをモバイルフレンドリーなサイズにリサイズすると、パフォーマンスが大幅に低下する。 そのため、軽量な視覚トランスフォーマーの開発は重要な研究分野となっている。 本稿では,コンテキスト対応の局所拡張を利用した軽量視覚トランスフォーマであるcloformerを紹介する。 cloformerは、バニラ畳み込み演算子でよく使われるグローバルな共有重みと注意を向けるトークン固有のコンテキスト認識重みの関係を探求し、高頻度の局所情報をキャプチャする効果的で簡単なモジュールを提案する。 CloFormerでは、注意スタイルの畳み込み演算子であるAttnConvを紹介します。 提案するattnconvは、共有重みを使ってローカル情報を集約し、注意深く設計されたコンテキストアウェア重みを配置し、ローカル機能を強化する。 CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。 画像分類,物体検出,意味セグメンテーションなどの広範な実験を行い,cloformerの優位性を実証した。 コードは \url{https://github.com/qhfan/cloformer} で入手できる。

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer. The code is available at \url{https://github.com/qhfan/CloFormer}.
翻訳日:2023-06-02 23:56:18 公開日:2023-06-01
# 1次元キュービットアレイにおける距離3 9 量子ビット表面符号の測定-無障害耐性論理ゼロ状態符号化

Measurement-free fault-tolerant logical zero-state encoding of the distance-three nine-qubit surface code in a one-dimensional qubit array ( http://arxiv.org/abs/2303.17211v2 )

ライセンス: Link先を確認
Hayato Goto, Yinghao Ho, and Taro Kanao(参考訳) 量子エラー訂正符号で符号化された論理零状態の生成は、フォールトトレラントな量子計算の第一ステップであるが、一般にかなりのリソースオーバーヘッドを必要とする。 このようなオーバーヘッドを軽減するため,距離3,9ビット面符号の符号化手法を提案し,その耐故障性を示す。 この方法は、他のフォールトトレラント符号化法とは異なり、測定を必要としない。 さらに、これは1次元キュービットアレイに適用できる。 これらの事実を観察し,クラウド上の超伝導量子コンピュータを用いた表面符号の論理零状態符号化を実験的に実証した。 また,qubitアレー専用の動的デカップリング手法により,本マシンの固有残差相互作用による遅延の抑制を実験的に実証した。 この手法をより大きなコードに拡張するために、表面コード自体との結合も検討し、距離9、81キュービットのコードを生成する。 この大規模コードのフォールトトレラントな符号化は,適切なエラー検出によって実現できることを示す。 そこで,提案手法は,低オーバヘッドフォールトトレラント量子計算のための新しい手法を提供する。

Generation of logical zero states encoded with a quantum error-correcting code is the first step for fault-tolerant quantum computation, but requires considerably large resource overheads in general. To reduce such overheads, we propose an efficient encoding method for the distance-three, nine-qubit surface code and show its fault tolerance. This method needs no measurement, unlike other fault-tolerant encoding methods. Moreover, this is applicable to a one-dimensional qubit array. Observing these facts, we experimentally demonstrate the logical zero-state encoding of the surface code using a superconducting quantum computer on the cloud. We also experimentally demonstrate the suppression of fast dephasing due to intrinsic residual interactions in this machine by a dynamical decoupling technique dedicated for the qubit array. To extend this method to larger codes, we also investigate the concatenation of the surface code with itself, resulting in a distance-nine, 81-qubit code. We numerically show that fault-tolerant encoding of this large code can be achieved by appropriate error detection. Thus, the proposed encoding method will provide a new way to low-overhead fault-tolerant quantum computation.
翻訳日:2023-06-02 23:55:59 公開日:2023-06-01
# G-不変グラフラプラシアン

The G-invariant graph Laplacian ( http://arxiv.org/abs/2303.17001v3 )

ライセンス: Link先を確認
Eitan Rosen, Paulina Hoyos, Xiuyuan Cheng, Joe Kileel and Yoel Shkolnisky(参考訳) グラフラプラシアンに基づく多様体上のデータに対するアルゴリズムは、次元減少、クラスタリング、デノナイジングといったタスクに有効であることが証明されている。 本研究では,データポイントが多様体上に存在するだけでなく,連続群の作用の下でも閉集合であるようなデータセットを考える。 そのようなデータセットの例として、低次元多様体上の体積があり、各体積は3次元空間で回転することができる。 G-不変グラフ Laplacian を導入し、グラフ Laplacian はデータセット上の群の作用を考慮し、グラフ Laplacian を一般化する。 標準グラフ Laplacian と同様に、G-不変グラフ Laplacian はデータ多様体上の Laplace-Beltrami 作用素に収束するが、収束速度は大幅に改善される。 さらに、G-不変グラフラプラシアンの固有函数は群要素とある種の行列の固有ベクトルの間のテンソル積の形式を認め、FFT型アルゴリズムを用いて効率的に計算できることを示す。 特殊ユニタリ群 SU(2) の作用の下で閉じたノイジー多様体上のデータをフィルタリングする問題に対する我々の構成とその利点を実証する。

Graph Laplacian based algorithms for data lying on a manifold have been proven effective for tasks such as dimensionality reduction, clustering, and denoising. In this work, we consider data sets whose data points not only lie on a manifold, but are also closed under the action of a continuous group. An example of such a data set is volumes that lie on a low dimensional manifold, where each volume may be rotated in three-dimensional space. We introduce the G-invariant graph Laplacian that generalizes the graph Laplacian by accounting for the action of the group on the data set. We show that like the standard graph Laplacian, the G-invariant graph Laplacian converges to the Laplace-Beltrami operator on the data manifold, but with a significantly improved convergence rate. Furthermore, we show that the eigenfunctions of the G-invariant graph Laplacian admit the form of tensor products between the group elements and eigenvectors of certain matrices, which can be computed efficiently using FFT-type algorithms. We demonstrate our construction and its advantages on the problem of filtering data on a noisy manifold closed under the action of the special unitary group SU(2).
翻訳日:2023-06-02 23:55:41 公開日:2023-06-01
# 数量体ランダムフォレストモデルによる密度汎関数理論の完全基底集合極限の補間

Extrapolation to complete basis-set limit in density-functional theory by quantile random-forest models ( http://arxiv.org/abs/2303.14760v3 )

ライセンス: Link先を確認
Daniel T. Speckhard, Christian Carbogno, Luca Ghiringhelli, Sven Lubeck, Matthias Scheffler, Claudia Draxl(参考訳) 密度汎関数理論(DFT)計算の数値的精度は、基底セットのサイズがもっとも重要である様々な計算パラメータに依存する。 最終的な精度は無限に大きな基底集合、すなわち完全な基底集合(CBS)の極限で到達する。 本研究の目的は, 有限基底サイズ計算をCBS限界まで外挿する機械学習モデルを見つけることである。 2つの全電子DFT符号(エキサイティングとFHIエイム)で調べられた63個のバイナリソリッドのデータセットから始める。 基礎集合サイズの関数としての完全収束計算に対する総エネルギー補正を量的ランダム森モデルを用いて推定する。 ランダムフォレストモデルでは、符号の25%未満の対称平均絶対パーセンテージ誤差を達成し、文献における従来のアプローチを上回っている。 提案手法は予測間隔も提供し,モデルの予測の不確かさを定量化する。

The numerical precision of density-functional-theory (DFT) calculations depends on a variety of computational parameters, one of the most critical being the basis-set size. The ultimate precision is reached with an infinitely large basis set, i.e., in the limit of a complete basis set (CBS). Our aim in this work is to find a machine-learning model that extrapolates finite basis-size calculations to the CBS limit. We start with a data set of 63 binary solids investigated with two all-electron DFT codes, exciting and FHI-aims, which employ very different types of basis sets. A quantile-random-forest model is used to estimate the total-energy correction with respect to a fully converged calculation as a function of the basis-set size. The random-forest model achieves a symmetric mean absolute percentage error of lower than 25% for both codes and outperforms previous approaches in the literature. Our approach also provides prediction intervals, which quantify the uncertainty of the models' predictions.
翻訳日:2023-06-02 23:55:20 公開日:2023-06-01
# 物理認識型単一画像デハジングのための曲線コントラスト正則化

Curricular Contrastive Regularization for Physics-aware Single Image Dehazing ( http://arxiv.org/abs/2303.14218v2 )

ライセンス: Link先を確認
Yu Zheng, Jiahui Zhan, Shengfeng He, Junyu Dong, and Yong Du(参考訳) 不適切な性質を考えると、単一の画像デハジングのためにコントラスト正則化が開発され、負の画像からの情報を下界として導入している。 しかし、対照的なサンプルは、通常、負はクリアな(すなわち正の)像から遠ざかって表現され、解空間は下限のままである。 さらに、深層デハジングモデルの解釈性は、ハジング過程の物理に対して過小評価されている。 本稿では, コンセンサスでないコントラスト空間を対象として, 非コンセンサスなコントラスト正規化を提案する。 より低いバウンダリの制約を提供する私たちの負は 1) ぼやけた画像, そして 2) 他の方法による対応する復旧 さらに、鮮明な画像の埋め込みと負の類似性が異なるため、複数のコンポーネントの学習困難は本質的に不均衡である。 この問題に取り組むために,異なる否定の重要性を強調するためにカリキュラム学習戦略をカスタマイズする。 さらに, 特徴空間の解釈性を向上させるため, 大気圧散乱モデルに基づく物理対応二分岐ユニットを構築した。 このユニットとカーキュラーコントラスト正則化により、我々はc2pnetと呼ばれるデハザーズネットワークを確立する。 我々のC2PNetは、SOTS-indoorデータセットとSOTS-outdoorデータセットにおいて、それぞれ3.94dBと1.50dBの極端なPSNRアップで最先端の手法を大幅に上回ることを示した。

Considering the ill-posed nature, contrastive regularization has been developed for single image dehazing, introducing the information from negative images as a lower bound. However, the contrastive samples are nonconsensual, as the negatives are usually represented distantly from the clear (i.e., positive) image, leaving the solution space still under-constricted. Moreover, the interpretability of deep dehazing models is underexplored towards the physics of the hazing process. In this paper, we propose a novel curricular contrastive regularization targeted at a consensual contrastive space as opposed to a non-consensual one. Our negatives, which provide better lower-bound constraints, can be assembled from 1) the hazy image, and 2) corresponding restorations by other existing methods. Further, due to the different similarities between the embeddings of the clear image and negatives, the learning difficulty of the multiple components is intrinsically imbalanced. To tackle this issue, we customize a curriculum learning strategy to reweight the importance of different negatives. In addition, to improve the interpretability in the feature space, we build a physics-aware dual-branch unit according to the atmospheric scattering model. With the unit, as well as curricular contrastive regularization, we establish our dehazing network, named C2PNet. Extensive experiments demonstrate that our C2PNet significantly outperforms state-of-the-art methods, with extreme PSNR boosts of 3.94dB and 1.50dB, respectively, on SOTS-indoor and SOTS-outdoor datasets.
翻訳日:2023-06-02 23:55:03 公開日:2023-06-01
# 自己引用グラフを用いたインパクト指向文脈学者のプロファイリング

Impact-Oriented Contextual Scholar Profiling using Self-Citation Graphs ( http://arxiv.org/abs/2304.12217v2 )

ライセンス: Link先を確認
Yuankai Luo, Lei Shi, Mufan Xu, Yuwen Ji, Fengli Xiao, Chunming Hu, Zhiguang Shan(参考訳) 研究者の科学的影響を定量的にプロファイリングすることは、現代研究社会にとって重要である。 現代の文献指標(h-indexなど)やリスト、ネットワークの実践は、学者のランキングではよく機能するが、プロファイル推論や理解のような学者中心の分析的なタスクには構造化された文脈を提供していない。 本稿では,構造化コンテキスト,研究者中心,進化に富む3つの必須要件を満たす,グラフベースの新たな学術プロファイルのスイートであるgeneticflow(gf)を提案する。 何百万人もの学者による大規模学術データソース上でGFを計算するためのフレームワークを提案する。 このフレームワークは、新しい教師なしアドバイザ・アドバイザ検出アルゴリズム、解釈可能な特徴を用いたよく設計された引用型分類器、微調整されたグラフニューラルネットワーク(GNN)モデルを含んでいる。 科学賞推理の実際の課題について評価を行う。 実験の結果,ベストgfプロファイルのf1スコアは,検討した6つのコンピュータサイエンス分野において,インパクトインジケータや書誌ネットワークの代替手法を有意に上回っていることがわかった。 さらに、63.6%-66.5%のノードと12.5%-29.9%のエッジを持つコアgfプロファイルは、6つのフィールドのうち5つで既存の方法を大きく上回っている。 GFプロファイリングの結果の可視化は、高インパクト研究者のための人間の説明可能なパターンも明らかにする。

Quantitatively profiling a scholar's scientific impact is important to modern research society. Current practices with bibliometric indicators (e.g., h-index), lists, and networks perform well at scholar ranking, but do not provide structured context for scholar-centric, analytical tasks such as profile reasoning and understanding. This work presents GeneticFlow (GF), a suite of novel graph-based scholar profiles that fulfill three essential requirements: structured-context, scholar-centric, and evolution-rich. We propose a framework to compute GF over large-scale academic data sources with millions of scholars. The framework encompasses a new unsupervised advisor-advisee detection algorithm, a well-engineered citation type classifier using interpretable features, and a fine-tuned graph neural network (GNN) model. Evaluations are conducted on the real-world task of scientific award inference. Experiment outcomes show that the F1 score of best GF profile significantly outperforms alternative methods of impact indicators and bibliometric networks in all the 6 computer science fields considered. Moreover, the core GF profiles, with 63.6%-66.5% nodes and 12.5%-29.9% edges of the full profile, still significantly outrun existing methods in 5 out of 6 fields studied. Visualization of GF profiling result also reveals human explainable patterns for high-impact scholars.
翻訳日:2023-06-02 23:46:49 公開日:2023-06-01
# 応用機械学習における電力グリッドの動作パターンと一般化リスク

Power Grid Behavioral Patterns and Risks of Generalization in Applied Machine Learning ( http://arxiv.org/abs/2304.10702v2 )

ライセンス: Link先を確認
Shimiao Li, Jan Drgona, Shrirang Abhyankar, Larry Pileggi(参考訳) 近年、電力グリッドアプリケーション向けに設計されたデータ駆動アプローチの豊富な文献が見られる。 しかし、ドメイン知識の不十分な考慮は、メソッドの実用性に高いリスクを課す可能性がある。 具体的には、グリッド固有の時空間パターン(負荷、生成、トポロジーなど)を無視して、新しい入力に対して非実用的、実現不可能、あるいは全く意味のない予測を出力する。 この問題に対処するため,本研究では実世界の運用データを調査し,時間変化トポロジ,負荷,発生,および個々の負荷と世代間の空間差(ピーク時,多様なスタイル)など,電力グリッドの挙動パターンの洞察を提供する。 そして,これらの観測結果に基づいて,モデル設計とトレーニングにおけるグリッド固有のパターンを無視した既存ML作業の一般化リスクを評価する。

Recent years have seen a rich literature of data-driven approaches designed for power grid applications. However, insufficient consideration of domain knowledge can impose a high risk to the practicality of the methods. Specifically, ignoring the grid-specific spatiotemporal patterns (in load, generation, and topology, etc.) can lead to outputting infeasible, unrealizable, or completely meaningless predictions on new inputs. To address this concern, this paper investigates real-world operational data to provide insights into power grid behavioral patterns, including the time-varying topology, load, and generation, as well as the spatial differences (in peak hours, diverse styles) between individual loads and generations. Then based on these observations, we evaluate the generalization risks in some existing ML works causedby ignoring these grid-specific patterns in model design and training.
翻訳日:2023-06-02 23:45:45 公開日:2023-06-01
# グラフニューラルネットワークを用いた河川ネットワークシステムの異常検出

Graph Neural Network-Based Anomaly Detection for River Network Systems ( http://arxiv.org/abs/2304.09367v3 )

ライセンス: Link先を確認
Katie Buchhorn, Edgar Santos-Fernandez, Kerrie Mengersen, Robert Salomone(参考訳) 水は河川網の活力であり、その品質は水生生態系と人間社会の両方を維持する上で重要な役割を担っている。 水質のリアルタイムモニタリングは, センサ技術に依存しつつある。 異常検出はセンサデータの誤ったパターンを特定するのに不可欠であるが、通常の状況でもデータの複雑さと変動性のために困難な課題となる。 本稿では,河川ネットワークセンサデータに対する異常検出の課題に対する解決法を提案する。 我々はグラフニューラルネットワークモデル、最近提案されたグラフ偏差ネットワーク(GDN)を用いて、グラフ注意に基づく予測を用いて、センサ間の複雑な時空間関係をキャプチャする。 本稿では,学習グラフに基づく別の異常スコアリング手法GDN+を提案する。 モデルの有効性を評価するため,高度に洗練された依存構造と各種のサブシーケンス異常を用いたベンチマークシミュレーション実験を導入する。 このベースラインアプローチであるgdnの強みと弱みを,複雑な実世界の河川ネットワークデータに対する他のベンチマーク手法と比較して検討する。 GDN+は高次元データのベースラインアプローチよりも優れており、解釈性も向上している。 gnnadというソフトウェアも導入しています。

Water is the lifeblood of river networks, and its quality plays a crucial role in sustaining both aquatic ecosystems and human societies. Real-time monitoring of water quality is increasingly reliant on in-situ sensor technology. Anomaly detection is crucial for identifying erroneous patterns in sensor data, but can be a challenging task due to the complexity and variability of the data, even under normal conditions. This paper presents a solution to the challenging task of anomaly detection for river network sensor data, which is essential for accurate and continuous monitoring. We use a graph neural network model, the recently proposed Graph Deviation Network (GDN), which employs graph attention-based forecasting to capture the complex spatio-temporal relationships between sensors. We propose an alternate anomaly scoring method, GDN+, based on the learned graph. To evaluate the model's efficacy, we introduce new benchmarking simulation experiments with highly-sophisticated dependency structures and subsequence anomalies of various types. We further examine the strengths and weaknesses of this baseline approach, GDN, in comparison to other benchmarking methods on complex real-world river network data. Findings suggest that GDN+ outperforms the baseline approach in high-dimensional data, while also providing improved interpretability. We also introduce software called gnnad.
翻訳日:2023-06-02 23:45:30 公開日:2023-06-01
# Data-OOB: シンプルで効率的なデータ値として推定されるアウトオブバッグ

Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value ( http://arxiv.org/abs/2304.07718v3 )

ライセンス: Link先を確認
Yongchan Kwon, James Zou(参考訳) データバリュエーション(data valuation)は、モデルトレーニングに有用なデータや有害なデータに関する統計的な洞察を提供するための強力なフレームワークである。 多くのShapleyベースのデータ評価手法は、様々な下流タスクにおいて有望な結果を示しているが、多くのモデルをトレーニングする必要があるため、計算的に困難であることが知られている。 その結果、大規模なデータセットに適用することは不可能であると認識されている。 そこで本研究では,バッグ外推定を用いたバッグモデルのためのデータ評価手法であるData-OOBを提案する。 提案手法は計算効率が高く,訓練された弱学習者を用いて数百万データにスケールできる。 具体的には、Data-OOBは、評価するために10^6$のサンプルがあり、入力次元が100である場合、1つのCPUプロセッサ上で2.25時間未満である。 さらに、data-oob は、2つの異なる点を比較した場合の無限小jackknife影響関数と同じ重要なデータポイントを識別する、という理論的な解釈を持っている。 数千のサンプルサイズを持つ12の分類データセットを用いて,包括的な実験を行った。 提案手法は,既存のデータ評価手法を著しく上回っており,誤ラベルデータを特定し,有用な(あるいは有害な)データポイントのセットを見つけ,実世界のアプリケーションでデータ値を適用する可能性を強調している。

Data valuation is a powerful framework for providing statistical insights into which data are beneficial or detrimental to model training. Many Shapley-based data valuation methods have shown promising results in various downstream tasks, however, they are well known to be computationally challenging as it requires training a large number of models. As a result, it has been recognized as infeasible to apply to large datasets. To address this issue, we propose Data-OOB, a new data valuation method for a bagging model that utilizes the out-of-bag estimate. The proposed method is computationally efficient and can scale to millions of data by reusing trained weak learners. Specifically, Data-OOB takes less than 2.25 hours on a single CPU processor when there are $10^6$ samples to evaluate and the input dimension is 100. Furthermore, Data-OOB has solid theoretical interpretations in that it identifies the same important data point as the infinitesimal jackknife influence function when two different points are compared. We conduct comprehensive experiments using 12 classification datasets, each with thousands of sample sizes. We demonstrate that the proposed method significantly outperforms existing state-of-the-art data valuation methods in identifying mislabeled data and finding a set of helpful (or harmful) data points, highlighting the potential for applying data values in real-world applications.
翻訳日:2023-06-02 23:44:58 公開日:2023-06-01
# 自己監督型視覚表現学習のための多モードオンライン知識蒸留

Multi-Mode Online Knowledge Distillation for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2304.06461v2 )

ライセンス: Link先を確認
Kaiyou Song, Jin Xie, Shan Zhang, Zimeng Luo(参考訳) 自己教師付き学習(SSL)は視覚表現学習において顕著な進歩を遂げている。 SSLと知識蒸留(SSL-KD)を組み合わせて、小型モデルの表現学習性能を高める研究もある。 本研究では,自己教師付き視覚表現学習を促進するマルチモードオンライン知識蒸留法(mokd)を提案する。 静的事前訓練された教師から学生に知識を伝達する既存のSSL-KD法とは異なり、MOKDでは2つの異なるモデルが自己指導的な方法で協調的に学習する。 具体的には、mokdは自己蒸留モードと相互蒸留モードの2つの蒸留モードからなる。 自己蒸留は各モデルに対して独立して自己教師付き学習を行い、相互蒸留は異なるモデル間の知識相互作用を実現する。 クロス蒸留では,異なるモデル間の意味的特徴アライメントを強化するために,クロスアテンション特徴探索戦略を提案する。 その結果、2つのモデルは相互に知識を吸収し、表現学習性能を高めることができる。 異なるバックボーンとデータセットの広範な実験結果から、2つの異種モデルがMOKDの恩恵を受け、独立に訓練されたベースラインよりも優れていることが示された。 さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。

Self-supervised learning (SSL) has made remarkable progress in visual representation learning. Some studies combine SSL with knowledge distillation (SSL-KD) to boost the representation learning performance of small models. In this study, we propose a Multi-mode Online Knowledge Distillation method (MOKD) to boost self-supervised visual representation learning. Different from existing SSL-KD methods that transfer knowledge from a static pre-trained teacher to a student, in MOKD, two different models learn collaboratively in a self-supervised manner. Specifically, MOKD consists of two distillation modes: self-distillation and cross-distillation modes. Among them, self-distillation performs self-supervised learning for each model independently, while cross-distillation realizes knowledge interaction between different models. In cross-distillation, a cross-attention feature search strategy is proposed to enhance the semantic feature alignment between different models. As a result, the two models can absorb knowledge from each other to boost their representation learning performance. Extensive experimental results on different backbones and datasets demonstrate that two heterogeneous models can benefit from MOKD and outperform their independently trained baseline. In addition, MOKD also outperforms existing SSL-KD methods for both the student and teacher models.
翻訳日:2023-06-02 23:44:35 公開日:2023-06-01
# 動的離散選択モデルのためのデータ駆動状態集約手法

A Data-Driven State Aggregation Approach for Dynamic Discrete Choice Models ( http://arxiv.org/abs/2304.04916v3 )

ライセンス: Link先を確認
Sinong Geng, Houssam Nassif and Carlos A. Manzanares(参考訳) 本研究では,エージェント行動データを用いてエージェント報酬関数(構造的パラメータとも呼ばれる)のパラメータを推定する動的離散選択モデルについて検討する。 そのようなモデルの最大確率推定には、次元の呪いによって制限される動的プログラミングが必要である。 本稿では,状態の選択と集約のためのデータ駆動型手法を提供する新しいアルゴリズムを提案する。 我々の方法は2つの段階で動作する。 第1段階では,フレキシブルな逆強化学習手法を用いてエージェントq関数を推定する。 これらの推定されたq関数とクラスタリングアルゴリズムを用いて、q関数の変化を駆動する最も重要な状態のサブセットを選択する。 第2段階では、これらの選択された「集約」状態を用いて、一般に使用されるネスト固定点アルゴリズムを用いて最大確率推定を行う。 提案手法は,問題次元を小さくすることで次元の呪いを軽減する。 理論的には、関連する推定誤差の有限サンプル境界を導出し、計算複雑性、推定誤差、サンプル複雑性のトレードオフを特徴付ける。 2つの古典的動的離散的選択推定法におけるアルゴリズムの実証的性能を示す。

We study dynamic discrete choice models, where a commonly studied problem involves estimating parameters of agent reward functions (also known as "structural" parameters), using agent behavioral data. Maximum likelihood estimation for such models requires dynamic programming, which is limited by the curse of dimensionality. In this work, we present a novel algorithm that provides a data-driven method for selecting and aggregating states, which lowers the computational and sample complexity of estimation. Our method works in two stages. In the first stage, we use a flexible inverse reinforcement learning approach to estimate agent Q-functions. We use these estimated Q-functions, along with a clustering algorithm, to select a subset of states that are the most pivotal for driving changes in Q-functions. In the second stage, with these selected "aggregated" states, we conduct maximum likelihood estimation using a commonly used nested fixed-point algorithm. The proposed two-stage approach mitigates the curse of dimensionality by reducing the problem dimension. Theoretically, we derive finite-sample bounds on the associated estimation error, which also characterize the trade-off of computational complexity, estimation error, and sample complexity. We demonstrate the empirical performance of the algorithm in two classic dynamic discrete choice estimation applications.
翻訳日:2023-06-02 23:44:15 公開日:2023-06-01
# スケーラブル最適マージン分配機

Scalable Optimal Margin Distribution Machine ( http://arxiv.org/abs/2305.04837v2 )

ライセンス: Link先を確認
Yilin Wang, Nan Cao, Teng Zhang, Xuanhua Shi and Hai Jin(参考訳) 最適マージン分布マシン(optimize margin distribution machine、odm)は、新しいマージン理論に根ざした新しく提案された統計学習フレームワークである。 それにもかかわらず、他のカーネルメソッドと同様に計算時間とメモリの両方に関するユビキタスなスケーラビリティの問題に悩まされている。 本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。 非線形カーネルに対しては,各パーティションで訓練されたローカルODMを,グローバルカーネルに高速に収束させる分散対応パーティション法を提案する。 線形カーネルを適用すると、通信効率のよいSVRG法を拡張してトレーニングをさらに加速する。 大規模な実証研究により,提案手法は計算効率が高く,一般化をほとんど悪化させることはなかった。

Optimal margin Distribution Machine (ODM) is a newly proposed statistical learning framework rooting in the novel margin theory, which demonstrates better generalization performance than the traditional large margin based counterparts. Nonetheless, it suffers from the ubiquitous scalability problem regarding both computation time and memory as other kernel methods. This paper proposes a scalable ODM, which can achieve nearly ten times speedup compared to the original ODM training method. For nonlinear kernels, we propose a novel distribution-aware partition method to make the local ODM trained on each partition be close and converge fast to the global one. When linear kernel is applied, we extend a communication efficient SVRG method to accelerate the training further. Extensive empirical studies validate that our proposed method is highly computational efficient and almost never worsen the generalization.
翻訳日:2023-06-02 23:38:43 公開日:2023-06-01
# 逐次推薦のためのグラフマスク自動エンコーダ

Graph Masked Autoencoder for Sequential Recommendation ( http://arxiv.org/abs/2305.04619v3 )

ライセンス: Link先を確認
Yaowen Ye, Lianghao Xia, Chao Huang(参考訳) 一部の強力なニューラルネットワークアーキテクチャ(Transformer、Graph Neural Networksなど)は、高次アイテム依存モデリングによる逐次レコメンデーションのパフォーマンス向上を実現しているが、ラベル不足のシナリオでは表現能力の低下に悩まされる可能性がある。 ラベル不足の問題に対処するため、コントラスト学習(cl)は、自己スーパービジョンのためのコントラストを埋め込むことによってデータ拡張を行う最近の手法で多くの注目を集めている。 しかし、その対比的視点生成戦略の手作り性から、既存のclエンハンスドモデル 一 多様なレコメンデーション業務において一貫した性能を得られないこと。 ii) ユーザの行動データノイズに免疫しない場合がある。 そこで本研究では,自己教師付き増補のためのグローバルアイテム遷移情報を適応的かつ動的に蒸留する,単純かつ効果的なグラフマスク付き自動エンコーダエンハンスドシーケンシャルリコメンダシステム(maerec)を提案する。 上述した、高品質な埋め込み型コントラストビューの構築に大きく依存する問題を自然に避けている。 代わりに、アダプティブデータ再構成パラダイムは、シーケンシャルレコメンデーションにおける情報拡張のために、長距離アイテム依存モデリングと統合するように設計されている。 大規模な実験により,本手法は最先端のベースラインモデルを大幅に上回り,データノイズや疎性に対するより正確な表現を学習できることが示されている。 実装済みのモデルコードはhttps://github.com/hkuds/maerec.comで利用可能です。

While some powerful neural network architectures (e.g., Transformer, Graph Neural Networks) have achieved improved performance in sequential recommendation with high-order item dependency modeling, they may suffer from poor representation capability in label scarcity scenarios. To address the issue of insufficient labels, Contrastive Learning (CL) has attracted much attention in recent methods to perform data augmentation through embedding contrasting for self-supervision. However, due to the hand-crafted property of their contrastive view generation strategies, existing CL-enhanced models i) can hardly yield consistent performance on diverse sequential recommendation tasks; ii) may not be immune to user behavior data noise. In light of this, we propose a simple yet effective Graph Masked AutoEncoder-enhanced sequential Recommender system (MAERec) that adaptively and dynamically distills global item transitional information for self-supervised augmentation. It naturally avoids the above issue of heavy reliance on constructing high-quality embedding contrastive views. Instead, an adaptive data reconstruction paradigm is designed to be integrated with the long-range item dependency modeling, for informative augmentation in sequential recommendation. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art baseline models and can learn more accurate representations against data noise and sparsity. Our implemented model code is available at https://github.com/HKUDS/MAERec.
翻訳日:2023-06-02 23:38:27 公開日:2023-06-01
# 行列多様体上のニューラルネットワークの構築:ジャイロビクター空間アプローチ

Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach ( http://arxiv.org/abs/2305.04560v2 )

ライセンス: Link先を確認
Xuan Son Nguyen, Shuo Yang(参考訳) 対称正定値(spd)行列やグラスマン多様体のような行列多様体は、多くの応用において現れる。 近年、双曲幾何学研究の強力な枠組みであるジャイロ群とジャイロベクトル空間の理論を適用することで、行列多様体上のユークリッドニューラルネットワークの原理的一般化を構築しようとする研究もある。 しかし、ジャイロビクター空間(例えば内積やジャイロ角形)の多くの概念が欠けているため、これらの作品によって提供される技法や数学的道具は双曲幾何学を研究するために開発されたものと比べてまだ限られている。 本稿では、SPDおよびグラスマン多様体のジャイロベクトル空間におけるいくつかの概念を一般化し、これらの多様体上にニューラルネットワークを構築するための新しいモデルと層を提案する。 本稿では,人間の行動認識と知識グラフ補完という2つの応用にアプローチの有効性を示す。

Matrix manifolds, such as manifolds of Symmetric Positive Definite (SPD) matrices and Grassmann manifolds, appear in many applications. Recently, by applying the theory of gyrogroups and gyrovector spaces that is a powerful framework for studying hyperbolic geometry, some works have attempted to build principled generalizations of Euclidean neural networks on matrix manifolds. However, due to the lack of many concepts in gyrovector spaces for the considered manifolds, e.g., the inner product and gyroangles, techniques and mathematical tools provided by these works are still limited compared to those developed for studying hyperbolic geometry. In this paper, we generalize some notions in gyrovector spaces for SPD and Grassmann manifolds, and propose new models and layers for building neural networks on these manifolds. We show the effectiveness of our approach in two applications, i.e., human action recognition and knowledge graph completion.
翻訳日:2023-06-02 23:38:01 公開日:2023-06-01
# 遠絡多要素深ベイズ能動学習

Disentangled Multi-Fidelity Deep Bayesian Active Learning ( http://arxiv.org/abs/2305.04392v2 )

ライセンス: Link先を確認
Dongxia Wu, Ruijia Niu, Matteo Chinazzi, Yian Ma, Rose Yu(参考訳) 品質とコストのバランスをとるため、様々な領域の科学と工学が様々なレベルの洗練度でシミュレーションを実行する。 複数の忠実度レベルからデータを積極的に取得することにより、入力パラメータからシミュレーション出力への直接マッピングを最も高い忠実度で学習することを目的とする。 しかし、ガウス過程に基づく既存のアプローチは高次元データに対してはほとんどスケーラブルではない。 深層学習に基づく手法は、しばしば隠れ表現に階層構造を課し、低忠実度から高忠実度への情報伝達のみをサポートする。 これらのアプローチは、低い忠実度表現から高い忠実度表現への誤りの望ましくない伝播につながる可能性がある。 本稿では,多次元関数の分布を前提としたサロゲートモデルを学ぶために,d-mfdal(disentangled multi-fidelity deep bayesian active learning)という新しいフレームワークを提案する。 熱方程式,ポアソン方程式,流体シミュレーションといった偏微分方程式の深いサロゲートを学習するベンチマークタスクにおいて,予測精度とサンプル効率の面では,本手法が有意な差を及ぼしている。 私たちのコードはhttps://github.com/Rose-STL-Lab/Multi-Fidelity-Deep-Active-Learningで公開しています。

To balance quality and cost, various domain areas of science and engineering run simulations at multiple levels of sophistication. Multi-fidelity active learning aims to learn a direct mapping from input parameters to simulation outputs at the highest fidelity by actively acquiring data from multiple fidelity levels. However, existing approaches based on Gaussian processes are hardly scalable to high-dimensional data. Deep learning-based methods often impose a hierarchical structure in hidden representations, which only supports passing information from low-fidelity to high-fidelity. These approaches can lead to the undesirable propagation of errors from low-fidelity representations to high-fidelity ones. We propose a novel framework called Disentangled Multi-fidelity Deep Bayesian Active Learning (D-MFDAL), that learns the surrogate models conditioned on the distribution of functions at multiple fidelities. On benchmark tasks of learning deep surrogates of partial differential equations including heat equation, Poisson's equation and fluid simulations, our approach significantly outperforms state-of-the-art in prediction accuracy and sample efficiency. Our code is available at https://github.com/Rose-STL-Lab/Multi-Fidelity-Deep-Active-Learning.
翻訳日:2023-06-02 23:37:44 公開日:2023-06-01
# 連続手話認識のための条件拡散特徴量補正

Conditional Diffusion Feature Refinement for Continuous Sign Language Recognition ( http://arxiv.org/abs/2305.03614v2 )

ライセンス: Link先を確認
Leming Guo and Wanli Xue and Qing Guo and Yuxi Zhou and Tiantian Yuan and Shengyong Chen(参考訳) 本研究は,自己エンコーダによる拡散過程をマスク・アンド・予測方式として,拡散モデルの成功と特徴改善の定式化を活用することを目的としている。 最先端のcslrフレームワークは、空間モジュール、視覚モジュール、シーケンスモジュール、シーケンス学習関数で構成される。 しかし、このフレームワークは目的関数と小規模なベンチマークによってシーケンスモジュールが過度に適合し、結果としてモデルトレーニングが不十分になった。 過度に適合する問題を克服するために、いくつかのCSLR研究はシーケンスモジュールを強制し、より視覚的な時間的情報を学ぶか、その表現を洗練させるためにより情報的な監督によってガイドされる。 本研究では,符号化-復号化最適化過程をエンドツーエンドに学習することにより,シーケンス表現を洗練し,所望の特性を付与する,新しいオートエンコーダ形式の条件拡散機能改善(ACDR)を提案する。 特に、acdrでは、シーケンス表現に意味的条件を備えたノイズを段階的に付加するノージングエンコーダが提案されている。 また, 雑音列表現を意味的条件で段階的に denoise するデコーダを提案する。 したがって、シーケンス表現は、提供された意味的条件のセマンティクスに組み込むことができる。 さらに、意味的制約を用いて、識別されたシーケンス表現が意味的腐敗を防止する。 本稿では,ACDRの有効性を検証し,最先端の手法を活かし,3つのベンチマークで顕著な利得を得た。

In this work, we are dedicated to leveraging the denoising diffusion models' success and formulating feature refinement as the autoencoder-formed diffusion process, which is a mask-and-predict scheme. The state-of-the-art CSLR framework consists of a spatial module, a visual module, a sequence module, and a sequence learning function. However, this framework has faced sequence module overfitting caused by the objective function and small-scale available benchmarks, resulting in insufficient model training. To overcome the overfitting problem, some CSLR studies enforce the sequence module to learn more visual temporal information or be guided by more informative supervision to refine its representations. In this work, we propose a novel autoencoder-formed conditional diffusion feature refinement~(ACDR) to refine the sequence representations to equip desired properties by learning the encoding-decoding optimization process in an end-to-end way. Specifically, for the ACDR, a noising Encoder is proposed to progressively add noise equipped with semantic conditions to the sequence representations. And a denoising Decoder is proposed to progressively denoise the noisy sequence representations with semantic conditions. Therefore, the sequence representations can be imbued with the semantics of provided semantic conditions. Further, a semantic constraint is employed to prevent the denoised sequence representations from semantic corruption. Extensive experiments are conducted to validate the effectiveness of our ACDR, benefiting state-of-the-art methods and achieving a notable gain on three benchmarks.
翻訳日:2023-06-02 23:37:03 公開日:2023-06-01
# 限定的関係抽出のための大規模言語モデルのパワーを解き放つには?

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction? ( http://arxiv.org/abs/2305.01555v3 )

ライセンス: Link先を確認
Xin Xu, Yuqi Zhu, Xiaohan Wang, Ningyu Zhang(参考訳) 言語モデルのスケーリングは、広範囲にわたるnlpタスクに革命をもたらしたが、大規模言語モデルによる限定的な関係抽出を包括的に検討した例はほとんどない。 本稿では,GPT-3.5による一括関係抽出のための基本手法,文脈内学習とデータ生成について,徹底的な実験により検討する。 少数ショットの性能を向上させるため,タスク関連命令とスキーマ制約付きデータ生成を提案する。 コンテキスト内学習は,従来のプロンプト学習手法と同等のパフォーマンスを達成し,大規模言語モデルによるデータ生成は,4つの広く研究された関係抽出データセットに対して,新たな最先端の限定的な結果を得るための,これまでのソリューションを促進できる。 我々の研究が、数ショットの関係抽出における大規模言語モデルの能力に関する将来の研究を刺激することを期待している。 コードはhttps://github.com/zjunlp/DeepKE/tree/main/example/llmで入手できる。

Scaling language models have revolutionized widespread NLP tasks, yet little comprehensively explored few-shot relation extraction with large language models. In this paper, we investigate principal methodologies, in-context learning and data generation, for few-shot relation extraction via GPT-3.5 through exhaustive experiments. To enhance few-shot performance, we further propose task-related instructions and schema-constrained data generation. We observe that in-context learning can achieve performance on par with previous prompt learning approaches, and data generation with the large language model can boost previous solutions to obtain new state-of-the-art few-shot results on four widely-studied relation extraction datasets. We hope our work can inspire future research for the capabilities of large language models in few-shot relation extraction. Code is available in https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-06-02 23:36:14 公開日:2023-06-01
# 緩やかな混合過程の一般化

Generalization for slowly mixing processes ( http://arxiv.org/abs/2305.00977v2 )

ライセンス: Link先を確認
Andreas Maurer(参考訳) 固定的およびフィミキシングプロセスによって生成されるデータに対して、様々な損失クラス上の有界なユニフォームが与えられ、混合時間(近似独立を得るのに必要な時間)が加法的にのみサンプル複雑性に入る。 緩やかな混合プロセスの場合、これは混合時間に乗法的に依存する結果よりもかなり有利である。 許容損失クラスは、所定のリプシッツノルムあるいは滑らか度パラメータを持つ関数を含む。 境界は、サンプルパス上の関数の局所リプシッツの性質に依存する、制約のない損失クラスに対して均一に適用することもできる。

A bound uniform over various loss-classes is given for data generated by stationary and phi-mixing processes, where the mixing time (the time needed to obtain approximate independence) enters the sample complexity only in an additive way. For slowly mixing processes this can be a considerable advantage over results with multiplicative dependence on the mixing time. The admissible loss-classes include functions with prescribed Lipschitz norms or smoothness parameters. The bound can also be applied to be uniform over unconstrained loss-classes, where it depends on local Lipschitz properties of the function on the sample path.
翻訳日:2023-06-02 23:35:46 公開日:2023-06-01
# ギャップを埋める:自然言語生成のための(Human)フィードバックの統合に関する調査

Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation ( http://arxiv.org/abs/2305.00955v2 )

ライセンス: Link先を確認
Patrick Fernandes, Aman Madaan, Emmy Liu, Ant\'onio Farinhas, Pedro Henrique Martins, Amanda Bertsch, Jos\'e G. C. de Souza, Shuyan Zhou, Tongshuang Wu, Graham Neubig, Andr\'e F. T. Martins(参考訳) 自然言語生成の最近の進歩は、インターネット規模のデータで大規模な言語モデルを訓練することで加速されている。 しかし、このパラダイムは有害で不正確で不正確なコンテンツを生成するモデルにつながる可能性があり、自動評価指標はこれらの振る舞いを特定するのに失敗することが多い。 モデルがより有能になるにつれて、人間のフィードバックはモデルの評価と改善にとって貴重なシグナルとなる。 この調査は、人間のフィードバックを利用して自然言語生成を改善する最近の研究の概要を提供することを目的としている。 まず、フィードバックの形式化を包含し、この形式化に従って既存の研究を分類学に分類し整理する。 次に、その形式と目的によってフィードバックをどのように記述するかについて議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて述べる。 また、人間フィードバックデータ収集のための既存のデータセットや、フィードバック収集に関する懸念についても論じる。 最後に、大言語モデルを利用して一連の原則に基づいた判断を行い、人間の介入の必要性を最小限に抑える、aiフィードバックの生まれたばかりの分野の概要を提供する。

Many recent advances in natural language generation have been fueled by training large language models on internet-scale data. However, this paradigm can lead to models that generate toxic, inaccurate, and unhelpful content, and automatic evaluation metrics often fail to identify these behaviors. As models become more capable, human feedback is an invaluable signal for evaluating and improving models. This survey aims to provide an overview of the recent research that has leveraged human feedback to improve natural language generation. First, we introduce an encompassing formalization of feedback, and identify and organize existing research into a taxonomy following this formalization. Next, we discuss how feedback can be described by its format and objective, and cover the two approaches proposed to use feedback (either for training or decoding): directly using the feedback or training feedback models. We also discuss existing datasets for human-feedback data collection, and concerns surrounding feedback collection. Finally, we provide an overview of the nascent field of AI feedback, which exploits large language models to make judgments based on a set of principles and minimize the need for human intervention.
翻訳日:2023-06-02 23:35:36 公開日:2023-06-01
# NeRFによる3次元のセグメンテーション

Segment Anything in 3D with NeRFs ( http://arxiv.org/abs/2304.12308v3 )

ライセンス: Link先を確認
Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Chen Yang, Wei Shen, Lingxi Xie, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian(参考訳) 最近,Segment Anything Model (SAM) は,任意のものを2次元画像に分割できる強力なビジョン基盤モデルとして登場した。 本稿では,SAMを3次元オブジェクトに分割する手法を提案する。 3Dでコストがかかるデータ取得とアノテーションの手順を複製するのではなく、我々はNeural Radiance Field(NeRF)を安価でオフザシェルフとして活用し、マルチビュー2D画像を3D空間に接続する効率的なソリューションを設計する。 提案したソリューションを,SA3D, セグメンテーション・アニーシング(Seegment Anything in 3D)と呼ぶ。 単一のビューでターゲットオブジェクトに対して手動のセグメンテーションプロンプト(例えば粗い点)を提供することが要求され、SAMでこのビューでその2Dマスクを生成するのに使用される。 次に、SA3Dは、ボクセルグリッドで構築されたターゲットオブジェクトの3Dマスクを反復的に完了するように、様々な視点でマスク逆レンダリングとクロスビューのセルフプロンプトを交互に行う。 前者は、SAMが取得した2Dマスクを現在の視点で3Dマスクに投影し、NeRFが学習した密度分布を誘導し、後者は、NeRFレンダリングされた2DマスクからのSAMへの入力として、信頼性の高いプロンプトを自動的に抽出する。 実験では,sa3dが様々なシーンに適応し,数分で3dセグメンテーションを実現することを示す。 我々の研究は、2Dモデルが複数のビューにまたがる高速なセグメンテーションに着実に対処できる限り、2D視覚基盤モデルを3Dに引き上げる汎用的で効率的な手法を提供する。 プロジェクトページはhttps://jumpat.github.io/SA3D/。

Recently, the Segment Anything Model (SAM) emerged as a powerful vision foundation model which is capable to segment anything in 2D images. This paper aims to generalize SAM to segment 3D objects. Rather than replicating the data acquisition and annotation procedure which is costly in 3D, we design an efficient solution, leveraging the Neural Radiance Field (NeRF) as a cheap and off-the-shelf prior that connects multi-view 2D images to the 3D space. We refer to the proposed solution as SA3D, for Segment Anything in 3D. It is only required to provide a manual segmentation prompt (e.g., rough points) for the target object in a single view, which is used to generate its 2D mask in this view with SAM. Next, SA3D alternately performs mask inverse rendering and cross-view self-prompting across various views to iteratively complete the 3D mask of the target object constructed with voxel grids. The former projects the 2D mask obtained by SAM in the current view onto 3D mask with guidance of the density distribution learned by the NeRF; The latter extracts reliable prompts automatically as the input to SAM from the NeRF-rendered 2D mask in another view. We show in experiments that SA3D adapts to various scenes and achieves 3D segmentation within minutes. Our research offers a generic and efficient methodology to lift a 2D vision foundation model to 3D, as long as the 2D model can steadily address promptable segmentation across multiple views. The project page is at https://jumpat.github.io/SA3D/.
翻訳日:2023-06-02 23:35:18 公開日:2023-06-01
# 局所励起と電荷移動を組み合わせた一次元励起模型の位相特性

Topological properties of a one-dimensional excitonic model combining local excitation and charge transfer ( http://arxiv.org/abs/2305.18299v2 )

ライセンス: Link先を確認
Jianhua Zhu and Wei Wu(参考訳) 我々は、二量化、局所および電荷移動励起状態を考慮した1次元励起モデルのためのザック位相を計算した。 ホッピングパラメータは4つあり、物理学の豊富なスペクトルを生じさせるように変化することができる。 複数のパラメータをオンにすることで、私たちは見つけることができます (i)位相次数に関連する一様鎖であっても位相相は$\pi$である。 (II) 位相的に非自明な平坦なバンドが存在し、平坦なバンドと位相の間の興味深い相関が示唆される。 (iii)量子干渉によるエキゾチックな分数相であって、オン及び分数統計に関係しているもの (iv)二階ホッピングに関連する相転移 - 励起ホッピング。 我々はまた、計算を解釈する効果的なカイラル状態(励起状態の線形結合)の概念を開発した。 本モデルは,原子,分子,半導体ドーパント,量子ドットなどの物理単位によって形成される一次元鎖構造の励起的トポロジー特性を記述するのに十分一般的なモデルである。

We have computed the Zak phase for a one-dimensional excitonic model, which takes into account dimerisation, local and charge-transfer excited states. There are four hopping parameters, which can be varied to give rise to a rich spectrum of physics. By turning on more than one parameters, we can find (i) the topological phase could be $\pi$ even for a uniform chain, which is related to topological order, (ii) there exist topologically nontrivial flat bands, suggesting an interesting correlation between flat bands and topology, (iii) exotic fractional phases, which are due to quantum interference and relevant to anyon and fractional statistics, and (iv) a phase transition related to second-order hopping event - excitonic hopping. We have also developed the concept of effective chiral states (linear combination of excitonic states) to interpret our calculations. Our model is sufficiently general to describe excitonic topological properties for one-dimensional chain structures formed by physical unit such as atom, molecule, semiconductor dopant, and quantum dot.
翻訳日:2023-06-02 23:26:45 公開日:2023-06-01
# 機械学習に基づく分散システムの認定に向けて

Towards Certification of Machine Learning-Based Distributed Systems ( http://arxiv.org/abs/2305.16822v2 )

ライセンス: Link先を確認
Marco Anisetti and Claudio A. Ardagna and Nicola Bena and Ernesto Damiani(参考訳) 機械学習(ml)は、5gで実現されるクラウドエッジ連続体上にデプロイされる複雑な分散システムの運用を推進するためにますます使われている。 それに応じて、分散システムの振る舞いは、本質的に非決定論的になっています。 この分散システムの進化は、非機能特性の検証のための新しい保証アプローチの定義を必要とする。 システムおよびソフトウェア検証の最も一般的な保証技術である認証は、機械学習ベースの推論によって行動が決定されるシステムには、直ちに適用されない。 しかし、政策立案者、規制当局、産業利害関係者からは、MLの非機能的財産(公正性、堅牢性、プライバシーなど)の認証技術の定義への圧力が高まっている。 本稿では、現状の認定制度の課題と欠陥を分析し、オープンな研究課題を論じ、MLベースの分散システムのための最初の認証方式を提案する。

Machine Learning (ML) is increasingly used to drive the operation of complex distributed systems deployed on the cloud-edge continuum enabled by 5G. Correspondingly, distributed systems' behavior is becoming more non-deterministic in nature. This evolution of distributed systems requires the definition of new assurance approaches for the verification of non-functional properties. Certification, the most popular assurance technique for system and software verification, is not immediately applicable to systems whose behavior is determined by Machine Learning-based inference. However, there is an increasing push from policy makers, regulators, and industrial stakeholders towards the definition of techniques for the certification of non-functional properties (e.g., fairness, robustness, privacy) of ML. This article analyzes the challenges and deficiencies of current certification schemes, discusses open research issues and proposes a first certification scheme for ML-based distributed systems.
翻訳日:2023-06-02 23:26:27 公開日:2023-06-01
# DNN圧縮の評価基準

Evaluation Metrics for DNNs Compression ( http://arxiv.org/abs/2305.10616v2 )

ライセンス: Link先を確認
Abanoub Ghobrial, Samuel Budgett, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder(参考訳) ニューラルネットワーク圧縮のためのさまざまな技術の開発には、多くの研究努力がある。 しかし、コミュニティには標準化された評価指標が欠けているため、異なるアプリケーションに最適な圧縮テクニックを特定する上で鍵となる。 本稿では,既存のニューラルネットワーク圧縮評価メトリクスをレビューし,netzipと呼ばれる標準化フレームワークに実装する。 既存の評価のギャップをカバーするための2つの新しい指標を文献に紹介する。 1)圧縮・ハードウェア非依存理論速度(CHATS)と 2) 総合圧縮成功(OCS)。 オブジェクト分類とオブジェクト検出に着目した2つのケーススタディを用いて、NetZIPの使用を実証する。

There is a lot of research effort into developing different techniques for neural networks compression. However, the community lacks standardised evaluation metrics, which are key to identifying the most suitable compression technique for different applications. This paper reviews existing neural network compression evaluation metrics and implements them into a standardisation framework called NetZIP. We introduce two novel metrics to cover existing gaps of evaluation in the literature: 1) Compression and Hardware Agnostic Theoretical Speed (CHATS) and 2) Overall Compression Success (OCS). We demonstrate the use of NetZIP using two case studies focusing on object classification and object detection.
翻訳日:2023-06-02 23:25:41 公開日:2023-06-01
# 畳み込みニューラルネットワークを用いた自動光配向検出

Automatic Photo Orientation Detection with Convolutional Neural Networks ( http://arxiv.org/abs/2305.10319v2 )

ライセンス: Link先を確認
Ujash Joshi, Michael Guerzhoy(参考訳) 畳み込みニューラルネットワーク(cnn)を,消費者写真の正しい方向(0,90,180,270度)を決定する文脈における像方位検出問題に適用する。 この問題は特にアナログ写真のデジタル化に重要である。 我々は、標準データセットの1つのパフォーマンスの観点から、公開技術の公開状況を大幅に改善し、より難しい消費者写真の大規模データセットでシステムをテストします。 我々はガイドバックプロパゲーションを用いて、CNNが写真方向を検出する方法の洞察を得、その誤りを説明する。

We apply convolutional neural networks (CNN) to the problem of image orientation detection in the context of determining the correct orientation (from 0, 90, 180, and 270 degrees) of a consumer photo. The problem is especially important for digitazing analog photographs. We substantially improve on the published state of the art in terms of the performance on one of the standard datasets, and test our system on a more difficult large dataset of consumer photos. We use Guided Backpropagation to obtain insights into how our CNN detects photo orientation, and to explain its mistakes.
翻訳日:2023-06-02 23:25:34 公開日:2023-06-01
# 混合状態の局所幾何学と量子幾何学テンソル

Local geometry and quantum geometric tensor of mixed states ( http://arxiv.org/abs/2305.07597v3 )

ライセンス: Link先を確認
Xu-Yang Hou, Zheng Zhou, Xin Wang, Hao Guo, Chih-Chun Chien(参考訳) 量子幾何学テンソル(QGT)は、量子状態の局所幾何学を特徴づける基本的な概念である。 純量子状態の幾何学を鋳造し、QGTを抽出した後、密度行列とその精製を通じて混合量子状態に一般化する。 混合状態のゲージ不変量 qgt は導出され、その実部と虚部はそれぞれバーズ計量とウルマン形式である。 ベリー曲率に比例する純粋状態 QGT の虚部とは対照的に、ウルマン形式は通常の物理過程に対して同一に消える。 さらに、異なる局所距離を結び、基礎となるフィブレーションを反映するピタゴラス型方程式が存在する。 ビューズ計量は、密度行列の固有値がプロセス中に変化しない場合、温度がゼロに近づくとフビニ・スタディ計量に還元され、純粋な状態と混合状態の対応が確立される。 また,局所的な地形を対比した2つの例を示し,実験的含意について論じる。

The quantum geometric tensor (QGT) is a fundamental concept for characterizing the local geometry of quantum states. After casting the geometry of pure quantum states and extracting the QGT, we generalize the geometry to mixed quantum states via the density matrix and its purification. The gauge-invariant QGT of mixed states is derived, whose real and imaginary parts are the Bures metric and the Uhlmann form, respectively. In contrast to the imaginary part of the pure-state QGT that is proportional to the Berry curvature, the Uhlmann form vanishes identically for ordinary physical processes. Moreover, there exists a Pythagorean-like equation that links different local distances and reflect the underlying fibration. The Bures metric reduces to the Fubini-Study metric as temperature approaches zero if the eigenvalues of the density matrix do not change during the process, establishing a correspondence between pure and mixed states. We also present two examples with contrasting local geometries and discuss experimental implications.
翻訳日:2023-06-02 23:25:24 公開日:2023-06-01
# 対角情報を用いた連続視覚言語表現学習

Continual Vision-Language Representation Learning with Off-Diagonal Information ( http://arxiv.org/abs/2305.07437v5 )

ライセンス: Link先を確認
Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian(参考訳) CLIPのような大規模なマルチモーダルなコントラスト学習フレームワークは、トレーニングに大量の画像テキストサンプルを必要とする。 しかし、これらのサンプルは常に実際のシナリオで継続的に収集される。 本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。 純粋画像の自己教師型学習法に基づく連続学習とは違って,CLIPの性能劣化は重要で無視できない。 空間幾何学的視点から連続的CLIPトレーニングにおけるモデル表現空間の変化を分析することにより、これらの空間変動を空間障害(SD)として探索・要約し、モーダル内回転とモーダル間偏差に分割することができる。 さらに,SDがCLIPのクロスモーダル検索タスクの性能低下につながることを実証的,理論的に実証した。 SDを緩和するために,新たな視覚言語表現学習フレームワークMod-Xを提案する。 コントラスト行列のオフ対角情報分布を選択的に整列させることにより、mod-xは、新しいトレーニングデータ領域を連続的に適合させる間、旧データ領域のマルチモーダル表現空間アライメントを維持してマルチモーダルモデルの能力を向上させる。 スケールやスコープの異なるデータセットを用いた実験により,提案手法の有効性が実証された。

Large-scale multi-modal contrastive learning frameworks like CLIP typically require a large amount of image-text samples for training. However, these samples are always collected continuously in real scenarios. This paper discusses the feasibility of continual CLIP training using streaming data. Unlike continual learning based on self-supervised learning methods for pure images, which is empirically robust against catastrophic forgetting, CLIP's performance degeneration in the continual setting is significant and non-neglectable. By analyzing the changes in the model's representation space during continual CLIP training from a spatial geometry perspective, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we empirically and theoretically demonstrate how SD leads to a performance decline for CLIP on cross-modal retrieval tasks. To alleviate SD, we propose a new continual vision-language representation learning framework Mod-X: Maintain off-diagonal information-matriX. By selectively aligning the off-diagonal information distribution of contrastive matrices, the Mod-X improves the capability of the multi-modal model by maintaining the multi-modal representation space alignment on the old data domain during continuously fitting the new training data domain. Experiments on commonly used datasets with different scales and scopes have demonstrated the effectiveness of our method.
翻訳日:2023-06-02 23:25:06 公開日:2023-06-01
# chatgptはバイアスを取り除くためのテキスト簡易化ツール

ChatGPT as a Text Simplification Tool to Remove Bias ( http://arxiv.org/abs/2305.06166v2 )

ライセンス: Link先を確認
Charmaine Barker and Dimitar Kazakov(参考訳) 特定のサブグループに特有の特定の言語信号の存在は、訓練中に言語モデルによって拾うことができる。 モデルが特定の言語を別のグループに関連付け始めると、この言語に基づく決定は、その保護された特徴に基づく決定と強い相関関係を持ち、差別につながる可能性がある。 テキストの簡易化という形でバイアス緩和の可能性を探る。 この考え方の原動力は、テキストを単純化することで、異なるサブグループ間の言語を同じ意味を維持しながら、一つの話し方へと標準化すべきである。 この実験は, 簡易データに対して, 感度特性を最大17%低下させる分類器の精度として有望な結果を示した。

The presence of specific linguistic signals particular to a certain sub-group of people can be picked up by language models during training. If the model begins to associate specific language with a distinct group, any decisions made based upon this language would hold a strong correlation to a decision based upon their protected characteristic, leading to possible discrimination. We explore a potential technique for bias mitigation in the form of simplification of text. The driving force of this idea is that simplifying text should standardise language between different sub-groups to one way of speaking while keeping the same meaning. The experiment shows promising results as the classifier accuracy for predicting the sensitive attribute drops by up to 17% for the simplified data.
翻訳日:2023-06-02 23:24:41 公開日:2023-06-01
# 音声によるLM:音声トークン以外の音声言語モデリング

LMs with a Voice: Spoken Language Modeling beyond Speech Tokens ( http://arxiv.org/abs/2305.15255v2 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Julian Salazar, Chulayuth Asawaroengchai, Soroosh Mariooryad, RJ Skerry-Ryan, Michelle Tadmor Ramanovich(参考訳) 本稿では,前訓練言語モデル(lms)を音声継続に適応させる新しいアプローチであるspectronを提案する。 事前学習した音声エンコーダを利用することで、本モデルはテキストと音声の両方の出力を生成し、システム全体がスペクトルを直接操作するエンドツーエンドの訓練を行う。 スペクトログラム領域におけるモデル全体の訓練は、離散的な音声表現を使用する既存のカスケード法と比較して、音声継続システムを単純化する。 さらに,提案手法は,既存の言語モデルに先行する知識の恩恵を受けつつ,意味的内容と話者保存の両方において既存の音声言語モデルを上回ることを示す。 オーディオサンプルは当社のwebサイトhttps://michelleramanovich.github.io/spectron/spectronにあります。

We present SPECTRON, a novel approach to adapting pre-trained language models (LMs) to perform speech continuation. By leveraging pre-trained speech encoders, our model generates both text and speech outputs with the entire system being trained end-to-end operating directly on spectrograms. Training the entire model in the spectrogram domain simplifies our speech continuation system versus existing cascade methods which use discrete speech representations. We further show our method surpasses existing spoken language models both in semantic content and speaker preservation while also benefiting from the knowledge transferred from pre-existing models. Audio samples can be found in our website https://michelleramanovich.github.io/spectron/spectron
翻訳日:2023-06-02 21:37:06 公開日:2023-06-01
# BeamSearchQA: 大規模言語モデルは強力なゼロショットQAソルバー

BeamSearchQA: Large Language Models are Strong Zero-Shot QA Solver ( http://arxiv.org/abs/2305.14766v2 )

ライセンス: Link先を確認
Hao Sun, Xiao Liu, Yeyun Gong, Anlei Dong, Jingwen Lu, Yan Zhang, Daxin Jiang, Linjun Yang, Rangan Majumder, Nan Duan(参考訳) オープンドメインの質問応答は、しばしば外部情報へのアクセスを必要とする重要なタスクである。 既存の手法では、関連文書を最初に検索し、検索した情報に基づいて質問に回答する単一ターン検索-then-readアプローチが一般的である。 しかし、質問に答えるには、質問自体から直接は理解できない暗黙の知識が必要となる場合がある。 本研究では,BeamSearchQAと呼ばれる質問応答パイプラインを提案する。 提案手法では, 大規模言語モデルを用いて, 元の質問に対する質問を反復的に生成し, 反復的推論プロセスを実現する。 本手法は,質問の範囲を反復的に精錬し拡張することにより,検索によって直接取得できないような隠れた知識を捉え,活用することを目的としている。 我々は、広く使われているオープンドメインNQおよびWebQデータセットに対するアプローチを評価する。 実験の結果,BeamSearchQAは他のゼロショットベースラインよりも優れており,オープンドメイン質問応答の課題に対処する上での有効性が示された。

Open-domain question answering is a crucial task that often requires accessing external information. Existing methods typically adopt a single-turn retrieve-then-read approach, where relevant documents are first retrieved, and questions are then answered based on the retrieved information. However, there are cases where answering a question requires implicit knowledge that is not directly retrievable from the question itself. In this work, we propose a novel question-answering pipeline called BeamSearchQA. Our approach leverages large language models to iteratively generate new questions about the original question, enabling an iterative reasoning process. By iteratively refining and expanding the scope of the question, our method aims to capture and utilize hidden knowledge that may not be directly obtainable through retrieval. We evaluate our approach on the widely-used open-domain NQ and WebQ datasets. The experimental results demonstrate that BeamSearchQA significantly outperforms other zero-shot baselines, indicating its effectiveness in tackling the challenges of open-domain question answering.
翻訳日:2023-06-02 21:36:39 公開日:2023-06-01
# 大言語モデルはゼロショットテキスト・ビデオ生成のためのフレームレベルディレクトリである

Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation ( http://arxiv.org/abs/2305.14330v2 )

ライセンス: Link先を確認
Susung Hong, Junyoung Seo, Sunghwan Hong, Heeseong Shin, Seungryong Kim(参考訳) AI生成コンテンツ(AIGC)のパラダイムでは、事前訓練されたテキスト・ツー・イメージ(T2I)モデルからテキスト・ツー・ビデオ(T2V)生成への拡張に注目が集まっている。 その効果にもかかわらず、これらのフレームワークは、一貫性のある物語の維持と、1人のユーザープロンプトからのシーン構成またはオブジェクト配置の迅速なシフトを扱う上での課題に直面している。 本稿では,1つの抽象ユーザプロンプトからフレーム・バイ・フレーム記述を生成するために,命令調整型大規模言語モデル(LLM)を利用するDirecT2Vという新しいフレームワークを提案する。 DirecT2VはLDMディレクトリを使用して、ユーザ入力を各フレーム毎に別々のプロンプトに分割し、時間変化のあるコンテンツを含め、一貫したビデオ生成を容易にする。 時間的一貫性を維持し,オブジェクトの崩壊を防止するため,新しい値マッピング法とデュアルソフトマックスフィルタを提案する。 広範にわたる実験結果は、ゼロショットビデオ生成の課題に対処するため、抽象ユーザプロンプトから視覚的に一貫性のある一貫したビデオを生成する上で、DirecT2Vフレームワークの有効性を検証する。

In the paradigm of AI-generated content (AIGC), there has been increasing attention in extending pre-trained text-to-image (T2I) models to text-to-video (T2V) generation. Despite their effectiveness, these frameworks face challenges in maintaining consistent narratives and handling rapid shifts in scene composition or object placement from a single user prompt. This paper introduces a new framework, dubbed DirecT2V, which leverages instruction-tuned large language models (LLMs) to generate frame-by-frame descriptions from a single abstract user prompt. DirecT2V utilizes LLM directors to divide user inputs into separate prompts for each frame, enabling the inclusion of time-varying content and facilitating consistent video generation. To maintain temporal consistency and prevent object collapse, we propose a novel value mapping method and dual-softmax filtering. Extensive experimental results validate the effectiveness of the DirecT2V framework in producing visually coherent and consistent videos from abstract user prompts, addressing the challenges of zero-shot video generation.
翻訳日:2023-06-02 21:36:23 公開日:2023-06-01
# リウビリアン例外点による緩和の促進

Accelerating relaxation through Liouvillian exceptional point ( http://arxiv.org/abs/2305.12745v2 )

ライセンス: Link先を確認
Yan-Li Zhou, Xiao-Die Yu, Chun-Wang Wu, Xie-Qian Li, Jie Zhang, Weibin Li, Ping-Xing Chen(参考訳) 我々は、より高速な崩壊モードで最も遅い崩壊モードが縮退するLouvillianException point (LEP)によるマルコフ開量子系の緩和の高速化について検討する。 退化はリウビリアン作用素のギャップを大きく増加させ、そのような系の定常性への収束における時間スケールを決定するため、緩和過程を加速する。 固有行列と固有スペクトルが完全に解析的に得られる3段階の原子系を実験的に検討する。 これにより、LEPの洞察を得て、各ダイナミクスを詳細に調べることができます。 このギャップをフロッケ工学によってさらに拡大し,緩和過程をさらに加速できることを示す。 最後に、このアプローチを拡張して、閉じ込められたイオンのレーザー冷却を分析し、振動(フォノン)が電子状態と結合する。 最適冷却条件は解析的に得られ、既存の実験と数値シミュレーションの両方と一致する。 本研究は、LEPの理解と、原子とイオンの散逸ダイナミクスの制御と最適化に関する分析的な知見を提供する。

We investigate speeding up of relaxation of Markovian open quantum systems with the Liouvillian exceptional point (LEP), where the slowest decay mode degenerate with a faster decay mode. The degeneracy significantly increases the gap of the Liouvillian operator, which determines the timescale of such systems in converging to stationarity, and hence accelerates the relaxation process. We explore an experimentally relevant three level atomic system, whose eigenmatrices and eigenspectra are obtained completely analytically. This allows us to gain insights in the LEP and examine respective dynamics with details. We illustrate that the gap can be further widened through Floquet engineering, which further accelerates the relaxation process. Finally, we extend this approach to analyze laser cooling of trapped ions, where vibrations (phonons) couple to the electronic states. An optimal cooling condition is obtained analytically, which agrees with both existing experiments and numerical simulations. Our study provides analytical insights in understanding LEP, as well as in controlling and optimizing dissipative dynamics of atoms and trapped ions.
翻訳日:2023-06-02 21:36:00 公開日:2023-06-01
# 中国語における対話レベルの係り受け解析に関するパイロット研究

A Pilot Study on Dialogue-Level Dependency Parsing for Chinese ( http://arxiv.org/abs/2305.12441v2 )

ライセンス: Link先を確認
Gongyao Jiang, Shuang Liu, Meishan Zhang, Min Zhang(参考訳) 対話レベルの依存関係解析は特に中国語では不十分である。 この目的のために,構文依存と修辞構造理論 (rst) からのアイデアを引き合いに出し,850の対話と199,803の依存関係を含む高品質な人間注釈コーパスを開発する。 このようなタスクはアノテーションのコストが高いため、ゼロショットと少数ショットのシナリオを調査する。 既存の構文木バンクをベースとした信号ベース手法を用いて,信号がマスキングされた言語モデルによって検出される基本談話単位(EDU)間において,目に見えないものへと変換する。 さらに、信頼できる擬似ラベルインスタンスにアクセスするために、シングルビューおよびマルチビューデータ選択を適用する。 実験の結果,これらのベースラインの有効性が示された。 さらに、データセットとアプローチに関するいくつかの重要なポイントについても論じる。

Dialogue-level dependency parsing has received insufficient attention, especially for Chinese. To this end, we draw on ideas from syntactic dependency and rhetorical structure theory (RST), developing a high-quality human-annotated corpus, which contains 850 dialogues and 199,803 dependencies. Considering that such tasks suffer from high annotation costs, we investigate zero-shot and few-shot scenarios. Based on an existing syntactic treebank, we adopt a signal-based method to transform seen syntactic dependencies into unseen ones between elementary discourse units (EDUs), where the signals are detected by masked language modeling. Besides, we apply single-view and multi-view data selection to access reliable pseudo-labeled instances. Experimental results show the effectiveness of these baselines. Moreover, we discuss several crucial points about our dataset and approach.
翻訳日:2023-06-02 21:35:44 公開日:2023-06-01
# 制御可能な画像合成のための遅延制約拡散誘導

Late-Constraint Diffusion Guidance for Controllable Image Synthesis ( http://arxiv.org/abs/2305.11520v3 )

ライセンス: Link先を確認
Chang Liu, Dong Liu(参考訳) 拡散モデルは、テキスト条件の有無にかかわらず、数語または全くの単語を与えられたフォトリアリスティック画像の合成能力を示す。 通常のユーザーやアーティストは、全体的なレイアウト、色、構造、オブジェクトの形状など、特定のガイダンスで合成画像を制御するつもりなので、これらのモデルはユーザーのニーズを十分に満たさないかもしれない。 制御可能な画像合成に拡散モデルを適用するために,拡散復調ネットワークの中間特性を正則化するためのいくつかの手法が提案されている。 本稿では, 早期制約法として知られ, 単一解法で複数の条件を扱うのに困難がある。 彼らは、多くのトレーニングコストと一般化不可能なソリューションを必要とする、特定の条件ごとに別々のモデルをトレーニングすることを意図している。 これらの問題に対処するために,我々は拡散ネットワークをそのまま残しながら,その出力が要求条件に合致するように制約するという,遅延制約という新しいアプローチを提案する。 具体的には,外部条件と拡散モデルの内部表現との相関性を確立するために,軽量条件アダプタを訓練する。 反復分別処理の間、条件付きガイダンスを対応する条件アダプタに送信してサンプリングプロセスを確立された相関で操作する。 さらに,提案手法に準拠した合成画像の品質向上を図るため,時間ステップリサンプリング法と早期停止法を用いて,導入した遅延制約戦略を導入する。 提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。 私たちのコードは利用できます。

Diffusion models, either with or without text condition, have demonstrated impressive capability in synthesizing photorealistic images given a few or even no words. These models may not fully satisfy user need, as normal users or artists intend to control the synthesized images with specific guidance, like overall layout, color, structure, object shape, and so on. To adapt diffusion models for controllable image synthesis, several methods have been proposed to incorporate the required conditions as regularization upon the intermediate features of the diffusion denoising network. These methods, known as early-constraint ones in this paper, have difficulties in handling multiple conditions with a single solution. They intend to train separate models for each specific condition, which require much training cost and result in non-generalizable solutions. To address these difficulties, we propose a new approach namely late-constraint: we leave the diffusion networks unchanged, but constrain its output to be aligned with the required conditions. Specifically, we train a lightweight condition adapter to establish the correlation between external conditions and internal representations of diffusion models. During the iterative denoising process, the conditional guidance is sent into corresponding condition adapter to manipulate the sampling process with the established correlation. We further equip the introduced late-constraint strategy with a timestep resampling method and an early stopping technique, which boost the quality of synthesized image meanwhile complying with the guidance. Our method outperforms the existing early-constraint methods and generalizes better to unseen condition. Our code would be available.
翻訳日:2023-06-02 21:35:30 公開日:2023-06-01
# ゼロショット多言語ニューラルマシン翻訳の目標外問題について

On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation ( http://arxiv.org/abs/2305.10930v2 )

ライセンス: Link先を確認
Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang(参考訳) 多言語ニューラルマシン翻訳は大きな成功を収めているが、翻訳が間違った言語であるターゲット外の問題に苦しめられている。 この問題はゼロショット翻訳タスクでより顕著である。 本研究では,識別対象言語信号の符号化に失敗した場合,2言語の語彙間距離 (kl-divergence) がより高いオフターゲット率に関連していることを示す。 また、デコーダ内で異なる言語のボクタブを分離するだけで問題を軽減することができる。 そこで本研究では,多言語語彙構築のための単純かつ効果的なアルゴリズムであるlanguage aware vocabulary sharing (lavs)を提案する。 我々は11言語で多言語機械翻訳ベンチマーク実験を行った。 実験の結果、90の翻訳タスクのオフターゲットレートは29\%から8\%に削減され、BLEUスコアは平均1.9ポイント改善され、追加のトレーニングコストや監督方向のパフォーマンスが犠牲になる。 私たちは、再生のために \href{https://github.com/chenllliang/Off-Target-MNMT}{https://github.com/chenllliang/Off-Target-MNMT} でコードをリリースします。

While multilingual neural machine translation has achieved great success, it suffers from the off-target issue, where the translation is in the wrong language. This problem is more pronounced on zero-shot translation tasks. In this work, we find that failing in encoding discriminative target language signal will lead to off-target and a closer lexical distance (i.e., KL-divergence) between two languages' vocabularies is related with a higher off-target rate. We also find that solely isolating the vocab of different languages in the decoder can alleviate the problem. Motivated by the findings, we propose Language Aware Vocabulary Sharing (LAVS), a simple and effective algorithm to construct the multilingual vocabulary, that greatly alleviates the off-target problem of the translation model by increasing the KL-divergence between languages. We conduct experiments on a multilingual machine translation benchmark in 11 languages. Experiments show that the off-target rate for 90 translation tasks is reduced from 29\% to 8\%, while the overall BLEU score is improved by an average of 1.9 points without extra training cost or sacrificing the supervised directions' performance. We release the code at \href{https://github.com/chenllliang/Off-Target-MNMT}{https://github.com/chenllliang/Off-Target-MNMT} for reproduction.
翻訳日:2023-06-02 21:35:05 公開日:2023-06-01
# 花や植物の隠語名抽出のための深層学習法

Deep Learning Methods for Extracting Metaphorical Names of Flowers and Plants ( http://arxiv.org/abs/2305.10833v3 )

ライセンス: Link先を確認
Amal Haddad Haddad, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov(参考訳) 植物学の領域はメタファー用語が豊富である。 これらの用語は、花や植物の記述と識別に重要な役割を果たしている。 しかし、言論におけるそのような用語の識別は困難な作業である。 これにより、翻訳プロセスや辞書作業中にエラーを犯すケースもある。 このプロセスは、シングルワード語とマルチワード語の両方の場合において、機械翻訳に関してさらに難しい。 自然言語処理 (NLP) アプリケーションと機械翻訳 (MT) 技術に関する最近の懸念の1つは、ディープラーニング (DL) による会話におけるメタファーベースの単語の自動識別である。 本研究では,このギャップをChatGPTとともに13種類の人気トランスフォーマーモデルを用いて補うことを目的としており,識別モデルはGPT-3.5モデルよりも優れた性能を示し,最も優れたパフォーマーは92.2349%のF1スコアをメタファーや植物名識別タスクで報告している。

The domain of Botany is rich with metaphorical terms. Those terms play an important role in the description and identification of flowers and plants. However, the identification of such terms in discourse is an arduous task. This leads in some cases to committing errors during translation processes and lexicographic tasks. The process is even more challenging when it comes to machine translation, both in the cases of single-word terms and multi-word terms. One of the recent concerns of Natural Language Processing (NLP) applications and Machine Translation (MT) technologies is the automatic identification of metaphor-based words in discourse through Deep Learning (DL). In this study, we seek to fill this gap through the use of thirteen popular transformer based models, as well as ChatGPT, and we show that discriminative models perform better than GPT-3.5 model with our best performer reporting 92.2349% F1 score in metaphoric flower and plant names identification task.
翻訳日:2023-06-02 21:34:26 公開日:2023-06-01
# 教師なし根本原因分析のための不連続因果グラフ学習

Disentangled Causal Graph Learning forOnline Unsupervised Root Cause Analysis ( http://arxiv.org/abs/2305.10638v2 )

ライセンス: Link先を確認
Dongjie Wang, Zhengzhang Chen, Yanjie Fu, Yanchi Liu, Haifeng Chen(参考訳) 根本原因分析 (RCA) の課題は, システムモニタリングデータを分析し, システム障害・障害の根本原因を特定することである。 効率的なRCAはシステム障害の回復を著しく加速し、システム障害や損失を軽減する。 しかし、以前の研究では主にオフラインのRCAアルゴリズムの開発に重点を置いており、RCAプロセスを手動で開始する必要があり、堅牢なモデルのトレーニングにはかなりの時間とデータが必要であり、新しいシステム障害のためにゼロから再訓練される。 本稿では、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。 CoRAL は Trigger Point Detection, Incremental Disentangled Causal Graph Learning, Network Propagation-based Root Cause Localization で構成されている。 Trigger Point Detectionコンポーネントは、システム状態遷移を自動的に、ほぼリアルタイムで検出することを目的としている。 これを実現するために,多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出手法を開発した。 RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的不整合因果グラフ学習手法を提案する。 その後、CoRALは更新された因果グラフに再起動を伴うランダムウォークを適用し、根本原因を正確に識別する。 オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束すると終了する。 ケーススタディを用いた実世界の3つのデータセットに対する大規模な実験は、提案フレームワークの有効性と優位性を示している。

The task of root cause analysis (RCA) is to identify the root causes of system faults/failures by analyzing system monitoring data. Efficient RCA can greatly accelerate system failure recovery and mitigate system damages or financial losses. However, previous research has mostly focused on developing offline RCA algorithms, which often require manually initiating the RCA process, a significant amount of time and data to train a robust model, and then being retrained from scratch for a new system fault. In this paper, we propose CORAL, a novel online RCA framework that can automatically trigger the RCA process and incrementally update the RCA model. CORAL consists of Trigger Point Detection, Incremental Disentangled Causal Graph Learning, and Network Propagation-based Root Cause Localization. The Trigger Point Detection component aims to detect system state transitions automatically and in near-real-time. To achieve this, we develop an online trigger point detection approach based on multivariate singular spectrum analysis and cumulative sum statistics. To efficiently update the RCA model, we propose an incremental disentangled causal graph learning approach to decouple the state-invariant and state-dependent information. After that, CORAL applies a random walk with restarts to the updated causal graph to accurately identify root causes. The online RCA process terminates when the causal graph and the generated root cause list converge. Extensive experiments on three real-world datasets with case studies demonstrate the effectiveness and superiority of the proposed framework.
翻訳日:2023-06-02 21:34:10 公開日:2023-06-01
# 感情自動体験者認識

Automatic Emotion Experiencer Recognition ( http://arxiv.org/abs/2305.16731v2 )

ライセンス: Link先を確認
Maximilian Wegge and Roman Klinger(参考訳) 感情分析における最も顕著なサブタスクは感情分類であり、例えばソーシャルメディアの投稿のように、カテゴリをテキスト単位に割り当てる。 しかし、社会科学からの多くの研究質問は、ポストの著者の感情を検知するだけでなく、誰がテキストで感情を記述しているかを理解することを必要とする。 このタスクは、テキストで記述された人物を抽出して感情、理由、そして誰に向かって経験することを目的とした感情ロールラベリングによって取り組まれる。 しかし、答えるべき主な疑問が、どの感情を感じるかであるなら、これは過度に洗練される可能性がある。 このような設定のためのターゲットとなるアプローチは、おそらく知覚される感情について、感情経験者による言及(いわゆる「エモーター」)を分類することである。 このタスクは、上記のすべてのエンティティ名がエモターであるとは限らないため、名前付きエンティティ認識と似ている。 emoterアノテーションを備えたデータはごく最近利用可能になったが、そのような言及を検出する実験はまだ行われていない。 本稿では,タスクの難しさを理解するためのベースライン実験を行う。 金の言及が得られない場合,経験者固有の感情分類とパイプラインにおける評価検出への影響をさらに評価する。 テキストにおける経験者検出は.82の精度と.56のリコール(f1 =.66)の難しい課題である。 これらの結果は、エモスタスパンと感情/評価予測を共同でモデル化する将来の仕事の動機付けとなる。

The most prominent subtask in emotion analysis is emotion classification; to assign a category to a textual unit, for instance a social media post. Many research questions from the social sciences do, however, not only require the detection of the emotion of an author of a post but to understand who is ascribed an emotion in text. This task is tackled by emotion role labeling which aims at extracting who is described in text to experience an emotion, why, and towards whom. This could, however, be considered overly sophisticated if the main question to answer is who feels which emotion. A targeted approach for such setup is to classify emotion experiencer mentions (aka "emoters") regarding the emotion they presumably perceive. This task is similar to named entity recognition of person names with the difference that not every mentioned entity name is an emoter. While, very recently, data with emoter annotations has been made available, no experiments have yet been performed to detect such mentions. With this paper, we provide baseline experiments to understand how challenging the task is. We further evaluate the impact on experiencer-specific emotion categorization and appraisal detection in a pipeline, when gold mentions are not available. We show that experiencer detection in text is a challenging task, with a precision of .82 and a recall of .56 (F1 =.66). These results motivate future work of jointly modeling emoter spans and emotion/appraisal predictions.
翻訳日:2023-06-02 21:26:40 公開日:2023-06-01
# 疾患拡散シミュレーションにおけるリスク行動の時間的進化

Temporal Evolution of Risk Behavior in a Disease Spread Simulation ( http://arxiv.org/abs/2305.16600v2 )

ライセンス: Link先を確認
Ollin D. Langle-Chimal, Scott C. Merrill, Eric M. Clark, Gabriela Bucini, Tung-Lin Liu, Trisha R. Shrum, Christopher Koliba, Asim Zia, Julia M. Smith, and Nicholas Cheney(参考訳) 人間の行動は経験によって進化する動的なプロセスである。 個人のリスク適合性の進化を理解することは、より良いバイオセキュリティプロトコルの採用を促進するために公衆衛生介入を設計し、伝染病の伝染を防ぐために重要である。 ブタ農場のネットワークにおける病気の拡散をシミュレートする実験ゲームを用いて、体験からの学習が1000ドル以上のプレイヤーのリスク回避にどのように影響するかを測定する。 完全に自動化されたアプローチで,ゲームプレイの時間的傾向に基づいて4つのカテゴリに分類し,ゲーム全体のパフォーマンスの比較を行った。 リスク耐性群は,リスク回避群よりも50〜%高い確率で感染する可能性が示唆された。 また,全ての個人がゲームで経験を積むにつれて意思決定に要する時間を短縮する一方で,意思決定に要する時間を急速に短縮する一定の意思決定戦略を持つプレイヤーのグループと,意思決定よりも長いことを考えながら,おそらくはリアルタイムのリスクアセスメントを行う第2のコンテキスト対応決定グループを見出した。 このシミュレートされた設定でプレーヤが採用する行動戦略は、将来、好ましくないバイオセキュリティ関連のリスク回避の選好や行動の変化を識別するための早期警告信号として使用される可能性がある。

Human behavior is a dynamic process that evolves with experience. Understanding the evolution of individual's risk propensity is critical to design public health interventions to propitiate the adoption of better biosecurity protocols and thus, prevent the transmission of an infectious disease. Using an experimental game that simulates the spread of a disease in a network of porcine farms, we measure how learning from experience affects the risk aversion of over $1000$ players. We used a fully automated approach to segment the players into 4 categories based on the temporal trends of their game plays and compare the outcomes of their overall game performance. We found that the risk tolerant group is $50\%$ more likely to incur an infection than the risk averse one. We also find that while all individuals decrease the amount of time it takes to make decisions as they become more experienced at the game, we find a group of players with constant decision strategies who rapidly decrease their time to make a decision and a second context-aware decision group that contemplates longer before decisions while presumably performing a real-time risk assessment. The behavioral strategies employed by players in this simulated setting could be used in the future as an early warning signal to identify undesirable biosecurity-related risk aversion preferences, or changes in behavior, which may allow for targeted interventions to help mitigate them.
翻訳日:2023-06-02 21:26:17 公開日:2023-06-01
# 政策蒸留を用いた深層強化学習モデルのための実例記述フレームワーク

Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation ( http://arxiv.org/abs/2305.16532v2 )

ライセンス: Link先を確認
Amir Samadi, Konstantinos Koufos and Mehrdad Dianati(参考訳) 深層強化学習(DRL)は複雑な制御問題を解く上で有望な能力を示した。 しかし、安全クリティカルなシステムにおけるDRLの応用は、そのようなアプリケーションの性能を保証するための堅牢な検証技術が固有の欠如によって妨げられている。 検証プロセスの重要な要件の1つは、システム機能を説明する効果的な技術、すなわちシステムが特定の状況で特定の結果を生成する理由の開発である。 近年,DRLにおける説明問題に対処するために,対実的(CF)説明法に基づく解釈手法が提案されている。 本稿では,ブラックボックスDRLによる決定を説明するための新しいCF説明フレームワークを提案する。 提案手法の有効性を評価するため,自動走行システムおよびatari pongゲームの分野で,いくつかの実験を行った。 本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。 ソースコードは: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}

Deep Reinforcement Learning (DRL) has demonstrated promising capability in solving complex control problems. However, DRL applications in safety-critical systems are hindered by the inherent lack of robust verification techniques to assure their performance in such applications. One of the key requirements of the verification process is the development of effective techniques to explain the system functionality, i.e., why the system produces specific results in given circumstances. Recently, interpretation methods based on the Counterfactual (CF) explanation approach have been proposed to address the problem of explanation in DRLs. This paper proposes a novel CF explanation framework to explain the decisions made by a black-box DRL. To evaluate the efficacy of the proposed explanation framework, we carried out several experiments in the domains of automated driving systems and Atari Pong game. Our analysis demonstrates that the proposed framework generates plausible and meaningful explanations for various decisions made by deep underlying DRLs. Source codes are available at: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}
翻訳日:2023-06-02 21:25:33 公開日:2023-06-01
# CommonScenes: シーングラフによるCommonsense 3D屋内シーンの生成

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graphs ( http://arxiv.org/abs/2305.16283v2 )

ライセンス: Link先を確認
Guangyao Zhai, Evin P{\i}nar \"Ornek, Shun-Cheng Wu, Yan Di, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) 制御可能なシーン合成は,様々な産業用途を対象とした対話型環境の構築を目的としている。 シーングラフは、シーンコンテキストをコンパクトに抽象化することでこれらのアプリケーションを容易にするのに非常に適したインターフェースを提供する。 既存の手法は、広範囲のデータベースや事前学習された形状埋め込みからの検索に依存しており、しばしばシーン-オブジェクトとオブジェクト-オブジェクトの関係を見落としている。 この問題に対処するため,我々は,シーングラフを対応する制御可能な3dシーンに変換する完全生成モデルであるcommonscenesを提案する。 我々のパイプラインは2つの枝から構成されており、1つは変分オートエンコーダで全体のシーンレイアウトを予測し、もう1つは潜時拡散により互換性のある形状を生成する。 生成したシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作できる。 高品質なオブジェクトレベルのメッシュと関係性を提供するシーングラフデータセットが欠如しているため、SG-FRONTを構築することで、既製の屋内データセット3D-FRONTを付加的なシーングラフラベルで強化する。 SG-FRONTでは、生成一貫性、品質、多様性に関する他の手法に対して、CommonScenesが明確な優位性を示す。 コードとデータセットは受け入れ時にリリースされる。

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.
翻訳日:2023-06-02 21:25:18 公開日:2023-06-01
# 長文のニューラル自然言語処理:最新技術に関する調査

Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2305.16259v2 )

ライセンス: Link先を確認
Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis(参考訳) ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。 しかし、長文解析の要求は短いテキストの要求とは大きく異なり、オンラインにアップロードされた文書のサイズが増大すると、長いテキストの自動理解が重要な研究領域となる。 この記事には2つの目標がある。 a) 関連するニューラルビルディングブロックを概観し、短いチュートリアルとして機能し、 b) 主に文書分類と文書要約という2つの中心的なタスクに焦点を当てた,長文NLPの最先端を調査する。 典型的には文書分類の特定の事例として扱われるので、長文の感性分析もカバーされている。 さらに、長文NLPに関連する主な課題、課題、現在のソリューションについても論じる。 最後に、さらなる研究を促進するために、関連する、公開可能な注釈付きデータセットが提示される。

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of long texts a critical area of research. This article has two goals: a) it overviews the relevant neural building blocks, thus serving as a short tutorial, and b) it surveys the state-of-the-art in long document NLP, mainly focusing on two central tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Additionally, this article discusses the main challenges, issues and current solutions related to long document NLP. Finally, the relevant, publicly available, annotated datasets are presented, in order to facilitate further research.
翻訳日:2023-06-02 21:24:50 公開日:2023-06-01
# テキストと画像の拡散モデルから「テキスト」を取り出すプロンプトフリー拡散

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16223v2 )

ライセンス: Link先を確認
Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa, Humphrey Shi(参考訳) テキスト・ツー・イメージ(T2I)の研究は、大規模な事前学習による拡散モデルや、新たなパーソナライズと編集アプローチによって、近年爆発的に成長している。 テキストのプロンプトエンジニアリングや、高品質なテキストプロンプトの検索は、科学よりも芸術的だ。 さらに、一般的に議論されているように、「画像は千語に値する」 - 所望の画像をテキストで記述しようとする試みは、しばしば曖昧で、繊細な視覚詳細を包括的にカバーできないため、視覚領域からのさらなる制御が必要となる。 本稿では,事前学習したt2i拡散モデルから"テキスト"を取り出して,ユーザへの迅速なエンジニアリング作業の負担を軽減するという大胆な一歩を踏み出す。 提案するフレームワークであるPrompt-Free Diffusionは、参照イメージを"context"、任意の画像構造条件付け、および初期ノイズとして、まったくテキストプロンプトなしで、新しい画像を生成するための視覚入力のみに依存している。 シーンの背後にあるコアアーキテクチャはセマンティックコンテキストエンコーダ(seecoder)で、一般的なクリップベースまたはllmベースのテキストエンコーダを構成する。 seecoderの再利用性は、t2iモデルでseecoderを事前トレーニングし、別のモデルで再利用することができるため、ドロップインコンポーネントとして便利である。 広範囲な実験により、即席拡散が実験的に検出される。 (i)前例に基づく画像合成手法より優れる。 (ii) ベストプラクティスに従うプロンプトを用いて、最先端のT2Iモデルと同等に実行する。 (iii) アニメフィギュア生成や仮想トライオンといった他の下流アプリケーションにも自然に拡張可能であり、有望な品質を持つ。 私たちのコードとモデルは、https://github.com/shi-labs/prompt-free-diffusionでオープンソースです。

Text-to-image (T2I) research has grown explosively in the past year, owing to the large-scale pre-trained diffusion models and many emerging personalization and editing approaches. Yet, one pain point persists: the text prompt engineering, and searching high-quality text prompts for customized results is more art than science. Moreover, as commonly argued: "an image is worth a thousand words" - the attempt to describe a desired image with texts often ends up being ambiguous and cannot comprehensively cover delicate visual details, hence necessitating more additional controls from the visual domain. In this paper, we take a bold step forward: taking "Text" out of a pre-trained T2I diffusion model, to reduce the burdensome prompt engineering efforts for users. Our proposed framework, Prompt-Free Diffusion, relies on only visual inputs to generate new images: it takes a reference image as "context", an optional image structural conditioning, and an initial noise, with absolutely no text prompt. The core architecture behind the scene is Semantic Context Encoder (SeeCoder), substituting the commonly used CLIP-based or LLM-based text encoder. The reusability of SeeCoder also makes it a convenient drop-in component: one can also pre-train a SeeCoder in one T2I model and reuse it for another. Through extensive experiments, Prompt-Free Diffusion is experimentally found to (i) outperform prior exemplar-based image synthesis approaches; (ii) perform on par with state-of-the-art T2I models using prompts following the best practice; and (iii) be naturally extensible to other downstream applications such as anime figure generation and virtual try-on, with promising quality. Our code and models are open-sourced at https://github.com/SHI-Labs/Prompt-Free-Diffusion.
翻訳日:2023-06-02 21:24:36 公開日:2023-06-01
# 条件分布間の経験的最適輸送

Empirical Optimal Transport between Conditional Distributions ( http://arxiv.org/abs/2305.15901v2 )

ライセンス: Link先を確認
Piyushi Manupriya, Rachit Keerti Das, Sayantan Biswas, Shivam Chandhok, Saketha Nath Jagarlapudi(参考訳) 2つのジョイント分布からのサンプルが与えられたとき、共通変数に条件付けられた対応する分布間の最適輸送(ot)の問題を考える。 この研究の目的は、条件付き値の関数として条件付き物間の輸送計画だけでなく、関連する輸送コスト(wasserstein距離)を推定することである。 条件分布のマッチングは、識別モデルと(単純)条件生成モデルの教師付きトレーニングの中核であるので、条件間のOTは、多様な機械学習アプリケーションに利用される可能性がある。 しかし、OTに関わる条件は、共同サンプルを通して暗黙的に特定されるため、特にこの問題を定式化することは困難である。 (i)条件づけられた変数は連続的で (ii) 2つの分布におけるこの変数の限界は異なる。 これらの課題を克服するために、特定のカーネルMD(Maximum Mean Discrepancy)ベースの正規化器を用いて、条件輸送計画の限界が与えられたジョイントサンプルを介して指定された条件に近いことを保証する。 軽度条件下では、この正規化輸送コストの推定器が統計的に一貫したものであり、推定誤差に有限サンプル境界を導出することを証明する。 条件付き輸送計画のパラメータ化のためのアプリケーション固有の詳細も提示する。 さらに, 癌治療に対する細胞応答予測の文脈において, 分類, 短時間学習, 条件生成などのアプリケーションにおけるベンチマークデータセットに関する方法論を実証的に評価した。

Given samples from two joint distributions, we consider the problem of Optimal Transportation (OT) between the corresponding distributions conditioned on a common variable. The objective of this work is to estimate the associated transport cost (Wasserstein distance) as well as the transport plan between the conditionals as a function of the conditioned value. Since matching conditional distributions is at the core of supervised training of discriminative models and (implicit) conditional-generative models, OT between conditionals has the potential to be employed in diverse machine learning applications. However, since the conditionals involved in OT are implicitly specified via the joint samples, it is challenging to formulate this problem, especially when (i) the variable conditioned on is continuous and (ii) the marginal of this variable in the two distributions is different. We overcome these challenges by employing a specific kernel MMD (Maximum Mean Discrepancy) based regularizer that ensures the marginals of our conditional transport plan are close to the conditionals specified via the given joint samples. Under mild conditions, we prove that our estimator for this regularized transport cost is statistically consistent and derive finite-sample bounds on the estimation error. Application-specific details for parameterizing our conditional transport plan are also presented. Furthermore, we empirically evaluate our methodology on benchmark datasets in applications like classification, prompt learning for few-shot classification, and conditional-generation in the context of predicting cell responses to cancer treatment.
翻訳日:2023-06-02 21:24:03 公開日:2023-06-01
# LFTK:計算言語学における手作りの特徴

LFTK: Handcrafted Features in Computational Linguistics ( http://arxiv.org/abs/2305.15878v2 )

ライセンス: Link先を確認
Bruce W. Lee, Jason Hyung-Jong Lee(参考訳) 過去の研究で、様々なタスクに役立つ豊富な手作りの言語特徴が特定された。 しかし、その膨大な数が既存の手作りの機能を効果的に選択し活用することは困難である。 研究における一貫性のない実装の問題と相まって、分類スキームや一般に受け入れられる特徴名は存在しない。 これは望ましくない混乱を引き起こす。 また、既存の手作りの機能抽出ライブラリのほとんどはオープンソースではない。 結果として、研究者はしばしばそのような抽出システムをゼロから構築しなければならない。 過去の文献に基づく220以上の人気手工芸品を収集・分類した。 次に,複数のタスク固有のデータセットの相関分析を行い,各特徴の潜在的なユースケースを報告する。 最後に,多言語手作り言語特徴抽出システムを体系的に拡張可能な方法で考案する。 我々は,実装済みの豊富な手作り機能にパブリックアクセスするためのシステムをオープンソース化した。 我々のシステムはLFTKと呼ばれており、その種類の中で最大である。 github.com/brucewlee/lftkを参照。

Past research has identified a rich set of handcrafted linguistic features that can potentially assist various tasks. However, their extensive number makes it difficult to effectively select and utilize existing handcrafted features. Coupled with the problem of inconsistent implementation across research works, there has been no categorization scheme or generally-accepted feature names. This creates unwanted confusion. Also, most existing handcrafted feature extraction libraries are not open-source or not actively maintained. As a result, a researcher often has to build such an extraction system from the ground up. We collect and categorize more than 220 popular handcrafted features grounded on past literature. Then, we conduct a correlation analysis study on several task-specific datasets and report the potential use cases of each feature. Lastly, we devise a multilingual handcrafted linguistic feature extraction system in a systematically expandable manner. We open-source our system for public access to a rich set of pre-implemented handcrafted features. Our system is coined LFTK and is the largest of its kind. Find it at github.com/brucewlee/lftk.
翻訳日:2023-06-02 21:23:40 公開日:2023-06-01
# 思考連鎖の背後にある謎の解明に向けて--理論的展望

Towards Revealing the Mystery behind Chain of Thought: a Theoretical Perspective ( http://arxiv.org/abs/2305.15408v2 )

ライセンス: Link先を確認
Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang(参考訳) 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。 実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。 本稿では,これらの疑問に理論的に答える第一歩を踏み出す。 具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。 まず,モデルサイズが入力長に対して超多項式的に大きくなる限り,有界深度変換器は基本演算/方程式タスクの正解を直接生成できないことを示す。 対照的に,定サイズの自己回帰変換器は,一般的な数学言語形式を用いてCoTの導出を生成することで,両方のタスクを解くのに十分であることを示す。 さらに, COT を用いた LLM は, 動的プログラミング(Dynamic Programming) と呼ばれる一般的な意思決定問題を解くことができ, 複雑な実世界のタスクに対処する能力の正当化を図っている。 最後に、4つのタスクに関する広範な実験では、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. We start by giving an impossibility result showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly-used math language format. Moreover, we show LLMs with CoT are capable of solving a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, extensive experiments on four tasks show that, while Transformers always fail to predict the answers directly, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
翻訳日:2023-06-02 21:23:29 公開日:2023-06-01
# 分散不確かさ定量化のためのフェデレート共形予測器

Federated Conformal Predictors for Distributed Uncertainty Quantification ( http://arxiv.org/abs/2305.17564v2 )

ライセンス: Link先を確認
Charles Lu, Yaodong Yu, Sai Praneeth Karimireddy, Michael I. Jordan, Ramesh Raskar(参考訳) 共形予測(conformal prediction)は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして登場している。 本稿では,共用学習環境に共形予測を拡張した。 私たちが直面している主な課題は、クライアント間のデータ不均一性です。 本稿では,fl設定に適した部分交換可能性の弱い概念を提案し,fcp(federated conformal prediction)フレームワークの開発に使用する。 複数のコンピュータビジョンおよび医用画像データセットにおいて、fcpは厳密な理論的保証と優れた経験的性能を享受している。 本研究は,分散環境と異種環境に意味のある不確実性定量化を組み込むための実践的アプローチを示す。 実験で使われたコードはhttps://github.com/clu5/federated-conformalです。

Conformal prediction is emerging as a popular paradigm for providing rigorous uncertainty quantification in machine learning since it can be easily applied as a post-processing step to already trained models. In this paper, we extend conformal prediction to the federated learning setting. The main challenge we face is data heterogeneity across the clients - this violates the fundamental tenet of exchangeability required for conformal prediction. We propose a weaker notion of partial exchangeability, better suited to the FL setting, and use it to develop the Federated Conformal Prediction (FCP) framework. We show FCP enjoys rigorous theoretical guarantees and excellent empirical performance on several computer vision and medical imaging datasets. Our results demonstrate a practical approach to incorporating meaningful uncertainty quantification in distributed and heterogeneous environments. We provide code used in our experiments https://github.com/clu5/federated-conformal.
翻訳日:2023-06-02 21:17:46 公開日:2023-06-01
# Translatotron 3:モノリンガルデータを用いた音声から音声への翻訳

Translatotron 3: Speech to Speech Translation with Monolingual Data ( http://arxiv.org/abs/2305.17547v2 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Yifan Ding, Chulayuth Asawaroengchai, Heiga Zen, Michelle Tadmor Ramanovich(参考訳) 本稿ではtranslatotron 3について述べる。このtranslatotron 3は,単言語音声テキストデータセットから直接音声から音声への翻訳モデルを,教師なしの方法でのみ訓練する新しい手法である。 Translatotron 3はマスク付きオートエンコーダ、教師なし埋め込みマッピング、バックトランスレーションを組み合わせてこの目標を達成する。 スペイン語と英語の音声音声翻訳タスクの実験結果から、Translatotron 3はベースラインカスケードシステムよりも優れており、18.14 BLEUは合成されたアンペア・会話データセットの改善点を報告している。 不可能な実対データを必要とする教師付きアプローチや、パラ言語情報や非言語情報を複製する特殊なモデリングとは対照的に、Translatotron 3は停止、発話率、話者識別などのパラ言語/非言語情報を維持できる能力を示している。 オーディオサンプルは当社のwebサイトhttp://google-research.github.io/lingvo-lab/translatotron3にあります。

This paper presents Translatotron 3, a novel approach to train a direct speech-to-speech translation model from monolingual speech-text datasets only in a fully unsupervised manner. Translatotron 3 combines masked autoencoder, unsupervised embedding mapping, and back-translation to achieve this goal. Experimental results in speech-to-speech translation tasks between Spanish and English show that Translatotron 3 outperforms a baseline cascade system, reporting 18.14 BLEU points improvement on the synthesized Unpaired-Conversational dataset. In contrast to supervised approaches that necessitate real paired data, which is unavailable, or specialized modeling to replicate para-/non-linguistic information, Translatotron 3 showcases its capability to retain para-/non-linguistic such as pauses, speaking rates, and speaker identity. Audio samples can be found in our website http://google-research.github.io/lingvo-lab/translatotron3
翻訳日:2023-06-02 21:17:32 公開日:2023-06-01
# 量子ldpc符号に対するpauli演算子のデカップリング表現に基づく信念伝播復号アルゴリズムの改良

Improved belief propagation decoding algorithm based on decoupling representation of Pauli operators for quantum LDPC codes ( http://arxiv.org/abs/2305.17505v2 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Kaixin Zhong, Yulin Wu, Zhou Fang, Xuan Wang(参考訳) そこで我々は,量子低密度パリティチェック符号に対する部分的疎結合な信念伝播と完全疎結合な信念伝播復号アルゴリズムを提案する。 Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. 完全に分離された信念伝播アルゴリズムの印象的な性能は、工学における量子エラー訂正符号の実現を促進するかもしれない。

We propose a new method called decoupling representation to represent Pauli operators as vectors over GF(2), based on which we propose partially decoupled belief propagation and fully decoupled belief propagation decoding algorithm for quantum low density parity-check codes. Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. The impressive performance of fully decoupled belief propagation algorithm might promote the realization of quantum error correcting codes in engineering.
翻訳日:2023-06-02 21:17:16 公開日:2023-06-01
# FACTUAL: 忠実で一貫性のあるテキストシーングラフ解析のためのベンチマーク

FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing ( http://arxiv.org/abs/2305.17497v2 )

ライセンス: Link先を確認
Zhuang Li, Yuyang Chai, Terry Yue Zhuo, Lizhen Qu, Gholamreza Haffari, Fei Li, Donghong Ji, Quan Hung Tran(参考訳) 画像キャプション評価や画像検索など,様々な視覚言語アプリケーションにおいて,テキストシーングラフ解析の重要性が高まっている。 しかし、画像キャプションをシーングラフに変換する既存のシーングラフパーサは、しばしば2種類のエラーに悩まされる。 まず、生成されたシーングラフは、キャプションや対応する画像の真の意味を捉えられなかったため、忠実さが欠落した。 第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。 これらの課題に対処するために,視覚ゲノム(vg)のキャプションをfactual-mrと呼ばれる新しい中間表現を用いて再注釈する新しいデータセットを提案する。 factual-mrは、忠実で一貫性のあるシーングラフアノテーションに直接変換できる。 実験の結果、データセットでトレーニングされたパーサは、忠実さと一貫性の観点から既存のアプローチよりも優れています。 この改善は、画像キャプション評価とゼロショット画像検索タスクの両方において、大幅なパフォーマンス向上をもたらす。 さらに,シーングラフの類似度を測定するための新しい指標を導入し,改良されたシーングラフパーサと組み合わせることで,上記タスクの複数のベンチマークデータセットで最先端(sota)結果を得る。 コードとデータセットはhttps://github.com/zhuang-li/factualで入手できる。

Textual scene graph parsing has become increasingly important in various vision-language applications, including image caption evaluation and image retrieval. However, existing scene graph parsers that convert image captions into scene graphs often suffer from two types of errors. First, the generated scene graphs fail to capture the true semantics of the captions or the corresponding images, resulting in a lack of faithfulness. Second, the generated scene graphs have high inconsistency, with the same semantics represented by different annotations. To address these challenges, we propose a novel dataset, which involves re-annotating the captions in Visual Genome (VG) using a new intermediate representation called FACTUAL-MR. FACTUAL-MR can be directly converted into faithful and consistent scene graph annotations. Our experimental results clearly demonstrate that the parser trained on our dataset outperforms existing approaches in terms of faithfulness and consistency. This improvement leads to a significant performance boost in both image caption evaluation and zero-shot image retrieval tasks. Furthermore, we introduce a novel metric for measuring scene graph similarity, which, when combined with the improved scene graph parser, achieves state-of-the-art (SOTA) results on multiple benchmark datasets for the aforementioned tasks. The code and dataset are available at https://github.com/zhuang-li/FACTUAL .
翻訳日:2023-06-02 21:17:04 公開日:2023-06-01
# 確率勾配Descenceにおける動的安定性の帰納規則化

The Implicit Regularization of Dynamical Stability in Stochastic Gradient Descent ( http://arxiv.org/abs/2305.17490v2 )

ライセンス: Link先を確認
Lei Wu, Weijie J. Su(参考訳) 本稿では, 確率勾配勾配(SGD)の暗黙的正則化を, {\displaystyle {\em dynamical stability} のレンズを通して検討する(Wu et al., 2018)。 まずsgdの既存の安定性解析を改訂し、フロベニウスのノルムとヘッセンのトレースが安定性の異なる概念とどのように関係しているかを示す。 特に、大域的最小値が SGD に対して線形安定であれば、ヘッセン語のトレースは 2/\eta$ 以下でなければならず、$\eta$ は学習率を表す。 対照的に、勾配降下 (gd) では、安定性は同様の制約を課すが、ヘッセンの最大固有値にのみ依存する。 次に、これらの安定ミニマの一般化特性を解析し、2層ReLUネットワークと対角線ネットワークに焦点をあてる。 特に、これらのシャープネスの測定値と2つのモデルに対するパラメータノルムとの等価性を確立し、SGDの安定な最小値が確実に一般化可能であることを示す。 対照的に、gd の安定性によって引き起こされる正則化は、十分に一般化するには弱すぎる。 この矛盾は、SGD が GD よりもよく一般化する理由を説明する。 学習速度(LR)は安定誘導正規化の強さにおいて重要な役割を果たす。 LRが増加するにつれて正規化効果がより顕著になり、より大きなLRを持つSGDが常に優れた一般化能力を示す理由が解明される。 さらに,我々の理論的知見を裏付ける数値実験を行った。

In this paper, we study the implicit regularization of stochastic gradient descent (SGD) through the lens of {\em dynamical stability} (Wu et al., 2018). We start by revising existing stability analyses of SGD, showing how the Frobenius norm and trace of Hessian relate to different notions of stability. Notably, if a global minimum is linearly stable for SGD, then the trace of Hessian must be less than or equal to $2/\eta$, where $\eta$ denotes the learning rate. By contrast, for gradient descent (GD), the stability imposes a similar constraint but only on the largest eigenvalue of Hessian. We then turn to analyze the generalization properties of these stable minima, focusing specifically on two-layer ReLU networks and diagonal linear networks. Notably, we establish the {\em equivalence} between these metrics of sharpness and certain parameter norms for the two models, which allows us to show that the stable minima of SGD provably generalize well. By contrast, the stability-induced regularization of GD is provably too weak to ensure satisfactory generalization. This discrepancy provides an explanation of why SGD often generalizes better than GD. Note that the learning rate (LR) plays a pivotal role in the strength of stability-induced regularization. As the LR increases, the regularization effect becomes more pronounced, elucidating why SGD with a larger LR consistently demonstrates superior generalization capabilities. Additionally, numerical experiments are provided to support our theoretical findings.
翻訳日:2023-06-02 21:16:40 公開日:2023-06-01
# ディープラーニングモデルの概要と比較分析:CNN, RNN, LSTM, GRU

A Comprehensive Overview and Comparative Analysis on Deep Learning Models: CNN, RNN, LSTM, GRU ( http://arxiv.org/abs/2305.17473v2 )

ライセンス: Link先を確認
Farhad Mortezapour Shiri, Thinagaran Perumal, Norwati Mustapha, Raihani Mohamed(参考訳) ディープラーニング(DL)は、機械学習(ML)と人工知能(AI)の強力なサブセットとして現れ、特に非構造化および大規模データセットの処理において、従来のMLメソッドよりも優れています。 その影響は、音声認識、ヘルスケア、自動運転車、サイバーセキュリティ、予測分析など、さまざまなドメインに及んでいる。 しかし、現実世界の問題の複雑さと動的性質は、効果的なディープラーニングモデルを設計する上での課題をもたらす。 その結果、様々な問題や応用に取り組むために、いくつかのディープラーニングモデルが開発された。 本稿では、畳み込みニューラルネットワーク(cnns)、リカレントニューラルネットワーク(rnn)、生成モデル、深層強化学習(drl)、深層伝達学習など、さまざまなディープラーニングモデルに関する総合的な調査を行う。 我々は,各モデルの構造,アプリケーション,メリット,および制限について検討する。 さらに、imdb, aras, fruit-360の3つの公開データセットを用いて分析を行う。 CNN,Simple RNN,Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Unit (GRU), Bidirectional GRUの6つの有名なディープラーニングモデルの性能を比較した。

Deep learning (DL) has emerged as a powerful subset of machine learning (ML) and artificial intelligence (AI), outperforming traditional ML methods, especially in handling unstructured and large datasets. Its impact spans across various domains, including speech recognition, healthcare, autonomous vehicles, cybersecurity, predictive analytics, and more. However, the complexity and dynamic nature of real-world problems present challenges in designing effective deep learning models. Consequently, several deep learning models have been developed to address different problems and applications. In this article, we conduct a comprehensive survey of various deep learning models, including Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Generative Models, Deep Reinforcement Learning (DRL), and Deep Transfer Learning. We examine the structure, applications, benefits, and limitations of each model. Furthermore, we perform an analysis using three publicly available datasets: IMDB, ARAS, and Fruit-360. We compare the performance of six renowned deep learning models: CNN, Simple RNN, Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Unit (GRU), and Bidirectional GRU.
翻訳日:2023-06-02 21:16:15 公開日:2023-06-01
# 神経エージェントの注意スキーマ

Attention Schema in Neural Agents ( http://arxiv.org/abs/2305.17375v2 )

ライセンス: Link先を確認
Dianbo Liu, Samuele Bolotta, He Zhu, Yoshua Bengio, Guillaume Dumas(参考訳) ディープラーニングアーキテクチャでは、注意が一般的な要素になっている。 重み付けによってサポートされている情報の静的な選択の上に、情報の動的選択を追加している。 同様に、注意の上に構築された高次情報フィルタを想像することができる:注意スキーマ(as)、すなわち注意の記述と予測モデル。 認知神経科学において、注意スキーマ理論(AST)は、注意をASと区別するこの考え方を支持している。 この理論の強い予測は、エージェントが自身のASを使用して他のエージェントの注意を推論し、結果として他のエージェントとの協調を強化することができるということである。 このように、多エージェント強化学習は、ASTの有効性を実験的に検証するのに理想的な設定である。 我々は、注意とアソシエーションが互いに相互作用する方法を探究する。 予備結果は,asをリカレント内部制御として実装したエージェントが最高の性能を得ることを示す。 一般に、これらの探索実験は、注意モデルによる人工エージェントの装備が、彼らの社会的知性を高めることを示唆している。

Attention has become a common ingredient in deep learning architectures. It adds a dynamical selection of information on top of the static selection of information supported by weights. In the same way, we can imagine a higher-order informational filter built on top of attention: an Attention Schema (AS), namely, a descriptive and predictive model of attention. In cognitive neuroscience, Attention Schema Theory (AST) supports this idea of distinguishing attention from AS. A strong prediction of this theory is that an agent can use its own AS to also infer the states of other agents' attention and consequently enhance coordination with other agents. As such, multi-agent reinforcement learning would be an ideal setting to experimentally test the validity of AST. We explore different ways in which attention and AS interact with each other. Our preliminary results indicate that agents that implement the AS as a recurrent internal control achieve the best performance. In general, these exploratory experiments suggest that equipping artificial agents with a model of attention can enhance their social intelligence.
翻訳日:2023-06-02 21:15:53 公開日:2023-06-01
# 大規模言語モデルにおける異種価値評価

Heterogeneous Value Evaluation for Large Language Models ( http://arxiv.org/abs/2305.17147v2 )

ライセンス: Link先を確認
Zhaowei Zhang, Nian Liu, Siyuan Qi, Ceyao Zhang, Ziqi Rong, Song-Chun Zhu, Shuguang Cui, Yaodong Yang(参考訳) 大規模言語モデル(llm)の創発的な能力は、それらの価値を人間のものと一致させることを重要にしている。 現在の方法論は、通常、均質な人間の価値とアライメントを試み、人間の検証を必要とするが、望ましい側面とアライメントの深さについてコンセンサスを欠いている。 本稿では,(1)個人バイアスを最小化するために自動化され,(2)多様な目標値に対する評価を可能とし,異種エージェントを育成する,異種価値システムによる自動アライメント評価手法であるa2ehvを提案する。 当社のアプローチは,目標値を満たす行動を実行するエージェントの能力を表す,価値合理性の概念を軸にしている。 価値合理性の定量化は、価値空間を4つのカテゴリに分割し、エージェントの行動から社会的嗜好を評価する社会的価値指向フレームワークによって促進される。 我々は8つの主要なLCMの値合理性を評価し、大きなモデルは強い個人値と比較して中性値の整合性が高いことを観察した。 これらのLCMの挙動を調べることにより、不均一な値体系における値アライメントのより深い理解に寄与する。

The emergent capabilities of Large Language Models (LLMs) have made it crucial to align their values with those of humans. Current methodologies typically attempt alignment with a homogeneous human value and requires human verification, yet lack consensus on the desired aspect and depth of alignment and resulting human biases. In this paper, we propose A2EHV, an Automated Alignment Evaluation with a Heterogeneous Value system that (1) is automated to minimize individual human biases, and (2) allows assessments against various target values to foster heterogeneous agents. Our approach pivots on the concept of value rationality, which represents the ability for agents to execute behaviors that satisfy a target value the most. The quantification of value rationality is facilitated by the Social Value Orientation framework from social psychology, which partitions the value space into four categories to assess social preferences from agents' behaviors. We evaluate the value rationality of eight mainstream LLMs and observe that large models are more inclined to align neutral values compared to those with strong personal values. By examining the behavior of these LLMs, we contribute to a deeper understanding of value alignment within a heterogeneous value system.
翻訳日:2023-06-02 21:15:19 公開日:2023-06-01
# ghost in the minecraft: テキストベースの知識とメモリを持つ大規模言語モデルによるオープンワールド環境のエージェント

Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory ( http://arxiv.org/abs/2305.17144v2 )

ライセンス: Link先を確認
Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai(参考訳) 近年、Minecraftの魅惑的な領域は、オープンワールド環境で機能するインテリジェントエージェントを開発するための豊富なプラットフォームとして、かなりの研究関心を集めている。 しかし、現在の研究の展望は主に一般的な「オブタンダイアモンド」タスクのような特定の目的に焦点を当てており、より広い範囲のタスクに対して効果的な一般化をまだ示していない。 さらに、"ObtainDiamond"タスクの現在の成功率は約20%であり、既存のメソッドで使用される強化学習(RL)ベースのコントローラの制限を強調している。 これらの課題に対処するために、Ghost in the Minecraft (GITM)という、テキストベースの知識と記憶とLarge Language Models (LLM)を統合した新しいフレームワークを紹介します。 これらのエージェントはLLMの論理的・常識的能力を備えており、テキストベースのインタラクションで複雑な疎逆環境を巧みにナビゲートすることができる。 我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 結果として生じるLCMベースのエージェントは、従来のRLベースのコントローラよりも優れたロバスト性を示し、"ObtainDiamond"タスクで+47.5%の成功率を著しく向上させた。 特に、当社のエージェントはminecraft overworld technology treeのすべてのアイテムを初めて入手し、その広範な機能を示しました。 GITMはトレーニングにGPUを必要としないが、32CPUコアを持つ単一のCPUノードで十分である。 本研究は,LLMが長期の複雑なタスクに対処し,オープンワールド環境における不確実性に適応するための有能なエージェントを開発する可能性を示す。 プロジェクトのWebサイトはhttps://github.com/OpenGVLab/GITMを参照してください。

The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
翻訳日:2023-06-02 21:14:50 公開日:2023-06-01
# 継続的強化学習のためのポリシー最適化

Policy Optimization for Continuous Reinforcement Learning ( http://arxiv.org/abs/2305.18901v2 )

ライセンス: Link先を確認
Hanyang Zhao, Wenpin Tang, David D. Yao(参考訳) 本研究では,連続時間と空間の設定における強化学習(rl)について,確率微分方程式によって駆動される無限大地平線と基礎となる力学について検討する。 RLへの継続的なアプローチの最近の進歩を基盤として、職業時間(具体的には割引対象)の概念を開発し、性能差と局所近似式を効果的に導出する方法を示す。 さらに、これらの結果を拡張し、PG(政治勾配)とTRPO/PPO(信頼地域政策最適化/近位政策最適化)の手法で、離散的なRL設定では馴染み深く、かつ強力なツールであるが、連続的なRLでは未開発であることを示す。 数値実験により,本手法の有効性と利点を実証した。

We study reinforcement learning (RL) in the setting of continuous time and space, for an infinite horizon with a discounted objective and the underlying dynamics driven by a stochastic differential equation. Built upon recent advances in the continuous approach to RL, we develop a notion of occupation time (specifically for a discounted objective), and show how it can be effectively used to derive performance-difference and local-approximation formulas. We further extend these results to illustrate their applications in the PG (policy gradient) and TRPO/PPO (trust region policy optimization/ proximal policy optimization) methods, which have been familiar and powerful tools in the discrete RL setting but under-developed in continuous RL. Through numerical experiments, we demonstrate the effectiveness and advantages of our approach.
翻訳日:2023-06-02 21:07:28 公開日:2023-06-01
# 教師なし多変量時系列表現学習のためのコントラストシェープレット学習

Contrastive Shapelet Learning for Unsupervised Multivariate Time Series Representation Learning ( http://arxiv.org/abs/2305.18888v2 )

ライセンス: Link先を確認
Zhiyu Liang, Jianfeng Zhang, Chen Liang, Hongzhi Wang, Zheng Liang, Lujia Pan(参考訳) 最近の研究は、多変量時系列に対する教師なし表現学習(URL)において、URLはアクセス不能なラベルを使わずに多くの下流タスクに対して一般化可能な表現を学習する能力を持っているため、大きな可能性を示している。 しかし、既存のアプローチは通常、他のドメイン(例えばコンピュータビジョン)向けに設計されたモデルを採用して時系列データをエンコードし、学習目標を設計するための強い仮定に依存している。 これらの問題に対処するために,一般的なコントラスト学習パラダイムを通じて,時系列特異的なシェープレット表現を学習することにより,多変量時系列のための新しいurlフレームワークを提案する。 私たちの知る限りでは、これは教師なしの汎用表現学習にシェープレットベースの埋め込みを探求する最初の作品です。 統一シェープレット型エンコーダと,多粒度コントラストとマルチスケールアライメントを用いた新しい学習目標を特に目標として設計し,その一般化のためにデータ拡張ライブラリを用いた。 我々は,何万もの実世界のデータセットを用いて,分類,クラスタリング,異常検出など,多くの下流タスクにおける表現品質の評価を行う。 提案手法は,URLコンペティタだけでなく,ダウンストリームタスク用に特別に設計された技術に対して優れていることを示す。 私たちのコードはhttps://github.com/real2fish/CSLで公開されています。

Recent studies have shown great promise in unsupervised representation learning (URL) for multivariate time series, because URL has the capability in learning generalizable representation for many downstream tasks without using inaccessible labels. However, existing approaches usually adopt the models originally designed for other domains (e.g., computer vision) to encode the time series data and rely on strong assumptions to design learning objectives, which limits their ability to perform well. To deal with these problems, we propose a novel URL framework for multivariate time series by learning time-series-specific shapelet-based representation through a popular contrasting learning paradigm. To the best of our knowledge, this is the first work that explores the shapelet-based embedding in the unsupervised general-purpose representation learning. A unified shapelet-based encoder and a novel learning objective with multi-grained contrasting and multi-scale alignment are particularly designed to achieve our goal, and a data augmentation library is employed to improve the generalization. We conduct extensive experiments using tens of real-world datasets to assess the representation quality on many downstream tasks, including classification, clustering, and anomaly detection. The results demonstrate the superiority of our method against not only URL competitors, but also techniques specially designed for downstream tasks. Our code has been made publicly available at https://github.com/real2fish/CSL.
翻訳日:2023-06-02 21:07:15 公開日:2023-06-01
# ビジュアルプログラミングのためのニューラルタスク合成

Neural Task Synthesis for Visual Programming ( http://arxiv.org/abs/2305.18342v2 )

ライセンス: Link先を確認
Victor-Alexandru P\u{a}durean, Georgios Tzannetos, Adish Singla(参考訳) 生成型ニューラルモデルは、学生向けの新しいコンテンツを合成することで、プログラミング教育の強化に大いに貢献する。 視覚的プログラミング領域のコンテキストにおいて、与えられた仕様のプログラミングタスクを自動的に生成できるニューラルモデルを設計することを模索する。 GPT-4のような大規模生成モデルの成功にもかかわらず、初期の結果は、これらのモデルが視覚プログラミングのタスクを合成し、論理的および空間的推論に苦しむのに効果がないことを示している。 本稿では,ニューラルシンボリックな手法であるNeurTaskSynを提案し,その解法コードと視覚的タスクの制約により,所望のプログラミング概念の形で与えられた仕様のプログラミングタスクを合成する。 neurtasksynには2つのコンポーネントがある。 第一のコンポーネントは模倣学習手順でトレーニングされ、第二のコンポーネントは強化学習手順によってトレーニングされ、これらのコードに対して視覚的なタスクを生成する基盤となるシンボリック実行エンジンをガイドする。 Intro to Programming with Karel course by CodeHS-dot-com, Intro to Programming with Karel course by CodeHS-dot-com, Intro to Programming by Code-dot-org, and the Intro to Programming with Karel course by CodeHS-dot-com。

Generative neural models hold great promise in enhancing programming education by synthesizing new content for students. We seek to design neural models that can automatically generate programming tasks for a given specification in the context of visual programming domains. Despite the recent successes of large generative models like GPT-4, our initial results show that these models are ineffective in synthesizing visual programming tasks and struggle with logical and spatial reasoning. We propose a novel neuro-symbolic technique, NeurTaskSyn, that can synthesize programming tasks for a specification given in the form of desired programming concepts exercised by its solution code and constraints on the visual task. NeurTaskSyn has two components: the first component is trained via imitation learning procedure to generate possible solution codes, and the second component is trained via reinforcement learning procedure to guide an underlying symbolic execution engine that generates visual tasks for these codes. We demonstrate the effectiveness of NeurTaskSyn through an extensive empirical evaluation and a qualitative study on reference tasks taken from the Hour of Code: Classic Maze challenge by Code-dot-org and the Intro to Programming with Karel course by CodeHS-dot-com.
翻訳日:2023-06-02 21:06:36 公開日:2023-06-01
# 実世界のスーパーリゾリューションにおける高精度一般化トレードオフのためのクラフトトレーニング劣化分布

Crafting Training Degradation Distribution for the Accuracy-Generalization Trade-off in Real-World Super-Resolution ( http://arxiv.org/abs/2305.18107v2 )

ライセンス: Link先を確認
Ruofan Zhang, Jinjin Gu, Haoyu Chen, Chao Dong, Yulun Zhang, Wenming Yang(参考訳) 超解像(SR)技術は、一般に、一般化性能と復元精度の2つの主要な課題に直面する。 一般化を促進するために,複雑な大規模分解を用いて手法を訓練する場合,精度の低下が避けられないことを示す。 しかし、ある実世界のアプリケーションにおける劣化は、通常、限定的な変動範囲を示すため、このスコープでの一般化性能とテスト精度のトレードオフを犯すことができる。 そこで本研究では,少数の参照画像を用いたクラフトトレーニング劣化分布の新しい手法を提案する。 我々の戦略は分解空間の双対表現と分解分布の間のfr\'echet距離に基づいている。 提案手法は,実世界のアプリケーションにおける一般化能力を保ちながら,テスト画像の性能を著しく向上することを示す。

Super-resolution (SR) techniques designed for real-world applications commonly encounter two primary challenges: generalization performance and restoration accuracy. We demonstrate that when methods are trained using complex, large-range degradations to enhance generalization, a decline in accuracy is inevitable. However, since the degradation in a certain real-world applications typically exhibits a limited variation range, it becomes feasible to strike a trade-off between generalization performance and testing accuracy within this scope. In this work, we introduce a novel approach to craft training degradation distributions using a small set of reference images. Our strategy is founded upon the binned representation of the degradation space and the Fr\'echet distance between degradation distributions. Our results indicate that the proposed technique significantly improves the performance of test images while preserving generalization capabilities in real-world applications.
翻訳日:2023-06-02 21:06:14 公開日:2023-06-01
# 物理に変形したコンピュータビジョン : レビューと展望

Physics-Informed Computer Vision: A Review and Perspectives ( http://arxiv.org/abs/2305.18035v2 )

ライセンス: Link先を確認
Chayan Banerjee, Kien Nguyen, Clinton Fookes, George Karniadakis(参考訳) 機械学習フレームワークにおける物理情報の取り込みは、多くのアプリケーションドメインを開放し、変換している。 ここでは、基本的な知識の誘導と物理法則の統制を通じて学習プロセスが強化される。 本研究では,視覚データの解釈と理解におけるコンピュータビジョンタスクの有用性について検討する。 本稿では,物理法則に基づくコンピュータビジョンタスクの定式化とアプローチに関する体系的文献レビューを行う。 まず,一般的なコンピュータビジョンパイプラインを段階分類に分解し,各段階に物理方程式を組み込む手法を検討する。 各タスクにおける既存のアプローチは、物理プロセスがモデル化され、形式化され、どのように組み込まれているか、すなわちデータの修正(観察バイアス)、ネットワークの変更(帰納バイアス)、損失の修正(学習バイアス)に関して分析される。 分類学は、物理学インフォームド能力の適用を統一的に捉え、物理学インフォームド・ラーニングがどこで行われ、ギャップと機会がどこにあるかを強調している。 最後に、今後の研究を知らせるためのオープンな問題と課題を強調します。 まだ初期の段階だが、物理に変形したコンピュータビジョンの研究は、より現実的なアプリケーションにおいて、物理的実用性、正確性、データ効率、一般化を改善できるより良いコンピュータビジョンモデルの開発を約束している。

Incorporation of physical information in machine learning frameworks are opening and transforming many application domains. Here the learning process is augmented through the induction of fundamental knowledge and governing physical laws. In this work we explore their utility for computer vision tasks in interpreting and understanding visual data. We present a systematic literature review of formulation and approaches to computer vision tasks guided by physical laws. We begin by decomposing the popular computer vision pipeline into a taxonomy of stages and investigate approaches to incorporate governing physical equations in each stage. Existing approaches in each task are analyzed with regard to what governing physical processes are modeled, formulated and how they are incorporated, i.e. modify data (observation bias), modify networks (inductive bias), and modify losses (learning bias). The taxonomy offers a unified view of the application of the physics-informed capability, highlighting where physics-informed learning has been conducted and where the gaps and opportunities are. Finally, we highlight open problems and challenges to inform future research. While still in its early days, the study of physics-informed computer vision has the promise to develop better computer vision models that can improve physical plausibility, accuracy, data efficiency and generalization in increasingly realistic applications.
翻訳日:2023-06-02 21:05:36 公開日:2023-06-01
# 部分微分方程式のスケッチによる粒子とテンソルネットワークの組合せ

Combining Particle and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v2 )

ライセンス: Link先を確認
Yian Chen, Yuehaw Khoo(参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。 提案手法は,最近提案するテンソルトレインスケッチ手法を用いて,新しい解をテンソルネットワークとして更新し,再評価するために粒子シミュレーションを併用した包括的解法を提供する。 本手法は, 粒子がテンソルネットワークを起点と仮定して粒子数制御を行うための代替手法としても解釈できる。 ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を実証する。

In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach offers a comprehensive solution methodology, wherein we employ a combination of particle simulations to update the solution and re-estimations of the new solution as a tensor-network using a recently proposed tensor train sketching technique. Our method can also be interpreted as an alternative approach for performing particle number control by assuming the particles originate from an underlying tensor network. We demonstrate the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo.
翻訳日:2023-06-02 21:05:01 公開日:2023-06-01
# シャープネスを考慮したマルチデータセット協調学習

Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofing ( http://arxiv.org/abs/2305.19953v2 )

ライセンス: Link先を確認
Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen(参考訳) 自動話者認証のための音声アンチスプーフィングは、スプーフィング攻撃からユーザのアイデンティティを保護することを目的としている。 最先端スプーフィング対策(CM)モデルは特定のデータセットでよく機能するが、異なるデータセットで評価すると一般化が欠如する。 この制限に対処するため、以前の研究では、かなりのリソースと時間を要する大規模な事前訓練モデルについて検討してきた。 我々は,大規模事前学習モデルと競合するコンパクトかつ一般化したcmモデルの開発を目指している。 このアプローチには,マルチデータセットのコトレーニングとシャープネス認識の最小化が関与する。 大規模な実験により,提案手法は,大規模な事前学習モデルよりも4,000倍少ないパラメータを生かしながら,各種データセット間の競争結果が得られることがわかった。

Audio anti-spoofing for automatic speaker verification aims to safeguard users' identities from spoofing attacks. Although state-of-the-art spoofing countermeasure(CM) models perform well on specific datasets, they lack generalization when evaluated with different datasets. To address this limitation, previous studies have explored large pre-trained models, which require significant resources and time. We aim to develop a compact but well-generalizing CM model that can compete with large pre-trained models. Our approach involves multi-dataset co-training and sharpness-aware minimization, which has not been investigated in this domain. Extensive experiments reveal that proposed method yield competitive results across various datasets while utilizing 4,000 times less parameters than the large pre-trained models.
翻訳日:2023-06-02 20:58:12 公開日:2023-06-01
# 推薦のための大規模言語モデルに関する調査

A Survey on Large Language Models for Recommendation ( http://arxiv.org/abs/2305.19860v2 )

ライセンス: Link先を確認
Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong, Enhong Chen(参考訳) 自然言語処理(nlp)の分野では,大規模言語モデル(llm)が強力なツールとして登場し,最近はレコメンデーションシステム(rs)の分野で大きな注目を集めている。 これらのモデルは、自己教師付き学習を用いて大量のデータに基づいて訓練され、普遍表現の学習において顕著な成功を示しており、微調整やプロンプトチューニングなどの効果的な転送技術によって、レコメンデーションシステムの様々な側面を強化する可能性を秘めている。 推薦品質を高めるために言語モデルのパワーを活用する上で重要な側面は、高品質なテキスト特徴表現の利用と、アイテムとユーザ間の相関を確立するための外部知識の広範なカバレッジである。 既存のLLMに基づくレコメンデーションシステムを総合的に理解するため,本調査では,これらのモデルを,それぞれDLLM4レコメンデーション(DLLM)とGLLM4レコメンデーション(GLLM4レコメンデーション)の2つの主要なパラダイムに分類する分類法を提案する。 さらに,各パラダイム内の既存のLCMベースのレコメンデーションシステムを体系的にレビューし,分析し,その方法論,技術,性能について考察する。 さらに、研究者や実践者にインスピレーションを与える上で、重要な課題といくつかの重要な発見を特定する。 また、レコメンデーションのためにLLMに関する関連書類をインデックスするGitHubリポジトリも作成しました。

Large Language Models (LLMs) have emerged as powerful tools in the field of Natural Language Processing (NLP) and have recently gained significant attention in the domain of Recommendation Systems (RS). These models, trained on massive amounts of data using self-supervised learning, have demonstrated remarkable success in learning universal representations and have the potential to enhance various aspects of recommendation systems by some effective transfer techniques such as fine-tuning and prompt tuning, and so on. The crucial aspect of harnessing the power of language models in enhancing recommendation quality is the utilization of their high-quality representations of textual features and their extensive coverage of external knowledge to establish correlations between items and users. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey presents a taxonomy that categorizes these models into two major paradigms, respectively Discriminative LLM for Recommendation (DLLM4Rec) and Generative LLM for Recommendation (GLLM4Rec), with the latter being systematically sorted out for the first time. Furthermore, we systematically review and analyze existing LLM-based recommendation systems within each paradigm, providing insights into their methodologies, techniques, and performance. Additionally, we identify key challenges and several valuable findings to provide researchers and practitioners with inspiration. We have also created a GitHub repository to index relevant papers on LLMs for recommendation, https://github.com/WLiK/LLM4Rec.
翻訳日:2023-06-02 20:57:25 公開日:2023-06-01
# チュートリアル:オープン量子システムへのプロジェクターアプローチ

Tutorial: projector approach to open quantum systems ( http://arxiv.org/abs/2305.19704v2 )

ライセンス: Link先を確認
C. Gonzalez-Ballestero(参考訳) ほとんどの量子理論家は、ボルン=マルコフマスター方程式や断熱除去のような外部自由度に結合したシステムの効果的な量子力学を記述する異なる方法に精通している。 これらの明らかに無関係な手法間の深いつながりを理解することは強力なツールであり、非伝統的なシステムや体制における効果的なダイナミクスを導出することができる。 このチュートリアルは、nレベルエミッタからメカニカル共振器まで、システムに適用可能な効果的な量子力学を導出するための自己完結型実用的なツールボックスによって、複数の分野(量子光学、原子光学、光メカニクス、ハイブリッド量子システムなど)にまたがる量子論者に提供することを目的としている。 まず,開量子システムへのプロジェクタアプローチと,中島-ツワンジヒ方程式の導出について概説する。 そこで本研究では,中島・ズワンツィヒ方程式の摂動膨張から,ボルン・マルコフ・マスター方程式,原子物理学における断熱除去,サイドバンド冷却における断熱除去の3つの共通効用方程式を導出した。 また、ラムダ系における断熱除去と、光学キャビティによって冷却される機械共振器の有効方程式という、2つの具体的な例を詳細に解く。

Most quantum theorists are familiar with different ways of describing the effective quantum dynamics of a system coupled to external degrees of freedom, such as the Born-Markov master equation or the adiabatic elimination. Understanding the deep connection between these apparently unrelated methods can be a powerful tool, allowing us to derive effective dynamics in unconventional systems or regimes. This tutorial aims at providing quantum theorists across multiple fields (e.g. quantum and atom optics, optomechanics, or hybrid quantum systems) with a self-contained practical toolbox to derive effective quantum dynamics, applicable to systems ranging from N-level emitters to mechanical resonators. First, we summarize the projector approach to open quantum systems and the derivation of the fundamental Nakajima-Zwanzig equation. Then, we show how three common effective equations, namely the Born-Markov Master Equation, the adiabatic elimination used in atom physics, and a different adiabatic elimination used in sideband cooling, can be derived from different perturbative expansions of the Nakajima-Zwanzig equation. We also solve in detail two specific examples using this formalism, namely the adiabatic elimination in a Lambda system and the effective equations of a mechanical resonator cooled by an optical cavity.
翻訳日:2023-06-02 20:56:56 公開日:2023-06-01
# 絡み合った光によるLEOクロック同期

LEO Clock Synchronization with Entangled Light ( http://arxiv.org/abs/2305.19639v2 )

ライセンス: Link先を確認
Ronakraj Gosalia, Robert Malaney, Ryan Aguinaldo, Jonathan Green and Peter Brereton(参考訳) 精密ナビゲーションとタイミング、非常に長いベースライン干渉計、次世代通信、センシング、基礎物理学のテストはすべて、高度に同期されたクロックネットワークを必要とする。 高精度の光原子時計の進歩により、同期の精度の要求は古典物理学の限界(つまり標準量子限界、sql)に達している。 基本的な Heisenberg の限界に達するために,SQL を効率よく克服することは,シャープされた光や絡み合った光を使用することで実現できる。 ハイゼンベルク限界へのアプローチは理論的にはよく理解されているが、空間ベースのプラットフォームのような実用的な実装では、その利点は追加のコストと複雑さを上回っている。 エンタングルメントは、失われた衛星から衛星へのチャネルに対するクロック同期において、量子的な優位性をもたらすか? 非対称な損失チャネルでも、2モードの絡み合いの性質によって得られる冗長性が回復可能であることを示す。 さらに,この回復性は,単一モードのスクイーズセンシングよりも改善され,空間ベースのセンシングアプリケーションに対する新しい複雑さとパフォーマンスのトレードオフを示す。

Precision navigation and timing, very-long-baseline interferometry, next-generation communication, sensing, and tests of fundamental physics all require a highly synchronized network of clocks. With the advance of highly-accurate optical atomic clocks, the precision requirements for synchronization are reaching the limits of classical physics (i.e. the standard quantum limit, SQL). Efficiently overcoming the SQL to reach the fundamental Heisenberg limit can be achieved via the use of squeezed or entangled light. Although approaches to the Heisenberg limit are well understood in theory, a practical implementation, such as in space-based platforms, requires that the advantage outweighs the added costs and complexity. Here, we focus on the question: can entanglement yield a quantum advantage in clock synchronization over lossy satellite-to-satellite channels? We answer in the affirmative, showing that the redundancy afforded by the two-mode nature of entanglement allows recoverability even over asymmetrically lossy channels. We further show this recoverability is an improvement over single-mode squeezing sensing, thereby illustrating a new complexity-performance trade-off for space-based sensing applications.
翻訳日:2023-06-02 20:56:31 公開日:2023-06-01
# DC CoMix TTS: Mixerとのコラボレーションによる離散コード付きエンドツーエンド表現型TS

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer ( http://arxiv.org/abs/2305.19567v2 )

ライセンス: Link先を確認
Yerin Choi, Myoung-Wan Koo(参考訳) TTSの中立性は大きな成功を収めたものの、コンテンツ収集は依然として課題だ。 本稿では,プロソディモデリングの改善を実現するための新しい入力表現と単純なアーキテクチャを提案する。 近年のttsにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。 具体的には,音響圧縮モデルのベクトル量子化器を用いて,すでにトレーニング済みの多様な音響情報を活用する。 さらに、修正MLP-Mixerを参照エンコーダに適用し、アーキテクチャをより軽量にする。 その結果、プロソディ転送TSをエンドツーエンドで訓練する。 本手法は主観的評価と客観的評価の両方を通して有効性を示す。 実験において、離散符号を入力として利用する場合、参照エンコーダは話者非依存の韻律を学習できることを実証する。 さらに,少ないパラメータを入力しても比較結果が得られる。

Despite the huge successes made in neutral TTS, content-leakage remains a challenge. In this paper, we propose a new input representation and simple architecture to achieve improved prosody modeling. Inspired by the recent success in the use of discrete code in TTS, we introduce discrete code to the input of the reference encoder. Specifically, we leverage the vector quantizer from the audio compression model to exploit the diverse acoustic information it has already been trained on. In addition, we apply the modified MLP-Mixer to the reference encoder, making the architecture lighter. As a result, we train the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of our method through both subjective and objective evaluations. We demonstrate that the reference encoder learns better speaker-independent prosody when discrete code is utilized as input in the experiments. In addition, we obtain comparable results even when fewer parameters are inputted.
翻訳日:2023-06-02 20:56:11 公開日:2023-06-01
# 原子配列$^{171}$ybにおける中回路量子ビットの測定と再構成

Mid-circuit qubit measurement and rearrangement in a $^{171}$Yb atomic array ( http://arxiv.org/abs/2305.19119v2 )

ライセンス: Link先を確認
M. A. Norcia, W. B. Cairncross, K. Barnes, P. Battaglino, A. Brown, M. O. Brown, K. Cassella, C.-A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, A. M. W. Jones, H. Kim, J. M. Kindem, J. King, S. S. Kondov, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J. A. Muniz, S. Narayanaswami, C. Nishiguchi, R. Notermans, T. Paule, K. Pawlak, L. Peng, A. Ryou, A. Smull, D. Stack, M. Stone, A. Sucich, M. Urbanek, R. van de Veerdonk, Z. Vendeiro, T. Wilkason, T.-