このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240605となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 変数の相似選択のためのクラスタモデルと学生の就業率予測の強化
Cluster Model for parsimonious selection of variables and enhancing Students Employability Prediction ( http://arxiv.org/abs/2407.16884v1 ) ライセンス: Link先を確認 | Pooja Thakar, Anil Mehta, Manisha, | (参考訳) 教育データマイニング(EDM: Educational Data Mining)は、データマイニングが学生のパフォーマンス予測に広く利用されている、有望な分野である。
高等教育が直面する最も一般的かつ最近の課題の1つは、生徒を巧みに雇用できるようにすることである。
施設は大量のデータを持っているが、それでも知識を明らかにして生徒を指導することはできない。
教育におけるデータは一般的に非常に大きく、多次元であり、自然界では不均衡である。
このようなデータから知識を抽出するプロセスには、独自の問題セットがあり、非常に複雑なタスクである。
本稿では,様々な大学や大学から,MCA(Masters in Computer Applications)の学生データを収集する。
データセットは、大きく、不均衡で、本質的に多次元である。
本稿では,前処理段階に適用されたクラスタベースモデルを用いて,変数のパーシミュニケートな選択を支援し,予測アルゴリズムの性能を向上させる。
したがって、学生の就労率の予測がより容易になる。
Educational Data Mining (EDM) is a promising field, where data mining is widely used for predicting students performance. One of the most prevalent and recent challenge that higher education faces today is making students skillfully employable. Institutions possess large volume of data; still they are unable to reveal knowledge and guide their students. Data in education is generally very large, multidimensional and unbalanced in nature. Process of extracting knowledge from such data has its own set of problems and is a very complicated task. In this paper, Engineering and MCA (Masters in Computer Applications) students data is collected from various universities and institutes pan India. The dataset is large, unbalanced and multidimensional in nature. A cluster based model is presented in this paper, which, when applied at preprocessing stage helps in parsimonious selection of variables and improves the performance of predictive algorithms. Hence, facilitate in better prediction of Students Employability. | 翻訳日:2024-08-05 01:45:45 公開日:2024-06-05 |
# GPT-4におけるモラルの1次元マッピング--モラル領域の国別推定精度がモラル領域にどのように依存するか
GPT-4's One-Dimensional Mapping of Morality: How the Accuracy of Country-Estimates Depends on Moral Domain ( http://arxiv.org/abs/2407.16886v1 ) ライセンス: Link先を確認 | Pontus Strimling, Joel Krueger, Simon Karlsson, | (参考訳) 以前の研究では、Open AIのGPTモデルは、各国間の道徳的意見の変化を予測することができるが、低所得国に比べて、高い所得国では精度が著しく高い傾向にあることが示されている。
本研究は, 過去の知見を再現し, 道徳的問題の種類によってどのように精度が変化するかを調べることによって研究を進めることを目的としている。
世界価値調査と欧州価値調査の回答を用いて、63か国18の道徳問題をカバーし、各道徳問題の平均スコアを算出し、GPT-4の予測と比較した。
以上の結果から,GPT-4は低所得国よりも高所得国において高い予測的成功率を示した。
しかしながら, GPT-4は, 各国の保守主義・自由主義の程度を反映して, 主に一つの次元に基づいて予測を行う。
逆に、現実世界の道徳観は2次元のように見える。
道徳的問題が道徳的領域に基づいて分類されると、GPT-4の予測は、高所得者(r = .77)と低所得者(r = .58)の両方で、個人性領域において著しく正確であることが分かる。
しかし、予測精度は高所得国(r = .30)と低所得国(r = -.16)の両方で暴力的不正直な領域で著しく低下し、GPT-4の1次元の世界観が道徳的景観の複雑さを完全に捉えていないことを示している。
本研究は、GPT-4の道徳的理解を理解するために、国固有の特徴を考えるだけでなく、目前にある道徳的問題の特徴も考慮することの重要性を強調している。
Prior research demonstrates that Open AI's GPT models can predict variations in moral opinions between countries but that the accuracy tends to be substantially higher among high-income countries compared to low-income ones. This study aims to replicate previous findings and advance the research by examining how accuracy varies with different types of moral questions. Using responses from the World Value Survey and the European Value Study, covering 18 moral issues across 63 countries, we calculated country-level mean scores for each moral issue and compared them with GPT-4's predictions. Confirming previous findings, our results show that GPT-4 has greater predictive success in high-income than in low-income countries. However, our factor analysis reveals that GPT-4 bases its predictions primarily on a single dimension, presumably reflecting countries' degree of conservatism/liberalism. Conversely, the real-world moral landscape appears to be two-dimensional, differentiating between personal-sexual and violent-dishonest issues. When moral issues are categorized based on their moral domain, GPT-4's predictions are found to be remarkably accurate in the personal-sexual domain, across both high-income (r = .77) and low-income (r = .58) countries. Yet the predictive accuracy significantly drops in the violent-dishonest domain for both high-income (r = .30) and low-income (r = -.16) countries, indicating that GPT-4's one-dimensional world-view does not fully capture the complexity of the moral landscape. In sum, this study underscores the importance of not only considering country-specific characteristics to understand GPT-4's moral understanding, but also the characteristics of the moral issues at hand. | 翻訳日:2024-08-05 01:45:45 公開日:2024-06-05 |
# インド高等教育システムにおける雇用可能性の統一予測モデル
Unified Prediction Model for Employability in Indian Higher Education System ( http://arxiv.org/abs/2407.17591v1 ) ライセンス: Link先を確認 | Pooja Thakar, Anil Mehta, Manisha, | (参考訳) 教育データマイニングは、過去10年間で研究者の間で非常に人気がある。
この領域における以前の取り組みは、学生の学業成績の予測にのみ向けられていた。
大学構内における学生の就学率の予測は, 学生の就学初期における就学率の予測に向け, 学生の就学率の予測に向けられた研究が極めて少ない。
さらに、既存の学生雇用予測の研究は、アプローチにおいて普遍的ではなく、1つのコースまたは大学/機関のみに基づいている。
そのため、あるコンテキストから別のコンテキストへ拡張性がない。
統一の必要性から、Bchelor in Engineering/Technology and Masters in Computer Applicationsという専門技術コースのデータがインド17州から収集されている。
このようなデータを扱うために、17の状態データセットに統一的な予測モデルが開発され、適用されている。
本研究は, モデルが普遍的に適用可能であることを証明し, 異なる文化的背景とコース構造を持つインドパン・インディアの様々な州や機関に適用可能であることを実証する。
また,本論文は,学生の就学率の予測に関して,国家に対するインド教育制度に有意な差がないことを統計的に調査し,証明している。
モデルは、インドのシナリオにおける学生雇用率予測のための一般化されたソリューションを提供する。
Educational Data Mining has become extremely popular among researchers in last decade. Prior effort in this area was only directed towards prediction of academic performance of a student. Very less number of researches are directed towards predicting employability of a student i.e. prediction of students performance in campus placements at an early stage of enrollment. Furthermore, existing researches on students employability prediction are not universal in approach and is either based upon only one type of course or University/Institute. Henceforth, is not scalable from one context to another. With the necessity of unification, data of professional technical courses namely Bachelor in Engineering/Technology and Masters in Computer Applications students have been collected from 17 states of India. To deal with such a data, a unified predictive model has been developed and applied on 17 states datasets. The research done in this paper proves that model has universal application and can be applied to various states and institutes pan India with different cultural background and course structure. This paper also explores and proves statistically that there is no significant difference in Indian Education System with respect to states as far as prediction of employability of students is concerned. Model provides a generalized solution for student employability prediction in Indian Scenario. | 翻訳日:2024-08-05 01:35:56 公開日:2024-06-05 |
# スライダチャット:3Dスライダのためのローカルチャットボットの構築
SlicerChat: Building a Local Chatbot for 3D Slicer ( http://arxiv.org/abs/2407.11987v1 ) ライセンス: Link先を確認 | Colton Barr, | (参考訳) 3D Slicerは3Dデータ視覚化と分析のための強力なプラットフォームだが、新しいユーザーにとって大きな学習曲線がある。
ChatGPTのような生成AIアプリケーションは、自然言語を使ってさまざまなドキュメントソース間のギャップを埋める潜在的な方法として登場した。
しかし、3DスライダのドキュメンテーションへのLLMサービスの露出は限られているため、ChatGPTと関連するサービスは幻覚に悩まされる傾向にある。
このプロジェクトの目的は、SlicerChatと呼ばれるチャットボットアーキテクチャを構築することであり、3D Slicer関連の質問に答え、オープンソースモデルを使用してローカルで実行できるように最適化されている。
この研究で調査された中核的な質問は、微調整、モデルサイズ、そしてプロンプトに含まれるドメイン知識の種類による、回答の品質と速度の違いに関するものだ。
プロトタイプのSlicerChatシステムは、Code-Llama Instructアーキテクチャに基づいた3Dスライダのカスタム拡張として開発された。
低階適応を用いてサイズ1.1B,7B,13Bのモデルを微調整し、3Dスライダドキュメンテーションの様々なソースを検索型拡張生成パラダイムで使用するためにコンパイルした。
5つの3D Slicer質問のベンチマークデータセットで、ファインチューニングとモデルサイズの組み合わせをテストすると、ファインチューニングはベースアーキテクチャと比較してモデル性能や速度に影響を与えず、より大きなモデルの方が大幅に速度を低下させる結果となった。
プロンプトに3Dスライダのドキュメンテーションを追加する実験では、PythonのサンプルコードとMarkdownのドキュメンテーションが最も有用な情報であるが、3DスライダのシーンデータとDiscourseからの質問もモデルのパフォーマンスを改善した。
結論として、このプロジェクトは高品質でローカルなチャットボットを3D Slicerに直接統合し、新しいユーザーや経験豊富な開発者がソフトウェアをより効率的に使えるようにする可能性を示している。
3D Slicer is a powerful platform for 3D data visualization and analysis, but has a significant learning curve for new users. Generative AI applications, such as ChatGPT, have emerged as a potential method of bridging the gap between various sources of documentation using natural language. The limited exposure of LLM services to 3D Slicer documentation, however, means that ChatGPT and related services tend to suffer from significant hallucination. The objective of this project is to build a chatbot architecture, called SlicerChat, that is optimized to answer 3D Slicer related questions and able to run locally using an open-source model. The core research questions explored in this work revolve around the answer quality and speed differences due to fine-tuning, model size, and the type of domain knowledge included in the prompt. A prototype SlicerChat system was built as a custom extension in 3D Slicer based on the Code-Llama Instruct architecture. Models of size 1.1B, 7B and 13B were fine-tuned using Low rank Adaptation, and various sources of 3D Slicer documentation were compiled for use in a Retrieval Augmented Generation paradigm. Testing combinations of fine-tuning and model sizes on a benchmark dataset of five 3D Slicer questions revealed that fine-tuning had no impact on model performance or speed compared to the base architecture, and that larger models performed better with a significant speed decrease. Experiments with adding 3D Slicer documentation to the prompt showed that Python sample code and Markdown documentation were the most useful information to include, but that adding 3D Slicer scene data and questions taken from Discourse also improved model performance. In conclusion, this project shows the potential for integrating a high quality, local chatbot directly into 3D Slicer to help new users and experienced developers alike to more efficiently use the software. | 翻訳日:2024-07-22 11:50:18 公開日:2024-06-05 |
# メタフォリックパラフレーズを用いたよりハードなクロスドキュメントイベント参照解決データセットの生成
Generating Harder Cross-document Event Coreference Resolution Datasets using Metaphoric Paraphrasing ( http://arxiv.org/abs/2407.11988v1 ) ライセンス: Link先を確認 | Shafiuddin Rehan Ahmed, Zhiyong Eric Wang, George Arthur Baker, Kevin Stowe, James H. Martin, | (参考訳) 最も一般的なクロスドキュメントイベント参照解決(CDEC)データセットは、コア参照イベントトリガ(イベントを参照する単語やフレーズ)間の語彙的多様性が欠如しているため、タスクの真の難しさを伝えることができない。
さらに、図形言語のためのイベントデータセットのデジェストがあり、イベント理解における重要な研究の道のりを制限している。
象徴的で比喩的な言語でCDECにイベントコアフバンクプラス(ECB+)の語彙的に豊かな変種であるECB+METAを導入することで、これらの2つの問題に対処する。
我々は、ECB+の文書における文の比喩的変換のツールとしてChatGPTを使用し、変換された文の元のイベントトリガーを半自動的にタグ付けする。
このようにして、高価なコア参照リンクの再注釈を避ける。
我々は、ECB+METAとの闘いをうまくこなす既存の手法を示す結果を示し、より困難なデータセットに関するCDEC研究の道を開く。
コード/データ:https://github.com/ahmeshaf/llms_coref
The most popular Cross-Document Event Coreference Resolution (CDEC) datasets fail to convey the true difficulty of the task, due to the lack of lexical diversity between coreferring event triggers (words or phrases that refer to an event). Furthermore, there is a dearth of event datasets for figurative language, limiting a crucial avenue of research in event comprehension. We address these two issues by introducing ECB+META, a lexically rich variant of Event Coref Bank Plus (ECB+) for CDEC on symbolic and metaphoric language. We use ChatGPT as a tool for the metaphoric transformation of sentences in the documents of ECB+, then tag the original event triggers in the transformed sentences in a semi-automated manner. In this way, we avoid the re-annotation of expensive coreference links. We present results that show existing methods that work well on ECB+ struggle with ECB+META, thereby paving the way for CDEC research on a much more challenging dataset. Code/data: https://github.com/ahmeshaf/llms_coref | 翻訳日:2024-07-22 11:30:12 公開日:2024-06-05 |
# 大規模言語モデルにおけるヘッド・オブ・ライン・ブロッキングの解決に必要なのは1つのキュー
One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving ( http://arxiv.org/abs/2407.00047v1 ) ライセンス: Link先を確認 | Archit Patke, Dhemath Reddy, Saurabh Jha, Haoran Qiu, Christian Pinto, Shengkun Cui, Chandra Narayanaswami, Zbigniew Kalbarczyk, Ravishankar Iyer, | (参考訳) LLM(Large Language Model)は,エンタープライズアプリケーションとコンシューマアプリケーションの両方を対象とするクラウドプロバイダにとって,ますます重要なワークロードになっています。
これらのアプリケーションからのLLM推論要求には、本番環境に従わなければならないエンドツーエンドのレイテンシSLOがある。
しかし、既存のLLMサービスシステムは、エンドツーエンドのレイテンシSLOよりも、要求サービススループットや要求実行遅延といった最適化目標に重点を置いている。
待ち時間に敏感なリクエストに対するエンドツーエンドのSLOを実現することは、リクエストキューにヘッド・オブ・ライン(HOL)がブロックされているため困難である。
上記の課題に対処するため,LLMサービスのためのマルチモデルキュー管理フレームワークであるQLMを提案する。
QLMは確率的プログラミングを用いて、複数のLSMサービングオペレーション(LSO)の動作をオーケストレーションし、HOLブロックを減らし、SLO達成を最大化する。
具体的には、モデルスワップ、要求消去、GPU-CPU状態スワップ、ロードバランシング、ウォームモデルスタートなどである。
実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価は、QLMがSLOの達成率を40-90%改善し、スループットを20-400%向上し、他の最先端のLLMサービスシステムと比較してデバイス利用率を維持または改善していることを示している。
$ $Large language models (LLMs) have become an increasingly important workload for cloud providers catering to both enterprise and consumer applications. LLM inference requests from these applications have end-to-end latency SLOs that must be adhered to in production settings. However, existing LLM serving systems focus on optimization objectives such as request serving throughput or request execution latency rather than the end-to-end latency SLOs. Achieving end-to-end SLOs for latency-sensitive requests is challenging due to head-of-line (HOL) blocking in the request queue, which results from bursty arrival rates and insufficient resources. To address the above challenge, we propose QLM, a multi-model queue management framework for LLM serving. QLM uses stochastic programming to orchestrate the actions of multiple LLM Serving Operations (LSOs) to reduce HOL blocking and maximize SLO attainment. Specifically, QLM uses the following LSOs: model swapping, request eviction, GPU-CPU state swapping, load balancing, and warm model start. Evaluation on heterogeneous GPU devices and models with real-world LLM serving dataset shows that QLM improves SLO attainment by 40-90% and throughput by 20-400% while maintaining or improving device utilization compared to other state-of-the-art LLM serving systems. | 翻訳日:2024-07-07 13:43:41 公開日:2024-06-05 |
# Block-Toeplitz Augmented Covariance Matrices and Siegel Metricsを用いたモータ画像BCI分類の計算効率の向上
Enhancing Computational Efficiency of Motor Imagery BCI Classification with Block-Toeplitz Augmented Covariance Matrices and Siegel Metric ( http://arxiv.org/abs/2406.16909v1 ) ライセンス: Link先を確認 | Igor Carrara, Theodore Papadopoulo, | (参考訳) 脳波信号は多次元データセットとして表現される。
運動画像分類を改善するために, 拡張共分散法(ACM)の強化を導入し, 動的系の位相空間再構成とリーマン幾何学の組合せとして現れる。
実際、分類を改善するための対称正定行列の構成に基づいている。
しかし、この行列は以前に無視されたブロック・トゥープリッツ構造を持つ。
この研究は、それらが属する実多様体におけるそのような行列、すなわちブロック・トゥープリッツ SPD 行列の集合を扱う。
いくつかの操作の後、この集合はSPD多様体とシーゲルディスク空間の積と見なすことができ、提案手法はMOABBフレームワークを用いてセッション内評価法を用いて検証された。
ACMと同じような分類性能を実現しており、一般的には--あるいは---------------------------------------------------------------------------------------------------- ---------------------------------------------------------------
しかし、結果としてACMよりも計算効率が向上し、リアルタイム実験にさらに適している。
Electroencephalographic signals are represented as multidimensional datasets. We introduce an enhancement to the augmented covariance method (ACM), exploiting more thoroughly its mathematical properties, in order to improve motor imagery classification.Standard ACM emerges as a combination of phase space reconstruction of dynamical systems and of Riemannian geometry. Indeed, it is based on the construction of a Symmetric Positive Definite matrix to improve classification. But this matrix also has a Block-Toeplitz structure that was previously ignored. This work treats such matrices in the real manifold to which they belong: the set of Block-Toeplitz SPD matrices. After some manipulation, this set is can be seen as the product of an SPD manifold and a Siegel Disk Space.The proposed methodology was tested using the MOABB framework with a within-session evaluation procedure. It achieves a similar classification performance to ACM, which is typically better than -- or at worse comparable to -- state-of-the-art methods. But, it also improves consequently the computational efficiency over ACM, making it even more suitable for real time experiments. | 翻訳日:2024-07-01 06:41:31 公開日:2024-06-05 |
# 心の目:マルチモーダル類似性学習による脳波による画像認識
Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning ( http://arxiv.org/abs/2406.16910v1 ) ライセンス: Link先を確認 | Chi-Sheng Chen, Chun-Shu Wei, | (参考訳) 非侵襲脳波(EEG)信号からの画像の復号は、人間の脳がどのように視覚情報を現実世界のシナリオで処理するかを理解する上で大きな課題である。
信号対雑音比と非定常性の問題に対処するために,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE learning (MUSE) フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、広範囲な視覚的脳波データセットを用いて、正規化されたコントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
さらに、モデル解釈による神経パターンの可視化を行い、人間の脳の視覚的処理のダイナミクスに光を当てる。
この作業のコードリポジトリは、https://github.com/ChiShengChen/MUSE_EEG.comで公開されている。
Decoding images from non-invasive electroencephalographic (EEG) signals has been a grand challenge in understanding how the human brain process visual information in real-world scenarios. To cope with the issues of signal-to-noise ratio and nonstationarity, this paper introduces a MUltimodal Similarity-keeping contrastivE learning (MUSE) framework for zero-shot EEG-based image classification. We develop a series of multivariate time-series encoders tailored for EEG signals and assess the efficacy of regularized contrastive EEG-Image pretraining using an extensive visual EEG dataset. Our method achieves state-of-the-art performance, with a top-1 accuracy of 19.3% and a top-5 accuracy of 48.8% in 200-way zero-shot image classification. Furthermore, we visualize neural patterns via model interpretation, shedding light on the visual processing dynamics in the human brain. The code repository for this work is available at: https://github.com/ChiShengChen/MUSE_EEG. | 翻訳日:2024-07-01 06:31:46 公開日:2024-06-05 |
# ナノダイヤモンドセンサを用いた動的非局所変形の測定
Measurement of dynamic nonlocal deformation using nanodiamond sensors ( http://arxiv.org/abs/2406.18577v1 ) ライセンス: Link先を確認 | Yue Cui, Weng-Hang Leong, Guoli Zhu, Ren-Bao Liu, Quan Li, | (参考訳) 原子間力顕微鏡によるインデンテーションとナノダイアモンドによる配向追跡を統合した非局所変形検出は、高精度で空間分解能が高く、ソフトバイオシステムの機械的特性を研究するのに有用な技術である。
しかし、この技術は現在、生体活動や他の外部の摂動とインデンテーションによる変形を区別できないため、生命の無いシステムに限られている。
そこで我々は,この制限を克服するために,振動ナノインデンテーションと分光分析を用いた動的非局所変形検出法を開発した。
粘弾性材料と生体細胞の機械的応答における表面・界面効果の開示につながる、時間的および空間的に解決された機械的解析を、数十マイクロ秒のタイムラグ精度、ナノメートルの垂直変形精度、およびサブハンドレッドナノメートルの空間的解像度で実現する。
表面張力の無視は、材料の液体のような特性を過小評価する。
この研究は、軟質で複雑な生体関連物質の時空間力学的解析の有用なツールとしてナノダイヤモンドセンサーを実証する。
Nonlocal deformation sensing achieved by integrating atomic force microscopy indentation with nanodiamond-based orientation tracking features high precision and high spatial resolution, providing a useful technique for studying the mechanical properties of soft biological systems. However, this technique is currently limited to lifeless systems because it cannot differentiate the indentation-induced deformation from that associated with live activities or other external perturbations. Here we develop a dynamic nonlocal deformation sensing method using oscillatory nanoindentation and spectroscopic analysis to overcome this limitation. The method realizes both temporally and spatially resolved mechanical analysis, with tens of microsecond time-lag precision, nanometer vertical deformation precision, and sub-hundred nanometer lateral spatial resolution, leading to the disclosure of surface/interface effects in the mechanical response of viscoelastic materials and live cells. Neglecting surface tension would underestimate the liquid-like characteristics of the materials. This work demonstrates nanodiamond sensors as a useful tool for spatial-temporal mechanical analysis of soft, complex bio-relevant materials. | 翻訳日:2024-07-01 05:50:36 公開日:2024-06-05 |
# Hire: 画像テキストマッチングのためのハイブリッドモーダルインタラクションとマルチリレーショナルエンハンスメント
Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching ( http://arxiv.org/abs/2406.18579v1 ) ライセンス: Link先を確認 | Xuri Ge, Fuhai Chen, Songpei Xu, Fuxiang Tao, Jie Wang, Joemon M. Jose, | (参考訳) 画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
重要な問題は、視覚とテキストの表現を共同で学習し、それらの類似性を正確に見積もることである。
既存のほとんどの手法は、モダリティにおける特徴強化や、モダリティ間の特徴相互作用に重点を置いているが、それにもかかわらず、対応する文とリッチな文脈意味論に一致するオブジェクト間の関係に基づいて、オブジェクト表現の文脈情報を無視している。
本稿では,オブジェクトと単語間のモーダル間セマンティクスを暗黙的および明示的関係モデリングで関連づける,画像テキストマッチングのための複合モーダルインタラクションとマルチリレーショナルエンハンスメント(termed \textit{Hire})を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、オブジェクトの空間位置とシーングラフの明示的な関係によって導かれる、空間的および意味的な関係性を持つ視覚オブジェクトの文脈的表現を改善するように設計されている。
我々は、明示的な関係検出の耐障害性を改善するために、明示的なモデリングの前に潜在的な関係の相互作用に暗黙的な関係のモデリングを用いる。
そして、視覚的およびテキスト的意味表現は、モーダル間対話的注意とモーダル間アライメントによって共同で洗練される。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるため、クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
広汎な実験により、暗黙的および明示的なモデリングとのハイブリッド・モーダル相互作用が画像テキストマッチングにおいてより有益であることが検証された。
提案した‘textit{Hire} は MS-COCO と Flickr30K のベンチマークで新しい最先端結果を得る。
Image-text matching (ITM) is a fundamental problem in computer vision. The key issue lies in jointly learning the visual and textual representation to estimate their similarity accurately. Most existing methods focus on feature enhancement within modality or feature interaction across modalities, which, however, neglects the contextual information of the object representation based on the inter-object relationships that match the corresponding sentences with rich contextual semantics. In this paper, we propose a Hybrid-modal Interaction with multiple Relational Enhancements (termed \textit{Hire}) for image-text matching, which correlates the intra- and inter-modal semantics between objects and words with implicit and explicit relationship modelling. In particular, the explicit intra-modal spatial-semantic graph-based reasoning network is designed to improve the contextual representation of visual objects with salient spatial and semantic relational connectivities, guided by the explicit relationships of the objects' spatial positions and their scene graph. We use implicit relationship modelling for potential relationship interactions before explicit modelling to improve the fault tolerance of explicit relationship detection. Then the visual and textual semantic representations are refined jointly via inter-modal interactive attention and cross-modal alignment. To correlate the context of objects with the textual context, we further refine the visual semantic representation via cross-level object-sentence and word-image-based interactive attention. Extensive experiments validate that the proposed hybrid-modal interaction with implicit and explicit modelling is more beneficial for image-text matching. And the proposed \textit{Hire} obtains new state-of-the-art results on MS-COCO and Flickr30K benchmarks. | 翻訳日:2024-07-01 05:50:36 公開日:2024-06-05 |
# 大規模生成ネットワーク上のシーディング光-拡散モデルにおける疫学的不確かさの推定
Shedding Light on Large Generative Networks: Estimating Epistemic Uncertainty in Diffusion Models ( http://arxiv.org/abs/2406.18580v1 ) ライセンス: Link先を確認 | Lucas Berry, Axel Brando, David Meger, | (参考訳) 1億のパラメータ数と高次元画像空間での演算で有名な生成拡散モデルは、計算要求による従来の不確実性推定手法に重大な課題を提起する。
本研究では,拡散モデルの疫学的不確実性を推定するために設計されたDiffusion Ensembles for Capturing Uncertainity (DECU) という革新的なフレームワークを紹介する。
DECUフレームワークは、事前訓練されたパラメータの静的なセットを組み込んで条件拡散モデルのアンサンブルを効率的に訓練する手法を導入し、計算負担と訓練を必要とするパラメータの数を大幅に削減する。
さらに、DECはPairwise-Distance Estimator (PaiDEs) を用いて、高次元空間におけるモデル出力と重みの相互情報を評価することで、てんかんの不確かさを正確に測定する。
このフレームワークの有効性は、ImageNetデータセットの実験を通じて実証され、特にアンダーサンプル画像クラスにおいて、てんかん不確実性を捉える能力を強調している。
Generative diffusion models, notable for their large parameter count (exceeding 100 million) and operation within high-dimensional image spaces, pose significant challenges for traditional uncertainty estimation methods due to computational demands. In this work, we introduce an innovative framework, Diffusion Ensembles for Capturing Uncertainty (DECU), designed for estimating epistemic uncertainty for diffusion models. The DECU framework introduces a novel method that efficiently trains ensembles of conditional diffusion models by incorporating a static set of pre-trained parameters, drastically reducing the computational burden and the number of parameters that require training. Additionally, DECU employs Pairwise-Distance Estimators (PaiDEs) to accurately measure epistemic uncertainty by evaluating the mutual information between model outputs and weights in high-dimensional spaces. The effectiveness of this framework is demonstrated through experiments on the ImageNet dataset, highlighting its capability to capture epistemic uncertainty, specifically in under-sampled image classes. | 翻訳日:2024-07-01 05:50:36 公開日:2024-06-05 |
# スティル化スコア蒸留によるDream-in-Style:テキスト・ツー・3D生成
Dream-in-Style: Text-to-3D Generation using Stylized Score Distillation ( http://arxiv.org/abs/2406.18581v1 ) ライセンス: Link先を確認 | Hubert Kompanowski, Binh-Son Hua, | (参考訳) 本稿では,3次元オブジェクトをスタイルで生成する手法を提案する。
提案手法では,テキストプロンプトとスタイル参照イメージを入力として取り込んでニューラルラディアンスフィールドを再構成し,テキストプロンプトと参照画像に続くスタイルに整合した3Dモデルを合成する。
3Dオブジェクトを同時に生成し,一行でスタイル転送を行うために,テキストから3Dまでの最適化プロセスを導出し,視覚的に可視な形状と外観を出力するスタイリングされたスコア蒸留損失を提案する。
本発明のスタイライズされたスコア蒸留は,従来の事前訓練されたテキスト・ツー・イメージモデルと,参照画像からスタイルを注入するために操作された自己保持層のキーと値の特徴を組み合わさったものである。
最新の手法との比較により,本手法の強い視覚的性能が示され,ユーザ研究の定量的結果によってさらに裏付けられた。
We present a method to generate 3D objects in styles. Our method takes a text prompt and a style reference image as input and reconstructs a neural radiance field to synthesize a 3D model with the content aligning with the text prompt and the style following the reference image. To simultaneously generate the 3D object and perform style transfer in one go, we propose a stylized score distillation loss to guide a text-to-3D optimization process to output visually plausible geometry and appearance. Our stylized score distillation is based on a combination of an original pretrained text-to-image model and its modified sibling with the key and value features of self-attention layers manipulated to inject styles from the reference image. Comparisons with state-of-the-art methods demonstrated the strong visual performance of our method, further supported by the quantitative results from our user study. | 翻訳日:2024-07-01 05:50:36 公開日:2024-06-05 |
# 正準整合場:点雲からの動的形状の再構成
Canonical Consolidation Fields: Reconstructing Dynamic Shapes from Point Clouds ( http://arxiv.org/abs/2406.18582v1 ) ライセンス: Link先を確認 | Miaowei Wang, Changjian Li, Amir Vaxman, | (参考訳) カノニカル・コンソリデーション・フィールド(CanFields: Canonical Consolidation Fields: CanFields)は、独立にサンプリングされた点雲の時系列を単一の変形コヒーレントな形状に再構成する手法である。
このような入力は、しばしばモーションキャプチャーから来る。
既存の手法は幾何と変形を組み合わせ、細部を滑らかにし、移動点を追跡する能力を失うか、あるいは変形を明示的に追跡するが、位相的および幾何学的アーティファクトを導入する。
我々の斬新さは、ノイズや外れ値の影響を低減し、欠落した領域を克服できる方法で、点雲を単一の標準形にまとめることにある。
変形を導く速度場を同時に再構築する。
この統合により、低周波変形を忠実に再現しながら、幾何学の高周波詳細を維持できる。
私たちのアーキテクチャは単純なコンポーネントで構成されており、データセットを使わずに任意の入力形状に適合します。
提案手法のロバスト性および精度を,欠落領域,スパースフレーム,ノイズを含む多様な動的点雲のベンチマークで示す。
We present Canonical Consolidation Fields (CanFields): a method for reconstructing a time series of independently-sampled point clouds into a single deforming coherent shape. Such input often comes from motion capture. Existing methods either couple the geometry and the deformation, where by doing so they smooth fine details and lose the ability to track moving points, or they track the deformation explicitly, but introduce topological and geometric artifacts. Our novelty lies in the consolidation of the point clouds into a single canonical shape in a way that reduces the effect of noise and outliers, and enables us to overcome missing regions. We simultaneously reconstruct the velocity fields that guide the deformation. This consolidation allows us to retain the high-frequency details of the geometry, while faithfully reproducing the low-frequency deformation. Our architecture comprises simple components, and fits any single input shape without using datasets. We demonstrate the robustness and accuracy of our methods on a diverse benchmark of dynamic point clouds, including missing regions, sparse frames, and noise. | 翻訳日:2024-07-01 05:40:31 公開日:2024-06-05 |
# Lumina-Next:Next-DiTでLumina-T2Xをより強く高速に
Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT ( http://arxiv.org/abs/2406.18583v1 ) ライセンス: Link先を確認 | Le Zhuo, Ruoyi Du, Han Xiao, Yangguang Li, Dongyang Liu, Rongjie Huang, Wenze Liu, Lirui Zhao, Fu-Yun Wang, Zhanyu Ma, Xu Luo, Zehan Wang, Kaipeng Zhang, Xiangyang Zhu, Si Liu, Xiangyu Yue, Dingning Liu, Wanli Ouyang, Ziwei Liu, Yu Qiao, Hongsheng Li, Peng Gao, | (参考訳) Lumina-T2Xは、フローベースの大規模拡散変換器の初期段階のファミリーであり、画像やビデオなどの様々なモダリティにノイズを変換する統一的なフレームワークを確立し、テキスト命令で条件付けされている。
その有望な機能にもかかわらず、Lumina-T2Xは、トレーニング不安定、遅い推論、外挿アーティファクトなどの課題に直面している。
本稿では,Lumina-T2Xの改良版であるLumina-Nextについて述べる。
本稿では,Frag-DiTアーキテクチャの包括的解析から始め,Next-DiTアーキテクチャに3D RoPEとサンドイッチ正規化を導入することで,いくつかの部分最適化コンポーネントを同定する。
より高分解能な外挿を実現するために,3D RoPEとテキスト・画像生成に適用された異なるコンテキスト外挿手法を徹底的に比較し,拡散トランスフォーマに適した周波数・時間対応スケール付き RoPE を提案する。
さらに,フローODEとコンテキストドロップ法を解く際のサンプリングステップを削減するためのシグモイド時間離散化スケジュールを導入し,冗長な視覚トークンをマージしてネットワーク評価を高速化し,全体のサンプリング速度を効果的に向上させた。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、デコーダベースのLCMをテキストエンコーダとして使い、優れた解像度外挿機能と多言語生成をゼロショットで実現している。
汎用的な生成フレームワークとしてLumina-Nextをさらに検証するために、視覚認識、マルチビュー、オーディオ、音楽、ポイントクラウド生成など様々なタスクをインスタンス化し、これらの領域で強いパフォーマンスを示す。
すべてのコードとモデルウェイトをリリースすることにより、ユニバーサルモデリングが可能な次世代生成AIの開発を進めることを目指している。
Lumina-T2X is a nascent family of Flow-based Large Diffusion Transformers that establishes a unified framework for transforming noise into various modalities, such as images and videos, conditioned on text instructions. Despite its promising capabilities, Lumina-T2X still encounters challenges including training instability, slow inference, and extrapolation artifacts. In this paper, we present Lumina-Next, an improved version of Lumina-T2X, showcasing stronger generation performance with increased training and inference efficiency. We begin with a comprehensive analysis of the Flag-DiT architecture and identify several suboptimal components, which we address by introducing the Next-DiT architecture with 3D RoPE and sandwich normalizations. To enable better resolution extrapolation, we thoroughly compare different context extrapolation methods applied to text-to-image generation with 3D RoPE, and propose Frequency- and Time-Aware Scaled RoPE tailored for diffusion transformers. Additionally, we introduced a sigmoid time discretization schedule to reduce sampling steps in solving the Flow ODE and the Context Drop method to merge redundant visual tokens for faster network evaluation, effectively boosting the overall sampling speed. Thanks to these improvements, Lumina-Next not only improves the quality and efficiency of basic text-to-image generation but also demonstrates superior resolution extrapolation capabilities and multilingual generation using decoder-based LLMs as the text encoder, all in a zero-shot manner. To further validate Lumina-Next as a versatile generative framework, we instantiate it on diverse tasks including visual recognition, multi-view, audio, music, and point cloud generation, showcasing strong performance across these domains. By releasing all codes and model weights, we aim to advance the development of next-generation generative AI capable of universal modeling. | 翻訳日:2024-07-01 05:40:31 公開日:2024-06-05 |
# ロボットマニピュレーションのための不変マッチングを用いたワンショット模倣学習
One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation ( http://arxiv.org/abs/2405.13178v2 ) ライセンス: Link先を確認 | Xinyu Zhang, Abdeslam Boularias, | (参考訳) 多様な操作タスクを実行できる単一の普遍的なポリシーを学ぶことは、ロボティクスにおける有望な新しい方向性である。
しかし、既存のテクニックは、トレーニング中に遭遇したタスクのみを実行することができ、新しいタスクを学ぶために多数のデモを必要とする学習ポリシーに限られている。
一方、人間は1つの無意味なデモンストレーションから新しいタスクを学ぶことができる。
そこで本研究では,IMOP(Invariance-Matching One-shot Policy Learning)アルゴリズムを提案する。
エンドエフェクタのポーズを直接学習する標準的なプラクティスとは対照的に、IMOPはまず与えられたタスクの状態空間の不変領域を学習し、次にデモとテストシーン間の不変領域をマッチングしてエンドエフェクタのポーズを計算する。
IMOPは18のRLBenchタスクで訓練され、18のタスクで平均4.5%、最先端のタスクを継続的に上回る成功率を達成した。
さらに重要なことは、IMOPは1つの未発表のデモから新しいタスクを学習でき、微調整なしで、9つのカテゴリで選択された22の新規タスクに対して、最先端のタスクよりも11.5\%の平均的な成功率の向上を達成することができる。
IMOPはまた、新しい形状に一般化し、デモと異なるオブジェクトを操作することを学べる。
さらに、IMOPは1つの実ロボットデモを用いて、ワンショットのsim-to-real転送を行うことができる。
Learning a single universal policy that can perform a diverse set of manipulation tasks is a promising new direction in robotics. However, existing techniques are limited to learning policies that can only perform tasks that are encountered during training, and require a large number of demonstrations to learn new tasks. Humans, on the other hand, often can learn a new task from a single unannotated demonstration. In this work, we propose the Invariance-Matching One-shot Policy Learning (IMOP) algorithm. In contrast to the standard practice of learning the end-effector's pose directly, IMOP first learns invariant regions of the state space for a given task, and then computes the end-effector's pose through matching the invariant regions between demonstrations and test scenes. Trained on the 18 RLBench tasks, IMOP achieves a success rate that outperforms the state-of-the-art consistently, by 4.5% on average over the 18 tasks. More importantly, IMOP can learn a novel task from a single unannotated demonstration, and without any fine-tuning, and achieves an average success rate improvement of $11.5\%$ over the state-of-the-art on 22 novel tasks selected across nine categories. IMOP can also generalize to new shapes and learn to manipulate objects that are different from those in the demonstration. Further, IMOP can perform one-shot sim-to-real transfer using a single real-robot demonstration. | 翻訳日:2024-06-23 14:05:12 公開日:2024-06-05 |
# 乱流におけるスイミングのためのアクター・クリティカル強化学習における物理インフォームド批判
Physics-Informed Critic in an Actor-Critic Reinforcement Learning for Swimming in Turbulence ( http://arxiv.org/abs/2406.10242v1 ) ライセンス: Link先を確認 | Christopher Koh, Laurent Pagnier, Michael Chertkov, | (参考訳) 乱流拡散は粒子を分離に近接させる。
受動的に対流する粒子に近い粒子を維持するために必要な水泳の努力について検討した。
本研究では,新しい物理情報強化学習(PIRL)戦略と所定の制御(PC)戦略と標準物理情報強化学習戦略とを開発・比較することにより,これらの取り組みを意図した目標と最適にバランスさせることを検討する。
我々のPIRLスキームはActor-Physicistと呼ばれ、Actor-Criticアルゴリズムの適応であり、ニューラルネットワークのパラメータ化Criticを解析的に導出された物理的ヒューリスティック関数(物理学者)に置き換える。
この戦略は、確率的最適制御の定式化と標準物理非依存のアクター・クリティカル型アルゴリズムから導かれる解析計算された最適PCポリシーと比較される。
Turbulent diffusion causes particles placed in proximity to separate. We investigate the required swimming efforts to maintain a particle close to its passively advected counterpart. We explore optimally balancing these efforts with the intended goal by developing and comparing a novel Physics-Informed Reinforcement Learning (PIRL) strategy with prescribed control (PC) and standard physics-agnostic Reinforcement Learning strategies. Our PIRL scheme, coined the Actor-Physicist, is an adaptation of the Actor-Critic algorithm in which the Neural Network parameterized Critic is replaced with an analytically derived physical heuristic function (the physicist). This strategy is then compared with an analytically computed optimal PC policy derived from a stochastic optimal control formulation and standard physics-agnostic Actor-Critic type algorithms. | 翻訳日:2024-06-23 13:35:51 公開日:2024-06-05 |
# フェイクニュースの検出における大規模言語モデルの有効性の評価:比較分析
Evaluating the Efficacy of Large Language Models in Detecting Fake News: A Comparative Analysis ( http://arxiv.org/abs/2406.06584v1 ) ライセンス: Link先を確認 | Sahas Koka, Anthony Vuong, Anish Kataria, | (参考訳) 人工知能の影響がますます高まる時代において、偽ニュースの検出は特に、誤報が社会に重大な影響を及ぼす選挙シーズンのような文脈において重要である。
本研究では,偽ニュースコンテンツの識別・フィルタリングにおける各種LLMの有効性について検討した。
比較分析アプローチを用いて、GPT-4、Claude 3 Sonnet、Gemini Pro 1.0、Mistral Largeの4つの大きなLLMと、Gemma 7BとMistral 7Bの2つの小さなLLMをテストした。
Kaggleのフェイクニュースデータセットのサンプルを使用することで、この研究はフェイクニュース検出におけるLLMの現在の能力と限界に光を当てるだけでなく、AI駆動の情報整合性向上における開発者や政策立案者の影響についても議論する。
In an era increasingly influenced by artificial intelligence, the detection of fake news is crucial, especially in contexts like election seasons where misinformation can have significant societal impacts. This study evaluates the effectiveness of various LLMs in identifying and filtering fake news content. Utilizing a comparative analysis approach, we tested four large LLMs -- GPT-4, Claude 3 Sonnet, Gemini Pro 1.0, and Mistral Large -- and two smaller LLMs -- Gemma 7B and Mistral 7B. By using fake news dataset samples from Kaggle, this research not only sheds light on the current capabilities and limitations of LLMs in fake news detection but also discusses the implications for developers and policymakers in enhancing AI-driven informational integrity. | 翻訳日:2024-06-12 21:24:05 公開日:2024-06-05 |
# 離散時間力学系の解釈可能なモデルに対する表現的記号回帰
Expressive Symbolic Regression for Interpretable Models of Discrete-Time Dynamical Systems ( http://arxiv.org/abs/2406.06585v1 ) ライセンス: Link先を確認 | Adarsh Iyer, Nibodh Boddupalli, Jeff Moehlis, | (参考訳) 離散時間力学系(定位写像)を定義する解釈可能な数学的表現は、科学的な関心の多くの現象をモデル化することができ、システムの振る舞いをより深く理解することができる。
第一原理から表現を定式化するのは難しいため,データストリームのみを与えられた反復写像の表現を識別することが特に重要である。
本研究では,この課題に対して,SymANNTEx(SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx ,SymANNTEx,SymANNTEx,SymANNTEx,SymANNTEx,SymANNT,SymANNT,SymANNT,SymANNT,SymANNT,S
回帰を最適化するためにモデルパイプラインを修正し、古典的なカオスマップを識別する際の調整されたモデルの挙動を特徴付ける。
パーシモニーの目的により、スパーシリティ誘導重み正規化と情報理論インフォームド・シンプリケーションが実現される。
修正したSymanNTExモデルでは,単一状態のマップを適切に識別し,二状態のアトラクタの近似に適度に成功していることを示す。
これらのパフォーマンスは、データ駆動の科学的な発見と解釈を大いに約束する。
Interpretable mathematical expressions defining discrete-time dynamical systems (iterated maps) can model many phenomena of scientific interest, enabling a deeper understanding of system behaviors. Since formulating governing expressions from first principles can be difficult, it is of particular interest to identify expressions for iterated maps given only their data streams. In this work, we consider a modified Symbolic Artificial Neural Network-Trained Expressions (SymANNTEx) architecture for this task, an architecture more expressive than others in the literature. We make a modification to the model pipeline to optimize the regression, then characterize the behavior of the adjusted model in identifying several classical chaotic maps. With the goal of parsimony, sparsity-inducing weight regularization and information theory-informed simplification are implemented. We show that our modified SymANNTEx model properly identifies single-state maps and achieves moderate success in approximating a dual-state attractor. These performances offer significant promise for data-driven scientific discovery and interpretation. | 翻訳日:2024-06-12 21:24:05 公開日:2024-06-05 |
# Bi-Chainer: 双方向チェインで推論する大規模言語モデルを自動化する
Bi-Chainer: Automated Large Language Models Reasoning with Bidirectional Chaining ( http://arxiv.org/abs/2406.06586v1 ) ライセンス: Link先を確認 | Shuqi Liu, Bowei He, Linqi Song, | (参考訳) 大規模言語モデル(LLM)は人間のような推論能力を示しているが、複雑な論理問題を解く上ではまだ課題に直面している。
前方連鎖や後方連鎖のような既存の一方向連鎖法は、予測精度の低下や効率性の低下といった問題に悩まされる。
そこで本研究では,2方向チェインリング手法であるBi-Chainerを提案する。
これにより、中間推論結果をガイダンスとして利用して推論プロセスを容易にすることができる。
Bi-Chainerは,4つの挑戦的論理推論データセット上で,一方向チェインフレームワーク上での高精度ブートを実現する。
さらに、Bi-Chainerは中間証明ステップの精度を高め、推論呼び出しの平均回数を減らし、より効率的で正確な推論を行う。
Large Language Models (LLMs) have shown human-like reasoning abilities but still face challenges in solving complex logical problems. Existing unidirectional chaining methods, such as forward chaining and backward chaining, suffer from issues like low prediction accuracy and efficiency. To address these, we propose a bidirectional chaining method, Bi-Chainer, which dynamically switches to depth-first reasoning in the opposite reasoning direction when it encounters multiple branching options within the current direction. Thus, the intermediate reasoning results can be utilized as guidance to facilitate the reasoning process. We show that Bi-Chainer achieves sizable accuracy boots over unidirectional chaining frameworks on four challenging logical reasoning datasets. Moreover, Bi-Chainer enhances the accuracy of intermediate proof steps and reduces the average number of inference calls, resulting in more efficient and accurate reasoning. | 翻訳日:2024-06-12 21:24:05 公開日:2024-06-05 |
# 感覚体験における人間とAIの知覚アライメントの探索:LLMは繊維の手を理解するか?
Exploring Human-AI Perception Alignment in Sensory Experiences: Do LLMs Understand Textile Hand? ( http://arxiv.org/abs/2406.06587v1 ) ライセンス: Link先を確認 | Shu Zhong, Elia Gatti, Youngjun Cho, Marianna Obrist, | (参考訳) 人間の意図による大規模言語モデル(LLM)の振る舞いの調整は、将来のAIにとって重要である。
このアライメントの重要かつしばしば見落とされがちな側面は知覚アライメントである。
タッチのような知覚のモダリティは、視覚のような他の感覚のモダリティよりも多面的かつニュアンス的である。
本研究は,LLMが「触覚ハンド」タスクを用いて,人間の触覚とどのように協調するかを検討する。
私たちは"Guess What Textile"インタラクションを作り、参加者には2つの繊維サンプル(ターゲットと参照)が与えられました。
見ることなく、参加者はそれらの違いをLSMに説明しました。
これらの記述を用いて、LLMは、その高次元埋め込み空間内での類似性を評価することによって、ターゲット繊維の同定を試みた。
以上の結果から, 知覚的アライメントの程度は異なるが, 異なる繊維試料間で大きく異なることが示唆された。
例えば、LLMの予測は絹のサテンには適しているが、綿のデニムには適していない。
さらに, LLM予測と密に一致した織物経験を, 参加者は認識しなかった。
これは触覚のアライメントに関する最初の調査であり、繊維の手で例示されている。
このアライメントのばらつきの可能性のある源泉と、人間の知覚的アライメントが将来の日常業務にどのように役立つかについて議論する。
Aligning large language models (LLMs) behaviour with human intent is critical for future AI. An important yet often overlooked aspect of this alignment is the perceptual alignment. Perceptual modalities like touch are more multifaceted and nuanced compared to other sensory modalities such as vision. This work investigates how well LLMs align with human touch experiences using the "textile hand" task. We created a "Guess What Textile" interaction in which participants were given two textile samples -- a target and a reference -- to handle. Without seeing them, participants described the differences between them to the LLM. Using these descriptions, the LLM attempted to identify the target textile by assessing similarity within its high-dimensional embedding space. Our results suggest that a degree of perceptual alignment exists, however varies significantly among different textile samples. For example, LLM predictions are well aligned for silk satin, but not for cotton denim. Moreover, participants didn't perceive their textile experiences closely matched by the LLM predictions. This is only the first exploration into perceptual alignment around touch, exemplified through textile hand. We discuss possible sources of this alignment variance, and how better human-AI perceptual alignment can benefit future everyday tasks. | 翻訳日:2024-06-12 21:14:20 公開日:2024-06-05 |
# Llama大言語モデルの創発的シンボリック推論能力の評価
Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models ( http://arxiv.org/abs/2406.06588v1 ) ライセンス: Link先を確認 | Flavio Petruzzellis, Alberto Testolin, Alessandro Sperduti, | (参考訳) 大規模言語モデル (LLM) は,ユーザとのチャットの唯一の目的としてトレーニングされることの多い場合でも,幅広いタスクにおいて,優れたパフォーマンスを実現している。
その他のスキルの中で、LLMは数学的推論ベンチマークにおいて創発的な能力を示し、適切なプロンプト法によって引き起こすことができる。
本研究では,様々なシンボリック推論タスクにおいて,人気のあるオープンソースLLMの能力と限界を体系的に検討する。
Llama 2 ファミリーの3つのモデルについて,難易度の異なる数式を解く必要がある2つのデータセットで評価した。
我々はLLM(Llama 2 Chat)とLlama 2(MAmmoTHとMetaMath)の2つの微調整版を数学的問題に対処するためにテストした。
モデルのサイズを拡大し、関連するタスクを微調整することで、パフォーマンスが大幅に向上するのを観察する。
さらに, 細粒度評価法を用いて, 計算精度の低い数式では, 計算精度が向上する傾向がみられた。
Large Language Models (LLMs) achieve impressive performance in a wide range of tasks, even if they are often trained with the only objective of chatting fluently with users. Among other skills, LLMs show emergent abilities in mathematical reasoning benchmarks, which can be elicited with appropriate prompting methods. In this work, we systematically investigate the capabilities and limitations of popular open-source LLMs on different symbolic reasoning tasks. We evaluate three models of the Llama 2 family on two datasets that require solving mathematical formulas of varying degrees of difficulty. We test a generalist LLM (Llama 2 Chat) as well as two fine-tuned versions of Llama 2 (MAmmoTH and MetaMath) specifically designed to tackle mathematical problems. We observe that both increasing the scale of the model and fine-tuning it on relevant tasks lead to significant performance gains. Furthermore, using fine-grained evaluation measures, we find that such performance gains are mostly observed with mathematical formulas of low complexity, which nevertheless often remain challenging even for the largest fine-tuned models. | 翻訳日:2024-06-12 21:14:20 公開日:2024-06-05 |
# PatentEval: 特許生成におけるエラーを理解する
PatentEval: Understanding Errors in Patent Generation ( http://arxiv.org/abs/2406.06589v1 ) ライセンス: Link先を確認 | You Zuo, Kim Gerdes, Eric Villemonte de La Clergerie, Benoît Sagot, | (参考訳) 本研究では,機械が生成する特許文書における2つの異なるタスク,すなわちクレーム・ツー・アストラクション生成と,先行するクレームの生成を評価するための総合的なエラータイプロジーを提案する。
我々はまた,この文脈で言語モデルを体系的に評価するためのベンチマークであるPatentEvalを開発した。
我々の研究は、様々なモデルの人間によって注釈付けされた比較分析を含む。
これらは、特許ドメイン内のタスクのトレーニング中に特別に適応されたものから、最新の汎用大規模言語モデル(LLM)まで様々である。
さらに,特許文書評価における人間の判断を近似する指標について検討し,これらの指標が専門家評価とどの程度一致しているかを分析した。
これらのアプローチは、特許テキスト生成の専門分野における現在の言語モデルの能力と限界に関する貴重な洞察を提供する。
In this work, we introduce a comprehensive error typology specifically designed for evaluating two distinct tasks in machine-generated patent texts: claims-to-abstract generation, and the generation of the next claim given previous ones. We have also developed a benchmark, PatentEval, for systematically assessing language models in this context. Our study includes a comparative analysis, annotated by humans, of various models. These range from those specifically adapted during training for tasks within the patent domain to the latest general-purpose large language models (LLMs). Furthermore, we explored and evaluated some metrics to approximate human judgments in patent text evaluation, analyzing the extent to which these metrics align with expert assessments. These approaches provide valuable insights into the capabilities and limitations of current language models in the specialized field of patent text generation. | 翻訳日:2024-06-12 21:14:20 公開日:2024-06-05 |
# LLMは古典的か非単調的か?ジェネリクスから学ぶ
Are LLMs classical or nonmonotonic reasoners? Lessons from generics ( http://arxiv.org/abs/2406.06590v1 ) ライセンス: Link先を確認 | Alina Leidinger, Robert van Rooij, Ekaterina Shutova, | (参考訳) LLMにおける推論に関する最近の研究は、機械や人間のフィードバックに対する印象的な性能と柔軟な適応の証拠を提供している。
現実世界をナビゲートするために人間の認知に不可欠な非単調な推論は、難しいが未調査の課題である。
本研究では,7つの最先端LCMの非単調な推論能力について,1つの抽象的および1つの常識的推論タスク,例えば「バードフライ」や「ペンギンは飛べない」例外について検討する(図1参照)。
LLMは人間の非単調な推論能力に従って推論パターンを示すが、支持する例("Owls fly")や非関連情報("Lions has manes")の追加によって、ジェネリックスの真理条件に対する安定した信念を維持することができない。
我々の研究は、人間の推論行動のLCMへの寄与と、一般的な能力の評価の落とし穴を浮き彫りにし、一貫した推論はいまだ解明されていない。
Recent scholarship on reasoning in LLMs has supplied evidence of impressive performance and flexible adaptation to machine generated or human feedback. Nonmonotonic reasoning, crucial to human cognition for navigating the real world, remains a challenging, yet understudied task. In this work, we study nonmonotonic reasoning capabilities of seven state-of-the-art LLMs in one abstract and one commonsense reasoning task featuring generics, such as 'Birds fly', and exceptions, 'Penguins don't fly' (see Fig. 1). While LLMs exhibit reasoning patterns in accordance with human nonmonotonic reasoning abilities, they fail to maintain stable beliefs on truth conditions of generics at the addition of supporting examples ('Owls fly') or unrelated information ('Lions have manes'). Our findings highlight pitfalls in attributing human reasoning behaviours to LLMs, as well as assessing general capabilities, while consistent reasoning remains elusive. | 翻訳日:2024-06-12 21:14:20 公開日:2024-06-05 |
# 肺癌検診におけるTNM分類の高度化のための多言語大言語モデルの検討
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report in lung cancer staging ( http://arxiv.org/abs/2406.06591v1 ) ライセンス: Link先を確認 | Hidetoshi Matsuo, Mizuho Nishio, Takaaki Matsunaga, Koji Fujimoto, Takamichi Murakami, | (参考訳) 背景: 労働集約的構造と物語的報告により, 構造的放射線学報告は未発達のままである。
ディープラーニング、特にGPT-3.5のような大規模言語モデル(LLM)は、自然言語による放射線学レポートの構造化を自動化することを約束している。
しかし、LLMは英語以外の言語では効果が低いことが報告されているが、そのラジオロジカルな性能は広く研究されていない。
目的: 本研究は, GPT3.5-turbo (GPT3.5) を用いた放射線学報告に基づくTNM分類の精度と日本語と英語の多言語LLMの有用性について検討することを目的とした。
対象と方法:GPT3.5を用いて肺がんの胸部CT検査からTNM分類を自動的に生成し,その性能を評価するシステムを開発した。
一般化線形混合モデルを用いて,両言語で完全あるいは部分的なTNM定義を提供することによる影響を統計的に分析した。
結果: TNM の完全定義と, 英語での放射線学報告(M = 94%, N = 80%, T = 47%, ALL = 36%)により, 高い精度が得られた。
T, N, M の各因子の定義はそれぞれの精度を統計的に改善した(T: odds ratio (OR) = 2.35, p < 0.001; N: OR = 1.94, p < 0.01; M: OR = 2.50, p < 0.001)。
日本人の報告では、NとMの精度が低下した(Nの精度:OR = 0.74、Mの精度:OR = 0.21)。
結論:本研究は,TNM自動分類における多言語LPMの有用性をラジオグラフィーレポートで示している。
追加のモデルトレーニングがなくても、提供されたTNM定義により性能が向上し、放射線学の文脈におけるLLMの関連性が示唆された。
Background: Structured radiology reports remains underdeveloped due to labor-intensive structuring and narrative-style reporting. Deep learning, particularly large language models (LLMs) like GPT-3.5, offers promise in automating the structuring of radiology reports in natural languages. However, although it has been reported that LLMs are less effective in languages other than English, their radiological performance has not been extensively studied. Purpose: This study aimed to investigate the accuracy of TNM classification based on radiology reports using GPT3.5-turbo (GPT3.5) and the utility of multilingual LLMs in both Japanese and English. Material and Methods: Utilizing GPT3.5, we developed a system to automatically generate TNM classifications from chest CT reports for lung cancer and evaluate its performance. We statistically analyzed the impact of providing full or partial TNM definitions in both languages using a Generalized Linear Mixed Model. Results: Highest accuracy was attained with full TNM definitions and radiology reports in English (M = 94%, N = 80%, T = 47%, and ALL = 36%). Providing definitions for each of the T, N, and M factors statistically improved their respective accuracies (T: odds ratio (OR) = 2.35, p < 0.001; N: OR = 1.94, p < 0.01; M: OR = 2.50, p < 0.001). Japanese reports exhibited decreased N and M accuracies (N accuracy: OR = 0.74 and M accuracy: OR = 0.21). Conclusion: This study underscores the potential of multilingual LLMs for automatic TNM classification in radiology reports. Even without additional model training, performance improvements were evident with the provided TNM definitions, indicating LLMs' relevance in radiology contexts. | 翻訳日:2024-06-12 21:14:20 公開日:2024-06-05 |
# 自動プロセススーパービジョンによる言語モデルの数学的推論の改善
Improve Mathematical Reasoning in Language Models by Automated Process Supervision ( http://arxiv.org/abs/2406.06592v1 ) ライセンス: Link先を確認 | Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, Abhinav Rastogi, | (参考訳) 数学的問題の解決やコード生成といった複雑な多段階推論タスクは、最も先進的な大規模言語モデル(LLM)でさえも大きなハードルとなる。
LLMの出力をORM(Outcome Reward Model)で検証することは、LLMの推論性能を向上させるための標準推論時間技術である。
しかし、これは、中間結果が適切に報酬や罰則が与えられていない長い、または複数のホップ推論チェーンを持つタスクの推論には不十分であることを示す。
プロセス監督は、推論プロセス中に中間報酬を割り当てることで、この制限に対処する。
これまで、プロセスの監視データ収集に使われた手法は、人間のアノテーションやモンテカルロのステップごとの見積もりに頼っていた。
この課題に対応して,高品質なプロセス監視データの効率的な収集を目的とした,MCTSアルゴリズムである「textit{OmegaPRM}」を提案する。
このアルゴリズムは、二項探索によるChain of Thought(CoT)の最初のエラーを迅速に識別し、正と負の例のバランスをとり、効率と品質の両立を保証する。
その結果、プロセスリワードモデル(Process Reward Model:PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できるようになりました。
この完全自動化プロセスの監督と重み付き自己整合性アルゴリズムを併用して、Gemini Proモデルの数学推論性能を改良し、MATHベンチマークで69.4 %の成功率、51 %のベースモデル性能から36 %の改善を実現した。
さらに、プロセス全体が人間の介入なしに動作し、既存の方法と比較して、我々の手法は金銭的にも計算的にも費用対効果がある。
Complex multi-step reasoning tasks, such as solving mathematical problems or generating code, remain a significant hurdle for even the most advanced large language models (LLMs). Verifying LLM outputs with an Outcome Reward Model (ORM) is a standard inference-time technique aimed at enhancing the reasoning performance of LLMs. However, this still proves insufficient for reasoning tasks with a lengthy or multi-hop reasoning chain, where the intermediate outcomes are neither properly rewarded nor penalized. Process supervision addresses this limitation by assigning intermediate rewards during the reasoning process. To date, the methods used to collect process supervision data have relied on either human annotation or per-step Monte Carlo estimation, both prohibitively expensive to scale, thus hindering the broad application of this technique. In response to this challenge, we propose a novel divide-and-conquer style Monte Carlo Tree Search (MCTS) algorithm named \textit{OmegaPRM} for the efficient collection of high-quality process supervision data. This algorithm swiftly identifies the first error in the Chain of Thought (CoT) with binary search and balances the positive and negative examples, thereby ensuring both efficiency and quality. As a result, we are able to collect over 1.5 million process supervision annotations to train a Process Reward Model (PRM). Utilizing this fully automated process supervision alongside the weighted self-consistency algorithm, we have enhanced the instruction tuned Gemini Pro model's math reasoning performance, achieving a 69.4\% success rate on the MATH benchmark, a 36\% relative improvement from the 51\% base model performance. Additionally, the entire process operates without any human intervention, making our method both financially and computationally cost-effective compared to existing methods. | 翻訳日:2024-06-12 21:14:20 公開日:2024-06-05 |
# ESBMCによるArm(R) Confidential Computing Architectureのコンポーネント検証
Verifying components of Arm(R) Confidential Computing Architecture with ESBMC ( http://arxiv.org/abs/2406.04375v1 ) ライセンス: Link先を確認 | Tong Wu, Shale Xiong, Edoardo Manino, Gareth Stockwell, Lucas C. Cordeiro, | (参考訳) Realm Management Monitor(RMM)は、Arm Confidential Computing Architecture(Arm CCA)において重要なファームウェアコンポーネントである。
これまでの研究は、RMMの仕様とプロトタイプ参照実装の検証に形式的手法を適用していた。
しかし、単一の検証ツールにのみ依存することは、特定のバグや脆弱性の監視につながる可能性がある。
本稿では,SMT(Satifiability Modulo Theories)ベースのソフトウェアモデルチェッカーであるESBMCの適用について述べる。
ESBMCのソースコードを正確に解析し、適切な時間枠内で仕様の失敗を特定する能力を示します。
さらに,産業技術者の効率を高めるため,ESBMCの潜在的な改善を提案する。
この研究は、実世界のシナリオにおける形式的検証技術の能力の探求に寄与し、産業的検証のニーズを満たすためのさらなる改善の道筋を提案する。
Realm Management Monitor (RMM) is an essential firmware component within the recent Arm Confidential Computing Architecture (Arm CCA). Previous work applies formal techniques to verify the specification and prototype reference implementation of RMM. However, relying solely on a single verification tool may lead to the oversight of certain bugs or vulnerabilities. This paper discusses the application of ESBMC, a state-of-the-art Satisfiability Modulo Theories (SMT)-based software model checker, to further enhance RRM verification. We demonstrate ESBMC's ability to precisely parse the source code and identify specification failures within a reasonable time frame. Moreover, we propose potential improvements for ESBMC to enhance its efficiency for industry engineers. This work contributes to exploring the capabilities of formal verification techniques in real-world scenarios and suggests avenues for further improvements to better meet industrial verification needs. | 翻訳日:2024-06-10 18:49:00 公開日:2024-06-05 |
# グラフニューラルネットワークとマンバの併用による全スライド画像の局所的・大域的組織空間的関係の把握
Combining Graph Neural Network and Mamba to Capture Local and Global Tissue Spatial Relationships in Whole Slide Images ( http://arxiv.org/abs/2406.04377v1 ) ライセンス: Link先を確認 | Ruiwen Ding, Kha-Dinh Luong, Erika Rodriguez, Ana Cristina Araujo Lemos da Silva, William Hsu, | (参考訳) 計算病理学では、ギガピクセル全体のスライド画像(WSI)から空間的特徴を抽出することが基本的な課題であるが、その大きさが大きいため、WSIは通常より小さなタイルに分割される。
この分析の重要な側面は、これらのタイルから情報を集約し、WSIレベルで予測することです。
本稿では,メッセージパッシンググラフニューラルネットワーク(GNN)と状態空間モデル(Mamba)を組み合わせて,WSIにおけるタイル間の局所的空間的関係とグローバル的空間的関係を捉えるモデルを提案する。
早期肺腺癌(LUAD)患者の無再発生存予測に有効であった。
タイルレベルの情報要約統計に基づくアグリゲーション、マルチインスタンス学習(MIL)ベースのアグリゲーション、GNNベースのアグリゲーション、GNNベースのアグリゲーションなど、WSIにおけるタイルレベルの情報アグリゲーションの最先端手法と比較した。
追加実験では、異なるタイプのノード特徴と異なるタイルサンプリング戦略がモデル性能に与える影響が示された。
この作業は、WSIベースの分析にも容易に拡張できます。
コード:https://github.com/rina-ding/gat-mamba。
In computational pathology, extracting spatial features from gigapixel whole slide images (WSIs) is a fundamental task, but due to their large size, WSIs are typically segmented into smaller tiles. A critical aspect of this analysis is aggregating information from these tiles to make predictions at the WSI level. We introduce a model that combines a message-passing graph neural network (GNN) with a state space model (Mamba) to capture both local and global spatial relationships among the tiles in WSIs. The model's effectiveness was demonstrated in predicting progression-free survival among patients with early-stage lung adenocarcinomas (LUAD). We compared the model with other state-of-the-art methods for tile-level information aggregation in WSIs, including tile-level information summary statistics-based aggregation, multiple instance learning (MIL)-based aggregation, GNN-based aggregation, and GNN-transformer-based aggregation. Additional experiments showed the impact of different types of node features and different tile sampling strategies on the model performance. This work can be easily extended to any WSI-based analysis. Code: https://github.com/rina-ding/gat-mamba. | 翻訳日:2024-06-10 18:49:00 公開日:2024-06-05 |
# TIDMAD:AIによる暗黒物質発見のための時系列データセット
TIDMAD: Time Series Dataset for Discovering Dark Matter with AI Denoising ( http://arxiv.org/abs/2406.04378v1 ) ライセンス: Link先を確認 | J. T. Fry, Aobo Li, Lindley Winslow, Xinyi Hope Fu, Zhenghao Fu, Kaliroe M. W. Pappas, | (参考訳) ダークマターは宇宙の物質の約85%を占めていますが、地球上の実験室では直接観測されていません。
ダークマターの起源は、現代物理学において最も重要な問題の一つであり、ダークマターを確実に検出することは、基礎科学におけるノーベル賞レベルのブレークスルーとなるだろう。
ABRACADABRA実験は暗黒物質を探すために特別に設計された。
発見はまだされていないが、ABRACADABRAは物理学界で広く支持されている暗黒物質探索の結果を多数生成している。
実験では、超長い時系列データを毎秒1000万サンプルの速度で生成し、そこでダークマター信号は超長い時系列の中で正弦波振動モードとして現れる。
本稿では、ABRACADABRA実験から得られた包括的なデータリリースであるTIDMADについて、トレーニング、検証、科学サブセットに分割した超長期時系列データセット、直接モデルベンチマークのための慎重に設計されたデノナイズスコア、および物理論文として出版に適したコミュニティ標準ダークマター検索結果を生成する完全な分析フレームワークについて述べる。
このデータリリースにより、コアAIアルゴリズムが信号を抽出し、実際の物理結果を生成することにより、基礎科学が前進する。
データダウンロードと関連する解析スクリプトはhttps://github.com/jessicafry/TIDMADで公開されている。
Dark matter makes up approximately 85% of total matter in our universe, yet it has never been directly observed in any laboratory on Earth. The origin of dark matter is one of the most important questions in contemporary physics, and a convincing detection of dark matter would be a Nobel-Prize-level breakthrough in fundamental science. The ABRACADABRA experiment was specifically designed to search for dark matter. Although it has not yet made a discovery, ABRACADABRA has produced several dark matter search results widely endorsed by the physics community. The experiment generates ultra-long time-series data at a rate of 10 million samples per second, where the dark matter signal would manifest itself as a sinusoidal oscillation mode within the ultra-long time series. In this paper, we present the TIDMAD -- a comprehensive data release from the ABRACADABRA experiment including three key components: an ultra-long time series dataset divided into training, validation, and science subsets; a carefully-designed denoising score for direct model benchmarking; and a complete analysis framework which produces a community-standard dark matter search result suitable for publication as a physics paper. This data release enables core AI algorithms to extract the signal and produce real physics results thereby advancing fundamental science. The data downloading and associated analysis scripts are available at https://github.com/jessicafry/TIDMAD | 翻訳日:2024-06-10 18:49:00 公開日:2024-06-05 |
# 近接量子コンピュータにおけるオープン量子システムの長時間誤差緩和シミュレーション
Long-Time Error-Mitigating Simulation of Open Quantum Systems on Near Term Quantum Computers ( http://arxiv.org/abs/2108.01183v2 ) ライセンス: Link先を確認 | Brian Rost, Lorenzo Del Re, Nathan Earnest, Alexander F. Kemper, Barbara Jones, James K. Freericks, | (参考訳) 本研究では,最大2千個のエンタングゲートを含むディープ回路においても,ハードウェアエラーに対する堅牢性を示す量子ハードウェア上でのオープン量子システムシミュレーションについて検討する。
無限の熱浴に結合した2つの電子系をシミュレートする。
1) 駆動電界における散逸性自由電子の系,及び
2) 磁場中の単一軌道における2つの相互作用する電子の熱化(ハバード原子)。
これらの問題はIBMの量子コンピュータを用いて解決され、長い目で見れば忠実度が低下する兆しはない。
この結果から, 開放量子系シミュレーションアルゴリズムは, ノイズの多いハードウェア上で, 同様に複雑な非散逸性アルゴリズムをはるかに上回ることができることを示した。
我々の2つの例は、駆動散逸型量子多体問題は最終的に量子コンピュータで解決できることを約束している。
We study an open quantum system simulation on quantum hardware, which demonstrates robustness to hardware errors even with deep circuits containing up to two thousand entangling gates. We simulate two systems of electrons coupled to an infinite thermal bath: 1) a system of dissipative free electrons in a driving electric field; and 2) the thermalization of two interacting electrons in a single orbital in a magnetic field -- the Hubbard atom. These problems are solved using IBM quantum computers, showing no signs of decreasing fidelity at long times. Our results demonstrate that algorithms for simulating open quantum systems are able to far outperform similarly complex non-dissipative algorithms on noisy hardware. Our two examples show promise that the driven-dissipative quantum many-body problem can eventually be solved on quantum computers. | 翻訳日:2024-06-08 01:27:18 公開日:2024-06-05 |
# 摂動理論と正方形の和
Perturbation Theory and the Sum of Squares ( http://arxiv.org/abs/2205.12325v3 ) ライセンス: Link先を確認 | Matthew B. Hastings, | (参考訳) sum-of-squares (SoS) 階層は半定値プログラミングに基づく強力な手法であり、古典的および量子最適化の両問題に利用できる。
この階層はいくつかの名前で呼ばれ、特に量子化学では還元密度行列 (reduced density matrix, RDM) と呼ばれる。
我々は、スピン系(またはクビット系)、ボゾン系(非調和振動子)、およびクォート相互作用を持つフェルミオン系(フェルミオン系)の3種類の系の弱い結合摂動理論を再現するこの階層の能力を考える。
このようなフェルミオン系に対しては、次数-$4$ SoS(量子化学において2$-RDMと呼ばれる)が二階摂動理論を再現しないが、次数-$6$ SoS(3$-RDM)が再現する(そして三階摂動理論を再現すると予想する)。
実際、これを実現できる6$SoSの断片を特定できるが、これは実際の量子化学計算に有用であり、この断片を6$SoSよりも低コストで実装できる可能性がある。
注目すべきことに、この断片は、Sachdev-Ye-Kitaev(SYK)モデルのためにHastingsとO'Donnellによって研究されたものと非常に似ている。
The sum-of-squares (SoS) hierarchy is a powerful technique based on semi-definite programming that can be used for both classical and quantum optimization problems. This hierarchy goes under several names; in particular, in quantum chemistry it is called the reduced density matrix (RDM) method. We consider the ability of this hierarchy to reproduce weak coupling perturbation theory for three different kinds of systems: spin (or qubit) systems, bosonic systems (the anharmonic oscillator), and fermionic systems with quartic interactions. For such fermionic systems, we show that degree-$4$ SoS (called $2$-RDM in quantum chemsitry) does not reproduce second order perturbation theory but degree-$6$ SoS ($3$-RDM) does (and we conjecture that it reproduces third order perturbation theory). Indeed, we identify a fragment of degree-$6$ SoS which can do this, which may be useful for practical quantum chemical calculations as it may be possible to implement this fragment with less cost than the full degree-$6$ SoS. Remarkably, this fragment is very similar to one studied by Hastings and O'Donnell for the Sachdev-Ye-Kitaev (SYK) model. | 翻訳日:2024-06-08 01:27:18 公開日:2024-06-05 |
# 2部ネットワークにおける遅延補正ブロックモデルの変分推定
Variational Estimators of the Degree-corrected Latent Block Model for Bipartite Networks ( http://arxiv.org/abs/2206.08465v2 ) ライセンス: Link先を確認 | Yunpeng Zhao, Ning Hao, Ji Zhu, | (参考訳) バイパルタイトグラフは様々な科学・工学分野にまたがる。
同時に二部グラフ内の2種類のノードを双クラスタリングによってグループ化することは、そのようなグラフのネットワーク解析における根本的な課題である。
潜在ブロックモデル(英: latent block model、LBM)は、ビクラスタリングのためのモデルベースのツールである。
しかし、LBMの有効性は、データ行列における行と列の和の影響によって制限されることが多い。
この制限に対処するために、行と列クラスタの異なる次数を考慮した次数補正潜在ブロックモデル(DC-LBM)を導入し、実世界のデータセットとシミュレーションデータの性能を大幅に向上させる。
我々は,Mステップにおけるパラメータ推定のための閉形式解を作成することにより,効率的な変動予測-最大化アルゴリズムを開発した。
さらに、直流-LBMの下での変動推定器のラベルの一貫性と収束率を証明し、グラフの大きさが大きくなると、平均的な行や列の次数が無限大に近づく限り、期待されるグラフ密度はゼロに近づく。
Bipartite graphs are ubiquitous across various scientific and engineering fields. Simultaneously grouping the two types of nodes in a bipartite graph via biclustering represents a fundamental challenge in network analysis for such graphs. The latent block model (LBM) is a commonly used model-based tool for biclustering. However, the effectiveness of the LBM is often limited by the influence of row and column sums in the data matrix. To address this limitation, we introduce the degree-corrected latent block model (DC-LBM), which accounts for the varying degrees in row and column clusters, significantly enhancing performance on real-world data sets and simulated data. We develop an efficient variational expectation-maximization algorithm by creating closed-form solutions for parameter estimates in the M steps. Furthermore, we prove the label consistency and the rate of convergence of the variational estimator under the DC-LBM, allowing the expected graph density to approach zero as long as the average expected degrees of rows and columns approach infinity when the size of the graph increases. | 翻訳日:2024-06-08 01:19:21 公開日:2024-06-05 |
# フェデラル・フェデラル・フェデラル・フェデラル・ラーニング」、米連邦捜査局(表
FedCC: Robust Federated Learning against Model Poisoning Attacks ( http://arxiv.org/abs/2212.01976v2 ) ライセンス: Link先を確認 | Hyejun Jeong, Hamin Son, Seohu Lee, Jayun Hyun, Tai-Myoung Chung, | (参考訳) 学習モデルにおけるプライバシの懸念に対処するために設計されたフェデレートラーニングは、データプライバシを保護する新たな分散パラダイムを導入しているが、サーバがローカルデータセットにアクセスできないことと保護対象の変化によって、攻撃面を区別する。
堅牢なアグリゲーションアルゴリズムを含む既存のアプローチでは、悪意のあるクライアント、特に独立性のない分散データを効果的にフィルタリングすることができない。
さらに、これらのアプローチは非IIDデータと毒殺攻撃を別々に扱うことが多い。
両課題を同時に解決するため,FedCCは単純だが斬新なアルゴリズムである。
クラスタリングにはPenultimate Layer RepresentationsのCentered Kernel Alignment類似性を活用し、非IIDデータ設定でも選択したパラメータを選択的に平均化することにより、悪意のあるクライアントを識別およびフィルタリングすることができる。
対象のないモデル中毒とバックドア攻撃を緩和するFedCCの有効性について検討した。
FedCCは、既存の外れ値検出ベースと1次統計ベースの方法と比較して、攻撃の信頼性を一貫したゼロに減らす。
具体的には、グローバルパフォーマンスの平均劣化を65.5倍に抑える。
学習モデルを評価するというこの新たな視点は、FLモデルのセキュリティとプライバシの分野に価値ある貢献をもたらすと信じています。
コードは、論文の受理時に利用可能になる。
Federated Learning, designed to address privacy concerns in learning models, introduces a new distributed paradigm that safeguards data privacy but differentiates the attack surface due to the server's inaccessibility to local datasets and the change in protection objective--parameters' integrity. Existing approaches, including robust aggregation algorithms, fail to effectively filter out malicious clients, especially those with non-Independently and Identically Distributed data. Furthermore, these approaches often tackle non-IID data and poisoning attacks separately. To address both challenges simultaneously, we present FedCC, a simple yet novel algorithm. It leverages the Centered Kernel Alignment similarity of Penultimate Layer Representations for clustering, allowing it to identify and filter out malicious clients by selectively averaging chosen parameters, even in non-IID data settings. Our extensive experiments demonstrate the effectiveness of FedCC in mitigating untargeted model poisoning and backdoor attacks. FedCC reduces the attack confidence to a consistent zero compared to existing outlier detection-based and first-order statistics-based methods. Specifically, it significantly minimizes the average degradation of global performance by 65.5\%. We believe that this new perspective of assessing learning models makes it a valuable contribution to the field of FL model security and privacy. The code will be made available upon paper acceptance. | 翻訳日:2024-06-08 01:19:21 公開日:2024-06-05 |
# 近所で何が起きているのか? 地元ニュースの発見を監督するアプローチ
What's happening in your neighborhood? A Weakly Supervised Approach to Detect Local News ( http://arxiv.org/abs/2301.08146v3 ) ライセンス: Link先を確認 | Deven Santosh Shah, Shiying He, Gosuddin Kamaruddin Siddiqi, Radhika Bansal, | (参考訳) 地域ニュース記事は、都市、郡、州のような地理的領域のユーザーに影響を与えるニュースのサブセットである。
ローカルニュースの検出(ステップ)
1)その地理的位置と衝突半径を決定する(ステップ)
2) 正確な地域ニュースレコメンデーションに向けた重要なステップは2つある。
ニュースタイトルから市名を検出するようなルールに基づくナイーブな手法は、ニュース内容の理解の欠如により誤った結果をもたらす傾向にある。
自然言語処理の最新技術を活用し,ローカルニュースの自動検出とコンテンツに基づくローカルニュースレコメンデーションを可能にする統合パイプラインを開発した。
本稿では,(1)ドメイン知識と自動データ処理を組み込んだ弱教師付きフレームワーク,(2)多言語設定への拡張性について述べる。
スタンフォード大学のCoreNLP NERモデルと比較して、パイプラインの精度は高く、実世界および人間ラベル付きデータセット上でリコール評価を行う。
このパイプラインは、より正確なローカルニュースをユーザーに提供し、ローカルビジネスがより露出しやすくし、近隣の安全に関する情報を提供する可能性がある。
Local news articles are a subset of news that impact users in a geographical area, such as a city, county, or state. Detecting local news (Step 1) and subsequently deciding its geographical location as well as radius of impact (Step 2) are two important steps towards accurate local news recommendation. Naive rule-based methods, such as detecting city names from the news title, tend to give erroneous results due to lack of understanding of the news content. Empowered by the latest development in natural language processing, we develop an integrated pipeline that enables automatic local news detection and content-based local news recommendations. In this paper, we focus on Step 1 of the pipeline, which highlights: (1) a weakly supervised framework incorporated with domain knowledge and auto data processing, and (2) scalability to multi-lingual settings. Compared with Stanford CoreNLP NER model, our pipeline has higher precision and recall evaluated on a real-world and human-labeled dataset. This pipeline has potential to more precise local news to users, helps local businesses get more exposure, and gives people more information about their neighborhood safety. | 翻訳日:2024-06-08 01:19:21 公開日:2024-06-05 |
# 2つの遠方励起原子からの遅延誘起自然暗黒状態発生
Delay-induced spontaneous dark state generation from two distant excited atoms ( http://arxiv.org/abs/2303.06559v2 ) ライセンス: Link先を確認 | William Alvarez-Giron, Pablo Solano, Kanu Sinha, Pablo Barberis-Blostein, | (参考訳) 1次元導波路に結合した2つの完全に励起された2層原子の非マルコフ動力学を遅延の有無で検討する。
我々は、逆原子アンサンブルが放射を増強するために同期する、よく知られた超蛍光現象に類似して、原子間分離に応じて原子を絡み合った暗黒状態に同期させる「サブ蛍光」効果が存在することを示した。
我々の結果は長距離量子ネットワークに関係しており、遠方の量子エミッタ間の自発的な絡み合い発生のメカニズムを提示する。
We investigate the collective non-Markovian dynamics of two fully excited two-level atoms coupled to a one-dimensional waveguide in the presence of delay. We demonstrate that analogous to the well-known superfluorescence phenomena, where an inverted atomic ensemble synchronizes to enhance its emission, there is a `subfluorescence' effect that synchronizes the atoms into an entangled dark state depending on the interatomic separation. Our results are pertinent to long-distance quantum networks, presenting a mechanism for spontaneous entanglement generation between distant quantum emitters. | 翻訳日:2024-06-08 01:09:36 公開日:2024-06-05 |
# 線形回帰としての増大バランスウェイト
Augmented balancing weights as linear regression ( http://arxiv.org/abs/2304.14545v3 ) ライセンス: Link先を確認 | David Bruns-Smith, Oliver Dukes, Avi Feller, Elizabeth L. Ogburn, | (参考訳) 本稿では,自動脱バイアス機械学習(AutoDML)としても知られる拡張バランスウェイトの特徴について述べる。
これらの人気の高い2倍の堅牢または非バイアスの機械学習推定器は、結果モデリングと重みのバランスをとることで、確率スコアを推定し、反転させる代わりに、共変量バランスを直接達成する重みを結合する。
結果モデルと重み付けモデルの両方が、ある(おそらく無限)基底で線型である場合、拡張推定器は、元の結果モデルからの係数と不注意な通常の最小二乗(OLS)からの係数を同じデータに結合する係数を持つ単一の線形モデルと等価であることを示す。
正規化パラメータの特定の選択の下では、拡張推定器はOLS推定器のみに崩壊することが多く、例えば1986年のラロンデデータセットの再解析で発生する。
次に、これらの結果を結果と重み付けモデルの特定の選択に拡張します。
まず、結果モデルと重み付けモデルの両方に(カーネル)リッジ回帰を用いた拡張推定器は、1つの(カーネル)リッジ回帰と等価であることを示す。
これは有限サンプルで数値的に保持され、アンダースムーシングと漸近的な収束率の新しい解析の基礎となる。
重み付けモデルがラッソペナル化回帰である場合、特殊ケースに対して閉形式表現を与え、 ``double selection' 特性を示す。
我々のフレームワークは、この人気の高い推定器のクラスにブラックボックスを開き、アンダースムースとダブルロバストな推定器の半パラメトリック効率に関する既存の結果のギャップを埋め、拡張バランスウェイトの性能に関する新たな洞察を提供する。
We provide a novel characterization of augmented balancing weights, also known as automatic debiased machine learning (AutoDML). These popular doubly robust or de-biased machine learning estimators combine outcome modeling with balancing weights - weights that achieve covariate balance directly in lieu of estimating and inverting the propensity score. When the outcome and weighting models are both linear in some (possibly infinite) basis, we show that the augmented estimator is equivalent to a single linear model with coefficients that combine the coefficients from the original outcome model and coefficients from an unpenalized ordinary least squares (OLS) fit on the same data. We see that, under certain choices of regularization parameters, the augmented estimator often collapses to the OLS estimator alone; this occurs for example in a re-analysis of the Lalonde 1986 dataset. We then extend these results to specific choices of outcome and weighting models. We first show that the augmented estimator that uses (kernel) ridge regression for both outcome and weighting models is equivalent to a single, undersmoothed (kernel) ridge regression. This holds numerically in finite samples and lays the groundwork for a novel analysis of undersmoothing and asymptotic rates of convergence. When the weighting model is instead lasso-penalized regression, we give closed-form expressions for special cases and demonstrate a ``double selection'' property. Our framework opens the black box on this increasingly popular class of estimators, bridges the gap between existing results on the semiparametric efficiency of undersmoothed and doubly robust estimators, and provides new insights into the performance of augmented balancing weights. | 翻訳日:2024-06-08 01:09:36 公開日:2024-06-05 |
# $\mathbb{R}$-smooth Banach空間における非線形方程式のPINN誤差推定
PINNs error estimates for nonlinear equations in $\mathbb{R}$-smooth Banach spaces ( http://arxiv.org/abs/2305.11915v3 ) ライセンス: Link先を確認 | Jiexing Gao, Yurii Zakharian, | (参考訳) 本稿では,PINNの誤差推定を許容するPDEの演算型クラスについて述べる。
また、$L^p$空間に対して、PINNの残差境界のツールであるブランブル・ヒルベルト型補題を得る。
In the paper, we describe in operator form classes of PDEs that admit PINN's error estimation. Also, for $L^p$ spaces, we obtain a Bramble-Hilbert type lemma that is a tool for PINN's residuals bounding. | 翻訳日:2024-06-08 01:09:36 公開日:2024-06-05 |
# C-MCTS:Monte Carlo Tree Searchによる安全な計画
C-MCTS: Safe Planning with Monte Carlo Tree Search ( http://arxiv.org/abs/2305.16209v3 ) ライセンス: Link先を確認 | Dinesh Parthasarathy, Georgios Kontes, Axel Plinge, Christopher Mutschler, | (参考訳) CMDP(Constrained Markov Decision Process)の定式化は、制約を受ける安全クリティカルな意思決定タスクの解決を可能にする。
CMDPはReinforcement Learningの文献で広く研究されているが、MCTSのようなサンプリングベースの計画アルゴリズムにはほとんど注目されていない。
従来のアプローチは、モンテカルロのコスト見積を用いて、高い分散に苦しむ制約違反を避けるため、コストに関して保守的に機能する。
エージェント展開前のオフラインフェーズで時間差学習を訓練した安全評論家を用いてコストを見積もるConstrained MCTS(C-MCTS)を提案する。
批評家は、展開中にMCTS内の安全でない軌道をプルーニングすることで探索を制限する。
C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。
良い副産物として、プランナーはより効率的なw.r.t.プランニングステップである。
最も重要なことは、プランナーと現実世界のモデルミスマッチの下では、C-MCTSは以前の作業よりもコスト違反の影響を受けにくいことである。
The Constrained Markov Decision Process (CMDP) formulation allows to solve safety-critical decision making tasks that are subject to constraints. While CMDPs have been extensively studied in the Reinforcement Learning literature, little attention has been given to sampling-based planning algorithms such as MCTS for solving them. Previous approaches perform conservatively with respect to costs as they avoid constraint violations by using Monte Carlo cost estimates that suffer from high variance. We propose Constrained MCTS (C-MCTS), which estimates cost using a safety critic that is trained with Temporal Difference learning in an offline phase prior to agent deployment. The critic limits exploration by pruning unsafe trajectories within MCTS during deployment. C-MCTS satisfies cost constraints but operates closer to the constraint boundary, achieving higher rewards than previous work. As a nice byproduct, the planner is more efficient w.r.t. planning steps. Most importantly, under model mismatch between the planner and the real world, C-MCTS is less susceptible to cost violations than previous work. | 翻訳日:2024-06-08 01:09:36 公開日:2024-06-05 |
# ArtWhisperer:芸術創造における人間とAIのインタラクションを特徴付けるデータセット
ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations ( http://arxiv.org/abs/2306.08141v3 ) ライセンス: Link先を確認 | Kailas Vodrahalli, James Zou, | (参考訳) 生成的AIがより普及するにつれて、人間のユーザがそのようなモデルとどのように相互作用するかを研究することが重要である。
本研究では,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
このインタラクションを研究するために、私たちはArtWhispererというオンラインゲームを作成しました。
このゲームを通して、5万以上の人間とAIのインタラクションを記録し、各インタラクションは、ユーザが生成した1つのテキストプロンプトと、それに対応する生成された画像に対応する。
その多くは、ユーザがターゲットイメージの最良のプロンプトを見つけるために反復的なインタラクションであり、これは人間とAIのコラボレーションを研究するためのユニークなシーケンシャルデータセットである。
本データセットの初期分析では,迅速なインタラクションとユーザ戦略のいくつかの特徴を同定する。
人々は多様なプロンプトを提出し、類似した画像を生成するさまざまなテキスト記述を発見できる。
興味深いことに、ユーザがより良いプロンプトを見つけるため、迅速な多様性は低下しない。
さらに,我々のデータセットを用いたAIの聴取可能性の定量化のための新しい指標を提案する。
我々は、タスクを適切に完了させるために必要な相互作用の期待数として、ステアビリティを定義する。
この値は、各目標タスクにマルコフ連鎖を適合させ、マルコフ連鎖の適切なスコアに到達するための期待時間を計算することで推定する。
我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。
これらの知見は、AIとAIの相互作用に関する洞察を与え、AIのステアビリティを評価する具体的な方法を示し、ArtWhispererデータセットの汎用性を実証する。
As generative AI becomes more prevalent, it is important to study how human users interact with such models. In this work, we investigate how people use text-to-image models to generate desired target images. To study this interaction, we created ArtWhisperer, an online game where users are given a target image and are tasked with iteratively finding a prompt that creates a similar-looking image as the target. Through this game, we recorded over 50,000 human-AI interactions; each interaction corresponds to one text prompt created by a user and the corresponding generated image. The majority of these are repeated interactions where a user iterates to find the best prompt for their target image, making this a unique sequential dataset for studying human-AI collaborations. In an initial analysis of this dataset, we identify several characteristics of prompt interactions and user strategies. People submit diverse prompts and are able to discover a variety of text descriptions that generate similar images. Interestingly, prompt diversity does not decrease as users find better prompts. We further propose a new metric to quantify the steerability of AI using our dataset. We define steerability as the expected number of interactions required to adequately complete a task. We estimate this value by fitting a Markov chain for each target task and calculating the expected time to reach an adequate score in the Markov chain. We quantify and compare AI steerability across different types of target images and two different models, finding that images of cities and natural world images are more steerable than artistic and fantasy images. These findings provide insights into human-AI interaction behavior, present a concrete method of assessing AI steerability, and demonstrate the general utility of the ArtWhisperer dataset. | 翻訳日:2024-06-08 00:59:06 公開日:2024-06-05 |
# 高次ネットワークにおけるDegree Heterogeneity: Inference in the Hypergraph $\boldsymbolβ$-Model
Degree Heterogeneity in Higher-Order Networks: Inference in the Hypergraph $\boldsymbolβ$-Model ( http://arxiv.org/abs/2307.02818v4 ) ライセンス: Link先を確認 | Sagnik Nandy, Bhaswar B. Bhattacharya, | (参考訳) ランダムグラフの$\boldsymbol{\beta}$-modelは、次数不均一なネットワーク内の対相互作用を表現するために一般的に用いられる。
対の相互作用を超えて、Stasi et al (2014) は高次(複数方向)相互作用を持つネットワークにおける次不均一性を捉えるためのハイパーグラフ $\boldsymbol{\beta}$-model を導入した。
本稿では,複数の層を持つハイパーグラフ $\boldsymbol{\beta}$-model の厳密な研究を開始する。
まず、最大極大推定値(ML)の収束率を導出し、その最小値の最適性を確立する。
また,ML推定の限界分布を導出し,モデルパラメータに対する漸近的に有効な信頼区間を構築する。
次に、ハイパーグラフ $\boldsymbol{\beta}$-model における適合性の問題を考える。
具体的には、Null仮説の下でのLRテストの漸近正規性を確立し、その検出閾値を導出し、しきい値における制限パワーを導出する。
興味深いことに、LRテストの検出しきい値はこのしきい値以下で漸近的に無力である、最小限の最適値であることが判明した。
理論的結果は数値実験でさらに検証される。
ハイパーグラフ $\boldsymbol{\beta}$-models の推定と推論のための理論的枠組みの開発に加えて、上記の結果はグラフ $\boldsymbol{\beta}$-model の多くのギャップを埋める。
The $\boldsymbol{\beta}$-model for random graphs is commonly used for representing pairwise interactions in a network with degree heterogeneity. Going beyond pairwise interactions, Stasi et al. (2014) introduced the hypergraph $\boldsymbol{\beta}$-model for capturing degree heterogeneity in networks with higher-order (multi-way) interactions. In this paper we initiate the rigorous study of the hypergraph $\boldsymbol{\beta}$-model with multiple layers, which allows for hyperedges of different sizes across the layers. To begin with, we derive the rates of convergence of the maximum likelihood (ML) estimate and establish their minimax rate optimality. We also derive the limiting distribution of the ML estimate and construct asymptotically valid confidence intervals for the model parameters. Next, we consider the goodness-of-fit problem in the hypergraph $\boldsymbol{\beta}$-model. Specifically, we establish the asymptotic normality of the likelihood ratio (LR) test under the null hypothesis, derive its detection threshold, and also its limiting power at the threshold. Interestingly, the detection threshold of the LR test turns out to be minimax optimal, that is, all tests are asymptotically powerless below this threshold. The theoretical results are further validated in numerical experiments. In addition to developing the theoretical framework for estimation and inference for hypergraph $\boldsymbol{\beta}$-models, the above results fill a number of gaps in the graph $\boldsymbol{\beta}$-model literature, such as the minimax optimality of the ML estimates and the non-null properties of the LR test, which, to the best of our knowledge, have not been studied before. | 翻訳日:2024-06-08 00:59:06 公開日:2024-06-05 |
# 1つの論理量子ビットを符号化した量子極符号のファクトリベースフォールトトレラント生成
Factory-based Fault-tolerant Preparation of Quantum Polar Codes Encoding One logical Qubit ( http://arxiv.org/abs/2307.15226v2 ) ライセンス: Link先を確認 | Ashutosh Goswami, Mehdi Mhalla, Valentin Savin, | (参考訳) Q1符号の論理的符号状態、すなわち1量子ビットを符号化する量子極性符号を作成するためのフォールトトレラントな方法が最近提案されている。
その耐故障性は、エラー検出装置によって保証され、準備中にエラーが検出された場合には、完全に破棄される。
誤り検出のため、準備は確率的であり、その成功率である準備率は、コード長とともに急速に減少し、大きなコード長のコード状態の準備が妨げられる。
そこで本研究では,Q1コードステートの複製を並列に数回作成しようとする,Q1コードステートの工場準備について考察する。
余分なスケジューリングステップを用いることで、エラーが検出されるたびに準備が完全に破棄されるのを回避できるので、順に準備率が向上する。
さらに, モンテカルロシミュレーションに基づく数値結果の厳密な整合性を示す工場準備法を用いて構築したQ1符号の合成と論理誤差率を推定する理論的手法を提案する。
したがって,モンテカルロシミュレーションが現実的に実現不可能な大符号長の推定値を提供するには,理論的手法が有用である。
例えば、N = 256 の場合、p = 10^{-3} の実際に興味深い物理誤差率に対して 0.02\% から 27\% に増加する。
N = 256 の Q1 符号は、それぞれ p = 10^{-3} と p = 3 x 10^{-4} に対して 10^{-11} と 10^{-15} の論理誤差率を達成する。
これは、類似の符号長と最小距離を持つ曲面符号と比較して約3桁の改善に対応しており、大規模なフォールトトレラント量子コンピューティングのための提案されたスキームの可能性を示唆している。
A fault-tolerant way to prepare logical code-states of Q1 codes, i.e., quantum polar codes encoding one qubit, has been recently proposed. The fault tolerance therein is guaranteed by an error detection gadget, where if an error is detected during the preparation, one discards entirely the preparation. Due to error detection, the preparation is probabilistic, and its success rate, referred to as the preparation rate, decreases rapidly with the code-length, preventing the preparation of code-states of large code-lengths. In this paper, to improve the preparation rate, we consider a factory preparation of Q1 code-states, where one attempts to prepare several copies of Q1 code-states in parallel. Using an extra scheduling step, we can avoid discarding the preparation entirely, every time an error is detected, hence, achieving an increased preparation rate in turn. We further provide a theoretical method to estimate preparation and logical error rates of Q1 codes, prepared using factory preparation, which is shown to tightly fit the Monte-Carlo simulation based numerical results. Therefore, our theoretical method is useful for providing estimates for large code-lengths, where Monte-Carlo simulations are practically not feasible. Our numerical results, for a circuit-level depolarizing noise model, indicate that the preparation rate increases significantly, especially for large code-length N. For example, for N = 256, it increases from 0.02\% to 27\% for a practically interesting physical error rate of p = 10^{-3}. Remarkably, a Q1 code with N = 256 achieves logical error rates around 10^{-11} and 10^{-15} for p = 10^{-3} and p = 3 x 10^{-4}, respectively. This corresponds to an improvement of about three orders of magnitude compared to a surface code with similar code-length and minimum distance, thus showing the promise of the proposed scheme for large-scale fault-tolerant quantum computing. | 翻訳日:2024-06-08 00:59:06 公開日:2024-06-05 |
# ゼロサムマルコフゲームにおけるモデルフリーアルゴリズムのサンプル効率の改善
Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games ( http://arxiv.org/abs/2308.08858v2 ) ライセンス: Link先を確認 | Songtao Feng, Ming Yin, Yu-Xiang Wang, Jing Yang, Yingbin Liang, | (参考訳) 近年,マルチエージェント強化学習(RL)の理論研究において,ツープレイヤーゼロサムマルコフゲームの問題が注目されている。
特に有限ホライズン・エピソード・マルコフ決定過程(MDPs)では、モデルベースのアルゴリズムは、標本の複雑さが$O(H^3SAB/\epsilon^2)$で、地平線上の$H$と州数$S$(それぞれ$A$と$B$は2人のプレイヤーのアクションの数を表す)の依存性が最適である$O(H^3SAB/\epsilon^2)$を見つけることができる。
しかし、既存のモデルフリーアルゴリズムではそのような最適性を達成できない。
本研究では,モデルフリーのステージベースQ-ラーニングアルゴリズムを提案し,モデルフリーのアルゴリズムがモデルベースアルゴリズムと同一のサンプル複雑性を達成できることを示し,モデルフリーのアルゴリズムがモデルベースアルゴリズムと同一の最適性を享受できることを初めて示す。
H$への依存性の主な改善は、単一のエージェントRLでしか使われていなかった参照アドバンテージ分解に基づいて、一般的な分散還元技術を活用することで生じる。
しかし、そのような手法は値関数の臨界単調性に依存しており、これはマルコフのゲームでは粗相関平衡(CCE)オラクルによるポリシーの更新によって成り立たない。
そこで,この手法をマルコフゲームに拡張するために,提案アルゴリズムは,値差が史上最小となる楽観的かつ悲観的な値関数のペアとして参照値関数を更新し,標本効率の向上を期待する鍵となる設計を特徴としている。
The problem of two-player zero-sum Markov games has recently attracted increasing interests in theoretical studies of multi-agent reinforcement learning (RL). In particular, for finite-horizon episodic Markov decision processes (MDPs), it has been shown that model-based algorithms can find an $\epsilon$-optimal Nash Equilibrium (NE) with the sample complexity of $O(H^3SAB/\epsilon^2)$, which is optimal in the dependence of the horizon $H$ and the number of states $S$ (where $A$ and $B$ denote the number of actions of the two players, respectively). However, none of the existing model-free algorithms can achieve such an optimality. In this work, we propose a model-free stage-based Q-learning algorithm and show that it achieves the same sample complexity as the best model-based algorithm, and hence for the first time demonstrate that model-free algorithms can enjoy the same optimality in the $H$ dependence as model-based algorithms. The main improvement of the dependency on $H$ arises by leveraging the popular variance reduction technique based on the reference-advantage decomposition previously used only for single-agent RL. However, such a technique relies on a critical monotonicity property of the value function, which does not hold in Markov games due to the update of the policy via the coarse correlated equilibrium (CCE) oracle. Thus, to extend such a technique to Markov games, our algorithm features a key novel design of updating the reference value functions as the pair of optimistic and pessimistic value functions whose value difference is the smallest in the history in order to achieve the desired improvement in the sample efficiency. | 翻訳日:2024-06-08 00:49:21 公開日:2024-06-05 |
# 単一光子量子ランキング:シークエンシャルデコーディングが高次元エンタングルメントに遭遇する
Single Photon Quantum Ranging: When Sequential Decoding Meets High Dimensional Entanglement ( http://arxiv.org/abs/2308.13045v2 ) ライセンス: Link先を確認 | Armanpreet Pannu, Han Liu, Amr S. Helmy, Hesham El Gamal, | (参考訳) モード毎の低雑音レベルと低反射率(高損失)状態における量子レンジ問題について考察する。
本稿では, 単一光子伝送戦略に焦点をあて, 送信機における高次元時間ビン絡み合わせと検出器における逐次決定ルールを慎重に構成した新しい手法を提案する。
解析結果から, 単一光子古典法, 従来提案されていた2モード圧縮真空レンジリング法, ブロックベースの古典的スキームなどと比較して, この手法から, 様々な操作パラメータで活用できる重要な性能向上が得られた。
このパフォーマンス向上は、
1)高次元時間ビン絡み合わされた信号が単一の光子と非常に微細な範囲分解能を提供する能力
2) 逐次決定規則は, 誤差の確率に制約のある送信光子の平均個数を最小化する。
分析は低エネルギー/低騒音に限られるが、提案手法の優れた性能はより広い範囲のシナリオにまで拡張され、さらなる解析的および実験的研究の動機となるだろうと推測する。
We consider the quantum ranging problem in the low noise level per mode and low reflectivity (high loss) regime. We focus on single photon transmission strategies and propose a novel approach that combines high dimensional time-bin entanglement at the transmitter with a carefully constructed sequential decision rule at the detector. Our analytical results establish the significant performance gains that can be leveraged from this approach in a range of operating parameters, as compared to the single photon classical approach, the two-mode squeezed vacuum ranging scheme proposed earlier, and even the block-based classical scheme. One can attribute this performance gain to 1) the ability of the high dimensional time-bin entangled signaling to offer a very fine range resolution with a single transmitted photon and 2) the ability of the sequential decision rule to minimize the average number of transmitted photon subject to a constraint on the probability of error. While our analysis is limited to the low energy/low noise regime, we conjecture that the proposed approach's superior performance extends to a wider range of scenarios which should motivate further analytical and experimental investigations. | 翻訳日:2024-06-08 00:49:21 公開日:2024-06-05 |
# シャープネスを考慮した最小化と安定性の限界
Sharpness-Aware Minimization and the Edge of Stability ( http://arxiv.org/abs/2309.12488v6 ) ライセンス: Link先を確認 | Philip M. Long, Peter L. Bartlett, | (参考訳) 最近の実験では、勾配降下(GD)をステップサイズ$\eta$でトレーニングする場合、損失のHessianの演算ノルムは、約2/\eta$に達するまで増加し、その後、この値に変動する。
2/\eta$は、この損失の局所的な二次近似を考慮して「安定性の端」と呼ばれる。
我々は,GD の変種である SAM (Sharpness-Aware Minimization) の「安定性の端」に到達するための同様の計算を行う。
GDの場合とは異なり、結果のSAM-辺は勾配のノルムに依存する。
3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。
Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size $\eta$, the operator norm of the Hessian of the loss grows until it approximately reaches $2/\eta$, after which it fluctuates around this value. The quantity $2/\eta$ has been called the "edge of stability" based on consideration of a local quadratic approximation of the loss. We perform a similar calculation to arrive at an "edge of stability" for Sharpness-Aware Minimization (SAM), a variant of GD which has been shown to improve its generalization. Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient. Using three deep learning training tasks, we see empirically that SAM operates on the edge of stability identified by this analysis. | 翻訳日:2024-06-08 00:39:36 公開日:2024-06-05 |
# 自己スペシャライゼーション - 大規模言語モデルにおける潜在専門家の発見
Self-Specialization: Uncovering Latent Expertise within Large Language Models ( http://arxiv.org/abs/2310.00160v2 ) ライセンス: Link先を確認 | Junmo Kang, Hongyin Luo, Yada Zhu, Jacob Hansen, James Glass, David Cox, Alan Ritter, Rogerio Feris, Leonid Karlinsky, | (参考訳) 近年の研究では、人間の手書き種子から始まるモデル自体から生成された命令データを用いて、大規模言語モデルが一般的な指示に従うように整列された自己アライメントの有効性が実証されている。
本研究では、総合的なアライメントではなく、専門家ドメイン専門化(例えば、バイオメディシン、ファイナンス)のための自己アライメントに焦点を当てる。
予備的な例として、汎用的な指示追従訓練が下流の専門家ドメインの性能に及ぼす限界効果を定量的に示す。
そこで本研究では,数個のラベル付き種子を有効利用して,クロスタスクの一般化を実現しつつ,効果的なモデル特化を可能にする自己特殊化を提案する。
自己専門化(Self-specialization)は、ジェネラリストが事前訓練したLLMから専門家モデルを“彫り出す”ための、データとパラメータ効率のよい方法を提供する。
バイオメディカル・ファイナンシャル・ドメインにおける実験結果から,我々の自己専門化モデルは,そのベースモデルよりも大きなマージンで優れており,また,一般に訓練されたり,他の方法で対象ドメインに適応した大規模モデルよりも大きいことが示唆された。
Recent works have demonstrated the effectiveness of self-alignment in which a large language model is aligned to follow general instructions using instructional data generated from the model itself starting from a handful of human-written seeds. Instead of general alignment, in this work, we focus on self-alignment for expert domain specialization (e.g., biomedicine, finance). As a preliminary, we quantitively show the marginal effect that generic instruction-following training has on downstream expert domains' performance. To remedy this, we propose self-specialization - allowing for effective model specialization while achieving cross-task generalization by leveraging only a few labeled seeds. Self-specialization offers a data- and parameter-efficient way of "carving out" an expert model out of a generalist pre-trained LLM. Exploring a variety of popular open large models as a base for specialization, our experimental results in both biomedical and financial domains show that our self-specialized models outperform their base models by a large margin, and even larger models that are generally instruction-tuned or that have been adapted to the target domain by other means. | 翻訳日:2024-06-08 00:39:36 公開日:2024-06-05 |
# マルチタイル型ニューラルラジアンスフィールド(NeRF) -- 大規模航空データセットの幾何学的評価
Multi-tiling Neural Radiance Field (NeRF) -- Geometric Assessment on Large-scale Aerial Datasets ( http://arxiv.org/abs/2310.00530v4 ) ライセンス: Link先を確認 | Ningli Xu, Rongjun Qin, Debao Huang, Fabio Remondino, | (参考訳) ニューラル・ラジアンス・フィールド(Neural Radiance Fields、NeRF)は、航空写真撮影を含む3D再構成作業の恩恵を受ける可能性がある。
しかしながら、推定幾何のスケーラビリティと精度は、大規模な航空資産には十分に文書化されていないため、そのようなデータセットは通常、非常に高いメモリ消費と緩やかな収束をもたらす。
と。
本稿では,大規模な航空データセット上でのNeRFのスケール化を目標とし,NeRFの詳細な幾何学的評価を行う。
具体的には、RAMのイメージローディング時のメモリ消費を削減するためのマルチカメラタイリング(MCT)戦略、GPUメモリの表現訓練、タイル内収束率の向上について紹介する。
MCTは、大きなフレームイメージを異なるカメラモデルで複数のタイル画像に分解し、これらの小さなフレームイメージを、精度を損なうことなく、特定の場所に必要なトレーニングプロセスに投入する。
提案手法は代表的手法であるMip-NeRFに実装し,その幾何学的性能を2つの典型的な空中データセット上の3フォットグラムのMVSパイプラインとLiDAR参照データと比較する。
定性的かつ定量的な結果は、提案したNeRFアプローチが従来の手法よりも完全性やオブジェクトの詳細をもたらすことを示唆している。
Neural Radiance Fields (NeRF) offer the potential to benefit 3D reconstruction tasks, including aerial photogrammetry. However, the scalability and accuracy of the inferred geometry are not well-documented for large-scale aerial assets,since such datasets usually result in very high memory consumption and slow convergence.. In this paper, we aim to scale the NeRF on large-scael aerial datasets and provide a thorough geometry assessment of NeRF. Specifically, we introduce a location-specific sampling technique as well as a multi-camera tiling (MCT) strategy to reduce memory consumption during image loading for RAM, representation training for GPU memory, and increase the convergence rate within tiles. MCT decomposes a large-frame image into multiple tiled images with different camera models, allowing these small-frame images to be fed into the training process as needed for specific locations without a loss of accuracy. We implement our method on a representative approach, Mip-NeRF, and compare its geometry performance with threephotgrammetric MVS pipelines on two typical aerial datasets against LiDAR reference data. Both qualitative and quantitative results suggest that the proposed NeRF approach produces better completeness and object details than traditional approaches, although as of now, it still falls short in terms of accuracy. | 翻訳日:2024-06-08 00:39:36 公開日:2024-06-05 |
# POTLOC:Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization
POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization ( http://arxiv.org/abs/2310.13585v2 ) ライセンス: Link先を確認 | Elahe Vahdani, Yingli Tian, | (参考訳) 本稿では,1フレームのみをトレーニングセットの各アクションインスタンスにアノテートする点教師付き時間的動作検出の課題に対処する。
現在のメソッドのほとんどは、アノテーション付きポイントのスパースな性質によって妨げられ、アクションの継続的な構造やアクションインスタンス内の固有の時間的およびセマンティックな依存関係を効果的に表現するのに苦労しています。
その結果、これらの手法は単に最も独特なアクションセグメントだけを学習し、不完全なアクションプロポーザルの作成につながった。
本稿では,Pseudo-label Oriented Transformer(POTLOC)を提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
ベースモデルは、ポイントレベルの監督のみでアクションプロポーザルを生成することから始まります。
これらの提案は、推定された行動境界の精度を高めるために、改良と回帰を行い、その後、補助的な監視信号として「擬似ラベル」を生産する結果となった。
モデルのアーキテクチャは、トランスフォーマーと時間的特徴ピラミッドを統合して、ビデオスニペットの依存関係と様々な期間のモデルアクションをキャプチャする。
粗い位置と行動の境界に関する情報を提供する擬似ラベルは、行動力学の学習を促進するためのトランスフォーマーの指導を支援する。
POTLOCはTHUMOS'14とActivityNet-v1.2データセットの最先端のポイント管理手法より優れている。
This paper tackles the challenge of point-supervised temporal action detection, wherein only a single frame is annotated for each action instance in the training set. Most of the current methods, hindered by the sparse nature of annotated points, struggle to effectively represent the continuous structure of actions or the inherent temporal and semantic dependencies within action instances. Consequently, these methods frequently learn merely the most distinctive segments of actions, leading to the creation of incomplete action proposals. This paper proposes POTLoc, a Pseudo-label Oriented Transformer for weakly-supervised Action Localization utilizing only point-level annotation. POTLoc is designed to identify and track continuous action structures via a self-training strategy. The base model begins by generating action proposals solely with point-level supervision. These proposals undergo refinement and regression to enhance the precision of the estimated action boundaries, which subsequently results in the production of `pseudo-labels' to serve as supplementary supervisory signals. The architecture of the model integrates a transformer with a temporal feature pyramid to capture video snippet dependencies and model actions of varying duration. The pseudo-labels, providing information about the coarse locations and boundaries of actions, assist in guiding the transformer for enhanced learning of action dynamics. POTLoc outperforms the state-of-the-art point-supervised methods on THUMOS'14 and ActivityNet-v1.2 datasets. | 翻訳日:2024-06-08 00:29:50 公開日:2024-06-05 |
# AGIへの道の歩みを運用するためのAGIのレベル
Levels of AGI for Operationalizing Progress on the Path to AGI ( http://arxiv.org/abs/2311.02462v4 ) ライセンス: Link先を確認 | Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg, | (参考訳) 本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。
フレームワークを開発するために、既存のAGIの定義を分析し、AGIにとって有用なオントロジーが満たすべき6つの原則を抽出する。
これらの原則を念頭において、我々は「AGIのレベル」の深さ(性能)と広さ(一般性)の能力に基づいて提案し、現在のシステムがこのオントロジーにどのように適合するかを反映する。
これらのレベルに対してAGIモデルの振る舞いと能力を定量化する将来のベンチマークの課題について論じる。
最後に、これらのAGIのレベルが自律性やリスクといったデプロイメント上の考慮事項とどのように相互作用するかについて議論し、高機能なAIシステムの責任と安全なデプロイメントにおいて、ヒューマン・AIインタラクションパラダイムを慎重に選択することの重要性を強調します。
We propose a framework for classifying the capabilities and behavior of Artificial General Intelligence (AGI) models and their precursors. This framework introduces levels of AGI performance, generality, and autonomy, providing a common language to compare models, assess risks, and measure progress along the path to AGI. To develop our framework, we analyze existing definitions of AGI, and distill six principles that a useful ontology for AGI should satisfy. With these principles in mind, we propose "Levels of AGI" based on depth (performance) and breadth (generality) of capabilities, and reflect on how current systems fit into this ontology. We discuss the challenging requirements for future benchmarks that quantify the behavior and capabilities of AGI models against these levels. Finally, we discuss how these levels of AGI interact with deployment considerations such as autonomy and risk, and emphasize the importance of carefully selecting Human-AI Interaction paradigms for responsible and safe deployment of highly capable AI systems. | 翻訳日:2024-06-08 00:29:50 公開日:2024-06-05 |
# 非凸分散学習のための圧縮・スパースモデル
Compressed and Sparse Models for Non-Convex Decentralized Learning ( http://arxiv.org/abs/2311.05760v2 ) ライセンス: Link先を確認 | Andrew Campbell, Hang Liu, Leah Woldemariam, Anna Scaglione, | (参考訳) 最近の研究は、特に大規模かつ過度にパラメータ化されたニューラルネットワーク(NN)において、分散機械学習(ML)の効率に重要なボトルネックとして、頻繁なモデル通信を強調している。
そこで本研究では,勾配圧縮手法とモデルスペーシフィケーションを組み合わせた新しい分散MLアルゴリズムであるMalcom-PSGDを提案する。
我々は,目標値に$\ell_1$正規化を加えてモデルの疎結合を促進し,学習のための分散近位SGD法を提案する。
提案手法では,ベクトル源符号化とディザリングに基づく量子化を用いて,疎化モデルの圧縮勾配通信を行う。
我々の分析は、Malcom-PSGDが、一定のコンセンサスと学習率を仮定して、反復に対して$\mathcal{O}(1/\sqrt{t})$の収束率を達成していることを示している。
この結果は,非凸圧縮SGD法の収束性の証明によって裏付けられる。
さらに,Malcom-PSGDに関連する通信コストに対して,クローズドフォームの表現を行う。
その結果,提案手法は,最先端技術と比較して通信コストを約7,5 %削減できることがわかった。
Recent research highlights frequent model communication as a significant bottleneck to the efficiency of decentralized machine learning (ML), especially for large-scale and over-parameterized neural networks (NNs). To address this, we present Malcom-PSGD, a novel decentralized ML algorithm that combines gradient compression techniques with model sparsification. We promote model sparsity by adding $\ell_1$ regularization to the objective and present a decentralized proximal SGD method for training. Our approach employs vector source coding and dithering-based quantization for the compressed gradient communication of sparsified models. Our analysis demonstrates that Malcom-PSGD achieves a convergence rate of $\mathcal{O}(1/\sqrt{t})$ with respect to the iterations $t$, assuming a constant consensus and learning rate. This result is supported by our proof for the convergence of non-convex compressed Proximal SGD methods. Additionally, we conduct a bit analysis, providing a closed-form expression for the communication costs associated with Malcom-PSGD. Numerical results verify our theoretical findings and demonstrate that our method reduces communication costs by approximately $75\%$ when compared to the state-of-the-art. | 翻訳日:2024-06-08 00:29:50 公開日:2024-06-05 |
# 量子セキュアデジタル署名のための同相ポリノミアル公開鍵暗号
Homomorphic Polynomial Public Key Cryptography for Quantum-secure Digital Signature ( http://arxiv.org/abs/2311.08967v3 ) ライセンス: Link先を確認 | Randy Kuang, Maria Perepechaenko, Mahmoud Sayed, Dafu Lou, | (参考訳) 2022年の研究でKuangらは、量子セーフな公開鍵システムにおける乗算と除算の逆関係を利用した多変数ポリノミアル公開鍵(MPPK)暗号を導入した。
彼らはMPPKをホモモルフィックなポリノミアル公開鍵(HPPK)に拡張し、大きな隠蔽リング操作に同型暗号化を適用した。
当初、鍵カプセル化(KEM)のために設計されたHPPKのセキュリティは、公開多項式の同型暗号化に依存している。
本稿では,HPPK KEMをデジタル署名方式に拡張する。
HPPK KEMをデジタルシグネチャに適応させるために、Barrett還元アルゴリズムの拡張を導入し、モジュラ乗算を素体上の検証方程式の分割に変換する。
拡張アルゴリズムは、署名を公開多項式係数に非線形に埋め込み、初期のMPPK DSスキームの脆弱性に対処する。
セキュリティ分析は、プライマリフィールドサイズの2倍のリングビット長を考慮して、プライベートキーリカバリと偽シグネチャ攻撃の指数関数的複雑性を示す。
In their 2022 study, Kuang et al. introduced Multivariable Polynomial Public Key (MPPK) cryptography, leveraging the inversion relationship between multiplication and division for quantum-safe public key systems. They extended MPPK into Homomorphic Polynomial Public Key (HPPK), employing homomorphic encryption for large hidden ring operations. Originally designed for key encapsulation (KEM), HPPK's security relies on homomorphic encryption of public polynomials. This paper expands HPPK KEM to a digital signature scheme, facing challenges due to the distinct nature of verification compared to decryption. To adapt HPPK KEM to digital signatures, the authors introduce an extension of the Barrett reduction algorithm, transforming modular multiplications into divisions in the verification equation over a prime field. The extended algorithm non-linearly embeds the signature into public polynomial coefficients, addressing vulnerabilities in earlier MPPK DS schemes. Security analysis demonstrates exponential complexity for private key recovery and forged signature attacks, considering ring bit length twice that of the prime field size. | 翻訳日:2024-06-08 00:29:50 公開日:2024-06-05 |
# genEVA:LLMを用いた分岐物語の生成と可視化
GENEVA: GENErating and Visualizing branching narratives using LLMs ( http://arxiv.org/abs/2311.09213v3 ) ライセンス: Link先を確認 | Jorge Leandro, Sudha Rao, Michael Xu, Weijia Xu, Nebosja Jojic, Chris Brockett, Bill Dolan, | (参考訳) 対話型ロールプレイングゲーム(RPG)は強力なストーリーテリングを必要とする。
これらの物語は、大きな創造的なチームを書くのに何年もかかるかもしれない。
本研究では,このプロセスを支援するため,大規模生成テキストモデルの可能性を示す。
プロトタイプツールである \textbf{GENEVA} は、デザイナによって提供される高レベルな物語記述と制約にマッチするストーリーラインの分岐と再収束を伴うリッチな物語グラフを生成する。
大規模言語モデル(LLM)であるGPT-4は、分岐した物語を生成し、2段階のプロセスでグラフ形式でレンダリングするために使用される。
本稿では,異なる文脈制約下での4つの有名な物語の分岐物語生成におけるgenEVAの利用について述べる。
このツールはゲーム開発、シミュレーション、その他のゲームライクな特性を持つアプリケーションを支援する可能性がある。
Dialogue-based Role Playing Games (RPGs) require powerful storytelling. The narratives of these may take years to write and typically involve a large creative team. In this work, we demonstrate the potential of large generative text models to assist this process. \textbf{GENEVA}, a prototype tool, generates a rich narrative graph with branching and reconverging storylines that match a high-level narrative description and constraints provided by the designer. A large language model (LLM), GPT-4, is used to generate the branching narrative and to render it in a graph format in a two-step process. We illustrate the use of GENEVA in generating new branching narratives for four well-known stories under different contextual constraints. This tool has the potential to assist in game development, simulations, and other applications with game-like properties. | 翻訳日:2024-06-08 00:20:02 公開日:2024-06-05 |
# NFTウォッシュ取引:直接対間接推定
NFT Wash Trading: Direct vs. Indirect Estimation ( http://arxiv.org/abs/2311.18717v2 ) ライセンス: Link先を確認 | Brett Hemenway Falk, Gerry Tsoukalas, Niuniu Zhang, | (参考訳) 最近の研究では、Binanceのようなオフチェーン暗号取引所における取引価値の約70%が洗浄取引である。
この論文は、NFT市場へ向けられ、トランザクションのオンチェーンの性質、すなわちWeb3のイノベーションのキーテットは、適用すべきより直接的な推定方法を可能にする。
最大の3つのNFT市場に焦点を当てると、NFTボリュームの30-40%、取引価値の25-95%が洗剤取引であることがわかった。
我々はこの直接的なアプローチを利用して、文献で提案されている最近の間接推定手法を批判的に評価し、効果の大きな違いを明らかにし、一部は完全に失敗する。
Cong et al (2023) で示唆されているように、トレードラウンドネスフィルタは最も正確な間接推定法として出現する。
実際,超パラメータ微調整による直接的および間接的アプローチの緊密な整合性を示す。
本研究は,デジタルファイナンスにおける金融不正の検出・規制における技術革新の重要性を明らかにするものである。
Recent studies estimate around 70% of traded value on off-chain crypto exchanges like Binance is wash trading. This paper turns to NFT markets, where the on-chain nature of transactions-a key tenet of Web3 innovation-enables more direct estimation methods to be applied. Focusing on three of the largest NFT marketplaces, we find 30-40% of NFT volume and 25-95% of traded value involve wash trading. We leverage this direct approach to critically evaluate recent indirect estimation methods suggested in the literature, revealing major differences in effectiveness, with some failing altogether. Trade-roundedness filters, as suggested in Cong et al. (2023), emerge as the most accurate indirect estimation method. In fact, we show how direct and indirect approaches can be closely aligned via hyper-parameter fine-tuning. Our findings underscore the crucial role of technological innovation in detecting and regulating financial misconduct in digital finance. | 翻訳日:2024-06-08 00:20:02 公開日:2024-06-05 |
# 人間のように反応する:人間に固有の振る舞いをNAOに組み込む
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability ( http://arxiv.org/abs/2312.07671v2 ) ライセンス: Link先を確認 | Ali Ghadami, Mohammadreza Taghimohammadi, Mohammad Mohammadzadeh, Mohammad Hosseinipour, Alireza Taheri, | (参考訳) ロボットの人間に対する受容性と社会性は、人間のような反応を取り入れることで著しく向上することができる。
人間は考えずに、環境イベントに素早く反応できる。
人間が自然反応を示す例は、突然大きな音に遭遇し、彼らを驚かせたり、怖がらせたりする時である。
このような瞬間において、個人は直感的に手を動かし、音の起源に向かって向きを変え、出来事の原因を判断しようとする。
この固有の行動は、この研究の少ない社会ロボティクスを探求する動機となった。
本研究では, 動作発生器, 音響分類器, YOLOオブジェクト検出器から構成されるマルチモーダルシステムを用いて, 環境を感知し, 突然の音の存在下, 自然の人間の恐怖反応を示し, そして, 環境中の恐怖を感知する音源を特定する。
これらの有効な動きと推論は、本質的な人間の反応を模倣し、ロボットの社会性を高めることができる。
動作生成のために,LSTMとMDNネットワークに基づくモデルを提案し,様々な動作を合成した。
また、音検出の場合、音信号のスペクトログラムを入力として使用する転写学習モデルが好ましい。
音響検出、モーション生成、画像認識の個別モデルを開発した後、NAOロボットに実装された総合的な「フィーア」モジュールに統合された。
最後に、恐怖モジュールを実用的にテストし、2つの専門家グループと非専門家グループ(ロボティクス分野)がロボットの性能を評価するためのアンケートを作成した。
提案モジュールは,ロボットの周囲環境において,突発的かつ大音量の音が鳴り響く場合に,ロボットが人間のように振る舞うことを参加者に納得させ,また,非専門家が社会ロボットとその性能に対して高い期待を抱いていることを示す。
Robots' acceptability among humans and their sociability can be significantly enhanced by incorporating human-like reactions. Humans can react to environmental events very quickly and without thinking. An instance where humans show natural reactions is when they encounter a sudden and loud sound that startles or frightens them. During such moments, individuals may instinctively move their hands, turn toward the origin of the sound, and try to determine the event's cause. This inherent behavior motivated us to explore this less-studied part of social robotics. In this work, a multi-modal system composed of an action generator, sound classifier, and YOLO object detector was designed to sense the environment and, in the presence of sudden loud sounds, show natural human fear reactions; and finally, locate the fear-causing sound source in the environment. These valid generated motions and inferences could imitate intrinsic human reactions and enhance the sociability of robots. For motion generation, a model based on LSTM and MDN networks was proposed to synthesize various motions. Also, in the case of sound detection, a transfer learning model was preferred that used the spectrogram of the sound signals as its input. After developing individual models for sound detection, motion generation, and image recognition, they were integrated into a comprehensive "fear" module implemented on the NAO robot. Finally, the fear module was tested in practical application and two groups of experts and non-experts (in the robotics area) filled out a questionnaire to evaluate the performance of the robot. We indicated that the proposed module could convince the participants that the Nao robot acts and reasons like a human when a sudden and loud sound is in the robot's peripheral environment, and additionally showed that non-experts have higher expectations about social robots and their performance. | 翻訳日:2024-06-08 00:20:02 公開日:2024-06-05 |
# Webの衝撃が機械翻訳される:マルチウェイ並列性からの洞察
A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism ( http://arxiv.org/abs/2401.05749v2 ) ライセンス: Link先を確認 | Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico, | (参考訳) ウェブ上のコンテンツは、しばしば多くの言語に翻訳されることを示し、これらのマルチウェイ翻訳の低品質は、機械翻訳(MT)を用いて作成された可能性が高いことを示している。
マルチウェイ並列で機械生成されたコンテンツは、下位のリソース言語における翻訳を支配しているだけでなく、それらの言語における全ウェブコンテンツの大部分を構成している。
また、多くの言語に翻訳されるコンテンツの種類の選択バイアスの証拠も、MTを通して低品質の英語コンテンツが多くの低レベルリソース言語に翻訳されるのと一致している。本研究は、モノリンガルデータとバイリンガルデータの両方をウェブから抽出した多言語大言語モデルのようなトレーニングモデルに関する深刻な懸念を提起する。
We show that content on the web is often translated into many languages, and the low quality of these multi-way translations indicates they were likely created using Machine Translation (MT). Multi-way parallel, machine generated content not only dominates the translations in lower resource languages; it also constitutes a large fraction of the total web content in those languages. We also find evidence of a selection bias in the type of content which is translated into many languages, consistent with low quality English content being translated en masse into many lower resource languages, via MT. Our work raises serious concerns about training models such as multilingual large language models on both monolingual and bilingual data scraped from the web. | 翻訳日:2024-06-08 00:10:18 公開日:2024-06-05 |
# Medusa: 複数のデコードヘッドを備えたシンプルなLCM推論高速化フレームワーク
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads ( http://arxiv.org/abs/2401.10774v2 ) ライセンス: Link先を確認 | Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao, | (参考訳) 大規模言語モデル(LLM)は、逐次計算を必要とする自動回帰デコーディングを採用し、各ステップは前のステップの出力に依存する。
これにより、各ステップが完全なモデルパラメータをHigh-Bandwidth Memory (HBM)からアクセラレータのキャッシュに移行する必要があるため、ボトルネックが発生する。
投機的復号法のような手法はこの問題に対処するために提案されているが、それらの実装は独立したドラフトモデルの取得と維持に関わる課題によって妨げられている。
本稿では,複数のトークンを並列に予測するために,余分なデコードヘッドを追加することで,LCM推論を効率化するMedusaを提案する。
ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
並列処理を活用することで、Medusaはデコードステップの数を大幅に削減する。
Medusa-1: Medusa は凍結した背骨 LLM 上に直接微調整され,無害な推論の加速を可能にする。
Medusa-2: MedusaはバックボーンLLMと共に微調整され、Medusaヘッドの予測精度が向上し、スピードアップが向上するが、バックボーンモデルの能力を保持する特別なトレーニングレシピが必要である。
また、トレーニングデータがない状況に対処する自己蒸留や、生成品質を維持しつつ受け入れ率を高める典型的な受入方式など、Medusaの有用性を向上または拡張するいくつかの拡張を提案する。
様々な大きさのモデルと訓練手順を用いてメデューサを評価する。
実験により,Medusa-1は生成品質を損なうことなく2.2倍以上の高速化が可能であり,Medusa-2は2.3~3.6倍の高速化を実現している。
Large Language Models (LLMs) employ auto-regressive decoding that requires sequential computation, with each step reliant on the previous one's output. This creates a bottleneck as each step necessitates moving the full model parameters from High-Bandwidth Memory (HBM) to the accelerator's cache. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa substantially reduces the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x. | 翻訳日:2024-06-08 00:00:12 公開日:2024-06-05 |
# 脱獄攻撃に対する言語モデルのロバストプロンプト最適化
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2401.17263v3 ) ライセンス: Link先を確認 | Andy Zhou, Bo Li, Haohan Wang, | (参考訳) AIアライメントの進歩にもかかわらず、大きな言語モデル(LLM)は敵の攻撃や脱獄に弱いままであり、敵は望ましくない行動を誘発するためにプロンプトを修正することができる。
いくつかの防衛策が提案されているが、新たに提案された攻撃やより挑戦的な脅威モデルには適応していない。
そこで本稿では,ロバスト・プロンプト・最適化(RPO)を用いて,ロバスト・プロンプト・最適化(RPO)による堅牢なシステムレベルの防御を実現する。
本手法では, 敵を防御目標に直接組み込み, 軽量かつ移動可能な接尾辞を最適化することにより, RPOが最悪の場合の適応攻撃に適応できるようにする。
GPT-4の攻撃成功率(ASR)は6%,Llama-2は0%,JailbreakBenchは0%に低下した。
コードはhttps://github.com/lapisrocks/rpoにある。
Despite advances in AI alignment, large language models (LLMs) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries can modify prompts to induce unwanted behavior. While some defenses have been proposed, they have not been adapted to newly proposed attacks and more challenging threat models. To address this, we propose an optimization-based objective for defending LLMs against jailbreaking attacks and an algorithm, Robust Prompt Optimization (RPO) to create robust system-level defenses. Our approach directly incorporates the adversary into the defensive objective and optimizes a lightweight and transferable suffix, enabling RPO to adapt to worst-case adaptive attacks. Our theoretical and experimental results show improved robustness to both jailbreaks seen during optimization and unknown jailbreaks, reducing the attack success rate (ASR) on GPT-4 to 6% and Llama-2 to 0% on JailbreakBench, setting the state-of-the-art. Code can be found at https://github.com/lapisrocks/rpo | 翻訳日:2024-06-08 00:00:12 公開日:2024-06-05 |
# 絡み合いと測定の相補的関係
Complementary Relationships between Entanglement and Measurement ( http://arxiv.org/abs/2401.17537v2 ) ライセンス: Link先を確認 | Michael Steiner, Ronald Rendell, | (参考訳) パターン可視性、予測可能性、識別可能性などの粒子の干渉特性に関する補完的な関係が存在する。
さらに、情報ゲイン$G$と、絡み合ったスピン対に対する測定障害$F$の関係が知られている。
ここでは、同様の絡み合いと測定の相補関係が生じるかどうかを考察する。
量子ビット系では、単一系における測定と二部系における測定の両方が絡み合いに関して考慮される。
$\overline{E}+D\le 1$は、測定後の平均絡み合いが$\overline{E}$であり、1つの測定の計測乱れが$D$であることを示す。
Alice と Bob が共有する二部系の測定について、$\overline{E}+G\le 1$ ここで$G$は、Bob が得るアリスの結果に関する最大情報ゲインである。
これらの結果は任意の初期混合状態と非エルミート作用素に対して一般化される。
最大絡み合った初期状態の場合、$D\le E_{L}$と$G\le E_{L}$はアリスによる測定による絡み合い損失である。
得られた乱れ量や情報取得量は、絡み合いによって厳密に制限されていると結論付けている。
Complementary relationships exist regarding interference properties of particles such as pattern visibility, predictability and distinguishability. Additionally, relationships are known between information gain $G$ and measurement disturbance $F$ for entangled spin pairs. The question of whether a similar complementary relationship between entanglement and measurement occurs is examined herein. For qubit systems, both measurement on a single system and measurements on a bipartite system are considered in regards to the entanglement. It is proven that $\overline{E}+D\le 1$ holds where $\overline{E}$ is the average entanglement after a measurement is made and for which $D$ is a measure of the measurement disturbance of a single measurement. For measurements on a bipartite system shared by Alice and Bob ,it is shown that $\overline{E}+G\le 1$ where $G$ is the maximum information gain regarding Alice's result that can be obtained by Bob. These results are generalized for arbitrary initial mixed states and as well to non-Hermitian operators. In the case of maximally entangled initial states, it is found that $D\le E_{L}$ and $G\le E_{L}$ where $E_{L}$ is the entanglement loss due to measurement by Alice. We conclude that the amount of disturbance and information gain that one can gain are strictly limited by entanglement. | 翻訳日:2024-06-08 00:00:12 公開日:2024-06-05 |
# Monotone, Bi-Lipschitz, Polyak-Lojasiewicz Networks
Monotone, Bi-Lipschitz, and Polyak-Lojasiewicz Networks ( http://arxiv.org/abs/2402.01344v4 ) ライセンス: Link先を確認 | Ruigang Wang, Krishnamurthy Dvijotham, Ian R. Manchester, | (参考訳) 本稿では, 入力摂動に対する出力感度) と逆リプシッツ(出力と出力の差分性)の両方をスムーズに制御できるバイリプシッツ可逆ニューラルネットワークBiLipNetを提案する。
2つ目の貢献は、新しいスカラー出力ネットワークPLNetであり、これはBiLipNetと二次ポテンシャルの合成である。
我々はPLNetがPolyak-Lojasiewicz条件を満たすことを示し、一意かつ効率的に計算可能な大域的最小値で非凸サロゲート損失を学習するために適用可能であることを示す。
これらのネットワークの中心となる技術的要素は、証明された強い単調性とリプシッツ性を持つ新しい可逆的残留層であり、ビリップネットを構築するために直交層を構成する。
これらの性質の証明は増分二次的制約に基づいており、スペクトル正規化で達成できるよりもはるかに厳密な境界となる。
さらに、高速アルゴリズムを適用可能な3演算分割問題の連続として、BiLipNetの逆数、つまりPLNetの最小値の計算を定式化する。
This paper presents a new bi-Lipschitz invertible neural network, the BiLipNet, which has the ability to smoothly control both its Lipschitzness (output sensitivity to input perturbations) and inverse Lipschitzness (input distinguishability from different outputs). The second main contribution is a new scalar-output network, the PLNet, which is a composition of a BiLipNet and a quadratic potential. We show that PLNet satisfies the Polyak-Lojasiewicz condition and can be applied to learn non-convex surrogate losses with a unique and efficiently-computable global minimum. The central technical element in these networks is a novel invertible residual layer with certified strong monotonicity and Lipschitzness, which we compose with orthogonal layers to build the BiLipNet. The certification of these properties is based on incremental quadratic constraints, resulting in much tighter bounds than can be achieved with spectral normalization. Moreover, we formulate the calculation of the inverse of a BiLipNet -- and hence the minimum of a PLNet -- as a series of three-operator splitting problems, for which fast algorithms can be applied. | 翻訳日:2024-06-07 23:50:27 公開日:2024-06-05 |
# 補助的短遅延による強遅延フィードバックによる強化学習の強化
Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays ( http://arxiv.org/abs/2402.03141v2 ) ライセンス: Link先を確認 | Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Yuhui Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Jürgen Schmidhuber, Chao Huang, | (参考訳) 強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。
最先端のSOTA(State-of-the-art State Augmentation)技術は、確率的環境における状態空間の爆発または性能劣化に悩まされる。
これらの課題に対処するために, 確率環境における性能を損なうことなく, 短時間の遅延を含む補助的タスクを利用して, 長時間の遅延でRLを加速する, 補助的強化学習(AD-RL)手法を提案する。
具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。
理論的には、これはサンプルの複雑さを大幅に減少させる可能性がある。
決定論的および確率的ベンチマークでは,本手法はサンプル効率と政策性能の両方においてSOTAよりも有意に優れていた。
コードはhttps://github.com/QingyuanWuNothing/AD-RLで入手できる。
Reinforcement learning (RL) is challenging in the common case of delays between events and their sensory perceptions. State-of-the-art (SOTA) state augmentation techniques either suffer from state space explosion or performance degeneration in stochastic environments. To address these challenges, we present a novel Auxiliary-Delayed Reinforcement Learning (AD-RL) method that leverages auxiliary tasks involving short delays to accelerate RL with long delays, without compromising performance in stochastic environments. Specifically, AD-RL learns a value function for short delays and uses bootstrapping and policy improvement techniques to adjust it for long delays. We theoretically show that this can greatly reduce the sample complexity. On deterministic and stochastic benchmarks, our method significantly outperforms the SOTAs in both sample efficiency and policy performance. Code is available at https://github.com/QingyuanWuNothing/AD-RL. | 翻訳日:2024-06-07 23:50:27 公開日:2024-06-05 |
# ポリノミアル時間におけるReLUニューラルネットワーク近似グローバルオプティマの凸緩和
Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time ( http://arxiv.org/abs/2402.03625v2 ) ライセンス: Link先を確認 | Sungyoon Kim, Mert Pilanci, | (参考訳) 本稿では,2層ReLUネットワーク間における重み劣化と凸緩和の最適性ギャップについて検討する。
トレーニングデータがランダムであれば,n がトレーニングサンプル数である O(log n^0.5) の係数によって,元の問題と緩和の間の相対的最適性ギャップが有界であることが示される。
単純な応用は、元の非凸問題を対数係数まで解くことが保証される、抽出可能な多項式時間アルゴリズムにつながる。
さらに, 緩やかな仮定の下では, 局所勾配法は訓練損失の低い点に収束し, 高い確率で収束することを示す。
その結果,局所勾配法が有効である理由の理解に新たな光を当てることができた。
In this paper, we study the optimality gap between two-layer ReLU networks regularized with weight decay and their convex relaxations. We show that when the training data is random, the relative optimality gap between the original problem and its relaxation can be bounded by a factor of O(log n^0.5), where n is the number of training samples. A simple application leads to a tractable polynomial-time algorithm that is guaranteed to solve the original non-convex problem up to a logarithmic factor. Moreover, under mild assumptions, we show that local gradient methods converge to a point with low training loss with high probability. Our result is an exponential improvement compared to existing results and sheds new light on understanding why local gradient methods work well. | 翻訳日:2024-06-07 23:50:27 公開日:2024-06-05 |
# DySLIM:カオスシステムのための不変測度による動的安定学習
DySLIM: Dynamics Stable Learning by Invariant Measure for Chaotic Systems ( http://arxiv.org/abs/2402.04467v2 ) ライセンス: Link先を確認 | Yair Schiff, Zhong Yi Wan, Jeffrey B. Parker, Stephan Hoyer, Volodymyr Kuleshov, Fei Sha, Leonardo Zepeda-Núñez, | (参考訳) 散逸的なカオス系から力学を学ぶことは、その固有の不安定さのために、その正のリャプノフ指数によって形式化され、学習力学における誤りを指数関数的に増幅することが知られている。
しかし、これらの系の多くはエルゴード性や引力を示す:コンパクトで非常に複雑な多様体で、軌跡は有限時間で収束し、不変測度、すなわち力学の作用の下で不変な確率分布をサポートし、システムの長期的な統計的挙動を規定する。
本研究では、この構造を利用して、軌跡間の不適合のみを対象とする典型的な手法と対照的に、不変測度と力学の学習を対象とする新しい枠組みを提案する。
我々のフレームワークは、既存の学習目的で使用できる、抽出可能でサンプルの効率的な目的を提案するのに使われます。
我々のDynamics Stable Learning by Invariant Measure (DySLIM) の目的は、他の学習目標と比較して、より優れたポイントワイドトラッキングと長期統計精度を実現するモデルトレーニングを可能にすることである。
スケーラブルな正規化項で分布をターゲットとすることで、気候や気候モデルのようなゆっくりと変化する分布を示すより複雑なシステムにこのアプローチを拡張できることを期待する。
Learning dynamics from dissipative chaotic systems is notoriously difficult due to their inherent instability, as formalized by their positive Lyapunov exponents, which exponentially amplify errors in the learned dynamics. However, many of these systems exhibit ergodicity and an attractor: a compact and highly complex manifold, to which trajectories converge in finite-time, that supports an invariant measure, i.e., a probability distribution that is invariant under the action of the dynamics, which dictates the long-term statistical behavior of the system. In this work, we leverage this structure to propose a new framework that targets learning the invariant measure as well as the dynamics, in contrast with typical methods that only target the misfit between trajectories, which often leads to divergence as the trajectories' length increases. We use our framework to propose a tractable and sample efficient objective that can be used with any existing learning objectives. Our Dynamics Stable Learning by Invariant Measure (DySLIM) objective enables model training that achieves better point-wise tracking and long-term statistical accuracy relative to other learning objectives. By targeting the distribution with a scalable regularization term, we hope that this approach can be extended to more complex systems exhibiting slowly-variant distributions, such as weather and climate models. | 翻訳日:2024-06-07 23:50:27 公開日:2024-06-05 |
# Caduceus: 双方向等価長鎖DNA配列モデリング
Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling ( http://arxiv.org/abs/2403.03234v2 ) ライセンス: Link先を確認 | Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov, | (参考訳) 大規模シーケンスモデリングが急速に進歩し、生物学やゲノム工学に発展した。
しかし、ゲノム配列のモデリングは、長距離トークン相互作用のモデル化の必要性、ゲノムの上流領域と下流領域の影響、DNAの逆相補性(RC)といった課題をもたらす。
本稿では、長距離マンバブロックから構築したこれらの課題に動機づけられたアーキテクチャを提案し、それを双方向性をサポートするBiMambaコンポーネントに拡張し、さらにRC等分散をサポートするMambaDNAブロックに拡張する。
RC同種二方向長鎖DNA言語モデルの最初のファミリーであるCaduceusの基盤としてMambaDNAを用い,CaduceusのDNA基盤モデルを生成する事前学習および微調整戦略を導入する。
Caduceusは、ダウンストリームベンチマークで以前の長距離モデルよりも優れており、挑戦的な長距離変動効果予測タスクでは、双方向性や等分散を生かさない10倍の大きなモデルの性能を上回っている。
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance. | 翻訳日:2024-06-07 23:50:27 公開日:2024-06-05 |
# SU(3)離散部分群に対する原始量子ゲート:$Σ(36\times3)$
Primitive Quantum Gates for an SU(3) Discrete Subgroup: $Σ(36\times3)$ ( http://arxiv.org/abs/2405.05973v2 ) ライセンス: Link先を確認 | Erik J. Gustafson, Yao Ji, Henry Lamm, Edison M. Murairi, Shuchen Zhu, | (参考訳) 我々は、108要素の$\Sigma(36\times3)$群のデジタル量子シミュレーションのための原始ゲートセットを構築する。
量子シミュレーションのために$SU(3)$の非アーベル結晶のような部分群が構築されたのはこれが初めてである。
ゲージリンクレジスタと必要なプリミティブ -- 反転ゲート、グループ乗算ゲート、トレースゲート、および$\Sigma(36\times3)$ Fourier変換 -- は、8量子符号化と不均一3量子レジスタと2量子レジスタの両方に対して提示される。
後者では、任意のユニタリをこのアーキテクチャに分解する特別なコンパイラが開発された。
We construct the primitive gate set for the digital quantum simulation of the 108-element $\Sigma(36\times3)$ group. This is the first time a nonabelian crystal-like subgroup of $SU(3)$ has been constructed for quantum simulation. The gauge link registers and necessary primitives -- the inversion gate, the group multiplication gate, the trace gate, and the $\Sigma(36\times3)$ Fourier transform -- are presented for both an eight-qubit encoding and a heterogeneous three-qutrit plus two-qubit register. For the latter, a specialized compiler was developed for decomposing arbitrary unitaries onto this architecture. | 翻訳日:2024-06-07 23:50:27 公開日:2024-06-05 |
# 平均$n$-stepの返却は強化学習における変数を減らす
Averaging $n$-step Returns Reduces Variance in Reinforcement Learning ( http://arxiv.org/abs/2402.03903v2 ) ライセンス: Link先を確認 | Brett Daley, Martha White, Marlos C. Machado, | (参考訳) n$-step returnや$\lambda$-returnsといったマルチステップリターンは、強化学習(RL)メソッドのサンプル効率を改善するために一般的に使用される。
多段階学習の利点を逆転させ、未来に近づきすぎると、多段階学習の利点が逆転する。
我々の研究では、分散を減らすために複合戻り値 -- $n$-step の重み付き平均値 -- が示される。
与えられた$n$-stepの戻り値と同じ縮約係数を持つ任意の化合物が、厳密に分散を減少させることを初めて証明する。
さらに,この分散還元特性が線形関数近似の下での時間差学習の有限サンプル複雑性を向上させることを証明した。
一般化合物のリターンは実装に費用がかかるため,ミニバッチ経験再生を用いた場合であっても,効率を保ちながら分散を低減できる2ブートストラップリターンを導入する。
DQN や PPO のような深部RL 剤の試料効率が$n$-step である場合が多いことを示す実験を行った。
Multistep returns, such as $n$-step returns and $\lambda$-returns, are commonly used to improve the sample efficiency of reinforcement learning (RL) methods. The variance of the multistep returns becomes the limiting factor in their length; looking too far into the future increases variance and reverses the benefits of multistep learning. In our work, we demonstrate the ability of compound returns -- weighted averages of $n$-step returns -- to reduce variance. We prove for the first time that any compound return with the same contraction modulus as a given $n$-step return has strictly lower variance. We additionally prove that this variance-reduction property improves the finite-sample complexity of temporal-difference learning under linear function approximation. Because general compound returns can be expensive to implement, we introduce two-bootstrap returns which reduce variance while remaining efficient, even when using minibatched experience replay. We conduct experiments showing that compound returns often increase the sample efficiency of $n$-step deep RL agents like DQN and PPO. | 翻訳日:2024-06-07 23:40:31 公開日:2024-06-05 |
# 離散状態空間上の生成フロー:タンパク質共設計への応用によるマルチモーダルフローの実現
Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design ( http://arxiv.org/abs/2402.04997v2 ) ライセンス: Link先を確認 | Andrew Campbell, Jason Yim, Regina Barzilay, Tom Rainforth, Tommi Jaakkola, | (参考訳) 離散データと連続データを組み合わせることは、生成モデルにとって重要な能力である。
本稿では、離散データの新しいフローベースモデルである離散フローモデル(DFM)について述べる。
私たちの重要な洞察は、連続時間マルコフ連鎖を用いて連続空間フローマッチングの離散的等価性を実現できるということです。
DFMは、離散拡散モデルを特定のインスタンスとして含む単純な導出の恩恵を受けつつ、既存の拡散に基づくアプローチよりも優れた性能を実現している。
我々はDFM法を用いてマルチモーダルフローに基づくモデリングフレームワークを構築した。
この能力をタンパク質共設計のタスクに適用し、タンパク質の構造と配列を共同生成するモデルを学ぶ。
提案手法は,同じマルチモーダルモデルを用いてシーケンスや構造を柔軟に生成しながら,最先端の協調設計性能を実現する。
Combining discrete and continuous data is an important capability for generative models. We present Discrete Flow Models (DFMs), a new flow-based model of discrete data that provides the missing link in enabling flow-based generative models to be applied to multimodal continuous and discrete data problems. Our key insight is that the discrete equivalent of continuous space flow matching can be realized using Continuous Time Markov Chains. DFMs benefit from a simple derivation that includes discrete diffusion models as a specific instance while allowing improved performance over existing diffusion-based approaches. We utilize our DFMs method to build a multimodal flow-based modeling framework. We apply this capability to the task of protein co-design, wherein we learn a model for jointly generating protein structure and sequence. Our approach achieves state-of-the-art co-design performance while allowing the same multimodal model to be used for flexible generation of the sequence or structure. | 翻訳日:2024-06-07 23:40:31 公開日:2024-06-05 |
# ゼロショットエンドツーエンド音声翻訳の限界を押し上げる
Pushing the Limits of Zero-shot End-to-End Speech Translation ( http://arxiv.org/abs/2402.10422v2 ) ライセンス: Link先を確認 | Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà, | (参考訳) データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害であり、その性能を損なう。
従来の研究は、外部MTデータを活用することによるこれらの課題の軽減と、音声テキスト表現を近づける距離メトリクスの最適化を試みてきた。
しかし、競争結果を達成するには、通常いくつかのSTデータが必要である。
このため、ゼロショットSTの手法であるZeroSwotを導入し、ペアのSTデータを使わずにモダリティギャップをブリッジする。
新たなCTC圧縮と最適トランスポートを利用して、ASRデータのみを用いて音声エンコーダを訓練し、多言語MTモデルの表現空間と整合する。
音声エンコーダは、推論時にMTモデルとシームレスに統合され、MTモデルによってサポートされている全ての言語間で、音声からテキストへの直接変換を可能にする。
実験の結果,STデータを使わずに効率よくモダリティギャップを塞ぐことができることがわかったが,MuST-CとCoVoSTは従来のゼロショットモデルだけでなく,教師付きモデルよりも手法の優位性を実証し,最先端の結果を得ることができた。
Data scarcity and the modality gap between the speech and text modalities are two major obstacles of end-to-end Speech Translation (ST) systems, thus hindering their performance. Prior work has attempted to mitigate these challenges by leveraging external MT data and optimizing distance metrics that bring closer the speech-text representations. However, achieving competitive results typically requires some ST data. For this reason, we introduce ZeroSwot, a method for zero-shot ST that bridges the modality gap without any paired ST data. Leveraging a novel CTC compression and Optimal Transport, we train a speech encoder using only ASR data, to align with the representation space of a massively multilingual MT model. The speech encoder seamlessly integrates with the MT model at inference, enabling direct translation from speech to text, across all languages supported by the MT model. Our experiments show that we can effectively close the modality gap without ST data, while our results on MuST-C and CoVoST demonstrate our method's superiority over not only previous zero-shot models, but also supervised ones, achieving state-of-the-art results. | 翻訳日:2024-06-07 23:30:46 公開日:2024-06-05 |
# Llamasは英語で働くか?多言語トランスフォーマーの潜在言語について
Do Llamas Work in English? On the Latent Language of Multilingual Transformers ( http://arxiv.org/abs/2402.10588v3 ) ライセンス: Link先を確認 | Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West, | (参考訳) 我々は、言語モデルがどのように機能するか、言語バイアスの起源を理解する上で重要な問題である、英語を内部的なピボット言語として使用する、バランスの取れない英語支配のコーパスで訓練された多言語言語モデルかどうかを問う。
変換器モデルのLlama-2ファミリに着目し,一意に正しい単発連続性を持つ英語でないプロンプトを慎重に構築する。
層から層へ変換器は、最終プロンプトトークンの入力埋め込みを次の確率が計算される出力埋め込みに徐々にマッピングする。
中間埋め込みを高次元空間で追跡すると、(1)中間埋め込みは出力トークンの埋め込みから遠く離れたところから始まり、(2)既に中間層で意味論的に正しい次のトークンを復号できるが、そのバージョンが英語で入力言語よりも高い確率を与える。
これらの結果を「入力空間」と「概念空間」と「出力空間」の3つの相がそれぞれ動作する概念モデルにキャストした。
重要な証拠としては、抽象的な「概念空間」は他の言語よりも英語に近いことが示唆されており、多言語言語モデルが持つバイアスに関して重要な結果をもたらす可能性がある。
We ask whether multilingual language models trained on unbalanced, English-dominated corpora use English as an internal pivot language -- a question of key importance for understanding how language models function and the origins of linguistic bias. Focusing on the Llama-2 family of transformer models, our study uses carefully constructed non-English prompts with a unique correct single-token continuation. From layer to layer, transformers gradually map an input embedding of the final prompt token to an output embedding from which next-token probabilities are computed. Tracking intermediate embeddings through their high-dimensional space reveals three distinct phases, whereby intermediate embeddings (1) start far away from output token embeddings; (2) already allow for decoding a semantically correct next token in the middle layers, but give higher probability to its version in English than in the input language; (3) finally move into an input-language-specific region of the embedding space. We cast these results into a conceptual model where the three phases operate in "input space", "concept space", and "output space", respectively. Crucially, our evidence suggests that the abstract "concept space" lies closer to English than to other languages, which may have important consequences regarding the biases held by multilingual language models. | 翻訳日:2024-06-07 23:30:46 公開日:2024-06-05 |
# ソフトな自己整合性により言語モデルエージェントが改善
Soft Self-Consistency Improves Language Model Agents ( http://arxiv.org/abs/2402.13212v2 ) ライセンス: Link先を確認 | Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal, | (参考訳) 大規模言語モデル(LLM)の生成は、最終的な答えを選択するために複数のソリューションのサンプリングとスコアリングによって改善される。
自己整合性(SC)のような現在の「サンプルと選択」手法は、回答を得るために多数決に頼っている。
しかし、タスクが多くの明瞭で有効な答えを持っている場合、投票による選択には多数のサンプルが必要である。
これにより、SCは複数のアクション(回答)を逐次生成する対話的なタスクに対して、極めて高価になる。
このようなタスクに対して多数決が一貫した利得を得られないことを確立した後、スコアリング基準を軟化して成功率を高める方法を示す。
我々は,SCの不連続スコアをモデル確率から計算した連続スコアに置き換えるソフト自己整合性(SOFT-SC)を導入する。
SOFT-SCは長期の対話的タスクの性能と効率を向上し、SCと同等またはより良いパフォーマンスのために半分のサンプルを必要とする。
一定の数のサンプルに対して、SOFT-SCは、bashプログラムの絶対的な成功率でSCを1.3%上回り、オンラインショッピング(WebShop)では6.6%増、インタラクティブホームゲーム(ALFWorld)では4.7%増となる。
最後に,オープンソースモデルとブラックボックスモデルの両方に適用可能であることを示す。
Generations from large language models (LLMs) can be improved by sampling and scoring multiple solutions to select a final answer. Current "sample and select" methods such as self-consistency (SC) rely on majority voting to score answers. However, when tasks have many distinct and valid answers, selection by voting requires a large number of samples. This makes SC prohibitively expensive for interactive tasks that involve generating multiple actions (answers) sequentially. After establishing that majority voting fails to provide consistent gains on such tasks, we demonstrate how to increase success rates by softening the scoring criterion. We introduce Soft Self-Consistency (SOFT-SC), which replaces SC's discontinuous scoring with a continuous score computed from model likelihoods, allowing for selection even when actions are sparsely distributed. SOFT-SC improves both performance and efficiency on long-horizon interactive tasks, requiring half as many samples as SC for comparable or better performance. For a fixed number of samples, SOFT-SC leads to a 1.3% increase over SC in absolute success rate on writing bash programs, a 6.6% increase on online shopping (WebShop), and a 4.7% increase for an interactive household game (ALFWorld). Finally, we show that SOFT-SC can be applied to both open-source and black-box models. | 翻訳日:2024-06-07 21:22:40 公開日:2024-06-05 |
# 因果推論問題に対する言語モデルの最適化
Optimizing Language Models for Human Preferences is a Causal Inference Problem ( http://arxiv.org/abs/2402.14979v2 ) ライセンス: Link先を確認 | Victoria Lin, Eli Ben-Michael, Louis-Philippe Morency, | (参考訳) 大規模言語モデル(LLM)が学術的・商業的に広く使われるようになるにつれて、言語モデルが人間の好みに沿ったテキストを生成する方法への関心が高まっている。
本稿では,テキストと関連する数値結果からなる直接結果データセットから人選好の言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
本稿では,この因果的言語最適化問題を形式化し,その問題に対する非バイアスな代用目的を解決する手法-因果的選好最適化(CPO)を開発した。
さらにCPOを2倍に頑健なCPO(DR-CPO)で拡張し,サロゲート目標のばらつきを低減し,バイアスに対する強い保証を維持した。
最後に, DR-CPOの有効性を実証的に実証し, 困難条件下でのDR-CPOのロバスト性を検証した。
As large language models (LLMs) see greater use in academic and commercial settings, there is increasing interest in methods that allow language models to generate texts aligned with human preferences. In this paper, we present an initial exploration of language model optimization for human preferences from direct outcome datasets, where each sample consists of a text and an associated numerical outcome measuring the reader's response. We first propose that language model optimization should be viewed as a causal problem to ensure that the model correctly learns the relationship between the text and the outcome. We formalize this causal language optimization problem, and we develop a method--causal preference optimization (CPO)--that solves an unbiased surrogate objective for the problem. We further extend CPO with doubly robust CPO (DR-CPO), which reduces the variance of the surrogate objective while retaining provably strong guarantees on bias. Finally, we empirically demonstrate the effectiveness of (DR-)CPO in optimizing state-of-the-art LLMs for human preferences on direct outcome data, and we validate the robustness of DR-CPO under difficult confounding conditions. | 翻訳日:2024-06-07 21:12:20 公開日:2024-06-05 |
# SoK:フェデレーション・アンラーニングにおける課題と機会
SoK: Challenges and Opportunities in Federated Unlearning ( http://arxiv.org/abs/2403.02437v2 ) ライセンス: Link先を確認 | Hyejun Jeong, Shiqing Ma, Amir Houmansadr, | (参考訳) 2017年に導入されたフェデレートラーニング(FL)は、信頼できない当事者間の協調的な学習を促進する。
これにより、GDPRやCPRAといったプライバシー規制を尊重しながら、ユーザデータのトレーニングモデルが可能になる。
しかし、新たなプライバシ要件は、データ所有者や法執行機関から要求された場合、モデル所有者にいくつかの学習データ、例えば、emph{forget}を指定できるように委任する可能性がある。
これにより、"emph{machine unlearning}"と呼ばれる研究分野が誕生した。
FLの文脈では、集中的な環境での未学習のために開発された多くのテクニックは、簡単には適用できない。
これは、集中学習と分散学習、特に相互作用性、確率性、不均一性、FLにおける限定的なアクセシビリティの違いによるものである。
これに対し、最近の研究はFLに適した未学習メカニズムの開発に重点を置いている。
本論文は、この新興分野の研究動向と課題を特定することを目的として、emph{federated unlearning}文学を深く研究することを目的としている。
FLアンラーニング(2020年以降)で発表された論文を慎重に分類することで、フェデレートされたアンラーニングのユニークな複雑さを特定し、集中型アンラーニングメソッドを直接適用する際の制限を強調することを目指している。
我々は、影響の除去と性能回復に関する既存の非学習手法を比較し、脅威モデルと仮定を比較し、その意味と限界について議論する。
例えば、データの不均一性やシミュレーション、デモに使われるデータセット、評価指標など、さまざまな観点からFLアンラーニング研究の実験的なセットアップを分析する。
我々の研究は、将来のフェデレーション・アンラーニング研究のための洞察と提案を提供することを目的としている。
Federated learning (FL), introduced in 2017, facilitates collaborative learning between non-trusting parties with no need for the parties to explicitly share their data among themselves. This allows training models on user data while respecting privacy regulations such as GDPR and CPRA. However, emerging privacy requirements may mandate model owners to be able to \emph{forget} some learned data, e.g., when requested by data owners or law enforcement. This has given birth to an active field of research called \emph{machine unlearning}. In the context of FL, many techniques developed for unlearning in centralized settings are not trivially applicable! This is due to the unique differences between centralized and distributed learning, in particular, interactivity, stochasticity, heterogeneity, and limited accessibility in FL. In response, a recent line of work has focused on developing unlearning mechanisms tailored to FL. This SoK paper aims to take a deep look at the \emph{federated unlearning} literature, with the goal of identifying research trends and challenges in this emerging field. By carefully categorizing papers published on FL unlearning (since 2020), we aim to pinpoint the unique complexities of federated unlearning, highlighting limitations on directly applying centralized unlearning methods. We compare existing federated unlearning methods regarding influence removal and performance recovery, compare their threat models and assumptions, and discuss their implications and limitations. For instance, we analyze the experimental setup of FL unlearning studies from various perspectives, including data heterogeneity and its simulation, the datasets used for demonstration, and evaluation metrics. Our work aims to offer insights and suggestions for future research on federated unlearning. | 翻訳日:2024-06-07 21:02:35 公開日:2024-06-05 |
# DRAGIN:大規模言語モデルの情報要求に基づく動的検索拡張生成
DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models ( http://arxiv.org/abs/2403.10081v2 ) ライセンス: Link先を確認 | Weihang Su, Yichen Tang, Qingyao Ai, Zhijing Wu, Yiqun Liu, | (参考訳) 動的検索拡張生成(RAG)パラダイムは,Large Language Models(LLMs)のテキスト生成プロセスにおいて,いつ,何を検索するかを積極的に決定する。
このパラダイムには2つの重要な要素がある: 検索モジュールをアクティベートする最適なモーメントを識別する(検索するタイミングを決定する)ことと、検索が起動したら適切なクエリを作成する(検索する項目を決定する)ことである。
しかし、現在の動的RAGメソッドはどちらの面においても不足している。
まず、いつ取得するかを決める戦略は、しばしば静的なルールに依存します。
さらに、何を取得するかを決める戦略は、通常、LLMの最新の文や最後のいくつかのトークンに制限されるが、LLMのリアルタイム情報要求は、コンテキスト全体にまたがる可能性がある。
これらの制約を克服するために,LLMのリアルタイム情報要求に基づく動的検索拡張生成(DRAGIN)という新しいフレームワークを導入する。
本フレームワークは,テキスト生成プロセスにおいて,LLMのリアルタイム情報要求に基づいて,いつ,何を取得するかを決定するように設計されている。
DRAGINと既存の4つの知識集約型生成データセットを包括的に比較した。
実験の結果,DRAGINは全タスクにおいて優れた性能を示し,本手法の有効性を実証した。
https://github.com/oneal2000/DRAGIN/tree/main
Dynamic retrieval augmented generation (RAG) paradigm actively decides when and what to retrieve during the text generation process of Large Language Models (LLMs). There are two key elements of this paradigm: identifying the optimal moment to activate the retrieval module (deciding when to retrieve) and crafting the appropriate query once retrieval is triggered (determining what to retrieve). However, current dynamic RAG methods fall short in both aspects. Firstly, the strategies for deciding when to retrieve often rely on static rules. Moreover, the strategies for deciding what to retrieve typically limit themselves to the LLM's most recent sentence or the last few tokens, while the LLM's real-time information needs may span across the entire context. To overcome these limitations, we introduce a new framework, DRAGIN, i.e., Dynamic Retrieval Augmented Generation based on the real-time Information Needs of LLMs. Our framework is specifically designed to make decisions on when and what to retrieve based on the LLM's real-time information needs during the text generation process. We evaluate DRAGIN along with existing methods comprehensively over 4 knowledge-intensive generation datasets. Experimental results show that DRAGIN achieves superior performance on all tasks, demonstrating the effectiveness of our method. We have open-sourced all the code, data, and models in GitHub: https://github.com/oneal2000/DRAGIN/tree/main | 翻訳日:2024-06-07 20:52:38 公開日:2024-06-05 |
# VORTEX:リアルタイムオフチェーン支払いと暗号通貨のクロスチェーンスワップ
VORTEX: Real-Time Off-Chain Payments and Cross-Chain Swaps for Cryptocurrencies ( http://arxiv.org/abs/2403.15191v3 ) ライセンス: Link先を確認 | Di Wu, Jian Liu, Zhengwei Hou, Wu Wen, Kui Ren, | (参考訳) 本稿では、オフチェーン決済とクロスチェーンスワップの2つの重要な課題に対処する、TEEベースのレイヤ2ソリューションであるVERTEXを提案する。
チャンネルなしのオフチェーン支払い: オンチェーン関係や仲介チャネルを必要とせずに、誰にでも直接支払いができる。
- リアルタイムだが分散化されたクロスチェーンスワップ: 中央サーバに頼ることなく、リアルタイムのクロスチェーンスワップを可能にする、最初の既知のソリューションである。
この新機能は、画期的な公正な交換プロトコルによって実現されている。
TEEクラッシュ耐性(TEE crash-tolerance): TEEクラッシュを処理するための2つのソリューションを提供する。
我々は1000ノードからなるネットワーク上でECHOを評価し,その評価結果から,ECHOが7000TPSを達成することを示す。
In this paper, we present VERTEX, a TEE-based layer-2 solution that tackles two crucial challenges in the realm of cryptocurrencies: off-chain payments and cross-chain swaps. It offers three notable features: - Channel-free off-chain payments: it allows a payer to make direct payments to anyone without requiring any on-chain relationship or intermediary channels. - Real-time yet decentralized cross-chain swaps: it is the first known solution that enables real-time cross-chain swaps without relying on a central server. This novel feature is made possible through a ground-breaking fair exchange protocol. - TEE crash-tolerance: it offers two solutions to handle TEE crashes, one of which involves an innovative application of time-lock puzzles in this context. We evaluate ECHO on a network consists of 1000 nodes and the evaluation results show that ECHO can achieve 7000 TPS | 翻訳日:2024-06-07 20:52:38 公開日:2024-06-05 |
# 動的システムの高精度かつ効率的な予測のためのハイブリッド化と次世代貯留層計算
Hybridizing Traditional and Next-Generation Reservoir Computing to Accurately and Efficiently Forecast Dynamical Systems ( http://arxiv.org/abs/2403.18953v2 ) ライセンス: Link先を確認 | Ravi Chepuri, Dael Amzalag, Thomas Antonsen Jr., Michelle Girvan, | (参考訳) Reservoir Computer (RC) は時系列予測のための強力な機械学習アーキテクチャである。
近年,次世代貯水池コンピュータ (NGRC) が登場し,計算コストの削減やトレーニングデータ要求の低減など,RCに対して明確な優位性を提供している。
しかし、NGRCはデータのサンプリング時間や非線形性のタイプに敏感であるなど、実際的な困難がある。
本稿では,動的システムの時系列予測のためのハイブリッドRC-NGRC手法を提案する。
計算資源の制限,準最適ハイパーパラメータ,疎サンプリングされたトレーニングデータなどの制約により,我々のハイブリッドアプローチは,カオス力学系の長期統計を正確に予測し,RCとNGRCのみが不足している状況において捉えることができることを示す。
これらの条件下では, 小型貯水池を用いたハイブリッドRC-NGRC法は, 従来のRCよりもはるかに大きな貯水池に近づき, 従来のRCよりも計算効率が大きく向上し, 同時にNGRCの限界にも対処できることを示す。
計算効率が高く,NGRC単独では不十分な場合に,ハイブリッドRC-NGRCアプローチが特に有用である可能性が示唆された。
Reservoir computers (RCs) are powerful machine learning architectures for time series prediction. Recently, next generation reservoir computers (NGRCs) have been introduced, offering distinct advantages over RCs, such as reduced computational expense and lower training data requirements. However, NGRCs have their own practical difficulties, including sensitivity to sampling time and type of nonlinearities in the data. Here, we introduce a hybrid RC-NGRC approach for time series forecasting of dynamical systems. We show that our hybrid approach can produce accurate short term predictions and capture the long term statistics of chaotic dynamical systems in situations where the RC and NGRC components alone are insufficient, e.g., due to constraints from limited computational resources, sub-optimal hyperparameters, sparsely-sampled training data, etc. Under these conditions, we show for multiple model chaotic systems that the hybrid RC-NGRC method with a small reservoir can achieve prediction performance approaching that of a traditional RC with a much larger reservoir, illustrating that the hybrid approach can offer significant gains in computational efficiency over traditional RCs while simultaneously addressing some of the limitations of NGRCs. Our results suggest that hybrid RC-NGRC approach may be particularly beneficial in cases when computational efficiency is a high priority and an NGRC alone is not adequate. | 翻訳日:2024-06-07 20:42:53 公開日:2024-06-05 |
# TOD3Cap:屋外シーンでの3D映像撮影を目指す
TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes ( http://arxiv.org/abs/2403.19589v2 ) ライセンス: Link先を確認 | Bu Jin, Yupeng Zheng, Pengfei Li, Weize Li, Yuhang Zheng, Sujie Hu, Xinyu Liu, Jinwei Zhu, Zhijie Yan, Haiyang Sun, Kun Zhan, Peng Jia, Xiaoxiao Long, Yilun Chen, Hao Zhao, | (参考訳) 3D高密度キャプションは、自然言語による3Dシーンの包括的理解を実現するための基盤となる。
最近、特に屋内で顕著な成果をみせている。
しかし、屋外シーンにおける3次元高密度キャプションの探索は、2つの大きな課題によって妨げられている。
1) ダイナミックスや疎視的入力などの屋内と屋外のシーン間の領域ギャップは,既存の屋内手法を直接適用することが困難である。
2) アウトドアシーンに適した包括的ボックスキャプションペアアノテーションによるデータ不足。
そこで本研究では,屋外3次元高密度キャプションの新たな課題について紹介する。
入力として,パノラマカメラリグで撮影したLiDAR点雲とRGB画像のセットを仮定する。
期待される出力は、キャプション付きのオブジェクトボックスのセットです。
この課題に対処するために,BEV表現を利用してオブジェクトボックスの提案を生成し,リレーショナルQ-FormerとLLaMA-Adapterを統合するTOD3Capネットワークを提案する。
また、850シーンから64.3Kの屋外オブジェクトを2.3M記述したTOD3Capデータセットも導入した。
特に,私たちのTOD3Capネットワークは,屋外シーンにおける3Dオブジェクトのローカライズとキャプションを効果的に行うことができ,ベースライン手法の精度を著しく向上させる(+9.6 CiDEr@0.5IoU)。
コード、データ、モデルはhttps://github.com/jxbbb/TOD3Capで公開されている。
3D dense captioning stands as a cornerstone in achieving a comprehensive understanding of 3D scenes through natural language. It has recently witnessed remarkable achievements, particularly in indoor settings. However, the exploration of 3D dense captioning in outdoor scenes is hindered by two major challenges: 1) the domain gap between indoor and outdoor scenes, such as dynamics and sparse visual inputs, makes it difficult to directly adapt existing indoor methods; 2) the lack of data with comprehensive box-caption pair annotations specifically tailored for outdoor scenes. To this end, we introduce the new task of outdoor 3D dense captioning. As input, we assume a LiDAR point cloud and a set of RGB images captured by the panoramic camera rig. The expected output is a set of object boxes with captions. To tackle this task, we propose the TOD3Cap network, which leverages the BEV representation to generate object box proposals and integrates Relation Q-Former with LLaMA-Adapter to generate rich captions for these objects. We also introduce the TOD3Cap dataset, the largest one to our knowledge for 3D dense captioning in outdoor scenes, which contains 2.3M descriptions of 64.3K outdoor objects from 850 scenes. Notably, our TOD3Cap network can effectively localize and caption 3D objects in outdoor scenes, which outperforms baseline methods by a significant margin (+9.6 CiDEr@0.5IoU). Code, data, and models are publicly available at https://github.com/jxbbb/TOD3Cap. | 翻訳日:2024-06-07 20:42:53 公開日:2024-06-05 |
# LLM評価のロバスト性の評価とベンチマークの分布推定
Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks ( http://arxiv.org/abs/2404.16966v2 ) ライセンス: Link先を確認 | Melissa Ailem, Katerina Marazopoulou, Charlotte Siska, James Bono, | (参考訳) ベンチマークは、LLM(Large Language Models)を評価するための中心的なアプローチとして登場した。
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
これは一般的にはそうではありませんが、代わりに特定のユースケースによって関心の分布が異なります。
1) テストプロンプト間のモデル性能の相関は非ランダムであり,(2) テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更することができる。
Benchmarks have emerged as the central approach for evaluating Large Language Models (LLMs). The research community often relies on a model's average performance across the test prompts of a benchmark to evaluate the model's performance. This is consistent with the assumption that the test prompts within a benchmark represent a random sample from a real-world distribution of interest. We note that this is generally not the case; instead, we hold that the distribution of interest varies according to the specific use case. We find that (1) the correlation in model performance across test prompts is non-random, (2) accounting for correlations across test prompts can change model rankings on major benchmarks, (3) explanatory factors for these correlations include semantic similarity and common LLM failure points. | 翻訳日:2024-06-07 20:33:09 公開日:2024-06-05 |
# 人間と大言語モデルにおける創造的プロセスの特徴付け
Characterising the Creative Process in Humans and Large Language Models ( http://arxiv.org/abs/2405.00899v2 ) ライセンス: Link先を確認 | Surabhi S. Nath, Peter Dayan, Claire Stevenson, | (参考訳) 大きな言語モデルは非常に創造的で、創造的なタスクにおいて平均的な人間と同等に機能することが多い。
しかし, LLM の創造性の研究は, 創造性にはほとんど関心を持たず, 単に \textit{products} に焦点を絞っている。
人間の創造性に関するプロセス分析は、しばしば手書きのカテゴリや応答時間を利用する必要があるが、LLMには適用されない。
本稿では,人間とLLMが交互利用課題における意味空間を探索する方法と,言語周波数課題における行動とを対比する手法を提案する。
文埋め込みを用いて応答カテゴリを識別し、ジャンププロファイルを生成するために使用する意味的類似性を計算する。
我々の結果は、人間における初期の研究と相関し、永続性(意味空間の深部探索)とフレキシブル(複数の意味空間を横断する広部探索)の両方を創造性へと導いてくれる。
LLMは、タスクによって異なる永続性または柔軟なパスに偏りがあることが判明した。
人口としてのLSMは人間のプロファイルと一致するが、創造性との関係は異なる。
我々のデータセットとスクリプトは \href{https://github.com/surabhisnath/Creative_Process}{GitHub} で入手できる。
Large language models appear quite creative, often performing on par with the average human on creative tasks. However, research on LLM creativity has focused solely on \textit{products}, with little attention on the creative \textit{process}. Process analyses of human creativity often require hand-coded categories or exploit response times, which do not apply to LLMs. We provide an automated method to characterise how humans and LLMs explore semantic spaces on the Alternate Uses Task, and contrast with behaviour in a Verbal Fluency Task. We use sentence embeddings to identify response categories and compute semantic similarities, which we use to generate jump profiles. Our results corroborate earlier work in humans reporting both persistent (deep search in few semantic spaces) and flexible (broad search across multiple semantic spaces) pathways to creativity, where both pathways lead to similar creativity scores. LLMs were found to be biased towards either persistent or flexible paths, that varied across tasks. Though LLMs as a population match human profiles, their relationship with creativity is different, where the more flexible models score higher on creativity. Our dataset and scripts are available on \href{https://github.com/surabhisnath/Creative_Process}{GitHub}. | 翻訳日:2024-06-07 20:33:09 公開日:2024-06-05 |
# グラフニューラルネットワークの条件シフト・ロバスト整形予測
Conditional Shift-Robust Conformal Prediction for Graph Neural Network ( http://arxiv.org/abs/2405.11968v2 ) ライセンス: Link先を確認 | S. Akansha, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの結果を予測する強力なツールとして登場した。
有効性にもかかわらず、GNNの重大な欠点は、堅牢な不確実性推定を提供する能力が限られていることであり、エラーが重大な結果をもたらす状況において、信頼性に課題が生じる。
さらに、GNNは、トレーニングデータとテストデータが同一の分布に従えば、実際のグラフデータシナリオでは、しばしば無意味な条件となる。
本稿では,予測モデル出力を予測集合に変換することで不確かさを定量化するための,広く知られている統計手法であるコンフォメーション予測を利用して,条件シフト\footnote{Representing the change of Conditional probability distribution \(P(label|input)\) from source domain to target domain。
グラフベースの半教師あり学習(SSL)。
さらに,潜在段階における条件シフトを最小限に抑えて,モデル予測の精細化を目的とした新たな損失関数を提案する。
条件シフトロバスト (CondSR) によるGNNの共形予測は, モデルに依存しない, 様々な分類モデルに適用可能なアプローチである。
提案手法の有効性を標準グラフベンチマークデータセットで検証し,ノード分類タスクにおける最先端のGNNと統合する。
包括的評価により,提案手法は任意の目標限界範囲を連続的に達成し,条件付きシフト下での最先端GNNモデルの精度を最大12倍に向上し,予測セットサイズを最大48倍に削減することを示す。
コードの実装は、さらなる探索と実験のために公開されています。
Graph Neural Networks (GNNs) have emerged as potent tools for predicting outcomes in graph-structured data. Despite their efficacy, a significant drawback of GNNs lies in their limited ability to provide robust uncertainty estimates, posing challenges to their reliability in contexts where errors carry significant consequences. Moreover, GNNs typically excel in in-distribution settings, assuming that training and test data follow identical distributions a condition often unmet in real world graph data scenarios. In this article, we leverage conformal prediction, a widely recognized statistical technique for quantifying uncertainty by transforming predictive model outputs into prediction sets, to address uncertainty quantification in GNN predictions amidst conditional shift\footnote{Representing the change in conditional probability distribution \(P(label|input)\) from source domain to target domain.} in graph-based semi-supervised learning (SSL). Additionally, we propose a novel loss function aimed at refining model predictions by minimizing conditional shift in latent stages. Termed Conditional Shift Robust (CondSR) conformal prediction for GNNs, our approach CondSR is model-agnostic and adaptable to various classification models. We validate the effectiveness of our method on standard graph benchmark datasets, integrating it with state-of-the-art GNNs in node classification tasks. Comprehensive evaluations demonstrate that our approach consistently achieves any predefined target marginal coverage, enhances the accuracy of state of the art GNN models by up to 12\% under conditional shift, and reduces the prediction set size by up to 48\%. The code implementation is publicly available for further exploration and experimentation. | 翻訳日:2024-06-07 20:23:24 公開日:2024-06-05 |
# 複合現実感に向けたマルチモーダルファイングラインドトレーニングアシスタントのための自律ワークフロー
Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality ( http://arxiv.org/abs/2405.13034v2 ) ライセンス: Link先を確認 | Jiahuan Pei, Irene Viola, Haochen Huang, Junxiao Wang, Moonisa Ahsan, Fanghua Ye, Jiang Yiming, Yao Sai, Di Wang, Zhumin Chen, Pengjie Ren, Pablo Cesar, | (参考訳) 自律人工知能(AI)エージェントは、言語ベースの環境を自動的に理解するための有望なプロトコルとして、特に大規模言語モデル(LLM)の指数関数的開発とともに登場した。
しかし、マルチモーダル環境の詳細な包括的理解はいまだ未解明のままである。
この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。
パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。
具体的には、記憶、計画、XRツールとの相互作用をLLMと統合した脳言語エージェントと視覚言語エージェントを設計し、エージェントが過去の経験に基づいて行動を決定することを可能にする。
さらに,商業LLMによって提供されるワークフローで自動的に合成される多モーダルなアセンブリ・ダイアログ・データセットLEGO-MRTAを紹介する。
このデータセットは、マルチモーダルな指示マニュアル、会話、XR応答、視覚質問応答を含む。
最後に,提案したデータセットを微調整することなく,その性能を評価するため,複数のオープンソース LLM をベンチマークとして提示する。
我々は、このワークフローのより広範な影響が、XR環境におけるシームレスなユーザインタラクションのためのスマートアシスタントの開発を促進し、AIとHCIコミュニティの両方の研究を促進することを期待する。
Autonomous artificial intelligence (AI) agents have emerged as promising protocols for automatically understanding the language-based environment, particularly with the exponential development of large language models (LLMs). However, a fine-grained, comprehensive understanding of multimodal environments remains under-explored. This work designs an autonomous workflow tailored for integrating AI agents seamlessly into extended reality (XR) applications for fine-grained training. We present a demonstration of a multimodal fine-grained training assistant for LEGO brick assembly in a pilot XR environment. Specifically, we design a cerebral language agent that integrates LLM with memory, planning, and interaction with XR tools and a vision-language agent, enabling agents to decide their actions based on past experiences. Furthermore, we introduce LEGO-MRTA, a multimodal fine-grained assembly dialogue dataset synthesized automatically in the workflow served by a commercial LLM. This dataset comprises multimodal instruction manuals, conversations, XR responses, and vision question answering. Last, we present several prevailing open-resource LLMs as benchmarks, assessing their performance with and without fine-tuning on the proposed dataset. We anticipate that the broader impact of this workflow will advance the development of smarter assistants for seamless user interaction in XR environments, fostering research in both AI and HCI communities. | 翻訳日:2024-06-07 20:23:24 公開日:2024-06-05 |
# 説明可能な音声感情認識のための反復的特徴増強
Iterative Feature Boosting for Explainable Speech Emotion Recognition ( http://arxiv.org/abs/2405.20172v3 ) ライセンス: Link先を確認 | Alaa Nfissi, Wassim Bouachir, Nizar Bouguila, Brian Mishara, | (参考訳) 音声感情認識(SER)では、その実用的重要性を考慮せずに事前定義された特徴を用いることで、冗長で無関係な情報を含む高次元データセットが生成される可能性がある。
その結果、高次元学習はしばしば計算複雑性を増大させながらモデルの精度を低下させる。
本研究は,効率的なSERシステムを構築するために,特徴を慎重に検討し,分析することの重要性を浮き彫りにしている。
本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。
特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。
これは機能評価ループを通じて反復的に実行され、Shapley値を使用して機能選択を強化し、フレームワーク全体のパフォーマンスを改善する。
このアプローチによって、モデルパフォーマンスと透明性のメリットのバランスが取れます。
提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。
本論文のソースコードはhttps://github.com/alaaNfissi/Iterative-Feature-Boosting-for-Explainable-Speech-Emotion-Recognitionで公開されている。
In speech emotion recognition (SER), using predefined features without considering their practical importance may lead to high dimensional datasets, including redundant and irrelevant information. Consequently, high-dimensional learning often results in decreasing model accuracy while increasing computational complexity. Our work underlines the importance of carefully considering and analyzing features in order to build efficient SER systems. We present a new supervised SER method based on an efficient feature engineering approach. We pay particular attention to the explainability of results to evaluate feature relevance and refine feature sets. This is performed iteratively through feature evaluation loop, using Shapley values to boost feature selection and improve overall framework performance. Our approach allows thus to balance the benefits between model performance and transparency. The proposed method outperforms human-level performance (HLP) and state-of-the-art machine learning methods in emotion recognition on the TESS dataset. The source code of this paper is publicly available at https://github.com/alaaNfissi/Iterative-Feature-Boosting-for-Explainable-Speech-Emotion-Recognition. | 翻訳日:2024-06-07 20:03:47 公開日:2024-06-05 |
# 合理性を考慮したマルチモーダル・マルチエージェントシステム:サーベイ
Multi-Modal and Multi-Agent Systems Meet Rationality: A Survey ( http://arxiv.org/abs/2406.00252v2 ) ライセンス: Link先を確認 | Bowen Jiang, Yangxinyu Xie, Xiaomeng Wang, Weijie J. Su, Camillo J. Taylor, Tanwi Mallick, | (参考訳) 合理性(Rationality)とは、論理的な思考と、証拠や論理的な規則に沿った決定によって特徴づけられる、理性によって導かれる性質である。
この品質は、ソリューションが十分に確立され、体系的に導出されることを保証するため、効果的な問題解決に不可欠である。
大きな言語モデル(LLM)が顕著な精度で人間に似たテキストを生成するのに進歩しているにもかかわらず、トレーニングデータから継承されたバイアス、異なるコンテキスト間での不整合、複数のコンテキスト層を含む複雑なシナリオを理解するのが困難である。
したがって、近年の研究は、一貫性と信頼性を高めるために、様々な種類のデータやツールと協調して働く複数のエージェントの強度を活用しようとしている。
そこで本稿は,マルチモーダルシステムとマルチエージェントシステムが合理性に向かって進んでいるかを理解することを目的として,現状を調査し,合理性の観点から単モーダルシステムと単モーダルシステムの進歩を特定し,オープンな問題と今後の方向性について議論する。
https://github.com/bowen-upenn/MMMA_Rationality.comでオープンリポジトリをメンテナンスしています。
Rationality is the quality of being guided by reason, characterized by logical thinking and decision-making that align with evidence and logical rules. This quality is essential for effective problem-solving, as it ensures that solutions are well-founded and systematically derived. Despite the advancements of large language models (LLMs) in generating human-like text with remarkable accuracy, they present biases inherited from the training data, inconsistency across different contexts, and difficulty understanding complex scenarios involving multiple layers of context. Therefore, recent research attempts to leverage the strength of multiple agents working collaboratively with various types of data and tools for enhanced consistency and reliability. To that end, this paper aims to understand whether multi-modal and multi-agent systems are advancing toward rationality by surveying the state-of-the-art works, identifying advancements over single-agent and single-modal systems in terms of rationality, and discussing open problems and future directions. We maintain an open repository at https://github.com/bowen-upenn/MMMA_Rationality. | 翻訳日:2024-06-07 20:03:47 公開日:2024-06-05 |
# メル周波数ケプストラム係数を用いた心臓音の高次分類 : 単音・アンサンブル分類法の比較検討
Enhanced Classification of Heart Sounds Using Mel Frequency Cepstral Coefficients: A Comparative Study of Single and Ensemble Classifier Strategies ( http://arxiv.org/abs/2406.00702v2 ) ライセンス: Link先を確認 | Amir Masoud Rahmani, Amir Haider, Parisa Khoshvaght, Mohammad Adeli, Entesar Gemeay, Yazeed Alkhrijah, Mokhtar Mohammadi, Mehdi Hosseinzadeh, | (参考訳) 本稿では,Mel Frequency Cepstral Coefficients (MFCCs) の2つの分類法(単一分類法とアンサンブル分類法)を用いた異常心電図検出における有効性について検討する。
Phonocardiograms were segmented into S1, systole, S2, and diastole intervals, and 13 MFCCs estimated from each segment, by 52 MFCCs per beat。
単分類法では,9拍子のMFCCを平均化して心エコー図の分類を行った。
逆に、アンサンブル分類法は9つの分類法を用いて、ビートを正常または異常として個別に評価し、全体分類は多数決に基づいて行った。
どちらの方法も一般に公開されている心電図データベース上でテストされた。
その結果, 単一分類法よりも高い精度を達成し, MFCCを時間, 時間, 統計的特徴など他の特徴よりも有効とみなし, 同様の研究で評価した。
This paper explores the efficacy of Mel Frequency Cepstral Coefficients (MFCCs) in detecting abnormal phonocardiograms using two classification strategies: a single-classifier and an ensemble-classifier approach. Phonocardiograms were segmented into S1, systole, S2, and diastole intervals, with thirteen MFCCs estimated from each segment, yielding 52 MFCCs per beat. In the single-classifier strategy, the MFCCs from nine consecutive beats were averaged to classify phonocardiograms. Conversely, the ensemble-classifier strategy employed nine classifiers to individually assess beats as normal or abnormal, with the overall classification based on the majority vote. Both methods were tested on a publicly available phonocardiogram database. Results demonstrated that the ensemble-classifier strategy achieved higher accuracy compared to the single-classifier approach, establishing MFCCs as more effective than other features, including time, time-frequency, and statistical features, evaluated in similar studies. | 翻訳日:2024-06-07 19:54:03 公開日:2024-06-05 |
# ロバストセグメンテーションのための感度インフォームメント
Sensitivity-Informed Augmentation for Robust Segmentation ( http://arxiv.org/abs/2406.01425v3 ) ライセンス: Link先を確認 | Laura Zheng, Wenjie Wei, Tony Wu, Jacob Clements, Shreelekha Revankar, Andre Harrison, Yu Shen, Ming C. Lin, | (参考訳) セグメンテーションは、仮想トライオン、医療画像、自律運転、農業自動化など、多くのビジュアルコンピューティングアプリケーションにおいて不可欠なモジュールである。
これらのアプリケーションは、一般的な携帯電話や高価な衛星画像カメラからでも、視覚センサーのデータの品質を劣化させることのできる、広範な消費者利用または高度に変動した環境を含むことが多い。
ユーザ差や天候条件などの外部ノイズに加えて、カメラ品質の変動やレンズ歪みなどの内部ノイズは、開発と展開の両方においてセグメンテーションモデルの性能に影響を与える可能性がある。
本研究では,学習ベースセグメンテーションモデルの堅牢性を高めるための,効率的で適応性が高く,勾配のない手法を提案する。
まず,Kernel Inception Distance (KID) を用いた新しい適応感度解析手法を提案する。
次に、適応SAとサンプル摂動ハイパーパラメータ値を用いて感度曲線をモデル化する。
最後に、選択した摂動値を用いて対人訓練を行い、オンライントレーニング中のロバスト性を動的に再評価する。
我々の手法は最小限の微調整でエンドツーエンドに実装され、セグメンテーションのための最先端データ拡張技術より一貫して優れている。
これは、ビジュアルコンピューティングやコンピュータグラフィックスアプリケーションで使用される様々なセグメンテーションデータセットに対して、クリーンなデータ評価と現実の悪質なシナリオ評価の両方において、大幅な改善を示す。
Segmentation is an integral module in many visual computing applications such as virtual try-on, medical imaging, autonomous driving, and agricultural automation. These applications often involve either widespread consumer use or highly variable environments, both of which can degrade the quality of visual sensor data, whether from a common mobile phone or an expensive satellite imaging camera. In addition to external noises like user difference or weather conditions, internal noises such as variations in camera quality or lens distortion can affect the performance of segmentation models during both development and deployment. In this work, we present an efficient, adaptable, and gradient-free method to enhance the robustness of learning-based segmentation models across training. First, we introduce a novel adaptive sensitivity analysis (ASA) using Kernel Inception Distance (KID) on basis perturbations to benchmark perturbation sensitivity of pre-trained segmentation models. Then, we model the sensitivity curve using the adaptive SA and sample perturbation hyperparameter values accordingly. Finally, we conduct adversarial training with the selected perturbation values and dynamically re-evaluate robustness during online training. Our method, implemented end-to-end with minimal fine-tuning required, consistently outperforms state-of-the-art data augmentation techniques for segmentation. It shows significant improvement in both clean data evaluation and real-world adverse scenario evaluation across various segmentation datasets used in visual computing and computer graphics applications. | 翻訳日:2024-06-07 19:54:03 公開日:2024-06-05 |
# Qラーニングにおける連続状態行動空間の識別方法--シンボリック・コントロール・アプローチ
How to discretize continuous state-action spaces in Q-learning: A symbolic control approach ( http://arxiv.org/abs/2406.01548v3 ) ライセンス: Link先を確認 | Sadek Belamfedel Alaoui, Adnane Saoud, | (参考訳) Q-ラーニングは、特定の目標を達成するためにコントローラを合成する効果的なアプローチとして広く認識されている。
しかし、継続的な状態-作用空間によって引き起こされる課題への対処は現在も研究の焦点となっている。
本稿では,空間離散化法における大きな欠点を浮き彫りにした系統解析について述べる。
この課題に対処するため,本論文では,抽象から制御システムへのシミュレーションの交互化など,行動関係を表現するシンボリックモデルを提案する。
この関係により、オリジナルのシステムへの抽象化に基づいて、合成されたコントローラをシームレスに適用することができる。
シンボリックモデルのための新しいQ-ラーニング手法を導入し、最適なポリシーを符号化する2つのQ-テーブルを生成する。
理論解析により、これらのQ-テーブルは、連続空間を持つ元の系のQ-値の上界と下界の両方として機能することを示した。
さらに,空間抽象のパラメータとQ値の損失との相関について検討した。
このアルゴリズムは任意の精度で最適性を達成し、精度と計算複雑性の間のトレードオフを制御する。
得られた結果は、適切な学習パラメータを選択し、コントローラを洗練するための貴重な洞察を提供する。
提案したQ-ラーニングに基づく記号モデルの工学的妥当性を2つのケーススタディで示す。
Q-learning is widely recognized as an effective approach for synthesizing controllers to achieve specific goals. However, handling challenges posed by continuous state-action spaces remains an ongoing research focus. This paper presents a systematic analysis that highlights a major drawback in space discretization methods. To address this challenge, the paper proposes a symbolic model that represents behavioral relations, such as alternating simulation from abstraction to the controlled system. This relation allows for seamless application of the synthesized controller based on abstraction to the original system. Introducing a novel Q-learning technique for symbolic models, the algorithm yields two Q-tables encoding optimal policies. Theoretical analysis demonstrates that these Q-tables serve as both upper and lower bounds on the Q-values of the original system with continuous spaces. Additionally, the paper explores the correlation between the parameters of the space abstraction and the loss in Q-values. The resulting algorithm facilitates achieving optimality within an arbitrary accuracy, providing control over the trade-off between accuracy and computational complexity. The obtained results provide valuable insights for selecting appropriate learning parameters and refining the controller. The engineering relevance of the proposed Q-learning based symbolic model is illustrated through two case studies. | 翻訳日:2024-06-07 19:54:03 公開日:2024-06-05 |
# 隠れた要因を明らかにする: 音声感情認識における特徴増強のための説明可能なAI
Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition ( http://arxiv.org/abs/2406.01624v2 ) ライセンス: Link先を確認 | Alaa Nfissi, Wassim Bouachir, Nizar Bouguila, Brian Mishara, | (参考訳) 音声感情認識(SER)は、メンタルヘルス、教育、人間とコンピュータの相互作用など、いくつかの応用分野から注目されている。
しかし、SERシステムの精度は、無関係かつ冗長な情報を含む可能性のある高次元特徴集合によって妨げられる。
そこで本研究では,機械学習モデルの性能向上のための機能関連性や説明可能性を重視した,SERの反復的機能強化手法を提案する。
我々のアプローチは、効率的なSERシステムを構築するための細心の注意を要する特徴の選択と分析である。
モデル説明可能性による主要な問題に対処するために、Shapley値を持つ機能評価ループを用いて、反復的に機能セットを洗練します。
このプロセスはモデルの性能と透明性のバランスをとっており、モデルの予測を包括的に理解することができる。
提案手法は、無関係で冗長な特徴の識別や削除など、いくつかの利点を提供し、より効果的なモデルをもたらす。
さらに、説明可能性を促進し、モデルの予測の理解を促進し、感情決定の重要な特徴を識別する。
提案手法の有効性はトロントの感情音声セット(TESS)、ベルリンの感情音声データベース(EMO-DB)、Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)、およびSurrey Audio-Visual Expressed Emotion(SAVEE)データセットのSERベンチマークで検証され、最先端の手法よりも優れている。
私たちの知る限りでは、SERフレームワークにモデル説明可能性を導入するのはこれが初めてです。
本論文のソースコードは、https://github.com/alaaNfissi/Unveiling-Hidden-Factors-Explainable-AI-for-Feature-Boosting-in-Speech -Emotion-Recognitionを通じて公開されている。
Speech emotion recognition (SER) has gained significant attention due to its several application fields, such as mental health, education, and human-computer interaction. However, the accuracy of SER systems is hindered by high-dimensional feature sets that may contain irrelevant and redundant information. To overcome this challenge, this study proposes an iterative feature boosting approach for SER that emphasizes feature relevance and explainability to enhance machine learning model performance. Our approach involves meticulous feature selection and analysis to build efficient SER systems. In addressing our main problem through model explainability, we employ a feature evaluation loop with Shapley values to iteratively refine feature sets. This process strikes a balance between model performance and transparency, which enables a comprehensive understanding of the model's predictions. The proposed approach offers several advantages, including the identification and removal of irrelevant and redundant features, leading to a more effective model. Additionally, it promotes explainability, facilitating comprehension of the model's predictions and the identification of crucial features for emotion determination. The effectiveness of the proposed method is validated on the SER benchmarks of the Toronto emotional speech set (TESS), Berlin Database of Emotional Speech (EMO-DB), Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS), and Surrey Audio-Visual Expressed Emotion (SAVEE) datasets, outperforming state-of-the-art methods. To the best of our knowledge, this is the first work to incorporate model explainability into an SER framework. The source code of this paper is publicly available via this https://github.com/alaaNfissi/Unveiling-Hidden-Factors-Explainable-AI-for-Feature-Boosting-in-Speech -Emotion-Recognition. | 翻訳日:2024-06-07 19:54:03 公開日:2024-06-05 |
# ECHOで高速でタイムリーに暗号化されたトラフィック分類
Non-uniformity is All You Need: Efficient and Timely Encrypted Traffic Classification With ECHO ( http://arxiv.org/abs/2406.01852v2 ) ライセンス: Link先を確認 | Shilo Daum, Tal Shapira, Anat Bremler-Barr, David Hay, | (参考訳) インターネットトラフィックの95%が暗号化されているため、このトラフィックを分類するための効果的なアプローチは、ネットワークのセキュリティと管理にとって不可欠である。
本稿では,ML/DLベースの暗号化トラフィック分類のための新しい最適化プロセスであるECHOを紹介する。
ECHOは、分類時間とメモリ利用の両方を目標とし、2つの革新的なテクニックを取り入れている。
最初のコンポーネントであるHO(Hyperparameter Optimization of binnings)は、効率的なトラフィック表現を作ることを目的としている。
従来の研究では,パケットサイズやパケット到着時刻を固定サイズのビンにマッピングする表現を用いていた。
これらの不均一な双対は、トレーニング段階でハイパーパラメータ最適化アルゴリズムを用いて導出される。
HOは必要な表現サイズに応じて精度を著しく向上させるか、または同等に、より小さな表現を用いて同等の精度を達成する。
次に,EC(Early Classification of traffic)を導入し,信頼度に基づいて,異なる終了時間に適応した分類器のカスケードを用いて,より高速な分類を可能にする。
ECは、平均分類遅延を最大90%削減する。
注目すべきは、この手法が分類精度を維持するだけでなく、場合によってはその精度を向上させることである。
3つの公開データセットを用いて、組み合わせた手法であるEarly Classification with Hyperparameter Optimization (ECHO)が、分類効率を大幅に向上させることを示した。
With 95% of Internet traffic now encrypted, an effective approach to classifying this traffic is crucial for network security and management. This paper introduces ECHO -- a novel optimization process for ML/DL-based encrypted traffic classification. ECHO targets both classification time and memory utilization and incorporates two innovative techniques. The first component, HO (Hyperparameter Optimization of binnings), aims at creating efficient traffic representations. While previous research often uses representations that map packet sizes and packet arrival times to fixed-sized bins, we show that non-uniform binnings are significantly more efficient. These non-uniform binnings are derived by employing a hyperparameter optimization algorithm in the training stage. HO significantly improves accuracy given a required representation size, or, equivalently, achieves comparable accuracy using smaller representations. Then, we introduce EC (Early Classification of traffic), which enables faster classification using a cascade of classifiers adapted for different exit times, where classification is based on the level of confidence. EC reduces the average classification latency by up to 90\%. Remarkably, this method not only maintains classification accuracy but also, in certain cases, improves it. Using three publicly available datasets, we demonstrate that the combined method, Early Classification with Hyperparameter Optimization (ECHO), leads to a significant improvement in classification efficiency. | 翻訳日:2024-06-07 19:54:03 公開日:2024-06-05 |
# コア毎のクリッピングによる低メモリ化と性能向上を効果的に訓練するASRモデル
Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping ( http://arxiv.org/abs/2406.02004v2 ) ライセンス: Link先を確認 | Lun Wang, Om Thakkar, Zhong Meng, Nicole Rafidi, Rohit Prabhavalkar, Arun Narayanan, | (参考訳) グラディエント・クリッピングは、大規模自動音声認識(ASR)モデルの訓練において重要な役割を果たす。
一般的には、勾配の爆発を防ぐためのミニバッチ勾配や、意図しない暗記を緩和するために個々のサンプル勾配に適用される。
この研究は、幅広いASRモデルのトレーニングにおいて、勾配クリッピングの特定の粒度、すなわちコアごとのクリッピング(PCC)の影響を体系的に調査する。
我々は,PCCがASRモデルにおける意図しない記憶を効果的に緩和できることを実証的に実証した。
驚くべきことに、PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の低減につながっている。
さらに,PCCが導入したハイパーパラメータの調整を避けるため,並列化最適化のための新しい変種アダプティブ・パー・コア・クリッピング(APCC)を提案する。
本研究は,PCCの多面的メリットを,堅牢でプライバシ・フォワードなASRモデルトレーニングの戦略として強調した。
Gradient clipping plays a vital role in training large-scale automatic speech recognition (ASR) models. It is typically applied to minibatch gradients to prevent gradient explosion, and to the individual sample gradients to mitigate unintended memorization. This work systematically investigates the impact of a specific granularity of gradient clipping, namely per-core clip-ping (PCC), across training a wide range of ASR models. We empirically demonstrate that PCC can effectively mitigate unintended memorization in ASR models. Surprisingly, we find that PCC positively influences ASR performance metrics, leading to improved convergence rates and reduced word error rates. To avoid tuning the additional hyperparameter introduced by PCC, we further propose a novel variant, adaptive per-core clipping (APCC), for streamlined optimization. Our findings highlight the multifaceted benefits of PCC as a strategy for robust, privacy-forward ASR model training. | 翻訳日:2024-06-07 19:44:18 公開日:2024-06-05 |
# Alice in Wonderland: State-Of-the-Art Large Language Modelにおける完全推論のブレークダウンを示す単純なタスク
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models ( http://arxiv.org/abs/2406.02061v2 ) ライセンス: Link先を確認 | Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev, | (参考訳) 大規模言語モデル(LLM)は、しばしば基礎モデルの例として記述される。すなわち、様々なタスクや状況に対して、ほとんどショーやゼロショットの方法で強く移行するモデルであると同時に、事前トレーニングスケールを拡大する際の関数改善を予測するスケーリング法則を示す。
これらの異なる機能やタスクが優れているという主張は、そのようなモデルに対して高いスコアを示す標準化されたベンチマークの様々なセットにまたがる測定に依存する。
ここでは,人間によって容易に解ける簡潔で簡潔な自然言語で定式化された従来の共通感覚問題を用いて,強機能を主張する最大規模で訓練された最先端モデルの機能と推論能力の劇的な分解を実演する。
モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明は、明らかに失敗した応答の妥当性を正当化し、バックアップすることに似ている。
正しいソリューションを得るための様々な標準的な介入、例えば、様々な種類の強化プロンプト、あるいは、複数のステップの再評価によって間違ったソリューションを再考するようモデルに促す、といったことは失敗します。
これらの最初の観察は、科学・技術界に、現在のLLMの主張する能力の緊急な再評価を刺激するものであり、このような再評価は、現在の最先端の評価手順やベンチマークによって明らかに発見されないような基本的な理由づけ欠陥を適切に検出できるような、標準化されたベンチマークを作成するための共通の行動も必要である。
論文における実験の再現コードと生の実験データはhttps://github.com/LAION-AI/AIWで見ることができる。
Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models also express strong overconfidence in their wrong solutions, while providing often non-sensical "reasoning"-like explanations akin to confabulations to justify and backup the validity of their clearly failed responses, making them sound plausible. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs, Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW | 翻訳日:2024-06-07 19:44:18 公開日:2024-06-05 |
# ハウサ語、ヨルバ語、イグボ語に対する攻撃言語とヘイトスピーチ検出のための多言語データセット
A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages ( http://arxiv.org/abs/2406.02169v2 ) ライセンス: Link先を確認 | Saminu Mohammad Aliyu, Gregory Maksha Wajiga, Muhammad Murtala, | (参考訳) オンライン攻撃言語の普及は、特に多言語文脈において、効果的な検出メカニズムの開発を必要とする。
本研究は,ナイジェリアの主要言語であるHausa,Yoruba,Igboの3言語において,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。
私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。
トレーニング済みの言語モデルを用いて、データセットにおける攻撃言語の検出の有効性を評価した。
最高の性能モデルは90%の精度を達成した。
攻撃的言語検出の研究をさらに支援するため、データセットとモデルを一般公開する計画である。
The proliferation of online offensive language necessitates the development of effective detection mechanisms, especially in multilingual contexts. This study addresses the challenge by developing and introducing novel datasets for offensive language detection in three major Nigerian languages: Hausa, Yoruba, and Igbo. We collected data from Twitter and manually annotated it to create datasets for each of the three languages, using native speakers. We used pre-trained language models to evaluate their efficacy in detecting offensive language in our datasets. The best-performing model achieved an accuracy of 90\%. To further support research in offensive language detection, we plan to make the dataset and our models publicly available. | 翻訳日:2024-06-07 19:44:18 公開日:2024-06-05 |
# Flash拡散: 画像生成のための条件付き拡散モデルを高速化する
Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation ( http://arxiv.org/abs/2406.02347v2 ) ライセンス: Link先を確認 | Clement Chadebec, Onur Tasar, Eyal Benaroche, Benjamin Aubin, | (参考訳) 本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。
このメソッドは、COCO2014とCOCO2017データセット上でイメージ生成を行ういくつかのステップにおいて、FIDとCLIP-Scoreの面で最先端のパフォーマンスに達する。
その効率性に加えて、この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$\alpha$)、アダプタなどの異なるバックボーンの使用など、いくつかのタスクにまたがる。
いずれの場合も、非常に高品質な画像生成を維持しながら、サンプリングステップの数を劇的に削減することができる。
公式実装はhttps://github.com/gojasper/flash-diffusion.comで公開されている。
In this paper, we propose an efficient, fast, and versatile distillation method to accelerate the generation of pre-trained diffusion models: Flash Diffusion. The method reaches state-of-the-art performances in terms of FID and CLIP-Score for few steps image generation on the COCO2014 and COCO2017 datasets, while requiring only several GPU hours of training and fewer trainable parameters than existing methods. In addition to its efficiency, the versatility of the method is also exposed across several tasks such as text-to-image, inpainting, face-swapping, super-resolution and using different backbones such as UNet-based denoisers (SD1.5, SDXL) or DiT (Pixart-$\alpha$), as well as adapters. In all cases, the method allowed to reduce drastically the number of sampling steps while maintaining very high-quality image generation. The official implementation is available at https://github.com/gojasper/flash-diffusion. | 翻訳日:2024-06-07 19:44:18 公開日:2024-06-05 |
# Llumnix: 大規模言語モデルの実行のための動的スケジューリング
Llumnix: Dynamic Scheduling for Large Language Model Serving ( http://arxiv.org/abs/2406.03243v1 ) ライセンス: Link先を確認 | Biao Sun, Ziming Huang, Hanyu Zhao, Wencong Xiao, Xinyi Zhang, Yong Li, Wei Lin, | (参考訳) 大規模言語モデル(LLM)に対する推論は、人々の日常生活における潜在能力を解放する鍵となる。
しかし、リソース要件やレイテンシ要件の点で要求が本質的に不均一で予測できないため、多様なアプリケーションとLLMの動的実行特性の結果として、効率的なLLM提供は依然として困難である。
既存のシステムは、これらの特性を扱うのに基本的に制限されており、厳しいキューの遅延、尾の遅延の低さ、SLO違反などの問題を引き起こす。
Llumnixは、複数のモデルインスタンスにまたがる実行時再スケジューリングによって、不均一で予測不能な要求に応答するLLMサービスシステムである。
現代のオペレーティングシステムのCPUコア間のコンテキストスイッチと同様に、Llumnixはリクエストを再スケジュールし、ロードバランシングとアイソレーションを改善し、リソースのフラグメンテーションを緩和し、リクエスト優先順位とSLOを区別する。
Llumnixは、リクエストとそのインメモリ状態に対する効率的でスケーラブルなライブマイグレーションメカニズムでリスケジュールを実装し、複数のリスケジュールシナリオをエレガントに統一する動的スケジューリングポリシでそれを活用している。
評価の結果,Llumnixはテールレイテンシを桁違いに改善し,高優先度要求を最大1.5倍高速化し,類似のテールレイテンシを実現しつつ36%のコスト削減を実現した。
Llumnixはhttps://github.com/AlibabaPAI/llumnixで公開されている。
Inference serving for large language models (LLMs) is the key to unleashing their potential in people's daily lives. However, efficient LLM serving remains challenging today because the requests are inherently heterogeneous and unpredictable in terms of resource and latency requirements, as a result of the diverse applications and the dynamic execution nature of LLMs. Existing systems are fundamentally limited in handling these characteristics and cause problems such as severe queuing delays, poor tail latencies, and SLO violations. We introduce Llumnix, an LLM serving system that reacts to such heterogeneous and unpredictable requests by runtime rescheduling across multiple model instances. Similar to context switching across CPU cores in modern operating systems, Llumnix reschedules requests to improve load balancing and isolation, mitigate resource fragmentation, and differentiate request priorities and SLOs. Llumnix implements the rescheduling with an efficient and scalable live migration mechanism for requests and their in-memory states, and exploits it in a dynamic scheduling policy that unifies the multiple rescheduling scenarios elegantly. Our evaluations show that Llumnix improves tail latencies by an order of magnitude, accelerates high-priority requests by up to 1.5x, and delivers up to 36% cost savings while achieving similar tail latencies, compared against state-of-the-art LLM serving systems. Llumnix is publicly available at https://github.com/AlibabaPAI/llumnix. | 翻訳日:2024-06-07 19:34:24 公開日:2024-06-05 |
# スワップゲートによる大域フェルミオンモード最適化
Global fermionic mode optimization via swap gates ( http://arxiv.org/abs/2406.03449v1 ) ライセンス: Link先を確認 | Gero Friesecke, Miklós Antal Werner, Kornél Kapás, Andor Menczer, Örs Legeza, | (参考訳) 本稿では,大域フェルミオンモード最適化を用いて,与えられた誤差マージンに対する量子多体波関数の最適表現を求めるための一般的な手法を提案する。
固定階数行列積状態多様体上の定常点は、グラスマン多様体 [Phys. Rev. Lett. 117, 210402] 上の合同最適化とスワップゲート制御置換によって得られる。
大域量の最小化、ブロックエントロピー領域は、この方法が偏微分に関して全ての基準を満たすことを保証している。
強相関分子系の大規模密度行列再正規化群シミュレーションと二次元フェルミオン格子モデルによる数値計算結果について述べる。
We propose a general approach to find an optimal representation of a quantum many body wave function for a given error margin via global fermionic mode optimization. The stationary point on a fixed rank matrix product state manifold is obtained via a joint optimization on the Grassman manifold [Phys. Rev. Lett. 117, 210402] together with swap gates controlled permutations. The minimization of the global quantity, the block entropy area, guarantees that the method fulfills all criteria with respect to partial derivatives. Numerical results via large scale density matrix renormalization group simulations on strongly correlated molecular systems and two-dimensional fermionic lattice models are discussed. | 翻訳日:2024-06-07 19:34:24 公開日:2024-06-05 |
# 多次元・不均衡データセットに対するロバスト予測モデル
Robust Prediction Model for Multidimensional and Unbalanced Datasets ( http://arxiv.org/abs/2406.03507v1 ) ライセンス: Link先を確認 | Pooja Thakar, Anil Mehta, Manisha, | (参考訳) データマイニングは有望な分野であり、予測能力のために複数のドメインに適用されている。
実世界のデータは、多次元性、不均衡、欠落した値の問題に悩まされるため、データマイニングに簡単には利用できない。
初心者による予測能力の使用は困難である。
初心者は、利用可能な大量のデータから関連する属性のセットを見つけることは困難である。
本稿では,ロバスト予測モデルを用いて属性の集合を見つけ,不均衡な実生活データセットと多次元実生活データセットの問題を解き,情報的意思決定のためのパターンの発見を支援する。
モデルは、健康分野、教育、ビジネス、詐欺検出の5つの異なるデータセットでテストされる。
その結果、モデルが頑健に動作し、様々な領域で適用可能であることが示された。
Data Mining is a promising field and is applied in multiple domains for its predictive capabilities. Data in the real world cannot be readily used for data mining as it suffers from the problems of multidimensionality, unbalance and missing values. It is difficult to use its predictive capabilities by novice users. It is difficult for a beginner to find the relevant set of attributes from a large pool of data available. The paper presents a Robust Prediction Model that finds a relevant set of attributes; resolves the problems of unbalanced and multidimensional real-life datasets and helps in finding patterns for informed decision making. Model is tested upon five different datasets in the domain of Health Sector, Education, Business and Fraud Detection. The results showcase the robust behaviour of the model and its applicability in various domains. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 事前訓練エンコーダのバックドア緩和に関する相互情報案内
Mutual Information Guided Backdoor Mitigation for Pre-trained Encoders ( http://arxiv.org/abs/2406.03508v1 ) ライセンス: Link先を確認 | Tingxu Han, Weisong Sun, Ziqi Ding, Chunrong Fang, Hanwei Qian, Jiaxun Li, Zhenyu Chen, Xiangyu Zhang, | (参考訳) ラベル付きデータを必要としないエンコーダの事前トレーニングには,自己教師付き学習(SSL)がますます魅力的なものになっている。
これらのトレーニング済みエンコーダ上に構築された下流タスクは、ほぼ最先端のパフォーマンスを達成することができる。
しかし、SSLによる事前訓練されたエンコーダは、既存の研究で示されているように、バックドア攻撃に対して脆弱である。
下流タスクモデルのために多くのバックドア緩和技術が設計されている。
しかし,事前学習時のラベル情報の欠如により,事前学習エンコーダに適用した場合,その有効性は損なわれ,制限される。
本稿では,事前訓練したエンコーダに対するバックドア攻撃に対処するため,MIMICという相互誘導型バックドア緩和手法を提案する。
MIMICは、潜在的なバックドアエンコーダを教師ネットとして扱い、知識蒸留を用いて教師ネットからクリーンな学生エンコーダを蒸留する。
既存の知識蒸留のアプローチとは異なり、MIMICは学生を無作為な体重で初期化し、教師のネットからバックドアを継承しない。
そして、MIMICは各層間の相互情報と抽出した特徴を利用して、教師ネット内の良識の所在を特定する。
蒸留損失は, クローン損失と注意損失の2つの側面から発生し, バックドアを緩和し, エンコーダ性能を同時に維持することを目的としている。
SSLにおける2つのバックドア攻撃による評価の結果,MIMIC はクリーンデータの 5% しか利用せず,最先端のバックドア緩和技術7 を超越して攻撃成功率を大幅に低減できることが示された。
Self-supervised learning (SSL) is increasingly attractive for pre-training encoders without requiring labeled data. Downstream tasks built on top of those pre-trained encoders can achieve nearly state-of-the-art performance. The pre-trained encoders by SSL, however, are vulnerable to backdoor attacks as demonstrated by existing studies. Numerous backdoor mitigation techniques are designed for downstream task models. However, their effectiveness is impaired and limited when adapted to pre-trained encoders, due to the lack of label information when pre-training. To address backdoor attacks against pre-trained encoders, in this paper, we innovatively propose a mutual information guided backdoor mitigation technique, named MIMIC. MIMIC treats the potentially backdoored encoder as the teacher net and employs knowledge distillation to distill a clean student encoder from the teacher net. Different from existing knowledge distillation approaches, MIMIC initializes the student with random weights, inheriting no backdoors from teacher nets. Then MIMIC leverages mutual information between each layer and extracted features to locate where benign knowledge lies in the teacher net, with which distillation is deployed to clone clean features from teacher to student. We craft the distillation loss with two aspects, including clone loss and attention loss, aiming to mitigate backdoors and maintain encoder performance at the same time. Our evaluation conducted on two backdoor attacks in SSL demonstrates that MIMIC can significantly reduce the attack success rate by only utilizing <5% of clean data, surpassing seven state-of-the-art backdoor mitigation techniques. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 非対称調和振動子のコヒーレント状態
Coherent states of the asymmetric harmonic oscillator ( http://arxiv.org/abs/2406.03509v1 ) ライセンス: Link先を確認 | G. Chadzitaskos, | (参考訳) 非対称高調波発振器に対して, 非対称性パラメータがばね定数比の平方根となる形式的コヒーレント状態を構築した。
これらの状態はグラウバーのアプローチとペレロモフのアプローチに基づいているが、一般にコヒーレントな状態に必要な全ての性質を満たすわけではない。
時間が経つにつれ、このような方法で導入されたコヒーレントな状態は一般に非コヒーレントになる。
しかし、スプリング定数の平方根比に対して、$\frac{4k+1}{4l+1}$または$\frac{4k+3}{4l+3}$の特定のパラメータが存在する。
これらのパラメータに対して、固有状態のヒルベルト空間の部分空間上のコヒーレント状態を構築することができる。
これらのコヒーレントな状態は、進化の過程でコヒーレンスを維持する。
この事例も分析される。
We constructed formal coherent states for an asymmetric harmonic oscillator, where the asymmetry parameter is the square root of the ratio of spring constants. Although these states are constructed based on both Glauber's and Perelomov's approaches, in general they do not satisfy all the properties required for coherent states. Over time, the coherent states introduced in this way generally become incoherent. However, there are some specific parameters for the square root ratios of the spring constants $\frac{4k+1}{4l+1}$ or $\frac{4k+3}{4l+3}$. For these parameters it is possible to construct coherent states on the subspace of the Hilbert space of eigenstates. These coherent states keep their coherence during the time evolution. This case is also analyzed. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 音声による臨床うつ病スクリーニング : 実証的研究
Speech-based Clinical Depression Screening: An Empirical Study ( http://arxiv.org/abs/2406.03510v1 ) ライセンス: Link先を確認 | Yangbin Chen, Chenyang Xu, Chunfeng Liang, Yanbao Tao, Chuan Shi, | (参考訳) 本研究では, 精神科面接, チャットボット会話, テキスト読解など, さまざまな相互作用シナリオを対象としたAIによる抑うつスクリーニングにおける音声信号の有用性について検討した。
参加者には、北京大学第6病院の外来から徴発されたうつ病患者や、地域社会のコントロールグループメンバーが含まれており、すべて標準化された診断プロトコルに従って精神科医によって診断されている。
音声と深部音声の特徴を各参加者の分節録音から抽出した。
分類はニューラルネットワークまたはSVMを使用して行われ、最終的な評価はまとめられたクリップ結果によって決定された。
対話シナリオ, 音声処理技術, 特徴型による分析により, 抑うつスクリーニングの重要な指標として音声が確認される。
具体的には、人間とコンピュータの相互作用が臨床面接の有効性と一致し、読解タスクを超越する。
セグメントの長さと量はモデル性能に大きく影響し、ディープ音声の特徴は従来の音響特性よりもかなり優れていた。
This study investigates the utility of speech signals for AI-based depression screening across varied interaction scenarios, including psychiatric interviews, chatbot conversations, and text readings. Participants includes depressed patients recruited from the outpatient clinics of Peking University Sixth Hospital and control group members from the community, all diagnosed by psychiatrists following standardized diagnostic protocols. We extracted acoustic and deep speech features from each participant's segmented recordings. Classifications were made using neural networks or SVMs, with aggregated clip outcomes determining final assessments. Our analysis across interaction scenarios, speech processing techniques, and feature types confirms speech as a crucial marker for depression screening. Specifically, human-computer interaction matches clinical interview efficacy, surpassing reading tasks. Segment duration and quantity significantly affect model performance, with deep speech features substantially outperforming traditional acoustic features. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# MagiNet:不完全なトラフィックデータのためのマスク対応グラフインプットネットワーク
MagiNet: Mask-Aware Graph Imputation Network for Incomplete Traffic Data ( http://arxiv.org/abs/2406.03511v1 ) ライセンス: Link先を確認 | Jianping Zhou, Bin Lu, Zhanyu Liu, Siyu Pan, Xuejun Feng, Hua Wei, Guanjie Zheng, Xinbing Wang, Chenghu Zhou, | (参考訳) 検出器の故障と通信障害のため、交通データの収集中に欠落したデータがどこにでもある。
したがって、インテリジェントトランスポートシステム(ITS)のデータ分析と意思決定を容易にするために、欠落した値をインプットすることが極めて重要である。
しかし、既存の計算手法は一般に、欠落した値を初期化し、避けられないノイズを発生させるため、0のプリフィル技術を実行する。
さらに,不完全な交通データに内在する時空間相関を明らかにするために,過度に平滑な補間を観測する。
そこで我々はMask-Aware Graph imputation Network: MagiNetを提案する。
適応マスク時空間エンコーダを設計し、不完全データの潜在表現を学習し、不足した値への依存を解消する。
さらに、複数のブロックを積み重ねた時空間デコーダを考案し、不完全なトラフィックデータ中の空間的および時間的依存関係を捕捉し、過度に平滑な計算を緩和する。
その結果, RMSEでは平均4.31%, MAPEでは3.72%向上した。
Due to detector malfunctions and communication failures, missing data is ubiquitous during the collection of traffic data. Therefore, it is of vital importance to impute the missing values to facilitate data analysis and decision-making for Intelligent Transportation System (ITS). However, existing imputation methods generally perform zero pre-filling techniques to initialize missing values, introducing inevitable noises. Moreover, we observe prevalent over-smoothing interpolations, falling short in revealing the intrinsic spatio-temporal correlations of incomplete traffic data. To this end, we propose Mask-Aware Graph imputation Network: MagiNet. Our method designs an adaptive mask spatio-temporal encoder to learn the latent representations of incomplete data, eliminating the reliance on pre-filling missing values. Furthermore, we devise a spatio-temporal decoder that stacks multiple blocks to capture the inherent spatial and temporal dependencies within incomplete traffic data, alleviating over-smoothing imputation. Extensive experiments demonstrate that our method outperforms state-of-the-art imputation methods on five real-world traffic datasets, yielding an average improvement of 4.31% in RMSE and 3.72% in MAPE. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 困難か違いか?オーディオディープフェイク検出の一般化を理解する
Harder or Different? Understanding Generalization of Audio Deepfake Detection ( http://arxiv.org/abs/2406.03512v1 ) ライセンス: Link先を確認 | Nicolas M. Müller, Nicholas Evans, Hemlata Tak, Philip Sperl, Konstantin Böttinger, | (参考訳) 最近の研究は、音声のディープフェイク検出における重要な課題を強調している。
これは、テキスト音声(TTS)モデルの品質が継続的に向上していること、すなわち、より新しいDeepFakesは単に'ハード'で検出できるのか?
あるいは、あるモデルで生成されたディープフェイクが、別のモデルで生成されたディープフェイクと根本的に異なるからだろうか?
ドメイン内テストデータとドメイン外テストデータのパフォーマンスギャップを'ハードネス'と'ディファレンス'コンポーネントに分解することで、この問題に答える。
ASVspoofデータベースを用いて行った実験は、硬さ成分が事実上無視可能であることを示している。
これは現実世界のディープフェイク検出に直接的な意味を持ち、現在支配的な研究トレンドであるモデル容量の増加だけでは、一般化の課題に効果的に対処できないことを強調している。
Recent research has highlighted a key issue in speech deepfake detection: models trained on one set of deepfakes perform poorly on others. The question arises: is this due to the continuously improving quality of Text-to-Speech (TTS) models, i.e., are newer DeepFakes just 'harder' to detect? Or, is it because deepfakes generated with one model are fundamentally different to those generated using another model? We answer this question by decomposing the performance gap between in-domain and out-of-domain test data into 'hardness' and 'difference' components. Experiments performed using ASVspoof databases indicate that the hardness component is practically negligible, with the performance gap being attributed primarily to the difference component. This has direct implications for real-world deepfake detection, highlighting that merely increasing model capacity, the currently-dominant research trend, may not effectively address the generalization challenge. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# デバイス間フェデレーション学習のためのバッファ付き非同期セキュアアグリゲーション
Buffered Asynchronous Secure Aggregation for Cross-Device Federated Learning ( http://arxiv.org/abs/2406.03516v1 ) ライセンス: Link先を確認 | Kun Wang, Yi-Rui Yang, Wu-Jun Li, | (参考訳) 非同期フェデレーション学習(AFL)は、デバイス間フェデレーション学習におけるデバイス不均一性の課題に対処する有効な方法である。
しかしながら、AFLは通常、既存のセキュアアグリゲーションプロトコルは同期アグリゲーションに基づいているため、フェデレートラーニングにおけるユーザのプライバシを保護するために使用される既存のセキュアアグリゲーションプロトコルと互換性がない。
本稿では,バッファ型非同期セキュアアグリゲーション(BASA)と呼ばれる新しいセキュアアグリゲーションプロトコルを提案する。
既存のプロトコルと比較して、BASAはAFLと完全に互換性があり、各ユーザがユーザ間の同期通信に頼ることなく、サーバとの1ラウンドの通信しか必要としないという条件の下でセキュアなアグリゲーションを提供する。
BASAに基づいてハードウェアに余分な要求を伴わずにセキュアなアグリゲーションを実現する最初のAFL法を提案する。
我々は、BASAが、トレーニング効率とスケーラビリティの観点から、クロスデバイス・フェデレーション・ラーニングのための既存のセキュア・アグリゲーション・プロトコルより優れていることを実証的に実証した。
Asynchronous federated learning (AFL) is an effective method to address the challenge of device heterogeneity in cross-device federated learning. However, AFL is usually incompatible with existing secure aggregation protocols used to protect user privacy in federated learning because most existing secure aggregation protocols are based on synchronous aggregation. To address this problem, we propose a novel secure aggregation protocol named buffered asynchronous secure aggregation (BASA) in this paper. Compared with existing protocols, BASA is fully compatible with AFL and provides secure aggregation under the condition that each user only needs one round of communication with the server without relying on any synchronous interaction among users. Based on BASA, we propose the first AFL method which achieves secure aggregation without extra requirements on hardware. We empirically demonstrate that BASA outperforms existing secure aggregation protocols for cross-device federated learning in terms of training efficiency and scalability. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 不均一な個人差分学習のための雑音認識アルゴリズム
Noise-Aware Algorithm for Heterogeneous Differentially Private Federated Learning ( http://arxiv.org/abs/2406.03519v1 ) ライセンス: Link先を確認 | Saber Malekmohammadi, Yaoliang Yu, Yang Cao, | (参考訳) 高いユーティリティと厳密なデータプライバシは、いくつかのクライアント間で分散したデータからモデルを学ぶ、フェデレートラーニング(FL)システムの主要な目標のひとつです。
後者はFL(DPFL)で差分プライバシーを利用することで実現されている。
クライアントのプライバシ要件には不均一性があることが多く、既存のDPFLは、クライアントの統一的なプライバシ要件を前提とするか、あるいはサーバが完全に信頼されていない場合(設定)には適用できない。
さらに、クライアントのバッチサイズやデータセットサイズには不均一性がしばしば存在し、示すように、クライアントモデルの更新間でDPノイズレベルが余分に変化する。
このような異種性の源では、クライアントのアグリゲーションの重み付けをプライバシパラメータに比例して割り当てるなど、直接的なアグリゲーション戦略によって、実用性が低下する。
本稿では,クライアントモデル更新における真のノイズレベルを効率的に推定し,集約モデル更新におけるノイズレベルを大幅に低減するRobust-HDPを提案する。
Robust-HDPはユーティリティと収束速度を改善し、不正なプライバシパラメータをサーバに送信する可能性のあるクライアントに対して安全である。
複数のデータセットに対する大規模な実験結果と理論的解析により,Robust-HDPの有効性が確認された。
私たちのコードはここにある。
High utility and rigorous data privacy are of the main goals of a federated learning (FL) system, which learns a model from the data distributed among some clients. The latter has been tried to achieve by using differential privacy in FL (DPFL). There is often heterogeneity in clients privacy requirements, and existing DPFL works either assume uniform privacy requirements for clients or are not applicable when server is not fully trusted (our setting). Furthermore, there is often heterogeneity in batch and/or dataset size of clients, which as shown, results in extra variation in the DP noise level across clients model updates. With these sources of heterogeneity, straightforward aggregation strategies, e.g., assigning clients aggregation weights proportional to their privacy parameters will lead to lower utility. We propose Robust-HDP, which efficiently estimates the true noise level in clients model updates and reduces the noise-level in the aggregated model updates considerably. Robust-HDP improves utility and convergence speed, while being safe to the clients that may maliciously send falsified privacy parameter to server. Extensive experimental results on multiple datasets and our theoretical analysis confirm the effectiveness of Robust-HDP. Our code can be found here. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# VideoPhy:ビデオ生成のための物理コモンセンスの評価
VideoPhy: Evaluating Physical Commonsense for Video Generation ( http://arxiv.org/abs/2406.03520v1 ) ライセンス: Link先を確認 | Hritik Bansal, Zongyu Lin, Tianyi Xie, Zeshun Zong, Michal Yarom, Yonatan Bitton, Chenfanfu Jiang, Yizhou Sun, Kai-Wei Chang, Aditya Grover, | (参考訳) インターネット規模のビデオデータの事前トレーニングの最近の進歩は、様々な視覚概念やスタイルで高品質な動画を作成できるテキスト・ビデオ生成モデルの開発につながっている。
現実的な動きを合成し、複雑な物体をレンダリングする能力により、これらの生成モデルは物理世界の汎用シミュレータになる可能性がある。
しかし、既存のテキスト・ビデオ生成モデルでは、この目標からどこまで離れているのかは不明だ。
この目的のために、生成したビデオが現実世界のアクティビティの物理的なコモンセンスに従うかどうかを評価するために設計されたベンチマークであるVideoPhyを紹介する(例えば、大理石は傾斜した表面に置かれたときにロールダウンする)。
具体的には、物理世界における様々な物質種間の相互作用を含む688のキャプションのリスト(例えば、固形固形流体、固形流体、流体流体)をキュレートする。
次に、オープンモデル(例: VideoCrafter2)やクローズドモデル(例: Google, Pika)など、さまざまな最先端のテキスト・ビデオ生成モデルから、これらのキャプションに条件付けされたビデオを生成します。
さらに,人間による評価の結果,既存のモデルではテキストプロンプトに忠実な動画を生成する能力が乏しく,物理的コモンセンスも欠如していることが判明した。
具体的には、最高のパフォーマンスモデルであるピカは、19.7%のインスタンスでキャプションと物理法に準拠するビデオを生成する。
VideoPhyは、ビデオ生成モデルは物理的な世界を正確にシミュレートするものではないと強調する。
最後に、データセットを自動評価器であるVideoCon-Physicsで補足し、意味的定着と物理的常識を大規模に評価する。
Recent advances in internet-scale video data pretraining have led to the development of text-to-video generative models that can create high-quality videos across a broad range of visual concepts and styles. Due to their ability to synthesize realistic motions and render complex objects, these generative models have the potential to become general-purpose simulators of the physical world. However, it is unclear how far we are from this goal with the existing text-to-video generative models. To this end, we present VideoPhy, a benchmark designed to assess whether the generated videos follow physical commonsense for real-world activities (e.g. marbles will roll down when placed on a slanted surface). Specifically, we curate a list of 688 captions that involve interactions between various material types in the physical world (e.g., solid-solid, solid-fluid, fluid-fluid). We then generate videos conditioned on these captions from diverse state-of-the-art text-to-video generative models, including open models (e.g., VideoCrafter2) and closed models (e.g., Lumiere from Google, Pika). Further, our human evaluation reveals that the existing models severely lack the ability to generate videos adhering to the given text prompts, while also lack physical commonsense. Specifically, the best performing model, Pika, generates videos that adhere to the caption and physical laws for only 19.7% of the instances. VideoPhy thus highlights that the video generative models are far from accurately simulating the physical world. Finally, we also supplement the dataset with an auto-evaluator, VideoCon-Physics, to assess semantic adherence and physical commonsense at scale. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 開非平衡量子系におけるMpemba効果
Mpemba effects in open nonequilibrium quantum systems ( http://arxiv.org/abs/2406.03521v1 ) ライセンス: Link先を確認 | Andrea Nava, Reinhold Egger, | (参考訳) いくつかの貯水池に結合した量子系を開放するために、古典的な熱的メンバ効果(初期のホット系は、冷たいものよりも最終平衡状態に速く緩和する)を一般化する。
一般に、2つの異なる種類の量子Mpemba効果が可能であることを示す。
それらは量子状態トモグラフィーによって区別される。
しかし、(型を決定することなしに)量子ムペンバ効果の存在は、電流やエネルギーのような単純な観測可能量を測定することで既に確立できる。
2つの金属鉛に結合した相互作用する2サイト北エフ模型の実験可能な場合の一般的な結果について述べる。
We generalize the classical thermal Mpemba effect (where an initially hot system relaxes faster to the final equilibrium state than a cold one) to open quantum systems coupled to several reservoirs. We show that, in general, two different types of quantum Mpemba effects are possible. They may be distinguished by quantum state tomography. However, the existence of a quantum Mpemba effect (without determining the type) can already be established by measuring simpler observables such as currents or energies. We illustrate our general results for the experimentally feasible case of an interacting two-site Kitaev model coupled to two metallic leads. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# $\mathcal{PT}$-symmetric系における拡散複雑性と局在
Spread complexity and localization in $\mathcal{PT}$-symmetric systems ( http://arxiv.org/abs/2406.03524v1 ) ライセンス: Link先を確認 | Aranya Bhattacharya, Rathindra Nath Das, Bidyut Dey, Johanna Erdmenger, | (参考訳) 本稿では,拡散複雑性と拡散エントロピーを用いた$\mathcal{PT}$-対称量子系における波動関数の拡散に関する研究フレームワークを提案する。
境界点に複雑なオンサイトポテンシャルを持つ強結合鎖を考える。
$\mathcal{PT}$-unbroken 相では、波動関数は非局在化される。
我々は、$\mathcal{PT}$-breakken 相において、強結合格子の片端に局在する。
この局在は非エルミート皮膚効果の実現である。
$\mathcal{PT}$-breakken 相の局在は格子鎖基底とクリロフ基底の両方で観察される。
スプレッドエントロピー、エントロピー複雑性、およびクリロフ逆参加比(英語版)と呼ばれるさらなる尺度は、波動関数のダイナミクスを探索し、クリロフ基底で探索された局所化の強さを定量化する。
状態の情報を保存するために必要なクリロフ基底ベクトルの数は、局所化の強さによって減少する。
以上の結果から,Krylov空間の測度を非エルミート皮膚効果とその局在相転移の特徴づけに利用できることが示唆された。
We present a framework for investigating wave function spreading in $\mathcal{PT}$-symmetric quantum systems using spread complexity and spread entropy. We consider a tight-binding chain with complex on-site potentials at the boundary sites. In the $\mathcal{PT}$-unbroken phase, the wave function is delocalized. We find that in the $\mathcal{PT}$-broken phase, it becomes localized on one edge of the tight-binding lattice. This localization is a realization of the non-Hermitian skin effect. Localization in the $\mathcal{PT}$-broken phase is observed both in the lattice chain basis and the Krylov basis. Spread entropy, entropic complexity, and a further measure that we term the Krylov inverse participation ratio probe the dynamics of wave function spreading and quantify the strength of localization probed in the Krylov basis. The number of Krylov basis vectors required to store the information of the state reduces with the strength of localization. Our results demonstrate how measures in Krylov space can be used to characterize the non-hermitian skin effect and its localization phase transition. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# エッジ重み決定図を用いた混合次元量子状態生成
Mixed-Dimensional Qudit State Preparation Using Edge-Weighted Decision Diagrams ( http://arxiv.org/abs/2406.03531v1 ) ライセンス: Link先を確認 | Kevin Mato, Stefan Hillmich, Robert Wille, | (参考訳) 量子コンピュータは、古典的なコンピュータでは基本的に難解な重要な問題を解く可能性がある。
量子コンピューティングプラットフォームの基盤となる物理は、多値論理(multi-valued logic)の使用をサポートする。
このポテンシャルを利用するための重要な要素の1つは、多値系(qudit)のために量子状態を効率的に準備する能力である。
量子コンピュータの時間感度のため、必要な状態に備える回路は可能な限り短くする必要がある。
本稿では,混合次元系に着目した量子状態生成法について検討する。
提案手法は, 対応する混合次元量子状態を構成する量子回路を自動生成する。
この目的のために、決定図は、実現される量子状態のコンパクトな表現として使用される。
さらに、量子状態を近似して、精度、メモリの複雑さ、回路内の演算数の間の微調整されたトレードオフを可能にする能力も取り入れている。
実験的な評価は、高速でスケーラブルな量子状態の準備を容易にするための提案手法の有効性を示し、性能は決定図のサイズに直接関連している。
この実装は MQT Qudits at github.com/cda-tum/mqt-qudits のフレームワーク MQT Qudits の一部として、ミュンヘン量子ツールキット(MQT)の一部として無料で利用可能である。
Quantum computers have the potential to solve important problems which are fundamentally intractable on a classical computer. The underlying physics of quantum computing platforms supports using multi-valued logic, which promises a boost in performance over the prevailing two-level logic. One key element to exploiting this potential is the capability to efficiently prepare quantum states for multi-valued, or qudit, systems. Due to the time sensitivity of quantum computers, the circuits to prepare the required states have to be as short as possible. In this paper, we investigate quantum state preparation with a focus on mixed-dimensional systems, where the individual qudits may have different dimensionalities. The proposed approach automatically realizes quantum circuits constructing a corresponding mixed-dimensional quantum state. To this end, decision diagrams are used as a compact representation of the quantum state to be realized. We further incorporate the ability to approximate the quantum state to enable a finely controlled trade-off between accuracy, memory complexity, and number of operations in the circuit. Empirical evaluations demonstrate the effectiveness of the proposed approach in facilitating fast and scalable quantum state preparation, with performance directly linked to the size of the decision diagram. The implementation is freely available as part of Munich Quantum Toolkit~(MQT), under the framework MQT Qudits at github.com/cda-tum/mqt-qudits. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 量子コンピューティングにおける時間的ハドロン真空分極と光による散乱:シュウィンガーモデル実験
Towards Quantum Computing Timelike Hadronic Vacuum Polarization and Light-by-Light Scattering: Schwinger Model Tests ( http://arxiv.org/abs/2406.03536v1 ) ライセンス: Link先を確認 | João Barata, Kazuki Ikeda, Swagato Mukherjee, Jonathan Raghoonanan, | (参考訳) ハドロン真空分極(HVP)と光バイライト散乱(HLBL)は、ミューオンの異常な磁気モーメントに関する標準モデル予測を評価する上で重要である。
しかし、これらの観測可能な時間的領域の直接的な第一原理格子ゲージ理論に基づく計算は、依然として困難である。
空間的領域における格子量子色力学(QCD)計算と、時間的領域からの実験データパラメトリゼーションに依存する分散的アプローチとの相違が持続する。
本稿では、1+1次元量子電磁力学(QED)、すなわちシュウィンガーモデルを用いてHVPとHLBLを解析する手法を紹介する。
そのために、テンソルネットワーク技術、特に行列積状態とデジタル量子コンピュータの古典的エミュレータの両方を使用します。
単純化されたモデルで実現可能性を示すため、我々の手法はデジタル量子コンピュータを活用した将来の取り組みの舞台となる。
Hadronic vacuum polarization (HVP) and light-by-light scattering (HLBL) are crucial for evaluating the Standard Model predictions concerning the muon's anomalous magnetic moment. However, direct first-principle lattice gauge theory-based calculations of these observables in the timelike region remain challenging. Discrepancies persist between lattice quantum chromodynamics (QCD) calculations in the spacelike region and dispersive approaches relying on experimental data parametrization from the timelike region. Here, we introduce a methodology employing 1+1-dimensional quantum electrodynamics (QED), i.e. the Schwinger Model, to investigate the HVP and HLBL. To that end, we use both tensor network techniques, specifically matrix product states, and classical emulators of digital quantum computers. Demonstrating feasibility in a simplified model, our approach sets the stage for future endeavors leveraging digital quantum computers. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# データ複雑度の幾何学的視点:拡散モデルを用いた効率的な局所固有次元推定
A Geometric View of Data Complexity: Efficient Local Intrinsic Dimension Estimation with Diffusion Models ( http://arxiv.org/abs/2406.03537v1 ) ライセンス: Link先を確認 | Hamidreza Kamkari, Brendan Leigh Ross, Rasa Hosseinzadeh, Jesse C. Cresswell, Gabriel Loaiza-Ganem, | (参考訳) 高次元データは一般に低次元部分多様体の上にあり、ダトゥムの局所内在次元(LID)を推定する(つまり、それが属する部分多様体の次元)ことは長年の問題である。
LIDは、変化の局所的な要因の数として理解することができる: ダタムの変動の要因が多ければ多いほど、それがより複雑になる傾向がある。
この量の推定は、ニューラルネットワークの一般化からアウト・オブ・ディストリビューションデータの検出、敵例、AI生成テキストに至るまで、コンテキストにおいて有用であることが証明されている。
近年の深層生成モデルの成功は、それらをLID推定に活用する機会を与えるが、生成モデルに基づく現在の手法は、不正確な見積もりを生成し、単一の事前学習モデル以上のものを必要とし、計算集約的であり、あるいは最良の深部生成モデル、すなわち拡散モデル(DM)を利用できない。
本研究では, DMに付随するFokker-Planck方程式が, 上記すべての欠陥に対処するLID推定器を提供することを示す。
我々の推定器はFLIPDと呼ばれ、すべての一般的なDMと互換性があり、LID推定ベンチマークで既存のベースラインを上回っている。
また,実LIDが不明な自然画像にもFLIPDを適用した。
競合推定器と比較して、FLIPDは複雑性の非LID測度と高い相関を示し、複雑性の質的な評価とよく一致し、安定拡散のスケールで高解像度の画像を抽出可能な唯一の推定器である。
High-dimensional data commonly lies on low-dimensional submanifolds, and estimating the local intrinsic dimension (LID) of a datum -- i.e. the dimension of the submanifold it belongs to -- is a longstanding problem. LID can be understood as the number of local factors of variation: the more factors of variation a datum has, the more complex it tends to be. Estimating this quantity has proven useful in contexts ranging from generalization in neural networks to detection of out-of-distribution data, adversarial examples, and AI-generated text. The recent successes of deep generative models present an opportunity to leverage them for LID estimation, but current methods based on generative models produce inaccurate estimates, require more than a single pre-trained model, are computationally intensive, or do not exploit the best available deep generative models, i.e. diffusion models (DMs). In this work, we show that the Fokker-Planck equation associated with a DM can provide a LID estimator which addresses all the aforementioned deficiencies. Our estimator, called FLIPD, is compatible with all popular DMs, and outperforms existing baselines on LID estimation benchmarks. We also apply FLIPD on natural images where the true LID is unknown. Compared to competing estimators, FLIPD exhibits a higher correlation with non-LID measures of complexity, better matches a qualitative assessment of complexity, and is the only estimator to remain tractable with high-resolution images at the scale of Stable Diffusion. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 非アベリアンアゾニック系における絡み合い非対称性
Entanglement Asymmetry in non-Abelian Anyonic Systems ( http://arxiv.org/abs/2406.03546v1 ) ライセンス: Link先を確認 | Nicetu Tibau Vidal, Ved Kunte, Lucia Vilchez-Estevez, Mohit Lal Bera, Manabendra Nath Bera, | (参考訳) フォールトトレラントなトポロジカル量子計算のための有望なプラットフォームであるNon-Abelian anyonsは、物理的に許容される状態と演算に制限を課すチャージスーパーセレクションルール(cSSR)に準拠している。
しかし、任意の量子情報理論におけるcSSRと融合規則の分岐はほとんど未解明のままである。
本研究では, クイディット, ボソン, フェルミオンなどの非アノニック系と, 情報理論特性が根本的に異なることを明らかにし, 複雑な構造を提示する。
バイパルタイト系では、純粋な状態は異なる境界スペクトルを持ち、混合状態は純粋な境界状態を含む。
さらに注目すべきは、純粋な絡み合った状態において、当事者は絡み合った状態への平等なアクセスを欠いている可能性があることだ。
この絡み合った非対称性は、アリスとボブの間に共有される絡み合った正準状態を用いて量子テレポーテーションにおいて現れ、アリスは未知の量子情報をボブに完全にテレポーティングできるが、ボブはこの能力に欠ける。
これらの特徴は従来の理解に挑戦し、量子情報や相関を常に特徴付ける新しいアプローチを必要とする。
これらの特徴は非アベリア格子ゲージ場理論にも現れることを期待する。
本研究は, 量子通信と暗号プロトコルの実現に繋がる可能性があり, 一方が他方に傾いている場合の知識理論的側面の理解を著しく促進する。
Non-Abelian anyons, a promising platform for fault-tolerant topological quantum computation, adhere to the charge super-selection rule (cSSR), which imposes restrictions on physically allowed states and operations. However, the ramifications of cSSR and fusion rules in anyonic quantum information theory remain largely unexplored. In this study, we unveil that the information-theoretic characteristics of anyons diverge fundamentally from those of non-anyonic systems such as qudits, bosons, and fermions and display intricate structures. In bipartite anyonic systems, pure states may have different marginal spectra, and mixed states may contain pure marginal states. More striking is that in a pure entangled state, parties may lack equal access to entanglement. This entanglement asymmetry is manifested in quantum teleportation employing an entangled anyonic state shared between Alice and Bob, where Alice can perfectly teleport unknown quantum information to Bob, but Bob lacks this capability. These traits challenge conventional understanding, necessitating new approaches to characterize quantum information and correlations in anyons. We expect that these distinctive features will also be present in non-Abelian lattice gauge field theories. Our findings significantly advance the understanding of the information-theoretic aspects of anyons and may lead to realizations of quantum communication and cryptographic protocols where one party holds sway over the other. | 翻訳日:2024-06-07 19:24:39 公開日:2024-06-05 |
# 統合不確実性注入による深層学習によるロバスト通信と計算
Robust Communication and Computation using Deep Learning via Joint Uncertainty Injection ( http://arxiv.org/abs/2406.03548v1 ) ライセンス: Link先を確認 | Robert-Jeron Reifert, Hayssam Dahrouj, Alaa Alameer Ahmad, Haris Gacanin, Aydin Sezgin, | (参考訳) コミュニケーションと計算の収束は、機械学習と人工知能の統合とともに、第6世代の通信システム(6G)の鍵となる力となる。
本稿では,空間多重化を用いた複数のデバイスを同時に運用する1つの基地局のネットワークについて考察する。
そこで本稿では,チャネル情報と計算状態情報の両面での不確実性の中で,計算割り当てとともに送信と計算の能力を同時に管理する,革新的なディープラーニングベースのアプローチを提案する。
より具体的には、計算と電力制約の対象となるサービス機器間の最悪の遅延を最小限に抑える、堅牢なソリューションを提案することを目的としている。
この論文は、推定チャネルと計算要求を最適化されたリソース割り当てにマッピングするディープニューラルネットワーク(DNN)ベースのソリューションを使用する。
トレーニング中、DNN出力後に不確実性サンプルを注入し、通信および計算推定誤差の両方を共同で考慮する。
DNNは、堅牢なユーティリティを使用してバックプロパゲーションを通じてトレーニングされ、したがって、不確実性分布を暗黙的に学習する。
本研究は, 従来のDNN法と比較して, 高チャネル, 計算不確実性系において, 堅牢な遅延性能が向上していることを検証するものである。
The convergence of communication and computation, along with the integration of machine learning and artificial intelligence, stand as key empowering pillars for the sixth-generation of communication systems (6G). This paper considers a network of one base station serving a number of devices simultaneously using spatial multiplexing. The paper then presents an innovative deep learning-based approach to simultaneously manage the transmit and computing powers, alongside computation allocation, amidst uncertainties in both channel and computing states information. More specifically, the paper aims at proposing a robust solution that minimizes the worst-case delay across the served devices subject to computation and power constraints. The paper uses a deep neural network (DNN)-based solution that maps estimated channels and computation requirements to optimized resource allocations. During training, uncertainty samples are injected after the DNN output to jointly account for both communication and computation estimation errors. The DNN is then trained via backpropagation using the robust utility, thus implicitly learning the uncertainty distributions. Our results validate the enhanced robust delay performance of the joint uncertainty injection versus the classical DNN approach, especially in high channel and computational uncertainty regimes. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# Npix2Cpix: 歴史的文書画像からの透かし検索のための検索分類統合を備えたGANベースの画像変換ネットワーク
Npix2Cpix: A GAN-based Image-to-Image Translation Network with Retrieval-Classification Integration for Watermark Retrieval from Historical Document Images ( http://arxiv.org/abs/2406.03556v1 ) ライセンス: Link先を確認 | Utsab Saha, Sawradip Saha, Shaikh Anowarul Fattah, Mohammad Saquib, | (参考訳) 古代の透かしの識別と復元は、長い間、コーディコロジーと歴史の主要なトピックであった。
透かしに基づく歴史文書の分類は、透かしの多様性、混み合った、騒々しいサンプル、複数の表現のモード、クラスとクラス内の変化の微妙な区別のために困難である。
本稿では,U-net をベースとした条件付き逆数生成ネットワーク (GAN) を提案する。
劣化した(ノイズの多い)ピクセルからクリーンなピクセルへの画像変換を行う能力を考えると、提案するネットワークはNpix2Cpixと呼ばれる。
提案ネットワークでは,直接劣化した透かし画像を利用する代わりに,逆算学習を用いて画像から画像への変換を用いて,透かしの復元と分類を行う。
入力ノイズ画像からクリーンな画像を出力するマッピングを学習するために、提案したU-netベースのGANのジェネレータと判別器を、画像間の距離に基づいて2つの別々の損失関数を用いて訓練する。
提案したGANをノイズの多い透かし画像の前処理に使用した後、シームズをベースとしたワンショット学習を用いて透かしを分類する。
大規模な歴史的透かしデータセットの実験結果によると、汚染画像から透かしを抽出すると、高いワンショット分類精度が得られる。
得られた透かしの質的,定量的評価は,提案手法の有効性を示すものである。
The identification and restoration of ancient watermarks have long been a major topic in codicology and history. Classifying historical documents based on watermarks can be difficult due to the diversity of watermarks, crowded and noisy samples, multiple modes of representation, and minor distinctions between classes and intra-class changes. This paper proposes a U-net-based conditional generative adversarial network (GAN) to translate noisy raw historical watermarked images into clean, handwriting-free images with just watermarks. Considering its ability to perform image translation from degraded (noisy) pixels to clean pixels, the proposed network is termed as Npix2Cpix. Instead of employing directly degraded watermarked images, the proposed network uses image-to-image translation using adversarial learning to create clutter and handwriting-free images for restoring and categorizing the watermarks for the first time. In order to learn the mapping from input noisy image to output clean image, the generator and discriminator of the proposed U-net-based GAN are trained using two separate loss functions, each of which is based on the distance between images. After using the proposed GAN to pre-process noisy watermarked images, Siamese-based one-shot learning is used to classify watermarks. According to experimental results on a large-scale historical watermark dataset, extracting watermarks from tainted images can result in high one-shot classification accuracy. The qualitative and quantitative evaluation of the retrieved watermarks illustrates the effectiveness of the proposed approach. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# サブトラクティブホモモルフィズムによる外部データベースのステートレスおよび非インタラクティブ順序保存暗号化
Stateless and Non-Interactive Order-Preserving Encryption for Outsourced Databases through Subtractive Homomorphism ( http://arxiv.org/abs/2406.03559v1 ) ライセンス: Link先を確認 | Dongfang Zhao, | (参考訳) OPEは、アウトソースされたデータベースサーバが、インデックスや完全な範囲クエリを構築するために、暗号化されたタプルをソートできる重要な技術であるため、アウトソースされたデータベースの文脈で、20年以上にわたって広く研究されてきた。
最先端のOPEスキームの必要性
(i)ステートフルなクライアント -- クライアントが平文と暗号文の間のマッピングのローカルストレージを管理していることを意味する。
(ii)クエリ中のクライアントとサーバ間のインタラクション。
第一のケースでは、ストレージ要件がクライアントの能力を超える可能性がある;第二のケースでは、サーバがソートや比較を含むクエリを実行すると、クライアントはアクセスできないかもしれない。
本稿では、ステートレスクライアントに適した新しいOPEスキームを提案し、クエリ中にクライアントとサーバのインタラクションを必要としない。
提案プロトコルの鍵となる考え方は,2つの平文の違いの符号が評価鍵を持つ代数演算によって明らかにされるように,同型暗号スキームの基盤となる付加性を活用することである。
本論文では,提案プロトコルの正当性と安全性を実証し,その実装と実験結果を拡張レポートに示す。
Order-preserving encryption (OPE) has been extensively studied for more than two decades in the context of outsourced databases because OPE is a key enabling technique to allow the outsourced database servers to sort encrypted tuples in order to build indexes, complete range queries, and so forth. The state-of-the-art OPE schemes require (i) a stateful client -- implying that the client manages the local storage of some mapping between plaintexts and ciphertexts, and/or (ii) the interaction between the client and the server during the query. In production systems, however, the above assumptions do not always hold (not to mention performance overhead): In the first case, the storage requirement could exceed the capability of the client; In the second case, the clients may not be accessible when the server executes a query involving sort or comparison. This paper proposes a new OPE scheme that works for stateless clients and requires no client-server interaction during the queries. The key idea of our proposed protocol is to leverage the underlying additive property of a homomorphic encryption scheme such that the sign of the difference between two plaintexts can be revealed by some algebraic operations with an evaluation key. We will demonstrate the correctness and security of the proposed protocol in this short paper; the implementation and experimental results will be presented in an extended report. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 非線形モデル縮小のためのニューラルな経験的補間法
Neural empirical interpolation method for nonlinear model reduction ( http://arxiv.org/abs/2406.03562v1 ) ライセンス: Link先を確認 | Max Hirsch, Federico Pichi, Jan S. Hesthaven, | (参考訳) 本稿では,離散的経験的補間法に代わるニューラルネットワークを用いたニューラル・経験的補間法(NEIM)を導入し,パラメータ化された非線形偏微分方程式に対するリミットオーダーモデル(ROM)において非線形項の計算の時間的複雑さを低減する。
NEIMは、ROMの非線形項のアフィン分解を近似することにより、この還元を達成し、拡張のベクトル項はROM溶液によってニューラルネットワークによって与えられ、係数はいくつかの「最適」係数の補間によって与えられる。
NEIMは強欲な戦略に基づいており,その性能を調査するための基本的な誤り解析を行うことができる。
NEIMは、自動微分モデルにおいて実装が容易で、ROM非線形性の非線形射影であり、非局所非線形性と局所非線形性の両方に効率的であり、ROM非線形性の明示的な形式ではなく、データのみに依存するという利点がある。
本稿では, 解依存および解非依存の非線形性, 非線形楕円問題, および液晶の非線形パラボリックモデルに対する方法論の有効性を示す。
In this paper, we introduce the neural empirical interpolation method (NEIM), a neural network-based alternative to the discrete empirical interpolation method for reducing the time complexity of computing the nonlinear term in a reduced order model (ROM) for a parameterized nonlinear partial differential equation. NEIM is a greedy algorithm which accomplishes this reduction by approximating an affine decomposition of the nonlinear term of the ROM, where the vector terms of the expansion are given by neural networks depending on the ROM solution, and the coefficients are given by an interpolation of some "optimal" coefficients. Because NEIM is based on a greedy strategy, we are able to provide a basic error analysis to investigate its performance. NEIM has the advantages of being easy to implement in models with automatic differentiation, of being a nonlinear projection of the ROM nonlinearity, of being efficient for both nonlocal and local nonlinearities, and of relying solely on data and not the explicit form of the ROM nonlinearity. We demonstrate the effectiveness of the methodology on solution-dependent and solution-independent nonlinearities, a nonlinear elliptic problem, and a nonlinear parabolic model of liquid crystals. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# GFN:多元性応用における分解能不変化演算子学習のためのグラフフィードフォワードネットワーク
GFN: A graph feedforward network for resolution-invariant reduced operator learning in multifidelity applications ( http://arxiv.org/abs/2406.03569v1 ) ライセンス: Link先を確認 | Oisín M. Morrison, Federico Pichi, Jan S. Hesthaven, | (参考訳) 本研究は,多忠実度アプリケーションのための新しい分解能不変モデルオーダー削減戦略を提案する。
この研究で開発された新しいニューラルネットワーク層であるグラフフィードフォワードネットワークは、ニューラルネットワークの重みとメッシュのノードとを直接リンクすることで、フィードフォワードネットワークの概念をグラフ構造化データに拡張し、ネットワークの解釈可能性を高める。
パラメトリックな偏微分方程式に対する自己エンコーダに基づく還元戦略において,異なるメッシュサイズでのトレーニングとテストの能力を利用する。
この拡張は、エラーバウンダリによるパフォーマンス保証が保証されていることを示している。
提案手法の能力は, 対流支配現象や高次元パラメータ空間の問題を含む3つの挑戦的ベンチマークで検証される。
この手法は, 最先端モデルと比較して軽量で柔軟な手法であり, 単一忠実度と多忠実度の両方のシナリオにおいて優れた一般化性能を示す。
This work presents a novel resolution-invariant model order reduction strategy for multifidelity applications. We base our architecture on a novel neural network layer developed in this work, the graph feedforward network, which extends the concept of feedforward networks to graph-structured data by creating a direct link between the weights of a neural network and the nodes of a mesh, enhancing the interpretability of the network. We exploit the method's capability of training and testing on different mesh sizes in an autoencoder-based reduction strategy for parametrised partial differential equations. We show that this extension comes with provable guarantees on the performance via error bounds. The capabilities of the proposed methodology are tested on three challenging benchmarks, including advection-dominated phenomena and problems with a high-dimensional parameter space. The method results in a more lightweight and highly flexible strategy when compared to state-of-the-art models, while showing excellent generalisation performance in both single fidelity and multifidelity scenarios. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# Concave Objectivesを用いたオンラインパッケージングのための簡易学習支援アルゴリズム
A Simple Learning-Augmented Algorithm for Online Packing with Concave Objectives ( http://arxiv.org/abs/2406.03574v1 ) ライセンス: Link先を確認 | Elena Grigorescu, Young-San Lin, Maoyuan Song, | (参考訳) 学習強化アルゴリズムは、アルゴリズムの性能を向上させるために機械学習予測を使用する可能性があるため、近年、コンピュータサイエンスコミュニティで広く研究されている。
予測は、将来を知ることなく、取り消せない決定をするオンラインアルゴリズムにとって特に有用である。
このような学習強化されたアルゴリズムは、予測が正確である場合の古典的なオンラインアルゴリズムの限界を克服し、予測が不正確である場合の相容れない実行を目標としている。
一般的なアプローチは、既存のオンラインアルゴリズムを特定のアドバイス概念に適応させることである。
しかし、理想的には、従来のオンラインソリューションをブラックボックス方式で単純に使うだけで、近似の保証に大きな損失を被ることはない。
ブラックボックスを開くのを避けるようなクリーンなソリューションは、しばしばまれであり、初めて見逃されることもある。
例えば、Grigorescu et al (NeurIPS 22) は線形プログラムを網羅するオンライン学習アルゴリズムを提案したが、後に彼らの論文で述べられているように、彼らの結果はアドバイスとブラックボックスとして与えられるオンラインアルゴリズムを切り替える自然なアプローチによって仮定できることが判明した。
本研究では,オンラインパッキング問題に対して,線形制約とコンケーブ目的を用いた単純な学習拡張アルゴリズムを導入,解析する。
オンラインパッキングリニアプログラミング、knapsack、リソース管理のメリット、スループットの最大化、ネットワークユーティリティの最大化など、当社のフレームワークの直接的な応用例をいくつか紹介する。
さらに、このような単純なブラックボックス解が最適である場合に必要かつ十分な条件を理解するという問題を提起する。
これは、文献から多くのアドホックなアプローチを統合する研究の重要な方向であると考えています。
Learning-augmented algorithms has been extensively studied recently in the computer-science community, due to the potential of using machine learning predictions in order to improve the performance of algorithms. Predictions are especially useful for online algorithms making irrevocable decisions without knowledge of the future. Such learning-augmented algorithms aim to overcome the limitations of classical online algorithms when the predictions are accurate, and still perform comparably when the predictions are inaccurate. A common approach is to adapt existing online algorithms to the particular advice notion employed, which often involves understanding previous sophisticated algorithms and their analyses. However, ideally, one would simply use previous online solutions in a black-box fashion, without much loss in the approximation guarantees. Such clean solutions that avoid opening up black-boxes are often rare, and may be even missed the first time around. For example, Grigorescu et al. (NeurIPS 22) proposed a learning-augmented algorithms for online covering linear programs, but it later turned out that their results can be subsumed by a natural approach that switches between the advice and an online algorithm given as a black-box, as noted in their paper. In this work, we introduce and analyze a simple learning-augmented algorithm for online packing problems with linear constraints and concave objectives. We exhibit several direct applications of our framework including online packing linear programming, knapsack, resource management benefit, throughput maximization, and network utility maximization. We further raise the problem of understanding necessary and sufficient conditions for when such simple black-box solutions may be optimal. We believe this is an important direction of research that would unify many ad-hoc approaches from the literature. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 因果推論における不均一効果の再検討
Reconciling Heterogeneous Effects in Causal Inference ( http://arxiv.org/abs/2406.03575v1 ) ライセンス: Link先を確認 | Audrey Chang, Emily Diana, Alexander Williams Tolbert, | (参考訳) 本稿では,因果推論における参照クラス問題に対する解法を提案する。
本稿では、機械学習におけるモデル乗法にReconcileアルゴリズムを適用し、因果推論における異種効果を再現する。
不均一効果の条件平均処理効果(CATE)推定器の相違は参照クラス問題を引き起こす。
確率を解釈するために個人からグループ・フレームワークを採用することで、科学哲学や因果推論などの分野にまたがる参照クラス問題は、コンピュータ科学におけるモデル乗法問題と同等であることがわかる。
次に、CATE推定器の個々の確率の差分を分解するためにReconcile Algorithmを適用した。
基準クラス問題は,グループベースエビデンスを用いた個人確率予測の文脈に現れるため,医療,保険,住宅などの高所得者,特に疎外化社会において,公正な結果の確保に有意な意味を持つ。
予測モデリングにおける格差緩和の重要性を強調することで、技術的厳密さと社会的含意の意識を融合した学際戦略のさらなる探究が求められます。
最終的に、我々の発見はアルゴリズムの公正性に対する全体論的アプローチを提唱し、株式とアクセスの幅広い目標を達成する上で、思慮深い、十分に取り巻かれたソリューションの重要な役割をあらわすものである。
In this position and problem pitch paper, we offer a solution to the reference class problem in causal inference. We apply the Reconcile algorithm for model multiplicity in machine learning to reconcile heterogeneous effects in causal inference. Discrepancy between conditional average treatment effect (CATE) estimators of heterogeneous effects poses the reference class problem, where estimates for individual predictions differ by choice of reference class. By adopting the individual to group framework for interpreting probability, we can recognize that the reference class problem -- which appears across fields such as philosophy of science and causal inference -- is equivalent to the model multiplicity problem in computer science. We then apply the Reconcile Algorithm to reconcile differences in estimates of individual probability among CATE estimators. Because the reference class problem manifests in contexts of individual probability prediction using group-based evidence, our results have tangible implications for ensuring fair outcomes in high-stakes such as healthcare, insurance, and housing, especially for marginalized communities. By highlighting the importance of mitigating disparities in predictive modeling, our work invites further exploration into interdisciplinary strategies that combine technical rigor with a keen awareness of social implications. Ultimately, our findings advocate for a holistic approach to algorithmic fairness, underscoring the critical role of thoughtful, well-rounded solutions in achieving the broader goals of equity and access. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 階層化データ拡張による交通信号認識の強化--クラス不均衡とインスタンススカルシティの対応
Enhancing Traffic Sign Recognition with Tailored Data Augmentation: Addressing Class Imbalance and Instance Scarcity ( http://arxiv.org/abs/2406.03576v1 ) ライセンス: Link先を確認 | Ulan Alsiyeu, Zhasdauren Duisebekov, | (参考訳) 本稿では、道路安全に不可欠な交通標識認識(TSR)における重要な課題、特にデータセットにおけるクラス不均衡とインスタンス不足に対処する。
本稿では,合成画像生成,幾何変換,およびモデル堅牢性と精度向上のためのデータセット品質向上のための新しい障害物ベースの拡張手法など,データ拡張技術を紹介する。
本手法は,実世界の条件を正確にシミュレートするための多種多様な拡張プロセスを導入し,トレーニングデータの多様性と代表性を拡大する。
この結果,TSRモデルの性能は大幅に向上し,交通標識認識システムに大きな影響を及ぼすことがわかった。
この研究は、TSRのデータセット制限に対処するだけでなく、異なる領域やアプリケーションにまたがる同様の課題のモデルも提案している。
This paper tackles critical challenges in traffic sign recognition (TSR), which is essential for road safety -- specifically, class imbalance and instance scarcity in datasets. We introduce tailored data augmentation techniques, including synthetic image generation, geometric transformations, and a novel obstacle-based augmentation method to enhance dataset quality for improved model robustness and accuracy. Our methodology incorporates diverse augmentation processes to accurately simulate real-world conditions, thereby expanding the training data's variety and representativeness. Our findings demonstrate substantial improvements in TSR models performance, offering significant implications for traffic sign recognition systems. This research not only addresses dataset limitations in TSR but also proposes a model for similar challenges across different regions and applications, marking a step forward in the field of computer vision and traffic sign recognition systems. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 機械学習における脆弱性検出のための貢献要因の説明
Explaining the Contributing Factors for Vulnerability Detection in Machine Learning ( http://arxiv.org/abs/2406.03577v1 ) ライセンス: Link先を確認 | Esma Mouine, Yan Liu, Lu Xiao, Rick Kazman, Xiao Wang, | (参考訳) ソフトウェアリポジトリから脆弱性をマイニングし、機械学習技術を使ってソフトウェア脆弱性を自動的に検出する傾向が増えている。
マイニングと学習プロセスの異なる要因は、様々な特性を持つソフトウェアプロジェクトの脆弱性を特定する精度にどのように影響しますか?
ソースコードの静的解析、ソフトウェアリポジトリマイニング、NLPベースの機械学習など、この分野での実質的な研究が進められている。
しかし、実践者は最先端のベースラインモデルを構築する上で重要な要素についての経験を欠いている。
さらに、プロジェクトからプロジェクトへの脆弱性シグネチャの転送可能性に関する経験が不足している。
本研究では、異なる脆弱性機能と3つの代表的な機械学習モデルの組み合わせが、実際の17のプロジェクトにおいて、脆弱性検出の精度にどのように影響するかを検討する。
脆弱性表現には2つの種類がある。
1) 異なるトークン化戦略と3つの異なる埋め込み技術(bag-of-words, word2vec, fastText)でNLPから抽出されたコード機能。
2) ソフトウェアシステムの抽象的な設計を捉える8つのアーキテクチャメトリクスのセット。
3つの機械学習アルゴリズムには、ランダムフォレストモデル、サポートベクターマシンモデル、残留ニューラルネットワークモデルが含まれる。
解析の結果,単語のバケット埋め込みから抽出したシグネチャをランダムな森林と組み合わせることで,他の17プロジェクトと比較すると,検出精度を約4%向上することがわかった。
さらに,本実験により,脆弱性シグネチャのドメイン間での転送制限についても検討した。
There is an increasing trend to mine vulnerabilities from software repositories and use machine learning techniques to automatically detect software vulnerabilities. A fundamental but unresolved research question is: how do different factors in the mining and learning process impact the accuracy of identifying vulnerabilities in software projects of varying characteristics? Substantial research has been dedicated in this area, including source code static analysis, software repository mining, and NLP-based machine learning. However, practitioners lack experience regarding the key factors for building a baseline model of the state-of-the-art. In addition, there lacks of experience regarding the transferability of the vulnerability signatures from project to project. This study investigates how the combination of different vulnerability features and three representative machine learning models impact the accuracy of vulnerability detection in 17 real-world projects. We examine two types of vulnerability representations: 1) code features extracted through NLP with varying tokenization strategies and three different embedding techniques (bag-of-words, word2vec, and fastText) and 2) a set of eight architectural metrics that capture the abstract design of the software systems. The three machine learning algorithms include a random forest model, a support vector machines model, and a residual neural network model. The analysis shows a recommended baseline model with signatures extracted through bag-of-words embedding, combined with the random forest, consistently increases the detection accuracy by about 4% compared to other combinations in all 17 projects. Furthermore, we observe the limitation of transferring vulnerability signatures across domains based on our experiments. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 食品による拡散概念代数の限界を理解する
Understanding the Limitations of Diffusion Concept Algebra Through Food ( http://arxiv.org/abs/2406.03582v1 ) ライセンス: Link先を確認 | E. Zhixuan Zeng, Yuhao Chen, Alexander Wong, | (参考訳) 近年,画像生成技術,特に潜伏拡散モデルが急速に普及している。
これらの大規模モデルが学習する意味概念を操作および明確化するために多くの技術が開発され、バイアスと概念関係に関する重要な洞察を提供する。
しかしながら、これらの技法は、人間や動物の顔の伝統的な領域と芸術的スタイルの変遷においてのみ検証されることが多い。
食品分野は、複雑な構成と地域バイアスを通じて固有の課題を提供しており、既存の方法の限界と機会に光を当てることができる。
食品画像のレンズを通して,概念横断技術における定性的パターンと定量的パターンを解析する。
我々は、モデルが料理の多様性のニュアンスを捉え、表現する能力に関する測定可能な洞察を明らかにし、モデルのバイアスと制限が出現する領域を特定する。
Image generation techniques, particularly latent diffusion models, have exploded in popularity in recent years. Many techniques have been developed to manipulate and clarify the semantic concepts these large-scale models learn, offering crucial insights into biases and concept relationships. However, these techniques are often only validated in conventional realms of human or animal faces and artistic style transitions. The food domain offers unique challenges through complex compositions and regional biases, which can shed light on the limitations and opportunities within existing methods. Through the lens of food imagery, we analyze both qualitative and quantitative patterns within a concept traversal technique. We reveal measurable insights into the model's ability to capture and represent the nuances of culinary diversity, while also identifying areas where the model's biases and limitations emerge. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 遺伝的プログラミングへのシンボリック回帰のための最近のアルゴリズムの比較
A Comparison of Recent Algorithms for Symbolic Regression to Genetic Programming ( http://arxiv.org/abs/2406.03585v1 ) ライセンス: Link先を確認 | Yousef A. Radwan, Gabriel Kronberger, Stephan Winkler, | (参考訳) 記号回帰は、解釈可能な結果を生成することを目標とする機械学習手法である。
例えばランダムな森やニューラルネットワークのような、不透明な他の機械学習手法とは異なり、象徴的回帰は、科学者が理解可能な方法でデータをモデル化し、マップすることを目的としている。
ニューラルネットのマッピング能力と深層学習技術とを、記号回帰の説明力で融合させようとする新しい手法である。
本稿では,これらの新しいシステムについて検討し,長年にわたってシンボルレグレッションを先導してきた遺伝的プログラミングに基づく従来の手法と比較して,エンド・ツー・エンドのトランスフォーマーモデルの性能を検証した。
我々は、これらのシステムを新しいデータセット上で比較し、よく知られたベンチマークデータセットで改善された古い手法のバイアスを避ける。
Operon が実装した従来の GP 法は,最近発表された2つのシンボル回帰法よりも依然として優れていることを示す。
Symbolic regression is a machine learning method with the goal to produce interpretable results. Unlike other machine learning methods such as, e.g. random forests or neural networks, which are opaque, symbolic regression aims to model and map data in a way that can be understood by scientists. Recent advancements, have attempted to bridge the gap between these two fields; new methodologies attempt to fuse the mapping power of neural networks and deep learning techniques with the explanatory power of symbolic regression. In this paper, we examine these new emerging systems and test the performance of an end-to-end transformer model for symbolic regression versus the reigning traditional methods based on genetic programming that have spearheaded symbolic regression throughout the years. We compare these systems on novel datasets to avoid bias to older methods who were improved on well-known benchmark datasets. Our results show that traditional GP methods as implemented e.g., by Operon still remain superior to two recently published symbolic regression methods. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# CountCLIP -- [Re]CLIPに10までのカウントを教える
CountCLIP -- [Re] Teaching CLIP to Count to Ten ( http://arxiv.org/abs/2406.03586v1 ) ライセンス: Link先を確認 | Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar, | (参考訳) 大規模視覚言語モデル(VLM)は、下流タスクにおける高いパフォーマンスを実現するために、リッチな共同画像テキスト表現を学習する。
しかし、それらはオブジェクトの定量的な理解を示すことができず、カウント・アウェアの表現が不十分である。
本稿では,CLIPモデル(Radford et al ,2021)を微調整し,ゼロショット分類の性能を維持しつつ,画像中のゼロショットカウント精度を向上させる方法を提案する。
より少ない計算資源でトレーニングデータの小さなサブセットでモデルの性能を向上させる。
私たちは、自分たちのコードで研究を再現することで、これらの主張を検証する。
実装はhttps://github.com/SforAiDl/CountCLIPで確認できる。
Large vision-language models (VLMs) are shown to learn rich joint image-text representations enabling high performances in relevant downstream tasks. However, they fail to showcase their quantitative understanding of objects, and they lack good counting-aware representation. This paper conducts a reproducibility study of 'Teaching CLIP to Count to Ten' (Paiss et al., 2023), which presents a method to finetune a CLIP model (Radford et al., 2021) to improve zero-shot counting accuracy in an image while maintaining the performance for zero-shot classification by introducing a counting-contrastive loss term. We improve the model's performance on a smaller subset of their training data with lower computational resources. We verify these claims by reproducing their study with our own code. The implementation can be found at https://github.com/SforAiDl/CountCLIP. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 対話型検索エンジンにおけるランキング操作
Ranking Manipulation for Conversational Search Engines ( http://arxiv.org/abs/2406.03589v1 ) ライセンス: Link先を確認 | Samuel Pfrommer, Yatong Bai, Tanmay Gautam, Somayeh Sojoudi, | (参考訳) 主要な検索エンジンプロバイダは、ユーザクエリに応答して、Large Language Model (LLM)生成コンテンツを急速に取り入れている。
これらの対話型検索エンジンは、検索したWebサイトテキストをLLMコンテキストにロードして、要約と解釈を行う。
近年の研究では、LLMはジェイルブレイクやインジェクション攻撃に対して非常に脆弱であることが示されており、敵弦を用いたLLMの安全性と品質の目標を阻害している。
本研究では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
そこで本研究では,現実の消費者製品Webサイトの集中データセットを導入し,対話型検索ランキングを敵問題として定式化する。
実験により, 対向注入のない会話型検索ランキングを解析し, 製品名, 文書内容, コンテキスト位置の優先順位付けにおいて, 異なるLLMが著しく異なることを示す。
次に、低ランク製品を確実に促進する攻撃木ベースのジェイルブレイク手法を提案する。
重要なことに、これらの攻撃はPerplexity.aiのような最先端の会話検索エンジンに効果的に転送される。
ウェブサイト所有者が検索ランクを上げるための強力な金銭的インセンティブを考えると、我々の問題定式化は将来の堅牢性作業にとって重要であると論じる。
Major search engine providers are rapidly incorporating Large Language Model (LLM)-generated content in response to user queries. These conversational search engines operate by loading retrieved website text into the LLM context for summarization and interpretation. Recent research demonstrates that LLMs are highly vulnerable to jailbreaking and prompt injection attacks, which disrupt the safety and quality goals of LLMs using adversarial strings. This work investigates the impact of prompt injections on the ranking order of sources referenced by conversational search engines. To this end, we introduce a focused dataset of real-world consumer product websites and formalize conversational search ranking as an adversarial problem. Experimentally, we analyze conversational search rankings in the absence of adversarial injections and show that different LLMs vary significantly in prioritizing product name, document content, and context position. We then present a tree-of-attacks-based jailbreaking technique which reliably promotes low-ranked products. Importantly, these attacks transfer effectively to state-of-the-art conversational search engines such as perplexity.ai. Given the strong financial incentive for website owners to boost their search ranking, we argue that our problem formulation is of critical importance for future robustness work. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# BVE + EKF:拡張カルマンフィルタを用いた3次元タスク空間における物体位置推定のための視点推定器
BVE + EKF: A viewpoint estimator for the estimation of the object's position in the 3D task space using Extended Kalman Filters ( http://arxiv.org/abs/2406.03591v1 ) ライセンス: Link先を確認 | Sandro Costa Magalhães, António Paulo Moreira, Filipe Neves dos Santos, Jorge Dias, | (参考訳) RGB-Dセンサーは、放射線や雨などの外部の摂動に敏感であるため、オープンフィールド環境で動作している複数の課題に直面している。
複数の作品がモノクロカメラを用いて物体の3D位置を認識するという課題に近づいている。
しかし、これらの研究の大部分は、複雑なデータ駆動型で予測が難しいディープラーニングベースのソリューションに重点を置いている。
そこで本稿では,拡張カルマンフィルタ (EKF) を用いたガウス視点推定器 (BVE) を用いて3次元物体の位置を予測する問題にアプローチする。
このアルゴリズムはタスクの効率を証明し、最大平均ユークリッド誤差は約32mmに達した。
実験は人工ガウス雑音を用いてMATLABに展開・評価された。
今後の研究は、ロボットシステムにシステムを実装することを目指している。
RGB-D sensors face multiple challenges operating under open-field environments because of their sensitivity to external perturbations such as radiation or rain. Multiple works are approaching the challenge of perceiving the 3D position of objects using monocular cameras. However, most of these works focus mainly on deep learning-based solutions, which are complex, data-driven, and difficult to predict. So, we aim to approach the problem of predicting the 3D objects' position using a Gaussian viewpoint estimator named best viewpoint estimator (BVE) powered by an extended Kalman filter (EKF). The algorithm proved efficient on the tasks and reached a maximum average Euclidean error of about 32 mm. The experiments were deployed and evaluated in MATLAB using artificial Gaussian noise. Future work aims to implement the system in a robotic system. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# 質問応答システムにおける検索複雑性の測定
Measuring Retrieval Complexity in Question Answering Systems ( http://arxiv.org/abs/2406.03592v1 ) ライセンス: Link先を確認 | Matteo Gabburo, Nicolaas Paul Jedema, Siddhant Garg, Leonardo F. R. Ribeiro, Alessandro Moschitti, | (参考訳) 本稿では,検索に基づく質問回答(QA)においてどの質問が困難なのかを検討する。
我が家
一 検索複雑性(RC)とは、検索された文書の完全性に基づき、質問に答えることの難しさを測る新しい計量である。
(II)任意の検索システムに与えられたRCを測定するための教師なしパイプラインを提案する。
提案するパイプラインは,6つのQAベンチマークにおいて,LLMを含む代替推定器よりもRCを正確に測定する。
さらに、RCスコアは6つのベンチマークのうち5つでQA性能と専門家の判断の両方と強く相関しており、RCが質問の難易度を効果的に測定していることを示している。
その後の高RC質問の分類は、複数のホップ、構成、時間的QAを含む幅広い質問形態にまたがっており、RCスコアが複雑な質問の新たなサブセットを分類できることを示している。
我々のシステムは、既存のデータセットに関するより困難な質問の特定を支援することで、検索ベースのシステムに大きな影響を与える。
In this paper, we investigate which questions are challenging for retrieval-based Question Answering (QA). We (i) propose retrieval complexity (RC), a novel metric conditioned on the completeness of retrieved documents, which measures the difficulty of answering questions, and (ii) propose an unsupervised pipeline to measure RC given an arbitrary retrieval system. Our proposed pipeline measures RC more accurately than alternative estimators, including LLMs, on six challenging QA benchmarks. Further investigation reveals that RC scores strongly correlate with both QA performance and expert judgment across five of the six studied benchmarks, indicating that RC is an effective measure of question difficulty. Subsequent categorization of high-RC questions shows that they span a broad set of question shapes, including multi-hop, compositional, and temporal QA, indicating that RC scores can categorize a new subset of complex questions. Our system can also have a major impact on retrieval-based systems by helping to identify more challenging questions on existing datasets. | 翻訳日:2024-06-07 19:14:47 公開日:2024-06-05 |
# なぜ「プロブレム」が肯定的感性を予測するのか : 感性分類における非直観的特徴の説明を事例として
Why is "Problems" Predictive of Positive Sentiment? A Case Study of Explaining Unintuitive Features in Sentiment Classification ( http://arxiv.org/abs/2406.03594v1 ) ライセンス: Link先を確認 | Jiaming Qu, Jaime Arguello, Yue Wang, | (参考訳) 説明可能なAI(XAI)アルゴリズムは、マシンラーニングモデルがどのように予測を行うかを理解するためのものだ。
この目的のために、多くのアプローチが、どの入力特徴がターゲットラベルの最も予測可能であるかを説明している。
しかし、そのような説明は依然としてユーザを困惑させる可能性がある(例えば、製品レビューでは、"problems"という言葉は肯定的な感情を予測している)。
説明が残っていない場合、曖昧な説明は否定的な影響を与える可能性がある。
入力特徴と対象ラベルの非直感的関連を説明することは,XAI研究における未探索領域である。
本研究は、感情分類器によって学習された直感的関連を事例として、この方向の最初の取り組みを行う。
本研究では,(1)ユーザに対して直感的に見える連想を自動的に検出する手法を提案し,(2)非直感的特徴が予測的である理由を理解するための説明を生成する。
クラウドソースによる調査(N=300)の結果,提案手法は感情分類における予測的だが直観的でない特徴を効果的に検出・説明できることがわかった。
Explainable AI (XAI) algorithms aim to help users understand how a machine learning model makes predictions. To this end, many approaches explain which input features are most predictive of a target label. However, such explanations can still be puzzling to users (e.g., in product reviews, the word "problems" is predictive of positive sentiment). If left unexplained, puzzling explanations can have negative impacts. Explaining unintuitive associations between an input feature and a target label is an underexplored area in XAI research. We take an initial effort in this direction using unintuitive associations learned by sentiment classifiers as a case study. We propose approaches for (1) automatically detecting associations that can appear unintuitive to users and (2) generating explanations to help users understand why an unintuitive feature is predictive. Results from a crowdsourced study (N=300) found that our proposed approaches can effectively detect and explain predictive but unintuitive features in sentiment classification. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# Hi5: ゼロヒューマンアノテーションによる2次元ハンドポース推定
Hi5: 2D Hand Pose Estimation with Zero Human Annotation ( http://arxiv.org/abs/2406.03599v1 ) ライセンス: Link先を確認 | Masum Hasan, Cengiz Ozel, Nina Long, Alexander Martin, Samuel Potter, Tariq Adnan, Sangwu Lee, Amir Zadeh, Ehsan Hoque, | (参考訳) 本研究では,ヒトのアノテーションやバリデーションを必要としない高品質な合成データを集めるための,新しい大規模合成手ポーズ推定データセット,Hi5を提案する。
コンピュータグラフィックスの最近の進歩、多様な性別と肌色を持つ高忠実な3Dハンドモデル、ダイナミック環境とカメラの動きを活用して、データ合成パイプラインはデータの多様性と表現を正確に制御し、堅牢で公正なモデルのトレーニングを確実にします。
我々は,実世界の変動性を忠実に表現した単一のコンシューマPCを用いて,583,000の画像と正確なポーズアノテーションを用いたデータセットを生成する。
Hi5でトレーニングされたポース推定モデルは、実際のベンチマークで競合的に動作し、オクルージョンと摂動でテストされた実際のデータでトレーニングされたモデルを上回ります。
本実験は,実データセットにおけるデータ表現問題に対する有効な解決策として,合成データに対する有望な結果を示す。
本論文は, コスト削減と手ポーズ推定のためのデータの多様性, 品質向上を実現するため, 合成データ作成とアノテーションに対する有望な新しいアプローチを提供する。
We propose a new large synthetic hand pose estimation dataset, Hi5, and a novel inexpensive method for collecting high-quality synthetic data that requires no human annotation or validation. Leveraging recent advancements in computer graphics, high-fidelity 3D hand models with diverse genders and skin colors, and dynamic environments and camera movements, our data synthesis pipeline allows precise control over data diversity and representation, ensuring robust and fair model training. We generate a dataset with 583,000 images with accurate pose annotation using a single consumer PC that closely represents real-world variability. Pose estimation models trained with Hi5 perform competitively on real-hand benchmarks while surpassing models trained with real data when tested on occlusions and perturbations. Our experiments show promising results for synthetic data as a viable solution for data representation problems in real datasets. Overall, this paper provides a promising new approach to synthetic data creation and annotation that can reduce costs and increase the diversity and quality of data for hand pose estimation. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 知識を融合した法的な知恵:診断レンズによるLCMの指導と正の非ラベル強化学習
Knowledge-Infused Legal Wisdom: Navigating LLM Consultation through the Lens of Diagnostics and Positive-Unlabeled Reinforcement Learning ( http://arxiv.org/abs/2406.03600v1 ) ライセンス: Link先を確認 | Yang Wu, Chenghao Wang, Ece Gumusel, Xiaozhong Liu, | (参考訳) 法域を含む様々なアプリケーションへの生成型大規模言語モデル(LLM)の統合は、その拡張性と汎用性によって加速されている。
しかし、法的背景のないユーザは、しばしば専門的なクエリを定式化するのに苦労し、LLMにケースの物語を提示する際、必然的に重要な法的要因を見落としてしまうことがある。
この問題に対処するために,適応型弁護士のような診断質問を利用してケース情報を収集し,高品質なフィードバックを提供する診断法大規模言語モデル(D3LM)を提案する。
D3LMは、革新的なグラフベースのPositive-Unlabeled Reinforcement Learning (PURL)アルゴリズムを導入し、重要な質問の生成とユーザ-LLMインタラクションの強化を可能にしている。
さらに、LCMベースの停止基準の統合により、正確なCourt Views Generation(CVG)が容易になる。
また、米国事例法データベースに基づく新たな英語CVGデータセットを導入し、LCM研究と展開の領域を重要次元で強化した。
D3LMは、法域における卓越したパフォーマンスと優れたユーザエクスペリエンスを提供することによって、古典的なLLMを超える。
The integration of generative Large Language Models (LLMs) into various applications, including the legal domain, has been accelerated by their expansive and versatile nature. However, when facing a legal case, users without a legal background often struggle to formulate professional queries and may inadvertently overlook critical legal factors when presenting their case narrative to LLMs. To address this issue, we propose the Diagnostic Legal Large Language Model (D3LM), which utilizes adaptive lawyer-like diagnostic questions to collect additional case information and then provides high-quality feedback. D3LM incorporates an innovative graph-based Positive-Unlabeled Reinforcement Learning (PURL) algorithm, enabling the generation of critical questions and enhancing user-LLM interactions. Moreover, an integrated LLM-based stopping criterion facilitates precise Court Views Generation (CVG). Our research also introduces a new English-language CVG dataset based on the US case law database, enriching the realm of LLM research and deployment with a vital dimension. D3LM surpasses classical LLMs by delivering outstanding performance and a remarkable user experience in the legal domain. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 調整校正: 聴覚下でのコントラスト学習のためのマシンアンラーニング
Alignment Calibration: Machine Unlearning for Contrastive Learning under Auditing ( http://arxiv.org/abs/2406.03603v1 ) ライセンス: Link先を確認 | Yihan Wang, Yiwei Lu, Guojun Zhang, Franziska Boenisch, Adam Dziedzic, Yaoliang Yu, Xiao-Shan Gao, | (参考訳) 機械学習は、トレーニング済みのモデルパラメータに対する特定のトレーニングデータの影響を取り消すための実行可能なソリューションを提供する。
既存のアプローチは、分類と生成モデルのための未学習のレシピを提供する。
しかし、重要な機械学習モデル、すなわちコントラスト学習(CL)メソッドのカテゴリは見過ごされてしまう。
本稿では、まず、Machine Unlearning for Contrastive Learning(MUC)の枠組みを提案し、既存の手法を適用することで、このギャップを埋める。
さらに,いくつかの手法は中等な未学習者であり,既存の監査ツールではデータ所有者が対照的な学習における未学習効果を検証するのに十分でない可能性がある。
そこで本稿では,対照学習の特性を明示的に考慮し,未学習の検証を容易にするために,新たな監査指標に最適化することで,アライメント校正(Alignment Calibration, AAC)と呼ばれる新しい手法を提案する。
我々は、ACとSimCLR、MoCo、CLIPのベースライン法を経験的に比較した。
既存の手法の欠点として,(1)最先端の性能の達成と正確なアンラーニング(トレーニング)の近似,(2)データ所有者がブラックボックス監査によるアンラーニングの効果を明確に可視化できるようにする。
Machine unlearning provides viable solutions to revoke the effect of certain training data on pre-trained model parameters. Existing approaches provide unlearning recipes for classification and generative models. However, a category of important machine learning models, i.e., contrastive learning (CL) methods, is overlooked. In this paper, we fill this gap by first proposing the framework of Machine Unlearning for Contrastive learning (MUC) and adapting existing methods. Furthermore, we observe that several methods are mediocre unlearners and existing auditing tools may not be sufficient for data owners to validate the unlearning effects in contrastive learning. We thus propose a novel method called Alignment Calibration (AC) by explicitly considering the properties of contrastive learning and optimizing towards novel auditing metrics to easily verify unlearning. We empirically compare AC with baseline methods on SimCLR, MoCo and CLIP. We observe that AC addresses drawbacks of existing methods: (1) achieving state-of-the-art performance and approximating exact unlearning (retraining); (2) allowing data owners to clearly visualize the effect caused by unlearning through black-box auditing. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 非平衡多体コロイド系に対する神経力関数
Neural force functional for non-equilibrium many-body colloidal systems ( http://arxiv.org/abs/2406.03606v1 ) ライセンス: Link先を確認 | Toni Zimmerman, Florian Sammüller, Sophie Hermann, Matthias Schmidt, Daniel de las Heras, | (参考訳) パワー関数理論と機械学習を組み合わせて、コロイド粒子の非平衡過剰な多体系を1体場のレベルで研究する。
まず、ランダムに生成された外部場の影響下でブラウン粒子のコンピュータシミュレーションから、一体場を定常にサンプリングする。
ニューラルネットワークは、このデータを用いて訓練され、一体密度と速度プロファイルから一体の内部力場への公式な正確に機能的なマッピングを宇宙空間で局所的に表現する。
トレーニングされたネットワークは、非平衡超断熱力場とせん断やバルク粘性などの輸送係数を分析するために使用される。
局所的な学習手法により、ネットワークは1体フィールドをサンプリングする元のシミュレーションボックスよりもはるかに大きなシステムに適用できる。
ネットワークは、正確な非平衡一体力バランス方程式と連続性方程式を補完し、時間に依存した状況下での力学の実行可能な予測を導出する。
トレーニングは定常状態のみに基づいているが、予測力学はシミュレーション結果とよく一致している。
神経力学密度汎関数理論は、内部力場が平衡系のそれである極限の場合として簡単に実装できる。
このフレームワークは一般的なものであり、ブラウン力学に従って相互作用する粒子の他の多体系にも直接適用できる。
We combine power functional theory and machine learning to study non-equilibrium overdamped many-body systems of colloidal particles at the level of one-body fields. We first sample in steady state the one-body fields relevant for the dynamics from computer simulations of Brownian particles under the influence of randomly generated external fields. A neural network is then trained with this data to represent locally in space the formally exact functional mapping from the one-body density and velocity profiles to the one-body internal force field. The trained network is used to analyse the non-equilibrium superadiabatic force field and the transport coefficients such as shear and bulk viscosities. Due to the local learning approach, the network can be applied to systems much larger than the original simulation box in which the one-body fields are sampled. Complemented with the exact non-equilibrium one-body force balance equation and a continuity equation, the network yields viable predictions of the dynamics in time-dependent situations. Even though training is based on steady states only, the predicted dynamics is in good agreement with simulation results. A neural dynamical density functional theory can be straightforwardly implemented as a limiting case in which the internal force field is that of an equilibrium system. The framework is general and directly applicable to other many-body systems of interacting particles following Brownian dynamics. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# Fantastyc: ブロックチェーンベースのフェデレーションラーニングはセキュアで実践的
Fantastyc: Blockchain-based Federated Learning Made Secure and Practical ( http://arxiv.org/abs/2406.03608v1 ) ライセンス: Link先を確認 | William Boitier, Antonella Del Pozzo, Álvaro García-Pérez, Stephane Gazut, Pierre Jobic, Alexis Lemaire, Erwan Mahe, Aurelien Mayoue, Maxence Perion, Deepika Singh, Tuanir Franca Rezende, Sara Tucci-Piergiovanni, | (参考訳) フェデレートラーニング(Federated Learning)は、複数のクライアントが、ローカルデータを共有せずに、中央サーバのオーケストレーションの下で機械学習モデルを協調的にトレーニングすることを可能にする分散フレームワークである。
このフレームワークの中心性は、ブロックチェーンベースのフェデレーション学習アプローチによって、文献で扱われる障害点を表している。
トレーサビリティを備えた完全な分散ソリューションを保証する一方で、そのようなアプローチは、事実上デプロイされる完全性、機密性、スケーラビリティに関するいくつかの課題に直面している。
本稿では,この課題に対処するためのFantastycを提案する。
Federated Learning is a decentralized framework that enables multiple clients to collaboratively train a machine learning model under the orchestration of a central server without sharing their local data. The centrality of this framework represents a point of failure which is addressed in literature by blockchain-based federated learning approaches. While ensuring a fully-decentralized solution with traceability, such approaches still face several challenges about integrity, confidentiality and scalability to be practically deployed. In this paper, we propose Fantastyc, a solution designed to address these challenges that have been never met together in the state of the art. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 次世代高複雑性トレースガスセンシングのための変調リングダウンコム干渉計
Modulated Ringdown Comb Interferometry for next-generation high complexity trace gas sensing ( http://arxiv.org/abs/2406.03609v1 ) ライセンス: Link先を確認 | Qizhong Liang, Apoorva Bisht, Andrew Scheck, Peter G. Schunemann, Jun Ye, | (参考訳) 健康と環境に関連するガスサンプルは、典型的には膨大な濃度のダイナミックレンジにまたがる多数の分子種を含む。
高濃度分子は強い吸収背景を課し、低濃度種の堅牢な同定を妨げる。
高精細度キャビティ増強を伴う中赤外周波数コム分光法は、これまで最も感度の高い多種のトレースガス検出法の多くを実現しているが、その頑健な性能は、コームライン周波数から共振器共振器の分散を避けるために、ガスサンプルに弱い吸収特性しか含まないことを要求する。
そこで本研究では, この制約から解放された新しい手法を導入し, 複雑な分子組成と動的分子組成に広い適用性を有する次世代多種トレースガスセンシングの開発を可能にする。
変調リングダウンコム干渉法(Modulated Ringdown Comb Interferometry)の原理は、長さ変調キャビティを通して伝達される巨大並列コム線によって輸送されるリングダウンダイナミクスを解くことである。
この方法は、フィールドダイナミクスの周期性と、ミッチェルソン干渉計から導入されたドップラー周波数シフトの両方を利用する。
分散免疫と高効率データ収集により、スペクトルカバレッジとキャビティ微細化の両面を拡張できる。
このプラットフォーム上に構築され、これまでのすべての実験よりも桁違いに優れた微視的・スペクトル的カバレッジの製品が、中赤外において実現されている。
広帯域1010cm-1, キャビティ微細度23,000の範囲で, 高度に分散したヒトの呼吸サンプルを計測し, 本手法の有効性を実証した。
これにより、20個の異なる分子種を1個の三量体当たりの感度で同時定量することができ、その濃度は7桁に変化する。
Gas samples relevant to health and environment typically contain a plethora of molecular species that span a huge concentration dynamic range. High-concentration molecules impose a strong absorption background that hinders robust identification of low-concentration species. While mid-infrared frequency comb spectroscopy with high-finesse cavity enhancement has realized many of the most sensitive multi-species trace gas detection to date, its robust performance requires gas samples to contain only weak absorption features to avoid dispersing cavity resonances from the comb line frequencies. Here we introduce a new technique that is free from this restriction, thus enabling the development of next-generation multi-species trace gas sensing with broad applicability to complex and dynamic molecular compositions. The principle of Modulated Ringdown Comb Interferometry is to resolve ringdown dynamics carried by massively parallel comb lines transmitted through a length-modulated cavity. This method leverages both periodicity of the field dynamics and Doppler frequency shifts introduced from a Michelson interferometer. Scalable enhancement of both spectral coverage and cavity finesse is enabled with dispersion immune and high-efficiency data collection. Built upon this platform, we realize in the mid-infrared a product of finesse and spectral coverage that is orders of magnitude better than all prior experiments. We demonstrate the power of this technique by measuring highly dispersive exhaled human breath samples over a vastly expanded spectral coverage of 1,010 cm-1 and with cavity finesse of 23,000. This allows for the first time simultaneous quantification of 20 distinct molecular species at > 1 part-per-trillion sensitivity with their concentrations varying by 7 orders of magnitude. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# FedPylot: 自動車のインターネットにおけるリアルタイム物体検出のためのフェデレーション学習
FedPylot: Navigating Federated Learning for Real-Time Object Detection in Internet of Vehicles ( http://arxiv.org/abs/2406.03611v1 ) ライセンス: Link先を確認 | Cyprien Quéméneur, Soumaya Cherkaoui, | (参考訳) Internet of Vehicles (IoV)は、自動車、インフラ、歩行者、クラウドで構成される密接なネットワークにおいて、低レイテンシのビッグデータ処理を可能にすることで、自動運転およびインテリジェントトランスポートシステム(ITS)の重要なコンポーネントとして出現する。
自動運転車は機械学習(ML)に大きく依存しており、エッジで生成されたセンサデータの豊富な恩恵を受けることができる。
フェデレートラーニング(FL)は、車載ネットワークにおける洗練されたMLモデルをトレーニングし、道路ユーザのプライバシを保護し、通信オーバーヘッドを軽減するための有望なソリューションである。
本稿では,データの不均一性,コンセプトドリフト,ラベル分布スキューを含むリアルタイム物体検出のための最先端YOLOv7モデルのフェデレーション最適化について検討する。
この目的のために我々は,ハイパフォーマンスコンピューティング(HPC)システム上でのフェデレーションオブジェクト検出実験をシミュレートする,軽量MPIベースのプロトタイプであるFedPylotを紹介した。
本研究は, 精度, 通信コスト, 推論速度に影響を及ぼし, 自動運転車が直面する課題に対するバランスのとれたアプローチを示す。
我々は、IoVにおけるFLの適用性に関する有望な結果を実証し、FedPylotが今後のFederated Real-time Object Detection研究の基礎となることを期待する。
ソースコードはhttps://github.com/cyprienquemeneur/fedpylot.comで公開されている。
The Internet of Vehicles (IoV) emerges as a pivotal component for autonomous driving and intelligent transportation systems (ITS), by enabling low-latency big data processing in a dense interconnected network that comprises vehicles, infrastructures, pedestrians and the cloud. Autonomous vehicles are heavily reliant on machine learning (ML) and can strongly benefit from the wealth of sensory data generated at the edge, which calls for measures to reconcile model training with preserving the privacy of sensitive user data. Federated learning (FL) stands out as a promising solution to train sophisticated ML models in vehicular networks while protecting the privacy of road users and mitigating communication overhead. This paper examines the federated optimization of the cutting-edge YOLOv7 model to tackle real-time object detection amid data heterogeneity, encompassing unbalancedness, concept drift, and label distribution skews. To this end, we introduce FedPylot, a lightweight MPI-based prototype to simulate federated object detection experiments on high-performance computing (HPC) systems, where we safeguard server-client communications using hybrid encryption. Our study factors in accuracy, communication cost, and inference speed, thereby presenting a balanced approach to the challenges faced by autonomous vehicles. We demonstrate promising results for the applicability of FL in IoV and hope that FedPylot will provide a basis for future research into federated real-time object detection. The source code is available at https://github.com/cyprienquemeneur/fedpylot. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 異常検出の高速化:LLMを用いた非意味的財務データ符号化
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs ( http://arxiv.org/abs/2406.03614v1 ) ライセンス: Link先を確認 | Alexander Bakumenko, Kateřina Hlaváčková-Schindler, Claudia Plant, Nina C. Hubig, | (参考訳) 一般的な台帳データの異常を検出することは、財務記録の信頼性を確保する上で最も重要である。
財務監査は、不規則または潜在的に不正なジャーナルエントリを特定するために、機械学習(ML)アルゴリズムにますます依存している。
機械学習では、特徴次元の不均一性はデータ解析にかなりの複雑さをもたらす。
本稿では,Large Language Models (LLMs) を用いた金融データの異常検出手法を提案する。
実世界の財務記録からの非意味的分類データを符号化するために,3つの事前学習された汎用文変換器モデルを検証した。
下流分類タスクでは,ロジスティック回帰,ランダムフォレスト,グラディエントブースティングマシン,サポートベクトルマシン,ニューラルネットワークを含む5つの最適化MLモデルを実装,評価した。
実験により,LLMが異常検出に有用な情報を提供することを示す。
この結果は,金融ジャーナルの項目における異常検出,特に特徴空間の扱いにおいて,LCMsの有効性をさらに裏付けるものである。
財務状況等における非意味的データに対するLLM埋め込みの利用について,将来的な視点を論じる。
Detecting anomalies in general ledger data is of utmost importance to ensure trustworthiness of financial records. Financial audits increasingly rely on machine learning (ML) algorithms to identify irregular or potentially fraudulent journal entries, each characterized by a varying number of transactions. In machine learning, heterogeneity in feature dimensions adds significant complexity to data analysis. In this paper, we introduce a novel approach to anomaly detection in financial data using Large Language Models (LLMs) embeddings. To encode non-semantic categorical data from real-world financial records, we tested 3 pre-trained general purpose sentence-transformer models. For the downstream classification task, we implemented and evaluated 5 optimized ML models including Logistic Regression, Random Forest, Gradient Boosting Machines, Support Vector Machines, and Neural Networks. Our experiments demonstrate that LLMs contribute valuable information to anomaly detection as our models outperform the baselines, in selected settings even by a large margin. The findings further underscore the effectiveness of LLMs in enhancing anomaly detection in financial journal entries, particularly by tackling feature sparsity. We discuss a promising perspective on using LLM embeddings for non-semantic data in the financial context and beyond. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# BEACON: 高価なブラックボックスシステムにおけるノベルティ探索のためのベイズ最適化戦略
BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems ( http://arxiv.org/abs/2406.03616v1 ) ライセンス: Link先を確認 | Wei-Ting Tang, Ankush Chakrabarty, Joel A. Paulson, | (参考訳) ノベルティ・サーチ (NS) は、シミュレーションや実験を通じて様々なシステムの振る舞いを自動的に発見する探索アルゴリズムのクラスである。
多様な成果を体系的に得ることは、物質や薬物発見、ニューラルアーキテクチャ探索、強化学習、ロボットナビゲーションなど、多くの現実世界の設計問題において重要な要素である。
これらの複雑なシステムの入力と出力(つまり振る舞い)の関係は通常閉形式では利用できないので、NSはブラックボックスの視点を必要とする。
その結果、一般的なNSアルゴリズムは、システム評価にコストがかかる場合に、入力空間の集中的なサンプリングを必要とする進化的最適化やその他のメタヒューリスティックに依存している。
このような高価なブラックボックスシステムに特化して設計されたサンプル効率のNSに対するベイズ最適化法を提案する。
提案手法は,多出力ガウス過程 (MOGP) を用いた入力-行動マッピングをモデル化し,探索と搾取の両方を促進するMOGPから得られた先行サンプルに依存する新規度測定値の最大化により,次の点を選択する。
効率的な後方サンプリングと高次元ガウス過程モデリングの進歩を活用することで、我々のアプローチをデータの量と入力数の両方に関してスケーラブルにする方法について議論する。
クリーンエネルギー技術に使用する多様な金属有機フレームワークの発見などを含む,10の総合的なベンチマーク問題と8つの実世界の問題(最大2133個のインプットを含む)に対して,我々のアプローチを検証した。
提案手法は,限られたサンプル予算の下で,より大規模な多様な挙動の集合を見出すことにより,既存のNSアルゴリズムよりも大幅に優れていることを示す。
Novelty search (NS) refers to a class of exploration algorithms that automatically uncover diverse system behaviors through simulations or experiments. Systematically obtaining diverse outcomes is a key component in many real-world design problems such as material and drug discovery, neural architecture search, reinforcement learning, and robot navigation. Since the relationship between the inputs and outputs (i.e., behaviors) of these complex systems is typically not available in closed form, NS requires a black-box perspective. Consequently, popular NS algorithms rely on evolutionary optimization and other meta-heuristics that require intensive sampling of the input space, which is impractical when the system is expensive to evaluate. We propose a Bayesian optimization inspired algorithm for sample-efficient NS that is specifically designed for such expensive black-box systems. Our approach models the input-to-behavior mapping with multi-output Gaussian processes (MOGP) and selects the next point to evaluate by maximizing a novelty metric that depends on a posterior sample drawn from the MOGP that promotes both exploration and exploitation. By leveraging advances in efficient posterior sampling and high-dimensional Gaussian process modeling, we discuss how our approach can be made scalable with respect to both amount of data and number of inputs. We test our approach on ten synthetic benchmark problems and eight real-world problems (with up to 2133 inputs) including new applications such as discovery of diverse metal organic frameworks for use in clean energy technology. We show that our approach greatly outperforms existing NS algorithms by finding substantially larger sets of diverse behaviors under limited sample budgets. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# TACT:情報抽出ツールによる複合集約推論の促進
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools ( http://arxiv.org/abs/2406.03618v1 ) ライセンス: Link先を確認 | Avi Caciularu, Alon Jacovi, Eyal Ben-David, Sasha Goldshtein, Tal Schuster, Jonathan Herzig, Gal Elidan, Amir Globerson, | (参考訳) 大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
この設定をよりよく評価し、モデリング作業を容易にするために、複雑な命令を用いてLSMの推論と計算能力を評価するデータセットであるTACT-Text And calculations through Tablesを紹介した。
TACTには、1つ以上のテキストに散在する縫合情報を要求し、この情報を複雑な統合して回答を生成する、困難な命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
それぞれのテーブルに対して、新しいクエリを定式化し、それぞれの回答を収集する。
このデータセットでは, 現代のLLMはいずれも性能が悪く, 精度が38\%以下であることが実証された。
そこで本研究では,テーブルジェネレーション,パンダコマンドジェネレーション,実行という3つのコンポーネントのモデルパフォーマンスを分析した。
予期せぬことに、各コンポーネントが現在のLLMに対して重大な課題を提起していることが判明した。
これらの知見は、ツールとしてIEと呼ぶ集中型モデリングフレームワークの提案につながります。
具体的には、上記の各ステップに"ツール"を追加し、ほとんどショットプロンプトせずに、それぞれのツールを実装することを提案する。
このアプローチは既存のプロンプト技術よりも改善され、これらのタスクにおけるモデル機能を強化するための有望な方向性を提供する。
Large Language Models (LLMs) often do not perform well on queries that require the aggregation of information across texts. To better evaluate this setting and facilitate modeling efforts, we introduce TACT - Text And Calculations through Tables, a dataset crafted to evaluate LLMs' reasoning and computational abilities using complex instructions. TACT contains challenging instructions that demand stitching information scattered across one or more texts, and performing complex integration on this information to generate the answer. We construct this dataset by leveraging an existing dataset of texts and their associated tables. For each such tables, we formulate new queries, and gather their respective answers. We demonstrate that all contemporary LLMs perform poorly on this dataset, achieving an accuracy below 38\%. To pinpoint the difficulties and thoroughly dissect the problem, we analyze model performance across three components: table-generation, Pandas command-generation, and execution. Unexpectedly, we discover that each component presents substantial challenges for current LLMs. These insights lead us to propose a focused modeling framework, which we refer to as IE as a tool. Specifically, we propose to add "tools" for each of the above steps, and implement each such tool with few-shot prompting. This approach shows an improvement over existing prompting techniques, offering a promising direction for enhancing model capabilities in these tasks. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# アフィン変換を超えた対称性の発見
Symmetry Discovery Beyond Affine Transformations ( http://arxiv.org/abs/2406.03619v1 ) ライセンス: Link先を確認 | Ben Shaw, Abram Magner, Kevin R. Moon, | (参考訳) 対称性検出は様々な機械学習タスクを改善することが示されている。
連続対称性検出の文脈では、現在の最先端の実験はアフィン変換の検出に限られる。
多様体の仮定の下で、アフィン変換群を超えたデータの連続対称性を発見するための枠組みを概説する。
また、離散対称性を発見するための同様の枠組みも提供する。
提案手法をLieGANと呼ばれる既存手法と比較した結果, 試料径の大きいアフィン対称性を検出でき, 試料径の小さいLieGANよりも優れていることがわかった。
また,本手法はアフィン群以外の連続対称性の検出が可能であり,一般にLieGANよりも計算効率が高いことを示す。
Symmetry detection has been shown to improve various machine learning tasks. In the context of continuous symmetry detection, current state of the art experiments are limited to the detection of affine transformations. Under the manifold assumption, we outline a framework for discovering continuous symmetry in data beyond the affine transformation group. We also provide a similar framework for discovering discrete symmetry. We experimentally compare our method to an existing method known as LieGAN and show that our method is competitive at detecting affine symmetries for large sample sizes and superior than LieGAN for small sample sizes. We also show our method is able to detect continuous symmetries beyond the affine group and is generally more computationally efficient than LieGAN. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 遅延アルゴリズムによるプライベートオンライン学習
Private Online Learning via Lazy Algorithms ( http://arxiv.org/abs/2406.03620v1 ) ライセンス: Link先を確認 | Hilal Asi, Tomer Koren, Daogao Liu, Kunal Talwar, | (参考訳) 本稿では,オンライン学習の問題,特に専門家によるオンライン予測(OPE)とオンライン凸最適化(OCO)について検討する。
遅延オンライン学習アルゴリズムをプライベートアルゴリズムに変換する新しい変換を提案する。
これらの問題に対して,既存の遅延アルゴリズムを用いて,微分プライベートなOPEとOCOに変換を適用した。
DP-OPEは$\sqrt{T \log d} + T^{1/3} \log(d)/\varepsilon^{2/3}$、DP-OCOは$\sqrt{T} + T^{1/3} \sqrt{d}/\varepsilon^{2/3}$となる。
また、DP-OPE の低い境界で結果の補足を行い、これらの値は、低スイッチのプライベートアルゴリズムの自然なファミリーに最適であることを示す。
We study the problem of private online learning, specifically, online prediction from experts (OPE) and online convex optimization (OCO). We propose a new transformation that transforms lazy online learning algorithms into private algorithms. We apply our transformation for differentially private OPE and OCO using existing lazy algorithms for these problems. Our final algorithms obtain regret, which significantly improves the regret in the high privacy regime $\varepsilon \ll 1$, obtaining $\sqrt{T \log d} + T^{1/3} \log(d)/\varepsilon^{2/3}$ for DP-OPE and $\sqrt{T} + T^{1/3} \sqrt{d}/\varepsilon^{2/3}$ for DP-OCO. We also complement our results with a lower bound for DP-OPE, showing that these rates are optimal for a natural family of low-switching private algorithms. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 微小キャビティにおける真空揺らぎによるハニカム格子の絡み合い
Entanglement harvesting in buckled honeycomb lattices by vacuum fluctuations in a microcavity ( http://arxiv.org/abs/2406.03624v1 ) ライセンス: Link先を確認 | Facundo Arreyes, Federico Escudero, Juan Sebastián Ardenghi, Alfredo Juan, | (参考訳) 平面マイクロキャビティ内に設置した2つの同一折り畳みハニカム格子間の絡み合いについて検討した。
時間依存摂動理論を適用することにより、空洞場によって誘導される両方の層間の量子相関を求める。
空洞場の初期状態として真空状態を考慮し, 時間とともに変化する自由度を追跡した結果, コンカレンス測定による絡み合いの形成を解析した。
共起は、層間光子プロパゲータを介して交換された仮想光子と層の位置に依存することを示す。
さらに、等エネルギー電子間の絡み合いの形成は、垂直方向に移動すると増大する傾向にある。
以上の結果から,ハニカムの座屈構造と大きなスピン軌道相互作用が絡み合いの収穫に有利であることが示唆された。
We study the entanglement harvesting between two identical buckled honeycomb lattices placed inside a planar microcavity. By applying time dependent perturbation theory, we obtain quantum correlations between both layers induced by the cavity field. Considering the vacuum state as the initial state of the cavity field and tracing out the time-evolved degrees of freedom, we analyze the entanglement formation using the concurrence measure. We show that the concurrence depends on the virtual photon exchanged and the positions of the layer through the interlayer photon propagator. Furthermore, we find that the formation of entanglement between equal energy electrons tends to be enhanced when they move in perpendicular directions. Our results indicate that a buckled honeycomb structure and a large spin-orbit interaction favor the entanglement harvesting. | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 自由度のデグリー:点軌道からのダイナミクスの推測
Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories ( http://arxiv.org/abs/2406.03625v1 ) ライセンス: Link先を確認 | Yan Zhang, Sergey Prokudin, Marko Mihajlovic, Qianli Ma, Siyu Tang, | (参考訳) ジェネリック3Dシーンのダイナミクスを理解することは、コンピュータビジョンにおいて基本的に困難であり、シーン再構成、モーショントラッキング、アバター作成に関連する応用の強化に不可欠である。
本研究では,3次元点の高密度な長距離運動を推定する問題として,この課題に対処する。
点軌跡の集合を観察することにより、ニューラルネットワークによってパラメータ化された暗黙の運動場を学習し、データ駆動やシーン固有の先行情報に頼ることなく、同一領域内の新規点の動きを予測することを目指す。
そこで本研究では, 標準フレームと個々の観測フレーム間の滑らかな変形場を学習する動的点場モデルを構築した。
しかし、連続するフレーム間の時間的一貫性は無視され、フレーム単位のモデリングによって要求されるパラメータの数は、シーケンス長とともに線形に増加する。
これらの欠点に対処するために、SIRENが提供する本質的な正規化を活用し、入力層を変更して時空間的に滑らかな運動場を生成する。
さらに、運動場ヤコビ行列を分析し、点周辺の無限小領域における自由度(DOF)とネットワーク隠れ変数がモデルの表現力に影響を与える振る舞いが異なることを明らかにする。
これにより、モデルコンパクト性を保ちながら、モデル表現能力を向上させることができる。
さらに, 過度に適合するリスクを低減するために, 片方向の運動の滑らかさを仮定した正規化項を導入する。
本実験は, 未知点軌道の予測におけるモデルの性能評価と, 誘導による時間メッシュアライメントへの応用について検討した。
結果は、その優位性と有効性を示している。
プロジェクトのコードとデータが公開されている。 \url{https://yz-cnsdqz.github.io/eigenmotion/DOMA/}
Understanding the dynamics of generic 3D scenes is fundamentally challenging in computer vision, essential in enhancing applications related to scene reconstruction, motion tracking, and avatar creation. In this work, we address the task as the problem of inferring dense, long-range motion of 3D points. By observing a set of point trajectories, we aim to learn an implicit motion field parameterized by a neural network to predict the movement of novel points within the same domain, without relying on any data-driven or scene-specific priors. To achieve this, our approach builds upon the recently introduced dynamic point field model that learns smooth deformation fields between the canonical frame and individual observation frames. However, temporal consistency between consecutive frames is neglected, and the number of required parameters increases linearly with the sequence length due to per-frame modeling. To address these shortcomings, we exploit the intrinsic regularization provided by SIREN, and modify the input layer to produce a spatiotemporally smooth motion field. Additionally, we analyze the motion field Jacobian matrix, and discover that the motion degrees of freedom (DOFs) in an infinitesimal area around a point and the network hidden variables have different behaviors to affect the model's representational power. This enables us to improve the model representation capability while retaining the model compactness. Furthermore, to reduce the risk of overfitting, we introduce a regularization term based on the assumption of piece-wise motion smoothness. Our experiments assess the model's performance in predicting unseen point trajectories and its application in temporal mesh alignment with guidance. The results demonstrate its superiority and effectiveness. The code and data for the project are publicly available: \url{https://yz-cnsdqz.github.io/eigenmotion/DOMA/} | 翻訳日:2024-06-07 19:04:59 公開日:2024-06-05 |
# 量子センシングにおける最適制御とガラス性
Optimal Control and Glassiness in Quantum Sensing ( http://arxiv.org/abs/2406.03627v1 ) ライセンス: Link先を確認 | Christopher I. Timms, Michael H. Kolodrubetz, | (参考訳) 量子システムは、材料の走査型プローブ顕微鏡からバイオメディカルイメージングまで幅広い用途を持つ強力な検出器である。
例えば、ダイヤモンド中の窒素空孔(NV)中心は、磁場、温度、または関連する信号を検知するための量子ビットとして操作することができる。
パルスシーケンスを適切に設計することで、実験は環境ノイズからこの信号をフィルタリングし、単一のNV中心で非常に敏感な測定を可能にする。
近年、パルスシーケンスの修正により感度を向上させるために最適な制御が用いられており、特に$\pi$パルスの配置が最適である。
ここでは、$\pi$パルスを超えて、連続時間依存の制御フィールドの最適化について検討する。
これらのプロトコルを最適化することの難しさは、古典的なフラストレーションスピン系における最小自由エネルギーを見つけるのが困難であることを示す。
ほとんどの最適化は、Isingのスピングラスと同様、パワー法則として成長するセンシングプロトコルの自己相関を示すが、連続制御は対数成長が遅いことを示唆しており、より硬いハイゼンベルクのようなガラスの風景を示唆している。
Quantum systems are powerful detectors with wide-ranging applications from scanning probe microscopy of materials to biomedical imaging. Nitrogen vacancy (NV) centers in diamond, for instance, can be operated as qubits for sensing of magnetic field, temperature, or related signals. By well-designed application of pulse sequences, experiments can filter this signal from environmental noise, allowing extremely sensitive measurements with single NV centers. Recently, optimal control has been used to further improve sensitivity by modification of the pulse sequence, most notably by optimal placement of $\pi$ pulses. Here we consider extending beyond $\pi$ pulses, exploring optimization of a continuous, time-dependent control field. We show that the difficulty of optimizing these protocols can be mapped to the difficulty of finding minimum free energy in a classical frustrated spin system. While most optimizations we consider show autocorrelations of the sensing protocol that grow as a power law -- similar to an Ising spin glass -- the continuous control shows slower logarithmic growth, suggestive of a harder Heisenberg-like glassy landscape. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 合成オーバーサンプリング: LLMによるデータ不均衡対策の理論と実践的アプローチ
Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance ( http://arxiv.org/abs/2406.03628v1 ) ライセンス: Link先を確認 | Ryumei Nakada, Yichen Xu, Lexin Li, Linjun Zhang, | (参考訳) 不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
本稿では,OPAL(\textbf{O}versam\textbf{P}ling with \textbf{A}rtificial \textbf{L}LM- generated data)を導入する。
深部生成モデルを用いた合成データ生成に関する最近の研究は、主に予測タスクを対象としている。
我々の提案は、不均衡なデータと急激な相関を扱うことに重点を置いているという点で異なっています。
より重要なことは、我々は、合成データを使用することの利点を厳格に特徴づけ、ラベルと共変量の両方で高品質な合成データを生成するトランスフォーマーの能力を示す新しい理論を開発することである。
さらに,提案手法の有効性を示すために,いくつかの代表的な代替手法と比較して,集中的な数値実験を行った。
Imbalanced data and spurious correlations are common challenges in machine learning and data science. Oversampling, which artificially increases the number of instances in the underrepresented classes, has been widely adopted to tackle these challenges. In this article, we introduce OPAL (\textbf{O}versam\textbf{P}ling with \textbf{A}rtificial \textbf{L}LM-generated data), a systematic oversampling approach that leverages the capabilities of large language models (LLMs) to generate high-quality synthetic data for minority groups. Recent studies on synthetic data generation using deep generative models mostly target prediction tasks. Our proposal differs in that we focus on handling imbalanced data and spurious correlations. More importantly, we develop a novel theory that rigorously characterizes the benefits of using the synthetic data, and shows the capacity of transformers in generating high-quality synthetic data for both labels and covariates. We further conduct intensive numerical experiments to demonstrate the efficacy of our proposed approach compared to some representative alternative solutions. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 6GのためのアクティブML:効率的なデータ生成、取得、アノテーションを目指して
Active ML for 6G: Towards Efficient Data Generation, Acquisition, and Annotation ( http://arxiv.org/abs/2406.03630v1 ) ライセンス: Link先を確認 | Omar Alhussein, Ning Zhang, Sami Muhaidat, Weihua Zhuang, | (参考訳) 本稿では6Gネットワークにおけるアクティブ機械学習(ML)の統合について検討する。
受動的MLシステムとは異なり、アクティブMLはネットワーク環境と相互作用する。
これにより、学習過程を加速しながら、必要なデータ量を減らし、情報や代表データポイントを積極的に選択する。
アクティブラーニング研究は主にデータアノテーションに焦点を当てているが、我々は、アノテーション(ラベルとは何か)とデータ取得(収集するサンプルの数)の両方を考慮する、ネットワーク中心のアクティブラーニングフレームワークを求めている。
さらに,生成型人工知能(AI)とアクティブラーニングの相乗効果について検討し,アクティブラーニングと生成型AIの両方の既存の限界を克服する。
また、6Gネットワークにおけるアクティブラーニングの実践的メリットと性能向上を示すために、mmWaveスループット予測問題に関するケーススタディを取り上げている。
さらに,アクティブラーニングの意義を,多数の6Gネットワーク利用事例に拡張する方法について論じる。
我々は,能動学習に基づく6Gネットワークが,計算効率,データアノテーション,取得効率,適応性,ネットワークインテリジェンス全般を向上させる可能性を強調した。
6Gネットワークにおけるアクティブラーニングの課題と今後の研究方向性について,新たなクエリ戦略の開発,分散ラーニング統合,ヒューマン・イン・ザ・ループラーニングの導入などについて論じる。
This paper explores the integration of active machine learning (ML) for 6G networks, an area that remains under-explored yet holds potential. Unlike passive ML systems, active ML can be made to interact with the network environment. It actively selects informative and representative data points for training, thereby reducing the volume of data needed while accelerating the learning process. While active learning research mainly focuses on data annotation, we call for a network-centric active learning framework that considers both annotation (i.e., what is the label) and data acquisition (i.e., which and how many samples to collect). Moreover, we explore the synergy between generative artificial intelligence (AI) and active learning to overcome existing limitations in both active learning and generative AI. This paper also features a case study on a mmWave throughput prediction problem to demonstrate the practical benefits and improved performance of active learning for 6G networks. Furthermore, we discuss how the implications of active learning extend to numerous 6G network use cases. We highlight the potential of active learning based 6G networks to enhance computational efficiency, data annotation and acquisition efficiency, adaptability, and overall network intelligence. We conclude with a discussion on challenges and future research directions for active learning in 6G networks, including development of novel query strategies, distributed learning integration, and inclusion of human- and machine-in-the-loop learning. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 潜伏空間でバイアスを発見:教師なしの偏見のアプローチ
Discovering Bias in Latent Space: An Unsupervised Debiasing Approach ( http://arxiv.org/abs/2406.03631v1 ) ライセンス: Link先を確認 | Dyah Adila, Shuai Zhang, Boran Han, Yuyang Wang, | (参考訳) 基礎モデルの質問応答(QA)能力は、変化を促すために非常に敏感であり、その性能は表面的で意味のない変化に影響を受けやすい。
この脆弱性は、オプション位置やマルチモーダル設定における表面画像の特徴など、特定の入力特性に対するモデルの好みや偏見から生じることが多い。
モデルの内部表現において、このバイアスを直接修正することを提案する。
我々のアプローチであるSteerFairは、モデルの表現空間におけるバイアス方向を見つけ、推論中にアクティベーション値から分離する。
具体的には、バイアスが第一の選択肢と正しさの急激な関連性のような単純な関連規則によく従うという観察を利用する。
次に、ラベルのないサンプルからこれらのルールのデモを作成し、バイアス方向を識別する。
我々は,SteerFairが3つのベンチマークタスクの即時修正において,命令調整されたモデル性能のばらつきを著しく低減できることを実証的に示す。
注目すべきは、100のラベルを持つ教師付きベースラインを平均10.86%の精度ポイントと12.95のスコアポイントで上回り、500のラベルとパフォーマンスを一致させることだ。
The question-answering (QA) capabilities of foundation models are highly sensitive to prompt variations, rendering their performance susceptible to superficial, non-meaning-altering changes. This vulnerability often stems from the model's preference or bias towards specific input characteristics, such as option position or superficial image features in multi-modal settings. We propose to rectify this bias directly in the model's internal representation. Our approach, SteerFair, finds the bias direction in the model's representation space and steers activation values away from it during inference. Specifically, we exploit the observation that bias often adheres to simple association rules, such as the spurious association between the first option and correctness likelihood. Next, we construct demonstrations of these rules from unlabeled samples and use them to identify the bias directions. We empirically show that SteerFair significantly reduces instruction-tuned model performance variance across prompt modifications on three benchmark tasks. Remarkably, our approach surpasses a supervised baseline with 100 labels by an average of 10.86% accuracy points and 12.95 score points and matches the performance with 500 labels. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 極低リソースプログラミング言語におけるテキストからコードへの合成プログラミングの励磁と補修
Synthetic Programming Elicitation and Repair for Text-to-Code in Very Low-Resource Programming Languages ( http://arxiv.org/abs/2406.03636v1 ) ライセンス: Link先を確認 | Federico Mora, Justin Wong, Haley Lepe, Sahil Bhatia, Karim Elmaaroufi, George Varghese, Joseph E. Gonzalez, Elizabeth Polgreen, Sanjit A. Seshia, | (参考訳) コードアプリケーションのための大規模言語モデル(LLM)の最近の進歩は、テストケース生成から自己修復まで、コードに関連する課題に追従する、目覚ましいゼロショットの流速と命令を実証している。
しかし、当然のことながら、モデルは非常に低リソースのプログラミング言語 (VLPL) と呼ばれる事前学習で表現されていないプログラミング言語において、構文的に有効なプログラムを構成するのに苦労している。
VLPLは、内部ツールやツールチェーン、レガシ言語など、ドメイン固有の言語を含む重要な設定で表示される。
そこで本研究では,LLMs ``naturally'' が使用方法を知っていて,対象の VLPL に自動的にコンパイル可能な中間言語を設計することを提案する。
具体的には,Synthetic programming elicitation and compilation (SPEAK)を導入し,LLMがVLPLに対しても構文的に有効なコードを生成する手法を提案する。
ケーススタディにおいて,SPEAKの性能を実証的に評価し,既存の検索や微調整ベースラインと比較して,意味的正当性を犠牲にすることなく,構文的に正しいプログラムをより頻繁に生成することを発見した。
Recent advances in large language models (LLMs) for code applications have demonstrated remarkable zero-shot fluency and instruction following on challenging code related tasks ranging from test case generation to self-repair. Unsurprisingly, however, models struggle to compose syntactically valid programs in programming languages unrepresented in pre-training, referred to as very low-resource Programming Languages (VLPLs). VLPLs appear in crucial settings including domain-specific languages for internal to tools and tool-chains and legacy languages. Inspired by an HCI technique called natural program elicitation, we propose designing an intermediate language that LLMs ``naturally'' know how to use and which can be automatically compiled to the target VLPL. Specifically, we introduce synthetic programming elicitation and compilation (SPEAK), an approach that enables LLMs to generate syntactically valid code even for VLPLs. We empirically evaluate the performance of SPEAK in a case study and find that, compared to existing retrieval and fine-tuning baselines, SPEAK produces syntactically correct programs more frequently without sacrificing semantic correctness. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 表現型テキスト音声合成のためのエキスパートのスタイルミックス
Style Mixture of Experts for Expressive Text-To-Speech Synthesis ( http://arxiv.org/abs/2406.03637v1 ) ライセンス: Link先を確認 | Ahad Jawaid, Shreeram Suresh Chandra, Junchen Lu, Berrak Sisman, | (参考訳) 近年,TTS (style transfer text-to-speech) の進歩により,合成音声の表現性が向上した。
これらの進歩にもかかわらず、多様で目に見えない参照音声からのスタイリスティックな情報を符号化することは依然として困難である。
本稿では、スタイルエンコーダによってモデル化された埋め込み空間を、スタイルエキスパートによって処理される抽出可能なサブセットに分割するアプローチであるStyleMoEを紹介する。
提案手法は,TSシステムのスタイルエンコーダをMixture of Experts (MoE)層に置き換える。
ゲーティングネットワークを利用して、異なるスタイルの専門家に参照音声をルーティングすることで、各専門家は最適化中のスタイル空間の側面を専門化する。
提案手法の有効性を客観的かつ主観的に実証し,多様かつ不明瞭なスタイルに対するスタイル空間のカバー範囲を拡大する。
このアプローチは、既存の最先端スタイル転送RTSモデルの性能を向上させることが可能であり、我々の知識に対するスタイル転送RTSにおけるMoEの最初の研究である。
Recent advances in style transfer text-to-speech (TTS) have improved the expressiveness of synthesized speech. Despite these advancements, encoding stylistic information from diverse and unseen reference speech remains challenging. This paper introduces StyleMoE, an approach that divides the embedding space, modeled by the style encoder, into tractable subsets handled by style experts. The proposed method replaces the style encoder in a TTS system with a Mixture of Experts (MoE) layer. By utilizing a gating network to route reference speeches to different style experts, each expert specializes in aspects of the style space during optimization. Our experiments objectively and subjectively demonstrate the effectiveness of our proposed method in increasing the coverage of the style space for diverse and unseen styles. This approach can enhance the performance of existing state-of-the-art style transfer TTS models, marking the first study of MoE in style transfer TTS to our knowledge. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 実活動における課題と行動計画
Task and Motion Planning for Execution in the Real ( http://arxiv.org/abs/2406.03641v1 ) ライセンス: Link先を確認 | Tianyang Pan, Rahul Shome, Lydia E. Kavraki, | (参考訳) タスク・アンド・モーション・プランニングは、個別のタスク・ドメインに対する推論と連続的なモーション・ジェネレーションを組み合わせた強力なハイブリッド・プランニング手法である。
従来の推論では、タスクドメインモデルと十分な情報が必要で、アクションを基盤にして、計画クエリを動作させる。
この知識のギャップは、隠蔽や不正確なモデリングのような情報源から生じることが多い。
この作業は、作業を含むタスクと動作の計画を生成するが、計画時には完全には理解できない。
実行中、そのようなアクションは、提供された人間設計または学習されたクローズドループの振る舞いによって処理される。
実行は、タスク目標に到達するまでオフラインで計画された動きとオンライン行動を組み合わせる。
行動の失敗は、新しい計画を見つけるための制約として返される。
提案したフレームワークを評価し,最先端技術と比較するために,40の実ロボット試験とモチベーション実証を実施した。
その結果、実行時間が短縮され、アクションの数が少なくなり、さまざまなギャップが生じる問題の成功率が向上した。
実験データは、研究者がこれらの設定をシミュレートするために共有される。
この研究は、ロボットが対処できる現実的な部分的な問題に、適用可能なクラスを拡大する、という約束を示している。
Task and motion planning represents a powerful set of hybrid planning methods that combine reasoning over discrete task domains and continuous motion generation. Traditional reasoning necessitates task domain models and enough information to ground actions to motion planning queries. Gaps in this knowledge often arise from sources like occlusion or imprecise modeling. This work generates task and motion plans that include actions cannot be fully grounded at planning time. During execution, such an action is handled by a provided human-designed or learned closed-loop behavior. Execution combines offline planned motions and online behaviors till reaching the task goal. Failures of behaviors are fed back as constraints to find new plans. Forty real-robot trials and motivating demonstrations are performed to evaluate the proposed framework and compare against state-of-the-art. Results show faster execution time, less number of actions, and more success in problems where diverse gaps arise. The experiment data is shared for researchers to simulate these settings. The work shows promise in expanding the applicable class of realistic partially grounded problems that robots can address. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 自由な自己アライメントは可能か?
Is Free Self-Alignment Possible? ( http://arxiv.org/abs/2406.03642v1 ) ライセンス: Link先を確認 | Dyah Adila, Changho Shin, Yijing Zhang, Frederic Sala, | (参考訳) 事前訓練された言語モデル (LM) の調整は複雑で資源集約的なプロセスであり、多くの場合、大量の地上の好みデータと相当量の計算データにアクセスする必要がある。
これらのコストは必要ですか?
つまり、本質的なモデル知識のみを使用して、追加のトレーニングなしで整列することが可能か?
AlignEZは(1)自己生成の好みデータと(2)表現の編集を利用して、ほぼ費用がかからないアライメントを提供する手法である。
推論中、AlignEZはLM表現を変更して望ましくないコンポーネントを減らし、自己生成された選好ペアによって特定される部分空間を用いて望ましいコンポーネントを増強する。
実験の結果、このほぼ無償の手順は、6つのデータセットと3つのモデルアーキテクチャで観測されるベーストレーニング済みモデルとチューニング済みモデルの間のギャップを平均31.6%削減することがわかった。
さらに、より高価なアライメント手順を高速化する手段としてAlignEZを使用する可能性についても検討する。
実験の結果、AlignEZ は、少量の地味嗜好データのみを用いて調整された DPO モデルを改善することがわかった。
最後に,AlignEZによる改善が実現可能な条件について検討し,その有効性について貴重な知見を提供する。
Aligning pretrained language models (LMs) is a complex and resource-intensive process, often requiring access to large amounts of ground-truth preference data and substantial compute. Are these costs necessary? That is, it is possible to align using only inherent model knowledge and without additional training? We tackle this challenge with AlignEZ, a novel approach that uses (1) self-generated preference data and (2) representation editing to provide nearly cost-free alignment. During inference, AlignEZ modifies LM representations to reduce undesirable and boost desirable components using subspaces identified via self-generated preference pairs. Our experiments reveal that this nearly cost-free procedure significantly narrows the gap between base pretrained and tuned models by an average of 31.6%, observed across six datasets and three model architectures. Additionally, we explore the potential of using AlignEZ as a means of expediting more expensive alignment procedures. Our experiments show that AlignEZ improves DPO models tuned only using a small subset of ground-truth preference data. Lastly, we study the conditions under which improvement using AlignEZ is feasible, providing valuable insights into its effectiveness. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 氷チャートに基づく海氷分類のための氷損失を用いた部分ラベル学習
Partial Label Learning with Focal Loss for Sea Ice Classification Based on Ice Charts ( http://arxiv.org/abs/2406.03645v1 ) ライセンス: Link先を確認 | Behzad Vahedi, Benjamin Lucas, Farnoush Banaei-Kashani, Andrew P. Barrett, Walter N. Meier, Siri Jodha Khalsa, Morteza Karimzadeh, | (参考訳) 北極と地球の気候にとって重要な海氷は、一貫した監視と高解像度のマッピングを必要とする。
しかし、手動の海氷マッピングは時間がかかり、主観的であり、自動化された深層学習に基づく分類アプローチの必要性を喚起する。
しかし、これらのアルゴリズムの訓練は、訓練データとして一般的に使用される専門家による氷のチャートは、単一の氷のタイプではなく、複数の氷のタイプでポリゴンのマッピングを行うため、困難である。
さらに、これらのチャートにおける様々な氷種の分布は、しばしば不均衡であり、支配階級に対する性能バイアスをもたらす。
本稿では,複数のラベルとクラス不均衡に対処するための信頼度を明示した部分的ラベル学習タスクとして定式化することで,海氷分類のトレーニングを行う新しいGeoAI手法を提案する。
我々は、ポリゴンレベルのラベルを候補部分ラベルとして扱い、対応する氷濃度を各候補ラベルの信頼性スコアとして割り当て、焦点損失と統合して畳み込みニューラルネットワーク(CNN)を訓練する。
提案手法により, セチネル-1二重偏極SAR画像の海氷分類性能の向上が図られ, 分類精度が87%から92%に向上し, 平均F-1スコアが90%から93%に向上した。
また6つの海氷クラスのうち4つのF-1スコアも改善されている。
Sea ice, crucial to the Arctic and Earth's climate, requires consistent monitoring and high-resolution mapping. Manual sea ice mapping, however, is time-consuming and subjective, prompting the need for automated deep learning-based classification approaches. However, training these algorithms is challenging because expert-generated ice charts, commonly used as training data, do not map single ice types but instead map polygons with multiple ice types. Moreover, the distribution of various ice types in these charts is frequently imbalanced, resulting in a performance bias towards the dominant class. In this paper, we present a novel GeoAI approach to training sea ice classification by formalizing it as a partial label learning task with explicit confidence scores to address multiple labels and class imbalance. We treat the polygon-level labels as candidate partial labels, assign the corresponding ice concentrations as confidence scores to each candidate label, and integrate them with focal loss to train a Convolutional Neural Network (CNN). Our proposed approach leads to enhanced performance for sea ice classification in Sentinel-1 dual-polarized SAR images, improving classification accuracy (from 87% to 92%) and weighted average F-1 score (from 90% to 93%) compared to the conventional training approach of using one-hot encoded labels and Categorical Cross-Entropy loss. It also improves the F-1 score in 4 out of the 6 sea ice classes. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 組合せ最適化のための決定型グラフニューラルネットワーク
Decision-focused Graph Neural Networks for Combinatorial Optimization ( http://arxiv.org/abs/2406.03647v1 ) ライセンス: Link先を確認 | Yang Liu, Chuan Zhou, Peng Zhang, Shirui Pan, Zhao Li, Hongyang Chen, | (参考訳) 近年,ニューラルネットワークフレームワークによる組合せ最適化(CO)問題の研究に注目が集まっている。
これらの課題に取り組むための新たな戦略は、従来のアルゴリズムに代わるグラフニューラルネットワーク(GNN)の採用である。
GNNや従来のアルゴリズムソルバがCOの領域で人気が高まっているにもかかわらず、それらの統合利用とエンドツーエンドフレームワークにおけるそれらの相関について限定的な研究がなされている。
私たちの研究の主な焦点は、決定に焦点をあてた学習をグラフに導入することで、より効率的で正確なCOフレームワークを定式化することです。
さらに、GNNを利用してCO問題に補助的なサポートで対処する決定に焦点を当てたフレームワークも導入する。
エンドツーエンドのアプローチを実現するために、我々は2つのカスケードモジュールを設計した。
(a)教師なし学習グラフ予測モデル、及び
(b)2進二進最適化のための解法。
最大カット,最大独立セット,最小頂点カバーなど,様々な古典的タスクに対して実証評価を行う。
古典的CO問題(MaxCut,MIS,MVC)に対する実験結果から,従来のGNN手法と古典的手法のどちらよりも,本手法の優位性が示された。
In recent years, there has been notable interest in investigating combinatorial optimization (CO) problems by neural-based framework. An emerging strategy to tackle these challenging problems involves the adoption of graph neural networks (GNNs) as an alternative to traditional algorithms, a subject that has attracted considerable attention. Despite the growing popularity of GNNs and traditional algorithm solvers in the realm of CO, there is limited research on their integrated use and the correlation between them within an end-to-end framework. The primary focus of our work is to formulate a more efficient and precise framework for CO by employing decision-focused learning on graphs. Additionally, we introduce a decision-focused framework that utilizes GNNs to address CO problems with auxiliary support. To realize an end-to-end approach, we have designed two cascaded modules: (a) an unsupervised trained graph predictive model, and (b) a solver for quadratic binary unconstrained optimization. Empirical evaluations are conducted on various classical tasks, including maximum cut, maximum independent set, and minimum vertex cover. The experimental results on classical CO problems (i.e. MaxCut, MIS, and MVC) demonstrate the superiority of our method over both the standalone GNN approach and classical methods. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 仕様からの強化学習における帰納的一般化
Inductive Generalization in Reinforcement Learning from Specifications ( http://arxiv.org/abs/2406.03651v1 ) ライセンス: Link先を確認 | Vignesh Subramanian, Rohit Kushwah, Subhajit Roy, Suguman Bansal, | (参考訳) 論理的仕様からRLの新しい帰納的一般化フレームワークを提案する。
RL環境における多くの興味深いタスクは自然な帰納的構造を持つ。
これらの帰納的タスクは同様に全体的目標を持つが、低レベルの述語や分布において帰納的に異なる。
本稿では、この帰納的関係を利用して、帰納的タスクのインスタンスに対する適切なポリシーをゼロショットで生成する高階関数、ポリシジェネレータを学習する一般化手順を提案する。
提案手法を一組の制御ベンチマークで評価することにより,長期的タスクに対する見当たらないポリシーを一般化する上で,我々のフレームワークが約束することを示す。
We present a novel inductive generalization framework for RL from logical specifications. Many interesting tasks in RL environments have a natural inductive structure. These inductive tasks have similar overarching goals but they differ inductively in low-level predicates and distributions. We present a generalization procedure that leverages this inductive relationship to learn a higher-order function, a policy generator, that generates appropriately adapted policies for instances of an inductive task in a zero-shot manner. An evaluation of the proposed approach on a set of challenging control benchmarks demonstrates the promise of our framework in generalizing to unseen policies for long-horizon tasks. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 長期投資のためのポートフォリオ戦略の組み立て--意思決定とアルゴリズムのための配当自由選好フレームワーク
Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms ( http://arxiv.org/abs/2406.03652v1 ) ライセンス: Link先を確認 | Duy Khanh Lam, | (参考訳) 本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
将来の市場における戦略のパフォーマンスの不確実性は、しばしば特定のモデルや統計的仮定に基づいており、投資家はリスクを軽減し、複数の戦略を組み合わせることで堅牢性を高める。
しかし、分布のない一貫した選好フレームワークが存在しないことは、あいまいな目的のために組み合わせの決定を複雑にする。
このギャップに対処するために、投資家の意思決定選択を確立し、明確な目標を形成することにより、市場条件に関係なく戦略を組み合わせるための新たな意思決定枠組みを導入する。
この枠組みを通じて、統計的仮定のない組合せ戦略構築を提案し、決定された基準を満たすような任意の規模のコンポーネント戦略であっても無限である。
最後に,提案した戦略を,高速化された変種や他の多戦略とともに検証する。
数値実験の結果,シャープ比が小さいが,その累積富が最良成分戦略を上回り,加速戦略が性能を著しく向上させるという,提案した戦略に有利な結果が得られた。
This paper investigates the problem of ensembling multiple strategies for sequential portfolios to outperform individual strategies in terms of long-term wealth. Due to the uncertainty of strategies' performances in the future market, which are often based on specific models and statistical assumptions, investors often mitigate risk and enhance robustness by combining multiple strategies, akin to common approaches in collective learning prediction. However, the absence of a distribution-free and consistent preference framework complicates decisions of combination due to the ambiguous objective. To address this gap, we introduce a novel framework for decision-making in combining strategies, irrespective of market conditions, by establishing the investor's preference between decisions and then forming a clear objective. Through this framework, we propose a combinatorial strategy construction, free from statistical assumptions, for any scale of component strategies, even infinite, such that it meets the determined criterion. Finally, we test the proposed strategy along with its accelerated variant and some other multi-strategies. The numerical experiments show results in favor of the proposed strategies, albeit with small tradeoffs in their Sharpe ratios, in which their cumulative wealths eventually exceed those of the best component strategies while the accelerated strategy significantly improves performance. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 等価セット制限潜在クラスモデル(ESRLCM)
Equivalence Set Restricted Latent Class Models (ESRLCM) ( http://arxiv.org/abs/2406.03653v1 ) ライセンス: Link先を確認 | Jesse Bowers, Steve Culpepper, | (参考訳) 潜在クラスモデル(LCM)は多変量分類データをクラスタリングするために使われ、一般に調査応答の解釈に使用される。
等価集合制限潜在クラスモデル (ESRLCM) と呼ばれる新しいベイズモデルを提案する。
このモデルは、一般的なアイテム応答確率を持つクラスタを特定し、従来の制限された潜在属性モデルよりも汎用的に実行する。
本研究では,ESRLCMの識別可能性を検証するとともに,シミュレーションと実世界の応用の両面での有効性を実証する。
Latent Class Models (LCMs) are used to cluster multivariate categorical data, commonly used to interpret survey responses. We propose a novel Bayesian model called the Equivalence Set Restricted Latent Class Model (ESRLCM). This model identifies clusters who have common item response probabilities, and does so more generically than traditional restricted latent attribute models. We verify the identifiability of ESRLCMs, and demonstrate the effectiveness in both simulations and real-world applications. | 翻訳日:2024-06-07 18:55:13 公開日:2024-06-05 |
# 高分解能空中画像のセマンティックセグメンテーションのためのテクスチュアル・ホールグラスネットワーク
Contextual Hourglass Network for Semantic Segmentation of High Resolution Aerial Imagery ( http://arxiv.org/abs/1810.12813v4 ) ライセンス: Link先を確認 | Panfeng Li, Youzuo Lin, Emily Schultz-Fellenz, | (参考訳) 航空画像のセマンティックセグメンテーションは、リモートセンシング画像解析において困難かつ重要な問題である。
近年、ディープラーニングの成功により、様々な畳み込みニューラルネットワーク(CNN)ベースのモデルが開発されている。
しかし、オブジェクトのサイズや不均衡なクラスラベルによって、正確なピクセル単位のセマンティックセグメンテーション結果を得ることは困難である。
これらの課題に対処するため,新しいセマンティックセグメンテーション手法を開発し,それをContextual Hourglass Networkと呼ぶ。
提案手法では,予測の堅牢性を改善するために,処理された低解像度特徴写像に対する注意機構を組み込んだ新しい時間ガラスモジュールを設計し,文脈意味論を活用する。
さらに,複数の時間ガラスモジュールを端から端まで接続することで,エンコーダとデコーダの重ね合わせ構造をさらに活用する。
このアーキテクチャは、リッチなマルチスケール機能を効果的に抽出し、中間管理を通じてコンテキストセマンティクスを学習するためのフィードバックループを追加することができる。
セマンティックセグメンテーション法の有効性を実証するため,ポツダムとヴァイヒンゲンのデータセットで検証した。
他のベースライン手法との比較により,本手法は全体の性能について最高の結果が得られる。
Semantic segmentation for aerial imagery is a challenging and important problem in remotely sensed imagery analysis. In recent years, with the success of deep learning, various convolutional neural network (CNN) based models have been developed. However, due to the varying sizes of the objects and imbalanced class labels, it can be challenging to obtain accurate pixel-wise semantic segmentation results. To address those challenges, we develop a novel semantic segmentation method and call it Contextual Hourglass Network. In our method, in order to improve the robustness of the prediction, we design a new contextual hourglass module which incorporates attention mechanism on processed low-resolution featuremaps to exploit the contextual semantics. We further exploit the stacked encoder-decoder structure by connecting multiple contextual hourglass modules from end to end. This architecture can effectively extract rich multi-scale features and add more feedback loops for better learning contextual semantics through intermediate supervision. To demonstrate the efficacy of our semantic segmentation method, we test it on Potsdam and Vaihingen datasets. Through the comparisons to other baseline methods, our method yields the best results on overall performance. | 翻訳日:2024-06-07 05:08:04 公開日:2024-06-05 |
# サバイバル・サバイバル・スーパービジョンを用いたニューラルトピックモデル:時系列結果の同時予測と臨床像の関連性学習
Neural Topic Models with Survival Supervision: Jointly Predicting Time-to-Event Outcomes and Learning How Clinical Features Relate ( http://arxiv.org/abs/2007.07796v2 ) ライセンス: Link先を確認 | George H. Chen, Linhong Li, Ren Zuo, Amanda Coston, Jeremy C. Weiss, | (参考訳) 本稿では,特徴関係を明らかにするトピックモデルを同時に学習しながら,生存率を予測するためのニューラルネットワークフレームワークを提案する。
特に、トピックが年齢グループ、障害、病気に対応できる「トピック」の分布として、各主題をモデル化する。
トピックの存在は、特定の臨床特徴が被験者に現れる可能性が高くなることを意味する。
トピックは関連する特徴に関する情報をエンコードし、時間と結果の予測のために教師付きで学習する。
我々のフレームワークは、様々なトピックとサバイバルモデルを組み合わせることをサポートし、結果として得られるジョイントサバイバルトピックモデルを、ミニバッチ勾配勾配の標準ニューラルネットオプティマイザを用いて、簡単に大規模データセットにスケールする。
例えば、LDA を Cox モデルと組み合わせることが特別な場合であり、その場合、トピック上の対象の分布が Cox モデルへの入力特徴ベクトルとして機能する。
臨床データにこれらの神経生存制御トピックモデルを適用する際に生じる実践的実装問題に対処する方法を解説する。
提案手法は, 死亡までの予測と入院期間の予測に有効であり, ニューラルサバイバル管理されたトピックモデルが既存のアプローチと競合する精度を達成し, 特徴的関係を説明する解釈可能な臨床トピックが得られた。
私たちのコードは、https://github.com/georgehc/survival-topics.comで利用可能です。
We present a neural network framework for learning a survival model to predict a time-to-event outcome while simultaneously learning a topic model that reveals feature relationships. In particular, we model each subject as a distribution over "topics", where a topic could, for instance, correspond to an age group, a disorder, or a disease. The presence of a topic in a subject means that specific clinical features are more likely to appear for the subject. Topics encode information about related features and are learned in a supervised manner to predict a time-to-event outcome. Our framework supports combining many different topic and survival models; training the resulting joint survival-topic model readily scales to large datasets using standard neural net optimizers with minibatch gradient descent. For example, a special case is to combine LDA with a Cox model, in which case a subject's distribution over topics serves as the input feature vector to the Cox model. We explain how to address practical implementation issues that arise when applying these neural survival-supervised topic models to clinical data, including how to visualize results to assist clinical interpretation. We study the effectiveness of our proposed framework on seven clinical datasets on predicting time until death as well as hospital ICU length of stay, where we find that neural survival-supervised topic models achieve competitive accuracy with existing approaches while yielding interpretable clinical topics that explain feature relationships. Our code is available at: https://github.com/georgehc/survival-topics | 翻訳日:2024-06-07 05:08:03 公開日:2024-06-05 |
# ノイズのある半教師あり学習におけるほぼ正確な回復
Almost exact recovery in noisy semi-supervised learning ( http://arxiv.org/abs/2007.14717v4 ) ライセンス: Link先を確認 | Konstantin Avrachenkov, Maximilien Dreveton, | (参考訳) グラフに基づく半教師付き学習手法は、グラフ構造とラベル付きデータを組み合わせ、ラベルなしデータを分類する。
本研究では,ノイズの多いオラクルが分類に与える影響について検討する。
特に、雑音の多いオラクルがラベルのごく一部を明らかにすると、Degree Corrected Stochastic Block Model (DC-SBM) をクラスタリングするための最大 A Posteriori (MAP) 推定器を導出する。
次に、MAPの連続緩和から導かれるアルゴリズムを提案し、その一貫性を確立する。
数値実験により,非常にノイズの多いラベル付きデータであっても,合成および実データに対して有望な性能が得られることが示された。
Graph-based semi-supervised learning methods combine the graph structure and labeled data to classify unlabeled data. In this work, we study the effect of a noisy oracle on classification. In particular, we derive the Maximum A Posteriori (MAP) estimator for clustering a Degree Corrected Stochastic Block Model (DC-SBM) when a noisy oracle reveals a fraction of the labels. We then propose an algorithm derived from a continuous relaxation of the MAP, and we establish its consistency. Numerical experiments show that our approach achieves promising performance on synthetic and real data sets, even in the case of very noisy labeled data. | 翻訳日:2024-06-07 05:08:03 公開日:2024-06-05 |
# 境界性を考慮した階層型ゲームにおける解の概念と自律運転への応用
Solution Concepts in Hierarchical Games under Bounded Rationality with Applications to Autonomous Driving ( http://arxiv.org/abs/2009.10033v5 ) ライセンス: Link先を確認 | Atrisha Sarkar, Krzysztof Czarnecki, | (参考訳) 自律走行車(AV)が通常の人間の交通にさらに統合されることで、AVモーションプランニングをマルチエージェント問題として扱うことについてのコンセンサスが高まっている。
しかしながら、完全合理性という伝統的なゲーム理論の仮定は、人間の運転には強すぎるため、人間の運転を行動ゲーム理論レンズを通して「emph{bounded rational}(有理性有理性)」の活動として理解する必要がある。
その目的のために、有界な有理行動の4つのメタモデル、すなわち、量子レベル-kに基づく3つのメタモデルと、量子エラーを伴うナッシュ平衡に基づく1つのメタモデルを適用する。
運転行動のゲーム理論モデルを作成するために,多エージェント動作計画に使用されるフレームワークである階層型ゲーム(hierarchical game)のコンテキストに適用可能な,異なる解の概念を定式化する。
さらに、約4kのエージェントと44kの意思決定ポイントを持つ都市交差点における人間運転の寄与したデータセットに基づいて、自然主義的データに適合するモデルと予測能力に基づいて行動モデルを評価する。
以上の結果から, 運転行動モデルとして評価された動作モデルのうち, レベル0の振る舞いをルールフォローとしてモデル化したQuantal Level-kモデルの適応として, 運転行動のモデル化が, 自然主義運転行動に最も適していることが示唆された。
軌道のレベルでは、アクションのバウンドサンプリングとマックス非ストラテジックモデルは、比較対象モデルの集合の中で最も正確である。
また、状況要因が行動モデルの性能に与える影響も明らかにした。
With autonomous vehicles (AV) set to integrate further into regular human traffic, there is an increasing consensus on treating AV motion planning as a multi-agent problem. However, the traditional game-theoretic assumption of complete rationality is too strong for human driving, and there is a need for understanding human driving as a \emph{bounded rational} activity through a behavioural game-theoretic lens. To that end, we adapt four metamodels of bounded rational behaviour: three based on Quantal level-k and one based on Nash equilibrium with quantal errors. We formalize the different solution concepts that can be applied in the context of hierarchical games, a framework used in multi-agent motion planning, for the purpose of creating game theoretic models of driving behaviour. Furthermore, based on a contributed dataset of human driving at a busy urban intersection with a total of approximately 4k agents and 44k decision points, we evaluate the behaviour models on the basis of model fit to naturalistic data, as well as their predictive capacity. Our results suggest that among the behaviour models evaluated, at the level of maneuvers, modeling driving behaviour as an adaptation of the Quantal level-k model with level-0 behaviour modelled as pure rule-following provides the best fit to naturalistic driving behaviour. At the level of trajectories, bounds sampling of actions and a maxmax non-strategic models is the most accurate within the set of models in comparison. We also find a significant impact of situational factors on the performance of behaviour models. | 翻訳日:2024-06-07 05:08:03 公開日:2024-06-05 |
# DoubleML - Rにおけるダブル機械学習のオブジェクト指向実装
DoubleML -- An Object-Oriented Implementation of Double Machine Learning in R ( http://arxiv.org/abs/2103.09603v6 ) ライセンス: Link先を確認 | Philipp Bach, Victor Chernozhukov, Malte S. Kurz, Martin Spindler, Sven Klaassen, | (参考訳) RパッケージDoubleMLはChernozhukov et al (2018)のダブル/デバイアスの機械学習フレームワークを実装している。
機械学習手法に基づいた因果モデルでパラメータを推定する機能を提供する。
ダブル機械学習フレームワークは、Neymanの直交性、高品質な機械学習推定、サンプル分割という3つの重要な要素で構成されている。
ニュアンスコンポーネントの推定は、mlr3エコシステムで利用可能なさまざまな最先端の機械学習手法によって行うことができる。
DoubleMLは、部分的に線形でインタラクティブな回帰モデルや、機器変数推定の拡張を含む、さまざまな因果モデルで推論を行うことができる。
DoubleMLのオブジェクト指向実装は、モデル仕様の柔軟性を高め、容易に拡張できるようにする。
本稿では、Double Machine LearningフレームワークとRパッケージDoubleMLについて紹介する。
シミュレーションおよび実データを用いた再現可能なコード例では、DoubleMLユーザーが機械学習手法に基づいて有効な推論を行うことができることを示す。
The R package DoubleML implements the double/debiased machine learning framework of Chernozhukov et al. (2018). It provides functionalities to estimate parameters in causal models based on machine learning methods. The double machine learning framework consist of three key ingredients: Neyman orthogonality, high-quality machine learning estimation and sample splitting. Estimation of nuisance components can be performed by various state-of-the-art machine learning methods that are available in the mlr3 ecosystem. DoubleML makes it possible to perform inference in a variety of causal models, including partially linear and interactive regression models and their extensions to instrumental variable estimation. The object-oriented implementation of DoubleML enables a high flexibility for the model specification and makes it easily extendable. This paper serves as an introduction to the double machine learning framework and the R package DoubleML. In reproducible code examples with simulated and real data sets, we demonstrate how DoubleML users can perform valid inference based on machine learning methods. | 翻訳日:2024-06-07 05:08:03 公開日:2024-06-05 |
# 自己指導型学習による話者検証における対向ロバスト性の改善
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning ( http://arxiv.org/abs/2106.00273v4 ) ライセンス: Link先を確認 | Haibin Wu, Xu Li, Andy T. Liu, Zhiyong Wu, Helen Meng, Hung-yi Lee, | (参考訳) 以前の研究では、自動話者検証(ASV)が、リプレイ、合成音声、最近出現した敵攻撃などの悪意のある密封攻撃に深刻な脆弱性があることが示されている。
ASVをリプレイや合成音声から守る努力が盛んに行われているが、敵の攻撃に対処するためのアプローチはごくわずかである。
ASVの敵攻撃に取り組むための既存のアプローチは、敵のサンプル生成の知識を必要とするが、敵の攻撃者によって適用される正確な攻撃アルゴリズムを知ることは現実的ではない。
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
自己教師型学習モデル(SSLMs)により、入力中の表面ノイズを緩和し、中断されたものからクリーンなサンプルを再構築する利点を持つが、この研究は、敵の摂動を一種のノイズとみなし、SSLMsによるASVに対する敵の防御を行う。
具体的には,2つの視点から敵防衛を行うことを提案する。
1)敵の摂動浄化と
2)対向的摂動検出。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
さらに, ASV の敵防衛性能を評価するための一般的な指標は存在しないため, 浄化法と検出法の両方を考慮することで, 敵防衛評価指標を定式化する。
提案した評価フレームワークに基づいて,今後のアプローチのベンチマークを強く推奨する。
Previous works have shown that automatic speaker verification (ASV) is seriously vulnerable to malicious spoofing attacks, such as replay, synthetic speech, and recently emerged adversarial attacks. Great efforts have been dedicated to defending ASV against replay and synthetic speech; however, only a few approaches have been explored to deal with adversarial attacks. All the existing approaches to tackle adversarial attacks for ASV require the knowledge for adversarial samples generation, but it is impractical for defenders to know the exact attack algorithms that are applied by the in-the-wild attackers. This work is among the first to perform adversarial defense for ASV without knowing the specific attack algorithms. Inspired by self-supervised learning models (SSLMs) that possess the merits of alleviating the superficial noise in the inputs and reconstructing clean samples from the interrupted ones, this work regards adversarial perturbations as one kind of noise and conducts adversarial defense for ASV by SSLMs. Specifically, we propose to perform adversarial defense from two perspectives: 1) adversarial perturbation purification and 2) adversarial perturbation detection. Experimental results show that our detection module effectively shields the ASV by detecting adversarial samples with an accuracy of around 80%. Moreover, since there is no common metric for evaluating the adversarial defense performance for ASV, this work also formalizes evaluation metrics for adversarial defense considering both purification and detection based approaches into account. We sincerely encourage future works to benchmark their approaches based on the proposed evaluation framework. | 翻訳日:2024-06-07 05:08:03 公開日:2024-06-05 |
# 一般化された「Notの平方根」行列とその隠れた論理作用素の発表および完全行列円ユーラー関数の定義への応用
Generalized "Square roots of Not" matrices, their application to the unveiling of hidden logical operators and to the definition of fully matrix circular Euler functions ( http://arxiv.org/abs/2107.06067v4 ) ライセンス: Link先を確認 | Eduardo Mizraji, | (参考訳) ノットの平方根は量子コンピューティング理論において重要な論理演算子であり、それ自身で数学的対象として興味を持つ。
物理学では、次元 2 の平方複素行列である。
現在の研究において、これは任意の次元の複素正方行列である。
線形代数の論理理論への導入は、近年、ニューラルネットワークと量子コンピューティングの分野の研究によって強化されている。
ここでは、行列による論理演算の表現を簡潔に記述し、Nt演算子の2乗根に対する一般表現がどのように得られるかを示す。
次に2つのトピックを探求します。
まず、Deutschのアルゴリズムの短い形式の非量子領域の拡張について検討する。
そして、Not の根は虚数単位 i の行列拡大であると仮定し、この考えの下で、オイラー拡大と複素指数関数による円函数の表現に対する完全行列バージョンを得る。
The square root of Not is a logical operator of importance in quantum computing theory and of interest as a mathematical object in its own right. In physics, it is a square complex matrix of dimension 2. In the present work it is a complex square matrix of arbitrary dimension. The introduction of linear algebra into logical theory has been enhanced in recent decades by the researches in the field of neural networks and quantum computing. Here we will make a brief description of the representation of logical operations through matrices and we show how general expressions for the two square roots of the Not operator are obtained. Then, we explore two topics. First, we study an extension to a non-quantum domain of a short form of Deutsch's algorithm. Then, we assume that a root of Not is a matrix extension of the imaginary unit i, and under this idea we obtain fully matrix versions for the Euler expansions and for the representations of circular functions by complex exponentials. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# Wasserstein分布ロバスト最適化のための短時間かつ一般的な双対証明
A Short and General Duality Proof for Wasserstein Distributionally Robust Optimization ( http://arxiv.org/abs/2205.00362v4 ) ライセンス: Link先を確認 | Luhao Zhang, Jincheng Yang, Rui Gao, | (参考訳) 本稿では, 関東ロビッチ輸送コスト, 測定可能な損失関数, および有意な確率分布を抑えるような, 分散的ロバストな最適化のための一般化双対性結果を提案する。
既存の双対性の結果に固有の交換性原理を仮定すると、我々の証明は1次元凸解析のみを用いる。
さらに、ある可測射影と弱い可測選択条件が満たされている場合にのみ、交換性原理が成立することを示した。
提案手法のより広範な適用性を示すため,マルコフ決定過程と多段階確率計画における双対性結果の厳密な扱いについて述べる。
さらに、インフィニティ・ワッサーシュタイン分布の安定最適化、リスク-逆最適化、グローバル分布の堅牢化など、他の問題にも分析を拡張します。
We present a general duality result for Wasserstein distributionally robust optimization that holds for any Kantorovich transport cost, measurable loss function, and nominal probability distribution. Assuming an interchangeability principle inherent in existing duality results, our proof only uses one-dimensional convex analysis. Furthermore, we demonstrate that the interchangeability principle holds if and only if certain measurable projection and weak measurable selection conditions are satisfied. To illustrate the broader applicability of our approach, we provide a rigorous treatment of duality results in distributionally robust Markov decision processes and distributionally robust multistage stochastic programming. Additionally, we extend our analysis to other problems such as infinity-Wasserstein distributionally robust optimization, risk-averse optimization, and globalized distributionally robust counterpart. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# 動的ランク付けと翻訳同期
Dynamic Ranking and Translation Synchronization ( http://arxiv.org/abs/2207.01455v4 ) ライセンス: Link先を確認 | Ernesto Araya, Eglantine Karlé, Hemant Tyagi, | (参考訳) スポーツトーナメントやレコメンデーションシステムなど,多くのアプリケーションにおいて,1組の$n$アイテム(またはプレイヤー)のペア比較からなる廃棄データがある。
目的は、このデータを使って各項目の潜在強度と/またはランキングを推測することである。
この問題の既存の結果は、主に単一の比較グラフ$G$からなる設定に焦点を当てている。
しかし、ペア比較データが時間とともに進化するシナリオ(例えばスポーツトーナメント)が存在する。
この動的設定の理論的結果は比較的限定的であり,本論文の焦点となっている。
本研究では, 動的セッティングに対する \emph{translation synchro} 問題の拡張について検討する。
ここで $\mathcal{T} \subset [0,1]$ は時間領域を表す格子であり、各項目 $i$ と time $t\in \mathcal{T}$ に対して、関連する未知の強度パラメータ $z^*_{t,i}\in \mathbb{R}$ が存在する。
我々は、$t\in\mathcal{T}$ に対して、強度ベクトル $z^*_t=(z^*_{t,1},\dots,z^*_{t,n})$ を $z^*_{t,i}-z^*_{t,j}$ のノイズ測定から回復することを目指している。
例えば、$z^*_t$が$t$で滑らかに進化すると仮定すると、スムーズネスの最小二乗法に基づく2つの推定器と、適切な滑らかさ作用素の低周波固有空間への射影に基づく2つの推定器を提案する。
両方の推定器に対して、$G_t$がすべての$t\in \mathcal{T}$に対して連結であるという仮定の下で$\ell_2$推定誤差に対して有限サンプル境界を与えるので、グリッドサイズ$|\mathcal{T}|$という観点から提案された手法の整合性を証明することができる。
我々は、理論的な結果と、合成および実データに関する実験を補完する。
In many applications, such as sport tournaments or recommendation systems, we have at our disposal data consisting of pairwise comparisons between a set of $n$ items (or players). The objective is to use this data to infer the latent strength of each item and/or their ranking. Existing results for this problem predominantly focus on the setting consisting of a single comparison graph $G$. However, there exist scenarios (e.g., sports tournaments) where the the pairwise comparison data evolves with time. Theoretical results for this dynamic setting are relatively limited and is the focus of this paper. We study an extension of the \emph{translation synchronization} problem, to the dynamic setting. In this setup, we are given a sequence of comparison graphs $(G_t)_{t\in \mathcal{T}}$, where $\mathcal{T} \subset [0,1]$ is a grid representing the time domain, and for each item $i$ and time $t\in \mathcal{T}$ there is an associated unknown strength parameter $z^*_{t,i}\in \mathbb{R}$. We aim to recover, for $t\in\mathcal{T}$, the strength vector $z^*_t=(z^*_{t,1},\dots,z^*_{t,n})$ from noisy measurements of $z^*_{t,i}-z^*_{t,j}$, where $\{i,j\}$ is an edge in $G_t$. Assuming that $z^*_t$ evolves smoothly in $t$, we propose two estimators -- one based on a smoothness-penalized least squares approach and the other based on projection onto the low frequency eigenspace of a suitable smoothness operator. For both estimators, we provide finite sample bounds for the $\ell_2$ estimation error under the assumption that $G_t$ is connected for all $t\in \mathcal{T}$, thus proving the consistency of the proposed methods in terms of the grid size $|\mathcal{T}|$. We complement our theoretical findings with experiments on synthetic and real data. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# 3次元LiDAR事前写像における図形タグの局所化
Fiducial Tag Localization on a 3D LiDAR Prior Map ( http://arxiv.org/abs/2209.01072v3 ) ライセンス: Link先を確認 | Yibo Liu, Jinjun Shan, Hunter Schofield, | (参考訳) LiDARのフィデューシャルタグは、カメラアプリケーションでよく使われる AprilTagに似ているが、LiDARセンサーに人工的な機能を付与する便利なリソースとして機能し、ロボット工学の応用を容易にする。
残念ながら、既存のLiDARフィデューシャルタグのローカライズ手法は、3次元LiDARマップには適用されないが、この問題を解決することは、LiDARベースの再ローカライズとナビゲーションにとって有益である。
本稿では,3次元LiDAR事前地図上で,画像タグを直接ローカライズする手法を開発し,タグポーズ(ID番号ラベル付き)と頂点位置(インデックスラベル付き)を地図のグローバル座標系に戻す。
特に、フィデューシャルタグが付着面と区別できない薄いシートオブジェクトであることを考えると、地図の3次元点雲を強度と幾何学的観点から徐々に解析し、潜在的なタグを含む点クラスターを抽出するパイプラインを設計する。
そこで,本研究では,各電位クラスタにタグがあるかどうかを確認し,頂点位置とタグポーズを求める中間平面法を提案する。
我々は,3次元LiDARマップ上でタグをローカライズする手法として,従来の手法と比較して精度が向上し,定性的かつ定量的な実験を行った。
この作業のオープンソース実装は、https://github.com/York-SDCNLab/Marker-Detection-Generalで公開されている。
The LiDAR fiducial tag, akin to the well-known AprilTag used in camera applications, serves as a convenient resource to impart artificial features to the LiDAR sensor, facilitating robotics applications. Unfortunately, the existing LiDAR fiducial tag localization methods do not apply to 3D LiDAR maps while resolving this problem is beneficial to LiDAR-based relocalization and navigation. In this paper, we develop a novel approach to directly localize fiducial tags on a 3D LiDAR prior map, returning the tag poses (labeled by ID number) and vertex locations (labeled by index) w.r.t. the global coordinate system of the map. In particular, considering that fiducial tags are thin sheet objects indistinguishable from the attached planes, we design a new pipeline that gradually analyzes the 3D point cloud of the map from the intensity and geometry perspectives, extracting potential tag-containing point clusters. Then, we introduce an intermediate-plane-based method to further check if each potential cluster has a tag and compute the vertex locations and tag pose if found. We conduct both qualitative and quantitative experiments to demonstrate that our approach is the first method applicable to localize tags on a 3D LiDAR map while achieving better accuracy compared to previous methods. The open-source implementation of this work is available at: https://github.com/York-SDCNLab/Marker-Detection-General. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# CoopHash: 画像ハッシュのための変分MCMC指導による多目的ディスクリプタとコントラストペアジェネレータの協調学習
CoopHash: Cooperative Learning of Multipurpose Descriptor and Contrastive Pair Generator via Variational MCMC Teaching for Supervised Image Hashing ( http://arxiv.org/abs/2210.04288v2 ) ライセンス: Link先を確認 | Khoa D. Doan, Jianwen Xie, Yaxuan Zhu, Yang Zhao, Ping Li, | (参考訳) 教師付き情報を活用することで、画像ハッシュ領域での検索性能が向上するが、十分なラベル付きデータなしで性能が著しく低下する。
パフォーマンスを向上する効果的な解決策の1つは、GAN(Generative Adversarial Networks)のような生成モデルを使用して、画像ハッシュモデルで合成データを生成することである。
しかし、GANに基づく手法は訓練が難しいため、ハッシュ手法が生成モデルとハッシュ関数を協調的に訓練するのを防ぐことができる。
この制限により、準最適検索性能が得られる。
この制限を克服するため,エネルギーをベースとした協調学習に基づく新たな協調ハッシュネットワークを提案する。
このフレームワークは、コントラスト画像を合成するトップダウンコントラスト対生成器と、確率密度、ハッシュコード、潜伏コード、カテゴリを含む複数の視点から画像を同時に表現するボトムアップ多目的記述器の2つのコンポーネントを介して、データの強力な生成表現と堅牢なハッシュ関数を共同で学習する。
2つのコンポーネントは、新しい可能性に基づく協調学習スキームを通じて共同で学習される。
提案手法は,複数の実世界のデータセットを用いて実験を行い,提案手法が競合するハッシュ法よりも優れた性能を示し,現在最先端のハッシュ法よりも最大10倍の相対的な改善を実現し,アウト・オブ・ディストリビューション検索における性能が著しく向上したことを示す。
Leveraging supervised information can lead to superior retrieval performance in the image hashing domain but the performance degrades significantly without enough labeled data. One effective solution to boost performance is to employ generative models, such as Generative Adversarial Networks (GANs), to generate synthetic data in an image hashing model. However, GAN-based methods are difficult to train, which prevents the hashing approaches from jointly training the generative models and the hash functions. This limitation results in sub-optimal retrieval performance. To overcome this limitation, we propose a novel framework, the generative cooperative hashing network, which is based on energy-based cooperative learning. This framework jointly learns a powerful generative representation of the data and a robust hash function via two components: a top-down contrastive pair generator that synthesizes contrastive images and a bottom-up multipurpose descriptor that simultaneously represents the images from multiple perspectives, including probability density, hash code, latent code, and category. The two components are jointly learned via a novel likelihood-based cooperative learning scheme. We conduct experiments on several real-world datasets and show that the proposed method outperforms the competing hashing supervised methods, achieving up to 10\% relative improvement over the current state-of-the-art supervised hashing methods, and exhibits a significantly better performance in out-of-distribution retrieval. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# タスク指向対話におけるインテント誘導による発話埋め込みとクラスタリング手法の解析
Analysis of Utterance Embeddings and Clustering Methods Related to Intent Induction for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.02021v5 ) ライセンス: Link先を確認 | Jeiyoon Park, Yoonna Jang, Chanhee Lee, Heuiseok Lim, | (参考訳) この研究の焦点は、タスク指向のダイアログスキーマの設計において、意図ラベルを各ダイアログターン(インテントクラスタリング)に割り当て、インテントクラスタリング手法(インテントインジェクション)に基づいたインテントセットを生成するという重要な課題を克服するための教師なしアプローチを検討することである。
意図の自動誘導には,(1)インテントラベリングのためのクラスタリングアルゴリズム,(2)ユーザ発話の埋め込み空間の2つの因果関係を仮定する。
既存の市販クラスタリングモデルとDSTC11評価に基づく埋め込みを比較した。
本研究は,意図的帰納課題における発話の埋め込みとクラスタリングの手法の組み合わせを慎重に検討すべきであることを示すものである。
また,Agglomerative clusteringによる事前学習したMiniLMは,NMI,ARI,F1,精度,インテント誘導タスクにおけるサンプルカバレッジを著しく向上させることを示した。
ソースコードはhttps://github.com/Jeiyoon/dstc11-track2.comで入手できる。
The focus of this work is to investigate unsupervised approaches to overcome quintessential challenges in designing task-oriented dialog schema: assigning intent labels to each dialog turn (intent clustering) and generating a set of intents based on the intent clustering methods (intent induction). We postulate there are two salient factors for automatic induction of intents: (1) clustering algorithm for intent labeling and (2) user utterance embedding space. We compare existing off-the-shelf clustering models and embeddings based on DSTC11 evaluation. Our extensive experiments demonstrate that the combined selection of utterance embedding and clustering method in the intent induction task should be carefully considered. We also present that pretrained MiniLM with Agglomerative clustering shows significant improvement in NMI, ARI, F1, accuracy and example coverage in intent induction tasks. The source codes are available at https://github.com/Jeiyoon/dstc11-track2. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# EIT: インタラクティブトランスの強化
EIT: Enhanced Interactive Transformer ( http://arxiv.org/abs/2212.10197v2 ) ライセンス: Link先を確認 | Tong Zheng, Bei Li, Huiwen Bao, Tong Xiao, Jingbo Zhu, | (参考訳) 補完原理とコンセンサス原理の2つの原則は、多視点学習の文献で広く認識されている。
しかし、現在の多視点学習の例である多視点自己意識の設計は、コンセンサスを無視しながら相補性を優先している。
この問題に対処するために,拡張型マルチヘッド自己注意(EMHA)を提案する。
まず、補間原理を満たすために、EMHAは複数のサブスペース内のクエリとキー間の1対1のマッピング制約を取り除き、各クエリが複数のキーに参加することを可能にする。
そこで我々は,2つの相互作用モデル,すなわち,内部空間相互作用と部分空間間相互作用を導入することにより,頭部間のコンセンサスを完全に促進する手法を開発した。
幅広い言語タスク(例えば機械翻訳、抽象的な要約と文法の補正、言語モデリング)に対する広範な実験は、その優位性を示し、モデルサイズは非常に緩やかな増加を示している。
私たちのコードは、https://github.com/zhengkid/EIT-Enhanced-Interactive-Transformerで利用可能です。
Two principles: the complementary principle and the consensus principle are widely acknowledged in the literature of multi-view learning. However, the current design of multi-head self-attention, an instance of multi-view learning, prioritizes the complementarity while ignoring the consensus. To address this problem, we propose an enhanced multi-head self-attention (EMHA). First, to satisfy the complementary principle, EMHA removes the one-to-one mapping constraint among queries and keys in multiple subspaces and allows each query to attend to multiple keys. On top of that, we develop a method to fully encourage consensus among heads by introducing two interaction models, namely inner-subspace interaction and cross-subspace interaction. Extensive experiments on a wide range of language tasks (e.g., machine translation, abstractive summarization and grammar correction, language modeling), show its superiority, with a very modest increase in model size. Our code would be available at: https://github.com/zhengkid/EIT-Enhanced-Interactive-Transformer. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# SSR-2D:2次元画像からのセマンティック3次元シーン再構成
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images ( http://arxiv.org/abs/2302.03640v4 ) ライセンス: Link先を確認 | Junwen Huang, Alexey Artemov, Yujin Chen, Shuaifeng Zhi, Kai Xu, Matthias Nießner, | (参考訳) 3次元屋内空間の包括的セマンティックモデリングへの深層学習アプローチは、3次元領域における高コストなアノテーションを必要とする。
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成とそれに対応するRGB-D画像の両方を利用するトレーニング可能なモデルを設計し,クロスドメインな特徴を体積埋め込みに融合させて,手動または機械で生成できる2次元ラベリングのみを用いて,完全な3次元形状,色,セマンティックスを予測することである。
我々の重要な技術的革新は、2Dの観察と未知の3D空間を、それぞれ観察されたRGB画像と2Dのセマンティクスを監督するために、色とセマンティクスの異なるレンダリングを活用することである。
さらに,学習パイプラインとそれに対応する手法を開発して,予測された2次元ラベルから学習を可能にする。これは,元の実際のキャプチャを補完する仮想トレーニングビューを合成することにより,セマンティクスのより効率的な自己スーパービジョンループを可能にする。
その結果、我々のエンドツーエンドのトレーニング可能なソリューションは、限られたRGB-D画像からの幾何学的完備化、色化、意味マッピングを、3Dの地下構造情報に頼らずに、共同で扱うことができた。
提案手法は,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetのセマンティックシーン補完の最先端性能を実現する。
我々の知る限り,本手法は実世界の3Dスキャンの完成とセマンティックセグメンテーションを同時に行う最初の2D駆動方式である。
Most deep learning approaches to comprehensive semantic modeling of 3D indoor spaces require costly dense annotations in the 3D domain. In this work, we explore a central 3D scene modeling task, namely, semantic scene reconstruction without using any 3D annotations. The key idea of our approach is to design a trainable model that employs both incomplete 3D reconstructions and their corresponding source RGB-D images, fusing cross-domain features into volumetric embeddings to predict complete 3D geometry, color, and semantics with only 2D labeling which can be either manual or machine-generated. Our key technical innovation is to leverage differentiable rendering of color and semantics to bridge 2D observations and unknown 3D space, using the observed RGB images and 2D semantics as supervision, respectively. We additionally develop a learning pipeline and corresponding method to enable learning from imperfect predicted 2D labels, which could be additionally acquired by synthesizing in an augmented set of virtual training views complementing the original real captures, enabling more efficient self-supervision loop for semantics. As a result, our end-to-end trainable solution jointly addresses geometry completion, colorization, and semantic mapping from limited RGB-D images, without relying on any 3D ground-truth information. Our method achieves the state-of-the-art performance of semantic scene completion on two large-scale benchmark datasets MatterPort3D and ScanNet, surpasses baselines even with costly 3D annotations in predicting both geometry and semantics. To our knowledge, our method is also the first 2D-driven method addressing completion and semantic segmentation of real-world 3D scans simultaneously. | 翻訳日:2024-06-07 04:58:43 公開日:2024-06-05 |
# フロー誘導密度比学習を用いた生成モデル
Generative Modeling with Flow-Guided Density Ratio Learning ( http://arxiv.org/abs/2303.03714v3 ) ライセンス: Link先を確認 | Alvin Heng, Abdul Fatir Ansari, Harold Soh, | (参考訳) 本稿では,最近の研究で導入されたエントロピー規則化f-ディバージェンスの勾配流の静的(時間に依存しない)近似に基づく,簡易かつスケーラブルな生成モデリング手法であるフローガイド密度比学習(FDRL)を提案する。
具体的には、GAN判別器によって与えられるスタイル推定器により、抽出可能な時間依存密度比を近似する。
これは、サンプル精製の場合、フローのソースとターゲットの分布が互いに近接している場合に十分である。
しかし、この仮定は生成には無効であり、二つの分布の間に大きな亀裂があるため、スタイル推定器のナイーブな応用は失敗する。
FDRLは、トレーニングプロセス中にサンプルを段階的に改善することから学ぶように密度比推定器を訓練することを提案する。
本手法では,FDRLが128\times128$の次元の画像を生成できるとともに,既存の勾配流ベースラインを定量的なベンチマークで上回り,密度カオス問題を緩和する。
また2つのユースケースでFDRLの柔軟性を示す。
第一に、非条件FDRLは外部の分類器で容易に構成でき、クラス条件生成を行うことができる。
第2に、FDRLはフレームワークに変更を加えることなく、不適切な画像から画像への変換に直接適用することができる。
私たちのコードはttps://github.com/clear-nus/fdrl.comで公開されています。
We present Flow-Guided Density Ratio Learning (FDRL), a simple and scalable approach to generative modeling which builds on the stale (time-independent) approximation of the gradient flow of entropy-regularized f-divergences introduced in recent work. Specifically, the intractable time-dependent density ratio is approximated by a stale estimator given by a GAN discriminator. This is sufficient in the case of sample refinement, where the source and target distributions of the flow are close to each other. However, this assumption is invalid for generation and a naive application of the stale estimator fails due to the large chasm between the two distributions. FDRL proposes to train a density ratio estimator such that it learns from progressively improving samples during the training process. We show that this simple method alleviates the density chasm problem, allowing FDRL to generate images of dimensions as high as $128\times128$, as well as outperform existing gradient flow baselines on quantitative benchmarks. We also show the flexibility of FDRL with two use cases. First, unconditional FDRL can be easily composed with external classifiers to perform class-conditional generation. Second, FDRL can be directly applied to unpaired image-to-image translation with no modifications needed to the framework. Our code is publicly available at ttps://github.com/clear-nus/fdrl. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# 機械学習ベンチマーク性能における多重性を考慮した会計
Accounting for multiplicity in machine learning benchmark performance ( http://arxiv.org/abs/2303.07272v4 ) ライセンス: Link先を確認 | Kajsa Møllersen, Einar Holsbø, | (参考訳) 機械学習の手法は一般に評価され、公開リポジトリのデータセットのパフォーマンスによって比較される。
これにより、複数のメソッド、しばしば数千のメソッドが、同じ条件下で、時間にわたって評価される。
問題における最上位の成績は「最先端(SOTA)パフォーマンス」と呼ばれ、新しい手法を公表するための基準点として用いられる。
SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。
マルチプリシティ(multiplicity)は、複数の比較と複数のテストの文脈でよく研究されているトピックであるが、著者たちが認識している限り、SOTAの推定に関する議論からほとんど欠落している。
新しい手法を評価するための基準として,楽観的な最先端推定法が用いられ,その結果が著しく劣る手法が容易に見過ごされてしまう。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
独立分類器を用いた模擬例による乗法の影響を実演する。
分類器依存性が分散にどのように影響するかを示すとともに、精度が高い場合には影響が制限されることを示す。
最後に,実世界の3つの実例について論じる。
Machine learning methods are commonly evaluated and compared by their performance on data sets from public repositories. This allows for multiple methods, oftentimes several thousands, to be evaluated under identical conditions and across time. The highest ranked performance on a problem is referred to as state-of-the-art (SOTA) performance, and is used, among other things, as a reference point for publication of new methods. Using the highest-ranked performance as an estimate for SOTA is a biased estimator, giving overly optimistic results. The mechanisms at play are those of multiplicity, a topic that is well-studied in the context of multiple comparisons and multiple testing, but has, as far as the authors are aware of, been nearly absent from the discussion regarding SOTA estimates. The optimistic state-of-the-art estimate is used as a standard for evaluating new methods, and methods with substantial inferior results are easily overlooked. In this article, we provide a probability distribution for the case of multiple classifiers so that known analyses methods can be engaged and a better SOTA estimate can be provided. We demonstrate the impact of multiplicity through a simulated example with independent classifiers. We show how classifier dependency impacts the variance, but also that the impact is limited when the accuracy is high. Finally, we discuss three real-world examples; Kaggle competitions that demonstrate various aspects. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# 大規模言語モデルにおけるヒューマンライクな翻訳評価を可能にする誤り解析
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models ( http://arxiv.org/abs/2303.13809v4 ) ライセンス: Link先を確認 | Qingyu Lu, Baopu Qiu, Liang Ding, Kanjian Zhang, Tom Kocmi, Dacheng Tao, | (参考訳) 生成型大規模言語モデル(LLM)、例えばChatGPTは、機械翻訳、テキスト要約など、いくつかのNLPタスクにおいて顕著な習熟性を示している。
最近の研究 (Kocmi and Federmann, 2023) では、機械翻訳(MT)の品質評価にLLMを用いることで、システムレベルでは最先端のパフォーマンスが得られるが、セグメントレベルでは‘textit{performs’が不十分であることが示されている。
MTの品質評価におけるLCMの性能をさらに向上するため,いくつかのプロンプト設計について検討し,Chain-of-Thoughts (Wei et al , 2022) とError Analysis (Lu et al , 2023) を組み合わせた新しいプロンプト法である \textbf{\textt{Error Analysis Prompting}} (EAPrompt) を提案する。
この手法は,多次元品質指標 (MQM, Freitag et al (2021)) と \textit{produces describeable and reliable MT evaluations at the system and segment level} をエミュレートする。
WMT22のメトリクス共有タスクによる実験結果は、異なる構造を持つ各種LLMにおけるEAPromptの有効性を検証した。
さらに分析した結果、EAPromptは大規模なエラーとマイナーエラーを効果的に区別し、MQMと類似したエラー数の分布を共有していることがわかった。
これらの結果から,人為的評価手法としてのEAPromptの可能性が示唆された。
Generative large language models (LLMs), e.g., ChatGPT, have demonstrated remarkable proficiency across several NLP tasks, such as machine translation, text summarization. Recent research (Kocmi and Federmann, 2023) has shown that utilizing LLMs for assessing the quality of machine translation (MT) achieves state-of-the-art performance at the system level but \textit{performs poorly at the segment level}. To further improve the performance of LLMs on MT quality assessment, we investigate several prompting designs, and propose a new prompting method called \textbf{\texttt{Error Analysis Prompting}} (EAPrompt) by combining Chain-of-Thoughts (Wei et al., 2022) and Error Analysis (Lu et al., 2023). This technique emulates the commonly accepted human evaluation framework - Multidimensional Quality Metrics (MQM, Freitag et al. (2021)) and \textit{produces explainable and reliable MT evaluations at both the system and segment level}. Experimental Results from the WMT22 metrics shared task validate the effectiveness of EAPrompt on various LLMs, with different structures. Further analysis confirms that EAPrompt effectively distinguishes major errors from minor ones, while also sharing a similar distribution of the number of errors with MQM. These findings highlight the potential of EAPrompt as a human-like evaluator prompting technique for MT evaluation. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# 量子チャネルと量子状態のいくつかの絶対的性質
Quantum channels and some absolute properties of quantum states ( http://arxiv.org/abs/2304.00711v2 ) ライセンス: Link先を確認 | Tapaswini Patro, Kaushiki Mukherjee, Nirman Ganguly, | (参考訳) 環境相互作用は、量子情報処理プロトコルの実際の応用においてユビキタスである。
このような相互作用は量子資源の枯渇をもたらす。
量子情報の文脈における2つの重要なメリットは、完全に絡み合った分数(FEF)と複合量子系の条件エントロピーである。
FEFはテレポーテーションのようなタスクで重要な役割を担います。
一方、条件エントロピーは特定の量子状態に対して負となりうるので、負性は密度の高い符号化や状態の融合といったタスクの資源として残っている。
FEF $ > 1/d $ for a $ d \otimes d $ 量子系は重要なしきい値であるが、いくつかの量子状態では、大域的なユニタリ演算でさえ閾値以下であり、したがって絶対完全絡み合い(AFEF)を持つ状態として知られている。
条件付きフォン・ノイマンエントロピーを含む状態は、大域的ユニタリ作用の下で条件付きエントロピーの非負性を保持する状態があり、絶対的条件付きフォン・ノイマンエントロピー非負性状態 (ACVENN) と呼ばれる。
本論文では、2つの量子ビットと2つの量子ビットの量子チャネルの作用を探索し、いくつかの量子状態が非絶対状態からその作用の下で絶対状態へ移動することを示す。
グローバルなユニタリ操作では絶対的でない状態に戻すことができないため、絡み合いスワッピングネットワークを用いた検索のための処方料を提供する。
さらに、絶対性の概念を条件R'enyiエントロピーに拡張し、絶対条件R'enyiエントロピー非負性(ACRENN)を持つ状態に必要な条件を求める。
次に、三部構造系の限界部分を含むようにその作業を拡張し、上記の絶対性に関してそれらの特徴を与える。
Environmental interactions are ubiquitous in any real-world application of a quantum information processing protocol. Such interactions result in depletion of quantum resources. Two important figure of merits in the context of quantum information are the fully entangled fraction (FEF) and conditional entropy of a composite quantum system. FEF has a key role to play in tasks like teleportation. Conditional entropy on the other hand can be negative for certain quantum states and thus the negativity remains a resource for tasks like dense coding and state merging. FEF $ > 1/d $ for a $ d \otimes d $ quantum system is a significant threshold, however for some quantum states it remains less than the threshold even with global unitary operations, consequently being known as states having absolute fully entangled fraction (AFEF). Pertaining to conditional von Neumann entropy, there are some states which retains the nonnegativity of the conditional entropy under global unitary action, to be called as states with absolute conditional von Neumann entropy nonnegative (ACVENN) property. In the present submission, we probe the action of some quantum channels in two qubits and two qudits and find that some quantum states move from the non-absolute regime to the absolute regime under the action. Since, global unitary operations are unable to retrieve them back to the non-absolute regime, we provide a prescription for the retrieval using an entanglement swapping network. Furthermore, we extend the notion of absoluteness to conditional R\'enyi entropies and find the required condition for a state to have absolute conditional R\'enyi entropy non-negative (ACRENN) property. We then extend the work to include the marginals of a tripartite system and provide for their characterization with respect to the aforementioned absolute properties. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning
The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning ( http://arxiv.org/abs/2304.05366v2 ) ライセンス: Link先を確認 | Micah Goldblum, Marc Finzi, Keefer Rowan, Andrew Gordon Wilson, | (参考訳) 教師付き学習のための無料ランチ定理は、学習者が全ての問題を解くことができず、学習者が学習上の一様分布に対して平均的に全く同じ精度を達成できないことを述べています。
したがって、これらの定理は、個々の問題は特別に調整された帰納的バイアスを必要とするという概念を支持するためにしばしば言及される。
事実上、全ての一様サンプルデータセットは複雑さが高いが、現実の問題は不均等に低複雑さのデータを生成し、ニューラルネットワークモデルがコルモゴロフ複雑性を用いて形式化された同じ好みを共有していると論じる。
特に、コンピュータビジョンのような特定のドメイン用に設計されたアーキテクチャは、さまざまな無関係な領域でデータセットを圧縮できることを示す。
実験の結果,事前学習およびランダムに初期化される言語モデルでは,低複雑さのシーケンスを生成することが好ましいことがわかった。
フリーランチの定理は個々の問題に特別な学習者が要ることを示すものではないが、ラベル付きデータが乏しい場合や豊富でない場合など、人間の介入を必要とするタスクを1つの学習アルゴリズムに自動化する方法を説明する。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
No free lunch theorems for supervised learning state that no learner can solve all problems or that all learners achieve exactly the same accuracy on average over a uniform distribution on learning problems. Accordingly, these theorems are often referenced in support of the notion that individual problems require specially tailored inductive biases. While virtually all uniformly sampled datasets have high complexity, real-world problems disproportionately generate low-complexity data, and we argue that neural network models share this same preference, formalized using Kolmogorov complexity. Notably, we show that architectures designed for a particular domain, such as computer vision, can compress datasets on a variety of seemingly unrelated domains. Our experiments show that pre-trained and even randomly initialized language models prefer to generate low-complexity sequences. Whereas no free lunch theorems seemingly indicate that individual problems require specialized learners, we explain how tasks that often require human intervention such as picking an appropriately sized model when labeled data is scarce or plentiful can be automated into a single learning algorithm. These observations justify the trend in deep learning of unifying seemingly disparate problems with an increasingly small set of machine learning models. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# 有限体上の多項式系の多段階解法とストリーム暗号トリビウムに対する新しい代数的攻撃
A multistep strategy for polynomial system solving over finite fields and a new algebraic attack on the stream cipher Trivium ( http://arxiv.org/abs/2304.07820v2 ) ライセンス: Link先を確認 | Roberto La Scala, Federico Pintore, Sharwan K. Tiwari, Andrea Visconti, | (参考訳) 本稿では,有限体上の多変量多項式方程式系を解くための推測・決定・ハイブリッド戦略の多段階一般化を提案する。
特に,変数のサブセットの抜本的な評価を段階的に行うこと,すなわち,評価が解決不可能な多項式系に導かれる度に,そのようなサブセットのサイズを増大させることを提案する。
どの評価を拡張するかの決定は、現在の評価の後、不完全グロブナー基底を演算する前処理に基づいており、さらなる変数を排除するために使用される線形多項式を生成する可能性がある。
システム内の残りの変数数がまだ高すぎると判断された場合、評価は拡張され、前処理が反復される。
そうでなければ、完全なGrobner基底計算によってシステムを解く。
暗号解析の応用を念頭に置いて,少なくとも1つの解を持つ多項式系を設計したMultiSolveというアルゴリズムで,この戦略を実装した。
変数の異なる部分集合に対する評価テストセットで提案した前処理を実行することにより,確率分布に基づく複雑性の公式が容易に推定できることを示す。
マルチソルブの最適複雑性は、最大ステップ数で全マルチステップ戦略を用いて達成され、その結果、単一のステップからなる戦略である標準的な推測・決定戦略が最悪の選択であることを示す。
最後に、よく知られたストリーム暗号 Trivium に対する代数的攻撃を行う際に、MultiSolve の挙動を広範囲に研究する。
In this paper we introduce a multistep generalization of the guess-and-determine or hybrid strategy for solving a system of multivariate polynomial equations over a finite field. In particular, we propose performing the exhaustive evaluation of a subset of variables stepwise, that is, by incrementing the size of such subset each time that an evaluation leads to a polynomial system which is possibly unfeasible to solve. The decision about which evaluation to extend is based on a preprocessing consisting in computing an incomplete Grobner basis after the current evaluation, which possibly generates linear polynomials that are used to eliminate further variables. If the number of remaining variables in the system is deemed still too high, the evaluation is extended and the preprocessing is iterated. Otherwise, we solve the system by a complete Grobner basis computation. Having in mind cryptanalytic applications, we present an implementation of this strategy in an algorithm called MultiSolve which is designed for polynomial systems having at most one solution. We prove explicit formulas for its complexity which are based on probability distributions that can be easily estimated by performing the proposed preprocessing on a testset of evaluations for different subsets of variables. We prove that an optimal complexity of MultiSolve is achieved by using a full multistep strategy with a maximum number of steps and in turn the standard guess-and-determine strategy, which essentially is a strategy consisting of a single step, is the worst choice. Finally, we extensively study the behaviour of MultiSolve when performing an algebraic attack on the well-known stream cipher Trivium. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# LaMP: 大きな言語モデルがパーソナライゼーションに出会ったとき
LaMP: When Large Language Models Meet Personalization ( http://arxiv.org/abs/2304.11406v4 ) ライセンス: Link先を確認 | Alireza Salemi, Sheshera Mysore, Michael Bendersky, Hamed Zamani, | (参考訳) 本稿では、大規模言語モデルにおけるパーソナライズの重要性を強調し、パーソナライズされた出力を生成するための言語モデルのトレーニングと評価のための新しいベンチマークであるLaMPベンチマークを紹介する。
LaMPは、さまざまな言語タスクと、各ユーザプロファイルに対する複数のエントリを備えた総合的な評価フレームワークを提供する。
パーソナライズされた7つのタスクで構成され、3つのテキスト分類と4つのテキスト生成タスクで構成されている。
また、言語モデル出力をパーソナライズするために、各ユーザプロファイルから個人項目を検索する2つの検索拡張アプローチを提案する。
そこで本研究では,用語マッチング,意味マッチング,時間認識など,さまざまな検索モデルについて検討する。
ゼロショットおよび微調整言語モデルに対するLaMPの大規模な実験は、提案手法の有効性を示し、様々な自然言語タスクにおけるパーソナライズの影響を強調している。
This paper highlights the importance of personalization in large language models and introduces the LaMP benchmark -- a novel benchmark for training and evaluating language models for producing personalized outputs. LaMP offers a comprehensive evaluation framework with diverse language tasks and multiple entries for each user profile. It consists of seven personalized tasks, spanning three text classification and four text generation tasks. We additionally propose two retrieval augmentation approaches that retrieve personal items from each user profile for personalizing language model outputs. To this aim, we study various retrieval models, including term matching, semantic matching, and time-aware methods. Extensive experiments on LaMP for zero-shot and fine-tuned language models demonstrate the efficacy of the proposed retrieval augmentation approach and highlight the impact of personalization in various natural language tasks. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# テキストと画像のパーソナライズのためのキーロック付きランク1編集
Key-Locked Rank One Editing for Text-to-Image Personalization ( http://arxiv.org/abs/2305.01644v2 ) ライセンス: Link先を確認 | Yoad Tewel, Rinon Gal, Gal Chechik, Yuval Atzmon, | (参考訳) テキスト・ツー・イメージ・モデル(T2I)は、ユーザーが自然言語を通じて創造的なプロセスをガイドできるようにすることで、新しいレベルの柔軟性を提供する。
しかし、これらのモデルをユーザが提供する視覚概念に合わせてパーソナライズすることは、依然として難しい問題である。
T2Iのパーソナライゼーションのタスクは、高い視覚的忠実さを維持しながら創造的な制御を可能にし、複数のパーソナライズされた概念を単一のイメージに組み合わせ、小さなモデルサイズを維持するなど、複数の困難を伴っている。
本稿では,これらの課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。
Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。
さらに,推論時間における学習概念の影響を制御し,複数の概念を組み合わせることを可能とするゲートランク1アプローチを開発した。
これにより、100KBのトレーニングモデルで視覚的忠実度とテキストアライメントのランタイム効率のバランスが、現在の最先端モデルよりも5桁小さい。
さらに、トレーニングを追加することなく、Paretoフロントのさまざまな操作ポイントにまたがることができる。
最後に,Perfusionが質的,定量的両面で高いベースラインを達成していることを示す。
重要なことに、キーロックは従来のアプローチと比較して新しい結果をもたらし、一発設定でも前例のない方法でパーソナライズされたオブジェクトインタラクションを表現できる。
Text-to-image models (T2I) offer a new level of flexibility by allowing users to guide the creative process through natural language. However, personalizing these models to align with user-provided visual concepts remains a challenging problem. The task of T2I personalization poses multiple hard challenges, such as maintaining high visual fidelity while allowing creative control, combining multiple personalized concepts in a single image, and keeping a small model size. We present Perfusion, a T2I personalization method that addresses these challenges using dynamic rank-1 updates to the underlying T2I model. Perfusion avoids overfitting by introducing a new mechanism that "locks" new concepts' cross-attention Keys to their superordinate category. Additionally, we develop a gated rank-1 approach that enables us to control the influence of a learned concept during inference time and to combine multiple concepts. This allows runtime-efficient balancing of visual-fidelity and textual-alignment with a single 100KB trained model, which is five orders of magnitude smaller than the current state of the art. Moreover, it can span different operating points across the Pareto front without additional training. Finally, we show that Perfusion outperforms strong baselines in both qualitative and quantitative terms. Importantly, key-locking leads to novel results compared to traditional approaches, allowing to portray personalized object interactions in unprecedented ways, even in one-shot settings. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# MoMo:適応学習率のためのモーメントモデル
MoMo: Momentum Models for Adaptive Learning Rates ( http://arxiv.org/abs/2305.07583v3 ) ライセンス: Link先を確認 | Fabian Schaipp, Ruben Ohana, Michael Eickenberg, Aaron Defazio, Robert M. Gower, | (参考訳) 最新の機械学習アーキテクチャを新しいタスクでトレーニングするには、大規模な学習速度チューニングが必要であり、計算コストが高い。
そこで我々は,任意の運動量法上で使用可能な新しいPolyak型適応学習率を開発し,チューニングを少なくして性能を向上する。
まず,モメンタムモデルに基づくSGD-Mの適応学習速度であるMoMoを開発した。
MoMoは、各イテレーションでサンプリングされた損失と勾配の運動量推定を使用して、損失関数のモデルを構築する。
我々のモデルは、トランケーションを用いて、損失関数の既知の下限を任意の下限で利用し、例えば、ほとんどの損失はゼロで下限となる。
次に、モデルは各イテレーションでほぼ最小化され、次のステップを計算します。
我々は、モーメントベースの手法と組み合わせてMoMoをどのように使用できるかを示し、新しいモデルベースの適応学習率のAdamであるMoMo-Adamを開発することでこれを実証する。
補間を伴う凸問題に対して、MoMoが$\mathcal{O}(1/\sqrt{K})$収束率に達し、最適値以外の問題固有量の知識を必要としないことを示す。
さらに、未知の下界を持つ損失に対して、我々のモデルに組み込まれた下界のオンザフライ推定を開発する。
我々は,MNIST,CIFAR,Imagenet上の画像分類器のトレーニング,Criteo上のレコメンデータシステム,翻訳タスクIWSLT14上のトランスフォーマーモデル,拡散モデルに対して,SGD-MとAdamよりもMoMoとMoMo-Adamが頑健であることを示す。
Training a modern machine learning architecture on a new task requires extensive learning-rate tuning, which comes at a high computational cost. Here we develop new Polyak-type adaptive learning rates that can be used on top of any momentum method, and require less tuning to perform well. We first develop MoMo, a Momentum Model based adaptive learning rate for SGD-M (stochastic gradient descent with momentum). MoMo uses momentum estimates of the losses and gradients sampled at each iteration to build a model of the loss function. Our model makes use of any known lower bound of the loss function by using truncation, e.g. most losses are lower-bounded by zero. The model is then approximately minimized at each iteration to compute the next step. We show how MoMo can be used in combination with any momentum-based method, and showcase this by developing MoMo-Adam, which is Adam with our new model-based adaptive learning rate. We show that MoMo attains a $\mathcal{O}(1/\sqrt{K})$ convergence rate for convex problems with interpolation, needing knowledge of no problem-specific quantities other than the optimal value. Additionally, for losses with unknown lower bounds, we develop on-the-fly estimates of a lower bound, that are incorporated in our model. We show that MoMo and MoMo-Adam improve over SGD-M and Adam in terms of robustness to hyperparameter tuning for training image classifiers on MNIST, CIFAR, and Imagenet, for recommender systems on Criteo, for a transformer model on the translation task IWSLT14, and for a diffusion model. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# 若干の例による再構成誤差に基づく異常検出
Reconstruction Error-based Anomaly Detection with Few Outlying Examples ( http://arxiv.org/abs/2305.10464v2 ) ライセンス: Link先を確認 | Fabrizio Angiulli, Fabio Fassetti, Luca Ferragina, | (参考訳) 再構成エラーに基づくニューラルアーキテクチャは、異常検出に対する古典的なディープラーニングアプローチを構成しており、優れた性能を示している。
オートエンコーダをトレーニングすることで、正常さを表すと思われる一連の例を再構築し、十分な大規模な再構成エラーを示すこれらのデータに異常を指摘します。
残念なことに、これらのアーキテクチャはデータ内の異常も適切に再構築できるようになっている。
この現象は、トレーニングセットに異常がある場合により明らかである。
特に、これらの異常がラベル付けされている場合、半教師付きと呼ばれる設定は、オートエンコーダを訓練する最良の方法は、異常を無視し、通常のデータに対する再構成エラーを最小限にすることである。
本研究の目的は,正規データのドメイン記述の外部に既知の異常を配置するようにモデルに指示する,再構成エラーに基づくアーキテクチャのアプローチを検討することである。
具体的には,通常例と未知例の両方に関連付けられた再構成誤差のコントラストを高め,異常検出性能を向上させるために,限られた数の異常例を利用する。
実験の結果,本手法は,標準的なオートエンコーダ手法や,半教師付き異常検出のためのディープラーニング技術よりも優れた性能を実現することがわかった。
Reconstruction error-based neural architectures constitute a classical deep learning approach to anomaly detection which has shown great performances. It consists in training an Autoencoder to reconstruct a set of examples deemed to represent the normality and then to point out as anomalies those data that show a sufficiently large reconstruction error. Unfortunately, these architectures often become able to well reconstruct also the anomalies in the data. This phenomenon is more evident when there are anomalies in the training set. In particular when these anomalies are labeled, a setting called semi-supervised, the best way to train Autoencoders is to ignore anomalies and minimize the reconstruction error on normal data. The goal of this work is to investigate approaches to allow reconstruction error-based architectures to instruct the model to put known anomalies outside of the domain description of the normal data. Specifically, our strategy exploits a limited number of anomalous examples to increase the contrast between the reconstruction error associated with normal examples and those associated with both known and unknown anomalies, thus enhancing anomaly detection performances. The experiments show that this new procedure achieves better performances than the standard Autoencoder approach and the main deep learning techniques for semi-supervised anomaly detection. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# Hint of Thought prompting:LLMによる推論タスクへの説明可能なゼロショットアプローチ
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs ( http://arxiv.org/abs/2305.11461v6 ) ライセンス: Link先を確認 | Ioktong Lei, Zhidong Deng, | (参考訳) GPT や PaLM2 などの LLM と通信する手段としては、LCM をよりよく活用するための重要な研究トピックとなっている。
単純なプロンプトは単段階の質問ではうまく機能するが、多段階推論タスクの正しい知識経路を永久に活性化することはできない。
思考の連鎖(CoT)は、しばしばゼロショットCoTと少数ショットCoTを含むが、最近開発されたプロンプト法であり、LLMに推論プロセスを説明し、算術、記号、コモンセンス推論を含む3つの挑戦的推論タスクにおいて単純なプロンプトよりも優れている。
本稿では、説明可能性とゼロショットの一般化を促進する新しい思考ヒント(HoT)を提案する。
まず、説明可能なサブクエスト、論理的推論、解答抽出の3つのステップに分解される。
第二に、これらの3つのステップはステップバイステップのヒントの形式で順番に順序付けされる。
最後に,実験結果から,HoTプロンプトは既存のゼロショットCoTと比較してゼロショット推論タスクに有意なアドバンテージを持つことが示された。
GSM8K, ADDSUB, AQUA, SVAMPなどの数学タスクとStrategyQAのような常識タスクについてゼロショット実験を行った。
特に提案されたHoTプロンプトの精度は、GSM8Kが40.50%から67.80%に、AQUAが31.9%から46.4%に、SVAMPが63.7%から76.9%に、ADDSUBが74.7%から87.34%に改善され、GSM8k、AQUA、SVAMPが競合するPoTアプローチを破る結果となった。
As a way of communicating with users and any LLMs like GPT or PaLM2, prompting becomes an increasingly important research topic for better utilization of LLMs. Although simple prompting performs well on single-step questions, it cannot permanently activate the correct knowledge path for multi-step reasoning tasks. The chain of thought (CoT), which often contains zero-shot CoT and few-shot CoT, is a recently developed prompting method that can explain the reasoning process to the LLM and outperforms simple prompting in three challenging reasoning tasks, including arithmetic, symbolic, and commonsense reasoning. In this paper, we propose a novel hint of thought (HoT) prompting with explainability and zero-shot generalization. First, it is decomposed into the following three steps: explainable sub-questions, logical reasoning, and answer extraction. Second, such three steps are sequentially ordered in the format of step-by-step hints, which can be easily adjusted and explained to different tasks. Finally, experimental results demonstrate that our HoT prompting has a significant advantage on the zero-shot reasoning task compared to existing zero-shot CoT. We did zero-shot experiments on math tasks like GSM8K, ADDSUB, AQUA, SVAMP and commonsense tasks such as StrategyQA. In particular, the accuracy of the proposed HoT prompting is improved with GSM8K from 40.50% to 67.80%, with AQUA from 31.9% to 46.4%, with SVAMP from 63.7% to 76.9%, and with ADDSUB from 74.7% to 87.34%, respectively, which even defeats the competitive PoT approach on GSM8k, AQUA, and SVAMP. | 翻訳日:2024-06-07 04:46:49 公開日:2024-06-05 |
# 推薦説明可能性の可視化:調査と新たな展望
Visualization for Recommendation Explainability: A Survey and New Perspectives ( http://arxiv.org/abs/2305.11755v3 ) ライセンス: Link先を確認 | Mohamed Amine Chatti, Mouadh Guesmi, Arham Muslim, | (参考訳) システム生成によるレコメンデーションの説明を提供することは、透明で信頼できるレコメンデーションシステムへの重要なステップである。
説明可能なレコメンデータシステムは、アウトプットに対して人間の理解可能な理論的根拠を提供する。
過去20年間、説明可能なレコメンデーションは、レコメンデーションシステム研究コミュニティで多くの注目を集めてきた。
本稿では,レコメンデーションシステムにおける視覚的説明に関する研究成果の総合的なレビューを行うことを目的とする。
より具体的には,4次元の「説明目標」,「説明範囲」,「説明スタイル」,「説明形式」の4次元に基づくレコメンデータシステムにおける説明に関する文献を体系的にレビューする。
ビジュアライゼーションの重要性を認識し,説明的ビジュアライゼーションの角度からレコメンダシステム文献にアプローチする。
その結果,レコメンデーションシステムにおける説明的視覚化を設計し,今後の研究の視点を明らかにするための一連のガイドラインが導出された。
このレビューの目的は、研究者や実践者が視覚的に説明可能なレコメンデーション研究の可能性をよりよく理解し、現在および将来のレコメンデーションシステムにおける視覚的説明の体系設計を支援することである。
Providing system-generated explanations for recommendations represents an important step towards transparent and trustworthy recommender systems. Explainable recommender systems provide a human-understandable rationale for their outputs. Over the last two decades, explainable recommendation has attracted much attention in the recommender systems research community. This paper aims to provide a comprehensive review of research efforts on visual explanation in recommender systems. More concretely, we systematically review the literature on explanations in recommender systems based on four dimensions, namely explanation goal, explanation scope, explanation style, and explanation format. Recognizing the importance of visualization, we approach the recommender system literature from the angle of explanatory visualizations, that is using visualizations as a display style of explanation. As a result, we derive a set of guidelines that might be constructive for designing explanatory visualizations in recommender systems and identify perspectives for future work in this field. The aim of this review is to help recommendation researchers and practitioners better understand the potential of visually explainable recommendation research and to support them in the systematic design of visual explanations in current and future recommender systems. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# 論理推論のための抽象的表現に基づく論理駆動型データ拡張
Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning ( http://arxiv.org/abs/2305.12599v5 ) ライセンス: Link先を確認 | Qiming Bao, Alex Yuxuan Peng, Zhenyun Deng, Wanjun Zhong, Gael Gendron, Timothy Pistotti, Neset Tan, Nathan Young, Yang Chen, Yonghua Zhu, Paul Denny, Michael Witbrock, Jiamou Liu, | (参考訳) 大きな言語モデルと論理的推論を組み合わせることで、堅牢で信頼性の高い方法で問題に対処する能力が向上する。
それでも、論理的推論の複雑な性質は、Webから信頼できるデータを収集して包括的なトレーニングデータセットを構築する際に問題を引き起こし、その後、下流タスクのパフォーマンスに影響を及ぼす。
そこで我々はAMR-LDAという新しい論理駆動型データ拡張手法を提案する。
AMR-LDAは、元のテキストを抽象的意味表現(AMR)グラフに変換する。
修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。
特に,本手法は,GPT-3.5 や GPT-4 などの生成的大言語モデルと,論理駆動型データ拡張による対照的な学習による識別的大言語モデルの両方をアーキテクチャに依存しない。
実験的な証拠は,論理的推論,テキストの包含,自然言語推論など,7つの下流タスクにおける性能向上を図り,提案手法の有効性を裏付けるものである。
さらに、この手法はReClor Leaderboard\footnote{\url{https://eval.ai/web/challenges/challenge-page/503/ Leaderboard/1347}}に導かれる。
ソースコードとデータは公開されている。footnote{\href{https://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation -Learning}{AMR-LDA GitHub Repository}}。
Combining large language models with logical reasoning enhances their capacity to address problems in a robust and reliable manner. Nevertheless, the intricate nature of logical reasoning poses challenges when gathering reliable data from the web to build comprehensive training datasets, subsequently affecting performance on downstream tasks. To address this, we introduce a novel logic-driven data augmentation approach, AMR-LDA. AMR-LDA converts the original text into an Abstract Meaning Representation (AMR) graph, a structured semantic representation that encapsulates the logical structure of the sentence, upon which operations are performed to generate logically modified AMR graphs. The modified AMR graphs are subsequently converted back into text to create augmented data. Notably, our methodology is architecture-agnostic and enhances both generative large language models, such as GPT-3.5 and GPT-4, through prompt augmentation, and discriminative large language models through contrastive learning with logic-driven data augmentation. Empirical evidence underscores the efficacy of our proposed method with improvement in performance across seven downstream tasks, such as reading comprehension requiring logical reasoning, textual entailment, and natural language inference. Furthermore, our method leads on the ReClor leaderboard\footnote{\url{https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347}}. The source code and data are publicly available\footnote{\href{https://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation -Learning}{AMR-LDA GitHub Repository}}. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# 両レベル最適化を用いたロバストアンテホックグラフ記述器
Robust Ante-hoc Graph Explainer using Bilevel Optimization ( http://arxiv.org/abs/2305.15745v2 ) ライセンス: Link先を確認 | Kha-Dinh Luong, Mert Kosan, Arlei Lopes Da Silva, Ambuj Singh, | (参考訳) 高度なアプリケーションのための機械学習モデルによる決定を説明することは、透明性を高め、これらの決定を導く上で重要である。
これはグラフのモデルにおいて特に当てはまり、決定はしばしばリッチな構造データと属性データを組み合わせた複雑なパターンに依存する。
最近の研究は、いわゆるポストホックな説明器の設計に重点を置いているが、何が良い説明を構成するのかというより広範な疑問は、まだ未解決のままである。
直感的な特性の1つは、データによって予測を再現するのに十分な情報的説明が必要であることである。
言い換えれば、優れた説明器は予測器として再利用することができる。
ポストホックの説明者は、その説明が固定モデルパラメータ(例えば、学習されたGNN重み)に大きく依存しているため、この目標を達成することができない。
この課題に対処するために,両レベル最適化を用いたグラフニューラルネットワークの説明を化学領域に焦点をあてて発見するために設計された,新規で柔軟なアンテホック説明器であるRAGE(Robust Ante-hoc Graph Explainer)を提案する。
RAGEは、ユーザーが関連性の観点からこれらの説明をランク付けしながら、予測に必要な完全な情報を含む分子サブ構造を効果的に識別することができる。
種々の分子分類タスクに関する実験により、RAGEの説明は既存のポストホック法やアンテホック法よりも優れていることが示された。
Explaining the decisions made by machine learning models for high-stakes applications is critical for increasing transparency and guiding improvements to these decisions. This is particularly true in the case of models for graphs, where decisions often depend on complex patterns combining rich structural and attribute data. While recent work has focused on designing so-called post-hoc explainers, the broader question of what constitutes a good explanation remains open. One intuitive property is that explanations should be sufficiently informative to reproduce the predictions given the data. In other words, a good explainer can be repurposed as a predictor. Post-hoc explainers do not achieve this goal as their explanations are highly dependent on fixed model parameters (e.g., learned GNN weights). To address this challenge, we propose RAGE (Robust Ante-hoc Graph Explainer), a novel and flexible ante-hoc explainer designed to discover explanations for graph neural networks using bilevel optimization, with a focus on the chemical domain. RAGE can effectively identify molecular substructures that contain the full information needed for prediction while enabling users to rank these explanations in terms of relevance. Our experiments on various molecular classification tasks show that RAGE explanations are better than existing post-hoc and ante-hoc approaches. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# ゲームにおける学習のための適応的摂動ミラーダイス
Adaptively Perturbed Mirror Descent for Learning in Games ( http://arxiv.org/abs/2305.16610v3 ) ライセンス: Link先を確認 | Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki, | (参考訳) 本稿では,ゲームにおけるミラー・ディフレクション(MD)アルゴリズムに対するペイオフ摂動手法を提案する。
楽観的なMDによって実証された楽観的な学習アルゴリズムの族は、雑音のないシナリオにおける最終段階の収束を成功させ、力学をナッシュ均衡へと導く。
最近の再帰的傾向は、アンカーからの距離、すなわち {\it slingshot} の戦略に基づいて、ペイオフ関数が摂動される、摂動アプローチの可能性を浮き彫りにしている。
そこで本研究では,スリングショット戦略を予め定義された間隔で繰り返し更新することにより,摂動の大きさを調整できる適応的摂動MD(APMD)を提案する。
このイノベーションによって、保証されたレートで、基礎となるゲームのナッシュ均衡を見つけることができます。
実証実験により, アルゴリズムの収束が著しく加速していることが確認された。
This paper proposes a payoff perturbation technique for the Mirror Descent (MD) algorithm in games where the gradient of the payoff functions is monotone in the strategy profile space, potentially containing additive noise. The optimistic family of learning algorithms, exemplified by optimistic MD, successfully achieves {\it last-iterate} convergence in scenarios devoid of noise, leading the dynamics to a Nash equilibrium. A recent re-emerging trend underscores the promise of the perturbation approach, where payoff functions are perturbed based on the distance from an anchoring, or {\it slingshot}, strategy. In response, we propose {\it Adaptively Perturbed MD} (APMD), which adjusts the magnitude of the perturbation by repeatedly updating the slingshot strategy at a predefined interval. This innovation empowers us to find a Nash equilibrium of the underlying game with guaranteed rates. Empirical demonstrations affirm that our algorithm exhibits significantly accelerated convergence. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# CGELBank アノテーションマニュアル v1.1
CGELBank Annotation Manual v1.1 ( http://arxiv.org/abs/2305.17347v2 ) ライセンス: Link先を確認 | Brett Reynolds, Nathan Schneider, Aryaman Arora, | (参考訳) CGELBankは、ケンブリッジ・グラマー・オブ・イングリッシュ(Cambridge Grammar of the English)から派生した英語の構文形式に基づくツリーバンクおよび関連ツールである。
この文書はCGELBankアノテーションスキームの特異性を概説している。
CGELBank is a treebank and associated tools based on a syntactic formalism for English derived from the Cambridge Grammar of the English Language. This document lays out the particularities of the CGELBank annotation scheme. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# アフリカ中心音声認識の強化:一般化可能なASRモデルのための認識不確実性駆動型データ選択
Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models ( http://arxiv.org/abs/2306.02105v6 ) ライセンス: Link先を確認 | Bonaventure F. P. Dossou, | (参考訳) アクセントは人間のコミュニケーションを形作る上で重要な役割を担い、明確さと文化的ニュアンスでメッセージを伝え、理解する能力を高める。
自動音声認識(ASR)の進歩は著しいが、アフリカ系英語のASRは、訓練データセットが不足しているために検討されている。
いくつかのアクティブな学習パラダイムとコアセットのアプローチを組み合わせることで,認識の不確実性を利用してアノテーションプロセスを自動化するマルチラウンド適応プロセスを提案し,関連するコストと人的労力を大幅に削減する。
本手法は,データアノテーションを合理化し,モデル不確実性に最も寄与するデータサンプルを戦略的に選択し,訓練効率を向上する。
我々は、ハードアクセントへのモデル適応を追跡するために、新しいU-WERメトリックを定義する。
提案手法は,複数の領域,データセット,高性能音声モデルにまたがって評価する。
以上の結果から,提案手法はWERの相対的改善率を27 %に抑えつつ,既存のベースラインよりも平均45 %少ないデータを必要とすることがわかった。
また,非常に低リソースのアクセントに対する分布外一般化を改良し,アクセント付きアフリカASRの文脈で一般化可能なASRモデルを構築する可能性を示した。
https://github.com/bonaventuredossou/active_learning_african_asr.com/。
Accents play a pivotal role in shaping human communication, enhancing our ability to convey and comprehend messages with clarity and cultural nuance. While there has been significant progress in Automatic Speech Recognition (ASR), African-accented English ASR has been understudied due to a lack of training datasets, which are often expensive to create and demand colossal human labor. Combining several active learning paradigms and the core-set approach, we propose a new multi-rounds adaptation process that uses epistemic uncertainty to automate the annotation process, significantly reducing the associated costs and human labor. This novel method streamlines data annotation and strategically selects data samples contributing most to model uncertainty, enhancing training efficiency. We define a new U-WER metric to track model adaptation to hard accents. We evaluate our approach across several domains, datasets, and high-performing speech models. Our results show that our approach leads to a 27\% WER relative average improvement while requiring on average 45\% less data than established baselines. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating its viability for building generalizable ASR models in the context of accented African ASR. We open-source the code here: https://github.com/bonaventuredossou/active_learning_african_asr. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# MCTS: マルチリファレンス中国語テキスト簡易化データセット
MCTS: A Multi-Reference Chinese Text Simplification Dataset ( http://arxiv.org/abs/2306.02796v3 ) ライセンス: Link先を確認 | Ruining Chong, Luming Lu, Liner Yang, Jinran Nie, Zhenghao Liu, Shuo Wang, Shuhan Zhou, Yaoxin Li, Erhong Yang, | (参考訳) テキストの単純化は、書き直し変換を適用することで、テキストの理解を容易にすることを目的としている。
漢文の簡体化に関する研究は、古くからほとんど行われていない。
一般的な評価データがないことが、この現象の重要な理由である。
本稿では,マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。
本稿では,データセットのアノテーションプロセスについて記述し,詳細な分析を行う。
さらに,教師なし手法と高度な大規模言語モデルの性能評価を行った。
また、機械翻訳と英語テキストの簡易化を利用して、学習に使用できる中国語テキストの簡易化データも提供する。
基礎研究を通じて漢文の簡易化に関する基本的な理解を構築し,今後の研究への参考資料の提供を期待する。
すべてのコードとデータはhttps://github.com/blcuicall/mcts/で公開される。
Text simplification aims to make the text easier to understand by applying rewriting transformations. There has been very little research on Chinese text simplification for a long time. The lack of generic evaluation data is an essential reason for this phenomenon. In this paper, we introduce MCTS, a multi-reference Chinese text simplification dataset. We describe the annotation process of the dataset and provide a detailed analysis. Furthermore, we evaluate the performance of several unsupervised methods and advanced large language models. We additionally provide Chinese text simplification parallel data that can be used for training, acquired by utilizing machine translation and English text simplification. We hope to build a basic understanding of Chinese text simplification through the foundational work and provide references for future research. All of the code and data are released at https://github.com/blcuicall/mcts/. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# マルチタスクオフライン事前学習によるモデルベース強化学習
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining ( http://arxiv.org/abs/2306.03360v3 ) ライセンス: Link先を確認 | Minting Pan, Yitao Zheng, Yunbo Wang, Xiaokang Yang, | (参考訳) オフラインデータセット上で強化学習(RL)モデルを事前トレーニングすることは、オンラインタスクにおけるトレーニング効率を改善する上で有望な方法だが、さまざまなタスクにまたがるダイナミクスや振る舞いに固有のミスマッチのため、難しい。
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
第一の考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、動的表現伝達と政策伝達の両方のタスク関連性を測定するツールとして使うことである。
我々は、オフライン-オフラインの類似度重みのセットを生成するために、時間変化、ドメイン選択蒸留損失を構築します。
これらの重みは2つの目的を果たす。
一 身体力学のタスク非依存知識を世界モデルトレーニングの促進のために適応的に伝達し、
(二)対象方針を導出するために、関連するソースアクションを再生することを学ぶこと。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
Pretraining reinforcement learning (RL) models on offline datasets is a promising way to improve their training efficiency in online tasks, but challenging due to the inherent mismatch in dynamics and behaviors across various tasks. We present a model-based RL method that learns to transfer potentially useful dynamics and action demonstrations from offline data to a novel task. The main idea is to use the world models not only as simulators for behavior learning but also as tools to measure the task relevance for both dynamics representation transfer and policy transfer. We build a time-varying, domain-selective distillation loss to generate a set of offline-to-online similarity weights. These weights serve two purposes: (i) adaptively transferring the task-agnostic knowledge of physical dynamics to facilitate world model training, and (ii) learning to replay relevant source actions to guide the target policy. We demonstrate the advantages of our approach compared with the state-of-the-art methods in Meta-World and DeepMind Control Suite. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# フィルタの重み分布による精度とロバストさのトレードオフの再検討
Revisiting the Trade-off between Accuracy and Robustness via Weight Distribution of Filters ( http://arxiv.org/abs/2306.03430v4 ) ライセンス: Link先を確認 | Xingxing Wei, Shiji Zhao, Bo li, | (参考訳) 敵の攻撃はディープニューラルネットワーク(DNN)の潜在的な脅威であることが証明されており、敵の攻撃に対して多くの方法が提案されている。
しかし、ロバスト性を高める一方で、クリーンな精度はある程度低下し、精度とロバスト性の間にトレードオフがあったことを意味する。
本稿では, トレードオフ問題に対処するため, 標準学習モデルとロバスト学習モデルとのフィルタの重み分布の差について理論的に検討し, 静的ニューラルネットワークの本質的特性であると主張し, 精度と対向ロバスト性を同時に根本的に改善することが困難である。
そこで本研究では,AW-Net(Adversarial Weight-Varied Network)と呼ばれる動的ネットワークアーキテクチャを提案する。
AW-Netは、対向ルータが生成する制御信号に基づいて、ネットワークの重みを適応的に調整する。
動的ネットワークアーキテクチャの利点として、クリーンで逆の例は異なるネットワーク重みで処理できるため、精度と逆の堅牢性の両方を高める可能性がある。
一連の実験により、我々のAW-Netはクリーンな例と敵対的な例の両方を扱うのにアーキテクチャに優しいことが示され、最先端のロバストモデルよりも優れたトレードオフ性能が得られる。
Adversarial attacks have been proven to be potential threats to Deep Neural Networks (DNNs), and many methods are proposed to defend against adversarial attacks. However, while enhancing the robustness, the clean accuracy will decline to a certain extent, implying a trade-off existed between the accuracy and robustness. In this paper, to meet the trade-off problem, we theoretically explore the underlying reason for the difference of the filters' weight distribution between standard-trained and robust-trained models and then argue that this is an intrinsic property for static neural networks, thus they are difficult to fundamentally improve the accuracy and adversarial robustness at the same time. Based on this analysis, we propose a sample-wise dynamic network architecture named Adversarial Weight-Varied Network (AW-Net), which focuses on dealing with clean and adversarial examples with a "divide and rule" weight strategy. The AW-Net adaptively adjusts the network's weights based on regulation signals generated by an adversarial router, which is directly influenced by the input sample. Benefiting from the dynamic network architecture, clean and adversarial examples can be processed with different network weights, which provides the potential to enhance both accuracy and adversarial robustness. A series of experiments demonstrate that our AW-Net is architecture-friendly to handle both clean and adversarial examples and can achieve better trade-off performance than state-of-the-art robust models. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# PEARL:ロボットマニピュレーションのためのゼロショットクロスタスク設定とロバスト・リワード学習
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation ( http://arxiv.org/abs/2306.03615v2 ) ライセンス: Link先を確認 | Runze Liu, Yali Du, Fengshuo Bai, Jiafei Lyu, Xiu Li, | (参考訳) 嗜好に基づく強化学習(Reinforcement Learning, RL)では、大量の選好ラベルを取得するのに時間と費用がかかる。
また、質問された人間の好みは、新しいタスクには利用できない。
本稿では,タスクの人間ラベルを使わずに,タスク間の嗜好伝達からポリシーを学習するZero-shot Cross-task Preference Alignment and Robust Reward Learning(PEARL)を提案する。
私たちのコントリビューションには、転送と学習プロセスを促進する2つの新しいコンポーネントが含まれています。
1つ目はCPA(Cross-task Preference Alignment)で、最適なトランスポートによってタスク間の好みを転送する。
CPAの鍵となる考え方は、Gromov-Wasserstein 距離を使ってタスク間の軌道を整列させることであり、最適輸送行列は軌道間の対応として機能する。
対象タスク選好は、ソースタスク選好ラベルの重み付け和として計算され、対応は重みとして計算される。
さらに、これらのラベルから堅牢な学習を確保するために、報酬平均と不確実性の両方をガウス分布としてモデル化するロバスト・リワード・ラーニング(RRL)を導入する。
Meta-World と Robomimic のロボット操作タスクに関する実証的な結果から,提案手法はタスク間で好みラベルを正確に転送し,適切なポリシーを学習可能であることが示された。
特に、人間の好みがほとんどない場合、我々のアプローチは既存の手法をはるかに上回っている。
私たちのメソッドのコードとビデオは、https://sites.google.com/view/pearl-preference.orgで公開されている。
In preference-based Reinforcement Learning (RL), obtaining a large number of preference labels are both time-consuming and costly. Furthermore, the queried human preferences cannot be utilized for the new tasks. In this paper, we propose Zero-shot Cross-task Preference Alignment and Robust Reward Learning (PEARL), which learns policies from cross-task preference transfer without any human labels of the target task. Our contributions include two novel components that facilitate the transfer and learning process. The first is Cross-task Preference Alignment (CPA), which transfers the preferences between tasks via optimal transport. The key idea of CPA is to use Gromov-Wasserstein distance to align the trajectories between tasks, and the solved optimal transport matrix serves as the correspondence between trajectories. The target task preferences are computed as the weighted sum of source task preference labels with the correspondence as weights. Moreover, to ensure robust learning from these transferred labels, we introduce Robust Reward Learning (RRL), which considers both reward mean and uncertainty by modeling rewards as Gaussian distributions. Empirical results on robotic manipulation tasks from Meta-World and Robomimic demonstrate that our method is capable of transferring preference labels across tasks accurately and then learns well-behaved policies. Notably, our approach significantly exceeds existing methods when there are few human preferences. The code and videos of our method are available at: https://sites.google.com/view/pearl-preference. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# エラーフィードバックはプリコンディショナーを正確に圧縮できる
Error Feedback Can Accurately Compress Preconditioners ( http://arxiv.org/abs/2306.06098v5 ) ライセンス: Link先を確認 | Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Elias Frantar, Dan Alistarh, | (参考訳) ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープラーニングのための現在の最適化器の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような正確な完全行列プリコンディショニングのための既存のアプローチは、モデル次元においてメモリ要求が乗算可能である勾配のスライディングウィンドウを格納しなければならないため、小規模モデルにも適用される場合、膨大なストレージコストに悩まされる。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
具体的には、スペーシフィケーションや低ランク圧縮 \emph{before} を用いて勾配情報をプレコンディショナーに入力し、圧縮誤差を将来の繰り返しにフィードバックする。
ディープニューラルネットワークの実験により、このアプローチは完全行列プレコンディショナーを精度損失なく最大99\%の間隔に圧縮することができ、GGTやM-FACのような完全行列プレコンディショナーのメモリオーバーヘッドを効果的に除去できることが示されている。
私たちのコードは \url{https://github.com/IST-DASLab/EFCP} で利用可能です。
Leveraging second-order information about the loss at the scale of deep networks is one of the main lines of approach for improving the performance of current optimizers for deep learning. Yet, existing approaches for accurate full-matrix preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free Approximate Curvature (M-FAC) suffer from massive storage costs when applied even to small-scale models, as they must store a sliding window of gradients, whose memory requirements are multiplicative in the model dimension. In this paper, we address this issue via a novel and efficient error-feedback technique that can be applied to compress preconditioners by up to two orders of magnitude in practice, without loss of convergence. Specifically, our approach compresses the gradient information via sparsification or low-rank compression \emph{before} it is fed into the preconditioner, feeding the compression error back into future iterations. Experiments on deep neural networks show that this approach can compress full-matrix preconditioners to up to 99\% sparsity without accuracy loss, effectively removing the memory overhead of full-matrix preconditioners such as GGT and M-FAC. Our code is available at \url{https://github.com/IST-DASLab/EFCP}. | 翻訳日:2024-06-07 04:36:49 公開日:2024-06-05 |
# SqueezeLLM: Dense-and-Sparse量子化
SqueezeLLM: Dense-and-Sparse Quantization ( http://arxiv.org/abs/2306.07629v4 ) ライセンス: Link先を確認 | Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer, | (参考訳) 生成型大規模言語モデル(LLM)は、幅広いタスクに対して顕著な結果を示した。
しかしながら、これらのモデルを推論するためにデプロイすることは、前例のないリソース要件のため、重大な課題となっている。
これにより、既存のデプロイメントフレームワークでは、複雑でコストがかかるマルチGPU推論パイプラインの使用や、より小型でパフォーマンスの低いモデルの使用を余儀なくされている。
本研究では, LLMを用いた生成推論の主なボトルネックは, 計算よりもメモリ帯域幅であることを示す。
量子化は、精度を下げて重みを表現して有望な解として現れてきたが、以前の試みは、しばしば顕著な性能劣化をもたらした。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を可能にするとともに、同じメモリ制約下で高い量子化性能を実現する。
私たちのフレームワークには2つの新しいアイデアが組み込まれています。
(i)2次情報に基づく最適ビット精度割当てを探索する感度に基づく非一様量子化
(i) 効率のよいスパースフォーマットで、外れ値と感度な重み値を保持するDense-and-Sparse分解。
LLaMAモデルに適用した場合、我々の3ビット量子化はFP16ベースラインからのパープレキシティギャップを、同じメモリ要件の最先端手法と比較して最大2.1倍削減する。
さらに、A6000 GPUにデプロイすると、我々の量子化モデルはベースラインと比較して最大2.3倍のスピードアップを達成する。
私たちのコードはhttps://github.com/SqueezeAILab/SqueezeLLM.comで利用可能です。
Generative Large Language Models (LLMs) have demonstrated remarkable results for a wide range of tasks. However, deploying these models for inference has been a significant challenge due to their unprecedented resource requirements. This has forced existing deployment frameworks to use multi-GPU inference pipelines, which are often complex and costly, or to use smaller and less performant models. In this work, we demonstrate that the main bottleneck for generative inference with LLMs is memory bandwidth, rather than compute, specifically for single batch inference. While quantization has emerged as a promising solution by representing weights with reduced precision, previous efforts have often resulted in notable performance degradation. To address this, we introduce SqueezeLLM, a post-training quantization framework that not only enables lossless compression to ultra-low precisions of up to 3-bit, but also achieves higher quantization performance under the same memory constraint. Our framework incorporates two novel ideas: (i) sensitivity-based non-uniform quantization, which searches for the optimal bit precision assignment based on second-order information; and (ii) the Dense-and-Sparse decomposition that stores outliers and sensitive weight values in an efficient sparse format. When applied to the LLaMA models, our 3-bit quantization significantly reduces the perplexity gap from the FP16 baseline by up to 2.1x as compared to the state-of-the-art methods with the same memory requirement. Furthermore, when deployed on an A6000 GPU, our quantized models achieve up to 2.3x speedup compared to the baseline. Our code is available at https://github.com/SqueezeAILab/SqueezeLLM. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 分布外一般化のためのグラフ構造と特徴補間
Graph Structure and Feature Extrapolation for Out-of-Distribution Generalization ( http://arxiv.org/abs/2306.08076v2 ) ライセンス: Link先を確認 | Xiner Li, Shurui Gui, Youzhi Luo, Shuiwang Ji, | (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、テスト分布がトレーニング分布からシフトする一般的な学習シナリオを扱う。
アプリケーション要求の増大と固有の複雑さにより、グラフOOD問題は特殊なソリューションを必要とします。
データ中心の手法は、多くの汎用機械学習タスクのパフォーマンス向上を示すが、グラフOODの一般化に適したデータ拡張手法が特に存在しない。
本研究では,非ユークリッド空間線型補間の新しい設計法により,グラフOOD一般化を実現することを提案する。
提案手法は,OODグラフデータを生成するために,構造空間と特徴空間の両方を外挿する。
我々の設計は、根底にある因果機構を損なうことなく、OODサンプルを特定のシフトのために調整する。
理論的解析と実験結果から,目標シフトの解法における本手法の有効性が証明された。
Out-of-distribution (OOD) generalization deals with the prevalent learning scenario where test distribution shifts from training distribution. With rising application demands and inherent complexity, graph OOD problems call for specialized solutions. While data-centric methods exhibit performance enhancements on many generic machine learning tasks, there is a notable absence of data augmentation methods tailored for graph OOD generalization. In this work, we propose to achieve graph OOD generalization with the novel design of non-Euclidean-space linear extrapolation. The proposed augmentation strategy extrapolates both structure and feature spaces to generate OOD graph data. Our design tailors OOD samples for specific shifts without corrupting underlying causal mechanisms. Theoretical analysis and empirical results evidence the effectiveness of our method in solving target shifts, showing substantial and constant improvements across various graph OOD tasks. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 実世界のRAW画像からの効率的なHDR再構成
Efficient HDR Reconstruction from Real-World Raw Images ( http://arxiv.org/abs/2306.10311v5 ) ライセンス: Link先を確認 | Qirui Yang, Yihao Liu, Qihua Chen, Huanjing Yue, Kun Li, Jingyu Yang, | (参考訳) エッジデバイスでの高解像度スクリーンの普及は、効率的な高ダイナミックレンジ(HDR)アルゴリズムへの強い需要を刺激する。
しかし、既存の多くのHDR手法は不満足な結果をもたらすか、計算やメモリ資源を消費しすぎるかのいずれかであり、実際には高解像度の画像(通常12メガピクセル以上)への応用を妨げる。
加えて、既存のHDRデータセット収集手法は労働集約的であることが多い。
本研究では,HDRを生画像から直接再構成し,モバイルデバイスの展開に寄与する新しいニューラルネットワーク構造を探索する優れた機会を見出した。
我々は,(1)高速かつ堅牢なHDRを実現するために構造的再パラメータ化手法RepUNetを開発し,(2)新しい計算生HDRデータ生成パイプラインを設計し,リアルな生HDRデータセットRealRaw-HDRを構築し,(3)限られた帯域幅条件下での動作ゴーストを緩和するためのプラグアンドプレイ動作アライメントロスを提案する。
我々のモデルは830K未満のパラメータを含み、RTX 3090 GPUを用いて4K解像度の画像を処理するのに3ms未満である。
このモデルでは,PSNR,SSIM,色差測定において,最先端HDR法よりも高い性能を示した。
The widespread usage of high-definition screens on edge devices stimulates a strong demand for efficient high dynamic range (HDR) algorithms. However, many existing HDR methods either deliver unsatisfactory results or consume too much computational and memory resources, hindering their application to high-resolution images (usually with more than 12 megapixels) in practice. In addition, existing HDR dataset collection methods often are labor-intensive. In this work, in a new aspect, we discover an excellent opportunity for HDR reconstructing directly from raw images and investigating novel neural network structures that benefit the deployment of mobile devices. Our key insights are threefold: (1) we develop a lightweight-efficient HDR model, RepUNet, using the structural re-parameterization technique to achieve fast and robust HDR; (2) we design a new computational raw HDR data formation pipeline and construct a real-world raw HDR dataset, RealRaw-HDR; (3) we propose a plug-and-play motion alignment loss to mitigate motion ghosting under limited bandwidth conditions. Our model contains less than 830K parameters and takes less than 3 ms to process an image of 4K resolution using one RTX 3090 GPU. While being highly efficient, our model also outperforms the state-of-the-art HDR methods in terms of PSNR, SSIM, and a color difference metric. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 部分空間に制限された最適ミキサーと安定化形式
Optimal mixers restricted to subspaces and the stabilizer formalism ( http://arxiv.org/abs/2306.17083v4 ) ライセンス: Link先を確認 | Franz G. Fuchs, Ruben Pariente Bassa, | (参考訳) 与えられた部分空間を保存するミキサーの理解と構築を両立させる新しい形式主義を提示する。
この方法は、誤り訂正符号に使用される安定化器形式を接続して利用する。
これは、組合せ最適化問題の解法として一般的なメタヒューリスティックである量子近似最適化アルゴリズム(QAOA)が、問題の制約が大きくて容易に指定可能な部分空間に導かれるような設定に適用される場合に有用である。
提案手法は,制御されたノットゲートの数で資源効率のよいミキサーを構築する体系的な方法を提供し,よく知られたXとXYミキサーの一般化とGroverミキサーの緩和と理解することができる。
得られた数値例では, 従来の結果と比較してCXゲートが劇的に減少していた。
我々は、この部分空間を安定化器Sの符号空間に分割し、これらの符号空間に関連する論理回転Xゲートを連続的に適用するものとして理解することができるので、我々のアプローチを論理X-Mixerあるいは論理X QAOA(\textbf{LX-QAOA}$)と呼ぶ。
全体として、この新しい視点が量子アルゴリズムの発展に関するさらなる洞察に繋がることを願っている。
We present a novel formalism to both understand and construct mixers that preserve a given subspace. The method connects and utilizes the stabilizer formalism that is used in error correcting codes. This can be useful in the setting when the quantum approximate optimization algorithm (QAOA), a popular meta-heuristic for solving combinatorial optimization problems, is applied in the setting where the constraints of the problem lead to a feasible subspace that is large but easy to specify. The proposed method gives a systematic way to construct mixers that are resource efficient in the number of controlled not gates and can be understood as a generalization of the well-known X and XY mixers and a relaxation of the Grover mixer: Given a basis of any subspace, a resource efficient mixer can be constructed that preserves the subspace. The numerical examples provided show a dramatic reduction of CX gates when compared to previous results. We call our approach logical X-Mixer or logical X QAOA ($\textbf{LX-QAOA}$), since it can be understood as dividing the subspace into code spaces of stabilizers S and consecutively applying logical rotational X gates associated with these code spaces. Overall, we hope that this new perspective can lead to further insight into the development of quantum algorithms. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 積分ゆらぎ定理とトレース保存写像
Integral fluctuation theorems and trace-preserving map ( http://arxiv.org/abs/2307.02705v3 ) ライセンス: Link先を確認 | Zhiqiang Huang, | (参考訳) 詳細なゆらぎ定理はエントロピー生成確率の生成関数における対称性を意味する。
積分ゆらぎ定理は、この対称性と確率の正規化から直接従う。
本稿では,構築されたマッピングに計測と進化を統合することで,生成関数を書き換える。
この写像は完全に正であり、元の積分FTはこれらの構築された写像のトレース保存性によって決定される。
両浴間の固有状態変動定理と熱交換を議論し,本手法の利便性について述べる。
この手法は準確率の生成関数にも適用でき、ここではこのアプローチから自然に生じるペッツの回復写像を観察する。
The detailed fluctuation theorem implies symmetry in the generating function of entropy production probability. The integral fluctuation theorem directly follows from this symmetry and the normalization of the probability. In this paper, we rewrite the generating function by integrating measurements and evolution into a constructed mapping. This mapping is completely positive, and the original integral FT is determined by the trace-preserving property of these constructed maps. We illustrate the convenience of this method by discussing the eigenstate fluctuation theorem and heat exchange between two baths. This set of methods is also applicable to the generating functions of quasi-probability, where we observe the Petz recovery map arising naturally from this approach. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# グリーンを追い越す: 植物が葉の裏に見えることを学ぶ
Push Past Green: Learning to Look Behind Plant Foliage by Moving It ( http://arxiv.org/abs/2307.03175v2 ) ライセンス: Link先を確認 | Xiaoyu Zhang, Saurabh Gupta, | (参考訳) 自律農業の応用(例えば、検査、表現型付け、果物の摘み取りなど)は、葉や枝の後ろを見るために植物の葉を操作する必要がある。
部分的な可視性、極端に粗い構造、植物のための未知の幾何学と力学は、そのような操作を困難にしている。
データ駆動方式でこれらの課題に取り組む。
SRPNetは、特定の植物に対する候補アクションの実行時に、どの空間が露呈しているかを予測するニューラルネットワークである。
我々はSRPNetとクロスエントロピー法を用いて,植物の葉の下の空間を明らかにするのに有効な行動を予測する。
さらに、SRPNetは、どれだけの空間が露光されるかだけでなく、どこでその空間が露光されるかを予測するだけでなく、植物の葉の下のより多くの空間を漸進的に露光する一連の行動を実行することができる。
本研究は, 人工植物(Dracaena) と実植物(Dracaena) を, 新しい植物構成への一般化をテストする2つの設定を含む5つの物理的テストベッド上で実験した。
本実験は,本手法が手作り探索法よりも有効であること,手作り力学モデルよりもSRPNetが有効であること,および関連する問題点を明らかにするものである。
Autonomous agriculture applications (e.g., inspection, phenotyping, plucking fruits) require manipulating the plant foliage to look behind the leaves and the branches. Partial visibility, extreme clutter, thin structures, and unknown geometry and dynamics for plants make such manipulation challenging. We tackle these challenges through data-driven methods. We use self-supervision to train SRPNet, a neural network that predicts what space is revealed on execution of a candidate action on a given plant. We use SRPNet with the cross-entropy method to predict actions that are effective at revealing space beneath plant foliage. Furthermore, as SRPNet does not just predict how much space is revealed but also where it is revealed, we can execute a sequence of actions that incrementally reveal more and more space beneath the plant foliage. We experiment with a synthetic (vines) and a real plant (Dracaena) on a physical test-bed across 5 settings including 2 settings that test generalization to novel plant configurations. Our experiments reveal the effectiveness of our overall method, PPG, over a competitive hand-crafted exploration method, and the effectiveness of SRPNet over a hand-crafted dynamics model and relevant ablations. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# バス工学による光格子中のフロケットトポロジカル絶縁体の散逸性
Dissipative preparation of a Floquet topological insulator in an optical lattice via bath engineering ( http://arxiv.org/abs/2307.03739v3 ) ライセンス: Link先を確認 | Alexander Schnell, Christof Weitenberg, André Eckardt, | (参考訳) フロケット工学は、光学格子中の電荷ニュートラル原子のトポロジカルに非自明なバンド構造を実現するための重要なツールである。
しかし, 非自明な準エネルギー帯を完全充填したフェルミオンのトポロジカルバンド絶縁体型状態の調製は, 駆動加熱と不完全な断熱状態(トポロジカル遷移が通過する際の不可避ギャップ閉鎖によって引き起こされる)により困難である。
提案された別の手順は、そのような状態、すなわちシステムと貯水池を結合する際に生じる定常状態として散逸的に準備することである。
ここでは、熱浴として働く第2の原子種によって与えられる弱相互作用するボース凝縮物にシステムを結合する具体的なスキームについて論じる。
我々の戦略は、浴室粒子のポテンシャルのエンジニアリングに依存しており、2次元系に垂直な弱い結合管を占有する。
Floquet-Born-Markov理論を用いて、駆動散逸系の結果として生じる非平衡定常状態がトポロジカル絶縁体に近似することを示す。
異常なフロケ位相絶縁体の近似安定化の兆候も見いだすが、これは平衡で実現不可能な状態である。
Floquet engineering is an important tool for realizing topologically nontrivial band structures for charge-neutral atoms in optical lattices. However, the preparation of a topological-band-insulator-type state of fermions, with one nontrivial quasi-energy band filled completely and the others empty, is challenging as a result of both driving induced heating as well as imperfect adiabatic state preparation (with the latter induced by the unavoidable gap closing when passing the topological transition). An alternative procedure that has been proposed is to prepare such states dissipatively, i.e. as a steady state that emerges when coupling the system to reservoirs. Here we discuss a concrete scheme that couples the system to a weakly interacting Bose condensate given by second atomic species acting as a heat bath. Our strategy relies on the engineering of the potential for the bath particles, so that they occupy weakly coupled tubes perpendicular to the two-dimensional system. Using Floquet-Born-Markov theory, we show that the resulting nonequilibrium steady state of the driven-dissipative system approximates a topological insulator. We even find indications for the approximate stabilization of an anomalous Floquet topological insulator, a state that is impossible to realize in equilibrium. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 大規模言語モデルの時代に忘れられる権利:含意、課題、解決策
Right to be Forgotten in the Era of Large Language Models: Implications, Challenges, and Solutions ( http://arxiv.org/abs/2307.03941v4 ) ライセンス: Link先を確認 | Dawen Zhang, Pamela Finckenberg-Broman, Thong Hoang, Shidong Pan, Zhenchang Xing, Mark Staples, Xiwei Xu, | (参考訳) Google Spain SL、Google Inc. v AEPD、Mario Costeja Gonz\'alezの裁定により最初に制定されたRTBFは、後に欧州連合の一般データ保護規則(GDPR)の下で、個人が個人データを削除する権利を廃止する権利として含まれた。
具体的には、検索結果から情報を除外するために、個人が組織にリクエストを送ることができる。
それは技術の進化の結果、重要な創発的な権利であった。
近年,Large Language Models (LLM) が開発され,チャットボットでの利用により,LLM対応ソフトウェアシステムが普及している。
しかし、RTBFから除外されることはない。
検索エンジンが使用するインデックス化手法と比較して、LLMは情報を全く異なる方法で保存し、処理する。
これにより、RTBFに準拠する上で新たな課題が生じる。
本稿では、これらの課題を探求し、差分プライバシー、機械学習、モデル編集、ガードレールの使用など、RTBFの技術的ソリューションの実装方法に関する洞察を提供する。
AIの急速な進歩と、この強力な技術を規制する必要性の高まりにより、RTBFのケースから学んだことは、技術実践者、法律専門家、組織、当局に貴重な教訓を提供することができる。
The Right to be Forgotten (RTBF) was first established as the result of the ruling of Google Spain SL, Google Inc. v AEPD, Mario Costeja Gonz\'alez, and was later included as the Right to Erasure under the General Data Protection Regulation (GDPR) of European Union to allow individuals the right to request personal data be deleted by organizations. Specifically for search engines, individuals can send requests to organizations to exclude their information from the query results. It was a significant emergent right as the result of the evolution of technology. With the recent development of Large Language Models (LLMs) and their use in chatbots, LLM-enabled software systems have become popular. But they are not excluded from the RTBF. Compared with the indexing approach used by search engines, LLMs store, and process information in a completely different way. This poses new challenges for compliance with the RTBF. In this paper, we explore these challenges and provide our insights on how to implement technical solutions for the RTBF, including the use of differential privacy, machine unlearning, model editing, and guardrails. With the rapid advancement of AI and the increasing need of regulating this powerful technology, learning from the case of RTBF can provide valuable lessons for technical practitioners, legal experts, organizations, and authorities. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# ChatDev: ソフトウェア開発のためのコミュニケーションエージェント
ChatDev: Communicative Agents for Software Development ( http://arxiv.org/abs/2307.07924v5 ) ライセンス: Link先を確認 | Chen Qian, Wei Liu, Hongzhang Liu, Nuo Chen, Yufan Dang, Jiahao Li, Cheng Yang, Weize Chen, Yusheng Su, Xin Cong, Juyuan Xu, Dahai Li, Zhiyuan Liu, Maosong Sun, | (参考訳) ソフトウェア開発は、多様なスキルを持つ複数のメンバ間の協力を必要とする複雑なタスクです。
多くの研究が、デザイン、コーディング、テストなど、ウォーターフォールモデルの特定のフェーズを改善するためにディープラーニングを使用していた。
しかし、各フェーズのディープラーニングモデルにはユニークな設計が必要であり、様々なフェーズにわたる技術的不整合が生じ、断片化され、非効率な開発プロセスがもたらされる。
本稿では,大規模言語モデル(LLM)によって駆動される特殊なエージェントを(チャットチェーンを介して)コミュニケーションする方法と(コミュニケーション脱ハロシン化を介して)コミュニケーションする方法でガイドするチャット駆動ソフトウェア開発フレームワークChatDevを紹介する。
これらのエージェントは、言語ベースの統一コミュニケーションを通じて設計、コーディング、テストフェーズに積極的に貢献する。
自然言語の利用はシステム設計に有利であり、プログラミング言語でのコミュニケーションはデバッグに役立ちます。
このパラダイムは,LLMエージェント間の自律的タスク解決のための統合ブリッジとして,言語コミュニケーションが多エージェント協調を促進することを示す。
コードとデータはhttps://github.com/OpenBMB/ChatDevで公開されている。
Software development is a complex task that necessitates cooperation among multiple members with diverse skills. Numerous studies used deep learning to improve specific phases in a waterfall model, such as design, coding, and testing. However, the deep learning model in each phase requires unique designs, leading to technical inconsistencies across various phases, which results in a fragmented and ineffective development process. In this paper, we introduce ChatDev, a chat-powered software development framework in which specialized agents driven by large language models (LLMs) are guided in what to communicate (via chat chain) and how to communicate (via communicative dehallucination). These agents actively contribute to the design, coding, and testing phases through unified language-based communication, with solutions derived from their multi-turn dialogues. We found their utilization of natural language is advantageous for system design, and communicating in programming language proves helpful in debugging. This paradigm demonstrates how linguistic communication facilitates multi-agent collaboration, establishing language as a unifying bridge for autonomous task-solving among LLM agents. The code and data are available at https://github.com/OpenBMB/ChatDev. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 非線型射影による線形再帰の普遍性:有限幅保証と複素固有値の利点
Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues ( http://arxiv.org/abs/2307.11888v3 ) ライセンス: Link先を確認 | Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L. Smith, | (参考訳) 線形RNNに基づくディープニューラルネットワークは、シーケンスモデリングの競争的アプローチとして、位置対応型MLPにインターリーブされた。
そのようなアーキテクチャの例として、S4、LRU、Mambaのような状態空間モデル(SSM)がある。
これらのアーキテクチャの有効性と計算効率を実証した実験的な証拠にもかかわらず、それらの表現力は、特に実際に重要な特定の選択(例えば、慎重に設計された初期化分布と複素数の潜在的使用)に関して、比較的未解明のままである。
本稿では,MLPと実あるいは複素線形対角線再帰を組み合わせることで,正規因果列列列列の任意に正確な近似が導かれることを示す。
線形RNNは入力シーケンスのロスレスエンコーディングを提供し、MPPはこのエンコーディングに対して非線形処理を行う。
実対角線リカレンス(英語版)は、このアーキテクチャにおいて普遍性を達成するのに十分であることを示す一方で、単位円板近傍の複雑な固有値(つまり、S4で最も成功した戦略)を用いることは、情報保存においてRNNに大いに役立つことを証明している。
我々はこの発見を、消滅する勾配問題と結びつけ、我々の主張を支持する実験を提供する。
Deep neural networks based on linear RNNs interleaved with position-wise MLPs are gaining traction as competitive approaches for sequence modeling. Examples of such architectures include state-space models (SSMs) like S4, LRU, and Mamba: recently proposed models that achieve promising performance on text, genetics, and other data that require long-range reasoning. Despite experimental evidence highlighting these architectures' effectiveness and computational efficiency, their expressive power remains relatively unexplored, especially in connection to specific choices crucial in practice - e.g., carefully designed initialization distribution and potential use of complex numbers. In this paper, we show that combining MLPs with both real or complex linear diagonal recurrences leads to arbitrarily precise approximation of regular causal sequence-to-sequence maps. At the heart of our proof, we rely on a separation of concerns: the linear RNN provides a lossless encoding of the input sequence, and the MLP performs non-linear processing on this encoding. While we show that real diagonal linear recurrences are enough to achieve universality in this architecture, we prove that employing complex eigenvalues near unit disk - i.e., empirically the most successful strategy in S4 - greatly helps the RNN in storing information. We connect this finding with the vanishing gradient issue and provide experiments supporting our claims. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# ゼロショットモデル属性のモデル合成
Model Synthesis for Zero-Shot Model Attribution ( http://arxiv.org/abs/2307.15977v2 ) ライセンス: Link先を確認 | Tianyun Yang, Juan Cao, Danding Wang, Chang Xu, | (参考訳) 現在、生成モデルは、芸術、デザイン、人間とコンピュータの相互作用といった様々な分野を形作っているが、著作権侵害やコンテンツ管理に関する課題も伴っている。
既存の研究では、生成した画像のユニークな指紋を識別し、生成した画像をソースモデルに属性付けすることができる。
しかし、既存の手法は、分類器訓練に含まれる静的セット内のモデルを特定することに制約されており、新しく出現した未確認モデルに動的に適応できない。
このギャップを埋めるために,ゼロショット属性を生かした汎用型指紋抽出装置を開発し,トレーニング中に露出することなく効果的に未知のモデルを特徴付けることを目的とする。
本手法の中心は,実世界の生成モデルの指紋パターンを模倣した多数の合成モデルを生成するモデル合成技術である。
合成手法の設計は, 基本生成モデルのアーキテクチャ構築ブロックとパラメータが指紋パターンにどのように影響するかの観察によって動機付けられ, 合成モデルの忠実度と多様性を検証した2つの設計指標によって検証される。
本実験は, 合成モデルのみに特化して訓練された指紋抽出装置において, 様々な実世界の生成モデルに対して, 印象的なゼロショット一般化を実現し, 既存手法と比較して, 未知モデルにおけるモデル同定と検証精度を40%以上向上することを示した。
Nowadays, generative models are shaping various fields such as art, design, and human-computer interaction, yet accompanied by challenges related to copyright infringement and content management. In response, existing research seeks to identify the unique fingerprints on the images they generate, which can be leveraged to attribute the generated images to their source models. Existing methods, however, are constrained to identifying models within a static set included in the classifier training, failing to adapt to newly emerged unseen models dynamically. To bridge this gap, we aim to develop a generalized model fingerprint extractor capable of zero-shot attribution, effectively attributes unseen models without exposure during training. Central to our method is a model synthesis technique, which generates numerous synthetic models mimicking the fingerprint patterns of real-world generative models. The design of the synthesis technique is motivated by observations on how the basic generative model's architecture building blocks and parameters influence fingerprint patterns, and it is validated through two designed metrics that examine synthetic models' fidelity and diversity. Our experiments demonstrate that this fingerprint extractor, trained solely on synthetic models, achieves impressive zero-shot generalization on a wide range of real-world generative models, improving model identification and verification accuracy on unseen models by over 40% and 15%, respectively, compared to existing approaches. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# UniAP: 混合整数擬似プログラミングによる層間および層内自動並列化
UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming ( http://arxiv.org/abs/2307.16375v3 ) ライセンス: Link先を確認 | Hao Lin, Ke Wu, Jie Li, Jun Li, Wu-Jun Li, | (参考訳) 分散学習は、ディープラーニングモデル、特に大規模モデルのトレーニングに一般的に使用される。
分散学習において、手動並列性(英語版)(MP)法はかなりの人的努力を必要とし、柔軟性に制限がある。
したがって、並列戦略最適化プロセスを自動化するために、最近自動並列化法(AP)が提案されている。
既存のAP法は、並列戦略の2つのカテゴリ(すなわち層間並列性と層間並列性)を共同で最適化しないため、準最適解に苦しむ。
本論文では、混合整数二次計画法により層間および層間自動並列性を統一するUniAPと呼ばれる新しいAP手法を提案する。
我々の知る限りでは、UniAPは並列戦略の2つのカテゴリを共同で最適化し、最適な解を見つけるための最初の並列手法である。
実験の結果、UniAPは最先端のメソッドをスループット3.80$\times$で上回り、ストラテジー最適化時間を最大107$\times$で5つのTransformerベースのモデルで削減している。
Distributed learning is commonly used for training deep learning models, especially large models. In distributed learning, manual parallelism (MP) methods demand considerable human effort and have limited flexibility. Hence, automatic parallelism (AP) methods have recently been proposed for automating the parallel strategy optimization process. Existing AP methods suffer from sub-optimal solutions because they do not jointly optimize the two categories of parallel strategies (i.e., inter-layer parallelism and intra-layer parallelism). In this paper, we propose a novel AP method called UniAP, which unifies inter- and intra-layer automatic parallelism by mixed integer quadratic programming. To the best of our knowledge, UniAP is the first parallel method that can jointly optimize the two categories of parallel strategies to find an optimal solution. Experimental results show that UniAP outperforms state-of-the-art methods by up to 3.80$\times$ in throughput and reduces strategy optimization time by up to 107$\times$ across five Transformer-based models. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# TempFuser: 長期の短期核融合変換器を使って、アジャイル、戦術、およびアクロバティックな飛行マニアを学ぶ
TempFuser: Learning Agile, Tactical, and Acrobatic Flight Maneuvers Using a Long Short-Term Temporal Fusion Transformer ( http://arxiv.org/abs/2308.03257v3 ) ライセンス: Link先を確認 | Hyunki Seong, David Hyunchul Shim, | (参考訳) ドッグファイティングは、戦略的操作とアジャイル航空機の空気力学の両方を包括的に理解する必要がある航空アプリケーションにおいて難しいシナリオである。
航空エージェントは、長期的視点から戦闘機の戦術的に進化する操縦を理解できるだけでなく、短期的な視点から航空機の空気力学を急速に変化させることも必要である。
本稿では, 複雑なドッグファイト問題におけるアジャイル, 戦術的, アクロバティックな飛行操作を学習できる, 時間的長期統合型トランスフォーマーアーキテクチャである TempFuser を紹介する。
当社のアプローチでは、2つの異なる時間的遷移の埋め込みをトランスフォーマーベースのネットワークに統合し、航空エージェントの長期的戦術と短期的機敏性の両方を包括的に捉える。
これらの視点を取り入れることで、当社のポリシネットワークは、長期にわたって支配的な位置を確保し、効果的にアジャイル反対者を上回る、エンドツーエンドのフライトコマンドを生成します。
高忠実度飛行シミュレーターで訓練した後、我々のモデルは戦略的な操作をうまく学習し、様々な種類の敵機に対して基本方針モデルより優れた性能を発揮する。
特に,本モデルでは,明示的な事前知識を必要とせず,優れた仕様を持つ敵に面しても,人間のようなアクロバティックな操作が可能である。
さらに,超音速・低高度の課題において,強靭な追尾性能を示す。
デモビデオはhttps://sites.google.com/view/tempfuser.comで公開されている。
Dogfighting is a challenging scenario in aerial applications that requires a comprehensive understanding of both strategic maneuvers and the aerodynamics of agile aircraft. The aerial agent needs to not only understand tactically evolving maneuvers of fighter jets from a long-term perspective but also react to rapidly changing aerodynamics of aircraft from a short-term viewpoint. In this paper, we introduce TempFuser, a novel long short-term temporal fusion transformer architecture that can learn agile, tactical, and acrobatic flight maneuvers in complex dogfight problems. Our approach integrates two distinct temporal transition embeddings into a transformer-based network to comprehensively capture both the long-term tactics and short-term agility of aerial agents. By incorporating these perspectives, our policy network generates end-to-end flight commands that secure dominant positions over the long term and effectively outmaneuver agile opponents. After training in a high-fidelity flight simulator, our model successfully learns to execute strategic maneuvers, outperforming baseline policy models against various types of opponent aircraft. Notably, our model exhibits human-like acrobatic maneuvers even when facing adversaries with superior specifications, all without relying on explicit prior knowledge. Moreover, it demonstrates robust pursuit performance in challenging supersonic and low-altitude situations. Demo videos are available at https://sites.google.com/view/tempfuser. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# Copycatのパーセプトロン:集団学習でバリアを壊す
The Copycat Perceptron: Smashing Barriers Through Collective Learning ( http://arxiv.org/abs/2308.03743v3 ) ライセンス: Link先を確認 | Giovanni Catania, Aurélien Decelle, Beatriz Seoane, | (参考訳) 教師-学生のシナリオにおいて, 学生の重み間のハミング距離に比例した強磁性結合を, 適切なコスト関数を条件として, $y$結合二元パーセプトロンのモデルの平衡特性を特徴づける。
最近の研究とは対照的に、各学生の一般化性能に影響を与える熱ノイズが存在するというより一般的な設定を解析する。
非ゼロ温度条件では、レプリカのカップリングが$\alpha$の小さな値への位相図形の曲げにつながることが分かる: これは、自由エントロピーのランドスケープが、完全な一般化(すなわち教師)で解の周囲をより滑らかにし、シミュレートされたアナーリングのような標準的な熱更新アルゴリズムが教師の解にたどり着きやすくなり、非複製の場合、たとえ推論位相図の計算的 \textit{easy} 状態であってもメタスタブル状態に閉じ込められるのを避けることができることを示唆する。
これらの結果は、最近推測されたReplicated Simulated Annealing (RSA) のベイズ最適性について、十分な数のレプリカに対して解析的および数値的な証拠を与える。
学習の観点から、これらの結果は、複数の学生(この場合、同じデータをレビューする)が、協力的および連合的学習の文脈で活用できる特性として、同じルールを著しく高速かつ少ない例で学習できることを示唆している。
We characterize the equilibrium properties of a model of $y$ coupled binary perceptrons in the teacher-student scenario, subject to a suitable cost function, with an explicit ferromagnetic coupling proportional to the Hamming distance between the students' weights. In contrast to recent works, we analyze a more general setting in which thermal noise is present that affects each student's generalization performance. In the nonzero temperature regime, we find that the coupling of replicas leads to a bend of the phase diagram towards smaller values of $\alpha$: This suggests that the free entropy landscape gets smoother around the solution with perfect generalization (i.e., the teacher) at a fixed fraction of examples, allowing standard thermal updating algorithms such as Simulated Annealing to easily reach the teacher solution and avoid getting trapped in metastable states as it happens in the unreplicated case, even in the computationally \textit{easy} regime of the inference phase diagram. These results provide additional analytic and numerical evidence for the recently conjectured Bayes-optimal property of Replicated Simulated Annealing (RSA) for a sufficient number of replicas. From a learning perspective, these results also suggest that multiple students working together (in this case reviewing the same data) are able to learn the same rule both significantly faster and with fewer examples, a property that could be exploited in the context of cooperative and federated learning. | 翻訳日:2024-06-07 04:26:20 公開日:2024-06-05 |
# 数学的検証のための大規模言語モデルの前方逆推論
Forward-Backward Reasoning in Large Language Models for Mathematical Verification ( http://arxiv.org/abs/2308.07758v6 ) ライセンス: Link先を確認 | Weisen Jiang, Han Shi, Longhui Yu, Zhengying Liu, Yu Zhang, Zhenguo Li, James T. Kwok, | (参考訳) 自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
前方推論に基づいており、飽和時により多くの推論鎖をサンプリングすることで、さらなる性能向上はできない。
性能をさらに向上するため、候補解の検証に後方推論を導入する。
具体的には、数学的なタスクに対して、質問の番号をマスキングし、単純なテンプレートによって作成された後方質問、すなわち、候補回答が提供されたときにマスクされた番号を予測するようLLMに求める。
FORward と BAckward Reasoning を組み合わせて検証する FOBAR を提案する。
6つの標準的な数学的データセットと3つのLCMに関する大規模な実験は、FOBARが最先端のパフォーマンスを達成することを示す。
特に、FOBARはフォワード推論のみを使用し、フォワード推論とフォワード推論の組み合わせがより優れていることを示すセルフ一貫性よりも優れています。
さらに、FOBARは既存の検証手法よりも優れた性能を示し、後方推論に使用される単純なテンプレートと提案した組み合わせの有効性を示した。
非数学的問題への拡張も議論され、実証的に検証される。
Self-Consistency samples diverse reasoning chains with answers and chooses the final answer by majority voting. It is based on forward reasoning and cannot further improve performance by sampling more reasoning chains when saturated. To further boost performance, we introduce backward reasoning to verify candidate answers. Specifically, for mathematical tasks, we mask a number in the question and ask the LLM to answer a backward question created by a simple template, i.e., to predict the masked number when a candidate answer is provided. Instead of using forward or backward reasoning alone, we propose FOBAR to combine FOrward and BAckward Reasoning for verification. Extensive experiments on six standard mathematical data sets and three LLMs show that FOBAR achieves state-of-the-art performance. In particular, FOBAR outperforms Self-Consistency, which uses forward reasoning alone, demonstrating that combining forward and forward reasoning is better. In addition, FOBAR performs better than existing verification methods, showing the effectiveness of the simple template used in backward reasoning and the proposed combination. Extensions to non-mathematical problems are also discussed and validated empirically. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# MultiPA:オープンレスポンスシナリオのためのマルチタスク音声発音評価モデル
MultiPA: A Multi-task Speech Pronunciation Assessment Model for Open Response Scenarios ( http://arxiv.org/abs/2308.12490v2 ) ライセンス: Link先を確認 | Yu-Wen Chen, Zhou Yu, Julia Hirschberg, | (参考訳) オープンレスポンスシナリオ用に設計された発音アセスメントモデルにより、ユーザーは実生活におけるコミュニケーションと同様の方法で言語スキルを実践することができる。
しかし、従来のオープンレスポンスの発音評価モデルは、様々な面で総合的な評価を提供するのではなく、文レベルの精度などの単一の発音タスクに主に焦点を当てている。
オープン応答に対する文レベルの精度, 流布度, 韻律, 単語レベルの精度評価を提供するマルチタスク発音評価モデルであるMultiPAを提案する。
異なる発音課題間の相関について検討し,マルチタスク学習の利点を示した。
我々のモデルは、既存のドメイン内データセットの最先端のパフォーマンスに達し、新たに収集したドメイン外データセットに効果的に一般化した。
実世界の応用において,本モデルの実用性を示す実験結果が得られた。
Pronunciation assessment models designed for open response scenarios enable users to practice language skills in a manner similar to real-life communication. However, previous open-response pronunciation assessment models have predominantly focused on a single pronunciation task, such as sentence-level accuracy, rather than offering a comprehensive assessment in various aspects. We propose MultiPA, a Multitask Pronunciation Assessment model that provides sentence-level accuracy, fluency, prosody, and word-level accuracy assessment for open responses. We examined the correlation between different pronunciation tasks and showed the benefits of multi-task learning. Our model reached the state-of-the-art performance on existing in-domain data sets and effectively generalized to an out-of-domain dataset that we newly collected. The experimental results demonstrate the practical utility of our model in real-world applications. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# トポロジーによる解離学習
Disentanglement Learning via Topology ( http://arxiv.org/abs/2308.12696v4 ) ライセンス: Link先を確認 | Nikita Balabin, Daria Voronkova, Ilya Trofimov, Evgeny Burnaev, Serguei Barannikov, | (参考訳) マルチスケールなトポロジ的損失項を付加することにより,不整合表現を学習するTopDis(トポロジカル・ディアンタングルメント)を提案する。
ディスタングルメントは、ディープラーニングモデルの説明可能性と堅牢性、およびハイレベル認知へのステップにとって重要なデータ表現の重要な特性である。
最先端の手法はVAEに基づいており、潜在変数の共分散を分解することを奨励する。
データ多様体のトポロジ的性質を解析することにより、解離について異なる視点を採る。
特に,データ多様体のトポロジ的類似性を最適化する。
我々の知識を最大限に活用するために,本論文は,解離学習のための微分可能な位相損失を提案する最初の論文である。
提案したTopDis損失は,再建品質を保ちながら,MIG,FacterVAEスコア,SAPスコア,DCIアンタングルメントスコアなどのアンタングルメントスコアを改善した。
我々の手法は教師なしの方法で動作し、変動要因をラベル付けせずに問題に適用することができる。
TopDisの損失は、変動の要因が相関している場合でも機能する。
さらに, 提案した位相損失を用いて, 訓練されたGANにおいて, 絡み合った方向を求める方法を示す。
We propose TopDis (Topological Disentanglement), a method for learning disentangled representations via adding a multi-scale topological loss term. Disentanglement is a crucial property of data representations substantial for the explainability and robustness of deep learning models and a step towards high-level cognition. The state-of-the-art methods are based on VAE and encourage the joint distribution of latent variables to be factorized. We take a different perspective on disentanglement by analyzing topological properties of data manifolds. In particular, we optimize the topological similarity for data manifolds traversals. To the best of our knowledge, our paper is the first one to propose a differentiable topological loss for disentanglement learning. Our experiments have shown that the proposed TopDis loss improves disentanglement scores such as MIG, FactorVAE score, SAP score, and DCI disentanglement score with respect to state-of-the-art results while preserving the reconstruction quality. Our method works in an unsupervised manner, permitting us to apply it to problems without labeled factors of variation. The TopDis loss works even when factors of variation are correlated. Additionally, we show how to use the proposed topological loss to find disentangled directions in a trained GAN. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# クーパー対スプリッターを用いたフェルミオン量子計算
Fermionic quantum computation with Cooper pair splitters ( http://arxiv.org/abs/2309.00447v4 ) ライセンス: Link先を確認 | Kostas Vilkelis, Antonio Manesco, Juan Daniel Torres Luna, Sebastian Miles, Michael Wimmer, Anton Akhmerov, | (参考訳) 量子ビットではなく局所フェルミオンモード(LFM)を用いる普遍量子コンピュータの実践的実装を提案する。
デバイスレイアウトは、ハイブリッド超伝導島で結合された量子ドットトンネルと、ドット間の可変容量結合からなる。
クーパー対分割, 弾性コツネリング, クーロン相互作用のコヒーレント制御により, ブラヴィイとキタエフによって定義された量子ゲートの普遍的な集合を実現できることを示す。
電荷量子ビットとの類似性のため、電荷ノイズがデコヒーレンスの主な原因になると期待する。
このため、量子ドットが超伝導体に調整可能な結合を持つような代替設計も検討する。
この第2のデバイス設計では、局所フェルミオンモードが電荷中立であるスイートスポットが存在し、ノイズ効果に敏感であることを示す。
最後に、設計と実験的制約を比較し、それらを克服するための今後の取り組みを提案する。
We propose a practical implementation of a universal quantum computer that uses local fermionic modes (LFM) rather than qubits. The device layout consists of quantum dots tunnel coupled by a hybrid superconducting island and a tunable capacitive coupling between the dots. We show that coherent control of Cooper pair splitting, elastic cotunneling, and Coulomb interactions allows us to implement the universal set of quantum gates defined by Bravyi and Kitaev. Due to the similarity with charge qubits, we expect charge noise to be the main source of decoherence. For this reason, we also consider an alternative design where the quantum dots have tunable coupling to the superconductor. In this second device design, we show that there is a sweetspot for which the local fermionic modes are charge neutral, making the device insensitive to charge noise effects. Finally, we compare both designs and their experimental limitations and suggest future efforts to overcome them. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# CONFIDERAI: 説明可能で信頼性の高い人工知能のための新しいコンフォーマル・インタプリタブル・バイ・デザインスコア関数
CONFIDERAI: a novel CONFormal Interpretable-by-Design score function for Explainable and Reliable Artificial Intelligence ( http://arxiv.org/abs/2309.01778v3 ) ライセンス: Link先を確認 | Sara Narteni, Alberto Carlevaro, Fabrizio Dabbene, Marco Muselli, Maurizio Mongelli, | (参考訳) 日々の生活は人工知能の影響をますます受けており、機械学習アルゴリズムが誰にとっても信頼性と信頼性を持つように設計されていることに疑いの余地はない。
具体的には、コンピュータ科学者は、人工知能システムが説明可能性、堅牢性、透明性、公正性、プライバシーの5つの柱を満たす場合、安全で信頼性の高いシステムだと考えている。
これら5つに加えて,機械学習者が期待するようにシステムが振る舞う確率的保証という6つの基本的側面を提案する。
本稿では,ルールの予測能力,ルール境界内の点の幾何学的位置,および規則間の重なり合いを利用したルールベース分類器の新しいスコア関数を,幾何学的規則類似項の定義により定義することにより,共形予測と説明可能な機械学習を関連付ける手法を提案する。
さらに, 整合性保証を満たす特徴空間内の領域定義の問題に対処し, 整合性臨界集合の定義を利用して, 対象クラスの性能を改善した新しいルールを実現する方法を示す。
全体的な方法論は、ドメイン名サーバのトンネリング検出や心臓血管疾患の予測など、現実の関心のあるいくつかのデータセットで有望な結果でテストされている。
Everyday life is increasingly influenced by artificial intelligence, and there is no question that machine learning algorithms must be designed to be reliable and trustworthy for everyone. Specifically, computer scientists consider an artificial intelligence system safe and trustworthy if it fulfills five pillars: explainability, robustness, transparency, fairness, and privacy. In addition to these five, we propose a sixth fundamental aspect: conformity, that is, the probabilistic assurance that the system will behave as the machine learner expects. In this paper, we present a methodology to link conformal prediction with explainable machine learning by defining a new score function for rule-based classifiers that leverages rules predictive ability, the geometrical position of points within rules boundaries and the overlaps among rules as well, thanks to the definition of a geometrical rule similarity term. Furthermore, we address the problem of defining regions in the feature space where conformal guarantees are satisfied, by exploiting the definition of conformal critical set and showing how this set can be used to achieve new rules with improved performance on the target class. The overall methodology is tested with promising results on several datasets of real-world interest, such as domain name server tunneling detection or cardiovascular disease prediction. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# オンライン連続学習におけるモメンタム知識蒸留の再考
Rethinking Momentum Knowledge Distillation in Online Continual Learning ( http://arxiv.org/abs/2309.02870v2 ) ライセンス: Link先を確認 | Nicolas Michel, Maorong Wang, Ling Xiao, Toshihiko Yamasaki, | (参考訳) オンライン連続学習(OCL)は、複数の分類タスクが順番に現れる連続データストリーム上で、ニューラルネットワークをトレーニングする問題に対処する。
オフラインの連続学習とは対照的に、データはOCLで一度しか見ることができない。
この文脈では、リプレイベースの戦略は印象的な成果を上げており、ほとんどの最先端のアプローチはそれらに大きく依存している。
知識蒸留(KD)はオフラインの連続学習で広く使われているが、OCLでは高い可能性にもかかわらず未公開のままである。
本稿では、OCLにKDを適用する際の課題を分析し、実証的な正当化を与える。
我々は,多くの旗艦OCL法にMKD(Momentum Knowledge Distillation)を適用するための直接的かつ効果的な手法を導入し,既存のアプローチを強化する能力を実証する。
ImageNet100の既存の最先端の精度を10\%以上向上することに加えて、私たちは、OCLでのトレーニング中にMKDの内部力学と影響に光を当てました。
リプレイと同様、MKDはOCLの中心的なコンポーネントであるべきだと我々は主張する。
コードは \url{https://github.com/Nicolas1203/mkd_ocl} で公開されている。
Online Continual Learning (OCL) addresses the problem of training neural networks on a continuous data stream where multiple classification tasks emerge in sequence. In contrast to offline Continual Learning, data can be seen only once in OCL, which is a very severe constraint. In this context, replay-based strategies have achieved impressive results and most state-of-the-art approaches heavily depend on them. While Knowledge Distillation (KD) has been extensively used in offline Continual Learning, it remains under-exploited in OCL, despite its high potential. In this paper, we analyze the challenges in applying KD to OCL and give empirical justifications. We introduce a direct yet effective methodology for applying Momentum Knowledge Distillation (MKD) to many flagship OCL methods and demonstrate its capabilities to enhance existing approaches. In addition to improving existing state-of-the-art accuracy by more than $10\%$ points on ImageNet100, we shed light on MKD internal mechanics and impacts during training in OCL. We argue that similar to replay, MKD should be considered a central component of OCL. The code is available at \url{https://github.com/Nicolas1203/mkd_ocl}. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# 大規模言語モデルはソーシャルメディア利用者の心理的配置を推測できる
Large Language Models Can Infer Psychological Dispositions of Social Media Users ( http://arxiv.org/abs/2309.08631v2 ) ライセンス: Link先を確認 | Heinrich Peters, Sandra Matz, | (参考訳) 大規模言語モデル(LLM)は、多種多様なタスクにまたがって、ますます人間のような能力を示す。
本稿では,ChatGPT のような LLM がソーシャルメディア利用者の心理的配置を正確に推測できるかどうか,その能力が社会デミノグラフィーグループによって異なるかを検討する。
具体的には、GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。
その結果, LLM-inferred と self-reported trait scores の r = .29 (range = [.22, .33]) の平均相関は, 人格を推定するために特別に訓練された教師付き機械学習モデルと類似した精度であることがわかった。
また,年齢の異なるグループや性別のカテゴリーで人格推定の精度が不均一であることも明らかにした。女性や若年者に対して,いくつかの特徴についてより正確であることから,基礎となるトレーニングデータやオンライン自己表現の相違から生じる潜在的なバイアスが示唆された。
LLMがユーザ生成テキストから心理的配置を推測する能力は、研究者と実践者の両方にとって安価でスケーラブルな心理測定アセスメントへのアクセスを民主化する可能性がある。
一方で、この民主化は、個人化されたサービスにおいて、生態的妥当性の高い大規模研究を促進し、イノベーションを喚起する可能性がある。
一方で、ユーザープライバシと自己決定に関する倫理的懸念を提起し、厳格な倫理的枠組みと規制の必要性を強調している。
Large Language Models (LLMs) demonstrate increasingly human-like abilities across a wide variety of tasks. In this paper, we investigate whether LLMs like ChatGPT can accurately infer the psychological dispositions of social media users and whether their ability to do so varies across socio-demographic groups. Specifically, we test whether GPT-3.5 and GPT-4 can derive the Big Five personality traits from users' Facebook status updates in a zero-shot learning scenario. Our results show an average correlation of r = .29 (range = [.22, .33]) between LLM-inferred and self-reported trait scores - a level of accuracy that is similar to that of supervised machine learning models specifically trained to infer personality. Our findings also highlight heterogeneity in the accuracy of personality inferences across different age groups and gender categories: predictions were found to be more accurate for women and younger individuals on several traits, suggesting a potential bias stemming from the underlying training data or differences in online self-expression. The ability of LLMs to infer psychological dispositions from user-generated text has the potential to democratize access to cheap and scalable psychometric assessments for both researchers and practitioners. On the one hand, this democratization might facilitate large-scale research of high ecological validity and spark innovation in personalized services. On the other hand, it also raises ethical concerns regarding user privacy and self-determination, highlighting the need for stringent ethical frameworks and regulation. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# 分岐境界におけるノード選択のための強化学習
Reinforcement Learning for Node Selection in Branch-and-Bound ( http://arxiv.org/abs/2310.00112v2 ) ライセンス: Link先を確認 | Alexander Mattick, Christopher Mutschler, | (参考訳) ブランチとバウンドにおける大きな課題は、検索ツリー内の最適なノードを特定することにある。
現在の最先端セレクタは手作りのアンサンブルを使用して、ナイーブなサブノードセレクタと、個々のノードデータに依存する学習ノードセレクタを自動的に切り替える。
孤立ノードではなく木の状態全体を考慮しながら強化学習(RL)を用いる新しいシミュレーション手法を提案する。
これを実現するために、モデル根から「選択すべき」葉への経路に基づいて確率分布を生成するグラフニューラルネットワークを訓練する。
ノード選択を確率分布としてモデル化することで、本質的なノード品質とノード評価コストの両方をキャプチャする最先端のRL技術を用いてモデルを訓練することができる。
提案手法は,TSP(Synthetic Travelling Salesmen problem)インスタンスでのみ訓練されているにもかかわらず,多種多様な複雑な問題集合に対して高品質なノード選択ポリシーを誘導する。
このような固定事前訓練ポリシーを用いることで、厳しい時間制約下での最適性ギャップ削減とノード単位の効率において、いくつかのベンチマークにおいて顕著な改善が示される。
A big challenge in branch and bound lies in identifying the optimal node within the search tree from which to proceed. Current state-of-the-art selectors utilize either hand-crafted ensembles that automatically switch between naive sub-node selectors, or learned node selectors that rely on individual node data. We propose a novel simulation technique that uses reinforcement learning (RL) while considering the entire tree state, rather than just isolated nodes. To achieve this, we train a graph neural network that produces a probability distribution based on the path from the model's root to its "to-be-selected" leaves. Modelling node-selection as a probability distribution allows us to train the model using state-of-the-art RL techniques that capture both intrinsic node-quality and node-evaluation costs. Our method induces a high quality node selection policy on a set of varied and complex problem sets, despite only being trained on specially designed, synthetic travelling salesmen problem (TSP) instances. Using such a fixed pretrained policy shows significant improvements on several benchmarks in optimality gap reductions and per-node efficiency under strict time constraints. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# HarmonyDream:世界モデル内でのタスクハーモニゼーション
HarmonyDream: Task Harmonization Inside World Models ( http://arxiv.org/abs/2310.00344v3 ) ライセンス: Link先を確認 | Haoyu Ma, Jialong Wu, Ningya Feng, Chenjun Xiao, Dong Li, Jianye Hao, Jianmin Wang, Mingsheng Long, | (参考訳) モデルベース強化学習(MBRL)は、環境がどのように機能するかをモデル化し、典型的には2つのタスク、すなわち観察モデリングと報酬モデリングを包含する世界モデルを活用することで、サンプル効率の学習を約束する。
本稿では,世界モデルにおいて各タスクが果たす役割について,専用の実証研究を通じてより深く理解し,見落としているサンプル効率のMBRLの可能性を明らかにする。
我々の重要な洞察は、明示的なMBRLの一般的なアプローチは、観測モデルを通して環境の豊富な詳細を復元しようとするが、環境の複雑さと限られたモデル容量のために困難であるということである。
一方、報酬モデルでは、暗黙のMBRLに支配的であり、コンパクトなタスク中心のダイナミクスを学習する能力は低いが、より豊かな学習信号を持たないサンプル効率の学習には不十分である。
これらの知見と発見に触発されて,世界モデル学習における2つのタスク間の動的平衡性を維持するために,損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
実験の結果,HarmonyDreamをベースとしたMBRL法では,視覚ロボティクスの絶対性能が10%-69%向上し,Atari 100Kベンチマークに新たな最先端結果が得られた。
コードはhttps://github.com/thuml/HarmonyDream.comで入手できる。
Model-based reinforcement learning (MBRL) holds the promise of sample-efficient learning by utilizing a world model, which models how the environment works and typically encompasses components for two tasks: observation modeling and reward modeling. In this paper, through a dedicated empirical investigation, we gain a deeper understanding of the role each task plays in world models and uncover the overlooked potential of sample-efficient MBRL by mitigating the domination of either observation or reward modeling. Our key insight is that while prevalent approaches of explicit MBRL attempt to restore abundant details of the environment via observation models, it is difficult due to the environment's complexity and limited model capacity. On the other hand, reward models, while dominating implicit MBRL and adept at learning compact task-centric dynamics, are inadequate for sample-efficient learning without richer learning signals. Motivated by these insights and discoveries, we propose a simple yet effective approach, HarmonyDream, which automatically adjusts loss coefficients to maintain task harmonization, i.e. a dynamic equilibrium between the two tasks in world model learning. Our experiments show that the base MBRL method equipped with HarmonyDream gains 10%-69% absolute performance boosts on visual robotic tasks and sets a new state-of-the-art result on the Atari 100K benchmark. Code is available at https://github.com/thuml/HarmonyDream. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# 直接メトリクス最適化としての言語モデルデコーディング
Language Model Decoding as Direct Metrics Optimization ( http://arxiv.org/abs/2310.01041v2 ) ライセンス: Link先を確認 | Haozhe Ji, Pei Ke, Hongning Wang, Minlie Huang, | (参考訳) 言語モデリングの顕著な進歩にもかかわらず、現在の主流の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに依然として苦労している。
特に、サンプリングベースの手法は、しばしば言論において不規則である少ない反復テキストを生成するが、検索ベースの手法は繰り返しの増大を犠牲にしてトピックコヒーレンスを維持する。
全体として、これらの手法は幅広い側面にわたる全体的アライメントを達成するには不十分である。
本研究では,言語モデルからの復号化を最適化問題として,所望のアスペクトの複数のメトリクスで測定された人文と期待性能を厳密にマッチングすることを目的としている。
結果として得られる復号化分布は、これらの指標によって定義されたシーケンスレベルのエネルギー関数を介して入力言語モデルの分布をスケールする分析解を享受する。
そして、最も重要なことは、この誘導された分布が人間のテキストの難易度を向上させることが保証されていることを示し、人間のテキストの基盤となる分布に対するより良い近似が示唆される。
グローバルな正規化分布から抽出可能なサンプリングを容易にするため,サンプリング・インポータンス・サンプリング手法を採用した。
各種領域実験とモデルスケール実験により,本手法がヒトのテキストに適合する指標や,強いベースラインに対する人的評価において優位性を示した。
Despite the remarkable advances in language modeling, current mainstream decoding methods still struggle to generate texts that align with human texts across different aspects. In particular, sampling-based methods produce less-repetitive texts which are often disjunctive in discourse, while search-based methods maintain topic coherence at the cost of increased repetition. Overall, these methods fall short in achieving holistic alignment across a broad range of aspects. In this work, we frame decoding from a language model as an optimization problem with the goal of strictly matching the expected performance with human texts measured by multiple metrics of desired aspects simultaneously. The resulting decoding distribution enjoys an analytical solution that scales the input language model distribution via a sequence-level energy function defined by these metrics. And most importantly, we prove that this induced distribution is guaranteed to improve the perplexity on human texts, which suggests a better approximation to the underlying distribution of human texts. To facilitate tractable sampling from this globally normalized distribution, we adopt the Sampling-Importance-Resampling technique. Experiments on various domains and model scales demonstrate the superiority of our method in metrics alignment with human texts and human evaluation over strong baselines. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# 知識グラフにおけるグラフパターンクエリの解答のためのニューロシンボリックフレームワーク
A Neuro-Symbolic Framework for Answering Graph Pattern Queries in Knowledge Graphs ( http://arxiv.org/abs/2310.04598v2 ) ライセンス: Link先を確認 | Tamara Cucumides, Daniel Daza, Pablo Barceló, Michael Cochez, Floris Geerts, Juan L Reutter, Miguel Romero, | (参考訳) 不完全な知識グラフに対してグラフクエリに答えることの課題は、機械学習コミュニティで大きな注目を集めている。
ニューロシンボリックモデルは、優れた性能と高い解釈可能性を組み合わせた、有望なアプローチとして現れている。
これらのモデルは、訓練されたアーキテクチャを使用して、アトミッククエリを実行し、シンボリッククエリ演算子を模倣するモジュールを統合する。
しかし、ほとんどのニューロシンボリッククエリプロセッサは木のようなグラフパターンクエリに制約されている。
これらのクエリは、一定値のボトムアップ実行や、葉のアンカー、ルートのターゲット変数を許容する。
表現力のある木のようなクエリは、エンティティ間の複数エッジの存在や三角形の存在など、知識グラフにおける重要な特性を捉えることができない。
非完全知識グラフ上で任意のグラフパターンクエリに応答するフレームワークを導入する。
これらのクエリのクラスは実用的な応用には不可欠であるが、現在のほとんどのニューロシンボリックモデルの範囲を超えている。
提案手法では,循環パターンの非循環的トラバーサルを容易にする近似手法を用いて,クエリ実行プロセスに新たなシンボルバイアスを埋め込む。
実験により,本フレームワークは3つのデータセット上で競合的に動作し,周期的クエリを近似戦略により効果的に処理できることが確認された。
さらに、アンカー木のようなクエリ上での既存のニューロシンボリックモデルの性能を維持し、その能力を存在量化変数を持つクエリに拡張する。
The challenge of answering graph queries over incomplete knowledge graphs is gaining significant attention in the machine learning community. Neuro-symbolic models have emerged as a promising approach, combining good performance with high interpretability. These models utilize trained architectures to execute atomic queries and integrate modules that mimic symbolic query operators. However, most neuro-symbolic query processors are constrained to tree-like graph pattern queries. These queries admit a bottom-up execution with constant values or anchors at the leaves and the target variable at the root. While expressive, tree-like queries fail to capture critical properties in knowledge graphs, such as the existence of multiple edges between entities or the presence of triangles. We introduce a framework for answering arbitrary graph pattern queries over incomplete knowledge graphs, encompassing both cyclic queries and tree-like queries with existentially quantified leaves. These classes of queries are vital for practical applications but are beyond the scope of most current neuro-symbolic models. Our approach employs an approximation scheme that facilitates acyclic traversals for cyclic patterns, thereby embedding additional symbolic bias into the query execution process. Our experimental evaluation demonstrates that our framework performs competitively on three datasets, effectively handling cyclic queries through our approximation strategy. Additionally, it maintains the performance of existing neuro-symbolic models on anchored tree-like queries and extends their capabilities to queries with existentially quantified variables. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# 繰り返し拘束された部分観測可能なマルコフ決定過程
Recursively-Constrained Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2310.09688v3 ) ライセンス: Link先を確認 | Qi Heng Ho, Tyler Becker, Benjamin Kraske, Zakariya Laouar, Martin S. Feather, Federico Rossi, Morteza Lahijanian, Zachary N. Sunberg, | (参考訳) 多くのシーケンシャルな決定問題は、1つの目的関数を最適化し、他の目的に制約を課す。
制約付き部分可観測マルコフ決定過程(C-POMDP)は、遷移の不確実性と部分可観測性をモデル化する。
本研究は,C-POMDPが連続的な決定ステップに対して最適部分構造特性に反し,いくつかの(安全クリティカルな)アプリケーションでは望ましくない動作を示すことを最初に示す。
さらに、C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
これらの欠点に対処するために、C-POMDPに履歴依存のコスト制約を加えるRecursively-Constrained POMDP(RC-POMDP)を導入する。
C-POMDPとは異なり、RC-POMDPは常に決定論的最適ポリシーを持ち、最適ポリシーはベルマンの最適性原理に従うことを示す。
また,RC-POMDPに対するポイントベース動的プログラミングアルゴリズムを提案する。
ベンチマーク問題の評価は,提案アルゴリズムの有効性を示し,C-POMDPのポリシーよりもRC-POMDPのポリシーの方が望ましい行動をもたらすことを示した。
Many sequential decision problems involve optimizing one objective function while imposing constraints on other objectives. Constrained Partially Observable Markov Decision Processes (C-POMDP) model this case with transition uncertainty and partial observability. In this work, we first show that C-POMDPs violate the optimal substructure property over successive decision steps and thus may exhibit behaviors that are undesirable for some (e.g., safety critical) applications. Additionally, online re-planning in C-POMDPs is often ineffective due to the inconsistency resulting from this violation. To address these drawbacks, we introduce the Recursively-Constrained POMDP (RC-POMDP), which imposes additional history-dependent cost constraints on the C-POMDP. We show that, unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies and that optimal policies obey Bellman's principle of optimality. We also present a point-based dynamic programming algorithm for RC-POMDPs. Evaluations on benchmark problems demonstrate the efficacy of our algorithm and show that policies for RC-POMDPs produce more desirable behaviors than policies for C-POMDPs. | 翻訳日:2024-06-07 04:16:10 公開日:2024-06-05 |
# 大規模言語モデルを用いたエンティティマッチング
Entity Matching using Large Language Models ( http://arxiv.org/abs/2310.11244v3 ) ライセンス: Link先を確認 | Ralph Peeters, Christian Bizer, | (参考訳) エンティティマッチングは、2つのエンティティ記述が同じ現実世界のエンティティを指すかどうかを決定するタスクであり、ほとんどのデータ統合パイプラインにおいて中心的なステップである。
多くの最先端エンティティマッチング方法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。
エンティティマッチングにおけるこれらのモデルの2つの大きな欠点は、それらである。
一 相当量のタスク特化訓練データを必要とするモデル
(ii) 細調整されたモデルは分布外エンティティに関して堅牢ではない。
本稿では, PLM ベースのマーカに代わる, タスク依存のトレーニングモデルとして, ジェネレーティブな大規模言語モデル (LLM) を用いて検討する。
我々の研究は、ローカルで実行できるLLMをホストおよびオープンソースでカバーしています。
我々は、これらのモデルをゼロショットシナリオとタスク固有のトレーニングデータが利用できるシナリオで評価する。
異なるプロンプト設計とモデルの迅速な感度を比較し、最高のプロンプトはひとつもないが、各モデル/データセットの組み合わせに合わせて調整する必要があることを示す。
我々はさらに調査する
i) 文脈内デモンストレーションの選択
(二)一致規則の生成及び一致規則
三 同じトレーニングデータのプールを用いてホストLDMを微調整すること。
実験の結果, 数千の例を用いて微調整したPLMと同じような動作を行うには, 最高のLCMは, ほとんど, あるいはわずかの訓練例を必要としないことがわかった。
LLMベースのマーカはさらに、目に見えないエンティティに対して高いロバスト性を示す。
GPT4は一致判定のための構造化された説明を生成することができることを示す。
モデルは、間違った判断の説明を分析することによって、一致したエラーの潜在的な原因を自動的に特定することができる。
モデルが識別されたエラークラスの意味のあるテキスト記述を生成することを実証し、データエンジニアがエンティティマッチングパイプラインを改善するのに役立つことを実証した。
Entity Matching is the task of deciding whether two entity descriptions refer to the same real-world entity and is a central step in most data integration pipelines. Many state-of-the-art entity matching methods rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. This paper investigates using generative large language models (LLMs) as a less task-specific training data-dependent and more robust alternative to PLM-based matchers. Our study covers hosted and open-source LLMs, which can be run locally. We evaluate these models in a zero-shot scenario and a scenario where task-specific training data is available. We compare different prompt designs and the prompt sensitivity of the models and show that there is no single best prompt but needs to be tuned for each model/dataset combination. We further investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning a hosted LLM using the same pool of training data. Our experiments show that the best LLMs require no or only a few training examples to perform similarly to PLMs that were fine-tuned using thousands of examples. LLM-based matchers further exhibit higher robustness to unseen entities. We show that GPT4 can generate structured explanations for matching decisions. The model can automatically identify potential causes of matching errors by analyzing explanations of wrong decisions. We demonstrate that the model can generate meaningful textual descriptions of the identified error classes, which can help data engineers improve entity matching pipelines. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# partialFormer: 機械翻訳のための全体ではなく、モデリング部分
PartialFormer: Modeling Part Instead of Whole for Machine Translation ( http://arxiv.org/abs/2310.14921v2 ) ライセンス: Link先を確認 | Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu, | (参考訳) Transformerフィードフォワードニューラルネットワークの設計選択により、計算とパラメータのオーバーヘッドが大きくなった。
本稿では,従来のアーキテクチャでは見過ごされがちな軽量FFNの設計において,隠れ次元の重要性を強調した。
この原理により,複数の小さなFFNを用いたパラメータ効率の高いトランスフォーマーアーキテクチャであるPartialFormerを導入し,パラメータや計算量を削減するとともに,本質的な隠蔽次元を維持した。
これらの小さなFFNは、効果的なコラボレーションのためのマルチヘッドアテンションメカニズムに統合される。
また、PartialFormerの機能を強化するために、カスタマイズされたヘッドスケーリング戦略を提案する。
さらに,DepartFormer内での深度スケーリングを改善するために,残差型アテンション計算を提案する。
9つの翻訳タスクと1つの抽象的な要約タスクに関する広範囲な実験により、機械翻訳および要約タスクにおける部分ホルマーアプローチの有効性が検証された。
私たちのコードは、https://github.com/zhengkid/PartialFormer.comで利用可能です。
The design choices in Transformer feed-forward neural networks have resulted in significant computational and parameter overhead. In this work, we emphasize the importance of hidden dimensions in designing lightweight FFNs, a factor often overlooked in previous architectures. Guided by this principle, we introduce PartialFormer, a parameter-efficient Transformer architecture utilizing multiple smaller FFNs to reduce parameters and computation while maintaining essential hidden dimensions. These smaller FFNs are integrated into a multi-head attention mechanism for effective collaboration. We also propose a tailored head scaling strategy to enhance PartialFormer's capabilities. Furthermore, we present a residual-like attention calculation to improve depth scaling within PartialFormer. Extensive experiments on 9 translation tasks and 1 abstractive summarization task validate the effectiveness of our PartialFormer approach on machine translation and summarization tasks. Our code would be available at: https://github.com/zhengkid/PartialFormer. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# FollowBench: 大規模言語モデルのベンチマークに続くマルチレベルきめ細かい制約
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models ( http://arxiv.org/abs/2310.20410v3 ) ライセンス: Link先を確認 | Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang, | (参考訳) 命令に従う能力は、LLM(Large Language Models)が様々な現実世界のアプリケーションを扱うために不可欠である。
既存のベンチマークは主に、命令に記載された制約に従って応答を評価するのではなく、純粋な応答品質を評価することに焦点を当てている。
本研究のギャップを埋めるために,LLMのベンチマークに追従する多レベルきめ細粒度制約であるFollowBenchを提案する。
FollowBenchは、きめ細かい制約の5つの異なるタイプ(コンテンツ、状況、スタイル、フォーマット、例)を包括的に含んでいる。
多様な難易度を推定する上で正確な制約を実現するために,各増加レベルにおいて初期命令に1つの制約を漸進的に付加するマルチレベル機構を導入する。
LLMの出力が個々の制約をすべて満たしたかどうかを評価するため,制約進化経路を持つ強いLCMをオープンエンド命令に対処するために提案する。
FollowBench上での13のオープンソースおよびオープンソースLLMの評価により,今後の研究への道のりを示唆する指導におけるLLMの弱点を浮き彫りにしている。
データとコードはhttps://github.com/YJiangcm/FollowBench.comで公開されている。
The ability to follow instructions is crucial for Large Language Models (LLMs) to handle various real-world applications. Existing benchmarks primarily focus on evaluating pure response quality, rather than assessing whether the response follows constraints stated in the instruction. To fill this research gap, in this paper, we propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark for LLMs. FollowBench comprehensively includes five different types (i.e., Content, Situation, Style, Format, and Example) of fine-grained constraints. To enable a precise constraint following estimation on diverse difficulties, we introduce a Multi-level mechanism that incrementally adds a single constraint to the initial instruction at each increased level. To assess whether LLMs' outputs have satisfied every individual constraint, we propose to prompt strong LLMs with constraint-evolution paths to handle challenging open-ended instructions. By evaluating 13 closed-source and open-source popular LLMs on FollowBench, we highlight the weaknesses of LLMs in instruction following and point towards potential avenues for future work. The data and code are publicly available at https://github.com/YJiangcm/FollowBench. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# ベイズ状態推定のためのハールランダムとかなり良い測定
Haar-random and pretty good measurements for Bayesian state estimation ( http://arxiv.org/abs/2310.20565v2 ) ライセンス: Link先を確認 | Maria Quadeer, | (参考訳) 本研究では,Haar-random基底とベイズ状態推定法について検討した。
N$ Haar-random基底が与えられたとき、純粋な状態の均一なアンサンブルに対して、そのようなランダムな測定のIDD列上で平均化された忠実度に束縛される。
混合量子状態のアンサンブルに対して、ユニタリな2-設計によって定義される測度は、ハールランダムなユニタリ(英語版)(Haar random unitary)によって定義されるものに近いが、パウリ群は弱い下界のみを与える。
単発更新では、Petzリカバリマップを用いて、かなり良いベイズ平均推定値が得られることを示す。
We study Haar-random bases and pretty good measurement for Bayesian state estimation. Given $N$ Haar-random bases we derive a bound on fidelity averaged over IID sequences of such random measurements for a uniform ensemble of pure states. For ensembles of mixed qubit states, we find that measurements defined through unitary 2-designs closely approximate those defined via Haar random unitaries while the Pauli group only gives a weak lower bound. For a single-shot-update, we show using the Petz recovery map for pretty good measurement that it can give pretty good Bayesian mean estimates. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 最小限に修正されたマルコフゲームは、あらゆるナッシュ均衡と価値を得る
Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value ( http://arxiv.org/abs/2311.00582v3 ) ライセンス: Link先を確認 | Young Wu, Jeremy McMahan, Yiding Chen, Yudong Chen, Xiaojin Zhu, Qiaomin Xie, | (参考訳) 本稿では,ゲーム修正問題について検討する。このゲーム修正問題では,ゼロサムマルコフゲームの報酬関数を,目標決定的あるいは確率的ポリシープロファイルが独自のマルコフ完全ナッシュ均衡となり,目標範囲内に値を持つように変更コストを最小限に抑える方法として,ゼロサムマルコフゲームの報酬関数を変更する。
ゲーム内の一意平衡としてインストール可能なポリシープロファイルの集合を特徴付け,インストールを成功させるために十分な,必要な条件を確立する。
線形制約で凸最適化問題を解き、次にランダムな摂動を行い、ほぼ最適コストで修正計画を得る効率的なアルゴリズムを提案する。
We study the game modification problem, where a benevolent game designer or a malevolent adversary modifies the reward function of a zero-sum Markov game so that a target deterministic or stochastic policy profile becomes the unique Markov perfect Nash equilibrium and has a value within a target range, in a way that minimizes the modification cost. We characterize the set of policy profiles that can be installed as the unique equilibrium of some game, and establish sufficient and necessary conditions for successful installation. We propose an efficient algorithm, which solves a convex optimization problem with linear constraints and then performs random perturbation, to obtain a modification plan with a near-optimal cost. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# S-LoRA: 数千の同時LoRAアダプタ
S-LoRA: Serving Thousands of Concurrent LoRA Adapters ( http://arxiv.org/abs/2311.03285v3 ) ライセンス: Link先を確認 | Ying Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica, | (参考訳) Pretrain-then-finetune"パラダイムは、大きな言語モデルのデプロイに一般的に採用されている。
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるのによく使われ、結果として1つのベースモデルから派生したLoRAアダプタのかなりのコレクションとなる。
我々は,このパラダイムが提供中のバッチ推論に重要な機会をもたらすことを観察した。
これらの機会を生かして,多くのLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
S-LoRAは、すべてのアダプタをメインメモリに格納し、現在実行中のクエリが使用するアダプタをGPUメモリにフェッチする。
GPUメモリを効率的に使用し、フラグメンテーションを低減するため、S-LoRAはUnified Pagingを提案する。
Unified Pagingは統一メモリプールを使用して、異なるランクの動的アダプタウェイトと異なるシーケンス長のKVキャッシュテンソルを管理する。
さらに、S-LoRAは、新しいテンソル並列化戦略と高度に最適化されたカスタムCUDAカーネルを用いて、LoRA計算の不均一なバッチ処理を行う。
これらの機能により、S-LoRAは単一のGPU上で、あるいは小さなオーバーヘッドで複数のGPU上で数千のLoRAアダプタを提供することができる。
HuggingFace PEFTやvLLMのような最先端のライブラリと比較すると、S-LoRAはスループットを最大4倍改善し、サービスアダプタの数を桁違いに増やすことができる。
その結果、S-LoRAは多くのタスク固有の細調整されたモデルのスケーラブルな提供を可能にし、大規模にカスタマイズされた細調整サービスの可能性を秘めている。
コードはhttps://github.com/S-LoRA/S-LoRAで公開されている。
The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 量子回路の最適化
Quantum Circuit Unoptimization ( http://arxiv.org/abs/2311.03805v2 ) ライセンス: Link先を確認 | Yusei Mori, Hideaki Hakoshima, Kyohei Sudo, Toshio Mori, Kosuke Mitarai, Keisuke Fujii, | (参考訳) 回路の最適化は、量子コンピュータと古典コンピュータの両方にとって、その効率を改善するために欠かせない課題である。
対照的に、古典論理の最適化は困難であることが知られており、これまで多くのヒューリスティックなアプローチが開発されてきた。
本研究では,回路等価性,すなわち回路最適化の逆演算を保ちながら,いくつかの冗長性を導入し,与えられた量子回路複合体を構成する量子回路最適化と呼ばれる量子アルゴリズムプリミティブを定義し,構築する。
量子回路の非最適化を用いて、NPクラスとBQPクラスの両方に含まれるが、Pクラスには自明に含まれない決定問題である量子回路等価性テストを提案する。
さらに,実例として,Qiskit と Pytket を用いて,コンパイラベンチマークの生成と回路最適化性能の評価を行うために,具体的不最適化レシピを構築した。
数値シミュレーションにより,コンパイラの最適化が困難な冗長回路を系統的に生成し,異なるコンパイラの性能の比較と性能向上に有効であることを示す。
また、量子優位な機械学習データセットや量子コンピュータ忠実度ベンチマークを生成するなど、量子回路の最適化の潜在的な応用も提供する。
Optimization of circuits is an essential task for both quantum and classical computers to improve their efficiency. In contrast, classical logic optimization is known to be difficult, and a lot of heuristic approaches have been developed so far. In this study, we define and construct a quantum algorithmic primitive called quantum circuit unoptimization, which makes a given quantum circuit complex by introducing some redundancies while preserving circuit equivalence, i.e., the inverse operation of circuit optimization. Using quantum circuit unoptimization, we propose the quantum circuit equivalence test, a decision problem contained both in the NP and BQP classes but is not trivially included in the P class. Furthermore, as a practical application, we construct concrete unoptimization recipes to generate compiler benchmarks and evaluate circuit optimization performance using Qiskit and Pytket. Our numerical simulations demonstrate that quantum circuit unoptimizer systematically generates redundant circuits that are challenging for compilers to optimize, which can be used to compare the performance of different compilers and improve them. We also offer potential applications of quantum circuit unoptimization, such as generating quantum advantageous machine learning datasets and quantum computer fidelity benchmarks. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# オープンワールドにおけるクロスドメインシークエンシャルレコメンデーション:モデルに依存しないコントラシブデノケーションアプローチ
Towards Open-world Cross-Domain Sequential Recommendation: A Model-Agnostic Contrastive Denoising Approach ( http://arxiv.org/abs/2311.04760v3 ) ライセンス: Link先を確認 | Wujiang Xu, Xuying Ning, Wenfang Lin, Mingming Ha, Qiongxu Ma, Qianqiao Liang, Xuewen Tao, Linxun Chen, Bing Han, Minnan Luo, | (参考訳) クロスドメインシーケンシャルレコメンデーション(CDSR)は、従来のシーケンシャルレコメンデーション(SR)システムに存在するデータ空間の問題に対処することを目的としている。
既存手法は,複数のドメインにまたがって情報を伝達・伝播する特定のクロスドメインユニットを設計することを目的としている。
しかし、現実のレコメンデーションシステムでは、CDSRシナリオは通常、疎い振る舞いを持つ長い尾を持つユーザーの大多数と、一つのドメインにしか存在しないコールドスタートユーザーから構成される。
これにより、現実世界の業界プラットフォームにおける既存のCDSRメソッドのパフォーマンスが低下する。
したがって、オープンワールドCDSRシナリオにおけるモデルの一貫性と有効性を改善することは、CDSRモデルを構築する上で重要である(\textit{1st} CH)。
近年,SR手法のいくつかは,長期使用者の情報を補完する補助行動を利用している。
しかし、これらのマルチビヘイビアSR法は、ターゲットと補助動作のセマンティックなギャップや、ドメイン間のユーザ関心の偏り(\textit{2nd} CH)を見落としているため、CDSRにおいて有望な性能をもたらすことはできない。
Cross-domain sequential recommendation (CDSR) aims to address the data sparsity problems that exist in traditional sequential recommendation (SR) systems. The existing approaches aim to design a specific cross-domain unit that can transfer and propagate information across multiple domains by relying on overlapping users with abundant behaviors. However, in real-world recommender systems, CDSR scenarios usually consist of a majority of long-tailed users with sparse behaviors and cold-start users who only exist in one domain. This leads to a drop in the performance of existing CDSR methods in the real-world industry platform. Therefore, improving the consistency and effectiveness of models in open-world CDSR scenarios is crucial for constructing CDSR models (\textit{1st} CH). Recently, some SR approaches have utilized auxiliary behaviors to complement the information for long-tailed users. However, these multi-behavior SR methods cannot deliver promising performance in CDSR, as they overlook the semantic gap between target and auxiliary behaviors, as well as user interest deviation across domains (\textit{2nd} CH). | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 大規模言語モデルにおけるパーソナリティテストの有効性の検証
Challenging the Validity of Personality Tests for Large Language Models ( http://arxiv.org/abs/2311.05297v2 ) ライセンス: Link先を確認 | Tom Sühr, Florian E. Dorner, Samira Samadi, Augustin Kelava, | (参考訳) GPT-4のような大きな言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞うように見え、もともと人間のために開発されたアンケートを用いて、LLMの性格特性を評価する試みが盛んに行われている。
再利用対策はLLMを評価するための資源効率のよい方法であるが、人間のサブポピュレーション全体にわたって評価結果が有効であることを確実にするためには、注意深い適応が必要である。
本研究では,人格検査に対するLSMの反応が人間の反応から体系的に逸脱していることを示す。
具体的には、逆コードされたアイテム("I am introverted" 対 "I am extraverted" )はどちらも肯定的に答えられることが多い。
さらに、特定のパーソナリティタイプをシミュレートするためにLLMを「操る」ために設計されたプロンプト間のバリエーションは、人間のサンプルから5つの独立したパーソナリティ要素を明確な分離に従わない。
これらの結果を踏まえ、LLMの「個性」のような潜在的に不明確な概念について強い結論を出す前に、LSMに対する検査の妥当性を検討することが重要であると信じている。
With large language models (LLMs) like GPT-4 appearing to behave increasingly human-like in text-based interactions, it has become popular to attempt to evaluate personality traits of LLMs using questionnaires originally developed for humans. While reusing measures is a resource-efficient way to evaluate LLMs, careful adaptations are usually required to ensure that assessment results are valid even across human subpopulations. In this work, we provide evidence that LLMs' responses to personality tests systematically deviate from human responses, implying that the results of these tests cannot be interpreted in the same way. Concretely, reverse-coded items ("I am introverted" vs. "I am extraverted") are often both answered affirmatively. Furthermore, variation across prompts designed to "steer" LLMs to simulate particular personality types does not follow the clear separation into five independent personality factors from human samples. In light of these results, we believe that it is important to investigate tests' validity for LLMs before drawing strong conclusions about potentially ill-defined concepts like LLMs' "personality". | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 不確かさ伝達による逐次ラベリングの不確かさ推定
Uncertainty Estimation on Sequential Labeling via Uncertainty Transmission ( http://arxiv.org/abs/2311.08726v2 ) ライセンス: Link先を確認 | Jianfeng He, Linlin Yu, Shuo Lei, Chang-Tien Lu, Feng Chen, | (参考訳) シーケンシャルラベリング(Sequential labeling)は、名前付きエンティティ認識(NER)のようなシーケンス内の各トークンのラベルを予測するタスクである。
NERタスクは、エンティティを抽出し、テキストが与えられたラベルを予測することを目的としている。
これまでのNERの性能向上には大きな進歩があったが,NER(UE-NER)に対する不確実性評価はいまだに未検討だが必須である。
本研究は,NER予測の不確実性スコアを推定することを目的としたUE-NERに焦点を当てる。
従来の不確実性推定モデルは、エンティティ間の接続(すなわち、他のエンティティに基づいて1つのエンティティ埋め込みが学習される)とエンティティ抽出サブタスクにおける間違ったスパンケースという、NERの2つのユニークな特徴を見落としていることが多い。
そこで我々は,他のトークンから送信された不確実性を考慮して,抽出されたエンティティに対する不確実性スコアを推定する逐次ラベル付け後ネットワーク(SLPN)を提案する。
さらに,誤診事例の特異性に対処するための評価戦略を定義した。
私たちのSLPNは、MIT-Restaurantデータセット上のAUPRの5.54ポイント改善など、3つのデータセットで大幅に改善されています。
我々のコードは \url{https://github.com/he159ok/UncSeqLabeling_SLPN} で利用可能です。
Sequential labeling is a task predicting labels for each token in a sequence, such as Named Entity Recognition (NER). NER tasks aim to extract entities and predict their labels given a text, which is important in information extraction. Although previous works have shown great progress in improving NER performance, uncertainty estimation on NER (UE-NER) is still underexplored but essential. This work focuses on UE-NER, which aims to estimate uncertainty scores for the NER predictions. Previous uncertainty estimation models often overlook two unique characteristics of NER: the connection between entities (i.e., one entity embedding is learned based on the other ones) and wrong span cases in the entity extraction subtask. Therefore, we propose a Sequential Labeling Posterior Network (SLPN) to estimate uncertainty scores for the extracted entities, considering uncertainty transmitted from other tokens. Moreover, we have defined an evaluation strategy to address the specificity of wrong-span cases. Our SLPN has achieved significant improvements on three datasets, such as a 5.54-point improvement in AUPR on the MIT-Restaurant dataset. Our code is available at \url{https://github.com/he159ok/UncSeqLabeling_SLPN}. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# バイアスニューロン除去による指示追従言語モデルの緩和バイアス
Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination ( http://arxiv.org/abs/2311.09627v2 ) ライセンス: Link先を確認 | Nakyeong Yang, Taegwan Kang, Jungkyu Choi, Honglak Lee, Kyomin Jung, | (参考訳) 命令追従言語モデルは、しばしば望ましくないバイアスを示す。
これらの望ましくないバイアスは、ゼロショット例のプロンプトを通じて幅広い命令が使用される言語モデルの実際の使用において加速される可能性がある。
この問題を解決するために、まずバイアス出力に大きく影響するバイアスニューロンを定義し、その存在を経験的に証明する。
さらに,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
実験の結果,様々な命令やデータセットの下で頑健性を示すため,本手法の一般化可能性を明らかにした。
驚いたことに、我々の手法は、少数のニューロン(少なくとも3つ)を除去することで、言語モデルのバイアスを軽減することができる。
Instruction-following language models often show undesirable biases. These undesirable biases may be accelerated in the real-world usage of language models, where a wide range of instructions is used through zero-shot example prompting. To solve this problem, we first define the bias neuron, which significantly affects biased outputs, and prove its existence empirically. Furthermore, we propose a novel and practical bias mitigation method, CRISPR, to eliminate bias neurons of language models in instruction-following settings. CRISPR automatically determines biased outputs and categorizes neurons that affect the biased outputs as bias neurons using an explainability method. Experimental results demonstrate the effectiveness of our method in mitigating biases under zero-shot instruction-following settings without losing the model's task performance and existing knowledge. The experimental results reveal the generalizability of our method as it shows robustness under various instructions and datasets. Surprisingly, our method can mitigate the bias in language models by eliminating only a few neurons (at least three). | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 長川一:テキスト・画像拡散モデルにおける一貫した文字
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.10093v4 ) ライセンス: Link先を確認 | Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski, | (参考訳) テキスト・ツー・イメージ生成モデルの最近の進歩は、視覚的創造性に対する大きな可能性を解き放っている。
しかし、これらのモデルを使用するユーザは、ストーリービジュアライゼーション、ゲーム開発、アセットデザイン、広告など、多くの現実世界アプリケーションにとって重要な側面である、一貫したキャラクターの生成に苦労している。
現在の手法は、通常、ターゲットキャラクターの複数の既存のイメージに依存するか、労働集約的な手作業を伴う。
そこで本研究では,テキストプロンプトを唯一の入力とする,一貫した文字生成のための完全自動解を提案する。
それぞれの段階において、類似した同一性を共有する画像の一貫性の集合を識別し、この集合からより一貫したアイデンティティを抽出する反復手順を導入する。
定量的解析により,本手法はベースライン法と比較して,迅速なアライメントとアイデンティティの整合性のバランスが良好であることを示し,これらの知見はユーザ研究によって裏付けられている。
結論として,本手法の実用化例をいくつか紹介する。
Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, the users that use these models struggle with the generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development, asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 確率回路からのプルーニングに基づく記述の抽出
Pruning-Based Extraction of Descriptions from Probabilistic Circuits ( http://arxiv.org/abs/2311.13379v2 ) ライセンス: Link先を確認 | Sieben Bocklandt, Vincent Derkinderen, Koen Vanderstraeten, Wouter Pijpops, Kurt Jaspers, Wannes Meert, | (参考訳) 概念学習は、様々な分野の応用における一般的なタスクである。
モチベーションの例として、音楽プレイリスト生成の応用について考察する。そこでは、プレイリストは曲の固定コレクションとしてではなく、概念として表現される(例:「ラグジュアリング・ミュージック」)。
本研究では確率回路を用いて、正にラベル付けされた実例から概念を学習する。
これらの回路は、このタスクに魅力的なトラクタブルモデルを形成するが、ドメインの専門家がそれらを検査し分析することは困難であり、特定のアプリケーションでの使用を妨げる。
本稿では,学習した確率回路を高密度領域をカバーする論理に基づく判別モデルに変換することにより,この問題を解決することを提案する。
すなわち、回路が確実に学習概念の一部として分類する領域である。
このアプローチの一環として、我々は、F1スコアと集約エントロピーと呼ばれる新たに提案された記述長の両方を考慮して、確率回路から低密度領域を抽出するアルゴリズムであるPUTPUTを提案する。
本実験は,音楽プレイリスト生成タスクや類似データセットにおいて,差別的モデルを提供することによる,競争力に優れるアプローチの有効性を実証するものである。
Concept learning is a general task with applications in various domains. As a motivating example we consider the application of music playlist generation, where a playlist is represented as a concept (e.g., `relaxing music') rather than as a fixed collection of songs. In this work we use a probabilistic circuit to learn a concept from positively labelled and unlabelled examples. While these circuits form an attractive tractable model for this task, it is challenging for a domain expert to inspect and analyse them, which impedes their use within certain applications. We propose to resolve this by converting a learned probabilistic circuit into a logic-based discriminative model that covers the high density regions of the circuit. That is, those regions the circuit classifies as certainly being part of the learned concept. As part of this approach we present two contributions: PUTPUT, an algorithm to prune low density regions from a probabilistic circuit while considering both the F1-score and a newly proposed description length that we call aggregated entropy. Our experiments demonstrate the effectiveness of our approach in providing discriminative models, outperforming competitors on the music playlist generation task and similar datasets. | 翻訳日:2024-06-07 04:05:59 公開日:2024-06-05 |
# 高等教育におけるチャットGPTの倫理的意味:スコーピング・レビュー
Ethical Implications of ChatGPT in Higher Education: A Scoping Review ( http://arxiv.org/abs/2311.14378v3 ) ライセンス: Link先を確認 | Ming Li, Ariunaa Enkhtur, Fei Cheng, Beverley Anne Yamamoto, | (参考訳) 本稿では,ChatGPTを高等教育に活用する上での倫理的課題について考察する。
英語,中国語,日本語の最近の学術論文をレビューすることで,本論文の深層的な検討とギャップの特定をめざした。
Arksey and O'Malley's scoping review framework(2005)を参考に、検索用語を定義し、3つの対象言語の4つのデータベースから関連する出版物を同定した。
研究の結果、論文の大半は議論論文であることがわかったが、初期の経験的な研究がいくつかあった。
これらの研究で強調された倫理的問題は、主に学術的完全性、評価問題、データ保護に関するものである。
生成人工知能の迅速な展開を考えると、教育者がより経験的な研究を行い、その利用のための健全な倫理政策を開発することが不可欠である。
This scoping review explores the ethical challenges of using ChatGPT in higher education. By reviewing recent academic articles in English, Chinese, and Japanese, we aimed to provide a deep dive review and identify gaps in the literature. Drawing on Arksey and O'Malley's (2005) scoping review framework, we defined search terms and identified relevant publications from four databases in the three target languages. The research results showed that the majority of the papers were discussion papers, but there was some early empirical work. The ethical issues highlighted in these works mainly concern academic integrity, assessment issues, and data protection. Given the rapid deployment of generative artificial intelligence, it is imperative for educators to conduct more empirical studies to develop sound ethical policies for its use. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和
StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization ( http://arxiv.org/abs/2311.14495v4 ) ライセンス: Link先を確認 | Shida Wang, Qianxiao Li, | (参考訳) 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。
状態空間モデルによって安定に近似できる対象関係は指数的に減衰するメモリを持つ必要がある。
本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の曲線」を同定し, 再パラメータ化技術が有効であることを示す。
そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。
近似能力の向上に加えて,再パラメータ化方式の原理的選択により最適化安定性が向上することを示す。
本研究は,合成データセット,言語モデル,画像分類を用いて検証する。
In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this "curse of memory" as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets, language models and image classifications. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# SPIN:テキスト分類のための大規模言語モデルにおける内部ニューロンのスパース化と統合
SPIN: Sparsifying and Integrating Internal Neurons in Large Language Models for Text Classification ( http://arxiv.org/abs/2311.15983v2 ) ライセンス: Link先を確認 | Difan Jiao, Yilun Liu, Zhenwei Tang, Daniel Matter, Jürgen Pfeffer, Ashton Anderson, | (参考訳) 大きな言語モデル(LLM)が革新した多くのタスクの1つは、テキスト分類である。
しかし、現在のテキスト分類のパラダイムは、LLMの最終層の出力のみに依存しており、内部のニューロンに含まれる豊富な情報がほとんど使われていない。
本研究では,テキスト分類のための LLM 中間層の内部ニューロンを分散・統合するモデルに依存しないフレームワーク SPIN を提案する。
具体的には、SPINは、リニアプローブベースのサルエントニューロン選択層によって内部ニューロンを拡散させ、無関係ニューロンからのノイズを回避し、効率性を確保する。
その後、多層サルエントニューロンが統合され、分類ヘッドの多層的特徴として機能する。
大規模な実験結果から,提案したSPINはテキスト分類精度,効率,解釈可能性を大幅に向上することがわかった。
Among the many tasks that Large Language Models (LLMs) have revolutionized is text classification. Current text classification paradigms, however, rely solely on the output of the final layer in the LLM, with the rich information contained in internal neurons largely untapped. In this study, we present SPIN: a model-agnostic framework that sparsifies and integrates internal neurons of intermediate layers of LLMs for text classification. Specifically, SPIN sparsifies internal neurons by linear probing-based salient neuron selection layer by layer, avoiding noise from unrelated neurons and ensuring efficiency. The cross-layer salient neurons are then integrated to serve as multi-layered features for the classification head. Extensive experimental results show our proposed SPIN significantly improves text classification accuracy, efficiency, and interpretability. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# アダプティブ・プロンプト学習による統一モーダル・サリエント物体検出
Unified-modal Salient Object Detection via Adaptive Prompt Learning ( http://arxiv.org/abs/2311.16835v5 ) ライセンス: Link先を確認 | Kunpeng Wang, Chenglong Li, Zhengzheng Tu, Zhengyi Liu, Bin Luo, | (参考訳) 既存のシングルモーダルおよびマルチモーダルサルトオブジェクト検出(SOD)手法は、それぞれのタスクに適した特定のアーキテクチャの設計に重点を置いている。
しかし、異なるタスクに対する全く異なるモデルの開発は、高い計算と実践的なデプロイメントコストだけでなく、労働と時間の消費につながる。
本稿では,UniSODと呼ばれる統合フレームワークにおいて,タスク間の事前知識の重複を完全に活用する単一モーダルSODとマルチモーダルSODの両方に対処する。
それでも、モダリティ変数入力に適切な戦略を割り当てることは困難である。
この目的のために、UniSODは適応的なプロンプト学習を通じてタスク固有のヒントを学習し、提案したトレーニング済みベースラインSODモデルに接続して対応するタスクを処理する。
切り替え可能なプロンプト生成ブロックから各モダリティ対応プロンプトを生成し、人間の介入なしにシングルモーダルおよびマルチモーダル入力に基づいて構造切替を適応的に行う。
エンドツーエンドのジョイントトレーニングを通じて、RGB、RGB-D、RGB-T SODの14のベンチマークデータセットに対する全体的なパフォーマンス改善を実現し、本手法がシングルモーダルおよびマルチモーダルのSODタスクを効果的かつ効率的に統一することを示し、コードと結果はhttps://github.com/Angknpng/UniSODで利用可能である。
Existing single-modal and multi-modal salient object detection (SOD) methods focus on designing specific architectures tailored for their respective tasks. However, developing completely different models for different tasks leads to labor and time consumption, as well as high computational and practical deployment costs. In this paper, we attempt to address both single-modal and multi-modal SOD in a unified framework called UniSOD, which fully exploits the overlapping prior knowledge between different tasks. Nevertheless, assigning appropriate strategies to modality variable inputs is challenging. To this end, UniSOD learns modality-aware prompts with task-specific hints through adaptive prompt learning, which are plugged into the proposed pre-trained baseline SOD model to handle corresponding tasks, while only requiring few learnable parameters compared to training the entire model. Each modality-aware prompt is generated from a switchable prompt generation block, which adaptively performs structural switching based on single-modal and multi-modal inputs without human intervention. Through end-to-end joint training, UniSOD achieves overall performance improvement on 14 benchmark datasets for RGB, RGB-D, and RGB-T SOD, which demonstrates that our method effectively and efficiently unifies single-modal and multi-modal SOD tasks.The code and results are available at https://github.com/Angknpng/UniSOD. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# ガウス分布型プロトタイプと生成モデルとの混合による解釈可能・信頼可能な画像認識
Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable and Trustworthy Image Recognition ( http://arxiv.org/abs/2312.00092v2 ) ライセンス: Link先を確認 | Chong Wang, Yuanhong Chen, Fengbei Liu, Yuyuan Liu, Davis James McCarthy, Helen Frazer, Gustavo Carneiro, | (参考訳) ProtoPNetは、予測とプロトタイプの訓練をリンクすることで、画像認識における解釈可能性を高め、意思決定に関する直感的な洞察を提供する。
既存の手法は、プロトタイプのポイントベースの学習に依存しており、通常は2つの重要な問題に直面している。
1)学習したプロトタイプは、限られた表現力を有し、アウト・オブ・ディストリビューション(OoD)の入力を検出するのに適さないため、信頼性を低下させる。
2) 学習したプロトタイプの訓練画像空間への投射は, 予測性能の大幅な低下を引き起こす。
さらに、現在のプロトタイプ学習では、重要な分類情報を保持するサブサラントな対象領域を見下ろしながら、トレーニング中に最もアクティブな対象部分のみを考えるアグレッシブなアプローチを採用している。
本稿では,Gussian-Distributed Prototypes (MGProto) と呼ばれるプロトタイプ分布を学習するための新しい生成パラダイムを提案する。
MGProtoからのプロトタイプの配布により、OoD入力の解釈可能な画像分類と信頼性の高い認識が可能である。
MGProtoの最適化は、学習したプロトタイプの分布を訓練画像空間に自然に投影することで、プロトタイプの投影による性能劣化に対処する。
さらに,最もアクティブなだけでなく,サブサラントなオブジェクト部品も考慮した,新規かつ効果的なプロトタイプマイニング戦略を開発した。
モデルコンパクト化を促進するため,より重要度の高いプロトタイプを除去してMGProtoを創出することを提案する。
CUB-200-2011、Stanford Cars、Stanford Dogs、およびOxford-IIIT Petsデータセットに関する実験は、MGProtoが最先端の画像認識とOoD検出性能を達成し、解釈可能性の向上を提供することを示している。
Prototypical-part methods, e.g., ProtoPNet, enhance interpretability in image recognition by linking predictions to training prototypes, thereby offering intuitive insights into their decision-making. Existing methods, which rely on a point-based learning of prototypes, typically face two critical issues: 1) the learned prototypes have limited representation power and are not suitable to detect Out-of-Distribution (OoD) inputs, reducing their decision trustworthiness; and 2) the necessary projection of the learned prototypes back into the space of training images causes a drastic degradation in the predictive performance. Furthermore, current prototype learning adopts an aggressive approach that considers only the most active object parts during training, while overlooking sub-salient object regions which still hold crucial classification information. In this paper, we present a new generative paradigm to learn prototype distributions, termed as Mixture of Gaussian-distributed Prototypes (MGProto). The distribution of prototypes from MGProto enables both interpretable image classification and trustworthy recognition of OoD inputs. The optimisation of MGProto naturally projects the learned prototype distributions back into the training image space, thereby addressing the performance degradation caused by prototype projection. Additionally, we develop a novel and effective prototype mining strategy that considers not only the most active but also sub-salient object parts. To promote model compactness, we further propose to prune MGProto by removing prototypes with low importance priors. Experiments on CUB-200-2011, Stanford Cars, Stanford Dogs, and Oxford-IIIT Pets datasets show that MGProto achieves state-of-the-art image recognition and OoD detection performances, while providing encouraging interpretability results. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# グラフ表現学習のためのリカレント距離フィルタリング
Recurrent Distance Filtering for Graph Representation Learning ( http://arxiv.org/abs/2312.01538v3 ) ライセンス: Link先を確認 | Yuhui Ding, Antonio Orvieto, Bobby He, Thomas Hofmann, | (参考訳) 反復的なワンホップメッセージパッシングに基づくグラフニューラルネットワークは、遠方のノードからの情報を効果的に活用するのに苦労していることが示されている。
逆にグラフ変換器は、各ノードが他のすべてのノードに直接参加できるようにするが、グラフ帰納バイアスがなく、アドホックな位置符号化に頼る必要がある。
本稿では,これらの課題を解決するための新しいアーキテクチャを提案する。
提案手法は, 与えられた対象ノードに対して, 最短距離で他のノードを集約し, 線形RNNを用いてホップ表現のシーケンスを符号化する。
線形RNNは、安定な長距離信号伝搬のために特定の対角形でパラメータ化され、理論的には近傍階層を符号化するのに十分な表現性を持つ。
位置エンコーディングを必要とせず、我々のモデルの性能は、様々なベンチマークにおける最先端グラフ変換器と同等かそれ以上であり、計算コストが大幅に削減されていることを実証的に示す。
私たちのコードはhttps://github.com/skeletondyh/GRED.comでオープンソースです。
Graph neural networks based on iterative one-hop message passing have been shown to struggle in harnessing the information from distant nodes effectively. Conversely, graph transformers allow each node to attend to all other nodes directly, but lack graph inductive bias and have to rely on ad-hoc positional encoding. In this paper, we propose a new architecture to reconcile these challenges. Our approach stems from the recent breakthroughs in long-range modeling provided by deep state-space models: for a given target node, our model aggregates other nodes by their shortest distances to the target and uses a linear RNN to encode the sequence of hop representations. The linear RNN is parameterized in a particular diagonal form for stable long-range signal propagation and is theoretically expressive enough to encode the neighborhood hierarchy. With no need for positional encoding, we empirically show that the performance of our model is comparable to or better than that of state-of-the-art graph transformers on various benchmarks, with a significantly reduced computational cost. Our code is open-source at https://github.com/skeletondyh/GRED. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# オープンセット画像復元のためのテスト時間劣化適応
Test-Time Degradation Adaptation for Open-Set Image Restoration ( http://arxiv.org/abs/2312.02197v4 ) ライセンス: Link先を確認 | Yuanbiao Gou, Haiyu Zhao, Boyun Li, Xinyan Xiao, Xi Peng, | (参考訳) 事前定義された劣化からイメージを復元するクローズセットのシナリオとは対照的に、オープンセットのイメージ復元は、事前学習期間中に予期せぬ劣化に対処することを目的としている。
本研究は,この課題を考察し,テストデータとトレーニングデータ間の不特定分布シフトとして本質を明らかにする。
近年、テスト時間適応は、この固有の格差に対処するための基本的な方法として現れている。
そこで我々は,3つのコンポーネントであるtextit{i.e.} から構成されるオープンセット画像復元のためのテスト時間劣化適応フレームワークを提案する。
一 クリーンな画像を生成するための事前訓練及び劣化診断拡散モデル
二 試験期間中の入力画像に基づいて未知の劣化に適応する試験時間劣化アダプタ
三 アダプタ誘導画像復元は、アダプタを介してモデルをガイドし、対応するクリーン画像を作成する。
複数の劣化実験により,本手法はタスク固有の手法よりも高い性能を達成できることが判明した。
コードはhttps://github.com/XLearning-SCU/2024-ICML-TAOで公開されている。
In contrast to close-set scenarios that restore images from a predefined set of degradations, open-set image restoration aims to handle the unknown degradations that were unforeseen during the pretraining phase, which is less-touched as far as we know. This work study this challenging problem and reveal its essence as unidentified distribution shifts between the test and training data. Recently, test-time adaptation has emerged as a fundamental method to address this inherent disparities. Inspired by it, we propose a test-time degradation adaptation framework for open-set image restoration, which consists of three components, \textit{i.e.}, i) a pre-trained and degradation-agnostic diffusion model for generating clean images, ii) a test-time degradation adapter adapts the unknown degradations based on the input image during the testing phase, and iii) the adapter-guided image restoration guides the model through the adapter to produce the corresponding clean image. Through experiments on multiple degradations, we show that our method achieves comparable even better performance than those task-specific methods. The code is available at https://github.com/XLearning-SCU/2024-ICML-TAO. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# PixelLM: 大規模マルチモーダルモデルによるピクセル推論
PixelLM: Pixel Reasoning with Large Multimodal Model ( http://arxiv.org/abs/2312.02228v2 ) ライセンス: Link先を確認 | Zhongwei Ren, Zhicheng Huang, Yunchao Wei, Yao Zhao, Dongmei Fu, Jiashi Feng, Xiaojie Jin, | (参考訳) 大規模マルチモーダルモデル(LMM)は目覚ましい進歩を遂げているが、複数のオープンワールドターゲットを含む画像推論タスクのためのピクセルレベルのマスクを生成することは依然として課題である。
このギャップを埋めるために、ピクセルレベルの推論と理解のための効率的かつ効率的なLMMであるPixelLMを導入する。
Central to PixelLMは、新しくて軽量なピクセルデコーダであり、包括的セグメンテーションコードブックである。
デコーダは、詳細な目標関連情報を符号化するコードブックトークンの隠れ埋め込みからマスクを効率よく生成する。
この設計により、PixelLMは一般的なLMMの構造と調和し、さらにコストのかかるセグメンテーションモデルを必要としない。
さらに,モデルが複数のターゲットを区別する能力を高め,マスク品質を大幅に向上させる目標改良損失を提案する。
この分野での研究を進めるために、我々は高品質なマルチターゲット推論セグメンテーションベンチマークであるMUSEを構築した。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、MUSEやシングル参照セグメンテーション、マルチ参照セグメンテーションなど、複数のベンチマークで確立されたメソッドよりも優れている。
包括的検証により, 提案した各成分の有効性が確認された。
すべてのコード、モデル、データセットが公開される。
While large multimodal models (LMMs) have achieved remarkable progress, generating pixel-level masks for image reasoning tasks involving multiple open-world targets remains a challenge. To bridge this gap, we introduce PixelLM, an effective and efficient LMM for pixel-level reasoning and understanding. Central to PixelLM is a novel, lightweight pixel decoder and a comprehensive segmentation codebook. The decoder efficiently produces masks from the hidden embeddings of the codebook tokens, which encode detailed target-relevant information. With this design, PixelLM harmonizes with the structure of popular LMMs and avoids the need for additional costly segmentation models. Furthermore, we propose a target refinement loss to enhance the model's ability to differentiate between multiple targets, leading to substantially improved mask quality. To advance research in this area, we construct MUSE, a high-quality multi-target reasoning segmentation benchmark. PixelLM excels across various pixel-level image reasoning and understanding tasks, outperforming well-established methods in multiple benchmarks, including MUSE, single- and multi-referring segmentation. Comprehensive ablations confirm the efficacy of each proposed component. All code, models, and datasets will be publicly available. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# 単純化されたモデルの一般化における解釈可能性イリュージョン
Interpretability Illusions in the Generalization of Simplified Models ( http://arxiv.org/abs/2312.03656v2 ) ライセンス: Link先を確認 | Dan Friedman, Andrew Lampinen, Lucas Dixon, Danqi Chen, Asma Ghandeharioun, | (参考訳) ディープラーニングシステムを研究する一般的な方法は、単純化されたモデル表現を使用することで、例えば、特異値分解を用いて、低次元空間におけるモデルの隠れ状態の可視化を行う。
このアプローチは、これらの単純化の結果が元のモデルに忠実であると仮定する。
ここでは、この仮定に重要な注意を払っている: 単純化された表現がトレーニングセットの完全なモデルを正確に近似できるとしても、モデルの振舞いを正確に把握できないかもしれない。
我々は、Dyckバランスの取れたパーセンシ言語やコード補完タスクを含む、体系的な一般化分割を伴う制御データセット上のTransformerモデルをトレーニングすることでこれを説明できる。
次元還元やクラスタリングといったツールを使ってこれらのモデルを単純化し、これらの単純化されたプロキシが元のモデルの振る舞いにどのようにマッチするかを明示的にテストする。
単純化されたプロキシが分布内評価において元のモデルに忠実であり、体系的一般化の様々なテストに忠実でない場合である。
これには、オリジナルのモデルを体系的に一般化するが、単純化されたプロキシは失敗し、単純化されたプロキシがより一般化するケースが含まれる。
この結果から,SVD などのツールを用いた機械的解釈が,新しい状況下でモデルがどのように機能するかを確実に予測できるかどうか,という疑問が浮かび上がっている。
A common method to study deep learning systems is to use simplified model representations--for example, using singular value decomposition to visualize the model's hidden states in a lower dimensional space. This approach assumes that the results of these simplifications are faithful to the original model. Here, we illustrate an important caveat to this assumption: even if the simplified representations can accurately approximate the full model on the training set, they may fail to accurately capture the model's behavior out of distribution. We illustrate this by training Transformer models on controlled datasets with systematic generalization splits, including the Dyck balanced-parenthesis languages and a code completion task. We simplify these models using tools like dimensionality reduction and clustering, and then explicitly test how these simplified proxies match the behavior of the original model. We find consistent generalization gaps: cases in which the simplified proxies are more faithful to the original model on the in-distribution evaluations and less faithful on various tests of systematic generalization. This includes cases where the original model generalizes systematically but the simplified proxies fail, and cases where the simplified proxies generalize better. Together, our results raise questions about the extent to which mechanistic interpretations derived using tools like SVD can reliably predict what a model will do in novel situations. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# 並列関数呼び出しのためのLLMコンパイラ
An LLM Compiler for Parallel Function Calling ( http://arxiv.org/abs/2312.04511v3 ) ライセンス: Link先を確認 | Sehoon Kim, Suhong Moon, Ryan Tabrizi, Nicholas Lee, Michael W. Mahoney, Kurt Keutzer, Amir Gholami, | (参考訳) 最近のLCMの推論能力により、知識の遮断、算術能力の不足、プライベートデータへのアクセスの欠如など、外部関数呼び出しを実行して、固有の制限を克服することができる。
この開発により、LLMはコンテキストに基づいて複数の関数を選択し、コーディネートし、より複雑な問題に対処できるようになった。
しかしながら、関数呼び出しの現在のメソッドは、しばしば、高いレイテンシ、コスト、時には不正確な振る舞いをもたらす、各関数のシーケンシャルな推論と動作を必要とする。
これに対処するため,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを導入する。
古典的なコンパイラの原理からインスピレーションを得たLLMCompilerは、3つのコンポーネントで並列関数呼び出しを可能にする。
i) 関数呼び出しプランナーであって,関数呼び出しの実行計画を定式化するもの
(ii)タスクフェッチユニット、タスクを呼び出す関数のディスパッチ、及び
(iii)これらのタスクを並列に実行するExecutor。
LLMCompilerは関数呼び出しに最適化されたオーケストレーションを自動的に生成し、オープンソースモデルとクローズドソースモデルの両方で使用することができる。
我々はLLMCompilerを様々な関数呼び出しパターンのタスクでベンチマークした。
我々は、最大3.7倍のレイテンシ、最大6.7倍のコスト削減、ReActと比較して最大9%の精度向上を観察する。
私たちのコードはhttps://github.com/SqueezeAILab/LLMCompiler.comから入手可能です。
The reasoning capabilities of the recent LLMs enable them to execute external function calls to overcome their inherent limitations, such as knowledge cutoffs, poor arithmetic skills, or lack of access to private data. This development has allowed LLMs to select and coordinate multiple functions based on the context to tackle more complex problems. However, current methods for function calling often require sequential reasoning and acting for each function which can result in high latency, cost, and sometimes inaccurate behavior. To address this, we introduce LLMCompiler, which executes functions in parallel to efficiently orchestrate multiple function calls. Drawing inspiration from the principles of classical compilers, LLMCompiler enables parallel function calling with three components: (i) a Function Calling Planner, formulating execution plans for function calling; (ii) a Task Fetching Unit, dispatching function calling tasks; and (iii) an Executor, executing these tasks in parallel. LLMCompiler automatically generates an optimized orchestration for the function calls and can be used with both open-source and closed-source models. We have benchmarked LLMCompiler on a range of tasks with different patterns of function calling. We observe consistent latency speedup of up to 3.7x, cost savings of up to 6.7x, and accuracy improvement of up to ~9% compared to ReAct. Our code is available at https://github.com/SqueezeAILab/LLMCompiler. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# Simul-LLM:大規模言語モデルを用いた高品質同時翻訳のためのフレームワーク
Simul-LLM: A Framework for Exploring High-Quality Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2312.04691v3 ) ライセンス: Link先を確認 | Victor Agostinelli, Max Wild, Matthew Raffel, Kazi Ahmed Asif Fuad, Lizhong Chen, | (参考訳) 数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。
ニューラルマシン翻訳(NMT)は、LLMが大きな成功を収めたタスクの一つである。
しかし、LLMをNMTのより難しいサブセットである同時翻訳(SimulMT)に適用することに注力する研究はほとんどない。
本稿では,従来のSimulMTのコンセプトと実践をLLMの文脈で検証し,NMTで微調整されたLCMをSimulMTのタスクに適応させる,Simul-LLMを紹介し,SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークであるSimul-LLMを紹介する。
Large language models (LLMs) with billions of parameters and pretrained on massive amounts of data are now capable of near or better than state-of-the-art performance in a variety of downstream natural language processing tasks. Neural machine translation (NMT) is one such task that LLMs have been applied to with great success. However, little research has focused on applying LLMs to the more difficult subset of NMT called simultaneous translation (SimulMT), where translation begins before the entire source context is available to the model. In this paper, we address key challenges facing LLMs fine-tuned for SimulMT, validate classical SimulMT concepts and practices in the context of LLMs, explore adapting LLMs that are fine-tuned for NMT to the task of SimulMT, and introduce Simul-LLM, the first open-source fine-tuning and evaluation pipeline development framework for LLMs focused on SimulMT. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# ハードウェア効率訓練によるゲート型リニアアテンション変圧器
Gated Linear Attention Transformers with Hardware-Efficient Training ( http://arxiv.org/abs/2312.06635v5 ) ライセンス: Link先を確認 | Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, Yoon Kim, | (参考訳) 線形アテンションを持つトランスフォーマーは、効率的な並列トレーニングを可能にするが、2D隠れ状態を持つRNNとして同時に定式化することができ、線形時間推論の複雑さを享受できる。
しかし、一般に線形の注意は通常のソフトマックスの注意を過小評価する。
さらに, 線形アテンションの現在の実装はI/O認識に欠けており, ソフトマックスアテンションの高度に最適化された実装よりも遅い。
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
その結果、FLASHLINEARATTENTIONと呼ばれる実装は、FLASHATTENTION-2 (Dao, 2023) よりも短いシーケンス長 (eg , 1K) であってもスタンドアロン層として高速になった。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
トランスフォーマーの標準アテンション層の代わりに使用される場合、結果として生じるゲート型リニアアテンション(GLA)トランスフォーマーは、LLaMA-architecture Transformer (Touvron et al , 2023) や、RetNet (Sun et al , 2023a) やMamba (Gu & Dao, 2023) といった最近の線形時間推論ベースラインと、中規模言語モデリング実験において競合的に動作する。
GLA変換器は、特に長さの一般化に有効であり、2Kで訓練されたモデルは、大きなパープレキシティ劣化を伴わずに20K以上のシーケンスに一般化することができる。
トレーニング速度では、GLA Transformerは同様のサイズのMambaモデルよりもスループットが高い。
Transformers with linear attention allow for efficient parallel training but can simultaneously be formulated as an RNN with 2D (matrix-valued) hidden states, thus enjoying linear-time inference complexity. However, linear attention generally underperforms ordinary softmax attention. Moreover, current implementations of linear attention lack I/O-awareness and are thus slower than highly optimized implementations of softmax attention. This work describes a hardware-efficient algorithm for linear attention that trades off memory movement against parallelizability. The resulting implementation, dubbed FLASHLINEARATTENTION, is faster than FLASHATTENTION-2 (Dao, 2023) as a standalone layer even on short sequence lengths (e.g., 1K). We then generalize this algorithm to a more expressive variant of linear attention with data-dependent gates. When used as a replacement for the standard attention layer in Transformers, the resulting gated linear attention (GLA) Transformer is found to perform competitively against the LLaMA-architecture Transformer (Touvron et al., 2023) as well recent linear-time-inference baselines such as RetNet (Sun et al., 2023a) and Mamba (Gu & Dao, 2023) on moderate-scale language modeling experiments. GLA Transformer is especially effective at length generalization, enabling a model trained on 2K to generalize to sequences longer than 20K without significant perplexity degradations. For training speed, the GLA Transformer has higher throughput than a similarly-sized Mamba model. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# Silent Guardian: 大規模言語モデルによる悪意ある爆発からテキストを保護する
Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models ( http://arxiv.org/abs/2312.09669v4 ) ライセンス: Link先を確認 | Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Yuang Qi, Weiming Zhang, Nenghai Yu, | (参考訳) 大規模言語モデル(LLM)の急速な開発は、様々な下流タスクにおいて顕著な成功を収めた。
しかし、LLMの膨大な可能性と目覚ましい能力は、その開放性のために悪用された場合、新たなセキュリティとプライバシの懸念も引き起こす。
例えば、LSMは、文書を盗用したり、模倣したりすることで、オリジナルコンテンツの著作権を侵害したり、特定のソーステキストに基づいて識別できない偽の情報を生成したりすることができる。
場合によっては、LLMは個人のプライバシーを推測するためにインターネットからテキストを分析することもできる。
残念なことに、従来のテキスト保護研究は強力なLSMの出現を予測できなかったため、この新しい文脈ではもはや効果を示さなかった。
このギャップを埋めるために,LLMに対するテキスト保護機構であるSilent Guardian(SG)を導入する。
具体的には,まず,トラニケート保護事例(TPE)の概念を提案する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
さらに,テキストデータの離散空間においてTPEを効率的に構築するために,高効率であるだけでなく,最適化プロセス中にテキストのセマンティック一貫性を維持できる,Super Tailored Protection (STP)と呼ばれる新しい最適化アルゴリズムを提案する。
総合的な実験評価により、SGは様々な構成下でターゲットテキストを効果的に保護でき、場合によってはほぼ100%の保護成功率を達成できることが示された。
特に、SGは比較的優れた転送性とロバスト性を示しており、現実的なシナリオでも適用可能である。
The rapid development of large language models (LLMs) has yielded impressive success in various downstream tasks. However, the vast potential and remarkable capabilities of LLMs also raise new security and privacy concerns if they are exploited for nefarious purposes due to their open-endedness. For example, LLMs may be used to plagiarize or imitate writing, thereby infringing the copyright of the original content, or to create indiscriminate fake information based on a certain source text. In some cases, LLMs can even analyze text from the Internet to infer personal privacy. Unfortunately, previous text protection research could not foresee the emergence of powerful LLMs, rendering it no longer effective in this new context. To bridge this gap, we introduce Silent Guardian (SG), a text protection mechanism against LLMs, which allows LLMs to refuse to generate response when receiving protected text, preventing the malicious use of text from the source. Specifically, we first propose the concept of Truncation Protection Examples (TPE). By carefully modifying the text to be protected, TPE can induce LLMs to first sample the end token, thus directly terminating the interaction. In addition, to efficiently construct TPE in the discrete space of text data, we propose a novel optimization algorithm called Super Tailored Protection (STP), which is not only highly efficient but also maintains the semantic consistency of the text during the optimization process. The comprehensive experimental evaluation demonstrates that SG can effectively protect the target text under various configurations and achieve almost 100% protection success rate in some cases. Notably, SG also exhibits relatively good transferability and robustness, making its application in practical scenarios possible. | 翻訳日:2024-06-07 03:55:26 公開日:2024-06-05 |
# ニューラルネットワーク表現のトレーニング方法: 総合的研究とベンチマーク
How to Train Neural Field Representations: A Comprehensive Study and Benchmark ( http://arxiv.org/abs/2312.10531v2 ) ライセンス: Link先を確認 | Samuele Papa, Riccardo Valperga, David Knigge, Miltiadis Kofinas, Phillip Lippe, Jan-Jakob Sonke, Efstratios Gavves, | (参考訳) ニューラルフィールド(NeF)は、画像、形状、シーンを含む様々なモードの信号をモデリングするための汎用的な手法として最近登場した。
その後、下流タスクの表現としてNeFを使うことを探り、例えば、それに適合したNeFのパラメータに基づいて画像を分類した。
しかし、NeFハイパーパラメーターが下流の表現としての品質に与える影響はほとんど理解されておらず、ほとんど探索されていない。
これは部分的には、ニューラルネットワークのデータセットに適合するために必要な大量の時間によって引き起こされる。
本研究では,大規模なNeFデータセットの高速な最適化を実現するために並列化を利用するJAXベースのライブラリを提案する。
このライブラリーを用いて、下流タスクに対するNeFsの適合に対する異なるハイパーパラメータの影響を総合的に研究する。
特に,共有初期化の利用,オーバートレーニングの効果,使用するネットワークアーキテクチャの表現性について検討する。
我々の研究は、NeFのトレーニング方法に関する貴重な洞察を提供し、下流アプリケーションでの有効性を最適化するためのガイダンスを提供する。
最後に、提案したライブラリと分析に基づいて、MNIST、CIFAR、ImageNetの変種、ShapeNetv2を含む一般的な視覚データセットのニューラルネットワーク変種からなるベンチマークであるNeural Field Arenaを提案する。
我々のライブラリとNeural Field Arenaはオープンソースとして公開され、標準化されたベンチマークを導入し、ニューラルフィールドに関するさらなる研究を促進する。
Neural fields (NeFs) have recently emerged as a versatile method for modeling signals of various modalities, including images, shapes, and scenes. Subsequently, a number of works have explored the use of NeFs as representations for downstream tasks, e.g. classifying an image based on the parameters of a NeF that has been fit to it. However, the impact of the NeF hyperparameters on their quality as downstream representation is scarcely understood and remains largely unexplored. This is in part caused by the large amount of time required to fit datasets of neural fields. In this work, we propose a JAX-based library that leverages parallelization to enable fast optimization of large-scale NeF datasets, resulting in a significant speed-up. With this library, we perform a comprehensive study that investigates the effects of different hyperparameters on fitting NeFs for downstream tasks. In particular, we explore the use of a shared initialization, the effects of overtraining, and the expressiveness of the network architectures used. Our study provides valuable insights on how to train NeFs and offers guidance for optimizing their effectiveness in downstream applications. Finally, based on the proposed library and our analysis, we propose Neural Field Arena, a benchmark consisting of neural field variants of popular vision datasets, including MNIST, CIFAR, variants of ImageNet, and ShapeNetv2. Our library and the Neural Field Arena will be open-sourced to introduce standardized benchmarking and promote further research on neural fields. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# WaveCoder: インストラクションチューニングによる大規模言語モデルの広範化とVersatile拡張
WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning ( http://arxiv.org/abs/2312.14187v4 ) ライセンス: Link先を確認 | Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin, | (参考訳) 最近の研究は、高品質な命令データセットで微調整された後、得られたモデルが広範囲のタスクに対処する印象的な能力を得ることができることを実証している。
しかし、既存の命令データ生成手法はしばしば重複データを生成し、データ品質を十分に制御できない。
本稿では、命令データを4つのコード関連タスクに分類することで、命令チューニングの一般化を拡張し、オープンソースコードから多種多様な高品質な命令データを生成するLLMベースのジェネレータデータ処理フレームワークを提案する。
そこで我々は,4つの普遍的なコード関連タスクにまたがる20,000の命令インスタンスからなるデータセットであるCodeOceanを紹介した。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWaveCoderを紹介する。
このモデルは、コード言語モデル(LLM)の命令チューニングを強化するために特別に設計されている。
我々の実験では、Wavecoderモデルは、異なるコード関連タスクを同じレベルの微調整スケールで一般化する能力において、他のオープンソースモデルよりも優れていることを示した。
さらに、Wavecoderは、以前のコード生成タスクで高い効率を示す。
そこで本研究では,命令データ生成と微調整モデルの分野に多大な貢献をし,コード関連タスクのパフォーマンス向上のための新たな洞察とツールを提供する。
Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# シミュレーションに基づく推論によるパルサー集団の分離合成
Isolated pulsar population synthesis with simulation-based inference ( http://arxiv.org/abs/2312.14848v3 ) ライセンス: Link先を確認 | Vanessa Graber, Michele Ronchi, Celsa Pardo-Araujo, Nanda Rea, | (参考訳) 我々は、パルサー集団合成とシミュレーションベース推論(SBI)を組み合わせることで、孤立したギャラクティック電波パルサーの磁気特性を制約する。
まず、中性子星の誕生特性とその動的・磁気進化をモデル化する枠組みを開発する。
具体的には、対数正規分布から初期磁場強度の$B$とスピン周期の$P$をサンプリングし、電力法則により遅延磁場減衰を捕捉する。
各対数正規化は平均$\mu_{\log B}, \mu_{\log P}$, そして標準偏差$\sigma_{\log B}, \sigma_{\log P}$で表され、一方電力法則は指数$a_{\rm late}$で表される。
その後、恒星の電波放射と観測バイアスをモデル化し、3つの電波サーベイで検出を模倣し、5つの磁気的入力パラメータを変化させることで、合成$P$--$\dot{P}$ダイアグラムの大規模なデータベースを作成する。
次に、神経後部推定に焦点を当てたSBIアプローチに従い、パラメータの後部分布を推定するために深部ニューラルネットワークを訓練する。
シミュレーションデータを用いてこれらのニューラルネットワーク密度推定器の検証に成功した後、観測されたパルサー集団の後方分布を推定するために、ネットワークのアンサンブルを用いた。
我々は、対数正規分布に対して$\mu_{\log B} = 13.10^{+0.08}_{-0.10}$, $\sigma_{\log B} = 0.45^{+0.05}_{-0.05}$, $\mu_{\log P} = -1.00^{+0.26}_{-0.21}$, $\sigma_{\log P} = 0.38^{+0.33}_{-0.18}$, $a_{\rm late} = -1.80^{+0.65}_{-0.61}$, $ for the power law at the 9.5\%$ credible intervals を得る。
これまでの研究と対比し、推定された$a_{\rm late}$値の不確かさを強調します。
本手法は, 複雑な集団合成フレームワークの統計的頑健な推測に向けた重要なステップであり, 今後の銀河パルサーのマルチ波長解析の基礎となる。
We combine pulsar population synthesis with simulation-based inference (SBI) to constrain the magnetorotational properties of isolated Galactic radio pulsars. We first develop a framework to model neutron star birth properties and their dynamical and magnetorotational evolution. We specifically sample initial magnetic field strengths, $B$, and spin periods, $P$, from lognormal distributions and capture the late-time magnetic field decay with a power law. Each lognormal is described by a mean, $\mu_{\log B}, \mu_{\log P}$, and standard deviation, $\sigma_{\log B}, \sigma_{\log P}$, while the power law is characterized by the index, $a_{\rm late}$. We subsequently model the stars' radio emission and observational biases to mimic detections with three radio surveys, and we produce a large database of synthetic $P$--$\dot{P}$ diagrams by varying our five magnetorotational input parameters. We then follow an SBI approach that focuses on neural posterior estimation and train deep neural networks to infer the parameters' posterior distributions. After successfully validating these individual neural density estimators on simulated data, we use an ensemble of networks to infer the posterior distributions for the observed pulsar population. We obtain $\mu_{\log B} = 13.10^{+0.08}_{-0.10}$, $\sigma_{\log B} = 0.45^{+0.05}_{-0.05}$ and $\mu_{\log P} = -1.00^{+0.26}_{-0.21}$, $\sigma_{\log P} = 0.38^{+0.33}_{-0.18}$ for the lognormal distributions and $a_{\rm late} = -1.80^{+0.65}_{-0.61}$ for the power law at the $95\%$ credible interval. We contrast our results with previous studies and highlight uncertainties of the inferred $a_{\rm late}$ value. Our approach represents a crucial step toward robust statistical inference for complex population synthesis frameworks and forms the basis for future multiwavelength analyses of Galactic pulsars. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# オーマ・ケミカル・ペアの嗅覚ラベル予測
Olfactory Label Prediction on Aroma-Chemical Pairs ( http://arxiv.org/abs/2312.16124v2 ) ライセンス: Link先を確認 | Laura Sisson, Aryan Amit Barsainyan, Mrityunjay Sharma, Ritesh Kumar, | (参考訳) 深層学習技術のアロマ化学への応用により、嗅覚の質を予測するためのモデルが人間の専門家より正確になった。
しかし、この領域での公衆の研究は単一分子の品質を予測することに限られており、産業用途では、香水剤と食品科学者が多くの分子のブレンドに関心を持つことが多い。
本稿では、ラベル付き分子対からなるデータセットに対して、既存のアプローチと新しいアプローチの両方を適用する。
本稿では,アロマケミカルのブレンドから発生する臭気特性を正確に予測できるグラフニューラルネットワークモデルを提案する。
The application of deep learning techniques on aroma-chemicals has resulted in models more accurate than human experts at predicting olfactory qualities. However, public research in this domain has been limited to predicting the qualities of single molecules, whereas in industry applications, perfumers and food scientists are often concerned with blends of many molecules. In this paper, we apply both existing and novel approaches to a dataset we gathered consisting of labeled pairs of molecules. We present graph neural network models capable of accurately predicting the odor qualities arising from blends of aroma-chemicals, with an analysis of how variations in architecture can lead to significant differences in predictive power. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# ソフトウェア開発エージェントの実験的共同学習
Experiential Co-Learning of Software-Developing Agents ( http://arxiv.org/abs/2312.17025v3 ) ライセンス: Link先を確認 | Chen Qian, Yufan Dang, Jiahao Li, Wei Liu, Zihao Xie, Yifei Wang, Weize Chen, Cheng Yang, Xin Cong, Xiaoyin Che, Zhiyuan Liu, Maosong Sun, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特にLLM駆動の自律エージェントを通じて、様々な領域に大きな変化をもたらした。
LLMエージェントは効率的なコラボレーション、タスク分割、ソフトウェア品質の保証を示し、手動による関与の必要性を著しく減らします。
しかし、これらのエージェントは過去の経験から恩恵を受けずに、しばしば様々なタスクを独立に実行する。
この目的のために,教師とアシスタントエージェントが過去の軌跡からショートカット指向の体験を収集し,これらの過去の経験を将来のタスク実行に活用する,新しいLLMエージェント学習フレームワークであるExperiential Co-Learningを紹介した。
広範な実験により、このフレームワークは、未確認のソフトウェア開発タスクをより効果的に対処することを可能にする。
我々は、LLMエージェントを自律性向上に導くとともに、協調学習における進化的成長に寄与することを期待している。
コードとデータはhttps://github.com/OpenBMB/ChatDevで公開されている。
Recent advancements in large language models (LLMs) have brought significant changes to various domains, especially through LLM-driven autonomous agents. A representative scenario is in software development, where LLM agents demonstrate efficient collaboration, task division, and assurance of software quality, markedly reducing the need for manual involvement. However, these agents frequently perform a variety of tasks independently, without benefiting from past experiences, which leads to repeated mistakes and inefficient attempts in multi-step task execution. To this end, we introduce Experiential Co-Learning, a novel LLM-agent learning framework in which instructor and assistant agents gather shortcut-oriented experiences from their historical trajectories and use these past experiences for future task execution. The extensive experiments demonstrate that the framework enables agents to tackle unseen software-developing tasks more effectively. We anticipate that our insights will guide LLM agents towards enhanced autonomy and contribute to their evolutionary growth in cooperative learning. The code and data are available at https://github.com/OpenBMB/ChatDev. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# MR-GSM8K:大規模言語モデル評価のためのメタ推論ベンチマーク
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation ( http://arxiv.org/abs/2312.17080v4 ) ライセンス: Link先を確認 | Zhongshen Zeng, Pengguang Chen, Shu Liu, Haiyun Jiang, Jiaya Jia, | (参考訳) 本研究では,Large Language Models (LLMs) の新たな評価パラダイムを導入し,従来の質問応答の役割から,教師に類似した問題解決の役割へ移行する。
メタ推論」と呼ばれるこのパラダイムは、推論過程を無視する結果指向の評価から、異なるモデルの認知能力を効果的に区別するより包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
我々の広範な分析には、オープンソースドメインと商用ドメインの両方の最先端モデルが含まれており、そのトレーニングおよび評価手法における根本的な欠陥を明らかにしている。
特に、Deepseek-v2やClaude3-SonnetといったモデルではGPT-4のGSM8Kと密接に競合するが、MR-GSM8Kでは性能格差が劇的に拡大し、20以上の絶対点まで拡張された。
In this work, we introduce a novel evaluation paradigm for Large Language Models (LLMs) that compels them to transition from a traditional question-answering role, akin to a student, to a solution-scoring role, akin to a teacher. This paradigm, focusing on "reasoning about reasoning," hence termed meta-reasoning, shifts the emphasis from result-oriented assessments, which often neglect the reasoning process, to a more comprehensive evaluation that effectively distinguishes between the cognitive capabilities of different models. By applying this paradigm in the GSM8K dataset, we have developed the MR-GSM8K benchmark. Our extensive analysis includes several state-of-the-art models from both open-source and commercial domains, uncovering fundamental deficiencies in their training and evaluation methodologies. Notably, while models like Deepseek-v2 and Claude3-Sonnet closely competed with GPT-4 in GSM8K, their performance disparities expanded dramatically in MR-GSM8K, with differences widening to over 20 absolute points, underscoring the significant challenge posed by our meta-reasoning approach. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# 因果推論に必要なすべての大規模言語モデルについて
Is Knowledge All Large Language Models Needed for Causal Reasoning? ( http://arxiv.org/abs/2401.00139v2 ) ライセンス: Link先を確認 | Hengrui Cai, Shengjie Liu, Rui Song, | (参考訳) 本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
様々なタスクにおけるLLMの習熟度にもかかわらず、因果関係を理解するにはさらなる探索が必要である。
本稿では,「do-operators」を用いた因果帰属モデルを提案し,その因果帰属過程における入力数値データとLLMの既存知識の影響を体系的に定量化する。
筆者らが新たに開発した実験装置は,LLMがコンテキスト情報や各領域の固有知識に依存していることを評価する。
評価の結果、LLMの因果推論能力は、主に提供されたコンテキストやドメイン固有の知識に依存していることが明らかとなった。
このような知識がなければ、LLMは計算に制限があるにもかかわらず、利用可能な数値データを用いて因果推論の程度を維持することができる。
このことは、2つの因果発見のための微調整LDMの提案を動機付け、知識と数値情報の両方を効果的に活用する。
This paper explores the causal reasoning of large language models (LLMs) to enhance their interpretability and reliability in advancing artificial intelligence. Despite the proficiency of LLMs in a range of tasks, their potential for understanding causality requires further exploration. We propose a novel causal attribution model that utilizes ``do-operators" for constructing counterfactual scenarios, allowing us to systematically quantify the influence of input numerical data and LLMs' pre-existing knowledge on their causal reasoning processes. Our newly developed experimental setup assesses LLMs' reliance on contextual information and inherent knowledge across various domains. Our evaluation reveals that LLMs' causal reasoning ability mainly depends on the context and domain-specific knowledge provided. In the absence of such knowledge, LLMs can still maintain a degree of causal reasoning using the available numerical data, albeit with limitations in the calculations. This motivates the proposed fine-tuned LLM for pairwise causal discovery, effectively leveraging both knowledge and numerical information. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# 大規模言語モデルの実現における公正性
Fairness in Serving Large Language Models ( http://arxiv.org/abs/2401.00588v2 ) ライセンス: Link先を確認 | Ying Sheng, Shiyi Cao, Dacheng Li, Banghua Zhu, Zhuohan Li, Danyang Zhuo, Joseph E. Gonzalez, Ion Stoica, | (参考訳) オンデマンドLLM推論サービス(例:ChatGPT、BARD)は、短いチャットチャットから長いドキュメント読み込みまで、幅広いリクエストをサポートする。
すべてのクライアントリクエストが公平に処理されることを保証するため、ほとんどの主要なLCM推論サービスはリクエストレート制限を持ち、クライアントがリクエストキューを支配できないことを保証します。
しかし、この公平さという初歩的な概念は、余分なキャパシティがある場合、リソースの過小評価とクライアントエクスペリエンスの低下をもたらす。
フェアスケジューリングには豊富な文献があるが、LLMは予測不可能な要求長と並列アクセラレータ上での独自のバッチ特性のために、新たな課題を提示している。
本稿では,処理された入力および出力トークンの数を考慮に入れたコスト関数に基づいて,LLMサービスフェアネスの定義を提案する。
サービスにおける公平性を達成するために,連続バッチ機構に基づく公平なスケジューラであるVirtual Token Counter (VTC)を提案する。
2つのバックログ化されたクライアント間のサービス差に2倍の厳しい上限があることを証明します。
様々な条件下での欠点を示す他のベースライン法と対照的に, 公平性を確保するために, VTCの優れた性能を示す。
再現可能なコードはhttps://github.com/Ying1123/VTC-artifactで入手できる。
High-demand LLM inference services (e.g., ChatGPT and BARD) support a wide range of requests from short chat conversations to long document reading. To ensure that all client requests are processed fairly, most major LLM inference services have request rate limits, to ensure that no client can dominate the request queue. However, this rudimentary notion of fairness also results in under-utilization of the resources and poor client experience when there is spare capacity. While there is a rich literature on fair scheduling, serving LLMs presents new challenges due to their unpredictable request lengths and their unique batching characteristics on parallel accelerators. This paper introduces the definition of LLM serving fairness based on a cost function that accounts for the number of input and output tokens processed. To achieve fairness in serving, we propose a novel scheduling algorithm, the Virtual Token Counter (VTC), a fair scheduler based on the continuous batching mechanism. We prove a 2x tight upper bound on the service difference between two backlogged clients, adhering to the requirement of work-conserving. Through extensive experiments, we demonstrate the superior performance of VTC in ensuring fairness, especially in contrast to other baseline methods, which exhibit shortcomings under various conditions. The reproducible code is available at https://github.com/Ying1123/VTC-artifact | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# HAAQI-Net: 聴覚障害者のための非侵襲的ニューラル音楽品質評価モデル
HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids ( http://arxiv.org/abs/2401.01145v4 ) ライセンス: Link先を確認 | Dyah A. M. G. Wisnu, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao, | (参考訳) 本稿では、補聴器使用者に適した音質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
HAAQI-Netは、参照信号に対する侵入的比較に依存する聴覚支援オーディオ品質指標(HAAQI)のような従来の手法とは異なり、よりアクセシブルで効率的な代替手段を提供する。
HAAQI-Netは、双方向長短期記憶(BLSTM)アーキテクチャを用いて、事前訓練されたBEATsモデルから、音楽オーディオクリップや聴覚障害パターンから直接HAAQIスコアを予測する。
その結果,線形相関係数(LCC)0.9368,スピアマンランク相関係数(SRCC)0.9486,平均正方形誤差(MSE)0.0064,推定時間62.52秒から2.54秒が得られた。
有効ではあるが、大きなBEATモデルによる特徴抽出は計算オーバーヘッドを発生させる。
これを解決するため、知識蒸留戦略は学生蒸留BEATsモデルを作成し、HAAQI-Netトレーニング中に教師BEATsモデルから情報を蒸留し、必要なパラメータを減らす。
蒸留されたHAAQI-Netは、LCCが0.9071、SRCCが0.9307、MSEが0.0091、パラメータが75.85%、推測時間が96.46%の強い性能を維持している。
この削減により、HAAQI-Netの効率性とスケーラビリティが向上し、補聴器設定における実環境の音楽品質評価が可能となる。
この研究は、特定のアプリケーションに対するディープラーニングモデルの最適化に関するさらなる研究の道を開き、補聴器技術における実践的応用のための効率的で正確なモデルの開発に関する洞察を提供することで、音声信号処理と品質評価に寄与する。
This paper introduces HAAQI-Net, a non-intrusive deep learning model for music audio quality assessment tailored for hearing aid users. Unlike traditional methods like the Hearing Aid Audio Quality Index (HAAQI), which rely on intrusive comparisons to a reference signal, HAAQI-Net offers a more accessible and efficient alternative. Using a bidirectional Long Short-Term Memory (BLSTM) architecture with attention mechanisms and features from the pre-trained BEATs model, HAAQI-Net predicts HAAQI scores directly from music audio clips and hearing loss patterns. Results show HAAQI-Net's effectiveness, with predicted scores achieving a Linear Correlation Coefficient (LCC) of 0.9368, a Spearman's Rank Correlation Coefficient (SRCC) of 0.9486, and a Mean Squared Error (MSE) of 0.0064, reducing inference time from 62.52 seconds to 2.54 seconds. Although effective, feature extraction via the large BEATs model incurs computational overhead. To address this, a knowledge distillation strategy creates a student distillBEATs model, distilling information from the teacher BEATs model during HAAQI-Net training, reducing required parameters. The distilled HAAQI-Net maintains strong performance with an LCC of 0.9071, an SRCC of 0.9307, and an MSE of 0.0091, while reducing parameters by 75.85% and inference time by 96.46%. This reduction enhances HAAQI-Net's efficiency and scalability, making it viable for real-world music audio quality assessment in hearing aid settings. This work also opens avenues for further research into optimizing deep learning models for specific applications, contributing to audio signal processing and quality assessment by providing insights into developing efficient and accurate models for practical applications in hearing aid technology. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# 低リソース言語のための効率的かつ効果的なOpenQAシステムの構築
Building Efficient and Effective OpenQA Systems for Low-Resource Languages ( http://arxiv.org/abs/2401.03590v2 ) ライセンス: Link先を確認 | Emrah Budur, Rıza Özçelik, Dilara Soylu, Omar Khattab, Tunga Güngör, Christopher Potts, | (参考訳) 質問応答(QA)とは、ある節から抽出された自由形式の自然言語による自然言語による質問に答えるタスクである。
OpenQAの変種では、質問文のみが与えられ、システムは構造化されていない知識ソースから関連するパスを検索し、それを使って回答を提供する必要がある。
QAシステムは現在、英語以外の言語に大規模なラベル付きQAデータセットがないため、英語に限られている。
本稿では,低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は,(1) 機械翻訳ラベル付きデータセットを用いた弱監督,(2) 対象言語文脈における非構造的知識源である。
さらに,これらのシステムを確実に評価するためには,数百のゴールドアセスメント例が不可欠であることを示す。
英語とトルコ語は類型的に非常に異なっており、トルコ語にはQAのためのリソースが限られているため、我々の手法をトルコ語に適用することは難しいケーススタディである。
我々は、SQuAD2.0の機械翻訳であるSQuAD-TRを紹介し、ColBERT-QAを適応させ、トルコのリソースとSQuAD-TRを2年間にわたるウィキペディアダンプの2バージョンを用いて再トレーニングすることで、OpenQAシステムを構築します。
BM25ベースおよびDPRベースラインQAリーダモデルと比較して,エクサクトマッチ(EM)スコアで24~32%,F1スコアで22~29%の性能向上が得られた。
以上の結果から,SQuAD-TRにより,トルコ語でOpenQAが実現可能となり,研究者が他の低リソース言語でOpenQAシステムを構築することが期待できる。
すべてのコード、モデル、データセットをhttps://github.com/boun-tabi/SQuAD-TRで公開しています。
Question answering (QA) is the task of answering questions posed in natural language with free-form natural language answers extracted from a given passage. In the OpenQA variant, only a question text is given, and the system must retrieve relevant passages from an unstructured knowledge source and use them to provide answers, which is the case in the mainstream QA systems on the Web. QA systems currently are mostly limited to the English language due to the lack of large-scale labeled QA datasets in non-English languages. In this paper, we show that effective, low-cost OpenQA systems can be developed for low-resource contexts. The key ingredients are (1) weak supervision using machine-translated labeled datasets and (2) a relevant unstructured knowledge source in the target language context. Furthermore, we show that only a few hundred gold assessment examples are needed to reliably evaluate these systems. We apply our method to Turkish as a challenging case study, since English and Turkish are typologically very distinct and Turkish has limited resources for QA. We present SQuAD-TR, a machine translation of SQuAD2.0, and we build our OpenQA system by adapting ColBERT-QA and retraining it over Turkish resources and SQuAD-TR using two versions of Wikipedia dumps spanning two years. We obtain a performance improvement of 24-32% in the Exact Match (EM) score and 22-29% in the F1 score compared to the BM25-based and DPR-based baseline QA reader models. Our results show that SQuAD-TR makes OpenQA feasible for Turkish, which we hope encourages researchers to build OpenQA systems in other low-resource languages. We make all the code, models, and the dataset publicly available at https://github.com/boun-tabi/SQuAD-TR. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# カーネル・フィッシャー・ラオ流による単位時間サンプリング
Sampling in Unit Time with Kernel Fisher-Rao Flow ( http://arxiv.org/abs/2401.03892v3 ) ライセンス: Link先を確認 | Aimee Maurais, Youssef Marzouk, | (参考訳) 非正規化対象密度からサンプリングするための平均場ODEと対応する相互作用粒子系(IPS)を導入する。
IPSは勾配のない閉形式であり、参照密度からサンプリングし、(正規化されていない)ターゲット-参照密度比を計算する能力のみを必要とする。
平均場ODEは、特定のフィッシャー-ラオ勾配流の経路である2つの密度の幾何学的混合に沿ってサンプルを輸送する速度場に対するポアソン方程式を解くことで得られる。
速度場にRKHSアンサッツを用い、ポアソン方程式を抽出可能とし、有限標本上での平均場ODEの離散化を可能にする。
平均場ODEは、サンプル駆動最適輸送として知られるフレームワーク内でのモンゲ・アンプ・エル方程式の連続線型化の極限として離散時間の観点からも導出することができる。
我々は,我々のアプローチの確率的変種を導入し,我々のIPSは,様々な対象分布から高品質なサンプルを生成可能であることを実証し,同等の勾配のない粒子系と競合し,勾配に基づく代替品と競合することを示した。
We introduce a new mean-field ODE and corresponding interacting particle systems (IPS) for sampling from an unnormalized target density. The IPS are gradient-free, available in closed form, and only require the ability to sample from a reference density and compute the (unnormalized) target-to-reference density ratio. The mean-field ODE is obtained by solving a Poisson equation for a velocity field that transports samples along the geometric mixture of the two densities, which is the path of a particular Fisher-Rao gradient flow. We employ a RKHS ansatz for the velocity field, which makes the Poisson equation tractable and enables discretization of the resulting mean-field ODE over finite samples. The mean-field ODE can be additionally be derived from a discrete-time perspective as the limit of successive linearizations of the Monge-Amp\`ere equations within a framework known as sample-driven optimal transport. We introduce a stochastic variant of our approach and demonstrate empirically that our IPS can produce high-quality samples from varied target distributions, outperforming comparable gradient-free particle systems and competitive with gradient-based alternatives. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# ニューラルマーク付き時間点過程の分布自由等角関節予測領域
Distribution-Free Conformal Joint Prediction Regions for Neural Marked Temporal Point Processes ( http://arxiv.org/abs/2401.04612v2 ) ライセンス: Link先を確認 | Victor Dheur, Tanguy Bosser, Rafael Izbicki, Souhaib Ben Taieb, | (参考訳) 連続的に不規則な間隔で観測されるラベル付き事象の系列は、様々な分野に分布する。
TPP(Temporal Point Processs)は、これらのシーケンスをモデル化するための数学的フレームワークを提供する。
しかし、モデル上の不特定性やトレーニングデータの欠如により、これらの確率モデルは真で未知の基盤過程の貧弱な近似を与える可能性があり、それらから抽出された予測領域は、基礎となる不確実性の信頼できない推定値である。
本稿では、共形予測の枠組みを用いて、ニューラルTPPモデルにおける不確実性定量化のためのより信頼性の高い手法を開発する。
主な目的は、イベントの到着時刻とマークに対する分布自由な共同予測領域を生成し、有限サンプルの限界カバレッジを保証することである。
重要な課題は、分布的な仮定なしで、厳密な正、連続的な応答とカテゴリー的な応答の両方を扱うことである。
まず、イベントの到着時刻とマークの個々の予測領域を組み合わせた、単純だが保守的なアプローチを検討します。
そこで本研究では,到達時刻と標章の合同予測密度から得られた2変量高密度領域に基づく,より効果的な手法を提案する。
この2つの変数間の依存関係を利用することで、この手法は2つの不可能な組み合わせを除外し、よりシャープな予測領域を発生させながら、未指定のカバレッジレベルを達成できる。
また、イベントの到着時刻とマークの個別の単変量予測領域の生成について、共形回帰と分類手法を用いて検討する。
さらに,条件付きカバレッジという概念を強く評価する。
最後に、シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、これらの手法の有効性と効率を評価する。
Sequences of labeled events observed at irregular intervals in continuous time are ubiquitous across various fields. Temporal Point Processes (TPPs) provide a mathematical framework for modeling these sequences, enabling inferences such as predicting the arrival time of future events and their associated label, called mark. However, due to model misspecification or lack of training data, these probabilistic models may provide a poor approximation of the true, unknown underlying process, with prediction regions extracted from them being unreliable estimates of the underlying uncertainty. This paper develops more reliable methods for uncertainty quantification in neural TPP models via the framework of conformal prediction. A primary objective is to generate a distribution-free joint prediction region for an event's arrival time and mark, with a finite-sample marginal coverage guarantee. A key challenge is to handle both a strictly positive, continuous response and a categorical response, without distributional assumptions. We first consider a simple but conservative approach that combines individual prediction regions for the event's arrival time and mark. Then, we introduce a more effective method based on bivariate highest density regions derived from the joint predictive density of arrival times and marks. By leveraging the dependencies between these two variables, this method excludes unlikely combinations of the two, resulting in sharper prediction regions while still attaining the pre-specified coverage level. We also explore the generation of individual univariate prediction regions for events' arrival times and marks through conformal regression and classification techniques. Moreover, we evaluate the stronger notion of conditional coverage. Finally, through extensive experimentation on both simulated and real-world datasets, we assess the validity and efficiency of these methods. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# Batch-ICL:効果的、効率的、秩序に依存しないインコンテキスト学習
Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning ( http://arxiv.org/abs/2401.06469v3 ) ライセンス: Link先を確認 | Kaiyi Zhang, Ang Lv, Yuhan Chen, Hansen Ha, Tao Xu, Rui Yan, | (参考訳) 本稿では,テキスト内学習(ICL)をメタ最適化プロセスとして扱うことにより,LCMがICLの順序に敏感である理由を説明する。
この理解は、ICLの効率的、効率的、秩序に依存しない推論アルゴリズムであるBatch-ICLの開発に繋がる。
標準的なNショット学習アプローチとは違い、Batch-ICLは$N$の1ショットフォワード計算を採用し、その結果のメタ勾配を集約する。
これらの集約されたメタグラディエントをゼロショットクエリの前方計算に適用し、最終的な予測を生成する。
このバッチ処理アプローチでは、LCMはICLの例の順に非依存である。
広範な実験と解析により、Batch-ICLはICLの例のほとんどの置換よりも一貫して優れていることを示した。
一部のケースでは、必要な計算資源を削減しつつ、標準ICLのベストオーダーの性能を超越している。
さらに,メタ最適化の「エポック」を複数備えた新しいBatch-ICLを開発した。
この変種は暗黙的にICLの例の置換を探求し、ICLのパフォーマンスをさらに向上させる。
In this paper, by treating in-context learning (ICL) as a meta-optimization process, we explain why LLMs are sensitive to the order of ICL examples. This understanding leads us to the development of Batch-ICL, an effective, efficient, and order-agnostic inference algorithm for ICL. Differing from the standard N-shot learning approach, Batch-ICL employs $N$ separate 1-shot forward computations and aggregates the resulting meta-gradients. These aggregated meta-gradients are then applied to the forward computation of a zero-shot query to generate the final prediction. This batch processing approach renders the LLM agnostic to the order of ICL examples. Through extensive experiments and analysis, we demonstrate that Batch-ICL consistently outperforms most permutations of ICL examples. In some cases, it even exceeds the performance of the best order for standard ICL, all while reducing the computational resources required. Furthermore, we develop a novel variant of Batch-ICL featuring multiple "epochs" of meta-optimization. This variant implicitly explores permutations of ICL examples, further enhancing ICL performance. | 翻訳日:2024-06-07 03:45:21 公開日:2024-06-05 |
# ハードタスクのための簡易トレーニングデータの不合理な有効性
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks ( http://arxiv.org/abs/2401.06751v2 ) ライセンス: Link先を確認 | Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe, | (参考訳) ハードトレーニングデータが正確なラベル付けが難しい場合に、どうやってモデルをトレーニングしてハードテストデータでうまく機能させるのか?
この問題はスケーラブルな監視問題と呼ばれ、言語モデルが継続的に改善され、注目を集めている。
本稿では,既存の事前学習型言語モデルが,ハードデータに微調整されたオラクルモデルと同様に,比較的容易なデータからハードデータまで,比較的よく一般化されるという驚くべき結論を提示する。
本研究では,テキスト内学習,線形分類器ヘッド,QLoRAといった簡易な微調整手法を用いて,データポイントの硬さを7つの異なる尺度で表し,これらを実験的に異なる6つの人的硬さ尺度(グレードレベルなど)と1つのモデルベース尺度(ロスベース)で示す。
さらに, ハードデータのモデル性能を最も気にしている場合でも, ファインタニングのためのハードデータよりも簡単なデータを集める方がよいことを示す。
実験では,70bまでの大きさのオープンモデルと,3年生の理科質問から大学レベルのSTEM質問,一般知識トリヴィアまで,難易度の高い4つの質問回答データセットを用いた。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
私たちのコードは、https://github.com/allenai/easy-to-hard- generalizationで利用可能です。
How can we train models to perform well on hard test data when hard training data is by definition difficult to label correctly? This question has been termed the scalable oversight problem and has drawn increasing attention as language models have continually improved. In this paper, we present the surprising conclusion that current pretrained language models often generalize relatively well from easy to hard data, even performing as well as oracle models finetuned on hard data. We demonstrate this kind of easy-to-hard generalization using simple finetuning methods like in-context learning, linear classifier heads, and QLoRA for seven different measures of datapoint hardness, including six empirically diverse human hardness measures (like grade level) and one model-based measure (loss-based). Furthermore, we show that even if one cares most about model performance on hard data, it can be better to collect easy data rather than hard data for finetuning, since hard data is generally noisier and costlier to collect. Our experiments use open models up to 70b in size and four publicly available question-answering datasets with questions ranging in difficulty from 3rd grade science questions to college level STEM questions and general-knowledge trivia. We conclude that easy-to-hard generalization in LMs is surprisingly strong for the tasks studied. Our code is available at: https://github.com/allenai/easy-to-hard-generalization | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 航空機の予測維持のためのサロゲートニューラルネットワークの局所安定性
Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance ( http://arxiv.org/abs/2401.06821v2 ) ライセンス: Link先を確認 | Mélanie Ducoffe, Guillaume Povéda, Audrey Galametz, Ryma Boumazouza, Marion-Cécile Martin, Julien Baris, Derk Daverschot, Eugene O'Higgins, | (参考訳) サーロゲートニューラルネットワークは、今日では、計算に要求されるエンジニアリングシミュレーション(例:構造解析)の代用として、産業で日常的に使われている。
製品設計、テスト、監視フェーズなどにおいて、より高速な予測を生成できるため、産業アプリケーションでの分析が可能になる。
性能と時間効率のため、これらのサロゲートモデルは安全クリティカルなアプリケーションでの使用のために開発されている。
ニューラルネットワークの検証、特にその堅牢性(例えば摂動)の評価は、現実のアプリケーションや認定に組み込むための次の重要なステップである。
航空機の外部負荷から航空機が持続する応力を予測するために設計されたサロゲートニューラルネットワークに対する航空機の予測保守の文脈における経験的および形式的手法の適用性とスケーラビリティを評価する。
ケーススタディは高次元の入出力空間をカバーし、検証プロセスは多目的制約を許容する。
本稿では,そのような代理モデルの局所安定性特性を入力雑音に対して評価する際の検証手法の相補性について検討する。
1つの検証「パイプライン」におけるメソッドの逐次結合の有効性を示すとともに、対象プロパティの評価に必要な実行時の利得を示す。
Surrogate Neural Networks are nowadays routinely used in industry as substitutes for computationally demanding engineering simulations (e.g., in structural analysis). They allow to generate faster predictions and thus analyses in industrial applications e.g., during a product design, testing or monitoring phases. Due to their performance and time-efficiency, these surrogate models are now being developed for use in safety-critical applications. Neural network verification and in particular the assessment of their robustness (e.g., to perturbations) is the next critical step to allow their inclusion in real-life applications and certification. We assess the applicability and scalability of empirical and formal methods in the context of aircraft predictive maintenance for surrogate neural networks designed to predict the stress sustained by an aircraft part from external loads. The case study covers a high-dimensional input and output space and the verification process thus accommodates multi-objective constraints. We explore the complementarity of verification methods in assessing the local stability property of such surrogate models to input noise. We showcase the effectiveness of sequentially combining methods in one verification 'pipeline' and demonstrating the subsequent gain in runtime required to assess the targeted property. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# Selene: ソフトウェア検証における自動証明のパイオニア化
Selene: Pioneering Automated Proof in Software Verification ( http://arxiv.org/abs/2401.07663v2 ) ライセンス: Link先を確認 | Lichen Zhang, Shuai Lu, Nan Duan, | (参考訳) 正しさを保証することは、ソフトウェア工学の重要な側面である。
利用可能なさまざまな戦略の中で、ソフトウェア検証は正確性の確定的な保証を提供する。
それでも、検証証明を書くことはリソース集約的で人的消費であり、このプロセスを自動化する必要がある。
本稿では,実世界の産業レベルのマイクロカーネルであるseL4に基づいて構築された,プロジェクトレベルの自動検証ベンチマークであるSeleneを紹介する。
Seleneは、エンドツーエンドの証明生成のための包括的なフレームワークと、軽量な検証環境を提供する。
GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
さらに,セレンによる課題が今後の研究で緩和される可能性が示唆された。
Ensuring correctness is a pivotal aspect of software engineering. Among the various strategies available, software verification offers a definitive assurance of correctness. Nevertheless, writing verification proofs is resource-intensive and manpower-consuming, and there is a great need to automate this process. We introduce Selene in this paper, which is the first project-level automated proof benchmark constructed based on the real-world industrial-level operating system microkernel, seL4. Selene provides a comprehensive framework for end-to-end proof generation and a lightweight verification environment. Our experimental results with advanced large language models (LLMs), such as GPT-3.5-turbo and GPT-4, highlight the capabilities of LLMs in the domain of automated proof generation. Additionally, our further proposed augmentations indicate that the challenges presented by Selene can be mitigated in future research endeavors. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# JumpCoder: オンライン修正による自動回帰コーダを超えて
JumpCoder: Go Beyond Autoregressive Coder via Online Modification ( http://arxiv.org/abs/2401.07870v2 ) ライセンス: Link先を確認 | Mouxiang Chen, Hao Tian, Zhongxin Liu, Xiaoxue Ren, Jianling Sun, | (参考訳) 既存のコード大言語モデル(コードLLM)は、コード生成において印象的な能力を示すが、自己回帰的なシーケンシャル生成は本質的に可逆性に欠ける。
この制限は、人間がしているようにコーディング中に失われた文をタイムリーに修正するのを妨げる。
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。
JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
この戦略は,各ラインの生成後に最も重要な位置を$k$で埋める実験であり,ジェネレーションモデルスコーリングとともに抽象構文木(AST)パーサを用いて,各インフィルの有効性を効果的に判断するものである。
複数言語ベンチマークと多言語ベンチマークにまたがる6つの最先端コード LLM を用いた大規模な実験は、すべてのベースラインに対する大幅な改善を一貫して示している。
私たちのコードはhttps://github.com/Keytoyze/JumpCoder.comで公開されています。
While existing code large language models (code LLMs) exhibit impressive capabilities in code generation, their autoregressive sequential generation inherently lacks reversibility. This limitation hinders them from timely correcting previous missing statements during coding as humans do, often leading to error propagation and suboptimal performance. We introduce JumpCoder, a novel model-agnostic framework that enables human-like online modification and non-sequential generation to augment code LLMs. The key idea behind JumpCoder is to insert new code into the currently generated code when necessary during generation, which is achieved through an auxiliary infilling model that works in tandem with the code LLM. Since identifying the best infill position beforehand is intractable, we adopt an \textit{infill-first, judge-later} strategy, which experiments with filling at the $k$ most critical positions following the generation of each line, and uses an Abstract Syntax Tree (AST) parser alongside the Generation Model Scoring to effectively judge the validity of each potential infill. Extensive experiments using six state-of-the-art code LLMs across multiple and multilingual benchmarks consistently indicate significant improvements over all baselines. Our code is public at https://github.com/Keytoyze/JumpCoder. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 次世代ネットワークにおける弾性フェデレーションとマルチエージェント深部強化学習に基づく協調エッジキャッシング
Cooperative Edge Caching Based on Elastic Federated and Multi-Agent Deep Reinforcement Learning in Next-Generation Network ( http://arxiv.org/abs/2401.09886v2 ) ライセンス: Link先を確認 | Qiong Wu, Wenhua Wang, Pingyi Fan, Qiang Fan, Huiling Zhu, Khaled B. Letaief, | (参考訳) エッジキャッシュは、小型セルベースステーション(SBS)のキャッシュユニットを有効活用することで、次世代ネットワークにとって有望なソリューションである。
SBSは,ユーザの個人情報を保護しながら,学習を通じて正確な人気コンテンツを予測することが重要である。
従来のフェデレーション学習(FL)はユーザのプライバシを保護することができるが、UE間のデータ格差はモデル品質の低下につながる。
そのため、各UE毎に個別のローカルモデルをトレーニングし、人気コンテンツの正確な予測を行う必要がある。
さらに、次世代ネットワークにおいて、キャッシュされたコンテンツを隣接するSBS間で共有することができるため、予測された人気コンテンツを異なるSBSでキャッシュすることで、コンテンツを取得するコストに影響を与える可能性がある。
したがって、人気のあるコンテンツがどこで共同でキャッシュされているかを判断することが重要である。
これらの問題に対処するために、ネットワークのコストを最適化するために、弾性フェデレーションとマルチエージェント深部強化学習(CEFMR)に基づく協調エッジキャッシュ方式を提案する。
まず,各UEのパーソナライズされたモデルをトレーニングするための弾力的FLアルゴリズムを提案する。そこでは,予測精度を向上させるために,対向オートエンコーダ(AAE)モデルを採用し,トレーニングされたAAEモデルに基づいて,SBS毎に人気コンテンツを予測するために,人気コンテンツ予測アルゴリズムを提案する。
最後に,マルチエージェント・ディープ・強化学習(MADRL)に基づくアルゴリズムを提案する。
提案手法が既存のベースラインキャッシュ方式よりも優れていることを示す実験結果を得た。
Edge caching is a promising solution for next-generation networks by empowering caching units in small-cell base stations (SBSs), which allows user equipments (UEs) to fetch users' requested contents that have been pre-cached in SBSs. It is crucial for SBSs to predict accurate popular contents through learning while protecting users' personal information. Traditional federated learning (FL) can protect users' privacy but the data discrepancies among UEs can lead to a degradation in model quality. Therefore, it is necessary to train personalized local models for each UE to predict popular contents accurately. In addition, the cached contents can be shared among adjacent SBSs in next-generation networks, thus caching predicted popular contents in different SBSs may affect the cost to fetch contents. Hence, it is critical to determine where the popular contents are cached cooperatively. To address these issues, we propose a cooperative edge caching scheme based on elastic federated and multi-agent deep reinforcement learning (CEFMR) to optimize the cost in the network. We first propose an elastic FL algorithm to train the personalized model for each UE, where adversarial autoencoder (AAE) model is adopted for training to improve the prediction accuracy, then {a popular} content prediction algorithm is proposed to predict the popular contents for each SBS based on the trained AAE model. Finally, we propose a multi-agent deep reinforcement learning (MADRL) based algorithm to decide where the predicted popular contents are collaboratively cached among SBSs. Our experimental results demonstrate the superiority of our proposed scheme to existing baseline caching schemes. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 最大エントロピー原理からのエントロピー生成:統一的アプローチ
Entropy Production from Maximum Entropy Principle: a Unifying Approach ( http://arxiv.org/abs/2401.09936v2 ) ライセンス: Link先を確認 | Adalberto D. Varizi, Pedro S. Correia, | (参考訳) エントロピー生成は、不可逆現象と熱力学の第2法則を特徴づける重要な量である。
しかし、ユビキタスな定義はコンセンサスを損なう。
エントロピー生産が情報への不完全なアクセスから生じることを考えれば、このレターでは、ジェインズの最大エントロピー原理を用いて、顕著で矛盾する定義をまとめる枠組みを確立する。
より一般的に、エントロピー生成の定義は、トモグラフィ的に不完全な量子測定やシステム上の量子チャネルの作用に対処する。
Entropy production is the crucial quantity characterizing irreversible phenomena and the second law of thermodynamics. Yet, a ubiquitous definition eludes consensus. Given that entropy production arises from incomplete access to information, in this Letter we use Jaynes' maximum entropy principle to establish a framework that brings together prominent and apparently conflicting definitions. More generally our definition of entropy production addresses any tomographically incomplete quantum measurement and/or the action of a quantum channel on a system. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 完全パルスインライン式インライン式ツインビームスクレーサ
Perfect pulsed inline twin-beam squeezers ( http://arxiv.org/abs/2401.10197v2 ) ライセンス: Link先を確認 | Martin Houde, Nicolás Quesada, | (参考訳) 完全なインラインストレッチャーはスペクトル的に純粋であり、同じ入力と出力の時間モードを持ち、デバイスが作用する唯一の入力モードで任意の入力量子状態を絞り、他のモードの量子状態は影響を受けない。
本研究では, 単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式複孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式単孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式2孔式
離散化されたハイゼンベルク・ピクチャー・プロパゲータのBloch-Messiah分解から入力時間モードと出力時間モードの関係を解析することにより、周波数縮退した対称群速度が一致したタイプ-II構成で操作すると、二重パス構造が完全パルスインライン・スクラッシャーを生成することがわかった。
Perfect inline squeezers are both spectrally pure and have identical input and output temporal modes, allowing one to squeeze an arbitrary input quantum state in the sole input mode on which the device acts, while the quantum states of any other modes are unaffected. We study theoretically how to obtain a perfect pulsed inline squeezer in twin-beam systems by considering three commonly used configurations: unpoled single pass, poled single pass, and poled double pass. By obtaining analytical relations between the input and output temporal modes from the Bloch-Messiah decomposition of the discretized Heisenberg-picture propagator, we find that a double pass structure produces a perfect pulsed inline squeezer when operated in a frequency degenerate, symmetric group-velocity matched type-II configuration. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# ギャップレス対称性で保護された位相位相位相と有限部分群をガグすることによる一般化された分解臨界点
Gapless symmetry-protected topological phases and generalized deconfined critical points from gauging a finite subgroup ( http://arxiv.org/abs/2401.11702v2 ) ライセンス: Link先を確認 | Lei Su, Meng Zeng, | (参考訳) 大域対称性の有限部分群を測ることによって、従来の位相と位相遷移を非伝統的な位相にマッピングすることができる。
本研究では、実例として、大域対称性が$U(1)$の創発的な $\mathbb{Z}_2$-gauged システム、すなわち、$\mathbb{Z}_2$-gauged Bose-Hubbard モデルを 1-D と 2-D の両方で検討する。
ある極限において、商 $\tilde{U}(1)$ 対称性と双対 $\hat{\mathbb{Z}}_2$ 対称性の間には、創発的に混ざった 't Hooft 異常が存在する。
1-Dでは、超流動相は密度行列再正規化群(DMRG)計算によって支持されるように、本質的にギャップのない対称性保護位相(SPT)相にマッピングされる。
2-Dでは、元の超流体絶縁体遷移は、ギャップレスSPT相とゴールドストーンモードと共存するSPT次数と$\tilde{U}(1)$-symmetric-enriched topological (SET)相の間の一般化された分解量子臨界点(DQCP)となる。
また、これらの相の安定性と、小さな摂動に対する臨界点とその潜在的な実験的実現についても論じる。
我々の研究は、部分的なゲージングが新しい位相と量子臨界性を構築するための単純かつ強力なアプローチであることを実証している。
Gauging a finite subgroup of a global symmetry can map conventional phases and phase transitions to unconventional ones. In this work, we study, as a concrete example, an emergent $\mathbb{Z}_2$-gauged system with global symmetry $U(1)$, namely, the $\mathbb{Z}_2$-gauged Bose-Hubbard model both in 1-D and in 2-D. In certain limits, there is an emergent mixed 't Hooft anomaly between the quotient $\tilde{U}(1)$ symmetry and the dual $\hat{\mathbb{Z}}_2$ symmetry. In 1-D, the superfluid phase is mapped to an intrinsically gapless symmetry-protected topological (SPT) phase, as supported by density-matrix renormalization group (DMRG) calculations. In 2-D, the original superfluid-insulator transition becomes a generalized deconfined quantum critical point (DQCP) between a gapless SPT phase, where a SPT order coexists with Goldstone modes, and a $\tilde{U}(1)$-symmetry-enriched topological (SET) phase. We also discuss the stability of these phases and the critical points to small perturbations and their potential experimental realizations. Our work demonstrates that partial gauging is a simple and yet powerful approach in constructing novel phases and quantum criticalities. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 生成コンテキストによるブラインド: 言語モデルと生成コンテキストのマージは、知識衝突時にどのように行われるか?
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? ( http://arxiv.org/abs/2401.11911v5 ) ライセンス: Link先を確認 | Hexiang Tan, Fei Sun, Wanli Yang, Yuanzhuo Wang, Qi Cao, Xueqi Cheng, | (参考訳) 補助情報は、LLM(Large Language Models)の拡張の鍵となっているが、LLMがこれらのコンテキストをどのように統合するかについては、特にLLMが生成したコンテキストと外部ソースから取得したコンテキストについてはあまり知られていない。
そこで本研究では,LLMの応答が生成した文脈と検索した文脈のいずれに起因しているかを特定するための体系的な枠組みを定式化する。
応答の起源を容易に追跡するために,各質問は生成したコンテキストと検索したコンテキストの両方にペアリングされるが,その中の1つだけが正解である。
実験の結果,複数のLDM (GPT-4/3.5, Llama2) において, 誤った情報を提供する場合でも, 生成コンテキストを優先する有意なバイアスが認められた。
さらに、このバイアスに寄与する2つの重要な要因を特定します。
i) LLMが生成する文脈は,通常,質問とより類似し,選択される可能性を高める。
二 検索した文脈におけるセグメンテーションのプロセスは、その完全性を損なうため、LLMの完全利用を阻害する。
我々の分析は,LLMが様々な文脈を融合する方法の理解を深め,現在のLLM拡張法を進展させる上で貴重な洞察を提供し,LLM検索における誤情報の発生リスクを強調している。
While auxiliary information has become a key to enhancing Large Language Models (LLMs), relatively little is known about how LLMs merge these contexts, specifically contexts generated by LLMs and those retrieved from external sources. To investigate this, we formulate a systematic framework to identify whether LLMs' responses are attributed to either generated or retrieved contexts. To easily trace the origin of the response, we construct datasets with conflicting contexts, i.e., each question is paired with both generated and retrieved contexts, yet only one of them contains the correct answer. Our experiments reveal a significant bias in several LLMs (GPT-4/3.5 and Llama2) to favor generated contexts, even when they provide incorrect information. We further identify two key factors contributing to this bias: i) contexts generated by LLMs typically show greater similarity to the questions, increasing their likelihood of being selected; ii) the segmentation process used in retrieved contexts disrupts their completeness, thereby hindering their full utilization in LLMs. Our analysis enhances the understanding of how LLMs merge diverse contexts, offers valuable insights for advancing current LLM augmentation methods, and highlights the risk of generated misinformation for retrieval-augmented LLMs. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 多言語言語モデルのためのテキスト埋め込み型インバージョンセキュリティ
Text Embedding Inversion Security for Multilingual Language Models ( http://arxiv.org/abs/2401.12192v4 ) ライセンス: Link先を確認 | Yiyi Chen, Heather Lent, Johannes Bjerva, | (参考訳) テキストデータは、特に大規模言語モデル(LLM)やエンベッドディング・アズ・ア・サービス(EaaS)の人気により、NLPにおける実数の埋め込みとして表現されることが多い。
しかし、センシティブな情報を埋め込みとして保存することはセキュリティ侵害の影響を受けやすい。
防衛機構は検討されているが、これらは英語のみに焦点を当てており、他の言語は攻撃に晒される可能性がある。
本研究は多言語埋め込みインバージョンによるLLMのセキュリティについて検討する。
ブラックボックス・マルチランガル・クロスランガル・インバージョン・アタックの問題を定義し,その可能性を探る。
以上の結果から,多言語LPMは英語による防御が不十分なため,逆攻撃に対して脆弱である可能性が示唆された。
これを軽減するために,単言語モデルと多言語モデルの両方に有効な単純なマスキング防御法を提案する。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
Textual data is often represented as real-numbered embeddings in NLP, particularly with the popularity of large language models (LLMs) and Embeddings as a Service (EaaS). However, storing sensitive information as embeddings can be susceptible to security breaches, as research shows that text can be reconstructed from embeddings, even without knowledge of the underlying model. While defence mechanisms have been explored, these are exclusively focused on English, leaving other languages potentially exposed to attacks. This work explores LLM security through multilingual embedding inversion. We define the problem of black-box multilingual and cross-lingual inversion attacks, and explore their potential implications. Our findings suggest that multilingual LLMs may be more vulnerable to inversion attacks, in part because English-based defences may be ineffective. To alleviate this, we propose a simple masking defense effective for both monolingual and multilingual models. This study is the first to investigate multilingual inversion attacks, shedding light on the differences in attacks and defenses across monolingual and multilingual settings. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# オラクル骨スクリプト認識・解読のためのオープンデータセット
An open dataset for oracle bone script recognition and decipherment ( http://arxiv.org/abs/2401.15365v3 ) ライセンス: Link先を確認 | Pengjie Wang, Kaile Zhang, Xinyu Wang, Shengwei Han, Yongge Liu, Jinpeng Wan, Haisu Guan, Zhebin Kuang, Lianwen Jin, Xiang Bai, Yuliang Liu, | (参考訳) Oracle Bone Script (OBS) は、古代中国最古の書物として知られており、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な知見を持っている。
これらの著作の歴史的・文化的意義は過大評価されない。
しかし、時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
人工知能(AI)の出現により、OBSの解釈を支援するAIが実現可能な選択肢となった。
しかし、この分野の進歩は、高品質なデータセットの欠如によって妨げられている。
本稿では,HUST-OBSデータセットの作成について詳述する。
このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像と、様々なソースからコンパイルされた合計140,053個の画像を含んでいる。
さらに、すべての画像とラベルは、オラクルの骨研究の専門家によってレビューされ、修正されている。
このデータセットは、未知のOBSを解読する将来の研究を刺激し、支援することを期待している。
すべてのコードとデータセットはhttps://github.com/Pengjie-W/HUST-OBCで公開されている。
Oracle Bone Script (OBS), one of the earliest known forms of ancient Chinese writing, holds invaluable insights into the humanities and geography of the Shang Dynasty, dating back 3,000 years. The immense historical and cultural significance of these writings cannot be overstated. However, the passage of time has obscured much of their meaning, presenting a significant challenge in deciphering these ancient texts. With the advent of Artificial Intelligence (AI), employing AI to assist in interpreting OBS has become a feasible option. Yet, progress in this area has been hindered by a lack of high-quality datasets. To address this issue, this paper details the creation of the HUST-OBS dataset. This dataset encompasses 77,064 images of 1,588 individual deciphered scripts and 62,989 images of 9,411 undeciphered characters, with a total of 140,053 images, compiled from diverse sources. Additionally, all images and labels have been reviewed and corrected by experts in oracle bone studies. The hope is that this dataset could inspire and assist future research in deciphering those unknown OBS. All the codes and datasets are available at https://github.com/Pengjie-W/HUST-OBC. | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# cDVGAN:マルチクラス重力波信号と格子生成のためのフレキシブルモデル
cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation ( http://arxiv.org/abs/2401.16356v4 ) ライセンス: Link先を確認 | Tom Dooney, Lyana Curier, Daniel Tan, Melissa Lopez, Chris Van Den Broeck, Stefano Bromuri, | (参考訳) 重力波(GW)とGW検出器グリッチの現実的な時間領域観測のシミュレーションは、GWデータ解析を前進させるのに役立つ。
シミュレーションされたデータは、信号検索のためのデータセットの拡大、機械学習のためのデータセットのバランス、検出スキームの検証など、下流タスクで使用することができる。
本研究では、重力波(GW)と検出器グリッチを表す複数の時間領域観測のクラスをシミュレートする、ジェネレーティブ・アドバーサリアル・ネットワーク・フレームワークにおける新しい条件モデルである条件微分型GAN(cDVGAN)を提案する。
cDVGANはまた、条件付きクラスベクトルの補間によってクラス間のばらつきにまたがる一般化されたハイブリッドサンプルを生成することもできる。
cDVGANは、GANの典型的な2人対戦ゲームに追加のプレイヤーを導入し、補助判別器が1次微分時間列を解析する。
以上の結果から,元のデータの特徴をよりよく捉えた合成データが得られることがわかった。
cDVGAN条件は3つのクラスで、LIGO blip と Tomte glitch の事象を観測3回目(O3)から2回、そして3回目は2回目(BBH)の融合を表す。
提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。
具体的には、我々の実験により、cDVGAN生成データによる畳み込みニューラルネットワーク(CNN)のトレーニングが、他の最先端のGANモデルからの合成データ以外の検出器ノイズに埋め込まれたサンプルの検出を改善することが示されている。
我々の最高の合成データセットは、ベースラインGANの合成データセットと比較して、AUC(Area-under-the-curve)のパフォーマンスが最大4.2%向上する。
さらに,CNNをcDVGANのハイブリッドサンプルでトレーニングすることで,標準クラスのみをトレーニングし,LIGO検出器バックグラウンドに埋め込まれた実サンプルを同定する(cDVGANの4%のAUC改善)。
Simulating realistic time-domain observations of gravitational waves (GWs) and GW detector glitches can help in advancing GW data analysis. Simulated data can be used in downstream tasks by augmenting datasets for signal searches, balancing data sets for machine learning, and validating detection schemes. In this work, we present Conditional Derivative GAN (cDVGAN), a novel conditional model in the Generative Adversarial Network framework for simulating multiple classes of time-domain observations that represent gravitational waves (GWs) and detector glitches. cDVGAN can also generate generalized hybrid samples that span the variation between classes through interpolation in the conditioned class vector. cDVGAN introduces an additional player into the typical 2-player adversarial game of GANs, where an auxiliary discriminator analyzes the first-order derivative time-series. Our results show that this provides synthetic data that better captures the features of the original data. cDVGAN conditions on three classes, two denoised from LIGO blip and tomte glitch events from its 3rd observing run (O3), and the third representing binary black hole (BBH) mergers. Our proposed cDVGAN outperforms 4 different baseline GAN models in replicating the features of the three classes. Specifically, our experiments show that training convolutional neural networks (CNNs) with our cDVGAN-generated data improves the detection of samples embedded in detector noise beyond the synthetic data from other state-of-the-art GAN models. Our best synthetic dataset yields as much as a 4.2% increase in area-under-the-curve (AUC) performance compared to synthetic datasets from baseline GANs. Moreover, training the CNN with hybrid samples from our cDVGAN outperforms CNNs trained only on the standard classes, when identifying real samples embedded in LIGO detector background (4% AUC improvement for cDVGAN). | 翻訳日:2024-06-07 03:35:00 公開日:2024-06-05 |
# 言語モデルアライメントの効率的なエクササイズ最適化に向けて
Towards Efficient Exact Optimization of Language Model Alignment ( http://arxiv.org/abs/2402.00856v4 ) ライセンス: Link先を確認 | Haozhe Ji, Cheng Lu, Yilin Niu, Pei Ke, Hongning Wang, Jun Zhu, Jie Tang, Minlie Huang, | (参考訳) 言語モデルと人間の嗜好の整合性は、現実世界のタスクに応用するために不可欠である。
この問題は、初期方針からの逸脱を最小限に抑え、人間の嗜好を反映した期待される報酬を最大化するために、モデルのポリシーを最適化することとして定式化される。
素直な解決と見なされているが、強化学習(RL)は、効率的な政策改善を妨げる政策更新のばらつきに悩まされている。
近年、嗜好データからポリシーを直接最適化するために、直接選好最適化(DPO)が提案されている。
しかし、この問題の最適解に基づいて導出されたDPOが、現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
EXOは、任意のポリシーパラメトリゼーションのために漸近的にRLアルゴリズムと同じ方向に最適化することが保証されている。
これにより、同じモード探索解が得られ、RLの複雑さを回避して効率的な最適化が可能となる。
また,提案手法をDPOと比較し,提案手法の現実的嗜好データに対する既存手法に対する優位性を実証した。
コードはhttps://github.com/haozheji/exact-optimization.comで入手できる。
The alignment of language models with human preferences is vital for their application in real-world tasks. The problem is formulated as optimizing the model's policy to maximize the expected reward that reflects human preferences with minimal deviation from the initial policy. While considered as a straightforward solution, reinforcement learning (RL) suffers from high variance in policy updates, which impedes efficient policy improvement. Recently, direct preference optimization (DPO) was proposed to directly optimize the policy from preference data. However, we show that DPO derived based on the optimal solution of the problem leads to a compromised mean-seeking approximation of the optimal solution in practice. In this paper, we propose efficient exact optimization (EXO) of the alignment objective. EXO is guaranteed to optimize in the same direction as RL algorithms asymptotically for arbitrary policy parametrization. This leads to the same mode-seeking solution, while enables efficient optimization by circumventing the complexities of RL. We also compare our method to DPO with both theoretical and empirical analyses, and further demonstrate the advantages of our method over existing approaches on realistic human preference data. Code is available at https://github.com/haozheji/exact-optimization. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# FindingEmo:野生における感情認識のための画像データセット
FindingEmo: An Image Dataset for Emotion Recognition in the Wild ( http://arxiv.org/abs/2402.01355v2 ) ライセンス: Link先を確認 | Laurent Mertens, Elahe' Yargholi, Hans Op de Beeck, Jan Van den Stock, Joost Vennekens, | (参考訳) 我々は25k画像のアノテーションを含む新しい画像データセットであるFindingEmoを紹介した。
既存のデータセットとは対照的に、さまざまな自然主義的、社会的な設定で複数の人を描写する複雑なシーンに焦点を合わせており、画像は全体として注釈付けされている。
注釈付きディメンションには、Valence、Arousal、Emotionのラベルがあり、Prolificを使ってアノテーションを収集する。
アノテーションとともに、元のイメージを示すURLのリストと、関連するすべてのソースコードをリリースします。
We introduce FindingEmo, a new image dataset containing annotations for 25k images, specifically tailored to Emotion Recognition. Contrary to existing datasets, it focuses on complex scenes depicting multiple people in various naturalistic, social settings, with images being annotated as a whole, thereby going beyond the traditional focus on faces or single individuals. Annotated dimensions include Valence, Arousal and Emotion label, with annotations gathered using Prolific. Together with the annotations, we release the list of URLs pointing to the original images, as well as all associated source code. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# 機械学習における情報理論のアプローチ
An Information Theoretic Approach to Machine Unlearning ( http://arxiv.org/abs/2402.01401v3 ) ライセンス: Link先を確認 | Jack Foster, Kyle Fogarty, Stefan Schoepf, Cengiz Öztireli, Alexandra Brintrup, | (参考訳) AIやデータ規則に従うためには、トレーニングされた機械学習モデルからプライベートまたは著作権のある情報を忘れる必要性がますます高まっている。
アンラーニングにおける重要な課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
我々は、サンプルの影響をモデルが受ける情報と結びつけ、情報理論の観点から未学習を探索する。
このことから,モデルの幾何学に基づく単純だが原則化されたゼロショットアンラーニング手法を導出する。
提案手法は,学習関数の勾配を,対象の忘れ点付近の小さな近傍に対して最小化する手法である。
これによりスムーズな効果が生じ、分類器の境界を移動させることで忘れてしまう。
一連の低次元実験を通して一般的なモデル性能を保ちながら、なぜこのアプローチがサンプルを共同で解き放つことができるのか、その背景にある直観を考察する。
提案手法は, ゼロショットアンラーニングの厳密な制約の下で, 最先端の性能と競合することが検証された。
To comply with AI and data regulations, the need to forget private or copyrighted information from trained machine learning models is increasingly important. The key challenge in unlearning is forgetting the necessary data in a timely manner, while preserving model performance. In this work, we address the zero-shot unlearning scenario, whereby an unlearning algorithm must be able to remove data given only a trained model and the data to be forgotten. We explore unlearning from an information theoretic perspective, connecting the influence of a sample to the information gain a model receives by observing it. From this, we derive a simple but principled zero-shot unlearning method based on the geometry of the model. Our approach takes the form of minimising the gradient of a learned function with respect to a small neighbourhood around a target forget point. This induces a smoothing effect, causing forgetting by moving the boundary of the classifier. We explore the intuition behind why this approach can jointly unlearn forget samples while preserving general model performance through a series of low-dimensional experiments. We perform extensive empirical evaluation of our method over a range of contemporary benchmarks, verifying that our method is competitive with state-of-the-art performance under the strict constraints of zero-shot unlearning. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# 弱視から学ぶための一般的なフレームワーク
A General Framework for Learning from Weak Supervision ( http://arxiv.org/abs/2402.01922v3 ) ライセンス: Link先を確認 | Hao Chen, Jindong Wang, Lei Feng, Xiang Li, Yidong Wang, Xing Xie, Masashi Sugiyama, Rita Singh, Bhiksha Raj, | (参考訳) 弱い教師付き学習は、様々なシナリオに適用可能な課題に直面している。
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、サンプル部分ラベル、集約統計、ペアワイズ観測、ラベルなしデータなど、様々な弱い監督ソースを順調に収容している。
さらに,非決定論的有限オートマトン (NFA) とフォワードバックワードアルゴリズムを用いて,EM計算要求を大幅に単純化するアルゴリズムを提案する。
したがって、任意の弱監督から学習する問題は、それらのNFAモデリングに変換される。
GLWSは機械学習モデルのスケーラビリティを向上するだけでなく、11の弱い監視シナリオで優れたパフォーマンスと汎用性を示す。
この分野でのさらなる進歩と実践的な展開の道を開くことを願っています。
Weakly supervised learning generally faces challenges in applicability to various scenarios with diverse weak supervision and in scalability due to the complexity of existing algorithms, thereby hindering the practical deployment. This paper introduces a general framework for learning from weak supervision (GLWS) with a novel algorithm. Central to GLWS is an Expectation-Maximization (EM) formulation, adeptly accommodating various weak supervision sources, including instance partial labels, aggregate statistics, pairwise observations, and unlabeled data. We further present an advanced algorithm that significantly simplifies the EM computational demands using a Non-deterministic Finite Automaton (NFA) along with a forward-backward algorithm, which effectively reduces time complexity from quadratic or factorial often required in existing solutions to linear scale. The problem of learning from arbitrary weak supervision is therefore converted to the NFA modeling of them. GLWS not only enhances the scalability of machine learning models but also demonstrates superior performance and versatility across 11 weak supervision scenarios. We hope our work paves the way for further advancements and practical deployment in this field. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# ファインチューニング基礎モデルのためのリーマン事前条件付きLORA
Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models ( http://arxiv.org/abs/2402.02347v3 ) ライセンス: Link先を確認 | Fangzhao Zhang, Mert Pilanci, | (参考訳) Low-Rank Adaptation (LoRA) は、事前学習したモデルの重みを凍結し、付加的な低ランクトレーニング可能な行列を更新することを提案するPEFT法として人気がある。
本稿では,LoRA トレーニングの強化について,各勾配ステップに $r \times r$ preconditioner を導入することで検討する。
提案したプリコンディショナは,無限幅NN設定下でのLoRAによる特徴学習を安定化する。
経験的に、この新しいプリコンディショナーの実装は、既存のオプティマイザコードに小さな変更を必要とし、事実上最小のストレージとランタイムオーバーヘッドを生成する。
大規模言語モデルとテキスト・ツー・イメージ拡散モデルによる実験結果から,この新しいプレコンディショナーにより,SGDとAdamWの収束性と信頼性が著しく向上できることが示唆された。
さらに、トレーニングプロセスは、学習率などのハイパーパラメータ選択に対して、より堅牢になる。
新しいプレコンディショナーは、ローランク行列場における新しいリーマン計量から導出することができる。
コードはhttps://github.com/pilancilab/Riemannian_Preconditioned_LoRAでアクセスすることができる。
Low-Rank Adaptation (LoRA) emerges as a popular parameter-efficient fine-tuning (PEFT) method, which proposes to freeze pretrained model weights and update an additive low-rank trainable matrix. In this work, we study the enhancement of LoRA training by introducing an $r \times r$ preconditioner in each gradient step where $r$ is the LoRA rank. We theoretically verify that the proposed preconditioner stabilizes feature learning with LoRA under infinite-width NN setting. Empirically, the implementation of this new preconditioner requires a small change to existing optimizer code and creates virtually minuscule storage and runtime overhead. Our experimental results with both large language models and text-to-image diffusion models show that with this new preconditioner, the convergence and reliability of SGD and AdamW can be significantly enhanced. Moreover, the training process becomes much more robust to hyperparameter choices such as learning rate. The new preconditioner can be derived from a novel Riemannian metric in low-rank matrix field. Code can be accessed at https://github.com/pilancilab/Riemannian_Preconditioned_LoRA. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# DeepLag: 直観的流体予測のためのディープラグランジアンダイナミクスの発見
DeepLag: Discovering Deep Lagrangian Dynamics for Intuitive Fluid Prediction ( http://arxiv.org/abs/2402.02425v3 ) ライセンス: Link先を確認 | Qilong Ma, Haixu Wu, Lanxiang Xing, Shangchen Miao, Mingsheng Long, | (参考訳) 将来の流体を正確に予測することは、気象学、海洋学、空気力学など幅広い分野において不可欠である。
しかしながら、流体は通常ユーレウスの視点で観測されるため、その動きと複雑なダイナミクスは深刻な曖昧さと静的な格子にまとめられ、予測に厄介な挑戦をもたらす。
本稿では, タングルサム流体力学に対処する新しいラグランジアン・ユーレリア複合パラダイムを提案する。
ユーレアン観測に基づいて未来を予測するのではなく、適応的にサンプリングされた鍵粒子の動きを追跡することによって流体中に隠れたラグランジアン力学を発見するディープラグを提案する。
さらに、ディープラグは、追跡された粒子のラグランジアン運動をユーレリア観測から推定し、その蓄積したラグランジアンダイナミクス情報を、それぞれ将来の予測を導くためにグローバルユーレリア進化特徴に組み込む、流体予測の新しいパラダイムを提示する。
キー粒子の追跡は、流体力学の透明かつ解釈可能な手がかりを提供するだけでなく、我々のモデルは、大規模グリッド間の複雑な相関をモデル化することなく、効率を向上する。
実験では、DeepLagは2Dと3D、シミュレートされた実世界の流体をカバーする3つの挑戦的な流体予測タスクに優れています。
Accurately predicting the future fluid is vital to extensive areas such as meteorology, oceanology, and aerodynamics. However, since the fluid is usually observed from the Eulerian perspective, its moving and intricate dynamics are seriously obscured and confounded in static grids, bringing thorny challenges to the prediction. This paper introduces a new Lagrangian-Eulerian combined paradigm to tackle the tanglesome fluid dynamics. Instead of solely predicting the future based on Eulerian observations, we propose DeepLag to discover hidden Lagrangian dynamics within the fluid by tracking the movements of adaptively sampled key particles. Further, DeepLag presents a new paradigm for fluid prediction, where the Lagrangian movement of the tracked particles is inferred from Eulerian observations, and their accumulated Lagrangian dynamics information is incorporated into global Eulerian evolving features to guide future prediction respectively. Tracking key particles not only provides a transparent and interpretable clue for fluid dynamics but also makes our model free from modeling complex correlations among massive grids for better efficiency. Experimentally, DeepLag excels in three challenging fluid prediction tasks covering 2D and 3D, simulated and real-world fluids. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# DRED:データ調整環境設計による強化学習におけるゼロショット転送
DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design ( http://arxiv.org/abs/2402.03479v3 ) ライセンス: Link先を確認 | Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas, Stefano V. Albrecht, | (参考訳) 深層強化学習(RL)を用いて訓練された自律エージェントは、トレーニング中に遭遇したものと特性を共有した場合でも、新しい環境にうまく一般化する能力に欠けることが多い。
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
これは、特定の適応サンプリング戦略によって達成される正規化に対する新しい理論的な正当化を与える。
次に、レベル生成の制御を前提とした、教師なし環境設計(UED)手法に注意を向ける。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両方を防止するため,データ正規化環境設計(DRED)を導入する。
DREDは、初期レベルパラメータの基底真理分布を近似するために訓練された生成モデルを用いてレベルを生成する。
DREDは、その基盤として、適応レベルサンプリング戦略とUEDメソッドよりも、ZSGの大幅な改善を実現している。
私たちのコードと実験データはhttps://github.com/uoe-agents/dred.comで公開されています。
Autonomous agents trained using deep reinforcement learning (RL) often lack the ability to successfully generalise to new environments, even when these environments share characteristics with the ones they have encountered during training. In this work, we investigate how the sampling of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents. We discover that, for deep actor-critic architectures sharing their base layers, prioritising levels according to their value loss minimises the mutual information between the agent's internal representation and the set of training levels in the generated training data. This provides a novel theoretical justification for the regularisation achieved by certain adaptive sampling strategies. We then turn our attention to unsupervised environment design (UED) methods, which assume control over level generation. We find that existing UED methods can significantly shift the training distribution, which translates to low ZSG performance. To prevent both overfitting and distributional shift, we introduce data-regularised environment design (DRED). DRED generates levels using a generative model trained to approximate the ground truth distribution of an initial set of level parameters. Through its grounding, DRED achieves significant improvements in ZSG over adaptive level sampling strategies and UED methods. Our code and experimental data are available at https://github.com/uoe-agents/dred. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# ニューラルネットワーク初期化におけるゴールディロックゾーンの分解
Deconstructing the Goldilocks Zone of Neural Network Initialization ( http://arxiv.org/abs/2402.03579v2 ) ライセンス: Link先を確認 | Artem Vysogorets, Anna Dawid, Julia Kempe, | (参考訳) トレーニング損失の2次特性は、ディープラーニングモデルの最適化力学に大きな影響を与える。
Fort & Scherlis (2019) は、損失 Hessian の多数の正の曲率と局所凸性は、"Goldilocks zone" と呼ばれる領域にある高度に訓練可能な初期点と関連していることを示した。
その後もこの関係に触発された研究はごくわずかであり、ほとんど説明がつかないままである。
本稿では,同種ニューラルネットワークにおけるGoldilocksゾーンの厳密かつ包括的解析について述べる。
特に、損失の正の曲率を超越した基本条件を導出し、従来受け入れられていた初期化ノルムへの接続を説明する。
さらに, 正曲率の過大さをモデル信頼度, 初期損失の低さ, 以前は知られていなかったクロスエントロピー損失勾配に関連付ける。
深層ネットワークのトレーニング性に対する過剰な正曲率の重要性を理解するため,Goldilocksゾーン外の完全連結・畳み込みアーキテクチャを最適化し,創発的挙動を解析した。
私たちは、強力なモデルパフォーマンスがGoldilocksゾーンと完全に一致していないことに気付き、この関係についてさらなる研究を要求します。
The second-order properties of the training loss have a massive impact on the optimization dynamics of deep learning models. Fort & Scherlis (2019) discovered that a large excess of positive curvature and local convexity of the loss Hessian is associated with highly trainable initial points located in a region coined the "Goldilocks zone". Only a handful of subsequent studies touched upon this relationship, so it remains largely unexplained. In this paper, we present a rigorous and comprehensive analysis of the Goldilocks zone for homogeneous neural networks. In particular, we derive the fundamental condition resulting in excess of positive curvature of the loss, explaining and refining its conventionally accepted connection to the initialization norm. Further, we relate the excess of positive curvature to model confidence, low initial loss, and a previously unknown type of vanishing cross-entropy loss gradient. To understand the importance of excessive positive curvature for trainability of deep networks, we optimize fully-connected and convolutional architectures outside the Goldilocks zone and analyze the emergent behaviors. We find that strong model performance is not perfectly aligned with the Goldilocks zone, calling for further research into this relationship. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# Read to Play (R2-Play):マルチモーダルゲーム指導による決定変換器
Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction ( http://arxiv.org/abs/2402.04154v6 ) ライセンス: Link先を確認 | Yonggang Jin, Ge Zhang, Hao Zhao, Tianyu Zheng, Jarvi Guo, Liuyu Xiang, Shawn Yue, Stephen W. Huang, Zhaofeng He, Jie Fu, | (参考訳) 汎用エージェントの開発は、人工知能の長年の目標である。
さまざまなタスクから広範なオフラインデータセットを活用するこれまでの取り組みは、強化学習内のマルチタスクシナリオにおいて、顕著なパフォーマンスを示している。
しかしながら、これらの作業は、新しいタスクに機能を拡張する際の課題に直面します。
近年,テキスト指導や視覚的軌跡を意思決定ネットワークに統合し,タスク固有の文脈情報を提供し,有望な方向を示す手法が提案されている。
しかし,タスクの文脈情報を正確に伝達するには,テキスト指導や視覚的軌跡のみに頼るだけでは不十分であることが観察された。
本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイの指示を理解することによって,「読み上げ」機能を実現する。
視覚タスクにおけるマルチモーダル・インストラクション・チューニングの成功からインスピレーションを得て、視覚ベースのRLタスクを長期視覚タスクとして扱い、インストラクション・チューニングを決定変換器に組み込むためのマルチモーダル・ゲーム・インストラクションのセットを構築する。
実験により,マルチモーダルゲーム命令を組み込むことで,決定変換器のマルチタスクと一般化能力を大幅に向上することが示された。
Developing a generalist agent is a longstanding objective in artificial intelligence. Previous efforts utilizing extensive offline datasets from various tasks demonstrate remarkable performance in multitasking scenarios within Reinforcement Learning. However, these works encounter challenges in extending their capabilities to new tasks. Recent approaches integrate textual guidance or visual trajectory into decision networks to provide task-specific contextual cues, representing a promising direction. However, it is observed that relying solely on textual guidance or visual trajectory is insufficient for accurately conveying the contextual information of tasks. This paper explores enhanced forms of task guidance for agents, enabling them to comprehend gameplay instructions, thereby facilitating a "read-to-play" capability. Drawing inspiration from the success of multimodal instruction tuning in visual tasks, we treat the visual-based RL task as a long-horizon vision task and construct a set of multimodal game instructions to incorporate instruction tuning into a decision transformer. Experimental results demonstrate that incorporating multimodal game instructions significantly enhances the decision transformer's multitasking and generalization capabilities. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# ダンス生成のための双方向自己回帰拡散モデル
Bidirectional Autoregressive Diffusion Model for Dance Generation ( http://arxiv.org/abs/2402.04356v2 ) ライセンス: Link先を確認 | Canyu Zhang, Youbao Tang, Ning Zhang, Ruei-Sung Lin, Mei Han, Jing Xiao, Song Wang, | (参考訳) ダンスは人間の感情を表現するための強力な媒体として機能するが、人生のようなダンスの生成は依然としてかなりの課題である。
近年、拡散モデルは様々な領域で顕著な生成能力を示した。
彼らは、適応可能な多対多の性質のために、人間のモーションジェネレーションを約束します。
それにもかかわらず、現在の拡散に基づく運動生成モデルは、局所的および双方向的な拡張による動きに焦点を絞らず、直接かつ一方向の運動列を直接生成することが多い。
高品質な舞踊の動きを振る舞う際には、音楽的文脈だけでなく、近隣の音楽的な舞踊の動きも考慮する必要がある。
本研究では,音楽間距離生成のための双方向自己回帰拡散モデル (BADM) を提案する。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
提案フレームワークは入力条件と近傍の動作に基づいて新しい動きを生成することができ、個々の動きスライスを反復的に予測し、全ての予測を統合する。
生成されたダンスとビートとの同期性を更に向上させるため、ビート情報を入力として組み込んで、より優れた音楽整列ダンス動作を生成する。
実験結果から,提案モデルが既存の一方向アプローチと比較して最先端性能を達成できることが示唆された。
Dance serves as a powerful medium for expressing human emotions, but the lifelike generation of dance is still a considerable challenge. Recently, diffusion models have showcased remarkable generative abilities across various domains. They hold promise for human motion generation due to their adaptable many-to-many nature. Nonetheless, current diffusion-based motion generation models often create entire motion sequences directly and unidirectionally, lacking focus on the motion with local and bidirectional enhancement. When choreographing high-quality dance movements, people need to take into account not only the musical context but also the nearby music-aligned dance motions. To authentically capture human behavior, we propose a Bidirectional Autoregressive Diffusion Model (BADM) for music-to-dance generation, where a bidirectional encoder is built to enforce that the generated dance is harmonious in both the forward and backward directions. To make the generated dance motion smoother, a local information decoder is built for local motion enhancement. The proposed framework is able to generate new motions based on the input conditions and nearby motions, which foresees individual motion slices iteratively and consolidates all predictions. To further refine the synchronicity between the generated dance and the beat, the beat information is incorporated as an input to generate better music-aligned dance movements. Experimental results demonstrate that the proposed model achieves state-of-the-art performance compared to existing unidirectional approaches on the prominent benchmark for music-to-dance generation. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# プロキシ再暗号化, IPFS, ブロックチェーンの統合による電子カルテの商用化, 分散化, ストアリング
A Solution for Commercializing, Decentralizing and Storing Electronic Medical Records by Integrating Proxy Re-Encryption, IPFS, and Blockchain ( http://arxiv.org/abs/2402.05498v2 ) ライセンス: Link先を確認 | Phong Tran, Thong Nguyen, Long Chu, Nhi Tran, Hang Ta, | (参考訳) グローバルシステム全体でのユーザ医療記録の急速な拡大は、機会だけでなく、ユーザのプライバシ、コントロール可能性、患者の医療記録を商業化する能力を保証する効果的なアプリケーションモデルを維持する上での新たな課題も示している。
さらに、医療機関におけるデータ分析モデルの普及は、医療記録データの分散化と復元性を必要とする。
これらのシステムから収集されたユーザ医療データは、収集後数年も簡単に分析・活用でき、多くの要因によるデータ損失のリスクを伴わないことが重要である。
さらに、医療情報はデータ所有者によって認可され、患者に医療研究機関からのデータ使用要求を受け入れ、拒否する権利を与える必要がある。
そこで本研究では,EVM互換のブロックチェーンとIPFSを用いた分散ストレージを実現するための革新的なソリューションを提案する。
プライバシとコントロールを確保するため,医療データマーケットプレースでは,PRE(Proxy Re-Encryption)という暗号認証方式を採用しています。
提案アーキテクチャは,記録記録の暗号化と復号化を最小化することにより,医療研究機関への読み取りアクセスを許可するコストを大幅に削減する。
さらに、ブロックチェーンのスマートコントラクトとIPFSを通じて、医療データのコントロールを強化し、医療記録の完全性とプライバシを保護します。
The rapid expansion of user medical records across global systems presents not only opportunities but also new challenges in maintaining effective application models that ensure user privacy, controllability, and the ability to commercialize patient medical records. Moreover, the proliferation of data analysis models in healthcare institutions necessitates the decentralization and restorability of medical record data. It is imperative that user medical data collected from these systems can be easily analyzed and utilized even years after collection, without the risk of data loss due to numerous factors. Additionally, medical information must be authorized by the data owner, granting patients the right to accept or decline data usage requests from medical research agencies. In response, we propose an innovative solution for implementing a decentralized system utilizing an EVM-compatible blockchain and IPFS for decentralized storage. To ensure privacy and control, we employ Proxy Re-Encryption (PRE), a cryptographic authorized method, within the medical data marketplace. Our proposed architecture significantly reduces costs associated with granting read access to healthcare research agencies by minimizing the encryption and decryption time of stored records. Furthermore, it empowers users with enhanced control over their health data through tamperproof blockchain smart contracts and IPFS, safeguarding the integrity and privacy of their medical records. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# トランスフォーマーはどのようにして文脈内自己回帰学習を行うのか?
How do Transformers perform In-Context Autoregressive Learning? ( http://arxiv.org/abs/2402.05787v2 ) ライセンス: Link先を確認 | Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel Peyré, | (参考訳) トランスフォーマーは言語モデリングタスクで最先端のパフォーマンスを達成した。
しかし、その大成功の背景にはいまだ不明な点がある。
本稿では,より理解を深めるために,第1次自己回帰プロセス $s_{t+1} = W s_t$ としてシーケンスが生成される,単純な次のトークン予測タスク上でTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
結果の手順を文脈内自己回帰学習と呼ぶ。
より正確には、直交行列の可換化に$W$に着目して、トレーニングされた一層線形変換器が、拡張トークンを考える際に、内的目的関数の最小化のために勾配勾配の1ステップを実装できることを最初に示す。
トークンが拡張されない場合、一層対角線マルチヘッド変換器のグローバルミニマを特徴付ける。
重要なことは、頭部間の直交性を示し、位置符号化がデータの三角関係を捉えることを示すことである。
実験面では,非可換直交行列の一般事例を考察し,理論的な知見を一般化する。
Transformers have achieved state-of-the-art performance in language modeling tasks. However, the reasons behind their tremendous success are still unclear. In this paper, towards a better understanding, we train a Transformer model on a simple next token prediction task, where sequences are generated as a first-order autoregressive process $s_{t+1} = W s_t$. We show how a trained Transformer predicts the next token by first learning $W$ in-context, then applying a prediction mapping. We call the resulting procedure in-context autoregressive learning. More precisely, focusing on commuting orthogonal matrices $W$, we first show that a trained one-layer linear Transformer implements one step of gradient descent for the minimization of an inner objective function, when considering augmented tokens. When the tokens are not augmented, we characterize the global minima of a one-layer diagonal linear multi-head Transformer. Importantly, we exhibit orthogonality between heads and show that positional encoding captures trigonometric relations in the data. On the experimental side, we consider the general case of non-commuting orthogonal matrices and generalize our theoretical findings. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# 知識蒸留におけるグラフニューラルネットワークを用いた大規模言語モデル
Large Language Model Meets Graph Neural Network in Knowledge Distillation ( http://arxiv.org/abs/2402.05894v3 ) ライセンス: Link先を確認 | Shengxiang Hu, Guobing Zou, Song Yang, Yanglan Gan, Bofeng Zhang, Yixin Chen, | (参考訳) サービス指向アーキテクチャでは、信頼性を維持し、ユーザの満足度を高めるために、QoS(Quality of Service)を正確に予測することが重要です。
しかし、ユーザとサービス間の高次の協調関係を常に見落とし、正確な機能を学ぶ上で重要な特定のユーザサービス呼び出し毎に機能学習を動的に調整できないため、大きな課題が残っている。
さらに、QoS進化を捉えるためのRNNに依存しているため、長距離依存関係の管理が難しいため、長期的なトレンドを検出することができる。
これらの課題に対処するために、時間対応QoS予測のための \underline{T}arget-Prompt \underline{O}nline \underline{G}raph \underline{C}ollaborative \underline{L}earning (TOGCL) フレームワークを提案する。
TOGCLは、動的なユーザサービス呼び出しグラフを利用して、歴史的なインタラクションをモデル化し、ユーザサービス間の関係を包括的に表現する。
このグラフに基づいて、ターゲットユーザ/サービスとその隣人間の暗黙的な協調関係と関連する歴史的QoS値とを同時に考慮しながら、ユーザとサービスのオンラインの深い潜伏した特徴を各時間スライス時に抽出するターゲットプロンプトグラフアテンションネットワークを開発する。
さらに、ユーザやサービスの時間的特徴進化パターンを明らかにするために、多層トランスフォーマーエンコーダが使用され、時間的認識のQoS予測につながった。
WS-DREAMデータセットで実施された大規模な実験により、提案したTOGCLフレームワークは、複数のメトリクスにわたって最先端のメソッドを著しく上回り、最大38.80\%の改善が達成された。
これらの結果は、TOGCLフレームワークの正確な時間的QoS予測の有効性を裏付けるものである。
In service-oriented architectures, accurately predicting the Quality of Service (QoS) is crucial for maintaining reliability and enhancing user satisfaction. However, significant challenges remain due to existing methods always overlooking high-order latent collaborative relationships between users and services and failing to dynamically adjust feature learning for every specific user-service invocation, which are critical for learning accurate features. Additionally, reliance on RNNs for capturing QoS evolution hampers models' ability to detect long-term trends due to difficulties in managing long-range dependencies. To address these challenges, we propose the \underline{T}arget-Prompt \underline{O}nline \underline{G}raph \underline{C}ollaborative \underline{L}earning (TOGCL) framework for temporal-aware QoS prediction. TOGCL leverages a dynamic user-service invocation graph to model historical interactions, providing a comprehensive representation of user-service relationships. Building on this graph, it develops a target-prompt graph attention network to extract online deep latent features of users and services at each time slice, simultaneously considering implicit collaborative relationships between target users/services and their neighbors, as well as relevant historical QoS values. Additionally, a multi-layer Transformer encoder is employed to uncover temporal feature evolution patterns of users and services, leading to temporal-aware QoS prediction. Extensive experiments conducted on the WS-DREAM dataset demonstrate that our proposed TOGCL framework significantly outperforms state-of-the-art methods across multiple metrics, achieving improvements of up to 38.80\%. These results underscore the effectiveness of the TOGCL framework for precise temporal QoS prediction. | 翻訳日:2024-06-07 03:25:10 公開日:2024-06-05 |
# 結合型正規化流れの普遍性について
On the Universality of Coupling-based Normalizing Flows ( http://arxiv.org/abs/2402.06578v2 ) ライセンス: Link先を確認 | Felix Draxler, Stefan Wahl, Christoph Schnörr, Ullrich Köthe, | (参考訳) 正規化フローの表現力を理解するための新しい理論的枠組みを提案する。
科学的な応用が盛んであるにもかかわらず、流れの包括的な理解は、その制限されたアーキテクチャのため、いまだに解明されていない。
既存の定理は、任意に不条件のニューラルネットワークを使用する必要があるため、実用性を制限するため、不足している。
本稿では,RealNVP などの疎結合型正規化フローに対する分布普遍性定理を提案する。
さらに,体積保存型正規化フローは普遍的ではなく,どの分布を学習するか,どのように表現性を修正するかを示す。
この結果は,アフィンと関連する結合が表現的であり,一般に容積保存フローに優れており,経験的結果と理論的理解のギャップを埋めるものである,という一般的な知恵を裏付けるものである。
We present a novel theoretical framework for understanding the expressive power of normalizing flows. Despite their prevalence in scientific applications, a comprehensive understanding of flows remains elusive due to their restricted architectures. Existing theorems fall short as they require the use of arbitrarily ill-conditioned neural networks, limiting practical applicability. We propose a distributional universality theorem for well-conditioned coupling-based normalizing flows such as RealNVP. In addition, we show that volume-preserving normalizing flows are not universal, what distribution they learn instead, and how to fix their expressivity. Our results support the general wisdom that affine and related couplings are expressive and in general outperform volume-preserving flows, bridging a gap between empirical results and theoretical understanding. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# 大規模言語モデル:Webshellのエスケープサンプルを生成するハイブリッドプロンプトアルゴリズムの提案
Large Language Models are Few-shot Generators: Proposing Hybrid Prompt Algorithm To Generate Webshell Escape Samples ( http://arxiv.org/abs/2402.07408v2 ) ライセンス: Link先を確認 | Mingrui Ma, Lansheng Han, Chunjie Zhou, | (参考訳) サイバー攻撃の頻発により、ウェブシェル攻撃と防衛は次第にネットワークセキュリティの分野で研究ホットスポットとなっている。
しかし、公開されているベンチマークデータセットの欠如と、webshellエスケープサンプル生成のための手動で定義されたルールへの過度な依存は、webshellエスケープサンプル生成と人工知能(AI)ベースのWebshell検出に関する研究の進捗を遅らせている。
弱いウェブシェルサンプルエスケープ機能の欠点や複雑な悪意のある特徴を持つウェブシェルデータセットの欠如に対処し、ウェブシェル検出の開発を促進するために、大規模言語モデルの助けを借りてウェブシェルサンプル生成のためのハイブリッド・プロンプトアルゴリズムを提案する。
ウェブシェルサンプル生成用に特別に開発されたプロンプトアルゴリズムとして、Hybrid Promptアルゴリズムは、思考のチェーン、思考のツリーなど様々な素早いアイデアを結合するだけでなく、ウェブシェル階層モジュールや少数ショット例などの様々なコンポーネントを組み込んで、ウェブシェルエスケープ戦略の学習と推論を容易にする。
実験の結果、Hybrid Promptアルゴリズムは、高いエスケープレート(GPT-4モデルでは88.61%)と(GPT-4モデルでは54.98%)で高品質なウェブシェルサンプルを生成する優れたコード推論能力を持つ複数のLLMで動作可能であることが示された。
The frequent occurrence of cyber-attacks has made webshell attacks and defense gradually become a research hotspot in the field of network security. However, the lack of publicly available benchmark datasets and the over-reliance on manually defined rules for webshell escape sample generation have slowed down the progress of research related to webshell escape sample generation and artificial intelligence (AI)-based webshell detection. To address the drawbacks of weak webshell sample escape capabilities, the lack of webshell datasets with complex malicious features, and to promote the development of webshell detection, we propose the Hybrid Prompt algorithm for webshell escape sample generation with the help of large language models. As a prompt algorithm specifically developed for webshell sample generation, the Hybrid Prompt algorithm not only combines various prompt ideas including Chain of Thought, Tree of Thought, but also incorporates various components such as webshell hierarchical module and few-shot example to facilitate the LLM in learning and reasoning webshell escape strategies. Experimental results show that the Hybrid Prompt algorithm can work with multiple LLMs with excellent code reasoning ability to generate high-quality webshell samples with high Escape Rate (88.61% with GPT-4 model on VirusTotal detection engine) and (Survival Rate 54.98% with GPT-4 model). | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# テキスト生成のためのラベル効率の良いモデル選択
Label-Efficient Model Selection for Text Generation ( http://arxiv.org/abs/2402.07891v2 ) ライセンス: Link先を確認 | Shir Ashury-Tahan, Ariel Gera, Benjamin Sznajder, Leshem Choshen, Liat Ein-Dor, Eyal Shnarch, | (参考訳) 与えられた対象タスクに対するモデル選択は、異なるモデルの出力の品質に関する広範なアノテーションを必要とするため、コストがかかる可能性がある。
DiffUseは、選好アノテーションに基づく候補テキスト生成モデル間の情報決定を効果的に行う方法である。
DiffUseは必要なアノテーション量を削減し、評価を行う上で貴重な時間とリソースを節約します。
DiffUseは、モデル出力間のセマンティックな差異を表す埋め込みをクラスタリングすることで、インテリジェントにインスタンスを選択する。
したがって、選好決定に対してより有益な例のサブセットを特定できる。
提案手法はモデルに依存しず,任意のテキスト生成モデルに適用し,モデル,プロンプト,構成を選択する。
さらに,アノテートするインスタンス数を動的に決定する実用的な反復手法を提案する。
何百ものモデルペアに対する一連の実験では、高い評価信頼性を維持しながら、DiffUseが要求されるアノテーションの数を最大75%削減できることを示した。
Model selection for a given target task can be costly, as it may entail extensive annotation of the quality of outputs of different models. We introduce DiffUse, an efficient method to make an informed decision between candidate text generation models based on preference annotations. DiffUse reduces the required amount of annotations, thus saving valuable time and resources in performing evaluation. DiffUse intelligently selects instances by clustering embeddings that represent the semantic differences between model outputs. Thus, it is able to identify a subset of examples that are more informative for preference decisions. Our method is model-agnostic, and can be applied to any text generation model for selecting between models, prompts and configurations. Moreover, we propose a practical iterative approach for dynamically determining how many instances to annotate. In a series of experiments over hundreds of model pairs, we demonstrate that DiffUse can dramatically reduce the required number of annotations -- by up to 75% -- while maintaining high evaluation reliability. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# PreFLMR: 微細粒遅延反応型マルチモーダルリトリーバーのスケールアップ
PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers ( http://arxiv.org/abs/2402.08327v2 ) ライセンス: Link先を確認 | Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne, | (参考訳) LMM(Large Multimodal Models)は、自然言語や視覚的理解に優れるが、知識に基づく視覚質問回答(KB-VQA)のような、質問に対する回答を形作るために文書コレクションから関連する情報を検索するタスクによって、課題が解決される。
KB-VQAのための広範囲なトレーニングおよび評価フレームワークM2KRを提案する。
M2KRにはビジョンと言語タスクの集合が含まれており、汎用マルチモーダルレトリバーのトレーニングと評価のために、単一のベンチマークタスクに組み込まれています。
我々はM2KRを用いて、KB-VQAに対する最近開発された細粒度ラテン・アクション・マルチモーダル・レトリバー(FLMR)アプローチの事前訓練版であるPreFLMRを開発した。
また, 汎用マルチモーダルレトリバーの開発に有用なPreFLMRのスケーリング挙動について検討した。
Large Multimodal Models (LMMs) excel in natural language and visual understanding but are challenged by exacting tasks such as Knowledge-based Visual Question Answering (KB-VQA) which involve the retrieval of relevant information from document collections to use in shaping answers to questions. We present an extensive training and evaluation framework, M2KR, for KB-VQA. M2KR contains a collection of vision and language tasks which we have incorporated into a single suite of benchmark tasks for training and evaluating general-purpose multi-modal retrievers. We use M2KR to develop PreFLMR, a pre-trained version of the recently developed Fine-grained Late-interaction Multi-modal Retriever (FLMR) approach to KB-VQA, and we report new state-of-the-art results across a range of tasks. We also present investigations into the scaling behaviors of PreFLMR intended to be useful in future developments in general-purpose multi-modal retrievers. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# 拡散モデルにおける逆最適化の克服:帰納的・原始的バイアスの観点から
Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases ( http://arxiv.org/abs/2402.08552v2 ) ライセンス: Link先を確認 | Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen, Dacheng Tao, | (参考訳) 拡散モデルと人間の嗜好のギャップを埋めることは、実際の生成ワークフローに統合するために重要である。
下流の報酬モデルの最適化は有望なアライメント戦略として現れてきたが、学習された報酬モデルによる過度な最適化のリスクが懸念され、それによって根底的なパフォーマンスが損なわれる可能性がある。
本研究では,誘導バイアスとプライマリーバイアスの両方のレンズによる拡散モデルアライメントにおける報酬過最適化問題に直面する。
まず,拡散モデルの多段階分極過程に固有の時間的帰納バイアスと現在の手法のミスマッチを,報酬過小評価の潜在的源として同定する。
そして、我々の批評家モデルにおける休眠ニューロンが報酬過小評価に対する正則化として機能し、アクティブニューロンはプライマリーバイアスを反映していることが驚くほどわかりました。
これらの観測から得られた時間拡散政策最適化(TDPO-R)を提案する。これは、拡散モデルの時間的帰納バイアスを利用して、活動ニューロンから生じる優劣バイアスを緩和するポリシー勾配アルゴリズムである。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
コードはhttps://github.com/ZiyiZhang27/tdpo.comで検証可能である。
Bridging the gap between diffusion models and human preferences is crucial for their integration into practical generative workflows. While optimizing downstream reward models has emerged as a promising alignment strategy, concerns arise regarding the risk of excessive optimization with learned reward models, which potentially compromises ground-truth performance. In this work, we confront the reward overoptimization problem in diffusion model alignment through the lenses of both inductive and primacy biases. We first identify a mismatch between current methods and the temporal inductive bias inherent in the multi-step denoising process of diffusion models, as a potential source of reward overoptimization. Then, we surprisingly discover that dormant neurons in our critic model act as a regularization against reward overoptimization while active neurons reflect primacy bias. Motivated by these observations, we propose Temporal Diffusion Policy Optimization with critic active neuron Reset (TDPO-R), a policy gradient algorithm that exploits the temporal inductive bias of diffusion models and mitigates the primacy bias stemming from active neurons. Empirical results demonstrate the superior efficacy of our methods in mitigating reward overoptimization. Code is avaliable at https://github.com/ZiyiZhang27/tdpo. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# ハイブリッド逆強化学習
Hybrid Inverse Reinforcement Learning ( http://arxiv.org/abs/2402.08848v2 ) ライセンス: Link先を確認 | Juntao Ren, Gokul Swamy, Zhiwei Steven Wu, J. Andrew Bagnell, Sanjiban Choudhury, | (参考訳) 逆強化学習による模倣学習は、二重刃の剣である。
一方、少数の専門家によるデモから学ぶことは、行動的クローニングアプローチよりも、エラーの複雑化に対して堅牢性が高い。
一方,学習者は計算コストのかかる強化学習(RL)問題を繰り返し解く必要がある。
多くの場合、この計算の多くは専門家と非常に異なるポリシーを検索するのに費やされている。
本研究では,オンラインデータとエキスパートデータの混在をトレーニングするハイブリッドRLを用いて,不要な探索を抑えることを提案する。
直感的には、専門家データは学習者がトレーニング中に良い状態に焦点を合わせ、強力なポリシーを計算するのに必要な探索の量を削減します。
特に、そのようなアプローチでは学習者を環境内の任意の状態にリセットする必要がない。
より正式には、逆RLから専門家競合RL(グローバル最適RLではなく)への還元により、IRLアプローチの利点を維持しつつ、内部ポリシー探索ループ間の相互作用を劇的に低減できる。
これにより、強力なポリシー性能を保証するモデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出できる。
実験によって、我々のアプローチは、標準的な逆RLや連続制御タスクのスイート上のいくつかのベースラインよりもはるかにサンプル効率が高いことが判明した。
The inverse reinforcement learning approach to imitation learning is a double-edged sword. On the one hand, it can enable learning from a smaller number of expert demonstrations with more robustness to error compounding than behavioral cloning approaches. On the other hand, it requires that the learner repeatedly solve a computationally expensive reinforcement learning (RL) problem. Often, much of this computation is wasted searching over policies very dissimilar to the expert's. In this work, we propose using hybrid RL -- training on a mixture of online and expert data -- to curtail unnecessary exploration. Intuitively, the expert data focuses the learner on good states during training, which reduces the amount of exploration required to compute a strong policy. Notably, such an approach doesn't need the ability to reset the learner to arbitrary states in the environment, a requirement of prior work in efficient inverse RL. More formally, we derive a reduction from inverse RL to expert-competitive RL (rather than globally optimal RL) that allows us to dramatically reduce interaction during the inner policy search loop while maintaining the benefits of the IRL approach. This allows us to derive both model-free and model-based hybrid inverse RL algorithms with strong policy performance guarantees. Empirically, we find that our approaches are significantly more sample efficient than standard inverse RL and several other baselines on a suite of continuous control tasks. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# DeepPolar: ディープラーニングによる非線形大カーネル極性コードの作成
DeepPolar: Inventing Nonlinear Large-Kernel Polar Codes via Deep Learning ( http://arxiv.org/abs/2402.08864v2 ) ライセンス: Link先を確認 | S Ashwin Hebbar, Sravan Kumar Ankireddy, Hyeji Kim, Sewoong Oh, Pramod Viswanath, | (参考訳) チャネル符号の設計の進歩は人間の創造性によって推進され、適切には散発的である。
極符号は、アリカンの分極カーネルの基盤として開発され、符号理論の最新のブレークスルーであり、短距離から中距離のブロック長系のための最先端の誤り訂正符号として登場した。
優れたチャネル符号の発明を自動化するため、特にこの体制において、我々は、DeepPolar符号と呼ばれる極性符号の新しい非線形一般化を探求する。
DeepPolarコードは、カーネルサイズを大きくし、これらのカーネルをパラメータ化し、ニューラルネットワークを介してデコーダにマッチさせることで、従来のPolarコーディングフレームワークを拡張している。
以上の結果から,これらのデータ駆動型コードは,既存のニューラルコードと従来のポラコードの両方と比較して,カーネルサイズが大きくなるというメリットを効果的に活用できることが示唆された。
Progress in designing channel codes has been driven by human ingenuity and, fittingly, has been sporadic. Polar codes, developed on the foundation of Arikan's polarization kernel, represent the latest breakthrough in coding theory and have emerged as the state-of-the-art error-correction code for short-to-medium block length regimes. In an effort to automate the invention of good channel codes, especially in this regime, we explore a novel, non-linear generalization of Polar codes, which we call DeepPolar codes. DeepPolar codes extend the conventional Polar coding framework by utilizing a larger kernel size and parameterizing these kernels and matched decoders through neural networks. Our results demonstrate that these data-driven codes effectively leverage the benefits of a larger kernel size, resulting in enhanced reliability when compared to both existing neural codes and conventional Polar codes. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# モデル編集による蝶効果:大言語モデルの崩壊をトリガーできる編集は少ない
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse ( http://arxiv.org/abs/2402.09656v4 ) ライセンス: Link先を確認 | Wanli Yang, Fei Sun, Xinyu Ma, Xun Liu, Dawei Yin, Xueqi Cheng, | (参考訳) モデル編集は、Large Language Models (LLMs) における知識の改訂において有望であるが、LLMの本質的な能力への影響はしばしば見過ごされている。
一つの編集でもモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
しかし、このような崩壊を防ぐために各編集後のLCMのベンチマークは、過激な時間とリソース集約に費やされる。
これを軽減するために, 編集モデルのパープレキシティの変化が下流タスクのパフォーマンスと強く相関していることを示す広範な実験により, シュロゲート計量としてパープレキシティを用いる方法を提案する。
さらに,従来の単一編集研究の難題に焦点をあて,様々な編集手法やLLMをまたいだ実世界のシナリオの実践的設定であるシーケンシャル編集について,詳細な研究を行う。
その結果, ほぼすべての編集手法が, ごくわずかの編集後, モデル崩壊を招いたことが示唆された。
さらなる研究を容易にするため,我々はGPT-3.5を用いて,これらのハードケースに基づいた新しいデータセットであるHardEditを開発した。
このデータセットは、信頼性のあるモデル編集の研究の先駆的な基盤と、編集によるモデル崩壊の基礎となるメカニズムを確立することを目的としている。
この作業が、モデル編集プラクティスに固有の潜在的なリスクに、コミュニティの注意を引き付けることを願っています。
Although model editing has shown promise in revising knowledge in Large Language Models (LLMs), its impact on the inherent capabilities of LLMs is often overlooked. In this work, we reveal a critical phenomenon: even a single edit can trigger model collapse, manifesting as significant performance degradation in various benchmark tasks. However, benchmarking LLMs after each edit, while necessary to prevent such collapses, is impractically time-consuming and resource-intensive. To mitigate this, we propose using perplexity as a surrogate metric, validated by extensive experiments demonstrating changes in an edited model's perplexity are strongly correlated with its downstream task performances. We further conduct an in-depth study on sequential editing, a practical setting for real-world scenarios, across various editing methods and LLMs, focusing on hard cases from our previous single edit studies. The results indicate that nearly all examined editing methods result in model collapse after only few edits. To facilitate further research, we have utilized GPT-3.5 to develop a new dataset, HardEdit, based on those hard cases. This dataset aims to establish the foundation for pioneering research in reliable model editing and the mechanisms underlying editing-induced model collapse. We hope this work can draw the community's attention to the potential risks inherent in model editing practices. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# LLMにおけるファウショットモビリティの発生を緩和するチェーン・オブ・プランテッド・ビヘイビアワークフロー
Chain-of-Planned-Behaviour Workflow Elicits Few-Shot Mobility Generation in LLMs ( http://arxiv.org/abs/2402.09836v2 ) ライセンス: Link先を確認 | Chenyang Shao, Fengli Xu, Bingbing Fan, Jingtao Ding, Yuan Yuan, Meng Wang, Yong Li, | (参考訳) 大規模言語モデル(LLM)の強力な推論能力は多くの分野に革命的変化をもたらしたが、人間の行動生成におけるその性能はまだ広く研究されていない。
行動意図を管理する内部プロセスは抽象的推論によってのみ説明できないため、このギャップが生じる可能性が高い。
代わりに、社会的規範や個人の嗜好など、さまざまな要因の影響も受けている。
The Theory of Planned Behaviour (TPB)にインスパイアされた我々は、人間の活動の重要な時空間的ダイナミクスを反映した移動行動生成のためのLLMワークフローであるChain-of-Planned Behaviour (CoPB)を開発した。
姿勢,主観的規範,認知行動制御の認知的構造を活用することで,COPBは次の動きの意図を推論するLLMの能力を大幅に向上させた。
特に、CoPBは移動意図発生の誤り率を57.8%から19.4%に大幅に下げている。
提案する CoPB ワークフローのスケーラビリティを向上させるため,LLM と力学モデルの相乗効果について検討する。
重力モデルのようなメカニスティックモビリティモデルは、運動意図を物理的モビリティの振る舞いに効果的にマッピングできる。
CoPBと重力モデルを統合する戦略はトークンのコストを97.7%削減し、同時に性能を向上させる。
さらに,提案した CoPB ワークフローは GPT-4-turbo を容易にして,移動行動推論のための高品質なラベルを自動的に生成することができる。
これらのラベルは、小規模でオープンソースのLLaMA 3-8Bの微調整に利用でき、生成した振る舞いの品質を犠牲にすることなく、使用コストを大幅に削減できることを示す。
The powerful reasoning capabilities of large language models (LLMs) have brought revolutionary changes to many fields, but their performance in human behaviour generation has not yet been extensively explored. This gap likely emerges because the internal processes governing behavioral intentions cannot be solely explained by abstract reasoning. Instead, they are also influenced by a multitude of factors, including social norms and personal preference. Inspired by the Theory of Planned Behaviour (TPB), we develop a LLM workflow named Chain-of-Planned Behaviour (CoPB) for mobility behaviour generation, which reflects the important spatio-temporal dynamics of human activities. Through exploiting the cognitive structures of attitude, subjective norms, and perceived behaviour control in TPB, CoPB significantly enhance the ability of LLMs to reason the intention of next movement. Specifically, CoPB substantially reduces the error rate of mobility intention generation from 57.8% to 19.4%. To improve the scalability of the proposed CoPB workflow, we further explore the synergy between LLMs and mechanistic models. We find mechanistic mobility models, such as gravity model, can effectively map mobility intentions to physical mobility behaviours. The strategy of integrating CoPB with gravity model can reduce the token cost by 97.7% and achieve better performance simultaneously. Besides, the proposed CoPB workflow can facilitate GPT-4-turbo to automatically generate high quality labels for mobility behavior reasoning. We show such labels can be leveraged to fine-tune the smaller-scale, open source LLaMA 3-8B, which significantly reduces usage costs without sacrificing the quality of the generated behaviours. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# 教師なし翻訳のための自己強化型インコンテキスト学習
Self-Augmented In-Context Learning for Unsupervised Word Translation ( http://arxiv.org/abs/2402.10024v2 ) ライセンス: Link先を確認 | Yaoyiran Li, Anna Korhonen, Ivan Vulić, | (参考訳) 最近の研究によると、大規模言語モデル(LLM)は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を数ショットで示すが、特に低リソース言語では、シード翻訳ペアが利用できないような教師なしシナリオにおいて、従来のマッピングベースのアプローチのパフォーマンスと一致しない。
この課題に LLM で対処するため,非教師付き BLI のための自己拡張型インコンテキスト学習 (SAIL) を提案する。ゼロショットプロンプトから始まる SAIL は LLM から高信頼語訳ペアを反復的に誘導し,ICL 方式で同じ LLM に再適用する。
提案手法は,広範囲の言語ペアにまたがる2つの確立されたBLIベンチマークにおいて,LLMのゼロショットプロンプトよりも大幅に向上し,また,ボード全体のマッピングベースラインよりも優れていた。
最先端の非教師付きBLIの性能を達成することに加えて,SAILに関する包括的な分析を行い,その限界について議論する。
Recent work has shown that, while large language models (LLMs) demonstrate strong word translation or bilingual lexicon induction (BLI) capabilities in few-shot setups, they still cannot match the performance of 'traditional' mapping-based approaches in the unsupervised scenario where no seed translation pairs are available, especially for lower-resource languages. To address this challenge with LLMs, we propose self-augmented in-context learning (SAIL) for unsupervised BLI: starting from a zero-shot prompt, SAIL iteratively induces a set of high-confidence word translation pairs for in-context learning (ICL) from an LLM, which it then reapplies to the same LLM in the ICL fashion. Our method shows substantial gains over zero-shot prompting of LLMs on two established BLI benchmarks spanning a wide range of language pairs, also outperforming mapping-based baselines across the board. In addition to achieving state-of-the-art unsupervised BLI performance, we also conduct comprehensive analyses on SAIL and discuss its limitations. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# 機械学習回帰タスクの校正統計の信頼性に対する重み付き不確実性と誤差分布の負の影響
Negative impact of heavy-tailed uncertainty and error distributions on the reliability of calibration statistics for machine learning regression tasks ( http://arxiv.org/abs/2402.10043v4 ) ライセンス: Link先を確認 | Pascal Pernot, | (参考訳) 1つは平均絶対誤差(MSE)と平均分散(MV)の差としてキャリブレーション誤差(CE)を推定することであり、もう1つは平均二乗zスコア(ZMS)と1である。
問題は、両方のアプローチが、最近の機械学習不確実性定量化(ML-UQ)文学からのデータセットのアンサンブルのために示されているように、異なる結論につながる可能性があることである。
ML-UQデータセットの頻繁な特徴である重み付き不確実性と誤り分布に対しては,MV,MSE,その信頼区間の推定が信頼性に欠けることが示されている。
対照的に、ZMS統計は感度が低く、この文脈でもっとも信頼性の高いアプローチを提供する。
残念なことに、同じ問題が、一般的なenceのような条件付きキャリブレーション統計や、同様の統計に基づくポストホックキャリブレーション手法にも影響することが期待されている。
概説された問題を回避するためのいくつかの解決策が提案されている。
Average calibration of the (variance-based) prediction uncertainties of machine learning regression tasks can be tested in two ways: one is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV); the alternative is to compare the mean squared z-scores (ZMS) to 1. The problem is that both approaches might lead to different conclusions, as illustrated in this study for an ensemble of datasets from the recent machine learning uncertainty quantification (ML-UQ) literature. It is shown that the estimation of MV, MSE and their confidence intervals becomes unreliable for heavy-tailed uncertainty and error distributions, which seems to be a frequent feature of ML-UQ datasets. By contrast, the ZMS statistic is less sensitive and offers the most reliable approach in this context. Unfortunately, the same problem is expected to affect also conditional calibrations statistics, such as the popular ENCE, and very likely post-hoc calibration methods based on similar statistics. Several solutions to circumvent the outlined problems are proposed. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# 機械学習による大規模言語モデル構築に向けて
Towards Safer Large Language Models through Machine Unlearning ( http://arxiv.org/abs/2402.10058v2 ) ライセンス: Link先を確認 | Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang, | (参考訳) LLM(Large Language Models)の急速な進歩は、その膨大な事前学習知識と例外的な一般化性によって、様々な領域にまたがる大きな可能性を実証している。
しかし、LSMは問題のあるプロンプトに直面すると有害なコンテンツを生成するという課題に遭遇することが多い。
この問題に対処するため、既存の研究はLSMが有害な出力を発生させないために勾配上昇に基づくアプローチを導入しようとした。
これらの手法は有効であるが、通常のプロンプトに対応する際にしばしばモデルユーティリティに影響を及ぼす。
このギャップに対処するために、我々は、通常のプロンプトで実用性を維持しながら有害な知識を排除し、LLMのための新しい非学習フレームワークである選択的知識否定学習(SKU)を紹介した。
具体的には、SKUは有害な知識獲得段階と知識否定段階の2段階からなる。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
SKUはモデルパラメータの有害な知識を選択的に分離し除去し、モデルの性能が正常なプロンプトに対して堅牢であることを保証する。
各種LLMアーキテクチャを用いて実施した実験により,有害情報除去と有効性維持のバランス点をSKUが同定できることが確認された。
The rapid advancement of Large Language Models (LLMs) has demonstrated their vast potential across various domains, attributed to their extensive pretraining knowledge and exceptional generalizability. However, LLMs often encounter challenges in generating harmful content when faced with problematic prompts. To address this problem, existing work attempted to implement a gradient ascent based approach to prevent LLMs from producing harmful output. While these methods can be effective, they frequently impact the model utility in responding to normal prompts. To address this gap, we introduce Selective Knowledge negation Unlearning (SKU), a novel unlearning framework for LLMs, designed to eliminate harmful knowledge while preserving utility on normal prompts. Specifically, SKU is consisted of two stages: harmful knowledge acquisition stage and knowledge negation stage. The first stage aims to identify and acquire harmful knowledge within the model, whereas the second is dedicated to remove this knowledge. SKU selectively isolates and removes harmful knowledge in model parameters, ensuring the model's performance remains robust on normal prompts. Our experiments conducted across various LLM architectures demonstrate that SKU identifies a good balance point between removing harmful information and preserving utility. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# Rewards-in-Context:動的優先度調整による基礎モデルの多目的アライメント
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment ( http://arxiv.org/abs/2402.10207v5 ) ライセンス: Link先を確認 | Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu, Jianshu Chen, | (参考訳) 我々は,人選好による基礎モデルの多目的アライメントの問題を考える。
しかし、一般に、強化学習(RL)を用いた大規模基礎モデルの構築にはコストがかかり不安定であり、多次元性、不均一性、そして人間の嗜好の相反する性質は、アライメントプロセスをさらに複雑にする。
本稿では,リワード・イン・コンテキスト(Rewards-in-Context,RiC)について紹介する。
RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。
抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。
実験的な証拠は,多目的RLベースラインと比較して,多言語モデル (LLM) と拡散モデルの両方が,約10%のGPU時間で報奨に適合することを示す。
We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around 10% GPU hours compared with multi-objective RL baseline. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# サンプル効率の良いRLHFの能動選好最適化
Active Preference Optimization for Sample Efficient RLHF ( http://arxiv.org/abs/2402.10500v2 ) ライセンス: Link先を確認 | Nirjhar Das, Souradip Chakraborty, Aldo Pacchiano, Sayak Ray Chowdhury, | (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要である。
協調生成モデルは様々なタスクにおいて顕著な能力を示してきたが、高品質な人間の嗜好データへの依存は、RLHFの実践的応用においてコストのかかるボトルネックを生み出している。
主な理由の1つは、現在の手法が、人間のフィードバックを集めるために、素早い世代のデータセットから一様に生成するペアを選別することに依存しており、その結果、制約された予算の下で最適以下のアライメントが生まれ、効率の良いアライメントにおける適応戦略の臨界性が強調される。
最近の研究(Mehta et al , 2023, Muldrew et al , 2024)は、生成の不確実性に基づく様々なヒューリスティックを設計することによってこの問題に対処しようとしている。
しかし、[Mehta et al , 2023] の仮定は制限的であるか、[Muldrew et al , 2024] は厳密な理論的保証を提供していない。
これらの問題に対処するために、RLHFを文脈的選好帯域フレームワーク内で再構成し、プロンプトを文脈として扱い、より重要なサンプルから選好データをクエリすることでモデルアライメントを向上させるアクティブラーニングアルゴリズムである$\textit{Active Preference Optimization}$$(\textt{APO}$)を開発する。
我々は、BTL選好モデルの下で、$\texttt{APO}$の理論的性能保証を分析し、$\texttt{APO}$の予算に対して$O(1/\sqrt{T})$のスケールで学習したポリシーの最適性の差が$T$であることを示す。
また、プロンプトの選択による選好データ収集は、一定の準最適性に苦しむポリシーをランダムに導くことを示す。
我々は,既存の手法に対する$\texttt{APO}$の有効性を検証するために,実用的な選好データセットに関する詳細な実験的な評価を行い,コスト効率とスケーラブルな方法でアライメントのサンプル効率と実用的なソリューションとして確立した。
Reinforcement Learning from Human Feedback (RLHF) is pivotal in aligning Large Language Models (LLMs) with human preferences. Although aligned generative models have shown remarkable abilities in various tasks, their reliance on high-quality human preference data creates a costly bottleneck in the practical application of RLHF. One primary reason is that current methods rely on uniformly picking prompt-generation pairs from a dataset of prompt-generations, to collect human feedback, resulting in sub-optimal alignment under a constrained budget, which highlights the criticality of adaptive strategies in efficient alignment. Recent works [Mehta et al., 2023, Muldrew et al., 2024] have tried to address this problem by designing various heuristics based on generation uncertainty. However, either the assumptions in [Mehta et al., 2023] are restrictive, or [Muldrew et al., 2024] do not provide any rigorous theoretical guarantee. To address these, we reformulate RLHF within contextual preference bandit framework, treating prompts as contexts, and develop an active-learning algorithm, $\textit{Active Preference Optimization}$ ($\texttt{APO}$), which enhances model alignment by querying preference data from the most important samples, achieving superior performance for small sample budget. We analyze the theoretical performance guarantees of $\texttt{APO}$ under the BTL preference model showing that the suboptimality gap of the policy learned via $\texttt{APO}$ scales as $O(1/\sqrt{T})$ for a budget of $T$. We also show that collecting preference data by choosing prompts randomly leads to a policy that suffers a constant sub-optimality. We perform detailed experimental evaluations on practical preference datasets to validate $\texttt{APO}$'s efficacy over the existing methods, establishing it as a sample-efficient and practical solution of alignment in a cost-effective and scalable manner. | 翻訳日:2024-06-07 01:21:50 公開日:2024-06-05 |
# 学習可能なカーネル関数を持つ線形変換器は文脈内モデルより優れている
Linear Transformers with Learnable Kernel Functions are Better In-Context Models ( http://arxiv.org/abs/2402.10644v2 ) ライセンス: Link先を確認 | Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov, | (参考訳) 言語モデル(LM)のサブクワッドアーキテクチャのフロンティアの整備は、自然言語処理の急速に発展する分野において不可欠である。
State Space Modelsを含む現在のイノベーションは、言語モデリングタスクにおけるTransformerのパフォーマンスを上回るものとして、当初は祝われていた。
しかし、これらのモデルは、トランスフォーマーが伝統的に輝く領域である、本質的なインコンテキスト学習能力の欠如を明らかにしている。
ベースモデルはハイブリッドソリューションとして登場し、畳み込みネットワークによって強化された指数関数のテイラー展開にインスパイアされたリニアトランスフォーマーとカーネルを融合した。
トランスフォーマーの文脈内適応性を反映して、この分野では強力な競争相手となった。
本研究では,Pileデータセットに示すように,マルチクエリ・アソシエイト・リコールタスクと言語モデリングプロセスを用いて評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# WilKE: 生涯の知識編集のためのWise-Layerナレッジエディタ
WilKE: Wise-Layer Knowledge Editor for Lifelong Knowledge Editing ( http://arxiv.org/abs/2402.10987v2 ) ライセンス: Link先を確認 | Chenhui Hu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao, | (参考訳) 知識編集は、大規模言語モデル(LLM)における不正確さを、時代遅れや誤った知識のためにコストがかかることなく修正することを目的としている。
しかし、現在の知識編集法は主に単一編集に重点を置いており、生涯編集の要件を満たしていない。
本研究は, 毒性蓄積と毒性フラッシュを特徴とする生涯編集において, 知識編集によって生じる性能劣化について明らかにし, 主な原因をパターンアンマッチと同定した。
Wese-Layer Knowledge Editor (WilKE) と呼ばれる知識編集手法を導入し,言語モデルにおいて,様々な階層にまたがる編集知識のパターンマッチング度に基づいて,編集層を選択する。
実験結果は、生涯編集において、GPT2-XLとGPT-Jの編集において、最先端の知識編集法と比較して平均46.2%と67.8%の改善が示されている。
Knowledge editing aims to rectify inaccuracies in large language models (LLMs) without costly retraining for outdated or erroneous knowledge. However, current knowledge editing methods primarily focus on single editing, failing to meet the requirements for lifelong editing. This study reveals a performance degradation encountered by knowledge editing in lifelong editing, characterized by toxicity buildup and toxicity flash, with the primary cause identified as pattern unmatch. We introduce a knowledge editing approach named Wise-Layer Knowledge Editor (WilKE), which selects editing layer based on the pattern matching degree of editing knowledge across different layers in language models. Experimental results demonstrate that, in lifelong editing, WilKE exhibits an average improvement of 46.2% and 67.8% on editing GPT2-XL and GPT-J relative to state-of-the-art knowledge editing methods. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# Black-Box Probabilistic Certification による説明のための信頼領域
Trust Regions for Explanations via Black-Box Probabilistic Certification ( http://arxiv.org/abs/2402.11168v3 ) ライセンス: Link先を確認 | Amit Dhurandhar, Swagatam Haldar, Dennis Wei, Karthikeyan Natesan Ramamurthy, | (参考訳) 機械学習モデルのブラックボックスの性質を考えると、個々の決定の背後にある要因を解読するために、多くの説明可能性法が開発されている。
本稿では,ブラックボックス(確率的)説明証明の新たな問題を紹介する。
クエリアクセスのみを持つブラックボックスモデル、例の説明と品質指標(viz.fidelity, stability)が与えられた場合、ハイパーキューブ内のすべての例に説明が適用される場合(高い確率で)、品質基準が満たされる場合(viz.fidelityはいくつかの値よりも大きい)、その例を中心とした最大のハイパーキューブ($\ell_{\infty}$ ball)を見つけることができるか?
そのようなemph{trust region} を効率的に見つけることができると、いくつかの利点がある。
i) \emph{ Region}, with a \emph{guarantee} におけるモデル行動に関する洞察
二 説明のemph{stability}を確定する。
三 あらゆる例について説明をしなくてすむことにより、時間、エネルギー及びお金を節約できる「emph{explanation reuse}」
iv) 説明方法を比較するためのemph{meta-metric}の可能性。
私たちの貢献には、この問題の形式化、ソリューションの提案、計算可能なこれらのソリューションに対する理論的保証の提供、合成および実データに対するそれらの有効性を実験的に示すことが含まれる。
Given the black box nature of machine learning models, a plethora of explainability methods have been developed to decipher the factors behind individual decisions. In this paper, we introduce a novel problem of black box (probabilistic) explanation certification. We ask the question: Given a black box model with only query access, an explanation for an example and a quality metric (viz. fidelity, stability), can we find the largest hypercube (i.e., $\ell_{\infty}$ ball) centered at the example such that when the explanation is applied to all examples within the hypercube, (with high probability) a quality criterion is met (viz. fidelity greater than some value)? Being able to efficiently find such a \emph{trust region} has multiple benefits: i) insight into model behavior in a \emph{region}, with a \emph{guarantee}; ii) ascertained \emph{stability} of the explanation; iii) \emph{explanation reuse}, which can save time, energy and money by not having to find explanations for every example; and iv) a possible \emph{meta-metric} to compare explanation methods. Our contributions include formalizing this problem, proposing solutions, providing theoretical guarantees for these solutions that are computable, and experimentally showing their efficacy on synthetic and real data. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# FactPICO:医学的証拠の平易な要約のためのファクチュアリティ評価
FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence ( http://arxiv.org/abs/2402.11456v2 ) ライセンス: Link先を確認 | Sebastian Antony Joseph, Lily Chen, Jan Trienes, Hannah Louisa Göke, Monika Coers, Wei Xu, Byron C Wallace, Junyi Jessy Li, | (参考訳) LLMを用いた平易な言語要約は、技術的コンテンツのテキストアクセシビリティを向上させるのに有用である。
しかし、これらの要約は、医学のような高い領域における現実的なものなのだろうか?
本稿では, ランダム化対照試験(RCT)を記述した医療用テキストの非言語要約のための実例ベンチマークであるFactPICOについて述べる。
FactPICOは、3つのLCM(GPT-4、Llama-2、Alpaca)から生成された345のプレーン言語要約と、専門家によるきめ細かい評価と自然言語の有理性からなる。
人口,介入,コンパレータ,アウトカム(PICO),および報告されたこれらのサマリーにおけるRTTの重要要素の事実について検討した。
また,LLMが付加した余分な情報(例:説明)の正確性も評価した。
FactPICOを用いて, LLMをベースとした新たなファクトリティー指標を含む, 既存のファクトリティー指標をベンチマークする。
医学的証拠の平易な言語要約は、特に単純さと事実性のバランスをとる場合、依然として困難であり、既存のメトリクスは、インスタンスレベルの専門家の判断とあまり相関しない。
Plain language summarization with LLMs can be useful for improving textual accessibility of technical content. But how factual are these summaries in a high-stakes domain like medicine? This paper presents FactPICO, a factuality benchmark for plain language summarization of medical texts describing randomized controlled trials (RCTs), which are the basis of evidence-based medicine and can directly inform patient treatment. FactPICO consists of 345 plain language summaries of RCT abstracts generated from three LLMs (i.e., GPT-4, Llama-2, and Alpaca), with fine-grained evaluation and natural language rationales from experts. We assess the factuality of critical elements of RCTs in those summaries: Populations, Interventions, Comparators, Outcomes (PICO), as well as the reported findings concerning these. We also evaluate the correctness of the extra information (e.g., explanations) added by LLMs. Using FactPICO, we benchmark a range of existing factuality metrics, including the newly devised ones based on LLMs. We find that plain language summarization of medical evidence is still challenging, especially when balancing between simplicity and factuality, and that existing metrics correlate poorly with expert judgments on the instance level. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# 編集の学習:知識編集によるLLMの調整
Learning to Edit: Aligning LLMs with Knowledge Editing ( http://arxiv.org/abs/2402.11905v2 ) ライセンス: Link先を確認 | Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang, | (参考訳) 大規模言語モデル(LLM)における知識のごく一部を、他の入力に悪影響を及ぼすことなく効率的に修正することを目的とした知識編集技術は、広く注目を集めている。
しかし、既存の手法は主に更新された知識を記憶することに依存しており、LLMは質問に答える際に、新しい知識と固有の知識を効果的に組み合わせることを妨げる。
そこで本研究では,LLMに「人間に魚を教える」という哲学に触発されて,知識を入力質問に適用する学習(LTE)フレームワークを提案する。
LTEには2段階のプロセスがあります。
一 顕微鏡外情報及び言語能力を維持しつつ、信頼性のある顕微鏡内編集を行うための微調整並列データセット上に微調整した調整段階
(II)リアルタイム・マス知識編集に検索に基づくメカニズムを用いた推論フェーズ。
4つの一般的な知識編集ベンチマークと2つのLLMアーキテクチャにまたがって、我々のアプローチを7つの高度なベースラインと比較することにより、LTEの知識編集性能、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクへの干渉の最小化、高速な編集速度を実証する。
データとコードはhttps://github.com/YJiangcm/LTEで入手できる。
Knowledge editing techniques, aiming to efficiently modify a minor proportion of knowledge in large language models (LLMs) without negatively impacting performance across other inputs, have garnered widespread attention. However, existing methods predominantly rely on memorizing the updated knowledge, impeding LLMs from effectively combining the new knowledge with their inherent knowledge when answering questions. To this end, we propose a Learning to Edit (LTE) framework, focusing on teaching LLMs to apply updated knowledge into input questions, inspired by the philosophy of "Teach a man to fish." LTE features a two-phase process: (i) the Alignment Phase, which fine-tunes LLMs on a meticulously curated parallel dataset to make reliable, in-scope edits while preserving out-of-scope information and linguistic proficiency; and (ii) the Inference Phase, which employs a retrieval-based mechanism for real-time and mass knowledge editing. By comparing our approach with seven advanced baselines across four popular knowledge editing benchmarks and two LLM architectures, we demonstrate LTE's superiority in knowledge editing performance, robustness in both batch and sequential editing, minimal interference on general tasks, and rapid editing speeds. The data and code are available at https://github.com/YJiangcm/LTE. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# すべての言語モデルが大小
All Language Models Large and Small ( http://arxiv.org/abs/2402.12061v2 ) ライセンス: Link先を確認 | Zhixun Chen, Yali Du, David Mguni, | (参考訳) 多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。
これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。
本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
LONDIは、低リソースのLMを使用する場合、複雑な意思決定と推論を必要とする場合にのみ、大きなLMを選択的に採用することを学ぶ。
LONDIは、2つの(オフ・オフ)ポリシーネットワーク、LM、大きなLM(LLM)と、スイッチング制御を使った強化学習モジュールで構成される。
次に LLM コールの予算制約とリソース使用量を維持する LONDI の変種を導入する。
理論的には、LONDIはシステム状態のサブセットを学習し、その課題を解決するのに必要なLLMを活性化する。
次に、LONDIが最適解に収束すると同時に、LLMコールの予算制約をほぼ確実に保ちながら、計算コストを大幅に削減しつつ、様々なタスクを解決できることを証明した。
我々は、ScienceWorldとBabyAI-TextのタスクでLONDIのパフォーマンスをテストし、LONDIはリソース集約型LLMでのみ解決可能なタスクを解き、GPU使用率を最大30%削減できることを示した。
Many leading language models (LMs) use high-intensity computational resources both during training and execution. This poses the challenge of lowering resource costs for deployment and faster execution of decision-making tasks among others. We introduce a novel plug-and-play LM framework named Language Optimising Network Distribution (LONDI) framework. LONDI learns to selectively employ large LMs only where complex decision-making and reasoning are required while using low-resource LMs (i.e. LMs require less GPU usage, but may not be able to solve the problem alone) everywhere else. LONDI consists of a system of two (off-)policy networks, an LM, a large LM (LLM), and a reinforcement learning module that uses switching controls to quickly learn which system states to call the LLM. We then introduce a variant of LONDI that maintains budget constraints on LLM calls and hence its resource usage. Theoretically, we prove LONDI learns the subset of system states to activate the LLM required to solve the task. We then prove that LONDI converges to optimal solutions while also preserving budgetary constraints on LLM calls almost surely enabling it to solve various tasks while significantly lowering computational costs. We test LONDI's performance in a range of tasks in ScienceWorld and BabyAI-Text and demonstrate that LONDI can solve tasks only solvable by resource-intensive LLMs while reducing GPU usage by up to 30%. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# NEO-BENCH: ニューロジズムを用いた大規模言語モデルのロバスト性評価
NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms ( http://arxiv.org/abs/2402.12261v3 ) ライセンス: Link先を確認 | Jonathan Zheng, Alan Ritter, Wei Xu, | (参考訳) 大規模言語モデル(LLM)の性能は、モデルトレーニングに使用されるデータと推論中に見られる新しいテキストの間の時間的ドリフトから低下する。
データドリフトを引き起こす言語変更の未調査の道の1つは、新しい言葉形式であるネオロジズムの出現である。
我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。
我々は,新語を含む文と,新語を代替語に置き換えるほぼ同一の文とを比較して,新語を用いた時間的ドリフトの分析を行った。
モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
これらの結果から,様々な自然言語理解タスクとモデルパープレキシティを備えた新語に一般化するLLMの能力を評価するためのベンチマークを構築した。
後続の知識カットオフのモデルでは、より難易度が低くなり、下流のタスクでより良く機能する。
LLMは単語の言語的起源にもとづいて異なる影響を受けており、静的LLMにはネオロジズムが複雑であることを示している。
実験を再現するためのベンチマークとコードをリリースします。
The performance of Large Language Models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of neologisms -- new word forms -- over time. We create a diverse resource of recent English neologisms by using several popular collection methods. We analyze temporal drift using neologisms by comparing sentences containing new words with near-identical sentences that replace neologisms with existing substitute words. Model performance is nearly halved in machine translation when a single neologism is introduced in a sentence. Motivated by these results, we construct a benchmark to evaluate LLMs' ability to generalize to neologisms with various natural language understanding tasks and model perplexity. Models with later knowledge cutoff dates yield lower perplexities and perform better in downstream tasks. LLMs are also affected differently based on the linguistic origins of words, indicating that neologisms are complex for static LLMs to address. We will release our benchmark and code for reproducing our experiments. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# ロバストCLIP:ロバスト大視野モデルのための教師なし視覚埋め込みの微調整
Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models ( http://arxiv.org/abs/2402.12336v2 ) ライセンス: Link先を確認 | Christian Schlarmann, Naman Deep Singh, Francesco Croce, Matthias Hein, | (参考訳) OpenFlamingo、LLaVA、GPT-4といったマルチモーダル基盤モデルは、様々な現実世界のタスクにますます使われている。
以前の研究では、これらのモデルは視覚のモダリティに対する敵の攻撃に対して非常に脆弱であることが示されている。
これらの攻撃は偽の情報を広めたり、ユーザーを欺いたりするために利用でき、大きなマルチモーダル基盤モデルの堅牢性に重大なリスクをもたらす。
CLIPモデルまたはその派生機種の1つは、多くの大きな視覚言語モデル(LVLM)、例えばLLaVAやOpenFlamingoの凍結視覚エンコーダとして使用される。
本稿では,CLIPに依存した全視覚ダウンストリームタスク(LVLM,ゼロショット分類)に対してロバストなCLIPビジョンエンコーダを実現するための,教師なし逆調整方式を提案する。
特に,元のCLIPモデルをロバストなものに置き換えれば,悪質な第三者によるLVLMのユーザに対する盗難攻撃はもはや不可能であることを示す。
下流のLVLMの再訓練や微調整は不要である。
コードとロバストモデルはhttps://github.com/chs20/RobustVLMで公開されている。
Multi-modal foundation models like OpenFlamingo, LLaVA, and GPT-4 are increasingly used for various real-world tasks. Prior work has shown that these models are highly vulnerable to adversarial attacks on the vision modality. These attacks can be leveraged to spread fake information or defraud users, and thus pose a significant risk, which makes the robustness of large multi-modal foundation models a pressing problem. The CLIP model, or one of its variants, is used as a frozen vision encoder in many large vision-language models (LVLMs), e.g. LLaVA and OpenFlamingo. We propose an unsupervised adversarial fine-tuning scheme to obtain a robust CLIP vision encoder, which yields robustness on all vision down-stream tasks (LVLMs, zero-shot classification) that rely on CLIP. In particular, we show that stealth-attacks on users of LVLMs by a malicious third party providing manipulated images are no longer possible once one replaces the original CLIP model with our robust one. No retraining or fine-tuning of the down-stream LVLMs is required. The code and robust models are available at https://github.com/chs20/RobustVLM | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# 高エネルギー物理応用のための局所感性ハッシュを用いた高効率点変圧器
Locality-Sensitive Hashing-Based Efficient Point Transformer with Applications in High-Energy Physics ( http://arxiv.org/abs/2402.12535v2 ) ライセンス: Link先を確認 | Siqi Miao, Zhiyuan Lu, Mia Liu, Javier Duarte, Pan Li, | (参考訳) 本研究では,高エネルギー物理(HEP)や天体物理学などの科学領域における大規模クラウド処理に最適化された新しい変圧器モデルを提案する。
グラフニューラルネットワークと標準トランスフォーマーの限界に対処するため、我々のモデルは局所帰納バイアスを統合し、ハードウェアフレンドリーな正規演算とほぼ直線的な複雑性を実現する。
この研究の1つの貢献は、効率的な変圧器を構築するための様々なスパーシフィケーション手法の誤差・複雑さトレードオフの定量的解析である。
局所誘導バイアスを伴う大規模クラウドデータに対するカーネル近似において,LSH(Locality-sensitive hashing),特にOR & AND-construction LSH(OR & AND-Construction LSH)の優位性が示された。
そこで本研究では,E$^2$LSH と OR & AND の構成を組み合わせた LSH ベースの高効率点変換器 (HEPT) を提案する。
HEPTは2つの重要な時間を要するHEPタスクにおいて顕著な性能を示し、既存のGNNやトランスフォーマーを精度と計算速度で大幅に上回り、幾何学的深層学習と大規模科学データ処理の大きな進歩を示している。
私たちのコードはhttps://github.com/Graph-COM/HEPTで公開されています。
This study introduces a novel transformer model optimized for large-scale point cloud processing in scientific domains such as high-energy physics (HEP) and astrophysics. Addressing the limitations of graph neural networks and standard transformers, our model integrates local inductive bias and achieves near-linear complexity with hardware-friendly regular operations. One contribution of this work is the quantitative analysis of the error-complexity tradeoff of various sparsification techniques for building efficient transformers. Our findings highlight the superiority of using locality-sensitive hashing (LSH), especially OR & AND-construction LSH, in kernel approximation for large-scale point cloud data with local inductive bias. Based on this finding, we propose LSH-based Efficient Point Transformer (HEPT), which combines E$^2$LSH with OR & AND constructions and is built upon regular computations. HEPT demonstrates remarkable performance on two critical yet time-consuming HEP tasks, significantly outperforming existing GNNs and transformers in accuracy and computational speed, marking a significant advancement in geometric deep learning and large-scale scientific data processing. Our code is available at https://github.com/Graph-COM/HEPT. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# 大規模言語モデルは感情的支援者になれるか?感情的支援会話における選好バイアスの緩和
Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation ( http://arxiv.org/abs/2402.13211v2 ) ライセンス: Link先を確認 | Dongjin Kang, Sunghwan Kim, Taeyoon Kwon, Seungjun Moon, Hyunsouk Cho, Youngjae Yu, Dongha Lee, Jinyoung Yeo, | (参考訳) 感情支援会話(Emotional Support Conversation、ESC)は、日々の会話を通じて個人の感情的苦痛を軽減することを目的としたタスクである。
ESConvデータセットには、その固有の複雑さと非直感的な性質から、適切なレスポンスの生成を容易にするためのサポート戦略が組み込まれている。
近年、大きな言語モデル(LLM)の顕著な会話能力にもかかわらず、以前の研究は、しばしば有用な感情的支援の提供に苦慮していることを示唆している。
したがって、この研究はまずESConv上でのLCMの結果を分析し、正しい戦略を選択する際の課題と、特定の戦略に対する顕著な選好を明らかにする。
これらの結果から, LLMにおける本質的な嗜好が感情的支援に及ぼす影響を考察し, 特定の戦略に対する高い嗜好を示すと, 効果的な情緒的支援が妨げられ, 適切な戦略を予測する上での頑健さが増すことが明らかとなった。
さらに,LLMが有能な感情的サポーターとして機能するために必要なアプローチについて,方法論的な考察を行った。
その結果,(1) 特定の戦略に対する嗜好の低さは情緒的支援の進行を妨げること,(2) 外部援助は嗜好バイアスの低減に役立つこと,(3) 既存のLCMだけでは感情的な支持者にはならないこと,などが強調された。
これらの知見は,LLMの感情的知性を高めるための今後の研究への道のりを示唆している。
Emotional Support Conversation (ESC) is a task aimed at alleviating individuals' emotional distress through daily conversation. Given its inherent complexity and non-intuitive nature, ESConv dataset incorporates support strategies to facilitate the generation of appropriate responses. Recently, despite the remarkable conversational ability of large language models (LLMs), previous studies have suggested that they often struggle with providing useful emotional support. Hence, this work initially analyzes the results of LLMs on ESConv, revealing challenges in selecting the correct strategy and a notable preference for a specific strategy. Motivated by these, we explore the impact of the inherent preference in LLMs on providing emotional support, and consequently, we observe that exhibiting high preference for specific strategies hinders effective emotional support, aggravating its robustness in predicting the appropriate strategy. Moreover, we conduct a methodological study to offer insights into the necessary approaches for LLMs to serve as proficient emotional supporters. Our findings emphasize that (1) low preference for specific strategies hinders the progress of emotional support, (2) external assistance helps reduce preference bias, and (3) existing LLMs alone cannot become good emotional supporters. These insights suggest promising avenues for future research to enhance the emotional intelligence of LLMs. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# 言語間移動におけるマルチソース言語学習の分析
Analysis of Multi-Source Language Training in Cross-Lingual Transfer ( http://arxiv.org/abs/2402.13562v2 ) ライセンス: Link先を確認 | Seong Hoon Lim, Taejun Yun, Jinhyeon Kim, Jihun Choi, Taeuk Kim, | (参考訳) 多言語言語モデル(LM)の特定の言語とタスクのペアへの適応は、その条件に合わせたデータの可用性に大きく依存する。
言語間移動(XLT)法はこのデータ不足問題への対処に寄与しているが、その有効性の背後にあるメカニズムについては現在も議論が続いている。
本稿では,言語に依存しない,あるいはタスク固有の機能に重点を置く多言語LMを奨励する,XLTの内部動作に関する有望な仮定の1つに焦点をあてる。
我々は、XLTのパターンが、そのプロセスに関わる様々なソース言語でどのように変化するかを調べることで、この仮説を検証した。
実験の結果,マルチソース言語学習(Multi-Source Language Training (MSLT)-leads)と呼ばれるXLTにおける複数のソース言語の使用が,言語に依存しない情報の利用によるXLTのメリットを裏付けるものと考えられる。
一方,任意の組み合わせのソース言語を使用することで,性能が常に向上するとは限らないことが判明した。
提案手法は,MSLTに有効な言語の組み合わせを特定するための単純なヒューリスティックスであり,その有効性を実証的に証明するものである。
The successful adaptation of multilingual language models (LMs) to a specific language-task pair critically depends on the availability of data tailored for that condition. While cross-lingual transfer (XLT) methods have contributed to addressing this data scarcity problem, there still exists ongoing debate about the mechanisms behind their effectiveness. In this work, we focus on one of promising assumptions about inner workings of XLT, that it encourages multilingual LMs to place greater emphasis on language-agnostic or task-specific features. We test this hypothesis by examining how the patterns of XLT change with a varying number of source languages involved in the process. Our experimental findings show that the use of multiple source languages in XLT-a technique we term Multi-Source Language Training (MSLT)-leads to increased mingling of embedding spaces for different languages, supporting the claim that XLT benefits from making use of language-independent information. On the other hand, we discover that using an arbitrary combination of source languages does not always guarantee better performance. We suggest simple heuristics for identifying effective language combinations for MSLT and empirically prove its effectiveness. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# CODIS:マルチモーダル大規模言語モデルのためのコンテキスト依存ビジュアル理解のベンチマーク
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2402.13607v3 ) ライセンス: Link先を確認 | Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu, | (参考訳) マルチモーダル大規模言語モデル(MLLM)は、視覚と言語を組み合わせた様々なタスクにおいて有望な結果を示してきた。
これらのモデルが研究や応用にとってより不可欠なものになるにつれて、それらの能力の包括的な評価がますます重要になっている。
しかし、既存のベンチマークのほとんどは、ある状況において、画像がより広い文脈で解釈される必要があることを考慮していない。
本研究では,自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために,CODISと呼ばれる新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
さらなる分析により、これらのモデルが、画像の理解を改善するために文脈情報を効果的に抽出し、利用するのに苦労していることが確認される。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
プロジェクトのWebサイトはhttps://thunlp-mt.github.io/CODIS.com。
Multimodal large language models (MLLMs) have demonstrated promising results in a variety of tasks that combine vision and language. As these models become more integral to research and applications, conducting comprehensive evaluations of their capabilities has grown increasingly important. However, most existing benchmarks fail to consider that, in certain situations, images need to be interpreted within a broader context. In this work, we introduce a new benchmark, named as CODIS, designed to assess the ability of models to use context provided in free-form text to enhance visual comprehension. Our findings indicate that MLLMs consistently fall short of human performance on this benchmark. Further analysis confirms that these models struggle to effectively extract and utilize contextual information to improve their understanding of images. This underscores the pressing need to enhance the ability of MLLMs to comprehend visuals in a context-dependent manner. View our project website at https://thunlp-mt.github.io/CODIS. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# 大規模言語モデルに基づくレコメンデーションのステルス攻撃
Stealthy Attack on Large Language Model based Recommendation ( http://arxiv.org/abs/2402.14836v2 ) ライセンス: Link先を確認 | Jinghao Zhang, Yuting Liu, Qiang Liu, Shu Wu, Guibing Guo, Liang Wang, | (参考訳) 近年,強力な大規模言語モデル (LLM) がレコメンダシステム (RS) の進展に寄与している。
しかし、これらのシステムは繁栄しているが、セキュリティの脅威に対する感受性はほとんど見過ごされてしまっている。
本研究では,レコメンデーションモデルにLSMを導入することで,項目のテキスト内容に重点を置いているため,新たなセキュリティ脆弱性が生じることを明らかにした。
攻撃者は、モデルのトレーニングプロセスに直接干渉することなく、テストフェーズ中にテキストの内容を変更するだけで、アイテムの露出を著しく向上させることができることを実証する。
さらにこの攻撃は、全体的なレコメンデーションパフォーマンスに影響を与えず、テキストの変更は微妙であり、ユーザやプラットフォームが検出しにくくなるため、特にステルス性が高い。
4つの主要なLCMベースレコメンデーションモデルに対する総合的な実験は、我々のアプローチの優れた有効性とステルス性を示している。
我々の研究は、LLMベースのレコメンデーションシステムにおいて重大なセキュリティギャップを明らかにし、これらのシステムを保護するための将来の研究の道を開く。
Recently, the powerful large language models (LLMs) have been instrumental in propelling the progress of recommender systems (RS). However, while these systems have flourished, their susceptibility to security threats has been largely overlooked. In this work, we reveal that the introduction of LLMs into recommendation models presents new security vulnerabilities due to their emphasis on the textual content of items. We demonstrate that attackers can significantly boost an item's exposure by merely altering its textual content during the testing phase, without requiring direct interference with the model's training process. Additionally, the attack is notably stealthy, as it does not affect the overall recommendation performance and the modifications to the text are subtle, making it difficult for users and platforms to detect. Our comprehensive experiments across four mainstream LLM-based recommendation models demonstrate the superior efficacy and stealthiness of our approach. Our work unveils a significant security gap in LLM-based recommendation systems and paves the way for future research on protecting these systems. | 翻訳日:2024-06-07 01:11:46 公開日:2024-06-05 |
# 接地真理のない大規模言語モデルのランク付け
Ranking Large Language Models without Ground Truth ( http://arxiv.org/abs/2402.14860v3 ) ライセンス: Link先を確認 | Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly, Karthikeyan Natesan Ramamurthy, | (参考訳) 大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及とその影響において重要な問題となっている。
評価手法は、取得に費用がかかる人間の反応を必要とするか、信頼性の低いLLMを互いに評価するために使用するかのいずれかである。
本稿では,質問文や指示文など)のデータセットとLLMのセットを与えられた場合,根拠となる真実や参照応答にアクセスできることなく,それらをランク付けする,新しい視点を提供する。
専門家と知識のある人の両方が初心者を識別できる現実の生活に触発された私たちの主要なアイデアは、モデルの三つ子を考えることであり、それぞれが他の2つを評価し、三つ子の中で最悪のモデルを高い確率で正しく識別する。
また、私たちの考えを分析し、成功するための十分な条件を提供します。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
異なる生成タスク(要約、複数選択、ダイアログ)の実験では、参照データなしで真のランキングに近い位置を確実に回復する。
これは、実用のために実行可能な低リソースメカニズムを示している。
Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# ダブルIウォーターマーク : LLMファインチューニングのためのモデル著作権保護
Double-I Watermark: Protecting Model Copyright for LLM Fine-tuning ( http://arxiv.org/abs/2402.14883v3 ) ライセンス: Link先を確認 | Shen Li, Liuyi Yao, Jinyang Gao, Lan Zhang, Yaliang Li, | (参考訳) さまざまなアプリケーションをサポートするために、ビジネスオーナーにとって一般的で効率的なアプローチは、LLMオーナやクラウドサーバが提供するAPIを通じて、トレーニング済みのLLMを微調整するための貴重なデータセットを活用している。
しかし、このプロセスはモデル誤用のかなりのリスクを伴い、ビジネスオーナーに深刻な経済的影響をもたらす可能性がある。
したがって、LLM微調整中にこれらのカスタマイズされたモデルの著作権を保護することは、緊急の現実的な要件となっているが、そのような保護を提供するための既存のソリューションは限られている。
このプレス問題に対処するため、「ダブルI透かし」と呼ばれる新しい透かし手法を提案する。
具体的には、インストラクションチューニングデータに基づいて、2種類のバックドアデータパラダイムを導入し、それぞれインストラクションと入力をトリガーとする。
LLMの学習機能を活用して、データセットにカスタマイズされたバックドアサンプルを組み込むことにより、細調整中に特定の透かし情報をカスタマイズされたモデルに効果的に注入することで、商業シナリオにおける透かしの注入と検証が容易になる。
提案手法を各種微調整法で評価し, その無害性, 頑健性, 独特性, 不受容性, 妥当性を定量的および定性的な分析により検証した。
To support various applications, a prevalent and efficient approach for business owners is leveraging their valuable datasets to fine-tune a pre-trained LLM through the API provided by LLM owners or cloud servers. However, this process carries a substantial risk of model misuse, potentially resulting in severe economic consequences for business owners. Thus, safeguarding the copyright of these customized models during LLM fine-tuning has become an urgent practical requirement, but there are limited existing solutions to provide such protection. To tackle this pressing issue, we propose a novel watermarking approach named ``Double-I watermark''. Specifically, based on the instruct-tuning data, two types of backdoor data paradigms are introduced with trigger in the instruction and the input, respectively. By leveraging LLM's learning capability to incorporate customized backdoor samples into the dataset, the proposed approach effectively injects specific watermarking information into the customized model during fine-tuning, which makes it easy to inject and verify watermarks in commercial scenarios. We evaluate the proposed "Double-I watermark" under various fine-tuning methods, demonstrating its harmlessness, robustness, uniqueness, imperceptibility, and validity through both quantitative and qualitative analyses. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# シャープネスを意識した最小化と対人訓練の両立について
On the Duality Between Sharpness-Aware Minimization and Adversarial Training ( http://arxiv.org/abs/2402.15152v2 ) ライセンス: Link先を確認 | Yihao Zhang, Hangzhou He, Jingyu Zhu, Huanran Chen, Yifei Wang, Zeming Wei, | (参考訳) 逆行訓練(AT)は、訓練中に入力サンプルを逆行的に摂動させ、敵の攻撃に対する最も効果的な防御の1つとして認識されているが、必然的にクリーンな精度が低下している。
サンプルを摂動する代わりに、Sharpness-Aware Minimization (SAM) はトレーニング中にモデルの重量を摂動させ、より平坦な損失ランドスケープを見つけ、一般化を改善する。
しかし、SAMはより清潔な精度で設計されているため、敵の堅牢性を高める効果は未解明のままである。
本研究では,SAM と AT の双対性を考慮し,SAM から得られる対角的強靭性について検討する。
興味深いことに、SAMのみを使用することで、敵の堅牢性を向上させることができる。
このSAMの予期せぬ性質を理解するために、まずSAMがより頑健な特徴を暗黙的に学習する方法に関する経験的および理論的知見を提供し、SAMが特にクリーンな精度を犠牲にすることなく敵の堅牢性を向上できることを示す包括的な実験を行い、精度の高いATに代わるSAMの可能性に光を当てる。
コードはhttps://github.com/weizeming/SAM_AT.comで入手できる。
Adversarial Training (AT), which adversarially perturb the input samples during training, has been acknowledged as one of the most effective defenses against adversarial attacks, yet suffers from inevitably decreased clean accuracy. Instead of perturbing the samples, Sharpness-Aware Minimization (SAM) perturbs the model weights during training to find a more flat loss landscape and improve generalization. However, as SAM is designed for better clean accuracy, its effectiveness in enhancing adversarial robustness remains unexplored. In this work, considering the duality between SAM and AT, we investigate the adversarial robustness derived from SAM. Intriguingly, we find that using SAM alone can improve adversarial robustness. To understand this unexpected property of SAM, we first provide empirical and theoretical insights into how SAM can implicitly learn more robust features, and conduct comprehensive experiments to show that SAM can improve adversarial robustness notably without sacrificing any clean accuracy, shedding light on the potential of SAM to be a substitute for AT when accuracy comes at a higher priority. Code is available at https://github.com/weizeming/SAM_AT. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# LLMを用いた概念空間次元のランク付け:微調整戦略の解析
Ranking Entities along Conceptual Space Dimensions with LLMs: An Analysis of Fine-Tuning Strategies ( http://arxiv.org/abs/2402.15337v2 ) ライセンス: Link先を確認 | Nitesh Kumar, Usashi Chatterjee, Steven Schockaert, | (参考訳) 概念空間は、それらの原始的な意味的特徴の観点でエンティティを表現する。
このような表現は非常に貴重であるが、特に知覚的特徴や主観的特徴をモデル化する場合には、学習が困難であることが知られている。
概念空間をLLM(Large Language Models)から拡張することは,近年,有望な戦略として浮上しているが,既存の作業は,比較的単純なゼロショット戦略を用いて,事前学習されたLLMの探索に限られている。
我々は特に、与えられた概念空間次元に応じてエンティティをランク付けするタスクに焦点をあてる。
残念なことに、概念空間次元の基底真理ランキングは稀であるため、このタスクでは直接微調整はできない。
したがって、より容易に利用できる機能をトレーニングデータとして使用し、結果のモデルのランキング能力が知覚的および主観的特徴に移行するかどうかを分析する。
しかし、トレーニングデータに少なくともいくつかの知覚的、主観的特徴を持つことは、最高の結果を達成するのに不可欠である。
Conceptual spaces represent entities in terms of their primitive semantic features. Such representations are highly valuable but they are notoriously difficult to learn, especially when it comes to modelling perceptual and subjective features. Distilling conceptual spaces from Large Language Models (LLMs) has recently emerged as a promising strategy, but existing work has been limited to probing pre-trained LLMs using relatively simple zero-shot strategies. We focus in particular on the task of ranking entities according to a given conceptual space dimension. Unfortunately, we cannot directly fine-tune LLMs on this task, because ground truth rankings for conceptual space dimensions are rare. We therefore use more readily available features as training data and analyse whether the ranking capabilities of the resulting models transfer to perceptual and subjective features. We find that this is indeed the case, to some extent, but having at least some perceptual and subjective features in the training data seems essential for achieving the best results. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# 非線形変換器は文脈内学習においてどのように学習し、一般化するか?
How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? ( http://arxiv.org/abs/2402.15607v2 ) ライセンス: Link先を確認 | Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen, | (参考訳) トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルがそのタスクから入力出力の例でクエリを増大させるだけで、微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が目覚ましい。
実証的な成功にもかかわらず、トランスフォーマーをトレーニングしてICLとそれに対応するICL能力を達成するメカニズムは、トランスフォーマーの非線形自己注意と非線形活性化に起因する非凸トレーニング問題を解析する技術的な課題により、ほとんど解明されている。
本稿では,非線形自己アテンションと非線形MLPを用いたトランスフォーマーのトレーニング力学の理論的解析と,結果モデルのICL一般化能力について述べる。
バイナリ分類タスクのグループに着目し,これらのタスクのサブセットからのデータを用いてトランスフォーマーを訓練し,各要素のICL一般化性能への影響を,データ分散シフトの有無に関わらず,残りの未確認タスクに与える影響を定量化する。
また、学習したトランスフォーマーの異なるコンポーネントがICLのパフォーマンスにどのように貢献するかを分析する。
さらに、モデルプルーニングがICL性能にどのように影響するかを初めて理論的に分析し、適切な等級ベースのプルーニングが推論コストを低減しつつ、ICLに最小限の影響を与えることを証明した。
これらの理論的発見は数値実験によって正当化される。
Transformer-based large language models have displayed impressive in-context learning capabilities, where a pre-trained model can handle new tasks without fine-tuning by simply augmenting the query with some input-output examples from that task. Despite the empirical success, the mechanics of how to train a Transformer to achieve ICL and the corresponding ICL capacity is mostly elusive due to the technical challenges of analyzing the nonconvex training problems resulting from the nonlinear self-attention and nonlinear activation in Transformers. To the best of our knowledge, this paper provides the first theoretical analysis of the training dynamics of Transformers with nonlinear self-attention and nonlinear MLP, together with the ICL generalization capability of the resulting model. Focusing on a group of binary classification tasks, we train Transformers using data from a subset of these tasks and quantify the impact of various factors on the ICL generalization performance on the remaining unseen tasks with and without data distribution shifts. We also analyze how different components in the learned Transformers contribute to the ICL performance. Furthermore, we provide the first theoretical analysis of how model pruning affects ICL performance and prove that proper magnitude-based pruning can have a minimal impact on ICL while reducing inference costs. These theoretical findings are justified through numerical experiments. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# 熱力学的可逆量子計測と関連する作業コスト
Thermodynamically reversible quantum measurements and related work costs ( http://arxiv.org/abs/2402.16037v2 ) ライセンス: Link先を確認 | Camille L Latune, Cyril Elouard, | (参考訳) 熱浴に結合した測定装置を含む量子測定の一般的な顕微鏡モデルを考えると、システムと装置の結合のオンオフ過程、統計混合物への移行、古典的な読み出し、装置リセットなど、量子測定の実現に必要なエネルギー資源を解析する。
一般的な熱力学の議論を通して、必要最小限の作業は、測定されるシステムのエネルギー変動と、測定の性能を特徴づける情報理論量、すなわち効率と完全性に依存することを示した。
さらに、明示的なプロトコルを提供することで、熱力学的に可逆な測定が可能であり、最小限の作業費に到達できることを示す。
最後に、有限時間測定プロトコルについて、有限時間熱力学過程に固有のエントロピー生成の増大による作業コストの増加について説明する。
これは、測定の効率と作業コストの間のトレードオフに加えて、測定の速度と作業コストの間のトレードオフが増大していることを強調します。
Considering a general microscopic model for quantum measurement comprising a measurement apparatus coupled to a thermal bath, we analyze the energetic resources necessary for the realisation of quantum measurements, including the process of switching on and off the coupling between the system and the apparatus, the transition to a statistical mixture, the classical readout, and the apparatus resetting. We show via general thermodynamic arguments that the minimal required work depends on the energy variation of the system being measured plus information-theoretic quantities characterizing the performance of the measurement -- efficiency and completeness. Additionally, providing an explicit protocol, we show that it is possible to perform thermodynamically reversible measurement, thus reaching the minimal work expenditure. Finally, for finite-time measurement protocols, we illustrate the increasing work cost induced by rising entropy production inherent of finite-time thermodynamic processes. This highlights an emerging trade-off between velocity of the measurement and work cost, on top of a trade-off between efficiency of the measurement and work cost. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# RetrievalQA: 短期オープンドメイン質問応答に対する適応型検索拡張生成の評価
RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering ( http://arxiv.org/abs/2402.16457v2 ) ライセンス: Link先を確認 | Zihan Zhang, Meng Fang, Ling Chen, | (参考訳) Adaptive Search-augmented Generation (ARAG) は、ソース情報の効率性と関連性を高めるために、無差別に検索する代わりに、クエリに対する検索の必要性を動的に決定することを目的としている。
しかし、従来の研究はARAGアプローチの評価を概ね見落としており、その効果が検討されている。
この研究は、新しい世界とロングテール知識をカバーする1,271の短い形式の質問を含む、RetrievalQAというベンチマークを提示する。
質問に答えるために必要な知識は LLM から欠落しているため、外部情報は正しく答えるために取り出さなければならない。
これにより、RetrievalQAは既存のARAGメソッドを評価するのに適したテストベッドとなる。
キャリブレーションに基づく手法はしきい値調整に大きく依存しているのに対し,バニラプロンプトはLLMを誘導して信頼性の高い検索決定を行うには不十分である。
本研究は,LLMが校正や追加訓練を伴わずに検索の必要性を評価するのに役立つ,シンプルかつ効果的な方法であるTA-ARE(Time-Aware Adaptive Retrieval)を提案する。
データセットとコードはhttps://github.com/hyintell/RetrievalQAで公開される。
Adaptive retrieval-augmented generation (ARAG) aims to dynamically determine the necessity of retrieval for queries instead of retrieving indiscriminately to enhance the efficiency and relevance of the sourced information. However, previous works largely overlook the evaluation of ARAG approaches, leading to their effectiveness being understudied. This work presents a benchmark, RetrievalQA, comprising 1,271 short-form questions covering new world and long-tail knowledge. The knowledge necessary to answer the questions is absent from LLMs; therefore, external information must be retrieved to answer correctly. This makes RetrievalQA a suitable testbed to evaluate existing ARAG methods. We observe that calibration-based methods heavily rely on threshold tuning, while vanilla prompting is inadequate for guiding LLMs to make reliable retrieval decisions. Based on our findings, we propose Time-Aware Adaptive Retrieval (TA-ARE), a simple yet effective method that helps LLMs assess the necessity of retrieval without calibration or additional training. The dataset and code will be available at https://github.com/hyintell/RetrievalQA | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# 政治コンパス」か「スピニング・アロー」か? 大規模言語モデルにおける価値と意見のより意味のある評価に向けて
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models ( http://arxiv.org/abs/2402.16786v2 ) ライセンス: Link先を確認 | Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy, | (参考訳) 近年の研究では, 大規模言語モデル (LLM) の価値と意見を, 複数項目のアンケートとアンケートを用いて評価することを目指している。
この研究の多くは、現実世界のLLMアプリケーションに関する懸念から動機づけられている。
例えば、政治的バイアスのLLMは、何百万人もの人々が使っているときに社会に微妙に影響を及ぼす可能性がある。
しかし、このような現実的な懸念は、現在の評価の人工性とは対照的である。
本研究は,LLMにおける価値観と意見の制約評価パラダイムに挑戦し,より現実的な非制約評価を探求する。
ケーススタディでは、人気のある政治コンパステスト(PCT)に焦点を当てる。
体系的なレビューでは、PCTを用いた以前の作業のほとんどは、PCTの多重選択フォーマットに従わざるを得ない。
モデルが強制されない場合、その答えは、モデルがどのように強制されているかによって変わること、そして、パラフレーズの堅牢性が欠如していることを示します。
そして、より現実的なオープンエンドの回答設定において、モデルがさらに異なる回答を与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# ジョブショップスケジューリング問題の解決のための双方向グラフ注意ネットワークを用いたトポロジ表現の学習
Learning Topological Representations with Bidirectional Graph Attention Network for Solving Job Shop Scheduling Problem ( http://arxiv.org/abs/2402.17606v3 ) ライセンス: Link先を確認 | Cong Zhang, Zhiguang Cao, Yaoxin Wu, Wen Song, Jing Sun, | (参考訳) 既存の学習に基づくジョブショップスケジューリング問題(JSSP)の解法は、通常、非方向グラフに適した既製のGNNモデルを使用し、解離グラフ(DG)のリッチで有意義なトポロジ構造を無視する。
本稿では,このアテンション機構に基づく新しいGNNアーキテクチャである,トポロジ対応双方向グラフアテンションネットワーク(TBGAT)を提案し,JSSPをローカル検索フレームワークに組み込む。
具体的には、TBGATは、それぞれ前方と後方のビューからDGを埋め込み、ビューの異なるトポロジに従ってメッセージが伝播し、グラフの注意を通して集約される。
そこで本稿では,DGの前方および後方トポロジ的ソートを計算するためのメッセージパス機構に基づく新しい演算子を提案する。
さらに,TBGATはジョブ数とマシン数に線形計算の複雑さがあることを理論的および実験的に示し,本手法の実用的価値を高めた。
さらに、5つの合成データセットと7つの古典的なベンチマークに関する広範な実験により、TBGATは広い範囲のニューラルネットワークよりも大きなマージンで、新しいSOTA結果を達成することが示された。
すべてのコードとデータはhttps://github.com/zcaicaros/TBGAT.comで公開されている。
Existing learning-based methods for solving job shop scheduling problems (JSSP) usually use off-the-shelf GNN models tailored to undirected graphs and neglect the rich and meaningful topological structures of disjunctive graphs (DGs). This paper proposes the topology-aware bidirectional graph attention network (TBGAT), a novel GNN architecture based on the attention mechanism, to embed the DG for solving JSSP in a local search framework. Specifically, TBGAT embeds the DG from a forward and a backward view, respectively, where the messages are propagated by following the different topologies of the views and aggregated via graph attention. Then, we propose a novel operator based on the message-passing mechanism to calculate the forward and backward topological sorts of the DG, which are the features for characterizing the topological structures and exploited by our model. In addition, we theoretically and experimentally show that TBGAT has linear computational complexity to the number of jobs and machines, respectively, strengthening our method's practical value. Besides, extensive experiments on five synthetic datasets and seven classic benchmarks show that TBGAT achieves new SOTA results by outperforming a wide range of neural methods by a large margin. All the code and data are publicly available online at https://github.com/zcaicaros/TBGAT. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# DiffusionがDAggerと出会う: 目と手の動きの学習を超える
Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning ( http://arxiv.org/abs/2402.17768v2 ) ライセンス: Link先を確認 | Xiaoyu Zhang, Matthew Chang, Pranav Kumar, Saurabh Gupta, | (参考訳) 模倣で訓練されたポリシーの一般的な失敗モードは、テスト時に実行エラーを複雑化することである。
学習されたポリシーが専門家のデモに存在しないと宣言すると、ポリシーは失敗し、振る舞いを退化させる。
データ集合(Dataset Aggregation)あるいはDAggerアプローチは、これらの障害状態をカバーするために、単により多くのデータを収集する。
しかし、実際には高額であることが多い。
本研究では,手作業による模倣学習のコストを伴わずにDAggerの利点を享受するDiffusion Meets DAgger (DMD)を提案する。
分散状態をカバーするために新しいサンプルを集める代わりに、MDDは最近の拡散モデルを用いてこれらのサンプルを合成する。
これは、少数のデモから堅牢なパフォーマンスをもたらす。
DMDと行動クローニングのベースラインを,プッシュ,積み重ね,注ぐ,シャツハングという4つのタスクで比較した。
プッシュでは、DMDは8つの専門家によるデモンストレーションで80%の成功率を達成した。
積み重ねでは、DMDは5杯で平均92%の時間で成功し、BCでは40%である。
コーヒー豆を注ぐと、DMDは80%の時間で別のカップに転送される。
最後に、DMDは洋服ラックに掛けたシャツの90%の成功率を達成した。
A common failure mode for policies trained with imitation is compounding execution errors at test time. When the learned policy encounters states that are not present in the expert demonstrations, the policy fails, leading to degenerate behavior. The Dataset Aggregation, or DAgger approach to this problem simply collects more data to cover these failure states. However, in practice, this is often prohibitively expensive. In this work, we propose Diffusion Meets DAgger (DMD), a method to reap the benefits of DAgger without the cost for eye-in-hand imitation learning problems. Instead of collecting new samples to cover out-of-distribution states, DMD uses recent advances in diffusion models to synthesize these samples. This leads to robust performance from few demonstrations. We compare DMD against behavior cloning baseline across four tasks: pushing, stacking, pouring, and shirt hanging. In pushing, DMD achieves 80% success rate with as few as 8 expert demonstrations, where naive behavior cloning reaches only 20%. In stacking, DMD succeeds on average 92% of the time across 5 cups, versus 40% for BC. When pouring coffee beans, DMD transfers to another cup successfully 80% of the time. Finally, DMD attains 90% success rate for hanging shirt on a clothing rack. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# TruthX: 真の空間における大規模言語モデルの編集による幻覚の軽減
TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space ( http://arxiv.org/abs/2402.17811v2 ) ライセンス: Link先を確認 | Shaolei Zhang, Tian Yu, Yang Feng, | (参考訳) 大型言語モデル (LLMs) は幻覚を生じさせることがあるが、特にLLMは正しい知識を知っていながら、不合理な反応を生じさせることがある。
LLM内での真理性の活性化は、LLMの知識ポテンシャルを完全に解き放つ鍵である。
本稿では, LLMの内部表現における特徴を識別し, 編集することにより, LLMの真しさを活性化する推論時間介入手法であるTruthXを提案する。
TruthXは自動エンコーダを使用して、LLMの表現をそれぞれ意味的および真正な潜在空間にマッピングし、真正空間内の真正な編集方向を特定するために対照的な学習を適用する。
推測では、LLMの内部表現を真理空間で編集することで、TruthXはLLMの真理性を効果的に強化する。
TruthfulQAベンチマークでは,TruthXは13の高度なLCMの真偽を平均20%改善することを示した。
さらなる分析により、TruthXはLSMの内部表現の1つのベクトルのみを編集することで、真理または幻覚の応答を生成するためにLSMを制御できることが示唆された。
Large Language Models (LLMs) sometimes suffer from producing hallucinations, especially LLMs may generate untruthful responses despite knowing the correct knowledge. Activating the truthfulness within LLM is the key to fully unlocking LLM's knowledge potential. In this paper, we propose TruthX, an inference-time intervention method to activate the truthfulness of LLM by identifying and editing the features within LLM's internal representations that govern the truthfulness. TruthX employs an auto-encoder to map LLM's representations into semantic and truthful latent spaces respectively, and applies contrastive learning to identify a truthful editing direction within the truthful space. During inference, by editing LLM's internal representations in truthful space, TruthX effectively enhances the truthfulness of LLM. Experiments show that TruthX improves the truthfulness of 13 advanced LLMs by an average of 20% on TruthfulQA benchmark. Further analyses suggest that TruthX can control LLM to produce truthful or hallucinatory responses via editing only one vector in LLM's internal representations. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# 逆最適化からEMMへの可能性
From Inverse Optimization to Feasibility to ERM ( http://arxiv.org/abs/2402.17890v2 ) ライセンス: Link先を確認 | Saurabh Mishra, Anant Raj, Sharan Vaswani, | (参考訳) 逆最適化は、既知の解から未知のパラメータを推定し、輸送、電力システム、医療などの分野で広く使われている。
本研究では,未知の問題パラメータをより正確に予測するために,追加の文脈情報を利用する文脈逆最適化設定について検討する。
我々は、文脈逆線形プログラミング(CILP)に注目し、LPの非微分不可能な性質によって引き起こされる課題に対処する。
線形予測モデルでは、CILPを凸実現可能性問題に還元し、交互プロジェクションのような標準アルゴリズムを使用する。
CILPのアルゴリズムは、縮退や補間といった追加の仮定なしで理論収束を保証する。
次に、ポリアック・ロジャシエヴィチ条件を満たす滑らかな凸損失に対して、CILPを経験的リスク最小化(ERM)に削減する。
この削減により、拡張性のある一階最適化手法を用いることで、凸設定における理論的保証を維持しながら、大規模な非凸問題の解決が可能になる。
次に,提案手法の一般化性能の定量化にERMの低減法を用いる。
最後に, 実世界の合成問題に対する我々のアプローチを実験的に検証し, 既存手法と比較して性能が向上したことを示す。
Inverse optimization involves inferring unknown parameters of an optimization problem from known solutions and is widely used in fields such as transportation, power systems, and healthcare. We study the contextual inverse optimization setting that utilizes additional contextual information to better predict the unknown problem parameters. We focus on contextual inverse linear programming (CILP), addressing the challenges posed by the non-differentiable nature of LPs. For a linear prediction model, we reduce CILP to a convex feasibility problem allowing the use of standard algorithms such as alternating projections. The resulting algorithm for CILP is equipped with theoretical convergence guarantees without additional assumptions such as degeneracy or interpolation. Next, we reduce CILP to empirical risk minimization (ERM) on a smooth, convex loss that satisfies the Polyak-Lojasiewicz condition. This reduction enables the use of scalable first-order optimization methods to solve large non-convex problems while maintaining theoretical guarantees in the convex setting. Subsequently, we use the reduction to ERM to quantify the generalization performance of the proposed algorithm on previously unseen instances. Finally, we experimentally validate our approach on synthetic and real-world problems and demonstrate improved performance compared to existing methods. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# コントラスト文表現学習のより良い理解に向けて--グラディエントのための統一パラダイム
Towards Better Understanding of Contrastive Sentence Representation Learning: A Unified Paradigm for Gradient ( http://arxiv.org/abs/2402.18281v2 ) ライセンス: Link先を確認 | Mingxin Li, Richong Zhang, Zhijie Nie, | (参考訳) 文表現学習(SRL)は自然言語処理(NLP)において重要な課題であり、対照的な自己監督学習(SSL)は現在主流のアプローチである。
しかし、その顕著な効果の背景にある理由は不明である。
具体的には、対照的なSSLと非対照的なSSLの類似性を理論的観点から研究している。
このような類似性は、2つのアプローチが同等のパフォーマンスを達成するように分類タスクで検証することができる。
しかし、ランキングタスク(すなわち、SRLのセマンティックテキスト類似性(STS))では、対照的なSSLは非コントラストSSLを大きく上回っている。
まず、共通点は、STSで優れたパフォーマンスを達成するために、さまざまな対照的な損失を許容しますか?
※第二に、STSで非コントラストSSLも有効にできるか?
** Gradient Dissipation**、**Weight*、**Ratio**の3つのコンポーネントに依存します。
次に、これらのコンポーネントが最適化において果たす役割を詳細に分析し、モデル性能におけるそれらの意義を実験的に示す。
最後に、これらのコンポーネントを調整することで、STSにおいて非コントラストSSLが優れたパフォーマンスを達成することができる。
Sentence Representation Learning (SRL) is a crucial task in Natural Language Processing (NLP), where contrastive Self-Supervised Learning (SSL) is currently a mainstream approach. However, the reasons behind its remarkable effectiveness remain unclear. Specifically, many studies have investigated the similarities between contrastive and non-contrastive SSL from a theoretical perspective. Such similarities can be verified in classification tasks, where the two approaches achieve comparable performance. But in ranking tasks (i.e., Semantic Textual Similarity (STS) in SRL), contrastive SSL significantly outperforms non-contrastive SSL. Therefore, two questions arise: First, *what commonalities enable various contrastive losses to achieve superior performance in STS?* Second, *how can we make non-contrastive SSL also effective in STS?* To address these questions, we start from the perspective of gradients and discover that four effective contrastive losses can be integrated into a unified paradigm, which depends on three components: the **Gradient Dissipation**, the **Weight**, and the **Ratio**. Then, we conduct an in-depth analysis of the roles these components play in optimization and experimentally demonstrate their significance for model performance. Finally, by adjusting these components, we enable non-contrastive SSL to achieve outstanding performance in STS. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# 統一生成, 再構成, 表現: 適応型遅延符号化-復号による一般化拡散
Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding ( http://arxiv.org/abs/2402.19009v2 ) ライセンス: Link先を確認 | Guangyi Liu, Yu Wang, Zeyu Feng, Qiyu Wu, Liping Tang, Yuan Gao, Zhen Li, Shuguang Cui, Julian McAuley, Zichao Yang, Eric P. Xing, Zhiting Hu, | (参考訳) 深層生成モデルの膨大な応用は、3つのコア機能 – 新しいインスタンスの生成、インプットの再構築、コンパクト表現の学習 – に固定されている。
既存のモデルファミリ(VAE)、GAN(generative adversarial network)、自己回帰モデル(autoregressive model)、および(相対)拡散モデル(latent)拡散モデル)は、一般的に特定の機能やデータ型に優れているが、他では不足している。
汎用エンコーディング・デコード拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
重要なことは、EDDPMは、確立された拡散モデル目標とトレーニングレシピと互換性があり、エンコーダ-デコーダパラメータを拡散とともに効果的に学習することができる。
適切なエンコーダ/デコーダ(例えば、大きな言語モデル)を選択することで、EDDPMは自然に異なるデータ型に適用できる。
テキスト、タンパク質、画像に関する大規模な実験は、多様なデータやタスクを扱う柔軟性と、既存のモデルに対する強力な改善を実証している。
The vast applications of deep generative models are anchored in three core capabilities -- generating new instances, reconstructing inputs, and learning compact representations -- across various data types, such as discrete text/protein sequences and continuous images. Existing model families, like variational autoencoders (VAEs), generative adversarial networks (GANs), autoregressive models, and (latent) diffusion models, generally excel in specific capabilities and data types but fall short in others. We introduce Generalized Encoding-Decoding Diffusion Probabilistic Models (EDDPMs) which integrate the core capabilities for broad applicability and enhanced performance. EDDPMs generalize the Gaussian noising-denoising in standard diffusion by introducing parameterized encoding-decoding. Crucially, EDDPMs are compatible with the well-established diffusion model objective and training recipes, allowing effective learning of the encoder-decoder parameters jointly with diffusion. By choosing appropriate encoder/decoder (e.g., large language models), EDDPMs naturally apply to different data types. Extensive experiments on text, proteins, and images demonstrate the flexibility to handle diverse data and tasks and the strong improvement over various existing models. | 翻訳日:2024-06-07 01:01:43 公開日:2024-06-05 |
# テキスト生成による独特な知識蒸留
Differentially Private Knowledge Distillation via Synthetic Text Generation ( http://arxiv.org/abs/2403.00932v2 ) ライセンス: Link先を確認 | James Flemings, Murali Annavaram, | (参考訳) 大規模言語モデル(LLM)は多くの下流タスクで最先端のパフォーマンスを実現している。
しかし、データプライバシの緊急性が高まっているため、実践者はプライベートデータ上で差分プライバシー(DP)でLLMをトレーニングする必要がある。
同時に、LLMのパラメータサイズが指数関数的に大きくなることは、リソース制約のあるデバイスや遅延に敏感なアプリケーションにLLMをデプロイする前にモデル圧縮を必要とする。
異なるプライバシとモデル圧縮は、一般的に、目的を達成するためにユーティリティ損失をトレードオフする必要があります。
さらに、両方のスキームを同時に適用すれば、実用性劣化を複雑にすることができる。
そこで本研究では,差分私的知識蒸留アルゴリズムであるDistilDPを提案する。
教師のLSMの知識は、合成データ自体からハードラベル、ソフトラベルから評価された教師の出力分布によって2つの方法で学生に伝達される。
さらに,教師と生徒が類似のアーキテクチャ構造を共有している場合,その間に隠された表現を整列させることで,知識をさらに掘り下げることができる。
我々の実験結果は、DistilDPが既存のベースラインよりも実用性を大幅に改善できることを示し、少なくとも9.0ドルのPPLがBig Patentデータセット上で、強力なプライバシパラメータである$\epsilon=2$を持つ。
これらの有望な結果は自己回帰LDMのプライバシー保護圧縮を促進する。
私たちのコードはここでアクセスできます。
Large Language models (LLMs) are achieving state-of-the-art performance in many different downstream tasks. However, the increasing urgency of data privacy puts pressure on practitioners to train LLMs with Differential Privacy (DP) on private data. Concurrently, the exponential growth in parameter size of LLMs necessitates model compression before deployment of LLMs on resource-constrained devices or latency-sensitive applications. Differential privacy and model compression generally must trade off utility loss to achieve their objectives. Moreover, simultaneously applying both schemes can compound the utility degradation. To this end, we propose DistilDP: a novel differentially private knowledge distillation algorithm that exploits synthetic data generated by a differentially private teacher LLM. The knowledge of a teacher LLM is transferred onto the student in two ways: one way from the synthetic data itself -- the hard labels, and the other way by the output distribution of the teacher evaluated on the synthetic data -- the soft labels. Furthermore, if the teacher and student share a similar architectural structure, we can further distill knowledge by aligning the hidden representations between both. Our experimental results demonstrate that DistilDP can substantially improve the utility over existing baselines, at least $9.0$ PPL on the Big Patent dataset, with strong privacy parameters, $\epsilon=2$. These promising results progress privacy-preserving compression of autoregressive LLMs. Our code can be accessed here: https://github.com/james-flemings/dp_compress. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# Pairwise Alignmentがグラフドメイン適応を改善した
Pairwise Alignment Improves Graph Domain Adaptation ( http://arxiv.org/abs/2403.01092v2 ) ライセンス: Link先を確認 | Shikun Liu, Deyu Zou, Han Zhao, Pan Li, | (参考訳) グラフベースの手法は、多くの実世界のアプリケーションにおいて相互接続されたオブジェクトに対するラベル推論のために重要であり、モデルトレーニングに使用されるグラフがテストに使用されるグラフと大きく異なる場合、しばしば一般化問題に遭遇する。
この作業は、グラフデータ上の分散シフトのユニークな複雑さに対処するため、グラフドメイン適応(GDA)に組み込まれ、相互接続されたデータポイントは、機能やラベル、特に接続パターンのシフトを経験する。
本稿では,条件構造シフト (CSS) とラベルシフト (LS) を緩和することにより,グラフ構造シフトに対処する新しい理論的手法であるペアワイズアライメント (ペアワイズアライメント) を提案する。
Pair-Alignはエッジウェイトを使用して、近隣ノード間の影響を再検討し、CSSを処理する。
提案手法は,ネットワークの領域シフトを考慮したノード分類や,粒子衝突実験におけるピーク緩和タスクなど,実世界のアプリケーションにおいて優れた性能を示す。
最初のアプリケーションでは、GDA研究のために、これまでで最大のデータセットをキュレートします。
提案手法は,既存のベンチマークデータセットにおいて高い性能を示す。
Graph-based methods, pivotal for label inference over interconnected objects in many real-world applications, often encounter generalization challenges, if the graph used for model training differs significantly from the graph used for testing. This work delves into Graph Domain Adaptation (GDA) to address the unique complexities of distribution shifts over graph data, where interconnected data points experience shifts in features, labels, and in particular, connecting patterns. We propose a novel, theoretically principled method, Pairwise Alignment (Pair-Align) to counter graph structure shift by mitigating conditional structure shift (CSS) and label shift (LS). Pair-Align uses edge weights to recalibrate the influence among neighboring nodes to handle CSS and adjusts the classification loss with label weights to handle LS. Our method demonstrates superior performance in real-world applications, including node classification with region shift in social networks, and the pileup mitigation task in particle colliding experiments. For the first application, we also curate the largest dataset by far for GDA studies. Our method shows strong performance in synthetic and other existing benchmark datasets. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# Reward Model Learning vs. Direct Policy Optimization: A Comparison Analysis of Learning from Human Preferences
Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences ( http://arxiv.org/abs/2403.01857v2 ) ライセンス: Link先を確認 | Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban, Georgios Tzannetos, Goran Radanović, Adish Singla, | (参考訳) 本稿では、人間からのフィードバック(RLHF)からの強化学習のパラダイムと、最近提案された直接選好最適化(DPO)のパラダイムを体系的に比較することにより、人間の嗜好から学ぶことのより深い理解に向けた一歩を踏み出した。
対数政策のパラメトリゼーションと線形報酬関数のクラスに注目する。
2つのパラダイムを比較するために、まずRLHFとDPOの両方が引き起こす最適度差の最小値統計境界を導出し、最適化問題を正確に解くオラクルへのアクセスを仮定する。
本稿では,2つのパラダイムの相対比較について,サンプルサイズ,政策および報酬クラス次元,正規化温度を同時に考慮し,詳細な議論を行う。
さらに、近似最適化設定まで解析を拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
次に, 地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地対地
最後に、マルコフ決定プロセス設定との比較を拡張し、その結果を正確な最適化で一般化する。
我々の知る限りでは、我々はRLHFとDPOの比較分析を初めて提供する。
In this paper, we take a step towards a deeper understanding of learning from human preferences by systematically comparing the paradigm of reinforcement learning from human feedback (RLHF) with the recently proposed paradigm of direct preference optimization (DPO). We focus our attention on the class of loglinear policy parametrization and linear reward functions. In order to compare the two paradigms, we first derive minimax statistical bounds on the suboptimality gap induced by both RLHF and DPO, assuming access to an oracle that exactly solves the optimization problems. We provide a detailed discussion on the relative comparison between the two paradigms, simultaneously taking into account the sample size, policy and reward class dimensions, and the regularization temperature. Moreover, we extend our analysis to the approximate optimization setting and derive exponentially decaying convergence rates for both RLHF and DPO. Next, we analyze the setting where the ground-truth reward is not realizable and find that, while RLHF incurs a constant additional error, DPO retains its asymptotically decaying gap by just tuning the temperature accordingly. Finally, we extend our comparison to the Markov decision process setting, where we generalize our results with exact optimization. To the best of our knowledge, we are the first to provide such a comparative analysis for RLHF and DPO. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# トポロジカルサンプル選択によるグラフ上のラベルノイズの緩和
Mitigating Label Noise on Graph via Topological Sample Selection ( http://arxiv.org/abs/2403.01942v2 ) ライセンス: Link先を確認 | Yuhao Wu, Jiangchao Yao, Xiaobo Xia, Jun Yu, Ruxin Wang, Bo Han, Tongliang Liu, | (参考訳) 慎重に注釈付けされたベンチマークの成功にもかかわらず、実世界のグラフデータが騒々しくラベル付けされている場合、既存のグラフニューラルネットワーク(GNN)の有効性は著しく損なわれる可能性がある。
従来, サンプル選択の探索は, ノイズラベルを用いた頑健な学習の有効な方法として実証されてきたが, 従来の研究はi.dデータに重点を置いており, 非idグラフデータやGNNに移行する際には, 1) トポロジカルなクラス境界付近のノードは分類に非常に有用であるが, ヒューリスティックなサンプル選択では区別できない。
2) グラフにおけるサンプル選択を促進するために, グラフトポロジ情報を考慮した指標は存在しない。
このジレンマに対処するために、トポロジ的情報を利用してグラフ内の情報的サンプル選択プロセスを促進する$\textit{Topological Sample Selection}$ (TSS)法を提案する。
提案手法は,対象のクリーン分布下での予測されるリスク上限の上限を最小化し,最先端のベースラインと比較して,提案手法の優位性を実験的に示す。
Despite the success of the carefully-annotated benchmarks, the effectiveness of existing graph neural networks (GNNs) can be considerably impaired in practice when the real-world graph data is noisily labeled. Previous explorations in sample selection have been demonstrated as an effective way for robust learning with noisy labels, however, the conventional studies focus on i.i.d data, and when moving to non-iid graph data and GNNs, two notable challenges remain: (1) nodes located near topological class boundaries are very informative for classification but cannot be successfully distinguished by the heuristic sample selection. (2) there is no available measure that considers the graph topological information to promote sample selection in a graph. To address this dilemma, we propose a $\textit{Topological Sample Selection}$ (TSS) method that boosts the informative sample selection process in a graph by utilising topological information. We theoretically prove that our procedure minimizes an upper bound of the expected risk under target clean distribution, and experimentally show the superiority of our method compared with state-of-the-art baselines. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# モークドビジョン事前学習におけるトランスフォーマーの学習方法
How Transformers Learn Diverse Attention Correlations in Masked Vision Pretraining ( http://arxiv.org/abs/2403.02233v2 ) ライセンス: Link先を確認 | Yu Huang, Zixin Wen, Yuejie Chi, Yingbin Liang, | (参考訳) マスクのないパッチからランダムにマスクされたパッチを推定するマスケリコンストラクションは、自己教師による事前トレーニングにおいて重要なアプローチとして現れている。
しかしながら、マスク付き事前学習の理論的理解は、特に変圧器の基本構造について、かなり限定的である。
本稿では,マスク付き再構成前訓練における一層変圧器の学習に関する,エンドツーエンドの理論的保証について述べる。
概念的側面では,特徴位置相関を強調させる空間構造を持つデータ分布に基づいて,マスク付き視覚前訓練目的のトランスフォーマーが,経験的に観察された局所的・多彩な注意パターンを生成するメカニズムを提示する。
技術面では、ソフトマックス・アテンションモデルにおけるトレーニングダイナミクスのエンドツーエンド特性は、入力と位置の埋め込みを同時に考慮する。
Masked reconstruction, which predicts randomly masked patches from unmasked ones, has emerged as an important approach in self-supervised pretraining. However, the theoretical understanding of masked pretraining is rather limited, especially for the foundational architecture of transformers. In this paper, to the best of our knowledge, we provide the first end-to-end theoretical guarantee of learning one-layer transformers in masked reconstruction self-supervised pretraining. On the conceptual side, we posit a mechanism of how transformers trained with masked vision pretraining objectives produce empirically observed local and diverse attention patterns, on data distributions with spatial structures that highlight feature-position correlations. On the technical side, our end-to-end characterization of training dynamics in softmax-attention models simultaneously accounts for input and position embeddings, which is developed based on a careful analysis tracking the interplay between feature-wise and position-wise attention correlations. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# 量子コンピューティング:ビジョンと課題
Quantum Computing: Vision and Challenges ( http://arxiv.org/abs/2403.02240v3 ) ライセンス: Link先を確認 | Sukhpal Singh Gill, Oktay Cetinkaya, Stefano Marrone, Daniel Claudino, David Haunschild, Leon Schlote, Huaming Wu, Carlo Ottaviani, Xiaoyuan Liu, Sree Pragna Machupalli, Kamalpreet Kaur, Priyansh Arora, Ji Liu, Ahmed Farouk, Houbing Herbert Song, Steve Uhlig, Kotagiri Ramamohanarao, | (参考訳) 量子コンピューティングの最近の発展は、絡み合い、重ね合わせ、その他の量子基本概念を用いており、従来の計算よりも大幅に処理上の利点をもたらす。
これらの量子的特徴は、従来の計算手法では解けない多くの複雑な問題を解くのに役立つ。
これらの問題には、量子力学、ロジスティクス、化学ベースの進歩、薬物設計、統計科学、持続可能なエネルギー、銀行、信頼性のある通信、量子化学工学などが含まれる。
ここ数年、量子ソフトウェアやアルゴリズムの作成、量子ハードウェアの研究が目覚ましい進歩を遂げており、量子コンピュータの実現に向けて大きく進歩している。
この分野に関する総合的な文献研究を行うことで、現状を把握し、量子コンピューティング業界で働く研究コミュニティからかなりの注意を必要とする未解決の問題を発見できるだろう。
本稿では,量子コンピューティングの理解を深めるために,この領域における現在の研究に基づく基礎とビジョンについて考察する。
本稿では,量子コンピュータハードウェアの最先端開発と量子暗号,量子ソフトウェア,高スケール性量子コンピュータの今後の進歩について論じる。
量子技術の研究と開発における多くの潜在的な課題とエキサイティングな新しいトレンドが、より広範な議論のためにこの論文で強調されている。
The recent development of quantum computing, which uses entanglement, superposition, and other quantum fundamental concepts, can provide substantial processing advantages over traditional computing. These quantum features help solve many complex problems that cannot be solved with conventional computing methods. These problems include modeling quantum mechanics, logistics, chemical-based advances, drug design, statistical science, sustainable energy, banking, reliable communication, and quantum chemical engineering. The last few years have witnessed remarkable advancements in quantum software and algorithm creation and quantum hardware research, which has significantly advanced the prospect of realizing quantum computers. It would be helpful to have comprehensive literature research on this area to grasp the current status and find outstanding problems that require considerable attention from the research community working in the quantum computing industry. To better understand quantum computing, this paper examines the foundations and vision based on current research in this area. We discuss cutting-edge developments in quantum computer hardware advancement and subsequent advances in quantum cryptography, quantum software, and high-scalability quantum computers. Many potential challenges and exciting new trends for quantum technology research and development are highlighted in this paper for a broader debate. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# Square Rootを廃止する - AdaGradの新しい効率的なスケール不変バージョン
Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad ( http://arxiv.org/abs/2403.02648v2 ) ライセンス: Link先を確認 | Sayantan Choudhury, Nazarii Tupitsa, Nicolas Loizou, Samuel Horvath, Martin Takac, Eduard Gorbunov, | (参考訳) 適応的手法は、学習率のチューニングを安価にするため、機械学習で非常に人気がある。
本稿では、よく知られたAdaGradアルゴリズムのスケール不変な適応を示す、KATEという新しい最適化アルゴリズムを提案する。
一般化線形モデルの場合のKATEのスケール不変性を証明する。
さらに、一般の滑らかな非凸問題に対して、KATE に対して$O \left(\frac{\log T}{\sqrt{T}} \right)$の収束率を確立し、AdaGrad と Adam の最もよく知られた問題と一致する。
我々はまた、KATEと他の最先端適応アルゴリズムAdamとAdaGradを比較して、さまざまな問題に関する数値実験を行った。
結果は、KATEがAdaGradを一貫して上回り、すべての考慮されたシナリオでAdamのパフォーマンスにマッチ/オーバーパスしていることを示している。
Adaptive methods are extremely popular in machine learning as they make learning rate tuning less expensive. This paper introduces a novel optimization algorithm named KATE, which presents a scale-invariant adaptation of the well-known AdaGrad algorithm. We prove the scale-invariance of KATE for the case of Generalized Linear Models. Moreover, for general smooth non-convex problems, we establish a convergence rate of $O \left(\frac{\log T}{\sqrt{T}} \right)$ for KATE, matching the best-known ones for AdaGrad and Adam. We also compare KATE to other state-of-the-art adaptive algorithms Adam and AdaGrad in numerical experiments with different problems, including complex machine learning tasks like image classification and text classification on real data. The results indicate that KATE consistently outperforms AdaGrad and matches/surpasses the performance of Adam in all considered scenarios. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# 情報フローによる相互強化効果の実証
Demonstrating Mutual Reinforcement Effect through Information Flow ( http://arxiv.org/abs/2403.02902v2 ) ライセンス: Link先を確認 | Chengguang Gan, Xuzheng He, Qinghao Zhang, Tatsunori Mori, | (参考訳) 相互強化効果(MRE)は、テキスト分類タスクにおける単語レベルとテキストレベルの分類の相乗的関係を調査する。
両分類レベルの性能は相互に向上できると仮定する。
しかし、このメカニズムは以前の研究では十分に実証されていない。
このギャップに対処するために,情報フロー解析を用いてMRE理論を観察・実証する。
6つのMREハイブリッドデータセットに対する実験により、モデルにおけるMREの存在とその影響が明らかになった。
さらに,情報フロー実験と一致した微調整実験を行った。
両方の実験の結果の収束は、MREの存在を裏付けるものである。
さらに,テキストレベルの分類ラベルの予測を促進するために,単語レベルの情報を動詞化子として活用し,学習促進のためのMREの適用を拡大した。
最終実験では、6つのデータセットのうち5つでF1スコアがベースラインをはるかに上回り、単語レベルの情報によって言語モデル全体の理解が促進されるという概念が検証された。
The Mutual Reinforcement Effect (MRE) investigates the synergistic relationship between word-level and text-level classifications in text classification tasks. It posits that the performance of both classification levels can be mutually enhanced. However, this mechanism has not been adequately demonstrated or explained in prior research. To address this gap, we employ information flow analysis to observe and substantiate the MRE theory. Our experiments on six MRE hybrid datasets revealed the presence of MRE in the model and its impact. Additionally, we conducted fine-tuning experiments, whose results were consistent with those of the information flow experiments. The convergence of findings from both experiments corroborates the existence of MRE. Furthermore, we extended the application of MRE to prompt learning, utilizing word-level information as a verbalizer to bolster the model's prediction of text-level classification labels. In our final experiment, the F1-score significantly surpassed the baseline in five out of six datasets, further validating the notion that word-level information enhances the language model's comprehension of the text as a whole. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# ヒューリスティックコア:事前訓練された言語モデルにおけるサブネットワークの一般化を理解する
The Heuristic Core: Understanding Subnetwork Generalization in Pretrained Language Models ( http://arxiv.org/abs/2403.03942v2 ) ライセンス: Link先を確認 | Adithya Bhaskar, Dan Friedman, Danqi Chen, | (参考訳) 事前学習された言語モデル(LM)は、異なるランダムなシードで微調整され、類似したドメイン内での性能を達成することができるが、構文一般化のテストでは異なる一般化が可能である。
本研究では,単一モデル内であっても,ドメイン内でも同様に動作するが,大きく異なる一般化を行うサブネットワークが複数存在することを示す。
これらの現象をよりよく理解するために、「競合サブネットワーク」という用語で理解できるかどうかを考察する: モデルは最初は異なるサブネットワークに対応する様々な異なるアルゴリズムを表現し、最終的に1つに収束すると一般化が起こる。
この説明は、単純なアルゴリズムタスク("grokking")の一般化を説明するために使われてきた。
競合するサブネットワークを見つける代わりに、すべてのサブネットワーク(一般化するかどうかに関わらず)が、ヒューリスティックコア(heuristic core)と呼ぶ一連のアテンションヘッドを共有することを発見した。
さらなる分析は、これらの注意の頭は訓練の初期段階に現れ、浅い、一般化しない特徴を計算していることを示している。
モデルは、より高度な特徴を計算するために「ヒューリスティック」ヘッドの出力に依存する追加のアテンションヘッドを組み込むことで一般化することを学ぶ。
本研究の結果は, 予め訓練したLMにおける構文一般化のメカニズムについて, より詳細な知見を提供するものである。
Prior work has found that pretrained language models (LMs) fine-tuned with different random seeds can achieve similar in-domain performance but generalize differently on tests of syntactic generalization. In this work, we show that, even within a single model, we can find multiple subnetworks that perform similarly in-domain, but generalize vastly differently. To better understand these phenomena, we investigate if they can be understood in terms of "competing subnetworks": the model initially represents a variety of distinct algorithms, corresponding to different subnetworks, and generalization occurs when it ultimately converges to one. This explanation has been used to account for generalization in simple algorithmic tasks ("grokking"). Instead of finding competing subnetworks, we find that all subnetworks -- whether they generalize or not -- share a set of attention heads, which we refer to as the heuristic core. Further analysis suggests that these attention heads emerge early in training and compute shallow, non-generalizing features. The model learns to generalize by incorporating additional attention heads, which depend on the outputs of the "heuristic" heads to compute higher-level features. Overall, our results offer a more detailed picture of the mechanisms for syntactic generalization in pretrained LMs. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# フォトンボース-アインシュタイン凝縮体における非線形応答とオンサガー回帰の観察
Observation of Nonlinear Response and Onsager Regression in a Photon Bose-Einstein Condensate ( http://arxiv.org/abs/2403.04705v3 ) ライセンス: Link先を確認 | Alexander Sazhin, Vladimir N. Gladilin, Andris Erglis, Göran Hellmann, Frank Vewinger, Martin Weitz, Michiel Wouters, Julian Schmitt, | (参考訳) 量子回帰定理は、2つの異なる時間における系の相関が平均値の時間応答と同じ運動方程式によって制御されていることを述べる。
このような関係は、外的「原因」による内在的微視的行動とマクロ的「効果」との形式的関係を確立することにより、物理系の研究のための強力な枠組みを提供する。
このように制御された摂動に対する応答を測定することで、例えば凝縮物質系の構造因子や物質系の他の相関関数を決定できる。
ここでは,光子ボース・アインシュタイン凝縮体中の2時間粒子数相関が,色素分子浴の急激な摂動に対する凝縮物の応答と同じダイナミクスを示すことを実験的に実証した。
これは量子気体の回帰定理を確認し、さらに、摂動が浴槽に作用し、凝縮反応のみが監視される非伝統的な形でこの関係のテストを確立する。
強い摂動に対して、我々の顕微鏡理論が平衡変動に関係している非線形緩和力学を観察し、線形応答の規則を超えた回帰定理を拡張する。
凝縮槽系の非線形性の証明は、駆動散逸性光子凝縮体の格子における新しい初等励起の研究の道を開く。
The quantum regression theorem states that the correlations of a system at two different times are governed by the same equations of motion as the temporal response of the average values. Such a relation provides a powerful framework for the investigation of physical systems by establishing a formal connection between intrinsic microscopic behaviour and a macroscopic 'effect' due to an external 'cause'. Measuring the response to a controlled perturbation in this way allows to determine, for example, structure factors in condensed matter systems as well as other correlation functions of material systems. Here we experimentally demonstrate that the two-time particle number correlations in a photon Bose-Einstein condensate inside a dye-filled microcavity exhibit the same dynamics as the response of the condensate to a sudden perturbation of the dye molecule bath. This confirms the regression theorem for a quantum gas and, moreover, establishes a test of this relation in an unconventional form where the perturbation acts on the bath and only the condensate response is monitored. For strong perturbations, we observe nonlinear relaxation dynamics which our microscopic theory relates to the equilibrium fluctuations, thereby extending the regression theorem beyond the regime of linear response. The demonstrated nonlinearity of the condensate-bath system paves the way for studies of novel elementary excitations in lattices of driven-dissipative photon condensates. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# 大規模モンテカルロシミュレーションによる1次元及び2次元ランダム逆場イジングモデルの量子臨界特性
Quantum-critical properties of the one- and two-dimensional random transverse-field Ising model from large-scale quantum Monte Carlo simulations ( http://arxiv.org/abs/2403.05223v2 ) ライセンス: Link先を確認 | C. Krämer, J. A. Koziol, A. Langheld, M. Hörmann, K. P. Schmidt, | (参考訳) 強磁性逆場イジングモデルについて, 厳密なゼロ温度スキームを用いた確率級数展開量子モンテカルロシミュレーションを用いて, 1次元および2次元で1T = 0$の焼成障害をもつモデルについて検討した。
サンプル複製法と平均ビンダー比を用いて、有限スケールスケーリングによる非バイアス臨界点だけでなく、臨界シフトと幅指数$\nu_\mathrm{s}$および$\nu_\mathrm{w}$を決定する。
さらに、臨界点における乱れ平均磁化のスケーリングを用いて、平均相関長のオーダーパラメータ臨界指数$\beta$と臨界指数$\nu_{\mathrm{av}}$を決定する。
グリフィス相の動的スケーリングは、乱相の局所感受性を測定して検討し、動的指数$z'$を抽出する。
様々な有限サイズのスケーリングプロトコルを適用することにより、等質な足場における異なるアプローチの広範かつ包括的な比較を行う。
実効的なゼロ温度シミュレーションの強調は、既存の文献におけるいくつかの矛盾を解消する。
We study the ferromagnetic transverse-field Ising model with quenched disorder at $T = 0$ in one and two dimensions by means of stochastic series expansion quantum Monte Carlo simulations using a rigorous zero-temperature scheme. Using a sample-replication method and averaged Binder ratios, we determine the critical shift and width exponents $\nu_\mathrm{s}$ and $\nu_\mathrm{w}$ as well as unbiased critical points by finite-size scaling. Further, scaling of the disorder-averaged magnetisation at the critical point is used to determine the order-parameter critical exponent $\beta$ and the critical exponent $\nu_{\mathrm{av}}$ of the average correlation length. The dynamic scaling in the Griffiths phase is investigated by measuring the local susceptibility in the disordered phase and the dynamic exponent $z'$ is extracted. By applying various finite-size scaling protocols, we provide an extensive and comprehensive comparison between the different approaches on equal footing. The emphasis on effective zero-temperature simulations resolves several inconsistencies in existing literature. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# ICPアルゴリズムのレジリエンス解析のための学習型逆アタック
Prepared for the Worst: A Learning-Based Adversarial Attack for Resilience Analysis of the ICP Algorithm ( http://arxiv.org/abs/2403.05666v2 ) ライセンス: Link先を確認 | Ziyu Zhang, Johann Laconte, Daniil Lisus, Timothy D. Barfoot, | (参考訳) 本稿では,ライダー点雲に対する深層学習に基づく攻撃により,ICPアルゴリズムのレジリエンスを評価する新しい手法を提案する。
自律ナビゲーションのような安全クリティカルなアプリケーションでは、デプロイ前にアルゴリズムのレジリエンスを確保することが最も重要です。
ICPアルゴリズムはライダーベースのローカライゼーションの標準となっている。
しかし、それが生み出すポーズ推定は、測定の腐敗によって大きく影響を受ける可能性がある。
破損は、センサーの閉塞、悪天候、機械的な問題など様々なシナリオから生じることがある。
残念ながら、ICPの複雑で反復的な性質は、破壊に対するレジリエンスを評価することを困難にしている。
ICPのレジリエンスを実証的に評価するために,挑戦的なデータセットの作成やシミュレーションの開発が試みられているが,本手法は摂動型対向攻撃を用いた最大ICPポーズ誤差の発見に重点を置いている。
提案した攻撃はICPに重大なポーズエラーを生じさせ、幅広いシナリオで88%以上の時間でベースラインを上回ります。
例として、ICPが測定結果の破損に対して特に脆弱である地図上の領域を特定するために、我々の攻撃が有効であることを示す。
This paper presents a novel method to assess the resilience of the Iterative Closest Point (ICP) algorithm via deep-learning-based attacks on lidar point clouds. For safety-critical applications such as autonomous navigation, ensuring the resilience of algorithms prior to deployments is of utmost importance. The ICP algorithm has become the standard for lidar-based localization. However, the pose estimate it produces can be greatly affected by corruption in the measurements. Corruption can arise from a variety of scenarios such as occlusions, adverse weather, or mechanical issues in the sensor. Unfortunately, the complex and iterative nature of ICP makes assessing its resilience to corruption challenging. While there have been efforts to create challenging datasets and develop simulations to evaluate the resilience of ICP empirically, our method focuses on finding the maximum possible ICP pose error using perturbation-based adversarial attacks. The proposed attack induces significant pose errors on ICP and outperforms baselines more than 88% of the time across a wide range of scenarios. As an example application, we demonstrate that our attack can be used to identify areas on a map where ICP is particularly vulnerable to corruption in the measurements. | 翻訳日:2024-06-07 00:51:07 公開日:2024-06-05 |
# 拡散モデルによる分散を考慮したデータ拡張
Distribution-Aware Data Expansion with Diffusion Models ( http://arxiv.org/abs/2403.06741v2 ) ライセンス: Link先を確認 | Haowei Zhu, Ling Yang, Jun-Hai Yong, Hongzhi Yin, Jiawei Jiang, Meng Xiao, Wentao Zhang, Bin Wang, | (参考訳) データセットのスケールと品質は、ディープモデルのパフォーマンスに大きな影響を与えます。
しかし、大規模なアノテートデータセットを取得することは、コストと時間を要する作業である。
この課題に対処するため、データセット拡張技術はデータセットを自動的に拡張し、ディープモデルの潜在能力を最大限に活用することを目的としている。
現在のデータ拡張技術には、画像変換と画像合成方法が含まれる。
変換に基づく手法は局所的な変化のみを導入し、限られた多様性をもたらす。
対照的に、合成に基づく手法は全く新しい内容を生成し、情報性を大幅に向上させる。
しかし,既存の合成法では分布偏差のリスクが伴い,分布外サンプルを用いたモデル性能が低下する可能性がある。
本稿では,分散対応拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、階層的なプロトタイプを構築し、実際のデータ分布を近似し、階層的なエネルギー誘導による拡散モデル内の潜在データポイントを最適化する。
分散一貫性のあるサンプルを生成する能力を示し、データ拡張タスクを大幅に改善する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
さらに,提案手法は既存の合成技術より一貫して優れており,広く採用されている変換に基づく拡張手法との互換性を示す。
さらに、拡張されたデータセットは、さまざまなアーキテクチャフレームワークにまたがる堅牢性を示している。
私たちのコードはhttps://github.com/haoweiz23/DistDiffで利用可能です。
The scale and quality of a dataset significantly impact the performance of deep models. However, acquiring large-scale annotated datasets is both a costly and time-consuming endeavor. To address this challenge, dataset expansion technologies aim to automatically augment datasets, unlocking the full potential of deep models. Current data expansion techniques include image transformation and image synthesis methods. Transformation-based methods introduce only local variations, leading to limited diversity. In contrast, synthesis-based methods generate entirely new content, greatly enhancing informativeness. However, existing synthesis methods carry the risk of distribution deviations, potentially degrading model performance with out-of-distribution samples. In this paper, we propose DistDiff, a training-free data expansion framework based on the distribution-aware diffusion model. DistDiff constructs hierarchical prototypes to approximate the real data distribution, optimizing latent data points within diffusion models with hierarchical energy guidance. We demonstrate its capability to generate distribution-consistent samples, significantly improving data expansion tasks. DistDiff consistently enhances accuracy across a diverse range of datasets compared to models trained solely on original data. Furthermore, our approach consistently outperforms existing synthesis-based techniques and demonstrates compatibility with widely adopted transformation-based augmentation methods. Additionally, the expanded dataset exhibits robustness across various architectural frameworks. Our code is available at https://github.com/haoweiz23/DistDiff | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# 凸メッセージパッシングアルゴリズムの固定点への収束
Convergence of Some Convex Message Passing Algorithms to a Fixed Point ( http://arxiv.org/abs/2403.07004v2 ) ライセンス: Link先を確認 | Vaclav Voracek, Tomas Werner, | (参考訳) グラフィカルモデルにおけるMAP推論問題に対する一般的なアプローチは、双対線形計画法や(ブロック-)座標降下によるラグランジュ緩和から得られる上限を最小化することである。
これは凸/収束メッセージパッシング(convex/convergent message passing)とも呼ばれる。
これらの手法の収束特性は、現時点では完全には理解されていない。
それらは、活性制約の局所的な一貫性と未知の収束率によって特徴づけられる集合に収束することが証明された。
より強い結果(先述するが証明されない)を証明し、反復はメソッドの固定点に収束する。
さらに、このアルゴリズムは $\mathcal{O}(1/\varepsilon)$ iterations で終了することを示す。
まず、これを一般のピースワイズ・アフィン凸対象に適用した座標降下のバージョンとして証明する。
次に,複数の凸メッセージパッシング手法が特別な場合であることを示す。
最後に、座標降下のわずかに異なるバージョンがサイクル可能であることを示す。
A popular approach to the MAP inference problem in graphical models is to minimize an upper bound obtained from a dual linear programming or Lagrangian relaxation by (block-)coordinate descent. This is also known as convex/convergent message passing; examples are max-sum diffusion and sequential tree-reweighted message passing (TRW-S). Convergence properties of these methods are currently not fully understood. They have been proved to converge to the set characterized by local consistency of active constraints, with unknown convergence rate; however, it was not clear if the iterates converge at all (to any point). We prove a stronger result (conjectured before but never proved): the iterates converge to a fixed point of the method. Moreover, we show that the algorithm terminates within $\mathcal{O}(1/\varepsilon)$ iterations. We first prove this for a version of coordinate descent applied to a general piecewise-affine convex objective. Then we show that several convex message passing methods are special cases of this method. Finally, we show that a slightly different version of coordinate descent can cycle. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# ハイパースペクトル画像分類のためのランダム化主成分分析
Randomized Principal Component Analysis for Hyperspectral Image Classification ( http://arxiv.org/abs/2403.09117v2 ) ライセンス: Link先を確認 | Mustafa Ustuner, | (参考訳) ハイパースペクトル画像の高次元特徴空間は、ハイパースペクトルデータセットの処理と解析に大きな課題をもたらす。
このような場合、計算複雑性を減少させるためには次元削減が必要である。
ランダムプロジェクションは、特に大きなデータセットに対して、次元の減少の新しい方法を開く。
本稿では, 支持ベクトルマシン (SVM) と光勾配ブースティングマシン (LightGBM) を用いたハイパースペクトル画像の分類のための主成分分析 (PCA) とランダム化主成分分析 (R-PCA) について検討した。
この実験では、2つの超スペクトルデータセット(インドパインズ大学とパヴィア大学)を分類するために、特徴の数は20と30に減らされた。
実験の結果、PCAは両方のデータセットでSVMのR-PCAよりも優れていたが、LightGBMでは精度が良くなった。
最も高い分類精度は、パヴィア大学とインド・パインズに固有の特徴を持つLightGBMによって0.9925と0.9639として得られた。
The high-dimensional feature space of the hyperspectral imagery poses major challenges to the processing and analysis of the hyperspectral data sets. In such a case, dimensionality reduction is necessary to decrease the computational complexity. The random projections open up new ways of dimensionality reduction, especially for large data sets. In this paper, the principal component analysis (PCA) and randomized principal component analysis (R-PCA) for the classification of hyperspectral images using support vector machines (SVM) and light gradient boosting machines (LightGBM) have been investigated. In this experimental research, the number of features was reduced to 20 and 30 for classification of two hyperspectral datasets (Indian Pines and Pavia University). The experimental results demonstrated that PCA outperformed R-PCA for SVM for both datasets, but received close accuracy values for LightGBM. The highest classification accuracies were obtained as 0.9925 and 0.9639 by LightGBM with original features for the Pavia University and Indian Pines, respectively. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# 密度関数理論ハミルトニアン予測のための自己整合性トレーニング
Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction ( http://arxiv.org/abs/2403.09560v2 ) ライセンス: Link先を確認 | He Zhang, Chang Liu, Zun Wang, Xinran Wei, Siyuan Liu, Nanning Zheng, Bin Shao, Tie-Yan Liu, | (参考訳) 密度汎関数理論における平均場ハミルトン行列の予測は、分子科学の問題を解決するために機械学習を利用するための基本的な定式化である。
しかし、その適用性はトレーニングに十分なラベル付きデータによって制限されている。
本研究では,ラベル付きデータを必要としない厳密なトレーニング手法である自己整合性トレーニングを提案する。
1) ラベルのない大量のデータに基づいてモデルをトレーニングし、データ不足の問題に対処し、一般化を促進すること、(2) 教師付きトレーニングのためのラベルを生成するためにDFTを実行するよりも効率的である。
データスカースとアウト・オブ・ディストリビューションのシナリオにおけるより優れた一般化と、DFTラベリングよりも優れた効率を実証的に示す。
これらの利点はハミルトン予想の適用性を常に大きなスケールに推し進める。
Predicting the mean-field Hamiltonian matrix in density functional theory is a fundamental formulation to leverage machine learning for solving molecular science problems. Yet, its applicability is limited by insufficient labeled data for training. In this work, we highlight that Hamiltonian prediction possesses a self-consistency principle, based on which we propose self-consistency training, an exact training method that does not require labeled data. It distinguishes the task from predicting other molecular properties by the following benefits: (1) it enables the model to be trained on a large amount of unlabeled data, hence addresses the data scarcity challenge and enhances generalization; (2) it is more efficient than running DFT to generate labels for supervised training, since it amortizes DFT calculation over a set of queries. We empirically demonstrate the better generalization in data-scarce and out-of-distribution scenarios, and the better efficiency over DFT labeling. These benefits push forward the applicability of Hamiltonian prediction to an ever-larger scale. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# AD3: Inlicit Actionは、さまざまな視覚障害を識別する世界モデルの鍵である
AD3: Implicit Action is the Key for World Models to Distinguish the Diverse Visual Distractors ( http://arxiv.org/abs/2403.09976v2 ) ライセンス: Link先を確認 | Yucen Wang, Shenghua Wan, Le Gan, Shuai Feng, De-Chuan Zhan, | (参考訳) モデルに基づく手法は、視覚制御のためのタスク非関連な割り込み器の識別に大きく貢献している。
しかし、従来の研究では、ノイズの多いバックグラウンドビデオのような異質なイントラクタに主に焦点を当てており、制御可能なエージェントによく似ている同質なイントラクタは、ほとんど探索されていないため、既存の手法には重大な課題が生じる。
この問題に対処するために,視覚的障害の暗黙的な動作を学ぶためにImplicit Action Generator (IAG)を提案するとともに,IAGが推定した動作を利用して,分離世界モデルのトレーニングを行う暗黙的な動作インフォームド・ディバース・ディトラクタ・ディスタンス・ディスタンス・ディスタンス(AD3)と呼ばれる新しいアルゴリズムを提案する。
Inlicitアクションは、タスク関連コンポーネントの識別を支援するバックグラウンドインタラプタの挙動を効果的にキャプチャし、エージェントはタスク関連状態空間内のポリシーを最適化することができる。
そこで本手法は,異種・同種両輪のトラヒックを特徴とする様々な視覚制御タスクにおいて,優れた性能を実現する。
IAGが学習した暗黙的な行動の必要不可欠な役割も実証的に検証されている。
Model-based methods have significantly contributed to distinguishing task-irrelevant distractors for visual control. However, prior research has primarily focused on heterogeneous distractors like noisy background videos, leaving homogeneous distractors that closely resemble controllable agents largely unexplored, which poses significant challenges to existing methods. To tackle this problem, we propose Implicit Action Generator (IAG) to learn the implicit actions of visual distractors, and present a new algorithm named implicit Action-informed Diverse visual Distractors Distinguisher (AD3), that leverages the action inferred by IAG to train separated world models. Implicit actions effectively capture the behavior of background distractors, aiding in distinguishing the task-irrelevant components, and the agent can optimize the policy within the task-relevant state space. Our method achieves superior performance on various visual control tasks featuring both heterogeneous and homogeneous distractors. The indispensable role of implicit actions learned by IAG is also empirically validated. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# RAFT:言語モデルをドメイン固有RAGに適用する
RAFT: Adapting Language Model to Domain Specific RAG ( http://arxiv.org/abs/2403.10131v2 ) ライセンス: Link先を確認 | Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez, | (参考訳) 大規模なテキストデータのコーパス上でのLLM(Large Language Models)の事前学習は、現在では標準パラダイムとなっている。
下流の多くのアプリケーションでこれらのLCMを使用する場合、RAGベースのプロンプティングや微調整によって、事前訓練されたモデルに新しい知識(例えば、時間クリティカルニュースやプライベートドメイン知識)を焼くことが一般的である。
しかし、そのような新しい知識を得るためのモデルのための最適な方法論は、未解決の問題である。
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を提案する。
RAFTでは、質問に答えるのに役に立たない文書を無視するようにモデルを訓練します。
RAFTは、質問に答える助けとなる関連文書から正しいシーケンスを冗長に引用することで、これを達成します。
RAFTの連鎖型応答と組み合わせることで、モデルの推論能力が向上する。
ドメイン固有のRAGでは、RAFTは、PubMed、HotpotQA、Gorillaデータセット全体にわたるモデルのパフォーマンスを一貫して改善し、事前トレーニングされたLMをドメイン内のRAGに改善するためのトレーニング後のレシピを提供する。
RAFTのコードとデモはgithub.com/ShishirPatil/gorillaでオープンソース化されている。
Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# EffiVED:テキスト指示拡散モデルによる効率的なビデオ編集
EffiVED:Efficient Video Editing via Text-instruction Diffusion Models ( http://arxiv.org/abs/2403.11568v2 ) ライセンス: Link先を確認 | Zhenghao Zhang, Zuozhuo Dai, Long Qin, Weizhi Wang, | (参考訳) 大規模なテキスト・ビデオ・モデルは目覚ましい能力を示しているが、ビデオ編集における直接の応用は、利用可能なデータセットが限られているため、依然として困難である。
現在のビデオ編集法では、拡散モデルの微調整や、高忠実度な編集を保証するための特定の反転最適化が一般的である。
本稿では,命令誘導ビデオ編集を直接サポートする効率的な拡散ベースモデルであるEffiVEDを紹介する。
これを実現するために,拡張と基本的視覚言語技術を利用して,ビデオ編集ペアを収集する2つの効率的なワークフローを提案する。
これらのワークフローは、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
実験結果から,EffiVEDは高品質な編集ビデオを生成するだけでなく,高速に実行可能であることがわかった。
最後に,データ収集手法が編集性能を大幅に向上し,ビデオ編集データの不足に対処できることを実証する。
コードはhttps://github.com/alibaba/EffiVEDにある。
Large-scale text-to-video models have shown remarkable abilities, but their direct application in video editing remains challenging due to limited available datasets. Current video editing methods commonly require per-video fine-tuning of diffusion models or specific inversion optimization to ensure high-fidelity edits. In this paper, we introduce EffiVED, an efficient diffusion-based model that directly supports instruction-guided video editing. To achieve this, we present two efficient workflows to gather video editing pairs, utilizing augmentation and fundamental vision-language techniques. These workflows transform vast image editing datasets and open-world videos into a high-quality dataset for training EffiVED. Experimental results reveal that EffiVED not only generates high-quality editing videos but also executes rapidly. Finally, we demonstrate that our data collection method significantly improves editing performance and can potentially tackle the scarcity of video editing data. Code can be found at https://github.com/alibaba/EffiVED. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# オブジェクトローカライゼーション
Few-shot Object Localization ( http://arxiv.org/abs/2403.12466v3 ) ライセンス: Link先を確認 | Yunhan Ren, Bo Li, Chengyang Zhang, Yong Zhang, Baocai Yin, | (参考訳) 既存のオブジェクトローカライゼーション手法は、モデル最適化のために大量のラベル付きデータに依存するため、特定のオブジェクトのクラスを特定するように調整されている。
しかし、多くの実世界のシナリオにおいて大量のラベル付きデータを取得することは困難であり、ローカライゼーションモデルの広範な適用を著しく制限する。
そこで本研究では,Few-Shot Object Localization (FSOL, Few-Shot Object Localization) という,限られたサンプルを用いて高精度なローカライゼーションを実現する新しいタスクを定義した。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
この分野を推し進めるために,我々は革新的な高性能ベースラインモデルを設計する。
このモデルは、デュアルパス機能拡張モジュールを統合して、サポートイメージとクエリイメージ間の形状関連と勾配差を強化するとともに、セルフクエリモジュールを使用して、特徴マップとクエリイメージの関係を探索する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
すべてのコードとデータはhttps://github.com/Ryh1218/FSOLで公開されている。
Existing object localization methods are tailored to locate specific classes of objects, relying heavily on abundant labeled data for model optimization. However, acquiring large amounts of labeled data is challenging in many real-world scenarios, significantly limiting the broader application of localization models. To bridge this research gap, this paper defines a novel task named Few-Shot Object Localization (FSOL), which aims to achieve precise localization with limited samples. This task achieves generalized object localization by leveraging a small number of labeled support samples to query the positional information of objects within corresponding images. To advance this field, we design an innovative high-performance baseline model. This model integrates a dual-path feature augmentation module to enhance shape association and gradient differences between supports and query images, alongside a self query module to explore the association between feature maps and query images. Experimental results demonstrate a significant performance improvement of our approach in the FSOL task, establishing an efficient benchmark for further research. All codes and data are available at https://github.com/Ryh1218/FSOL. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# 音声分類のための可聴マップ
Listenable Maps for Audio Classifiers ( http://arxiv.org/abs/2403.13086v2 ) ライセンス: Link先を確認 | Francesco Paissan, Mirco Ravanelli, Cem Subakan, | (参考訳) さまざまなタスクにわたるディープラーニングモデルの素晴らしいパフォーマンスにもかかわらず、その複雑さは解釈に挑戦する。
この課題は、音声信号の伝達が本質的に困難になる場合に特に顕著である。
この問題に対処するために,音声分類のためのリスナブルマップ (L-MAC) を導入し,忠実で聞きやすい解釈を生成するポストホック解釈法を提案する。
L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。
我々は、マスクアウト部分のモデル出力の確率を最小化しつつ、音声のマスクイン部分における分類器決定の信頼性を最大化する損失関数でデコーダを訓練する。
領域内および領域外データの定量的評価は、L-MACが複数の勾配およびマスキングに基づく手法よりも一貫して忠実な解釈を生成することを示す。
さらに,ユーザスタディでは,提案手法が生成した解釈を平均的に好んでいることを確認した。
Despite the impressive performance of deep learning models across diverse tasks, their complexity poses challenges for interpretation. This challenge is particularly evident for audio signals, where conveying interpretations becomes inherently difficult. To address this issue, we introduce Listenable Maps for Audio Classifiers (L-MAC), a posthoc interpretation method that generates faithful and listenable interpretations. L-MAC utilizes a decoder on top of a pretrained classifier to generate binary masks that highlight relevant portions of the input audio. We train the decoder with a loss function that maximizes the confidence of the classifier decision on the masked-in portion of the audio while minimizing the probability of model output for the masked-out portion. Quantitative evaluations on both in-domain and out-of-domain data demonstrate that L-MAC consistently produces more faithful interpretations than several gradient and masking-based methodologies. Furthermore, a user study confirms that, on average, users prefer the interpretations generated by the proposed technique. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# Cobra: 効率的な推論のためのマルチモーダル大言語モデルへのMambaの拡張
Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference ( http://arxiv.org/abs/2403.14520v3 ) ライセンス: Link先を確認 | Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang, | (参考訳) 近年,多モーダル大規模言語モデル (MLLM) の様々な分野への応用が目覚ましい成功を収めている。
しかし、多くの下流タスクの基礎モデルとして、現在のMLLMは2次計算の複雑さの少ないよく知られたトランスフォーマーネットワークで構成されている。
このような基本モデルの効率を改善するために,線形計算複雑性MLLMであるCobraを提案する。
特に、Cobraは効率的なMamba言語モデルを視覚的モダリティに統合する。
さらに,効率的なマルチモーダルマンバを作成するための様々なモーダル融合スキームを探索し,検討する。
大規模実験により,(1)コブラの線形逐次モデルにより,コブラの高速な性能が向上し,計算効率が向上した現状,例えば,LLaVA-Phi,TinyLLaVA,MobileVLM v2が得られた。
2) 視覚錯覚や空間的関係判断を克服する上で, クローズドセットの課題予測ベンチマークの結果は良好であった。
(3) 特に、Cobraはパラメータの約43%でLLaVAに匹敵するパフォーマンスを実現している。
我々は,Cobraのすべてのコードをオープンソースにし,提案手法がMLLMにおける複雑性問題の今後の研究を促進することを期待する。
プロジェクトページは、https://sites.google.com/view/cobravlm.com/com/com/cobravlm.comで公開されている。
In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# 単一温度計による2つの温度測定
Measuring two temperatures using a single thermometer ( http://arxiv.org/abs/2403.15186v2 ) ライセンス: Link先を確認 | Harshit Verma, Fabio Costa, | (参考訳) 一つの温度計で2つの温度を同時に測定することは可能か?
一般的な状況では、温度計が一度に1つの浴のみと相互作用し、相互作用によって完全な熱化がもたらされるが、温度計の最終状態が最初の浴の温度から独立しているため、これは明らかに不可能である。
本研究では,この課題が量子制御の助けを借りて実現可能であることを示す。
特に、複数の量子自由度(DoF)を持つ複合粒子を温度センサとみなし、内部のDoFと呼ばれるDoFの1つが局所的な温度に影響を受け、温度計として機能する一方、外部のDoFと呼ばれる別のDoFは量子制御される。
合成粒子中の上記DoF間の絡み合いを2温度温度測定に利用し、外部のDoFを量子的重ね合わせで調製し、内部のDoFを2つの局所温度に曝露した。
我々は、マッハ・ツェンダー型干渉計や量子チャネルの適用順序を量子的に制御できる量子スイッチで用いられる粒子を同時に2つの温度を推定できることを示す。
これらの設定のそれぞれについて,マルチパラメータClam\'er-Rao境界による推定温度のばらつきを求め,推定した2つの温度の総変動範囲に基づいてそれらの性能を比較した。
推定温度の総変動に基づいて全ての設定をベンチマークすると、quditプローブを用いた量子スイッチが他の設定より優れていることが分かる。
プローブを量子ビットに制限すると、量子スイッチはマッハ・ツェンダー型干渉計と同等に機能する。
We consider the question: Is it possible to measure two temperatures simultaneously using a single thermometer? Under common circumstances, where the thermometer can interact with only one bath at a time and the interaction leads to complete thermalization, this is clearly impossible because the final state of the thermometer would be independent of the temperature of the first bath. In this work, we show that this task can indeed be accomplished with the assistance of quantum control. In particular, we consider a composite particle with multiple quantum degrees of freedom (DoF) as a temperature sensor, where one of the DoF -- termed as internal DoF -- is susceptible to the local temperature, thereby functioning as a thermometer, whereas another DoF -- termed external DoF -- is quantum-controlled. We leverage the entanglement between the aforementioned DoF in a composite particle for two-temperature thermometry by preparing the external DoF in a quantum superposition, exposing the internal DoF to two local temperatures. We show that such a particle used in a Mach-Zehnder type interferometer, or a quantum switch -- which allows quantum control over the order of application of quantum channels -- can be used to estimate two temperatures simultaneously, thus affirming our main proposition. For each of these setups, we obtain the variance in the estimated temperatures through the multi-parameter Cram\'er-Rao bound, and compare their performances based on the range of total variance of the two temperatures estimated. On benchmarking all the setups based on the total variance of the estimated temperatures, we find that a quantum switch with a qudit probe outperforms other setups. On restricting our probe to be a qubit, we find that quantum switch performs equally well as a Mach-Zehnder type interferometer. | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# すべての注意が必要でない:マルチモーダル大言語モデルのパラメータと計算効率向上学習
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models ( http://arxiv.org/abs/2403.15226v2 ) ライセンス: Link先を確認 | Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji, | (参考訳) 本稿では,マルチモーダル大規模言語モデル(MLLM)のための新しいパラメータと計算効率のチューニング手法を提案し,その手法をEAS(Efficient Attention Skipping)と呼ぶ。
具体的には、MLLMの主な計算オーバーヘッドであるマルチヘッドアテンション(MHA)が、ダウンストリームタスクに冗長であることを明らかにする。
この観測に基づいて、EASは注意冗長性を評価し、重要でないMHAをスキップして推論を高速化する。
また,新しい情報伝達アダプタ (PIA) を提案し,EASの注意スキップとパラメータ効率の維持を実現し,フィードフォワードネットワーク (FFN) に再パラメータ化することで,遅延をゼロにする。
EASを検証するために、最近提案されたLaVINと呼ばれるMLLMと、METERと呼ばれる古典的なVL事前学習モデルに適用し、一連のベンチマークで広範な実験を行う。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
例えば、LaVIN-EASはScineceQA上で89.98\%の精度を得ることができ、推論をLaVINに2.2倍速めることができる。
In this paper, we propose a novel parameter and computation efficient tuning method for Multi-modal Large Language Models (MLLMs), termed Efficient Attention Skipping (EAS). Concretely, we first reveal that multi-head attentions (MHAs), the main computational overhead of MLLMs, are often redundant to downstream tasks. Based on this observation, EAS evaluates the attention redundancy and skips the less important MHAs to speed up inference. Besides, we also propose a novel propagation-of-information adapter (PIA) to serve the attention skipping of EAS and keep parameter efficiency, which can be further re-parameterized into feed-forward networks (FFNs) for zero-extra latency. To validate EAS, we apply it to a recently proposed MLLM called LaVIN and a classic VL pre-trained model called METER, and conduct extensive experiments on a set of benchmarks. The experiments show that EAS not only retains high performance and parameter efficiency, but also greatly speeds up inference speed. For instance, LaVIN-EAS can obtain 89.98\% accuracy on ScineceQA while speeding up inference by 2.2 times to LaVIN | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# EgoExoLearn: 実世界の手続き活動の非同期的エゴとエクソ中心の視点をブリッジするデータセット
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World ( http://arxiv.org/abs/2403.16182v2 ) ライセンス: Link先を確認 | Yifei Huang, Guo Chen, Jilan Xu, Mingfang Zhang, Lijin Yang, Baoqi Pei, Hongjie Zhang, Lu Dong, Yali Wang, Limin Wang, Yu Qiao, | (参考訳) 他人の活動を自分の視点にマッピングできることは、非常に若い頃からの基本的な人間のスキルである。
EgoExoLearnは、デモビデオによってガイドされたタスクを実行する際に、個人がエゴセントリックなビデオを記録するプロセスに続く人間のデモをエミュレートする大規模なデータセットである。
EgoExoLearnは、日常生活のシナリオや専門的な研究室で捉えた120時間にわたる、エゴセントリックでデモ的なビデオデータを含んでいる。
ビデオとともに、高品質な視線データを記録し、より詳細なマルチモーダルアノテーションを提供し、異なる視点から非同期手続きアクションをブリッジする人間の能力をモデル化するための遊び場を定式化します。
この目的のために、クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを詳細な分析とともに提示する。
EgoExoLearnは、ビューをまたいでアクションをブリッジするための重要なリソースとして機能し、現実世界で人間を観察してシームレスに学習できるAIエージェントを作るための道を開くことができると期待している。
コードとデータは、https://github.com/OpenGVLab/EgoExoLearnで参照できる。
Being able to map the activities of others into one's own point of view is one fundamental human skill even from a very early age. Taking a step toward understanding this human ability, we introduce EgoExoLearn, a large-scale dataset that emulates the human demonstration following process, in which individuals record egocentric videos as they execute tasks guided by demonstration videos. Focusing on the potential applications in daily assistance and professional support, EgoExoLearn contains egocentric and demonstration video data spanning 120 hours captured in daily life scenarios and specialized laboratories. Along with the videos we record high-quality gaze data and provide detailed multimodal annotations, formulating a playground for modeling the human ability to bridge asynchronous procedural actions from different viewpoints. To this end, we present benchmarks such as cross-view association, cross-view action planning, and cross-view referenced skill assessment, along with detailed analysis. We expect EgoExoLearn can serve as an important resource for bridging the actions across views, thus paving the way for creating AI agents capable of seamlessly learning by observing humans in the real world. Code and data can be found at: https://github.com/OpenGVLab/EgoExoLearn | 翻訳日:2024-06-07 00:40:47 公開日:2024-06-05 |
# 条件付きワッサースタイン距離とベイジアンOTフローマッチングへの応用
Conditional Wasserstein Distances with Applications in Bayesian OT Flow Matching ( http://arxiv.org/abs/2403.18705v2 ) ライセンス: Link先を確認 | Jannis Chemseddine, Paul Hagemann, Gabriele Steidl, Christian Wald, | (参考訳) 逆問題において、多くの条件生成モデルは、合同測度と学習近似との距離を最小化することにより、後続測度を近似する。
このアプローチは、クルバック-リーブラー発散の場合の後方測度間の距離も制御するが、一般には、ワッサーシュタイン距離には当てはまらない。
本稿では,後部における期待するワッサーシュタイン距離と等しい制限結合の集合を通じて,条件付きワッサーシュタイン距離を導入する。
興味深いことに、条件付きワッサーシュタイン 1 流の二重定式化は条件付きワッサースタイン GAN 文学における損失に非常に自然な方法で類似している。
我々は条件付きワッサーシュタイン距離の理論的性質を導出し、対応する測地線と速度場と流れのODEを特徴づける。
その後、条件付きワッサーシュタイン距離を緩和することにより速度場を近似する。
これに基づいて,ベイズ逆問題の解法としてOTフローマッチングの拡張を提案し,その逆問題とクラス条件画像生成における数値的優位性を示す。
In inverse problems, many conditional generative models approximate the posterior measure by minimizing a distance between the joint measure and its learned approximation. While this approach also controls the distance between the posterior measures in the case of the Kullback--Leibler divergence, this is in general not hold true for the Wasserstein distance. In this paper, we introduce a conditional Wasserstein distance via a set of restricted couplings that equals the expected Wasserstein distance of the posteriors. Interestingly, the dual formulation of the conditional Wasserstein-1 flow resembles losses in the conditional Wasserstein GAN literature in a quite natural way. We derive theoretical properties of the conditional Wasserstein distance, characterize the corresponding geodesics and velocity fields as well as the flow ODEs. Subsequently, we propose to approximate the velocity fields by relaxing the conditional Wasserstein distance. Based on this, we propose an extension of OT Flow Matching for solving Bayesian inverse problems and demonstrate its numerical advantages on an inverse problem and class-conditional image generation. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# インストラクティブ・コントラスト・デコーディングを用いた大規模視覚言語モデルにおける幻覚の緩和
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding ( http://arxiv.org/abs/2403.18715v2 ) ライセンス: Link先を確認 | Xintong Wang, Jingheng Pan, Liang Ding, Chris Biemann, | (参考訳) LVLM(Large Vision-Language Models)は、視覚入力からコンテキスト的に詳細で一貫性のある応答を生成するのに、ますます適している。
しかし,マルチモーダルな意思決定やオープンエンドジェネレーションにおけるそれらの応用は,生成したテキストが視覚内容の不正確な表現をする幻覚の顕著な頻度によって妨げられる。
そこで本研究では,LVLM推論における幻覚の低減を目的とした,命令コントラスト復号法(ICD)を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
ICDは、標準および命令障害からの分布を対比し、アライメントの不確実性を増大させ、元の分布から幻覚概念を効果的に抽出する。
識別ベンチマーク (POPE, MME) と生成ベンチマーク (LLaVa-Bench) の総合的な実験を通じて, ICDは対象レベルの幻覚と属性レベルの幻覚の両方を著しく緩和することを示した。
さらに,本手法は幻覚だけでなく,LVLMの認識能力や認識能力を著しく向上させる。
Large Vision-Language Models (LVLMs) are increasingly adept at generating contextually detailed and coherent responses from visual inputs. However, their application in multimodal decision-making and open-ended generation is hindered by a notable rate of hallucinations, where generated text inaccurately represents the visual contents. To address this issue, this paper introduces the Instruction Contrastive Decoding (ICD) method, a novel approach designed to reduce hallucinations during LVLM inference. Our method is inspired by our observation that what we call disturbance instructions significantly exacerbate hallucinations in multimodal fusion modules. ICD contrasts distributions from standard and instruction disturbance, thereby increasing alignment uncertainty and effectively subtracting hallucinated concepts from the original distribution. Through comprehensive experiments on discriminative benchmarks (POPE and MME) and a generative benchmark (LLaVa-Bench), we demonstrate that ICD significantly mitigates both object-level and attribute-level hallucinations. Moreover, our method not only addresses hallucinations but also significantly enhances the general perception and recognition capabilities of LVLMs. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# 潜在機能モジュールによる自己教師付き解釈可能なエンドツーエンド学習
Self-Supervised Interpretable End-to-End Learning via Latent Functional Modularity ( http://arxiv.org/abs/2403.18947v2 ) ライセンス: Link先を確認 | Hyunki Seong, David Hyunchul Shim, | (参考訳) 我々は,自己教師型かつ解釈可能なエンドツーエンド学習のための,関数型モジュールネットワークであるMoNetを紹介する。
MoNetは、機能的モジュラリティを遅延誘導型コントラスト損失関数で活用することにより、タスクレベルの監督を必要とせずに、潜在空間におけるタスク固有の意思決定プロセスを効率的に学習する。
さらに,本手法は,センサモレータ制御性能を損なうことなく,エンド・ツー・エンド推論の解釈可能性を高めるオンライン・ポスト・ホックな説明可能性アプローチを取り入れている。
現実世界の屋内環境では、MoNetは効果的な視覚自律ナビゲーションを示し、タスク特異性分析においてベースラインモデルを7%から28%上回っている。
さらに,知覚の正当性マップと潜時決定ベクトルのポストホック解析により,ネットワークの解釈可能性について検討する。
このことは、ロボット学習への説明可能な人工知能の取り入れに関する貴重な洞察を与え、知覚的視点と行動的視点の両方を包含する。
追加資料はhttps://sites.google.com/view/monet-lgc.comで入手できる。
We introduce MoNet, a novel functionally modular network for self-supervised and interpretable end-to-end learning. By leveraging its functional modularity with a latent-guided contrastive loss function, MoNet efficiently learns task-specific decision-making processes in latent space without requiring task-level supervision. Moreover, our method incorporates an online, post-hoc explainability approach that enhances the interpretability of end-to-end inferences without compromising sensorimotor control performance. In real-world indoor environments, MoNet demonstrates effective visual autonomous navigation, outperforming baseline models by 7% to 28% in task specificity analysis. We further explore the interpretability of our network through post-hoc analysis of perceptual saliency maps and latent decision vectors. This provides valuable insights into the incorporation of explainable artificial intelligence into robotic learning, encompassing both perceptual and behavioral perspectives. Supplementary materials are available at https://sites.google.com/view/monet-lgc. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# コード大言語モデルのコード比較チューニング
Code Comparison Tuning for Code Large Language Models ( http://arxiv.org/abs/2403.19121v2 ) ライセンス: Link先を確認 | Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu, | (参考訳) コード比較チューニング(Code Comparison Tuning, CCT)は,コード大言語モデル(Code LLM)の簡易かつ効果的なチューニング手法である。
具体的には、トークンレベルとシーケンスレベルの両方において、比較の概念をインストラクションチューニングに統合し、コード内のわずかなずれでもモデルを識別できるようにする。
元のコードと手動で追加したコードエラーを含む誤ったバージョンを比較するために、トークンレベルの詳細な比較にトークンレベルの優先度損失を用いる。
さらに、コードセグメントを組み合わせて、シーケンスレベルの比較のための新しいインストラクションチューニングサンプルを作成し、モデルのバグ修正機能を強化します。
HumanEvalFix ベンチマークによる実験結果から,CCT はパス@1 スコアの命令チューニングを,多種多様なコード LLM で最大 4 ポイント超えた結果が得られた。
We present Code Comparison Tuning (CCT), a simple and effective tuning method for code large language models (Code LLMs) to better handle subtle code errors. Specifically, we integrate the concept of comparison into instruction tuning, both at the token and sequence levels, enabling the model to discern even the slightest deviations in code. To compare the original code with an erroneous version containing manually added code errors, we use token-level preference loss for detailed token-level comparisons. Additionally, we combine code segments to create a new instruction tuning sample for sequence-level comparisons, enhancing the model's bug-fixing capability. Experimental results on the HumanEvalFix benchmark show that CCT surpasses instruction tuning in pass@1 scores by up to 4 points across diverse code LLMs, and extensive analysis demonstrates the effectiveness of our method. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# NeuroPrune: 大規模言語モデルのためのニューロインスパイアされたトポロジカルスパーストレーニングアルゴリズム
NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models ( http://arxiv.org/abs/2404.01306v3 ) ライセンス: Link先を確認 | Amit Dhurandhar, Tejaswini Pedapati, Ronny Luss, Soham Dan, Aurelie Lozano, Payel Das, Georgios Kollias, | (参考訳) トランスフォーマーベースの言語モデルは、様々なタスクにおける印象的なパフォーマンスのため、自然言語処理(NLP)においてユビキタスになっている。
しかし、高価なトレーニングや推論は、その適用性に重大な障害となる。
モデルアーキテクチャのさまざまなレベルにおけるスパーシリティの実施は、スケーリングと効率の問題に対処する上で有望なものとなっているが、スパーシリティがネットワークトポロジにどのように影響するかは、いまだに不一致である。
脳神経ネットワークにインスパイアされた我々は、ネットワークトポロジーのレンズを通してスパーシティアプローチを探索する。
具体的には、優先的なアタッチメントや冗長なシナプスプルーニングなどの生物学的ネットワークで見られるメカニズムを活用し、モデル非依存のスパーシリティアプローチは、性能を最適化しない唯一の目的にもかかわらず、分類(自然言語推論など)と生成(要約、機械翻訳など)の両方にまたがって、多様なNLPタスクにまたがって実行され、効率的であることを示す。
NeuroPruneは、パフォーマンスのベースラインと競合する(あるいは、時として優れている)ため、所定の間隔のトレーニング時間において最大10ドル高速になり、同時に多くのケースにおいて推論時間の測定可能な改善を示す。
Transformer-based Language Models have become ubiquitous in Natural Language Processing (NLP) due to their impressive performance on various tasks. However, expensive training as well as inference remains a significant impediment to their widespread applicability. While enforcing sparsity at various levels of the model architecture has found promise in addressing scaling and efficiency issues, there remains a disconnect between how sparsity affects network topology. Inspired by brain neuronal networks, we explore sparsity approaches through the lens of network topology. Specifically, we exploit mechanisms seen in biological networks, such as preferential attachment and redundant synapse pruning, and show that principled, model-agnostic sparsity approaches are performant and efficient across diverse NLP tasks, spanning both classification (such as natural language inference) and generation (summarization, machine translation), despite our sole objective not being optimizing performance. NeuroPrune is competitive with (or sometimes superior to) baselines on performance and can be up to $10$x faster in terms of training time for a given level of sparsity, simultaneously exhibiting measurable improvements in inference time in many cases. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# 2レベルフィードバック制御によるネットワークシステムの侵入耐性
Intrusion Tolerance for Networked Systems through Two-Level Feedback Control ( http://arxiv.org/abs/2404.01741v5 ) ライセンス: Link先を確認 | Kim Hammar, Rolf Stadler, | (参考訳) サービスレプリカを2段階最適制御問題とするシステムの侵入耐性を定式化する。
ローカルレベルではノードコントローラが侵入回復を行い、グローバルレベルではシステムコントローラが複製係数を管理する。
局所的およびグローバルな制御問題は、操作研究における古典的な問題、すなわち機械交換問題と在庫補充問題として定式化することができる。
この定式化に基づいて、侵入耐性システムのための新しい制御アーキテクチャであるTOLERANCEを設計する。
両レベルにおける最適制御戦略がしきい値構造を持ち、それらの計算に効率的なアルゴリズムを設計することを証明する。
10種類のネットワーク侵入を行うエミュレーション環境でのTOLERANCEの実装と評価を行う。
その結果、TOLERANCEは、最先端の侵入耐性システムと比較して、サービスの可用性を向上し、運用コストを低減できることがわかった。
We formulate intrusion tolerance for a system with service replicas as a two-level optimal control problem. On the local level node controllers perform intrusion recovery, and on the global level a system controller manages the replication factor. The local and global control problems can be formulated as classical problems in operations research, namely, the machine replacement problem and the inventory replenishment problem. Based on this formulation, we design TOLERANCE, a novel control architecture for intrusion-tolerant systems. We prove that the optimal control strategies on both levels have threshold structure and design efficient algorithms for computing them. We implement and evaluate TOLERANCE in an emulation environment where we run 10 types of network intrusions. The results show that TOLERANCE can improve service availability and reduce operational cost compared with state-of-the-art intrusion-tolerant systems. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# M2SA:つぶやきの知覚分析のための多モーダルおよび多言語モデル
M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets ( http://arxiv.org/abs/2404.01753v2 ) ライセンス: Link先を確認 | Gaurish Thakkar, Sherzod Hakimov, Marko Tadić, | (参考訳) 近年,多様なデータ型から学習することを目的としたマルチモーダル自然言語処理が注目されている。
しかし、多言語コンテキストにおけるマルチモーダルタスクの分析に関しては、より明確にする必要がある。
ツイートの感情分析に関する先行研究は、主に英語に重点を置いているが、本稿では、既存のテキストTwitter感情データセットを、簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換することで、このギャップに対処する。
本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。
さらに、この拡張データセットを利用してベースライン実験を行い、その結果を報告する。
特に,非モーダル・マルチモーダル構成の比較において,テキストエンコーダとしての感情調整型大言語モデルを用いることで,優れた性能が得られた。
In recent years, multimodal natural language processing, aimed at learning from diverse data types, has garnered significant attention. However, there needs to be more clarity when it comes to analysing multimodal tasks in multi-lingual contexts. While prior studies on sentiment analysis of tweets have predominantly focused on the English language, this paper addresses this gap by transforming an existing textual Twitter sentiment dataset into a multimodal format through a straightforward curation process. Our work opens up new avenues for sentiment-related research within the research community. Additionally, we conduct baseline experiments utilising this augmented dataset and report the findings. Notably, our evaluations reveal that when comparing unimodal and multimodal configurations, using a sentiment-tuned large language model as a text encoder performs exceptionally well. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# BanglaAutoKG:意味的ニューラルグラフフィルタリングによるバングラ知識グラフの自動構築
BanglaAutoKG: Automatic Bangla Knowledge Graph Construction with Semantic Neural Graph Filtering ( http://arxiv.org/abs/2404.03528v3 ) ライセンス: Link先を確認 | Azmine Toushik Wasi, Taki Hasan Rafi, Raima Islam, Dong-Kyu Chae, | (参考訳) 知識グラフ(KG)は、関連エンティティをリンクし、コンテキストに富んだ情報を提供し、効率的な情報検索と知識発見をサポートし、情報フローを極めて効果的な方法で提示するため、情報処理や推論アプリケーションにおいて必須であることが証明されている。
世界中で広く使われているにもかかわらず、バングラは包括的データセット、エンコーダ、NER(エンティティ認識)モデル、POS(part-of-speech)タグガー、レムマタイザの欠如、言語における効率的な情報処理と推論を妨げているため、KGでは比較的不足している。
ベンガルにおけるKG不足に対処し、バングラテキストからベンガルKGを自動構築できる先駆的なフレームワークであるBanglaAutoKGを提案する。
我々は多言語LLMを用いて様々な言語を理解し、エンティティと関係を普遍的に関連付ける。
翻訳辞書を用いて、英語の等価部分を識別し、事前学習されたBERTモデルから単語の特徴を抽出することにより、基礎的なKGを構築する。
雑音を低減し、単語の埋め込みをゴールに合わせるために、グラフベースの多項式フィルタを用いる。
最後に、文脈的理解を高め、不要なエッジをトリムするGNNベースのセマンティックフィルタを実装し、決定的なKGを形成する。
実験的な結果とケーススタディにより,任意のテキストから意味豊かなKGを自律的に構築できるモデルの有効性が実証された。
Knowledge Graphs (KGs) have proven essential in information processing and reasoning applications because they link related entities and give context-rich information, supporting efficient information retrieval and knowledge discovery; presenting information flow in a very effective manner. Despite being widely used globally, Bangla is relatively underrepresented in KGs due to a lack of comprehensive datasets, encoders, NER (named entity recognition) models, POS (part-of-speech) taggers, and lemmatizers, hindering efficient information processing and reasoning applications in the language. Addressing the KG scarcity in Bengali, we propose BanglaAutoKG, a pioneering framework that is able to automatically construct Bengali KGs from any Bangla text. We utilize multilingual LLMs to understand various languages and correlate entities and relations universally. By employing a translation dictionary to identify English equivalents and extracting word features from pre-trained BERT models, we construct the foundational KG. To reduce noise and align word embeddings with our goal, we employ graph-based polynomial filters. Lastly, we implement a GNN-based semantic filter, which elevates contextual understanding and trims unnecessary edges, culminating in the formation of the definitive KG. Empirical findings and case studies demonstrate the universal effectiveness of our model, capable of autonomously constructing semantically enriched KGs from any text. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# 言語モデルにおける文脈と事前知識
Context versus Prior Knowledge in Language Models ( http://arxiv.org/abs/2404.04633v2 ) ライセンス: Link先を確認 | Kevin Du, Vésteinn Snæbjarnarson, Niklas Stoehr, Jennifer C. White, Aaron Schein, Ryan Cotterell, | (参考訳) 質問に答えるために、言語モデルはしばしば、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要がある。
モデルは、トレーニングコーパスの露出が大きいため、より親しみやすいエンティティ(例えば、人、場所など)に関する質問に対する事前の知識に頼り、いくつかのコンテキストによってより容易に説得される、という仮説を立てています。
この問題を定式化するために、あるコンテキストに対するモデルの依存性と、そのエンティティに関する先行性を測定するための2つの相互情報ベースのメトリクスを提案する。
メトリクスの妥当性と信頼性を実証的にテストします。
最後に、スコアとモデルが期待するエンティティとの親和性の関係を調べ、その利点を説明するための2つのユースケースを提供します。
To answer a question, language models often need to integrate prior knowledge learned during pretraining and new information presented in context. We hypothesize that models perform this integration in a predictable way across different questions and contexts: models will rely more on prior knowledge for questions about entities (e.g., persons, places, etc.) that they are more familiar with due to higher exposure in the training corpus, and be more easily persuaded by some contexts than others. To formalize this problem, we propose two mutual information-based metrics to measure a model's dependency on a context and on its prior about an entity: first, the persuasion score of a given context represents how much a model depends on the context in its decision, and second, the susceptibility score of a given entity represents how much the model can be swayed away from its original answer distribution about an entity. We empirically test our metrics for their validity and reliability. Finally, we explore and find a relationship between the scores and the model's expected familiarity with an entity, and provide two use cases to illustrate their benefits. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ
Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v7 ) ライセンス: Link先を確認 | Juan Camilo Mejía-Fragoso, Manuel A. Florez, Rocío Bernal-Olaya, | (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。
特に興味深いのは、豊富な地熱資源を持つコロンビアである。
活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。
残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。
間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。
計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。
我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。
グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。
我々は,本モデルの予測精度が12%以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。
最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。
Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# ファウンデーションモデルのための顔特徴ガイド適応によるより一般的なビデオベースディープフェイク検出に向けて
Towards More General Video-based Deepfake Detection through Facial Feature Guided Adaptation for Foundation Model ( http://arxiv.org/abs/2404.05583v2 ) ライセンス: Link先を確認 | Yue-Hua Han, Tai-Ming Huang, Shu-Tzu Lo, Po-Han Huang, Kai-Lung Hua, Jun-Cheng Chen, | (参考訳) ディープラーニングの台頭により、生成モデルは高度に現実的な合成画像の作成を可能にし、その潜在的な誤用による課題を提示している。
ディープフェイク検出の研究は、反応が急速に進んでいるが、多くの検出手法は、新しい合成技術によって生成された未知のディープフェイクと競合している。
この一般化の課題に対処するため,下流タスクに強力なゼロショット機能を示すCLIPの画像エンコーダを用いて,内部にリッチな情報をエンコードしたファンデーションモデルを適用することにより,新しいディープフェイク検出手法を提案する。
近年のパラメータ効率のよい微調整の進歩に触発されて,ビデオクリップから空間的および時間的手がかりを抽出する,サイドネットワークベースのデコーダを提案するとともに,より堅牢で汎用的なディープフェイク検出のための重要な顔部品の特徴を含む空間的特徴を促進すべく,FCG(Facial Component Guidance)の促進を図った。
大規模なクロスデータセット評価を通じて,本手法は未知のDeepfakeサンプルを同定し,限られたトレーニングサンプルや操作タイプでも顕著な性能向上を実現している。
本モデルでは,最先端手法と比較して,AUROCの平均性能向上率が0.9\%であること,特にDFDCデータセットの4.4\%向上に寄与することが重要である。
With the rise of deep learning, generative models have enabled the creation of highly realistic synthetic images, presenting challenges due to their potential misuse. While research in Deepfake detection has grown rapidly in response, many detection methods struggle with unseen Deepfakes generated by new synthesis techniques. To address this generalisation challenge, we propose a novel Deepfake detection approach by adapting the Foundation Models with rich information encoded inside, specifically using the image encoder from CLIP which has demonstrated strong zero-shot capability for downstream tasks. Inspired by the recent advances of parameter efficient fine-tuning, we propose a novel side-network-based decoder to extract spatial and temporal cues from the given video clip, with the promotion of the Facial Component Guidance (FCG) to encourage the spatial feature to include features of key facial parts for more robust and general Deepfake detection. Through extensive cross-dataset evaluations, our approach exhibits superior effectiveness in identifying unseen Deepfake samples, achieving notable performance improvement even with limited training samples and manipulation types. Our model secures an average performance enhancement of 0.9\% AUROC in cross-dataset assessments comparing with state-of-the-art methods, especially a significant lead of achieving 4.4\% improvement on the challenging DFDC dataset. | 翻訳日:2024-06-07 00:30:45 公開日:2024-06-05 |
# Lyapunov-stable Neural Control for State and Output Feedback: a novel formulation
Lyapunov-stable Neural Control for State and Output Feedback: A Novel Formulation ( http://arxiv.org/abs/2404.07956v2 ) ライセンス: Link先を確認 | Lujie Yang, Hongkai Dai, Zhouxing Shi, Cho-Jui Hsieh, Russ Tedrake, Huan Zhang, | (参考訳) 学習ベースのニューラルネットワーク(NN)制御ポリシは、ロボット工学と制御の幅広いタスクにおいて、印象的な経験的パフォーマンスを示している。
しかし、非線形力学系を持つNNコントローラの領域トラクション(ROA)に対する形式的(リアプノフ)安定性の保証は困難であり、既存のアプローチの多くは、sums-of-squares(SOS)、mixed-integer Programming(MIP)、SMT(Satisfiability modulo theory)といった高価な解法に依存している。
本稿では、高速な経験的ファルシフィケーションと戦略的正規化を用いて、Lyapunov証明書とともにNNコントローラを学習するための新しいフレームワークを実証する。
そこで本論文では,文献で示されるよりも大きなアトラクション領域(ROA)を定義し,リアプノフ誘導体に対する従来の制限制約を洗練し,証明可能なROAのみに焦点をあてる新しい定式化を提案する。
Lyapunov条件は、拡張性のある線形有界伝搬に基づくNN検証技術を用いて、分岐とバウンドで厳密に検証されている。
このアプローチは効率的で柔軟性があり、SOS、MIP、SMTの高価なソルバに頼ることなく、GPU上で完全なトレーニングと検証の手順が加速される。
筆者らのフレームワークの柔軟性と効率性により,合成NNベースのコントローラと形式的安定性保証を備えたNNベースのオブザーバによるリアプノフ安定出力フィードバック制御を文献で初めて実証することができる。
ソースコードはhttps://github.com/Verified-Intelligence/Lyapunov_Stable_NN_Controllersにある。
Learning-based neural network (NN) control policies have shown impressive empirical performance in a wide range of tasks in robotics and control. However, formal (Lyapunov) stability guarantees over the region-of-attraction (ROA) for NN controllers with nonlinear dynamical systems are challenging to obtain, and most existing approaches rely on expensive solvers such as sums-of-squares (SOS), mixed-integer programming (MIP), or satisfiability modulo theories (SMT). In this paper, we demonstrate a new framework for learning NN controllers together with Lyapunov certificates using fast empirical falsification and strategic regularizations. We propose a novel formulation that defines a larger verifiable region-of-attraction (ROA) than shown in the literature, and refines the conventional restrictive constraints on Lyapunov derivatives to focus only on certifiable ROAs. The Lyapunov condition is rigorously verified post-hoc using branch-and-bound with scalable linear bound propagation-based NN verification techniques. The approach is efficient and flexible, and the full training and verification procedure is accelerated on GPUs without relying on expensive solvers for SOS, MIP, nor SMT. The flexibility and efficiency of our framework allow us to demonstrate Lyapunov-stable output feedback control with synthesized NN-based controllers and NN-based observers with formal stability guarantees, for the first time in literature. Source code at https://github.com/Verified-Intelligence/Lyapunov_Stable_NN_Controllers | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# ブロックワイド並列デコーディングにおけるドラフトの探索と改善
Exploring and Improving Drafts in Blockwise Parallel Decoding ( http://arxiv.org/abs/2404.09221v2 ) ライセンス: Link先を確認 | Taehyeon Kim, Ananda Theertha Suresh, Kishore Papineni, Michael Riley, Sanjiv Kumar, Adrian Benton, | (参考訳) 自己回帰言語モデルによる顕著な進歩にもかかわらず、そのポテンシャルはシーケンシャルトークン生成に固有の遅い推論速度によって妨げられることが多い。
ブロックワイド並列復号法(BPD)は,複数の将来のトークンを同時に予測することで,言語モデルの推論速度を向上させる手法として,Sternらによって提案された。
本稿では,ブロックドラフトの理解と改善に2つの方法で貢献する。
まず,複数の予測ヘッドが生成するトークン分布を解析する。
第二に、この分析を利用して、n-gramモデルとニューラル言語モデルを用いてブロックドラフトを精製することにより、BPD推論速度を改善するアルゴリズムを開発する。
実験では、改良されたブロックドラフトがブロック効率(ブロックドラフトから受け入れられたトークンの数)を、多様なデータセットで+5-21%増加させることを示した。
Despite the remarkable strides made by autoregressive language models, their potential is often hampered by the slow inference speeds inherent in sequential token generation. Blockwise parallel decoding (BPD) was proposed by Stern et al. as a method to improve inference speed of language models by simultaneously predicting multiple future tokens, termed block drafts, which are subsequently verified and conditionally accepted by the autoregressive model. This paper contributes to the understanding and improvement of block drafts in two ways. First, we analyze the token distributions produced by multiple prediction heads. Secondly, we leverage this analysis to develop algorithms to improve BPD inference speed by refining the block drafts using n-gram and neural language models. Experiments demonstrate that refined block drafts yield a +5-21% increase in block efficiency (i.e., the number of accepted tokens from the block draft) across diverse datasets. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# 生成モデルを用いた圧縮強化学習
Compressed Federated Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2404.10635v2 ) ライセンス: Link先を確認 | Ali Beikmohammadi, Sarit Khirirat, Sindri Magnússon, | (参考訳) 強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
しかし、この集約ステップは、かなりの通信コストを発生させる。
本稿では,通信効率のよいFedRL手法であるCompFedRLを提案する。
具体的には、中央サーバがローカルエージェントから圧縮された$Q$-estimatesを定期的に集約することにより、最適な$Q$-functionを学習する生成モデルセットアップを用いて、圧縮された$Q$-learningを検討する。
提案アルゴリズムの有限時間解析により, 直接圧縮と誤りフィードバック圧縮のどちらを用いても強い収束挙動を示すことにより, この2つのメカニズムの影響を初めて特徴づけた。
我々の限界は、通信コストを同時に低減しつつ、エージェント数やその他の連合ハイパーパラメータに関する解の精度の向上を示している。
我々の理論を裏付けるために、我々は、Top-K$およびSparsified-K$スペーシフィケーション作用素を考慮し、詳細な数値実験も行います。
Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# CKGConv: 継続的カーネルによる一般的なグラフの畳み込み
CKGConv: General Graph Convolution with Continuous Kernels ( http://arxiv.org/abs/2404.13604v2 ) ライセンス: Link先を確認 | Liheng Ma, Soumyasundar Pal, Yitian Zhang, Jiaming Zhou, Yingxue Zhang, Mark Coates, | (参考訳) 既存のグラフ畳み込みの定義は、空間的あるいはスペクトル的な観点からも、柔軟性がなく、統一されていない。
グラフ領域における一般畳み込み作用素の定義は、標準座標の欠如、不規則構造の存在、およびグラフ対称性の性質により困難である。
本研究では,グラフ位置符号化によって導出される疑似座標の連続関数としてカーネルをパラメータ化する,新しい一般グラフ畳み込みフレームワークを提案する。
このContinuous Kernel Graph Convolution(CKGConv)と名付けます。
理論的には、CKGConvは柔軟で表現力がある。
CKGConvは多くの既存のグラフ畳み込みを包含し、非同型グラフを区別する点においてグラフ変換器と同じくらい強力な表現性を示す。
経験的に、CKGConvベースのネットワークは、既存のグラフ畳み込みネットワークより優れており、様々なグラフデータセットで最高のグラフ変換器と互換性があることを示す。
コードとモデルはhttps://github.com/networkslab/CKGConv.comで公開されている。
The existing definitions of graph convolution, either from spatial or spectral perspectives, are inflexible and not unified. Defining a general convolution operator in the graph domain is challenging due to the lack of canonical coordinates, the presence of irregular structures, and the properties of graph symmetries. In this work, we propose a novel and general graph convolution framework by parameterizing the kernels as continuous functions of pseudo-coordinates derived via graph positional encoding. We name this Continuous Kernel Graph Convolution (CKGConv). Theoretically, we demonstrate that CKGConv is flexible and expressive. CKGConv encompasses many existing graph convolutions, and exhibits a stronger expressiveness, as powerful as graph transformers in terms of distinguishing non-isomorphic graphs. Empirically, we show that CKGConv-based Networks outperform existing graph convolutional networks and perform comparably to the best graph transformers across a variety of graph datasets. The code and models are publicly available at https://github.com/networkslab/CKGConv. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# ゼロショット高忠実度とポス制御可能なキャラクタアニメーション
Zero-shot High-fidelity and Pose-controllable Character Animation ( http://arxiv.org/abs/2404.13680v3 ) ライセンス: Link先を確認 | Bingwen Zhu, Fanyi Wang, Tianyi Lu, Peng Liu, Jingwen Su, Jinxiu Liu, Yanhao Zhang, Zuxuan Wu, Guo-Jun Qi, Yu-Gang Jiang, | (参考訳) 画像対ビデオ生成(I2V)は、高時間的コヒーレンスと視覚的忠実度を必要とする単一の画像からビデオシーケンスを作成することを目的としている。
しかし、既存のアプローチはキャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
さらに、トレーニングには大量のビデオデータが必要です。
これらの制約に対処するため,文字アニメーションのための新しいゼロショットI2VフレームワークであるPoseAnimateを提案する。
PoseAnimateには3つの重要なコンポーネントが含まれている。
1)多彩なポーズ信号をテキスト埋め込みに組み込んで、文字に依存しないコンテンツを保存し、アクションの正確なアライメントを維持するPose-Aware Control Module(PACM)。
2)DCAM(Dual Consistency Attention Module)は,時間的一貫性を高め,文字識別と複雑な背景情報を保持するモジュールである。
3) Mask-Guided Decoupling Module (MGDM) は特徴認識能力を洗練させ,文字と背景を分離することでアニメーションの忠実度を向上させる。
また、スムーズな動作遷移を保証するために、PATA(Pose Alignment Transition Algorithm)を提案する。
実験結果から,本手法は,文字の一貫性と細部忠実度の観点から,最先端のトレーニングベース手法よりも優れていることが示された。
さらに、生成されたアニメーション全体を通して、高レベルの時間的コヒーレンスを維持している。
Image-to-video (I2V) generation aims to create a video sequence from a single image, which requires high temporal coherence and visual fidelity. However, existing approaches suffer from inconsistency of character appearances and poor preservation of fine details. Moreover, they require a large amount of video data for training, which can be computationally demanding. To address these limitations, we propose PoseAnimate, a novel zero-shot I2V framework for character animation. PoseAnimate contains three key components: 1) a Pose-Aware Control Module (PACM) that incorporates diverse pose signals into text embeddings, to preserve character-independent content and maintain precise alignment of actions. 2) a Dual Consistency Attention Module (DCAM) that enhances temporal consistency and retains character identity and intricate background details. 3) a Mask-Guided Decoupling Module (MGDM) that refines distinct feature perception abilities, improving animation fidelity by decoupling the character and background. We also propose a Pose Alignment Transition Algorithm (PATA) to ensure smooth action transition. Extensive experiment results demonstrate that our approach outperforms the state-of-the-art training-based methods in terms of character consistency and detail fidelity. Moreover, it maintains a high level of temporal coherence throughout the generated animations. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# 品質多様性のためのインコンテキストAIジェネレータとしての大規模言語モデル
Large Language Models as In-context AI Generators for Quality-Diversity ( http://arxiv.org/abs/2404.15794v2 ) ライセンス: Link先を確認 | Bryan Lim, Manon Flageat, Antoine Cully, | (参考訳) QD(Quality-Diversity)アプローチは、様々なニッチにまたがる高品質なソリューションのアーカイブを見つけることができるため、オープンなプロセスを開発する上で有望な方向である。
既に多くのアプリケーションで成功したが、QDアプローチは通常、新しい候補ソリューションを生成するために1つまたは2つのソリューションの組み合わせに頼っている。
技術進化のようなオープンなプロセスで観察されるように、これらのソリューションの大きな多様性を賢明に組み合わせることで、より革新的なソリューションが生まれ、QD検索の生産性が向上する可能性がある。
本研究では、生成モデルのパターンマッチング機能を利用して、そのような効率的な解の組み合わせを実現することを提案する。
In-context QDは、事前訓練された大規模言語モデル(LLM)のコンテキスト内能力を引き出すためのテクニックのフレームワークであり、QDアーカイブから品質の異なる例をコンテキストとして、少ないショットと多ショットのプロンプトを使って興味深いソリューションを生成する。
一連の共通QDドメインに適用すると、In-context QDは、単目的最適化のために開発されたQDベースラインと類似の戦略の両方と比較して有望な結果を示す。
さらに、この結果は、パラメータサイズとアーカイブ人口サイズの複数の値にまたがるだけでなく、BBO関数と異なる特徴を持つ領域やポリシー探索の領域にも及んでいる。
最後に、QDのための有望なソリューションの創出を促進する重要なプロンプト設計の考察を強調した広範囲なアブレーションを行う。
Quality-Diversity (QD) approaches are a promising direction to develop open-ended processes as they can discover archives of high-quality solutions across diverse niches. While already successful in many applications, QD approaches usually rely on combining only one or two solutions to generate new candidate solutions. As observed in open-ended processes such as technological evolution, wisely combining large diversity of these solutions could lead to more innovative solutions and potentially boost the productivity of QD search. In this work, we propose to exploit the pattern-matching capabilities of generative models to enable such efficient solution combinations. We introduce In-context QD, a framework of techniques that aim to elicit the in-context capabilities of pre-trained Large Language Models (LLMs) to generate interesting solutions using few-shot and many-shot prompting with quality-diverse examples from the QD archive as context. Applied to a series of common QD domains, In-context QD displays promising results compared to both QD baselines and similar strategies developed for single-objective optimization. Additionally, this result holds across multiple values of parameter sizes and archive population sizes, as well as across domains with distinct characteristics from BBO functions to policy search. Finally, we perform an extensive ablation that highlights the key prompt design considerations that encourage the generation of promising solutions for QD. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# PatentGPT:知的財産のための大規模言語モデル
PatentGPT: A Large Language Model for Intellectual Property ( http://arxiv.org/abs/2404.18255v5 ) ライセンス: Link先を確認 | Zilong Bai, Ruiji Zhang, Linqing Chen, Qijun Cai, Yuan Zhong, Cong Wang, Yan Fang, Jie Fang, Jing Sun, Weikuan Wang, Lizhi Zhou, Haoran Hua, Tian Qiu, Chaochao Wang, Cheng Sun, Jianping Lu, Yixin Wang, Yubin Xia, Meng Hu, Haowen Liu, Peng Xu, Licong Xu, Fu Bian, Xiaolong Gu, Lisha Zhang, Weilei Wang, Changyang Tu, | (参考訳) 近年,大規模言語モデル (LLM) は,様々な自然言語処理タスクにまたがる例外的な性能から注目され,様々な分野に広く応用されている。
しかし、知的財産権(IP)分野における大規模言語モデルの応用は、専門知識、プライバシー保護、この分野における極端に長いテキストの処理の必要性が強いため、困難である。
本技術報告では,IP ドメインのユニークな要件を満たす,IP 指向 LLM をトレーニングするための,低コストで標準化された手順を初めて提示する。
この標準プロセスを用いて,オープンソース事前学習モデルに基づく特許GPTシリーズモデルを訓練した。
オープンソースIP指向ベンチマークMOZIPで評価することにより,提案したトレーニング手順の有効性とIPドメインにおける特許GPTモデルの専門性を示す,ドメイン固有のLCMがGPT-4を上回った。
注目すべきは、2019年の中国特許代理人資格試験において、当社のモデルはGPT-4を上回り、65のスコアと人間の専門家レベルが一致したことです。
さらに、SMoE アーキテクチャを利用する PatentGPT モデルは、IP ドメインの GPT-4 に匹敵する性能を達成し、IP ドメイン内の GPT-4 の代替として機能し、長文タスクのコストパフォーマンスを向上する。
In recent years, large language models(LLMs) have attracted significant attention due to their exceptional performance across a multitude of natural language process tasks, and have been widely applied in various fields. However, the application of large language models in the Intellectual Property (IP) domain is challenging due to the strong need for specialized knowledge, privacy protection, processing of extremely long text in this field. In this technical report, we present for the first time a low-cost, standardized procedure for training IP-oriented LLMs, meeting the unique requirements of the IP domain. Using this standard process, we have trained the PatentGPT series models based on open-source pretrained models. By evaluating them on the open-source IP-oriented benchmark MOZIP, our domain-specific LLMs outperforms GPT-4, indicating the effectiveness of the proposed training procedure and the expertise of the PatentGPT models in the IP domain. Remarkably, our model surpassed GPT-4 on the 2019 China Patent Agent Qualification Examination, scoring 65 and matching human expert levels. Additionally, the PatentGPT model, which utilizes the SMoE architecture, achieves performance comparable to that of GPT-4 in the IP domain and demonstrates a better cost-performance ratio on long-text tasks, potentially serving as an alternative to GPT-4 within the IP domain. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# ニューラルネットワークの深さを減らすためのエントロピーに基づく重要度基準
The Simpler The Better: An Entropy-Based Importance Metric To Reduce Neural Networks' Depth ( http://arxiv.org/abs/2404.18949v2 ) ライセンス: Link先を確認 | Victor Quétu, Zhu Liao, Enzo Tartaglione, | (参考訳) ディープニューラルネットワークは複雑なタスクを解くのに非常に効果的であるが、大きめの事前訓練されたモデルは、大きめのモデルの複雑さを必ずしも必要としない、一貫した単純化された下流タスクを解くためにも一般的に使用される。
成長を続けるAI環境の影響を意識して、我々は、大規模モデルによって伝達される事前知識を活用する効率戦略を提案する。
本稿では,過度にパラメータ化された深層ニューラルネットワークの深さを低減し,その計算負担を軽減するために,エントロピーをベースとした重要度mEtRic(EASIER)を利用する手法を提案する。
従来の画像分類設定における手法の有効性を評価する。
私たちのコードはhttps://github.com/VGCQ/EASIER.comから入手可能です。
While deep neural networks are highly effective at solving complex tasks, large pre-trained models are commonly employed even to solve consistently simpler downstream tasks, which do not necessarily require a large model's complexity. Motivated by the awareness of the ever-growing AI environmental impact, we propose an efficiency strategy that leverages prior knowledge transferred by large models. Simple but effective, we propose a method relying on an Entropy-bASed Importance mEtRic (EASIER) to reduce the depth of over-parametrized deep neural networks, which alleviates their computational burden. We assess the effectiveness of our method on traditional image classification setups. Our code is available at https://github.com/VGCQ/EASIER. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# 動的データセットの近似近傍探索に関する研究
Approximate Nearest Neighbour Search on Dynamic Datasets: An Investigation ( http://arxiv.org/abs/2404.19284v3 ) ライセンス: Link先を確認 | Ben Harwood, Amir Dezfouli, Iadine Chades, Conrad Sanderson, | (参考訳) 近似k-Nearest Neighbour (ANN) 法は情報マイニングや大規模高次元データセットでの機械学習支援によく用いられる。
ANN法は通常、検索の高速化に使用されるインデックス構造が異なるため、様々なリコール/実行時のトレードオフ点が生じる。
静的なデータセットを持つアプリケーションでは、ランタイム制約とデータセットプロパティを使用して、適切な操作特性を持つANNメソッドを経験的に選択することができる。
しかし、オンラインの頻繁な変更(新しいサンプルの追加など)の対象となる動的データセットを持つアプリケーションでは、どのANNメソッドが最も適しているかについては、現時点では合意が得られていない。
従来の評価手法は、インデックス構造を更新する際の計算コストや、インデックス更新の率とサイズを考慮していない。
これを解決するために、これらの考慮を考慮しつつ、2つの主要なアプリケーション(オンラインデータ収集とオンライン特徴学習)で5つの人気のあるANN手法を実証的に評価する。
100万のサンプルを持つSIFT1Mデータセットと10億のサンプルを持つDEEP1Bデータセットから派生した2つの動的データセットが使用されている。
その結果,k-d木法は,単純なベースライン探索法よりも遅いため,動的データセットには適さないことがわかった。
オンラインデータ収集において、階層ナビゲート可能な小型世界グラフ法は、幅広いリコールレートでベースラインを一貫したスピードアップを達成する。
オンライン機能学習において、スケーラブルなNearest Neighboursメソッドは75%未満のリコール率のベースラインよりも高速である。
Approximate k-Nearest Neighbour (ANN) methods are often used for mining information and aiding machine learning on large scale high-dimensional datasets. ANN methods typically differ in the index structure used for accelerating searches, resulting in various recall/runtime trade-off points. For applications with static datasets, runtime constraints and dataset properties can be used to empirically select an ANN method with suitable operating characteristics. However, for applications with dynamic datasets, which are subject to frequent online changes (like addition of new samples), there is currently no consensus as to which ANN methods are most suitable. Traditional evaluation approaches do not consider the computational costs of updating the index structure, as well as the rate and size of index updates. To address this, we empirically evaluate 5 popular ANN methods on two main applications (online data collection and online feature learning) while taking into account these considerations. Two dynamic datasets are used, derived from the SIFT1M dataset with 1 million samples and the DEEP1B dataset with 1 billion samples. The results indicate that the often used k-d trees method is not suitable on dynamic datasets as it is slower than a straightforward baseline exhaustive search method. For online data collection, the Hierarchical Navigable Small World Graphs method achieves a consistent speedup over baseline across a wide range of recall rates. For online feature learning, the Scalable Nearest Neighbours method is faster than baseline for recall rates below 75%. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# Cognate Synonym Selectionにおける主観性統合のための計算的アプローチ
Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection ( http://arxiv.org/abs/2404.19328v2 ) ライセンス: Link先を確認 | Luise Häuser, Gerhard Jäger, Alexandros Stamatakis, | (参考訳) コグネートデータを扱うには、同義語、つまり言語で同じ概念を記述する複数の単語を扱う必要がある。
言語系統学の初期において、一つの同義語のみを選択することが推奨された。
しかし、ここで示すように、計算手法の入力として使用されるバイナリ文字行列は、すべての同義語を含むデータセット全体を表現することができる。
ここでは、どのようにしてすべての同義語を含めるべきか、あるいは前科を選択すべきかどうかという疑問に対処する。
この目的のために、広く使われているRAxML-NGツールを用いて最大木推定を行い、すべての同義語を入力として使用する場合に可塑性木を生成することを示す。
さらに, 前代同義語選択は, トポロジカルに大きく異なる木を産出できることを示す。
すべての同義語を含む同義語データを表現するために、確率的二元数行列と確率的多値文字行列という、標準的な二元数行列以外の2種類の文字行列を導入する。
さらに, 推定されたRAxML-NG木がゴールド標準に最も近いキャラクタリマトリクスは, データセット依存であることを示す。
また、CLDFフォーマットで提供されるコグネートデータに対して、上記のすべてのキャラクタマトリックスタイプを生成するためのPythonインターフェースも提供しています。
Working with cognate data involves handling synonyms, that is, multiple words that describe the same concept in a language. In the early days of language phylogenetics it was recommended to select one synonym only. However, as we show here, binary character matrices, which are used as input for computational methods, do allow for representing the entire dataset including all synonyms. Here we address the question how one can and if one should include all synonyms or whether it is preferable to select synonyms a priori. To this end, we perform maximum likelihood tree inferences with the widely used RAxML-NG tool and show that it yields plausible trees when all synonyms are used as input. Furthermore, we show that a priori synonym selection can yield topologically substantially different trees and we therefore advise against doing so. To represent cognate data including all synonyms, we introduce two types of character matrices beyond the standard binary ones: probabilistic binary and probabilistic multi-valued character matrices. We further show that it is dataset-dependent for which character matrix type the inferred RAxML-NG tree is topologically closest to the gold standard. We also make available a Python interface for generating all of the above character matrix types for cognate data provided in CLDF format. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# オンライン強化学習による費用効果・エキスパートレベル臨床ノート作成のためのオープンソース大規模言語モデルの適用
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning ( http://arxiv.org/abs/2405.00715v2 ) ライセンス: Link先を確認 | Hanyin Wang, Chufan Gao, Bolun Liu, Qiping Xu, Guleid Hussein, Mohamad El Labban, Kingsley Iheasirim, Hariprasad Korsapati, Chuck Outcalt, Jimeng Sun, | (参考訳) GPT-4やGeminiのようなプロプライエタリな大規模言語モデル(LLM)は、臨床テキスト要約タスクにおいて有望な能力を示している。
しかしながら、患者のデータのプライバシに関する懸念と計算コストのため、多くの医療提供者は、外部ジェネリックLLMよりも、小さなローカルホストモデルを使うことを好む。
本研究は、オープンソースのLLaMA-213億パラメーターモデルに対する包括的ドメインおよびタスク固有の適応プロセスを示し、外来患者と医師の対話から高品質な臨床ノートを生成する。
私たちのプロセスには、継続的な事前トレーニング、教師付き微調整、AIと人間のフィードバックからの強化学習が含まれています。
我々は、教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入した。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
盲目医学読者の研究では、個々の評価の90.4%がLLaMA-Clinicが生み出したノートを「許容可能」以上の3つの基準(現実の読みやすさ、完全性、正確性)で評価している。
より挑戦的な「評価と計画」のセクションでは、LLaMA-クリニックは医師が発行したノート(4.1/5)よりも現実の即応性が高い(4.2/5)。
我々のLLaMA-Clinicモデルでは,外部ジェネリックLLMサービスに比べて4.375倍のコスト削減を実現している。
さらに, 臨床実践において, LLM に頼らず, ベストプラクティスのノートフォーマットを事前に定義することの重要性を強調し, 今後の臨床ノート生成課題の重要点を強調した。
我々は,新たに作成した総合診療録データセットと医師のフィードバックデータセットを公開し,今後の研究を奨励した。
Proprietary Large Language Models (LLMs) such as GPT-4 and Gemini have demonstrated promising capabilities in clinical text summarization tasks. However, due to patient data privacy concerns and computational costs, many healthcare providers prefer using small, locally-hosted models over external generic LLMs. This study presents a comprehensive domain- and task-specific adaptation process for the open-source LLaMA-2 13 billion parameter model, enabling it to generate high-quality clinical notes from outpatient patient-doctor dialogues. Our process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced a new approach, DistillDirect, for performing on-policy reinforcement learning with Gemini 1.0 Pro as the teacher model. Our resulting model, LLaMA-Clinic, can generate clinical notes comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as "acceptable" or higher across all three criteria: real-world readiness, completeness, and accuracy. In the more challenging "Assessment and Plan" section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness than physician-authored notes (4.1/5). Our cost analysis for inference shows that our LLaMA-Clinic model achieves a 4.375-fold cost reduction compared to an external generic LLM service. Additionally, we highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format, rather than relying on LLMs to determine this for clinical practice. We have made our newly created synthetic clinic dialogue-note dataset and the physician feedback dataset publicly available to foster future research. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# リポジトリ上の反復的ツール強化推論を用いた自然言語からのクラスレベルコード生成
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository ( http://arxiv.org/abs/2405.01573v2 ) ライセンス: Link先を確認 | Ajinkya Deshpande, Anmol Agarwal, Shashank Shet, Arun Iyer, Aditya Kanade, Ramakrishna Bairi, Suresh Parthasarathy, | (参考訳) LLMはコード生成タスクにおいて大きな可能性を示しており、様々なベンチマークで関数やステートメントレベルで有望な結果を達成している。
しかし、クラスのようなコードアーティファクトを作成することに関連する複雑さ、特に現実世界のソフトウェアリポジトリのコンテキスト内では、まだ解明されていないままです。
それまでの研究は、クラスレベルの生成を独立したタスクとして扱い、現実世界のソフトウェア環境を特徴付ける複雑な依存関係と相互作用を無視していた。
このギャップに対処するために、現実のリポジトリ内で複雑なクラスレベルのコードを生成する際に、LLMを厳格に評価するために設計された包括的なベンチマークであるRepoClassBenchを紹介します。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
データセットの各クラスがリポジトリ内でクロスファイルの依存関係を持つだけでなく、その機能を検証するための対応するテストケースも含んでいることを保証します。
現在のモデルでは,関連するリポジトリコンテキストへの露出が限られているため,ベンチマークによって引き起こされる現実的な課題に対処しています。
Retrieve-Repotools-Reflect(RRR)は、エージェントベースのフレームワークでリポジトリレベルのコンテキストを反復的にナビゲートし、推論する静的解析ツールを備えた新しいアプローチである。
我々の実験は、RRRが既存のRepoClassBenchのベースラインを大幅に上回ることを示した。
私たちの発見は、ソフトウェア開発の複雑さをより正確に反映するために、リポジトリレベルの依存関係を組み込むコード生成ベンチマークが不可欠であることを強調します。
我々の研究は、レポジトリコンテキストに対するLLMの理解を高めるために、特殊なツールを活用する利点を示している。
データセットと評価を一般公開する予定です。
LLMs have demonstrated significant potential in code generation tasks, achieving promising results at the function or statement level across various benchmarks. However, the complexities associated with creating code artifacts like classes, particularly within the context of real-world software repositories, remain underexplored. Prior research treats class-level generation as an isolated task, neglecting the intricate dependencies & interactions that characterize real-world software environments. To address this gap, we introduce RepoClassBench, a comprehensive benchmark designed to rigorously evaluate LLMs in generating complex, class-level code within real-world repositories. RepoClassBench includes "Natural Language to Class generation" tasks across Java, Python & C# from a selection of repositories. We ensure that each class in our dataset not only has cross-file dependencies within the repository but also includes corresponding test cases to verify its functionality. We find that current models struggle with the realistic challenges posed by our benchmark, primarily due to their limited exposure to relevant repository contexts. To address this shortcoming, we introduce Retrieve-Repotools-Reflect (RRR), a novel approach that equips LLMs with static analysis tools to iteratively navigate & reason about repository-level context in an agent-based framework. Our experiments demonstrate that RRR significantly outperforms existing baselines on RepoClassBench, showcasing its effectiveness across programming languages & under various settings. Our findings emphasize the critical need for code-generation benchmarks to incorporate repo-level dependencies to more accurately reflect the complexities of software development. Our work shows the benefits of leveraging specialized tools to enhance LLMs' understanding of repository context. We plan to make our dataset & evaluation harness public. | 翻訳日:2024-06-07 00:20:37 公開日:2024-06-05 |
# ランダム一般化スティフェル多様体上のリトラクションなし最適化
Optimization without Retraction on the Random Generalized Stiefel Manifold ( http://arxiv.org/abs/2405.01702v2 ) ライセンス: Link先を確認 | Simon Vary, Pierre Ablin, Bin Gao, P. -A. Absil, | (参考訳) X^\top B X = I_p$ を満たす行列の集合上の最適化は一般化スティーフェル多様体と呼ばれ、正準相関解析(CCA)、独立成分解析(ICA)、一般化固有値問題(GEVP)などのサンプル共分散行列を含む多くの応用に現れる。
これらの問題の解決は、通常、完全に構成された$B$を必要とする反復的な方法によって行われる。
本稿では,B$のランダムな推定値にのみアクセスしながら,最適化問題を解く,安価な確率的反復法を提案する。
我々の方法はすべての反復において制約を強制するのではなく、予想で定義される一般化されたスティーフェル多様体上の臨界点に収束する反復を生成する。
この手法は点当たりのコストが低く、行列乗法しか必要とせず、リーマン最適化と同じ収束率を持ち、完全行列の$B$を必要とする。
実験は、CCA、ICA、GEVPを含む一般化直交制約を含む様々な機械学習アプリケーションでその効果を示す。
Optimization over the set of matrices $X$ that satisfy $X^\top B X = I_p$, referred to as the generalized Stiefel manifold, appears in many applications involving sampled covariance matrices such as the canonical correlation analysis (CCA), independent component analysis (ICA), and the generalized eigenvalue problem (GEVP). Solving these problems is typically done by iterative methods that require a fully formed $B$. We propose a cheap stochastic iterative method that solves the optimization problem while having access only to a random estimates of $B$. Our method does not enforce the constraint in every iteration; instead, it produces iterations that converge to critical points on the generalized Stiefel manifold defined in expectation. The method has lower per-iteration cost, requires only matrix multiplications, and has the same convergence rates as its Riemannian optimization counterparts that require the full matrix $B$. Experiments demonstrate its effectiveness in various machine learning applications involving generalized orthogonality constraints, including CCA, ICA, and the GEVP. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 位置:Quo Vadis, Unsupervised Time Series Anomaly Detection?
Position: Quo Vadis, Unsupervised Time Series Anomaly Detection? ( http://arxiv.org/abs/2405.02678v3 ) ライセンス: Link先を確認 | M. Saquib Sarfraz, Mei-Yen Chen, Lukas Layer, Kunyu Peng, Marios Koulakis, | (参考訳) Timeseries Anomaly Detection (TAD)における機械学習奨学金の現在の状況は、欠陥のある評価指標の使用、一貫性のないベンチマークプラクティス、新しいディープラーニングベースのモデル設計における選択に対する適切な正当化の欠如に悩まされている。
本稿は,TADにおける現状を批判的に分析し,現在の研究の誤解を招き,問題となる方法や評価の実践を明らかにする。
我々の立場は、単に新しいモデル設計を追求することから、ベンチマークプラクティスの改善、非自明なデータセットの作成、より単純なベースラインに対して複雑なメソッドの有用性を批判的に評価することへと焦点を移すことを提唱している。
その結果,厳密な評価プロトコルの必要性,単純なベースラインの作成,および最先端の深部異常検出モデルが線形写像を効果的に学習できることが示唆された。
これらの結果から, 簡便かつ解釈可能なTAD法のさらなる探索と開発の必要性が示唆された。
最先端のディープラーニングベースのモデルにおけるモデルの複雑さの増加は、残念ながら、ほとんど改善しない。
この分野を前進させるための洞察と提案を提供する。
コード:https://github.com/ssarfraz/QuoVadisTAD
The current state of machine learning scholarship in Timeseries Anomaly Detection (TAD) is plagued by the persistent use of flawed evaluation metrics, inconsistent benchmarking practices, and a lack of proper justification for the choices made in novel deep learning-based model designs. Our paper presents a critical analysis of the status quo in TAD, revealing the misleading track of current research and highlighting problematic methods, and evaluation practices. Our position advocates for a shift in focus from solely pursuing novel model designs to improving benchmarking practices, creating non-trivial datasets, and critically evaluating the utility of complex methods against simpler baselines. Our findings demonstrate the need for rigorous evaluation protocols, the creation of simple baselines, and the revelation that state-of-the-art deep anomaly detection models effectively learn linear mappings. These findings suggest the need for more exploration and development of simple and interpretable TAD methods. The increment of model complexity in the state-of-the-art deep-learning based models unfortunately offers very little improvement. We offer insights and suggestions for the field to move forward. Code: https://github.com/ssarfraz/QuoVadisTAD | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 一般化されたアインシュタイン-ポドルスキー-ローゼンステアリングパラドックス
Generalized Einstein-Podolsky-Rosen Steering Paradox ( http://arxiv.org/abs/2405.03100v2 ) ライセンス: Link先を確認 | Zhi-Jie Liu, Xing-Yan Fan, Jie Zhou, Mi Xie, Jing-Ling Chen, | (参考訳) 量子パラドックスは、アインシュタイン=ポドルスキー=ローゼン(EPR)のステアリングパラドックス(英語版)は、通常の不等式法よりも局所隠れ状態モデルと量子力学との矛盾に対するよりシャープな基準を提供する量子理論と古典理論の非互換性を明らかにするための必須の手段である。
本研究では、量子(Q$)と古典(C$)理論によって与えられる矛盾する等式を予想する一般化されたEPRステアリングパラドックスを示す。
ステアリングパーティの条件状態が純粋である任意の$N$-qubit状態に対して、2セットのステアリングプロトコルを用いてパラドックスをテストし、特定の測定条件が満たされれば、その状態がステアリング可能であることを確認する。
さらに、我々の構成は、典型的な量子テレポーテーションや量子鍵分布のスキームに寄与するであろうEPRステアリングの不等式の構築にも寄与する。
Quantum paradoxes are essential means to reveal the incompatibility between quantum and classical theories, among which the Einstein-Podolsky-Rosen (EPR) steering paradox offers a sharper criterion for the contradiction between local-hidden-state model and quantum mechanics than the usual inequality-based method. In this work, we present a generalized EPR steering paradox, which predicts a contradictory equality $2_{Q}=\left( 1+\delta\right)_{C}$ ($0\leq\delta<1$) given by the quantum ($Q$) and classical ($C$) theories. For any $N$-qubit state in which the conditional state of the steered party is pure, we test the paradox through a two-setting steering protocol, and find that the state is steerable if some specific measurement requirements are satisfied. Moreover, our construction also enlightens the building of EPR steering inequality, which may contribute to some schemes for typical quantum teleportation and quantum key distributions. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 対向UASシステムのための商用DTIソリューションの比較性能評価のためのオブジェクト指向テスト手法の設計
Designing an Objective-Driven Test Method for the Comparative Performance Evaluation of Commercial DTI Solutions for Counter UAS systems ( http://arxiv.org/abs/2405.04477v2 ) ライセンス: Link先を確認 | Ali Mohamoud, Johan van de Pol, Hanno Hildmann, Rob van Heijster, Beatrice Masini, Martijn van den Heuvel, Amber van Keeken, | (参考訳) 無人航空システム(UAS)やドローンはますます商業的になり、安価になる。
検出トラッキングと識別(DTI)ソリューションを備えた対UAS(Counter-UAS)システムの開発と展開に重点が置かれている。
しかし、これらのシステムの能力はベンチマークが難しい。
これらのシステムの性能主張は、現在証拠によって支持されていない。
さらに、これらのDTIシステムでは標準的なテスト方法論が利用できず、異なるテスト方法論がこれらのシステムの比較を困難または不可能にしている。
本稿では,C-UASを対象とした商用DTIソリューションにおける目標駆動型テスト手法の定義,開発,検証,およびそれに対応する性能評価について報告する。
開発された方法論は、運用上関係のあるエンドユーザーシナリオに基づいている。
テスト手法は汎用DTIシステムレイアウトに基づいており、コンテキスト情報とエンドユーザー入力を考慮して検出、追跡、識別を行う。
DTIシステムの性能に影響を及ぼす可能性のある潜在的な環境面を考慮し、関連する環境における方法論の使用を可能にするために、比較性能評価法を開発した。
関連する環境での作業の検証は、3つの運用試験で行われている。
運用試験の結果、本手法は、コンポーネントレベル(検出、追跡、識別コンポーネント)とシステムレベル(これらのコンポーネントとシステムソリューションの統合DTIシステム)のパフォーマンス評価を可能にすることが示された。
Unmanned Aerial Systems (UASs) or drones become more and more commercially available and cheap. There has been much emphasis on developing and deploying Counter-UAS systems (UASs) with Detection Tracking and Identification (DTI) solutions. However, the capabilities of these systems are hard to benchmark. Performance claims of these systems are currently not supported by evidence. In addition, no standard test methodologies are available for these DTI systems and different test methodologies make comparison of these systems hard or impossible. We report on the definition, development and verification of an objective-driven test method and corresponding comparative performance evaluation for commercial DTI solutions for C-UASs. The developed methodology is based on end-user scenarios that are operationally relevant. The test methodology is based on a generic DTI system lay-out and is detailed towards detection, tracking and identification, taking into account contextual information and end-user input. The comparative performance evaluation is developed to enable the use of the methodology in a relevant environment, thereby taking into account any potential environmental aspect that might influence DTI system performance. Validation of the work in a relevant environment has been done in three operational trials. The operational trial results show that the method allows for performance evaluation at component level (i.e., detection, tracking or identification component) and at system level (combinations of these components and integrated DTI system of system solutions). | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# グラフニューラルネットに基づくクエリプラン表現の新しい手法
A Novel Technique for Query Plan Representation Based on Graph Neural Nets ( http://arxiv.org/abs/2405.04814v2 ) ライセンス: Link先を確認 | Baoming Chang, Amin Kamali, Verena Kantere, | (参考訳) クエリプランの学習表現は、データベース管理システムの機械学習ベースのクエリオプティマイザにおいて重要な役割を果たす。
この目的のために、木構造クエリプランを下流機械学習モデルで学習可能なフォーマットで表現に変換するために、特定のモデルアーキテクチャが文献で提案されている。
しかし、既存の研究では、これらのツリーモデルのクエリプラン表現能力と、全体的なオプティマイザの性能に対する直接的な影響を比較し、分析することはめったにない。
この問題に対処するために、我々は、比較的複雑なワークロードにおいて、最適化者のコスト推定と計画選択性能に異なる最先端ツリーモデルを使用することの効果を比較検討する。
さらに、クエリ計画表現タスクでグラフニューラルネットワーク(GNN)を使用する可能性についても検討する。
本稿では, Gated Recurrent Unit (GRU) で集約された双方向GNNを用いたツリーモデルBiGGを提案する。
Learning representations for query plans play a pivotal role in machine learning-based query optimizers of database management systems. To this end, particular model architectures are proposed in the literature to transform the tree-structured query plans into representations with formats learnable by downstream machine learning models. However, existing research rarely compares and analyzes the query plan representation capabilities of these tree models and their direct impact on the performance of the overall optimizer. To address this problem, we perform a comparative study to explore the effect of using different state-of-the-art tree models on the optimizer's cost estimation and plan selection performance in relatively complex workloads. Additionally, we explore the possibility of using graph neural networks (GNNs) in the query plan representation task. We propose a novel tree model BiGG employing Bidirectional GNN aggregated by Gated recurrent units (GRUs) and demonstrate experimentally that BiGG provides significant improvements to cost estimation tasks and relatively excellent plan selection performance compared to the state-of-the-art tree models. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 高次元観測から低次元潜在ダイナミクスを学習する:非漸近と下界
Learning Low-dimensional Latent Dynamics from High-dimensional Observations: Non-asymptotics and Lower Bounds ( http://arxiv.org/abs/2405.06089v2 ) ライセンス: Link先を確認 | Yuyang Zhang, Shahriar Talebi, Na Li, | (参考訳) 本稿では,低次元潜在変数を持つ線形時間不変モデル(LTI)の学習に焦点をあてる。
我々は,観測者の列空間のような高次元の特徴を復元し,データを低次元に埋め込み,低次元モデルパラメータを学習するアルゴリズムを提案する。
我々のアルゴリズムは、次数$\tilde{\mathcal{O}}(n/\epsilon^2)$のサンプル複雑性を保証する。
さらに、この複雑性境界が対数係数と次元非依存定数に最適であることを示す基本的な下界を確立する。
この避けられない$n$の線形係数は、高次元ノイズの存在下で観測者の列空間の学習誤差に起因する。
結果を拡張して,複数のLTIシステムのデータセットからオブザーバ列空間を総合的に学習する,様々な実世界のアプリケーションから着想を得たメタラーニング問題を考える。
その後、サンプルの複雑性を低下させるメタデータセットからLTIシステムの学習を容易にするエンド・ツー・エンドのアルゴリズムが提案される。
In this paper, we focus on learning a linear time-invariant (LTI) model with low-dimensional latent variables but high-dimensional observations. We provide an algorithm that recovers the high-dimensional features, i.e. column space of the observer, embeds the data into low dimensions and learns the low-dimensional model parameters. Our algorithm enjoys a sample complexity guarantee of order $\tilde{\mathcal{O}}(n/\epsilon^2)$, where $n$ is the observation dimension. We further establish a fundamental lower bound indicating this complexity bound is optimal up to logarithmic factors and dimension-independent constants. We show that this inevitable linear factor of $n$ is due to the learning error of the observer's column space in the presence of high-dimensional noises. Extending our results, we consider a meta-learning problem inspired by various real-world applications, where the observer column space can be collectively learned from datasets of multiple LTI systems. An end-to-end algorithm is then proposed, facilitating learning LTI systems from a meta-dataset which breaks the sample complexity lower bound in certain scenarios. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# ランダム行列理論は対称正定値行列のフレシェ平均を改善した
Random matrix theory improved Fréchet mean of symmetric positive definite matrices ( http://arxiv.org/abs/2405.06558v2 ) ライセンス: Link先を確認 | Florent Bouchard, Ammar Mian, Malik Tiomoko, Guillaume Ginolhac, Frédéric Pascal, | (参考訳) 本研究では、機械学習における共分散行列の領域について考察し、特にFr'echetは対称正定値行列の多様体(一般にカーチャー(Karcher)あるいは幾何学的手段(Geological means)と呼ばれる)上での計算に焦点をあてる。
このような手段は、多くの機械学習タスクで活用される。
統計的手法を応用して,Fr'echetを推定する確率行列理論に基づく手法を導入する。
人工脳波と実世界の脳波とハイパースペクトルの両方を含む実験結果から,我々は最先端の手法を大きく上回っていることが明らかとなった。
In this study, we consider the realm of covariance matrices in machine learning, particularly focusing on computing Fr\'echet means on the manifold of symmetric positive definite matrices, commonly referred to as Karcher or geometric means. Such means are leveraged in numerous machine-learning tasks. Relying on advanced statistical tools, we introduce a random matrix theory-based method that estimates Fr\'echet means, which is particularly beneficial when dealing with low sample support and a high number of matrices to average. Our experimental evaluation, involving both synthetic and real-world EEG and hyperspectral datasets, shows that we largely outperform state-of-the-art methods. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# あらゆるデータ配信のためのコンフォーマルな妥当性保証(そしてその方法)
Conformal Validity Guarantees Exist for Any Data Distribution (and How to Find Them) ( http://arxiv.org/abs/2405.06627v3 ) ライセンス: Link先を確認 | Drew Prinster, Samuel Stanton, Anqi Liu, Suchi Saria, | (参考訳) 人工知能(AI)/機械学習(ML)が広く普及するにつれて、実践者はこれらのシステムがもたらすリスクを定量化し、制御する方法を模索している。
このようなシステムが、ブラックボックス最適化やアクティブラーニングなど、独自のデータを収集する自律性を持つ場合には、この課題は特に有益である。
コンフォーマル予測は、不確実性とリスク定量化に対する有望なアプローチであるが、事前の変種による妥当性保証は、データ分布に「準交換可能性」の何らかの形式を仮定し、多くのシーケンシャルシフトを排除している。
本稿では,共形予測が,交換可能データや準交換可能データだけでなく,理論的に「textit{any}」結合データ分布に拡張可能であることを証明する。
最も一般的なケースは計算に実用的でないが、具体的には、任意のデータ分布に対して特定の共形アルゴリズムを導出するための手順を概説し、この手順を用いて、AI/ML-エージェントが引き起こす共変量シフトに対して、抽出可能なアルゴリズムを導出する。
提案アルゴリズムは,合成ブラックボックス最適化とアクティブ学習タスクを実証的に評価する。
As artificial intelligence (AI) / machine learning (ML) gain widespread adoption, practitioners are increasingly seeking means to quantify and control the risk these systems incur. This challenge is especially salient when such systems have autonomy to collect their own data, such as in black-box optimization and active learning, where their actions induce sequential feedback-loop shifts in the data distribution. Conformal prediction is a promising approach to uncertainty and risk quantification, but prior variants' validity guarantees have assumed some form of ``quasi-exchangeability'' on the data distribution, thereby excluding many types of sequential shifts. In this paper we prove that conformal prediction can theoretically be extended to \textit{any} joint data distribution, not just exchangeable or quasi-exchangeable ones. Although the most general case is exceedingly impractical to compute, for concrete practical applications we outline a procedure for deriving specific conformal algorithms for any data distribution, and we use this procedure to derive tractable algorithms for a series of AI/ML-agent-induced covariate shifts. We evaluate the proposed algorithms empirically on synthetic black-box optimization and active learning tasks. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# TKAN: 一時的コルモゴロフ・アルノルドネットワーク
TKAN: Temporal Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2405.07344v2 ) ライセンス: Link先を確認 | Remi Genet, Hugo Inzirillo, | (参考訳) リカレントニューラルネットワーク(RNN)は、特に自然言語やデータシーケンス処理において、機械学習の多くの領域に革命をもたらした。
LSTM(Long Short-Term Memory)は、シーケンシャルデータにおける長期的な依存関係をキャプチャする能力を示している。
MLP(Multi-Layer Perceptrons)に代わる有望な代替手段であるKolmogorov-Arnold Networks(KAN)に触発された我々は、kanとLSTM、TKAN(Temporal Kologorov-Arnold Networks)に触発された新しいニューラルネットワークアーキテクチャを提案した。
TKANは両方のネットワークの強みを組み合わせたもので、メモリ管理を組み込んだRecurring Kolmogorov-Arnold Networks (RKANs) Layersで構成されている。
この革新により、精度と効率を向上したマルチステップ時系列予測が可能となる。
複雑なシーケンシャルパターンを扱う場合の従来のモデルの限界に対処することにより、TKANアーキテクチャは予測を1段階以上進める必要がある分野において、大きな可能性をもたらす。
Recurrent Neural Networks (RNNs) have revolutionized many areas of machine learning, particularly in natural language and data sequence processing. Long Short-Term Memory (LSTM) has demonstrated its ability to capture long-term dependencies in sequential data. Inspired by the Kolmogorov-Arnold Networks (KANs) a promising alternatives to Multi-Layer Perceptrons (MLPs), we proposed a new neural networks architecture inspired by KAN and the LSTM, the Temporal Kolomogorov-Arnold Networks (TKANs). TKANs combined the strenght of both networks, it is composed of Recurring Kolmogorov-Arnold Networks (RKANs) Layers embedding memory management. This innovation enables us to perform multi-step time series forecasting with enhanced accuracy and efficiency. By addressing the limitations of traditional models in handling complex sequential patterns, the TKAN architecture offers significant potential for advancements in fields requiring more than one step ahead forecasting. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# AnoVox: 自動運転におけるマルチモーダル異常検出ベンチマーク
AnoVox: A Benchmark for Multimodal Anomaly Detection in Autonomous Driving ( http://arxiv.org/abs/2405.07865v3 ) ライセンス: Link先を確認 | Daniel Bogdoll, Iramm Hamdard, Lukas Namgyu Rößler, Felix Geisler, Muhammed Bayram, Felix Wang, Jan Imhof, Miguel de Campos, Anushervon Tabarov, Yitian Yang, Hanno Gottschalk, J. Marius Zöllner, | (参考訳) 自動運転車のスケールアップは、道路上のまれな物体のような異常に対処する能力に大きく依存している。
このような状況に対処するためには、そもそも異常を検出する必要がある。
自動走行の異常検出はここ数年で大きな進歩を遂げてきたが、カメラデータに強く焦点を絞った設計の悪いベンチマークに悩まされている。
本研究では,自動運転におけるANOmaly検出のための最大のベンチマークであるAnoVoxを提案する。
AnoVoxは、大規模なマルチモーダルセンサーデータと空間的VOXel地上真実を組み込んでおり、使用済みセンサとは無関係な方法の比較を可能にしている。
正規性の形式的定義を提案し,従順なトレーニングデータセットを提供する。
AnoVoxは、コンテンツと時間的異常の両方を含む最初のベンチマークである。
The scale-up of autonomous vehicles depends heavily on their ability to deal with anomalies, such as rare objects on the road. In order to handle such situations, it is necessary to detect anomalies in the first place. Anomaly detection for autonomous driving has made great progress in the past years but suffers from poorly designed benchmarks with a strong focus on camera data. In this work, we propose AnoVox, the largest benchmark for ANOmaly detection in autonomous driving to date. AnoVox incorporates large-scale multimodal sensor data and spatial VOXel ground truth, allowing for the comparison of methods independent of their used sensor. We propose a formal definition of normality and provide a compliant training dataset. AnoVox is the first benchmark to contain both content and temporal anomalies. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 代表選手によるグラフィオン平均フィールドゲーム:分析と学習アルゴリズム
Graphon Mean Field Games with a Representative Player: Analysis and Learning Algorithm ( http://arxiv.org/abs/2405.08005v2 ) ライセンス: Link先を確認 | Fuzhong Zhou, Chenyu Zhang, Xu Chen, Xuan Di, | (参考訳) 本稿では,エージェント間の不均一な相互作用を伴う確率ゲームの研究に代表者を用いた連続状態とアクション空間の離散時間グラフゲーム定式化を提案する。
この定式化は、プレイヤーの連続体を用いた広く採用されている定式化と比較して、哲学的および数学的優位性の両方を認めている。
軽度の仮定でグラノン平衡の存在と特異性を証明し、この平衡を用いてネットワーク上の有限プレイヤーゲームに対する近似解を構築できることを示し、次元性の呪いによって解析と解決が困難である。
オンラインのオラクルフリー学習アルゴリズムは平衡を数値的に解くために開発され、その収束のためにサンプル複雑性解析が提供される。
We propose a discrete time graphon game formulation on continuous state and action spaces using a representative player to study stochastic games with heterogeneous interaction among agents. This formulation admits both philosophical and mathematical advantages, compared to a widely adopted formulation using a continuum of players. We prove the existence and uniqueness of the graphon equilibrium with mild assumptions, and show that this equilibrium can be used to construct an approximate solution for finite player game on networks, which is challenging to analyze and solve due to curse of dimensionality. An online oracle-free learning algorithm is developed to solve the equilibrium numerically, and sample complexity analysis is provided for its convergence. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 非ユークリッド計量によるヒルベルト空間における部分系の定義
Defining subsystems in Hilbert spaces with non-Euclidean metric ( http://arxiv.org/abs/2405.08095v2 ) ライセンス: Link先を確認 | Himanshu Badhani, Sibasish Ghosh, | (参考訳) この研究は、下層の内積構造とは独立に有限次元ヒルベルト空間内の部分系を同定する一貫した方法の概要を述べる。
いわゆる計量作用素によって定義される修正内積を持つヒルベルト空間が、例えば、均衡した利得と損失を含むような特定の現象を表現する最も自然な方法であることが証明されている。
擬エルミート進化を経る合成系では、部分系を定義することは一般に、計量作用素がテンソル積形式を持つように選択された場合にのみ実現可能であると考えられ、部分的トレース演算を適切に定義することができる。
本研究では、計量がテンソル積形式であるか否かに関わらず、すべての距離空間において部分系が十分に定義可能であることを示すために、代数量子力学からの引数を用いる。
これは、基底となる$C^*$-algebraを可換な部分代数に分解した部分系を識別する。
異なるサブシステム分解は、GNS表現の異なる同値類を選択することに一致することを示す。
さらに、擬エルミート・ハミルトニアンの形式が与えられた場合、ハミルトニアン互換計量の選択は部分系分解を特徴づけ、結果として系の絡み合い構造を特徴づける。
このように定義された各サブシステムは、トモグラフィ的に構築可能であり、これらのサブシステムは、符号付けの原則を満たす。
これらの結果から、計量作用素のすべての選択を等しい足場に配置する。
This work outlines a consistent method of identifying subsystems in finite-dimensional Hilbert spaces, independent of the underlying inner-product structure. It has been well established that Hilbert spaces with modified inner-product, defined through the so-called metric operator, turn out to be the most natural ways to represent certain phenomena such as those involving balanced gain and loss resulting in pseudo-Hermitian Hamiltonians. For composite systems undergoing pseudo-Hermitian evolution, defining the subsystems is generally considered feasible only when the metric operator is chosen to have a tensor product form so that a partial trace operation can be well defined. In this work, we use arguments from algebraic quantum mechanics to show that the subsystems can be well-defined in every metric space -- irrespective of whether or not the metric is of tensor product form. This is done by identifying subsystems with a decomposition of the underlying $C^*$-algebra into commuting sub-algebras. We show that different subsystem decompositions correspond to choosing different equivalence classes of the GNS representation. Furthermore, given a form of pseudo-Hermitian Hamiltonian, the choice of the Hamiltonian compatible metric characterizes the subsystem decomposition and as a consequence, the entanglement structure in the system. We clarify how each of the subsystems, defined this way, can be tomographically constructed and that these subsystems satisfy the no-signaling principle. With these results, we put all the choices of the metric operator on an equal footing. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# クリロフ空間における量子ダイナミクス:方法と応用
Quantum Dynamics in Krylov Space: Methods and Applications ( http://arxiv.org/abs/2405.09628v2 ) ライセンス: Link先を確認 | Pratik Nandy, Apollonas S. Matsoukas-Roubeas, Pablo Martínez-Azcona, Anatoly Dymarsky, Adolfo del Campo, | (参考訳) 量子系の力学は状態空間や作用素空間(クリロフ空間)の部分空間内で展開する。
このレビューでは、クリロフ部分空間法を用いて、大きなヒルベルト空間を持つ多体系の非平衡現象に重点を置いて、量子進化のコンパクトで効率的な記述を提供する。
これは、ハイゼンベルク図における作用素の量子進化と純粋かつ混合状態に焦点を当てた最近の発展の包括的更新を提供する。
さらに、作用素成長を定量化するためのツールとして、Krylov複雑性と関連するメトリクスの概念、一般化された量子速度制限による境界、普遍的な作用素成長仮説、量子カオス、スクランブル、一般化されたコヒーレント状態との関係について考察する。
開量子系に対するクリロフ構成のいくつかの一般化の比較を示す。
クリャロフ部分空間法の量子場理論、ホログラフィー、可積分性、量子制御、量子コンピューティングへの応用と、現在のオープンな問題に対処する。
The dynamics of quantum systems unfolds within a subspace of the state space or operator space, known as the Krylov space. This review presents the use of Krylov subspace methods to provide a compact and computationally efficient description of quantum evolution, with emphasis on nonequilibrium phenomena of many-body systems with a large Hilbert space. It provides a comprehensive update of recent developments, focused on the quantum evolution of operators in the Heisenberg picture as well as pure and mixed states. It further explores the notion of Krylov complexity and associated metrics as tools for quantifying operator growth, their bounds by generalized quantum speed limits, the universal operator growth hypothesis, and its relation to quantum chaos, scrambling, and generalized coherent states. A comparison of several generalizations of the Krylov construction for open quantum systems is presented. A closing discussion addresses the application of Krylov subspace methods in quantum field theory, holography, integrability, quantum control, and quantum computing, as well as current open problems. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# 大規模言語モデルによる科学的仮説生成:乳癌治療における検査的検証
Scientific Hypothesis Generation by a Large Language Model: Laboratory Validation in Breast Cancer Treatment ( http://arxiv.org/abs/2405.12258v2 ) ライセンス: Link先を確認 | Abbi Abdel-Rehim, Hector Zenil, Oghenejokpeme Orhobor, Marie Fisher, Ross J. Collins, Elizabeth Bourne, Gareth W. Fearnley, Emma Tate, Holly X. Smith, Larisa N. Soldatova, Ross D. King, | (参考訳) 大規模言語モデル(LLM)はAIを変革し、人間の知性を必要とする幅広いタスクにおいて画期的なパフォーマンスを達成した。
科学において、LLMの最も興味深い応用は仮説形成である。
LLMの特徴は、その確率的構造から生じるものであり、出力テキストが必ずしもトレーニングテキストからの有効な推論であるとは限らないことである。
これらは「幻覚」であり、多くのアプリケーションにおいて深刻な問題である。
しかし、科学では幻覚は有用であり、実験室で検証できる新しい仮説である。
ここでは乳がん治療の分野での科学的仮説の根拠としてLLMの使用を実験的に検証する。
LLM GPT4を用いて,MCF7乳がん細胞株を標的とした新しいFDA承認非癌薬の仮説を立証した。
実験の第1ラウンドで、GPT4は、正の制御以上のシナジースコアを持つ3つの薬物の組み合わせ(テストされた12のうち)を発見することに成功した。
これらの組み合わせはイトラコナゾール+アテノール、ジスルフィラム+シムバスタチン、ジピリダモール+メベンダゾールである。
その後、GPT4は最初の結果を考慮して新しい組み合わせを生成するよう求められた。
その後、さらに3つの正のシナジースコア(4つの試験のうち)が発見され、これらはジスルフィラム+フヴェストラント、メベンダゾール+キナクリン、ジスルフィラム+キナクリンであった。
仮説の生成元としてのGPT4の限界は、それらの説明が定式化され、説得力がないことである。
LLMは科学的仮説のエキサイティングな新しい源であると結論付けている。
Large language models (LLMs) have transformed AI and achieved breakthrough performance on a wide range of tasks that require human intelligence. In science, perhaps the most interesting application of LLMs is for hypothesis formation. A feature of LLMs, which results from their probabilistic structure, is that the output text is not necessarily a valid inference from the training text. These are 'hallucinations', and are a serious problem in many applications. However, in science, hallucinations may be useful: they are novel hypotheses whose validity may be tested by laboratory experiments. Here we experimentally test the use of LLMs as a source of scientific hypotheses using the domain of breast cancer treatment. We applied the LLM GPT4 to hypothesize novel pairs of FDA-approved non-cancer drugs that target the MCF7 breast cancer cell line relative to the non-tumorigenic breast cell line MCF10A. In the first round of laboratory experiments GPT4 succeeded in discovering three drug combinations (out of 12 tested) with synergy scores above the positive controls. These combinations were itraconazole + atenolol, disulfiram + simvastatin and dipyridamole + mebendazole. GPT4 was then asked to generate new combinations after considering its initial results. It then discovered three more combinations with positive synergy scores (out of four tested), these were disulfiram + fulvestrant, mebendazole + quinacrine and disulfiram + quinacrine. A limitation of GPT4 as a generator of hypotheses was that its explanations for them were formulaic and unconvincing. We conclude that LLMs are an exciting novel source of scientific hypotheses. | 翻訳日:2024-06-07 00:09:48 公開日:2024-06-05 |
# ピラミッドインファー:高スループットLDM推論のためのピラミッドKVキャッシュ圧縮
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference ( http://arxiv.org/abs/2405.12532v2 ) ライセンス: Link先を確認 | Dongjie Yang, XiaoDong Han, Yan Gao, Yao Hu, Shilin Zhang, Hai Zhao, | (参考訳) 大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面しており、チャットボットのようなリアルタイムアプリケーションに対するスケーラビリティを妨げている。
推論を高速化するために、計算されたキーと値(KVキャッシュ)をGPUメモリに格納する。
既存のKVキャッシュ圧縮法では、プリ計算されたKVキャッシュをプルーニングすることでメモリを削減できる。
しかし、プレ計算において、レイヤ間の層間依存関係と巨大なメモリ消費を無視する。
これらの欠陥を探索するために、将来の世代に影響を与える重要なキーや値の数が層ごとに減少し、注意重みの一貫性によってそれらを抽出できることがわかった。
そこで本研究では,KVキャッシュを重要コンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、パフォーマンスを犠牲にすることなく、少ないキーと値を計算することで、大きなメモリを節約する。
実験の結果、PraamidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを向上した。
Large Language Models (LLMs) have shown remarkable comprehension abilities but face challenges in GPU memory usage during inference, hindering their scalability for real-time applications like chatbots. To accelerate inference, we store computed keys and values (KV cache) in the GPU memory. Existing methods study the KV cache compression to reduce memory by pruning the pre-computed KV cache. However, they neglect the inter-layer dependency between layers and huge memory consumption in pre-computation. To explore these deficiencies, we find that the number of crucial keys and values that influence future generations decreases layer by layer and we can extract them by the consistency in attention weights. Based on the findings, we propose PyramidInfer, a method that compresses the KV cache by layer-wise retaining crucial context. PyramidInfer saves significant memory by computing fewer keys and values without sacrificing performance. Experimental results show PyramidInfer improves 2.2x throughput compared to Accelerate with over 54% GPU memory reduction in KV cache. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# 大規模言語モデルにおける政治的バイアスの評価
Assessing Political Bias in Large Language Models ( http://arxiv.org/abs/2405.13041v3 ) ライセンス: Link先を確認 | Luca Rettenberger, Markus Reischl, Mark Schutera, | (参考訳) 大規模言語モデル(LLMs)におけるバイアスの評価は、社会的ダイナミクスに対する潜在的な影響の文脈において、人工知能(AI)を取り巻く現代の議論において重要な関心事となっている。
LLMアプリケーション内での政治的偏見の認識と考慮は、特に、パフォーマンス予測に向けてチップポイントを閉じる際に重要である。
そして、潜在的効果と社会的行動について教育を受けることで、LLMは人間のオペレーターとの相互作用により、大規模に運転することができる。
このようにして、欧州議会の次の選挙は LLM の影響を受けないままである。
我々は、欧州連合(EU)内の政治問題に関して、現在最も人気のあるオープンソースLLM(インストラクションまたはアシスタントモデル)の政治的バイアスを、ドイツの有権者の視点から評価する。
そのために、ドイツで使われている投票アドバイスアプリケーション"Wahl-O-Mat"を使用します。
ウォール=オ=マト」の投票助言から、ドイツ政党とのLLMの整合度を定量化する。
Llama3-70Bのような大型モデルは、左派政党とより緊密に結びつく傾向にある一方で、小さなモデルは、特に英語で促された場合、中立であることが多い。
中心的な発見は、LLMも同様に偏りがあり、特定のパーティに関するアライメントのばらつきが低いことである。
本研究は,性能予測能力と機械学習予測および言語生成の目に見えない手を用いたアプリケーションの完全性と信頼性を守るため,LLMにおける偏見の透明化を厳格に評価することの重要性を明らかにした。
The assessment of bias within Large Language Models (LLMs) has emerged as a critical concern in the contemporary discourse surrounding Artificial Intelligence (AI) in the context of their potential impact on societal dynamics. Recognizing and considering political bias within LLM applications is especially important when closing in on the tipping point toward performative prediction. Then, being educated about potential effects and the societal behavior LLMs can drive at scale due to their interplay with human operators. In this way, the upcoming elections of the European Parliament will not remain unaffected by LLMs. We evaluate the political bias of the currently most popular open-source LLMs (instruct or assistant models) concerning political issues within the European Union (EU) from a German voter's perspective. To do so, we use the "Wahl-O-Mat," a voting advice application used in Germany. From the voting advice of the "Wahl-O-Mat" we quantize the degree of alignment of LLMs with German political parties. We show that larger models, such as Llama3-70B, tend to align more closely with left-leaning political parties, while smaller models often remain neutral, particularly when prompted in English. The central finding is that LLMs are similarly biased, with low variances in the alignment concerning a specific party. Our findings underline the importance of rigorously assessing and making bias transparent in LLMs to safeguard the integrity and trustworthiness of applications that employ the capabilities of performative prediction and the invisible hand of machine learning prediction and language generation. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# 未来を創るAIコミュニティ : ハグする顔ハブの開発活動の定量的分析
The AI Community Building the Future? A Quantitative Analysis of Development Activity on Hugging Face Hub ( http://arxiv.org/abs/2405.13058v2 ) ライセンス: Link先を確認 | Cailean Osborne, Jennifer Ding, Hannah Rose Kirk, | (参考訳) オープンモデル開発者は、人工知能(AI)の政治経済において重要な役割を担っている。
本稿では,Huging Face (HF) Hubにおける開発活動の定量的分析を3段階に分けて行うことで,このギャップに対処する。
まず、348,181モデル、65,761データセット、および156,642スペースリポジトリのさまざまな種類のアクティビティが右スクリュー分布を示している。
例えば、70%以上のモデルが0回ダウンロードされており、1%が99%のダウンロードを占めている。
さらに、ライセンスは重要です: パーミッシブで制限的で、ライセンスのないモデルリポジトリでは、コラボレーションパターンに統計的に有意な違いがあります。
第2に、モデルリポジトリにおけるコラボレーションのソーシャルネットワーク構造のスナップショットを分析し、コミュニティがコア周辺構造を持ち、多彩な開発者のコアと分離された開発者の大多数(89%)が参加していることを発見した。
分離された開発者をネットワークから排除すると、コラボレーションは開発者のネットワーク位置に関係なく高い相互性によって特徴づけられる。
第三に、空間におけるモデル利用のレンズを通してモデルの採用を検討し、少数の企業が開発している少数のモデルがHF Hubで広く使われていることを発見した。
全体として、HF Hub上のアクティビティはParetoディストリビューションによって特徴づけられ、GitHubのようなプラットフォーム上のOSS開発パターンと一致している。
我々は、オープンAI開発の理解を深めるための研究者、企業、政策立案者への勧告で締めくくります。
Open model developers have emerged as key actors in the political economy of artificial intelligence (AI), but we still have a limited understanding of collaborative practices in the open AI ecosystem. This paper responds to this gap with a three-part quantitative analysis of development activity on the Hugging Face (HF) Hub, a popular platform for building, sharing, and demonstrating models. First, various types of activity across 348,181 model, 65,761 dataset, and 156,642 space repositories exhibit right-skewed distributions. Activity is extremely imbalanced between repositories; for example, over 70% of models have 0 downloads, while 1% account for 99% of downloads. Furthermore, licenses matter: there are statistically significant differences in collaboration patterns in model repositories with permissive, restrictive, and no licenses. Second, we analyse a snapshot of the social network structure of collaboration in model repositories, finding that the community has a core-periphery structure, with a core of prolific developers and a majority of isolate developers (89%). Upon removing the isolate developers from the network, collaboration is characterised by high reciprocity regardless of developers' network positions. Third, we examine model adoption through the lens of model usage in spaces, finding that a minority of models, developed by a handful of companies, are widely used on the HF Hub. Overall, activity on the HF Hub is characterised by Pareto distributions, congruent with OSS development patterns on platforms like GitHub. We conclude with recommendations for researchers, companies, and policymakers to advance our understanding of open AI development. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# SLIFER: マルウェア検出パイプラインの性能とロバスト性の調査
SLIFER: Investigating Performance and Robustness of Malware Detection Pipelines ( http://arxiv.org/abs/2405.14478v2 ) ライセンス: Link先を確認 | Andrea Ponte, Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Ivan Tesfai Ogbu, Fabio Roli, | (参考訳) 何十年にもわたっての研究の結果、Windowsのマルウェア検出は数多くの技術を通してアプローチされている。
しかしながら、検出率と低い誤報の観点から最適なパフォーマンスを追求するアカデミックと、現実のシナリオの要件との間には、継続的なミスマッチがある。
特にアカデミックは、単一のモデルまたはアンサンブル内で静的解析と動的解析を組み合わせることに集中し、いくつかの落とし穴に陥る。
一 必要な計算負担を考慮せずに、動的解析を行うこと。
二 分析不可能なサンプルを廃棄すること、及び
三 敵攻撃に対する頑健さを、マルウェア検知器がより非機械的学習部品で補完されていることを考慮せずに分析すること。
そこで本稿では,静的解析と動的解析の両方を逐次的に活用し,ひとつのモジュールがアラームを起動するとすぐに計算を中断し,必要な時にのみ動的解析を必要とする,新しいWindowsマルウェア検出パイプラインであるSLIFERを提案する。
現状とは対照的に、分析に対するサンプル抵抗の扱い方について検討し、それらがパフォーマンスにどの程度影響するかを示し、誤報を劇的に増やさないよう正当であるとフラグを立てた方がよいと結論付けた。
最後に、コンテンツインジェクション攻撃を利用したSLIFERの堅牢性評価を行い、対戦戦略を最適化しながら生成したバイトアーティファクトによる動的解析よりも、YARAルールにより攻撃がブロックされることを示す。
As a result of decades of research, Windows malware detection is approached through a plethora of techniques. However, there is an ongoing mismatch between academia -- which pursues an optimal performances in terms of detection rate and low false alarms -- and the requirements of real-world scenarios. In particular, academia focuses on combining static and dynamic analysis within a single or ensemble of models, falling into several pitfalls like (i) firing dynamic analysis without considering the computational burden it requires; (ii) discarding impossible-to-analyse samples; and (iii) analysing robustness against adversarial attacks without considering that malware detectors are complemented with more non-machine-learning components. Thus, in this paper we propose SLIFER, a novel Windows malware detection pipeline sequentially leveraging both static and dynamic analysis, interrupting computations as soon as one module triggers an alarm, requiring dynamic analysis only when needed. Contrary to the state of the art, we investigate how to deal with samples resistance to analysis, showing how much they impact performances, concluding that it is better to flag them as legitimate to not drastically increase false alarms. Lastly, we perform a robustness evaluation of SLIFER leveraging content-injections attacks, and we show that, counter-intuitively, attacks are blocked more by YARA rules than dynamic analysis due to byte artifacts created while optimizing the adversarial strategy. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# フォールトトレラントML:効率的なメタアグリゲーションと同期トレーニング
Fault Tolerant ML: Efficient Meta-Aggregation and Synchronous Training ( http://arxiv.org/abs/2405.14759v2 ) ライセンス: Link先を確認 | Tehila Dahan, Kfir Y. Levy, | (参考訳) 本稿では,分散機械学習(ML)システムにおけるビザンチン・ロバスト学習の挑戦的枠組みについて検討し,効率性と実用性の両方に焦点をあてる。
分散MLシステムは複雑なMLタスクに不可欠なものとなり、ビザンチンの障害に対するレジリエンスを確保する。
最初のコントリビューションは、CTMA(Centered Trimmed Meta Aggregator)の導入です。これは、低計算要求を必要としながら、ベースラインアグリゲータを最適なパフォーマンスレベルにアップグレードする効率的なメタアグリゲータです。
さらに,ビザンチン文脈における2重モーメント戦略に基づいて,最近開発された勾配推定手法を提案する。
本稿では,ビザンチン・ロバスト訓練の理論的・実践的優位性,特にチューニングプロセスの簡素化と多数のハイパーパラメータへの依存軽減について述べる。
この手法の有効性は確率凸最適化(SCO)フレームワークの理論的な洞察に支えられ、実証的な証拠によって裏付けられる。
In this paper, we investigate the challenging framework of Byzantine-robust training in distributed machine learning (ML) systems, focusing on enhancing both efficiency and practicality. As distributed ML systems become integral for complex ML tasks, ensuring resilience against Byzantine failures-where workers may contribute incorrect updates due to malice or error-gains paramount importance. Our first contribution is the introduction of the Centered Trimmed Meta Aggregator (CTMA), an efficient meta-aggregator that upgrades baseline aggregators to optimal performance levels, while requiring low computational demands. Additionally, we propose harnessing a recently developed gradient estimation technique based on a double-momentum strategy within the Byzantine context. Our paper highlights its theoretical and practical advantages for Byzantine-robust training, especially in simplifying the tuning process and reducing the reliance on numerous hyperparameters. The effectiveness of this technique is supported by theoretical insights within the stochastic convex optimization (SCO) framework and corroborated by empirical evidence. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# 制御可能なメモリを用いたパイプライン並列処理
Pipeline Parallelism with Controllable Memory ( http://arxiv.org/abs/2405.15362v2 ) ライセンス: Link先を確認 | Penghui Qi, Xinyi Wan, Nyamdavaa Amar, Min Lin, | (参考訳) パイプライン並列性は広く研究されてきたが、既存のスケジュールには体系的な方法論がない。
本稿では,パイプラインスケジュールをビルディングブロックの繰り返しとして分解するフレームワークを提案し,ビルディングブロックの寿命がパイプラインスケジュールのピークアクティベーションメモリを決定することを示す。
観察によってガイドされた結果,既存のパイプラインスケジュールのほとんどすべてが,私たちの知る限りでは,メモリ非効率であることが分かりました。
これを解決するために、制御可能なアクティベーションメモリを備えたメモリ効率の良いビルディングブロック群を導入し、1F1Bのピークアクティベーションメモリを、効率を犠牲にすることなく1/2に削減し、最大スループットで1/3にまで削減する。
また、1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現できる。
我々の評価は、純粋なパイプライン並列化設定では、スループットの点で1F1Bを7%から55%上回っていることを示している。
提案手法は,大規模言語モデルの1F1Bベースラインよりも16%のスループット向上を示す。
Pipeline parallelism has been widely explored, but most existing schedules lack a systematic methodology. In this paper, we propose a framework to decompose pipeline schedules as repeating a building block and we show that the lifespan of the building block decides the peak activation memory of the pipeline schedule. Guided by the observations, we find that almost all existing pipeline schedules, to the best of our knowledge, are memory inefficient. To address this, we introduce a family of memory efficient building blocks with controllable activation memory, which can reduce the peak activation memory to 1/2 of 1F1B without sacrificing efficiency, and even to 1/3 with comparable throughput. We can also achieve almost zero pipeline bubbles while maintaining the same activation memory as 1F1B. Our evaluations demonstrate that in pure pipeline parallelism settings, our methods outperform 1F1B by from 7% to 55% in terms of throughput. When employing a grid search over hybrid parallelism hyperparameters in practical scenarios, our proposed methods demonstrate a 16% throughput improvement over the 1F1B baseline for large language models. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# インプシットバイアスは逆行性ロバスト性を引き起こすか?
Can Implicit Bias Imply Adversarial Robustness? ( http://arxiv.org/abs/2405.15942v2 ) ライセンス: Link先を確認 | Hancheng Min, René Vidal, | (参考訳) 勾配に基づくトレーニングアルゴリズムの暗黙のバイアスは、しばしばよく一般化されるトレーニングネットワークにつながるため、主に有益であると考えられている。
しかし、Frei et al (2023) はそのような暗黙の偏見が敵の頑健さを損なうことを示した。
具体的には、クラスタ間相関が小さいクラスタからなる場合、勾配流によって訓練された浅層(二層)のReLUネットワークはよく一般化するが、小さな半径の敵攻撃に対して堅牢ではないことを示す。
さらに、この現象は浅いネットワークから明示的に構築できるより堅牢な分類器が存在するにもかかわらず起こる。
本稿では,近年のニューロンアライメント解析を拡張し,勾配流によってトレーニングされた多項式ReLU活性化(pReLU)の浅いネットワークが一般化するだけでなく,敵の攻撃に対して堅牢であることを示す。
本結果は,学習ネットワークの暗黙的バイアスとロバスト性において,データ構造とアーキテクチャ設計の相互作用の重要性を強調した。
The implicit bias of gradient-based training algorithms has been considered mostly beneficial as it leads to trained networks that often generalize well. However, Frei et al. (2023) show that such implicit bias can harm adversarial robustness. Specifically, they show that if the data consists of clusters with small inter-cluster correlation, a shallow (two-layer) ReLU network trained by gradient flow generalizes well, but it is not robust to adversarial attacks of small radius. Moreover, this phenomenon occurs despite the existence of a much more robust classifier that can be explicitly constructed from a shallow network. In this paper, we extend recent analyses of neuron alignment to show that a shallow network with a polynomial ReLU activation (pReLU) trained by gradient flow not only generalizes well but is also robust to adversarial attacks. Our results highlight the importance of the interplay between data structure and architecture design in the implicit bias and robustness of trained networks. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# ContrastAlign:マルチモーダル3次元物体検出のためのコントラスト学習によるロバストなBEV特徴アライメントを目指して
ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2405.16873v2 ) ライセンス: Link先を確認 | Ziying Song, Feiyang Jia, Hongyu Pan, Yadan Luo, Caiyan Jia, Guoxin Zhang, Lin Liu, Yang Ji, Lei Yang, Li Wang, | (参考訳) 3Dオブジェクト検出タスクの分野では、LiDARとカメラセンサーの不均一な特徴を統一されたBird's Eye View(BEV)表現に融合することが広く採用されているパラダイムである。
しかし、既存の手法は、しばしば不正確なセンサーキャリブレーションによって妥協され、LiDARカメラのBEV融合における特徴的不一致をもたらす。
さらに、このような不正確さは、カメラブランチの深さ推定の誤差をもたらし、最終的にLiDARとカメラBEVの特徴の不一致を引き起こす。
本研究では,異種モードのアライメントを向上し,融合プロセスの堅牢性を向上させるために,コントラストアライメントを用いた新しいコントラストアライメント手法を提案する。
具体的には、LiDAR BEV機能内で直接LiDARインスタンス機能を出力するL-Instanceモジュールを含む。
次に,カメラBEV機能上でのRoI(Region of Interest)プールによるカメラインスタンス機能の予測を行うC-Instanceモジュールを紹介する。
異種多様度にまたがる類似のインスタンス機能を生成するために,コントラスト学習を利用するインスタンスフュージョンモジュールを提案する。
次に、グラフマッチングを使用して、隣接するカメラインスタンス機能と類似度インスタンス機能との類似度を計算し、インスタンス機能のアライメントを完了します。
MAPは70.3%であり, nuScenes 検証セットでは BEVFusion を 1.8% 上回っている。
BEVFusionを7.3%改善し,騒音の悪さを解消した。
In the field of 3D object detection tasks, fusing heterogeneous features from LiDAR and camera sensors into a unified Bird's Eye View (BEV) representation is a widely adopted paradigm. However, existing methods are often compromised by imprecise sensor calibration, resulting in feature misalignment in LiDAR-camera BEV fusion. Moreover, such inaccuracies result in errors in depth estimation for the camera branch, ultimately causing misalignment between LiDAR and camera BEV features. In this work, we propose a novel ContrastAlign approach that utilizes contrastive learning to enhance the alignment of heterogeneous modalities, thereby improving the robustness of the fusion process. Specifically, our approach includes the L-Instance module, which directly outputs LiDAR instance features within LiDAR BEV features. Then, we introduce the C-Instance module, which predicts camera instance features through RoI (Region of Interest) pooling on the camera BEV features. We propose the InstanceFusion module, which utilizes contrastive learning to generate similar instance features across heterogeneous modalities. We then use graph matching to calculate the similarity between the neighboring camera instance features and the similarity instance features to complete the alignment of instance features. Our method achieves state-of-the-art performance, with an mAP of 70.3%, surpassing BEVFusion by 1.8% on the nuScenes validation set. Importantly, our method outperforms BEVFusion by 7.3% under conditions with misalignment noise. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# I-LLM:完全量子化低ビット大言語モデルのための効率的な整数オンリー推論
I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models ( http://arxiv.org/abs/2405.17849v2 ) ライセンス: Link先を確認 | Xing Hu, Yuan Cheng, Dawei Yang, Zhihang Yuan, Jiangyong Yu, Chen Xu, Sifan Zhou, | (参考訳) 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論を加速する強力な手法である。
それでも、既存の作業は、RMSNormやSoftmaxのような非線形演算子と同様に、さらなる量子化や非量子化を含む、推論中にかなりの数の浮動小数点演算を必要とする。
この制限は、エッジとクラウドデバイスへのLSMのデプロイを妨げる。
本稿では,LLMにおける整数のみの量子化の主な障害は,線形演算と非線形演算の両方において,チャネルとトークン間のアクティベーションが大きく変動することにある。
この問題に対処するために,LLMに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。
具体的には,(1)全てのアクティベーションと重みのチャネル間変動を積極的にスムースに行うために,FSBR(Fully-Smooth Block-Reconstruction)を開発した。
2) トキン間変異による劣化を軽減するため, 動的整数のみのMatMul (DI-MatMul) と呼ばれる新しいアプローチを導入する。
この方法は整数のみの演算で入力と出力を動的に量子化することにより、全整数行列乗法における動的量子化を可能にする。
(3) ビットシフトを利用したDI-ClippedSoftmax, DI-Exp, DI-Normalizationを設計し, 精度を維持しつつ, 非線形演算子を効率的に実行する。
実験の結果,我々のI-LLMはFPベースラインに匹敵する精度を達成し,非整数量子化法より優れていた。
例えば、I-LLMはW4A4で動作でき、精度は無視できる。
我々の知る限り、我々は整数のみの量子化と LLM のギャップを埋める最初の人物である。
我々は、この分野の進歩に貢献することを目的として、匿名の.4open.scienceに関するコードを公開しました。
Post-training quantization (PTQ) serves as a potent technique to accelerate the inference of large language models (LLMs). Nonetheless, existing works still necessitate a considerable number of floating-point (FP) operations during inference, including additional quantization and de-quantization, as well as non-linear operators such as RMSNorm and Softmax. This limitation hinders the deployment of LLMs on the edge and cloud devices. In this paper, we identify the primary obstacle to integer-only quantization for LLMs lies in the large fluctuation of activations across channels and tokens in both linear and non-linear operations. To address this issue, we propose I-LLM, a novel integer-only fully-quantized PTQ framework tailored for LLMs. Specifically, (1) we develop Fully-Smooth Block-Reconstruction (FSBR) to aggressively smooth inter-channel variations of all activations and weights. (2) to alleviate degradation caused by inter-token variations, we introduce a novel approach called Dynamic Integer-only MatMul (DI-MatMul). This method enables dynamic quantization in full-integer matrix multiplication by dynamically quantizing the input and outputs with integer-only operations. (3) we design DI-ClippedSoftmax, DI-Exp, and DI-Normalization, which utilize bit shift to execute non-linear operators efficiently while maintaining accuracy. The experiment shows that our I-LLM achieves comparable accuracy to the FP baseline and outperforms non-integer quantization methods. For example, I-LLM can operate at W4A4 with negligible loss of accuracy. To our knowledge, we are the first to bridge the gap between integer-only quantization and LLMs. We've published our code on anonymous.4open.science, aiming to contribute to the advancement of this field. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# 対数回帰に束縛された次元自由一様濃度
Dimension-free uniform concentration bound for logistic regression ( http://arxiv.org/abs/2405.18055v2 ) ライセンス: Link先を確認 | Shogo Nakakita, | (参考訳) 制約付きロジスティック回帰の経験的リスク関数に拘束された新しい次元自由一様濃度を与える。
我々の境界は、ラデマッハ複雑性論とマクダイアルメイドの不等式によって導かれる条件よりも大きな数の一様法則に対して、より穏やかな条件をもたらす。
この導出は、2階展開を持つPAC-ベイズ法と、拡張の残余項に対するラデマッハ複素性に基づく境界に基づくものである。
We provide a novel dimension-free uniform concentration bound for the empirical risk function of constrained logistic regression. Our bound yields a milder sufficient condition for a uniform law of large numbers than conditions derived by the Rademacher complexity argument and McDiarmid's inequality. The derivation is based on the PAC-Bayes approach with second-order expansion and Rademacher-complexity-based bounds for the residual term of the expansion. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# 視覚言語ナビゲーションのための大規模モデルによる修正可能なランドマーク発見
Correctable Landmark Discovery via Large Models for Vision-Language Navigation ( http://arxiv.org/abs/2405.18721v2 ) ライセンス: Link先を確認 | Bingqian Lin, Yunshuang Nie, Ziming Wei, Yi Zhu, Hang Xu, Shikui Ma, Jianzhuang Liu, Xiaodan Liang, | (参考訳) Vision-Language Navigation (VLN) は、ターゲット位置に到達するために、エージェントが言語命令に従う必要がある。
ナビゲーションを成功させる重要な要因は、指導で暗示されるランドマークを様々な視覚的観察と整合させることである。
しかしながら、以前のVLNエージェントは、限られたナビゲーションデータから学習し、十分なオープンワールドアライメント知識がないため、特に探索されていないシーンでは正確なモダリティアライメントを実行できない。
本研究では,Currectable LaNdmark DiScOvery と呼ばれる新しい VLN パラダイムをLarge ModEls (CONSOLE) 経由で提案する。
CONSOLEでは、2つの大きなモデルChatGPTとCLIPに基づく新しい修正可能なランドマーク発見スキームを導入することで、VLNをオープンワールドシーケンシャルなランドマーク発見問題として捉えた。
具体的には、ChatGPTを使用して、豊かなオープンワールドのランドマークコモンセンスを提供し、これらのコモンセンスに基づいてCLIP駆動のランドマーク発見を行う。
視覚的制約の欠如による前者の騒音を軽減するため,学習可能な共起スコアリングモジュールを導入し,実際の観測結果に基づいて各共起の重要度を補正し,正確なランドマーク発見を行う。
我々はさらに、異なるVLNエージェントとエレガントな組み合わせのための観察強化戦略を設計し、修正されたランドマーク特徴を用いて行動決定のための観察機能を得る。
複数の人気のあるVLNベンチマーク(R2R、REVERIE、R4R、RxR)の大規模な実験結果から、強力なベースラインよりもCONSOLEの顕著な優位性が確認された。
特に,我々のCONSOLEは,目に見えないシナリオにおいて,R2RとR4Rの最先端結果を確立している。
コードはhttps://github.com/expectorlin/CONSOLEで入手できる。
Vision-Language Navigation (VLN) requires the agent to follow language instructions to reach a target position. A key factor for successful navigation is to align the landmarks implied in the instruction with diverse visual observations. However, previous VLN agents fail to perform accurate modality alignment especially in unexplored scenes, since they learn from limited navigation data and lack sufficient open-world alignment knowledge. In this work, we propose a new VLN paradigm, called COrrectable LaNdmark DiScOvery via Large ModEls (CONSOLE). In CONSOLE, we cast VLN as an open-world sequential landmark discovery problem, by introducing a novel correctable landmark discovery scheme based on two large models ChatGPT and CLIP. Specifically, we use ChatGPT to provide rich open-world landmark cooccurrence commonsense, and conduct CLIP-driven landmark discovery based on these commonsense priors. To mitigate the noise in the priors due to the lack of visual constraints, we introduce a learnable cooccurrence scoring module, which corrects the importance of each cooccurrence according to actual observations for accurate landmark discovery. We further design an observation enhancement strategy for an elegant combination of our framework with different VLN agents, where we utilize the corrected landmark features to obtain enhanced observation features for action decision. Extensive experimental results on multiple popular VLN benchmarks (R2R, REVERIE, R4R, RxR) show the significant superiority of CONSOLE over strong baselines. Especially, our CONSOLE establishes the new state-of-the-art results on R2R and R4R in unseen scenarios. Code is available at https://github.com/expectorlin/CONSOLE. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# FUSU:きめ細かい都市セマンティック理解のための多時期的土地利用変化セグメンテーションデータセット
FUSU: A Multi-temporal-source Land Use Change Segmentation Dataset for Fine-grained Urban Semantic Understanding ( http://arxiv.org/abs/2405.19055v2 ) ライセンス: Link先を確認 | Shuai Yuan, Guancong Lin, Lixian Zhang, Runmin Dong, Jinxiao Zhang, Shuang Chen, Juepeng Zheng, Jie Wang, Haohuan Fu, | (参考訳) 都市部における人間と環境の相互作用を理解するためには,マルチ時間リモートセンシング画像を用いた都市変化セグメンテーションが不可欠である。
都市モニタリングのためのリモートセンシングデータの進歩にもかかわらず、粗粒度分類システムと連続時間観測の欠如は、深層学習の都市変化解析への応用を妨げている。
そこで本稿では,都市セマンティック理解のためのマルチソース・マルチ時間変化セグメンテーションデータセットであるFUSUを紹介する。
FUSUは、これまでで最も詳細な土地利用分類システムであり、17のクラスと300億ピクセルのアノテーションがある。
20-50cmの地上サンプルと月847km2の光学・レーダー衛星時系列の両時間高解像度衛星画像を含む。
微細なピクセル単位のアノテーションと高空間時間分解能データにより、深層学習モデルが都市化と土地利用の変化を理解するための堅牢な基盤を提供する。
FUSUをフル活用するために,変更検出とセグメンテーションの両方に統一された時系列アーキテクチャを提案する。
データセットとコードは、https://github.com/yuanshuai0914/FUSU.com/で利用可能になる。
Fine urban change segmentation using multi-temporal remote sensing images is essential for understanding human-environment interactions in urban areas. Despite advances in remote sensing data for urban monitoring, coarse-grained classification systems and the lack of continuous temporal observations hinder the application of deep learning to urban change analysis. To address this, we introduce FUSU, a multi-source, multi-temporal change segmentation dataset for Fine-grained Urban Semantic Understanding. FUSU features the most detailed land use classification system to date, with 17 classes and 30 billion pixels of annotations. It includes bi-temporal high-resolution satellite images with 20-50 cm ground sample distance and monthly optical and radar satellite time series, covering 847 km2 across five urban areas in China. The fine-grained pixel-wise annotations and high spatial-temporal resolution data provide a robust foundation for deep learning models to understand urbanization and land use changes. To fully leverage FUSU, we propose a unified time-series architecture for both change detection and segmentation and then benchmark FUSU on various methods for several tasks. Dataset and code will be available at: https://github.com/yuanshuai0914/FUSU. | 翻訳日:2024-06-06 23:59:22 公開日:2024-06-05 |
# Grokfast: Slow Gradientを増幅することで、グローキングを加速する
Grokfast: Accelerated Grokking by Amplifying Slow Gradients ( http://arxiv.org/abs/2405.20233v2 ) ライセンス: Link先を確認 | Jaerin Lee, Bong Gyun Kang, Kihoon Kim, Kyoung Mu Lee, | (参考訳) グラッキングと呼ばれる機械学習のファズリングアーティファクトのひとつは、トレーニングデータにほぼ完全にオーバーフィットした後、遅れた一般化が10倍のイテレーションで達成されることだ。
機械学習の実践者に代わって、長い遅れ自体に焦点をあてて、グラッキング現象下でのモデルの一般化を加速させることを目標としています。
時間とともに繰り返しを訓練する際のパラメータの勾配をランダムな信号として扱うことで、勾配降下の下でパラメータの軌道をスペクトル的に2つの成分に分解することができる。
この分析により、勾配の遅い成分を増幅する数行のコードだけで、$\times 50$以上のグルーキング現象を加速することができる。
実験により,本アルゴリズムは画像,言語,グラフを含む多種多様なタスクに適用され,突発的一般化のこの特異な成果物の実現が可能となった。
私たちのコードはhttps://github.com/ironjr/grokfast.comから入手可能です。
One puzzling artifact in machine learning dubbed grokking is where delayed generalization is achieved tenfolds of iterations after near perfect overfitting to the training data. Focusing on the long delay itself on behalf of machine learning practitioners, our goal is to accelerate generalization of a model under grokking phenomenon. By regarding a series of gradients of a parameter over training iterations as a random signal over time, we can spectrally decompose the parameter trajectories under gradient descent into two components: the fast-varying, overfitting-yielding component and the slow-varying, generalization-inducing component. This analysis allows us to accelerate the grokking phenomenon more than $\times 50$ with only a few lines of code that amplifies the slow-varying components of gradients. The experiments show that our algorithm applies to diverse tasks involving images, languages, and graphs, enabling practical availability of this peculiar artifact of sudden generalization. Our code is available at https://github.com/ironjr/grokfast. | 翻訳日:2024-06-06 23:49:24 公開日:2024-06-05 |
# 医師と医師の対話要約におけるロバスト性を探る:SOAPの外部ノートの分析
Exploring Robustness in Doctor-Patient Conversation Summarization: An Analysis of Out-of-Domain SOAP Notes ( http://arxiv.org/abs/2406.02826v1 ) ライセンス: Link先を確認 | Yu-Wen Chen, Julia Hirschberg, | (参考訳) 医学的会話の要約は、専門領域と、ドメイン内のトレーニングデータを集めることの難しさにより、ユニークな課題を生んでいる。
本研究では,現在最先端の医師と患者との会話生成モデルの性能について,ドメイン外データを用いて検討した。
1)主観的(S)、目的的(O)、評価的(A)、計画的(P)ノートを指定せずに、一般的なモデル、(2)SOAPセクションの要約を生成するSOAP指向モデルである。
両構成における細調整型言語モデルとGPTの限界と強みを解析した。
また、異なるデータセットのSOAPノートを比較するために、Lingguistic InquiryとWord Count分析を実施しました。
結果は、異なるデータセット間での参照ノートに対する強い相関を示し、フォーマットミスマッチ(すなわち、単語分布の相違)がドメイン外のデータのパフォーマンス低下の主な原因ではないことを示す。
最後に、SOAPノートの詳細な分析は、モデルが導入した不足情報や幻覚に関する洞察を提供するために含まれます。
Summarizing medical conversations poses unique challenges due to the specialized domain and the difficulty of collecting in-domain training data. In this study, we investigate the performance of state-of-the-art doctor-patient conversation generative summarization models on the out-of-domain data. We divide the summarization model of doctor-patient conversation into two configurations: (1) a general model, without specifying subjective (S), objective (O), and assessment (A) and plan (P) notes; (2) a SOAP-oriented model that generates a summary with SOAP sections. We analyzed the limitations and strengths of the fine-tuning language model-based methods and GPTs on both configurations. We also conducted a Linguistic Inquiry and Word Count analysis to compare the SOAP notes from different datasets. The results exhibit a strong correlation for reference notes across different datasets, indicating that format mismatch (i.e., discrepancies in word distribution) is not the main cause of performance decline on out-of-domain data. Lastly, a detailed analysis of SOAP notes is included to provide insights into missing information and hallucinations introduced by the models. | 翻訳日:2024-06-06 22:37:23 公開日:2024-06-05 |
# 確率拡散:確率時系列予測のための拡散確率モデル
Stochastic Diffusion: A Diffusion Probabilistic Model for Stochastic Time Series Forecasting ( http://arxiv.org/abs/2406.02827v1 ) ライセンス: Link先を確認 | Yuansan Liu, Sudanthi Wijewickrema, Dongting Hu, Christofer Bester, Stephen O'Leary, James Bailey, | (参考訳) 拡散確率モデルにおける最近の革新は、画像、テキスト、音声生成の大幅な進歩の道を開いた。
しかし、そのような能力を活用して高度に確率的な時系列データをモデル化することは依然として困難である。
本稿では,多変量時系列データの可変性をモデル化するために,確率潜在空間の表現力を利用して,各時点におけるデータ駆動事前知識を学習する新しい確率拡散(StochDiff)モデルを提案する。
学習された事前知識は、複雑な時間的ダイナミクスとデータ固有の不確実性を捉えるのに役立つ。
これにより、高度に確率的な時系列データをモデル化する能力が向上する。
実世界のデータセットに関する広範な実験を通じて,提案モデルが確率的時系列予測に与える影響を実証する。
さらに,本モデルを用いた実世界の外科的指導について紹介し,医療コミュニティに利益をもたらす可能性を強調した。
Recent innovations in diffusion probabilistic models have paved the way for significant progress in image, text and audio generation, leading to their applications in generative time series forecasting. However, leveraging such abilities to model highly stochastic time series data remains a challenge. In this paper, we propose a novel Stochastic Diffusion (StochDiff) model which learns data-driven prior knowledge at each time step by utilizing the representational power of the stochastic latent spaces to model the variability of the multivariate time series data. The learnt prior knowledge helps the model to capture complex temporal dynamics and the inherent uncertainty of the data. This improves its ability to model highly stochastic time series data. Through extensive experiments on real-world datasets, we demonstrate the effectiveness of our proposed model on stochastic time series forecasting. Additionally, we showcase an application of our model for real-world surgical guidance, highlighting its potential to benefit the medical community. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# 大規模言語モデルは認知症関連言語異常の誘発に不均衡に耐性がある
Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies ( http://arxiv.org/abs/2406.02830v1 ) ライセンス: Link先を確認 | Changye Li, Zhecheng Sheng, Trevor Cohen, Serguei Pakhomov, | (参考訳) 人工ニューラルネットワークが複雑化するにつれて、その内部動作を理解することはますます難しくなり、医療応用において特に重要である。
自己回帰型ニューラルネットワークモデル(NLM)、パープレキシティ(PPL)の本質的な評価基準は、NLMモデルがいかに新しい入力であるかを反映することができる。
PPLはNLMの挙動を理解するために広く用いられている。
以上の結果より, アルツハイマー病認知症に伴う言語異常を反映し, 注意層をマスキングする場合のPPLの変化が示唆された。
そこで我々は,脳により多くのニューロンを持ち,より効率的な処理を行う人が神経変性に対してより耐性を持つことを仮定した,認知と脳保護の概念に起因した特性を示す,新しい双方向注意頭アブレーション法を提案する。
以上の結果から,より大型のGPT-2モデルでは,より小型のモデルではマスキングに類似した大きさの劣化を示すために,マスキング/アタッチメントの差が大きいことが示唆された。
これらの結果は、トランスフォーマーモデルにおける注意機構が認知と脳保護の概念に類似している可能性を示し、神経変性疾患や老化の進行の特定の側面をモデル化する可能性があることを示唆している。
As artificial neural networks grow in complexity, understanding their inner workings becomes increasingly challenging, which is particularly important in healthcare applications. The intrinsic evaluation metrics of autoregressive neural language models (NLMs), perplexity (PPL), can reflect how "surprised" an NLM model is at novel input. PPL has been widely used to understand the behavior of NLMs. Previous findings show that changes in PPL when masking attention layers in pre-trained transformer-based NLMs reflect linguistic anomalies associated with Alzheimer's disease dementia. Building upon this, we explore a novel bidirectional attention head ablation method that exhibits properties attributed to the concepts of cognitive and brain reserve in human brain studies, which postulate that people with more neurons in the brain and more efficient processing are more resilient to neurodegeneration. Our results show that larger GPT-2 models require a disproportionately larger share of attention heads to be masked/ablated to display degradation of similar magnitude to masking in smaller models. These results suggest that the attention mechanism in transformer models may present an analogue to the notions of cognitive and brain reserve and could potentially be used to model certain aspects of the progression of neurodegenerative disorders and aging. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# 弱教師付きビデオ異常検出のための蒸留集約知識
Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection ( http://arxiv.org/abs/2406.02831v1 ) ライセンス: Link先を確認 | Jash Dalvi, Ali Dabouei, Gunjan Dhanuka, Min Xu, | (参考訳) ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
このタスクのベンチマーク設定は非常に難しい。
一 訓練セットの限られた大きさ
二 ビデオレベルラベルで定める監督の弱さ
三 異常事象の欠如により生ずる内因性階級不均衡
本研究では,複数のバックボーンの集合的表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
特に,二段階蒸留法と新規な非絡み合い型特徴集約ネットワークを開発した。
提案手法であるDAKD(Distilling Aggregated Knowledge with Disentangled Attention)は,複数のベンチマークデータセットにまたがる既存手法と比較して,優れた性能を示す。
特に、UCF-Crime、ShanghaiTech、XD-Violenceデータセットでそれぞれ1.36%、0.78%、および7.02%の大幅な改善を実現しています。
Video anomaly detection aims to develop automated models capable of identifying abnormal events in surveillance videos. The benchmark setup for this task is extremely challenging due to: i) the limited size of the training sets, ii) weak supervision provided in terms of video-level labels, and iii) intrinsic class imbalance induced by the scarcity of abnormal events. In this work, we show that distilling knowledge from aggregated representations of multiple backbones into a relatively simple model achieves state-of-the-art performance. In particular, we develop a bi-level distillation approach along with a novel disentangled cross-attention-based feature aggregation network. Our proposed approach, DAKD (Distilling Aggregated Knowledge with Disentangled Attention), demonstrates superior performance compared to existing methods across multiple benchmark datasets. Notably, we achieve significant improvements of 1.36%, 0.78%, and 7.02% on the UCF-Crime, ShanghaiTech, and XD-Violence datasets, respectively. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# 低ランク行列補完アルゴリズムを用いた効率よい最小ベイズリスク復号法
Efficient Minimum Bayes Risk Decoding using Low-Rank Matrix Completion Algorithms ( http://arxiv.org/abs/2406.02832v1 ) ライセンス: Link先を確認 | Firas Trabelsi, David Vilar, Mara Finkelstein, Markus Freitag, | (参考訳) 最小ベイズリスク(MBR)復号法は、テキスト生成タスクに広く用いられている強力な復号法であるが、その2次計算複雑性は実用的応用を制限している。
本稿では,機械翻訳のタスクに着目し,行列補完手法を用いてMBRデコーディングを近似する手法を提案する。
MBR復号を行列完備問題として定式化し、候補仮説と擬似参照変換の間の有効度スコアを低ランク行列とする。
まず、スコア行列が実際に低ランク構造を持っていることを実証的に示す。
そこで我々は,この手法を,スコアのランダムな部分集合のみを計算し,Alternating Least Squares (ALS) アルゴリズムを適用して,行列内の欠落成分を効率よく回収することにより,MBR復号プロセスの高速な近似を可能にする。
WMT22データセット(en<>de, en<>ru)上でCOMET22が測定した等価翻訳品質を実現しつつ, 機械翻訳タスクにおいて, 提案手法はバニラMBR復号よりも1/16効用メトリック計算を必要とすることを示した。
また,本手法を他の近似法と比較し,それと比較した場合の品質向上を示す。
Minimum Bayes Risk (MBR) decoding is a powerful decoding strategy widely used for text generation tasks, but its quadratic computational complexity limits its practical application. This paper presents a novel approach for approximating MBR decoding using matrix completion techniques, focusing on the task of machine translation. We formulate MBR decoding as a matrix completion problem, where the utility metric scores between candidate hypotheses and pseudo-reference translations form a low-rank matrix. First, we empirically show that the scores matrices indeed have a low-rank structure. Then, we exploit this by only computing a random subset of the scores and efficiently recover the missing entries in the matrix by applying the Alternating Least Squares (ALS) algorithm, thereby enabling a fast approximation of the MBR decoding process. Our experimental results on machine translation tasks demonstrate that the proposed method requires 1/16 utility metric computations compared to vanilla MBR decoding while achieving equal translation quality measured by COMET22 on the WMT22 dataset (en<>de and en<>ru). We also benchmark our method against other approximation methods and we show gains in quality when comparing to them. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# DenoDet: SAR画像におけるターゲット検出のための変形可能なマルチサブスペース機能としての注意
DenoDet: Attention as Deformable Multi-Subspace Feature Denoising for Target Detection in SAR Images ( http://arxiv.org/abs/2406.02833v1 ) ライセンス: Link先を確認 | Yimian Dai, Minrui Zou, Yuxuan Li, Xiang Li, Kang Ni, Jian Yang, | (参考訳) SAR(Synthetic Aperture Radar)のターゲット検出は、固有のスペックルノイズや、小型であいまいなターゲットの出現によって長い間妨げられてきた。
ディープニューラルネットワークはSARターゲット検出を先進的に進めているが、本質的な低周波バイアスと静的な後トレーニングの重みはコヒーレントノイズに悩まされ、不均一な地形にわたって微妙な詳細を保存している。
従来のSAR画像デノベーションにより、畳み込みバイアスを校正し、高周波数に注意を払い、マルチサブスペースデノベーションの観点からターゲットを検出する自然なマルチスケールサブスペース表現を形成するために、明示的な周波数領域変換によって支援されるネットワークであるDenoDetを提案する。
我々はトランスデノ(TransDeno)を設計する。トランスデノ(TransDeno)は変換領域のソフトしきい値処理として動作し、サルエントターゲット信号の保存とノイズの減衰によりサブスペースを動的にデノイングする。
また、サブスペース処理の粒度を適応的に調整するために、入力特徴に条件付けられた群を動的に変化させる変形可能なグループ完全連結層(DeGroFC)を提案する。
ベルとホイッスルがなければ、プラグ&プレイのTransDenoは複数のSARターゲット検出データセットに対して最先端のスコアを設定する。
コードはhttps://github.com/GrokCV/GrokSARで入手できる。
Synthetic Aperture Radar (SAR) target detection has long been impeded by inherent speckle noise and the prevalence of diminutive, ambiguous targets. While deep neural networks have advanced SAR target detection, their intrinsic low-frequency bias and static post-training weights falter with coherent noise and preserving subtle details across heterogeneous terrains. Motivated by traditional SAR image denoising, we propose DenoDet, a network aided by explicit frequency domain transform to calibrate convolutional biases and pay more attention to high-frequencies, forming a natural multi-scale subspace representation to detect targets from the perspective of multi-subspace denoising. We design TransDeno, a dynamic frequency domain attention module that performs as a transform domain soft thresholding operation, dynamically denoising across subspaces by preserving salient target signals and attenuating noise. To adaptively adjust the granularity of subspace processing, we also propose a deformable group fully-connected layer (DeGroFC) that dynamically varies the group conditioned on the input features. Without bells and whistles, our plug-and-play TransDeno sets state-of-the-art scores on multiple SAR target detection datasets. The code is available at https://github.com/GrokCV/GrokSAR. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# DREW : エラー制御型透かしの活用によるロバストデータ保護に向けて
DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking ( http://arxiv.org/abs/2406.02836v1 ) ライセンス: Link先を確認 | Mehrdad Saberi, Vinu Sankar Sadasivan, Arman Zarei, Hessam Mahdavifar, Soheil Feizi, | (参考訳) データオーナシップ保護、メディアの法医学、AI生成コンテンツの検出など、データの起源の特定はデータの証明に不可欠である。
標準的なアプローチは、クエリデータと参照データセットのエントリをマッチングする埋め込みベースの検索技術である。
しかし、この方法は良心や悪意のある編集に対して堅牢ではない。
そこで我々は,誤り訂正符号とウォーターマーキング(DREW)を用いたデータ検索手法を提案する。
DREWは、参照データセットをランダムにクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入し、クエリ時にこれらのキーを使用して、所定のサンプルに対して適切なクラスタを特定する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
エラー制御符号(ECC)の統合により、信頼性の高いクラスタ割り当てが保証され、ECCアルゴリズムが正しいクラスタを高い信頼性で検出できない場合に、データセット全体の検索が可能になる。
これにより、DREWはベースラインのパフォーマンスを維持しつつ、データセットの小さなサブセットで検索を行う際に、クエリをその起源と正しく一致させる可能性が高くなるため、パフォーマンス改善の機会を提供する。
使用した透かし技術によって、DREWは複数のデータセットと最先端の埋め込みモデル(例えば、DinoV2、CLIP)にわたる検索精度(いくつかのデータセットや修正タイプで最大40%)を大幅に改善し、セキュアで信頼性の高いソース識別のための有望なソリューションとなる。
コードはhttps://github.com/mehrdadsaberi/DREWで公開されている。
Identifying the origin of data is crucial for data provenance, with applications including data ownership protection, media forensics, and detecting AI-generated content. A standard approach involves embedding-based retrieval techniques that match query data with entries in a reference dataset. However, this method is not robust against benign and malicious edits. To address this, we propose Data Retrieval with Error-corrected codes and Watermarking (DREW). DREW randomly clusters the reference dataset, injects unique error-controlled watermark keys into each cluster, and uses these keys at query time to identify the appropriate cluster for a given sample. After locating the relevant cluster, embedding vector similarity retrieval is performed within the cluster to find the most accurate matches. The integration of error control codes (ECC) ensures reliable cluster assignments, enabling the method to perform retrieval on the entire dataset in case the ECC algorithm cannot detect the correct cluster with high confidence. This makes DREW maintain baseline performance, while also providing opportunities for performance improvements due to the increased likelihood of correctly matching queries to their origin when performing retrieval on a smaller subset of the dataset. Depending on the watermark technique used, DREW can provide substantial improvements in retrieval accuracy (up to 40\% for some datasets and modification types) across multiple datasets and state-of-the-art embedding models (e.g., DinoV2, CLIP), making our method a promising solution for secure and reliable source identification. The code is available at https://github.com/mehrdadsaberi/DREW | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# サンプルを一度だけ受け入れる:高速で自己修正可能な確率的変分推論
You Only Accept Samples Once: Fast, Self-Correcting Stochastic Variational Inference ( http://arxiv.org/abs/2406.02838v1 ) ライセンス: Link先を確認 | Dominic B. Dayta, | (参考訳) 大規模なベイズ系モデル上での変分推論(VI)に対する高速で自己修正確率的最適化を行うアルゴリズムである YOASOVI を紹介する。
これを実現するために、各繰り返しにおける確率 VI の目的関数に関する情報を利用して、通常のモンテカルロサンプリングを受入サンプリングに置き換える。
グラデーションのための大きなサンプルを描画・評価するために計算資源を費やすのではなく、1つのサンプルのみを描画し、目標の期待された改善に比例した確率で受け入れる。
下記の論文では, 素直な直観に基づくアルゴリズムと, メトロポリス型スキームとして構築したアルゴリズムの2つのバージョンについて述べる。
多変量ガウス混合モデルのためのシミュレーションとベンチマークデータセットに基づく実験結果から、ヨアソビは正規化モンテカルロと準モンテカルロVIのアルゴリズムよりも、連続的に(時計時間で)より早く、より良い近傍に収束することが示された。
We introduce YOASOVI, an algorithm for performing fast, self-correcting stochastic optimization for Variational Inference (VI) on large Bayesian heirarchical models. To accomplish this, we take advantage of available information on the objective function used for stochastic VI at each iteration and replace regular Monte Carlo sampling with acceptance sampling. Rather than spend computational resources drawing and evaluating over a large sample for the gradient, we draw only one sample and accept it with probability proportional to the expected improvement in the objective. The following paper develops two versions of the algorithm: the first one based on a naive intuition, and another building up the algorithm as a Metropolis-type scheme. Empirical results based on simulations and benchmark datasets for multivariate Gaussian mixture models show that YOASOVI consistently converges faster (in clock time) and within better optimal neighborhoods than both regularized Monte Carlo and Quasi-Monte Carlo VI algorithms. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# 条件等等化生成ネットワーク
Conditional Idempotent Generative Networks ( http://arxiv.org/abs/2406.02841v1 ) ライセンス: Link先を確認 | Niccolò Ronchetti, | (参考訳) 本稿では,条件付き生成ネットワーク(CIGN, Conditional Idempotent Generative Networks)を提案する。
IGNは効率的なシングルパス生成を提供するが、生成されたデータの内容を制御する能力は欠如している。
CIGNは条件付け機構を組み込むことでこの制限に対処し、ユーザーは特定のタイプのデータに対して生成プロセスを制御できる。
我々は,CIGNの理論的基盤を確立し,その範囲,損失関数設計,評価指標について概説する。
次に、チャネル条件付けとフィルタ条件付けという、CIGNを実装するための2つの潜在的アーキテクチャを提案する。
最後に,MNISTデータセットの実験結果について考察し,両手法の有効性を実証する。
我々の発見は、より大規模なデータセットとより強力な計算資源でCIGNを探索し、最適な実装戦略を決定するための道を開いた。
We propose Conditional Idempotent Generative Networks (CIGN), a novel approach that expands upon Idempotent Generative Networks (IGN) to enable conditional generation. While IGNs offer efficient single-pass generation, they lack the ability to control the content of the generated data. CIGNs address this limitation by incorporating conditioning mechanisms, allowing users to steer the generation process towards specific types of data. We establish the theoretical foundations for CIGNs, outlining their scope, loss function design, and evaluation metrics. We then present two potential architectures for implementing CIGNs: channel conditioning and filter conditioning. Finally, we discuss experimental results on the MNIST dataset, demonstrating the effectiveness of both approaches. Our findings pave the way for further exploration of CIGNs on larger datasets and with more powerful computing resources to determine the optimal implementation strategy. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# 拡散特性に対する再帰的正規化カットによるゼロショット画像分割
Zero-Shot Image Segmentation via Recursive Normalized Cut on Diffusion Features ( http://arxiv.org/abs/2406.02842v1 ) ライセンス: Link先を確認 | Paul Couairon, Mustafa Shukor, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome, | (参考訳) ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
以前の研究は教師なしのイメージセグメンテーションに対処してきたが、教師付きモデルにはかなり遅れている。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,最終的な自己注意ブロックからの出力特徴のみを利用する教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
広汎な実験により,グラフベースセグメンテーションアルゴリズムにおける拡散特性の利用が,ゼロショットセグメンテーションにおける従来の最先端手法を著しく上回ることを示した。
具体的には、検出対象の粒度をソフトに制御する再帰的正規化カットアルゴリズムを活用し、複雑な画像の詳細を正確にキャプチャする明確に定義されたセグメンテーションマップを生成する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
Project page at https://diffcut-segmentation.github.io
Foundation models have emerged as powerful tools across various domains including language, vision, and multimodal tasks. While prior works have addressed unsupervised image segmentation, they significantly lag behind supervised models. In this paper, we use a diffusion UNet encoder as a foundation vision encoder and introduce DiffCut, an unsupervised zero-shot segmentation method that solely harnesses the output features from the final self-attention block. Through extensive experimentation, we demonstrate that the utilization of these diffusion features in a graph based segmentation algorithm, significantly outperforms previous state-of-the-art methods on zero-shot segmentation. Specifically, we leverage a recursive Normalized Cut algorithm that softly regulates the granularity of detected objects and produces well-defined segmentation maps that precisely capture intricate image details. Our work highlights the remarkably accurate semantic knowledge embedded within diffusion UNet encoders that could then serve as foundation vision encoders for downstream tasks. Project page at https://diffcut-segmentation.github.io | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# 対話レコメンデーションのための項目言語モデル
Item-Language Model for Conversational Recommendation ( http://arxiv.org/abs/2406.02844v1 ) ライセンス: Link先を確認 | Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal, | (参考訳) 大規模言語モデル(LLM)は、複雑な対話理解、推論、コーディングといったタスクにおいて、その創発的な能力によって非常に成功した。
これらの創発的能力は、画像、オーディオ、ビデオ機能を含むマルチモードで拡張されている。
一方、レコメンダシステムは、情報検索やアイテム発見のニーズに対して重要な役割を担っている。
近年,レコメンデーションにLLMを適用しようとする試みがある。
現在の試みの難しさの1つは、LLMが通常、ユーザーインタラクション信号を含むレコメンデータシステムデータでトレーニングされていないことであり、一般には利用できないことが多いことである。
もう1つの困難は、ユーザインタラクション信号が自然言語のテキストと異なるパターンを持っていることであり、LLMトレーニング設定が従来のレコメンデータシステム手法と比較して、インタラクション信号からより簡単な知識を学べるかは、現時点では不明である。
最後に、複数のLDMを異なるユースケースで訓練することは困難であり、レコメンデーションシステムデータから学習する際、元の言語と推論能力を維持することは困難である。
これら3つの制約に対処するために,ユーザインタラクション信号をエンコードするテキスト整列アイテム表現を生成するアイテムエンコーダと,保存済みの知識でこれらのアイテム表現を理解可能な凍結LDMからなるアイテムランゲージモデル(ILM)を提案する。
項目エンコーダにおける言語アライメントの重要性とユーザインタラクション知識の両立を実証する広範な実験を行う。
Large-language Models (LLMs) have been extremely successful at tasks like complex dialogue understanding, reasoning and coding due to their emergent abilities. These emergent abilities have been extended with multi-modality to include image, audio, and video capabilities. Recommender systems, on the other hand, have been critical for information seeking and item discovery needs. Recently, there have been attempts to apply LLMs for recommendations. One difficulty of current attempts is that the underlying LLM is usually not trained on the recommender system data, which largely contains user interaction signals and is often not publicly available. Another difficulty is user interaction signals often have a different pattern from natural language text, and it is currently unclear if the LLM training setup can learn more non-trivial knowledge from interaction signals compared with traditional recommender system methods. Finally, it is difficult to train multiple LLMs for different use-cases, and to retain the original language and reasoning abilities when learning from recommender system data. To address these three limitations, we propose an Item-Language Model (ILM), which is composed of an item encoder to produce text-aligned item representations that encode user interaction signals, and a frozen LLM that can understand those item representations with preserved pretrained knowledge. We conduct extensive experiments which demonstrate both the importance of the language-alignment and of user interaction knowledge in the item encoder. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# モデルウェイトへのインテクスト学習の厳密な変換
Exact Conversion of In-Context Learning to Model Weights ( http://arxiv.org/abs/2406.02847v1 ) ライセンス: Link先を確認 | Brian K Chen, Tianyang Hu, Hui Jin, Hwee Kuan Lee, Kenji Kawaguchi, | (参考訳) In-Context Learning (ICL)は、近年注目を集めている大規模言語モデルの強力な創発的特性である。
正規勾配に基づく学習とは対照的に、ICLは高度に解釈可能であり、パラメータ更新を必要としない。
本稿では,線形化変圧器ネットワークにおいて,バイアス項を含めることで,ICLを明示的かつ永続的にすることができることを示す。
我々は、ICLデモプロンプトを持つモデルと、追加のバイアス項を持つモデルとの等価性を数学的に示す。
我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
既存のメソッドは正確ではなく、高価なパラメータ更新を必要とする。
ICLトークンを線形変換器に正確に組み込む実験により,本手法の有効性を実証する。
さらに,線形化されていない正規変圧器ネットワークにおいても,ICLトークンの高精度な近似変換を実現する方法を提案する。
GPT-2の実験では、変換が近似的であるにもかかわらず、モデルが包含されたバイアス項から価値ある文脈を得ることを示した。
In-Context Learning (ICL) has been a powerful emergent property of large language models that has attracted increasing attention in recent years. In contrast to regular gradient-based learning, ICL is highly interpretable and does not require parameter updates. In this paper, we show that, for linearized transformer networks, ICL can be made explicit and permanent through the inclusion of bias terms. We mathematically demonstrate the equivalence between a model with ICL demonstration prompts and the same model with the additional bias terms. Our algorithm (ICLCA) allows for exact conversion in an inexpensive manner. Existing methods are not exact and require expensive parameter updates. We demonstrate the efficacy of our approach through experiments that show the exact incorporation of ICL tokens into a linear transformer. We further suggest how our method can be adapted to achieve cheap approximate conversion of ICL tokens, even in regular transformer networks that are not linearized. Our experiments on GPT-2 show that, even though the conversion is only approximate, the model still gains valuable context from the included bias terms. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# Xmodel-LM技術報告
Xmodel-LM Technical Report ( http://arxiv.org/abs/2406.02856v1 ) ライセンス: Link先を確認 | Yichuan Wang, Yang Liu, Yu Yan, Xucheng Huang, Ling Jiang, | (参考訳) 2兆以上のトークンで事前訓練されたコンパクトで効率的な1.1B言語モデルであるXmodel-LMを紹介する。
ダウンストリームタスク最適化に基づいて、中国語と英語のコーパスのバランスをとる自己構築データセット(Xdata)に基づいて、Xmodel-LMは、そのサイズが小さいにもかかわらず、顕著なパフォーマンスを示す。
特に、同様の規模の既存のオープンソース言語モデルを上回っている。
私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelLMで公開されています。
We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on over 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# TSPDiffuser:トラベリングセールスパーソンパス計画問題のための学習サンプリングとしての拡散モデル
TSPDiffuser: Diffusion Models as Learned Samplers for Traveling Salesperson Path Planning Problems ( http://arxiv.org/abs/2406.02858v1 ) ライセンス: Link先を確認 | Ryo Yonetani, | (参考訳) 本稿では,トラベリングセールスパーソンパス計画問題(TSPPP)を,障害に富んだ環境下で行う新しいデータ駆動型パスプランナーTSPDiffuserを提案する。
障害物マップ内の目的地の集合を考慮に入れれば、最も短い衝突のない経路を効率的に見つけることが目的である。
TSPDiffuser では,大量の TSPPP インスタンスとその各ソリューション上で拡散モデルを訓練し,未知の問題インスタンスに対する可塑性経路を生成する。
このモデルは学習したサンプルとして利用でき、少数のノードとエッジを持つ潜在的なソリューションを含むロードマップを構築することができる。
このアプローチにより、目的地間の移動コストを効率よく正確に推定することができ、TSPPPの解法における主要な計算課題に効果的に対処できる。
各種合成・実世界の屋内・屋外環境を用いた実験評価は,ソリューションの品質と計算時間とのトレードオフの観点から,既存の手法よりもTSPDiffuserの有効性を示す。
This paper presents TSPDiffuser, a novel data-driven path planner for traveling salesperson path planning problems (TSPPPs) in environments rich with obstacles. Given a set of destinations within obstacle maps, our objective is to efficiently find the shortest possible collision-free path that visits all the destinations. In TSPDiffuser, we train a diffusion model on a large collection of TSPPP instances and their respective solutions to generate plausible paths for unseen problem instances. The model can then be employed as a learned sampler to construct a roadmap that contains potential solutions with a small number of nodes and edges. This approach enables efficient and accurate estimation of traveling costs between destinations, effectively addressing the primary computational challenge in solving TSPPPs. Experimental evaluations with diverse synthetic and real-world indoor/outdoor environments demonstrate the effectiveness of TSPDiffuser over existing methods in terms of the trade-off between solution quality and computational time requirements. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# ラベルなしサンプルを活用したガイダンス情報の再考:ラベルエンコーディングの視点から
Rethinking Guidance Information to Utilize Unlabeled Samples:A Label Encoding Perspective ( http://arxiv.org/abs/2406.02862v1 ) ライセンス: Link先を確認 | Yulong Zhang, Yuan Yao, Shuhao Chen, Pengrong Jin, Yu Zhang, Jian Jin, Jiangang Lu, | (参考訳) 経験的リスク最小化(ERM)は、ラベル付きサンプルが不十分なシナリオでは脆弱である。
ERMから未ラベルのサンプルへのバニラ拡張としてエントロピー最小化(EntMin)があり、未ラベルのサンプルのソフトラベルを使って学習をガイドしている。
しかしEntMinは、予測の多様性を無視しながら、予測の差別性を強調している。
この問題を軽減するため,本稿では,未ラベルサンプルを利用するためのガイダンス情報を再考する。
ERMの学習目標を解析することにより、特定のカテゴリにおけるラベル付きサンプルのガイダンス情報が対応するラベルエンコーディングであることが分かる。
この発見に触発されて,ラベルエンコードリスク最小化(LERM)を提案する。
まず、ラベル付きサンプルの予測手段を通じてラベルエンコーディングを推定し、対応する接地トラスラベルエンコーディングと整合させる。
その結果、LERMは予測の差別性と多様性の両方を保証し、プラグインとして既存のメソッドに統合することができる。
理論的には、LERMとERMとEntMinの関係を解析する。
実験により,複数のラベルが不十分なシナリオにおいて,LERMの優位性を検証した。
コードはhttps://github.com/zhangyl660/LERMで公開されている。
Empirical Risk Minimization (ERM) is fragile in scenarios with insufficient labeled samples. A vanilla extension of ERM to unlabeled samples is Entropy Minimization (EntMin), which employs the soft-labels of unlabeled samples to guide their learning. However, EntMin emphasizes prediction discriminability while neglecting prediction diversity. To alleviate this issue, in this paper, we rethink the guidance information to utilize unlabeled samples. By analyzing the learning objective of ERM, we find that the guidance information for labeled samples in a specific category is the corresponding label encoding. Inspired by this finding, we propose a Label-Encoding Risk Minimization (LERM). It first estimates the label encodings through prediction means of unlabeled samples and then aligns them with their corresponding ground-truth label encodings. As a result, the LERM ensures both prediction discriminability and diversity, and it can be integrated into existing methods as a plugin. Theoretically, we analyze the relationships between LERM and ERM as well as EntMin. Empirically, we verify the superiority of the LERM under several label insufficient scenarios. The codes are available at https://github.com/zhangyl660/LERM. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# スコーラとしてのLLM:対話評価における出力順序の影響
LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation ( http://arxiv.org/abs/2406.02863v1 ) ライセンス: Link先を確認 | Yi-Pei Chen, KuanChao Chu, Hideki Nakayama, | (参考訳) 本研究では,大規模言語モデル(LLM)を用いた対話評価における即時設計の効果について検討する。
LLMは様々な入力のスコアリングにますます利用されているが、対話評価におけるモデル感度と主観性のため、効果的な対話評価のプロンプトを作成することは依然として困難である。
本研究は、異なるプロンプト構造を用いて、出力命令の順序を変更し、説明的理由を含む実験を行った。
理由と得点の順序はLLMのスコアに大きく影響し,「理性優先」アプローチによりより包括的評価が得られた。
この知見はLLMに基づく評価の精度と一貫性を高めるために重要である。
This research investigates the effect of prompt design on dialogue evaluation using large language models (LLMs). While LLMs are increasingly used for scoring various inputs, creating effective prompts for dialogue evaluation remains challenging due to model sensitivity and subjectivity in dialogue assessments. Our study experimented with different prompt structures, altering the sequence of output instructions and including explanatory reasons. We found that the order of presenting reasons and scores significantly influences LLMs' scoring, with a "reason-first" approach yielding more comprehensive evaluations. This insight is crucial for enhancing the accuracy and consistency of LLM-based evaluations. | 翻訳日:2024-06-06 22:26:58 公開日:2024-06-05 |
# NUMCoT:大規模言語モデルを用いたChain-of-Thought Reasoningにおける数量と単位
NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models ( http://arxiv.org/abs/2406.02864v1 ) ライセンス: Link先を確認 | Ancheng Xu, Minghuan Tan, Lei Wang, Min Yang, Ruifeng Xu, | (参考訳) 多数のシステムと測定単位は、人間の活動において2つの共通する話題であり、それらを表現する言語と相互に影響を及ぼす。
現在、LLM(Large Language Models)の評価は、しばしば数学的推論を伴っているが、数や単位の微妙な変化が問題の複雑さやLLMの性能を劇的に変える可能性についてはほとんど注目されていない。
本稿では、摂動を伴うデータセットの構築により、数値と測定単位の処理に関する既存のLCMを精査する。
まず,算術語問題を言語から数への数値変換や単位に基づく測度変換など,様々なサブプロデューサにアナライズする。
さらに,数量や単位に挑戦する古代中国の算術作品から,数学用語の問題に注釈を付ける。
摂動データセットの実験は、LLMが数値と測定の変換を扱うのに依然として困難に直面することを示した。
Numeral systems and units of measurement are two conjoined topics in activities of human beings and have mutual effects with the languages expressing them. Currently, the evaluation of Large Language Models (LLMs) often involves mathematical reasoning, yet little attention is given to how minor changes in numbers or units can drastically alter the complexity of problems and the performance of LLMs. In this paper, we scrutinize existing LLMs on processing of numerals and units of measurement by constructing datasets with perturbations. We first anatomize the reasoning of math word problems to different sub-procedures like numeral conversions from language to numbers and measurement conversions based on units. Then we further annotate math word problems from ancient Chinese arithmetic works which are challenging in numerals and units of measurement. Experiments on perturbed datasets demonstrate that LLMs still encounter difficulties in handling numeral and measurement conversions. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 振動はフィードバックによる貯水池計算における時系列予測を促進する
Oscillations enhance time-series prediction in reservoir computing with feedback ( http://arxiv.org/abs/2406.02867v1 ) ライセンス: Link先を確認 | Yuji Kawai, Takashi Morita, Jihoon Park, Minoru Asada, | (参考訳) 脳のモデリングに使用される機械学習フレームワークであるReservoir Computingは、観測の少ない時間データを最小限の計算リソースで予測することができる。
しかし, 貯水池系が不安定になるため, 長期目標時系列を正確に再現することは困難である。
この予測能力は、モータタイミングの予測やカオス力学系の予測など、様々な時系列処理に必要である。
本研究は, 振動駆動型貯水池計算(ODRC)のフィードバックにより, 振動信号を貯水池ネットワークに供給し, ネットワーク活動を安定化し, 複雑な貯水池力学を誘導する手法を提案する。
ODRCは、モータタイミングおよびカオス時系列予測タスクにおいて、従来の貯水池計算方法よりも、より正確な長期目標時系列を再現することができる。
さらに、未経験期間における対象と類似した時系列を生成する。つまり、限られた観測から抽象的な生成規則を学習することができる。
このような単純で計算コストのかかる実装による大幅な改善を考えると、ODRCは様々な時系列データの実用的なモデルとして機能する。
さらに、神経振動とその小脳プロセッサのモデルとして、ODRCの生物学的意義について論じる。
Reservoir computing, a machine learning framework used for modeling the brain, can predict temporal data with little observations and minimal computational resources. However, it is difficult to accurately reproduce the long-term target time series because the reservoir system becomes unstable. This predictive capability is required for a wide variety of time-series processing, including predictions of motor timing and chaotic dynamical systems. This study proposes oscillation-driven reservoir computing (ODRC) with feedback, where oscillatory signals are fed into a reservoir network to stabilize the network activity and induce complex reservoir dynamics. The ODRC can reproduce long-term target time series more accurately than conventional reservoir computing methods in a motor timing and chaotic time-series prediction tasks. Furthermore, it generates a time series similar to the target in the unexperienced period, that is, it can learn the abstract generative rules from limited observations. Given these significant improvements made by the simple and computationally inexpensive implementation, the ODRC would serve as a practical model of various time series data. Moreover, we will discuss biological implications of the ODRC, considering it as a model of neural oscillations and their cerebellar processors. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 到達度を目標とした非カウントPOMDPの音響ヒューリスティック探索値反復法
Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives ( http://arxiv.org/abs/2406.02871v1 ) ライセンス: Link先を確認 | Qi Heng Ho, Martin S. Feather, Federico Rossi, Zachary N. Sunberg, Morteza Lahijanian, | (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、遷移および観測の不確実性の下での逐次決定のための強力なモデルである。
本稿では,最大到達確率問題(MRPP)として知られるPMDPにおいて,目標状態に到達する確率を最大化することを目的とした課題について検討する。
これはまた、論理的仕様によるモデルチェックにおける中核的な問題であり、自然に非カウントされている(因子は1つ)。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
具体的には、試行ベースのヒューリスティックな探索値反復手法に着目し、これらの手法の強みを利用して、不確定水平問題に対するループ処理の欠点に対処しながら、信念空間(値境界による情報探索)を効率的に探索する新しいアルゴリズムを提案する。
このアルゴリズムは、最適到達可能性確率の両側境界を持つポリシーを生成する。
一定の条件下では、最適政策への収束を下から証明する。
提案手法は,確率保証と計算時間の両方において,ほぼすべての場合において既存手法よりも優れていることを示す。
Partially Observable Markov Decision Processes (POMDPs) are powerful models for sequential decision making under transition and observation uncertainties. This paper studies the challenging yet important problem in POMDPs known as the (indefinite-horizon) Maximal Reachability Probability Problem (MRPP), where the goal is to maximize the probability of reaching some target states. This is also a core problem in model checking with logical specifications and is naturally undiscounted (discount factor is one). Inspired by the success of point-based methods developed for discounted problems, we study their extensions to MRPP. Specifically, we focus on trial-based heuristic search value iteration techniques and present a novel algorithm that leverages the strengths of these techniques for efficient exploration of the belief space (informed search via value bounds) while addressing their drawbacks in handling loops for indefinite-horizon problems. The algorithm produces policies with two-sided bounds on optimal reachability probabilities. We prove convergence to an optimal policy from below under certain conditions. Experimental evaluations on a suite of benchmarks show that our algorithm outperforms existing methods in almost all cases in both probability guarantees and computation time. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 自動グラフニューラルネットワークによる組合せ最適化
Combinatorial Optimization with Automated Graph Neural Networks ( http://arxiv.org/abs/2406.02872v1 ) ライセンス: Link先を確認 | Yang Liu, Peng Zhang, Yang Gao, Chuan Zhou, Zhao Li, Hongyang Chen, | (参考訳) 近年、グラフニューラルネットワーク(GNN)は、最大カットや最大独立セットといったNP-hard combinatorial optimization(CO)問題を解決するために人気が高まっている。
これらの手法の背後にある中核的な考え方は、CO問題をグラフとして表現し、GNNを使用して、組み合わせ情報によるノード/グラフの埋め込みを学ぶことである。
これらの手法は、特定のCO問題を考えると、有望な結果を得たが、GNNアーキテクチャの設計にはドメイン知識による重い手作業が必要である。
既存の自動GNNは、NPハードCO問題の解決には適用できない従来のグラフ学習問題に主に焦点をあてている。
この目的のために、我々は、新しいクラスである \textbf{AUTO}mated \textbf{G}NNs を、 \textbf{NP}-ハード問題、すなわち \textbf{AutoGNP} を解決する。
我々は、GNNによるCO問題を表現するとともに、2つの特定の問題、すなわち混合整数線形計画法と2次非制約バイナリ最適化に焦点をあてる。
AutoGNPの考え方は、グラフニューラルアーキテクチャ検索アルゴリズムを使用して、与えられたNPハード組合せ最適化問題に対して最適なGNNを自動的に見つけることである。
既存のグラフニューラルネットワーク検索アルゴリズムと比較して、AutoGNPはアーキテクチャ検索空間の2ホップ演算子を利用する。
さらに、AutoGNPはシミュレーションアニールと厳密な早期停止ポリシーを利用して局所最適解を回避する。
ベンチマーク組合せ問題に対する実験結果から,提案モデルの有効性が示された。
In recent years, graph neural networks (GNNs) have become increasingly popular for solving NP-hard combinatorial optimization (CO) problems, such as maximum cut and maximum independent set. The core idea behind these methods is to represent a CO problem as a graph and then use GNNs to learn the node/graph embedding with combinatorial information. Although these methods have achieved promising results, given a specific CO problem, the design of GNN architectures still requires heavy manual work with domain knowledge. Existing automated GNNs are mostly focused on traditional graph learning problems, which is inapplicable to solving NP-hard CO problems. To this end, we present a new class of \textbf{AUTO}mated \textbf{G}NNs for solving \textbf{NP}-hard problems, namely \textbf{AutoGNP}. We represent CO problems by GNNs and focus on two specific problems, i.e., mixed integer linear programming and quadratic unconstrained binary optimization. The idea of AutoGNP is to use graph neural architecture search algorithms to automatically find the best GNNs for a given NP-hard combinatorial optimization problem. Compared with existing graph neural architecture search algorithms, AutoGNP utilizes two-hop operators in the architecture search space. Moreover, AutoGNP utilizes simulated annealing and a strict early stopping policy to avoid local optimal solutions. Empirical results on benchmark combinatorial problems demonstrate the superiority of our proposed model. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 因果推論の予測による一般化
Prediction-powered Generalization of Causal Inferences ( http://arxiv.org/abs/2406.02873v1 ) ライセンス: Link先を確認 | Ilker Demirel, Ahmed Alaa, Anthony Philippakis, David Sontag, | (参考訳) ランダム化制御試験(RCT)の因果推論は、いくつかの効果修飾子が異なる分布を持つ対象集団には関係しないかもしれない。
先行研究は、実験の結果を結果のない目的の個体群に一般化するが、共変量データは利用可能である。
複雑なニュアンス関数を推定する必要があるため,試行錯誤の程度が限定されることで,一般化が統計的に実現不可能な課題となることを示す。
我々は,OSに仮定することなく,新たな観測結果(OS)から学習した予測モデルを用いて試行データを補足する一般化アルゴリズムを開発した。
理論的かつ実証的に、我々の手法は、OSが高品質であり、そうでなければ頑健であり、また、例えば、未測定の欠点がある場合に、より優れた一般化を促進することを示している。
Causal inferences from a randomized controlled trial (RCT) may not pertain to a target population where some effect modifiers have a different distribution. Prior work studies generalizing the results of a trial to a target population with no outcome but covariate data available. We show how the limited size of trials makes generalization a statistically infeasible task, as it requires estimating complex nuisance functions. We develop generalization algorithms that supplement the trial data with a prediction model learned from an additional observational study (OS), without making any assumptions on the OS. We theoretically and empirically show that our methods facilitate better generalization when the OS is high-quality, and remain robust when it is not, and e.g., have unmeasured confounding. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# ディープ・クープマン・オペレーター発見のためのカンの活用
Leveraging KANs For Enhanced Deep Koopman Operator Discovery ( http://arxiv.org/abs/2406.02875v1 ) ライセンス: Link先を確認 | George Nehma, Madhur Tiwari, | (参考訳) 多層パーセプトロン(MLP)は、非線形力学を線形化するディープ・クープマン作用素の発見に広く利用されている。
本稿では,MLPニューラルネットワークのより効率的かつ正確な代替としてKAN(Kolmogorov-Arnold Networks)が出現し,制御付きクープマン演算子(Koopman operator)の学習における各ネットワークタイプの性能の比較を行った。
カンはトレーニングのほぼ全ての面で優れており、学習速度は31倍、パラメータ効率は15倍、予測精度は2BPの場合のMLP Deep Neural Networks(DNN)の1.25倍である。
このように、カンスはディープ・クープマン理論の発展において効率的なツールとなる可能性を示している。
Multi-layer perceptrons (MLP's) have been extensively utilized in discovering Deep Koopman operators for linearizing nonlinear dynamics. With the emergence of Kolmogorov-Arnold Networks (KANs) as a more efficient and accurate alternative to the MLP Neural Network, we propose a comparison of the performance of each network type in the context of learning Koopman operators with control.In this work, we propose a KANs-based deep Koopman framework with applications to an orbital Two-Body Problem (2BP) and the pendulum for data-driven discovery of linear system dynamics. KANs were found to be superior in nearly all aspects of training; learning 31 times faster, being 15 times more parameter efficiency, and predicting 1.25 times more accurately as compared to the MLP Deep Neural Networks (DNNs) in the case of the 2BP. Thus, KANs shows potential for being an efficient tool in the development of Deep Koopman Theory. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# LCS:ゼロショットニューラルネットワーク翻訳のための言語コンバータ戦略
LCS: A Language Converter Strategy for Zero-Shot Neural Machine Translation ( http://arxiv.org/abs/2406.02876v1 ) ライセンス: Link先を確認 | Zengkui Sun, Yijin Liu, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou, | (参考訳) 多言語ニューラルマシン翻訳モデルは、典型的には、ソースまたはターゲット文の前にある言語タグ(LT)によって翻訳方向を区別する。
しかし、現在のLT戦略は、ゼロショット翻訳で期待されているように、望まれるターゲット言語、すなわちオフターゲット問題を示すことはできない。
例えば、対象言語をデコーダ側に置くと、デコーダ側に置くと、デコーダ側に置くと、ターゲット言語をエンコーダ側に置くと、ソース入力のコピーやパラフレーズ化につながる。
上記の課題に対処するため,Language Converter Strategy (LCS) という,シンプルながら効果的な戦略を提案する。
ターゲット言語をトップエンコーダ層に埋め込むことで、LCSはエンコーダの混乱を緩和し、デコーダの安定した言語表示を保証する。
MultiUN、TED、OPUS-100データセットの実験結果は、LCSが目標外の問題を著しく軽減し、言語精度は95.28%、96.21%、85.35%、バニラLTの戦略は3.07、3.3、733 BLEUでそれぞれ上回っていることを示している。
Multilingual neural machine translation models generally distinguish translation directions by the language tag (LT) in front of the source or target sentences. However, current LT strategies cannot indicate the desired target language as expected on zero-shot translation, i.e., the off-target issue. Our analysis reveals that the indication of the target language is sensitive to the placement of the target LT. For example, when placing the target LT on the decoder side, the indication would rapidly degrade along with decoding steps, while placing the target LT on the encoder side would lead to copying or paraphrasing the source input. To address the above issues, we propose a simple yet effective strategy named Language Converter Strategy (LCS). By introducing the target language embedding into the top encoder layers, LCS mitigates confusion in the encoder and ensures stable language indication for the decoder. Experimental results on MultiUN, TED, and OPUS-100 datasets demonstrate that LCS could significantly mitigate the off-target issue, with language accuracy up to 95.28%, 96.21%, and 85.35% meanwhile outperforming the vanilla LT strategy by 3.07, 3,3, and 7.93 BLEU scores on zero-shot translation, respectively. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# FedStaleWeight: バッファリングされた非同期フェデレーションラーニングと、静的リヘアリングによる公正な集約
FedStaleWeight: Buffered Asynchronous Federated Learning with Fair Aggregation via Staleness Reweighting ( http://arxiv.org/abs/2406.02877v1 ) ライセンス: Link先を確認 | Jeffrey Ma, Alan Tu, Yiling Chen, Vijay Janapa Reddi, | (参考訳) フェデレートラーニング(FL)は、プライバシを保持しながら分散データを活用し、パフォーマンスやスケーラビリティ、コラボレーションといった課題に直面している。
非同期フェデレートラーニング(AFL)メソッドは、最も遅いエージェントによってバウンドされた同期の代替手段として期待されているが、コンバージェンス保証、計算の不均一性に対する公正性、集約された更新における不安定性の導入など、さらなる課題が加えられている。
具体的には、AFLは、更新を高速に生成できるエージェントに対して、モデルトレーニングを重んじ、遅いエージェントを置き去りにし、グローバルモデルで学ばない異なる分散データを持つことが多い。
Naively upweightingはインセンティブの問題を導入し、真の高速更新エージェントは、モデルトレーニングへの貢献を増やすために、更新を遅い速度で報告する可能性がある。
我々はFedStaleWeightを紹介した。これは非同期クライアント更新を集約する際の公平性に対処するアルゴリズムである。
FedStaleWeightは非同期フェデレートされた学習アグリゲーションをメカニズム設計の問題として再設計し、安定度に基づいたエージェント更新をアップウェイトすることで、より高速な更新生成エージェントを好まずに、真に計算速度のレポートをインセンティブ化する重み付け戦略を考案した。
FedStaleWeightは、観察されたエージェント更新の安定性のみを活用することで、エージェントごとのアグリゲーションをより公平にする。
我々はどちらも、スムーズで非凸な設定における理論的収束保証を提供し、FedStaleWeightと一般的に使用される非同期FedBuffの勾配平均化を実証的に比較し、より強い公正性を実現し、よりグローバルなモデルの精度に収束を早める方法を示した。
最後に、バッファリングされたAFLアグリゲーション戦略の探索を容易にするためのオープンソースのテストベンチを提供し、非同期フェデレーション学習パラダイムにおけるさらなる研究を促進する。
Federated Learning (FL) endeavors to harness decentralized data while preserving privacy, facing challenges of performance, scalability, and collaboration. Asynchronous Federated Learning (AFL) methods have emerged as promising alternatives to their synchronous counterparts bounded by the slowest agent, yet they add additional challenges in convergence guarantees, fairness with respect to compute heterogeneity, and incorporation of staleness in aggregated updates. Specifically, AFL biases model training heavily towards agents who can produce updates faster, leaving slower agents behind, who often also have differently distributed data which is not learned by the global model. Naively upweighting introduces incentive issues, where true fast updating agents may falsely report updates at a slower speed to increase their contribution to model training. We introduce FedStaleWeight, an algorithm addressing fairness in aggregating asynchronous client updates by employing average staleness to compute fair re-weightings. FedStaleWeight reframes asynchronous federated learning aggregation as a mechanism design problem, devising a weighting strategy that incentivizes truthful compute speed reporting without favoring faster update-producing agents by upweighting agent updates based on staleness. Leveraging only observed agent update staleness, FedStaleWeight results in more equitable aggregation on a per-agent basis. We both provide theoretical convergence guarantees in the smooth, non-convex setting and empirically compare FedStaleWeight against the commonly used asynchronous FedBuff with gradient averaging, demonstrating how it achieves stronger fairness, expediting convergence to a higher global model accuracy. Finally, we provide an open-source test bench to facilitate exploration of buffered AFL aggregation strategies, fostering further research in asynchronous federated learning paradigms. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 埋め込み多様体上の二階微分作用素、確率微分方程式およびブラウン運動
Second-order differential operators, stochastic differential equations and Brownian motions on embedded manifolds ( http://arxiv.org/abs/2406.02879v1 ) ライセンス: Link先を確認 | Du Nguyen, Stefan Sommer, | (参考訳) 我々は、内積空間 E に埋め込まれた多様体 M が E 上の確率微分方程式(SDE)の不変多様体であるとき、それを M 上の二階微分作用素の概念と結び付けるとき、M がリーマン計量(英語版)を与えられるとき、E 上の勾配の項でラプラス・ベルトラミ作用素の簡単な公式を導出し、E 上のヘッセン(英語版)により、M 上のリーマン・ブラウン運動を保守的ストラトノビッチ(英語版)およびイオ(英語版) SDE の解として構成する。
数値的に,多様体上のSDEを解くための3つのシミュレーションスキームを提案する。
リーマン・ブラウン運動をシミュレートする確率射影法に加えて、与えられたE-tubular retractionを用いて、Levi-Civita接続の2階接トラクションを構築する。
また, タンジェントリトラクションの2次項を考慮し, SDE を解くための抽出型オイラー・丸山法を提案する。
議論された多様体のブラウン運動を含む手法を論文に実装するソフトウェアを提供する。
いくつかのコンパクトリーマン多様体において、ブラウンシミュレーションの長期極限が一様分布に収束することを数値的に検証し、リーマン一様分布をサンプリングする方法を提案する。
We specify the conditions when a manifold M embedded in an inner product space E is an invariant manifold of a stochastic differential equation (SDE) on E, linking it with the notion of second-order differential operators on M. When M is given a Riemannian metric, we derive a simple formula for the Laplace-Beltrami operator in terms of the gradient and Hessian on E and construct the Riemannian Brownian motions on M as solutions of conservative Stratonovich and Ito SDEs on E. We derive explicitly the SDE for Brownian motions on several important manifolds in applications, including left-invariant matrix Lie groups using embedded coordinates. Numerically, we propose three simulation schemes to solve SDEs on manifolds. In addition to the stochastic projection method, to simulate Riemannian Brownian motions, we construct a second-order tangent retraction of the Levi-Civita connection using a given E-tubular retraction. We also propose the retractive Euler-Maruyama method to solve a SDE, taking into account the second-order term of a tangent retraction. We provide software to implement the methods in the paper, including Brownian motions of the manifolds discussed. We verify numerically that on several compact Riemannian manifolds, the long-term limit of Brownian simulation converges to the uniform distributions, suggesting a method to sample Riemannian uniform distributions | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 意図しない顔のキーポイント編集による対話型顔生成
Controllable Talking Face Generation by Implicit Facial Keypoints Editing ( http://arxiv.org/abs/2406.02880v1 ) ライセンス: Link先を確認 | Dong Zhao, Jiaying Shi, Wenjun Li, Shudong Wang, Shenghui Xu, Zhaoming Pan, | (参考訳) 音声による会話顔生成は、デジタル人間の研究分野において大きな関心を集めている。
既存の手法では、複雑なモデルアーキテクチャが互いに複雑に依存しており、画像やビデオの入力を再編集するプロセスが複雑になる。
そこで本研究では,音声による顔表情の変形を制御するための音声音声生成手法であるControlTalkを提案し,単一画像と連続映像の両方に対する唇の動きを含む頭部ポーズと表情を統一的に構築する。
予め訓練されたビデオ合成レンダラーを利用し、軽量な適応を提案することにより、口の開口形状を定量的に制御しつつ、正確で自然主義的な唇同期を実現する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
パラメータ化適応は、言語に関係なく、同IDおよびクロスIDシナリオ間の表現変形を効果的に処理し、その実用性を領域外ポートレートに拡張する、顕著な一般化能力を示す。
Audio-driven talking face generation has garnered significant interest within the domain of digital human research. Existing methods are encumbered by intricate model architectures that are intricately dependent on each other, complicating the process of re-editing image or video inputs. In this work, we present ControlTalk, a talking face generation method to control face expression deformation based on driven audio, which can construct the head pose and facial expression including lip motion for both single image or sequential video inputs in a unified manner. By utilizing a pre-trained video synthesis renderer and proposing the lightweight adaptation, ControlTalk achieves precise and naturalistic lip synchronization while enabling quantitative control over mouth opening shape. Our experiments show that our method is superior to state-of-the-art performance on widely used benchmarks, including HDTF and MEAD. The parameterized adaptation demonstrates remarkable generalization capabilities, effectively handling expression deformation across same-ID and cross-ID scenarios, and extending its utility to out-of-domain portraits, regardless of languages. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# Inv-Adapter:画像インバージョンと軽量アダプタによるIDカスタマイズ生成
Inv-Adapter: ID Customization Generation via Image Inversion and Lightweight Adapter ( http://arxiv.org/abs/2406.02881v1 ) ライセンス: Link先を確認 | Peng Xing, Ning Wang, Jianbo Ouyang, Zechao Li, | (参考訳) テキスト・画像生成モデルの顕著な進歩は、IDカスタマイズ生成の研究を著しく加速させる。
しかし、既存のパーソナライズ手法は、高い忠実度と高効率要件を同時に満たすことはできない。
その主なボトルネックはプロンプト画像エンコーダであり、テキスト・ツー・イメージモデルと弱いアライメント信号を生成し、モデルサイズを大幅に増大させる。
そこで本研究では,ID画像の拡散領域表現をDDIM画像の逆変換により抽出する軽量なInv-Adapterを提案する。
抽出したIDの高アライメントとテキスト・ツー・イメージ・モデルの中間的特徴から恩恵を受け、軽量アテンション・アダプタを慎重に設計し、それらをベース・テキスト・ツー・イメージ・モデルに効率的に組み込む。
提案したInv-Adapterは,IDのカスタマイズ生成とモデルスケールにおいて高い競争力を持つことを示す。
The remarkable advancement in text-to-image generation models significantly boosts the research in ID customization generation. However, existing personalization methods cannot simultaneously satisfy high fidelity and high-efficiency requirements. Their main bottleneck lies in the prompt image encoder, which produces weak alignment signals with the text-to-image model and significantly increased model size. Towards this end, we propose a lightweight Inv-Adapter, which first extracts diffusion-domain representations of ID images utilizing a pre-trained text-to-image model via DDIM image inversion, without additional image encoder. Benefiting from the high alignment of the extracted ID prompt features and the intermediate features of the text-to-image model, we then embed them efficiently into the base text-to-image model by carefully designing a lightweight attention adapter. We conduct extensive experiments to assess ID fidelity, generation loyalty, speed, and training parameters, all of which show that the proposed Inv-Adapter is highly competitive in ID customization generation and model scale. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# ファクチュアル知識編集のための復号化を意識した古い問題
Outdated Issue Aware Decoding for Factual Knowledge Editing ( http://arxiv.org/abs/2406.02882v1 ) ライセンス: Link先を確認 | Zengkui Sun, Yijin Liu, Jiaan Wang, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou, | (参考訳) 近年、知識編集は、事前訓練されたモデルにおける時代遅れのものからの特定の知識を、再訓練せずに更新できるため、注目を集めている。
しかし、近年の研究で指摘されているように、既存の関連手法は、真の学習や吸収ではなく、単に編集された知識の表層的な単語構成を記憶するだけである。
その結果,既存の手法では,新たな解答を推論するために編集された知識を利用するのに苦労しており,本来の知識を生かしたオリジナルのモデルによって生成される時代遅れの応答を保ちがちであることがわかった。
それでも、古い回答は、我々が古い問題と名づけた推論問題に対する正しい答えとして予期せぬものである。
この問題を軽減するため,本論文では,編集モデルの性能向上を目的とした,簡易かつ効果的な復号化戦略であるDISCO(Outdated ISsue aware decodeding)を提案する。
具体的には、オリジナルのモデルと編集されたモデルとの確率分布の差を捉える。
さらに、編集されたモデルにおけるトークン予測の違いを増幅し、古い問題を緩和し、編集された知識でモデル性能を向上させる。
実験結果から,disCOを適用することで,従来のSOTA法を12.99F1スコアで上回り,古い問題の割合をzsREデータセットの5.78%に下げることが可能であることが示唆された。
Recently, Knowledge Editing has received increasing attention, since it could update the specific knowledge from outdated ones in pretrained models without re-training. However, as pointed out by recent studies, existing related methods tend to merely memorize the superficial word composition of the edited knowledge, rather than truly learning and absorbing it. Consequently, on the reasoning questions, we discover that existing methods struggle to utilize the edited knowledge to reason the new answer, and tend to retain outdated responses, which are generated by the original models utilizing original knowledge. Nevertheless, the outdated responses are unexpected for the correct answers to reasoning questions, which we named as the outdated issue. To alleviate this issue, in this paper, we propose a simple yet effective decoding strategy, i.e., outDated ISsue aware deCOding (DISCO), to enhance the performance of edited models on reasoning questions. Specifically, we capture the difference in the probability distribution between the original and edited models. Further, we amplify the difference of the token prediction in the edited model to alleviate the outdated issue, and thus enhance the model performance w.r.t the edited knowledge. Experimental results suggest that applying DISCO could enhance edited models to reason, e.g., on reasoning questions, DISCO outperforms the prior SOTA method by 12.99 F1 scores, and reduces the ratio of the outdated issue to 5.78% on the zsRE dataset. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# 再生不能データセットに対する非線形変換
Nonlinear Transformations Against Unlearnable Datasets ( http://arxiv.org/abs/2406.02883v1 ) ライセンス: Link先を確認 | Thushari Hapuarachchi, Jing Lin, Kaiqi Xiong, Mohamed Rahouti, Gitte Ost, | (参考訳) 自動スクラップは、データ所有者の許可なしにディープラーニングモデルのデータを収集する一般的な方法として際立っている。
近年,このデータ収集手法に関するプライバシー問題に取り組み始めている。
注目すべきアプローチとしては、Deepconfuse、エラー最小化、エラー最大化(逆行性中毒とも呼ばれる)、Neural Tangent Generalization Attack、Synthetic、autoregressive、One-Pixel Shortcut、Self-Ensemble Protection、Entangled Features、Robust Error-Minimizing、Physe critical、TensorClogなどがある。
学習不可能(unlearnable)な例と呼ばれるこれらのアプローチによって生成されたデータは、ディープラーニングモデルによって"学習"される。
本研究では,従来の学習不可能と考えられてきたデータ/サンプルから,ニューラルネットワークが効果的に学習できることを実証するために,有効な非線形変換フレームワークを研究開発し,広範な実験を行う。
結果として得られたアプローチは、最近研究者によって提案された線形分離可能な手法と比較して、学習不可能なデータを分解する能力を改善する。
具体的には、この改良は、1-Pixelショートカットを除いて、これらの12つのデータ保護アプローチによって生成される未学習のCIFAR10データセットに対して0.34%から249.59%の範囲に及んでいることを示す。
さらに, 自動回帰法とREM法の試験精度を線形分離法と比較して100%以上向上させる手法を提案する。
その結果,これらの手法は,機械学習モデルにおける不正なデータの使用を防止するには不十分であることが示唆された。
攻撃者が所有者の適切な許可なしにデータにアクセスするのを効果的に阻止する、より堅牢な保護メカニズムを開発する必要がある。
Automated scraping stands out as a common method for collecting data in deep learning models without the authorization of data owners. Recent studies have begun to tackle the privacy concerns associated with this data collection method. Notable approaches include Deepconfuse, error-minimizing, error-maximizing (also known as adversarial poisoning), Neural Tangent Generalization Attack, synthetic, autoregressive, One-Pixel Shortcut, Self-Ensemble Protection, Entangled Features, Robust Error-Minimizing, Hypocritical, and TensorClog. The data generated by those approaches, called "unlearnable" examples, are prevented "learning" by deep learning models. In this research, we investigate and devise an effective nonlinear transformation framework and conduct extensive experiments to demonstrate that a deep neural network can effectively learn from the data/examples traditionally considered unlearnable produced by the above twelve approaches. The resulting approach improves the ability to break unlearnable data compared to the linear separable technique recently proposed by researchers. Specifically, our extensive experiments show that the improvement ranges from 0.34% to 249.59% for the unlearnable CIFAR10 datasets generated by those twelve data protection approaches, except for One-Pixel Shortcut. Moreover, the proposed framework achieves over 100% improvement of test accuracy for Autoregressive and REM approaches compared to the linear separable technique. Our findings suggest that these approaches are inadequate in preventing unauthorized uses of data in machine learning models. There is an urgent need to develop more robust protection mechanisms that effectively thwart an attacker from accessing data without proper authorization from the owners. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# PosterLLaVa:LLMによる統一マルチモーダルレイアウトジェネレータの構築
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM ( http://arxiv.org/abs/2406.02884v1 ) ライセンス: Link先を確認 | Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen, | (参考訳) レイアウト生成は自動グラフィックデザインを実現する上で鍵となる要素であり、視覚的に快く制約に富んだ方法で様々なマルチモーダルデザイン要素の位置とサイズをアレンジする必要がある。
これまでのアプローチは、大規模アプリケーションでは非効率だったり、さまざまな設計要件に対する柔軟性に欠けていたりします。
本研究は,多モード大言語モデル(MLLM)を活用し,多様な設計課題に対応するため,グラフィックレイアウトの自動生成のための統一的なフレームワークを提案する。
対照的に、データ駆動方式では、構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを使用して、ユーザ定義の自然言語仕様を含む、特定の視覚的およびテキスト的制約の下でレイアウトを生成する。
提案手法の有効性を実証し,多モードレイアウト生成ベンチマークを用いて実験を行い,SOTA(State-of-the-art)性能を実現した。
さらに、実世界のグラフィックデザインの複雑さを捉える際の既存のデータセットの制限を認識し、より困難なタスク(ユーザ制約付き世代と複雑なポスター)のための2つの新しいデータセットを提案し、さらに、我々のモデルの有用性を現実の環境で検証する。
より優れたアクセシビリティと適応性によって、このアプローチはさらに大規模なグラフィックデザインタスクを自動化する。
コードとデータセットはhttps://github.com/posterllava/PosterLLaVAで公開されている。
Layout generation is the keystone in achieving automated graphic design, requiring arranging the position and size of various multi-modal design elements in a visually pleasing and constraint-following manner. Previous approaches are either inefficient for large-scale applications or lack flexibility for varying design requirements. Our research introduces a unified framework for automated graphic layout generation, leveraging the multi-modal large language model (MLLM) to accommodate diverse design tasks. In contrast, our data-driven method employs structured text (JSON format) and visual instruction tuning to generate layouts under specific visual and textual constraints, including user-defined natural language specifications. We conducted extensive experiments and achieved state-of-the-art (SOTA) performance on public multi-modal layout generation benchmarks, demonstrating the effectiveness of our method. Moreover, recognizing existing datasets' limitations in capturing the complexity of real-world graphic designs, we propose two new datasets for much more challenging tasks (user-constrained generation and complicated poster), further validating our model's utility in real-life settings. Marking by its superior accessibility and adaptability, this approach further automates large-scale graphic design tasks. The code and datasets will be publicly available on https://github.com/posterllava/PosterLLaVA. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# PLaD:擬似参照ペアを用いた優先型大規模言語モデル蒸留
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs ( http://arxiv.org/abs/2406.02886v1 ) ライセンス: Link先を確認 | Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang, | (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
しかしながら、従来のKD技術は、LLM出力の制限、教師と学生の容量格差、継承された誤校正問題など、LLMに適用する際の特定の課題に直面している。
本研究は,新規な選好型LLM蒸留フレームワークであるPLaDについて述べる。
PLaDは教師と学生の能力の相違を利用して、学生の出力よりも教師の出力が優先される擬似参照ペアを生成する。
そして、PLaDはランキングの損失を利用して、生徒が教師を模倣するのではなく、出力の相対的品質を理解することに焦点を当てたシーケンス可能性の推定を再検討する。
PLaDは、教師のLLMの内部状態へのアクセスの必要性を回避し、生徒の表現力制限に対処し、生徒の誤校正問題を緩和する。
2つのシーケンス生成タスクと各種LLMの広範な実験を通じて,提案手法の有効性を実証した。
Large Language Models (LLMs) have exhibited impressive capabilities in various tasks, yet their vast parameter sizes restrict their applicability in resource-constrained settings. Knowledge distillation (KD) offers a viable solution by transferring expertise from large teacher models to compact student models. However, traditional KD techniques face specific challenges when applied to LLMs, including restricted access to LLM outputs, significant teacher-student capacity gaps, and the inherited mis-calibration issue. In this work, we present PLaD, a novel preference-based LLM distillation framework. PLaD exploits the teacher-student capacity discrepancy to generate pseudo-preference pairs where teacher outputs are preferred over student outputs. Then, PLaD leverages a ranking loss to re-calibrate student's estimation of sequence likelihood, which steers the student's focus towards understanding the relative quality of outputs instead of simply imitating the teacher. PLaD bypasses the need for access to teacher LLM's internal states, tackles the student's expressivity limitations, and mitigates the student mis-calibration issue. Through extensive experiments on two sequence generation tasks and with various LLMs, we demonstrate the effectiveness of our proposed PLaD framework. | 翻訳日:2024-06-06 22:16:58 公開日:2024-06-05 |
# HYDRA:Black-Box LLMパーソナライゼーションのためのモデル因子化フレームワーク
HYDRA: Model Factorization Framework for Black-Box LLM Personalization ( http://arxiv.org/abs/2406.02888v1 ) ライセンス: Link先を確認 | Yuchen Zhuang, Haotian Sun, Yue Yu, Qifan Wang, Chao Zhang, Bo Dai, | (参考訳) パーソナライゼーションは、ユーザの行動履歴をマイニングし、カスタマイズされた体験を提供するための好みに適応することに焦点を当てた、現代のインテリジェントシステムにおける重要な研究領域として現れてきた。
ブラックボックスの大規模言語モデル(LLM)が示した驚くべき数ショットの能力にもかかわらず、それらのモデルパラメータの本質的な不透明さは、生成された出力を個々の期待と整合させる上で大きな課題である。
既存のソリューションは主に、ユーザ固有のプロファイルや振る舞いを組み込むための設計に重点を置いているが、そのようなアプローチは、すべてのユーザ間で共有知識をキャプチャできないため、効果的に一般化するのに苦労することが多い。
これらの課題に対処するために,歴史的データからユーザ固有の行動パターンを抽出し,パーソナライズされた世代を提供するための一般知識を共有するモデル分解フレームワークHYDRAを提案する。
ユーザ固有の行動パターンをキャプチャするために、まず、リランカをトレーニングし、検索履歴から最も有用な情報を優先する。
優先度付き履歴と対応するクエリを組み合わせることで,個々のユーザの好みに合わせて出力を調整できるようにアダプタを訓練し,ブラックボックスLLMの固有モデルパラメータへの依存を解消する。
リランカとアダプタの両方を、ヒドラに似た複数のユーザ固有のヘッドを持つベースモデルに分解することができる。
ベースモデルは、ユーザ間の共有知識を維持し、複数のパーソナルヘッドは、ユーザ固有の嗜好をキャプチャする。
実験の結果、HYDRAは、LaMPベンチマークの5つの異なるパーソナライズタスクに対して、平均9.01%の相対的な改善により、既存の最先端のプロンプトベースの手法よりも優れていることが示された。
実装はhttps://github.com/night-chen/HYDRAで公開しています。
Personalization has emerged as a critical research area in modern intelligent systems, focusing on mining users' behavioral history and adapting to their preferences for delivering tailored experiences. Despite the remarkable few-shot capabilities exhibited by black-box large language models (LLMs), the inherent opacity of their model parameters presents significant challenges in aligning the generated output with individual expectations. Existing solutions have primarily focused on prompt design to incorporate user-specific profiles and behaviors; however, such approaches often struggle to generalize effectively due to their inability to capture shared knowledge among all users. To address these challenges, we propose HYDRA, a model factorization framework that captures both user-specific behavior patterns from historical data and shared general knowledge among all users to deliver personalized generation. In order to capture user-specific behavior patterns, we first train a reranker to prioritize the most useful information from top-retrieved relevant historical records. By combining the prioritized history with the corresponding query, we train an adapter to align the output with individual user-specific preferences, eliminating the reliance on access to inherent model parameters of black-box LLMs. Both the reranker and the adapter can be decomposed into a base model with multiple user-specific heads, resembling a hydra. The base model maintains shared knowledge across users, while the multiple personal heads capture user-specific preferences. Experimental results demonstrate that HYDRA outperforms existing state-of-the-art prompt-based methods by an average relative improvement of 9.01% across five diverse personalization tasks in the LaMP benchmark. Our implementation is available at https://github.com/night-chen/HYDRA. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 未知データセットバイアスの言語誘導検出と緩和
Language-guided Detection and Mitigation of Unknown Dataset Bias ( http://arxiv.org/abs/2406.02889v1 ) ライセンス: Link先を確認 | Zaiying Zhao, Soichiro Kumano, Toshihiko Yamasaki, | (参考訳) データセットバイアスは、公平な分類器を訓練する上で重要な問題である。
分類と無関係な属性が特定のクラスに対して強いバイアスを示す場合、そのようなデータセットで訓練された分類器はこれらのバイアス属性に過度に適合し、少数群の精度を著しく低下させる。
緩和技術はバイアス情報(つまり事前知識)の可用性に応じて分類することができる。
未知のバイアスのあるシナリオは現実世界の設定に適しているが、この分野での以前の作業は、バイアスに関する解釈可能性の欠如とパフォーマンスの低下に悩まされることが多い。
本研究では,キャプションの部分的発生に基づく事前知識のないキーワードとして潜在的なバイアスを識別する枠組みを提案する。
さらに2つのデバイアス法を提案する。
(a)擬似ラベルを割り当てて事前知識を必要とする既存の嫌悪的アプローチを譲り受け、
b) 取得したバイアスキーワードをプロンプトとして,テキストから画像への生成モデルによるデータ拡張を利用する。
その単純さにもかかわらず、実験結果から、我々のフレームワークは、事前知識なしで既存のメソッドよりも優れているだけでなく、事前知識を前提としたメソッドにさえ匹敵することを示した。
Dataset bias is a significant problem in training fair classifiers. When attributes unrelated to classification exhibit strong biases towards certain classes, classifiers trained on such dataset may overfit to these bias attributes, substantially reducing the accuracy for minority groups. Mitigation techniques can be categorized according to the availability of bias information (\ie, prior knowledge). Although scenarios with unknown biases are better suited for real-world settings, previous work in this field often suffers from a lack of interpretability regarding biases and lower performance. In this study, we propose a framework to identify potential biases as keywords without prior knowledge based on the partial occurrence in the captions. We further propose two debiasing methods: (a) handing over to an existing debiasing approach which requires prior knowledge by assigning pseudo-labels, and (b) employing data augmentation via text-to-image generative models, using acquired bias keywords as prompts. Despite its simplicity, experimental results show that our framework not only outperforms existing methods without prior knowledge, but also is even comparable with a method that assumes prior knowledge. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 効率的な多エージェント強化学習のための表現学習
Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2406.02890v1 ) ライセンス: Link先を確認 | Dom Huh, Prasant Mohapatra, | (参考訳) サンプル効率はマルチエージェント強化学習(MARL)において依然として重要な課題である。
有望なアプローチは、MARLの目的に沿った補助的な学習目標を通じて有意義な潜在表現空間を学習し、制御ポリシーの学習を支援することである。
本稿では,MAPO-LSO(Multi-Agent Policy Optimization with Latent Space Optimization)を提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案し、現在の最先端MARLアルゴリズムに自明に拡張できる潜在状態最適化スキームを構築している。
実験の結果,MAPO-LSOは,多種多様なMARLタスクに対して,追加のMARLハイパーパラメータチューニングを伴わないバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
Sample efficiency remains a key challenge in multi-agent reinforcement learning (MARL). A promising approach is to learn a meaningful latent representation space through auxiliary learning objectives alongside the MARL objective to aid in learning a successful control policy. In our work, we present MAPO-LSO (Multi-Agent Policy Optimization with Latent Space Optimization) which applies a form of comprehensive representation learning devised to supplement MARL training. Specifically, MAPO-LSO proposes a multi-agent extension of transition dynamics reconstruction and self-predictive learning that constructs a latent state optimization scheme that can be trivially extended to current state-of-the-art MARL algorithms. Empirical results demonstrate MAPO-LSO to show notable improvements in sample efficiency and learning performance compared to its vanilla MARL counterpart without any additional MARL hyperparameter tuning on a diverse suite of MARL tasks. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 高速類似検索のためのバイメトリックフレームワーク
A Bi-metric Framework for Fast Similarity Search ( http://arxiv.org/abs/2406.02891v1 ) ライセンス: Link先を確認 | Haike Xu, Sandeep Silwal, Piotr Indyk, | (参考訳) 近接するデータ構造を設計するための新しい「バイメトリック」フレームワークを提案する。
本フレームワークでは, 高精度で計算に費用がかかる基底トラストメトリックと, 安価だが精度の低いプロキシメトリックの2つの相似性関数を仮定する。
理論と実践の両方において,クエリ手順が高価なメトリックの精度を達成するように,プロキシメトリックのみを使用してデータ構造を構築する方法を示す。
我々の理論的結果は、このフレームワークを2つの一般的な近接探索アルゴリズムであるDiskANNとCover Treeのインスタンス化する。
いずれの場合も、データ構造を構成するために使用されるプロキシメトリックが、境界要素まで基底トラスの計量を近似する限り、データ構造は、基底トラスの計量に関して任意に良好な近似を保証する。
実験的な面では、計算コストが大幅に異なるMLモデルにより評価された2つの相似関数を持つテキスト検索問題に対して、このフレームワークを適用した。
MTEBベンチマークのほぼ全てのデータセットに対して、我々の手法は、再ランク付けのような代替手法よりも精度と効率のトレードオフがかなり優れていることを観察する。
We propose a new "bi-metric" framework for designing nearest neighbor data structures. Our framework assumes two dissimilarity functions: a ground-truth metric that is accurate but expensive to compute, and a proxy metric that is cheaper but less accurate. In both theory and practice, we show how to construct data structures using only the proxy metric such that the query procedure achieves the accuracy of the expensive metric, while only using a limited number of calls to both metrics. Our theoretical results instantiate this framework for two popular nearest neighbor search algorithms: DiskANN and Cover Tree. In both cases we show that, as long as the proxy metric used to construct the data structure approximates the ground-truth metric up to a bounded factor, our data structure achieves arbitrarily good approximation guarantees with respect to the ground-truth metric. On the empirical side, we apply the framework to the text retrieval problem with two dissimilarity functions evaluated by ML models with vastly different computational costs. We observe that for almost all data sets in the MTEB benchmark, our approach achieves a considerably better accuracy-efficiency tradeoff than the alternatives, such as re-ranking. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 言語モデルでは知識追跡が可能:言語モデルと知識追跡タスクを統合するシンプルだが効果的な方法
Language Model Can Do Knowledge Tracing: Simple but Effective Method to Integrate Language Model and Knowledge Tracing Task ( http://arxiv.org/abs/2406.02893v1 ) ライセンス: Link先を確認 | Unggi Lee, Jiyeong Bae, Dohee Kim, Sookbun Lee, Jaekwon Park, Taekyung Ahn, Gunho Lee, Damji Stratton, Hyeoncheol Kim, | (参考訳) KT(Knowledge Tracing)は、学生の知識を時間とともにモデリングするオンライン学習において重要なタスクである。
数列をデータとして依存するディープラーニングベースのKTモデルの成功にもかかわらず、既存のアプローチのほとんどは、質問や概念のテキストのリッチなセマンティック情報を活用することができない。
本稿では、事前学習された言語モデル(PLM)とKTメソッドを統合する新しいフレームワークである言語モデルに基づく知識追跡(LKT)を提案する。
セマンティック表現をキャプチャするために言語モデルのパワーを活用することで、LKTはテキスト情報を効果的に取り入れ、大規模なベンチマークデータセットで以前のKTモデルよりも大幅に優れている。
さらに,PLMが獲得した意味的知識を活用することで,LKTがKTのコールドスタート問題に効果的に対処できることを実証した。
LKTの解釈性は、テキストリッチなデータを使用するため、従来のKTモデルと比較して向上している。
そこで我々は,局所的解釈可能なモデルに依存しない説明手法と注意点の分析を行い,モデル性能をさらに解釈した。
我々の研究は、PLMとKTの統合の可能性を強調し、KTドメインにおける今後の研究の道を開くものである。
Knowledge Tracing (KT) is a critical task in online learning for modeling student knowledge over time. Despite the success of deep learning-based KT models, which rely on sequences of numbers as data, most existing approaches fail to leverage the rich semantic information in the text of questions and concepts. This paper proposes Language model-based Knowledge Tracing (LKT), a novel framework that integrates pre-trained language models (PLMs) with KT methods. By leveraging the power of language models to capture semantic representations, LKT effectively incorporates textual information and significantly outperforms previous KT models on large benchmark datasets. Moreover, we demonstrate that LKT can effectively address the cold-start problem in KT by leveraging the semantic knowledge captured by PLMs. Interpretability of LKT is enhanced compared to traditional KT models due to its use of text-rich data. We conducted the local interpretable model-agnostic explanation technique and analysis of attention scores to interpret the model performance further. Our work highlights the potential of integrating PLMs with KT and paves the way for future research in KT domain. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 直列配向アルゴリズムにおける逆モデル過最適化のスケーリング法則
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms ( http://arxiv.org/abs/2406.02900v1 ) ライセンス: Link先を確認 | Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum, | (参考訳) Reinforcement Learning from Human Feedback (RLHF)は、最近のLarge Language Models (LLMs)の成功に不可欠であるが、しばしば複雑で不安定なプロセスである。
古典的なRLHFフレームワークでは、報酬モデルはまず人間の好みを表現するために訓練され、オンライン強化学習(RL)アルゴリズムによってLLMを最適化するために使用される。
このような方法の顕著な問題は、学習されたプロキシ報酬モデルによって測定されたパフォーマンスが増大するが、真の品質のプラトーは低下する、あるいは低下する、\emph{reward over-optimization} または \emph{reward Hacking} である。
ダイレクトアライメントアルゴリズム(DDA)は、報酬モデリングフェーズを回避し、古典的なRLHFパイプラインに代わるものとして登場した。
しかしながら、DAAは別のプロキシ報酬モデルを使用していないが、通常は過度な最適化によって劣化している。
いわゆる報酬ハッキング現象は、DAAにとってよく定義されていないが、同じような傾向がまだ明らかである:高いKL予算では、DAAアルゴリズムは従来のRLHFと同じような劣化パターンを示す。
特に,DAA法は,広範囲のKL予算だけでなく,データセットの1つのエポックが完成する前にも劣化することがわかった。
広範な実証実験を通じて、この研究はDAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目的、訓練体制、モデルスケールにわたって探求する。
Reinforcement Learning from Human Feedback (RLHF) has been crucial to the recent success of Large Language Models (LLMs), however, it is often a complex and brittle process. In the classical RLHF framework, a reward model is first trained to represent human preferences, which is in turn used by an online reinforcement learning (RL) algorithm to optimize the LLM. A prominent issue with such methods is \emph{reward over-optimization} or \emph{reward hacking}, where performance as measured by the learned proxy reward model increases, but true quality plateaus or even deteriorates. Direct Alignment Algorithms (DDAs) like Direct Preference Optimization have emerged as alternatives to the classical RLHF pipeline by circumventing the reward modeling phase. However, although DAAs do not use a separate proxy reward model, they still commonly deteriorate from over-optimization. While the so-called reward hacking phenomenon is not well-defined for DAAs, we still uncover similar trends: at higher KL budgets, DAA algorithms exhibit similar degradation patterns to their classic RLHF counterparts. In particular, we find that DAA methods deteriorate not only across a wide range of KL budgets but also often before even a single epoch of the dataset is completed. Through extensive empirical experimentation, this work formulates and formalizes the reward over-optimization or hacking problem for DAAs and explores its consequences across objectives, training regimes, and model scales. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# S$^2$GSL:Aspect-based Sentiment Analysisのための構文強化グラフ構造学習へのセグメントの導入
S$^2$GSL: Incorporating Segment to Syntactic Enhanced Graph Structure Learning for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2406.02902v1 ) ライセンス: Link先を確認 | Bingfeng Chen, Qihan Ouyang, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao, | (参考訳) Aspect based Sentiment Analysis(ABSA)における従来のグラフベースのアプローチは、静的依存木や動的潜伏木の構造を学習するためにグラフニューラルネットワークとアテンション機構を活用することで、優れたパフォーマンスを示している。
しかし、複雑なグローバル構造にセマンティック情報と構文情報を同時に組み込むことは、グラフ構造学習の過程で無関係な文脈や構文依存を導入し、不正確な予測をもたらす可能性がある。
上記の問題に対処するために,Segment と Syntactic enhanced Graph Structure Learning for ABSA を取り入れた S$^2$GSL を提案する。
具体的には、S$^2$GSLにはセグメンテーションを意識したセマンティックグラフ学習と、無関係なコンテキストと依存関係の削除を可能にする構文ベースの潜在グラフ学習が特徴である。
さらに,2つのグラフ学習分野の融合を容易にし,多様な構造をまたいだ相補性を実現する自己適応型集約ネットワークを提案する。
4つのベンチマークによる実験結果から,本フレームワークの有効性が示された。
Previous graph-based approaches in Aspect based Sentiment Analysis(ABSA) have demonstrated impressive performance by utilizing graph neural networks and attention mechanisms to learn structures of static dependency trees and dynamic latent trees. However, incorporating both semantic and syntactic information simultaneously within complex global structures can introduce irrelevant contexts and syntactic dependencies during the process of graph structure learning, potentially resulting in inaccurate predictions. In order to address the issues above, we propose S$^2$GSL, incorporating Segment to Syntactic enhanced Graph Structure Learning for ABSA. Specifically,S$^2$GSL is featured with a segment-aware semantic graph learning and a syntax-based latent graph learning enabling the removal of irrelevant contexts and dependencies, respectively. We further propose a self-adaptive aggregation network that facilitates the fusion of two graph learning branches, thereby achieving complementarity across diverse structures. Experimental results on four benchmarks demonstrate the effectiveness of our framework. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# オープングランドプランニング - 課題とベンチマーク構築
Open Grounded Planning: Challenges and Benchmark Construction ( http://arxiv.org/abs/2406.02903v1 ) ライセンス: Link先を確認 | Shiguang Guo, Ziliang Deng, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, | (参考訳) 大規模言語モデル(LLM)の出現は、人間のような計画にLLMを使うことに注目が集まっている。
LLMベースの計画に関する既存の研究は、LLMの言語生成能力を活用してフリースタイルの計画を作成するか、あるいは制限された環境内での限られた行動に対する意思決定を学習するために強化学習アプローチを採用するかに焦点を当てている。
しかし、どちらの手法も、実世界の計画において、オープンかつ実行可能な要件とはかなりの相違が見られる。
本稿では,新しい計画課題であるオープングランドプランニングを提案する。
オープングランドプランニングの主な目的は、モデルに可変アクションセットに基づいて実行可能なプランを生成するように要求することであり、それによって生成されたプランの実行可能性を確保することである。
この目的のために、幅広い領域にまたがるオープングランドプランニングのベンチマークを確立する。
そして、現在最先端のLLMを5つの計画手法とともにテストし、既存のLLMとメソッドが、オープンドメインの基盤となる計画によってもたらされる課題を解決するのに依然として苦労していることを明らかにした。
本研究の結果は,オープングラウンドプランニングの基盤となるデータセットを定義し,LLMプランニングの潜在的な課題と今後の方向性を明らかにした。
The emergence of large language models (LLMs) has increasingly drawn attention to the use of LLMs for human-like planning. Existing work on LLM-based planning either focuses on leveraging the inherent language generation capabilities of LLMs to produce free-style plans, or employs reinforcement learning approaches to learn decision-making for a limited set of actions within restricted environments. However, both approaches exhibit significant discrepancies from the open and executable requirements in real-world planning. In this paper, we propose a new planning task--open grounded planning. The primary objective of open grounded planning is to ask the model to generate an executable plan based on a variable action set, thereby ensuring the executability of the produced plan. To this end, we establishes a benchmark for open grounded planning spanning a wide range of domains. Then we test current state-of-the-art LLMs along with five planning approaches, revealing that existing LLMs and methods still struggle to address the challenges posed by grounded planning in open domains. The outcomes of this paper define and establish a foundational dataset for open grounded planning, and shed light on the potential challenges and future directions of LLM-based planning. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# Focked-up ZX計算:連続可変量子計算
The Focked-up ZX Calculus: Picturing Continuous-Variable Quantum Computation ( http://arxiv.org/abs/2406.02905v1 ) ライセンス: Link先を確認 | Razin A. Shaikh, Lia Yeh, Stefano Gogioso, | (参考訳) ZX と ZW の計算は有限次元量子計算のグラフィカル推論ツールとして有効であるが、無限次元ヒルベルト空間における連続変数量子計算(CVQC)の可能性は探求され始めている。
本研究では,CVQCのグラフィカル言語を定式化する。
各図は2種類のクモからなる無向グラフで、実数上で定義されたZXのZクモと、自然数で定義された新しく導入されたフォッククモである。
Z と X のクモはそれぞれ位置空間と運動量空間の関数を表し、フォッククモは離散フォック基底の関数を表す。
Z と X の間のフーリエ変換と Z と Fock の間のエルミート変換に加えて、ヘフティアCVQC 相互作用をキャプチャするエキサイティングな新しいグラフィカルルールを提案する。
この計算が無限次元ヒルベルト空間で解釈されたガウス CVQC のすべてに対して完備であることを保証するため、ブース、カレット、コンフォートによるアフィンラグランジアン関係の完全性を変換する。
量子誤り訂正法を応用して、ゴッテマン・キタエフ・プレスキル(GKP)符号エンコーダ、シンドローム測定、およびアダマール固有状態のマジック状態蒸留のグラフィカル表現を導出する。
最後に,ガウスボソンサンプリングについて,その回路がハフニアンのサブマトリクスをサンプリングすることの完全なグラフィカルな証明を提供することによって解明する。
While the ZX and ZW calculi have been effective as graphical reasoning tools for finite-dimensional quantum computation, the possibilities for continuous-variable quantum computation (CVQC) in infinite-dimensional Hilbert space are only beginning to be explored. In this work, we formulate a graphical language for CVQC. Each diagram is an undirected graph made of two types of spiders: the Z spider from the ZX calculus defined on the reals, and the newly introduced Fock spider defined on the natural numbers. The Z and X spiders represent functions in position and momentum space respectively, while the Fock spider represents functions in the discrete Fock basis. In addition to the Fourier transform between Z and X, and the Hermite transform between Z and Fock, we present exciting new graphical rules capturing heftier CVQC interactions. We ensure this calculus is complete for all of Gaussian CVQC interpreted in infinite-dimensional Hilbert space, by translating the completeness in affine Lagrangian relations by Booth, Carette, and Comfort. Applying our calculus for quantum error correction, we derive graphical representations of the Gottesman-Kitaev-Preskill (GKP) code encoder, syndrome measurement, and magic state distillation of Hadamard eigenstates. Finally, we elucidate Gaussian boson sampling by providing a fully graphical proof that its circuit samples submatrix hafnians. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 感性分析のための予測フィードバックによるインコンテキスト学習の改善
Improving In-Context Learning with Prediction Feedback for Sentiment Analysis ( http://arxiv.org/abs/2406.02911v1 ) ライセンス: Link先を確認 | Hongling Xu, Qianlong Wang, Yice Zhang, Min Yang, Xi Zeng, Bing Qin, Ruifeng Xu, | (参考訳) 大規模言語モデル(LLM)は、文脈内学習(ICL)パラダイムを通じて感情分析において有望な結果を得た。
しかし、微妙な感情を区別する能力は依然として課題である。
人間のフィードバックによる理解の調整能力に触発されて,従来の予測とフィードバックを取り入れたICLを強化し,LLMの感情的誤解釈の是正を目指す。
具体的には,(1)LLMの事前予測の取得,(2)正確性に基づく予測フィードバックの考案,(3)感情理解を洗練させるためにフィードバック駆動のプロンプトを活用する3つのステップから構成される。
9つの感情分析データセットによる実験結果から,従来のICL法よりもフレームワークが優れていることが示され,平均F1改善率は5.95%となった。
Large language models (LLMs) have achieved promising results in sentiment analysis through the in-context learning (ICL) paradigm. However, their ability to distinguish subtle sentiments still remains a challenge. Inspired by the human ability to adjust understanding via feedback, this paper enhances ICL by incorporating prior predictions and feedback, aiming to rectify sentiment misinterpretation of LLMs. Specifically, the proposed framework consists of three steps: (1) acquiring prior predictions of LLMs, (2) devising predictive feedback based on correctness, and (3) leveraging a feedback-driven prompt to refine sentiment understanding. Experimental results across nine sentiment analysis datasets demonstrate the superiority of our framework over conventional ICL methods, with an average F1 improvement of 5.95%. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 極端間隔を有するLDMのゼロ次微調整
Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity ( http://arxiv.org/abs/2406.02913v1 ) ライセンス: Link先を確認 | Wentao Guo, Jikai Long, Yimeng Zeng, Zirui Liu, Xinyu Yang, Yide Ran, Jacob R. Gardner, Osbert Bastani, Christopher De Sa, Xiaodong Yu, Beidi Chen, Zhaozhuo Xu, | (参考訳) ゼロ階最適化(ゼロ階最適化、ZO)は、フォワードパスのみを用いた大規模言語モデルの微調整のためのメモリ効率の最適化手法である。
しかし、携帯電話やラップトップなどのメモリ制限された設定におけるZO微調整の適用は、完全精度のフォワードパスが実現不可能であるため、依然として困難である。
本研究では,LLMのZO微調整に空間性と量子化を組み込むことにより,この制限に対処する。
具体的には,ZO を用いた LLM パラメータの極めて小さなサブセットの微調整の実現可能性について検討する。
このアプローチにより、未チューニングパラメータの大部分を量子化し、限られたデバイスメモリの制約を満たすことができる。
以上の結果から, 学習前プロセスは, 下流タスクにおけるZO微調整を導出する「感度パラメータ」のセットを特定できることがわかった。
以上の結果から,ZO を用いた LLM の微調整パラメータは,壁面時間速度を向上しつつ,ZO の微調整性能に優れることが示された。
さらに、これらの0.1%の感度パラメータをターゲットとしたZO微調整と4ビット量子化を組み合わせ、メモリ8ギバイト未満のGPUデバイス上でのLlama2-7Bモデルの効率的なZO微調整を可能にし、遅延を顕著に低減できることを示す。
Zeroth-order optimization (ZO) is a memory-efficient strategy for fine-tuning Large Language Models using only forward passes. However, the application of ZO fine-tuning in memory-constrained settings such as mobile phones and laptops is still challenging since full precision forward passes are infeasible. In this study, we address this limitation by integrating sparsity and quantization into ZO fine-tuning of LLMs. Specifically, we investigate the feasibility of fine-tuning an extremely small subset of LLM parameters using ZO. This approach allows the majority of un-tuned parameters to be quantized to accommodate the constraint of limited device memory. Our findings reveal that the pre-training process can identify a set of "sensitive parameters" that can guide the ZO fine-tuning of LLMs on downstream tasks. Our results demonstrate that fine-tuning 0.1% sensitive parameters in the LLM with ZO can outperform the full ZO fine-tuning performance, while offering wall-clock time speedup. Additionally, we show that ZO fine-tuning targeting these 0.1% sensitive parameters, combined with 4 bit quantization, enables efficient ZO fine-tuning of an Llama2-7B model on a GPU device with less than 8 GiB of memory and notably reduced latency. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 水中音響カメラ画像の自己監督型デノナイズ戦略
A Self-Supervised Denoising Strategy for Underwater Acoustic Camera Imageries ( http://arxiv.org/abs/2406.02914v1 ) ライセンス: Link先を確認 | Xiaoteng Zhou, Katsunori Mizuno, Yilong Zhang, | (参考訳) 濁度と暗さを特徴とする低視認性海洋環境では、音響カメラは高解像度の2Dソナー画像を生成することができる視覚センサーとして機能する。
しかし、音響カメラ画像は複雑なノイズによって干渉され、下流の視覚アルゴリズムによって直接摂取することは困難である。
本稿では,自己監督型デノナイジングフレームワークと細かな特徴誘導ブロックの2つの主要構成要素からなる深層学習技術を用いて,音響カメラ画像のデノナイジング手法を提案する。
さらに,画像の認知レベルと特徴マッチング性能の改善との関係について検討した。
実験結果から,提案手法はノイズモデルに事前の知識を必要とせず,効果的に音響カメラ画像のフィルタリングを行うことができることがわかった。
denoisingプロセスは、複雑なパラメータチューニングと後処理なしで、ほぼエンドツーエンドである。
微細な特徴を保存しながらノイズを除去し、局所的な特徴マッチングの性能を向上させる。
In low-visibility marine environments characterized by turbidity and darkness, acoustic cameras serve as visual sensors capable of generating high-resolution 2D sonar images. However, acoustic camera images are interfered with by complex noise and are difficult to be directly ingested by downstream visual algorithms. This paper introduces a novel strategy for denoising acoustic camera images using deep learning techniques, which comprises two principal components: a self-supervised denoising framework and a fine feature-guided block. Additionally, the study explores the relationship between the level of image denoising and the improvement in feature-matching performance. Experimental results show that the proposed denoising strategy can effectively filter acoustic camera images without prior knowledge of the noise model. The denoising process is nearly end-to-end without complex parameter tuning and post-processing. It successfully removes noise while preserving fine feature details, thereby enhancing the performance of local feature matching. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 視覚テキストのクロスアライメント:視覚言語モデルにおける類似点の精査
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models ( http://arxiv.org/abs/2406.02915v1 ) ライセンス: Link先を確認 | Jinhao Li, Haopeng Li, Sarah Erfani, Lei Feng, James Bailey, Feng Liu, | (参考訳) 近年,例えばCLIPなど,事前学習された視覚言語モデルを用いて,大規模言語モデルによって生成されたより微細なテキスト記述とクエリイメージ全体を整合させることで,ゼロショット性能を大幅に向上させることが判明している。
しかし,本論文では,画像全体よりもクエリ画像の局所的な領域に,より詳細な記述がより効果的に適合する傾向があることを実証的に確認し,理論的に検証する。
そこで本研究では,重み付きビジュアルテキスト・クロスアライメント(WCA)という手法を提案する。
この方法は、クエリ画像内の局所的な視覚領域を特定するために設計された、局所的な視覚的プロンプト技術から始まる。
局所的な視覚領域は、事前訓練されたVLMを用いて類似度行列を作成することにより、より微細な記述と交差する。
問合せ画像が各カテゴリとどの程度よく一致しているかを判断するために,この行列の重み付き類似度に基づいてスコア関数を開発する。
大規模な実験により,本手法は各種データセット間のゼロショット性能を著しく向上し,少数ショット学習手法に匹敵する結果が得られることが示された。
It has recently been discovered that using a pre-trained vision-language model (VLM), e.g., CLIP, to align a whole query image with several finer text descriptions generated by a large language model can significantly enhance zero-shot performance. However, in this paper, we empirically find that the finer descriptions tend to align more effectively with local areas of the query image rather than the whole image, and then we theoretically validate this finding. Thus, we present a method called weighted visual-text cross alignment (WCA). This method begins with a localized visual prompting technique, designed to identify local visual areas within the query image. The local visual areas are then cross-aligned with the finer descriptions by creating a similarity matrix using the pre-trained VLM. To determine how well a query image aligns with each category, we develop a score function based on the weighted similarities in this matrix. Extensive experiments demonstrate that our method significantly improves zero-shot performance across various datasets, achieving results that are even comparable to few-shot learning methods. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 微分方程式と演算子ネットワークに対するMLPとkan表現の包括的およびFAIR比較
A comprehensive and FAIR comparison between MLP and KAN representations for differential equations and operator networks ( http://arxiv.org/abs/2406.02917v1 ) ライセンス: Link先を確認 | Khemraj Shukla, Juan Diego Toscano, Zhicheng Wang, Zongren Zou, George Em Karniadakis, | (参考訳) Kolmogorov-Arnold Networks (KAN) はMLPの代替表現モデルとして最近導入された。
本稿では, 物理インフォームド機械学習モデル (PIKAN) とディープ演算子モデル (DeepokaN) を構築し, 前方および逆問題に対する微分方程式を解く。
特に,物理インフォームドニューラルネットワーク (PINN) とディープオペレータネットワーク (DeepONets) を比較する。
B-splinesパラメタライゼーションに基づく元のkanは精度と効率に欠けるが、低次直交多項式に基づく修正版はPINNやDeepONetと同等の性能を持つが、異なるランダムシードや高次直交多項式に分岐する可能性があるため、ロバスト性に欠ける。
我々は,それらの損失景観を可視化し,情報ボトルネック理論を用いて学習動態を解析する。
我々の研究は、FAIRの原則に従って、他の研究者が我々のベンチマークを使って、この新たなトピックをさらに前進させることができるようにしている。
Kolmogorov-Arnold Networks (KANs) were recently introduced as an alternative representation model to MLP. Herein, we employ KANs to construct physics-informed machine learning models (PIKANs) and deep operator models (DeepOKANs) for solving differential equations for forward and inverse problems. In particular, we compare them with physics-informed neural networks (PINNs) and deep operator networks (DeepONets), which are based on the standard MLP representation. We find that although the original KANs based on the B-splines parameterization lack accuracy and efficiency, modified versions based on low-order orthogonal polynomials have comparable performance to PINNs and DeepONet although they still lack robustness as they may diverge for different random seeds or higher order orthogonal polynomials. We visualize their corresponding loss landscapes and analyze their learning dynamics using information bottleneck theory. Our study follows the FAIR principles so that other researchers can use our benchmarks to further advance this emerging topic. | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# 医用画像の分離・生成に強力なバックボーンを作るU-KAN
U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation ( http://arxiv.org/abs/2406.02918v1 ) ライセンス: Link先を確認 | Chenxin Li, Xinyu Liu, Wuyang Li, Cheng Wang, Hengyu Liu, Yixuan Yuan, | (参考訳) U-Netは画像分割や拡散確率モデルといった様々な視覚的応用の基盤となっている。
変圧器やMLPを導入して多くの革新的な設計や改良がなされてきたが、ネットワークは依然として線形モデリングパターンと不十分な解釈可能性に制限されている。
これらの課題に対処するため、我々の直感は、コルモゴロフ・アルノルドネットワーク(KAN)の精度と解釈可能性の観点から印象的な結果に触発され、コルモゴロフ・アンノルド表現定理から導かれる非線形可学習活性化関数のスタックを介してニューラルネットワーク学習を再構築した。
具体的には,視覚タスクのバックボーン改善におけるkansの未解決の可能性について検討する。
トークン化中間表現であるU-KAN上に専用kan層を統合することにより,確立したU-Netパイプラインを検証,修正,再設計する。
厳密な医用画像セグメンテーションのベンチマークでは、計算コストが低い場合でも高い精度でU-KANの優位性を検証している。
さらに、拡散モデルにおける代替U-Netノイズ予測器としてのU-KANの可能性を探り、タスク指向モデルアーキテクチャの生成にその適用性を実証した。
これらの取り組みは貴重な洞察を示し、U-KANでは医用画像のセグメンテーションと生成のための強力なバックボーンを作ることができるという可能性に光を当てている。
プロジェクトページ: https://yes-ukan.github.io/
U-Net has become a cornerstone in various visual applications such as image segmentation and diffusion probability models. While numerous innovative designs and improvements have been introduced by incorporating transformers or MLPs, the networks are still limited to linearly modeling patterns as well as the deficient interpretability. To address these challenges, our intuition is inspired by the impressive results of the Kolmogorov-Arnold Networks (KANs) in terms of accuracy and interpretability, which reshape the neural network learning via the stack of non-linear learnable activation functions derived from the Kolmogorov-Anold representation theorem. Specifically, in this paper, we explore the untapped potential of KANs in improving backbones for vision tasks. We investigate, modify and re-design the established U-Net pipeline by integrating the dedicated KAN layers on the tokenized intermediate representation, termed U-KAN. Rigorous medical image segmentation benchmarks verify the superiority of U-KAN by higher accuracy even with less computation cost. We further delved into the potential of U-KAN as an alternative U-Net noise predictor in diffusion models, demonstrating its applicability in generating task-oriented model architectures. These endeavours unveil valuable insights and sheds light on the prospect that with U-KAN, you can make strong backbone for medical image segmentation and generation. Project page: https://yes-ukan.github.io/ | 翻訳日:2024-06-06 22:05:49 公開日:2024-06-05 |
# MultifacetEval: 医学知識習得におけるLLMの多面的評価
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge ( http://arxiv.org/abs/2406.02919v1 ) ライセンス: Link先を確認 | Yuxuan Zhou, Xien Liu, Chen Ning, Ji Wu, | (参考訳) 大規模言語モデル(LLM)はドメイン間で優れており、MedQAのような医療評価ベンチマークでも顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
本稿では,このギャップの原因を多面的検査スキーマを用いて検討し,現在のLSMによる医学知識の実態を体系的に探究することを目的とする。
具体的には,複数の面(比較,修正,識別,検証)における医療知識のエンコーディングと習得におけるLLMの程度と範囲を同時に検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
MultifacetEval フレームワークをベースとして,MultiDiseK (臨床疾患知識ベースからの質問) とMultiMedQA (医療ベンチマーク MedQA からの質問を多面的質問に書き換える) という2つの多面的評価データセットを構築した。
これらの多面的データセットの実験結果は、医学知識を習得する際の現在のLLMの程度が、既存の医学ベンチマークよりもはるかに低いことを示し、医学知識を習得する際の深さ、精度、包括性を欠いていることを示唆している。
結果として、現在のLLMは現実世界の医療タスクにはまだ対応できていない。
コードとデータセットはhttps://github.com/THUMLP/MultifacetEval.comで公開されている。
Large language models (LLMs) have excelled across domains, also delivering notable performance on the medical evaluation benchmarks, such as MedQA. However, there still exists a significant gap between the reported performance and the practical effectiveness in real-world medical scenarios. In this paper, we aim to explore the causes of this gap by employing a multifaceted examination schema to systematically probe the actual mastery of medical knowledge by current LLMs. Specifically, we develop a novel evaluation framework MultifacetEval to examine the degree and coverage of LLMs in encoding and mastering medical knowledge at multiple facets (comparison, rectification, discrimination, and verification) concurrently. Based on the MultifacetEval framework, we construct two multifaceted evaluation datasets: MultiDiseK (by producing questions from a clinical disease knowledge base) and MultiMedQA (by rephrasing each question from a medical benchmark MedQA into multifaceted questions). The experimental results on these multifaceted datasets demonstrate that the extent of current LLMs in mastering medical knowledge is far below their performance on existing medical benchmarks, suggesting that they lack depth, precision, and comprehensiveness in mastering medical knowledge. Consequently, current LLMs are not yet ready for application in real-world medical tasks. The codes and datasets are available at https://github.com/THUMLP/MultifacetEval. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# ニューラルネットワークバイザリングのためのテキストインジェクション
Text Injection for Neural Contextual Biasing ( http://arxiv.org/abs/2406.02921v1 ) ライセンス: Link先を確認 | Zhong Meng, Zelin Wu, Rohit Prabhavalkar, Cal Peyser, Weiran Wang, Nanxin Chen, Tara N. Sainath, Bhuvana Ramabhadran, | (参考訳) ニューラルコンテキストバイアスは、話者の文脈内で重要なフレーズ、特に訓練データに稀なフレーズに対する自動音声認識(ASR)を効果的に改善する。
本研究では文脈テキストインジェクション(CTI)を提案する。
CTIは、ペア化された音声テキストデータだけでなく、ASRモデルとそのバイアス成分を最適化するために、より大規模な未ペアテキストコーパスも活用している。
未ペアテキストは、音声のような表現に変換され、モデルの注意を関連するバイアスフレーズへと導くために使用される。
さらに、文脈テキスト注入(CTI)最小単語誤り率(MWER)トレーニングを導入する。
実験により、1000億の文を持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成できることが示された。
CTI-MWERはさらに23.5%の改善を提供している。
Neural contextual biasing effectively improves automatic speech recognition (ASR) for crucial phrases within a speaker's context, particularly those that are infrequent in the training data. This work proposes contextual text injection (CTI) to enhance contextual ASR. CTI leverages not only the paired speech-text data, but also a much larger corpus of unpaired text to optimize the ASR model and its biasing component. Unpaired text is converted into speech-like representations and used to guide the model's attention towards relevant bias phrases. Moreover, we introduce a contextual text-injected (CTI) minimum word error rate (MWER) training, which minimizes the expected WER caused by contextual biasing when unpaired text is injected into the model. Experiments show that CTI with 100 billion text sentences can achieve up to 43.3% relative WER reduction from a strong neural biasing model. CTI-MWER provides a further relative improvement of 23.5%. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# スパイクニューラルネットワークを状態空間モデルとして再考
Rethinking Spiking Neural Networks as State Space Models ( http://arxiv.org/abs/2406.02923v1 ) ライセンス: Link先を確認 | Malyaban Bal, Abhronil Sengupta, | (参考訳) スパイキングニューラルネットワーク(SNN)は、従来のニューラルアーキテクチャに代わる生物学的に妥当な代替品として提案されており、そのコアとなる計算フレームワークは、広範囲に研究されているインテリジェンス・アンド・ファイア(LIF)ニューロンの設計に依存している。
LIFニューロンのステートフルな性質は、リカレントニューラルネットワーク(RNN)と同様に、SNNがシーケンシャルなデータを処理する能力について、現在進行中の議論を引き起こしている。
それにもかかわらず、長距離依存タスクの領域において、現在のSNNの探索には大きなギャップが残っている。
本研究では, 単純なLIF機構を超えて神経力学の解析を拡張するために, 状態空間モデルに基づく新しい確率的スパイキング神経モデルを提案する。
我々は従来の膜電位のみを含むLIFニューロンのスカラー隠れ状態表現を超えて、n次元隠れ状態を提案する。
さらに、LIFニューロンの固定ダイナミクスとは対照的に、学習可能なパラメータを導入することにより、各層にまたがるニューロンダイナミクスの微調整が可能となる。
また,これらのニューラルネットワークモデルを深部SNNアーキテクチャに拡張し,効率的な並列トレーニングを実現するとともに,後方フェーズにおける確率的スパイク操作の非微分可能性の課題にも着目する。
我々のモデルは、Long Range Arenaベンチマーク、順列MNIST、音声コマンドデータセットを含む、様々な長距離依存タスクにわたるSNNモデル間の最先端性能を実現する。
さらに、このスパイキングモデルに固有のスパース活動パターンを強調し、エネルギー効率の利点を分析する。
Spiking neural networks (SNNs) are posited as a biologically plausible alternative to conventional neural architectures, with their core computational framework resting on the extensively studied leaky integrate-and-fire (LIF) neuron design. The stateful nature of LIF neurons has spurred ongoing discussions about the ability of SNNs to process sequential data, akin to recurrent neural networks (RNNs). Despite this, there remains a significant gap in the exploration of current SNNs within the realm of long-range dependency tasks. In this study, to extend the analysis of neuronal dynamics beyond simplistic LIF mechanism, we present a novel class of stochastic spiking neuronal model grounded in state space models. We expand beyond the scalar hidden state representation of LIF neurons, which traditionally comprises only the membrane potential, by proposing an n-dimensional hidden state. Additionally, we enable fine-tuned formulation of neuronal dynamics across each layer by introducing learnable parameters, as opposed to the fixed dynamics in LIF neurons. We also develop a robust framework for scaling these neuronal models to deep SNN-based architectures, ensuring efficient parallel training while also adeptly addressing the challenge of non-differentiability of stochastic spiking operation during the backward phase. Our models attain state-of-the-art performance among SNN models across diverse long-range dependency tasks, encompassing the Long Range Arena benchmark, permuted sequential MNIST, and the Speech Command dataset. Moreover, we provide an analysis of the energy efficiency advantages, emphasizing the sparse activity pattern intrinsic to this spiking model. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# Pruner-Zero:大規模言語モデルのスクラッチからシンボリック・プルーニング・メトリックを進化させる
Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models ( http://arxiv.org/abs/2406.02924v1 ) ライセンス: Link先を確認 | Peijie Dong, Lujun Li, Zhenheng Tang, Xiang Liu, Xinglin Pan, Qiang Wang, Xiaowen Chu, | (参考訳) 目覚ましい機能にもかかわらず、LLM(Large Language Models)はその大きなサイズのため、デプロイメントの課題に直面している。
プルーニング法は重量のサブセットを減らして加速させるが、その多くは再訓練を必要とする。
近年,再学習を伴わずにLLMを刈り取る手法が提案されている。
しかし、これらのメトリクスは人間の専門家の関与と退屈な試行錯誤を必要とします。
優れたプルーニング指標を効率よく同定するために,遺伝的プログラミングを用いたシンボルプルーニング指標の自動検索フレームワークを開発した。
特に、既存のプルーニング指標を含む精巧な探索空間を考案し、潜在的な記号的プルーニング指標を発見する。
本稿では,人口の多様性を高めるための運用の簡易化戦略を提案する。
このようにして、Pruner-Zeroはシンボリックプルーニングメトリクスの自動生成を可能にする。
検索結果に基づいて, 刈り込み後の刈り出し指標と性能の相関について検討し, いくつかの原理を要約する。
言語モデリングとゼロショットタスクにおけるLLaMAとLLaMA-2の広範囲な実験により,我々のPruner-Zeroは,SOTAポストトレーニングプルーニング法よりも優れた性能が得られることが示された。
コードネームは \url{https://github.com/pprp/Pruner-Zero}。
Despite the remarkable capabilities, Large Language Models (LLMs) face deployment challenges due to their extensive size. Pruning methods drop a subset of weights to accelerate, but many of them require retraining, which is prohibitively expensive and computationally demanding. Recently, post-training pruning approaches introduced novel metrics, enabling the pruning of LLMs without retraining. However, these metrics require the involvement of human experts and tedious trial and error. To efficiently identify superior pruning metrics, we develop an automatic framework for searching symbolic pruning metrics using genetic programming. In particular, we devise an elaborate search space encompassing the existing pruning metrics to discover the potential symbolic pruning metric. We propose an opposing operation simplification strategy to increase the diversity of the population. In this way, Pruner-Zero allows auto-generation of symbolic pruning metrics. Based on the searched results, we explore the correlation between pruning metrics and performance after pruning and summarize some principles. Extensive experiments on LLaMA and LLaMA-2 on language modeling and zero-shot tasks demonstrate that our Pruner-Zero obtains superior performance than SOTA post-training pruning methods. Code at: \url{https://github.com/pprp/Pruner-Zero}. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# Syn2REAL: ASRドメイン適応における相違点の緩和のためのタスク算術の活用
SYN2REAL: Leveraging Task Arithmetic for Mitigating Synthetic-Real Discrepancies in ASR Domain Adaptation ( http://arxiv.org/abs/2406.02925v1 ) ライセンス: Link先を確認 | Hsuan Su, Hua Farn, Shang-Tse Chen, Hung-yi Lee, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は「タスクベクトル」の概念を導入している。
本稿では,テキストのみを対象とした自動音声認識(ASR)における領域適応のための新しいタスクベクトル「SYN2REAL」を提案する。
従来の合成音声の微調整は、しばしば音響ミスマッチによる性能劣化をもたらす。
この問題に対処するために、実音声と合成音声で微調整されたモデル間のパラメータ差を減じて「SYN2REAL」ベクトルを作成することを提案する。
このベクトルは2つの領域間のギャップを効果的に埋める。
SLURPデータセットを用いた実験により,提案手法は未確認対象領域に対する単語誤り率を平均11.15%向上させ,音声領域適応性向上におけるタスクベクトルの可能性を強調した。
Recent advancements in large language models (LLMs) have introduced the 'task vector' concept, which has significantly impacted various domains but remains underexplored in speech recognition. This paper presents a novel 'SYN2REAL' task vector for domain adaptation in automatic speech recognition (ASR), specifically targeting text-only domains. Traditional fine-tuning on synthetic speech often results in performance degradation due to acoustic mismatches. To address this issue, we propose creating a 'SYN2REAL' vector by subtracting the parameter differences between models fine-tuned on real and synthetic speech. This vector effectively bridges the gap between the two domains. Experiments on the SLURP dataset demonstrate that our approach yields an average improvement of 11.15% in word error rate for unseen target domains, highlighting the potential of task vectors in enhancing speech domain adaptation. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# 多変量物理インフォームド・コンボリューション・オートエンコーダによる多変量制御
Multivariate Physics-Informed Convolutional Autoencoder for Anomaly Detection in Power Distribution Systems with High Penetration of DERs ( http://arxiv.org/abs/2406.02927v1 ) ライセンス: Link先を確認 | Mehdi Jabbari Zideh, Sarika Khushalani Solanki, | (参考訳) サイバー物理事象下でのシステム状態の解析におけるディープラーニングモデルの絶え間ない進歩にもかかわらず、それらの能力は、データ可用性の問題、データ取得のコスト、およびトレーニングウィンドウ以外のデータの解釈と外挿の欠如により、電力システム領域において制限されている。
さらに、風力や太陽光発電のような分散エネルギー資源(DER)の統合は、電力システムの複雑さと非線形性を高める。
したがって、電力系統運用者の信頼性を高め、信頼性のある意思決定を行うための状況意識を高める必要がある。
これにより、物理インフォームドニューラルネットワーク(PINN)モデルがより解釈可能で信頼性が高く、堅牢なモデルとして開発され、基礎となる原則法則がニューラルネットワークモデルのトレーニングプロセスに統合されて、パフォーマンスの向上を実現している。
本稿では,多変量物理インフォームド畳み込みオートエンコーダ(PIConvAE)モデルを提案する。
物理法則は、基礎となるキルヒホフの回路法則をオートエンコーダのトレーニングプロセスに組み込むカスタマイズされた損失関数によって統合される。
多変量PIConvAEモデルの性能を,カリフォルニア州リバーサイドのIEEE 123バスシステムと実世界の給電網で評価した。
その結果,両システムにおける各種サイバー異常の検出において,提案手法の異例な性能を示した。
さらに、トレーニングデータ比率の異なるデータ不足シナリオにおいて、モデルの有効性を評価する。
最後に、PIConvAEモデルは検出基準がかなり高い他のモデルを上回る既存の機械学習モデルと比較される。
Despite the relentless progress of deep learning models in analyzing the system conditions under cyber-physical events, their abilities are limited in the power system domain due to data availability issues, cost of data acquisition, and lack of interpretation and extrapolation for the data beyond the training windows. In addition, the integration of distributed energy resources (DERs) such as wind and solar generations increases the complexities and nonlinear nature of power systems. Therefore, an interpretable and reliable methodology is of utmost need to increase the confidence of power system operators and their situational awareness for making reliable decisions. This has led to the development of physics-informed neural network (PINN) models as more interpretable, trustworthy, and robust models where the underlying principled laws are integrated into the training process of neural network models to achieve improved performance. This paper proposes a multivariate physics-informed convolutional autoencoder (PIConvAE) model to detect cyber anomalies in power distribution systems with unbalanced configurations and high penetration of DERs. The physical laws are integrated through a customized loss function that embeds the underlying Kirchhoff's circuit laws into the training process of the autoencoder. The performance of the multivariate PIConvAE model is evaluated on two unbalanced power distribution grids, IEEE 123-bus system and a real-world feeder in Riverside, CA. The results show the exceptional performance of the proposed method in detecting various cyber anomalies in both systems. In addition, the model's effectiveness is evaluated in data scarcity scenarios with different training data ratios. Finally, the model's performance is compared with existing machine learning models where the PIConvAE model surpasses other models with considerably higher detection metrics. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# 拡散モデルを用いたゼロショット学習におけるデータ効率の探索
Exploring Data Efficiency in Zero-Shot Learning with Diffusion Models ( http://arxiv.org/abs/2406.02929v1 ) ライセンス: Link先を確認 | Zihan Ye, Shreyank N. Gowda, Xiaobo Jin, Xiaowei Huang, Haotian Xu, Yaochu Jin, Kaizhu Huang, | (参考訳) Zero-Shot Learning (ZSL) は、クラスレベルでのデータ効率を向上させることで、分類器が見えないクラスを識別できるようにすることを目的としている。
これは、未確認クラスの事前に定義されたセマンティクスから画像特徴を生成することで実現される。
しかし、現在のほとんどのアプローチは、見たクラスのサンプルの数に大きく依存している。
本稿では,限られた例が一般的に生成モデルの性能低下をもたらすことを示す。
これらの課題を克服するために,拡散型ZSLモデルであるZeroDiffを提案する。
この統合されたフレームワークは拡散モデルを導入し、クラスレベルとインスタンスレベルのデータ効率を改善する。
具体的には、例えば、ZeroDiffはフォワード拡散チェーンを使用して、制限されたデータを拡張されたノイズ付きデータに変換する。
クラスレベルの有効性を得るために,拡散型特徴発生器(DFG)と拡散型表現発生器(DRG)からなる2分岐生成構造を設計する。
DFGはクロスエントロピーに基づく特徴分布の学習とサンプリングに重点を置いており、DRGは教師付きコントラストベース表現を学習し、DFGのゼロショット能力を高める。
さらに,様々な側面から生成された特徴を評価するために3つの識別器を使用し,識別器間の知識の伝達にワッサーシュタイン距離に基づく相互学習損失を導入し,生成指導を強化する。
一般的な3つのZSLベンチマークに関する広範な実験を通じて実証されたZeroDiffは、既存のZSLメソッドよりも大幅に改善されているだけでなく、トレーニングデータが少ない場合でも堅牢なパフォーマンスを維持している。
コードは受理時にリリースされる。
Zero-Shot Learning (ZSL) aims to enable classifiers to identify unseen classes by enhancing data efficiency at the class level. This is achieved by generating image features from pre-defined semantics of unseen classes. However, most current approaches heavily depend on the number of samples from seen classes, i.e. they do not consider instance-level effectiveness. In this paper, we demonstrate that limited seen examples generally result in deteriorated performance of generative models. To overcome these challenges, we propose ZeroDiff, a Diffusion-based Generative ZSL model. This unified framework incorporates diffusion models to improve data efficiency at both the class and instance levels. Specifically, for instance-level effectiveness, ZeroDiff utilizes a forward diffusion chain to transform limited data into an expanded set of noised data. For class-level effectiveness, we design a two-branch generation structure that consists of a Diffusion-based Feature Generator (DFG) and a Diffusion-based Representation Generator (DRG). DFG focuses on learning and sampling the distribution of cross-entropy-based features, whilst DRG learns the supervised contrastive-based representation to boost the zero-shot capabilities of DFG. Additionally, we employ three discriminators to evaluate generated features from various aspects and introduce a Wasserstein-distance-based mutual learning loss to transfer knowledge among discriminators, thereby enhancing guidance for generation. Demonstrated through extensive experiments on three popular ZSL benchmarks, our ZeroDiff not only achieves significant improvements over existing ZSL methods but also maintains robust performance even with scarce training data. Code will be released upon acceptance. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# P2PFormer:リモートセンシング画像から正規建物輪郭抽出のためのプリミティブ・ツー・ポリゴン法
P2PFormer: A Primitive-to-polygon Method for Regular Building Contour Extraction from Remote Sensing Images ( http://arxiv.org/abs/2406.02930v1 ) ライセンス: Link先を確認 | Tao Zhang, Shiqing Wei, Yikang Zhou, Muying Luo, Wenling You, Shunping Ji, | (参考訳) リモートセンシング画像から建物輪郭を抽出することは、複雑で多様な形状、閉塞、騒音のために重要な課題である。
既存の方法は、しばしば不規則な輪郭、丸い角、冗長点に悩まされ、通常の多角形建築輪郭を生成するために広範囲な後処理を必要とする。
これらの課題に対処するため,我々は,ポストプロセッシングを伴わずに通常の建物輪郭を生成する,新しい合理化パイプラインを導入する。
我々のアプローチは、一般的な幾何学的プリミティブ(頂点、線、角を含むことができる)のセグメンテーションから始まり、次にそれらの列の予測を行う。
これにより、セグメント化されたプリミティブを順次接続することで、通常の建物の輪郭を直接構築することができる。
このパイプライン上に構築したP2PFormerは,変圧器をベースとしたアーキテクチャを用いて幾何学的プリミティブを分割し,その順序を予測する。
プリミティブのセグメンテーションを強化するために,グループクエリと呼ばれるユニークな表現を導入する。
この表現は、一連のクエリと特異なクエリ位置から構成され、プリミティブの複数のミドルポイントとその効率的なリンクに焦点を当てる。
さらに,クエリ位置の埋め込みにおいて,クエリの焦点を適切な位置に絞ることを目的とした革新的な暗黙的な更新戦略を提案し,その結果,プリミティブセグメンテーションの質を高める。
我々の実験は、P2PFormerがWHU、CrowdAI、WHU-Mixデータセットで新しい最先端のパフォーマンスを実現し、最大のCrowdAIデータセットでは2.7 APと6.5 AP75のマージンで以前のSOTA PolyWorldを上回ったことを示している。
コードとトレーニングされた重量を公開して、それらの使用を促進し、さらなる研究を促進するつもりです。
Extracting building contours from remote sensing imagery is a significant challenge due to buildings' complex and diverse shapes, occlusions, and noise. Existing methods often struggle with irregular contours, rounded corners, and redundancy points, necessitating extensive post-processing to produce regular polygonal building contours. To address these challenges, we introduce a novel, streamlined pipeline that generates regular building contours without post-processing. Our approach begins with the segmentation of generic geometric primitives (which can include vertices, lines, and corners), followed by the prediction of their sequence. This allows for the direct construction of regular building contours by sequentially connecting the segmented primitives. Building on this pipeline, we developed P2PFormer, which utilizes a transformer-based architecture to segment geometric primitives and predict their order. To enhance the segmentation of primitives, we introduce a unique representation called group queries. This representation comprises a set of queries and a singular query position, which improve the focus on multiple midpoints of primitives and their efficient linkage. Furthermore, we propose an innovative implicit update strategy for the query position embedding aimed at sharpening the focus of queries on the correct positions and, consequently, enhancing the quality of primitive segmentation. Our experiments demonstrate that P2PFormer achieves new state-of-the-art performance on the WHU, CrowdAI, and WHU-Mix datasets, surpassing the previous SOTA PolyWorld by a margin of 2.7 AP and 6.5 AP75 on the largest CrowdAI dataset. We intend to make the code and trained weights publicly available to promote their use and facilitate further research. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# 放射線誘導型マルチモーダルセルフアテンションネットワークによる乳腺MRIの病的完全反応の予測
Radiomics-guided Multimodal Self-attention Network for Predicting Pathological Complete Response in Breast MRI ( http://arxiv.org/abs/2406.02936v1 ) ライセンス: Link先を確認 | Jonghun Kim, Hyunjin Park, | (参考訳) 乳癌は女性の間で最も多いがんであり、抗がん療法が患者の予後と治療のカスタマイズに不可欠である後、病理学的完全反応(pCR)を予測する。
深層学習は、医用画像診断において、特に精度を高めるために複数の画像モダリティを利用する場合に、有望であることを示している。
本研究では,ダイナミックコントラスト強調画像(DCE)とADCマップを用いた乳癌患者のpCR予測モデルを提案する。
放射線学的特徴は腫瘍領域の手作りの特徴として確立されており、医用画像解析に有用である。
本手法は, 腫瘍関連領域からの特徴抽出を誘導するために放射線を利用した自己注意機構を備えたエンコーダを用いて, DCE MRI と ADC から特徴抽出を行う。
実験の結果,他のベースライン法と比較して,pCR予測におけるモデルの性能が優れていることが示された。
Breast cancer is the most prevalent cancer among women and predicting pathologic complete response (pCR) after anti-cancer treatment is crucial for patient prognosis and treatment customization. Deep learning has shown promise in medical imaging diagnosis, particularly when utilizing multiple imaging modalities to enhance accuracy. This study presents a model that predicts pCR in breast cancer patients using dynamic contrast-enhanced (DCE) magnetic resonance imaging (MRI) and apparent diffusion coefficient (ADC) maps. Radiomics features are established hand-crafted features of the tumor region and thus could be useful in medical image analysis. Our approach extracts features from both DCE MRI and ADC using an encoder with a self-attention mechanism, leveraging radiomics to guide feature extraction from tumor-related regions. Our experimental results demonstrate the superior performance of our model in predicting pCR compared to other baseline methods. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# Adaptive Stepsizes を用いた分散ミニマックス最適化のためのニア最適収束の実現
Achieving Near-Optimal Convergence for Distributed Minimax Optimization with Adaptive Stepsizes ( http://arxiv.org/abs/2406.02939v1 ) ライセンス: Link先を確認 | Yan Huang, Xiang Li, Yipeng Shen, Niao He, Jinming Xu, | (参考訳) 本稿では,分散ミニマックス問題に適応的手法を直接適用することにより,局所的に計算された適応段階における不整合による非収束が生じることを示す。
そこで我々はD-AdaSTを提案する。D-AdaSTはStepsize Trackingを用いた分散適応ミニマックス法である。
鍵となる戦略は、2つの余分な(スカラー)変数の送信を含む適応的なステップサイズ追跡プロトコルを使用することである。
このプロトコルは、ノードの段差間の整合性を保証し、バニラ分散適応法に存在するノード間の段差の調整の欠如による定常誤差を排除し、正確な収束を保証する。
非凸-強凸分散ミニマックス問題に対しては、ステップサイズの時間スケールの分離とネットワークの準独立性を保証し、ほぼ最適収束率$\tilde{\mathcal{O}} \left( \epsilon ^{-\left(4+\delta \right)} \right)$を任意の小さな$\delta > 0$に対して設定する。
我々の知る限り、D-AdaSTは非凸ミニマックス問題に対する問題依存パラメータを知らずにほぼ最適収束を達成する最初の分散適応手法である。
我々の理論結果を検証するために大規模な実験を行った。
In this paper, we show that applying adaptive methods directly to distributed minimax problems can result in non-convergence due to inconsistency in locally computed adaptive stepsizes. To address this challenge, we propose D-AdaST, a Distributed Adaptive minimax method with Stepsize Tracking. The key strategy is to employ an adaptive stepsize tracking protocol involving the transmission of two extra (scalar) variables. This protocol ensures the consistency among stepsizes of nodes, eliminating the steady-state error due to the lack of coordination of stepsizes among nodes that commonly exists in vanilla distributed adaptive methods, and thus guarantees exact convergence. For nonconvex-strongly-concave distributed minimax problems, we characterize the specific transient times that ensure time-scale separation of stepsizes and quasi-independence of networks, leading to a near-optimal convergence rate of $\tilde{\mathcal{O}} \left( \epsilon ^{-\left( 4+\delta \right)} \right)$ for any small $\delta > 0$, matching that of the centralized counterpart. To our best knowledge, D-AdaST is the first distributed adaptive method achieving near-optimal convergence without knowing any problem-dependent parameters for nonconvex minimax problems. Extensive experiments are conducted to validate our theoretical results. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# タスク指向クエリベンチマーク(ToQB)
The Task-oriented Queries Benchmark (ToQB) ( http://arxiv.org/abs/2406.02943v1 ) ライセンス: Link先を確認 | Keun Soo Yim, | (参考訳) タスク指向クエリ(ビデオ再生、注文食品、タクシー呼び出しなど)は、仮想アシスタントやチャットボット、その他のLLMベースのサービスの品質を評価する上で不可欠である。
しかし、関連するNLP(Natural Language Processing)分野の既存のベンチマークは主にタスク指向の対話に焦点を当てているため、タスク指向クエリの標準ベンチマークはまだ利用できない。
そこで本研究では,既存のタスク指向対話データセットとLLMサービスを用いて,タスク指向クエリベンチマーク(ToQB)を効率的に生成する手法を提案する。
提案手法は,各対話における話者の本来の意図を要約するために基礎となるNLPタスクを定式化し,LLMサービスを用いて考案されたNLPタスクを実行するための重要なステップを詳述し,ベンチマーク生成プロセスの大部分を自動化するためのフレームワークの概要を述べる。
2つの単一タスクドメインと1つのマルチタスクドメインを含むケーススタディを通じて、これらの3つのドメインに対してLLMプロンプト(例えば、システム発話や話者ラベルを省略する)をカスタマイズし、生成されたタスク指向クエリを特徴付ける方法を示す。
生成されたToQBデータセットが一般公開されている。
さらに、コミュニティコントリビュータによるToQBに追加可能な新しいドメインとその実践的応用について論じる。
Task-oriented queries (e.g., one-shot queries to play videos, order food, or call a taxi) are crucial for assessing the quality of virtual assistants, chatbots, and other large language model (LLM)-based services. However, a standard benchmark for task-oriented queries is not yet available, as existing benchmarks in the relevant NLP (Natural Language Processing) fields have primarily focused on task-oriented dialogues. Thus, we present a new methodology for efficiently generating the Task-oriented Queries Benchmark (ToQB) using existing task-oriented dialogue datasets and an LLM service. Our methodology involves formulating the underlying NLP task to summarize the original intent of a speaker in each dialogue, detailing the key steps to perform the devised NLP task using an LLM service, and outlining a framework for automating a major part of the benchmark generation process. Through a case study encompassing three domains (i.e., two single-task domains and one multi-task domain), we demonstrate how to customize the LLM prompts (e.g., omitting system utterances or speaker labels) for those three domains and characterize the generated task-oriented queries. The generated ToQB dataset is made available to the public. We further discuss new domains that can be added to ToQB by community contributors and its practical applications. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# 時間反転対称性の破れによるツイスト二層グラフェンのトポロジー形成
Shaping the topology of twisted bilayer graphene via time-reversal symmetry breaking ( http://arxiv.org/abs/2406.02947v1 ) ライセンス: Link先を確認 | Cunyuan Jiang, Matteo Baggioli, Qing-Dong Jiang, | (参考訳) 対称性破砕は2次元層状材料の輸送特性とトポロジー特性を調整するための有効なツールである。
これらの材料のうち、ツイスト二層グラフェン(TBG)は、トポロジカルな特徴と強く相関する電子的挙動の豊富な相互作用を特徴とする、新しい物理学のための有望なプラットフォームとして登場した。
本研究では, 時間反転対称性の破れ(TRSB)を用いて, TBGの位相特性を制御した。
TRSBの強度を変動させることにより、反対のチャーン数を持つ一対の平坦なバンドを示す位相絶縁相と、平坦なバンドのチャーン数ではなくベリー曲率が消える新しい絶縁状態との間の位相相転移が発見された。
このトポロジ的遷移は、$\Gamma$ポイントでのギャップ閉包によって媒介されることを示すとともに、ねじれ角、対称性破壊パラメータ、AとABの積層領域間のミスマッチ結合の関数として3次元位相図を構築する。
最後に、この新しい電子相は、最低平坦帯のベリー双極子密度によって誘導される非量子化異常ホール導電率であるフェルミエネルギーの関数として測定することで、実験室で同定できることを示す。
Symmetry breaking is an effective tool for tuning the transport and topological properties of 2D layered materials. Among these materials, twisted bilayer graphene (TBG) has emerged as a promising platform for new physics, characterized by a rich interplay between topological features and strongly correlated electronic behavior. In this study, we utilize time-reversal symmetry breaking (TRSB) to manipulate the topological properties of TBG. By varying the strength of TRSB, we discover a topological phase transition between a topological insulating phase, which exhibits a pair of flat bands with opposite Chern numbers, and a novel insulating state where the Chern number, but not the Berry curvature, of the flat bands vanishes. We demonstrate that this topological transition is mediated by a gap closing at the $\Gamma$ point, and we construct a three-dimensional phase diagram as a function of the twisting angle, the symmetry-breaking parameter, and the mismatch coupling between AA and AB stacking regions. Finally, we show that this novel electronic phase can be identified in the lab by measuring, as a function of the Fermi energy, its non-quantized anomalous Hall conductivity that is induced by the Berry dipole density of the lowest flat bands. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# 4D ASR: CTC、アテンション、トランスデューサ、マスク予測デコーダを統合した共同ビームサーチ
4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders ( http://arxiv.org/abs/2406.02950v1 ) ライセンス: Link先を確認 | Yui Sudo, Muhammad Shakeel, Yosuke Fukumoto, Brian Yan, Jiatong Shi, Yifan Peng, Shinji Watanabe, | (参考訳) エンドツーエンドの自動音声認識(E2E-ASR)は、コネクショニスト時間分類(CTC)、リカレントニューラルネットワークトランスデューサ(RNN-T)、アテンションベースのエンコーダデコーダ、マスク予測モデルなど、いくつかのネットワークアーキテクチャに分類される。
それぞれのネットワークアーキテクチャにはアドバンテージとデメリットがあり、実践者はアプリケーション要求に応じてこれらの異なるモデルを切り替えることができます。
異なるモデルを構築する代わりに、4つのデコーダ(CTC、RNN-T、アテンション、マスク予測)が同じエンコーダを共有するジョイントモデリングスキームを提案し、これを4Dモデリングと呼ぶ。
4Dモデルはマルチタスク学習を用いて訓練され、モデル正則化とモデルロバストネスの最大化を実現している。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダ(CTC,RNN-T,アテンション)を組み合わせることで,より高性能な1パスビーム探索アルゴリズムを提案する。
これら3つのビームサーチアルゴリズムは、デコーダをプライマリデコーダとして使用する点で異なる。
各アルゴリズムの性能と計算上のトレードオフを慎重に評価する。
実験の結果, 共同で訓練した4Dモデルは, 1個のデコーダで訓練したE2E-ASRモデルよりも優れていた。
さらに,提案した1パスビーム探索アルゴリズムは,提案したCTC/アテンションデコーディングよりも優れていることを示す。
End-to-end automatic speech recognition (E2E-ASR) can be classified into several network architectures, such as connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention-based encoder-decoder, and mask-predict models. Each network architecture has advantages and disadvantages, leading practitioners to switch between these different models depending on application requirements. Instead of building separate models, we propose a joint modeling scheme where four decoders (CTC, RNN-T, attention, and mask-predict) share the same encoder -- we refer to this as 4D modeling. The 4D model is trained using multitask learning, which will bring model regularization and maximize the model robustness thanks to their complementary properties. To efficiently train the 4D model, we introduce a two-stage training strategy that stabilizes multitask learning. In addition, we propose three novel one-pass beam search algorithms by combining three decoders (CTC, RNN-T, and attention) to further improve performance. These three beam search algorithms differ in which decoder is used as the primary decoder. We carefully evaluate the performance and computational tradeoffs associated with each algorithm. Experimental results demonstrate that the jointly trained 4D model outperforms the E2E-ASR models trained with only one individual decoder. Furthermore, we demonstrate that the proposed one-pass beam search algorithm outperforms the previously proposed CTC/attention decoding. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# AVFF:ビデオディープフェイク検出のためのオーディオ・ビジュアル機能融合
AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection ( http://arxiv.org/abs/2406.02951v1 ) ライセンス: Link先を確認 | Trevine Oorloff, Surya Koppisetti, Nicolò Bonettini, Divyaraj Solanki, Ben Colman, Yaser Yacoob, Ali Shahriyari, Gaurav Bharaj, | (参考訳) ディープフェイクビデオコンテンツが急速に成長するにつれて、我々はそれらを検出するための改善された一般化可能な方法を必要としている。
既存のほとんどの検出方法は、ユニモーダル・キューを使用するか、オーディオと視覚のモダリティの間の不協和を捉えるために教師付きトレーニングに依存している。
前者は音声と視覚の対応を完全に無視しているが、後者はトレーニングコーパス内の音声と視覚の手がかりを識別することに重点を置いている。
本稿では,2段階のクロスモーダル学習手法であるAudio-Visual Feature Fusion(AVFF)について述べる。
第1段階では、実ビデオの自己監督による表現学習を追求し、本質的な音声と視覚の対応を捉えている。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚補間マスキングと特徴融合戦略を導入する。
学習された表現は第2段階で調整され、実際のビデオと偽ビデオの両方で教師付き学習によってディープフェイク分類が追求される。
大規模な実験と分析により,我々の新しい表現学習パラダイムは自然界において極めて差別的であることが示唆された。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
With the rapid growth in deepfake video content, we require improved and generalizable methods to detect them. Most existing detection methods either use uni-modal cues or rely on supervised training to capture the dissonance between the audio and visual modalities. While the former disregards the audio-visual correspondences entirely, the latter predominantly focuses on discerning audio-visual cues within the training corpus, thereby potentially overlooking correspondences that can help detect unseen deepfakes. We present Audio-Visual Feature Fusion (AVFF), a two-stage cross-modal learning method that explicitly captures the correspondence between the audio and visual modalities for improved deepfake detection. The first stage pursues representation learning via self-supervision on real videos to capture the intrinsic audio-visual correspondences. To extract rich cross-modal representations, we use contrastive learning and autoencoding objectives, and introduce a novel audio-visual complementary masking and feature fusion strategy. The learned representations are tuned in the second stage, where deepfake classification is pursued via supervised learning on both real and fake videos. Extensive experiments and analysis suggest that our novel representation learning paradigm is highly discriminative in nature. We report 98.6% accuracy and 99.1% AUC on the FakeAVCeleb dataset, outperforming the current audio-visual state-of-the-art by 14.9% and 9.9%, respectively. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# GraphAlign: 機能アライメントによる複数グラフ上の1つのグラフニューラルネットワークの事前トレーニング
GraphAlign: Pretraining One Graph Neural Network on Multiple Graphs via Feature Alignment ( http://arxiv.org/abs/2406.02953v1 ) ライセンス: Link先を確認 | Zhenyu Hou, Haozhan Li, Yukuo Cen, Jie Tang, Yuxiao Dong, | (参考訳) グラフ自己教師型学習(SSL)は、グラフ構造化データによるマイニングと学習をかなり約束する。
しかし、グラフSSLにおける重要な課題は、異なるドメインにまたがるグラフ間の機能差にある。
本研究では,豊富なノード特徴を持つグラフのコレクションに1つのグラフニューラルネットワーク(GNN)を事前学習し,事前学習したGNNを未知のグラフに適用することを目的とする。
本稿では,既存のグラフSSLフレームワークにシームレスに統合可能な汎用GraphAlign法を提案する。
異なるグラフにまたがる特徴分布を調整するために、GraphAlignは、機能エンコーディング、正規化のアライメント戦略を、機能レベルの混合モジュールとともに設計する。
大規模な実験によると、GraphAlignは既存のグラフSSLフレームワークを使用して、複数のグラフにまたがる統一的で強力なGNNを事前トレーニングし、ドメイン内グラフとドメイン外グラフの両方でパフォーマンス上の優位性を示す。
Graph self-supervised learning (SSL) holds considerable promise for mining and learning with graph-structured data. Yet, a significant challenge in graph SSL lies in the feature discrepancy among graphs across different domains. In this work, we aim to pretrain one graph neural network (GNN) on a varied collection of graphs endowed with rich node features and subsequently apply the pretrained GNN to unseen graphs. We present a general GraphAlign method that can be seamlessly integrated into the existing graph SSL framework. To align feature distributions across disparate graphs, GraphAlign designs alignment strategies of feature encoding, normalization, alongside a mixture-of-feature-expert module. Extensive experiments show that GraphAlign empowers existing graph SSL frameworks to pretrain a unified and powerful GNN across multiple graphs, showcasing performance superiority on both in-domain and out-of-domain graphs. | 翻訳日:2024-06-06 19:59:32 公開日:2024-06-05 |
# PrE-Text:LLM時代の私的フェデレーションデータに基づく言語モデル
PrE-Text: Training Language Models on Private Federated Data in the Age of LLMs ( http://arxiv.org/abs/2406.02958v1 ) ライセンス: Link先を確認 | Charlie Hou, Akshat Shrivastava, Hongyuan Zhan, Rylan Conway, Trang Le, Adithya Sagar, Giulia Fanti, Daniel Lazar, | (参考訳) オンデバイストレーニングは、現在、プライベートな分散ユーザデータ上で機械学習(ML)モデルをトレーニングするための最も一般的なアプローチである。
それにもかかわらず、デバイス上でのトレーニングにはいくつかの欠点がある: (1) 多くのユーザデバイスはデバイス上で大きなモデルをトレーニングするには小さすぎる、(2)デバイス上でのトレーニングは通信と計算集約であり、(3)デバイス上でのトレーニングはデバッグとデプロイが困難である。
これらの問題に対処するために、差分プライベート(DP)合成テキストデータを生成するPrE-Text(PrE-Text)を提案する。
まず、複数のデータセットにまたがって、PrE-Text合成データによる小さなモデル(ユーザデバイスに適合するモデル)のトレーニングが、実際のプライバシー体制下でトレーニングされた小さなモデル(\epsilon=1.29$, $\epsilon=7.58$)よりも優れていることを示す。
9$\times$より少ないラウンド、6$\times$より少ないラウンドで、100$\times$より少ない通信で、これらの結果を達成する。
第二に、PrE-TextのDP合成データに大規模なモデルを微調整することで、同じ種類のプライバシー予算でプライベートデータ上での大きな言語モデル(LLM)のパフォーマンスが向上する。
これらの結果は、DP合成データのトレーニングが、プライベートな分散データ上でデバイス上でモデルをトレーニングするよりも、よりよい選択肢となることを示唆している。
コードはhttps://github.com/houcharlie/PrE-Textで入手できる。
On-device training is currently the most common approach for training machine learning (ML) models on private, distributed user data. Despite this, on-device training has several drawbacks: (1) most user devices are too small to train large models on-device, (2) on-device training is communication- and computation-intensive, and (3) on-device training can be difficult to debug and deploy. To address these problems, we propose Private Evolution-Text (PrE-Text), a method for generating differentially private (DP) synthetic textual data. First, we show that across multiple datasets, training small models (models that fit on user devices) with PrE-Text synthetic data outperforms small models trained on-device under practical privacy regimes ($\epsilon=1.29$, $\epsilon=7.58$). We achieve these results while using 9$\times$ fewer rounds, 6$\times$ less client computation per round, and 100$\times$ less communication per round. Second, finetuning large models on PrE-Text's DP synthetic data improves large language model (LLM) performance on private data across the same range of privacy budgets. Altogether, these results suggest that training on DP synthetic data can be a better option than training a model on-device on private distributed data. Code is available at https://github.com/houcharlie/PrE-Text. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 大規模言語モデルの逆モーメントマッチング蒸留
Adversarial Moment-Matching Distillation of Large Language Models ( http://arxiv.org/abs/2406.02959v1 ) ライセンス: Link先を確認 | Chen Jia, | (参考訳) 知識蒸留(KD)は、より大きな教師モデルで学生モデルを指導し、大規模言語モデル(LLM)の計算と記憶効率を改善する実践的な利点を享受する上で、非常に効果的であることが示されている。
LLMの最先端KD法は、主に教師と学生の確率予測の間の明示的な分布距離の最小化に頼っている。
本研究では,これらの強制行動のクローン化目的を最適化する代わりに,LLMのKDの模倣学習戦略を検討する。
特に,教師の行動の行動価値モーメントをオン・アンド・オフ・ポリティクスの観点から一致させることにより,模倣ギャップを最小化する。
このアクション値のモーメントマッチング目標を達成するために,モーメントマッチング距離を推定し,学生のポリシーを最適化して最小化するための逆トレーニングアルゴリズムを提案する。
タスクに依存しない命令追従実験とタスク固有の実験の両方の結果は,本手法の有効性を実証し,新しい最先端性能を実現する。
Knowledge distillation (KD) has been shown to be highly effective in guiding a student model with a larger teacher model and achieving practical benefits in improving the computational and memory efficiency for large language models (LLMs). State-of-the-art KD methods for LLMs mostly rely on minimizing explicit distribution distance between teacher and student probability predictions. Instead of optimizing these mandatory behaviour cloning objectives, we explore an imitation learning strategy for KD of LLMs. In particular, we minimize the imitation gap by matching the action-value moments of the teacher's behavior from both on- and off-policy perspectives. To achieve this action-value moment-matching goal, we propose an adversarial training algorithm to jointly estimate the moment-matching distance and optimize the student policy to minimize it. Results from both task-agnostic instruction-following experiments and task-specific experiments demonstrate the effectiveness of our method and achieve new state-of-the-art performance. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# Docs2KG: 大規模言語モデルによる異種文書からの統一知識グラフ構築
Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models ( http://arxiv.org/abs/2406.02962v1 ) ライセンス: Link先を確認 | Qiang Sun, Yuanyi Luo, Wenxiao Zhang, Sirui Li, Jichunyang Li, Kai Niu, Xiangrui Kong, Wei Liu, | (参考訳) 保守的な推定であっても、エンタープライズデータの80%は非構造化ファイルにあり、不均一なフォーマットに対応するデータレイクに格納されている。
古典的な検索エンジンは、特に洞察の定式化のために検索と探索を行うタスクにおいて、情報検索のニーズを満たすことができない。
言い換えれば、明確な検索キーワードは存在しない。
知識グラフは、人間の認知負荷を減らす自然な視覚的魅力のため、異種データ統合と知識表現の勝者となる。
本稿では,メール,Webページ,PDFファイル,Excelファイルなど,多種多様な非構造化文書からマルチモーダル情報を抽出するための新しいフレームワークであるDocs2KGを紹介する。
動的に抽出されたキー情報を表す統一知識グラフを生成し、Docs2KGは文書データレイクの効率的なクエリと探索を可能にする。
ドメイン固有のデータソースや事前設計されたスキーマにフォーカスする既存のアプローチとは異なり、Docs2KGは様々なドキュメント構造やコンテンツタイプに適応できる柔軟性と拡張性を備えたソリューションを提供する。
提案フレームワークは、複数の下流タスクをサポートするデータ処理を統一し、ドメインの解釈性を改善した。
Docs2KGはhttps://docs2kg.ai4wa.comで公開されており、デモビデオはhttps://docs2kg.ai4wa.com/Videoで公開されている。
Even for a conservative estimate, 80% of enterprise data reside in unstructured files, stored in data lakes that accommodate heterogeneous formats. Classical search engines can no longer meet information seeking needs, especially when the task is to browse and explore for insight formulation. In other words, there are no obvious search keywords to use. Knowledge graphs, due to their natural visual appeals that reduce the human cognitive load, become the winning candidate for heterogeneous data integration and knowledge representation. In this paper, we introduce Docs2KG, a novel framework designed to extract multimodal information from diverse and heterogeneous unstructured documents, including emails, web pages, PDF files, and Excel files. Dynamically generates a unified knowledge graph that represents the extracted key information, Docs2KG enables efficient querying and exploration of document data lakes. Unlike existing approaches that focus on domain-specific data sources or pre-designed schemas, Docs2KG offers a flexible and extensible solution that can adapt to various document structures and content types. The proposed framework unifies data processing supporting a multitude of downstream tasks with improved domain interpretability. Docs2KG is publicly accessible at https://docs2kg.ai4wa.com, and a demonstration video is available at https://docs2kg.ai4wa.com/Video. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 負のプロンプトの影響を理解する:いつ、どのように影響をもたらすか?
Understanding the Impact of Negative Prompts: When and How Do They Take Effect? ( http://arxiv.org/abs/2406.02965v1 ) ライセンス: Link先を確認 | Yuanhao Ban, Ruochen Wang, Tianyi Zhou, Minhao Cheng, Boqing Gong, Cho-Jui Hsieh, | (参考訳) 負のプロンプトの概念は、安定拡散のような条件付き生成モデルから生まれ、ユーザーは生成された画像から何を除外すべきかを指定できる。
%であり,有意な有効性を示した。
負のプロンプトが広く使われているにもかかわらず、その固有のメカニズムはほとんど解明されていない。
本稿では, 負のプロンプトがどのように作用するか, どのように作用するかを明らかにするための, 初めての総合的研究について述べる。
我々の広範な経験的分析は、負のプロンプトの2つの主要な挙動を識別する。
遅延効果: 正のプロンプトが対応するコンテンツをレンダリングした後、負のプロンプトの影響が観察される。
Deletion through Neutralization: Negativeは、肯定的なプロンプトを持つ潜在空間における相互キャンセル効果を通じて生成されたイメージから概念を削除する。
これらの知見は、例えば、ネガティブなプロンプトは、単純な適応アルゴリズムによって、背景に最小限の変更を加えることで、オブジェクトの塗布を促進できることを示す。
私たちの発見は、ネガティブなプロンプトの可能性に乗じて、コミュニティに貴重な洞察をもたらすだろうと考えています。
The concept of negative prompts, emerging from conditional generation models like Stable Diffusion, allows users to specify what to exclude from the generated images.%, demonstrating significant practical efficacy. Despite the widespread use of negative prompts, their intrinsic mechanisms remain largely unexplored. This paper presents the first comprehensive study to uncover how and when negative prompts take effect. Our extensive empirical analysis identifies two primary behaviors of negative prompts. Delayed Effect: The impact of negative prompts is observed after positive prompts render corresponding content. Deletion Through Neutralization: Negative prompts delete concepts from the generated image through a mutual cancellation effect in latent space with positive prompts. These insights reveal significant potential real-world applications; for example, we demonstrate that negative prompts can facilitate object inpainting with minimal alterations to the background via a simple adaptive algorithm. We believe our findings will offer valuable insights for the community in capitalizing on the potential of negative prompts. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# グローバル教育におけるジェネレーティブAIとデジタルネオコロニアリズム : 平等なフレームワークを目指して
Generative AI and Digital Neocolonialism in Global Education: Towards an Equitable Framework ( http://arxiv.org/abs/2406.02966v1 ) ライセンス: Link先を確認 | Matthew Nyaaba, Alyson Leigh Wright, Gyu Lim Choi, | (参考訳) 本稿では、ジェネレーティブ・人工知能(GenAI)が西洋以外の社会に西洋のイデオロギーを課すのかを批判的に論じ、その固有のバイアスを通じて教育におけるデジタル新植民地主義を永続させ、これらの効果を緩和する戦略を提案する。
我々の議論は、玄AIが西洋の学生に関係のある文化資料や事例を主に取り入れたコンテンツを作成し、西洋以外の背景から学生を遠ざけることによって、文化帝国主義を育むことができることを示した。
また、GenAIによる西洋語の主な使用は、非支配的な言語を疎外し、教育コンテンツが先住民語話者に近づきにくくし、彼らの最初の言語で学ぶ能力に影響を及ぼす可能性がある。
また、GenAIは、技術的に支配的な国家観を反映した内容やカリキュラムを多く生み出し、極端に専門化された土着の知識や実践を誇張している。
さらに、GenAIへのアクセスコストは教育の不平等を増し、GenAIデータのコントロールは、地元の学生やコミュニティに利益をもたらすことなく商業的搾取につながる可能性がある。
我々は、GenAI開発における文化的多様性と平等を優先する人間中心の改革、GenAIアプリケーション内の抑圧的構造を特定し解体する教育者や学生に権限を与える自由デザイン、将来の教育ニーズを満たすための調整可能なGenAIシステムを構築するための設計の展望、そして最後に、ネオコロニアルアウトプットの検索を効果的に促す技術について提案する。
This paper critically discusses how Generative Artificial Intelligence (GenAI) might impose Western ideologies on non-Western societies, perpetuating digital neocolonialism in education through its inherent biases and further suggests strategies to mitigate these effects. Our discussions demonstrated that GenAI can foster cultural imperialism by generating content that primarily incorporates cultural references and examples relevant to Western students, thereby alienating students from non-Western backgrounds. Also, the predominant use of Western languages by GenAI can marginalize non-dominant languages, making educational content less accessible to speakers of indigenous languages and potentially impacting their ability to learn in their first language. Additionally, GenAI often generates content and curricula that reflect the perspectives of technologically dominant countries, overshadowing marginalized indigenous knowledge and practices. Moreover, the cost of access to GenAI intensifies educational inequality and the control of GenAI data could lead to commercial exploitation without benefiting local students and their communities. We propose human-centric reforms to prioritize cultural diversity and equity in GenAI development; a liberatory design to empower educators and students to identify and dismantle the oppressive structures within GenAI applications; foresight by design to create an adjustable GenAI systems to meet future educational needs, and finally, effective prompting skills to reduces the retrieval of neocolonial outputs. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 3次元生成モデルのための階層型ガウスの逆生成
Adversarial Generation of Hierarchical Gaussians for 3D Generative Model ( http://arxiv.org/abs/2406.02968v1 ) ライセンス: Link先を確認 | Sangeek Hyun, Jae-Pil Heo, | (参考訳) 3D生成適応ネットワーク(3D GAN)のほとんどの進歩はレイキャストベースのボリュームレンダリングに大きく依存しており、レンダリングコストが要求される。
1つの有望な代替手段は、ラスタライズベースの3Dガウススプラッティング(3D-GS)であり、より高速なレンダリング速度と明示的な3D表現を提供する。
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。
しかし, 逆向きの枠組みでは, na\ 型ジェネレータアーキテクチャは訓練の不安定さに悩まされ, ガウスの規模を調節する能力が欠如している。
このことは、ガウスの初期化位置に対する適切なガイダンスがないことと、彼らのスケールを適応的に管理する密度化によって、モデルのばらつきと視覚的アーティファクトをもたらす。
これらの問題に対処するために、生成したガウスの位置とスケールを効果的に正規化する階層的マルチスケールガウス表現を持つジェネレータアーキテクチャを導入する。
具体的には,より微細なガウスの階層を,粗いレベルと細かな3次元シーンの両方をモデル化し,より微細なガウスの位置を粗いレベルに近い位置に置くことで,より微細なガウスの階層を設計する。
実験結果から,最先端の3D一貫したGANと同等の3D生成能力を持つGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
プロジェクトページ: https://hse1032.github.io/gsgan.com
Most advances in 3D Generative Adversarial Networks (3D GANs) largely depend on ray casting-based volume rendering, which incurs demanding rendering costs. One promising alternative is rasterization-based 3D Gaussian Splatting (3D-GS), providing a much faster rendering speed and explicit 3D representation. In this paper, we exploit Gaussian as a 3D representation for 3D GANs by leveraging its efficient and explicit characteristics. However, in an adversarial framework, we observe that a na\"ive generator architecture suffers from training instability and lacks the capability to adjust the scale of Gaussians. This leads to model divergence and visual artifacts due to the absence of proper guidance for initialized positions of Gaussians and densification to manage their scales adaptively. To address these issues, we introduce a generator architecture with a hierarchical multi-scale Gaussian representation that effectively regularizes the position and scale of generated Gaussians. Specifically, we design a hierarchy of Gaussians where finer-level Gaussians are parameterized by their coarser-level counterparts; the position of finer-level Gaussians would be located near their coarser-level counterparts, and the scale would monotonically decrease as the level becomes finer, modeling both coarse and fine details of the 3D scene. Experimental results demonstrate that ours achieves a significantly faster rendering speed (x100) compared to state-of-the-art 3D consistent GANs with comparable 3D generation capability. Project page: https://hse1032.github.io/gsgan. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 混合されていないフィルタ:大規模言語モデルの混合のための確率的フィルタリングに基づくオンラインゲーティング
Filtered not Mixed: Stochastic Filtering-Based Online Gating for Mixture of Large Language Models ( http://arxiv.org/abs/2406.02969v1 ) ライセンス: Link先を確認 | Raeid Saqur, Anastasis Kratsios, Florian Krach, Yannick Limmer, Jacob-Junqi Tian, John Willes, Blanka Horvath, Frank Rudzicz, | (参考訳) 我々は、オンライン時系列予測タスクにおいて、LLM予測の最良の重み付けを各ステップで適応的に予測することで、N$の事前訓練されたエキスパート大規模言語モデル(LLM)を組み合わせるための形式化されたメカニズムであるMoE-Fを提案する。
我々のメカニズムは,各専門家のランニング性能の条件情報を利用して,次のステップで時系列を予測するためのLLMの最適な組み合わせを予測する。
静的(学習された)エキスパート混合法(MoE)から派生したMoE-Fでは、専門家を組み合わせるために時間適応確率的フィルタリング技術を採用している。
専門家選択問題を有限状態空間、連続時間ハイデンマルコフモデル (HMM) としてフレーミングすることにより、ウーマン・シリャエフフィルタを利用することができる。
提案手法はまず,それぞれのLLMに対応する$N$並列フィルタを構築する。
各フィルタは、それらがアクセス可能な情報を考えると、LLMの最良の組み合わせを提案する。
その後、N$フィルタ出力を集約して、集約されたLLMの損失に対する下限を最適化し、クローズドフォームで最適化し、アンサンブル予測器を生成する。
I)MoE-Fアルゴリズム -- プラグアンドプレイフィルタリングハーネスとしてデプロイ可能であること、(II)提案されたフィルタリングベースのゲーティングアルゴリズムの理論的最適性を保証すること、(III)MoE-Fが目覚ましい17%の絶対値と48.5%の相対的なF1測定値を持つ実世界の金融市場運動タスクにおいて、最先端の基盤およびMoE LLMを用いた経験的評価と改善結果。
We propose MoE-F -- a formalised mechanism for combining $N$ pre-trained expert Large Language Models (LLMs) in online time-series prediction tasks by adaptively forecasting the best weighting of LLM predictions at every time step. Our mechanism leverages the conditional information in each expert's running performance to forecast the best combination of LLMs for predicting the time series in its next step. Diverging from static (learned) Mixture of Experts (MoE) methods, MoE-F employs time-adaptive stochastic filtering techniques to combine experts. By framing the expert selection problem as a finite state-space, continuous-time Hidden Markov model (HMM), we can leverage the Wohman-Shiryaev filter. Our approach first constructs $N$ parallel filters corresponding to each of the $N$ individual LLMs. Each filter proposes its best combination of LLMs, given the information that they have access to. Subsequently, the $N$ filter outputs are aggregated to optimize a lower bound for the loss of the aggregated LLMs, which can be optimized in closed-form, thus generating our ensemble predictor. Our contributions here are: (I) the MoE-F algorithm -- deployable as a plug-and-play filtering harness, (II) theoretical optimality guarantees of the proposed filtering-based gating algorithm, and (III) empirical evaluation and ablative results using state of the art foundational and MoE LLMs on a real-world Financial Market Movement task where MoE-F attains a remarkable 17% absolute and 48.5% relative F1 measure improvement over the next best performing individual LLM expert. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# ガウス点雲のどの例外的な低次元射影が多項式時間で見つかるか。
Which exceptional low-dimensional projections of a Gaussian point cloud can be found in polynomial time? ( http://arxiv.org/abs/2406.02970v1 ) ライセンス: Link先を確認 | Andrea Montanari, Kangjie Zhou, | (参考訳) d$-次元標準ガウスベクトル $\boldsymbol{x}_1,\dots, \boldsymbol{x}_n$ が与えられたとき、その$m$-次元射影のすべての経験的分布の集合を考える。
Diaconis and Freedman (1984) は、$n/d\to \infty$ ならば、そのような分布は標準ガウス分布に収束することを示した。
対照的に、比例漸近について研究し、$n,d\to \infty$を$n/d\to \alpha \in (0, \infty)$とする。
この場合、典型的なランダム部分空間に沿ったデータポイントの射影は再びガウス的であるが、集合 $\mathscr{F}_{m,\alpha}$ は例外部分空間に対応する非ガウス分布を含む。
統計物理学の非厳密な手法は、一般化されたパリの公式の言葉で$\mathscr{F}_{m,\alpha}$の間接的な特徴づけを与える。
この式を厳密な基準で配置し、これらの射影が効率的に発見できるかどうかを理解するために、部分集合 $\mathscr{F}^{\rm alg}_{m,\alpha}\subseteq \mathscr{F}_{m,\alpha}$ を反復アルゴリズムのクラスで実現できる分布について研究する。
この集合は確率的最適制御問題によって特徴づけられることを証明し、パリの公式を拡張する変分原理の観点からこの問題の双対的特徴付けを得る。
副産物として、「一般化球面パーセプトロン」モデルを含むランダム最適化問題のクラスに対して計算的に達成可能な値を得る。
Given $d$-dimensional standard Gaussian vectors $\boldsymbol{x}_1,\dots, \boldsymbol{x}_n$, we consider the set of all empirical distributions of its $m$-dimensional projections, for $m$ a fixed constant. Diaconis and Freedman (1984) proved that, if $n/d\to \infty$, all such distributions converge to the standard Gaussian distribution. In contrast, we study the proportional asymptotics, whereby $n,d\to \infty$ with $n/d\to \alpha \in (0, \infty)$. In this case, the projection of the data points along a typical random subspace is again Gaussian, but the set $\mathscr{F}_{m,\alpha}$ of all probability distributions that are asymptotically feasible as $m$-dimensional projections contains non-Gaussian distributions corresponding to exceptional subspaces. Non-rigorous methods from statistical physics yield an indirect characterization of $\mathscr{F}_{m,\alpha}$ in terms of a generalized Parisi formula. Motivated by the goal of putting this formula on a rigorous basis, and to understand whether these projections can be found efficiently, we study the subset $\mathscr{F}^{\rm alg}_{m,\alpha}\subseteq \mathscr{F}_{m,\alpha}$ of distributions that can be realized by a class of iterative algorithms. We prove that this set is characterized by a certain stochastic optimal control problem, and obtain a dual characterization of this problem in terms of a variational principle that extends Parisi's formula. As a byproduct, we obtain computationally achievable values for a class of random optimization problems including `generalized spherical perceptron' models. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# Event3DGS: 高速エゴモーションのためのイベントベースの3Dガウススプレイティング
Event3DGS: Event-based 3D Gaussian Splatting for Fast Egomotion ( http://arxiv.org/abs/2406.02972v1 ) ライセンス: Link先を確認 | Tianyi Xiong, Jiayi Wu, Botao He, Cornelia Fermuller, Yiannis Aloimonos, Heng Huang, Christopher A. Metzler, | (参考訳) 最近の3Dガウススプラッティング(3DGS)の出現は、明示的な点ベース表現の利点を生かし、新規ビュー合成のレンダリング速度と品質を大幅に向上させる。
しかし, 実世界のロボット作業では, 高ダイナミックな動きや難解な照明条件の環境下での3次元放射場レンダリングが問題視されている。
その理由は、高速な移動は現実のロボットの作業が一般的であり、それが動きのぼやけを引き起こし、再建された構造における不正確さとアーティファクトをもたらすからである。
この問題を軽減するために,生イベントストリームからのみガウススプラッティングを学習する最初の方法であるEvent3DGSを提案する。
イベントカメラの高時間分解能と明示的なポイントベース表現を利用することで、Event3DGSはイベントストリームのみから高速なエゴモーションの下で高忠実度3D構造を再構築することができる。
スパーシリティを意識したサンプリングとプログレッシブトレーニングのアプローチにより、再構築の品質と一貫性が向上します。
外観の忠実度をさらに高めるため, アクティベート可能なラスタライザに運動ぼけ形成過程を明示的に組み込んで, 限られたRGB画像と組み合わせて外観を洗練させる。
複数のデータセットに対する大規模な実験は、既存のアプローチと比較してEvent3DGSのレンダリング品質が優れていることを検証する。
The recent emergence of 3D Gaussian splatting (3DGS) leverages the advantage of explicit point-based representations, which significantly improves the rendering speed and quality of novel-view synthesis. However, 3D radiance field rendering in environments with high-dynamic motion or challenging illumination condition remains problematic in real-world robotic tasks. The reason is that fast egomotion is prevalent real-world robotic tasks, which induces motion blur, leading to inaccuracies and artifacts in the reconstructed structure. To alleviate this problem, we propose Event3DGS, the first method that learns Gaussian Splatting solely from raw event streams. By exploiting the high temporal resolution of event cameras and explicit point-based representation, Event3DGS can reconstruct high-fidelity 3D structures solely from the event streams under fast egomotion. Our sparsity-aware sampling and progressive training approaches allow for better reconstruction quality and consistency. To further enhance the fidelity of appearance, we explicitly incorporate the motion blur formation process into a differentiable rasterizer, which is used with a limited set of blurred RGB images to refine the appearance. Extensive experiments on multiple datasets validate the superior rendering quality of Event3DGS compared with existing approaches, with over 95% lower training time and faster rendering speed in orders of magnitude. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 中国語における読みやすさ誘導Idiom-Aware Simplification (RISS)
Readability-guided Idiom-aware Sentence Simplification (RISS) for Chinese ( http://arxiv.org/abs/2406.02974v1 ) ライセンス: Link先を確認 | Jingshen Zhang, Xinglu Chen, Xinying Qiu, Zhimin Wang, Wenhe Feng, | (参考訳) 中国語の文の単純化は、大規模にラベル付けされたパラレルコーパスの欠如とイディオムの流行によって困難に直面している。
これらの課題に対処するために、データ拡張技術と語彙単純化を組み合わせた新しいフレームワークである、可読性を考慮したIdiom-aware Simplification (RISS)を提案する。
RISSは,(1)高品質な文ペアをマイニングするRPS(Readability-Guided Paraphrase Selection)と,(2)慣用的表現の理解と単純化を促進するモデルであるIAS(Idiom-aware Simplification)の2つの重要なコンポーネントを導入している。
マルチステージとマルチタスクの学習戦略を用いてRSSとIASを統合することで、RISSは2つの中国語文単純化データセットにおいて、従来の最先端の手法よりも優れています。
さらに、RISSは小さなラベル付きデータセットを微調整することで、さらなる改善を実現している。
我々のアプローチは、より効果的でアクセスしやすい中国語のテキストの単純化の可能性を示している。
Chinese sentence simplification faces challenges due to the lack of large-scale labeled parallel corpora and the prevalence of idioms. To address these challenges, we propose Readability-guided Idiom-aware Sentence Simplification (RISS), a novel framework that combines data augmentation techniques with lexcial simplification. RISS introduces two key components: (1) Readability-guided Paraphrase Selection (RPS), a method for mining high-quality sentence pairs, and (2) Idiom-aware Simplification (IAS), a model that enhances the comprehension and simplification of idiomatic expressions. By integrating RPS and IAS using multi-stage and multi-task learning strategies, RISS outperforms previous state-of-the-art methods on two Chinese sentence simplification datasets. Furthermore, RISS achieves additional improvements when fine-tuned on a small labeled dataset. Our approach demonstrates the potential for more effective and accessible Chinese text simplification. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# DA-Flow:デュアルアテンション正規化フローによる骨格型ビデオ異常検出
DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection ( http://arxiv.org/abs/2406.02976v1 ) ライセンス: Link先を確認 | Ruituo Wu, Yang Chen, Jian Xiao, Bing Li, Jicong Fan, Frédéric Dufaux, Ce Zhu, Yipeng Liu, | (参考訳) 時間的畳み込みネットワーク(TCN)とグラフ畳み込みネットワーク(GCN)の処理モジュールとしての連携は,骨格型ビデオ異常検出(SVAD)において有望な結果を示した。
しかし,計算と記憶の複雑さが低い軽量モデルを維持するために,浅いGCNブロックとTCNブロックは,小さな受容場とクロス次元相互作用キャプチャの欠如によって制約される。
この制限に対処するため,時空間データにおけるクロス次元相互作用関係を捉えるためのDAM (Dual Attention Module) という軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
さらに、DA-Flow(Dual Attention Normalizing Flow)は、GCNの後処理ユニットとして、正規化フローフレームワーク内でDAMを統合している。
シミュレーションにより,提案手法は雑音や負のサンプルに対して頑健であることが示された。
実験の結果, DA-Flowは, パラメータ数が最も少ないマイクロAUC測定値において, 既存の最先端(SOTA)法よりも競争力や性能に優れていた。
さらに, トレーニングなしでも, スケルトンデータの次元的減少を伴わないランダムプロジェクションを用いることで, かなりの異常検出が可能であることが判明した。
Cooperation between temporal convolutional networks (TCN) and graph convolutional networks (GCN) as a processing module has shown promising results in skeleton-based video anomaly detection (SVAD). However, to maintain a lightweight model with low computational and storage complexity, shallow GCN and TCN blocks are constrained by small receptive fields and a lack of cross-dimension interaction capture. To tackle this limitation, we propose a lightweight module called the Dual Attention Module (DAM) for capturing cross-dimension interaction relationships in spatio-temporal skeletal data. It employs the frame attention mechanism to identify the most significant frames and the skeleton attention mechanism to capture broader relationships across fixed partitions with minimal parameters and flops. Furthermore, the proposed Dual Attention Normalizing Flow (DA-Flow) integrates the DAM as a post-processing unit after GCN within the normalizing flow framework. Simulations show that the proposed model is robust against noise and negative samples. Experimental results show that DA-Flow reaches competitive or better performance than the existing state-of-the-art (SOTA) methods in terms of the micro AUC metric with the fewest number of parameters. Moreover, we found that even without training, simply using random projection without dimensionality reduction on skeleton data enables substantial anomaly detection capabilities. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# Sparse Color-Code Net:エッジデバイス上でのリアルタイムRGBベースの6次元オブジェクトマップ推定
Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices ( http://arxiv.org/abs/2406.02977v1 ) ライセンス: Link先を確認 | Xingjian Yang, Zhitao Yu, Ashis G. Banerjee, | (参考訳) ロボット工学や拡張現実のアプリケーションは、正確で効率的な6Dオブジェクトのポーズ推定にますます依存しているため、よりインタラクティブでレスポンシブなシステムでは、エッジデバイス上でのリアルタイムのパフォーマンスが要求される。
提案するスパースカラーコードネット(SCCN)は,この要求に効果的に対応するために,明確かつ簡潔なパイプライン設計を具現化する。
SCCNはRGB画像中の対象オブジェクトに対して画素レベルの予測を行い、本質的なオブジェクト幾何学的特徴の空間を利用して、パースペクティブ-n-Point(PnP)計算プロセスを高速化する。
さらに、新しいピクセルレベルの幾何学に基づくオブジェクト対称性表現を導入し、初期ポーズ予測とシームレスに統合し、対称オブジェクトの曖昧さに効果的に対処する。
SCCNは、NVIDIA Jetson AGX Xavierに対して、ベンチマークLINEMODデータセットとOcclusion LINEMODデータセットで、それぞれ19フレーム/秒(FPS)と6FPSの見積率を実現し、高い推定精度を連続的に維持する。
As robotics and augmented reality applications increasingly rely on precise and efficient 6D object pose estimation, real-time performance on edge devices is required for more interactive and responsive systems. Our proposed Sparse Color-Code Net (SCCN) embodies a clear and concise pipeline design to effectively address this requirement. SCCN performs pixel-level predictions on the target object in the RGB image, utilizing the sparsity of essential object geometry features to speed up the Perspective-n-Point (PnP) computation process. Additionally, it introduces a novel pixel-level geometry-based object symmetry representation that seamlessly integrates with the initial pose predictions, effectively addressing symmetric object ambiguities. SCCN notably achieves an estimation rate of 19 frames per second (FPS) and 6 FPS on the benchmark LINEMOD dataset and the Occlusion LINEMOD dataset, respectively, for an NVIDIA Jetson AGX Xavier, while consistently maintaining high estimation accuracy at these rates. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 自己監督型スケルトン行動表現学習 - ベンチマークとそれを超えるもの
Self-Supervised Skeleton Action Representation Learning: A Benchmark and Beyond ( http://arxiv.org/abs/2406.02978v1 ) ライセンス: Link先を確認 | Jiahang Zhang, Lilang Lin, Shuai Yang, Jiaying Liu, | (参考訳) ラベル付きデータから有意義な事前表現を学習することを目的とした自己教師付き学習(SSL)は,ラベル効率のよい骨格に基づく行動理解に有効であることが証明されている。
画像領域と異なり、骨格データは背景の手がかりや追加の時間次元が無く、スペーサー空間構造と多様な表現形式を有する。
本研究では,空間的時間的運動表現学習におけるプレテキスト・タスク・デザインの課題について述べる。
近年、スケルトンベースのSSLに多くの取り組みがなされており、目覚ましい進歩を遂げている。
しかし、体系的で徹底的なレビューは依然として欠落している。
本稿では,自己教師型骨格に基づく行動表現学習に関する総合的な調査を初めて実施する。
文脈に基づく、生成的学習、および対照的な学習アプローチの分類に続き、既存の研究の徹底的なレビューとベンチマークを行い、将来可能な方向性について光を当てる。
本研究は,ほとんどのSSL作業が単一パラダイム,単一レベルの学習表現に依存していることを実証し,動作認識タスクのみを用いて評価し,スケルトン型SSLモデルの一般化能力について検討した。
この目的のために、複数のプレテキストタスクを統合し、異なる粒度の多目的表現を共同で学習し、下流タスクの一般化能力を大幅に向上させる、新しいスケルトン用SSL法が提案されている。
3つの大規模データセットによる大規模な実験により,提案手法は,認識,検索,検出,少数ショット学習など,様々な下流タスクにおいて優れた一般化性能を達成できることを示した。
Self-supervised learning (SSL), which aims to learn meaningful prior representations from unlabeled data, has been proven effective for label-efficient skeleton-based action understanding. Different from the image domain, skeleton data possesses sparser spatial structures and diverse representation forms, with the absence of background clues and the additional temporal dimension. This presents the new challenges for the pretext task design of spatial-temporal motion representation learning. Recently, many endeavors have been made for skeleton-based SSL and remarkable progress has been achieved. However, a systematic and thorough review is still lacking. In this paper, we conduct, for the first time, a comprehensive survey on self-supervised skeleton-based action representation learning, where various literature is organized according to their pre-training pretext task methodologies. Following the taxonomy of context-based, generative learning, and contrastive learning approaches, we make a thorough review and benchmark of existing works and shed light on the future possible directions. Our investigation demonstrates that most SSL works rely on the single paradigm, learning representations of a single level, and are evaluated on the action recognition task solely, which leaves the generalization power of skeleton SSL models under-explored. To this end, a novel and effective SSL method for skeleton is further proposed, which integrates multiple pretext tasks to jointly learn versatile representations of different granularity, substantially boosting the generalization capacity for different downstream tasks. Extensive experiments under three large-scale datasets demonstrate that the proposed method achieves the superior generalization performance on various downstream tasks, including recognition, retrieval, detection, and few-shot learning. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 圧縮グラフニューラルネットワークによるオンラインサービスの効率的なユーザシーケンス学習
Efficient User Sequence Learning for Online Services via Compressed Graph Neural Networks ( http://arxiv.org/abs/2406.02979v1 ) ライセンス: Link先を確認 | Yucheng Wu, Liyue Chen, Yu Cheng, Shuai Chen, Jinyu Xu, Leye Wang, | (参考訳) ユーザ行動シーケンスの学習は、オンライン不正取引検出機構など、さまざまなオンラインサービスにとって不可欠である。
グラフニューラルネットワーク(GNN)は、モデルシーケンス関係に広く適用され、類似したシーケンスから情報を抽出している。
ユーザ行動シーケンスのデータ量は、通常、オンラインアプリケーションでは巨大であるが、直接GNNモデルを適用すると、トレーニングと推論の段階でかなりの計算オーバーヘッドが発生し、オンラインサービスのリアルタイム要件を満たすことが困難になる。
本稿では,グラフ圧縮技術を利用して効率問題を緩和する。
具体的には、ユーザシーケンス表現学習のための関係モデリングにグラフ圧縮技術を導入するための、ECSeqと呼ばれる新しい統合フレームワークを提案する。
ECSeqの鍵となるモジュールはシーケンス関係モデリングであり、シーケンス表現学習を強化するためにシーケンス間の関係を探索し、グラフ圧縮アルゴリズムを用いて高い効率とスケーラビリティを実現する。
ECSeqはまた、プラグイン・アンド・プレイの特性を示し、修正することなく、シームレスにトレーニング済みのシーケンス表現モデルを拡張する。
シーケンス分類と回帰タスクの両方に関する実証実験は、ECSeqの有効性を実証している。
具体的には、合計10,000以上のシーケンスで数十秒のトレーニング時間と10^{-4}$ seconds/sampleで保存された推論時間により、ECSeqは、広く使用されているLSTMの予測R@P$_{0.9}$を$\sim 5\%$で改善する。
Learning representations of user behavior sequences is crucial for various online services, such as online fraudulent transaction detection mechanisms. Graph Neural Networks (GNNs) have been extensively applied to model sequence relationships, and extract information from similar sequences. While user behavior sequence data volume is usually huge for online applications, directly applying GNN models may lead to substantial computational overhead during both the training and inference stages and make it challenging to meet real-time requirements for online services. In this paper, we leverage graph compression techniques to alleviate the efficiency issue. Specifically, we propose a novel unified framework called ECSeq, to introduce graph compression techniques into relation modeling for user sequence representation learning. The key module of ECSeq is sequence relation modeling, which explores relationships among sequences to enhance sequence representation learning, and employs graph compression algorithms to achieve high efficiency and scalability. ECSeq also exhibits plug-and-play characteristics, seamlessly augmenting pre-trained sequence representation models without modifications. Empirical experiments on both sequence classification and regression tasks demonstrate the effectiveness of ECSeq. Specifically, with an additional training time of tens of seconds in total on 100,000+ sequences and inference time preserved within $10^{-4}$ seconds/sample, ECSeq improves the prediction R@P$_{0.9}$ of the widely used LSTM by $\sim 5\%$. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# テンソルポリノミアル付加モデル
Tensor Polynomial Additive Model ( http://arxiv.org/abs/2406.02980v1 ) ライセンス: Link先を確認 | Yang Chen, Ce Zhu, Jiani Liu, Yipeng Liu, | (参考訳) 追加モデルは、その明快さと単純さのために解釈可能な機械学習に使用できる。
しかし、高次データに対する古典的なモデルでは、ベクトル化演算がデータ構造を乱すため、精度が劣化し、計算複雑性が増大する可能性がある。
これらの問題に対処するために,テンソル多項式加算モデル(TPAM)を提案する。
テンソル表現を持つ高次入力の多次元構造情報を保持する。
モデルパラメータ圧縮は階層的および低次対称テンソル近似を用いて達成される。
このように、複雑な高次特徴相互作用を少ないパラメータで捉えることができる。
さらに、TPAMは、加法モデルの固有の解釈可能性を保持し、透過的な意思決定と意味のある特徴値の抽出を容易にする。
さらに、TPAMの透明性と高次機能を扱う能力を活用し、クラスアクティベーションマップ用の2つの変種を導入することで、他の解釈モデルの後処理モジュールとして使用される。
一連のデータセットによる実験結果から,TPAMは精度を最大30%向上し,圧縮速度を最大5倍向上し,良好な解釈性を維持した。
Additive models can be used for interpretable machine learning for their clarity and simplicity. However, In the classical models for high-order data, the vectorization operation disrupts the data structure, which may lead to degenerated accuracy and increased computational complexity. To deal with these problems, we propose the tensor polynomial addition model (TPAM). It retains the multidimensional structure information of high-order inputs with tensor representation. The model parameter compression is achieved using a hierarchical and low-order symmetric tensor approximation. In this way, complex high-order feature interactions can be captured with fewer parameters. Moreover, The TPAM preserves the inherent interpretability of additive models, facilitating transparent decision-making and the extraction of meaningful feature values. Additionally, leveraging TPAM's transparency and ability to handle higher-order features, it is used as a post-processing module for other interpretation models by introducing two variants for class activation maps. Experimental results on a series of datasets demonstrate that TPAM can enhance accuracy by up to 30\%, and compression rate by up to 5 times, while maintaining a good interpretability. | 翻訳日:2024-06-06 19:49:25 公開日:2024-06-05 |
# 局所対グローバル解釈可能性:計算複雑性の観点から
Local vs. Global Interpretability: A Computational Complexity Perspective ( http://arxiv.org/abs/2406.02981v1 ) ライセンス: Link先を確認 | Shahaf Bassan, Guy Amir, Guy Katz, | (参考訳) 近年,様々なMLモデルの局所的およびグローバル的解釈可能性の研究が盛んに行われている。
しかし、この分野でかなりの進歩があったにもかかわらず、多くの既知の結果は非公式のままであり、あるいは十分な数学的厳密さが欠如している。
本稿では,計算複雑性理論を用いて,MLモデルの局所的および大域的視点を評価することにより,このギャップを埋める枠組みを提案する。
まず,1)局所的な説明形式とグローバルな説明形式との二重性,(2)ある種のグローバルな説明形式の本質的な特異性という,分析に不可欠な2つの新しい洞察の証明を提案する。
次に、線形モデル、(2)決定木、(3)ニューラルネットワークの3つのモデルタイプにまたがって、計算説明の複雑さを評価する。
これらのモデルの局所的およびグローバル的解釈可能性に関する知見を提供する。
例えば、P のような標準的な複雑性仮定の下では!
NP = 線形モデルにおける大域的十分部分集合の選択は局所部分集合の選択よりも計算的に困難であることを示す。
興味深いことに、ニューラルネットワークと決定木では、その逆が当てはまります。
我々は,計算複雑性レンズによる説明可能性の検証が,MLモデル固有の解釈可能性をより厳密に把握する上で有効であることを示す。
The local and global interpretability of various ML models has been studied extensively in recent years. However, despite significant progress in the field, many known results remain informal or lack sufficient mathematical rigor. We propose a framework for bridging this gap, by using computational complexity theory to assess local and global perspectives of interpreting ML models. We begin by proposing proofs for two novel insights that are essential for our analysis: (1) a duality between local and global forms of explanations; and (2) the inherent uniqueness of certain global explanation forms. We then use these insights to evaluate the complexity of computing explanations, across three model types representing the extremes of the interpretability spectrum: (1) linear models; (2) decision trees; and (3) neural networks. Our findings offer insights into both the local and global interpretability of these models. For instance, under standard complexity assumptions such as P != NP, we prove that selecting global sufficient subsets in linear models is computationally harder than selecting local subsets. Interestingly, with neural networks and decision trees, the opposite is true: it is harder to carry out this task locally than globally. We believe that our findings demonstrate how examining explainability through a computational complexity lens can help us develop a more rigorous grasp of the inherent interpretability of ML models. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# FREA:適合性のある安全批判シナリオの実現可能性
FREA: Feasibility-Guided Generation of Safety-Critical Scenarios with Reasonable Adversariality ( http://arxiv.org/abs/2406.02983v1 ) ライセンス: Link先を確認 | Keyu Chen, Yuheng Lei, Hao Cheng, Haoran Wu, Wenchao Sun, Sifa Zheng, | (参考訳) 安全クリティカルシナリオの生成は、大規模に収集することが不可欠だが、自律走行車(AV)の堅牢性を評価する効果的な方法を提供する。
既存の手法は、シナリオの自然性を維持しながら、データ駆動アプローチによるバランスを達成することを目的として、逆境の最適化に重点を置いている。
しかし、逆境の適切な上限がなければ、シナリオは過剰な逆境を示し、避けられない衝突を引き起こす可能性がある。
本稿では,AVの最大の実現可能な領域(LFR)を組み込んだ新たな安全クリティカルシナリオ生成手法であるFREAを紹介する。
具体的には、FREAは最初、オフラインデータセットからAVのLFRをプリ計算する。
その後、シーン内の重要な背景車両(CBV)を制御し、新しい実現可能性依存の目的関数を最大化することにより、敵対的かつAV可能なシナリオを生成する合理的な敵政策を学習する。
広範囲にわたる実験は、FREAが安全クリティカルなシナリオを効果的に生成し、AVの実現性を確保しながら、かなりの近距離事象を発生させることを示した。
一般化分析は、様々な代理AV法および交通環境におけるAV試験におけるFREAの堅牢性も確認する。
Generating safety-critical scenarios, which are essential yet difficult to collect at scale, offers an effective method to evaluate the robustness of autonomous vehicles (AVs). Existing methods focus on optimizing adversariality while preserving the naturalness of scenarios, aiming to achieve a balance through data-driven approaches. However, without an appropriate upper bound for adversariality, the scenarios might exhibit excessive adversariality, potentially leading to unavoidable collisions. In this paper, we introduce FREA, a novel safety-critical scenarios generation method that incorporates the Largest Feasible Region (LFR) of AV as guidance to ensure the reasonableness of the adversarial scenarios. Concretely, FREA initially pre-calculates the LFR of AV from offline datasets. Subsequently, it learns a reasonable adversarial policy that controls critical background vehicles (CBVs) in the scene to generate adversarial yet AV-feasible scenarios by maximizing a novel feasibility-dependent objective function. Extensive experiments illustrate that FREA can effectively generate safety-critical scenarios, yielding considerable near-miss events while ensuring AV's feasibility. Generalization analysis also confirms the robustness of FREA in AV testing across various surrogate AV methods and traffic environments. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# 視覚表現強化のためのマルチインスタンス・ビジュアル・プロンプト・ジェネレータによる多モード大言語モデルの強化
Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment ( http://arxiv.org/abs/2406.02987v1 ) ライセンス: Link先を確認 | Wenliang Zhong, Wenyi Wu, Qi Li, Rob Barton, Boxin Du, Shioulin Sam, Karim Bouyarmane, Ismail Tutar, Junzhou Huang, | (参考訳) MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて、視覚的表現をLLMと融合させることで、SOTAのパフォーマンスを達成している。
本稿では,Q-formerのようなクエリベースのトランスフォーマーを用いたアダプタが,インスタンスの不均一性/相関を考慮せずに,簡易なマルチインスタンス学習手法であることを最初に確認する。
次に、画像とパッチのインスタンス相関を利用して、リッチな視覚表現をLLMに組み込むMIVPG(Multi-instance Visual Prompt Generator)を提案する。
異なるシナリオからの3つのパブリックビジョン言語(VL)データセットの定量評価は、提案したMIVPGがメインのVLタスクにおいてQ-formerを改善することを示す。
Multimodal Large Language Models (MLLMs) have achieved SOTA performance in various visual language tasks by fusing the visual representations with LLMs leveraging some visual adapters. In this paper, we first establish that adapters using query-based Transformers such as Q-former is a simplified Multi-instance Learning method without considering instance heterogeneity/correlation. We then propose a general component termed Multi-instance Visual Prompt Generator (MIVPG) to incorporate enriched visual representations into LLMs by taking advantage of instance correlation between images or patches for the same sample. Quantatitive evaluation on three public vision-language (VL) datasets from different scenarios shows that the proposed MIVPG improves Q-former in main VL tasks. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# Egocentric Video と Automated Annotation Strategy を用いた意味的トラバータビリティの学習
Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy ( http://arxiv.org/abs/2406.02989v1 ) ライセンス: Link先を確認 | Yunho Kim, Jeong Hyun Lee, Choongin Lee, Juhyeok Mun, Donghoon Youm, Jeongsoo Park, Jemin Hwangbo, | (参考訳) 都市環境における信頼性の高い自律型ロボットナビゲーションには、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力が必要である。
この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。
この微調整プロセスでは、ターゲットとなるロボットによる手動のデータ収集や、高額で計算不能な人間ラベル作成者によるアノテーションが伴うことが多い。
本研究では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ・エデュメータをトレーニングするための効果的な手法を提案する。
エゴセントリックなビデオは、歩行者の胸に装着されたカメラから収集される。
次に、画像セグメンテーションにおける最近の基礎モデルとプロンプト技術を用いて、各ビデオフレームのセマンティックトラバーサビリティ領域を抽出し、セマンティックトラバーサビリティ推定器を訓練するためのデータセットを自動生成する。
様々な都市シナリオを網羅した複数の国や都市で撮影されたビデオによる大規模な実験により,提案手法のスケーラビリティと一般化性を実証した。
さらに、自律型ロボットナビゲーションの性能解析と実世界展開は、訓練されたセマンティック・トラバーサビリティ推定器が高度に正確であることを示し、多様なカメラ視点、計算学的軽量、実世界に適用できることを示した。
要約ビデオはhttps://youtu.be/EUVoH-wA-lA.comで公開されている。
For reliable autonomous robot navigation in urban settings, the robot must have the ability to identify semantically traversable terrains in the image based on the semantic understanding of the scene. This reasoning ability is based on semantic traversability, which is frequently achieved using semantic segmentation models fine-tuned on the testing domain. This fine-tuning process often involves manual data collection with the target robot and annotation by human labelers which is prohibitively expensive and unscalable. In this work, we present an effective methodology for training a semantic traversability estimator using egocentric videos and an automated annotation process. Egocentric videos are collected from a camera mounted on a pedestrian's chest. The dataset for training the semantic traversability estimator is then automatically generated by extracting semantically traversable regions in each video frame using a recent foundation model in image segmentation and its prompting technique. Extensive experiments with videos taken across several countries and cities, covering diverse urban scenarios, demonstrate the high scalability and generalizability of the proposed annotation method. Furthermore, performance analysis and real-world deployment for autonomous robot navigation showcase that the trained semantic traversability estimator is highly accurate, able to handle diverse camera viewpoints, computationally light, and real-world applicable. The summary video is available at https://youtu.be/EUVoH-wA-lA. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# バイオメディカル・言語知識を用いた全スライド画像からの遺伝的変異の予測
Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification ( http://arxiv.org/abs/2406.02990v1 ) ライセンス: Link先を確認 | Gexin Huang, Chenfei Wu, Mingjie Li, Xiaojun Chang, Ling Chen, Ying Sun, Shen Zhao, Xiaodan Liang, Liang Lin, | (参考訳) スライド画像全体から遺伝子変異を予測することは、がんの診断には不可欠である。
しかし、既存の作業トレーニング 複数のバイナリ分類モデルは、以下の2つの課題に直面している。
(a)複数のバイナリ分類器の訓練は非効率であり、必然的にクラス不均衡の問題を引き起こす。
b) 遺伝子間の生物学的関係は見過ごされ, 予測性能が制限される。
これらの課題に対処するために、遺伝子変異予測性能を改善するために、生物知識を改良したPathGenomic Multi-label Transformerを革新的に設計する。
BPGTは、まず2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
a) ノードの特徴を有する遺伝子グラフは、遺伝子の言語学的記述と癌表現型であり、そのエッジは遺伝子の経路関連と突然変異の相同性によってモデル化されている。
b)トランスフォーマーに基づくグラフ表現学習により、言語的および生医学的知識を遺伝子優先に融合させ、異なる遺伝子の突然変異間の本質的な関係を捉える知識関連モジュール。
BPGTはそれからラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
a) まず、WSIの臨界領域に遺伝子前駆体を融合させ、遺伝子ワイドな突然変異ロジットを得るモダリティ融合モジュール。
b) 識別能力を高めるため,変異状態の固有比較を強調した比較多ラベル損失について検討した。
The Cancer Genome Atlasベンチマークの十分な実験は、BPGTが最先端の技術を上回ることを示した。
Predicting genetic mutations from whole slide images is indispensable for cancer diagnosis. However, existing work training multiple binary classification models faces two challenges: (a) Training multiple binary classifiers is inefficient and would inevitably lead to a class imbalance problem. (b) The biological relationships among genes are overlooked, which limits the prediction performance. To tackle these challenges, we innovatively design a Biological-knowledge enhanced PathGenomic multi-label Transformer to improve genetic mutation prediction performances. BPGT first establishes a novel gene encoder that constructs gene priors by two carefully designed modules: (a) A gene graph whose node features are the genes' linguistic descriptions and the cancer phenotype, with edges modeled by genes' pathway associations and mutation consistencies. (b) A knowledge association module that fuses linguistic and biomedical knowledge into gene priors by transformer-based graph representation learning, capturing the intrinsic relationships between different genes' mutations. BPGT then designs a label decoder that finally performs genetic mutation prediction by two tailored modules: (a) A modality fusion module that firstly fuses the gene priors with critical regions in WSIs and obtains gene-wise mutation logits. (b) A comparative multi-label loss that emphasizes the inherent comparisons among mutation status to enhance the discrimination capabilities. Sufficient experiments on The Cancer Genome Atlas benchmark demonstrate that BPGT outperforms the state-of-the-art. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# 360度映像要約法のトレーニングと評価のための人間アノテーション付きビデオデータセット
A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods ( http://arxiv.org/abs/2406.02991v1 ) ライセンス: Link先を確認 | Ioannis Kontostathis, Evlampios Apostolidis, Vasileios Mezaris, | (参考訳) 本稿では,テレビやスマートフォンなどの従来のデバイスで使用可能な,360度映像コンテンツから2D映像要約への変換という,360度映像要約のための新しいデータセットを提案する。
データセットには、トレーニングや360度ビデオ要約手法の客観的評価に使用可能な、地平の人間生成サマリーが含まれている。
このデータセットを用いて、2次元ビデオ要約のために提案された2つの最先端要約手法を訓練・評価し、360度ビデオに特化された要約法と将来の比較のためのベースラインとして機能する。
最後に,データアノテーションプロセスを容易にするために開発され,ビデオフラグメント選択に依存する他のアノテーション活動を支援するインタラクティブツールを提案する。
In this paper we introduce a new dataset for 360-degree video summarization: the transformation of 360-degree video content to concise 2D-video summaries that can be consumed via traditional devices, such as TV sets and smartphones. The dataset includes ground-truth human-generated summaries, that can be used for training and objectively evaluating 360-degree video summarization methods. Using this dataset, we train and assess two state-of-the-art summarization methods that were originally proposed for 2D-video summarization, to serve as a baseline for future comparisons with summarization methods that are specifically tailored to 360-degree video. Finally, we present an interactive tool that was developed to facilitate the data annotation process and can assist other annotation activities that rely on video fragment selection. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# マルチタスク最適化のためのタスク優先度の定量化
Quantifying Task Priority for Multi-Task Optimization ( http://arxiv.org/abs/2406.02996v1 ) ライセンス: Link先を確認 | Wooseong Jeong, Kuk-Jin Yoon, | (参考訳) マルチタスク学習の目標は、単一の統合ネットワーク内で多様なタスクを学習することである。
それぞれのタスクには独自の客観的機能があるため、トレーニング中に対立が生じ、結果として負の移動が発生する。
以前の研究では、タスク間の共有パラメータにおけるこれらの矛盾する勾配を特定し、それらを同じ方向に認識しようとした。
しかし,これらの最適化手法は,各パラメータの個々の寄与を正確に決定できないため,最適でないパレート解に導かれることが証明されている。
本稿では,タスク間のパラメータ寄与を評価するタスク優先度の概念を提案する。
タスクプライオリティを学習するために、バックプロパゲーション中のタスク固有の損失に影響されたパラメータ間のリンクに関連するコネクションの種類を同定する。
接続の強さは、タスク優先度を決定するためにパラメータの大きさによって測定される。
そこで本研究では,2段階からなるマルチタスク学習のための接続強度に基づく最適化手法を提案する。
第1フェーズは、ネットワーク内でタスク優先度を学習し、第2フェーズは、この優先度を維持しながら勾配を変更する。
これは最終的に、複数のタスクに対する新しいPareto最適解を見つけるのに繋がる。
実験により,従来の勾配操作法と比較してマルチタスク性能が大幅に向上したことを示す。
The goal of multi-task learning is to learn diverse tasks within a single unified network. As each task has its own unique objective function, conflicts emerge during training, resulting in negative transfer among them. Earlier research identified these conflicting gradients in shared parameters between tasks and attempted to realign them in the same direction. However, we prove that such optimization strategies lead to sub-optimal Pareto solutions due to their inability to accurately determine the individual contributions of each parameter across various tasks. In this paper, we propose the concept of task priority to evaluate parameter contributions across different tasks. To learn task priority, we identify the type of connections related to links between parameters influenced by task-specific losses during backpropagation. The strength of connections is gauged by the magnitude of parameters to determine task priority. Based on these, we present a new method named connection strength-based optimization for multi-task learning which consists of two phases. The first phase learns the task priority within the network, while the second phase modifies the gradients while upholding this priority. This ultimately leads to finding new Pareto optimal solutions for multiple tasks. Through extensive experiments, we show that our approach greatly enhances multi-task performance in comparison to earlier gradient manipulation methods. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# 残留接続と正規化は、GNNの過度なスムース化を確実に防ぐことができる
Residual Connections and Normalization Can Provably Prevent Oversmoothing in GNNs ( http://arxiv.org/abs/2406.02997v1 ) ライセンス: Link先を確認 | Michael Scholkemper, Xinyi Wu, Ali Jadbabaie, Michael Schaub, | (参考訳) 残差接続と正規化層はグラフニューラルネットワーク(GNN)の標準設計選択となり、GNNにおける過度な問題を軽減するソリューションとして提案されている。
しかし、これらの手法が理論的な観点から過大な問題を緩和するのにどのように役立つかはよく分かっていない。
本研究では,残差接続層と正規化層を有する(線形化)GNNの形式的,正確な特徴付けを行う。
私たちはそれを確立します
(a) 残差接続の場合、各層に初期特徴を組み込むことで、信号がスムーズになるのを防ぎ、可能ノード表現のサブ空間を決定する。
b) バッチ正規化は、特徴行列の各列の個別再スケーリングによって出力埋め込み空間が1次元部分空間に完全に崩壊することを防ぐ。
これにより、ノード表現がメッセージパッシング演算子の上位$k$固有空間に収束する。
さらに, プロジェクションとして理解可能な正規化層の中心となるステップが, 関連情報が抽出しにくくなるように, メッセージパッシングにおいてグラフ信号を変化させることが示される。
そこで我々は、グラフNormv2と呼ばれる新しい正規化層を導入し、中心となるステップを学習し、元のグラフ信号を望ましくない方法で歪ませないようにした。
実験の結果,本手法の有効性が確認された。
Residual connections and normalization layers have become standard design choices for graph neural networks (GNNs), and were proposed as solutions to the mitigate the oversmoothing problem in GNNs. However, how exactly these methods help alleviate the oversmoothing problem from a theoretical perspective is not well understood. In this work, we provide a formal and precise characterization of (linearized) GNNs with residual connections and normalization layers. We establish that (a) for residual connections, the incorporation of the initial features at each layer can prevent the signal from becoming too smooth, and determines the subspace of possible node representations; (b) batch normalization prevents a complete collapse of the output embedding space to a one-dimensional subspace through the individual rescaling of each column of the feature matrix. This results in the convergence of node representations to the top-$k$ eigenspace of the message-passing operator; (c) moreover, we show that the centering step of a normalization layer -- which can be understood as a projection -- alters the graph signal in message-passing in such a way that relevant information can become harder to extract. We therefore introduce a novel, principled normalization layer called GraphNormv2 in which the centering step is learned such that it does not distort the original graph signal in an undesirable way. Experimental results confirm the effectiveness of our method. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# 性能保証を用いたリスク回避型PMDPの簡易化
Simplification of Risk Averse POMDPs with Performance Guarantees ( http://arxiv.org/abs/2406.03000v1 ) ライセンス: Link先を確認 | Yaacov Pariente, Vadim Indelman, | (参考訳) 部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。
この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。
POMDPの最適解を計算することは、一般に計算的に計算可能である。
本研究では,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発する。
計算的に安価な信念-MDP遷移モデルを単純化し、例えば、より安価な観測モデルや遷移モデルに対応できると考えている。
我々の貢献は、確率変数 Y を用いて確率変数 X の CVaR の有界化を可能にする CVaR の一般境界を含む。
次に,POMDP設定におけるCVaR値関数のバウンダリを導出し,計算コストの低いMDP遷移モデルを用いて,計算コストのかかるモデルにリアルタイムでアクセスすることなく,値関数をバウンダリする方法を示す。
次に,推定値に対する理論的性能保証を行う。
本研究は,信念-MDP遷移モデルの一般化と,観測モデルと状態遷移モデルの両方を同時に簡易化するためのものである。
Risk averse decision making under uncertainty in partially observable domains is a fundamental problem in AI and essential for reliable autonomous agents. In our case, the problem is modeled using partially observable Markov decision processes (POMDPs), when the value function is the conditional value at risk (CVaR) of the return. Calculating an optimal solution for POMDPs is computationally intractable in general. In this work we develop a simplification framework to speedup the evaluation of the value function, while providing performance guarantees. We consider as simplification a computationally cheaper belief-MDP transition model, that can correspond, e.g., to cheaper observation or transition models. Our contributions include general bounds for CVaR that allow bounding the CVaR of a random variable X, using a random variable Y, by assuming bounds between their cumulative distributions. We then derive bounds for the CVaR value function in a POMDP setting, and show how to bound the value function using the computationally cheaper belief-MDP transition model and without accessing the computationally expensive model in real-time. Then, we provide theoretical performance guarantees for the estimated bounds. Our results apply for a general simplification of a belief-MDP transition model and support simplification of both the observation and state transition models simultaneously. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# EdgeSync: ビデオデータドリフトのための適応型継続的学習によるより高速なエッジモデル更新
EdgeSync: Faster Edge-model Updating via Adaptive Continuous Learning for Video Data Drift ( http://arxiv.org/abs/2406.03001v1 ) ライセンス: Link先を確認 | Peng Zhao, Runchu Dong, Guiqin Wang, Cong Zhao, | (参考訳) リアルタイムビデオ分析システムは一般的に、レイテンシを低減するためにエッジデバイスに重みを減らしたモデルを配置する。
映像コンテンツの特徴の分布は、様々な理由(光と天気の変化)によって変化し、既存のモデルの精度が低下し、この問題を解決するために、最近の研究は、遠隔サーバを用いて複雑なモデルの助けを借りて、エッジでの軽量モデルを継続的に訓練・適応するフレームワークを提案する。
しかし、既存の分析アプローチでは、2つの課題が未解決のまま残されている: 第一に、再トレーニングタスクは計算集約的であり、大きなモデル更新遅延が発生する;第二に、新しいモデルは現在のビデオストリームのデータ配信に十分適合しないかもしれない。
これらの課題に対処するため、EdgeSyncでは、タイムラインと推論結果の両方を考慮してサンプルをフィルタリングし、現在のビデオコンテンツとより関連性の高いトレーニングサンプルを作成し、更新遅延を低減し、トレーニングの質を向上させるとともに、モデルトレーニング時間と実行時のトレーニング順序を効率的に調整可能なトレーニング管理モジュールも設計する。
複雑なシーンで実際のデータセットを評価することで、従来の手法に比べて約3.4%改善し、従来の手法に比べて約10%改善した。
Real-time video analytics systems typically place models with fewer weights on edge devices to reduce latency. The distribution of video content features may change over time for various reasons (i.e. light and weather change) , leading to accuracy degradation of existing models, to solve this problem, recent work proposes a framework that uses a remote server to continually train and adapt the lightweight model at edge with the help of complex model. However, existing analytics approaches leave two challenges untouched: firstly, retraining task is compute-intensive, resulting in large model update delays; secondly, new model may not fit well enough with the data distribution of the current video stream. To address these challenges, in this paper, we present EdgeSync, EdgeSync filters the samples by considering both timeliness and inference results to make training samples more relevant to the current video content as well as reduce the update delay, to improve the quality of training, EdgeSync also designs a training management module that can efficiently adjusts the model training time and training order on the runtime. By evaluating real datasets with complex scenes, our method improves about 3.4% compared to existing methods and about 10% compared to traditional means. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# Phy-Diff:拡散MRI合成のための物理誘導フールグラス拡散モデル
Phy-Diff: Physics-guided Hourglass Diffusion Model for Diffusion MRI Synthesis ( http://arxiv.org/abs/2406.03002v1 ) ライセンス: Link先を確認 | Juanhua Zhang, Ruodan Yan, Alessandro Perelli, Xi Chen, Chao Li, | (参考訳) 拡散MRI(dMRI)は,取得コストの高い重要な神経画像撮影技術である。
深層学習のアプローチは、dMRIの強化や、アンダーサンプルdMRIによる拡散バイオマーカーの予測に用いられている。
より包括的な生のdMRIを生成するために,b-値とb-ベクトルを条件として含む生成的敵ネットワークに基づく手法が提案されているが,それらは不安定なトレーニングと望ましい多様性の欠如によって制限されている。
新興拡散モデル(DM)は、生成性能を改善することを約束する。
しかし、DMの条件付けに欠かせない情報、すなわちdMRIとホワイトマタートラクトの構造の物理原理を含めることは依然として困難である。
本研究では,高画質のdMRIを生成する物理誘導拡散モデルを提案する。
本モデルは拡散過程におけるノイズ進化におけるdMRIの物理原理を導入し,拡散モデル内にクエリに基づく条件付きマッピングを導入する。
また,XTRACTアトラスを,アダプター技術を用いて,白質トラスの前駆体として導入した。
以上の結果から,本手法は他の最先端手法よりも優れ,dMRI向上の可能性が示唆された。
Diffusion MRI (dMRI) is an important neuroimaging technique with high acquisition costs. Deep learning approaches have been used to enhance dMRI and predict diffusion biomarkers through undersampled dMRI. To generate more comprehensive raw dMRI, generative adversarial network based methods are proposed to include b-values and b-vectors as conditions, but they are limited by unstable training and less desirable diversity. The emerging diffusion model (DM) promises to improve generative performance. However, it remains challenging to include essential information in conditioning DM for more relevant generation, i.e., the physical principles of dMRI and white matter tract structures. In this study, we propose a physics-guided diffusion model to generate high-quality dMRI. Our model introduces the physical principles of dMRI in the noise evolution in the diffusion process and introduce a query-based conditional mapping within the difussion model. In addition, to enhance the anatomical fine detials of the generation, we introduce the XTRACT atlas as prior of white matter tracts by adopting an adapter technique. Our experiment results show that our method outperforms other state-of-the-art methods and has the potential to advance dMRI enhancement. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# マルチモーダル感情分析におけるデータ整合性の評価
Evaluation of data inconsistency for multi-modal sentiment analysis ( http://arxiv.org/abs/2406.03004v1 ) ライセンス: Link先を確認 | Yufei Wang, Mengyue Wu, | (参考訳) 感情意味の不整合は、マルチモーダル感情分析(MSA)におけるユビキタスな課題である。
MSAは、テキスト、オーディオ、ビデオなど、さまざまなモードで表現される感情を分析する。
それぞれのモダリティは、人間の微妙でニュアンスな表現のために、感情の異なる側面を伝達し、不整合を招き、人工エージェントの予測を妨げる可能性がある。
本研究では,従来のマルチモーダル感情分析モデルとマルチモーダル大言語モデル(MLLM)の性能評価を行う。
本研究は,従来のモデルにおいて,意味的に矛盾するデータに直面する場合と,マルチモーダル感情分析におけるMLLMの欠点を指摘するものである。
本研究は、新たな課題を提示し、感情分析システムの今後の発展に有用な洞察を提供する。
Emotion semantic inconsistency is an ubiquitous challenge in multi-modal sentiment analysis (MSA). MSA involves analyzing sentiment expressed across various modalities like text, audio, and videos. Each modality may convey distinct aspects of sentiment, due to subtle and nuanced expression of human beings, leading to inconsistency, which may hinder the prediction of artificial agents. In this work, we introduce a modality conflicting test set and assess the performance of both traditional multi-modal sentiment analysis models and multi-modal large language models (MLLMs). Our findings reveal significant performance degradation across traditional models when confronted with semantically conflicting data and point out the drawbacks of MLLMs when handling multi-modal emotion analysis. Our research presents a new challenge and offer valuable insights for the future development of sentiment analysis systems. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# 有限サム最適化のための量子アルゴリズムと下界
Quantum Algorithms and Lower Bounds for Finite-Sum Optimization ( http://arxiv.org/abs/2406.03006v1 ) ライセンス: Link先を確認 | Yexin Zhang, Chenyi Zhang, Cong Fang, Liwei Wang, Tongyang Li, | (参考訳) 有限サム最適化は機械学習に広く応用されており、サポートベクタマシンや回帰などの重要な問題をカバーしている。
本稿では,量子コンピューティングによる有限サム最適化問題の解法について検討する。
具体的には、$f_1,\ldots,f_n\colon\mathbb{R}^d\to\mathbb{R}$ be $\ell$-smooth convex function and $\psi\colon\mathbb{R}^d\to\mathbb{R}$ be $\mu$-strongly convex proximal functionとする。
目標は、$F(\mathbf{x})=\frac{1}{n}\sum_{i=1}^n f_i(\mathbf{x})+\psi(\mathbf{x})$に対する$\epsilon$-最適化点を見つけることである。
複雑性を持つ量子アルゴリズムに$\tilde{O}\big(n+\sqrt{d}+\sqrt{\ell/\mu}\big(n^{1/3}d^{1/3}+n^{-2/3}d^{5/6}\big)\big)$を与え、古典的強結合$\tilde{\Theta}\big(n+\sqrt{n\ell/\mu}\big)$を改善する。
また、$d$ が十分大きいとき、量子下界 $\tilde{\Omega}(n+n^{3/4}(\ell/\mu)^{1/4})$ も証明する。
我々の量子上界と下界はともに、$\psi$ が必ずしも強凸でない場合や、それぞれの$f_i$ がリプシッツであるが必ずしも滑らかでない場合にまで拡張できる。
さらに、F$が非凸であるとき、我々の量子アルゴリズムは$\tilde{O}(n+\ell(d^{1/3}n^{1/3}+\sqrt{d})/\epsilon^2)$クエリを使って$\epsilon$-critial pointを見つけることができる。
Finite-sum optimization has wide applications in machine learning, covering important problems such as support vector machines, regression, etc. In this paper, we initiate the study of solving finite-sum optimization problems by quantum computing. Specifically, let $f_1,\ldots,f_n\colon\mathbb{R}^d\to\mathbb{R}$ be $\ell$-smooth convex functions and $\psi\colon\mathbb{R}^d\to\mathbb{R}$ be a $\mu$-strongly convex proximal function. The goal is to find an $\epsilon$-optimal point for $F(\mathbf{x})=\frac{1}{n}\sum_{i=1}^n f_i(\mathbf{x})+\psi(\mathbf{x})$. We give a quantum algorithm with complexity $\tilde{O}\big(n+\sqrt{d}+\sqrt{\ell/\mu}\big(n^{1/3}d^{1/3}+n^{-2/3}d^{5/6}\big)\big)$, improving the classical tight bound $\tilde{\Theta}\big(n+\sqrt{n\ell/\mu}\big)$. We also prove a quantum lower bound $\tilde{\Omega}(n+n^{3/4}(\ell/\mu)^{1/4})$ when $d$ is large enough. Both our quantum upper and lower bounds can extend to the cases where $\psi$ is not necessarily strongly convex, or each $f_i$ is Lipschitz but not necessarily smooth. In addition, when $F$ is nonconvex, our quantum algorithm can find an $\epsilon$-critial point using $\tilde{O}(n+\ell(d^{1/3}n^{1/3}+\sqrt{d})/\epsilon^2)$ queries. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# BadAgent: LLMエージェントのバックドア攻撃の実施と活性化
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents ( http://arxiv.org/abs/2406.03007v1 ) ライセンス: Link先を確認 | Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian, | (参考訳) 大規模言語モデル(LLM)の繁栄により、ユーザ定義ツールセットでカスタマイズされたサービスを提供するために、強力なLLMベースのインテリジェントエージェントが開発された。
LLMエージェントを構築するための最先端の手法は、訓練されたLLMを採用し、エージェントタスクのデータに基づいてそれらをさらに微調整する。
しかし,これらの手法は,バックドアデータを微調整してバックドアを埋め込む,BadAgentと呼ばれる様々なエージェントタスクに対して,提案したバックドア攻撃に対して脆弱であることを示す。
テスト時には、攻撃者はエージェントの入力や環境にトリガーを表示することで、デプロイされたLLMエージェントを操作して有害な操作を実行することができる。
驚いたことに、我々の提案した攻撃方法は信頼性のあるデータを微調整した後でも極めて堅牢である。
バックドア攻撃は自然言語処理において広範囲に研究されてきたが、私たちの知る限り、外部ツールの使用許可によりより危険であるLSMエージェントでそれらを最初に研究する可能性がある。
我々の研究は、信頼できないLSMやデータに基づいてLSMエージェントを構築することの明確なリスクを実証している。
私たちのコードはhttps://github.com/DPamK/BadAgentで公開されています。
With the prosperity of large language models (LLMs), powerful LLM-based intelligent agents have been developed to provide customized services with a set of user-defined tools. State-of-the-art methods for constructing LLM agents adopt trained LLMs and further fine-tune them on data for the agent task. However, we show that such methods are vulnerable to our proposed backdoor attacks named BadAgent on various agent tasks, where a backdoor can be embedded by fine-tuning on the backdoor data. At test time, the attacker can manipulate the deployed LLM agents to execute harmful operations by showing the trigger in the agent input or environment. To our surprise, our proposed attack methods are extremely robust even after fine-tuning on trustworthy data. Though backdoor attacks have been studied extensively in natural language processing, to the best of our knowledge, we could be the first to study them on LLM agents that are more dangerous due to the permission to use external tools. Our work demonstrates the clear risk of constructing LLM agents based on untrusted LLMs or data. Our code is public at https://github.com/DPamK/BadAgent | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# DriVLMe: LLMをベースとした自律運転エージェントの身体的・社会的体験の向上
DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences ( http://arxiv.org/abs/2406.03008v1 ) ライセンス: Link先を確認 | Yidong Huang, Jacob Sansom, Ziqiao Ma, Felix Gervits, Joyce Chai, | (参考訳) ファンデーションモデル(FM)の最近の進歩は、自動運転の新しい展望を解き放ちつつあるが、これらの研究の実験的な設定は、予備的であり、過剰に単純化され、人間の環境における現実の運転シナリオの複雑さを捉えることができない。
FMエージェントが長距離航法タスクを自由対話で処理し、環境力学やタスク変更による予期せぬ状況に対処できるかは、まだ解明されていない。
上記の課題に直面するFMの能力と限界を探るため,人間と自律走行車の自然かつ効果的なコミュニケーションを支援するビデオ言語モデルベースのエージェントであるDriVLMeを紹介した。
シミュレーション環境における具体的体験と実際の人間対話による社会体験の両方からDriVLMeを開発する。
DriVLMeは、オープンループベンチマークとクローズドループヒューマンスタディの両方で競争性能を示す一方で、許容できない推論時間、不均衡なトレーニングデータ、視覚的理解の制限、マルチターンインタラクションによる課題、ロボット体験からの言語生成の簡略化、環境力学やタスク変更といった予期せぬ状況に対処する難しさなど、いくつかの制限と課題を明らかにします。
Recent advancements in foundation models (FMs) have unlocked new prospects in autonomous driving, yet the experimental settings of these studies are preliminary, over-simplified, and fail to capture the complexity of real-world driving scenarios in human environments. It remains under-explored whether FM agents can handle long-horizon navigation tasks with free-from dialogue and deal with unexpected situations caused by environmental dynamics or task changes. To explore the capabilities and boundaries of FMs faced with the challenges above, we introduce DriVLMe, a video-language-model-based agent to facilitate natural and effective communication between humans and autonomous vehicles that perceive the environment and navigate. We develop DriVLMe from both embodied experiences in a simulated environment and social experiences from real human dialogue. While DriVLMe demonstrates competitive performance in both open-loop benchmarks and closed-loop human studies, we reveal several limitations and challenges, including unacceptable inference time, imbalanced training data, limited visual understanding, challenges with multi-turn interactions, simplified language generation from robotic experiences, and difficulties in handling on-the-fly unexpected situations like environmental dynamics and task changes. | 翻訳日:2024-06-06 19:39:21 公開日:2024-06-05 |
# 解き放つ選択バイアス:大規模言語モデルにおける順序とトークン感度の探索
Unveiling Selection Biases: Exploring Order and Token Sensitivity in Large Language Models ( http://arxiv.org/abs/2406.03009v1 ) ライセンス: Link先を確認 | Sheng-Lun Wei, Cheng-Kuang Wu, Hen-Hsen Huang, Hsin-Hsi Chen, | (参考訳) 本稿では,Large Language Models (LLMs) における選択バイアスの現象を考察し,順序付きシーケンスから最適な選択肢を選択することをモデルが課題とする問題に焦点をあてる。
LLMの意思決定プロセスに大きな影響を与える、オプションの順序とトークンの使用に関するバイアスを掘り下げます。
また、これらのバイアスの影響を、複数のモデルやタスクにまたがる広範な経験的分析を通じて定量化する。
さらに,モデル性能を向上させるための緩和戦略を提案する。
私たちの重要な貢献は3つあります。
1)LLMに対するオプションオーダーとトークンの影響を正確に定量化する。
2【トークンの影響を緩和し、堅牢性を高めるための秩序感度を高めるための戦略開発】
3)モデルとタスク間の感度を詳細に分析し,より安定かつ信頼性の高いLCMアプリケーションを選択問題に適用する。
In this paper, we investigate the phenomena of "selection biases" in Large Language Models (LLMs), focusing on problems where models are tasked with choosing the optimal option from an ordered sequence. We delve into biases related to option order and token usage, which significantly impact LLMs' decision-making processes. We also quantify the impact of these biases through an extensive empirical analysis across multiple models and tasks. Furthermore, we propose mitigation strategies to enhance model performance. Our key contributions are threefold: 1) Precisely quantifying the influence of option order and token on LLMs, 2) Developing strategies to mitigate the impact of token and order sensitivity to enhance robustness, and 3) Offering a detailed analysis of sensitivity across models and tasks, which informs the creation of more stable and reliable LLM applications for selection problems. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 量子コンピュータシミュレーションによるテンソル更新の簡易化
Simplification of tensor updates toward performance-complexity balanced quantum computer simulation ( http://arxiv.org/abs/2406.03010v1 ) ライセンス: Link先を確認 | Koichi Yanagisawa, Aruto Hosaka, Tsuyoshi Yoshida, | (参考訳) テンソルネットワーク法は、量子多体スピンシステムの最適化問題から進化してきた。
テンソルネットワークは現在、量子コンピュータシミュレーションにおいて強力なツールとみなされているが、テンソルを更新する際の複雑さの問題がまだ残っている。
本研究は、テンソルネットワークに基づく量子コンピュータシミュレーションの文脈におけるテンソル更新の単純化について研究する。
数値シミュレーションによると、単純更新と呼ばれる手法は、量子多体スピン系からもたらされ、忠実度と計算複雑性のバランスが良好である。
Tensor network methods have evolved from solving optimization problems in quantum many-body spin systems. While the tensor network is now regarded as a powerful tool in quantum computer simulation, there still exists a complexity issue in updating the tensors. This work studies the tensor updates simplification in the context of the tensor network based quantum computer simulation. According to the numerical simulations, a method called simple update, also originated in quantum many-body spin systems, shows a good balance of the fidelity and the computational complexity. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# トレーニングサンプルが説明に及ぼす影響の分析
Analyzing the Influence of Training Samples on Explanations ( http://arxiv.org/abs/2406.03012v1 ) ライセンス: Link先を確認 | André Artelt, Barbara Hammer, | (参考訳) 説明可能なAI(XAI)は、意思決定を説明することによって、AIシステムの推論を分析する一般的な方法である。
しかし、予期せぬ説明のようなケースでは、ユーザーは、観察された説明に責任がある活用されたトレーニングデータの特性など、この説明の原因について学習することに関心があるかもしれない。
データ評価の領域では、データサンプルが与えられたモデルに与える影響を推定する最初のアプローチが提案されている。
本研究では,モデル自体ではなく,モデル説明に対する単一サンプルの影響に関心があるため,若干異なるスタンスをとる。
そこで本稿では,与えられた説明(あるいは関連量)に高い影響を与えるトレーニングデータサンプルを同定し,保護されたグループ間の関係のコスト差の特定の事例について検討する。
そこで本研究では,そのような学習サンプルを同定するアルゴリズムを提案する。
EXplainable AI (XAI) constitutes a popular method to analyze the reasoning of AI systems by explaining their decision-making, e.g. providing a counterfactual explanation of how to achieve recourse. However, in cases such as unexpected explanations, the user might be interested in learning about the cause of this explanation -- e.g. properties of the utilized training data that are responsible for the observed explanation. Under the umbrella of data valuation, first approaches have been proposed that estimate the influence of data samples on a given model. In this work, we take a slightly different stance, as we are interested in the influence of single samples on a model explanation rather than the model itself. Hence, we propose the novel problem of identifying training data samples that have a high influence on a given explanation (or related quantity) and investigate the particular case of differences in the cost of the recourse between protected groups. For this, we propose an algorithm that identifies such influential training samples. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# ゼロショットロボットナビゲーションにおけるバランシング性能と効率性
Balancing Performance and Efficiency in Zero-shot Robotic Navigation ( http://arxiv.org/abs/2406.03015v1 ) ライセンス: Link先を確認 | Dmytro Kuzmenko, Nadiya Shvai, | (参考訳) 本稿では,ロボット工学におけるオブジェクトゴールナビゲーションタスクに適用したビジョンランゲージフロンティアマップ(VLFM)の最適化研究について述べる。
本研究は,視覚言語モデル,オブジェクト検出器,セグメンテーションモデル,マルチモーダル理解および視覚質問応答モジュールの効率と性能を評価する。
Habitat-Matterport 3Dデータセットの分割を$\textit{val-mini}$と$\textit{val}$を使って、限られたVRAMでデスクトップ上で実験を行います。
本稿では,VLFM BLIP-2ベースラインよりも高い成功率(+1.55%)を実現するソリューションを提案する。
本研究は, モデル性能と計算効率のバランスに関する知見を提供し, 資源限定環境における効率的な配置戦略を提案する。
We present an optimization study of the Vision-Language Frontier Maps (VLFM) applied to the Object Goal Navigation task in robotics. Our work evaluates the efficiency and performance of various vision-language models, object detectors, segmentation models, and multi-modal comprehension and Visual Question Answering modules. Using the $\textit{val-mini}$ and $\textit{val}$ splits of Habitat-Matterport 3D dataset, we conduct experiments on a desktop with limited VRAM. We propose a solution that achieves a higher success rate (+1.55%) improving over the VLFM BLIP-2 baseline without substantial success-weighted path length loss while requiring $\textbf{2.3 times}$ less video memory. Our findings provide insights into balancing model performance and computational efficiency, suggesting effective deployment strategies for resource-limited environments. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# DifAttack++: クロスドメインの階層的不整合特徴空間によるクエリ効率の良いブラックボックス逆攻撃
DifAttack++: Query-Efficient Black-Box Adversarial Attack via Hierarchical Disentangled Feature Space in Cross Domain ( http://arxiv.org/abs/2406.03017v1 ) ライセンス: Link先を確認 | Jun Liu, Jiantao Zhou, Jiandian Zeng, Jinyu Tian, | (参考訳) 本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。
我々は, 機能空間全体で動作する既存のものとは大きく異なる, \textbf{DifAttack++} と呼ばれる, \textbf{Di}sentangled \textbf{F}eature space と \textit{cross domain} に基づく新しい攻撃手法を設計する。
具体的には、DifAttack++が最初にイメージの潜在機能を、特殊に設計された \textbf{H}ierarchical \textbf{D}ecouple-\textbf{F}usion (HDF) モジュールを備えたオートエンコーダを介して、画像の逆数機能(AF)と \textit{visual feature} (VF)に分解する。
クリーンな画像のペアと、ホワイトボックスアタック手法を用いて利用可能なサロゲートモデルから生成されたその逆例(AE)を用いて、特徴のゆがみを実現するとともに、クリーンな画像領域と逆画像領域のオートエンコーダをそれぞれ訓練する。
最終的に、ブラックボックス攻撃の段階では、DifAttack++は被害者モデルからのクエリフィードバックに従って、VFを変更せずに成功したAEが生成されるまで、AFを反復的に最適化する。
広汎な実験結果から,本手法はSOTA法よりも優れたASRとクエリ効率を実現する一方で,AEsの視覚的品質も向上することが示された。
コードはhttps://github.com/csjunjun/DifAttack.git.comで入手できる。
This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (ASR) and good generalizability. We design a novel attack method based on a \textit{Hierarchical} \textbf{Di}sentangled \textbf{F}eature space and \textit{cross domain}, called \textbf{DifAttack++}, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack++ firstly disentangles an image's latent feature into an \textit{adversarial feature} (AF) and a \textit{visual feature} (VF) via an autoencoder equipped with our specially designed \textbf{H}ierarchical \textbf{D}ecouple-\textbf{F}usion (HDF) module, where the AF dominates the adversarial capability of an image, while the VF largely determines its visual appearance. We train such autoencoders for the clean and adversarial image domains respectively, meanwhile realizing feature disentanglement, by using pairs of clean images and their Adversarial Examples (AEs) generated from available surrogate models via white-box attack methods. Eventually, in the black-box attack stage, DifAttack++ iteratively optimizes the AF according to the query feedback from the victim model until a successful AE is generated, while keeping the VF unaltered. Extensive experimental results demonstrate that our method achieves superior ASR and query efficiency than SOTA methods, meanwhile exhibiting much better visual quality of AEs. The code is available at https://github.com/csjunjun/DifAttack.git. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 古代中国語の文字をラディカル・レコンストラクションで解読する「Puzzle Pieces Picker」
Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction ( http://arxiv.org/abs/2406.03019v1 ) ライセンス: Link先を確認 | Pengjie Wang, Kaile Zhang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu, | (参考訳) Oracle Bone Inscriptionsは、世界で最も古い書式の一つである。
しかし、この時代の大きな古さのため、多くのOracle Bone Inscriptions (OBI) が未解読のままであり、今日の古生物学分野における世界的課題の1つとなっている。
本稿では, 急進的再構成によりこれらの謎の文字を復号化するための新しい手法, Puzzle Pieces Picker (P$^3$) を提案する。
OBIを基本的なストロークとラジカルに分解し、Transformerモデルを使用して、それらをモダンな(conterpart)\textcolor{blue}{counterparts}に再構築し、古代のスクリプト分析の画期的なソリューションを提供します。
この取り組みをさらに進めるために、7つの重要な歴史的段階から大量の文字画像を集め、詳細なラジカル配列を付加した新しい古代中国語の文字パズル(ACCP)データセットが開発された。
この実験は、古代中国のスクリプトの複雑さの解読における我々のアプローチの可能性と有効性について、かなり有望な洞察を示してきた。
この新たなデータセットと方法論を通じて、従来の文献学と近代文書分析のギャップを埋めることを目指しており、中国の言語遺産の豊富な歴史に対する新たな洞察を提供する。
Oracle Bone Inscriptions is one of the oldest existing forms of writing in the world. However, due to the great antiquity of the era, a large number of Oracle Bone Inscriptions (OBI) remain undeciphered, making it one of the global challenges in the field of paleography today. This paper introduces a novel approach, namely Puzzle Pieces Picker (P$^3$), to decipher these enigmatic characters through radical reconstruction. We deconstruct OBI into foundational strokes and radicals, then employ a Transformer model to reconstruct them into their modern (conterpart)\textcolor{blue}{counterparts}, offering a groundbreaking solution to ancient script analysis. To further this endeavor, a new Ancient Chinese Character Puzzles (ACCP) dataset was developed, comprising an extensive collection of character images from seven key historical stages, annotated with detailed radical sequences. The experiments have showcased considerable promising insights, underscoring the potential and effectiveness of our approach in deciphering the intricacies of ancient Chinese scripts. Through this novel dataset and methodology, we aim to bridge the gap between traditional philology and modern document analysis techniques, offering new insights into the rich history of Chinese linguistic heritage. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 中性基底状態パラヘリウムに対するシュロディンガー方程式の解析解
An analytical solution of the Schrodinger equation for the neutral ground state Para Helium ( http://arxiv.org/abs/2406.03020v1 ) ライセンス: Link先を確認 | Frank Kowol, | (参考訳) 本報告では, シュロディンガー方程式の解析解と, その対応する波動関数について, 基底状態における中性ヘリウム原子, パラヘリウム様原子について述べる。
s=0 と l=0 の2つの電子の状態関数とその境界条件を詳細に検討する。
さらに、クーロンと交換相互作用からなる一般的な電子ポテンシャルを記述する方法が導出され、結果として得られるポテンシャル関数がポテンシャル項としてシュロディンガー方程式に統合される。
さらに、真空偏極効果による電子の電磁結合の変化を調査し、ラプラス変換を用いて中性パラヘリウムに対するシュロディンガー方程式を解く。
すると基底状態のエネルギーが決定され、電子が点状粒子であると仮定できるという事実から、文献値と一致することが示される。
これらの研究の文脈では、電子の空間次元に対する上限推定は、2つの電子間の安定結合状態の最小距離の存在と同様に与えられるが、これは絡み合った状態と解釈できる。
ヘリウム原子の波動関数は、水素原子の既知の溶液と比較され、2つの重要な相違が解決される。
This report presents the analytical solution of the Schrodinger equation and its corresponding wave function for the neutral para-helium or para-helium-like atoms in the ground state. The state functions of the two electrons for s=0 and l=0 as well as their boundary conditions are examined in detail. Furthermore, a method for describing a generic electron potential consisting of Coulomb and exchange interactions is derived, and the resulting potential function is integrated into the Schrodinger equation as a potential term. In addition, the altered electromagnetic coupling of the electrons due to vacuum polarization effects is investigated and finally the Schrodinger equation for the neutral Para-Helium is solved using Laplace transformations. The energy in the ground state is then determined , and it can be shown that this agrees with the literature values given the fact that the electron can be assumed to be a point-like particle. In the context of these investigations, an upper limit estimation for the spatial dimension of the electron can also be given as well as the existence of a minimal distance of a stable bonding state between two electrons, which can be interpreted as an entangled state; in addition, the chemical inertness of helium with regard to chemical reactions-i.e. the principle of the "closed" electron shell-can be made plausible by the quantum mechanical electron configuration and its consequences with regard to binding energy. The wave function found for the helium atom is compared with the known solutions for the hydrogen atom, and essential differences between the two are worked out. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 非エルミート量子系におけるキラル状態転移と非相互状態転移の動的トポロジー
Dynamical topology of chiral and nonreciprocal state transfers in a non-Hermitian quantum system ( http://arxiv.org/abs/2406.03026v1 ) ライセンス: Link先を確認 | Pengfei Lu, Yang Liu, Qifeng Lao, Teng Liu, Xinxin Rao, Ji Bian, Hao Wu, Feng Zhu, Le Luo, | (参考訳) 位相現象の基礎となる基本的な概念は、固有状態に関連する幾何学的位相を仮定する。
この一般的な概念とは対照的に、時変ハミルトニアンの理論的研究はトポロジカル・ダイナミクスとして知られる新しいタイプのトポロジカル現象を許容し、進化過程は連続フローに付随する隠れトポロジカル不変性を許容する。
この予想を検証するために、非エルミート・ハミルトニアンの例外点(EP)を閉じ込めたイオン系に囲むことで、トポロジカルなカイラルと非相互ダイナミクスを研究する。
これらの力学は、散逸によって引き起こされる非断熱過程においても、外部の摂動に対して位相的に堅牢である。
本研究は,非エルミタンバンド構造が平行輸送された固有ベイシスにおいてエネルギー分散にともなうトポロジカル不変量である動的渦によって保護されていることを示唆する。
トポロジカルダイナミクスの対称性の破れや他の重要な特徴は、量子状態トモグラフィーによって直接観察される。
この結果は、オープン量子系のトポロジカルな性質を探求するための重要なステップである。
The fundamental concept underlying topological phenomena posits the geometric phase associated with eigenstates. In contrast to this prevailing notion, theoretical studies on time-varying Hamiltonians allow for a new type of topological phenomenon, known as topological dynamics, where the evolution process allows a hidden topological invariant associated with continuous flows. To validate this conjecture, we study topological chiral and nonreciprocal dynamics by encircling the exceptional points (EPs) of non-Hermitian Hamiltonians in a trapped ion system. These dynamics are topologically robust against external perturbations even in the presence dissipation-induced nonadiabatic processes. Our findings indicate that they are protected by dynamical vorticity -- an emerging topological invariant associated with the energy dispersion of non-Hermitian band structures in a parallel transported eigenbasis. The symmetry breaking and other key features of topological dynamics are directly observed through quantum state tomography. Our results mark a significant step towards exploring topological properties of open quantum systems. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# ベルの理論に反する
Against Bell's Theorem ( http://arxiv.org/abs/2406.03028v1 ) ライセンス: Link先を確認 | Andrea Aiello, | (参考訳) ベルの定理は、量子力学と局所的で現実的な隠れ変数理論の間の矛盾を証明していると考えられている。
本稿ではベルの定理を証明しようとするすべての実験がこの目標を達成できないことを示す。
我々の結論は、これらの実験の結果の直接的な統計的分析に基づいている。
この研究の鍵となるツールは確率論であり、特に、そのような実験の結果を定量化する二コトミックな確率変数に対するサンプル空間の概念である。
また、ベルの定理の実験的な証明は原理的には不可能ではないが、この目的を達成するために一般的に用いられるものとは全く異なる実験装置を必要とすることも示している。
我々の研究の主な成果は、利用可能な実験データに基づいて、局所的な現実的な隠れ変数理論を排除できないことである。
Bell's theorem supposedly demonstrates an irreconcilable conflict between quantum mechanics and local, realistic hidden variable theories. In this paper we show that all experiments that aim to prove Bell's theorem do not actually achieve this goal. Our conclusions are based on a straightforward statistical analysis of the outcomes of these experiments. The key tool in our study is probability theory and, in particular, the concept of sample space for the dichotomic random variables that quantifies the outcomes of such experiments. We also show that an experimental proof of Bell's theorem is not, in principle, impossible, but it would require a completely different experimental apparatus than those commonly used to allegedly achieve this objective. The main consequence of our work is that we cannot dismiss local realistic hidden variable theories on the basis of the available experimental data. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# ターザンからトールキンへ:コンテンツ生成のためのLLMの言語習熟度制御
From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation ( http://arxiv.org/abs/2406.03030v1 ) ライセンス: Link先を確認 | Ali Malik, Stephen Mayhew, Chris Piech, Klinton Bicknell, | (参考訳) 本研究では,言語学習者などエンドユーザーが十分に熟練していない状況において,Large Language Models (LLM) が生成するテキストの難易度を制御する問題について検討する。
GPT-4 と LLama2-7B や Mistral-7B といったオープンソースの代替品を併用した,少数ショットプロンプト,教師付き微調整,強化学習 (RL) など,この課題に対するいくつかの重要なアプローチの有効性を評価する。
この結果から,プロンプトベース戦略を用いた場合,GPT-4とオープンソースモデルの間に大きな性能差があることが判明した。
しかし、このギャップをファインタニングとRLアライメントの慎重に組み合わせて橋渡しする方法を示す。
我々の最良のモデルであるCALM (CEFR-Aligned Language Model) は、GPT-4やその他の戦略の性能をほんの少しのコストで上回ります。
我々は、小規模の人間による研究を通じて、結果の質をさらに検証する。
We study the problem of controlling the difficulty level of text generated by Large Language Models (LLMs) for contexts where end-users are not fully proficient, such as language learners. Using a novel framework, we evaluate the effectiveness of several key approaches for this task, including few-shot prompting, supervised finetuning, and reinforcement learning (RL), utilising both GPT-4 and open source alternatives like LLama2-7B and Mistral-7B. Our findings reveal a large performance gap between GPT-4 and the open source models when using prompt-based strategies. However, we show how to bridge this gap with a careful combination of finetuning and RL alignment. Our best model, CALM (CEFR-Aligned Language Model), surpasses the performance of GPT-4 and other strategies, at only a fraction of the cost. We further validate the quality of our results through a small-scale human study. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# ゼロショット学習のためのプロンプト・ツー・プロンプト生成の指導
Instructing Prompt-to-Prompt Generation for Zero-Shot Learning ( http://arxiv.org/abs/2406.03032v1 ) ライセンス: Link先を確認 | Man Liu, Huihui Bai, Feng Li, Chunjie Zhang, Yunchao Wei, Meng Wang, Tat-Seng Chua, Yao Zhao, | (参考訳) ゼロショット学習(ZSL)は、目に見えないカテゴリを分類するために、目に見えないカテゴリから移行した包括的知識を発見するために、意味と視覚の相互作用を探索することを目的としている。
近年、ZSLでは、多様な視覚概念を下流タスクにゼロショットで転送できるなど、迅速なエンジニアリングが実現している。
しかし、これらの方法はまだ広く見えない領域に対して十分に一般化されていない。
主な理由は、学習可能なプロンプトが学習時に観察される主要な視覚的特徴を過度に強調する傾向があるためである。
本稿では, 包括的伝達可能な知識発見のために, 命令追従手法を更に取り入れることで, この問題に対処する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴とモーダル共有セマンティック概念に関するテキスト命令からセマンティック関連インストラクションを抽出し、学習したインストラクションプロンプトのガイダンスで視覚表現を逆修正することである。
これにより、視覚的詳細の欠如に対する補償が一次文脈に課せられ、また、目に見えない領域の一般化によって、モデアルの相違が解消される。
実験により,P2Pが最先端手法よりも優れた性能を発揮することを示す。
Zero-shot learning (ZSL) aims to explore the semantic-visual interactions to discover comprehensive knowledge transferred from seen categories to classify unseen categories. Recently, prompt engineering has emerged in ZSL, demonstrating impressive potential as it enables the zero-shot transfer of diverse visual concepts to downstream tasks. However, these methods are still not well generalized to broad unseen domains. A key reason is that the fixed adaption of learnable prompts on seen domains makes it tend to over-emphasize the primary visual features observed during training. In this work, we propose a \textbf{P}rompt-to-\textbf{P}rompt generation methodology (\textbf{P2P}), which addresses this issue by further embracing the instruction-following technique to distill instructive visual prompts for comprehensive transferable knowledge discovery. The core of P2P is to mine semantic-related instruction from prompt-conditioned visual features and text instruction on modal-sharing semantic concepts and then inversely rectify the visual representations with the guidance of the learned instruction prompts. This enforces the compensation for missing visual details to primary contexts and further eliminates the cross-modal disparity, endowing unseen domain generalization. Through extensive experimental results, we demonstrate the efficacy of P2P in achieving superior performance over state-of-the-art methods. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 最適マルチフィデリティベストアーム同定
Optimal Multi-Fidelity Best-Arm Identification ( http://arxiv.org/abs/2406.03033v1 ) ライセンス: Link先を確認 | Riccardo Poiani, Rémy Degenne, Emilie Kaufmann, Alberto Maria Metelli, Marcello Restelli, | (参考訳) バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
そこで本研究では,低忠実度(正確な平均推定値を持たない)の腕を低コストでサンプリングするアルゴリズムを提案する。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
最初のコントリビューションは、コストの複雑さに対する厳密でインスタンス依存の低いバウンダリです。
下界に特徴付けられる最適化問題の研究は、計算効率の良いアルゴリズムを考案するための新たな洞察を与え、漸近的に最適なコスト複雑性を持つ勾配に基づくアプローチを提案する。
実験における既存手法と比較して,新しいアルゴリズムの利点を実証する。
私たちの理論的および経験的な発見は、各腕に最適な忠実さという興味深い概念にも光を当てました。
In bandit best-arm identification, an algorithm is tasked with finding the arm with highest mean reward with a specified accuracy as fast as possible. We study multi-fidelity best-arm identification, in which the algorithm can choose to sample an arm at a lower fidelity (less accurate mean estimate) for a lower cost. Several methods have been proposed for tackling this problem, but their optimality remain elusive, notably due to loose lower bounds on the total cost needed to identify the best arm. Our first contribution is a tight, instance-dependent lower bound on the cost complexity. The study of the optimization problem featured in the lower bound provides new insights to devise computationally efficient algorithms, and leads us to propose a gradient-based approach with asymptotically optimal cost complexity. We demonstrate the benefits of the new algorithm compared to existing methods in experiments. Our theoretical and empirical findings also shed light on an intriguing concept of optimal fidelity for each arm. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# Follow-Your-Pose v2:Stable Pose Controlのためのマルチコンディション誘導文字アニメーション
Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control ( http://arxiv.org/abs/2406.03035v1 ) ライセンス: Link先を確認 | Jingyun Xue, Hongfa Wang, Qi Tian, Yue Ma, Andong Wang, Zhiyuan Zhao, Shaobo Min, Wenzhe Zhao, Kaihao Zhang, Heung-Yeung Shum, Wei Liu, Mengyang Liu, Wenhan Luo, | (参考訳) ソーシャルメディアプラットフォームにおける自動広告やコンテンツ作成などの分野への広範な応用により、ポーズコントロール可能なキャラクタビデオ生成が要求されている。
ポーズシーケンスと参照画像を用いた既存のキャラクタ画像アニメーション手法は有望なパフォーマンスを示しているが、複数のキャラクタアニメーションやボディーオブクルージョンといった複雑なシナリオでは、非一貫性のアニメーションに苦労する傾向がある。
さらに、現在の方法では、トレーニングデータセットとして安定したバックグラウンドと時間的一貫性を備えた大規模な高品質なビデオが要求される。
これら2つの課題は、文字画像アニメーションツールの実用化を妨げている。
本稿では,インターネット上で容易に利用できるノイズの多いオープンソースビデオに基づいてトレーニング可能な,実用的で堅牢なフレームワークFollow-Your-Pose v2を提案する。
マルチコンディションガイドは,背景安定性,マルチキャラクタ生成時の身体閉塞,キャラクタの外観の整合性といった課題に対処するように設計されている。
さらに,マルチキャラクタポーズアニメーションの公平な評価のギャップを埋めるために,約4,000フレームからなる新しいベンチマークを提案する。
大規模な実験により、我々の手法は2つのデータセットと7つのメトリクスで35\%以上のマージンで最先端の手法より優れていることが示された。
一方, 質的評価では, 生成ビデオの品質が著しく向上し, 特に複雑な背景やマルチキャラクタの身体閉塞などのシナリオにおいて, アプローチの優位性が示唆された。
Pose-controllable character video generation is in high demand with extensive applications for fields such as automatic advertising and content creation on social media platforms. While existing character image animation methods using pose sequences and reference images have shown promising performance, they tend to struggle with incoherent animation in complex scenarios, such as multiple character animation and body occlusion. Additionally, current methods request large-scale high-quality videos with stable backgrounds and temporal consistency as training datasets, otherwise, their performance will greatly deteriorate. These two issues hinder the practical utilization of character image animation tools. In this paper, we propose a practical and robust framework Follow-Your-Pose v2, which can be trained on noisy open-sourced videos readily available on the internet. Multi-condition guiders are designed to address the challenges of background stability, body occlusion in multi-character generation, and consistency of character appearance. Moreover, to fill the gap of fair evaluation of multi-character pose animation, we propose a new benchmark comprising approximately 4,000 frames. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods by a margin of over 35\% across 2 datasets and on 7 metrics. Meanwhile, qualitative assessments reveal a significant improvement in the quality of generated video, particularly in scenarios involving complex backgrounds and body occlusion of multi-character, suggesting the superiority of our approach. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 自動運転におけるソフトウェア・イン・ザ・ループシミュレーションと物理試験の相関
Correlation of Software-in-the-Loop Simulation with Physical Testing for Autonomous Driving ( http://arxiv.org/abs/2406.03040v1 ) ライセンス: Link先を確認 | Zhennan Fei, Mikael Andersson, Andreas Tingberg, | (参考訳) ソフトウェア・イン・ザ・ループ (Software-in-the-loop, SIL) シミュレーションは、その柔軟性と効率性から、自動運転車の迅速な開発とテストに広く用いられている手法である。
本稿では,社内で開発されたSILシミュレーションツールチェーンの検証事例について述べる。
提示された検証プロセスには、テストトラック上の代表シナリオの設計と実行が含まれます。
テストトラックをSILシミュレーションと整合させるため,車載テストから得られたデータに基づいてパラメータを微調整することでシナリオを改良する同期手法を提案する。
また、SILシミュレーションと車両試験ログの相関性を評価するために用いられる2つの指標についても論じる。
提案した検証プロセスの有効性を示すための予備的な結果が提示される。
Software-in-the-loop (SIL) simulation is a widely used method for the rapid development and testing of autonomous vehicles because of its flexibility and efficiency. This paper presents a case study on the validation of an in-house developed SIL simulation toolchain. The presented validation process involves the design and execution of a set of representative scenarios on the test track. To align the test track runs with the SIL simulations, a synchronization approach is proposed, which includes refining the scenarios by fine-tuning the parameters based on data obtained from vehicle testing. The paper also discusses two metrics used for evaluating the correlation between the SIL simulations and the vehicle testing logs. Preliminary results are presented to demonstrate the effectiveness of the proposed validation process | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# 集団変換器:頭蓋内活動の集団レベルの表現を学習する
Population Transformer: Learning Population-level Representations of Intracranial Activity ( http://arxiv.org/abs/2406.03044v1 ) ライセンス: Link先を確認 | Geeling Chau, Christopher Wang, Sabera Talukder, Vighnesh Subramaniam, Saraswati Soedarmadji, Yisong Yue, Boris Katz, Andrei Barbu, | (参考訳) 本稿では,頭蓋内神経記録の集団レベルの符号を大規模に学習し,重要な神経科学記録のための表現学習の利点を解放する自己教師型フレームワークを提案する。
Population Transformer (PopT)は、復号実験に必要なデータ量を削減し、未確認の被験者やタスクでも精度を向上する。
PopTの開発における2つの課題に対処する: スパース電極分布と患者間での電極位置の変化である。
PopTスタックは事前訓練された表現の上にあり、複数の空間的にスパースなデータチャネルの学習的な集約を可能にすることで下流タスクを強化する。
復号化以外にも、事前訓練されたPopTと微調整されたモデルを解釈して、大量のデータから学んだ神経科学的な洞察を提供する方法を示す。
トレーニング済みのPopTをリリースし、マルチチャネルの頭蓋内データの復号化と解釈性の向上を実現し、https://github.com/czlwang/Population Transformer.comでコードを利用できる。
We present a self-supervised framework that learns population-level codes for intracranial neural recordings at scale, unlocking the benefits of representation learning for a key neuroscience recording modality. The Population Transformer (PopT) lowers the amount of data required for decoding experiments, while increasing accuracy, even on never-before-seen subjects and tasks. We address two key challenges in developing PopT: sparse electrode distribution and varying electrode location across patients. PopT stacks on top of pretrained representations and enhances downstream tasks by enabling learned aggregation of multiple spatially-sparse data channels. Beyond decoding, we interpret the pretrained PopT and fine-tuned models to show how it can be used to provide neuroscience insights learned from massive amounts of data. We release a pretrained PopT to enable off-the-shelf improvements in multi-channel intracranial data decoding and interpretability, and code is available at https://github.com/czlwang/PopulationTransformer. | 翻訳日:2024-06-06 19:29:27 公開日:2024-06-05 |
# スパイキングニューラルネットワークが時間的注意画像デコードと適応スパイキングニューロンと出会うとき
When Spiking neural networks meet temporal attention image decoding and adaptive spiking neuron ( http://arxiv.org/abs/2406.03046v1 ) ライセンス: Link先を確認 | Xuerui Qiu, Zheng Luan, Zhaorui Wang, Rui-Jie Zhu, | (参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的に妥当な方法で時間情報をエンコードし、処理することができる。
しかし、画像タスクのための既存のSNNベースのメソッドの多くは、この機能を完全に活用していない。
さらに、スパイキングニューロンにおける適応しきい値の役割を見落とし、そのダイナミックな振る舞いと学習能力を高めることができる。
本稿では,時間的注意(TAID)と適応型Leaky-Integrate-and-Fire(ALIF)ニューロンモデルに基づく画像復号法を提案する。
提案手法は,SNN出力の時間的情報を利用して,インセプションスコア,Fr'echet Inception Distance,Fr'echet Autoencoder Distanceの点から,最先端(SOTA)を超える高品質な画像を生成する。
さらに、我々のALIFニューロンモデルでは、MNIST(99.78\%)およびCIFAR-10(93.89\%)データセットの顕著な分類精度を実現し、スパイキングニューロンに対する適応しきい値の学習の有効性を示す。
コードはhttps://github.com/bollossom/ICLR_TINY_SNNで公開されている。
Spiking Neural Networks (SNNs) are capable of encoding and processing temporal information in a biologically plausible way. However, most existing SNN-based methods for image tasks do not fully exploit this feature. Moreover, they often overlook the role of adaptive threshold in spiking neurons, which can enhance their dynamic behavior and learning ability. To address these issues, we propose a novel method for image decoding based on temporal attention (TAID) and an adaptive Leaky-Integrate-and-Fire (ALIF) neuron model. Our method leverages the temporal information of SNN outputs to generate high-quality images that surpass the state-of-the-art (SOTA) in terms of Inception score, Fr\'echet Inception Distance, and Fr\'echet Autoencoder Distance. Furthermore, our ALIF neuron model achieves remarkable classification accuracy on MNIST (99.78\%) and CIFAR-10 (93.89\%) datasets, demonstrating the effectiveness of learning adaptive thresholds for spiking neurons. The code is available at https://github.com/bollossom/ICLR_TINY_SNN. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# 単一共振器-光子感度を有する共振器結合二重点による高効率マイクロ波光検出
High-efficiency microwave photodetection by cavity coupled double dots with single cavity-photon sensitivity ( http://arxiv.org/abs/2406.03047v1 ) ライセンス: Link先を確認 | Subhomoy Haldar, Harald Havir, Waqar Khan, Drilon Zenelaj, Patrick P. Potts, Sebastian Lehmann, Kimberly A. Dick, Peter Samuelsson, Ville F. Maisi, | (参考訳) 超伝導空洞結合型二重量子ドット(DQD)フォトダイオードをマイクロ波領域で最大25%の光子変換効率を実現する。
より高品質な共振器と改良されたデバイス設計により、不要な経路による光子漏れを防止するとともに、マイクロ波信号を100 aWの電力レベルまで測定し、共振器内で1つの光子でマイクロ波信号をプローブする感度を実現する。
我々はJaynes-Cummings入出力理論を用いて光ダイオード動作を解析し、ほぼ均一な光検出効率を実現するために必要なキャビティ-DQD結合の重要な改善点を特定した。
本研究の結果は、マイクロ波領域における光子統計学および量子情報処理に関する応用研究において、単一空洞光子感度による近距離マイクロ波光検出効率への重要な進歩を示すものである。
We present a superconducting cavity-coupled double quantum dot (DQD) photodiode that achieves a maximum photon-to-electron conversion efficiency of 25% in the microwave domain. With a higher-quality-factor cavity and improved device design to prevent photon leakages through unwanted pathways, our device measures microwave signals down to 100 aW power level and achieves sensitivity to probe microwave signals with one photon at a time in the cavity. We analyze the photodiode operation using Jaynes-Cummings input-output theory, identifying the key improvements of stronger cavity-DQD coupling needed to achieve near-unity photodetection efficiency. The results presented in this work represent a crucial advancement toward near unity microwave photodetection efficiency with single cavity-photon sensitivity for studies of photon statistics in the microwave range and applications related to quantum information processing. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# 各タスクに必要なものを与える -- 構造化された疎性を活用したマルチタスク学習
Giving each task what it needs -- leveraging structured sparsity for tailored multi-task learning ( http://arxiv.org/abs/2406.03048v1 ) ライセンス: Link先を確認 | Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki, | (参考訳) 各タスクは、低レベルから高レベルまで多様な特徴表現を要求するため、特にマルチタスク学習(MTL)フレームワークにおいて、各タスクの特定のニーズに対処することが不可欠である。
この研究は、構造化された空間を利用して個々のタスクの特徴選択を洗練し、マルチタスクシナリオにおける全てのタスクのパフォーマンスを向上させるレイヤ最適化マルチタスク(LOMT)モデルを導入する。
構造化されたあるいはグループの疎結合は、訓練中に自明なチャネルからパラメータを体系的に排除し、最終的には畳み込みニューラルネットワーク内のすべての層を除去する。
その結果、残りのレイヤは与えられたタスクに対して最も最適な機能を提供します。
この2段階のアプローチでは、ネットワークの終端でデコーダを均一に接続する従来の手法から逸脱し、タスク固有のデコーダをこれらの戦略的に識別された層に接続することで、この疎結合による最適層情報を利用してLOMTモデルを構築する。
このカスタマイズされたアーキテクチャはネットワークを最適化し、冗長性を減らしながら本質的な機能に重点を置いている。
本稿では,複数の異種タスクに対して,NYU-v2とCelebAMask-HDの2つのデータセットに対して提案手法の有効性を検証する。
従来のMTLモデルとは対照的に,LOMTモデルの詳細な性能解析により,ほとんどのタスクの組み合わせにおいて,LOMTモデルの方が優れていたことが明らかとなった。
優れた質的および定量的な結果は、最適層(または特徴)選択に構造化されたスパーシティを採用することの有効性を浮き彫りにする。
Every task demands distinct feature representations, ranging from low-level to high-level attributes, so it is vital to address the specific needs of each task, especially in the Multi-task Learning (MTL) framework. This work, therefore, introduces Layer-Optimized Multi-Task (LOMT) models that utilize structured sparsity to refine feature selection for individual tasks and enhance the performance of all tasks in a multi-task scenario. Structured or group sparsity systematically eliminates parameters from trivial channels and, eventually, entire layers within a convolution neural network during training. Consequently, the remaining layers provide the most optimal features for a given task. In this two-step approach, we subsequently leverage this sparsity-induced optimal layer information to build the LOMT models by connecting task-specific decoders to these strategically identified layers, deviating from conventional approaches that uniformly connect decoders at the end of the network. This tailored architecture optimizes the network, focusing on essential features while reducing redundancy. We validate the efficacy of the proposed approach on two datasets, ie NYU-v2 and CelebAMask-HD datasets, for multiple heterogeneous tasks. A detailed performance analysis of the LOMT models, in contrast to the conventional MTL models, reveals that the LOMT models outperform for most task combinations. The excellent qualitative and quantitative outcomes highlight the effectiveness of employing structured sparsity for optimal layer (or feature) selection. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# StreamSpeech: マルチタスク学習による同時音声音声合成
StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning ( http://arxiv.org/abs/2406.03049v1 ) ライセンス: Link先を確認 | Shaolei Zhang, Qingkai Fang, Shoutao Guo, Zhengrui Ma, Min Zhang, Yang Feng, | (参考訳) 同時音声音声変換(Simul-S2ST、ストリーミング音声翻訳)は、リアルタイム通信において重要なストリーミング音声入力を受信しながらターゲット音声を出力する。
Simul-S2STは、音声間の翻訳の達成以外にも、音声入力の機会に対応するターゲット音声を生成するためのモデルを制御するためのポリシーが必要であり、それによって翻訳とポリシーの二重課題が引き起こされる。
本稿では,マルチタスク学習の統一フレームワークであるStreamSpeechを提案する。
マルチタスク学習アプローチを採用することで、StreamSpeechは"All-in-One"シームレスモデルを通じて、オフラインおよび同時音声認識、音声翻訳、音声合成を行うことができる。
CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
さらに、StreamSpeechは、同時翻訳プロセス中に高品質な中間結果(ASRまたは翻訳結果)を提示することができ、より包括的なリアルタイム通信エクスペリエンスを提供する。
Simultaneous speech-to-speech translation (Simul-S2ST, a.k.a streaming speech translation) outputs target speech while receiving streaming speech inputs, which is critical for real-time communication. Beyond accomplishing translation between speech, Simul-S2ST requires a policy to control the model to generate corresponding target speech at the opportune moment within speech inputs, thereby posing a double challenge of translation and policy. In this paper, we propose StreamSpeech, a direct Simul-S2ST model that jointly learns translation and simultaneous policy in a unified framework of multi-task learning. Adhering to a multi-task learning approach, StreamSpeech can perform offline and simultaneous speech recognition, speech translation and speech synthesis via an "All-in-One" seamless model. Experiments on CVSS benchmark demonstrate that StreamSpeech achieves state-of-the-art performance in both offline S2ST and Simul-S2ST tasks. Besides, StreamSpeech is able to present high-quality intermediate results (i.e., ASR or translation results) during simultaneous translation process, offering a more comprehensive real-time communication experience. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# Adapter-X:視覚のためのパラメータ効率の良いファインチューニングフレームワーク
Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision ( http://arxiv.org/abs/2406.03051v1 ) ライセンス: Link先を確認 | Minglei Li, Peng Ye, Yongqi Huang, Lin Zhang, Tao Chen, Tong He, Jiayuan Fan, Wanli Ouyang, | (参考訳) パラメータ効率細調整(PEFT)は、ファンデーションモデルが人気とサイズの両方で成長を続けるにつれ、ますます重要になっている。
アダプタは、パラメータの削減と様々なタスクへの適応性の可能性から、特によく認識されている。
しかし、タスク間の高効率性と堅牢な一般化のバランスを崩すことは、アダプタベースの手法の課題である。
既存の手法を分析し、それを見つける。
1) パラメータ共有は冗長性を低下させる鍵である。
2) よりチューニング可能なパラメータ、動的アロケーション、ブロック固有の設計がパフォーマンス向上の鍵となります。
残念ながら、これらの要因をすべて考慮した以前の研究は行われていない。
この知見に触発されて、Adapter-Xという新しいフレームワークを紹介します。
まず、トークンレベルの動的アロケーション、チューナブルパラメータの増加、ブロック間共有を同時に実現するために、Sharing Mixture of Adapters (SMoA)モジュールを提案する。
第2に、プロンプトジェネレータ(PG)のようなブロック固有の設計が導入され、適応性をさらに向上する。
2Dイメージと3Dポイントクラウドモダリティにわたる大規模な実験は、Adapter-Xが2Dイメージと3Dポイントクラウドモダリティの両方で完全な微調整を初めて上回り、2Dと3Dの分類タスクのトレーニング可能なパラメータの0.20%と1.88%に過ぎなかったことから、重要なマイルストーンであることを示している。
私たちのコードは公開されます。
Parameter-efficient fine-tuning (PEFT) has become increasingly important as foundation models continue to grow in both popularity and size. Adapter has been particularly well-received due to their potential for parameter reduction and adaptability across diverse tasks. However, striking a balance between high efficiency and robust generalization across tasks remains a challenge for adapter-based methods. We analyze existing methods and find that: 1) parameter sharing is the key to reducing redundancy; 2) more tunable parameters, dynamic allocation, and block-specific design are keys to improving performance. Unfortunately, no previous work considers all these factors. Inspired by this insight, we introduce a novel framework named Adapter-X. First, a Sharing Mixture of Adapters (SMoA) module is proposed to fulfill token-level dynamic allocation, increased tunable parameters, and inter-block sharing at the same time. Second, some block-specific designs like Prompt Generator (PG) are introduced to further enhance the ability of adaptation. Extensive experiments across 2D image and 3D point cloud modalities demonstrate that Adapter-X represents a significant milestone as it is the first to outperform full fine-tuning in both 2D image and 3D point cloud modalities with significantly fewer parameters, i.e., only 0.20% and 1.88% of original trainable parameters for 2D and 3D classification tasks. Our code will be publicly available. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# モデルはまだフェアか?ノード注入によるグラフニューラルネットワークのフェアネスアタック
Are Your Models Still Fair? Fairness Attacks on Graph Neural Networks via Node Injections ( http://arxiv.org/abs/2406.03052v1 ) ライセンス: Link先を確認 | Zihan Luo, Hong Huang, Yongkang Zhou, Jiping Zhang, Nuo Chen, | (参考訳) グラフ関連タスクにおけるグラフニューラルネットワーク(GNN)の顕著な能力にもかかわらず、最近の研究では、悪意のある敵攻撃に直面した場合のGNNの公平性脆弱性が明らかにされている。
しかし、既存のフェアネス攻撃は、実際には禁止される可能性がある既存のノード間の接続を操作する必要がある。
この目的のために、我々は、より現実的な環境でGNNフェアネスの脆弱性を探求するノードインジェクションベースのフェアネスアタック(NIFA)を導入する。
NIFAはまず,不確実性最大化原理とホモフィリ増分原理という,ノード注入操作に関する洞察に富んだ2つの原理を設計し,さらに公平性攻撃の有効性を保証するために,挿入ノードの特徴行列を最適化する。
3つの実世界のデータセットに関する包括的な実験は、NIFAがノードの1%だけを注入することで、フェアネスを意識したGNNを含むメインストリームのGNNの公平性を著しく損なうことを一貫して示している。
我々は,GNNフェアネスの脆弱性について研究者の注意を喚起し,対応する防御機構の開発を促進することを心から願っている。
Despite the remarkable capabilities demonstrated by Graph Neural Networks (GNNs) in graph-related tasks, recent research has revealed the fairness vulnerabilities in GNNs when facing malicious adversarial attacks. However, all existing fairness attacks require manipulating the connectivity between existing nodes, which may be prohibited in reality. To this end, we introduce a Node Injection-based Fairness Attack (NIFA), exploring the vulnerabilities of GNN fairness in such a more realistic setting. In detail, NIFA first designs two insightful principles for node injection operations, namely the uncertainty-maximization principle and homophily-increase principle, and then optimizes injected nodes' feature matrix to further ensure the effectiveness of fairness attacks. Comprehensive experiments on three real-world datasets consistently demonstrate that NIFA can significantly undermine the fairness of mainstream GNNs, even including fairness-aware GNNs, by injecting merely 1% of nodes. We sincerely hope that our work can stimulate increasing attention from researchers on the vulnerability of GNN fairness, and encourage the development of corresponding defense mechanisms. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# 連想記憶のためのスパイキング表現学習
Spiking representation learning for associative memories ( http://arxiv.org/abs/2406.03054v1 ) ライセンス: Link先を確認 | Naresh Ravichandran, Anders Lansner, Pawel Herman, | (参考訳) スパイキング信号を介して通信する相互接続されたニューロンのネットワークは、ニューラルネットワークの基盤となる。
ニューラルネットワークをスパイクする脳は、複雑なパターン認識と認知機能を実現するための計算能力を持っている。
しかしながら、人工スパイクニューラルネットワーク(SNN)による現実世界の問題を解決することは、様々な理由で困難であることが証明されている。
重要なのは、SNNを大規模ネットワークにスケーリングし、大規模な現実世界のデータセットを処理することは、特に非スパイキングのディープラーニングと比較して困難であることだ。
SNNが必要とする重要な操作は、データから分散表現を学習し、知覚、認知、記憶操作にこれらの表現を使用する能力である。
本研究では,ポアソンスパイク発生器としてモデル化されたニューロンユニット(平均1Hz,最大100Hz)を併用した,ヘビアンシナプスと活性に依存した構造的塑性を利用した非教師なし表現学習と連想記憶操作を実現する新しいSNNを提案する。
重要なことは、我々のモデルの構造は、新皮質列構造から派生し、隠れた表現を学習するためのフィードフォワードプロジェクションと、連想記憶を形成するための繰り返しプロジェクションを組み合わせたものである。
パターン補完,知覚的競合,歪み抵抗,プロトタイプ抽出など,アトラクタに基づく連想記憶に関する特性モデルについて検討した。
Networks of interconnected neurons communicating through spiking signals offer the bedrock of neural computations. Our brains spiking neural networks have the computational capacity to achieve complex pattern recognition and cognitive functions effortlessly. However, solving real-world problems with artificial spiking neural networks (SNNs) has proved to be difficult for a variety of reasons. Crucially, scaling SNNs to large networks and processing large-scale real-world datasets have been challenging, especially when compared to their non-spiking deep learning counterparts. The critical operation that is needed of SNNs is the ability to learn distributed representations from data and use these representations for perceptual, cognitive and memory operations. In this work, we introduce a novel SNN that performs unsupervised representation learning and associative memory operations leveraging Hebbian synaptic and activity-dependent structural plasticity coupled with neuron-units modelled as Poisson spike generators with sparse firing (~1 Hz mean and ~100 Hz maximum firing rate). Crucially, the architecture of our model derives from the neocortical columnar organization and combines feedforward projections for learning hidden representations and recurrent projections for forming associative memories. We evaluated the model on properties relevant for attractor-based associative memories such as pattern completion, perceptual rivalry, distortion resistance, and prototype extraction. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# BWS:広帯域データ抽出のためのサンプルスコアに基づくベストウィンドウ選択
BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges ( http://arxiv.org/abs/2406.03057v1 ) ライセンス: Link先を確認 | Hoyong Choi, Nohyun Ki, Hye Won Chung, | (参考訳) データサブセットの選択は、大規模なデータセットでニューラルネットワークをトレーニングする際の課題に対処し、フルデータセットのトレーニングを近似できる、より小さく、情報に富む大規模なデータセットのサブセットを見つけることを目的としている。
しかし、既存の手法は高い選択比と低い選択比のどちらかに特化する傾向にあり、幅広い選択比の競争性能を一貫して達成する普遍的なアプローチが欠如している。
難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
このアプローチは、簡単なサンプルから難しいサンプルまで、ウィンドウ間隔の選択を可能にすることで、柔軟性を提供します。
さらに、カーネルリッジ回帰を用いて、その品質を評価することにより、最適なウィンドウサブセットを選択するための効率的なメカニズムを提供する。
実験の結果,CIFAR-10/100 や ImageNet など,データセット選択率の広い範囲において,BWS が他のベースラインと比較して優れた性能を示した。
Data subset selection aims to find a smaller yet informative subset of a large dataset that can approximate the full-dataset training, addressing challenges associated with training neural networks on large-scale datasets. However, existing methods tend to specialize in either high or low selection ratio regimes, lacking a universal approach that consistently achieves competitive performance across a broad range of selection ratios. We introduce a universal and efficient data subset selection method, Best Window Selection (BWS), by proposing a method to choose the best window subset from samples ordered based on their difficulty scores. This approach offers flexibility by allowing the choice of window intervals that span from easy to difficult samples. Furthermore, we provide an efficient mechanism for selecting the best window subset by evaluating its quality using kernel ridge regression. Our experimental results demonstrate the superior performance of BWS compared to other baselines across a broad range of selection ratios over datasets, including CIFAR-10/100 and ImageNet, and the scenarios involving training from random initialization or fine-tuning of pre-trained models. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# ルール集合モデルの羅生門集合の効率的な探索
Efficient Exploration of the Rashomon Set of Rule Set Models ( http://arxiv.org/abs/2406.03059v1 ) ライセンス: Link先を確認 | Martino Ciaperoni, Han Xiao, Aristides Gionis, | (参考訳) 今日、ますます複雑な予測モデルが開発されるにつれて、単純なルールセットは解釈可能な予測を取得し、高い意思決定を促進する重要なツールとして残されている。
しかし、単一のルールセットは学習タスクの部分的な表現を提供する。
解釈可能な機械学習における新たなパラダイムは、ほぼ最適性能を示すすべてのモデルの羅生門集合を探索することを目的としている。
ラショウモン集合探索に関する既存の研究は、特定のモデルのクラスに対するラショウモン集合の徹底的な探索に焦点を当てており、これは計算的に難しい課題である。
一方、徹底的な列挙は、しばしば不要な冗長性をもたらし、代表的なサンプルやラショモン集合の大きさの見積もりは多くの応用に十分である。
本研究では,ラショウモン集合のルール集合を網羅的探索の有無で探索する手法を初めて提案する。
広範囲な実験により,提案手法の有効性が様々なシナリオで示された。
Today, as increasingly complex predictive models are developed, simple rule sets remain a crucial tool to obtain interpretable predictions and drive high-stakes decision making. However, a single rule set provides a partial representation of a learning task. An emerging paradigm in interpretable machine learning aims at exploring the Rashomon set of all models exhibiting near-optimal performance. Existing work on Rashomon-set exploration focuses on exhaustive search of the Rashomon set for particular classes of models, which can be a computationally challenging task. On the other hand, exhaustive enumeration leads to redundancy that often is not necessary, and a representative sample or an estimate of the size of the Rashomon set is sufficient for many applications. In this work, we propose, for the first time, efficient methods to explore the Rashomon set of rule set models with or without exhaustive search. Extensive experiments demonstrate the effectiveness of the proposed methods in a variety of scenarios. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# 貯留層計算を用いた空間相関による遠隔地における観測されていない気候時系列データの予測
Predicting unobserved climate time series data at distant areas via spatial correlation using reservoir computing ( http://arxiv.org/abs/2406.03061v1 ) ライセンス: Link先を確認 | Shihori Koyama, Daisuke Inoue, Hiroaki Yoshida, Kazuyuki Aihara, Gouhei Tanaka, | (参考訳) 多くの場所で空間的に分布する時系列データを収集することは、気候変動とその生態系への影響を分析するためにしばしば重要である。
しかし、包括的空間データ収集は必ずしも実現可能ではなく、ある場所では気候変数を予測する必要がある。
本研究は, 気象要素, 特に地表温度と圧力を, データ観測点から離れた目標地点で予測することに焦点を当てた。
提案手法では,低計算要求の機械学習フレームワークとして知られる貯水池計算(RC)と,時系列データ解析の統計的手法として認識されるベクトル自己回帰モデル(VAR)の2つの予測手法を用いる。
その結果,予測精度は観測地点と目標地点の距離によって低下することがわかった。
有効予測が可能な距離を定量的に推定する。
また,気候データにおいては,地理的距離がデータ相関に関連付けられ,強いデータ相関がRCによる予測精度を著しく向上させることがわかった。
特に、RCは、予測範囲内で高度に相関したデータを予測する際にVARより優れる。
これらの結果から,データ観測点からの距離を事前に評価することにより,遠隔地における気候要素の予測に機械学習を用いた手法をより効果的に利用できることが示唆された。
気候変数の低コストかつ高精度な予測に関する本研究は,気候変動戦略にとって重要な意味を持つ。
Collecting time series data spatially distributed in many locations is often important for analyzing climate change and its impacts on ecosystems. However, comprehensive spatial data collection is not always feasible, requiring us to predict climate variables at some locations. This study focuses on a prediction of climatic elements, specifically near-surface temperature and pressure, at a target location apart from a data observation point. Our approach uses two prediction methods: reservoir computing (RC), known as a machine learning framework with low computational requirements, and vector autoregression models (VAR), recognized as a statistical method for analyzing time series data. Our results show that the accuracy of the predictions degrades with the distance between the observation and target locations. We quantitatively estimate the distance in which effective predictions are possible. We also find that in the context of climate data, a geographical distance is associated with data correlation, and a strong data correlation significantly improves the prediction accuracy with RC. In particular, RC outperforms VAR in predicting highly correlated data within the predictive range. These findings suggest that machine learning-based methods can be used more effectively to predict climatic elements in remote locations by assessing the distance to them from the data observation point in advance. Our study on low-cost and accurate prediction of climate variables has significant value for climate change strategies. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# RadBARTsum:抽象的放射線学レポート要約のためのドメイン固有シーケンス・シーケンスモデルの適用
RadBARTsum: Domain Specific Adaption of Denoising Sequence-to-Sequence Models for Abstractive Radiology Report Summarization ( http://arxiv.org/abs/2406.03062v1 ) ライセンス: Link先を確認 | Jinge Wu, Abul Hasan, Honghan Wu, | (参考訳) 放射線医学報告の要約は、医師が詳細な報告のセクションをレビューすることなく、臨床上の重要な発見を迅速に識別する上で重要な課題である。
そこで本研究では,ドメイン固有かつオントロジーのRadBARTsumを提案する。
このアプローチには2つの主要なステップがあります。
1)バイオメディカルドメイン知識学習を改善するための新しい実体マスキング戦略を用いて,BARTモデルの再訓練を行う。
2)印象区間の予測には,特徴区間と背景区間を用いて要約課題のモデルを微調整する。
異なるマスキング戦略を用いて実験を行う。
その結果、ドメイン知識による再学習プロセスがマスキングを促進することにより、さまざまな設定でパフォーマンスが一貫した改善が達成された。
本研究は,放射線学レポート要約のためのドメイン固有生成言語モデルと,エンティティマスキング言語モデルを実現するための医療知識を活用する方法に寄与する。
提案手法は, 臨床知識の理解を深めることにより, 言語モデルの効率を高めるための有望な方向を示すものである。
Radiology report summarization is a crucial task that can help doctors quickly identify clinically significant findings without the need to review detailed sections of reports. This study proposes RadBARTsum, a domain-specific and ontology facilitated adaptation of the BART model for abstractive radiology report summarization. The approach involves two main steps: 1) re-training the BART model on a large corpus of radiology reports using a novel entity masking strategy to improving biomedical domain knowledge learning, and 2) fine-tuning the model for the summarization task using the Findings and Background sections to predict the Impression section. Experiments are conducted using different masking strategies. Results show that the re-training process with domain knowledge facilitated masking improves performances consistently across various settings. This work contributes a domain-specific generative language model for radiology report summarization and a method for utilising medical knowledge to realise entity masking language model. The proposed approach demonstrates a promising direction of enhancing the efficiency of language models by deepening its understanding of clinical knowledge in radiology reports. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# ジョゼフソン移動波パラメトリック増幅器の動作マイクロ波散乱パラメータ測定
In-operando microwave scattering-parameter calibrated measurement of a Josephson travelling wave parametric amplifier ( http://arxiv.org/abs/2406.03063v1 ) ライセンス: Link先を確認 | S. H. Shin, M. Stanley, W. N. Wong, T. Sweetnam, A. Elarabi, T. Lindström, N. M. Ridler, S. E. de Graaf, | (参考訳) 超伝導進行波パラメトリック増幅器(英語版) (TWPA) は、量子ビット読み出しや量子技術における広範囲の応用に一般的に使用されるブロードバンド近量子制限型マイクロ波増幅器である。
これらの増幅器の性能は、反射信号を最小限に抑えるインピーダンスマッチングを達成することに依存する。
ここではマイクロ波キャリブレーション法を用いてジョセフソン接合を用いたTWPAインオペランドのSパラメータを抽出する。
これにより、TWPAとその拡張されたコンポーネントネットワークで発生するリフレクションを定量化することができる。
Superconducting travelling wave parametric amplifiers (TWPAs) are broadband near-quantum limited microwave amplifiers commonly used for qubit readout and a wide range of other applications in quantum technologies. The performance of these amplifiers depends on achieving impedance matching to minimise reflected signals. Here we apply a microwave calibration technique to extract the S-parameters of a Josephson junction based TWPA in-operando. This enables reflections occurring at the TWPA and its extended network of components to be quantified, and we find that the in-operation performance can be well described by the off-state measured S-parameters. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# 公正認知診断のためのパス特異的因果推論
Path-Specific Causal Reasoning for Fairness-aware Cognitive Diagnosis ( http://arxiv.org/abs/2406.03064v1 ) ライセンス: Link先を確認 | Dacao Zhang, Kun Zhang, Le Wu, Mi Tian, Richang Hong, Meng Wang, | (参考訳) 認知診断~(CD)は、学生と運動データを利用して、異なる知識概念における生徒の習熟度を予測し、知的教育の基本的な要素の1つである。
学生と学生の交流データが少ないため、既存のほとんどの方法は、運動内容や学生情報など、利用可能なデータを最大限に活用することに焦点を当てている。
大きな進歩にもかかわらず、学生の機密情報の濫用には十分な注意が払われていない。
知的教育におけるCDの重要位置のため、診断予測を行う際にセンシティブな情報を利用すると深刻な社会問題が発生する。
さらに、データ駆動ニューラルネットワークは入力データと出力予測のショートカットによって容易に誤解され、この問題が悪化する。
したがって、CDモデルにおける機密情報の負の影響を排除することが重要である。
これに対し, 学生の感性属性も有用な情報提供が可能であり, 診断プロセスから, 感性情報に直接関連したショートカットのみを排除すべきである,と論じる。
そこで我々は、この目的を達成するために、因果推論を採用し、新しいパス特化因果推論フレームワーク(PSCRF)を設計する。
具体的には,まずエンコーダを利用して特徴を抽出し,学生の一般情報やセンシティブな情報に対する埋め込みを生成する。
そこで我々は, 属性指向の新規な予測器を設計し, 感度特性を分離し, 公平性に関連する重要な特徴を排除し, その他の有用な情報を保持する。
最後に,公正度と診断性能を同時に確保する多要素制約を設計した。
実世界のデータセット(例えば、PISAデータセット)に対する大規模な実験は、提案したPSCRFの有効性を実証する。
Cognitive Diagnosis~(CD), which leverages students and exercise data to predict students' proficiency levels on different knowledge concepts, is one of fundamental components in Intelligent Education. Due to the scarcity of student-exercise interaction data, most existing methods focus on making the best use of available data, such as exercise content and student information~(e.g., educational context). Despite the great progress, the abuse of student sensitive information has not been paid enough attention. Due to the important position of CD in Intelligent Education, employing sensitive information when making diagnosis predictions will cause serious social issues. Moreover, data-driven neural networks are easily misled by the shortcut between input data and output prediction, exacerbating this problem. Therefore, it is crucial to eliminate the negative impact of sensitive information in CD models. In response, we argue that sensitive attributes of students can also provide useful information, and only the shortcuts directly related to the sensitive information should be eliminated from the diagnosis process. Thus, we employ causal reasoning and design a novel Path-Specific Causal Reasoning Framework (PSCRF) to achieve this goal. Specifically, we first leverage an encoder to extract features and generate embeddings for general information and sensitive information of students. Then, we design a novel attribute-oriented predictor to decouple the sensitive attributes, in which fairness-related sensitive features will be eliminated and other useful information will be retained. Finally, we designed a multi-factor constraint to ensure the performance of fairness and diagnosis performance simultaneously. Extensive experiments over real-world datasets (e.g., PISA dataset) demonstrate the effectiveness of our proposed PSCRF. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# より良いインスタンスインクリメンタル学習者を生成する決定境界認識知識の統合
Decision Boundary-aware Knowledge Consolidation Generates Better Instance-Incremental Learner ( http://arxiv.org/abs/2406.03065v1 ) ライセンス: Link先を確認 | Qiang Nie, Weifu Fu, Yuhuan Lin, Jialin Li, Yifeng Zhou, Yong Liu, Lei Zhu, Chengjie Wang, | (参考訳) インスタンス・インクリメンタル・ラーニング(IIL)は、同じクラスのデータで継続的に学習することに焦点を当てている。
クラスインクリメンタルラーニング (CIL) と比較して、IILは破滅的な忘れ込み (CF) に苦しむため、IILは滅多に調査されない。
しかし、知識の保持に加えて、クラススペースが常に事前に定義され、継続的かつコスト効率のよいモデルプロモーションと、以前のデータの潜在的利用不可能が要求される現実世界のデプロイメントシナリオは、より重要な要求である。
そこで,我々はまず,CFに抵抗するだけでなく,モデルの性能を向上するものとして,新しい,より実用的なIIL設定を定義した。
新しいIIL設定では2つの問題に取り組む必要がある。
1) 古いデータにアクセスできないという悪名高い破滅的な忘れ物
2) 概念の漂流により, 既存の決定境界を新たな観測に拡張する。
これらの問題に対処するために、我々の重要な洞察は、古い境界を維持しながら、決定境界を失敗事例に適度に広げることである。
そこで本研究では,教師に知識を集中させ,新たな知識を習得し易くするための,新たな意思決定境界対応蒸留法を提案する。
既存のデータセットであるCifar-100とImageNetのベンチマークも確立しています。
特に, 教員モデルは, 従来の知識蒸留法を逆転させ, 生徒を主役とすることで, 生徒モデルよりもインクリメンタルに学習できることを示した。
Instance-incremental learning (IIL) focuses on learning continually with data of the same classes. Compared to class-incremental learning (CIL), the IIL is seldom explored because IIL suffers less from catastrophic forgetting (CF). However, besides retaining knowledge, in real-world deployment scenarios where the class space is always predefined, continual and cost-effective model promotion with the potential unavailability of previous data is a more essential demand. Therefore, we first define a new and more practical IIL setting as promoting the model's performance besides resisting CF with only new observations. Two issues have to be tackled in the new IIL setting: 1) the notorious catastrophic forgetting because of no access to old data, and 2) broadening the existing decision boundary to new observations because of concept drift. To tackle these problems, our key insight is to moderately broaden the decision boundary to fail cases while retain old boundary. Hence, we propose a novel decision boundary-aware distillation method with consolidating knowledge to teacher to ease the student learning new knowledge. We also establish the benchmarks on existing datasets Cifar-100 and ImageNet. Notably, extensive experiments demonstrate that the teacher model can be a better incremental learner than the student model, which overturns previous knowledge distillation-based methods treating student as the main role. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# トレンシングウェイトが言語モデルにおける推論を改善する方法
How Truncating Weights Improves Reasoning in Language Models ( http://arxiv.org/abs/2406.03068v1 ) ライセンス: Link先を確認 | Lei Chen, Joan Bruna, Alberto Bietti, | (参考訳) 様々な言語で流動的なテキストを生成する能力に加えて、大きな言語モデルは、その文脈における論理的「推論」の基本的な形式を含むタスクで成功している。
近年の研究では、事前訓練されたモデルにおける重み行列から特定の成分を選択的に除去することで、そのような推論能力を向上させることが判明している。
本研究では,この現象を,特定の重み成分やトランスフォーマーブロック,特にフィードフォワード層に蓄積する傾向のあるグローバルアソシエーションについて,慎重に検討する。
このような関連性は、推論タスクの予測を損なう可能性があり、対応するコンポーネントを削除することでパフォーマンスが向上する可能性がある。
実験的にも理論的にも、ノイズによる基本的な推論タスク、おもちゃの連想記憶モデル、および単純な推論タスクでテストされた事前学習されたモデルのPythiaファミリで訓練された2層トランスフォーマー上で、この現象がどのように起こるかを分析する。
In addition to the ability to generate fluent text in various languages, large language models have been successful at tasks that involve basic forms of logical "reasoning" over their context. Recent work found that selectively removing certain components from weight matrices in pre-trained models can improve such reasoning capabilities. We investigate this phenomenon further by carefully studying how certain global associations tend to be stored in specific weight components or Transformer blocks, in particular feed-forward layers. Such associations may hurt predictions in reasoning tasks, and removing the corresponding components may then improve performance. We analyze how this arises during training, both empirically and theoretically, on a two-layer Transformer trained on a basic reasoning task with noise, a toy associative memory model, and on the Pythia family of pre-trained models tested on simple reasoning tasks. | 翻訳日:2024-06-06 19:19:28 公開日:2024-06-05 |
# 『このような例をくれ』:実証から学ぶエピソード的能動的強化
"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2406.03069v1 ) ライセンス: Link先を確認 | Muhan Hou, Koen Hindriks, A. E. Eiben, Kim Baraka, | (参考訳) 強化学習(Reinforcement Learning, RL)は、連続的な意思決定問題において大きな成功を収めてきたが、多くの場合、多数のエージェントと環境の相互作用を犠牲にしている。
サンプル効率を改善するために、RLED(Reinforcement Learning from Expert Demonstrations)のような手法が、学習プロセス中のエージェント探索を容易にするために、外部の専門家によるデモンストレーションを導入している。
実際には、これらのデモは人間のユーザから収集されることが多いが、コストがかかり、そのため限られた量に制限されることが多い。
したがって、学習に最も有益な人間のデモのベストセットをどうやって選ぶかが大きな関心事となる。
本稿では、学習エージェントが軌道に基づく特徴空間において、専門家によるデモンストレーションの最適なクエリを生成することができるアルゴリズムであるEARLY(Episodic Active Learning from demonstration querY)を提案する。
エージェントの現在のポリシーにおける不確実性の軌跡レベルの推定に基づいて、EARLYは特徴ベースのクエリに対して最適化されたタイミングと内容を決定する。
分離された状態-作用対ではなく、エピソード的なデモンストレーションをクエリすることで、EARLYは人間の教育経験を改善し、より良い学習性能を達成する。
本手法の有効性を3つのシミュレートされたナビゲーションタスクで検証し,難易度を高めた。
その結果,本手法は,模擬オラクルポリシによって実演が生成される場合,他の基準手法よりも30倍以上の収束率を持つ3つのタスクに対して,専門家レベルの性能を達成できることが示唆された。
フォローアップ・パイロット・ユーザ・スタディ(N=18)の結果は、人間の専門家の実証者の場合においても、作業負荷の認識において優れたユーザ体験を達成し、人的時間を大幅に短縮しながら、我々の手法がはるかに優れた収束を維持することができることをさらに証明した。
Reinforcement Learning (RL) has achieved great success in sequential decision-making problems, but often at the cost of a large number of agent-environment interactions. To improve sample efficiency, methods like Reinforcement Learning from Expert Demonstrations (RLED) introduce external expert demonstrations to facilitate agent exploration during the learning process. In practice, these demonstrations, which are often collected from human users, are costly and hence often constrained to a limited amount. How to select the best set of human demonstrations that is most beneficial for learning therefore becomes a major concern. This paper presents EARLY (Episodic Active Learning from demonstration querY), an algorithm that enables a learning agent to generate optimized queries of expert demonstrations in a trajectory-based feature space. Based on a trajectory-level estimate of uncertainty in the agent's current policy, EARLY determines the optimized timing and content for feature-based queries. By querying episodic demonstrations as opposed to isolated state-action pairs, EARLY improves the human teaching experience and achieves better learning performance. We validate the effectiveness of our method in three simulated navigation tasks of increasing difficulty. The results show that our method is able to achieve expert-level performance for all three tasks with convergence over 30\% faster than other baseline methods when demonstrations are generated by simulated oracle policies. The results of a follow-up pilot user study (N=18) further validate that our method can still maintain a significantly better convergence in the case of human expert demonstrators while achieving a better user experience in perceived task load and consuming significantly less human time. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# A-Bench: LMMはAI生成画像を評価できるのか?
A-Bench: Are LMMs Masters at Evaluating AI-generated Images? ( http://arxiv.org/abs/2406.03070v1 ) ライセンス: Link先を確認 | Zicheng Zhang, Haoning Wu, Chunyi Li, Yingjie Zhou, Wei Sun, Xiongkuo Min, Zijian Chen, Xiaohong Liu, Weisi Lin, Guangtao Zhai, | (参考訳) AI生成画像(AIGI)を正確にかつ効率的に評価する方法は、生成モデルにとって重要な課題である。
ユーザスタディに必要な高コストと広範な時間的コミットメントを考えると、多くの研究者はAIGI評価器として大規模なマルチモーダルモデル(LMM)を採用する傾向にあるが、その精度と妥当性はまだ疑問視されている。
さらに、従来のベンチマークでは、LMMの能力をテストするためにAIGIではなく、主に自然に捕獲されたコンテンツを使用することが多いため、AIGIには顕著なギャップが生じる。
そこで本稿では,LMMがAIGI評価の達人であるか否かを診断するためのベンチマークであるA-Benchを紹介する。
具体的には、A-Benchは2つの重要な原則に基づいて構成されている。
1)AIGIの複雑な要求に対処するために,高レベルの意味理解と低レベルの視覚的品質認識の両方を強調する。
2) 様々な生成モデルをAIGI生成に利用し, 様々なLMMを用いて評価を行い, 総合的な検証範囲を確保する。
最終的に、16のテキスト・ツー・イメージ・モデルの2,864のAIGIがサンプル化され、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
A-Benchは評価プロセスを大幅に強化し,AIGIの生成品質を向上することを期待している。
ベンチマークはhttps://github.com/Q-Future/A-Bench.comで公開されている。
How to accurately and efficiently assess AI-generated images (AIGIs) remains a critical challenge for generative models. Given the high costs and extensive time commitments required for user studies, many researchers have turned towards employing large multi-modal models (LMMs) as AIGI evaluators, the precision and validity of which are still questionable. Furthermore, traditional benchmarks often utilize mostly natural-captured content rather than AIGIs to test the abilities of LMMs, leading to a noticeable gap for AIGIs. Therefore, we introduce A-Bench in this paper, a benchmark designed to diagnose whether LMMs are masters at evaluating AIGIs. Specifically, A-Bench is organized under two key principles: 1) Emphasizing both high-level semantic understanding and low-level visual quality perception to address the intricate demands of AIGIs. 2) Various generative models are utilized for AIGI creation, and various LMMs are employed for evaluation, which ensures a comprehensive validation scope. Ultimately, 2,864 AIGIs from 16 text-to-image models are sampled, each paired with question-answers annotated by human experts, and tested across 18 leading LMMs. We hope that A-Bench will significantly enhance the evaluation process and promote the generation quality for AIGIs. The benchmark is available at https://github.com/Q-Future/A-Bench. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# 画像分類作業におけるLMMに基づく知識の爆発的活用
Exploiting LMM-based knowledge for image classification tasks ( http://arxiv.org/abs/2406.03071v1 ) ライセンス: Link先を確認 | Maria Tzelepi, Vasileios Mezaris, | (参考訳) 本稿では,LMM(Large Multimodal Models)に符号化された知識を活用した画像分類タスクについて述べる。
より具体的には、MiniGPT-4モデルを用いて、画像のセマンティック記述をマルチモーダルなプロンプト形式で抽出する。
現在の文献では、CLIPのような視覚言語モデルが特徴抽出器として使われ、画像エンコーダのみを用いて画像分類タスクを解く。
本稿では,MiniGPT-4の生成する意味記述に対応するテキスト埋め込みを得るために,テキストエンコーダを付加的に使用することを提案する。
そこで,画像分類タスクの解決には,画像とテキストの埋め込みの両方を用いる。
3つのデータセットに対する実験的な評価は,LMMに基づく知識を活用した分類性能の向上を実証する。
In this paper we address image classification tasks leveraging knowledge encoded in Large Multimodal Models (LMMs). More specifically, we use the MiniGPT-4 model to extract semantic descriptions for the images, in a multimodal prompting fashion. In the current literature, vision language models such as CLIP, among other approaches, are utilized as feature extractors, using only the image encoder, for solving image classification tasks. In this paper, we propose to additionally use the text encoder to obtain the text embeddings corresponding to the MiniGPT-4-generated semantic descriptions. Thus, we use both the image and text embeddings for solving the image classification task. The experimental evaluation on three datasets validates the improved classification performance achieved by exploiting LMM-based knowledge. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# ローカル・トゥ・グローバル:学習ダイナミクスと変圧器の初期化の効果
Local to Global: Learning Dynamics and Effect of Initialization for Transformers ( http://arxiv.org/abs/2406.03072v1 ) ライセンス: Link先を確認 | Ashok Vardhan Makkuva, Marco Bondaschi, Chanakya Ekbote, Adway Girish, Alliot Nagle, Hyeji Kim, Michael Gastpar, | (参考訳) 近年、トランスフォーマーベースのモデルは、特にシーケンスモデリングにおいてディープラーニングに革命をもたらした。
この現象をよりよく理解するために、マルコフ入力プロセスを用いてトランスフォーマーを研究することへの関心が高まっている。
しかしながら、この点に関する我々の現在の理解は、トランスフォーマーがマルコフ連鎖を学習する方法に関する多くの基本的な質問に限られている。
本稿では,一階のマルコフ連鎖と単層変圧器に着目し,この文脈における学習力学の包括的特徴を提供する。
具体的には、次トーケン予測損失に基づいて訓練されたトランスフォーマーパラメータが、大域的または局所的なミニマに収束し、初期化とマルコフ的データ特性に依存することを証明し、それが起こる正確な条件を特徴付ける。
私たちの知る限りでは、これは、初期化の役割を強調するこの種の結果の最初のものです。
さらに、我々の理論的な発見が実証的な証拠によって裏付けられていることを実証する。
これらの知見に基づき、変換器パラメータの初期化のためのガイドラインを提供し、その有効性を実証する。
最後に、この領域におけるいくつかのオープンな問題を概説する。
コードは以下の通りである。 \url{https://anonymous.4open.science/r/Local-to-Global-C70B/}。
In recent years, transformer-based models have revolutionized deep learning, particularly in sequence modeling. To better understand this phenomenon, there is a growing interest in using Markov input processes to study transformers. However, our current understanding in this regard remains limited with many fundamental questions about how transformers learn Markov chains still unanswered. In this paper, we address this by focusing on first-order Markov chains and single-layer transformers, providing a comprehensive characterization of the learning dynamics in this context. Specifically, we prove that transformer parameters trained on next-token prediction loss can either converge to global or local minima, contingent on the initialization and the Markovian data properties, and we characterize the precise conditions under which this occurs. To the best of our knowledge, this is the first result of its kind highlighting the role of initialization. We further demonstrate that our theoretical findings are corroborated by empirical evidence. Based on these insights, we provide guidelines for the initialization of transformer parameters and demonstrate their effectiveness. Finally, we outline several open problems in this arena. Code is available at: \url{https://anonymous.4open.science/r/Local-to-Global-C70B/}. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# マルコフ連鎖に基づくマルチエージェント議論フレームワークによるLLMの幻覚検出に向けて
Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework ( http://arxiv.org/abs/2406.03075v1 ) ライセンス: Link先を確認 | Xiaoxi Sun, Jinpeng Li, Yan Zhong, Dongyan Zhao, Rui Yan, | (参考訳) 大規模言語モデル(LLM)の出現は、自然言語テキスト生成の発展を促している。
また、コンテンツ幻覚が重要な懸念事項として浮上するなど、前例のない課題も生じている。
既存のソリューションはしばしば、トレーニングプロセス中に高価で複雑な介入を伴います。
さらに、いくつかのアプローチでは、重要なバリデーションプロセスを無視しながら、問題を分解することを強調し、パフォーマンスの低下や限られたアプリケーションに繋がる。
これらの制約を克服するために,マルコフ・チェインをベースとしたマルチエージェント・ディスカッション検証フレームワークを提案し,簡潔なクレームにおける幻覚検出精度を向上させる。
本手法は,クレーム検出,エビデンス検索,マルチエージェント検証を含むファクトチェック処理を統合する。
検証段階では、フレキシブルなマルコフ・チェインに基づく議論を通じて複数のエージェントをデプロイし、個々のクレームを検証し、綿密な検証結果を保証する。
3つの生成タスクにまたがる実験結果から,本手法はベースラインよりも大幅に改善されることが示された。
The advent of large language models (LLMs) has facilitated the development of natural language text generation. It also poses unprecedented challenges, with content hallucination emerging as a significant concern. Existing solutions often involve expensive and complex interventions during the training process. Moreover, some approaches emphasize problem disassembly while neglecting the crucial validation process, leading to performance degradation or limited applications. To overcome these limitations, we propose a Markov Chain-based multi-agent debate verification framework to enhance hallucination detection accuracy in concise claims. Our method integrates the fact-checking process, including claim detection, evidence retrieval, and multi-agent verification. In the verification stage, we deploy multiple agents through flexible Markov Chain-based debates to validate individual claims, ensuring meticulous verification outcomes. Experimental results across three generative tasks demonstrate that our approach achieves significant improvements over baselines. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# フェデレーション・ドメイン・アンラーニングに向けて:検証手法と課題
Towards Federated Domain Unlearning: Verification Methodologies and Challenges ( http://arxiv.org/abs/2406.03078v1 ) ライセンス: Link先を確認 | Kahou Tam, Kewei Xu, Li Li, Huazhu Fu, | (参考訳) フェデレートラーニング(FL)は、複数のエンティティをまたいだ協調モデルトレーニングの強力なツールとして進化し、医療や金融などの機密分野におけるデータのプライバシを確保している。
しかし、RTBF(Right to Be Forgotten)の導入は新たな課題を引き起こし、フェデレーション付きアンラーニングを必要とせず、完全なモデルの再トレーニングなしにデータを削除できる。
従来のFLアンラーニング手法は、もともとドメイン固有性を念頭に設計されたものではなかったが、マルチドメインシナリオの複雑さに不適切な対処をしており、多くの場合、ターゲットのないドメインのモデルの精度に影響を与えるか、あるいはすべてのドメインをまたいで一様に忘れてしまう。
本研究は,フェデレート・ドメイン・アンラーニングに関する最初の総合的研究であり,多分野コンテキストにおける現在の技術の特徴と課題を分析したものである。
これらの手法は,特にドメイン固有データの影響を無視しているため,性能劣化と不正確なモデル動作を引き起こす可能性がある。
実験の結果,非学習がモデルの深層に不均等に影響を及ぼし,初期のトレーニングフェーズで獲得した重要な表現部分空間が消去されることがわかった。
そこで本研究では,モデル全体の完全性や性能を損なうことなく,ドメイン固有のデータ消去を正確に評価し,検証することを目的とした,フェデレート・ドメイン・アンラーニングに適した新しい評価手法を提案する。
この調査は、FLにおけるドメイン中心のアンラーニング戦略の急激な必要性を浮き彫りにするだけでなく、これらの手法を効果的に評価、実装するための新たな先例を定めている。
Federated Learning (FL) has evolved as a powerful tool for collaborative model training across multiple entities, ensuring data privacy in sensitive sectors such as healthcare and finance. However, the introduction of the Right to Be Forgotten (RTBF) poses new challenges, necessitating federated unlearning to delete data without full model retraining. Traditional FL unlearning methods, not originally designed with domain specificity in mind, inadequately address the complexities of multi-domain scenarios, often affecting the accuracy of models in non-targeted domains or leading to uniform forgetting across all domains. Our work presents the first comprehensive empirical study on Federated Domain Unlearning, analyzing the characteristics and challenges of current techniques in multi-domain contexts. We uncover that these methods falter, particularly because they neglect the nuanced influences of domain-specific data, which can lead to significant performance degradation and inaccurate model behavior. Our findings reveal that unlearning disproportionately affects the model's deeper layers, erasing critical representational subspaces acquired during earlier training phases. In response, we propose novel evaluation methodologies tailored for Federated Domain Unlearning, aiming to accurately assess and verify domain-specific data erasure without compromising the model's overall integrity and performance. This investigation not only highlights the urgent need for domain-centric unlearning strategies in FL but also sets a new precedent for evaluating and implementing these techniques effectively. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# 暗号通貨詐欺:ChatGPTは詐欺にどう影響するか?
Cryptocurrency Frauds for Dummies: How ChatGPT introduces us to fraud? ( http://arxiv.org/abs/2406.03079v1 ) ライセンス: Link先を確認 | Wail Zellagui, Abdessamad Imine, Yamina Tadjeddine, | (参考訳) 大規模言語モデル(LLM)の分野での最近の進歩、特にChatGPTファミリーは、知識に満ちたパワフルで汎用的なマシンインターロケータを生み出し、学習の理解に挑戦している。
このインターロケーターは両刃の剣で、多種多様な有益な作業に使えるが、害を与えるためにも使用できる。
本研究では、ChatGPTと暗号通貨詐欺の増大する問題との複雑な相互作用について考察する。
ChatGPTは有害な目的に使用する際の適応性と倫理的配慮で知られていますが、揮発性暗号エコシステムにおけるChatGPTと不正行為との間にあり得る深いつながりを強調します。
暗号通貨詐欺の分類に基づいて、ChatGPTプロンプトを操作することによって、アウトプットにどのように影響するか、倫理的条件をバイパスし、特定の詐欺目標を達成するかを示す。
さらに我々は,ChatGPTが初級詐欺師にとっても貴重なインストラクターになり得ること,特に暗号詐欺の文脈において複雑な言語モデルを理解し,安全に展開することの重要性を強調した。
最後に,LLMをデジタル通貨セクターで責任・倫理的に利用することの重要性を明らかにし,潜在的なリスクを特定し,倫理的問題を解消する。
注意すべきことは、我々の仕事は詐欺を奨励し、促進することではなく、ChatGPTの使用に伴う詐欺のリスクに対する認識を高めることにある。
Recent advances in the field of large language models (LLMs), particularly the ChatGPT family, have given rise to a powerful and versatile machine interlocutor, packed with knowledge and challenging our understanding of learning. This interlocutor is a double-edged sword: it can be harnessed for a wide variety of beneficial tasks, but it can also be used to cause harm. This study explores the complicated interaction between ChatGPT and the growing problem of cryptocurrency fraud. Although ChatGPT is known for its adaptability and ethical considerations when used for harmful purposes, we highlight the deep connection that may exist between ChatGPT and fraudulent actions in the volatile cryptocurrency ecosystem. Based on our categorization of cryptocurrency frauds, we show how to influence outputs, bypass ethical terms, and achieve specific fraud goals by manipulating ChatGPT prompts. Furthermore, our findings emphasize the importance of realizing that ChatGPT could be a valuable instructor even for novice fraudsters, as well as understanding and safely deploying complex language models, particularly in the context of cryptocurrency frauds. Finally, our study underlines the importance of using LLMs responsibly and ethically in the digital currency sector, identifying potential risks and resolving ethical issues. It should be noted that our work is not intended to encourage and promote fraud, but rather to raise awareness of the risks of fraud associated with the use of ChatGPT. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# 量子ニューラルネットワークによる電力品質変動検出と認識へのアプローチ
A Quantum Neural Network-Based Approach to Power Quality Disturbances Detection and Recognition ( http://arxiv.org/abs/2406.03081v1 ) ライセンス: Link先を確認 | Guo-Dong Li, Hai-Yan He, Yue Li, Xin-Hao Li, Hao Liu, Qing-Le Wang, Long Cheng, | (参考訳) 電力品質障害(PQD)は電力システムの安定性と信頼性に大きな影響を与え、正確かつ効率的な検出と認識方法を必要とする。
PQDの検出と認識のための多くの古典的アルゴリズムが広く研究され応用されているが、量子領域における関連する研究はまだ初期段階にある。
本稿では、PQDの検出と認識のための改良された量子ニューラルネットワーク(QNN)モデルを提案する。
具体的には、データ量子ビットとアンシラ量子ビットからなる量子回路を構成する。
古典的なデータは、エンコーディング層を介してデータキュービットに埋め込み、量子データに変換される。
その後、パラメトリック量子ゲートを用いて変動層を形成し、量子ビット情報変換を容易にし、検出および認識に不可欠な特徴情報を抽出する。
期待値は、アンシラ量子ビットを測定し、この期待値に基づいて外乱分類の完了を可能にする。
QNNのランタイムと空間の複雑さは、それぞれ$O\left (poly\left (N \right ) \right )$と$O\left (N \right )$である。
PQDの検出と認識における提案モデルの有効性と優位性を検証する。
このモデルは、障害の検出、7つの単一障害の認識、および10の混合障害の認識を含む実験において、99.75\%、97.85\%、95.5\%の精度を達成する。
さらに、ノイズシミュレーションと比較実験により、提案モデルが頑健なアンチノイズ能力を示し、トレーニングパラメータがほとんど必要とせず、高精度を維持していることを示す。
Power quality disturbances (PQDs) significantly impact the stability and reliability of power systems, necessitating accurate and efficient detection and recognition methods. While numerous classical algorithms for PQDs detection and recognition have been extensively studied and applied, related work in the quantum domain is still in its infancy. In this paper, an improved quantum neural networks (QNN) model for PQDs detection and recognition is proposed. Specifically, the model constructs a quantum circuit comprising data qubits and ancilla qubits. Classical data is transformed into quantum data by embedding it into data qubits via the encoding layer. Subsequently, parametric quantum gates are utilized to form the variational layer, which facilitates qubit information transformation, thereby extracting essential feature information for detection and recognition. The expected value is obtained by measuring ancilla qubits, enabling the completion of disturbance classification based on this expected value. An analysis reveals that the runtime and space complexities of the QNN are $O\left ( poly\left ( N \right ) \right )$ and $O\left ( N \right )$, respectively. Extensive experiments validate the feasibility and superiority of the proposed model in PQD detection and recognition. The model achieves accuracies of 99.75\%, 97.85\% and 95.5\% in experiments involving the detection of disturbances, recognition of seven single disturbances, and recognition of ten mixed disturbances, respectively. Additionally, noise simulation and comparative experiments demonstrate that the proposed model exhibits robust anti-noise capabilities, requires few training parameters, and maintains high accuracy. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# ベイズニューラルネットワークを用いた確率最適化問題の学習解
Learning Solutions of Stochastic Optimization Problems with Bayesian Neural Networks ( http://arxiv.org/abs/2406.03082v1 ) ライセンス: Link先を確認 | Alan A. Lahoud, Erik Schaffernicht, Johannes A. Stork, | (参考訳) 数学的解法はパラメータ最適化問題(OP)を入力として最適決定を与える。
多くの実世界の設定において、これらのパラメータのいくつかは未知または不確かである。
近年の研究では、これらの未知パラメータの価値を予測することに焦点を当てており、エンド・ツー・エンドの学習アプローチを採用することで、意思決定の後悔を減らすことを目的としている。
しかし、これらの手法は予測の不確実性を無視し、従って、低信頼な予測の場合、数学的解決者が誤った決定を下す可能性がある。
本稿では,ベイズニューラルネットワーク(BNN)による予測の不確かさをモデル化し,確率計画法を用いて数学的解法にその不確かさを伝達する新しい枠組みを提案する。
分離学習アプローチでは、予測値のOPパラメータの分布の質を高めるために、BNN重みを更新する一方、組合せ学習アプローチでは、予測値OPのコスト関数を確率的エンドツーエンドで直接最小化することを目的とした重みを更新する。
様々なノイズ特性を持つ合成データと実データセットを用いて広範囲な評価を行い, 両手法を比較検討した。
Mathematical solvers use parametrized Optimization Problems (OPs) as inputs to yield optimal decisions. In many real-world settings, some of these parameters are unknown or uncertain. Recent research focuses on predicting the value of these unknown parameters using available contextual features, aiming to decrease decision regret by adopting end-to-end learning approaches. However, these approaches disregard prediction uncertainty and therefore make the mathematical solver susceptible to provide erroneous decisions in case of low-confidence predictions. We propose a novel framework that models prediction uncertainty with Bayesian Neural Networks (BNNs) and propagates this uncertainty into the mathematical solver with a Stochastic Programming technique. The differentiable nature of BNNs and differentiable mathematical solvers allow for two different learning approaches: In the Decoupled learning approach, we update the BNN weights to increase the quality of the predictions' distribution of the OP parameters, while in the Combined learning approach, we update the weights aiming to directly minimize the expected OP's cost function in a stochastic end-to-end fashion. We do an extensive evaluation using synthetic data with various noise properties and a real dataset, showing that decisions regret are generally lower (better) with both proposed methods. | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# クロスドメインシーケンスレコメンデーションのための大規模言語モデルへのユーザ検索統合の探索
Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2406.03085v1 ) ライセンス: Link先を確認 | Tingjia Shen, Hao Wang, Jiaqing Zhang, Sirui Zhao, Liangyue Li, Zulong Chen, Defu Lian, Enhong Chen, | (参考訳) Cross-Domain Sequential Recommendation (CDSR)は、長期にわたるコールドスタート問題を緩和するために、異なるドメイン間でユーザのシーケンシャルな好みをマイニングし、転送することを目的としている。
伝統的なCDSRモデルは、価値ある意味情報を見下ろしながら、ユーザとアイテムのモデリングを通して協調情報をキャプチャする。
近年,Large Language Model (LLM) は強力なセマンティック推論機能を示しており,セマンティックな情報をよりよく捉えるためにそれらを導入する動機となっている。
しかし、LCMをCDSRに導入するのは、シームレスな情報統合とドメイン固有の生成という2つの重要な問題のため、簡単ではない。
そこで本研究では,ユーザ検索アプローチとLLMに基づくドメイン基盤を同時に探索することにより,CDSRの性能向上を目的とした URLLM という新しいフレームワークを提案する。
具体的には、まず、多彩な情報を捉えるための新しいデュアルグラフシーケンシャルモデルと、ドメイン知識の伝達を容易にするアライメントとコントラスト学習手法を提案する。
その後、ユーザ検索生成モデルを採用し、構造情報をLLMにシームレスに統合し、その創発的推論能力を完全に活用する。
さらに,ドメイン外生成を防止するために,ドメイン固有の戦略と改良モジュールを提案する。
Amazonでの大規模な実験は、最先端のベースラインと比較して、URLLMの情報統合とドメイン固有の生成能力を実証した。
私たちのコードはhttps://github.com/TingJShen/URLLMで利用可能です。
Cross-Domain Sequential Recommendation (CDSR) aims to mine and transfer users' sequential preferences across different domains to alleviate the long-standing cold-start issue. Traditional CDSR models capture collaborative information through user and item modeling while overlooking valuable semantic information. Recently, Large Language Model (LLM) has demonstrated powerful semantic reasoning capabilities, motivating us to introduce them to better capture semantic information. However, introducing LLMs to CDSR is non-trivial due to two crucial issues: seamless information integration and domain-specific generation. To this end, we propose a novel framework named URLLM, which aims to improve the CDSR performance by exploring the User Retrieval approach and domain grounding on LLM simultaneously. Specifically, we first present a novel dual-graph sequential model to capture the diverse information, along with an alignment and contrastive learning method to facilitate domain knowledge transfer. Subsequently, a user retrieve-generation model is adopted to seamlessly integrate the structural information into LLM, fully harnessing its emergent inferencing ability. Furthermore, we propose a domain-specific strategy and a refinement module to prevent out-of-domain generation. Extensive experiments on Amazon demonstrated the information integration and domain-specific generation ability of URLLM in comparison to state-of-the-art baselines. Our code is available at https://github.com/TingJShen/URLLM | 翻訳日:2024-06-06 19:09:43 公開日:2024-06-05 |
# 知的無人システムにおける協調認識のためのタスク指向無線通信
Task-Oriented Wireless Communications for Collaborative Perception in Intelligent Unmanned Systems ( http://arxiv.org/abs/2406.03086v1 ) ライセンス: Link先を確認 | Sheng Zhou, Yukuan Jia, Ruiqing Mao, Zhaojun Nan, Yuxuan Sun, Zhisheng Niu, | (参考訳) 協調知覚(CP)は、インテリジェント無人システム(IUS)において、より包括的で信頼性の高い環境認識を実現する大きな可能性を示している。
しかし、CPタスクの特性や無線チャネルのダイナミックスにより、CPの実装は依然として重要な課題に直面している。
本稿では,通信方式とCP手順を協調的に最適化するタスク指向無線通信フレームワークを提案する。
まず,無線通信制約下で最も重要な意味情報を抽出し,活用するために,チャネル適応圧縮と堅牢な融合手法を提案する。
次に,タスク指向の分散スケジューリングアルゴリズムを提案し,動的環境下でのCPの最適コラボレータを同定する。
主なアイデアは、スケジューリング中に学習することであり、コラボレーションユーティリティは、少ない計算と通信オーバーヘッドで効果的に学習される。
ケーススタディは、提案した枠組みを検証するために、接続された自律運転シナリオで実施される。
最後に,今後の研究の方向性を明らかにする。
Collaborative Perception (CP) has shown great potential to achieve more holistic and reliable environmental perception in intelligent unmanned systems (IUSs). However, implementing CP still faces key challenges due to the characteristics of the CP task and the dynamics of wireless channels. In this article, a task-oriented wireless communication framework is proposed to jointly optimize the communication scheme and the CP procedure. We first propose channel-adaptive compression and robust fusion approaches to extract and exploit the most valuable semantic information under wireless communication constraints. We then propose a task-oriented distributed scheduling algorithm to identify the best collaborators for CP under dynamic environments. The main idea is learning while scheduling, where the collaboration utility is effectively learned with low computation and communication overhead. Case studies are carried out in connected autonomous driving scenarios to verify the proposed framework. Finally, we identify several future research directions. | 翻訳日:2024-06-06 19:09:42 公開日:2024-06-05 |
# 多レベル辞書を用いたロスレス画像圧縮:バイナリ画像
Lossless Image Compression Using Multi-level Dictionaries: Binary Images ( http://arxiv.org/abs/2406.03087v1 ) ライセンス: Link先を確認 | Samar Agnihotri, Renu Rameshan, Ritwik Ghosal, | (参考訳) 画像の保存や送信コストを削減するために、さまざまなアプリケーションにおいてロスレス画像圧縮が必要であるが、再構成された画像はオリジナルのものと比べて情報損失がゼロである必要がある。
既存のロスレス画像圧縮手法は単純な設計だが圧縮性能は劣るが、複雑な設計、性能は向上するが、性能保証はない。
低複雑性で性能が保証されたロスレス画像圧縮手法の開発にあたり、カラー画像の圧縮性はその空間構造、強度変化、色変化のパターンから本質的に派生したものであると論じる。
したがって、損失のない画像圧縮方式の全体設計を、対応する冗長性を利用する3つの部分に分割する。
さらに、画像の双対化バージョンは、その基本的な空間構造を捉えており、本研究では、二項画像のロスレス圧縮のためのスキームを提案する。
提案手法はまず、さまざまなバイナリ画像のデータセットから16ドル/8ドル/4ドル/2ドル/4ドル/2ドル/4ドル/4ドル/2ドル/4セント/4ドル/4ドル/4セント/4セント/4セント/5セント/5セント/5セント/5セント/5セント/5セント/5セントの辞書を学習する。
次に、これらの辞書を使ってバイナリ画像をエンコードする。
これらの辞書には、より効率的なスキームを構築するためにさらに活用される様々な興味深い性質がある。
予備的な結果から,提案手法は従来型および学習型ロスレス圧縮手法を一貫して上回り,一般目的ロスレス圧縮方式(WebP)よりも1.5ドル以上高い性能,最先端の学習ベース方式よりも3ドル以上高い性能,バイナリ画像圧縮方式(JBIG2)よりも優れた性能を提供する。
Lossless image compression is required in various applications to reduce storage or transmission costs of images, while requiring the reconstructed images to have zero information loss compared to the original. Existing lossless image compression methods either have simple design but poor compression performance, or complex design, better performance, but with no performance guarantees. In our endeavor to develop a lossless image compression method with low complexity and guaranteed performance, we argue that compressibility of a color image is essentially derived from the patterns in its spatial structure, intensity variations, and color variations. Thus, we divide the overall design of a lossless image compression scheme into three parts that exploit corresponding redundancies. We further argue that the binarized version of an image captures its fundamental spatial structure and in this work, we propose a scheme for lossless compression of binary images. The proposed scheme first learns dictionaries of $16\times16$, $8\times8$, $4\times4$, and $2\times 2$ square pixel patterns from various datasets of binary images. It then uses these dictionaries to encode binary images. These dictionaries have various interesting properties that are further exploited to construct an efficient scheme. Our preliminary results show that the proposed scheme consistently outperforms existing conventional and learning based lossless compression approaches, and provides, on average, as much as $1.5\times$ better performance than a common general purpose lossless compression scheme (WebP), more than $3\times$ better performance than a state of the art learning based scheme, and better performance than a specialized scheme for binary image compression (JBIG2). | 翻訳日:2024-06-06 19:09:42 公開日:2024-06-05 |
# HASS: Dataflow DNN Acceleratorのためのハードウェア対応のスパーシリティ検索
HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator ( http://arxiv.org/abs/2406.03088v1 ) ライセンス: Link先を確認 | Zhewen Yu, Sudarshan Sreeram, Krish Agrawal, Junyi Wu, Alexander Montgomerie-Corcoran, Cheng Zhang, Jianyi Cheng, Christos-Savvas Bouganis, Yiren Zhao, | (参考訳) ディープニューラルネットワーク(DNN)は、画像、オーディオ、テキストなどの生データから階層表現を学ぶ際に優れている。
これらのDNNモデルを高い性能とエネルギー効率で計算するために、これらのモデルは、通常、カスタマイズされたハードウェアアクセラレータにデプロイされる。
様々な加速器の設計の中で、データフローアーキテクチャは、その層状ピペリン構造とデータ並列性におけるスケーラビリティにより、有望な性能を示している。
エクスプロイトウェイトとアクティベートは、メモリストレージと計算効率をさらに向上させる。
しかし、既存のアプローチでは、大規模なハードウェア設計スペースが導入されたため、データフローアクセラレータには適用できない非データフローアクセラレーターのスパーシティを活用することに重点を置いている。
そのため、余分な機能とハードウェア設計の最適な組み合わせを見つける機会を逃す可能性がある。
本稿では,ソフトウェアとハードウェアの協調最適化を用いて,非構造ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
データフローアクセラレーターの効率的な疎性解を体系的に決定するハードウェア・アウェア・スパシティ・サーチ(HASS)を提案する。
一組のモデルにおいて、既存のスパース設計と比較して、1.3$\times$から4.2$\times$までの効率改善を実現している。
特にMobileNetV3のスループットは毎秒4895イメージに最適化できる。
HASSはオープンソースである: \url{https://github.com/Yu-Zhewen/HASS}
Deep Neural Networks (DNNs) excel in learning hierarchical representations from raw data, such as images, audio, and text. To compute these DNN models with high performance and energy efficiency, these models are usually deployed onto customized hardware accelerators. Among various accelerator designs, dataflow architecture has shown promising performance due to its layer-pipelined structure and its scalability in data parallelism. Exploiting weights and activations sparsity can further enhance memory storage and computation efficiency. However, existing approaches focus on exploiting sparsity in non-dataflow accelerators, which cannot be applied onto dataflow accelerators because of the large hardware design space introduced. As such, this could miss opportunities to find an optimal combination of sparsity features and hardware designs. In this paper, we propose a novel approach to exploit unstructured weights and activations sparsity for dataflow accelerators, using software and hardware co-optimization. We propose a Hardware-Aware Sparsity Search (HASS) to systematically determine an efficient sparsity solution for dataflow accelerators. Over a set of models, we achieve an efficiency improvement ranging from 1.3$\times$ to 4.2$\times$ compared to existing sparse designs, which are either non-dataflow or non-hardware-aware. Particularly, the throughput of MobileNetV3 can be optimized to 4895 images per second. HASS is open-source: \url{https://github.com/Yu-Zhewen/HASS} | 翻訳日:2024-06-06 19:09:42 公開日:2024-06-05 |
# ブロック置換による計画実行柔軟性の向上
Improving Plan Execution Flexibility using Block-Substitution ( http://arxiv.org/abs/2406.03091v1 ) ライセンス: Link先を確認 | Sabah Binte Noor, Fazlul Hasan Siddiqui, | (参考訳) AI計画における部分順序プランは、制約の少ない性質のため、実行の柔軟性を促進する。
計画の柔軟性の最大化は、計画のデオーダリングと計画のリオーダリングという概念を通じて研究されている。
プランの順序変更は、計画内の不要なアクション順序を削除し、プランの順序変更は、アクション順序の最小化のために任意に修正する。
本研究は,従来の計画整理・順序変更戦略とは対照的に,計画外の行動に代えて計画の柔軟性を向上させる。
ブロック内のコヒーレントなアクションをカプセル化することでPOPの順序付けを排除し,置換候補のサブプランとしてアクションブロックを構築する。
さらに,BDPO計画における冗長な動作を除去するプルーニング手法を提案する。
また、MaxSATベースのリオーダーと組み合わせることで、我々のアプローチを評価する。
実験の結果,国際計画コンペティション(IPC)のベンチマーク問題に対する計画実行の柔軟性が向上し,良好なカバレッジと実行時間を維持した。
Partial-order plans in AI planning facilitate execution flexibility due to their less-constrained nature. Maximizing plan flexibility has been studied through the notions of plan deordering, and plan reordering. Plan deordering removes unnecessary action orderings within a plan, while plan reordering modifies them arbitrarily to minimize action orderings. This study, in contrast with traditional plan deordering and reordering strategies, improves a plan's flexibility by substituting its subplans with actions outside the plan for a planning problem. We exploit block deordering, which eliminates orderings in a POP by encapsulating coherent actions in blocks, to construct action blocks as candidate subplans for substitutions. In addition, this paper introduces a pruning technique for eliminating redundant actions within a BDPO plan. We also evaluate our approach when combined with MaxSAT-based reorderings. Our experimental result demonstrates a significant improvement in plan execution flexibility on the benchmark problems from International Planning Competitions (IPC), maintaining good coverage and execution time. | 翻訳日:2024-06-06 19:09:42 公開日:2024-06-05 |
# FragRel: 大規模言語モデルの外部記憶におけるフラグメントレベルの関係の爆発
FragRel: Exploiting Fragment-level Relations in the External Memory of Large Language Models ( http://arxiv.org/abs/2406.03092v1 ) ライセンス: Link先を確認 | Xihang Yue, Linchao Zhu, Yi Yang, | (参考訳) LLM(Large Language Models)を用いて文脈を無制限に処理するために,近年の研究では,長文の階層的管理について検討している。
外部メモリからいくつかのテキストフラグメントが取り出され、一時的なワーキングメモリ、すなわちLLMのコンテキストウィンドウに渡される。
しかし、既存のアプローチは、構造的な接続を考慮せずに、テキストフラグメントを分離して扱うため、集中的な相互関係を持つテキスト、例えばコヒーレントなストーリーやコードリポジトリに制限がある。
この研究は、外部メモリのフラグメントレベルの関係を利用して、この問題を解決する。
まず、フラグメントレベルの関係を定式化し、異なるテキストタイプに対していくつかのインスタンスを提示する。
次に, 従来の独立フラグメント評価において, 関連性を考慮したフラグメント評価基準を導入する。
最後に,フラグメント接続型階層記憶型LLMを提案する。
長いストーリー理解、リポジトリレベルのコード生成、長期チャットにこれらの関係を組み込むことの利点を検証する。
To process contexts with unlimited length using Large Language Models (LLMs), recent studies explore hierarchically managing the long text. Only several text fragments are taken from the external memory and passed into the temporary working memory, i.e., LLM's context window. However, existing approaches isolatedly handle the text fragments without considering their structural connections, thereby suffering limited capability on texts with intensive inter-relations, e.g., coherent stories and code repositories. This work attempts to resolve this by exploiting the fragment-level relations in external memory. First, we formulate the fragment-level relations and present several instantiations for different text types. Next, we introduce a relation-aware fragment assessment criteria upon previous independent fragment assessment. Finally, we present the fragment-connected Hierarchical Memory based LLM. We validate the benefits of involving these relations on long story understanding, repository-level code generation, and long-term chatting. | 翻訳日:2024-06-06 19:09:42 公開日:2024-06-05 |
# EgoSurgery-Tool: Egocentric Open Surgery Videoによる手術用ツールと手指検出のデータセット
EgoSurgery-Tool: A Dataset of Surgical Tool and Hand Detection from Egocentric Open Surgery Videos ( http://arxiv.org/abs/2406.03095v1 ) ライセンス: Link先を確認 | Ryo Fujii, Hideo Saito, Hiroyuki Kajita, | (参考訳) 外科的ツール検出は、自我中心のオープンな手術ビデオを理解するための基本的なタスクである。
しかし, 外科的ツールの検出は, 高度に不均衡なクラス分布, 類似の形状, 類似のテクスチャ, 重閉塞など, 重大な課題を呈している。
包括的な大規模データセットの欠如はこれらの課題を複雑にしている。
本稿では,EgoSurgery-Phaseデータセットの拡張であるEgoSurgery-Toolについて紹介する。
EgoSurgery-Toolは、手術用ツールに強く注釈付けされており、15のカテゴリにまたがる49K以上の手術用ツールで構成されており、大規模な手術用ツール検出データセットを構成している。
EgoSurgery-Toolはまた、46K以上のハンドバウンディングボックスで手検出のためのアノテーションを提供しており、自我中心の開腹手術における活動を理解するのに不可欠な手と物体の相互作用を捉えている。
EgoSurgery-Toolは、大規模な、より多様な手術ツール、より多くのアノテーション、より密集したシーンのために、既存のデータセットよりも優れている。
9つの一般的な物体検出器を用いてEgoSurgery-Toolの包括的解析を行い,手術器具と手指検出の両面での有効性を検証した。
データセットはhttps://github.com/Fujiry0/EgoSurgery.comでリリースされる。
Surgical tool detection is a fundamental task for understanding egocentric open surgery videos. However, detecting surgical tools presents significant challenges due to their highly imbalanced class distribution, similar shapes and similar textures, and heavy occlusion. The lack of a comprehensive large-scale dataset compounds these challenges. In this paper, we introduce EgoSurgery-Tool, an extension of the existing EgoSurgery-Phase dataset, which contains real open surgery videos captured using an egocentric camera attached to the surgeon's head, along with phase annotations. EgoSurgery-Tool has been densely annotated with surgical tools and comprises over 49K surgical tool bounding boxes across 15 categories, constituting a large-scale surgical tool detection dataset. EgoSurgery-Tool also provides annotations for hand detection with over 46K hand-bounding boxes, capturing hand-object interactions that are crucial for understanding activities in egocentric open surgery. EgoSurgery-Tool is superior to existing datasets due to its larger scale, greater variety of surgical tools, more annotations, and denser scenes. We conduct a comprehensive analysis of EgoSurgery-Tool using nine popular object detectors to assess their effectiveness in both surgical tool and hand detection. The dataset will be released at https://github.com/Fujiry0/EgoSurgery. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# スパースグラフのトポロジ的摂動に対するグラフニューラルネットワークのレジリエンス向上
Enhancing the Resilience of Graph Neural Networks to Topological Perturbations in Sparse Graphs ( http://arxiv.org/abs/2406.03097v1 ) ライセンス: Link先を確認 | Shuqi He, Jun Zhuang, Ding Wang, Luyao Peng, Jun Song, | (参考訳) グラフニューラルネットワーク(GNN)はノード分類に広く利用されている。
それにもかかわらず、最近の研究では、GNNは敵攻撃やエッジ破壊のようなトポロジカルな摂動に弱いことが示されている。
これらの課題を緩和するために、考慮すべき努力が注がれている。
例えば、GraphSSやLlnDTなどのベイズ的方法論は、GNNの堅牢性を強化するために、ベイズ的ラベル遷移とトポロジーに基づくラベルサンプリングを取り入れている。
しかし、GraphSSは緩やかな収束によって妨げられ、LlnDTはスパースグラフの課題に直面している。
これらの制約を克服するために,トポロジ駆動ラベル伝搬,ベイズラベル遷移,ランダムウォークによるリンク解析を組み合わせた新しいラベル推論フレームワークであるTraTopoを提案する。
TraTopoは、ランダムウォークサンプリングを利用して、特にリンク予測のために孤立ノードをターゲットとすることで、スパースグラフの先駆者を大幅に上回り、トポロジカルサンプリングコンテキストにおけるその効果を高める。
さらに、TraTopoはリンク予測を洗練するための最短パス戦略を採用し、予測オーバーヘッドを低減し、ラベル推測精度を向上させる。
経験的評価では、ノード分類におけるTraTopoの優位性が強調され、現在のGCNモデルよりも精度が高い。
Graph neural networks (GNNs) have been extensively employed in node classification. Nevertheless, recent studies indicate that GNNs are vulnerable to topological perturbations, such as adversarial attacks and edge disruptions. Considerable efforts have been devoted to mitigating these challenges. For example, pioneering Bayesian methodologies, including GraphSS and LlnDT, incorporate Bayesian label transitions and topology-based label sampling to strengthen the robustness of GNNs. However, GraphSS is hindered by slow convergence, while LlnDT faces challenges in sparse graphs. To overcome these limitations, we propose a novel label inference framework, TraTopo, which combines topology-driven label propagation, Bayesian label transitions, and link analysis via random walks. TraTopo significantly surpasses its predecessors on sparse graphs by utilizing random walk sampling, specifically targeting isolated nodes for link prediction, thus enhancing its effectiveness in topological sampling contexts. Additionally, TraTopo employs a shortest-path strategy to refine link prediction, thereby reducing predictive overhead and improving label inference accuracy. Empirical evaluations highlight TraTopo's superiority in node classification, significantly exceeding contemporary GCN models in accuracy. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# グラフ畳み込み分岐と境界
Graph Convolutional Branch and Bound ( http://arxiv.org/abs/2406.03099v1 ) ライセンス: Link先を確認 | Lorenzo Sciandra, Roberto Esposito, Andrea Cesare Grosso, Laura Sacerdote, Cristina Zucca, | (参考訳) 本稿では,最適化パイプラインにおけるディープラーニングモデルの有効性を示す。
具体的には、NP問題に対する一般的な正確なアルゴリズムにおいて、複数のヒューリスティックな基準は、通常、すべての実現可能な解の集合内の最適解の探索を導くために用いられる。
この文脈では、ニューラルネットワークを利用して、価値ある情報を素早く取得し、この広大な空間においてより適切な経路を識別することができる。
そこで、取り組んだ旅行セールスマン問題の説明の後、実装されたブランチと古典的解決のためのバウンドについて述べる。
このアルゴリズムは、前の分岐を統合してグラフ畳み込みニューラルネットワークとバインドするグラフ畳み込み分岐とバインドと呼ばれるハイブリッドバージョンと比較される。
実験の結果、このアプローチの有効性が強調され、決定的な発見と今後の研究への潜在的方向性が示唆された。
This article demonstrates the effectiveness of employing a deep learning model in an optimization pipeline. Specifically, in a generic exact algorithm for a NP problem, multiple heuristic criteria are usually used to guide the search of the optimum within the set of all feasible solutions. In this context, neural networks can be leveraged to rapidly acquire valuable information, enabling the identification of a more expedient path in this vast space. So, after the explanation of the tackled traveling salesman problem, the implemented branch and bound for its classical resolution is described. This algorithm is then compared with its hybrid version termed "graph convolutional branch and bound" that integrates the previous branch and bound with a graph convolutional neural network. The empirical results obtained highlight the efficacy of this approach, leading to conclusive findings and suggesting potential directions for future research. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# DEER: 可変遅延による強化学習のための遅延耐性フレームワーク
DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays ( http://arxiv.org/abs/2406.03102v1 ) ライセンス: Link先を確認 | Bo Xia, Yilun Kong, Yongzhe Chang, Bo Yuan, Zhiheng Li, Xueqian Wang, Bin Liang, | (参考訳) 古典的強化学習(RL)は、しばしば遅延を伴うタスクの課題に直面し、それによって受信された観察とその後の行動のミスマッチを引き起こし、マルコフの仮定から逸脱する。
既存のメソッドは通常、状態拡張を使ったエンドツーエンドのソリューションでこの問題に対処します。
しかしながら、これらのブラックボックスアプローチは、情報状態において理解不能なプロセスと冗長な情報を伴い、不安定になり、全体的なパフォーマンスを損なう可能性がある。
RL の遅延問題を軽減するために,その解釈性を効果的に向上し,ランダム遅延問題に対処するフレームワークである $\textbf{DEER (Delay-Resilient Encoder-Enhanced RL)} を提案する。
DEERは、遅延のない環境データセットに基づいてトレーニングされた隠れ状態に、遅延状態と、異なる遅延から生じる可変長の過去のアクションシーケンスをマッピングするために、事前訓練されたエンコーダを使用している。
様々な遅延シナリオにおいて、訓練されたエンコーダは、追加の修正を必要とせず、標準のRLアルゴリズムとシームレスに統合することができ、元のアルゴリズムの入力次元を適応させることで遅延解決能力を向上させることができる。
我々は, Gym および Mujoco 環境に関する広範囲な実験を通じて, DEER の評価を行った。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
Classic reinforcement learning (RL) frequently confronts challenges in tasks involving delays, which cause a mismatch between received observations and subsequent actions, thereby deviating from the Markov assumption. Existing methods usually tackle this issue with end-to-end solutions using state augmentation. However, these black-box approaches often involve incomprehensible processes and redundant information in the information states, causing instability and potentially undermining the overall performance. To alleviate the delay challenges in RL, we propose $\textbf{DEER (Delay-resilient Encoder-Enhanced RL)}$, a framework designed to effectively enhance the interpretability and address the random delay issues. DEER employs a pretrained encoder to map delayed states, along with their variable-length past action sequences resulting from different delays, into hidden states, which is trained on delay-free environment datasets. In a variety of delayed scenarios, the trained encoder can seamlessly integrate with standard RL algorithms without requiring additional modifications and enhance the delay-solving capability by simply adapting the input dimension of the original algorithms. We evaluate DEER through extensive experiments on Gym and Mujoco environments. The results confirm that DEER is superior to state-of-the-art RL algorithms in both constant and random delay settings. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# EpidermaQuant: 再構成ヒト表皮のH-DAB染色像における表皮分化マーカーの検出と定量化
EpidermaQuant: Unsupervised detection and quantification of epidermal differentiation markers on H-DAB-stained images of reconstructed human epidermis ( http://arxiv.org/abs/2406.03103v1 ) ライセンス: Link先を確認 | Dawid Zamojski, Agnieszka Gogler, Dorota Scieglinska, Michal Marczyk, | (参考訳) 組織学的解析とケラチノサイト分化マーカーの免疫組織化学的染色を組み合わせることで,in vitroで得られたヒト表皮の完全性を評価することができる。
スキャンした組織をコンピュータで分析することで、専門家の時間を節約し、インターラッター信頼性の問題を排除することで定量化の精度を向上させることができる。
しかし, 染色画像の作成, キャプチャ, 複数アーティファクトの存在による技術的差異は, 計算結果に影響を及ぼす可能性がある。
DABをベースとした免疫組織化学反応で染色したヒト表皮の断面を再構成した598枚の無注釈画像を用いて4種類のケラチン細胞分化マーカータンパク質(filaggrin, keratin 10, Ki67, HSPA2)を可視化し,ヘマトキシリンと対比し, 免疫組織化学的染色の検出と定量化のための教師なし方法を開発した。
提案されたパイプラインには、以下のステップが含まれている。
一 異なる試料における画素強度値のばらつきを低減するための色正規化
二 使用した染料の色チャンネルを取得するための色脱畳
三 画像の背景領域を見つけるための形態的操作
(四)自動画像回転、及び
(v)クラスタリングによるヒト表皮分化のマーカーの発見。
また,DABを含まない領域を除外する手法も開発した。
最も効果的な組み合わせは以下のとおりである。
(i)ラインハルト正規化
(二)ルフトロックとジョンストンのカラーデコンボリューション法
(iii)画像強度の境界分布に基づく画像回転法
(4)DAB染色強度を用いたK平均クラスタリング
これらの結果は, 再建ヒト表皮におけるタンパク質マーカーの定量的解析性能を高め, 異なる実験条件間での空間分布の比較を可能にした。
The integrity of the reconstructed human epidermis generated in vitro could be assessed using histological analyses combined with immunohistochemical staining of keratinocyte differentiation markers. Computer-based analysis of scanned tissue saves the expert time and may improve the accuracy of quantification by eliminating interrater reliability issues. However, technical differences during the preparation and capture of stained images and the presence of multiple artifacts may influence the outcome of computational methods. Using a dataset with 598 unannotated images showing cross-sections of in vitro reconstructed human epidermis stained with DAB-based immunohistochemistry reaction to visualize 4 different keratinocyte differentiation marker proteins (filaggrin, keratin 10, Ki67, HSPA2) and counterstained with hematoxylin, we developed an unsupervised method for the detection and quantification of immunohistochemical staining. The proposed pipeline includes the following steps: (i) color normalization to reduce the variability of pixel intensity values in different samples; (ii) color deconvolution to acquire color channels of the stains used; (iii) morphological operations to find the background area of the image; (iv) automatic image rotation; and (v) finding markers of human epidermal differentiation with clustering. Also, we created a method to exclude images without DAB-stained areas. The most effective combination of methods includes: (i) Reinhard's normalization; (ii) Ruifrok and Johnston color deconvolution method; (iii) proposed image rotation method based on boundary distribution of image intensity; (iv) k-means clustering using DAB stain intensity. These results should enhance the performance of quantitative analysis of protein markers in reconstructed human epidermis samples and enable comparison of their spatial distribution between different experimental conditions. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# 2次元車線前処理による3次元車線検出とトポロジー推論の強化
Enhancing 3D Lane Detection and Topology Reasoning with 2D Lane Priors ( http://arxiv.org/abs/2406.03105v1 ) ライセンス: Link先を確認 | Han Li, Zehao Huang, Zitian Wang, Wenge Rong, Naiyan Wang, Si Liu, | (参考訳) 3次元車線検出とトポロジ推論は、車線上の正確な3次元座標を検出するだけでなく、車線と交通要素の関係を推論する必要がある。
BEVの機能を明確に構築するか否かに関わらず、現在の視覚ベースの手法は、いずれも2Dレーンの先行を無視しながら、3D空間にレーンアンカー/クエリを確立する。
本研究では,Transformerをベースとした新しいフレームワークであるTopo2Dを提案する。
さらに、車線中心線および車線中心線と交通要素間のトポロジー関係の認識に、2次元車線の特徴を明示的に取り入れた。
Topo2Dは、マルチビュートポロジ推論ベンチマークOpenLane-V2で44.5%、シングルビュー3Dレーン検出ベンチマークOpenLaneで62.6%のOLSを達成した。
3D lane detection and topology reasoning are essential tasks in autonomous driving scenarios, requiring not only detecting the accurate 3D coordinates on lane lines, but also reasoning the relationship between lanes and traffic elements. Current vision-based methods, whether explicitly constructing BEV features or not, all establish the lane anchors/queries in 3D space while ignoring the 2D lane priors. In this study, we propose Topo2D, a novel framework based on Transformer, leveraging 2D lane instances to initialize 3D queries and 3D positional embeddings. Furthermore, we explicitly incorporate 2D lane features into the recognition of topology relationships among lane centerlines and between lane centerlines and traffic elements. Topo2D achieves 44.5% OLS on multi-view topology reasoning benchmark OpenLane-V2 and 62.6% F-Socre on single-view 3D lane detection benchmark OpenLane, exceeding the performance of existing state-of-the-art methods. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# スピンのない磁化-イテナント電子の有効ラグランジアン
Magnetization without spin: effective Lagrangian of itinerant electrons ( http://arxiv.org/abs/2406.03112v1 ) ライセンス: Link先を確認 | Kenzo Ishikawa, | (参考訳) 有限磁場における有限密度のイテナント電子系の有効ラグランジアンは、以前研究したよりも低次元の電磁ポテンシャルのチャーン・サイモンズ項を含む。
この用語は多体波動関数の起源であり、スピン自由度とは独立な独自の位相的性質を持つ。
結合強度は$\frac{\rho}{eB}$に比例し、これは定電荷密度に対して$B=0$の特異値である。
B$の有効ラグランジアンは、B$の物理効果を正しく表す。
スレーター・ポーリング曲線と呼ばれる磁場の普遍的なシフトは、有効ラグランジアンから導かれる。
Effective Lagrangian of itinerant electron system of finite density at finite magnetic field is found to include Chern-Simons term of electromagnetic potentials of lower scale dimension than those studied before. This term has an origin in many-body wave function and unique topological property that is independent of a spin degree of freedom. The coupling strength is proportional to $\frac{\rho}{eB}$, which is singular at $B=0$ for a constant charge density. The effective Lagrangian at a finite $B$ represents physical effects at $ B \neq 0$ properly. A universal shift of the magnetic field known as Slater-Pauling curve is derived from the effective Lagrangian. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# VQUNet: 不要雑音の正規化による逆アタック防止のためのベクトル量子化U-Net
VQUNet: Vector Quantization U-Net for Defending Adversarial Atacks by Regularizing Unwanted Noise ( http://arxiv.org/abs/2406.03117v1 ) ライセンス: Link先を確認 | Zhixun He, Mukesh Singhal, | (参考訳) Deep Neural Networks(DNN)は、人工知能(AI)と機械学習(ML)アプリケーションを開発する際に、有望なパラダイムとなっている。
しかし、DNNアプリケーションは敵攻撃アルゴリズムで構築された偽データに対して脆弱である。
敵の攻撃下では、DNNアプリケーションの予測精度が損なわれ、信頼できない。
敵の攻撃に対して防御するために,敵の雑音を低減し,高い忠実度でデータを再構成する新しいノイズ低減手法であるベクトル量子化U-Net(VQUNet)を導入する。
VQUNetは、ノイズ低減とデータ再構成の両方のためのマルチスケール階層構造を通して、離散潜在表現学習を特徴とする。
実験により、提案したVQUNetはターゲットのDNNモデルに対してより堅牢性を提供し、Fashion-MNISTおよびCIFAR10データセットに対する様々な敵攻撃の下で、他の最先端のノイズ低減ベースの防御手法よりも優れていることが示された。
敵攻撃がない場合、防御法は両方のデータセットに対して1%未満の精度で劣化する。
Deep Neural Networks (DNN) have become a promising paradigm when developing Artificial Intelligence (AI) and Machine Learning (ML) applications. However, DNN applications are vulnerable to fake data that are crafted with adversarial attack algorithms. Under adversarial attacks, the prediction accuracy of DNN applications suffers, making them unreliable. In order to defend against adversarial attacks, we introduce a novel noise-reduction procedure, Vector Quantization U-Net (VQUNet), to reduce adversarial noise and reconstruct data with high fidelity. VQUNet features a discrete latent representation learning through a multi-scale hierarchical structure for both noise reduction and data reconstruction. The empirical experiments show that the proposed VQUNet provides better robustness to the target DNN models, and it outperforms other state-of-the-art noise-reduction-based defense methods under various adversarial attacks for both Fashion-MNIST and CIFAR10 datasets. When there is no adversarial attack, the defense method has less than 1% accuracy degradation for both datasets. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# SMTソルバを用いたシルク量子プログラムの自動検証
Automated Verification of Silq Quantum Programs using SMT Solvers ( http://arxiv.org/abs/2406.03119v1 ) ライセンス: Link先を確認 | Marco Lewis, Paolo Zuliani, Sadegh Soudjani, | (参考訳) 我々は、Silqで記述された量子プログラムの動作を検証する自動化ツールであるSilVer(Silq Verification)を紹介する。
この検証の目的は、SMTソルバを用いたユーザ定義仕様に対するSilq量子プログラムの正当性を保証することである。
我々は、SilqプログラムとSMT証明義務のインターフェースとして量子RAMスタイルのコンピュータをベースとしたプログラミングモデルを導入し、古典的条件と量子的条件の両方を用いて量子演算の制御を可能にする。
さらに、ユーザは仕様内で測定フラグを使用して、測定結果が有効な振る舞いであるために必要な条件を簡単に指定することができる。
本稿では,絡み合った状態と複数のオラクルベースのアルゴリズムの検証事例について述べる。
We present SilVer (Silq Verification), an automated tool for verifying behaviors of quantum programs written in Silq, which is a high-level programming language for quantum computing. The goal of the verification is to ensure correctness of the Silq quantum program against user-defined specifications using SMT solvers. We introduce a programming model that is based on a quantum RAM-style computer as an interface between Silq programs and SMT proof obligations, allowing for control of quantum operations using both classical and quantum conditions. Additionally, users can employ measurement flags within the specification to easily specify conditions that measurement results require to satisfy for being a valid behavior. We provide case studies on the verification of generating entangled states and multiple oracle-based algorithms. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# RevRIR:コントラスト学習を用いた共用残響音声と室内インパルス応答埋め込みと室内形状分類への応用
RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification ( http://arxiv.org/abs/2406.03120v1 ) ライセンス: Link先を確認 | Jacob Bitterman, Daniel Levi, Hilel Hagai Diamandi, Sharon Gannot, Tal Rosenwein, | (参考訳) 本論文は, 室内の音量と形状を計測するための音声録音の分析を含む作業である, ルームフィンガープリントに焦点を当てた。
ルームインパルス応答(RIR)から基本的な部屋パラメータを決定するのは比較的簡単だが、音声信号から行うのは面倒な作業である。
この課題に対処するために,音声の発話から直接部屋パラメータを推定しやすくするデュアルエンコーダアーキテクチャを提案する。
事前訓練中、一方のエンコーダはRIRを受け取り、他方のエンコーダは残響音声信号を処理する。
音声と音響応答を同時に埋め込むために、対照的な損失関数を用いる。
微調整の段階では、特定の分類タスクを訓練する。
テスト段階では、残響発話のみが利用可能であり、その埋め込みはルーム形状分類のタスクに使用される。
提案手法は模擬音響環境を用いて広範に評価される。
This paper focuses on room fingerprinting, a task involving the analysis of an audio recording to determine the specific volume and shape of the room in which it was captured. While it is relatively straightforward to determine the basic room parameters from the Room Impulse Responses (RIR), doing so from a speech signal is a cumbersome task. To address this challenge, we introduce a dual-encoder architecture that facilitates the estimation of room parameters directly from speech utterances. During pre-training, one encoder receives the RIR while the other processes the reverberant speech signal. A contrastive loss function is employed to embed the speech and the acoustic response jointly. In the fine-tuning stage, the specific classification task is trained. In the test phase, only the reverberant utterance is available, and its embedding is used for the task of room shape classification. The proposed scheme is extensively evaluated using simulated acoustic environments. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# MESS: 最新の電子構造シミュレーション
MESS: Modern Electronic Structure Simulations ( http://arxiv.org/abs/2406.03121v1 ) ライセンス: Link先を確認 | Hatem Helal, Andrew Fitzgibbon, | (参考訳) 電子構造シミュレーション(Electronic Structure Simulation, ESS)は、化学、生物学、材料科学などの分野の進歩を可能にするため、原子論的なスケールに関する定量的科学的知見を提供するために何十年も使われてきた。
しかし、最近の機械学習(ML)がこれらのドメインに導入されたことで、MLモデルはこれらの言語でコーディングされなければならない、複雑なソフトウェアブリッジはPythonのMLモデルとこれらの大規模なコンパイルされたソフトウェアシステムの間で構築されなければならない、ということを意味している。
これは、Pythonで定義されたテンソルプログラムのハードウェアアクセラレーションを活用することで、使いやすさとハイパフォーマンスの両方を最適化することを目的とした、最近のMLフレームワークの最近の進歩とは対照的である。
我々は、JAXで実装された最新の電子構造シミュレーションパッケージであるMESSを紹介し、ESSコードをMLの世界に移植する。
この重要な科学的ワークロードに対してMLで使用されるソフトウェア開発プラクティスに従うことのコストとメリットを概説する。
MESSは、広く利用可能なハードウェアアクセラレーターに大幅なスピードアップを示し、同時にESSとMLを組み合わせるための明確な経路を開く。
MESSはhttps://github.com/graphcore-research/mess.comで入手できる。
Electronic structure simulation (ESS) has been used for decades to provide quantitative scientific insights on an atomistic scale, enabling advances in chemistry, biology, and materials science, among other disciplines. Following standard practice in scientific computing, the software packages driving these studies have been implemented in compiled languages such as FORTRAN and C. However, the recent introduction of machine learning (ML) into these domains has meant that ML models must be coded in these languages, or that complex software bridges have to be built between ML models in Python and these large compiled software systems. This is in contrast with recent progress in modern ML frameworks which aim to optimise both ease of use and high performance by harnessing hardware acceleration of tensor programs defined in Python. We introduce MESS: a modern electronic structure simulation package implemented in JAX; porting the ESS code to the ML world. We outline the costs and benefits of following the software development practices used in ML for this important scientific workload. MESS shows significant speedups n widely available hardware accelerators and simultaneously opens a clear pathway towards combining ESS with ML. MESS is available at https://github.com/graphcore-research/mess. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# 文埋め込みのための空間分解
Space Decomposition for Sentence Embedding ( http://arxiv.org/abs/2406.03125v1 ) ライセンス: Link先を確認 | Wuttikorn Ponwitayarat, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Sarana Nutanong, | (参考訳) 文対類似性の決定は様々なNLPタスクに不可欠である。
この問題に対処する一般的な手法は、典型的には0から5までの連続的な意味的テキスト類似度尺度で評価される。
しかし,STSガイドラインの言語学的観察から,[4,5]の範囲のスコアは上位のサンプルを示し,残りは下位のサンプルであることがわかった。
これは、アッパーレンジクラスとローレンジクラスを別々に扱う新しいアプローチを必要とする。
本稿では, 特殊プロジェクタの混合を利用したMixSPと呼ばれる新しい埋め込み空間分解手法を提案する。
実験の結果,MixSPは,STSおよびゼロショットベンチマークにおいて,上位クラスと下位クラスとの重複表現を著しく低減し,ライバルよりも優れていた。
Determining sentence pair similarity is crucial for various NLP tasks. A common technique to address this is typically evaluated on a continuous semantic textual similarity scale from 0 to 5. However, based on a linguistic observation in STS annotation guidelines, we found that the score in the range [4,5] indicates an upper-range sample, while the rest are lower-range samples. This necessitates a new approach to treating the upper-range and lower-range classes separately. In this paper, we introduce a novel embedding space decomposition method called MixSP utilizing a Mixture of Specialized Projectors, designed to distinguish and rank upper-range and lower-range samples accurately. The experimental results demonstrate that MixSP decreased the overlap representation between upper-range and lower-range classes significantly while outperforming competitors on STS and zero-shot benchmarks. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# 現実世界のシナリオに向けて - 新たなインテントディスカバリの不均衡
Towards Real-world Scenario: Imbalanced New Intent Discovery ( http://arxiv.org/abs/2406.03127v1 ) ライセンス: Link先を確認 | Shun Zhang, Chaoran Yan, Jian Yang, Jiaheng Liu, Ying Mo, Jiaqi Bai, Tongliang Li, Zhoujun Li, | (参考訳) New Intent Discovery (NID)は,ラベル付きおよび大規模ラベル付きデータを限定的に利用することによって,ユーザ意図の既知および未定義のカテゴリを検出することを目的としている。
ほとんどの先行研究は、慣れ親しんだクラスと新しいクラスの両方の分布が一様であるという非現実的な仮定の下で運用され、現実のシナリオでしばしば発生する歪んだ分布と長い尾の分布を見渡せる。
このギャップを埋めるために、我々の研究は、長い尾の分布の中で親しみやすい、新しい意図カテゴリーを特定するために、不均衡な新しい意図発見(i-NID)タスクを導入する。
3つのデータセットからなる新しいベンチマーク(ImbaNID-Bench)を作成し、実世界のロングテール分布をシミュレートする。
ImbaNID-Benchは、幅広いクロスドメインから特定の単一ドメインのインテントカテゴリまで、実用的なユースケースの完全な表現を提供する。
さらに,クラスタフレンドリな意図表現を実現するために,ロバストなベースラインモデルImbaNIDを提案する。
モデル事前トレーニング、信頼性の高い擬似ラベルの生成、実世界のデータ分散の複雑さを扱うためのモデルパフォーマンスを強化する堅牢な表現学習の3段階を含む。
以前のベンチマークと新たに確立されたベンチマークは、i-NIDタスクに対処する上で、ImbaNIDの優れたパフォーマンスを示しており、不均衡な分布と長い尾の分布におけるユーザインテントの発見と分類のための強力なベースラインとしての可能性を強調している。
New Intent Discovery (NID) aims at detecting known and previously undefined categories of user intent by utilizing limited labeled and massive unlabeled data. Most prior works often operate under the unrealistic assumption that the distribution of both familiar and new intent classes is uniform, overlooking the skewed and long-tailed distributions frequently encountered in real-world scenarios. To bridge the gap, our work introduces the imbalanced new intent discovery (i-NID) task, which seeks to identify familiar and novel intent categories within long-tailed distributions. A new benchmark (ImbaNID-Bench) comprised of three datasets is created to simulate the real-world long-tail distributions. ImbaNID-Bench ranges from broad cross-domain to specific single-domain intent categories, providing a thorough representation of practical use cases. Besides, a robust baseline model ImbaNID is proposed to achieve cluster-friendly intent representations. It includes three stages: model pre-training, generation of reliable pseudo-labels, and robust representation learning that strengthens the model performance to handle the intricacies of real-world data distributions. Our extensive experiments on previous benchmarks and the newly established benchmark demonstrate the superior performance of ImbaNID in addressing the i-NID task, highlighting its potential as a powerful baseline for uncovering and categorizing user intents in imbalanced and long-tailed distributions\footnote{\url{https://github.com/Zkdc/i-NID}}. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# DiffusionDet フレームワークにおける RGB-D Fusion による自動車物体検出の高速化
Enhanced Automotive Object Detection via RGB-D Fusion in a DiffusionDet Framework ( http://arxiv.org/abs/2406.03129v1 ) ライセンス: Link先を確認 | Eliraz Orfaig, Inna Stainvas, Igal Bilik, | (参考訳) 視覚に基づく自律走行には、信頼性と効率的な物体検出が必要である。
本研究では、単眼カメラと深度センサからのデータ融合を利用してRGBと深度(RGB-D)データを提供するDiffusionDetベースのフレームワークを提案する。
この枠組み内では、基底真理境界ボックスはトレーニングフェーズの一部としてランダムに再形成され、モデルがノイズ付加の逆拡散過程を学習することができる。
システムは、推論段階でランダムに生成されたボックスのセットをメソッド的に拡張し、それらを正確な最終検出に向けて誘導する。
RGB画像のテクスチャ特徴と色特徴とLiDARセンサの空間深度情報を統合することにより,自動車目標の物体検出を大幅に強化する特徴融合が提案されている。
自動車目標の検出における2.3ドルのAP利得は、KITTIデータセットを用いた包括的な実験によって達成される。
具体的には,小物体検出における提案手法の改良性能について述べる。
Vision-based autonomous driving requires reliable and efficient object detection. This work proposes a DiffusionDet-based framework that exploits data fusion from the monocular camera and depth sensor to provide the RGB and depth (RGB-D) data. Within this framework, ground truth bounding boxes are randomly reshaped as part of the training phase, allowing the model to learn the reverse diffusion process of noise addition. The system methodically enhances a randomly generated set of boxes at the inference stage, guiding them toward accurate final detections. By integrating the textural and color features from RGB images with the spatial depth information from the LiDAR sensors, the proposed framework employs a feature fusion that substantially enhances object detection of automotive targets. The $2.3$ AP gain in detecting automotive targets is achieved through comprehensive experiments using the KITTI dataset. Specifically, the improved performance of the proposed approach in detecting small objects is demonstrated. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# 常交混合がランダム林に与える影響
Ordinal Mixed-Effects Random Forest ( http://arxiv.org/abs/2406.03130v1 ) ライセンス: Link先を確認 | Giulia Bergonzoli, Lidia Rossi, Chiara Masci, | (参考訳) 本稿では,ランダム林の利用を階層データと順序応答の分析に拡張する,規則混合・影響ランダム林(OMERF)という,革新的な統計手法を提案する。
このモデルは、木に基づくアンサンブル法に典型的なカテゴリ変数と連続変数の両方の複雑なパターンをモデル化する柔軟性と能力を保持し、同時に階層データの構造を考慮に入れ、グループ化によって引き起こされる依存構造をモデル化し、全てのデータレベルで統計的推論を可能にする。
提案手法の有効性を検証し,他の最先端技術モデルと比較するためのシミュレーション研究を行った。
OMERFの適用例は,2022年度国際学生評価プログラム(PISA)のデータを用いて,学生の成績を予測することに焦点を当てたケーススタディである。
モデルは、生徒の特徴を識別し、学校効果を推定する。
We propose an innovative statistical method, called Ordinal Mixed-Effect Random Forest (OMERF), that extends the use of random forest to the analysis of hierarchical data and ordinal responses. The model preserves the flexibility and ability of modeling complex patterns of both categorical and continuous variables, typical of tree-based ensemble methods, and, at the same time, takes into account the structure of hierarchical data, modeling the dependence structure induced by the grouping and allowing statistical inference at all data levels. A simulation study is conducted to validate the performance of the proposed method and to compare it to the one of other state-of-the art models. The application of OMERF is exemplified in a case study focusing on predicting students performances using data from the Programme for International Student Assessment (PISA) 2022. The model identifies discriminating student characteristics and estimates the school-effect. | 翻訳日:2024-06-06 18:59:55 公開日:2024-06-05 |
# The KeyTrap Denial-of-Service Algorithmic Complexity Attacks on DNSSEC
The Harder You Try, The Harder You Fail: The KeyTrap Denial-of-Service Algorithmic Complexity Attacks on DNSSEC ( http://arxiv.org/abs/2406.03133v1 ) ライセンス: Link先を確認 | Elias Heftrig, Haya Schulmann, Niklas Vogel, Michael Waidner, | (参考訳) DNSSECの設計において、可用性は大きな懸念事項である。
有効性を確保するため、DNSSECはPostelの法則[RFC1123]に従う。
したがって、ネームサーバは、レコードセットにマッチするキーを1つだけ送信するだけでなく、関連する暗号材料、例えば、サポートするすべての暗号と対応するシグネチャのすべてのキーを送信すべきである。
これにより、DNSSECキーの一部が誤って、誤って、あるいはサポートされていない暗号に対応している場合でも、バリデーションが成功し、可用性が保証される。
DNSSECのこの設計には欠陥があることが示されている。
DNSSEC標準の脆弱性のあるレコメンデーションをエクスプロットし、DNSにDNSSECベースのアルゴリズムによる複雑性攻撃の新しいクラスを開発し、KeyTrap攻撃をダブする。
一般的なDNSの実装とサービスは、すべて脆弱である。
1つのDNSパケットだけで、KeyTrap攻撃は脆弱性のあるDNSリゾルバのCPU命令数2000.000倍のスパイクを引き起こし、最大16時間停止する。
この破壊的な影響により、主要なDNSベンダーは、KeyTrapをDNSに対する最悪の攻撃として言及した。
KeyTrapをエクスプロイトすることで、攻撃者はDNSSEC検証リゾルバを使用して、任意のシステムにおけるインターネットアクセスを効果的に無効にすることができる。
私たちは2023年11月2日にベンダーとオペレータにKeyTrapを公開し、その脆弱性を業界の専門家、オペレータ、開発者からなるクローズドなグループに秘密に報告しました。
それ以来、私たちはすべての主要なベンダーと協力してKeyTrapを緩和し、提案されたパッチの弱点を何度も発見し、支援しています。
開示後、業界全体のCVE-2023-50387が割り当てられた。
Availability is a major concern in the design of DNSSEC. To ensure availability, DNSSEC follows Postel's Law [RFC1123]: "Be liberal in what you accept, and conservative in what you send." Hence, nameservers should send not just one matching key for a record set, but all the relevant cryptographic material, e.g., all the keys for all the ciphers that they support and all the corresponding signatures. This ensures that validation succeeds, and hence availability, even if some of the DNSSEC keys are misconfigured, incorrect or correspond to unsupported ciphers. We show that this design of DNSSEC is flawed. Exploiting vulnerable recommendations in the DNSSEC standards, we develop a new class of DNSSEC-based algorithmic complexity attacks on DNS, we dub KeyTrap attacks. All popular DNS implementations and services are vulnerable. With just a single DNS packet, the KeyTrap attacks lead to a 2.000.000x spike in CPU instruction count in vulnerable DNS resolvers, stalling some for as long as 16 hours. This devastating effect prompted major DNS vendors to refer to KeyTrap as the worst attack on DNS ever discovered. Exploiting KeyTrap, an attacker could effectively disable Internet access in any system utilizing a DNSSEC-validating resolver. We disclosed KeyTrap to vendors and operators on November 2, 2023, confidentially reporting the vulnerabilities to a closed group of DNS experts, operators and developers from the industry. Since then we have been working with all major vendors to mitigate KeyTrap, repeatedly discovering and assisting in closing weaknesses in proposed patches. Following our disclosure, the industry-wide umbrella CVE-2023-50387 has been assigned, covering the DNSSEC protocol vulnerabilities we present in this work. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 変圧器モデルに対するローランド適応(LoRA)の計算限界
Computational Limits of Low-Rank Adaptation (LoRA) for Transformer-Based Models ( http://arxiv.org/abs/2406.03136v1 ) ライセンス: Link先を確認 | Jerry Yao-Chieh Hu, Maojiang Su, En-Jui Kuo, Zhao Song, Han Liu, | (参考訳) 微粒化複雑性理論を用いた変圧器モデルに対するローランド適応 (LoRA) 更新の計算限界について検討した。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
これによって私たちは
(i)相転移挙動を特定して
(II) 強い指数時間仮説 (SETH) を仮定して, LoRA 更新計算項を項ごとに制御することにより, ほぼ線形アルゴリズムの存在を証明した。
前者については、入力シーケンス$\mathbf{X}$、事前トレーニングウェイト$\mathbf{W^\star}$、アダプタ行列$\alpha \mathbf{B} \mathbf{A} / r$の乗算から生じる特定のノルムに基づいて、トランスフォーマーの可能な全てのランクアルゴリズムの効率の急激な遷移を特定する。
具体的には、そのようなノルムに対する共有上界閾値を導出し、LoRAの効率的な(準四進法的な)近似アルゴリズムがこのしきい値より下にあることを示す。
後者については、LoRA勾配の階層的低ランク構造を利用して、一連の鎖状低ランク近似で勾配を近似することにより、LoRA適応のためのニア線形近似アルゴリズムの存在を証明している。
我々の理論を実証するために、我々は2つの実践シナリオを考える:部分的 (e g , only $\mathbf{W}_V$) と完全適応 (e g , $\mathbf{W}_Q$, $\mathbf{W}_V$, $\mathbf{W}_K$) である。
We study the computational limits of Low-Rank Adaptation (LoRA) update for finetuning transformer-based models using fine-grained complexity theory. Our key observation is that the existence of low-rank decompositions within the gradient computation of LoRA adaptation leads to possible algorithmic speedup. This allows us to (i) identify a phase transition behavior and (ii) prove the existence of nearly linear algorithms by controlling the LoRA update computation term by term, assuming the Strong Exponential Time Hypothesis (SETH). For the former, we identify a sharp transition in the efficiency of all possible rank-$r$ LoRA update algorithms for transformers, based on specific norms resulting from the multiplications of the input sequence $\mathbf{X}$, pretrained weights $\mathbf{W^\star}$, and adapter matrices $\alpha \mathbf{B} \mathbf{A} / r$. Specifically, we derive a shared upper bound threshold for such norms and show that efficient (sub-quadratic) approximation algorithms of LoRA exist only below this threshold. For the latter, we prove the existence of nearly linear approximation algorithms for LoRA adaptation by utilizing the hierarchical low-rank structures of LoRA gradients and approximating the gradients with a series of chained low-rank approximations. To showcase our theory, we consider two practical scenarios: partial (e.g., only $\mathbf{W}_V$ and $\mathbf{W}_Q$) and full adaptations (e.g., $\mathbf{W}_Q$, $\mathbf{W}_V$, and $\mathbf{W}_K$) of weights in attention heads. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# エキスパートの混在による連続的な交通予測
Continual Traffic Forecasting via Mixture of Experts ( http://arxiv.org/abs/2406.03140v1 ) ライセンス: Link先を確認 | Sanghyun Lee, Chanyoung Park, | (参考訳) 現実世界の交通ネットワークは、新しいセンサーの設置によって拡張され、交通パターンが時間とともに継続的に進化していくことを示唆している。
新たに追加されたセンサーでモデルをインクリメンタルにトレーニングすることで、モデルが過去の知識、すなわち破滅的な忘れを忘れ、ネットワーク全体のモデルを再トレーニングしてこれらの変化を捉えることは、非常に非効率である。
これらの課題に対処するために、進化するネットワーク下での交通予測のための新しい交通予測混合(TFMoE)を提案する。
主なアイデアは、トラフィックフローを複数の均質なグループに分割し、特定のグループに責任を持つ専門家モデルを割り当てることである。
これにより、各専門家モデルは、トレーニング中の専門家間の干渉を最小限に抑えながら、特定のパターンの学習と適応に集中することができ、それによって、破滅的な忘れ物の主要な原因である事前知識の希薄化や置き換えを防げる。
実世界の長期ストリーミングネットワークデータセットであるPEMSD3-Streamの広範な実験を通じて、TFMoEの有効性と効率を実証する。
以上の結果から,長期ストリーミングネットワークにおけるトラフィックフロー予測の継続学習におけるアプローチの有効性を裏付ける,破滅的な忘れ込みに直面した優れた性能とレジリエンスを示す。
The real-world traffic networks undergo expansion through the installation of new sensors, implying that the traffic patterns continually evolve over time. Incrementally training a model on the newly added sensors would make the model forget the past knowledge, i.e., catastrophic forgetting, while retraining the model on the entire network to capture these changes is highly inefficient. To address these challenges, we propose a novel Traffic Forecasting Mixture of Experts (TFMoE) for traffic forecasting under evolving networks. The main idea is to segment the traffic flow into multiple homogeneous groups, and assign an expert model responsible for a specific group. This allows each expert model to concentrate on learning and adapting to a specific set of patterns, while minimizing interference between the experts during training, thereby preventing the dilution or replacement of prior knowledge, which is a major cause of catastrophic forgetting. Through extensive experiments on a real-world long-term streaming network dataset, PEMSD3-Stream, we demonstrate the effectiveness and efficiency of TFMoE. Our results showcase superior performance and resilience in the face of catastrophic forgetting, underscoring the effectiveness of our approach in dealing with continual learning for traffic flow forecasting in long-term streaming networks. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# マルチモチーフ共有のためのフローティングアンカー拡散モデル
Floating Anchor Diffusion Model for Multi-motif Scaffolding ( http://arxiv.org/abs/2406.03141v1 ) ライセンス: Link先を確認 | Ke Liu, Weian Mao, Shuaike Shen, Xiaoran Jiao, Zheng Sun, Hao Chen, Chunhua Shen, | (参考訳) モチフの足場は、ワクチンや酵素の設計に欠かせない、所望のモチーフから派生した機能を持つタンパク質を構築するための足場構造を設計することを目指している。
先行研究は、塗装や条件付き生成によってこの問題にアプローチする。
どちらも固定位置の足場モチーフしか持たず、条件生成はモチーフの存在を保証できない。
しかし、タンパク質の相対的なモチーフ位置に関する事前の知識は容易には得られず、1つのタンパク質に複数の機能を持つタンパク質を構築することは、機能間の相乗効果のためにより一般的で重要なものである。
フローティングアンカー拡散(FADiff)モデルを提案する。
FADiffは、拡散の過程でモチーフが厳格かつ独立して浮き上がることを可能にし、モチーフの存在を保証し、モチーフの位置設計を自動化する。
実験では, 高い成功率と設計可能な新規足場を有するFADiffの有効性を実証した。
我々の知る限りでは、FADiffはタンパク質の相対的なモチーフ位置の専門知識に頼ることなく、複数のモチーフを足場として扱うという課題に取り組む最初の試みである。
コードはhttps://github.com/aim-uofa/FADiffで入手できる。
Motif scaffolding seeks to design scaffold structures for constructing proteins with functions derived from the desired motif, which is crucial for the design of vaccines and enzymes. Previous works approach the problem by inpainting or conditional generation. Both of them can only scaffold motifs with fixed positions, and the conditional generation cannot guarantee the presence of motifs. However, prior knowledge of the relative motif positions in a protein is not readily available, and constructing a protein with multiple functions in one protein is more general and significant because of the synergies between functions. We propose a Floating Anchor Diffusion (FADiff) model. FADiff allows motifs to float rigidly and independently in the process of diffusion, which guarantees the presence of motifs and automates the motif position design. Our experiments demonstrate the efficacy of FADiff with high success rates and designable novel scaffolds. To the best of our knowledge, FADiff is the first work to tackle the challenge of scaffolding multiple motifs without relying on the expertise of relative motif positions in the protein. Code is available at https://github.com/aim-uofa/FADiff. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 公平な分類と表現におけるランダム化の力について
On the Power of Randomization in Fair Classification and Representation ( http://arxiv.org/abs/2406.03142v1 ) ライセンス: Link先を確認 | Sushant Agarwal, Amit Deshpande, | (参考訳) 公平な分類と公平な表現学習は、それぞれ教師なしと教師なしの公正な機械学習において重要な2つの問題である。
公平な分類は、公正な制約の対象となる所定のデータ分布の精度を最大化する分類器を求める。
公正表現は、元の特徴空間上の与えられたデータ分布を、表現上のすべての分類器が公正性を満たすような新しい表現空間上の分布にマッピングする。
本稿では,両問題におけるランダム化のパワーについて検討し,公平性制約を課すと得られる精度の損失を最小限に抑える。
公正な分類に関するこれまでの研究は、公正な制約(例えば、デモグラフィック・パリティ(DP)、平等な機会(EO)、予測的平等(PE)といった、公正な制約による精度を最大化する、与えられたデータ分布上の最適な公平な分類器を特徴付けてきた。
最適ランダム化公正分類器がそれらの決定論的分類を精度で超越できることを示すために,これらの特徴を洗練する。
また、凸最適化問題の解法として、我々が特徴付ける最適ランダム化公正分類器がどう得られるかを示す。
最近の研究は、与えられたデータ分布に対して公平な表現を構築する技術を提供し、この表現上の分類器がDPを満たすようにしている。
しかし、これらの公正表現上の分類器は、元のデータ分布における最適な公平な分類器と比較して、全くまたは弱い精度を保証する。
ランダム化された公平な分類のためのアイデアを拡張し、これらの作業を改善し、DP-fair, EO-fair, PE-fair表現を構築し、それぞれオリジナルのデータ分布において最適なDP-fair, EO-fair, PE-fair分類器と比較して、高い精度で精度を損なわない。
Fair classification and fair representation learning are two important problems in supervised and unsupervised fair machine learning, respectively. Fair classification asks for a classifier that maximizes accuracy on a given data distribution subject to fairness constraints. Fair representation maps a given data distribution over the original feature space to a distribution over a new representation space such that all classifiers over the representation satisfy fairness. In this paper, we examine the power of randomization in both these problems to minimize the loss of accuracy that results when we impose fairness constraints. Previous work on fair classification has characterized the optimal fair classifiers on a given data distribution that maximize accuracy subject to fairness constraints, e.g., Demographic Parity (DP), Equal Opportunity (EO), and Predictive Equality (PE). We refine these characterizations to demonstrate when the optimal randomized fair classifiers can surpass their deterministic counterparts in accuracy. We also show how the optimal randomized fair classifier that we characterize can be obtained as a solution to a convex optimization problem. Recent work has provided techniques to construct fair representations for a given data distribution such that any classifier over this representation satisfies DP. However, the classifiers on these fair representations either come with no or weak accuracy guarantees when compared to the optimal fair classifier on the original data distribution. Extending our ideas for randomized fair classification, we improve on these works, and construct DP-fair, EO-fair, and PE-fair representations that have provably optimal accuracy and suffer no accuracy loss compared to the optimal DP-fair, EO-fair, and PE-fair classifiers respectively on the original data distribution. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# ZeroPur: Sccinct Training-Free Adversarial Purification
ZeroPur: Succinct Training-Free Adversarial Purification ( http://arxiv.org/abs/2406.03143v1 ) ライセンス: Link先を確認 | Xiuli Bi, Zonglin Yang, Bo Liu, Xiaodong Cun, Chi-Man Pun, Pietro Lio, Bin Xiao, | (参考訳) 敵の浄化は、被害者の分類法を変更することなく、様々な目に見えない敵の攻撃を防御できる防御技術の一種である。
既存の方法は、しばしば外部生成モデルや補助機能と被害者分類器の協調に依存する。
しかし、生成モデル、補助関数、または犠牲者分類器の再訓練は、微調整データセットのドメインに依存し、計算に費やしている。
本研究では, 逆像は自然像多様体の外周であり, 浄化過程はこの多様体に戻すものとみなすことができる。
この仮定に従うと、ZeroPurと呼ばれる逆画像の浄化を更なる訓練することなく、単純な逆画像浄化法を提案する。
ZeroPurは2つのステップを含む: 逆の例が与えられたとき、ガイド付きシフトは、そのぼやけた例のシフト埋め込みを、そのぼやけた例のガイダンスによって取得し、その後、アダプティブ投影は、シフト埋め込みによって方向ベクトルを構築し、運動量を提供し、多様体に逆像を適応的に投影する。
ZeroPurは外部モデルとは独立しており、被害者の分類器や補助関数の再訓練は必要としない。
各種分類器アーキテクチャ(ResNet, WideResNet)を用いた3つのデータセット(CIFAR-10, CIFAR-100, ImageNet-1K)の大規模実験により,本手法が最先端のロバストな性能を実現することを示す。
コードは公開されます。
Adversarial purification is a kind of defense technique that can defend various unseen adversarial attacks without modifying the victim classifier. Existing methods often depend on external generative models or cooperation between auxiliary functions and victim classifiers. However, retraining generative models, auxiliary functions, or victim classifiers relies on the domain of the fine-tuned dataset and is computation-consuming. In this work, we suppose that adversarial images are outliers of the natural image manifold and the purification process can be considered as returning them to this manifold. Following this assumption, we present a simple adversarial purification method without further training to purify adversarial images, called ZeroPur. ZeroPur contains two steps: given an adversarial example, Guided Shift obtains the shifted embedding of the adversarial example by the guidance of its blurred counterparts; after that, Adaptive Projection constructs a directional vector by this shifted embedding to provide momentum, projecting adversarial images onto the manifold adaptively. ZeroPur is independent of external models and requires no retraining of victim classifiers or auxiliary functions, relying solely on victim classifiers themselves to achieve purification. Extensive experiments on three datasets (CIFAR-10, CIFAR-100, and ImageNet-1K) using various classifier architectures (ResNet, WideResNet) demonstrate that our method achieves state-of-the-art robust performance. The code will be publicly available. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 空間平滑化と逐次一般変動モード分解に基づく動的特徴抽出によるLSTMによる時系列予測の組合せモデル
A Combination Model for Time Series Prediction using LSTM via Extracting Dynamic Features Based on Spatial Smoothing and Sequential General Variational Mode Decomposition ( http://arxiv.org/abs/2406.03144v1 ) ライセンス: Link先を確認 | Jianyu Liu, Wei Chen, Yong Zhang, Zhenfeng Chen, Bin Wan, Jinwei Hu, | (参考訳) 時系列予測における市場販売量などの複雑な関係に起因する,有効特徴の抽出や販売量予測の精度の低下といった課題を解決するために,逐次一般VMDと空間平滑化ロング短期記憶ニューラルネットワーク(SS-LSTM)の組み合わせモデルに基づく市場販売量の時系列予測手法を提案した。
まず、空間平滑化アルゴリズムを用いて、市場セクターの連携効果によって影響を受ける関連産業セクターのサンプルデータを分解・算出し、市場全体および特定の価格動向についてシークエンシャル・ジェネラルVMDを介して情報を含むモーダル特徴を抽出し、その後、異なるマーケットデータセットの背景から、LSTMネットワークを用いて基本データとモーダル特性の価格をモデル化・予測する。
季節的・周期的な傾向によるデータ予測実験の結果,従来の予測手法と比較して,価格予測精度が高く,特定の市場状況において精度の高いデータ予測が可能であることが示唆された。
In order to solve the problems such as difficult to extract effective features and low accuracy of sales volume prediction caused by complex relationships such as market sales volume in time series prediction, we proposed a time series prediction method of market sales volume based on Sequential General VMD and spatial smoothing Long short-term memory neural network (SS-LSTM) combination model. Firstly, the spatial smoothing algorithm is used to decompose and calculate the sample data of related industry sectors affected by the linkage effect of market sectors, extracting modal features containing information via Sequential General VMD on overall market and specific price trends; Then, according to the background of different Market data sets, LSTM network is used to model and predict the price of fundamental data and modal characteristics. The experimental results of data prediction with seasonal and periodic trends show that this method can achieve higher price prediction accuracy and more accurate accuracy in specific market contexts compared to traditional prediction methods Describe the changes in market sales volume. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# セルネットワークを通過するE(n)同変メッセージ
E(n) Equivariant Message Passing Cellular Networks ( http://arxiv.org/abs/2406.03145v1 ) ライセンス: Link先を確認 | Veljko Kovac, Erik J. Bekkers, Pietro Liò, Floor Eijkelboom, | (参考訳) 本稿では、E(n)同変グラフニューラルネットワークをCW-複合体に拡張した、E(n)同変メッセージパッシングセルネットワーク(EMPCN)を紹介する。
我々のアプローチは幾何学的メッセージパッシングネットワークの2つの側面に対処する。
1)任意の細胞を組み込んで表現力を高めること
2) 切り離されたEMPCNs技術により, 計算効率が向上した。
EMPCNは、多体予測やモーションキャプチャなど、操りやすさを必要とせず、複数のタスクにおける最先端性能に近いことを実証する。
さらに, 脱結合型EMPCNは非トポロジカルに情報を得たものよりも強い一般化能力を示すことが, アブレーション研究により確認された。
これらの結果から,EMPCNは幾何学的およびトポロジ的グラフにおける高次メッセージパッシングのためのスケーラブルで表現力のあるフレームワークとして利用できることが示された。
This paper introduces E(n) Equivariant Message Passing Cellular Networks (EMPCNs), an extension of E(n) Equivariant Graph Neural Networks to CW-complexes. Our approach addresses two aspects of geometric message passing networks: 1) enhancing their expressiveness by incorporating arbitrary cells, and 2) achieving this in a computationally efficient way with a decoupled EMPCNs technique. We demonstrate that EMPCNs achieve close to state-of-the-art performance on multiple tasks without the need for steerability, including many-body predictions and motion capture. Moreover, ablation studies confirm that decoupled EMPCNs exhibit stronger generalization capabilities than their non-topologically informed counterparts. These findings show that EMPCNs can be used as a scalable and expressive framework for higher-order message passing in geometric and topological graphs | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 微小データからのTinyモデル:数発蒸留におけるテキストとヌルテキストの逆変換
Tiny models from tiny data: Textual and null-text inversion for few-shot distillation ( http://arxiv.org/abs/2406.03146v1 ) ライセンス: Link先を確認 | Erik Landolsi, Fredrik Kahl, | (参考訳) ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
知識蒸留を用いて、高性能だが遅いモデルの能力は、小型で効率的なモデルに移すことができる。
しかし、一般的な蒸留法ではラベルのない大量のデータを必要とするが、これは数ショットの環境では利用できない。
このデータ不足を克服するために、最近は合成データの使用に関心がある。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
この手法を数発の蒸留パイプラインで使用すると、一般的なベンチマーク上の小さな学生モデルの間で最先端の精度が得られるが、前よりもかなり高速である。
これにより、事前トレーニングに余分なデータに依存するにも関わらず、小さなアプリケーション固有のデータセットのみを使用して、さらに小さなモデルを高精度にプッシュすることが可能になります。
人気のある数ショットのベンチマークでは、多数のエピソードに対して評価が行われており、合成データ生成を含む手法では計算に煩雑である。
そこで本研究では,精度推定器のばらつきがエピソード数やクエリの例にどのように依存するかを理論的に分析し,これらの結果を用いて,手法評価に必要な計算労力を低減させる。
さらに, 数発蒸留における生成モデルの利用をさらに促進するために, 拡散モデルのトレーニングに使用するデータセットから抽出した実データに対して, 実データによるトレーニングよりも優れた性能を示すことを示す。
ソースコードはhttps://github.com/pixwse/tiny2.comから入手できる。
Few-shot image classification involves classifying images using very few training examples. Recent vision foundation models show excellent few-shot transfer abilities, but are large and slow at inference. Using knowledge distillation, the capabilities of high-performing but slow models can be transferred to tiny, efficient models. However, common distillation methods require a large set of unlabeled data, which is not available in the few-shot setting. To overcome this lack of data, there has been a recent interest in using synthetic data. We expand on this work by presenting a novel diffusion model inversion technique (TINT) combining the diversity of textual inversion with the specificity of null-text inversion. Using this method in a few-shot distillation pipeline leads to state-of-the-art accuracy among small student models on popular benchmarks, while being significantly faster than prior work. This allows us to push even tiny models to high accuracy using only a tiny application-specific dataset, albeit relying on extra data for pre-training. Popular few-shot benchmarks involve evaluation over a large number of episodes, which is computationally cumbersome for methods involving synthetic data generation. Therefore, we also present a theoretical analysis on how the variance of the accuracy estimator depends on the number of episodes and query examples, and use these results to lower the computational effort required for method evaluation. In addition, to further motivate the use of generative models in few-shot distillation, we demonstrate that our method performs better compared to training on real data mined from the dataset used to train the diffusion model. Source code will be made available at https://github.com/pixwse/tiny2. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 量子コンピュータにおける正準第二量子化の動的実装
A dynamical implementation of canonical second quantization on a quantum computer ( http://arxiv.org/abs/2406.03147v1 ) ライセンス: Link先を確認 | Juan José Gálvez-Viruet, Felipe J. Llanes-Estrada, | (参考訳) 量子コンピュータの個別レジスタにおける生成・破壊演算子の実装に関する理論的手法を開発し、可変粒子数問題における第2量子化における粒子モードの透過的・動的生成と破壊を可能にする。
有限メモリバンク上の可換(反可換)関係の定理を確立し、必要となる対称性および反対称性作用素を提供する。
最後に、従来の 2-体および 4-体ハミルトン項の下でのユニタリ進化に対するこれらの作用素の項の式と、粒子数の変更項を提供する。
この形式主義では、$n$粒子を$N_p$モードで成すために必要な量子ビットの数は、それぞれ$n\log_2 N_p$である。
そのようなスケーリングは、それぞれに多くの状態を持つ穏やかな数の粒子が存在する場合(そして、各状態がほとんどない多数の粒子に対してより有利でない場合)に、$O(N_p)$ qubitsを必要とするジョーダン・ウィグナー変換よりも効率的である。
効率は低いが、コンパクトエンコーディングよりも扱いにくい。
We develop theoretical methods for the implementation of creation and destruction operators in separate registers of a quantum computer, allowing for a transparent and dynamical creation and destruction of particle modes in second quantization in problems with variable particle number. We establish theorems for the commutation (anticommutation) relations on a finite memory bank and provide the needed symmetrizing and antisymmetrizing operators. Finally, we provide formulae in terms of these operators for unitary evolution under conventional two- and four-body Hamiltonian terms, as well as terms varying the particle number. In this formalism, the number of qubits needed to codify $n$ particles with $N_p$ modes each is of order $n\log_2 N_p$. Such scaling is more efficient than the Jordan-Wigner transformation which requires $O(N_p)$ qubits, whenever there are a modest number of particles with a large number of states available to each (and less advantageous for a large number of particles with few states available to each). And although less efficient, it is also less cumbersome than compact encoding. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# Weisfeiler-Leman を用いたアライディングトランス
Aligning Transformers with Weisfeiler-Leman ( http://arxiv.org/abs/2406.03148v1 ) ライセンス: Link先を確認 | Luis Müller, Christopher Morris, | (参考訳) グラフニューラルネットワークアーキテクチャは、$k$-dimensional Weisfeiler--Leman(k$-WL)階層と一致し、理論的によく理解された表現力を提供する。
しかし、これらのアーキテクチャは実世界のグラフに最先端の予測性能を提供できず、実用性は制限される。
グラフトランスフォーマーアーキテクチャを$k$-WL階層に整合させる最近の研究は、有望な実証的な結果を示しているが、より高次の$k$のトランスフォーマーを使うことは、禁止されたランタイムと自己注意のメモリ複雑さと、実現不可能な数のアテンションヘッドのような非現実的なアーキテクチャ仮定のため、依然として困難である。
ここでは、変換器と$k$-WL階層のアライメントを進め、各$k$に対してより強い表現性結果を示し、実際により実現可能であることを示す。
さらに,Laplacian PEsやSPEなどの定位符号化の研究を可能にする理論フレームワークを開発した。
我々は、大規模PCQM4Mv2データセット上でトランスフォーマーを評価し、最先端技術と競合する予測性能を示し、小規模分子データセット上でそれらを微調整する場合に強力な下流性能を示す。
私たちのコードはhttps://github.com/luis-mueller/wl-transformers.comで利用可能です。
Graph neural network architectures aligned with the $k$-dimensional Weisfeiler--Leman ($k$-WL) hierarchy offer theoretically well-understood expressive power. However, these architectures often fail to deliver state-of-the-art predictive performance on real-world graphs, limiting their practical utility. While recent works aligning graph transformer architectures with the $k$-WL hierarchy have shown promising empirical results, employing transformers for higher orders of $k$ remains challenging due to a prohibitive runtime and memory complexity of self-attention as well as impractical architectural assumptions, such as an infeasible number of attention heads. Here, we advance the alignment of transformers with the $k$-WL hierarchy, showing stronger expressivity results for each $k$, making them more feasible in practice. In addition, we develop a theoretical framework that allows the study of established positional encodings such as Laplacian PEs and SPE. We evaluate our transformers on the large-scale PCQM4Mv2 dataset, showing competitive predictive performance with the state-of-the-art and demonstrating strong downstream performance when fine-tuning them on small-scale molecular datasets. Our code is available at https://github.com/luis-mueller/wl-transformers. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 視覚再生型プロンプティングのためのサンプル固有マスク
Sample-specific Masks for Visual Reprogramming-based Prompting ( http://arxiv.org/abs/2406.03150v1 ) ライセンス: Link先を確認 | Chengyi Cai, Zesheng Ye, Lei Feng, Jianzhong Qi, Feng Liu, | (参考訳) ビジュアル・リプログラミング(VR)は、事前訓練されたモデル(例えば、ImageNet上の分類器)を、モデル内のかなりのパラメータをチューニングせずに入力画像に付加された小さなパターンを学習することにより、タスク(例えば、医療データ予測)をターゲットとするプロンプト技術である。
入力サンプル内のパターンの位置は通常、すべてのサンプル間で共有される事前定義されたマスクによって決定される。
本稿では,共有マスクがVRの一般化を制限し,サンプルレベル適応の欠如により近似誤差を増大させる可能性を示す。
この発見に触発され、サンプル特異的マルチチャネルマスク(SMM)と呼ばれるVR用の新しいフレームワークを設計した。
具体的には、SMMは軽量なConvNetとパッチワイド補間を使用して、共有および事前定義されたマスクの代わりにサンプル固有の3チャンネルマスクを生成する。
個々のサンプルに対して異なるマスクを生成するため、SMMは既存の最先端VR手法と比較して目標タスクの近似誤差を低減することが理論的に示されている。
また、ResNetとViTの両方のパフォーマンス向上を実証的に実証しています。
SMMの成功は、様々な目標タスクに事前訓練されたモデルの潜在知識を活用することで、VRの幅広い適用性をさらに強調する。
私たちのコードはhttps://github.com/tmlr-group/SMMで利用可能です。
Visual reprogramming (VR) is a prompting technique that aims to re-purpose a pre-trained model (e.g., a classifier on ImageNet) to target tasks (e.g., medical data prediction) by learning a small-scale pattern added into input images instead of tuning considerable parameters within the model. The location of the pattern within input samples is usually determined by a pre-defined mask shared across all samples. In this paper, we show that the shared mask potentially limits VR's generalization and increases its approximation error due to the lack of sample-level adaptation. Motivated by this finding, we design a new framework for VR called sample-specific multi-channel masks (SMM). Specifically, SMM employs a lightweight ConvNet and patch-wise interpolation to generate sample-specific three-channel masks instead of a shared and pre-defined mask. Since we generate different masks for individual samples, SMM is theoretically shown to reduce approximation error for the target tasks compared with existing state-of-the-art VR methods. We also empirically demonstrate its performance gain on both ResNet and ViT. The success of SMM further highlights the broader applicability of VR in leveraging the latent knowledge of pre-trained models for various target tasks. Our code is available at https://github.com/tmlr-group/SMM. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# どちらをやっているのか? エンドツーエンドの議論の要約と評価のためのマルチタスクデータセット
Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation ( http://arxiv.org/abs/2406.03151v1 ) ライセンス: Link先を確認 | Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka, Iqra Zahid, Jiayan Zeng, Xiaochi Wang, Xinran He, Yizhi Li, Goran Nenadic, | (参考訳) 大規模言語モデル(LLM)の最近の進歩により、人々が説得力のある議論を合成するのに役立つ自動討論システムを構築することはもはや不可能である。
以前の作業では、複数のコンポーネントを統合することでこのタスクを試みていた。
本研究では,議論のための議論的エッセイ作成の終末過程を捉えた議論マイニングデータセットを導入し,主張的エッセイ作成作業(第1章ED),証拠検証性ランキング(第2章ECR),議論的エッセイ要約と人選好ランキング(第3章ASR),および議論的エッセイの自動評価のための計量学習(第4章SQE)について述べる。
私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。
代表的LCMを含む各タスクに対して,複数の生成ベースラインを評価する。
その結果、ベンチマークでは、個々のタスクに対して有望な結果を示す一方で、自動測定と人中心評価の両方において、4つのタスクの連続的なエンドツーエンドのパフォーマンスが著しく低下していることが判明した。
提案したデータセットが示す課題は、エンド・ツー・エンドの議論マイニングと要約に関する今後の研究を動機付けている。
このプロジェクトのリポジトリはhttps://github.com/HarrywillDr/ArgSum-Datatsetで公開されている。
With the recent advances of large language models (LLMs), it is no longer infeasible to build an automated debate system that helps people to synthesise persuasive arguments. Previous work attempted this task by integrating multiple components. In our work, we introduce an argument mining dataset that captures the end-to-end process of preparing an argumentative essay for a debate, which covers the tasks of claim and evidence identification (Task 1 ED), evidence convincingness ranking (Task 2 ECR), argumentative essay summarisation and human preference ranking (Task 3 ASR) and metric learning for automated evaluation of resulting essays, based on human feedback along argument quality dimensions (Task 4 SQE). Our dataset contains 14k examples of claims that are fully annotated with the various properties supporting the aforementioned tasks. We evaluate multiple generative baselines for each of these tasks, including representative LLMs. We find, that while they show promising results on individual tasks in our benchmark, their end-to-end performance on all four tasks in succession deteriorates significantly, both in automated measures as well as in human-centred evaluation. This challenge presented by our proposed dataset motivates future research on end-to-end argument mining and summarisation. The repository of this project is available at https://github.com/HarrywillDr/ArgSum-Datatset | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 確率近似保証を用いた動的スペクトルクラスタリング
Dynamic Spectral Clustering with Provable Approximation Guarantee ( http://arxiv.org/abs/2406.03152v1 ) ライセンス: Link先を確認 | Steinar Laenen, He Sun, | (参考訳) 本稿では、グラフに新たなエッジ(および潜在的な新しい頂点)を追加し、グラフの基盤となるクラスタ構造が徐々に変化するような、動的に進化するグラフに対するクラスタリングアルゴリズムについて研究する。
この論文は、クラスタ構造上のいくつかの緩やかな条件下で、最終グラフのクラスタが$G_T$ of $n_T$ vertices at time $T$をスペクトルクラスタリングアルゴリズムの動的変種によってうまく近似できることを証明している。
このアルゴリズムは、償却更新時間$O(1)$とクエリ時間$o(n_T)$で実行される。
合成と実世界の両方のデータセットに関する実験的研究により、我々の設計したアルゴリズムの実用性がさらに裏付けられる。
This paper studies clustering algorithms for dynamically evolving graphs $\{G_t\}$, in which new edges (and potential new vertices) are added into a graph, and the underlying cluster structure of the graph can gradually change. The paper proves that, under some mild condition on the cluster-structure, the clusters of the final graph $G_T$ of $n_T$ vertices at time $T$ can be well approximated by a dynamic variant of the spectral clustering algorithm. The algorithm runs in amortised update time $O(1)$ and query time $o(n_T)$. Experimental studies on both synthetic and real-world datasets further confirm the practicality of our designed algorithm. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# ニューラルネットワークによる償却ベイズ推論におけるモデルミス種別検出:拡張的検討
Detecting Model Misspecification in Amortized Bayesian Inference with Neural Networks: An Extended Investigation ( http://arxiv.org/abs/2406.03154v1 ) ライセンス: Link先を確認 | Marvin Schmitt, Paul-Christian Bürkner, Ullrich Köthe, Stefan T. Radev, | (参考訳) 確率的深層学習の最近の進歩は、確率関数がシミュレーションプログラム(シミュレーションベース推論、SBI)によって暗黙的にのみ定義される設定において、効率の良い減弱ベイズ推論を可能にする。
しかし、シミュレーションが現実を幾らか不正確に表現しているなら、そのような推論はどれほど忠実なのだろうか。
我々は,SBIにおけるそのようなモデルの誤識別のタイプを概念化し,神経後部近似器の性能が徐々に低下し,推論結果の信頼性が低下することを示した。
この問題をユーザに通知するために、教師なしの方法で訓練できる新しい不特定性尺度(すなわち、真の分布からデータをトレーニングせずに)を提案し、テスト時にモデルの不特定性を確実に検出する。
本実験は,解析的基盤構造を持つ玩具の事例と,細胞生物学,認知的意思決定,疾患発生のダイナミクス,コンピュータビジョンにおける代表的な科学的課題の両方において,新しい尺度の有用性を実証するものである。
提案手法は,不審な出力をユーザに警告し,予測が信頼できない場合に警告を発し,モデル設計者がより良いシミュレータを探索する際の指針となることを示す。
Recent advances in probabilistic deep learning enable efficient amortized Bayesian inference in settings where the likelihood function is only implicitly defined by a simulation program (simulation-based inference; SBI). But how faithful is such inference if the simulation represents reality somewhat inaccurately, that is, if the true system behavior at test time deviates from the one seen during training? We conceptualize the types of such model misspecification arising in SBI and systematically investigate how the performance of neural posterior approximators gradually deteriorates as a consequence, making inference results less and less trustworthy. To notify users about this problem, we propose a new misspecification measure that can be trained in an unsupervised fashion (i.e., without training data from the true distribution) and reliably detects model misspecification at test time. Our experiments clearly demonstrate the utility of our new measure both on toy examples with an analytical ground-truth and on representative scientific tasks in cell biology, cognitive decision making, disease outbreak dynamics, and computer vision. We show how the proposed misspecification test warns users about suspicious outputs, raises an alarm when predictions are not trustworthy, and guides model designers in their search for better simulators. | 翻訳日:2024-06-06 18:50:02 公開日:2024-06-05 |
# 時系列予測のための逐次一般変分モード分解法に基づく組合せモデル
A Combination Model Based on Sequential General Variational Mode Decomposition Method for Time Series Prediction ( http://arxiv.org/abs/2406.03157v1 ) ライセンス: Link先を確認 | Wei Chen, Yuanyuan Yang, Jianyu Liu, | (参考訳) 金融時系列の正確な予測は、市場経済のメーカーや投資家にとって重要な懸念である。
本記事は、ノン定常、トレンド、季節金融時系列の代表として、オンラインストアの販売とオーストラリアビールの販売を選択し、ノンリニアコンビネーション方式で新しいSGVMD-ARIMA組合せモデルを構築し、財務時系列を予測する。
ARIMAモデル、LSTMモデル、その他の古典的分解予測モデルは、異なるモデルの精度を比較するために制御モデルとして使用される。
実験結果から,構成された組合せ予測モデルが,制御群の単一予測モデルと線形結合予測モデルに対して普遍的な優位性を持つことが示唆された。
予測区間内では,従来の分解予測群モデルよりも利点が向上した。
Accurate prediction of financial time series is a key concern for market economy makers and investors. The article selects online store sales and Australian beer sales as representatives of non-stationary, trending, and seasonal financial time series, and constructs a new SGVMD-ARIMA combination model in a non-linear combination way to predict financial time series. The ARIMA model, LSTM model, and other classic decomposition prediction models are used as control models to compare the accuracy of different models. The empirical results indicate that the constructed combination prediction model has universal advantages over the single prediction model and linear combination prediction model of the control group. Within the prediction interval, our proposed combination model has improved advantages over traditional decomposition prediction control group models. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# CSS: LLMの不確実性定量のための対照的な意味的類似性
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs ( http://arxiv.org/abs/2406.03158v1 ) ライセンス: Link先を確認 | Shuang Ao, Stefan Rueger, Advaith Siddharthan, | (参考訳) 大きな言語モデル(LLM)の印象的な能力にもかかわらず、世代をいつ信頼するかを知ることはオープンな課題である。
自然言語生成の不確実性定量化(NLG)に関する最近の研究は、従来の自然言語推論(NLI)分類器を用いて、LLM応答のセマンティックな分散を測定する。
これらの研究は、意味的クラスタリングのためにNLI分類器のロジットを用いて不確実性を推定する。
しかし、ロジットは予測されたクラスの確率を表し、潜在的なクラスタリングの特徴情報をほとんど含まない。
あるいは、CLIP(Contrastive Language- Image Pre-training)は、画像とテキストのペアの特徴を抽出し、それらの類似性を測定する。
ユーザビリティを向上させるために,CLIPベースの特徴抽出モジュールであるContrastive Semantic similarityを提案する。
本手法を選択的NLGに適用し,LCMの信頼性向上のために,信頼できない世代を検出・拒否する。
我々は,総合的な評価指標を持つ複数のベンチマーク質問応答データセットに対して,3つのLLMを用いた広範囲な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
コードは \url{https://github.com/AoShuang92/css_uq_llms} で公開されている。
Despite the impressive capability of large language models (LLMs), knowing when to trust their generations remains an open challenge. The recent literature on uncertainty quantification of natural language generation (NLG) utilises a conventional natural language inference (NLI) classifier to measure the semantic dispersion of LLMs responses. These studies employ logits of NLI classifier for semantic clustering to estimate uncertainty. However, logits represent the probability of the predicted class and barely contain feature information for potential clustering. Alternatively, CLIP (Contrastive Language-Image Pre-training) performs impressively in extracting image-text pair features and measuring their similarity. To extend its usability, we propose Contrastive Semantic Similarity, the CLIP-based feature extraction module to obtain similarity features for measuring uncertainty for text pairs. We apply this method to selective NLG, which detects and rejects unreliable generations for better trustworthiness of LLMs. We conduct extensive experiments with three LLMs on several benchmark question-answering datasets with comprehensive evaluation metrics. Results show that our proposed method performs better in estimating reliable responses of LLMs than comparable baselines. Results show that our proposed method performs better in estimating reliable responses of LLMs than comparable baselines. The code are available at \url{https://github.com/AoShuang92/css_uq_llms}. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# 臨床予測モデル管理におけるホールドアウトセットの使用に関する倫理的考察
Ethical considerations of use of hold-out sets in clinical prediction model management ( http://arxiv.org/abs/2406.03161v1 ) ライセンス: Link先を確認 | Louis Chislett, Louis JM Aslett, Alisha R Davies, Catalina A Vallejos, James Liley, | (参考訳) 臨床予測モデルは、患者データを用いて特定の健康結果のリスクを定量化する統計モデルまたは機械学習モデルである。
予測は、予測しようとする結果に影響を与える介入を通知し、このデータに基づいてモデルが更新された場合、一部の患者がリスクを過小評価する可能性がある。
これに対する1つの解決策は、患者がモデル由来のリスクスコアを受け取らず、モデルが安全に再トレーニングされるように、ホールドアウトセットを使用することである。
本稿では,健康状態における臨床予測モデルのためのホールドアウトセットの実装の可能性に関する臨床・研究倫理の概観を述べる。
我々は、善意、非正当性、自律性、正義の倫理的原則に焦点をあてる。
我々はまた、インフォームド・コンセント、臨床等価性、真理性についても論じる。
本稿では,潜在的なホールドアウトセット実装の具体例を示し,異なるホールドアウトセットサンプリング手法による統計的問題について議論する。
また、倫理や統計的問題の観点から、ホールドアウトセットとランダム化制御試験の違いについても論じる。
最後に,臨床予測モデルにおけるホルドアウトセットの使用に関心のある研究者に対して,実用的な推奨を行う。
Clinical prediction models are statistical or machine learning models used to quantify the risk of a certain health outcome using patient data. These can then inform potential interventions on patients, causing an effect called performative prediction: predictions inform interventions which influence the outcome they were trying to predict, leading to a potential underestimation of risk in some patients if a model is updated on this data. One suggested resolution to this is the use of hold-out sets, in which a set of patients do not receive model derived risk scores, such that a model can be safely retrained. We present an overview of clinical and research ethics regarding potential implementation of hold-out sets for clinical prediction models in health settings. We focus on the ethical principles of beneficence, non-maleficence, autonomy and justice. We also discuss informed consent, clinical equipoise, and truth-telling. We present illustrative cases of potential hold-out set implementations and discuss statistical issues arising from different hold-out set sampling methods. We also discuss differences between hold-out sets and randomised control trials, in terms of ethics and statistical issues. Finally, we give practical recommendations for researchers interested in the use hold-out sets for clinical prediction models. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# トポロジカルニューラルネットワークは永続的、同変的、連続的になる
Topological Neural Networks go Persistent, Equivariant, and Continuous ( http://arxiv.org/abs/2406.03164v1 ) ライセンス: Link先を確認 | Yogesh Verma, Amauri H Souza, Vikas Garg, | (参考訳) トポロジカルニューラルネットワーク(TNN)は、ペアの相互作用を超えた高次リレーショナル情報を取り入れ、グラフニューラルネットワーク(GNN)よりもリッチな表現を可能にする。
同時に、永続的ホモロジー(PH)に基づくトポロジカル記述子は、GNNを増強するためにますます採用されている。
これら2つのパラダイムを統合するメリットについて検討する。
具体的には、GNN/TNNとPHの交差において、RePHINEやTOGLなどの様々な手法を仮定し、統一するフレームワークとしてTopNetsを導入する。
TopNetsは、TNNとPHのスコープを空間的設定に拡張することで、(対称性の)幾何学的コンプレックスを扱うように容易に適応することができる。
理論的には、PHディスクリプタは、単純なメッセージパッシングネットワークの表現性を向上させることができる。
実証的に、TopNetsは抗体設計、分子動力学シミュレーション、薬物特性予測など様々なタスクで強い性能を発揮する。
Topological Neural Networks (TNNs) incorporate higher-order relational information beyond pairwise interactions, enabling richer representations than Graph Neural Networks (GNNs). Concurrently, topological descriptors based on persistent homology (PH) are being increasingly employed to augment the GNNs. We investigate the benefits of integrating these two paradigms. Specifically, we introduce TopNets as a broad framework that subsumes and unifies various methods in the intersection of GNNs/TNNs and PH such as (generalizations of) RePHINE and TOGL. TopNets can also be readily adapted to handle (symmetries in) geometric complexes, extending the scope of TNNs and PH to spatial settings. Theoretically, we show that PH descriptors can provably enhance the expressivity of simplicial message-passing networks. Empirically, (continuous and E(n)-equivariant extensions of) TopNets achieve strong performance across diverse tasks, including antibody design, molecular dynamics simulation, and drug property prediction. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# StatBot.Swiss: 自然言語によるバイリンガルなオープンデータ探索
StatBot.Swiss: Bilingual Open Data Exploration in Natural Language ( http://arxiv.org/abs/2406.03170v1 ) ライセンス: Link先を確認 | Farhad Nooralahzadeh, Yi Zhang, Ellery Smith, Sabine Maennel, Cyril Matthey-Doret, Raphaël de Fondville, Kurt Stockinger, | (参考訳) Text-to-SQLシステムにおけるLarge Language Models (LLM)による改善の可能性は、主にモノリンガルな英語データセットに基づいて評価される。
しかし、他の言語に対するLLMのパフォーマンスは、いまだに明らかにされていない。
本研究では、現実世界のアプリケーションに基づいてテキストからSQLシステムを評価するための最初のバイリンガルベンチマークであるStatBot.Swissデータセットをリリースする。
StatBot.Swissデータセットには、英語とドイツ語の両方でさまざまなレベルの複雑さを持つ35以上の大きなデータベースに、455の自然言語/SQLペアが含まれている。
GPT-3.5-Turboやmixtral-8x7b-instruct for the Text-to-SQL translation task using an in-context learning approach。
我々の実験分析は、現在のLLMが、新しいバイリンガルデータセットでSQLクエリを生成するのに、うまく一般化するのに苦労していることを示している。
The potential for improvements brought by Large Language Models (LLMs) in Text-to-SQL systems is mostly assessed on monolingual English datasets. However, LLMs' performance for other languages remains vastly unexplored. In this work, we release the StatBot.Swiss dataset, the first bilingual benchmark for evaluating Text-to-SQL systems based on real-world applications. The StatBot.Swiss dataset contains 455 natural language/SQL-pairs over 35 big databases with varying level of complexity for both English and German. We evaluate the performance of state-of-the-art LLMs such as GPT-3.5-Turbo and mixtral-8x7b-instruct for the Text-to-SQL translation task using an in-context learning approach. Our experimental analysis illustrates that current LLMs struggle to generalize well in generating SQL queries on our novel bilingual dataset. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# 共変量シフト下の高次元カーネル法:データ依存的命令規則化
High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization ( http://arxiv.org/abs/2406.03171v1 ) ライセンス: Link先を確認 | Yihang Chen, Fanghui Liu, Taiji Suzuki, Volkan Cevher, | (参考訳) 本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討し,重大化の役割を解析する。
まず、共変量シフトの下で高次元核の漸近展開を導出する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
この分析では、バイアスと分散は、データ依存正規化カーネルのスペクトル崩壊によって特徴づけられる: 元のカーネル行列は、追加の再重み付け行列に関連付けられ、したがって、再重み付け戦略は、よりよく理解するためのデータ依存正規化と見なすことができる。
さらに、我々の分析は、共変量シフトの下でのカーネル関数/ベクターの漸近的な拡張を提供する。
This paper studies kernel ridge regression in high dimensions under covariate shifts and analyzes the role of importance re-weighting. We first derive the asymptotic expansion of high dimensional kernels under covariate shifts. By a bias-variance decomposition, we theoretically demonstrate that the re-weighting strategy allows for decreasing the variance. For bias, we analyze the regularization of the arbitrary or well-chosen scale, showing that the bias can behave very differently under different regularization scales. In our analysis, the bias and variance can be characterized by the spectral decay of a data-dependent regularized kernel: the original kernel matrix associated with an additional re-weighting matrix, and thus the re-weighting strategy can be regarded as a data-dependent regularization for better understanding. Besides, our analysis provides asymptotic expansion of kernel functions/vectors under covariate shift, which has its own interest. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# ドメイン分解(IDPINN)を用いた初期化強化物理インフォームドニューラルネットワーク
Initialization-enhanced Physics-Informed Neural Network with Domain Decomposition (IDPINN) ( http://arxiv.org/abs/2406.03172v1 ) ライセンス: Link先を確認 | Chenhao Si, Ming Yan, | (参考訳) 本稿では,予測精度を向上させるために,初期化と領域分解の強化に基づく新しい物理インフォームドニューラルネットワークフレームワークIDPINNを提案する。
各サブドメイン毎にPINNを初期化する重み付き行列とバイアスを含む初期ネットワーク構造を得るために,小さなデータセットを用いてPINNをトレーニングする。
さらに,インターフェース上の滑らかさ条件を利用して予測性能を向上させる。
我々は,いくつかの前方問題に対して数値的に評価し,IDPINNの利点を精度で実証した。
We propose a new physics-informed neural network framework, IDPINN, based on the enhancement of initialization and domain decomposition to improve prediction accuracy. We train a PINN using a small dataset to obtain an initial network structure, including the weighted matrix and bias, which initializes the PINN for each subdomain. Moreover, we leverage the smoothness condition on the interface to enhance the prediction performance. We numerically evaluated it on several forward problems and demonstrated the benefits of IDPINN in terms of accuracy. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# 効率的な医用画像分割のためのマルチタスクマルチスケールコントラスト知識蒸留
Multi-Task Multi-Scale Contrastive Knowledge Distillation for Efficient Medical Image Segmentation ( http://arxiv.org/abs/2406.03173v1 ) ライセンス: Link先を確認 | Risab Biswas, | (参考訳) この論文は、医療画像セグメンテーションタスクのためのニューラルネットワーク間の知識伝達の実現可能性を検討することを目的としており、特に、より大規模なマルチタスク"Teacher"ネットワークからより小さな"Student"ネットワークへの移行に焦点を当てている。
データボリュームが制限される医療画像の文脈では、より大きなトレーニング済みネットワークからの知識を活用することが有用である。
主な目的は、CT画像上で訓練されたマルチタスク事前学習アーキテクチャを採用する教師モデルによって得られた知識表現を、教師モデルよりも50%程度のデータで訓練された、基本的にはそれより小さなバージョンの学生ネットワークに組み込むことにより、より小さな学生モデルの性能を高めることである。
両モデル間の知識伝達を容易にするため,マルチスケールな特徴蒸留と教師付きコントラスト学習を取り入れたアーキテクチャを考案した。
本研究の目的は,教師モデルから知識表現を統合することで,学生モデルの性能を向上させることである。
本稿では,この手法が,限られた計算資源と限られたトレーニングデータ可用性を持つシナリオにおいて特に有効かどうかを検討する。
マルチスケール蒸留の効果を評価するため, 広範囲な実験を行った。
また,エンコーダ層からの低レベル特徴を含む様々なスケールの知識を効果的に伝達するために,知識の除去が不可欠かどうかを詳細に検討した。
さらに, 知識蒸留プロセスにおける損失の相違について検討し, 総合的な性能への影響について考察した。
This thesis aims to investigate the feasibility of knowledge transfer between neural networks for medical image segmentation tasks, specifically focusing on the transfer from a larger multi-task "Teacher" network to a smaller "Student" network. In the context of medical imaging, where the data volumes are often limited, leveraging knowledge from a larger pre-trained network could be useful. The primary objective is to enhance the performance of a smaller student model by incorporating knowledge representations acquired by a teacher model that adopts a multi-task pre-trained architecture trained on CT images, to a more resource-efficient student network, which can essentially be a smaller version of the same, trained on a mere 50% of the data than that of the teacher model. To facilitate knowledge transfer between the two models, we devised an architecture incorporating multi-scale feature distillation and supervised contrastive learning. Our study aims to improve the student model's performance by integrating knowledge representations from the teacher model. We investigate whether this approach is particularly effective in scenarios with limited computational resources and limited training data availability. To assess the impact of multi-scale feature distillation, we conducted extensive experiments. We also conducted a detailed ablation study to determine whether it is essential to distil knowledge at various scales, including low-level features from encoder layers, for effective knowledge transfer. In addition, we examine different losses in the knowledge distillation process to gain insights into their effects on overall performance. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# 都市域における動的3次元ガウス場
Dynamic 3D Gaussian Fields for Urban Areas ( http://arxiv.org/abs/2406.03175v1 ) ライセンス: Link先を確認 | Tobias Fischer, Jonas Kulhanek, Samuel Rota Bulò, Lorenzo Porzi, Marc Pollefeys, Peter Kontschieder, | (参考訳) 大規模でダイナミックな都市部における新規ビュー合成(NVS)のための効率的なニューラル3Dシーン表現法を提案する。
既存の作品は、視覚的品質や非インタラクティブなレンダリング速度に制限があるため、混合現実性や閉ループシミュレーションのようなアプリケーションには適していない。
近年、ラスタライズベースのアプローチは、印象的な速度で高品質なNVSを実現している。
しかし、これらの手法は小規模で均質なデータに限られており、気象、季節、照明などによる厳密な外観や幾何学的な変化には対応できず、何千もの画像を持つ大規模でダイナミックな領域にも拡張できない。
本研究では,大規模都市に拡大し,異種入力データを処理し,レンダリング速度を大幅に向上するニューラルネットワークシーン表現である4DGFを提案する。
我々は、コンパクトで柔軟な外観モデルとして、ニューラルネットワークを頼りながら、3Dガウスを効率的な幾何学的足場として利用する。
局所的な動きを変形によってモデル化しながら,世界規模でシーングラフを通してシーンダイナミクスを統合する。
この分解されたアプローチは、現実のアプリケーションに適した柔軟なシーン構成を可能にする。
実験では,PSNRでは3dB以上,レンダリング速度は200倍以上に向上した。
We present an efficient neural 3D scene representation for novel-view synthesis (NVS) in large-scale, dynamic urban areas. Existing works are not well suited for applications like mixed-reality or closed-loop simulation due to their limited visual quality and non-interactive rendering speeds. Recently, rasterization-based approaches have achieved high-quality NVS at impressive speeds. However, these methods are limited to small-scale, homogeneous data, i.e. they cannot handle severe appearance and geometry variations due to weather, season, and lighting and do not scale to larger, dynamic areas with thousands of images. We propose 4DGF, a neural scene representation that scales to large-scale dynamic urban areas, handles heterogeneous input data, and substantially improves rendering speeds. We use 3D Gaussians as an efficient geometry scaffold while relying on neural fields as a compact and flexible appearance model. We integrate scene dynamics via a scene graph at global scale while modeling articulated motions on a local level via deformations. This decomposed approach enables flexible scene composition suitable for real-world applications. In experiments, we surpass the state-of-the-art by over 3 dB in PSNR and more than 200 times in rendering speed. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# MMCL:超禁物検出のためのマルチクラスミニマージンコントラスト学習による変形可能なDETR検出装置
MMCL: Boosting Deformable DETR-Based Detectors with Multi-Class Min-Margin Contrastive Learning for Superior Prohibited Item Detection ( http://arxiv.org/abs/2406.03176v1 ) ライセンス: Link先を確認 | Mingyuan Li, Tong Jia, Hui Lu, Bowen Ma, Hao Wang, Dongyue Chen, | (参考訳) 自然光画像と異なり、X線画像の特異な重なり合い現象は前景と背景の特徴の結合を招き、一般的な物体検出器の精度を低下させるが、従来は変形可能なDreTRアーキテクチャの下でコンテンツクエリのカテゴリ意味情報を明確化することで、特定のカテゴリ前景情報を結合した特徴から抽出するモデルを補助するマルチクラス・インタークラス・エクスクルージョン(MIE)法が提案されていた。
同時に、IMC(Intra-Class Min-Margin Clustering)の損失を利用して、同一グループ内のコンテンツクエリを誘引し、必要な相違を確実にする。
トレーニングとして、モデルの固有のハンガリー語マッチングは、各クエリのグループ間のアライメントと、対応するオブジェクトのカテゴリのセマンティックな特徴を徐々に強化する。
この進化するコヒーレンスにより、カテゴリ特性の深い把握が保証され、結果としてモデルの反オーバーラップ検出能力が強化される。MMCLは汎用的で、数十行のコードを持つ変形可能なDETRベースのモデルに容易にプラグインできる。
PIXrayデータセットとOPIXrayデータセットの大規模な実験により、MMCLは複雑さを増すことなく様々な最先端モデルの性能を大幅に向上することが示された。
コードはhttps://github.com/anonymity0403/MMCLでリリースされた。
Prohibited Item detection in X-ray images is one of the most effective security inspection methods.However, differing from natural light images, the unique overlapping phenomena in X-ray images lead to the coupling of foreground and background features, thereby lowering the accuracy of general object detectors.Therefore, we propose a Multi-Class Min-Margin Contrastive Learning (MMCL) method that, by clarifying the category semantic information of content queries under the deformable DETR architecture, aids the model in extracting specific category foreground information from coupled features.Specifically, after grouping content queries by the number of categories, we employ the Multi-Class Inter-Class Exclusion (MIE) loss to push apart content queries from different groups. Concurrently, the Intra-Class Min-Margin Clustering (IMC) loss is utilized to attract content queries within the same group, while ensuring the preservation of necessary disparity. As training, the inherent Hungarian matching of the model progressively strengthens the alignment between each group of queries and the semantic features of their corresponding category of objects. This evolving coherence ensures a deep-seated grasp of category characteristics, consequently bolstering the anti-overlapping detection capabilities of models.MMCL is versatile and can be easily plugged into any deformable DETR-based model with dozens of lines of code. Extensive experiments on the PIXray and OPIXray datasets demonstrate that MMCL significantly enhances the performance of various state-of-the-art models without increasing complexity. The code has been released at https://github.com/anonymity0403/MMCL. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# FAPNet: 効果的な周波数適応型ポイントベースアイトラッカ
FAPNet: An Effective Frequency Adaptive Point-based Eye Tracker ( http://arxiv.org/abs/2406.03177v1 ) ライセンス: Link先を確認 | Xiaopeng Lin, Hongwei Ren, Bojun Cheng, | (参考訳) 視線追跡は、異なる領域における人間とコンピュータの相互作用に不可欠である。
従来のカメラは、異なる眼球運動の間、消費電力や画質などの課題に遭遇し、超高速で低消費電力で正確な眼球追跡装置による高度なソリューションの必要性が生じた。
イベントカメラは、基本的に移動物体に関する情報を捉え、低消費電力と高時間分解能を示すように設計されている。
これは、視線追跡の領域における従来のカメラに代わるものとして位置づけられている。
それでも、既存のイベントベースの視線追跡ネットワークは、イベントにおける重要できめ細かな時間情報を無視し、不満足なパフォーマンスをもたらす。
さらに、エネルギー効率の良い特徴は、過度に複雑なモデルを使用することによってさらに損なわれ、エッジデバイスへの効率的なデプロイを妨げている。
本稿では、ポイントクラウドをイベント表現として利用し、視線追跡タスクにおける事象の高時間分解能とスパース特性を利用する。
我々は、サンプル間の長期的な関係を前処理する点ベースアーキテクチャEPPNetを再考し、FAPNetの革新的な設計に繋がった。
周波数適応機構は瞳孔運動の速度に応じて適応的なトラッキングを実現するように設計されており、サンプル間の時間的相関を利用するために、インターサンプルLSTMモジュールが導入された。
Event-based Eye Tracking Challengeでは、バニラPEPNetを使用します。
SEET合成データセットでは、FAPNetはPEPNetの計算リソースのわずか10%を消費しながら最先端を達成することができる。
特に、FAPNetの計算要求はセンサーの空間解像度とは独立であり、リソース制限エッジデバイスへの適用性を高めている。
Eye tracking is crucial for human-computer interaction in different domains. Conventional cameras encounter challenges such as power consumption and image quality during different eye movements, prompting the need for advanced solutions with ultra-fast, low-power, and accurate eye trackers. Event cameras, fundamentally designed to capture information about moving objects, exhibit low power consumption and high temporal resolution. This positions them as an alternative to traditional cameras in the realm of eye tracking. Nevertheless, existing event-based eye tracking networks neglect the pivotal sparse and fine-grained temporal information in events, resulting in unsatisfactory performance. Moreover, the energy-efficient features are further compromised by the use of excessively complex models, hindering efficient deployment on edge devices. In this paper, we utilize Point Cloud as the event representation to harness the high temporal resolution and sparse characteristics of events in eye tracking tasks. We rethink the point-based architecture PEPNet with preprocessing the long-term relationships between samples, leading to the innovative design of FAPNet. A frequency adaptive mechanism is designed to realize adaptive tracking according to the speed of the pupil movement and the Inter Sample LSTM module is introduced to utilize the temporal correlation between samples. In the Event-based Eye Tracking Challenge, we utilize vanilla PEPNet, which is the former work to achieve the $p_{10}$ accuracy of 97.95\%. On the SEET synthetic dataset, FAPNet can achieve state-of-the-art while consuming merely 10\% of the PEPNet's computational resources. Notably, the computational demand of FAPNet is independent of the sensor's spatial resolution, enhancing its applicability on resource-limited edge devices. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# 光の量子状態のサブ回折推定、識別と学習
Sub-diffraction estimation, discrimination and learning of quantum states of light ( http://arxiv.org/abs/2406.03179v1 ) ライセンス: Link先を確認 | Giuseppe Buonaiuto, Cosmo Lupo, | (参考訳) 光画像の解像度は、古典的にはポイントスプレッド関数の幅によって制限され、レイリー長によって決定される。
近年,空間モードデマルチプレキシング (SPADE) は,自然・不整合な情報源のサブレイリー推定と識別を実現する手法として提案されている。
ここでは、SPADEが機械学習のより広い文脈で最適であることを示す。
この目的のために,サブレイリー分解能を実現するハイブリッド量子古典画像分類器を提案する。
このアルゴリズムは量子と古典的部分を含む。
量子部では、物理デバイス(デマルチプレクサ)が横フィールドをソートし、次にモードワイド光子検出を行う。
このアルゴリズムのこの部分は、信号対雑音比を本質的に減少させることなく古典的にシミュレートできない量子場の物理前処理を実装している。
アルゴリズムの古典的な部分では、収集されたデータは、トレーニングと分類のために人工ニューラルネットワークに入力される。
そこで本研究では,MNISTデータセットから,回折による鮮明なぼやけた画像の分類を行った。
我々の数値実験は、量子場の物理前処理を使わずに直接撮像によって区別できない、非常にぼやけた画像を学習できることを実証している。
The resolution of optical imaging is classically limited by the width of the point-spread function, which in turn is determined by the Rayleigh length. Recently, spatial-mode demultiplexing (SPADE) has been proposed as a method to achieve sub-Rayleigh estimation and discrimination of natural, incoherent sources. Here we show that SPADE is optimal in the broader context of machine learning. To this goal, we introduce a hybrid quantum-classical image classifier that achieves sub-Rayleigh resolution. The algorithm includes a quantum and a classical part. In the quantum part, a physical device (demultiplexer) is used to sort the transverse field, followed by mode-wise photon detection. This part of the algorithm implements a physical pre-processing of the quantum field that cannot be classically simulated without essentially reducing the signal-to-noise ratio. In the classical part of the algorithm, the collected data are fed into an artificial neural network for training and classification. As a case study, we classify images from the MNIST dataset after severe blurring due to diffraction. Our numerical experiments demonstrate the ability to learn highly blurred images that would be otherwise indistinguishable by direct imaging without the physical pre-processing of the quantum field. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# ミスシ:誤表現科学における誤認識の再構築
Missci: Reconstructing Fallacies in Misrepresented Science ( http://arxiv.org/abs/2406.03181v1 ) ライセンス: Link先を確認 | Max Glockner, Yufang Hou, Preslav Nakov, Iryna Gurevych, | (参考訳) ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
このような誤報は科学的な出版物を誤って表現し、信頼を得るために「防備」として引用することが多い。
このような主張を効果的に対処するためには、システムは、その主張が引用された出版物から誤って引き出された方法を説明する必要がある。
自動事実確認や誤認検出の現在の手法は、誤報のクレームに関連する(誤報の)証拠を評価するために無視され、両者のミスマッチを検出するのに必要である。
このギャップに対処するために、バイオメディカル出版を誤って表現する現実世界の誤情報検出のための新しいデータセットとともに、誤った推論のための新しい議論理論モデルであるMissciを紹介した。
以前の誤検出データセット、Missciとは違って
一 引用公告の関連内容と不正確なクレームとの暗黙の誤認に焦点を当てて
(ii) 分類に加えて、誤用推論を言語化するモデルが必要である。
実世界の誤った議論をゼロショットで再構築するために必要な大規模言語モデル(LLM)の批判的推論能力をテストするデータセットとしてMissciを提示する。
本研究は,LLMの2つの代表的LLMと,LLMに提供された誤り度クラスについて,異なるレベルの詳細が与える影響を,プロンプトを通して評価する。
実験と人体評価は, GPT 4 の有望な結果を示すとともに, この課題の難しさも示している。
Health-related misinformation on social networks can lead to poor decision-making and real-world dangers. Such misinformation often misrepresents scientific publications and cites them as "proof" to gain perceived credibility. To effectively counter such claims automatically, a system must explain how the claim was falsely derived from the cited publication. Current methods for automated fact-checking or fallacy detection neglect to assess the (mis)used evidence in relation to misinformation claims, which is required to detect the mismatch between them. To address this gap, we introduce Missci, a novel argumentation theoretical model for fallacious reasoning together with a new dataset for real-world misinformation detection that misrepresents biomedical publications. Unlike previous fallacy detection datasets, Missci (i) focuses on implicit fallacies between the relevant content of the cited publication and the inaccurate claim, and (ii) requires models to verbalize the fallacious reasoning in addition to classifying it. We present Missci as a dataset to test the critical reasoning abilities of large language models (LLMs), that are required to reconstruct real-world fallacious arguments, in a zero-shot setting. We evaluate two representative LLMs and the impact of different levels of detail about the fallacy classes provided to the LLM via prompts. Our experiments and human evaluation show promising results for GPT 4, while also demonstrating the difficulty of this task. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# 文書理解モデルからの学習データ再構成
Reconstructing training data from document understanding models ( http://arxiv.org/abs/2406.03182v1 ) ライセンス: Link先を確認 | Jérémie Dentan, Arnaud Paran, Aymen Shabou, | (参考訳) 文書理解モデルは、請求書、税告知、さらにはIDカードなどの機密文書の処理において、人間の代わりとして企業によってますます採用されている。
しかし、そのようなモデルのプライバシー攻撃に対する堅牢性は、いまだに明らかにされていない。
本稿では,これらのモデルのトレーニングデータから感性フィールドを抽出するための最初の再構成攻撃CDMIを提案する。
我々はLayoutLMとBROSアーキテクチャを攻撃し、敵が、いくつかの名前、日付、請求書を含む微調整に使われる文書の4.1%のフィールドを完全に再構築できることを実証した。
再建攻撃とメンバシップ推論攻撃を組み合わせれば,攻撃精度は22.5%に向上する。
さらに,2つの新しいエンドツーエンドメトリクスを導入し,非モーダルデータやバイモーダルデータ,LayoutLMあるいはBROSバックボーン,4つの微調整タスク,および2つの公開データセット(FUNSDとSROIE)を用いてアプローチを評価する。
また, オーバーフィット, 予測性能, 攻撃に対する感受性の相互作用についても検討した。
我々は、我々の攻撃に対する防御の可能性と、堅牢な文書理解モデルを構築するための今後の研究の方向性について、議論を締めくくった。
Document understanding models are increasingly employed by companies to supplant humans in processing sensitive documents, such as invoices, tax notices, or even ID cards. However, the robustness of such models to privacy attacks remains vastly unexplored. This paper presents CDMI, the first reconstruction attack designed to extract sensitive fields from the training data of these models. We attack LayoutLM and BROS architectures, demonstrating that an adversary can perfectly reconstruct up to 4.1% of the fields of the documents used for fine-tuning, including some names, dates, and invoice amounts up to six-digit numbers. When our reconstruction attack is combined with a membership inference attack, our attack accuracy escalates to 22.5%. In addition, we introduce two new end-to-end metrics and evaluate our approach under various conditions: unimodal or bimodal data, LayoutLM or BROS backbones, four fine-tuning tasks, and two public datasets (FUNSD and SROIE). We also investigate the interplay between overfitting, predictive performance, and susceptibility to our attack. We conclude with a discussion on possible defenses against our attack and potential future research directions to construct robust document understanding models. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# ホモロジーサイクルの幾何学的局在化
Geometric Localization of Homology Cycles ( http://arxiv.org/abs/2406.03183v1 ) ライセンス: Link先を確認 | Amritendu Dhar, Vijay Natarajan, Abhishek Rathod, | (参考訳) 与えられたホモロジークラスにおける最適サイクルの計算(ホモロジー局所化問題とも呼ばれる)は一般にNPハード問題として知られている。
さらに、クラスを幾何学的にローカライズし、永続ホモロジーの設定の下で安定性を持つような、既知の最適性基準は存在しない。
多項式時間で計算可能で、近似的な意味で安定なサイクルの幾何学的最適化を提案する。
探索基準を異なる設定に合わせることで、最適ホモロジーサイクル、最小ホモロジーベース、最小永続ホモロジーベースといった様々な最適化問題が得られる。
実際、(自明な)正確なアルゴリズムは、最悪の場合、多項式ランタイムを持つにもかかわらず計算コストがかかる。
そこで我々は上記の問題に対する近似アルゴリズムを設計し,その性能を実験的に研究する。
これらのアルゴリズムは、適度なサイズのデータセットに対して合理的なランタイムを持ち、これらのアルゴリズムによって計算されるサイクルは、複数のデータセットの実験を通じて示されるように、一貫して高品質である。
Computing an optimal cycle in a given homology class, also referred to as the homology localization problem, is known to be an NP-hard problem in general. Furthermore, there is currently no known optimality criterion that localizes classes geometrically and admits a stability property under the setting of persistent homology. We present a geometric optimization of the cycles that is computable in polynomial time and is stable in an approximate sense. Tailoring our search criterion to different settings, we obtain various optimization problems like optimal homologous cycle, minimum homology basis, and minimum persistent homology basis. In practice, the (trivial) exact algorithm is computationally expensive despite having a worst case polynomial runtime. Therefore, we design approximation algorithms for the above problems and study their performance experimentally. These algorithms have reasonable runtimes for moderate sized datasets and the cycles computed by these algorithms are consistently of high quality as demonstrated via experiments on multiple datasets. | 翻訳日:2024-06-06 18:40:12 公開日:2024-06-05 |
# Ouroboros3D: 3D-Aware Recursive Diffusionによる画像から3D生成
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion ( http://arxiv.org/abs/2406.03184v1 ) ライセンス: Link先を確認 | Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng, | (参考訳) 既存のイメージ・ツー・3D生成法は、通常、2段階のプロセスで、まず複数のビュー画像を生成し、3次元再構成にこれらの画像を使用する。
しかし、これら2つの段階を個別にトレーニングすると、推論フェーズにおいて重要なデータバイアスが発生し、結果として再構成結果の品質に影響を及ぼす。
拡散に基づく多視点画像生成と3次元再構成を再帰的拡散プロセスに統合する,Ouroboros3Dという統合された3D生成フレームワークを導入する。
本フレームワークでは,これらの2つのモジュールは自己条件付け機構によって協調的に訓練され,頑健な推論のために互いの特性に適応することができる。
マルチビューデノナイズプロセスでは, 複数ビュー拡散モデルでは, 以前の時刻に再現モジュールが描画した3D対応マップを追加条件として利用する。
3Dフィードバックによる再帰的拡散フレームワークはプロセス全体を統一し,幾何的整合性を向上させる。
プロジェクトページ:https://costwen.github.io/Ouroboros3D/
Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other's characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/ | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# Ariadne: プライバシ保護通信プロトコル
Ariadne: a Privacy-Preserving Communication Protocol ( http://arxiv.org/abs/2406.03187v1 ) ライセンス: Link先を確認 | Antoine Fressancourt, Luigi Iannone, Mael Kerichard, | (参考訳) 本稿では,プライバシ保護のための通信ネットワーク層プロトコルであるAriadneについて紹介する。
Ariadneでは、匿名化されたネットワークトラフィックを送信しようとするソースノードは、事前に共有された対称キーを持つノードで構成されるパスを使用する。
オンイオンルーティング技術を使って通信のプライバシを保護するために、これらの鍵を事前に共有したキーから引き出された一時的なキーは、同じパスをたどるパケットのセッションアンリンク性を保証します。
Ariadne氏は2つの新しいものを導入することで、コミュニケーションのプライバシを維持するための以前のアプローチを強化している。
まず、ソース経路を固定サイズ、順次暗号化された経路情報要素のベクトルに符号化し、ベクトル内の要素の位置を擬似ランダムに置換する。
第二に、経路上のパケットを処理するために使用される一時鍵は、互いに既知の暗号化パターンを用いて参照される。
これにより、通信の匿名化に使用可能な明示的なキー参照の使用を避けることができる。
In this article, we present Ariadne, a privacy-preserving communication network layer protocol that uses a source routing approach to avoid relying on trusted third parties. In Ariadne, a source node willing to send anonymized network traffic to a destination uses a path consisting in nodes with which it has pre-shared symmetric keys. Temporary keys derived from those pre-shared keys to protect communication privacy using onion routing techniques, ensuring session unlinkability for packets following the same path. Ariadne enhances previous approaches to preserve communication privacy by introducing two novelties. First, the source route is encoded in a fixed size, sequentially encrypted vector of routing information elements, in which the elements' positions in the vector are pseudo-randomly permuted. Second, the temporary keys used to process the packets on the path are referenced using mutually known encrypted patterns. This avoids the use of an explicit key reference that could be used to de-anonymize the communications. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 状況モニタ:オブジェクト検出のためのバディングアンサンブルアーキテクチャを用いた多様性駆動型ゼロショットアウトオブディストリビューション検出
Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object Detection ( http://arxiv.org/abs/2406.03188v1 ) ライセンス: Link先を確認 | Qutub Syed, Michael Paulitsch, Korbinian Hagn, Neslihan Kose Cihangir, Kay-Ulrich Scholl, Fabian Oboril, Gereon Hinz, Alois Knoll, | (参考訳) 本研究では、自律運転のような安全クリティカルな機械学習アプリケーションの信頼性を高めるために、トランスフォーマーに基づくオブジェクト検出モデルのための新しいゼロショットアウトオブディストリビューション(OOD)検出手法であるAreasure Monitorを紹介する。
インシデントモニターは多様性に基づくバディングアンサンブルアーキテクチャ(DBEA)を利用し、芽生えたアンサンブルアーキテクチャ上でのトレーニングプロセスに多様性損失を統合し、Far-OODサンプルを検出し、Near-OODサンプル上での偽陽性を最小限にすることで、OODパフォーマンスを向上させる。
さらに、得られたDBEAを利用することで、モデルのOOD性能が向上し、特に検出対象の結合に関する信頼度スコアの校正が向上する。
DBEAモデルは、バニラモデルと比較してトレーニング可能なパラメータを14%削減して、これらの進歩を達成する。
これは、OODインスタンスを検出し、信頼性スコアを正確に調整するモデルの能力を損なうことなく、効率を大幅に向上することを意味する。
We introduce Situation Monitor, a novel zero-shot Out-of-Distribution (OOD) detection approach for transformer-based object detection models to enhance reliability in safety-critical machine learning applications such as autonomous driving. The Situation Monitor utilizes the Diversity-based Budding Ensemble Architecture (DBEA) and increases the OOD performance by integrating a diversity loss into the training process on top of the budding ensemble architecture, detecting Far-OOD samples and minimizing false positives on Near-OOD samples. Moreover, utilizing the resulting DBEA increases the model's OOD performance and improves the calibration of confidence scores, particularly concerning the intersection over union of the detected objects. The DBEA model achieves these advancements with a 14% reduction in trainable parameters compared to the vanilla model. This signifies a substantial improvement in efficiency without compromising the model's ability to detect OOD instances and calibrate the confidence scores accurately. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# グラフニューラルネットワークの説明は誤りである
Graph Neural Network Explanations are Fragile ( http://arxiv.org/abs/2406.03193v1 ) ライセンス: Link先を確認 | Jiate Li, Meng Pang, Yun Dong, Jinyuan Jia, Binghui Wang, | (参考訳) 説明可能なグラフニューラルネットワーク(GNN)が最近登場し、GNNの信頼性を高めている。
既存のGNN説明器は、説明性能を高めるために様々な観点から開発されている。
我々は、敵対的攻撃下でGNN説明器を研究するための第一歩を踏み出した -- 敵のわずかに摂動するグラフ構造は、GNNモデルが正しい予測を下すことを保証できるが、GNN説明器は、摂動したグラフに大きく異なる説明を与える。
具体的には,まず,実際の脅威モデルに基づいて攻撃問題を定式化する(つまり,敵はGNNの説明器と制限された摂動予算について限られた知識を持っている)。
次に、攻撃を実現するために2つの方法(損失ベースと減算ベース)を設計する。
我々は,様々なGNN説明書に対する攻撃を評価し,これらの説明書が脆弱であることを示す。
Explainable Graph Neural Network (GNN) has emerged recently to foster the trust of using GNNs. Existing GNN explainers are developed from various perspectives to enhance the explanation performance. We take the first step to study GNN explainers under adversarial attack--We found that an adversary slightly perturbing graph structure can ensure GNN model makes correct predictions, but the GNN explainer yields a drastically different explanation on the perturbed graph. Specifically, we first formulate the attack problem under a practical threat model (i.e., the adversary has limited knowledge about the GNN explainer and a restricted perturbation budget). We then design two methods (i.e., one is loss-based and the other is deduction-based) to realize the attack. We evaluate our attacks on various GNN explainers and the results show these explainers are fragile. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 複雑・長期の筆跡書記における書記順序の回復
Writing Order Recovery in Complex and Long Static Handwriting ( http://arxiv.org/abs/2406.03194v1 ) ライセンス: Link先を確認 | Moises Diaz, Gioele Crispo, Antonio Parziale, Angelo Marcelli, Miguel A. Ferrer, | (参考訳) 軌道が実行される順序は、認識者にとって強力な情報源である。
しかし,静的画像から複雑な手書き文字や長い手書き文字の軌跡を復元するための一般的なアプローチはいまだに存在しない。
複雑な標本は複数のペンダウンを生じさせ、多数の軌跡が交差し、ピクセル(クラスターとも呼ばれる)が凝集する。
科学文献では、手書き文字の書き順を復元するための幅広いアプローチが記述されているが、これらのアプローチには共通の評価基準が欠如している。
本稿では,クラスタを効果的に解決し,実行したペンダウンの順序を選択できる,薄型静的軌道の順序回復を推定する新しいシステムを提案する。
我々は、ペンダウンの開始点を知ることが、回復した筆記の質にどのように影響するかを評価する。
システムの安定性と感度を解析すると、3つの公開データベースによる一連の実験を記述し、すべてのケースで競合結果を示す。
提案方式は, 複雑な軌道の順序が復元された場合の潜在的な混乱を低減し, その結果として, 速度推定などのさらなる応用に有効となることを期待する。
The order in which the trajectory is executed is a powerful source of information for recognizers. However, there is still no general approach for recovering the trajectory of complex and long handwriting from static images. Complex specimens can result in multiple pen-downs and in a high number of trajectory crossings yielding agglomerations of pixels (also known as clusters). While the scientific literature describes a wide range of approaches for recovering the writing order in handwriting, these approaches nevertheless lack a common evaluation metric. In this paper, we introduce a new system to estimate the order recovery of thinned static trajectories, which allows to effectively resolve the clusters and select the order of the executed pen-downs. We evaluate how knowing the starting points of the pen-downs affects the quality of the recovered writing. Once the stability and sensitivity of the system is analyzed, we describe a series of experiments with three publicly available databases, showing competitive results in all cases. We expect the proposed system, whose code is made publicly available to the research community, to reduce potential confusion when the order of complex trajectories are recovered, and this will in turn make the trajectories recovered to be viable for further applications, such as velocity estimation. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# ChatLang-8: 文法的誤り訂正のためのLLMベースの合成データ生成フレームワーク
ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction ( http://arxiv.org/abs/2406.03202v1 ) ライセンス: Link先を確認 | Jeiyoon Park, Chanjun Park, Heuiseok Lim, | (参考訳) 我々は,文法的誤り訂正(GEC)のためのデータを生成するLLMの能力を探求し,改良する。
単にパラレル文を生成する場合、それらのパターンは単純すぎて、コーパスとしての価値がない。
この問題に対処するため,対象選択子,文法選択子,プロンプトマネージャ,評価子を含む自動フレームワークを提案する。
さらに、8種類の主語名詞と23種類の文法を含む GEC タスクのための新しいデータセットである \textbf{ChatLang-8} を導入する。
人間のような文法的誤りを特徴とする100万対で構成されている。
実験の結果,ChatLang-8は既存のGECデータセットと比較して,より均一なパターン構成を示すことがわかった。
さらに,既存のGECデータセットの代わりにChatLang-8を用いた場合のモデル性能の改善も検討した。
実験結果から,私たちのフレームワークとChatLang-8は,ChatGPTのデータ生成能力を向上するための貴重なリソースであることが示唆された。
We explore and improve the capabilities of LLMs to generate data for grammatical error correction (GEC). When merely producing parallel sentences, their patterns are too simplistic to be valuable as a corpus. To address this issue, we propose an automated framework that includes a Subject Selector, Grammar Selector, Prompt Manager, and Evaluator. Additionally, we introduce a new dataset for GEC tasks, named \textbf{ChatLang-8}, which encompasses eight types of subject nouns and 23 types of grammar. It consists of 1 million pairs featuring human-like grammatical errors. Our experiments reveal that ChatLang-8 exhibits a more uniform pattern composition compared to existing GEC datasets. Furthermore, we observe improved model performance when using ChatLang-8 instead of existing GEC datasets. The experimental results suggest that our framework and ChatLang-8 are valuable resources for enhancing ChatGPT's data generation capabilities. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 定数深さ量子回路を用いた動的相関関数の近似
Approximating dynamical correlation functions with constant depth quantum circuits ( http://arxiv.org/abs/2406.03204v1 ) ライセンス: Link先を確認 | Reinis Irmejs, Raul A. Santos, | (参考訳) 量子系の微細な性質を特徴づける最も重要な量の1つは、動的相関関数である。
これらの相関は、系の固有状態、典型的には基底状態の摂動を時間発展させることによって得られる。
本研究では,時間動力学を必要としない相関関数の近似について検討する。
我々は、ハミルトニアンの固有状態を作成する回路にアクセスすることで、複素周波数領域 $\omega=\Re(\omega)+i\Im(\omega)$ の指数関数を実線 $\Im(\omega)=0$ 上のストリップ上で近似することができることを示す。
このことは、周波数$\omega$ の関数として動的相関関数の連続的な分数表現を利用して実現し、そこではレベル $k$ 近似式は、興味のある固有状態上のウェイト$O(k)$演算子を測定することで得られる。
複素 $\omega$ 平面において、このアプローチは、$k$ で指数関数的に増加する精度で相関関数の近似を決定することができることを示す。
我々は2つのアルゴリズムを解析し、スカラーまたは行列形式で連続的な分数表現を生成する。
我々は,これらのアルゴリズムが実周波数軸から十分に離れた領域における動的相関関数の指数的に正確な近似を生成することを証明した。
小格子系のシミュレーションにより,これらの理論結果の数値的証拠を提示する。
量子コンピュータを用いた量子シミュレーションの文脈におけるサンプリングノイズに対するこれらのアルゴリズムの安定性についてコメントする。
One of the most important quantities characterizing the microscopic properties of quantum systems are dynamical correlation functions. These correlations are obtained by time-evolving a perturbation of an eigenstate of the system, typically the ground state. In this work, we study approximations of these correlation functions that do not require time dynamics. We show that having access to a circuit that prepares an eigenstate of the Hamiltonian, it is possible to approximate the dynamical correlation functions up to exponential accuracy in the complex frequency domain $\omega=\Re(\omega)+i\Im(\omega)$, on a strip above the real line $\Im(\omega)=0$. We achieve this by exploiting the continued fraction representation of the dynamical correlation functions as functions of frequency $\omega$, where the level $k$ approximant can be obtained by measuring a weight $O(k)$ operator on the eigenstate of interest. In the complex $\omega$ plane, we show how this approach allows to determine approximations to correlation functions with accuracy that increases exponentially with $k$. We analyse two algorithms to generate the continuous fraction representation in scalar or matrix form, starting from either one or many initial operators. We prove that these algorithms generate an exponentially accurate approximation of the dynamical correlation functions on a region sufficiently far away from the real frequency axis. We present numerical evidence of these theoretical results through simulations of small lattice systems. We comment on the stability of these algorithms with respect to sampling noise in the context of quantum simulation using quantum computers. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 大規模マルチモーダルモデルによる石の劣化パターンの同定
Identification of Stone Deterioration Patterns with Large Multimodal Models ( http://arxiv.org/abs/2406.03207v1 ) ライセンス: Link先を確認 | Daniele Corradetti, Jose Delgado Rodrigues, | (参考訳) 石をベースとした文化財の保存は、文化的・歴史的建造物の保存にとって重要な関心事である。
GPT-4omni (OpenAI)、Claude 3 Opus (Anthropic)、Gemini 1.5 Pro (Google)といった大規模マルチモーダルモデルの出現に伴い、これらのモデルの運用機能を定義することがますます重要になっている。
本研究では,世界遺産の保全と復元に有用な石元素の異常や劣化パターンを認識し,分類する基礎的マルチモーダルモデルの能力を体系的に評価する。
主な石の劣化パターンと異常の分類を定式化した上で,石造遺産の高度に代表される354枚の画像のキュレートされた選別を基本モデルに求め,選別対象のラベルを慎重に選別した。
パターンの種類によって異なる結果から,保存・復元の分野において,これらのモデルの強みと弱みを識別することができた。
The conservation of stone-based cultural heritage sites is a critical concern for preserving cultural and historical landmarks. With the advent of Large Multimodal Models, as GPT-4omni (OpenAI), Claude 3 Opus (Anthropic) and Gemini 1.5 Pro (Google), it is becoming increasingly important to define the operational capabilities of these models. In this work, we systematically evaluate the abilities of the main foundational multimodal models to recognise and classify anomalies and deterioration patterns of the stone elements that are useful in the practice of conservation and restoration of world heritage. After defining a taxonomy of the main stone deterioration patterns and anomalies, we asked the foundational models to identify a curated selection of 354 highly representative images of stone-built heritage, offering them a careful selection of labels to choose from. The result, which varies depending on the type of pattern, allowed us to identify the strengths and weaknesses of these models in the field of heritage conservation and restoration. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# サーバサイドWebアプリケーションのためのファジングフレームワーク:サーベイ
Fuzzing Frameworks for Server-side Web Applications: A Survey ( http://arxiv.org/abs/2406.03208v1 ) ライセンス: Link先を確認 | I Putu Arya Dharmaadi, Elias Athanasopoulos, Fatih Turkmen, | (参考訳) インターネット利用者は約53億人で、世界の人口の65.7%を占めており、ウェブ技術はインターネット経由で配信されるサービスのバックボーンとなっている。
Webアプリケーションがセキュリティ関連のバグから解放されることを保証するため、Web開発者は本番環境にデプロイする前にサーバサイドのWebアプリケーションをテストする。
テストは一般的に、アプリケーションのエントリポイントであるため、アプリケーションが公開するインターフェース(Web API)を通じて行われる。
ファジングは、このタスクに適した最も有望な自動ソフトウェアテスト技術の1つであるが、(サーバ側)Webアプリケーションファジングの研究は、広範囲に研究されているバイナリファジングと比較してかなり限られている。
本研究では,Web APIを通じてWebアプリケーションをテストするための最先端ファジィフレームワークをレビューし,オープンな課題を特定し,将来的な研究を提案する。
我々は過去10年間に、ピアレビューされた記事のオンラインリポジトリ7件から論文を収集してきた。
他の同様の研究と比較して、我々のレビューは、有効なHTTPリクエストの生成、Web Under Tests(WUT)からのフィードバックの利用、入力スペースの拡張における事前の作業戦略を明らかにすることに焦点を当てている。
この調査の結果は、Webインスツルメンテーションの非効率性やマイクロサービスアプリケーション処理の複雑さなど、いくつかの重要な課題を解決する必要があることを示唆している。
さらに、Webクライアントプログラミングのためのファジングなど、潜在的な研究の方向性も提供される。
最終的に、この論文はより良いWebファジィングフレームワークを開発するための良い出発点を提供することを目的としている。
There are around 5.3 billion Internet users, amounting to 65.7% of the global population, and web technology is the backbone of the services delivered via the Internet. To ensure web applications are free from security-related bugs, web developers test the server-side web applications before deploying them to production. The tests are commonly conducted through the interfaces (i.e., Web API) that the applications expose since they are the entry points to the application. Fuzzing is one of the most promising automated software testing techniques suitable for this task; however, the research on (server-side) web application fuzzing has been rather limited compared to binary fuzzing which is researched extensively. This study reviews the state-of-the-art fuzzing frameworks for testing web applications through web API, identifies open challenges, and gives potential future research. We collect papers from seven online repositories of peer-reviewed articles over the last ten years. Compared to other similar studies, our review focuses more deeply on revealing prior work strategies in generating valid HTTP requests, utilising feedback from the Web Under Tests (WUTs), and expanding input spaces. The findings of this survey indicate that several crucial challenges need to be solved, such as the ineffectiveness of web instrumentation and the complexity of handling microservice applications. Furthermore, some potential research directions are also provided, such as fuzzing for web client programming. Ultimately, this paper aims to give a good starting point for developing a better web fuzzing framework. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# ベイジアン因果発見の課題と考察
Challenges and Considerations in the Evaluation of Bayesian Causal Discovery ( http://arxiv.org/abs/2406.03209v1 ) ライセンス: Link先を確認 | Amir Mohammad Karimi Mamaghan, Panagiotis Tigas, Karl Henrik Johansson, Yarin Gal, Yashas Annadani, Stefan Bauer, | (参考訳) 因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
Bayesian Causal Discovery (BCD)は、この不確実性をカプセル化するための原則的なアプローチを提供する。
単一の推定因果グラフとモデルパラメータを使って評価する非ベイズ的因果発見とは異なり、BCDの評価は、その推定量の性質、すなわち後部分布に起因する課題を提示する。
その結果、研究コミュニティは、近似後部の品質を評価するための様々な指標を提案している。
しかし、これまでは評価に最も適した計量について合意が得られていない。
本研究では,様々な指標を抽出し,それらの限界を理解することによって,この問題を再検討する。
特に,BCDが望まれるサンプルサイズが小さい場合において,多くの既存指標が真の後部への近似の質と強い相関を示さないことが判明した。
我々は、これらの指標の適合性(または欠如)を、基礎となる因果モデルの識別可能性と利用可能なデータの量という2つの異なる要因の下で強調する。
どちらの因子も真の後部のエントロピーに影響を与え、現在の指標がより高いエントロピーの設定に適合していないことを示している。
本研究は, 真後部の性質を考慮し, より曖昧な評価方法の重要性と, 新たな評価手法の開発を指導し, モチベーションを高めることを目的としている。
Representing uncertainty in causal discovery is a crucial component for experimental design, and more broadly, for safe and reliable causal decision making. Bayesian Causal Discovery (BCD) offers a principled approach to encapsulating this uncertainty. Unlike non-Bayesian causal discovery, which relies on a single estimated causal graph and model parameters for assessment, evaluating BCD presents challenges due to the nature of its inferred quantity - the posterior distribution. As a result, the research community has proposed various metrics to assess the quality of the approximate posterior. However, there is, to date, no consensus on the most suitable metric(s) for evaluation. In this work, we reexamine this question by dissecting various metrics and understanding their limitations. Through extensive empirical evaluation, we find that many existing metrics fail to exhibit a strong correlation with the quality of approximation to the true posterior, especially in scenarios with low sample sizes where BCD is most desirable. We highlight the suitability (or lack thereof) of these metrics under two distinct factors: the identifiability of the underlying causal model and the quantity of available data. Both factors affect the entropy of the true posterior, indicating that the current metrics are less fitting in settings of higher entropy. Our findings underline the importance of a more nuanced evaluation of new methods by taking into account the nature of the true posterior, as well as guide and motivate the development of new evaluation procedures for this challenge. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 時相畳み込み自己エンコーダによる動的系の時間変化結合の推定
Inferring the time-varying coupling of dynamical systems with temporal convolutional autoencoders ( http://arxiv.org/abs/2406.03212v1 ) ライセンス: Link先を確認 | Josuan Calderon, Gordon J. Berman, | (参考訳) 複雑な力学系における因果性を評価するほとんどのアプローチは、変数間の相互作用が本質的に非線形で非定常であるときに失敗する。
因果推論のためのテンポラルオートエンコーダ(TACI: Temporal Autoencoders for Causal Inference)は、因果的相互作用を評価するための新しい代理データメトリクスと、時間変化による因果的相互作用の方向と強さを識別し、測定する新しい2頭部機械学習アーキテクチャを組み合わせた方法論である。
合成データセットと実世界のデータセットの両方のテストを通じて、さまざまなシステム間の動的因果相互作用を正確に定量化するTACIの能力を実証する。
本研究は,本手法の有効性を既存手法と比較して示すとともに,物理的および生物学的システムにおける時間変化の相互作用を過小評価するメカニズムをより深く理解するためのアプローチの可能性を強調した。
Most approaches for assessing causality in complex dynamical systems fail when the interactions between variables are inherently non-linear and non-stationary. Here we introduce Temporal Autoencoders for Causal Inference (TACI), a methodology that combines a new surrogate data metric for assessing causal interactions with a novel two-headed machine learning architecture to identify and measure the direction and strength of time-varying causal interactions. Through tests on both synthetic and real-world datasets, we demonstrate TACI's ability to accurately quantify dynamic causal interactions across a variety of systems. Our findings display the method's effectiveness compared to existing approaches and also highlight our approach's potential to build a deeper understanding of the mechanisms that underlie time-varying interactions in physical and biological systems. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 2倍に最小化されたレニイ相互情報:強逆指数の性質と操作的解釈
Doubly minimized sandwiched Renyi mutual information: Properties and operational interpretation from strong converse exponent ( http://arxiv.org/abs/2406.03213v1 ) ライセンス: Link先を確認 | Laura Burri, | (参考訳) 本稿では,任意の積状態に対する固定二部状態のオーダー$\alpha$のサンドイッチ分岐の最小化として定義される2つの最小化レニイ相互情報の特性について,より深く研究する。
特に、シオンのミニマックス定理を用いて、$\alpha\in [\frac{2}{3},\infty]$に対する新しい双対関係を証明し、$\alpha\in [\frac{2}{3},\infty]$に対する加法性を証明する。
以前は$\alpha\in [1,\infty]$でのみ知られていたが、$\alpha\in [\frac{1}{2},\infty]$で予想されていた。
さらに、二倍に最小化されたレニイ相互情報である$\alpha\in [1,\infty]$が、ある強い逆指数と結びついているため、二項量子状態判別の文脈で運用上の意味を持つことを示す。
In this paper, we deepen the study of properties of the doubly minimized sandwiched Renyi mutual information, which is defined as the minimization of the sandwiched divergence of order $\alpha$ of a fixed bipartite state relative to any product state. In particular, we prove a novel duality relation for $\alpha\in [\frac{2}{3},\infty]$ by employing Sion's minimax theorem, and we prove additivity for $\alpha\in [\frac{2}{3},\infty]$. Previously, additivity was only known for $\alpha\in [1,\infty]$, but has been conjectured for $\alpha\in [\frac{1}{2},\infty]$. Furthermore, we show that the doubly minimized sandwiched Renyi mutual information of order $\alpha\in [1,\infty]$ attains operational meaning in the context of binary quantum state discrimination as it is linked to certain strong converse exponents. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# テキストとビデオの合成がより良くなる検索プライオリティ
Searching Priors Makes Text-to-Video Synthesis Better ( http://arxiv.org/abs/2406.03215v1 ) ライセンス: Link先を確認 | Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu, | (参考訳) ビデオ拡散モデルの顕著な進歩は、テキスト・ツー・ビデオ(T2V)合成の分野に大きな進歩をもたらした。
しかし、既存のT2V合成モデルは、複雑な動きのダイナミクスを正確に生成するのに苦労し、ビデオリアリズムの低減につながった。
可能な解決策の1つは、大量のデータを収集し、その上でモデルをトレーニングすることだが、これは非常に高価だろう。
この問題を軽減するため,本論文では,一般的なT2V生成プロセスを検索ベース生成パイプラインとして再構成する。
モデルトレーニングをスケールアップする代わりに、既存の動画を前向きのデータベースとして使用しています。
具体的には、T2V生成プロセスを2つのステップに分けます。
i) 与えられたプロンプト入力に対して,既存のテキストビデオデータセットを検索して,プロンプト動作と密接に一致するテキストラベル付きビデオを探す。
本研究では,物体の運動特徴を強調するアルゴリズムを提案する。
(II) 検索ビデオは、予め訓練されたベースT2Vモデルを微調整し、入力プロンプトを用いて所望のビデオを生成する前に処理・蒸留される。
検索したビデオから得られた先行情報を利用することで、生成されたビデオの動きのリアリズムを高める。
すべての操作は1つのNVIDIA RTX 4090 GPUで完了することができる。
我々は,多種多様なインプットを用いた最先端T2Vモデルに対して本手法の有効性を検証した。
コードは公開されます。
Significant advancements in video diffusion models have brought substantial progress to the field of text-to-video (T2V) synthesis. However, existing T2V synthesis model struggle to accurately generate complex motion dynamics, leading to a reduction in video realism. One possible solution is to collect massive data and train the model on it, but this would be extremely expensive. To alleviate this problem, in this paper, we reformulate the typical T2V generation process as a search-based generation pipeline. Instead of scaling up the model training, we employ existing videos as the motion prior database. Specifically, we divide T2V generation process into two steps: (i) For a given prompt input, we search existing text-video datasets to find videos with text labels that closely match the prompt motions. We propose a tailored search algorithm that emphasizes object motion features. (ii) Retrieved videos are processed and distilled into motion priors to fine-tune a pre-trained base T2V model, followed by generating desired videos using input prompt. By utilizing the priors gleaned from the searched videos, we enhance the realism of the generated videos' motion. All operations can be finished on a single NVIDIA RTX 4090 GPU. We validate our method against state-of-the-art T2V models across diverse prompt inputs. The code will be public. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# 連続学習におけるPEFT手法の選択 - Prompt Tuningは必要なすべてではない
Choice of PEFT Technique in Continual Learning: Prompt Tuning is Not All You Need ( http://arxiv.org/abs/2406.03216v1 ) ライセンス: Link先を確認 | Martin Wistuba, Prabhu Teja Sivaprasad, Lukas Balles, Giovanni Zappella, | (参考訳) 近年の継続学習 (CL) 法は, パラメータ効率の良い微細チューニング (PEFT) 技術として, 事前学習型トランスフォーマーとプロンプトチューニングを組み合わせたものである。
我々は,先行研究における即時チューニングの選択は未定かつ未定の判断であり,その後の研究で批判的に採用されているが,その意味を理解するためにさらなる研究を保証している。
本稿では,本研究を行ない,PEFT法としての即時チューニングの選択がCLシステム全体の性能を損なうことを明らかにする。
そこで本稿では,Pmpt と S-Prompt への学習という,最先端の連続学習手法を LoRA に置き換える。
これらの変種は、推論速度において競争力がありながら、広範囲のドメインインクリメンタルおよびクラスインクリメンタルベンチマークで常に高い精度を達成する。
我々の研究は重要な議論を浮き彫りにしている: 未検討の選択肢は分野の進歩を妨げる可能性があるし、PEFT法のような厳格な改善は、現実世界の応用においてCL技術の有意義な採用を促進するために必要である。
Recent Continual Learning (CL) methods have combined pretrained Transformers with prompt tuning, a parameter-efficient fine-tuning (PEFT) technique. We argue that the choice of prompt tuning in prior works was an undefended and unablated decision, which has been uncritically adopted by subsequent research, but warrants further research to understand its implications. In this paper, we conduct this research and find that the choice of prompt tuning as a PEFT method hurts the overall performance of the CL system. To illustrate this, we replace prompt tuning with LoRA in two state-of-the-art continual learning methods: Learning to Prompt and S-Prompts. These variants consistently achieve higher accuracy across a wide range of domain-incremental and class-incremental benchmarks, while being competitive in inference speed. Our work highlights a crucial argument: unexamined choices can hinder progress in the field, and rigorous ablations, such as the PEFT method, are required to drive meaningful adoption of CL techniques in real-world applications. | 翻訳日:2024-06-06 18:30:28 公開日:2024-06-05 |
# Diderot's \textit{Encyclopédie} における名前付きエンティティのウィキデータへのリンク
Linking Named Entities in Diderot's \textit{Encyclopédie} to Wikidata ( http://arxiv.org/abs/2406.03221v1 ) ライセンス: Link先を確認 | Pierre Nugues, | (参考訳) ディデロットの『書物{Encyclop\'edie}』は、その時代の知識を収集することを目的としたヨーロッパにおける第8世紀からの参考文献である。
\textit{Wikipedia} は、はるかに広い範囲で同じ野心を持っている。
しかし、2つの百科事典間のデジタル接続の欠如は、それらの比較と知識の進化の研究を妨げる可能性がある。
textit{Wikipedia} の重要な要素は Wikidata で、構造化されたデータのグラフで記事をバックアップする。
本稿では,これらのエントリをグラフに接続できるWikidata識別子を用いて,textit{Encyclop\'edie}エントリの10,300以上のアノテーションを記述する。
我々は地理的・人的実体を検討した。
textit{Encyclop\'edie} には、主に位置のサブエントリとして現れるため、伝記エントリは含まれない。
我々は、すべての地理的項目を抽出し、人間の実体の記述を含む全ての項目を完全に注釈付けした。
これは、位置または人間実体を参照する2,600以上のリンクを表す。
さらに、地理的コンテンツのみを持つ9,500以上のエントリを注釈付けしました。
アノテーションのプロセスとアプリケーションの例を説明します。
このリソースはhttps://github.com/pnugues/encyclopedie_1751で入手できる。
Diderot's \textit{Encyclop\'edie} is a reference work from XVIIIth century in Europe that aimed at collecting the knowledge of its era. \textit{Wikipedia} has the same ambition with a much greater scope. However, the lack of digital connection between the two encyclopedias may hinder their comparison and the study of how knowledge has evolved. A key element of \textit{Wikipedia} is Wikidata that backs the articles with a graph of structured data. In this paper, we describe the annotation of more than 10,300 of the \textit{Encyclop\'edie} entries with Wikidata identifiers enabling us to connect these entries to the graph. We considered geographic and human entities. The \textit{Encyclop\'edie} does not contain biographic entries as they mostly appear as subentries of locations. We extracted all the geographic entries and we completely annotated all the entries containing a description of human entities. This represents more than 2,600 links referring to locations or human entities. In addition, we annotated more than 9,500 entries having a geographic content only. We describe the annotation process as well as application examples. This resource is available at https://github.com/pnugues/encyclopedie_1751 | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 進化的手法によるシャープ境界誤差多項式時間問題の解法
Solving Sharp Bounded-error Quantum Polynomial Time Problem by Evolution methods ( http://arxiv.org/abs/2406.03222v1 ) ライセンス: Link先を確認 | Zhen Guo, Li You, | (参考訳) 局所ハミルトニアンの基底状態の縮退は、物理学の多くの分野において重要である。
その複雑性は、シャープな有界エラー量子多項式時間(#BQP)クラスの問題に属し、その解法で知られている方法はほとんどない。
一方、$k$-局所ハミルトニアン(英語版)の基底状態を見つけることは、多くの効率的な方法が存在する量子メルリン・アーサー(英語版)(Quantum Merlin Arthur, QMA)クラスのより簡単な問題である。
そこで本研究では,#BQP問題を局所ハミルトニアンの特別な基底状態の1つにマッピングするアルゴリズムを提案する。
ハミルトン関数の関数の下でQMA問題を解く従来の手法は、よく設計された初期状態から特別な基底状態を見つけるのに利用できるので、#BQP問題を解くことができる。
本稿では, 位相境界の検出, フラストレーションと量子ゆらぎの競合, 量子回路の潜在的な実装について述べる。
Counting ground state degeneracy of a $k$-local Hamiltonian is important in many fields of physics. Its complexity belongs to the problem of sharp bounded-error quantum polynomial time (#BQP) class and few methods are known for its solution. Finding ground states of a $k$-local Hamiltonian, on the other hand, is an easier problem of Quantum Merlin Arthur (QMA) class, for which many efficient methods exist. In this work, we propose an algorithm of mapping a #BQP problem into one of finding a special ground state of a $k$-local Hamiltonian. We prove that all traditional methods, which solve the QMA problem by evolution under a function of a Hamiltonian, can be used to find the special ground state from a well-designed initial state, thus can solve the #BQP problem. We combine our algorithm with power method, Lanczos method, and quantum imaginary time evolution method for different systems to illustrate the detection of phase boundaries, competition between frustration and quantum fluctuation, and potential implementations with quantum circuits. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 脳腫瘍分離ネットワークのためのインタラクティブ画像選択とトレーニング
Interactive Image Selection and Training for Brain Tumor Segmentation Network ( http://arxiv.org/abs/2406.03225v1 ) ライセンス: Link先を確認 | Matheus A. Cerqueira, Flávia Sprenger, Bernardo C. A. Teixeira, Alexandre X. Falcão, | (参考訳) 医用画像のセグメンテーションは関連する問題であり、深層学習は指数である。
しかし、大規模なモデルを訓練するために、大量の注釈付き画像が必要であることは問題となり得る。特に脳腫瘍のような画像が様々な大きさや形状で発生するような、大きな多様性を示すアプリケーションにとってである。
対照的に、最近の手法であるFLIM(Feature Learning from Image Markers)では、畳み込み層をトレーニングするために少数の画像を必要とする小さなネットワークを生成する学習ループの専門家が関与している。
本研究では、FLIMに基づく画像選択とトレーニングのためのインタラクティブな手法を用いて、ユーザの知識を探索する。
その結果,本手法では,U字型ネットワークのエンコーダを訓練するための少数の画像を選択することができ,手作業による選択に匹敵する性能を得ることができ,バックプロパゲーションとトレーニング画像の訓練を施した同一のU字型ネットワークを超越することさえできた。
Medical image segmentation is a relevant problem, with deep learning being an exponent. However, the necessity of a high volume of fully annotated images for training massive models can be a problem, especially for applications whose images present a great diversity, such as brain tumors, which can occur in different sizes and shapes. In contrast, a recent methodology, Feature Learning from Image Markers (FLIM), has involved an expert in the learning loop, producing small networks that require few images to train the convolutional layers. In this work, We employ an interactive method for image selection and training based on FLIM, exploring the user's knowledge. The results demonstrated that with our methodology, we could choose a small set of images to train the encoder of a U-shaped network, obtaining performance equal to manual selection and even surpassing the same U-shaped network trained with backpropagation and all training images. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# グローバルクリッパー:トランスフォーマーを用いた物体検出モデルの安全性と信頼性を高める
Global Clipper: Enhancing Safety and Reliability of Transformer-based Object Detection Models ( http://arxiv.org/abs/2406.03229v1 ) ライセンス: Link先を確認 | Qutub Syed Sha, Michael Paulitsch, Karthik Pattabiraman, Korbinian Hagn, Fabian Oboril, Cornelius Buerkle, Kay-Ulrich Scholl, Gereon Hinz, Alois Knoll, | (参考訳) トランスフォーマーをベースとした物体検出モデルが進むにつれ、自動運転車や航空といった重要な分野への影響が拡大すると予想されている。
推論中にビットフリップを引き起こすソフトエラーは、DNNのパフォーマンスに大きく影響し、予測が変更された。
CNNの従来の範囲制限ソリューションは、トランスフォーマーでは不足している。
本研究は,トランスフォーマーモデルに特化して設計された効果的な緩和戦略であるGlobal ClipperとGlobal Hybrid Clipperを紹介する。
ソフトエラーに対するレジリエンスを大幅に向上させ、欠陥推論を ~ 0 % に削減する。
また、3つのデータセットを用いて2つのトランスフォーマーモデル(DINO-DETRとLite-DETR)と2つのCNNモデル(YOLOv3とSSD)を包括的にモデルロバスト性を評価するために、64以上のシナリオにわたる広範なテストについて詳述した。
さらに、トランスにおける注目ブロックのユニークな側面とCNNとの運用上の差異について検討する。
As transformer-based object detection models progress, their impact in critical sectors like autonomous vehicles and aviation is expected to grow. Soft errors causing bit flips during inference have significantly impacted DNN performance, altering predictions. Traditional range restriction solutions for CNNs fall short for transformers. This study introduces the Global Clipper and Global Hybrid Clipper, effective mitigation strategies specifically designed for transformer-based models. It significantly enhances their resilience to soft errors and reduces faulty inferences to ~ 0\%. We also detail extensive testing across over 64 scenarios involving two transformer models (DINO-DETR and Lite-DETR) and two CNN models (YOLOv3 and SSD) using three datasets, totalling approximately 3.3 million inferences, to assess model robustness comprehensively. Moreover, the paper explores unique aspects of attention blocks in transformers and their operational differences from CNNs. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 残差ストリームアクティベーション分析による大規模言語モデルの攻撃に対する防御
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis ( http://arxiv.org/abs/2406.03230v1 ) ライセンス: Link先を確認 | Amelia Kawasaki, Andrew Davis, Houssam Abbas, | (参考訳) OpenAIのChatGPTによって実証されたLLM(Large Language Models)の普及は、これらのモデルに対する敵対的脅威に対して防御する義務を最前線にもたらす。
悪意のある入力を導入してLLMの出力を操作するこれらの攻撃は、モデルの整合性を損なうとともに、信頼ユーザが出力に配置する。
そこで本論文では,LLMの変圧器層間の残余の活性化解析を生かした,白箱がLLMにアクセスできる革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類の新たな結果に対して,残差ストリーム中のアクティベーションパターンを解析するための確立された手法を適用した。
複数のデータセットをキュレートして、この新しい攻撃データセットを含む複数のタイプの攻撃シナリオに対して、この方法で高い精度で分類する方法を実証します。
さらに,LLMの安全微調整技術を統合して,攻撃検出能力への影響を計測することで,モデルのレジリエンスを向上させる。
その結果,LLMの運用するセキュリティフレームワークを推進し,敵入力の検出・緩和におけるアプローチの有効性を実証した。
The widespread adoption of Large Language Models (LLMs), exemplified by OpenAI's ChatGPT, brings to the forefront the imperative to defend against adversarial threats on these models. These attacks, which manipulate an LLM's output by introducing malicious inputs, undermine the model's integrity and the trust users place in its outputs. In response to this challenge, our paper presents an innovative defensive strategy, given white box access to an LLM, that harnesses residual activation analysis between transformer layers of the LLM. We apply an established methodology for analyzing distinctive activation patterns in the residual streams for a novel result of attack prompt classification. We curate multiple datasets to demonstrate how this method of classification has high accuracy across multiple types of attack scenarios, including our newly-created attack dataset. Furthermore, we enhance the model's resilience by integrating safety fine-tuning techniques for LLMs in order to measure its effect on our capability to detect attacks. The results underscore the effectiveness of our approach in enhancing the detection and mitigation of adversarial inputs, advancing the security framework within which LLMs operate. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# CommonPower: スマートグリッドのためのスーパーチャージ機械学習
CommonPower: Supercharging Machine Learning for Smart Grids ( http://arxiv.org/abs/2406.03231v1 ) ライセンス: Link先を確認 | Michael Eichelbeck, Hannah Markgraf, Matthias Althoff, | (参考訳) 電力系統管理の複雑さの増大により、強化学習(RL)の利用への関心が高まっている。
しかし、スマートグリッドにおけるRLの総合的で現実的なベンチマークのためのツールは存在しない。
このような比較の前提条件の1つは、バニラRLコントローラがシステム制約の満足度を保証できないため、保護機構である。
その他の中心的な要件としては、ベンチマークシナリオのフレキシブルなモデリング、信頼性の高いベースライン、予測の不確実性の影響を調査する可能性などがある。
PythonツールのCommonPowerは、これらのニーズに対処する最初のモジュラーフレームワークです。
CommonPowerはシングルエージェントとマルチエージェントのRLトレーニングアルゴリズムのための統一インターフェースを提供し、システム方程式の記号表現に基づくモデル予測制御アプローチを内蔵している。
これにより、モデル予測コントローラとRLコントローラを同一システムで組み合わせることができる。
シンボリックシステムモデルを活用することで、CommonPowerは安全層のフレキシブルな定式化を通じて安全戦略の研究を促進する。
さらに汎用的な予測インタフェースを備えたCommonPowerは,複数次元のスマートグリッドにおける安全なRLコントローラの探索を著しく強化する汎用ツールである。
The growing complexity of power system management has led to an increased interest in the use of reinforcement learning (RL). However, no tool for comprehensive and realistic benchmarking of RL in smart grids exists. One prerequisite for such a comparison is a safeguarding mechanism since vanilla RL controllers can not guarantee the satisfaction of system constraints. Other central requirements include flexible modeling of benchmarking scenarios, credible baselines, and the possibility to investigate the impact of forecast uncertainties. Our Python tool CommonPower is the first modular framework addressing these needs. CommonPower offers a unified interface for single-agent and multi-agent RL training algorithms and includes a built-in model predictive control approach based on a symbolic representation of the system equations. This makes it possible to combine model predictive controllers with RL controllers in the same system. Leveraging the symbolic system model, CommonPower facilitates the study of safeguarding strategies via the flexible formulation of safety layers. Furthermore equipped with a generic forecasting interface, CommonPower constitutes a versatile tool significantly augmenting the exploration of safe RL controllers in smart grids on several dimensions. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# CERNにおける粒子衝突の高速シミュレーションのための生成拡散モデル
Generative Diffusion Models for Fast Simulations of Particle Collisions at CERN ( http://arxiv.org/abs/2406.03233v1 ) ライセンス: Link先を確認 | Mikołaj Kita, Jan Dubiński, Przemysław Rokita, Kamil Deja, | (参考訳) 高エネルギー物理シミュレーションでは、CERNの大型ハドロン衝突型加速器における粒子衝突実験の複雑さの解明に重要な役割を果たしている。
機械学習シミュレーション手法は、従来のアプローチに代わる有望な代替手段として注目されている。
既存の手法は変分オートエンコーダ(VAE)やGAN(Generative Adversarial Networks)が中心であるが、近年の進歩は拡散モデルの有効性を最先端の生成機械学習手法として強調している。
拡散モデルに基づくALICE実験において,Zero Degree Calorimeter (ZDC) のシミュレーションを行った。
生成時間とシミュレーション品質のトレードオフ分析を行う。
その結果, 高速発生による潜伏拡散モデルの有意なポテンシャルが示唆された。
In High Energy Physics simulations play a crucial role in unraveling the complexities of particle collision experiments within CERN's Large Hadron Collider. Machine learning simulation methods have garnered attention as promising alternatives to traditional approaches. While existing methods mainly employ Variational Autoencoders (VAEs) or Generative Adversarial Networks (GANs), recent advancements highlight the efficacy of diffusion models as state-of-the-art generative machine learning methods. We present the first simulation for Zero Degree Calorimeter (ZDC) at the ALICE experiment based on diffusion models, achieving the highest fidelity compared to existing baselines. We perform an analysis of trade-offs between generation times and the simulation quality. The results indicate a significant potential of latent diffusion model due to its rapid generation time. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 強化学習におけるロバスト性向上のための量子化による微粒因果ダイナミクス学習
Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning ( http://arxiv.org/abs/2406.03234v1 ) ライセンス: Link先を確認 | Inwoo Hwang, Yunhyeok Kwak, Suhyung Choi, Byoung-Tak Zhang, Sanghack Lee, | (参考訳) 近年,強化学習(RL)における強靭性向上に期待できるアプローチとして,因果ダイナミクス学習が登場している。
通常、ゴールは、エンティティ間の因果関係に基づいて予測を行う動的モデルを構築することである。
因果関係は特定の文脈下でのみ現れることが多いという事実にもかかわらず、既存のアプローチはそのようなきめ細かい関係を見落とし、ダイナミクスの詳細な理解を欠いている。
本研究では, 微粒な因果構造を推算し, 予測に用いる新しい力学モデルを提案する。
鍵となる考え方は、状態-作用空間を部分群に量子化する離散潜在変数でダイナミクスモデルを共同で学習することである。
これにより、トレーニングを通して各サブグループについて因果構造が学習されるスパース依存関係を表示する意味のあるコンテキストが認識される。
実験結果から, 微粒な因果推論が重要となる下流タスクにおいて, 本手法の未確認状態に対するロバスト性, 局所的な急激な相関性を示す。
さらに,従来の手法と比較して微粒な因果関係の発見における量子化による部分群ベースアプローチの有効性について述べる。
Causal dynamics learning has recently emerged as a promising approach to enhancing robustness in reinforcement learning (RL). Typically, the goal is to build a dynamics model that makes predictions based on the causal relationships among the entities. Despite the fact that causal connections often manifest only under certain contexts, existing approaches overlook such fine-grained relationships and lack a detailed understanding of the dynamics. In this work, we propose a novel dynamics model that infers fine-grained causal structures and employs them for prediction, leading to improved robustness in RL. The key idea is to jointly learn the dynamics model with a discrete latent variable that quantizes the state-action space into subgroups. This leads to recognizing meaningful context that displays sparse dependencies, where causal structures are learned for each subgroup throughout the training. Experimental results demonstrate the robustness of our method to unseen states and locally spurious correlations in downstream tasks where fine-grained causal reasoning is crucial. We further illustrate the effectiveness of our subgroup-based approach with quantization in discovering fine-grained causal relationships compared to prior methods. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 若い英語学習者の言語における誤り保存自動音声認識
Error-preserving Automatic Speech Recognition of Young English Learners' Language ( http://arxiv.org/abs/2406.03235v1 ) ライセンス: Link先を確認 | Janick Michot, Manuela Hürlimann, Jan Deriu, Luzia Sauer, Katsiaryna Mlynchyk, Mark Cieliebak, | (参考訳) 言語学習者が実践しなければならない中心的なスキルの1つは、言語を話すことである。
現在、学校の生徒は十分な講演機会が得られず、会話の練習が欠如している。
近年の音声技術と自然言語処理の進歩は、彼らの発話スキルを実践する新しいツールの開発を可能にしている。
本研究では,このようなパイプラインの最初のコンポーネントである自動音声認識モジュール(ASR)に取り組み,多くの課題に直面している。
第二に、ほとんどのASRシステムには強力な言語モデルが含まれており、話者による誤りをスムーズにしている。
言語学習において重要な部分である修正的フィードバックを与えるためには、我々の設定におけるASRシステムは、言語学習者が犯した誤りを保存する必要がある。
本研究では,これらの要件を満たすASRシステムを構築し,若手学習者による自発的な音声処理と誤りの保存を行う。
そこで我々は,スイスの学習者を対象に,ASRモデルを訓練した4年生から6年生までの85時間の英語音声を含むコーパスを収集した。
実験の結果, 幼児の声を直接微調整することで, 他のモデルよりも高い誤差保存率が得られることがわかった。
One of the central skills that language learners need to practice is speaking the language. Currently, students in school do not get enough speaking opportunities and lack conversational practice. Recent advances in speech technology and natural language processing allow for the creation of novel tools to practice their speaking skills. In this work, we tackle the first component of such a pipeline, namely, the automated speech recognition module (ASR), which faces a number of challenges: first, state-of-the-art ASR models are often trained on adult read-aloud data by native speakers and do not transfer well to young language learners' speech. Second, most ASR systems contain a powerful language model, which smooths out errors made by the speakers. To give corrective feedback, which is a crucial part of language learning, the ASR systems in our setting need to preserve the errors made by the language learners. In this work, we build an ASR system that satisfies these requirements: it works on spontaneous speech by young language learners and preserves their errors. For this, we collected a corpus containing around 85 hours of English audio spoken by learners in Switzerland from grades 4 to 6 on different language learning tasks, which we used to train an ASR model. Our experiments show that our model benefits from direct fine-tuning on children's voices and has a much higher error preservation rate than other models. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# Fact-Checkingのための文書レベルのクレーム抽出と非コンテクスト化
Document-level Claim Extraction and Decontextualisation for Fact-Checking ( http://arxiv.org/abs/2406.03239v1 ) ライセンス: Link先を確認 | Zhenyun Deng, Michael Schlichtkrul, Andreas Vlachos, | (参考訳) チェックするクレームを選択することは、人間のファクトチェッカーにとって、特に複数の文と複数のクレームを含む文書から、時間を要するタスクである。
しかし、既存のクレーム抽出アプローチは、個々の文からクレームを特定して抽出すること、例えば、ある文がクレームを含むか、またはその文内のクレームの正確な境界を識別することに焦点を当てている。
本稿では,事実確認のための文書レベルのクレーム抽出手法を提案する。
具体的には、文書から中心文を識別するために、まずクレーム抽出を抽出要約として再キャストし、文書から必要コンテキストを含むように書き換える。
自動測定とファクトチェックの両専門家による評価は,本手法が従来よりも精度の高い文書からチェック価値のあるクレームを抽出できるとともに,証拠検索の改善を図っていることを示している。
Selecting which claims to check is a time-consuming task for human fact-checkers, especially from documents consisting of multiple sentences and containing multiple claims. However, existing claim extraction approaches focus more on identifying and extracting claims from individual sentences, e.g., identifying whether a sentence contains a claim or the exact boundaries of the claim within a sentence. In this paper, we propose a method for document-level claim extraction for fact-checking, which aims to extract check-worthy claims from documents and decontextualise them so that they can be understood out of context. Specifically, we first recast claim extraction as extractive summarization in order to identify central sentences from documents, then rewrite them to include necessary context from the originating document through sentence decontextualisation. Evaluation with both automatic metrics and a fact-checking professional shows that our method is able to extract check-worthy claims from documents more accurately than previous work, while also improving evidence retrieval. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 一般音源追跡:実強調とフェイク分散戦略による新しいオーディオディープフェイクアルゴリズムの検出
Generalized Source Tracing: Detecting Novel Audio Deepfake Algorithm with Real Emphasis and Fake Dispersion strategy ( http://arxiv.org/abs/2406.03240v1 ) ライセンス: Link先を確認 | Yuankun Xie, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Xiaopeng Wang, Haonnan Cheng, Long Ye, Jianhua Tao, | (参考訳) ディープフェイク音声の普及に伴い、その属性を調査する必要がある。
現在のソーストレース手法は、ID(In-distribution)カテゴリを効果的に識別することができる。
しかし、ディープフェイクアルゴリズムの急速な進化は、アウト・オブ・ディストリビューション(OOD)の新規ディープフェイクアルゴリズムの正確な同定において重要な課題となっている。
本稿では,音声ディープフェイク音声認識のためのReal Emphasis and Fake Dispersion(REFD)戦略を提案する。
OOD検出を効果的に行うために、我々はまず現在のポストホックOOD法を探索し、特徴とロジットのスコアの類似性を考慮して新しいディープフェイクアルゴリズムを識別する新しいOOD手法であるNSDを提案する。
REFDはAudio Deepfake Detection Challenge 2023 Track3で86.83%のF1スコアを達成した。
With the proliferation of deepfake audio, there is an urgent need to investigate their attribution. Current source tracing methods can effectively distinguish in-distribution (ID) categories. However, the rapid evolution of deepfake algorithms poses a critical challenge in the accurate identification of out-of-distribution (OOD) novel deepfake algorithms. In this paper, we propose Real Emphasis and Fake Dispersion (REFD) strategy for audio deepfake algorithm recognition, demonstrating its effectiveness in discriminating ID samples while identifying OOD samples. For effective OOD detection, we first explore current post-hoc OOD methods and propose NSD, a novel OOD approach in identifying novel deepfake algorithms through the similarity consideration of both feature and logits scores. REFD achieves 86.83% F1-score as a single system in Audio Deepfake Detection Challenge 2023 Track3, showcasing its state-of-the-art performance. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 粒子物理学における噴流再構成のための変分擬連成法
Variational Pseudo Marginal Methods for Jet Reconstruction in Particle Physics ( http://arxiv.org/abs/2406.03242v1 ) ライセンス: Link先を確認 | Hanming Yang, Antonio Khalil Moretti, Sebastian Macaluso, Philippe Chlenski, Christian A. Naesseth, Itsik Pe'er, | (参考訳) 高エネルギー衝突で生成するサブ原子粒子の性質と歴史について重要な知見を提供するジェットの再構成は、コライダー物理学におけるデータ解析における主要な問題である。
この複雑なタスクは、ジェット(バイナリツリー)の潜伏構造を推定し、粒子エネルギー、運動量、タイプなどのパラメータを含む。
ベイズ法は、不確実性に対処し、事前の知識を活用するための自然なアプローチを提供するが、観測された粒子の数が増加するにつれて、潜在的ジェットトポロジーの超指数的な成長のために大きな課題に直面している。
これを解決するために、ジェット潜伏構造を推定するためのコンビニアル・シークエンシャルモンテカルロ法を提案する。
第2の貢献として、パラメータ学習のための変分推論アルゴリズムを開発するために、得られた推定値を利用する。
そこで本研究では,全変数のベイズ的処理に擬似文法的枠組みを用いた変分族を導入し,生成モデルと推論過程を統一する。
本研究では,コライダー物理生成モデルを用いて生成したデータを用いて,実験により提案手法の有効性を説明する。
Reconstructing jets, which provide vital insights into the properties and histories of subatomic particles produced in high-energy collisions, is a main problem in data analyses in collider physics. This intricate task deals with estimating the latent structure of a jet (binary tree) and involves parameters such as particle energy, momentum, and types. While Bayesian methods offer a natural approach for handling uncertainty and leveraging prior knowledge, they face significant challenges due to the super-exponential growth of potential jet topologies as the number of observed particles increases. To address this, we introduce a Combinatorial Sequential Monte Carlo approach for inferring jet latent structures. As a second contribution, we leverage the resulting estimator to develop a variational inference algorithm for parameter learning. Building on this, we introduce a variational family using a pseudo-marginal framework for a fully Bayesian treatment of all variables, unifying the generative model with the inference process. We illustrate our method's effectiveness through experiments using data generated with a collider physics generative model, highlighting superior speed and accuracy across a range of tasks. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# AIリアリズムを復活させるために参加型設計を再構成する
Reconfiguring Participatory Design to Resist AI Realism ( http://arxiv.org/abs/2406.03245v1 ) ライセンス: Link先を確認 | Aakash Gautam, | (参考訳) 社会的および技術的な問題に対する解決策としての人工知能(AI)のトレンドは、AIリアリズムを強化する -- AIは必然的で自然な秩序である、という信念だ。
本稿では、民主的価値とプロセスに焦点をあてた参加型デザイン(PD)が、AIリアリズムに疑問を呈し抵抗する役割を担っていることを論じる。
AIリアリズムの3つの側面について検討する:真のエンパワーメントを欠く民主化のファサード、AIシステムの柔軟性とは対照的に人間の適応性への要求、AIシステムを実現する不可欠な人間労働の難しさ。
PDを再構成して価値中心のビジョンへの関与を継続し、AI以外の選択肢を探究し、AIシステムを目に見えるものにすることで、AIリアリズムに抵抗することを提案する。
私はPDを、人間のニーズと価値観を中心とした、AIリアリズムとオープンスペースとの摩擦を生み出す手段として位置づけています。
The growing trend of artificial intelligence (AI) as a solution to social and technical problems reinforces AI Realism -- the belief that AI is an inevitable and natural order. In response, this paper argues that participatory design (PD), with its focus on democratic values and processes, can play a role in questioning and resisting AI Realism. I examine three concerning aspects of AI Realism: the facade of democratization that lacks true empowerment, demands for human adaptability in contrast to AI systems' inflexibility, and the obfuscation of essential human labor enabling the AI system. I propose resisting AI Realism by reconfiguring PD to continue engaging with value-centered visions, increasing its exploration of non-AI alternatives, and making the essential human labor underpinning AI systems visible. I position PD as a means to generate friction against AI Realism and open space for alternative futures centered on human needs and values. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 推薦説明のための評価器としての大規模言語モデル
Large Language Models as Evaluators for Recommendation Explanations ( http://arxiv.org/abs/2406.03248v1 ) ライセンス: Link先を確認 | Xiaoyu Zhang, Yishan Li, Jiayin Wang, Bowen Sun, Weizhi Ma, Peijie Sun, Min Zhang, | (参考訳) 推薦システムの説明可能性は、学術や産業において大きな注目を集めている。
説明可能なレコメンデーションのために多くの努力がなされているが、説明の質を評価することは困難で未解決の課題である。
近年,LLMを評価対象として活用することで,自然言語処理タスク(感情分類,情報抽出など)における将来性を示す。
しかしながら、推奨説明文の評価は、その基準が人間の知覚と関連し、通常主観的であるため、これらのNLGタスクとは異なる。
本稿では,LLM がレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
質問に答えるために、我々は以前の研究から得られた説明に実際のユーザフィードバックを利用し、さらにサードパーティのアノテーションやLCM評価も収集する。
我々は,評価者ラベルとユーザが提供する真実の相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
GPT4 などの LLM は,適切なプロンプトと設定で同等の評価を行うことができる。
また,評価の精度と安定性を高めるために,LLM評価プロセスとヒトラベルの組み合わせと,多種多種LLM評価器のアンサンブルの利用に関するさらなる知見を提供する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
私たちのコードはhttps://github.com/Xiaoyu-SZ/LLMasEvaluator.comで公開されています。
The explainability of recommender systems has attracted significant attention in academia and industry. Many efforts have been made for explainable recommendations, yet evaluating the quality of the explanations remains a challenging and unresolved issue. In recent years, leveraging LLMs as evaluators presents a promising avenue in Natural Language Processing tasks (e.g., sentiment classification, information extraction), as they perform strong capabilities in instruction following and common-sense reasoning. However, evaluating recommendation explanatory texts is different from these NLG tasks, as its criteria are related to human perceptions and are usually subjective. In this paper, we investigate whether LLMs can serve as evaluators of recommendation explanations. To answer the question, we utilize real user feedback on explanations given from previous work and additionally collect third-party annotations and LLM evaluations. We design and apply a 3-level meta evaluation strategy to measure the correlation between evaluator labels and the ground truth provided by users. Our experiments reveal that LLMs, such as GPT4, can provide comparable evaluations with appropriate prompts and settings. We also provide further insights into combining human labels with the LLM evaluation process and utilizing ensembles of multiple heterogeneous LLM evaluators to enhance the accuracy and stability of evaluations. Our study verifies that utilizing LLMs as evaluators can be an accurate, reproducible and cost-effective solution for evaluating recommendation explanation texts. Our code is available at https://github.com/Xiaoyu-SZ/LLMasEvaluator. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# 教師なし深層学習に基づく超大規模MIMOのための近接場ビームフォーミング
Near-field Beamforming for Extremely Large-scale MIMO Based on Unsupervised Deep Learning ( http://arxiv.org/abs/2406.03249v1 ) ライセンス: Link先を確認 | Jiali Nie, Yuanhao Cui, Zhaohui Yang, Weijie Yuan, Xiaojun Jing, | (参考訳) ELAA(Extremely Large-scale Array)は、将来の通信システムのフロンティア技術であり、無線システムの速度とスペクトル効率を改善する上で重要な技術である。
しかし、ELAAは高周波数で作動するアンテナを多用しているため、通常は球面波面が伝播する近接場に位置する。
これは必然的にビームトレーニングのオーバーヘッドを大幅に増加させ、角度領域と距離領域の両方で複雑な2次元ビーム探索を必要とする。
この問題に対処するために,教師なし深層学習に基づく近接場ビームフォーミング法を提案する。
我々の畳み込みニューラルネットワークは、パディングとカーネルサイズを戦略的に選択することで、複雑なチャネル状態情報の特徴を効率的に抽出する。
我々はビームフォーマを最適化し、予め定義されたカスタムコードブックに頼ることなく、マルチユーザネットワークにおける達成可能なレートを最大化する。
デプロイ時には、最適なビームフォーミングベクトルを導出するために、事前に推定されたチャネル状態情報の入力のみを必要とする。
シミュレーションの結果,提案手法はベースライン方式と比較して安定なビームフォーミングゲインが得られることがわかった。
さらに,深層学習手法の特質から,近距離場におけるビームトレーニングコストを著しく低減する。
Extremely Large-scale Array (ELAA) is considered a frontier technology for future communication systems, pivotal in improving wireless systems' rate and spectral efficiency. However, as ELAA employs a multitude of antennas operating at higher frequencies, users are typically situated in the near-field region where the spherical wavefront propagates. This inevitably leads to a significant increase in the overhead of beam training, requiring complex two-dimensional beam searching in both the angle domain and the distance domain. To address this problem, we propose a near-field beamforming method based on unsupervised deep learning. Our convolutional neural network efficiently extracts complex channel state information features by strategically selecting padding and kernel size. We optimize the beamformers to maximize achievable rates in a multi-user network without relying on predefined custom codebooks. Upon deployment, the model requires solely the input of pre-estimated channel state information to derive the optimal beamforming vector. Simulation results show that our proposed scheme can obtain stable beamforming gain compared with the baseline scheme. Furthermore, owing to the inherent traits of deep learning methodologies, this approach substantially diminishes the beam training costs in near-field regions. | 翻訳日:2024-06-06 18:20:44 公開日:2024-06-05 |
# ゼロショットポリシー伝達のためのプロンプトに基づく視覚アライメント
Prompt-based Visual Alignment for Zero-shot Policy Transfer ( http://arxiv.org/abs/2406.03250v1 ) ライセンス: Link先を確認 | Haihan Gao, Rui Zhang, Qi Yi, Hantao Yao, Haochen Li, Jiaming Guo, Shaohui Peng, Yunkai Gao, QiCheng Wang, Xing Hu, Yuanbo Wen, Zihao Zhang, Zidong Du, Ling Li, Qi Guo, Yunji Chen, | (参考訳) RLのオーバーフィッティングは強化学習(RL)への応用における主要な障害の一つとなっている。
既存のメソッドは、特徴抽出器に明示的なセマンティック制約を提供しておらず、エージェントが統合されたクロスドメイン表現を学習することを妨げる。
さらに、複数のドメインからの豊富なデータが必要である。
これらの課題に対処するため,本研究では,ゼロショットポリシ転送のための画像における有害領域バイアスを軽減するための堅牢なフレームワークであるプロンプトベースの視覚アライメント(PVA)を提案する。
VLM(Visual-Language Model)がテキスト空間と画像空間の両方を接続するブリッジとして機能できることに着想を得て、テキストシーケンスに含まれる意味情報を明示的な制約として活用し、ビジュアルコンディショナーを訓練する。
これにより、複数の領域からの画像を統一された領域にマッピングし、優れた一般化性能が得られる。
意味情報をよりよく表現するために、学習可能なトークンのシーケンスを学習するためにプロンプトチューニングを適用する。
意味情報の明示的な制約により、PVAはクロスドメインデータに制限されたアクセス下で、統一されたクロスドメイン表現を学習し、目に見えないドメインで大きなゼロショットの一般化能力を達成することができる。
CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
実験により、エージェントは、マルチドメインデータへの限られたアクセス下で、見えないドメインによく一般化することが示された。
Overfitting in RL has become one of the main obstacles to applications in reinforcement learning(RL). Existing methods do not provide explicit semantic constrain for the feature extractor, hindering the agent from learning a unified cross-domain representation and resulting in performance degradation on unseen domains. Besides, abundant data from multiple domains are needed. To address these issues, in this work, we propose prompt-based visual alignment (PVA), a robust framework to mitigate the detrimental domain bias in the image for zero-shot policy transfer. Inspired that Visual-Language Model (VLM) can serve as a bridge to connect both text space and image space, we leverage the semantic information contained in a text sequence as an explicit constraint to train a visual aligner. Thus, the visual aligner can map images from multiple domains to a unified domain and achieve good generalization performance. To better depict semantic information, prompt tuning is applied to learn a sequence of learnable tokens. With explicit constraints of semantic information, PVA can learn unified cross-domain representation under limited access to cross-domain data and achieves great zero-shot generalization ability in unseen domains. We verify PVA on a vision-based autonomous driving task with CARLA simulator. Experiments show that the agent generalizes well on unseen domains under limited access to multi-domain data. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# ASoBO:会議における遠隔話者ダイアリゼーションのための注意ビームフォーマの選択
ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings ( http://arxiv.org/abs/2406.03251v1 ) ライセンス: Link先を確認 | Theo Mariotte, Anthony Larcher, Silvio Montresor, Jean-Hugh Thomas, | (参考訳) 話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
このタスクは、リッチミーティングの書き起こしなど、多くの音声処理アプリケーションで必要とされる。
この文脈では、遠方のマイクロフォンアレイは通常、オーディオ信号をキャプチャする。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
しかし、フィルタを操るためにはアクティブなソースを明示的にローカライズする必要があることが多い。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
共同音声活動(VAD)とオーバーラップ音声検出(OSD)のための特徴抽出器として機能する。
そして、検出されたセグメントから話者ダイアリゼーションを推定する。
このアプローチは、AISHELL-4データセット上の14.5%DERなど、遠くのVAD、OSD、SDのパフォーマンスを説得できることを示している。
自己注意重みの分析は、話者の角の位置と相関するため、その説明可能性を示している。
Speaker Diarization (SD) aims at grouping speech segments that belong to the same speaker. This task is required in many speech-processing applications, such as rich meeting transcription. In this context, distant microphone arrays usually capture the audio signal. Beamforming, i.e., spatial filtering, is a common practice to process multi-microphone audio data. However, it often requires an explicit localization of the active source to steer the filter. This paper proposes a self-attention-based algorithm to select the output of a bank of fixed spatial filters. This method serves as a feature extractor for joint Voice Activity (VAD) and Overlapped Speech Detection (OSD). The speaker diarization is then inferred from the detected segments. The approach shows convincing distant VAD, OSD, and SD performance, e.g. 14.5% DER on the AISHELL-4 dataset. The analysis of the self-attention weights demonstrates their explainability, as they correlate with the speaker's angular locations. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# グラフ記述における高次構造探索
Exploring Higher Order Structures in Graph Explanantions ( http://arxiv.org/abs/2406.03253v1 ) ライセンス: Link先を確認 | Akshit Sinha, Sreeram Vennam, Charu Sharma, Ponnurangam Kumaraguru, | (参考訳) グラフ学習の最近の進歩は、グラフニューラルネットワークによって生成された予測の説明に寄与した。
しかし、既存の方法論は、実世界のデータセットに適用すると、しばしば不足する。
我々は,高次関係のモデル化に長けているセルコンプレックスを用いて高次構造をキャプチャするフレームワークHOGEを紹介する。
実世界では、高次構造は分子やソーシャルネットワークのようにユビキタスであるため、我々の研究はグラフ説明の実用性を大幅に向上させる。
HOGEは従来の方法よりも明確で正確な説明をすることができる。
私たちのメソッドは既存のすべてのグラフ説明器と統合することができ、現在のフレームワークへのシームレスな統合を保証できます。
我々は、GraphXAIベンチマークデータセットを評価し、HOGEは最小の計算オーバーヘッドで改善または同等のパフォーマンスを達成する。
アブレーション研究では、観察された性能向上は、細胞複合体の導入による高次構造に起因することが示されている。
Recent advancements in graph learning contributed to explaining predictions generated by Graph Neural Networks. However, existing methodologies often fall short when applied to real-world datasets. We introduce HOGE, a framework to capture higher-order structures using cell complexes, which excel at modeling higher-order relationships. In the real world, higher-order structures are ubiquitous like in molecules or social networks, thus our work significantly enhances the practical applicability of graph explanations. HOGE produces clearer and more accurate explanations compared to prior methods. Our method can be integrated with all existing graph explainers, ensuring seamless integration into current frameworks. We evaluate on GraphXAI benchmark datasets, HOGE achieves improved or comparable performance with minimal computational overhead. Ablation studies show that the performance gain observed can be attributed to the higher-order structures that come from introducing cell complexes. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# フェアネス・アウェア分類器の最大局所差について
On the Maximal Local Disparity of Fairness-Aware Classifiers ( http://arxiv.org/abs/2406.03255v1 ) ライセンス: Link先を確認 | Jinqiu Jin, Haoxuan Li, Fuli Feng, | (参考訳) 公正さは、信頼できる機械学習アルゴリズムの開発において重要な側面となっている。
人口格差の違反を測定するための現在の公正度指標には、以下の欠点がある。
一 二つの群におけるモデル予測の平均差は、その分布格差を反映することができず、
(2) 予測可能な全ての予測の全体計算は、特定の予測の周辺において、極端に局所的な格差を隠蔽する。
そこで本研究では,各予測地区(MCDP)に沿った最大累積比差(Maximal Cumulative ratio Disparity)と呼ばれる新しいフェアネス尺度を提案し,フェアネス認識分類器の最大局所差を測定する。
MCDPを精度よく効率的に計算するために,推定誤差の少ない計算複雑性を大幅に低減する,証明可能な精度と近似計算アルゴリズムを開発した。
さらに,アルゴリズムの公平性を改善するために,MCDPの微分可能近似を用いた二段階最適化アルゴリズムを提案する。
表と画像の両方のデータセットに対する大規模な実験により、我々の公正トレーニングアルゴリズムがより優れた公正さと精度のトレードオフを達成できることが検証された。
Fairness has become a crucial aspect in the development of trustworthy machine learning algorithms. Current fairness metrics to measure the violation of demographic parity have the following drawbacks: (i) the average difference of model predictions on two groups cannot reflect their distribution disparity, and (ii) the overall calculation along all possible predictions conceals the extreme local disparity at or around certain predictions. In this work, we propose a novel fairness metric called Maximal Cumulative ratio Disparity along varying Predictions' neighborhood (MCDP), for measuring the maximal local disparity of the fairness-aware classifiers. To accurately and efficiently calculate the MCDP, we develop a provably exact and an approximate calculation algorithm that greatly reduces the computational complexity with low estimation error. We further propose a bi-level optimization algorithm using a differentiable approximation of the MCDP for improving the algorithmic fairness. Extensive experiments on both tabular and image datasets validate that our fair training algorithm can achieve superior fairness-accuracy trade-offs. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 量子ビットの普遍的デフォーカスチャネルとしての重力からの量子センシング
Quantum Sensing from Gravity as Universal Dephasing Channel for Qubits ( http://arxiv.org/abs/2406.03256v1 ) ライセンス: Link先を確認 | Alexander V. Balatsky, Pedram Roushan, Joris Schaltegger, Patrick J. Wong, | (参考訳) トランスモン量子ビットと古典的な重力場との相互作用について検討する。
重力赤方偏移とアハロノフ・ボーム相の一般的な現象を爆発させることで、絡み合った量子状態が普遍的な速度で脱相することを示す。
重力相シフトは量子コンピューティングノイズチャネルの言葉で表される。
重力流路から得られる小さな位相を測定するのに最適である位相ドリフトにおいて線形な位相推定アルゴリズムを改良した位相推定アルゴリズムに基づく測定プロトコルを提案する。
さらに,この現象の応用例として,精密重力計と機械ひずみ計の量子センサとして,量子ビットプラットフォームを提案する。
局所重力加速度を測定する感度を$\delta g/g \sim 10^{-7}$と推定する。
本稿では、古典重力が量子コンピューティングハードウェアに非自明な影響を与えていることを示し、量子コンピューティングハードウェアが計算以外の目的でどのように利用されるかを示す。
超伝導量子ビットに焦点をあてる一方で、全ての量子プラットフォームに対する重力相効果の普遍的性質を指摘する。
We investigate the interaction of a transmon qubit with a classical gravitational field. Exploiting the generic phenomena of the gravitational redshift and Aharonov-Bohm phase, we show that entangled quantum states dephase with a universal rate. The gravitational phase shift is expressed in terms of a quantum computing noise channel. We give a measurement protocol based on a modified phase estimation algorithm which is linear in the phase drift, which is optimal for measuring the small phase that is acquired from the gravitation channel. Additionally, we propose qubit-based platforms as quantum sensors for precision gravitometers and mechanical strain gauges as an example of this phenomenon's utility. We estimate a sensitivity for measuring the local gravitational acceleration to be $\delta g/g \sim 10^{-7}$. This paper demonstrates that classical gravitation has a non-trivial influence on quantum computing hardware, and provides an illustration of how quantum computing hardware may be utilized for purposes other than computation. While we focus on superconducting qubits, we point the universal nature of gravitational phase effects for all quantum platforms. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 緩和量子回帰:非対称雑音の予測間隔
Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise ( http://arxiv.org/abs/2406.03258v1 ) ライセンス: Link先を確認 | Thomas Pouplin, Alan Jeffares, Nabeel Seedat, Mihaela van der Schaar, | (参考訳) 点推定よりも有効な予測間隔を構築することは、回帰設定における不確実性定量化のための確立されたアプローチである。
このキャパシティを備えたモデルは、基底真理目標が所定の確率で低下する値の間隔を出力する。
これは、単純な点予測が誤りの大きさや頻度を伝達できないため、高い判断を下すには不十分な多くの実世界のアプリケーションにおいて必須の要件である。
量子回帰は、出力の(非パラメトリック)分布における量子の経験的推定を通じてそのような区間を得るための主要なアプローチである。
この方法は単純で、計算に安価で、解釈可能で、仮定なし、効果的である。
しかし、学習される特定の量子化が先入観として選択されることが要求される。
その結果は
a) 現実的な歪曲分布に準最適である中央値の周囲に任意に対称な区間、又は
(b)過剰な間隔の学習。
本稿では、量子回帰に基づく区間構成の直接的な代替となるRQR(Relaxed Quantile Regression)を提案する。
この付加柔軟性は, 定量回帰の重要なカバレッジ保証を維持しつつ, 望ましい品質(平均幅)を向上した間隔で得られることを示す。
Constructing valid prediction intervals rather than point estimates is a well-established approach for uncertainty quantification in the regression setting. Models equipped with this capacity output an interval of values in which the ground truth target will fall with some prespecified probability. This is an essential requirement in many real-world applications where simple point predictions' inability to convey the magnitude and frequency of errors renders them insufficient for high-stakes decisions. Quantile regression is a leading approach for obtaining such intervals via the empirical estimation of quantiles in the (non-parametric) distribution of outputs. This method is simple, computationally inexpensive, interpretable, assumption-free, and effective. However, it does require that the specific quantiles being learned are chosen a priori. This results in (a) intervals that are arbitrarily symmetric around the median which is sub-optimal for realistic skewed distributions, or (b) learning an excessive number of intervals. In this work, we propose Relaxed Quantile Regression (RQR), a direct alternative to quantile regression based interval construction that removes this arbitrary constraint whilst maintaining its strengths. We demonstrate that this added flexibility results in intervals with an improvement in desirable qualities (e.g. mean width) whilst retaining the essential coverage guarantees of quantile regression. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 複数の出力と畳み込み層を持つ有限幅ベイズ深い線形ネットワークにおける特徴学習
Feature learning in finite-width Bayesian deep linear networks with multiple outputs and convolutional layers ( http://arxiv.org/abs/2406.03260v1 ) ライセンス: Link先を確認 | Federico Bassetti, Marco Gherardi, Alessandro Ingrosso, Mauro Pastore, Pietro Rotondo, | (参考訳) ディープラーニングの単純化モデルを提供するため、ディープ線形ネットワークは広く研究されている。
しかし、複数の出力と畳み込み層を持つ有限幅アーキテクチャの場合はほとんど知られていない。
本稿では,上記のネットワークのクラスによって実装された関数の統計値について厳密な結果を提供し,ベイズ的設定における特徴学習の完全な特徴付けに近づいた。
結果は以下のとおりである。
i) ガウスの混合の言葉で与えられる出力に対する共同先行分布の完全かつ基本的な非漸近積分表現
(二)二乗誤差損失関数の場合の後方分布の解析公式(ガウス的可能性)
(三)大偏差理論を用いて無限幅体制を学習する特徴を定量的に記述すること。
物理の観点からは、複数の出力または畳み込み層を持つ深層構造は、カーネル形状の正規化の異なる表現であり、我々の研究は、この物理直観と用語を厳密なベイズ統計に翻訳する辞書を提供する。
Deep linear networks have been extensively studied, as they provide simplified models of deep learning. However, little is known in the case of finite-width architectures with multiple outputs and convolutional layers. In this manuscript, we provide rigorous results for the statistics of functions implemented by the aforementioned class of networks, thus moving closer to a complete characterization of feature learning in the Bayesian setting. Our results include: (i) an exact and elementary non-asymptotic integral representation for the joint prior distribution over the outputs, given in terms of a mixture of Gaussians; (ii) an analytical formula for the posterior distribution in the case of squared error loss function (Gaussian likelihood); (iii) a quantitative description of the feature learning infinite-width regime, using large deviation theory. From a physical perspective, deep architectures with multiple outputs or convolutional layers represent different manifestations of kernel shape renormalization, and our work provides a dictionary that translates this physics intuition and terminology into rigorous Bayesian statistics. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# ADer: マルチクラス視覚異常検出のための総合ベンチマーク
ADer: A Comprehensive Benchmark for Multi-class Visual Anomaly Detection ( http://arxiv.org/abs/2406.03262v1 ) ライセンス: Link先を確認 | Jiangning Zhang, Haoyang He, Zhenye Gan, Qingdong He, Yuxuan Cai, Zhucun Xue, Yabiao Wang, Chengjie Wang, Lei Xie, Yong Liu, | (参考訳) 視覚異常検出は、教師なし学習パラダイムを通じて画像内の異常領域を識別することを目的としており、産業検査や医学的病変検出などの分野における応用需要と価値が増大している。
近年の進歩にもかかわらず、実践的なマルチクラス設定の下で、さまざまなデータセットにわたる様々な主流メソッドのパフォーマンスを適切に評価する包括的なベンチマークが欠如している。
標準化された実験装置が存在しないことは、訓練のエポック、解決、および計量結果に潜在的なバイアスをもたらし、誤った結論をもたらす。
本稿では,新しい手法に対して高度に拡張可能なモジュラーフレームワークである,包括的視覚異常検出ベンチマークである \textbf{\textit{ADer}} を提案し,この問題に対処する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
さらに、大規模データ上での時間消費mAU-PROのようなメトリクスの遅い評価問題に対処するため、GPU支援の \href{https://pypi.org/project/ADEval}{ADEval} パッケージをオープンソース化した。
本研究では,様々な手法の長所と短所を客観的に明らかにし,マルチクラス視覚異常検出の課題と今後の方向性について考察する。
我々は, この分野の研究者や実践者にとって, より堅牢で一般化可能な異常検出システムの開発を促進する貴重な資源となることを願っている。
完全なコードは Appendix に添付され、 \url{https://github.com/zhangzjn/ader} でオープンソース化されている。
Visual anomaly detection aims to identify anomalous regions in images through unsupervised learning paradigms, with increasing application demand and value in fields such as industrial inspection and medical lesion detection. Despite significant progress in recent years, there is a lack of comprehensive benchmarks to adequately evaluate the performance of various mainstream methods across different datasets under the practical multi-class setting. The absence of standardized experimental setups can lead to potential biases in training epochs, resolution, and metric results, resulting in erroneous conclusions. This paper addresses this issue by proposing a comprehensive visual anomaly detection benchmark, \textbf{\textit{ADer}}, which is a modular framework that is highly extensible for new methods. The benchmark includes multiple datasets from industrial and medical domains, implementing fifteen state-of-the-art methods and nine comprehensive metrics. Additionally, we have open-sourced the GPU-assisted \href{https://pypi.org/project/ADEval}{ADEval} package to address the slow evaluation problem of metrics like time-consuming mAU-PRO on large-scale data, significantly reducing evaluation time by more than \textit{1000-fold}. Through extensive experimental results, we objectively reveal the strengths and weaknesses of different methods and provide insights into the challenges and future directions of multi-class visual anomaly detection. We hope that \textbf{\textit{ADer}} will become a valuable resource for researchers and practitioners in the field, promoting the development of more robust and generalizable anomaly detection systems. Full codes have been attached in Appendix and open-sourced at \url{https://github.com/zhangzjn/ader}. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# ALICEにおける陽子ゼロ度熱量シミュレーションのための深部生成モデル
Deep Generative Models for Proton Zero Degree Calorimeter Simulations in ALICE, CERN ( http://arxiv.org/abs/2406.03263v1 ) ライセンス: Link先を確認 | Patryk Będkowski, Jan Dubiński, Kamil Deja, Przemysław Rokita, | (参考訳) 検出器応答のシミュレーションは、CERNの大型ハドロン衝突型加速器における粒子衝突の内部動作を理解する重要な部分である。
現在の統計モンテカルロシミュレーションへの依存はCERNの計算グリッドを歪ませ、より効率的な代替手段の緊急性を強調している。
これらの課題に対処するため、最近の提案では、生成機械学習手法を提唱している。
本研究では、ALICE実験において、プロトンZero Degree Calorimeterに適した革新的なディープラーニングシミュレーション手法を提案する。
選択多変量増加損失を伴う生成逆ネットワークモデルを活用することにより、直接カロリー応答をシミュレートする。
広い範囲のカロリー応答強度をモデル化する能力を高めるため、SDI-GANアーキテクチャをさらなる正規化で拡張する。
さらに、生成されたデータの空間的忠実度を改善するために、補助回帰器ネットワークを導入する。
本手法は,モンテカルロをベースとした従来の手法と比較して,大幅な高速化を実現する。
Simulating detector responses is a crucial part of understanding the inner-workings of particle collisions in the Large Hadron Collider at CERN. The current reliance on statistical Monte-Carlo simulations strains CERN's computational grid, underscoring the urgency for more efficient alternatives. Addressing these challenges, recent proposals advocate for generative machine learning methods. In this study, we present an innovative deep learning simulation approach tailored for the proton Zero Degree Calorimeter in the ALICE experiment. Leveraging a Generative Adversarial Network model with Selective Diversity Increase loss, we directly simulate calorimeter responses. To enhance its capabilities in modeling a broad range of calorimeter response intensities, we expand the SDI-GAN architecture with additional regularization. Moreover, to improve the spatial fidelity of the generated data, we introduce an auxiliary regressor network. Our method offers a significant speedup when comparing to the traditional Monte-Carlo based approaches. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 単調性制約を考慮した安全ベイズ最適化のための非回帰アルゴリズム
No-Regret Algorithms for Safe Bayesian Optimization with Monotonicity Constraints ( http://arxiv.org/abs/2406.03264v1 ) ライセンス: Link先を確認 | Arpan Losalka, Jonathan Scarlett, | (参考訳) 未知の関数 $f$ を $(s,\mathbf{x})$ という形の一連の作用に対して逐次最大化する問題を考えると、選択されたアクションは未知の安全関数 $g$ に対して安全制約を満たす必要がある。
我々は、再生カーネルヒルベルト空間(RKHS)に横たわる$f$と$g$をモデル化し、ガウス過程法の使用を容易にする。
この設定のための既存の研究は、ほぼ最適の安全な行動を特定することが保証されるアルゴリズムを提供してきたが、低い累積的後悔を達成するという問題は、ほとんど未解決のままであり、安全な地域を拡大することが大きな課題である。
この課題に対処するために、$g$が単一の変数$s$($f$にそのような制約はない)に対して単調である場合、提案したアルゴリズムでサブ線形後悔が達成可能であることを示す。
さらに,提案アルゴリズムの修正版は,大域的安全な最適値のみを求めるのではなく,各$\mathbf{x}$に対応するほぼ最適の$s$を求めるタスクに対して,サブ線形後悔(適切に定義された後悔の概念)を達成することができることを示す。
本研究は,種々の目的および安全性機能に関する実証的評価によって裏付けられた。
We consider the problem of sequentially maximizing an unknown function $f$ over a set of actions of the form $(s,\mathbf{x})$, where the selected actions must satisfy a safety constraint with respect to an unknown safety function $g$. We model $f$ and $g$ as lying in a reproducing kernel Hilbert space (RKHS), which facilitates the use of Gaussian process methods. While existing works for this setting have provided algorithms that are guaranteed to identify a near-optimal safe action, the problem of attaining low cumulative regret has remained largely unexplored, with a key challenge being that expanding the safe region can incur high regret. To address this challenge, we show that if $g$ is monotone with respect to just the single variable $s$ (with no such constraint on $f$), sublinear regret becomes achievable with our proposed algorithm. In addition, we show that a modified version of our algorithm is able to attain sublinear regret (for suitably defined notions of regret) for the task of finding a near-optimal $s$ corresponding to every $\mathbf{x}$, as opposed to only finding the global safe optimum. Our findings are supported with empirical evaluations on various objective and safety functions. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# デジタル・ソブリンティの技術的展望
Technological Perspective on Digital Sovereignty ( http://arxiv.org/abs/2406.03266v1 ) ライセンス: Link先を確認 | Matthias Stuermer, | (参考訳) 連邦外務省(FDFA)が注目するこの報告書は、ハイディ・ズグラッゲン枢密顧問官による22.4411 "Digital Sovereignty Strategy for Switzerland"(スイスのデジタル主権戦略)の文脈において科学的に貢献している。
この報告書は、技術的観点からのデジタル主権の意味と、スイスや海外で現在どのような活動が行われているかを示している。
また、将来の「Swiss Digital Sovereignty Strategy」のための戦略的方向性や具体的な勧告も提供する。
This report for the attention of the Federal Department of Foreign Affairs (FDFA) makes a scientific contribution in the context of postulate 22.4411 "Digital Sovereignty Strategy for Switzerland" by Councillor of States Heidi Z'graggen. The report shows what digital sovereignty means from a technological perspective and what activities are currently being carried out in this regard in Switzerland and abroad. It also provides strategic directions and specific recommendations for a future "Swiss Digital Sovereignty Strategy". | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# Image Copy-Move Forgery Detection and Localization Scheme:ミス検出と偽アラームを回避する方法
Image Copy-Move Forgery Detection and Localization Scheme: How to Avoid Missed Detection and False Alarm ( http://arxiv.org/abs/2406.03271v1 ) ライセンス: Link先を確認 | Li Jiang, Zhaowei Lu, Yuebing Gao, Yifan Wang, | (参考訳) 画像コピー-ムーブ(英: Image copy-move)は、画像の一部が同じ画像の別の部分に置き換えられる操作である。
近年の研究では、キーポイントに基づくアルゴリズムは、小さい領域や滑らかな領域が関与している場合でも、優れた、ロバストなローカライゼーション性能を達成することが示されている。
しかし、入力画像が低解像度である場合、既存のキーポイントベースのアルゴリズムのほとんどは十分なキーポイントを生成するのが困難であり、より多くの検出が失われる。
加えて、既存のアルゴリズムは、通常、類似しているが、SGO(Genuine Objects)イメージと改ざんされたイメージを区別できないため、より多くの誤報が発生する。
これは主に、フォージェリーローカライゼーション段階における局所的ホモグラフィ行列のさらなる検証の欠如によるものである。
これらの問題に対処するために、まず、欠落検出を克服するための過剰なキーポイント抽出戦略を提案する。
その後、過剰なキーポイントのマッチングを高速化するためにグループマッチングアルゴリズムが使用される。
最後に、画素レベルのローカライゼーション結果を高速に形成するために、より低い偽アラームを確保しつつ、新しい反復フォージェリーローカライゼーションアルゴリズムを導入する。
大規模な実験結果から,提案手法は検出ミスや誤報を克服する上で,最先端のアルゴリズムよりも優れた性能を示した。
私たちのコードはhttps://github.com/LUZW1998/CMFDLで公開されています。
Image copy-move is an operation that replaces one part of the image with another part of the same image, which can be used for illegal purposes due to the potential semantic changes. Recent studies have shown that keypoint-based algorithms achieved excellent and robust localization performance even when small or smooth tampered areas were involved. However, when the input image is low-resolution, most existing keypoint-based algorithms are difficult to generate sufficient keypoints, resulting in more missed detections. In addition, existing algorithms are usually unable to distinguish between Similar but Genuine Objects (SGO) images and tampered images, resulting in more false alarms. This is mainly due to the lack of further verification of local homography matrix in forgery localization stage. To tackle these problems, this paper firstly proposes an excessive keypoint extraction strategy to overcome missed detection. Subsequently, a group matching algorithm is used to speed up the matching of excessive keypoints. Finally, a new iterative forgery localization algorithm is introduced to quickly form pixel-level localization results while ensuring a lower false alarm. Extensive experimental results show that our scheme has superior performance than state-of-the-art algorithms in overcoming missed detection and false alarm. Our code is available at https://github.com/LUZW1998/CMFDL. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 階層型Token-Semantic Audio Transformerアーキテクチャを用いたマルチマイクロホン音声認識
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture ( http://arxiv.org/abs/2406.03272v1 ) ライセンス: Link先を確認 | Ohad Cohen, Gershon Hazan, Sharon Gannot, | (参考訳) ほとんどの感情認識システムは、残響によって音声が汚染される現実の状況(野生のシナリオ)では失敗する。
本研究では,音声感情認識(SER)アルゴリズムの性能劣化を緩和し,悪条件に対するより堅牢なシステムを開発するための新しい手法を提案する。
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネル音声入力を処理するために,最先端トランスモデルである階層型Token-Semantic Audio Transformer (HTS-AT)を採用している。
チャネル間の平均メル-スペクトログラムの評価と,パッチ埋め込み表現の要約の2つの戦略を評価する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインと比較して優れた性能を実現する。
Most emotion recognition systems fail in real-life situations (in the wild scenarios) where the audio is contaminated by reverberation. Our study explores new methods to alleviate the performance degradation of Speech Emotion Recognition (SER) algorithms and develop a more robust system for adverse conditions. We propose processing multi-microphone signals to address these challenges and improve emotion classification accuracy. We adopt a state-of-the-art transformer model, the Hierarchical Token-semantic Audio Transformer (HTS-AT), to handle multi-channel audio inputs. We evaluate two strategies: averaging mel-spectrograms across channels and summing patch-embedded representations. Our multimicrophone model achieves superior performance compared to single-channel baselines when tested on real-world reverberant environments. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# VWise: 車両用シーン分類評価のための新しいベンチマーク
VWise: A novel benchmark for evaluating scene classification for vehicular applications ( http://arxiv.org/abs/2406.03273v1 ) ライセンス: Link先を確認 | Pedro Azevedo, Emanuella Araújo, Gabriel Pierre, Willams de Lima Costa, João Marcelo Teixeira, Valter Ferreira, Roberto Jones, Veronica Teichrieb, | (参考訳) 現在の車両用データセットは、主に北米やヨーロッパで収集されている。
これらのデータセットでトレーニングまたは評価されたモデルは、他のリージョンにデプロイされた場合、地理的バイアスに悩まされる可能性がある。
特に、シーンの分類において、ラテンアメリカの国の高速道路は、例えば、デザインとメンテナンスのレベルで、アウトバーンと大きく異なる。
道路型分類タスクとシーン分類タスクのための新しいベンチマークであるVWiseと、LatAmにおける車両応用に関連する外部コンテキストに焦点を当てたタスクを提案する。
ラテンアメリカ諸国の都市や農村の様々な環境をカバーし、6種類の道路タイプを付加したビデオクリップを520本以上収集した。
また, ベースライン実験における最先端分類モデルの評価を行い, 84%以上の精度を得た。
このデータセットにより、ラテンアメリカにおける車両作業の研究を強化することを目指している。
Current datasets for vehicular applications are mostly collected in North America or Europe. Models trained or evaluated on these datasets might suffer from geographical bias when deployed in other regions. Specifically, for scene classification, a highway in a Latin American country differs drastically from an Autobahn, for example, both in design and maintenance levels. We propose VWise, a novel benchmark for road-type classification and scene classification tasks, in addition to tasks focused on external contexts related to vehicular applications in LatAm. We collected over 520 video clips covering diverse urban and rural environments across Latin American countries, annotated with six classes of road types. We also evaluated several state-of-the-art classification models in baseline experiments, obtaining over 84% accuracy. With this dataset, we aim to enhance research on vehicular tasks in Latin America. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 多様なモデリング単位を用いたCTCに基づく音声認識の強化
Enhancing CTC-based speech recognition with diverse modeling units ( http://arxiv.org/abs/2406.03274v1 ) ライセンス: Link先を確認 | Shiyi Han, Zhihong Lei, Mingbin Xu, Xingyu Na, Zhen Huang, | (参考訳) 近年,変圧器などのディープラーニングアーキテクチャの進歩により,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。
E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなりの精度の向上を実現した。
このことは、システムの組み合わせ効果以外の改善がどこから来るのかという興味深い疑問を提起する。
提案手法は,E2Eモデルを多種多様なモデリングユニットと共同で訓練する,効率的な共同訓練手法である。
この手法は音素モデルとグラフモデルの両方の長所を整合させるだけでなく、これらの多種多様なモデリング単位を相乗的に使用することでモデルの精度を大幅に向上させる。
我々の研究は、より堅牢で正確なASRシステムの開発において、異種モデリングユニットの最適統合に関する新たな知見を提供する。
In recent years, the evolution of end-to-end (E2E) automatic speech recognition (ASR) models has been remarkable, largely due to advances in deep learning architectures like transformer. On top of E2E systems, researchers have achieved substantial accuracy improvement by rescoring E2E model's N-best hypotheses with a phoneme-based model. This raises an interesting question about where the improvements come from other than the system combination effect. We examine the underlying mechanisms driving these gains and propose an efficient joint training approach, where E2E models are trained jointly with diverse modeling units. This methodology does not only align the strengths of both phoneme and grapheme-based models but also reveals that using these diverse modeling units in a synergistic way can significantly enhance model accuracy. Our findings offer new insights into the optimal integration of heterogeneous modeling units in the development of more robust and accurate ASR systems. | 翻訳日:2024-06-06 18:10:52 公開日:2024-06-05 |
# 強化学習への応用のためのスケーラブルヘッセン対角近似の再検討
Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning ( http://arxiv.org/abs/2406.03276v1 ) ライセンス: Link先を確認 | Mohamed Elsayed, Homayoon Farrahi, Felix Dangel, A. Rupam Mahmood, | (参考訳) 二次情報は多くのアプリケーションにとって価値があるが、計算は困難である。
いくつかの研究はヘッセン対角線の計算や近似に重点を置いているが、この単純化でさえ、勾配の計算に比べてかなりのコストがかかる。
ヘッセン対角線に対する効率的な正確な計算スキームがないため、ベッカーとルクーン (1989, BL89) が提唱した早期近似スキームを再検討する。
BL89よりも改善されたHesScaleを導入し、無視できる余分な計算を追加した。
小さなネットワークでは、この改善は全ての代替品よりも高い品質であり、不偏性のような理論的保証のあるものでさえも計算がより安価である。
この知見を,小規模ネットワークを用いた強化学習問題に応用し,第2次最適化とステップサイズパラメータのスケーリングにおいてHesScaleを実証する。
私たちの実験では、HesScaleは既存のメソッドよりも高速に最適化し、ステップサイズのスケーリングによって安定性を改善します。
これらの発見は、将来的にはより大規模なモデルで2階法をスケールすることが期待できる。
Second-order information is valuable for many applications but challenging to compute. Several works focus on computing or approximating Hessian diagonals, but even this simplification introduces significant additional costs compared to computing a gradient. In the absence of efficient exact computation schemes for Hessian diagonals, we revisit an early approximation scheme proposed by Becker and LeCun (1989, BL89), which has a cost similar to gradients and appears to have been overlooked by the community. We introduce HesScale, an improvement over BL89, which adds negligible extra computation. On small networks, we find that this improvement is of higher quality than all alternatives, even those with theoretical guarantees, such as unbiasedness, while being much cheaper to compute. We use this insight in reinforcement learning problems where small networks are used and demonstrate HesScale in second-order optimization and scaling the step-size parameter. In our experiments, HesScale optimizes faster than existing methods and improves stability through step-size scaling. These findings are promising for scaling second-order methods in larger models in the future. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# 分子ジェネレータとしてのGNN特性予測器の利用
Using GNN property predictors as molecule generators ( http://arxiv.org/abs/2406.03278v1 ) ライセンス: Link先を確認 | Félix Therrien, Edward H. Sargent, Oleksandr Voznyy, | (参考訳) グラフニューラルネットワーク(GNN)は、計算探索パイプラインの材料や分子特性を正確に予測する強力なツールとして登場した。
本稿では、これらのニューラルネットワークの可逆性を利用して、所望の電子特性を持つ分子構造を直接生成する。
ランダムグラフや既存の分子から始めて、GNN重みを固定しながら勾配上昇を行い、その入力である分子グラフを目標特性に向けて最適化する。
妥当性規則は、厳密なグラフ構成によって強制される。
この方法は完全に特性予測器に依存しており、分子構造に追加の訓練は必要ない。
本手法の適用例は,特定のDFTによるエネルギーギャップとオクタノール-水分配係数(logP)を持つ分子を生成することである。
我々のアプローチは、より多様な分子を一貫して生成しながら、最先端の生成モデルに匹敵する速度でターゲット特性を達成している。
Graph neural networks (GNNs) have emerged as powerful tools to accurately predict materials and molecular properties in computational discovery pipelines. In this article, we exploit the invertible nature of these neural networks to directly generate molecular structures with desired electronic properties. Starting from a random graph or an existing molecule, we perform a gradient ascent while holding the GNN weights fixed in order to optimize its input, the molecular graph, towards the target property. Valence rules are enforced strictly through a judicious graph construction. The method relies entirely on the property predictor; no additional training is required on molecular structures. We demonstrate the application of this method by generating molecules with specific DFT-verified energy gaps and octanol-water partition coefficients (logP). Our approach hits target properties with rates comparable to or better than state-of-the-art generative models while consistently generating more diverse molecules. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# FusionBench:Deep Model Fusionの総合ベンチマーク
FusionBench: A Comprehensive Benchmark of Deep Model Fusion ( http://arxiv.org/abs/2406.03280v1 ) ライセンス: Link先を確認 | Anke Tang, Li Shen, Yong Luo, Han Hu, Bo Do, Dacheng Tao, | (参考訳) ディープモデル融合(Deep Model fusion)は、複数のディープニューラルネットワークの予測やパラメータを、コスト効率とデータ効率のよい単一のモデルに統一する新興技術である。
これにより、統一モデルは元のモデルの強みを生かし、性能を超越する可能性がある。
様々な深層モデル融合技術が導入されたが、それらの評価は不整合であり、分布シフトに対する有効性と堅牢性を検証するのに不十分であることが多い。
この問題に対処するため、我々はFusionBenchを紹介します。
FusionBenchは、オープン語彙画像分類、テキスト分類、テキストからテキストへの生成など、幅広いタスクをカバーしている。
各カテゴリには、対応するタスク固有のモデルを持つ最大8つのタスクが含まれており、フル微調整とLoRA微調整の両方と異なるサイズのモデルを備えており、様々なタスク、モデルスケール、微調整戦略をまたいだ様々なマルチタスクモデルの融合テクニックの公平かつバランスの取れた比較を保証する。
我々は,深層モデル融合手法の幅広いスペクトルを実装し,評価する。
これらのテクニックは、全体的なパフォーマンスを改善するために予測を組み合わせるモデルアンサンブル手法から、異なるモデルを単一のモデルに統合するモデルマージや、元のモデルのコンポーネントをスケールアップまたは再結合するモデルミキシング方法まで、さまざまである。
FusionBenchには26のタスク、74の細調整されたモデル、16のフュージョン技術が含まれています。
さらに、ベンチマーク結果の理解と複製を研究者が支援するための、文書化されたリソースとガイドラインも提供します。
Homepage https://tanganke.github.io/fusion_bench/
Deep model fusion is an emerging technique that unifies the predictions or parameters of several deep neural networks into a single model in a cost-effective and data-efficient manner. This enables the unified model to take advantage of the original models' strengths, potentially exceeding their performance. Although a variety of deep model fusion techniques have been introduced, their evaluations tend to be inconsistent and often inadequate to validate their effectiveness and robustness against distribution shifts. To address this issue, we introduce FusionBench, which is the first comprehensive benchmark dedicated to deep model fusion. FusionBench covers a wide range of tasks, including open-vocabulary image classification, text classification, and text-to-text generation. Each category includes up to eight tasks with corresponding task-specific models, featuring both full fine-tuning and LoRA fine-tuning, as well as models of different sizes, to ensure fair and balanced comparisons of various multi-task model fusion techniques across different tasks, model scales, and fine-tuning strategies. We implement and evaluate a broad spectrum of deep model fusion techniques. These techniques range from model ensemble methods, which combine the predictions to improve the overall performance, to model merging, which integrates different models into a single one, and model mixing methods, which upscale or recombine the components of the original models. FusionBench now contains 26 distinct tasks, 74 fine-tuned models, and 16 fusion techniques, and we are committed to consistently expanding the benchmark with more tasks, models, and fusion techniques. In addition, we offer a well-documented set of resources and guidelines to aid researchers in understanding and replicating the benchmark results. Homepage https://tanganke.github.io/fusion_bench/ | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# 統合文脈情報を用いたレポジトリレベルコード生成の強化
Enhancing Repository-Level Code Generation with Integrated Contextual Information ( http://arxiv.org/abs/2406.03283v1 ) ライセンス: Link先を確認 | Zhiyuan Pan, Xing Hu, Xin Xia, Xiaohu Yang, | (参考訳) 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示した。
しかし、リポジトリレベルのコード生成には、特にリポジトリ内の複数のファイルにまたがる情報を利用する必要があるため、ユニークな課題がある。
既存の検索ベースのアプローチは、より広範で深いリポジトリコンテキストを得るために制限されているため、時に不足する。
本稿では静的型付け言語用に設計された新しいコード生成フレームワークであるCatCoderについて述べる。
CatCoderは、関連するコードと型コンテキストを統合することで、リポジトリレベルのコード生成を強化する。
具体的には、静的アナライザを活用して、型依存を抽出し、取得したコードとこの情報をマージして、LLMの包括的なプロンプトを生成する。
CatCoderの有効性を評価するために、199のJavaタスクと90のRustタスクを含むベンチマークを適用して構築する。
CatCoderは、pass@kスコアの点で、RepoCoderベースラインを最大17.35%上回っている。
さらに、CatCoderの一般化性は、コード固有化モデルと汎用モデルの両方を含む様々なLCMを用いて評価される。
以上の結果から,CatCoderの実用性は,すべてのモデルで一貫した性能向上が期待できる。
Large language models (LLMs) have demonstrated remarkable capabilities in code generation tasks. However, repository-level code generation presents unique challenges, particularly due to the need to utilize information spread across multiple files within a repository. Existing retrieval-based approaches sometimes fall short as they are limited in obtaining a broader and deeper repository context. In this paper, we present CatCoder, a novel code generation framework designed for statically typed programming languages. CatCoder enhances repository-level code generation by integrating relevant code and type context. Specifically, it leverages static analyzers to extract type dependencies and merges this information with retrieved code to create comprehensive prompts for LLMs. To evaluate the effectiveness of CatCoder, we adapt and construct benchmarks that include 199 Java tasks and 90 Rust tasks. The results show that CatCoder outperforms the RepoCoder baseline by up to 17.35%, in terms of pass@k score. Furthermore, the generalizability of CatCoder is assessed using various LLMs, including both code-specialized models and general-purpose models. Our findings indicate consistent performance improvements across all models, which underlines the practicality of CatCoder. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# SpikeLM: Elastic Bi-Spikingメカニズムによる汎用スパイク駆動型言語モデリングを目指して
SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms ( http://arxiv.org/abs/2406.03287v1 ) ライセンス: Link先を確認 | Xingrun Xing, Zheng Zhang, Ziyi Ni, Shitao Xiao, Yiming Ju, Siqi Fan, Yequan Wang, Jiajun Zhang, Guoqi Li, | (参考訳) ヒトの脳に似たエネルギー効率の高い人工知能を目指して、バイオインスパイアされたスパイクニューラルネットワーク(SNN)は、生物学的可視性、事象駆動性、バイナリアクティベーションの利点がある。
近年,大規模言語モデルは有望な一般化能力を示しており,より一般的なスパイク駆動モデルを探究する上で重要な問題となっている。
しかし、既存のSNNのバイナリスパイクは適切な意味情報をエンコードできず、一般化の技術的課題を負う。
本研究は、識別的および生成的タスクを含む、汎用言語タスクのための最初の完全なスパイク機構を提案する。
0,1} レベルの以前のスパイクと異なり、SNN の付加特性を維持しつつ、双方向、弾性振幅、弾性周波数符号化によるより一般的なスパイク定式化を提案する。
単一の時間ステップでは、スパイクは方向および振幅情報によって強化され、スパイク周波数では、スパイク発射率を制御するための戦略がよく設計されている。
この弾性バイスポーキング機構を言語モデリングにプラグインし,SpikeLMと名づけた。
完全なスパイク駆動モデルで汎用言語タスクを処理するのはこれが初めてであり、これまでよりもはるかに高い精度を達成している。
SpikeLMはまた、言語モデリングにおけるSNNとANNのパフォーマンスギャップを大いに橋渡ししている。
私たちのコードはhttps://github.com/Xingrun-Xing/SpikeLM.comで公開されています。
Towards energy-efficient artificial intelligence similar to the human brain, the bio-inspired spiking neural networks (SNNs) have advantages of biological plausibility, event-driven sparsity, and binary activation. Recently, large-scale language models exhibit promising generalization capability, making it a valuable issue to explore more general spike-driven models. However, the binary spikes in existing SNNs fail to encode adequate semantic information, placing technological challenges for generalization. This work proposes the first fully spiking mechanism for general language tasks, including both discriminative and generative ones. Different from previous spikes with {0,1} levels, we propose a more general spike formulation with bi-directional, elastic amplitude, and elastic frequency encoding, while still maintaining the addition nature of SNNs. In a single time step, the spike is enhanced by direction and amplitude information; in spike frequency, a strategy to control spike firing rate is well designed. We plug this elastic bi-spiking mechanism in language modeling, named SpikeLM. It is the first time to handle general language tasks with fully spike-driven models, which achieve much higher accuracy than previously possible. SpikeLM also greatly bridges the performance gap between SNNs and ANNs in language modeling. Our code is available at https://github.com/Xingrun-Xing/SpikeLM. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# 恥ずかしくパラレルなGFlowNets
Embarrassingly Parallel GFlowNets ( http://arxiv.org/abs/2406.03288v1 ) ライセンス: Link先を確認 | Tiago da Silva, Luiz Max Carvalho, Amauri Souza, Samuel Kaski, Diego Mesquita, | (参考訳) GFlowNetsは、離散合成ランダム変数に対するMCMCサンプリングに代わる有望な代替品である。
GFlowNetsのトレーニングには、正規化されていないターゲット分布や報酬関数の繰り返し評価が必要である。
しかし、大規模な後方サンプリングでは、データを何回もトラバースするため、これは禁止される可能性がある。
さらに、データがクライアント間で分散されている場合、標準のGFlowNetを使用すると、クライアントとサーバ間の通信が集中的に行われる。
これらの問題を緩和するために,我々はEP-GFlowNet(EP-GFlowNet)を恥ずかしく並列に提案する。
EP-GFlowNet は、$R(\cdot) \propto R_1(\cdot) ... の形の積分布からサンプルを採取するための、証明可能な正当な分割・対数法である。
R_N(\cdot)$ --e g, in parallel or federated Bayes, each $R_n$ はデータパーティション上に定義された局所的な後部である。
まず、R_n$をターゲットとしたローカルGFlowNetをトレーニングし、その結果のモデルをサーバに送信します。
次に、サーバは、新たに提案した 'emph{aggregating balance} 条件を適用してグローバルなGFlowNetを学習し、単一の通信ステップを必要とする。
重要なことに、EP-GFlowNetsは多目的最適化やモデルの再利用にも適用できる。
実験では, 並列ベイズ系統学, 多目的マルチセット, シーケンス生成, 結合ベイズ構造学習など, EP-GFlowNetsが多くのタスクに有効であることを示す。
GFlowNets are a promising alternative to MCMC sampling for discrete compositional random variables. Training GFlowNets requires repeated evaluations of the unnormalized target distribution or reward function. However, for large-scale posterior sampling, this may be prohibitive since it incurs traversing the data several times. Moreover, if the data are distributed across clients, employing standard GFlowNets leads to intensive client-server communication. To alleviate both these issues, we propose embarrassingly parallel GFlowNet (EP-GFlowNet). EP-GFlowNet is a provably correct divide-and-conquer method to sample from product distributions of the form $R(\cdot) \propto R_1(\cdot) ... R_N(\cdot)$ -- e.g., in parallel or federated Bayes, where each $R_n$ is a local posterior defined on a data partition. First, in parallel, we train a local GFlowNet targeting each $R_n$ and send the resulting models to the server. Then, the server learns a global GFlowNet by enforcing our newly proposed \emph{aggregating balance} condition, requiring a single communication step. Importantly, EP-GFlowNets can also be applied to multi-objective optimization and model reuse. Our experiments illustrate the EP-GFlowNets's effectiveness on many tasks, including parallel Bayesian phylogenetics, multi-objective multiset, sequence generation, and federated Bayesian structure learning. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# BRIOツールを用いたクレジットスコアリングにおけるAIフェアネスの評価
Evaluating AI fairness in credit scoring with the BRIO tool ( http://arxiv.org/abs/2406.03292v1 ) ライセンス: Link先を確認 | Greta Coraglia, Francesco A. Genco, Pellegrino Piantadosi, Enrico Bagli, Pietro Giuffrida, Davide Posillipo, Giuseppe Primiero, | (参考訳) 本稿では,AIシステムにおける公平性の問題を定量的に詳細に分析する手法と,クレジットスコアリングへの応用について述べる。
BRIOは、社会的不公平や倫理的に望ましくない行動に関して、AIシステムを評価するためのツールである。
モデルに依存しないバイアス検出モジュールが \cite{DBLP:conf/beware/CoragliaDGPPQ23} に表示され、完全な不公平リスク評価モジュールが追加されている。
ケーススタディでは、クレジットスコアリングの文脈に注目し、UCIドイツ信用データセット \cite{misc_statlog_(german_credit_data)_144}を分析します。
BRIOフェアネス尺度をドイツ信用データセットに特徴付けられるいくつかの社会的に敏感な属性に適用し、信用スコアモデルにおけるバイアスや差別の潜在的な原因を特定することを目的として、様々な人口層にまたがるフェアネスを定量化する。
結果と収益分析を組み合わせることで結論付けます。
We present a method for quantitative, in-depth analyses of fairness issues in AI systems with an application to credit scoring. To this aim we use BRIO, a tool for the evaluation of AI systems with respect to social unfairness and, more in general, ethically undesirable behaviours. It features a model-agnostic bias detection module, presented in \cite{DBLP:conf/beware/CoragliaDGGPPQ23}, to which a full-fledged unfairness risk evaluation module is added. As a case study, we focus on the context of credit scoring, analysing the UCI German Credit Dataset \cite{misc_statlog_(german_credit_data)_144}. We apply the BRIO fairness metrics to several, socially sensitive attributes featured in the German Credit Dataset, quantifying fairness across various demographic segments, with the aim of identifying potential sources of bias and discrimination in a credit scoring model. We conclude by combining our results with a revenue analysis. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# プラグ・アンド・プレイの先駆者としてのテキスト・ツー・イメージ整形流
Text-to-Image Rectified Flow as Plug-and-Play Priors ( http://arxiv.org/abs/2406.03293v1 ) ライセンス: Link先を確認 | Xiaofeng Yang, Cheng Chen, Xulei Yang, Fayao Liu, Guosheng Lin, | (参考訳) 大規模拡散モデルは、生成タスクにおいて顕著な性能を達成した。
初期のトレーニングアプリケーション以外にも、これらのモデルは汎用的なプラグアンドプレイプリエントとして機能することが証明されている。
例えば、2次元拡散モデルは、3次元の暗黙のモデルを最適化する損失関数として機能する。
新しい生成モデルのクラスである整流流は、ソースからターゲット分布への線形進行を強制し、様々な領域で優れた性能を示す。
拡散に基づく手法と比較して、補正流れのアプローチは生成の質と効率を上回り、推論ステップを少なくする。
本研究では, 拡散モデルに類似した機能を持つ正流法が, 有効な先行モデルとして機能することを示す理論的, 実験的証拠を示す。
修正流れモデルの特異な時間対称性特性に動機づけられた拡散先行現象の生成能力に加えて,本手法の変種は画像インバージョンも追加で行うことができる。
SDSとVSDの損失をテキスト・ツー・3D生成で比較した。
また,画像のインバージョンや編集における競合性能も示す。
Large-scale diffusion models have achieved remarkable performance in generative tasks. Beyond their initial training applications, these models have proven their ability to function as versatile plug-and-play priors. For instance, 2D diffusion models can serve as loss functions to optimize 3D implicit models. Rectified flow, a novel class of generative models, enforces a linear progression from the source to the target distribution and has demonstrated superior performance across various domains. Compared to diffusion-based methods, rectified flow approaches surpass in terms of generation quality and efficiency, requiring fewer inference steps. In this work, we present theoretical and experimental evidence demonstrating that rectified flow based methods offer similar functionalities to diffusion models - they can also serve as effective priors. Besides the generative capabilities of diffusion priors, motivated by the unique time-symmetry properties of rectified flow models, a variant of our method can additionally perform image inversion. Experimentally, our rectified flow-based priors outperform their diffusion counterparts - the SDS and VSD losses - in text-to-3D generation. Our method also displays competitive performance in image inversion and editing. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# L-PR: 未順序低オーバーラップマルチビューポイントクラウド登録のためのLiDARフィデューシャルマーカーのエクスプロイト
L-PR: Exploiting LiDAR Fiducial Marker for Unordered Low Overlap Multiview Point Cloud Registration ( http://arxiv.org/abs/2406.03298v1 ) ライセンス: Link先を確認 | Yibo Liu, Jinjun Shan, Amaldev Haridevan, Shuo Zhang, Kejian Lin, | (参考訳) ポイントクラウド登録は、コンピュータビジョンとロボティクスにおける多くのアプリケーションにとって必須条件である。
既存の手法の多くは、高い重なり合いを持つ2点の雲をペアで登録することに焦点を当てている。
重複の少ないケースにはいくつかの方法があるが、それらは劣化したシナリオで苦労している。
本稿では、L-PRという新しいフレームワークを紹介し、LiDARフィデューシャルマーカーを利用した非順序付き低重畳重畳み点雲を登録する。
我々はこれらをLiDARフィデューシャルマーカーと呼んでいるが、一般的なエイプリルタグやArUcoマーカーと同じであり、環境の3次元幾何学に影響を与えない薄い紙のシートである。
まず, 点雲間の視点が劇的に変化した場合に, 頑健な検出結果を提供する適応しきい値検出法を提案する。
そこで,無秩序なマルチビューポイントクラウド登録問題をMAP問題として定式化し,それに対応するための2段階のグラフからなるフレームワークを開発する。
重み付きグラフとして構築された第1レベルグラフは、非順序集合からスキャンポーズの初期値を効率よく最適に推定するように設計されている。
第2レベルグラフは因子グラフとして構成される。
スキャンポーズ,マーカーポーズ,マーカーコーナー位置など,グラフ上の変数をグローバルに最適化することにより,MAP問題に対処する。
提案手法は, 登録精度, インスタンス再構成品質, ローカライゼーション精度, 劣化シーンに対するロバスト性という4つの面で, 競合相手よりも優れていることを示すための定性的, 定量的実験を行う。
コミュニティに利益をもたらすため、私たちはhttps://github.com/yorklyb/LiDAR-SFMでメソッドとデータセットをオープンソース化しました。
Point cloud registration is a prerequisite for many applications in computer vision and robotics. Most existing methods focus on pairwise registration of two point clouds with high overlap. Although there have been some methods for low overlap cases, they struggle in degraded scenarios. This paper introduces a novel framework named L-PR, designed to register unordered low overlap multiview point clouds leveraging LiDAR fiducial markers. We refer to them as LiDAR fiducial markers, but they are the same as the popular AprilTag and ArUco markers, thin sheets of paper that do not affect the 3D geometry of the environment. We first propose an improved adaptive threshold marker detection method to provide robust detection results when the viewpoints among point clouds change dramatically. Then, we formulate the unordered multiview point cloud registration problem as a maximum a-posteriori (MAP) problem and develop a framework consisting of two levels of graphs to address it. The first-level graph, constructed as a weighted graph, is designed to efficiently and optimally infer initial values of scan poses from the unordered set. The second-level graph is constructed as a factor graph. By globally optimizing the variables on the graph, including scan poses, marker poses, and marker corner positions, we tackle the MAP problem. We conduct qualitative and quantitative experiments to demonstrate that the proposed method exhibits superiority over competitors in four aspects: registration accuracy, instance reconstruction quality, localization accuracy, and robustness to the degraded scene. To benefit the community, we open-source our method and dataset at https://github.com/yorklyb/LiDAR-SFM. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bar getting Games
The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games ( http://arxiv.org/abs/2406.03299v1 ) ライセンス: Link先を確認 | Mikhail Mozikov, Nikita Severin, Valeria Bodishtianu, Maria Glushanina, Mikhail Baklashkin, Andrey V. Savchenko, Ilya Makarov, | (参考訳) 行動研究実験は、人間の相互作用をモデル化し理解する社会の重要な部分である。
実際に、多くの行動実験は、人間のユーザ研究における社会的相互作用の複雑さと協力による内部的および外部的妥当性、再現性、社会的偏見に関連する課題に遭遇する。
近年のLarge Language Models (LLMs) の進歩は、人間の振る舞いをシミュレーションするための新しい有望なツールを研究者に提供してきた。
しかし、既存のLLMベースのシミュレーションは、LLMエージェントが人間と同じような振る舞いをするだけでなく、人間の意思決定において重要な要素である感情を無視しているという未証明の仮説の下で動作している。
本稿では、LLMの意思決定と、感情状態下での人間の行動との整合性の両方を研究するための新しい方法論と枠組みを紹介する。
GPT-3.5 と GPT-4 を用いた2種類の行動ゲーム理論による実験では、感情が LLM のパフォーマンスに大きな影響を与え、より最適な戦略の開発につながった。
GPT-3.5の行動反応とヒトの参加者の間には強い相関関係があり、特にバーゲティングゲームにおいて顕著であるが、GPT-4は、合理性決定のために誘発された感情を無視した一貫した行動を示す。
驚くべきことに、感情的刺激、特に「怒り」感情は、人間の感情的反応に類似した、GPT-4の「超人的」アライメントを妨害する可能性がある。
Behavior study experiments are an important part of society modeling and understanding human interactions. In practice, many behavioral experiments encounter challenges related to internal and external validity, reproducibility, and social bias due to the complexity of social interactions and cooperation in human user studies. Recent advances in Large Language Models (LLMs) have provided researchers with a new promising tool for the simulation of human behavior. However, existing LLM-based simulations operate under the unproven hypothesis that LLM agents behave similarly to humans as well as ignore a crucial factor in human decision-making: emotions. In this paper, we introduce a novel methodology and the framework to study both, the decision-making of LLMs and their alignment with human behavior under emotional states. Experiments with GPT-3.5 and GPT-4 on four games from two different classes of behavioral game theory showed that emotions profoundly impact the performance of LLMs, leading to the development of more optimal strategies. While there is a strong alignment between the behavioral responses of GPT-3.5 and human participants, particularly evident in bargaining games, GPT-4 exhibits consistent behavior, ignoring induced emotions for rationality decisions. Surprisingly, emotional prompting, particularly with `anger' emotion, can disrupt the "superhuman" alignment of GPT-4, resembling human emotional responses. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# 視覚変換器の注意を誘導する視覚プロンプトの学習
Learning Visual Prompts for Guiding the Attention of Vision Transformers ( http://arxiv.org/abs/2406.03303v1 ) ライセンス: Link先を確認 | Razieh Rezaei, Masoud Jalili Sabet, Jindong Gu, Daniel Rueckert, Philip Torr, Ashkan Khakzar, | (参考訳) 視覚的プロンプトは入力画像に視覚情報を注入し、特定の予測やタスクにモデルを適応させる。
近年,レッドサークルなどの手作業で作成したマーカーを用いて,画像上の対象領域への参加を誘導する手法が提案されている。
しかし、これらのマーカーは、これらのマーカーを含むデータで訓練されたモデルでのみ動作する。
さらに、これらのプロンプトを見つけるには、モデルがトレーニングされたドメインの推測や事前の知識が必要である。
この研究は、視覚変換器の注意を導くための視覚的プロンプトを学ぶことを提案することで、手動設計の制約を回避する。
入力画像に追加される学習された視覚的プロンプトは、事前訓練された視覚変換器の注意を画像上の空間的位置にリダイレクトする。
特に、プロンプトはアノテーションを必要とせず、視覚変換器を微調整することなく自己指導的に学習される。
本実験は,様々な事前学習された視覚エンコーダを対象とした最適化に基づく視覚的プロンプト戦略の有効性を実証する。
Visual prompting infuses visual information into the input image to adapt models toward specific predictions and tasks. Recently, manually crafted markers such as red circles are shown to guide the model to attend to a target region on the image. However, these markers only work on models trained with data containing those markers. Moreover, finding these prompts requires guesswork or prior knowledge of the domain on which the model is trained. This work circumvents manual design constraints by proposing to learn the visual prompts for guiding the attention of vision transformers. The learned visual prompt, added to any input image would redirect the attention of the pre-trained vision transformer to its spatial location on the image. Specifically, the prompt is learned in a self-supervised manner without requiring annotations and without fine-tuning the vision transformer. Our experiments demonstrate the effectiveness of the proposed optimization-based visual prompting strategy across various pre-trained vision encoders. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# 量子テレポーテーションによる変分読み出し
Variational readout through quantum teleportation ( http://arxiv.org/abs/2406.03304v1 ) ライセンス: Link先を確認 | Yohei Nishino, | (参考訳) 重力波検出器(GWD)の感度は、量子放射圧雑音によって低周波数で制限される。
このバックアクションを緩和する1つの戦略は、測定ショットノイズと放射圧ノイズとを相互に関連付ける変分読み出しを用いることである。
従来の研究では、フィルターキャビティを用いることで、GWDの変分読み出しが可能であることが示されている。
しかし、現在の重力波検出器はフィルターのキャビティの長さを100ドル程度のオーダーで必要としており、将来の検出器は数kmに達すると予測されている。
本稿では,フィルタキャビティを不要とする量子テレポーテーションの原理を応用した,変分読み出し手法を提案する。
※この文書は、実際の検出器にはあまり役に立たないことが判明したため、学術誌には掲載されない。
主な理由は、同じ結果を得るためにEPRの絡み合いを必要とせず、真の変動可読性すら示さないからである。
言い換えれば、どちらのスキームもEPRのスクイーズを超えない。
それでもこの文書は、量子エンタングルメントを通じて、変分読み出しや速度メーターのような「真の」バックアクション回避を実現する方法についての議論を刺激するためにアップロードされる。
Sensitivity of gravitational-wave detectors (GWDs) is constrained at low frequencies by quantum radiation-pressure noise, a manifestation of the measurement's back action. One strategy to mitigate this back action involves employing variational readout, which entails cross-correlating the measurement shot noise with radiation-pressure noise. Prior research has demonstrated that variational readout in GWDs can be accomplished through the use of a filter cavity. However, current gravitational-wave detectors necessitate filter cavity lengths on the order of $\sim 100$ meters, with future detectors anticipated to reach lengths of a few kilometers. This paper introduces a novel approach to variational readout utilizing principle of quantum teleportation, which eliminates the need for a filter cavity. *This document will not be published any journals, since it turned out to be not very useful for the real detectors. The main reason is that one does not need the EPR entanglement to obtain the same result, which does not even shows true variational readout. In other words, both schemes do not exceed the EPR squeezing. Nevertheless this document will be uploaded to stimulate discussions how to realize "true" back action evasion, such as variational readout or speed meter, via quantum entanglement. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# マルチオブザーバブルに対するハイゼンベルク制限適応勾配推定
Heisenberg-limited adaptive gradient estimation for multiple observables ( http://arxiv.org/abs/2406.03306v1 ) ライセンス: Link先を確認 | Kaito Wada, Naoki Yamamoto, Nobuyuki Yoshioka, | (参考訳) 量子力学において、一般観測者の期待値を測定することは、測定結果の平均二乗誤差や分散によって定量化される固有の統計的不確実性を持つ。
この不確実性は、いくつかのサンプルを平均化することで低減できるが、各サンプルが非常に高価である場合には、サンプルの数を最小化する必要がある。
これは特に、古典的なコンピュータの能力を超える大規模量子システムにおいて、複数の観測可能な非自明な状態の測定を含むフォールトトレラント量子コンピューティングのケースである。
本研究では、ターゲット状態の状態準備オラクルに対する$\mathcal{O}(\varepsilon^{-1}\sqrt{M}\log M)$クエリを用いて、ルート平均2乗誤差内の一般可観測値の期待値を同時に推定する適応量子アルゴリズムを提案する。
これは平均二乗誤差における推定精度の基本的な境界である1/\varepsilon$のハイゼンベルク極限のスケーリングと、観測可能量のサブ線形スケーリングをM$で達成する。
提案手法は,量子勾配推定アルゴリズムの適応バージョンであり,適応性による資源効率のよい実装である。
具体的には、提案手法の空間オーバーヘッドは$\mathcal{O}(M)$であり、非定性アルゴリズムとは異なり、推定精度$\varepsilon$とは独立である。
さらに,大規模なタスク(例えば,$\varepsilon\ll 1$)で量子回路を構築する際の数値不安定性の問題も回避できる。
本手法は,量子コンピュータを用いた複雑な量子システムにおいて,様々な物理特性を正確に理解し,予測する新しい手法である。
In quantum mechanics, measuring the expectation value of a general observable has an inherent statistical uncertainty that is quantified by variance or mean squared error of measurement outcome. While the uncertainty can be reduced by averaging several samples, the number of samples should be minimized when each sample is very costly. This is especially the case for fault-tolerant quantum computing that involves measurement of multiple observables of non-trivial states in large quantum systems that exceed the capabilities of classical computers. In this work, we provide an adaptive quantum algorithm for estimating the expectation values of $M$ general observables within root mean squared error $\varepsilon$ simultaneously, using $\mathcal{O}(\varepsilon^{-1}\sqrt{M}\log M)$ queries to a state preparation oracle of a target state. This remarkably achieves the scaling of Heisenberg limit $1/\varepsilon$, a fundamental bound on the estimation precision in terms of mean squared error, together with the sublinear scaling of the number of observables $M$. The proposed method is an adaptive version of the quantum gradient estimation algorithm and has a resource-efficient implementation due to its adaptiveness. Specifically, the space overhead in the proposed method is $\mathcal{O}(M)$ which is independent from the estimation precision $\varepsilon$ unlike non-iterative algorithms. In addition, our method can avoid the numerical instability problem for constructing quantum circuits in a large-scale task (e.g., $\varepsilon\ll 1$ in our case), which appears in the actual implementation of many algorithms relying on quantum signal processing techniques. Our method paves a new way to precisely understand and predict various physical properties in complicated quantum systems using quantum computers. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# FairACの再現性に関する研究
Reproducibility study of FairAC ( http://arxiv.org/abs/2406.03314v1 ) ライセンス: Link先を確認 | Gijs de Jong, Macha J. Meijer, Derck W. E. Prinzhorn, Harold Ruiter, | (参考訳) 本研究は,Guo, Chu, Li arXiv:2302.12977 の論文 "Fair Attribute Completion on Graph with Missing Attributes" の成果を,論文の主張を調査して再現することを目的とする。
本論文は,原論文の結果が再現可能であることを示唆し,その主張を裏付けるものである。
しかしながら、FairACが多くの下流タスクのための汎用フレームワークであるという主張は非常に広範であり、そのため部分的にしかテストできない。
さらに、FairACは様々なデータセットやセンシティブな属性に一般化可能であることを示し、FairACフレームワークの群フェアネスの改善が個々のフェアネスを犠牲にしないことを示す。
最後に、FairACのコードベースはリファクタリングされ、さまざまなデータセットやモデルに容易に適用できるようになった。
This work aims to reproduce the findings of the paper "Fair Attribute Completion on Graph with Missing Attributes" written by Guo, Chu, and Li arXiv:2302.12977 by investigating the claims made in the paper. This paper suggests that the results of the original paper are reproducible and thus, the claims hold. However, the claim that FairAC is a generic framework for many downstream tasks is very broad and could therefore only be partially tested. Moreover, we show that FairAC is generalizable to various datasets and sensitive attributes and show evidence that the improvement in group fairness of the FairAC framework does not come at the expense of individual fairness. Lastly, the codebase of FairAC has been refactored and is now easily applicable for various datasets and models. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# サイバーセキュリティにおける組織ワークフォース知識プロファイルのマッピングフレームワーク
A Framework for Mapping Organisational Workforce Knowledge Profile in Cyber Security ( http://arxiv.org/abs/2406.03322v1 ) ライセンス: Link先を確認 | Lata Nautiyal, Awais Rashid, | (参考訳) サイバーセキュリティ組織は、従業員がサイバーセキュリティビジネス機能を満たすために必要な知識を持っていることを保証する必要がある。
同様に、組織がサイバーセキュリティタスクをサードパーティプロバイダに委譲することを選択した場合、選択したエンティティが割り当てられたタスクを効果的に実行する堅牢な知識能力を持っていることを保証する必要があります。
総合的なサイバーセキュリティ知識プロファイルの構築は、異なる課題である。この分野は、さまざまな専門的資格、学術的資格、オンザジョブトレーニングによって進化している。
これまでのところ、標準化された基準点に対して、組織のサイバーセキュリティに関する知識、特にその労働力から派生した知識を体系的に評価するための、明確に定義された方法論が欠如している。
様々な分野にわたる知識プロファイリングに関する先行研究は、SWEBOKのような確立されたフレームワークを主に利用してきた。
しかし、サイバーセキュリティの領域では、標準化された参照ポイントが存在しないことが注目すべきである。
本稿では,CyBOKを活用する枠組みを整備し,組織の知識プロファイルを構築する。
このフレームワークは、ユーザーがカバー範囲の特定とギャップの所在を可能とし、組織がターゲットとなる採用やトレーニングを検討することができるか、あるいはそのような専門知識をアウトソースし、サードパーティから知識能力を引き出すことができる。
後者の場合、このフレームワークは、そのような第三者の知識能力を評価する基盤としても使用できる。
本稿では,その初期開発を支える組織チームにおける3つのケーススタディについて論じるとともに,サイバーセキュリティ実践者とのワークショップを通じて,その改善について紹介する。
A cyber security organisation needs to ensure that its workforce possesses the necessary knowledge to fulfil its cyber security business functions. Similarly, where an organisation chooses to delegate their cyber security tasks to a third party provider, they must ensure that the chosen entity possesses robust knowledge capabilities to effectively carry out the assigned tasks. Building a comprehensive cyber security knowledge profile is a distinct challenge; the field is ever evolving with a range of professional certifications, academic qualifications and on-the-job training. So far, there has been a lack of a well-defined methodology for systematically evaluating an organisation's cyber security knowledge, specifically derived from its workforce, against a standardised reference point. Prior research on knowledge profiling across various disciplines has predominantly utilised established frameworks such as SWEBOK. However, within the domain of cyber security, the absence of a standardised reference point is notable. In this paper, we advance a framework leveraging CyBOK, to construct an organisation's knowledge profile. The framework enables a user to identify areas of coverage and where gaps may lie, so that an organisation can consider targeted recruitment or training or, where such expertise may be outsourced, drawing in knowledge capability from third parties. In the latter case, the framework can also be used as a basis for assessing the knowledge capability of such a third party. We present the knowledge profiling framework, discussing three case studies in organisational teams underpinning its initial development, followed by its refinement through workshops with cyber security practitioners. | 翻訳日:2024-06-06 18:01:08 公開日:2024-06-05 |
# 医用画像セグメンテーションにおける故障検出手法の比較ベンチマーク:信頼集約の役割を解明する
Comparative Benchmarking of Failure Detection Methods in Medical Image Segmentation: Unveiling the Role of Confidence Aggregation ( http://arxiv.org/abs/2406.03323v1 ) ライセンス: Link先を確認 | Maximilian Zenk, David Zimmerer, Fabian Isensee, Jeremias Traub, Tobias Norajitra, Paul F. Jäger, Klaus Maier-Hein, | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、医療画像分析研究の重要なコンポーネントであり、最近のディープラーニングアルゴリズムは、多様なデータセットにまたがるアウト・オブ・ボックス適用性を提供する。
これらの進歩にもかかわらず、セグメンテーションの失敗は実際の臨床応用にとって重要な関心事であり、信頼できる検出機構を必要とする。
本稿では,医療画像セグメンテーションにおける故障検出手法の評価を目的とした総合的なベンチマークフレームワークを提案する。
分析を通じて,現在の障害検出指標の強度と限界を特定し,リスクカバレッジ分析を総合評価手法として推奨する。
5つの公開3次元医用画像コレクションからなる集合データセットを用いて、現実的なテスト時間分布シフト下での各種故障検出戦略の有効性を評価する。
本研究は, 画像分割における故障検出のための簡易かつ堅牢なベースラインとして, アンサンブル予測間のペアワイズDiceスコア(Roy et al , 2019)の優れた性能について検討した。
進行中の研究を促進するため、私たちはベンチマークフレームワークをコミュニティに提供しました。
Semantic segmentation is an essential component of medical image analysis research, with recent deep learning algorithms offering out-of-the-box applicability across diverse datasets. Despite these advancements, segmentation failures remain a significant concern for real-world clinical applications, necessitating reliable detection mechanisms. This paper introduces a comprehensive benchmarking framework aimed at evaluating failure detection methodologies within medical image segmentation. Through our analysis, we identify the strengths and limitations of current failure detection metrics, advocating for the risk-coverage analysis as a holistic evaluation approach. Utilizing a collective dataset comprising five public 3D medical image collections, we assess the efficacy of various failure detection strategies under realistic test-time distribution shifts. Our findings highlight the importance of pixel confidence aggregation and we observe superior performance of the pairwise Dice score (Roy et al., 2019) between ensemble predictions, positioning it as a simple and robust baseline for failure detection in medical image segmentation. To promote ongoing research, we make the benchmarking framework available to the community. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# UDQL: オフライン強化学習におけるMSE損失と最適値関数のギャップを埋める
UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning ( http://arxiv.org/abs/2406.03324v1 ) ライセンス: Link先を確認 | Yu Zhang, Rui Yu, Zhipeng Yao, Wenyuan Zhang, Jun Wang, Liming Zhang, | (参考訳) Mean Square Error (MSE) は、ほとんどのオフライン強化学習(RL)モデルにおける最適値関数の解を推定するために一般的に使われ、優れた性能を実現している。
しかし,その原理が値関数の過大評価現象につながることが判明した。
本稿ではまず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
さらに, 過大評価現象に対処し, その収縮特性を証明するために, ベルマン過小評価演算子を提案する。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
D4RLタスクの大規模な実験結果から,我々の手法は最先端のオフラインRLアルゴリズムよりも優れており,我々の理論解析と過小評価手法がオフラインRLタスクに有効であることを示す。
The Mean Square Error (MSE) is commonly utilized to estimate the solution of the optimal value function in the vast majority of offline reinforcement learning (RL) models and has achieved outstanding performance. However, we find that its principle can lead to overestimation phenomenon for the value function. In this paper, we first theoretically analyze overestimation phenomenon led by MSE and provide the theoretical upper bound of the overestimated error. Furthermore, to address it, we propose a novel Bellman underestimated operator to counteract overestimation phenomenon and then prove its contraction characteristics. At last, we propose the offline RL algorithm based on underestimated operator and diffusion policy model. Extensive experimental results on D4RL tasks show that our method can outperform state-of-the-art offline RL algorithms, which demonstrates that our theoretical analysis and underestimation way are effective for offline RL tasks. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# エンジンベンチ:透明燃焼室III光機関内の流れ再構成
EngineBench: Flow Reconstruction in the Transparent Combustion Chamber III Optical Engine ( http://arxiv.org/abs/2406.03325v1 ) ライセンス: Link先を確認 | Samuel J. Baker, Michael A. Hobley, Isabel Scherl, Xiaohang Fang, Felix C. P. Leach, Martin H. Davy, | (参考訳) 本稿では,機械学習(ML)指向データベースであるEngineBenchについて,燃焼機械内部の乱流の研究に高品質な実験データを用いた。
流体力学におけるMLの以前のデータセットは、合成または過剰に単純化されたジオメトリを使用する。
EngineBenchは、特別に設計された光学エンジンで乱流の気流パターンをキャプチャする実世界の粒子画像速度測定(PIV)データで構成されている。
しかしながら、エンジンなどの内部フローからのPIVデータでは、完全な視野を達成することはしばしば困難であり、大きなオクルージョンが存在する。
最適燃焼システムを設計するためには,これらの不明瞭な領域における乱流の洞察が必要である。
本稿では, PIV画像のエッジに, ランダムサイズ, 方向のオクルージョンを導入することによって, リアリズムを強調する手法であるランダムエッジギャップを用いた新しい塗装課題を提案する。
我々は,画素ワイド,ベクトルベース,マルチスケールのパフォーマンス指標を用いて,ランダムエッジギャップに対する5つのML手法を検証した。
UNetベースのモデルは、業界がノームな非パラメトリックアプローチよりも正確であり、このタスクにおけるコンテキストエンコーダは、小さくて大きなギャップサイズである。
本稿では,エンジン設計問題に対するより汎用的な事前学習MLモデルの開発を支援する。
この方法の比較により、実験フロー診断における問題に対するMLモデルのより詳細な選択が可能になる。
すべてのデータとコードはhttps://eng.ox.ac.uk/tpsrg/research/enginebench/で公開されている。
We present EngineBench, the first machine learning (ML) oriented database to use high quality experimental data for the study of turbulent flows inside combustion machinery. Prior datasets for ML in fluid mechanics are synthetic or use overly simplistic geometries. EngineBench is comprised of real-world particle image velocimetry (PIV) data that captures the turbulent airflow patterns in a specially-designed optical engine. However, in PIV data from internal flows, such as from engines, it is often challenging to achieve a full field of view and large occlusions can be present. In order to design optimal combustion systems, insight into the turbulent flows in these obscured areas is needed, which can be provided via inpainting models. Here we propose a novel inpainting task using random edge gaps, a technique that emphasises realism by introducing occlusions at random sizes and orientations at the edges of the PIV images. We test five ML methods on random edge gaps using pixel-wise, vector-based, and multi-scale performance metrics. We find that UNet-based models are more accurate than the industry-norm non-parametric approach and the context encoder at this task on both small and large gap sizes. The dataset and inpainting task presented in this paper support the development of more general-purpose pre-trained ML models for engine design problems. The method comparisons allow for more informed selection of ML models for problems in experimental flow diagnostics. All data and code are publicly available at https://eng.ox.ac.uk/tpsrg/research/enginebench/. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 量子コンピューティングのためのオフ・ザ・シェルフシリコンチップの活用
Leveraging Off-the-Shelf Silicon Chips for Quantum Computing ( http://arxiv.org/abs/2406.03328v1 ) ライセンス: Link先を確認 | John Michniewicz, M. S. Kim, | (参考訳) 金融、材料、化学反応の研究など、さまざまな分野における量子コンピューティングの需要が高まっている。
有望な実装には、トランジスタ内の量子ドットを利用する半導体量子ビットが含まれる。
学術研究機関は現在、独自のデバイスを作っているが、このプロセスのスケーリングは困難であり、専門知識を必要とし、さまざまな品質のデバイスに結果をもたらす。
いくつかのイニシアチブは商用トランジスタの使用を探求し、研究者にスケーラビリティ、品質の改善、可利用性、アクセシビリティを提供する。
本稿では,量子ビットの市販化の可能性と市販化の可能性について考察する。
これは、ノイズ、コヒーレンス、大規模産業ファブにおける限定的なカスタマイズ性、スケーラビリティの問題といった課題に対処する。
この調査には、小型キュービットチップの初期バージョンの製造アプローチに関する議論が含まれている。
量子ドットのホストとして最先端トランジスタを使用し、電荷センシングやリフレクションメトリーに基づく読み出し技術を導入し、量子ビット接続のための電子シャットリングのような方法を検討した。
さらに、2Dアレイやクロスバー、DRAMライクなアクセスアレイなど、より高度な設計が、アクセス可能な量子コンピューティングへの道のりとして検討されている。
There is a growing demand for quantum computing across various sectors, including finance, materials and studying chemical reactions. A promising implementation involves semiconductor qubits utilizing quantum dots within transistors. While academic research labs currently produce their own devices, scaling this process is challenging, requires expertise, and results in devices of varying quality. Some initiatives are exploring the use of commercial transistors, offering scalability, improved quality, affordability, and accessibility for researchers. This paper delves into potential realizations and the feasibility of employing off-the-shelf commercial devices for qubits. It addresses challenges such as noise, coherence, limited customizability in large industrial fabs, and scalability issues. The exploration includes discussions on potential manufacturing approaches for early versions of small qubit chips. The use of state-of-the-art transistors as hosts for quantum dots, incorporating readout techniques based on charge sensing or reflectometry, and methods like electron shuttling for qubit connectivity are examined. Additionally, more advanced designs, including 2D arrays and crossbar or DRAM-like access arrays, are considered for the path toward accessible quantum computing. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# QC-HPCにおけるプログラミングパラダイムの再考
Rethinking Programming Paradigms in the QC-HPC Context ( http://arxiv.org/abs/2406.03330v1 ) ライセンス: Link先を確認 | Silvina Caino-Lores, Daniel Claudino, Eugene Dumitrescu, Travis S. Humble, Sonia Lopez Alarcon, Elaine Wong, | (参考訳) 今日の量子コンピュータのプログラミングは、ハイパフォーマンスコンピューティング(HPC)と互換性のある現代的なワークフローに向けて大きな進歩を遂げている。
量子コンピューティング(QC)プログラミング言語は、出現するランタイムやアルゴリズムのモダリティと同様に、いくつかの共通基盤を共有している。
本稿では,QCとHPCをリンクする際の価値を理解するために,多タスク管理の文脈における量子処理ユニット(QPU)の洗練の道を探る。
例を通して、科学的な発見の可能性がどのように実現されるかを説明する。
Programming for today's quantum computers is making significant strides toward modern workflows compatible with high performance computing (HPC), but fundamental challenges still remain in the integration of these vastly different technologies. Quantum computing (QC) programming languages share some common ground, as well as their emerging runtimes and algorithmic modalities. In this short paper, we explore avenues of refinement for the quantum processing unit (QPU) in the context of many-tasks management, asynchronous or otherwise, in order to understand the value it can play in linking QC with HPC. Through examples, we illustrate how its potential for scientific discovery might be realized. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 残差推定に基づくビデオステレオマッチングのためのフレキシブル再帰ネットワーク
A Flexible Recursive Network for Video Stereo Matching Based on Residual Estimation ( http://arxiv.org/abs/2406.03333v1 ) ライセンス: Link先を確認 | Youchen Zhao, Guorong Luo, Hua Zhong, Haixiong Li, | (参考訳) ビデオシーケンスにおける連続フレーム間の相違の相似性が高いため、相違が変化する領域を残差マップとして定義し、計算することができる。
これに基づいて,ビデオステレオマッチングのためのフレキシブルな再帰構造を持つ残差推定に基づくネットワークRecSMを提案する。
RecSMネットワークは、時間的文脈を基準として、MREM(Multi-scale Residual Estimation Module)を用いてステレオマッチングを高速化し、現在のフレームと前のフレームの間の残値のみを計算することにより、現在のフレームの差を高速に計算する。
さらに,各モジュール間の制約を強制するために,分散最適化モジュール (DOM) とテンポラルアテンションモジュール (TAM) を用い,MREM とともにフレキシブルなスタック可能計算構造 (SCS) を構築した。
実験の結果、スタック数3では、RecSMはACVNetと比較して4倍の速度向上を実現し、1つのNVIDIA RTX 2080TI GPUに基づいて0.054秒で動作し、精度はわずか0.7%低下した。
コードはhttps://github.com/Y0uchenZ/RecSMで入手できる。
Due to the high similarity of disparity between consecutive frames in video sequences, the area where disparity changes is defined as the residual map, which can be calculated. Based on this, we propose RecSM, a network based on residual estimation with a flexible recursive structure for video stereo matching. The RecSM network accelerates stereo matching using a Multi-scale Residual Estimation Module (MREM), which employs the temporal context as a reference and rapidly calculates the disparity for the current frame by computing only the residual values between the current and previous frames. To further reduce the error of estimated disparities, we use the Disparity Optimization Module (DOM) and Temporal Attention Module (TAM) to enforce constraints between each module, and together with MREM, form a flexible Stackable Computation Structure (SCS), which allows for the design of different numbers of SCS based on practical scenarios. Experimental results demonstrate that with a stack count of 3, RecSM achieves a 4x speed improvement compared to ACVNet, running at 0.054 seconds based on one NVIDIA RTX 2080TI GPU, with an accuracy decrease of only 0.7%. Code is available at https://github.com/Y0uchenZ/RecSM. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 近似ベイズ推論における再パラメータ化不変性
Reparameterization invariance in approximate Bayesian inference ( http://arxiv.org/abs/2406.03334v1 ) ライセンス: Link先を確認 | Hrittik Roy, Marco Miani, Carl Henrik Ek, Philipp Hennig, Marvin Pförtner, Lukas Tatzel, Søren Hauberg, | (参考訳) ベイズニューラルネットワーク(BNN)の現在の近似後部は、再パラメータ化の下で不変性を維持することができず、BNNは同一機能の異なるパラメトリゼーションに異なる後部密度を割り当てる。
これはベイズ原理の適用における根本的な欠陥を生み出し、パラメトリケート関数に対する不確実性を持つパラメータに対する不確実性の間の対応を断ち切る。
本稿では,近年普及している線形化ラプラス近似の文脈でこの問題を考察する。
特に、線形化予測はラプラス近似の一般的な不適合問題を軽減することが観察されている。
線形化の成功を説明するために, 線形化の新たな幾何学的視点を構築した。
さらに,これらの再パラメータ化不変性は,線形拡散法を用いて元のニューラルネットワーク予測に拡張可能であることを示す。
Current approximate posteriors in Bayesian neural networks (BNNs) exhibit a crucial limitation: they fail to maintain invariance under reparameterization, i.e. BNNs assign different posterior densities to different parametrizations of identical functions. This creates a fundamental flaw in the application of Bayesian principles as it breaks the correspondence between uncertainty over the parameters with uncertainty over the parametrized function. In this paper, we investigate this issue in the context of the increasingly popular linearized Laplace approximation. Specifically, it has been observed that linearized predictives alleviate the common underfitting problems of the Laplace approximation. We develop a new geometric view of reparametrizations from which we explain the success of linearization. Moreover, we demonstrate that these reparameterization invariance properties can be extended to the original neural network predictive using a Riemannian diffusion process giving a straightforward algorithm for approximate posterior sampling, which empirically improves posterior fit. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 絡み合った状態は典型的には相容れない
Entangled states are typically incomparable ( http://arxiv.org/abs/2406.03335v1 ) ライセンス: Link先を確認 | Vishesh Jain, Matthew Kwan, Marcus Michelen, | (参考訳) アリスとボブが共に純粋状態 $|\psi\rangle$ を持つ二部量子系を考える。
それぞれのサブシステム上の局所量子演算と無制限の古典的通信を用いて、アリスとボブは$|\psi\rangle$を別の状態 $|\phi\rangle$に変換することができる。
有名なことに、ニールセンの定理 [Phys. Rev. Lett, 1999] はそのような変換を可能にするために必要な代数的基準を与える(つまり、$|\phi\rangle$ の局所スペクトルは$|\psi\rangle$ の局所スペクトルをメジャー化するべきである)。
ニールセンがこの定理を証明した論文で、彼は大次元性の極限において、ほとんど全ての状態の対$|\psi\rangle, |\phi\rangle$(自然ユニタリ不変測度による)に対してそのような変換は不可能であると推測した。
つまり、典型的な量子状態の対 $|\psi\rangle, |\phi\rangle$ は基本的に異なる方法で絡み合っており、局所演算や古典的通信では互いに変換できない。
ニールセンの定理によれば、この予想は、いわゆるトレース正規化複素ウィシャート・ラゲール・アンサンブルからのランダム行列のスペクトルの多重化に関する予想と等価である。
具体的には、$X$ and $Y$ be independent $n \times m$ random matrices that entry is i.d. standard complex Gaussians; then Nielsen's conjecture that the probability that the spectrum of $X X^\dagger / \operatorname{tr}(X X^\dagger)$ majorises the spectrum of $Y Y^\dagger / \operatorname{tr}(Y Y^\dagger)$ is zero as both $n$ and $m$ grow。
我々はこの予想を証明し、Cunden, Facchi, Florio and Gramegna [J. Phys. A., 2020; Phys. Rev. A., 2021] に関するいくつかの関連する予測も確認する。
Consider a bipartite quantum system, where Alice and Bob jointly possess a pure state $|\psi\rangle$. Using local quantum operations on their respective subsystems, and unlimited classical communication, Alice and Bob may be able to transform $|\psi\rangle$ into another state $|\phi\rangle$. Famously, Nielsen's theorem [Phys. Rev. Lett., 1999] provides a necessary and sufficient algebraic criterion for such a transformation to be possible (namely, the local spectrum of $|\phi\rangle$ should majorise the local spectrum of $|\psi\rangle$). In the paper where Nielsen proved this theorem, he conjectured that in the limit of large dimensionality, for almost all pairs of states $|\psi\rangle, |\phi\rangle$ (according to the natural unitary invariant measure) such a transformation is not possible. That is to say, typical pairs of quantum states $|\psi\rangle, |\phi\rangle$ are entangled in fundamentally different ways, that cannot be converted to each other via local operations and classical communication. Via Nielsen's theorem, this conjecture can be equivalently stated as a conjecture about majorisation of spectra of random matrices from the so-called trace-normalised complex Wishart-Laguerre ensemble. Concretely, let $X$ and $Y$ be independent $n \times m$ random matrices whose entries are i.i.d. standard complex Gaussians; then Nielsen's conjecture says that the probability that the spectrum of $X X^\dagger / \operatorname{tr}(X X^\dagger)$ majorises the spectrum of $Y Y^\dagger / \operatorname{tr}(Y Y^\dagger)$ tends to zero as both $n$ and $m$ grow large. We prove this conjecture, and we also confirm some related predictions of Cunden, Facchi, Florio and Gramegna [J. Phys. A., 2020; Phys. Rev. A., 2021]. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 非線型力学系における潜在状態遷移の同定
Identifying latent state transition in non-linear dynamical systems ( http://arxiv.org/abs/2406.03337v1 ) ライセンス: Link先を確認 | Çağlar Hızlı, Çağatay Yıldız, Matthias Bethge, ST John, Pekka Marttinen, | (参考訳) 本研究は,基礎となる低次元潜在状態とその時間進化を回復することにより,力学系の一般化と解釈可能性を向上させることを目的とする。
動的システムの領域における非交叉表現学習に関するこれまでの研究は、潜在状態(おそらく線形遷移近似)に焦点を当てていた。
そのため、それらは非線形遷移力学を識別できず、したがって複雑な将来の振る舞いを確実に予測できない。
非線形ICAの進歩にインスパイアされた状態空間モデリングフレームワークを提案する。これは、潜在状態だけでなく、過去の状態を現在の状態にマッピングする未知の遷移関数も特定できる。
変分自動エンコーダに基づく実用的なアルゴリズムを導入し、現実的な合成設定を実証的に示す。
(i)遅延状態のダイナミクスを高精度に復元する。
(二)高次予測精度を実現し、
(三)新しい環境に迅速に適応する。
This work aims to improve generalization and interpretability of dynamical systems by recovering the underlying lower-dimensional latent states and their time evolutions. Previous work on disentangled representation learning within the realm of dynamical systems focused on the latent states, possibly with linear transition approximations. As such, they cannot identify nonlinear transition dynamics, and hence fail to reliably predict complex future behavior. Inspired by the advances in nonlinear ICA, we propose a state-space modeling framework in which we can identify not just the latent states but also the unknown transition function that maps the past states to the present. We introduce a practical algorithm based on variational auto-encoders and empirically demonstrate in realistic synthetic settings that we can (i) recover latent state dynamics with high accuracy, (ii) correspondingly achieve high future prediction accuracy, and (iii) adapt fast to new environments. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# LLMアプリケーション評価の課題:自動化,人間,LLMに基づくアプローチの分析
The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches ( http://arxiv.org/abs/2406.03339v1 ) ライセンス: Link先を確認 | Bhashithe Abeysinghe, Ruhan Circi, | (参考訳) チャットボットは、その誕生以来、自然言語生成の興味深い応用である。
トランスフォーマーベースのジェネレーティブAIメソッドによって、チャットボットの構築は簡単になった。
医学、心理学、一般情報検索などの特定の分野をターゲットにしたチャットボットを迅速に実装する。
しかし、これはチャットボットの応答を評価する必要性に注意をそらすべきではない。
特に、自然言語生成コミュニティは、そのようなアプリケーションを効果的に評価する方法に完全に合意していない。
本研究では,LLMに基づく評価がますます普及し,人間による評価とどのように相関するかを論じる。
さらに,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を導入する。
本稿では,この方式をチャットボット実装の1つで行った実験結果について,自動化された従来の人的評価,ファクタリングされた人的評価,ファクタリングされたLDM評価を比較した。
その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるのかをよりよく把握し, さらに, 主要な機能が直接検索されない重要な領域において, 人的評価を利用するための議論を強化することが示唆された。
Chatbots have been an interesting application of natural language generation since its inception. With novel transformer based Generative AI methods, building chatbots have become trivial. Chatbots which are targeted at specific domains such as medicine, psychology, and general information retrieval are implemented rapidly. This, however, should not distract from the need to evaluate the chatbot responses. Especially because the natural language generation community does not entirely agree upon how to effectively evaluate such applications. With this work we discuss the issue further with the increasingly popular LLM based evaluations and how they correlate with human evaluations. Additionally, we introduce a comprehensive factored evaluation mechanism that can be utilized in conjunction with both human and LLM-based evaluations. We present the results of an experimental evaluation conducted using this scheme in one of our chatbot implementations, and subsequently compare automated, traditional human evaluation, factored human evaluation, and factored LLM evaluation. Results show that factor based evaluation produces better insights on which aspects need to be improved in LLM applications and further strengthens the argument to use human evaluation in critical spaces where main functionality is not direct retrieval. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# Twitter Pollsの米国大統領候補に対する分析と評価
Analyzing and Estimating Support for U.S. Presidential Candidates in Twitter Polls ( http://arxiv.org/abs/2406.03340v1 ) ライセンス: Link先を確認 | Stephen Scarano, Vijayalakshmi Vasudevan, Chhandak Bagchi, Mattia Samory, JungHwan Yang, Przemyslaw A. Grabowicz, | (参考訳) ソーシャルメディアに投稿された世論は、例えば国民選挙におけるビジネス決定や政治候補者に対する世論の支持を測るための重要なツールとして近年出現している。
ここでは、2016年と2020年の大統領選挙において、米国の大統領候補に対する支持を誇示する2万件近いTwitterの世論調査について調べる。
まず,社会的世論調査の急激な普及について述べる。
第2に、不均一性や反応の選択肢の観点から、社会調査を特徴付ける。
第3に、ユーザの属性推定に機械学習モデルを活用することで、ソーシャルポーリングを作成・操作するユーザの人口統計、政治的傾向、その他の特性について説明する。
最後に, ソーシャルポーリングの結果と属性, ユーザと対話する特性の関係について検討した。
調査の結果、Twitterの投票は様々な方法で偏りを呈しており、投票者の中から大統領候補の位置から、人口統計学的属性や世論調査結果の偏りまで様々であることがわかった。
2016年と2020年の世論調査は、主に年上の男性によって作成され、民主党候補に有利な従来の調査とは対照的に、ドナルド・トランプに有利な傾向を示した。
社会的ポーリングにおけるそのような偏見の潜在的な理由をさらに特定し、検討し、その影響を議論する。
最後に, ソーシャルメディアポーリングにおけるバイアスは, 回帰とポストストラトレーションによって補正可能であることを示す。
選挙結果の誤差は1%-2%と低くなり、ソーシャルメディアによる世論調査が世論の有望な情報源になる可能性があることを示唆している。
Polls posted on social media have emerged in recent years as an important tool for estimating public opinion, e.g., to gauge public support for business decisions and political candidates in national elections. Here, we examine nearly two thousand Twitter polls gauging support for U.S. presidential candidates during the 2016 and 2020 election campaigns. First, we describe the rapidly emerging prevalence of social polls. Second, we characterize social polls in terms of their heterogeneity and response options. Third, leveraging machine learning models for user attribute inference, we describe the demographics, political leanings, and other characteristics of the users who author and interact with social polls. Finally, we study the relationship between social poll results, their attributes, and the characteristics of users interacting with them. Our findings reveal that Twitter polls are biased in various ways, starting from the position of the presidential candidates among the poll options to biases in demographic attributes and poll results. The 2016 and 2020 polls were predominantly crafted by older males and manifested a pronounced bias favoring candidate Donald Trump, in contrast to traditional surveys, which favored Democratic candidates. We further identify and explore the potential reasons for such biases in social polling and discuss their potential repercussions. Finally, we show that biases in social media polls can be corrected via regression and poststratification. The errors of the resulting election estimates can be as low as 1%-2%, suggesting that social media polls can become a promising source of information about public opinion. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# GenAI著作権問題に対処する:オリジナル性の推定と生成
Tackling GenAI Copyright Issues: Originality Estimation and Genericization ( http://arxiv.org/abs/2406.03341v1 ) ライセンス: Link先を確認 | Hiroaki Chiba-Okabe, Weijie J. Su, | (参考訳) 生成AI技術の急速な進歩は、重要な著作権上の懸念を引き起こし、AI開発者に対する数多くの訴訟を引き起こした。
著作権データと類似するデータから生成モデルの出力を分離して著作権リスクを軽減する方法を模索する研究もあるが、類似性がどの程度望ましくないかという問題にはほとんど注目されていない。
本稿では,この原理を利用して生成モデルの出力を一般化し,著作権を侵害しにくくするジェネリック化手法を提案する。
これを実現するために、法的な枠組みと整合した方法でデータの独創性のレベルを定量化する指標を導入する。
この計量は、生成モデルからサンプルを抽出し、一般化過程に使用することにより、実際に推定することができる。
提案手法は,テキストから画像への生成モデルの出力を改良し,より汎用的で著作権に適合した画像を生成する。
The rapid progress of generative AI technology has sparked significant copyright concerns, leading to numerous lawsuits filed against AI developers. While some studies explore methods to mitigate copyright risks by steering the outputs of generative models away from those resembling copyrighted data, little attention has been paid to the question of how much of a resemblance is undesirable; more original or unique data are afforded stronger protection, and the threshold level of resemblance for constituting infringement correspondingly lower. Here, leveraging this principle, we propose a genericization method that modifies the outputs of a generative model to make them more generic and less likely to infringe copyright. To achieve this, we introduce a metric for quantifying the level of originality of data in a manner that is consistent with the legal framework. This metric can be practically estimated by drawing samples from a generative model, which is then used for the genericization process. Experiments demonstrate that our genericization method successfully modifies the output of a text-to-image generative model so that it produces more generic, copyright-compliant images. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# ソフトウェアエンジニアの振る舞いを理解して測定する:行動科学から何が学べるか?
Understanding and measuring software engineer behavior: What can we learn from the behavioral sciences? ( http://arxiv.org/abs/2406.03342v1 ) ライセンス: Link先を確認 | Allysson Allex Araújo, Marcos Kalinowski, Daniel Graziotin, | (参考訳) 本稿では,ソフトウェアエンジニアの振る舞いを理解し,測定することの難しさについて考察する。
ソフトウェアエンジニアの振る舞いに対する理解を深めるにはどうすればよいのか?
本研究では,行動ソフトウェア工学 (BSE) において対処される曖昧な複雑さを基礎として,心理測定器や様々な情報源からの質的データなどの量的尺度を統合する包括的手法を提唱する。
さらに、我々は、この課題が国内外の文脈で、ソフトウェアエンジニアの振る舞いを理解することへの関心が高まっていることを強調する。
現実世界のイニシアチブや学術的な取り組みも、この研究課題を前進させる可能性を明らかにするために検討され、その結果、行動的側面に基づいてソフトウェアエンジニアリングのプラクティスを洗練する。
最後に,本論文では,行動科学の方法論的スキルを活用することによって,この課題の進展を評価するためのさまざまな手法について論じ,最終的にはソフトウェアエンジニアの行動とソフトウェア工学の実践の深い理解に寄与する。
This paper explores the intricate challenge of understanding and measuring software engineer behavior. More specifically, we revolve around a central question: How can we enhance our understanding of software engineer behavior? Grounded in the nuanced complexities addressed within Behavioral Software Engineering (BSE), we advocate for holistic methods that integrate quantitative measures, such as psychometric instruments, and qualitative data from diverse sources. Furthermore, we delve into the relevance of this challenge within national and international contexts, highlighting the increasing interest in understanding software engineer behavior. Real-world initiatives and academic endeavors are also examined to underscore the potential for advancing this research agenda and, consequently, refining software engineering practices based on behavioral aspects. Lastly, this paper addresses different ways to evaluate the progress of this challenge by leveraging methodological skills derived from behavioral sciences, ultimately contributing to a deeper understanding of software engineer behavior and software engineering practices. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 量子情報理論における相対的信頼推論
Relative-belief inference in quantum information theory ( http://arxiv.org/abs/2406.03343v1 ) ライセンス: Link先を確認 | Y. S. Teo, S. U. Shringarpure, H. Jeong, N. Prasannan, B. Brecht, C. Silberhorn, M. Evans, D. Mogilevtsev, L. L. Sanchez-Soto, | (参考訳) 本稿では,実験データが量子系に関する所定の仮説を支持するかどうかを直接評価するベイズ相対的信念の枠組みについて,仮説の先行確率と後続確率を直接比較することによって導入する。
モデル次元認定タスクにおいて、相対的信念手順は典型的に、赤池の基準を含む幅広い情報基準の最適化から選択されたものよりも、次元が小さくないヒルベルト空間を選択する。
この強力なエビデンスに基づく手法の具体的かつ集中的な説明として、相対的信念手順を重要な応用、すなわち不完全量子源の状態再構成に適用する。
特に、データに基づく先行確率と後続確率を比較して、(現実的に損失が大きい)単一光子検出器を用いて光子源の実際の品質を評価する能力を示し、それによってベイジアン推論による一般的な量子情報および通信タスクのソース整合性を確実に保護する。
最後に、パラメトリックモデル認証の実行と、Tavis-Cummingsモデルで記述された(測定された)物理的および相互作用する外部システムに対する量子状態の総次元の推定に、相対的信念をどのように活用できるかについて議論する。
We introduce the framework of Bayesian relative belief that directly evaluates whether or not the experimental data at hand supports a given hypothesis regarding a quantum system by directly comparing the prior and posterior probabilities for the hypothesis. In model-dimension certification tasks, we show that the relative belief procedure typically chooses Hilbert spaces that are never smaller in dimension than those selected from optimizing a broad class of information criteria, including Akaike's criterion. As a concrete and focused exposition of this powerful evidence-based technique, we apply the relative belief procedure to an important application: state reconstruction of imperfect quantum sources. In particular, just by comparing prior and posterior probabilities based on data, we demonstrate its capability of tracking multiphoton emissions using (realistically lossy) single-photon detectors in order to assess the actual quality of photon sources without making ad hoc assumptions, thereby reliably safeguarding source integrity for general quantum-information and communication tasks with Bayesian reasoning. Finally, we discuss how relative belief can be exploited to carry out parametric model certification and estimate the total dimension of the quantum state for the combined (measured) physical and interacting external systems described by the Tavis--Cummings model. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# オーディオマンバ:オーディオ表現学習のための双方向状態空間モデル
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning ( http://arxiv.org/abs/2406.03344v1 ) ライセンス: Link先を確認 | Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung, | (参考訳) トランスフォーマーは、CNNに基づく手法を超越して、オーディオ分類の選択肢として急速に好まれている。
しかし、オーディオスペクトログラム変換器(AST)は、自己注意による二次的なスケーリングを示す。
この二次的自己注意コストの除去は、魅力的な方向を示す。
近年、Mambaのような状態空間モデル (SSM) は、この点において言語や視覚タスクの可能性を実証している。
本研究では,音声分類タスクにおいて,自己注意への依存が重要であるかを検討する。
AuM(Audio Mamba)は、音声分類のためのSSMベースのモデルである。
さまざまなオーディオデータセット(6つの異なるベンチマークを含む)上でAuMを評価し、よく確立されたASTモデルと比較すると、同等またはより良いパフォーマンスを達成する。
Transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram Transformers (ASTs) exhibit quadratic scaling due to self-attention. The removal of this quadratic self-attention cost presents an appealing direction. Recently, state space models (SSMs), such as Mamba, have demonstrated potential in language and vision tasks in this regard. In this study, we explore whether reliance on self-attention is necessary for audio classification tasks. By introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based model for audio classification, we aim to address this question. We evaluate AuM on various audio datasets - comprising six different benchmarks - where it achieves comparable or better performance compared to well-established AST model. | 翻訳日:2024-06-06 17:51:23 公開日:2024-06-05 |
# 特徴汚染:ニューラルネットワークは非相関的な特徴を学習し、一般化に失敗する
Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize ( http://arxiv.org/abs/2406.03345v1 ) ライセンス: Link先を確認 | Tianren Zhang, Chujie Zhao, Guanyu Chen, Yizhou Jiang, Feng Chen, | (参考訳) 分散シフトの下で一般化される学習表現は、堅牢な機械学習モデルを構築する上で重要である。
しかし、近年の多大な努力にもかかわらず、この方向のアルゴリズム的な進歩は限られている。
本研究では,ディープニューラルネットワークを用いたアウト・オブ・ディストリビューションの一般化の根本的な難しさを理解することを目的とする。
まず、ニューラルネットワークが教師ネットワークから得られる表現を明示的に適合させることさえ、学生ネットワークの一般化には不十分であることを実証的に示す。
そして、構造的特徴モデルの下で確率勾配降下(SGD)により最適化された2層ReLUネットワークの理論的研究により、ニューラルネットワークの基本的かつ未探索な特徴学習確率、特徴汚染を同定する。
特に、このメカニズムは、一般化の失敗を突発的な相関に起因した文学における一般的な物語とは本質的に異なる。
全体として、ニューラルネットワークの非線形特徴学習ダイナミクスに関する新たな知見を提供し、分布外一般化における帰納バイアスを考慮する必要性を強調した。
Learning representations that generalize under distribution shifts is critical for building robust machine learning models. However, despite significant efforts in recent years, algorithmic advances in this direction have been limited. In this work, we seek to understand the fundamental difficulty of out-of-distribution generalization with deep neural networks. We first empirically show that perhaps surprisingly, even allowing a neural network to explicitly fit the representations obtained from a teacher network that can generalize out-of-distribution is insufficient for the generalization of the student network. Then, by a theoretical study of two-layer ReLU networks optimized by stochastic gradient descent (SGD) under a structured feature model, we identify a fundamental yet unexplored feature learning proclivity of neural networks, feature contamination: neural networks can learn uncorrelated features together with predictive features, resulting in generalization failure under distribution shifts. Notably, this mechanism essentially differs from the prevailing narrative in the literature that attributes the generalization failure to spurious correlations. Overall, our results offer new insights into the non-linear feature learning dynamics of neural networks and highlight the necessity of considering inductive biases in out-of-distribution generalization. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# コンフォーマル回帰のための正規化流れ
Normalizing Flows for Conformal Regression ( http://arxiv.org/abs/2406.03346v1 ) ライセンス: Link先を確認 | Nicolo Colombo, | (参考訳) Conformal Prediction (CP)アルゴリズムは、ラベル付きデータに基づいて出力を校正することで予測モデルの不確実性を推定する。
同じキャリブレーション方式は、通常、変更なしにどんなモデルやデータにも適用される。
得られた予測間隔は、構成によって有効であるが、入力空間上に均一に分布しない場合、非効率、すなわち不要に大きい可能性がある。
キャリブレーション過程をトレーニングすることで、間隔をローカライズする一般的なスキームを提案する。
標準予測誤差は、オブジェクト属性に明示的に依存する最適化された距離メートル法に置き換えられる。
最適な計量を学ぶことは、エラーと入力の合同分布に作用する正規化フローを訓練するのと同じである。
Papadopoulos et al (2008)の誤り再重み付けCPアルゴリズムとは異なり、このフレームワークは名目と経験的条件の妥当性のギャップを推定できる。
この手法は、キャリブレーションサンプルの再重み付けに基づく既存の局所適応型CP戦略と互換性があり、再トレーニングせずに任意の点予測モデルに適用できる。
Conformal Prediction (CP) algorithms estimate the uncertainty of a prediction model by calibrating its outputs on labeled data. The same calibration scheme usually applies to any model and data without modifications. The obtained prediction intervals are valid by construction but could be inefficient, i.e. unnecessarily big, if the prediction errors are not uniformly distributed over the input space. We present a general scheme to localize the intervals by training the calibration process. The standard prediction error is replaced by an optimized distance metric that depends explicitly on the object attributes. Learning the optimal metric is equivalent to training a Normalizing Flow that acts on the joint distribution of the errors and the inputs. Unlike the Error Re-weighting CP algorithm of Papadopoulos et al. (2008), the framework allows estimating the gap between nominal and empirical conditional validity. The approach is compatible with existing locally-adaptive CP strategies based on re-weighting the calibration samples and applies to any point-prediction model without retraining. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# ポジション:人間中心のAutoMLパラダイムに対する行動呼び出し
Position: A Call to Action for a Human-Centered AutoML Paradigm ( http://arxiv.org/abs/2406.03348v1 ) ライセンス: Link先を確認 | Marius Lindauer, Florian Karl, Anne Klier, Julia Moosbauer, Alexander Tornede, Andreas Mueller, Frank Hutter, Matthias Feurer, Bernd Bischl, | (参考訳) 機械学習(AutoML)は、機械学習(ML)ワークフローを自動かつ効率的に構成し、新しいMLアルゴリズムの研究を支援し、より広い聴衆にアクセスできるようにすることで、MLの民主化に寄与する、という基本的な目的に基づいて設立された。
過去10年間、AutoMLの賞賛に値する成果は主に予測パフォーマンスの最適化に重点を置いてきた。
この焦点が当てられた進歩は、実質的には、AutoMLがより広い、当初の目標をどの程度達成したかという疑問を提起する。
このポジションペーパーでは、AutoMLの完全な可能性を解き放つ鍵は、さまざまな役割、期待、専門知識を含む、AutoMLシステムとのユーザインタラクションの現在未解決の側面に対処することにある、と論じる。
我々は、将来のAutoML研究においてより人間中心のアプローチを構想し、人間の専門知識とAutoML方法論の補完的強みを密に統合するMLシステムの協調設計を促進する。
Automated machine learning (AutoML) was formed around the fundamental objectives of automatically and efficiently configuring machine learning (ML) workflows, aiding the research of new ML algorithms, and contributing to the democratization of ML by making it accessible to a broader audience. Over the past decade, commendable achievements in AutoML have primarily focused on optimizing predictive performance. This focused progress, while substantial, raises questions about how well AutoML has met its broader, original goals. In this position paper, we argue that a key to unlocking AutoML's full potential lies in addressing the currently underexplored aspect of user interaction with AutoML systems, including their diverse roles, expectations, and expertise. We envision a more human-centered approach in future AutoML research, promoting the collaborative design of ML systems that tightly integrates the complementary strengths of human expertise and AutoML methodologies. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 水素原子のラムシフトに対するクーロン法則の入力
Input of the Coulomb law modification to the Lamb shift of the hydrogen atom ( http://arxiv.org/abs/2406.03350v1 ) ライセンス: Link先を確認 | A. A. Eremko, L. S. Brizhik, V. M. Loktev, | (参考訳) 相対論的水素原子のスペクトルにおける偶発的縮退を除去し、クーロン則の修正につながる放射的補正は、クーロンポテンシャルを持つディラック方程式の正確な解に基づいて、新しいアプローチで計算される。
水素原子のエネルギースペクトルはこれらの補正から得られ、ラムシフトは最低エネルギー状態に対して計算される。
Radiative corrections which remove accidental degeneracy in the spectrum of the relativistic hydrogen atom and lead to the modification of the Coulomb law, are calculated within the novel approach, based on the exact solution of the Dirac equation with the Coulomb potential. The energy spectrum of the hydrogen atom is obtained with account of these corrections and the Lamb shift is calculated for the lowest energy states. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# Pl@ntNetの人工知能アルゴリズムの協調学習:どのように機能し、どのように改善できるのか?
Cooperative learning of Pl@ntNet's Artificial Intelligence algorithm: how does it work and how can we improve it? ( http://arxiv.org/abs/2406.03356v1 ) ライセンス: Link先を確認 | Tanguy Lefort, Antoine Affouard, Benjamin Charlier, Jean-Christophe Lombardo, Mathias Chouet, Hervé Goëau, Joseph Salmon, Pierre Bonnet, Alexis Joly, | (参考訳) 植物種同定のためのディープラーニングモデルは、大きな注釈付きデータセットに依存している。
PlantNetシステムは,植物観察をアップロードし,注釈を付けることで,グローバルなデータ収集を可能にする。
合意を得ることはトレーニングには不可欠だが、収集された膨大なデータによって、従来のラベルアグリゲーション戦略が困難になる。
既存の方法は、すべての観察を保ち、ノイズの多いトレーニングデータをもたらすか、あるいは十分な投票でそれを選択的に保持し、貴重な情報を捨てる。
さらに、多くの種がほとんど観察されないため、ユーザ間の合意としてユーザ専門性を評価することはできない。
提案するラベルアグリゲーション戦略は,植物識別AIモデルを協調的に訓練することを目的としている。
この戦略は、クラウドソースデータから植物種を特定する能力に基づいて、ユーザ毎の信頼スコアとしてユーザ専門性を推定する。
信頼スコアは、現在の推定ラベルから正しく同定された種から再帰的に推定される。
この解釈可能なスコアは、植物の専門家の知識とユーザの異質性を利用する。
その後、我々の戦略は信頼性の低い観察を排除しますが、他のアプローチとは異なり、信頼できるアノテーションしか持たないものを保持します。
欧州の植物相に着目したPlanetNetデータベースの大規模サブセット上でのPlantNetの戦略を評価する。
ユーザの知識の多様性に基づいて,ユーザのスキルを推定することで,ラベル付け性能が向上することが実証された。
我々の研究は、洗練されたデータセットのAI性能を向上させるために、人間のアノテーションとデータフィルタリングの相乗効果を強調した。
人間の入力と並行してAIベースの投票を取り入れることについて検討する。
これにより、人間とAIの相互作用をさらに強化し、信頼性の低い観測を検出することができる。
Deep learning models for plant species identification rely on large annotated datasets. The PlantNet system enables global data collection by allowing users to upload and annotate plant observations, leading to noisy labels due to diverse user skills. Achieving consensus is crucial for training, but the vast scale of collected data makes traditional label aggregation strategies challenging. Existing methods either retain all observations, resulting in noisy training data or selectively keep those with sufficient votes, discarding valuable information. Additionally, as many species are rarely observed, user expertise can not be evaluated as an inter-user agreement: otherwise, botanical experts would have a lower weight in the AI training step than the average user. Our proposed label aggregation strategy aims to cooperatively train plant identification AI models. This strategy estimates user expertise as a trust score per user based on their ability to identify plant species from crowdsourced data. The trust score is recursively estimated from correctly identified species given the current estimated labels. This interpretable score exploits botanical experts' knowledge and the heterogeneity of users. Subsequently, our strategy removes unreliable observations but retains those with limited trusted annotations, unlike other approaches. We evaluate PlantNet's strategy on a released large subset of the PlantNet database focused on European flora, comprising over 6M observations and 800K users. We demonstrate that estimating users' skills based on the diversity of their expertise enhances labeling performance. Our findings emphasize the synergy of human annotation and data filtering in improving AI performance for a refined dataset. We explore incorporating AI-based votes alongside human input. This can further enhance human-AI interactions to detect unreliable observations. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 活性量子スピンの非相互同期
Nonreciprocal synchronization of active quantum spins ( http://arxiv.org/abs/2406.03357v1 ) ライセンス: Link先を確認 | Tobias Nadolny, Christoph Bruder, Matteo Brunelli, | (参考訳) アクティブエージェントは互いに非相互的な力を行使することができる。
例えば、あるエージェントは別のエージェントを引き付けることができる。
これらの対角的な非相互相互作用は古典的なシステムで広く研究され、新しい相転移や進行波状態のような多くのエキサイティングな現象が明らかになった。
これらの現象が量子多体系から生じるかどうかは未解決の問題であり、その実現への提案は欠落している。
本研究では、アトラクション・反発型の対角的非相互的方法で相互作用する2種類の量子スピンのモデルを示す。
本研究では,2つの原子アンサンブルを組み合わされたカイラル導波路による実装を提案する。
スピンは局所的な利得の存在によって活性化され、同期することができる。
非相互相互作用がそれらの同期力学に深く影響していることを示す。
熱力学的極限において、これはパリティ時対称性の自発的な破れに関連する非定常進行波状態への非相互相転移をもたらす。
我々は、この対称性が微視的な量子モデルからどのように現れるかを確立する。
有限個のスピンに対して、進行波状態と非相互相転移が、導波路の出力場を介して測定可能なスピン相関によってどのように明らかにされるかについて議論する。
我々の研究は、能動量子物質における非相互相互作用を探求する新たな道を開く。
Active agents are capable of exerting nonreciprocal forces upon one another. For instance, one agent may attract another one, which in turn is repelled. These antagonistic nonreciprocal interactions have been extensively studied in classical systems, revealing a wealth of exciting phenomena such as novel phase transitions and traveling-wave states. Whether these phenomena can originate in quantum many-body systems is an open issue, and proposals for their realization are lacking. In this work, we present a model of two species of quantum spins that interact in an antagonistic nonreciprocal way of the attraction-repulsion type. We propose an implementation based on two atomic ensembles coupled via chiral waveguides featuring both braided and non-braided geometries. The spins are active due to the presence of local gain, which allows them to synchronize. We show that nonreciprocal interactions deeply affect their synchronization dynamics. In the thermodynamic limit, this results in a nonreciprocal phase transition to nonstationary traveling-wave states, associated with spontaneous breaking of parity-time symmetry. We establish how this symmetry emerges from the microscopic quantum model. For a finite number of spins, we discuss how traveling-wave states and nonreciprocal phase transitions are revealed by spin correlations measurable via the output field of the waveguides. Our work opens a new avenue to explore nonreciprocal interactions in active quantum matter. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# SuperFormer: MRI超解像のためのボリュームトランスフォーマーアーキテクチャ
SuperFormer: Volumetric Transformer Architectures for MRI Super-Resolution ( http://arxiv.org/abs/2406.03359v1 ) ライセンス: Link先を確認 | Cristhian Forigua, Maria Escobar, Pablo Arbelaez, | (参考訳) 本稿では,ビジュアルトランスフォーマー(ViT)を用いたボリューム医療情報処理フレームワークを提案する。
まず、最先端のSwin Transformerモデルを3D医療領域に拡張する。
第2に,3次元アプリケーション用VTにおけるボリューム情報処理と符号化位置の新たなアプローチを提案する。
提案するフレームワークのインスタンス化と,磁気共鳴イメージング(MRI)超解法のための体積変換器に基づくアプローチであるSuperFormerの紹介を行う。
本手法はMRI領域の3次元情報を活用し,3次元相対的位置エンコーディングを用いた局所自己認識機構を用いて解剖学的詳細を復元する。
さらに,本手法では,ボリューム領域や特徴領域からのマルチドメイン情報を利用して高分解能MRIの再構成を行う。
我々はHuman Connectome Projectデータセットの広範な検証を行い、3D CNN法よりもボリュームトランスフォーマーの方が優れていることを示す。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/BCV-Uniandes/SuperFormer.comで公開されています。
This paper presents a novel framework for processing volumetric medical information using Visual Transformers (ViTs). First, We extend the state-of-the-art Swin Transformer model to the 3D medical domain. Second, we propose a new approach for processing volumetric information and encoding position in ViTs for 3D applications. We instantiate the proposed framework and present SuperFormer, a volumetric transformer-based approach for Magnetic Resonance Imaging (MRI) Super-Resolution. Our method leverages the 3D information of the MRI domain and uses a local self-attention mechanism with a 3D relative positional encoding to recover anatomical details. In addition, our approach takes advantage of multi-domain information from volume and feature domains and fuses them to reconstruct the High-Resolution MRI. We perform an extensive validation on the Human Connectome Project dataset and demonstrate the superiority of volumetric transformers over 3D CNN-based methods. Our code and pretrained models are available at https://github.com/BCV-Uniandes/SuperFormer. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 組合せ推論問題における階層探索の課題
What Matters in Hierarchical Search for Combinatorial Reasoning Problems? ( http://arxiv.org/abs/2406.03361v1 ) ライセンス: Link先を確認 | Michał Zawalski, Gracjan Góral, Michał Tyrolski, Emilia Wiśnios, Franciszek Budrowski, Łukasz Kuciński, Piotr Miłoś, | (参考訳) 組合せ推論問題、特に悪名高いNPハードタスクに効果的に対処することは、AI研究にとって重要な課題である。
近年の取り組みでは,階層的な高次探索戦略を取り入れたサブゴアル手法による計画の強化が試みられている。
有望ではあるが、従来の低レベルのプランナに対する彼らのパフォーマンスは一貫性がなく、アプリケーションコンテキストに関する疑問を提起している。
本研究では,組み合わせ推論のためのサブゴール計画法を詳細に検討する。
難解な値関数、複雑なアクション空間、環境におけるデッドエンドの存在、あるいは多様な専門家から収集されたデータなど、ハイレベル検索の利点を活用する上で重要な属性を同定する。
本稿では,手法間の有意義な比較を達成し,最先端のアルゴリズムを再評価するための一貫した評価手法を提案する。
Efficiently tackling combinatorial reasoning problems, particularly the notorious NP-hard tasks, remains a significant challenge for AI research. Recent efforts have sought to enhance planning by incorporating hierarchical high-level search strategies, known as subgoal methods. While promising, their performance against traditional low-level planners is inconsistent, raising questions about their application contexts. In this study, we conduct an in-depth exploration of subgoal-planning methods for combinatorial reasoning. We identify the attributes pivotal for leveraging the advantages of high-level search: hard-to-learn value functions, complex action spaces, presence of dead ends in the environment, or using data collected from diverse experts. We propose a consistent evaluation methodology to achieve meaningful comparisons between methods and reevaluate the state-of-the-art algorithms. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 機械フィードバックからの強化学習を用いたLLMによる不適切な調停の書き換え
LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback ( http://arxiv.org/abs/2406.03363v1 ) ライセンス: Link先を確認 | Timon Ziegenbein, Gabriella Skitalinskaya, Alireza Bayat Makou, Henning Wachsmuth, | (参考訳) オンラインの議論が市民的かつ生産的であることを保証することは、ソーシャルメディアプラットフォームにとって大きな課題である。
このようなプラットフォームは通常、ユーザと自動検出ツールの両方に依存して、他のユーザの不適切な引数をフラグし、モデレーターがレビューする。
しかし、このようなポストホック・モデレーションは高価で時間を要するため、モデレーターはフラグ付きコンテンツの量や重大さに圧倒されることが多い。
代わりに、有望な代替手段は、コンテンツ作成中のネガティブな振る舞いを防ぐことである。
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
本稿では,既存の分類器に基づいてコンテンツ保存と適切性をバランスさせる強化学習に基づく書き直し手法を提案する。
関連するスタイル転送タスクとは異なり、不適切な引数を書き直すことで、コンテンツを永久に削除および追加することができる。
そのため、文レベルよりも文書レベルで取り組まれている。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
非並列データに関する体系的な実験は、我々の手法が議論の不適切さを軽減し、主に内容を保存することができることを示す。
これは、数ショットの学習、プロンプト、人間など、競争上のベースラインを大幅に上回っている。
Ensuring that online discussions are civil and productive is a major challenge for social media platforms. Such platforms usually rely both on users and on automated detection tools to flag inappropriate arguments of other users, which moderators then review. However, this kind of post-hoc moderation is expensive and time-consuming, and moderators are often overwhelmed by the amount and severity of flagged content. Instead, a promising alternative is to prevent negative behavior during content creation. This paper studies how inappropriate language in arguments can be computationally mitigated. We propose a reinforcement learning-based rewriting approach that balances content preservation and appropriateness based on existing classifiers, prompting an instruction-finetuned large language model (LLM) as our initial policy. Unlike related style transfer tasks, rewriting inappropriate arguments allows deleting and adding content permanently. It is therefore tackled on document level rather than sentence level. We evaluate different weighting schemes for the reward function in both absolute and relative human assessment studies. Systematic experiments on non-parallel data provide evidence that our approach can mitigate the inappropriateness of arguments while largely preserving their content. It significantly outperforms competitive baselines, including few-shot learning, prompting, and humans. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# D波量子アニールにおける埋め込みによる最適鎖結合の決定
Determination of Optimal Chain Coupling made by Embedding in D-Wave Quantum Annealer ( http://arxiv.org/abs/2406.03364v1 ) ライセンス: Link先を確認 | Hayun Park, Hunpyo Lee, | (参考訳) D-wave quantum annealer (D-wave QA) の量子ビットは、組合せ最適化問題の構造とは異なるペガサスグラフ上に設計されている。
この状況では、量子ビット間の強磁性(FM)カップリング$J_c$で連結された鎖に埋め込む必要がある。
弱い値と強い$J_c$値は、それぞれ量子アニール(QA)測定の精度を低下させるチェーンエネルギーの破れと強制を誘導する。
さらに、D-Wave Oceanパッケージはデフォルトの結合である$J_c^{\text{default}}$を提供するが、QA測定の可能な正しいレートを最大化する$J_c^{\text{optimal}}$は最適結合ではないことを確認した。
本稿では,可能な最低エネルギーを観測するための最大確率$p$で,$J_c^{\text{optimal}}$がどうやって決定されるかを示す。
最後に、抽出した$J_c^{\text{optimal}}$が、フラストレーションと完全に連結された組合せ最適化問題の様々なパラメータのQA測定において、$J_c^{\text{default}}$よりもずっと良い$p$を示すことを確認した。
オープンコードは、textit{https://github.com/HunpyoLee/OptimizeChainStrength}で公開されている。
The qubits in a D-wave quantum annealer (D-wave QA) are designed on a Pegasus graph that is different from structure of a combinatorial optimization problem. This situation requires embedding with the chains connected by ferromagnetic (FM) coupling $J_c$ between the qubits. Weak and strong $J_c$ values induce chain breaking and enforcement of chain energy, which reduce the accuracy of quantum annealing (QA) measurements, respectively. In addition, we confirmed that even though the D-Wave Ocean package provides a default coupling $J_c^{\text{default}}$, it is not an optimal coupling $J_c^{\text{optimal}}$ that maximizes the possible correct rate of QA measurements. In this paper, we present an algorithm how $J_c^{\text{optimal}}$ with the maximum probability $p$ for observing the possible lowest energy is determined. Finally, we confirm that the extracted $J_c^{\text{optimal}}$ show much better $p$ than $J_c^{\text{default}}$ in QA measurements of various parameters of frustrated and fully connected combinatorial optimization problems. The open code is available in \textit{https://github.com/HunpyoLee/OptimizeChainStrength}. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 有機ダイラディカルにおけるスピン状態の光学的読み書き
Optical read and write of spin states in organic diradicals ( http://arxiv.org/abs/2406.03365v1 ) ライセンス: Link先を確認 | Rituparno Chowdhury, Petri Murto, Naitik A. Panjwani, Yan Sun, Pratyush Ghosh, Yorrick Boeije, Vadim Derkach, Seung-Je Woo, Oliver Millington, Daniel G. Congrave, Yao Fu, Tarig B. E. Mustafa, Miguel Monteverde, Jesús Cerdá, Jan Behrends, Akshay Rao, David Beljonne, Alexei Chepelianskii, Hugo Bronstein, Richard H. Friend, | (参考訳) ダイヤモンドNV中心を含む結晶半導体の欠陥状態に対する基底状態スピン構造の光学的制御と読み出しが実証されており、これらは量子技術にとって有望なシステムである。
分子有機半導体は、これらの結晶系の現在の制限とは対照的に、スピン配置の合成制御を提供する。
本稿では,2つのトリチルラジカル基をフッ化レン橋で結合した二ラジカル分子におけるスピン光学的アドレナビリティの発見を報告する。
スピン光子インタフェースとしての操作を可能にする3つの重要な特性を実証する。
(i)三重項スピン状態と一重項スピン状態は、それぞれ640nmと700nmの発光をピークとし、これによって基底状態スピンの光学的測定が容易になる。
(ii) 基底状態スピン交換は小さい(〜60 {\mu}eV)ため、基底状態スピン人口の調製が可能となる。
これはスピン選択励起状態間交差により達成でき、光発光において最大8%のマイクロ波駆動コントラストが報告される。
3) 一重項多様体と三重項多様体のどちらもほぼ均一なフォトルミネッセンス量子収率を持ち、これは分子ディラディカルの以前の報告におけるほぼゼロの量子収率とは対照的である。
本研究は, この調整可能な開殻有機分子を, スピン光学界面を設計するためのプラットフォームとして確立した。
Optical control and read-out of the ground state spin structure has been demonstrated for defect states in crystalline semiconductors, including the diamond NV- center, and these are promising systems for quantum technologies. Molecular organic semiconductors offer synthetic control of spin placement, in contrast to current limitations in these crystalline systems. Here we report the discovery of spin-optical addressability in a diradical molecule that comprises two trityl radical groups coupled via a fluorene bridge. We demonstrate the three important properties that enable operation as a spin-photon interface: (i) triplet and singlet spin states show photoluminescence peaked at 640 and 700 nm respectively; this allows easy optical measurement of ground state spin. (ii) the ground state spin exchange is small (~60 {\mu}eV) that allows preparation of ground state spin population. This can be achieved by spin-selective excited state intersystem crossing, and we report up to 8% microwave-driven contrast in photoluminescence. (iii) both singlet and triplet manifolds have near-unity photoluminescence quantum yield, which is in contrast to the near-zero quantum yields in prior reports of molecular diradicals. Our results establish these tuneable open-shell organic molecules as a platform to engineer tailor-made spin-optical interfaces. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 最適化二項構成の拡張による量子固有解法の計算精度
Computational Supremacy of Quantum Eigensolver by Extension of Optimized Binary Configurations ( http://arxiv.org/abs/2406.03366v1 ) ライセンス: Link先を確認 | Hayun Park, Hunpyo Lee, | (参考訳) 本研究では,D波量子アニール(D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer,D-Wave Quantum Annealer)上の量子アニール(QA)によって測定された最適化バイナリ構成の拡張に基づく量子固有ソルバ(QE)を開発した。
このアプローチは、古典的コンピュータの導出なしに固有状態$\vert \psi \rangle$を最適化するために反復的なQA測定を実行する。
計算コストは、フル固有値に対して$E$と$\vert \psi \rangle$ of the Hamiltonian $\hat{H}$ of size $L \times L$である。
古典的コンピュータ上での$L^3$反復による正確な対角化(ED)アルゴリズムとは異なり、$L$と$M$の計算コストは、D-Wave QA上での10^{-2}$秒以内の非常に短い時間を表すため、大きな影響を受けない。
金属および絶縁相を持つ2つの系において、すべてのエネルギー状態の正確な$E$値を含む強結合$\hat{H}$を選択した。
提案したQEアルゴリズムは, 5 時間 10^{-3}$ の誤差内で正確な解を提供することを確認した。
QEアルゴリズムは、古典的なコンピュータ上でのEDアプローチよりも計算上の優位性を示すだけでなく、物質設計や薬物設計といった様々な用途にも広く使用される。
We developed a quantum eigensolver (QE) which is based on an extension of optimized binary configurations measured by quantum annealing (QA) on a D-Wave Quantum Annealer (D-Wave QA). This approach performs iterative QA measurements to optimize the eigenstates $\vert \psi \rangle$ without the derivation of a classical computer. The computational cost is $\eta M L$ for full eigenvalues $E$ and $\vert \psi \rangle$ of the Hamiltonian $\hat{H}$ of size $L \times L$, where $M$ and $\eta$ are the number of QA measurements required to reach the converged $\vert \psi \rangle$ and the total annealing time of many QA shots, respectively. Unlike the exact diagonalized (ED) algorithm with $L^3$ iterations on a classical computer, the computation cost is not significantly affected by $L$ and $M$ because $\eta$ represents a very short time within $10^{-2}$ seconds on the D-Wave QA. We selected the tight-binding $\hat{H}$ that contains the exact $E$ values of all energy states in two systems with metallic and insulating phases. We confirmed that the proposed QE algorithm provides exact solutions within the errors of $5 \times 10^{-3}$. The QE algorithm will not only show computational supremacy over the ED approach on a classical computer but will also be widely used for various applications such as material and drug design. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# CLMASP:ロボットタスク計画のための大規模言語モデルと解集合プログラミングの結合
CLMASP: Coupling Large Language Models with Answer Set Programming for Robotic Task Planning ( http://arxiv.org/abs/2406.03367v1 ) ライセンス: Link先を確認 | Xinrui Lin, Yangfan Wu, Huanyu Yang, Yu Zhang, Yanyong Zhang, Jianmin Ji, | (参考訳) 大規模言語モデル(LLM)は、幅広い基礎知識と適度な推論能力を持ち、オープンワールドシナリオにおける一般的なタスク計画に適している。
しかし,LLM生成したプランを一定の制約で特定のロボットに実行させることは困難である。
本稿では,LLMをAnswer Set Programming(ASP)と組み合わせて制限を克服するアプローチであるCLMASPを紹介する。
CLMASPは、基本的なスケルトンプランを生成するLLMで開始され、その後、ベクトルデータベースを使用して特定のシナリオに合わせて調整される。
この計画は、ロボットの行動知識を持つASPプログラムによって洗練され、実装の詳細をスケルトンに統合し、LLMの抽象的な出力を実用的なロボットコンテキストで基礎付ける。
VirtualHomeプラットフォーム上で実施した実験は,CLMASPの有効性を実証するものである。
LLMASPの基準実行率は2%以下であるのに対し、CLMASPは90%以上に大幅に改善した。
Large Language Models (LLMs) possess extensive foundational knowledge and moderate reasoning abilities, making them suitable for general task planning in open-world scenarios. However, it is challenging to ground a LLM-generated plan to be executable for the specified robot with certain restrictions. This paper introduces CLMASP, an approach that couples LLMs with Answer Set Programming (ASP) to overcome the limitations, where ASP is a non-monotonic logic programming formalism renowned for its capacity to represent and reason about a robot's action knowledge. CLMASP initiates with a LLM generating a basic skeleton plan, which is subsequently tailored to the specific scenario using a vector database. This plan is then refined by an ASP program with a robot's action knowledge, which integrates implementation details into the skeleton, grounding the LLM's abstract outputs in practical robot contexts. Our experiments conducted on the VirtualHome platform demonstrate CLMASP's efficacy. Compared to the baseline executable rate of under 2% with LLM approaches, CLMASP significantly improves this to over 90%. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# IrokoBench: 大規模言語モデルの時代におけるアフリカの言語のための新しいベンチマーク
IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models ( http://arxiv.org/abs/2406.03368v1 ) ライセンス: Link先を確認 | David Ifeoluwa Adelani, Jessica Ojo, Israel Abebe Azime, Jian Yun Zhuang, Jesujoba O. Alabi, Xuanli He, Millicent Ochieng, Sara Hooker, Andiswa Bukula, En-Shiun Annie Lee, Chiamaka Chukwuneke, Happy Buzaaba, Blessing Sibanda, Godson Kalipe, Jonathan Mukiibi, Salomon Kabongo, Foutse Yuehgoh, Mmasibidi Setaka, Lolwethu Ndolela, Nkiruka Odu, Rooweither Mabuya, Shamsuddeen Hassan Muhammad, Salomey Osei, Sokhar Samb, Tadesse Kebede Guge, Pontus Stenetorp, | (参考訳) LLM(Large Language Model)が広く採用されているにもかかわらず、その特筆すべき機能は、いくつかの高レベルの言語に限られている。
さらに、多くの低リソース言語(例えばアフリカ語)は、高リソース言語以外の適切なベンチマークや包括的なベンチマークがないため、基本的なテキスト分類タスクでのみ評価されることが多い。
本稿では、自然言語推論〜(AfriXNLI)、数学的推論〜(AfriMGSM)、多目的知識に基づくQA〜(AfriMMLU)の3つのタスクをカバーする16の型式で異なる低リソースのアフリカの言語を対象とした人為的なベンチマークデータセットであるIrokoBenchを紹介する。
IrokoBenchを使って、ゼロショット、少数ショット、および翻訳テストの設定~(テストセットが英語に変換される)を、10のオープンおよび4つのプロプライエタリなLCMで評価します。
評価の結果,(英語やフランス語など)高リソース言語と低リソースのアフリカ語との間には,顕著な性能差がみられた。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58パーセントに過ぎません。
評価の前にテストセットを英語に翻訳することで、LLaMa 3 70Bのような英語中心の大型モデルのギャップを埋めることができた。
これらの結果から,アフリカ語にLLMを開発し,適応するためには,さらなる努力が必要であることが示唆された。
Despite the widespread adoption of Large language models (LLMs), their remarkable capabilities remain limited to a few high-resource languages. Additionally, many low-resource languages (e.g. African languages) are often evaluated only on basic text classification tasks due to the lack of appropriate or comprehensive benchmarks outside of high-resource languages. In this paper, we introduce IrokoBench -- a human-translated benchmark dataset for 16 typologically-diverse low-resource African languages covering three tasks: natural language inference~(AfriXNLI), mathematical reasoning~(AfriMGSM), and multi-choice knowledge-based QA~(AfriMMLU). We use IrokoBench to evaluate zero-shot, few-shot, and translate-test settings~(where test sets are translated into English) across 10 open and four proprietary LLMs. Our evaluation reveals a significant performance gap between high-resource languages~(such as English and French) and low-resource African languages. We observe a significant performance gap between open and proprietary models, with the highest performing open model, Aya-101 only at 58\% of the best-performing proprietary model GPT-4o performance. Machine translating the test set to English before evaluation helped to close the gap for larger models that are English-centric, like LLaMa 3 70B. These findings suggest that more efforts are needed to develop and adapt LLMs for African languages. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 重み付き重み付きディープニューラルネットワークの後方および変動推論
Posterior and variational inference for deep neural networks with heavy-tailed weights ( http://arxiv.org/abs/2406.03369v1 ) ライセンス: Link先を確認 | Ismaël Castillo, Paul Egels, | (参考訳) 我々は、ネットワーク重みをランダムにサンプリングする事前分布を持つベイズフレームワークにおいて、ディープニューラルネットワークを考察する。
Agapiou と Castillo (2023) の最近の考えに従えば、重み付き事前分布が滑らか性への自動適応を実現することが示され、重み付き重みとReLU活性化に基づく単純なベイズ深度学習を導入する。
非パラメトリック回帰、幾何データ、ベソフ空間を含む様々な文脈において、対応する後部分布は、固有次元と基礎関数の滑らか性の両方に同時に適応して、ほぼ最適のミニマックス収縮速度を達成することを示す。
これまでの作業では,ネットワークのアーキテクチャを学ぶためにハイパーパラメータをサンプリングする必要がない,というアプローチでは,モデル選択の形式が組み込まれています。
また, 実験結果の変分ベイズ版も提供し, 平均場変分近似は, ほぼ最適理論的支援の恩恵を受けていることを示した。
We consider deep neural networks in a Bayesian framework with a prior distribution sampling the network weights at random. Following a recent idea of Agapiou and Castillo (2023), who show that heavy-tailed prior distributions achieve automatic adaptation to smoothness, we introduce a simple Bayesian deep learning prior based on heavy-tailed weights and ReLU activation. We show that the corresponding posterior distribution achieves near-optimal minimax contraction rates, simultaneously adaptive to both intrinsic dimension and smoothness of the underlying function, in a variety of contexts including nonparametric regression, geometric data and Besov spaces. While most works so far need a form of model selection built-in within the prior distribution, a key aspect of our approach is that it does not require to sample hyperparameters to learn the architecture of the network. We also provide variational Bayes counterparts of the results, that show that mean-field variational approximations still benefit from near-optimal theoretical support. | 翻訳日:2024-06-06 17:41:32 公開日:2024-06-05 |
# 物理ニューラルネットワークの学習
Training of Physical Neural Networks ( http://arxiv.org/abs/2406.03372v1 ) ライセンス: Link先を確認 | Ali Momeni, Babak Rahmani, Benjamin Scellier, Logan G. Wright, Peter L. McMahon, Clara C. Wanjura, Yuhang Li, Anas Skalli, Natalia G. Berloff, Tatsuhiro Onodera, Ilker Oguz, Francesco Morichetti, Philipp del Hougne, Manuel Le Gallo, Abu Sebastian, Azalia Mirhoseini, Cheng Zhang, Danijela Marković, Daniel Brunner, Christophe Moser, Sylvain Gigan, Florian Marquardt, Aydogan Ozcan, Julie Grollier, Andrea J. Liu, Demetri Psaltis, Andrea Alù, Romain Fleury, | (参考訳) 物理ニューラルネットワーク(PNN)は、物理系の性質を利用して計算を行うニューラルネットワークの一種である。
PNNは今のところ、小さな実験室のデモのあるニッチな研究分野だが、現代のAIにおいて、もっとも未熟な重要な機会の1つであることは間違いない。
AIモデルを現在のモデルより1000倍大きくトレーニングできるだろうか?
スマートフォンやセンサーなどのエッジデバイス上で、ローカルでプライベートに推論を実行させることもできますか?
過去数年間の研究によると、これらの質問に対する答えは、おそらく"十分に調査"されている。PNNはいつか、AIシステムで何が可能で実用的なのかを根本的に変える可能性がある。
しかしそのためには、AIモデルの動作方法とトレーニング方法の両方を再考する必要がある。
大規模にPNNを訓練するために、バックプロパゲーションベースやバックプロパゲーションフリーアプローチを含む多くの手法が検討されている。
これらの手法には様々なトレードオフがあり、今日ではディープラーニングで広く使われているバックプロパゲーションアルゴリズムと同じスケールと性能にスケールすることが示されていない。
しかし、これは急速に変化しており、多様なトレーニングテクニックのエコシステムは、現在の大規模AIモデルのより効率的な実現と前例のない規模のモデルの実現にPNNをどのように活用するかの手がかりを提供する。
Physical neural networks (PNNs) are a class of neural-like networks that leverage the properties of physical systems to perform computation. While PNNs are so far a niche research area with small-scale laboratory demonstrations, they are arguably one of the most underappreciated important opportunities in modern AI. Could we train AI models 1000x larger than current ones? Could we do this and also have them perform inference locally and privately on edge devices, such as smartphones or sensors? Research over the past few years has shown that the answer to all these questions is likely "yes, with enough research": PNNs could one day radically change what is possible and practical for AI systems. To do this will however require rethinking both how AI models work, and how they are trained - primarily by considering the problems through the constraints of the underlying hardware physics. To train PNNs at large scale, many methods including backpropagation-based and backpropagation-free approaches are now being explored. These methods have various trade-offs, and so far no method has been shown to scale to the same scale and performance as the backpropagation algorithm widely used in deep learning today. However, this is rapidly changing, and a diverse ecosystem of training techniques provides clues for how PNNs may one day be utilized to create both more efficient realizations of current-scale AI models, and to enable unprecedented-scale models. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 自己生成型インコンテキスト学習と自己補正によるログ解析
Log Parsing with Self-Generated In-Context Learning and Self-Correction ( http://arxiv.org/abs/2406.03376v1 ) ライセンス: Link先を確認 | Yifan Wu, Siyu Yu, Ying Li, | (参考訳) ログ解析はログメッセージを構造化フォーマットに変換し、ログ解析の重要なステップとなる。
さまざまなログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存しているため、ログデータの進化に対する彼らのパフォーマンスは満足できないままである。
近年の大規模言語モデル(LLM)の出現は、自然言語やコードを理解する上で強力な能力を示しており、ログ解析にLLMを適用することを約束している。
その結果,LLMに基づくログパーサが提案されている。
しかし、LLMは不正確なテンプレートを生成する可能性があり、既存のLLMベースのログパーサは、LSMが生成したテンプレートを直接解析結果として使用することにより、ログパーシングの精度を損なう。
さらに、これらのログパーサは、履歴ログデータをデモとして大きく依存しており、履歴ログデータの少ない処理やログデータの進化に際し、正確性を維持する上での課題となっている。
これらの課題に対処するために,自己生成型インコンテキスト学習(SG-ICL)と自己補正を備えたLLMを用いた,効果的かつ適応的なログ解析フレームワークであるAdaParserを提案する。
正確なログ解析を容易にするため、AdaParserは、LLMを使用して生成するテンプレートの潜在的な解析エラーを修正する、新しいコンポーネントであるテンプレート修正器を組み込んでいる。
さらに、AdaParserは、以前生成されたテンプレートで構成された動的候補セットを、進化するログデータに適応するためのデモとして維持する。
パブリックな大規模データセットに対する大規模な実験は、AdaParserがゼロショットシナリオであっても、すべてのメトリクスで最先端のメソッドより優れていることを示している。
さらに、異なるLLMと統合した場合、AdaParserは使用済みのLLMの性能を大きなマージンで継続的に向上させる。
Log parsing transforms log messages into structured formats, serving as a crucial step for log analysis. Despite a variety of log parsing methods that have been proposed, their performance on evolving log data remains unsatisfactory due to reliance on human-crafted rules or learning-based models with limited training data. The recent emergence of large language models (LLMs) has demonstrated strong abilities in understanding natural language and code, making it promising to apply LLMs for log parsing. Consequently, several studies have proposed LLM-based log parsers. However, LLMs may produce inaccurate templates, and existing LLM-based log parsers directly use the template generated by the LLM as the parsing result, hindering the accuracy of log parsing. Furthermore, these log parsers depend heavily on historical log data as demonstrations, which poses challenges in maintaining accuracy when dealing with scarce historical log data or evolving log data. To address these challenges, we propose AdaParser, an effective and adaptive log parsing framework using LLMs with self-generated in-context learning (SG-ICL) and self-correction. To facilitate accurate log parsing, AdaParser incorporates a novel component, a template corrector, which utilizes the LLM to correct potential parsing errors in the templates it generates. In addition, AdaParser maintains a dynamic candidate set composed of previously generated templates as demonstrations to adapt evolving log data. Extensive experiments on public large-scale datasets show that AdaParser outperforms state-of-the-art methods across all metrics, even in zero-shot scenarios. Moreover, when integrated with different LLMs, AdaParser consistently enhances the performance of the utilized LLMs by a large margin. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 量子FHEの作り方
How to Construct Quantum FHE, Generically ( http://arxiv.org/abs/2406.03379v1 ) ライセンス: Link先を確認 | Aparna Gupte, Vinod Vaikuntanathan, | (参考訳) 量子完全同型暗号(QFHE)スキームは、(コンパクト)古典的完全同型暗号スキームから始まり、$\mathsf{NC}^{1}$で復号化され、二重モードのトラップドア関数ファミリと共に構成される。
従来の構成(Mahadev, FOCS 2018, Brakerski, CRYPTO 2018)と比べ, 類似のプリミティブを非ブラックボックスで使用することで, 異なる仮定からインスタンス化するための経路を提供する。
提案手法はDulek, Schaffner, Speelman (CRYPTO 2016) の手法を用いており, マルチモードトラップドア関数を用いてQFHE方式のクライアントを古典的にする方法を示している。
追加の貢献として、グループアクションから二重モードのトラップドア関数を新たにインスタンス化することを示す。
We construct a (compact) quantum fully homomorphic encryption (QFHE) scheme starting from (compact) classical fully homomorphic encryption scheme with decryption in $\mathsf{NC}^{1}$, together with a dual-mode trapdoor function family. Compared to previous constructions (Mahadev, FOCS 2018; Brakerski, CRYPTO 2018) which made non-black-box use of similar underlying primitives, our construction provides a pathway to instantiations from different assumptions. Our construction uses the techniques of Dulek, Schaffner and Speelman (CRYPTO 2016) and shows how to make the client in their QFHE scheme classical using dual-mode trapdoor functions. As an additional contribution, we show a new instantiation of dual-mode trapdoor functions from group actions. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# より大きなニューラルネットワーク量子状態による時間発展への道
Paths towards time evolution with larger neural-network quantum states ( http://arxiv.org/abs/2406.03381v1 ) ライセンス: Link先を確認 | Wenxuan Zhang, Bo Xing, Xiansong Xu, Dario Poletti, | (参考訳) 近年,多体量子系の基底状態と時間進化を研究するために,ニューラルネットワーク量子状態法が研究されている。
ここでは、調査を拡大し、傾いたイジングモデルにおいて、常磁性から反強磁性相への量子クエンチを考察する。
我々は、制限されたボルツマンマシンとフィードフォワードニューラルネットワークの2種類のニューラルネットワークを使用している。
両タイプのネットワークに対して、予測時間依存変動モンテカルロ法(p-tVMC)は、非計画的手法よりも優れた性能を示すことを示す。
さらに,K-FACやminSRをp-tVMCと組み合わせることで,確率的再構成手法の計算複雑性を低減できることを示す。
In recent years, the neural-network quantum states method has been investigated to study the ground state and the time evolution of many-body quantum systems. Here we expand on the investigation and consider a quantum quench from the paramagnetic to the anti-ferromagnetic phase in the tilted Ising model. We use two types of neural networks, a restricted Boltzmann machine and a feed-forward neural network. We show that for both types of networks, the projected time-dependent variational Monte Carlo (p-tVMC) method performs better than the non-projected approach. We further demonstrate that one can use K-FAC or minSR in conjunction with p-tVMC to reduce the computational complexity of the stochastic reconfiguration approach, thus allowing the use of these techniques for neural networks with more parameters. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# ランダムウォークによるグラフの長距離依存性の学習
Learning Long Range Dependencies on Graphs via Random Walks ( http://arxiv.org/abs/2406.03386v1 ) ライセンス: Link先を確認 | Dexiong Chen, Till Hendrik Schulz, Karsten Borgwardt, | (参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は、局所的な関係を捉えるのに優れ、グラフ上の長距離依存に悩まされることが多い。
逆にグラフ変換器(GT)は全てのノード間の情報交換を可能にするが、固定長ベクトルの集合として扱うことによりグラフ構造を単純化する。
この研究は、ランダムウォークとメッセージパッシングを組み合わせることによって、両方のメソッドの制限を克服する新しいアーキテクチャであるNeuralWalkerを提案する。
NeuralWalkerはランダムウォークをシーケンスとして扱うことでこれを実現し、シーケンスモデルの最近の進歩を適用して、これらのウォーク内の長距離依存関係をキャプチャする。
この概念に基づき、(1)ランダムウォークシーケンスによるより表現力のあるグラフ表現、(2)長距離依存関係をキャプチャする任意のシーケンスモデルを利用する機能、(3)様々なGNNとGTアーキテクチャを統合することで柔軟性を提供するフレームワークを提案する。
実験により、NeuralWalkerは19のグラフとノードベンチマークデータセットで大幅なパフォーマンス向上を実現しており、特にPascalVoc-SPおよびCOCO-SPデータセットでは、既存のメソッドを最大13%上回っている。
コードはhttps://github.com/BorgwardtLab/NeuralWalker.comで入手できる。
Message-passing graph neural networks (GNNs), while excelling at capturing local relationships, often struggle with long-range dependencies on graphs. Conversely, graph transformers (GTs) enable information exchange between all nodes but oversimplify the graph structure by treating them as a set of fixed-length vectors. This work proposes a novel architecture, NeuralWalker, that overcomes the limitations of both methods by combining random walks with message passing. NeuralWalker achieves this by treating random walks as sequences, allowing for the application of recent advances in sequence models in order to capture long-range dependencies within these walks. Based on this concept, we propose a framework that offers (1) more expressive graph representations through random walk sequences, (2) the ability to utilize any sequence model for capturing long-range dependencies, and (3) the flexibility by integrating various GNN and GT architectures. Our experimental evaluations demonstrate that NeuralWalker achieves significant performance improvements on 19 graph and node benchmark datasets, notably outperforming existing methods by up to 13% on the PascalVoc-SP and COCO-SP datasets. Code is available at https://github.com/BorgwardtLab/NeuralWalker. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# SelfRedeepth:コンシューマーグレードセンサの自己監督型リアルタイム深度復元
SelfReDepth: Self-Supervised Real-Time Depth Restoration for Consumer-Grade Sensors ( http://arxiv.org/abs/2406.03388v1 ) ライセンス: Link先を確認 | Alexandre Duarte, Francisco Fernandes, João M. Pereira, Catarina Moreira, Jacinto C. Nascimento, Joaquim Jorge, | (参考訳) コンシューマグレードのセンサーによって生成された深度マップは、不正確な測定と、システムまたはシーン固有のソースからのデータ不足に悩まされている。
データ駆動型 denoising アルゴリズムはそのような問題を緩和することができる。
しかし、それらは膨大な量の真理深度データを必要とする。
近年の研究では、自己教師付き学習技術を用いてこの制限に対処しているが、複数のRGB-Dセンサーが必要である。
さらに、既存のほとんどのアプローチは、単一の分離された深度マップや特定の関心対象を識別することに焦点を当てており、リアルタイムな動的環境における深度マップを効果的に識別する手法の必要性を強調している。
本稿では,RGB-Dセンサで捉えた全深度マップに着色することで,自己教師型深度復元技術であるSelfReDepthを提案する。
このアルゴリズムは、カラーデータと組み合わせた複数のシーケンシャルな深度フレームを利用して、時間的コヒーレンスで高品質な深度ビデオを実現する。
最後に、SelfReDepthは様々なRGB-Dセンサーと互換性があり、他の深度依存アルゴリズムを適用する前に、事前処理ステップとしてリアルタイムシナリオで使用できるように設計されている。
我々の結果は、実世界のデータセット上での我々のアプローチのリアルタイムパフォーマンスを実証する。
それらは、商用深度カメラの30fps以上で最先端のデノベーションと復元性能を上回り、拡張現実と混成現実のアプリケーションにとって潜在的に利点があることを示している。
Depth maps produced by consumer-grade sensors suffer from inaccurate measurements and missing data from either system or scene-specific sources. Data-driven denoising algorithms can mitigate such problems. However, they require vast amounts of ground truth depth data. Recent research has tackled this limitation using self-supervised learning techniques, but it requires multiple RGB-D sensors. Moreover, most existing approaches focus on denoising single isolated depth maps or specific subjects of interest, highlighting a need for methods to effectively denoise depth maps in real-time dynamic environments. This paper extends state-of-the-art approaches for depth-denoising commodity depth devices, proposing SelfReDepth, a self-supervised deep learning technique for depth restoration, via denoising and hole-filling by inpainting full-depth maps captured with RGB-D sensors. The algorithm targets depth data in video streams, utilizing multiple sequential depth frames coupled with color data to achieve high-quality depth videos with temporal coherence. Finally, SelfReDepth is designed to be compatible with various RGB-D sensors and usable in real-time scenarios as a pre-processing step before applying other depth-dependent algorithms. Our results demonstrate our approach's real-time performance on real-world datasets. They show that it outperforms state-of-the-art denoising and restoration performance at over 30fps on Commercial Depth Cameras, with potential benefits for augmented and mixed-reality applications. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# Hot Schrödinger Cat States
Hot Schrödinger Cat States ( http://arxiv.org/abs/2406.03389v1 ) ライセンス: Link先を確認 | Ian Yang, Thomas Agrenius, Vasilisa Usova, Oriol Romero-Isart, Gerhard Kirchmair, | (参考訳) 量子現象の観測は、しばしば十分に純粋な状態を必要とする。
本研究の目的は, 混合状態から派生した非古典状態を作成し, 初期低純度状態を保存するダイナミクスを活用することである。
我々は、トランスモン量子ビットとのユニタリ相互作用のみを用いて、マイクロ波空洞内の熱状態の変位の量子重ね合わせを生成する。
これらの「hot'' Schr\"odinger cat state」のウィグナー関数を0.06以下の初期純度で測定する。
これはキャビティモードの温度が1.8ケルビンであり、キャビティの物理的環境の60倍の温度である。
我々の高度に混合した量子重ね合わせ状態の実現は、基底状態の冷却が困難な他の連続可変系、例えばナノメカニカル発振器で実現することができる。
The observation of quantum phenomena often necessitates sufficiently pure states, a requirement that can be challenging to achieve. In this study, our goal is to prepare a non-classical state originating from a mixed state, utilizing dynamics that preserve the initial low purity of the state. We generate a quantum superposition of displaced thermal states within a microwave cavity using only unitary interactions with a transmon qubit. We measure the Wigner functions of these ``hot'' Schr\"odinger cat states for an initial purity as low as 0.06. This corresponds to a cavity mode temperature of up to 1.8 Kelvin, sixty times hotter than the cavity's physical environment. Our realization of highly mixed quantum superposition states could be implemented with other continuous-variable systems e.g. nanomechanical oscillators, for which ground-state cooling remains challenging. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 著者、コンテンツ、共有者?ベイジアンミクチャーホークを用いたスプレッドダイナミクスの推定
Author, Content or Sharers? Estimating Spread Dynamics with Bayesian Mixture Hawkes ( http://arxiv.org/abs/2406.03390v1 ) ライセンス: Link先を確認 | Pio Calderon, Marian-Andrei Rizoiu, | (参考訳) ソーシャルメディア上のコンテンツの拡散は、ソース、コンテンツそのもの、そしてコンテンツが広がる経路の3つのレベルにおいて、要素を相互に絡み合うことによって形成される。
最低レベルでは、共有ユーザの人気がその最終的なリーチを決定する。
しかし、オンラインアイテムの性質やソースの信頼性といった高レベルの要因も、オンラインアイテムがいかに広く、迅速に拡散するかを決定する上で重要な役割を担っている。
本研究では,Byesian Mixture Hawkes(BMH)モデルを提案する。
我々は、BMHモデルを分離可能なホークス過程の階層的混合モデルとして定式化し、ホークス力学の異なるクラスとこれらのクラスに対する特徴集合の影響を調節する。
2つの学習課題(コールドスタート人気予測と時間プロファイル一般化性能)でBMHモデルをテストし、2つの実世界のリツイートカスケードデータセットに適用した。
BMHモデルは、両方のデータセットで最先端のモデルと予測ベースラインを上回り、代替品よりもカスケードやアイテムレベルの情報を利用する。
最後に、訓練された出版社レベルのBMHモデルを記事の見出しに応用し、見出しの書き方(中性、クリックベイト、炎症)の有効性が出版社によって異なることを示す。
BMHモデルでは、議論の余地のある出版社と議論の余地のある出版社の間で、スタイルの有効性の違いが明らかになっている。
The spread of content on social media is shaped by intertwining factors on three levels: the source, the content itself, and the pathways of content spread. At the lowest level, the popularity of the sharing user determines its eventual reach. However, higher-level factors such as the nature of the online item and the credibility of its source also play crucial roles in determining how widely and rapidly the online item spreads. In this work, we propose the Bayesian Mixture Hawkes (BMH) model to jointly learn the influence of source, content and spread. We formulate the BMH model as a hierarchical mixture model of separable Hawkes processes, accommodating different classes of Hawkes dynamics and the influence of feature sets on these classes. We test the BMH model on two learning tasks, cold-start popularity prediction and temporal profile generalization performance, applying to two real-world retweet cascade datasets referencing articles from controversial and traditional media publishers. The BMH model outperforms the state-of-the-art models and predictive baselines on both datasets and utilizes cascade- and item-level information better than the alternatives. Lastly, we perform a counter-factual analysis where we apply the trained publisher-level BMH models to a set of article headlines and show that effectiveness of headline writing style (neutral, clickbait, inflammatory) varies across publishers. The BMH model unveils differences in style effectiveness between controversial and reputable publishers, where we find clickbait to be notably more effective for reputable publishers as opposed to controversial ones, which links to the latter's overuse of clickbait. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 変形可能な画像登録のためのガウス表現
Gaussian Representation for Deformable Image Registration ( http://arxiv.org/abs/2406.03394v1 ) ライセンス: Link先を確認 | Jihe Li, Fabian Zhang, Xia Li, Tianhao Zhang, Ye Zhang, Joachim Buhmann, | (参考訳) 変形可能な画像登録(DIR)は放射線治療の基本的な課題であり、既存の手法は計算効率、登録精度、速度のバランスをとるのにしばしば苦労する。
パラメトリックな3次元ガウス制御点を用いた新しいDIR手法を提案する。
3次元の医用画像間の空間的変形場を明示的かつ柔軟に表現し、全体積位置にわたって変位ベクトル場(DVF)を生成する。
個々のボクセルの移動は、隣接するガウシアンに付随する変換の局所的補間を通じて線形ブレンドスキン(LBS)を用いて誘導される。
この補間戦略は、ボクセル運動の決定を単純化するだけでなく、効果的な正則化手法としても機能する。
提案手法は, バックプロパゲーションによる統一最適化プロセスを導入し, 3次元ガウスのパラメータとその変換の反復学習を可能にする。
さらに、ガウスの密度は学習段階で適応的に調整され、運動の複雑さの度合いが変化する。
我々は,DIR-Labの4D-CT肺DIR-Labおよび心房ACDCデータセットに対するアプローチを検証し,DIR-Labデータセットの処理時間2.43秒で1.06 mmの平均目標登録誤差(TRE)を達成し,精度と効率の両面で有意な進歩を示した。
Deformable image registration (DIR) is a fundamental task in radiotherapy, with existing methods often struggling to balance computational efficiency, registration accuracy, and speed effectively. We introduce a novel DIR approach employing parametric 3D Gaussian control points achieving a better tradeoff. It provides an explicit and flexible representation for spatial deformation fields between 3D volumetric medical images, producing a displacement vector field (DVF) across all volumetric positions. The movement of individual voxels is derived using linear blend skinning (LBS) through localized interpolation of transformations associated with neighboring Gaussians. This interpolation strategy not only simplifies the determination of voxel motions but also acts as an effective regularization technique. Our approach incorporates a unified optimization process through backpropagation, enabling iterative learning of both the parameters of the 3D Gaussians and their transformations. Additionally, the density of Gaussians is adjusted adaptively during the learning phase to accommodate varying degrees of motion complexity. We validated our approach on the 4D-CT lung DIR-Lab and cardiac ACDC datasets, achieving an average target registration error (TRE) of 1.06 mm within a much-improved processing time of 2.43 seconds for the DIR-Lab dataset over existing methods, demonstrating significant advancements in both accuracy and efficiency. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 関数型データ解析を用いた雑音データ可視化
Noisy Data Visualization using Functional Data Analysis ( http://arxiv.org/abs/2406.03396v1 ) ライセンス: Link先を確認 | Haozhe Chen, Andres Felipe Duque Correa, Guy Wolf, Kevin R. Moon, | (参考訳) 次元減少によるデータの可視化は、探索データ分析において重要なツールである。
しかし、データがノイズの多い場合、既存の多くのメソッドは、データの基本構造をキャプチャできない。
経験的固有幾何法 (EIG) は, 理論的にはすべてのノイズを除去しながら高次元の動的過程において次元的還元を行う手法として提案されている。
しかし、EIGを実際に実装するには、次元の呪いに苦しむ高次元のヒストグラムを構築する必要がある。
本稿では,EIGフレームワークに適応する動的プロセスに対して,機能的データ解析からのアプローチを用いて,次元の呪いを軽減する機能的情報幾何学(FIG)と呼ばれる新しいデータ可視化手法を提案する。
提案手法は, 真の構造, ハイパーパラメータのロバスト性, 計算速度を可視化するために設計されたEIGの変種よりも優れていることを示す。
次に、脳波による睡眠活動の測定を可視化するために、我々の手法を使用します。
Data visualization via dimensionality reduction is an important tool in exploratory data analysis. However, when the data are noisy, many existing methods fail to capture the underlying structure of the data. The method called Empirical Intrinsic Geometry (EIG) was previously proposed for performing dimensionality reduction on high dimensional dynamical processes while theoretically eliminating all noise. However, implementing EIG in practice requires the construction of high-dimensional histograms, which suffer from the curse of dimensionality. Here we propose a new data visualization method called Functional Information Geometry (FIG) for dynamical processes that adapts the EIG framework while using approaches from functional data analysis to mitigate the curse of dimensionality. We experimentally demonstrate that the resulting method outperforms a variant of EIG designed for visualization in terms of capturing the true structure, hyperparameter robustness, and computational speed. We then use our method to visualize EEG brain measurements of sleep activity. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 大規模言語モデルを用いたトルコ語教育クイズ生成の自動化
Automating Turkish Educational Quiz Generation Using Large Language Models ( http://arxiv.org/abs/2406.03397v1 ) ライセンス: Link先を確認 | Kamyar Zeinalipour, Yusuf Gökberk Keptiğ, Marco Maggini, Marco Gori, | (参考訳) 教育コンテンツからクイズを作ることは、教師と生徒の両方にとって、学習の強化と理解の評価によって利益をもたらす重要な活動である。
本研究では,トルコ語教育テクストからクイズを生成するための新しいアプローチを紹介し,トルコ語教育コンテキストに合わせた教育技術における先駆的な取り組みを示す。
本稿では,トルコ語-クイズ・インストラクション(トルコ語-クイズ・インストラクト)という専門的なデータセットについて紹介する。
本研究は,GPT-4-Turbo,GPT-3.5-Turbo,Llama-2-7b-chat-hf,Llama-2-13b-chat-hfなどの大規模言語モデル(LLM)の機能を活用し,トルコの教育コンテンツからクイズ質問や回答を自動的に生成する。
我々の研究は、トルコの教育資料の文脈でこれらのLCMを活用するための方法論を概説し、トルコのクイズ自動生成のための新たな道を開く。
この研究は、コヒーレントで関連するクイズコンテンツを生成するためにそのようなモデルを使用することの有効性を実証するだけでなく、英語以外の言語の自動学習コンテンツ作成分野における先例となる。
トルコ語-Quiz-Instructデータセットは、トルコ語におけるLLMの教育技術と言語固有の応用の境界を探究する研究者や実践者にとって貴重な資料として紹介されている。
本研究は、トルコ語以外の文脈におけるクイズ生成の課題に対処することにより、トルコ語教育技術の分野に大きく貢献し、多様な言語景観の教育目的にLLMを活用する可能性についての洞察を提供する。
Crafting quizzes from educational content is a pivotal activity that benefits both teachers and students by reinforcing learning and evaluating understanding. In this study, we introduce a novel approach to generate quizzes from Turkish educational texts, marking a pioneering endeavor in educational technology specifically tailored to the Turkish educational context. We present a specialized dataset, named the Turkish-Quiz-Instruct, comprising an extensive collection of Turkish educational texts accompanied by multiple-choice and short-answer quizzes. This research leverages the capabilities of Large Language Models (LLMs), including GPT-4-Turbo, GPT-3.5-Turbo, Llama-2-7b-chat-hf, and Llama-2-13b-chat-hf, to automatically generate quiz questions and answers from the Turkish educational content. Our work delineates the methodology for employing these LLMs in the context of Turkish educational material, thereby opening new avenues for automated Turkish quiz generation. The study not only demonstrates the efficacy of using such models for generating coherent and relevant quiz content but also sets a precedent for future research in the domain of automated educational content creation for languages other than English. The Turkish-Quiz-Instruct dataset is introduced as a valuable resource for researchers and practitioners aiming to explore the boundaries of educational technology and language-specific applications of LLMs in Turkish. By addressing the challenges of quiz generation in a non-English context specifically Turkish, this study contributes significantly to the field of Turkish educational technology, providing insights into the potential of leveraging LLMs for educational purposes across diverse linguistic landscapes. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 支援ベクトルマシンを用いたクラス不均衡学習手法のレビューと実証的評価
Methods for Class-Imbalanced Learning with Support Vector Machines: A Review and an Empirical Evaluation ( http://arxiv.org/abs/2406.03398v1 ) ライセンス: Link先を確認 | Salim rezvani, Farhad Pourpanah, Chee Peng Lim, Q. M. Jonathan Wu, | (参考訳) 本稿では,SVM(Support Vector Machine)とその変種を用いたクラス不均衡学習手法についてレビューする。
まず、SVMの構造とその変種を説明し、クラス不均衡データセットを用いて学習におけるそれらの非効率性について議論する。
クラス不均衡学習に関して,SVMに基づくモデルの階層的分類を導入する。
具体的には、SVMベースのモデルを再サンプリング、アルゴリズム、融合法に分類し、各カテゴリの代表モデルの原理について議論する。
さらに、ベンチマーク不均衡データセットを用いて、各カテゴリにおける様々なSVMモデルの性能を比較するための実験的な評価を行った。
この結果から,データ前処理の要求がないため,アルゴリズム手法は時間がかかりにくいが,再サンプリング手法とアルゴリズム手法を併用した融合法は,一般に最善であるが高い計算負荷が伴うことが明らかとなった。
研究ギャップと今後の研究方向性について論じる。
This paper presents a review on methods for class-imbalanced learning with the Support Vector Machine (SVM) and its variants. We first explain the structure of SVM and its variants and discuss their inefficiency in learning with class-imbalanced data sets. We introduce a hierarchical categorization of SVM-based models with respect to class-imbalanced learning. Specifically, we categorize SVM-based models into re-sampling, algorithmic, and fusion methods, and discuss the principles of the representative models in each category. In addition, we conduct a series of empirical evaluations to compare the performances of various representative SVM-based models in each category using benchmark imbalanced data sets, ranging from low to high imbalanced ratios. Our findings reveal that while algorithmic methods are less time-consuming owing to no data pre-processing requirements, fusion methods, which combine both re-sampling and algorithmic approaches, generally perform the best, but with a higher computational load. A discussion on research gaps and future research directions is provided. | 翻訳日:2024-06-06 17:31:45 公開日:2024-06-05 |
# 大規模言語モデルを用いた対話型テキスト・画像検索:プラグ・アンド・プレイアプローチ
Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach ( http://arxiv.org/abs/2406.03411v1 ) ライセンス: Link先を確認 | Saehyung Lee, Sangwon Yu, Junsung Park, Jihun Yi, Sungroh Yoon, | (参考訳) 本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に主に対処する。
提案手法であるPlugIRは,LLMの一般的な命令追従能力を2つの方法で積極的に活用する。
まず,対話形式の文脈を再構成することにより,既存の視覚的対話データに対して検索モデルを微調整する必要をなくし,任意のブラックボックスモデルの使用を可能にする。
第2に、現在の文脈における検索候補画像の情報に基づいて、目標画像の属性に関する非冗長な質問を生成する。
このアプローチは、生成された質問におけるノイズと冗長性の問題を緩和する。
提案手法の他に,インタラクティブ検索システムの総合的な評価を行うため,新たな評価基準であるBest log Rank Integral (BRI)を提案する。
PlugIRは、さまざまなベンチマークでゼロショットベースラインと微調整ベースラインの両方と比較して、優れたパフォーマンスを示している。
また、PlugIRを含む2つの方法論は、様々な状況において、柔軟に、または別々に適用することができる。
私たちのコードはhttps://github.com/Saehyung-Lee/PlugIR.comで公開されています。
In this paper, we primarily address the issue of dialogue-form context query within the interactive text-to-image retrieval task. Our methodology, PlugIR, actively utilizes the general instruction-following capability of LLMs in two ways. First, by reformulating the dialogue-form context, we eliminate the necessity of fine-tuning a retrieval model on existing visual dialogue data, thereby enabling the use of any arbitrary black-box model. Second, we construct the LLM questioner to generate non-redundant questions about the attributes of the target image, based on the information of retrieval candidate images in the current context. This approach mitigates the issues of noisiness and redundancy in the generated questions. Beyond our methodology, we propose a novel evaluation metric, Best log Rank Integral (BRI), for a comprehensive assessment of the interactive retrieval system. PlugIR demonstrates superior performance compared to both zero-shot and fine-tuned baselines in various benchmarks. Additionally, the two methodologies comprising PlugIR can be flexibly applied together or separately in various situations. Our codes are available at https://github.com/Saehyung-Lee/PlugIR. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# ポストホックパートプロトタイプネットワーク
Post-hoc Part-prototype Networks ( http://arxiv.org/abs/2406.03421v1 ) ライセンス: Link先を確認 | Andong Tan, Fengtao Zhou, Hao Chen, | (参考訳) Grad-CAMのようなポストホックな説明可能性法は、訓練されたモデルの性能に影響を与えないため人気がある。
しかし、主にモデルが与えられた入力を「どこに」探すかを明らかにし、モデルが求める「何」を説明できない(例えば、鳥のイメージをスコット・オリオールに分類することが重要か)。
既存のパートプロトタイプネットワークでは、パートプロトタイプ(例えば、スコット・オリオールの翼と頭部)を使って「どこ」と「何」の両方に答えるが、ブラックボックスの精度は低い。
したがって、自然な疑問は、モデルの性能を保証するために、"where"と"What"の両方をポストホックな方法で答えるネットワークを構築することができるか、ということです。
そこで本研究では,学習モデルの分類ヘッドを解釈可能な部分プロトタイプの集合に分解することで,最初のポストホック部分プロトタイプネットワークを提案する。
具体的には、分類ヘッドを正確に再構築できるが、解釈可能なプロトタイプを得るために、教師なしのプロトタイプ発見・精錬戦略を提案する。
性能を保証することに加えて、我々のネットワークは質的により忠実な説明を提供し、従来の部分プロトタイプネットワークよりも定量的により優れた部分プロトタイプを提供することを示す。
Post-hoc explainability methods such as Grad-CAM are popular because they do not influence the performance of a trained model. However, they mainly reveal "where" a model looks at for a given input, fail to explain "what" the model looks for (e.g., what is important to classify a bird image to a Scott Oriole?). Existing part-prototype networks leverage part-prototypes (e.g., characteristic Scott Oriole's wing and head) to answer both "where" and "what", but often under-perform their black box counterparts in the accuracy. Therefore, a natural question is: can one construct a network that answers both "where" and "what" in a post-hoc manner to guarantee the model's performance? To this end, we propose the first post-hoc part-prototype network via decomposing the classification head of a trained model into a set of interpretable part-prototypes. Concretely, we propose an unsupervised prototype discovery and refining strategy to obtain prototypes that can precisely reconstruct the classification head, yet being interpretable. Besides guaranteeing the performance, we show that our network offers more faithful explanations qualitatively and yields even better part-prototypes quantitatively than prior part-prototype networks. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# CattleFace-RGBT: RGB-T Cattle Facial Landmarkベンチマーク
CattleFace-RGBT: RGB-T Cattle Facial Landmark Benchmark ( http://arxiv.org/abs/2406.03431v1 ) ライセンス: Link先を確認 | Ethan Coffman, Reagan Clark, Nhat-Tan Bui, Trong Thang Pham, Beth Kegley, Jeremy G. Powell, Jiangchao Zhao, Ngan Le, | (参考訳) この課題に対処するために,2300枚のRGB-T画像ペアからなるRGB-TキャッスルファシアルランドマークデータセットであるCattleFace-RGBTを紹介した。
ランドマークデータセットの作成には時間がかかりますが、AI支援アノテーションが役立ちます。
しかし、直接熱訓練と異なるカメラビューによる非実用的RGB熱的アライメントによる最適結果のため、熱画像にAIを適用することは困難である。
したがって、RGBでトレーニングされたモデルを熱画像に転送し、半自動アノテーションアプローチに従ってAI支援アノテーションツールを使用してそれらを洗練する。
RGBと熱画像の両方に正確な顔のキーポイントを正確に配置することで、牛の呼吸の兆候を識別するだけでなく、温度を測定して動物の熱状態を評価することができます。
我々の知る限りでは、これはRGB-T画像上の牛の顔のランドマークのための最初のデータセットである。
本研究では,様々なバックボーンアーキテクチャを対象としたCattleFace-RGBTデータセットのベンチマークを行い,今後の研究,分析,比較のためのベースラインを確立することを目的とする。
データセットとモデルはhttps://github.com/UARK-AICV/CattleFace-RGBT-benchmarkにある。
To address this challenge, we introduce CattleFace-RGBT, a RGB-T Cattle Facial Landmark dataset consisting of 2,300 RGB-T image pairs, a total of 4,600 images. Creating a landmark dataset is time-consuming, but AI-assisted annotation can help. However, applying AI to thermal images is challenging due to suboptimal results from direct thermal training and infeasible RGB-thermal alignment due to different camera views. Therefore, we opt to transfer models trained on RGB to thermal images and refine them using our AI-assisted annotation tool following a semi-automatic annotation approach. Accurately localizing facial key points on both RGB and thermal images enables us to not only discern the cattle's respiratory signs but also measure temperatures to assess the animal's thermal state. To the best of our knowledge, this is the first dataset for the cattle facial landmark on RGB-T images. We conduct benchmarking of the CattleFace-RGBT dataset across various backbone architectures, with the objective of establishing baselines for future research, analysis, and comparison. The dataset and models are at https://github.com/UARK-AICV/CattleFace-RGBT-benchmark | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# 正規化重要度サンプリングによるオフライン政策学習のためのペシミズムの統一PAC-Bayesianによる研究
Unified PAC-Bayesian Study of Pessimism for Offline Policy Learning with Regularized Importance Sampling ( http://arxiv.org/abs/2406.03434v1 ) ライセンス: Link先を確認 | Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba, | (参考訳) オフ・ポリシー・ラーニング(OPL)はしばしば、データ収集に使用されるロギングポリシーからバイアスを正すために重み付けに基づいてリスク推定器を最小化する。
しかし、この方法は、高いばらつきを有する推定器を生成することができる。
一般的な解決策は、重み付けの正則化とポリシーの学習である。
悲観主義として知られるこのアプローチは近年注目を集めているが、分析のための統一的な枠組みが欠如している。
このギャップに対処するために、我々は、周期的に重み付けされた悲観論を調査するための総合的なPAC-ベイジアンフレームワークを導入する。
我々は、共通の重み正規化に普遍的に適用される、引き込み可能なPAC-ベイジアン一般化を導出し、単一のフレームワーク内でそれらの比較を可能にする。
実験結果は,標準IW正則化手法の有効性を実証し,共通理解に挑戦する。
Off-policy learning (OPL) often involves minimizing a risk estimator based on importance weighting to correct bias from the logging policy used to collect data. However, this method can produce an estimator with a high variance. A common solution is to regularize the importance weights and learn the policy by minimizing an estimator with penalties derived from generalization bounds specific to the estimator. This approach, known as pessimism, has gained recent attention but lacks a unified framework for analysis. To address this gap, we introduce a comprehensive PAC-Bayesian framework to examine pessimism with regularized importance weighting. We derive a tractable PAC-Bayesian generalization bound that universally applies to common importance weight regularizations, enabling their comparison within a single framework. Our empirical results challenge common understanding, demonstrating the effectiveness of standard IW regularization techniques. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# Text-to-Events: 条件付きテキスト入力からの合成イベントカメラストリーム
Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input ( http://arxiv.org/abs/2406.03439v1 ) ライセンス: Link先を確認 | Joachim Ott, Zuowen Wang, Shih-Chii Liu, | (参考訳) イベントカメラは、低レイテンシとスパース出力応答を持つ視覚センサーを必要とするタスクに有利である。
しかし、イベントカメラを用いたディープ・ネットワーク・アルゴリズムの開発は、大規模なラベル付きイベントカメラデータセットが欠如しているため、遅い。
本稿では,テキスト・ツー・Xモデルを用いて新しいラベル付きイベント・データセットを作成する手法について述べる。
提案手法は,テキストプロンプトから直接合成イベントフレームを生成する。
オートエンコーダを使用して、イベントカメラ出力を表すスパースイベントフレームを生成するように訓練されている。
事前訓練されたオートエンコーダと拡散モデルアーキテクチャを組み合わせることで,移動物体のスムーズな合成イベントストリームを生成することができる。
オートエンコーダは、さまざまなシーンのイベントカメラデータセットで最初にトレーニングされた。
拡散モデルと組み合わせたトレーニングでは、DVSジェスチャーデータセットが使用された。
本モデルでは,異なる文文によって引き起こされる人間のジェスチャーのリアルなイベントシーケンスを生成できることを実証する。
生成したシーケンスの分類精度は、実際のデータセットで訓練された分類器を用いて、ジェスチャー群によって42%から92%の範囲で変化している。
その結果,イベントデータセットの合成における本手法の有効性が示された。
Event cameras are advantageous for tasks that require vision sensors with low-latency and sparse output responses. However, the development of deep network algorithms using event cameras has been slow because of the lack of large labelled event camera datasets for network training. This paper reports a method for creating new labelled event datasets by using a text-to-X model, where X is one or multiple output modalities, in the case of this work, events. Our proposed text-to-events model produces synthetic event frames directly from text prompts. It uses an autoencoder which is trained to produce sparse event frames representing event camera outputs. By combining the pretrained autoencoder with a diffusion model architecture, the new text-to-events model is able to generate smooth synthetic event streams of moving objects. The autoencoder was first trained on an event camera dataset of diverse scenes. In the combined training with the diffusion model, the DVS gesture dataset was used. We demonstrate that the model can generate realistic event sequences of human gestures prompted by different text statements. The classification accuracy of the generated sequences, using a classifier trained on the real dataset, ranges between 42% to 92%, depending on the gesture group. The results demonstrate the capability of this method in synthesizing event datasets. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# 思考のサイクル:安定説明によるLCM信頼度の測定
Cycles of Thought: Measuring LLM Confidence through Stable Explanations ( http://arxiv.org/abs/2406.03441v1 ) ライセンス: Link先を確認 | Evan Becker, Stefano Soatto, | (参考訳) 多くのハイリスク機械学習アプリケーションでは、モデルが予測について不確実であることを示すことが不可欠である。
大規模言語モデル(LLM)は、さまざまなベンチマークで人間レベルの精度を達成し、さらに上回ることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
MLの不確実性定量化の従来の手法は、実装の計算コストと多くのモデルのクローズソースの性質のために、LSMに直接適応することは困難である。
最近、様々なブラックボックス法が提案されているが、これらは自己言語的自信のようなヒューリスティックに頼っていることが多い。
そこで本研究では,LLMの不確実性を測定するためのフレームワークを提案する。
説明の利用自体は新しいアイデアではないが、可能なモデル+説明ペアをテスト時間分類器として解釈することで、これらの分類器の最も可能性の高い部分に対する後続回答分布を計算することができる。
我々は,このフレームワークの特定の事例において,分類器の妥当性が5つのデータセットのベースラインよりも信頼性スコア(特にAURCとAUROC)を向上することを示す。
これらの結果から, LLMにおける不確実性を定量化するためのフレームワークが, 十分に導出され, 有効な方法であることが示唆された。
In many high-risk machine learning applications it is essential for a model to indicate when it is uncertain about a prediction. While large language models (LLMs) can reach and even surpass human-level accuracy on a variety of benchmarks, their overconfidence in incorrect responses is still a well-documented failure mode. Traditional methods for ML uncertainty quantification can be difficult to directly adapt to LLMs due to the computational cost of implementation and closed-source nature of many models. A variety of black-box methods have recently been proposed, but these often rely on heuristics such as self-verbalized confidence. We instead propose a framework for measuring an LLM's uncertainty with respect to the distribution of generated explanations for an answer. While utilizing explanations is not a new idea in and of itself, by interpreting each possible model+explanation pair as a test-time classifier we can calculate a posterior answer distribution over the most likely of these classifiers. We demonstrate how a specific instance of this framework using explanation entailment as our classifier likelihood improves confidence score metrics (in particular AURC and AUROC) over baselines across five different datasets. We believe these results indicate that our framework is both a well-principled and effective way of quantifying uncertainty in LLMs. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# 言語モデルは合理的か?コヒーレンス規範と信念修正の事例
Are language models rational? The case of coherence norms and belief revision ( http://arxiv.org/abs/2406.03442v1 ) ライセンス: Link先を確認 | Thomas Hofweber, Peter Hase, Elias Stengel-Eskin, Mohit Bansal, | (参考訳) 合理性の規範は機械学習モデル、特に言語モデルに適用されますか?
本稿では,有理ノルムの特別な部分集合であるコヒーレンスノルムに着目して,この問題を考察する。
我々は、論理的コヒーレンス規範と、信念の強さに結びついたコヒーレンス規範の両方を考慮する。
後者を理解するために,最小アセット接続(MAC)を導入し,言語モデルにおける信念の強さを捉えた信頼の新たな説明を提案する。
この提案は、モデル内部の次のトークン確率に基づいて、信念の強さを均一に割り当てる。
コヒーレンスに結びついた有理ノルムはいくつかの言語モデルに適用できるが、他のモデルには適用されない。
この問題は、合理性は行動の予測と説明に密接に結びついているので、AIの安全性とアライメントに関する考慮と、モデル行動のより一般的な理解に結びついている。
Do norms of rationality apply to machine learning models, in particular language models? In this paper we investigate this question by focusing on a special subset of rational norms: coherence norms. We consider both logical coherence norms as well as coherence norms tied to the strength of belief. To make sense of the latter, we introduce the Minimal Assent Connection (MAC) and propose a new account of credence, which captures the strength of belief in language models. This proposal uniformly assigns strength of belief simply on the basis of model internal next token probabilities. We argue that rational norms tied to coherence do apply to some language models, but not to others. This issue is significant since rationality is closely tied to predicting and explaining behavior, and thus it is connected to considerations about AI safety and alignment, as well as understanding model behavior more generally. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# 事前訓練された大規模言語モデルでは、演算加算にフーリエ機能を使用する
Pre-trained Large Language Models Use Fourier Features to Compute Addition ( http://arxiv.org/abs/2406.03445v1 ) ライセンス: Link先を確認 | Tianyi Zhou, Deqing Fu, Vatsal Sharan, Robin Jia, | (参考訳) 事前訓練された大規模言語モデル(LLM)は、優れた数学的推論能力を示すが、加法などの基本的な算術的な計算方法はまだ不明である。
本稿では,Fourier 特徴量を用いて事前学習した LLM が,周波数領域でスパースな特徴集合を通じて数値を表す隠蔽状態の次元を数値に付加することを示す。
MLP層は、主に低周波特徴を用いて解の規模を近似し、注意層は、高周波特徴を用いたモジュラー加算(例えば、その解が偶数であるか奇数であるかの計算)を行う。
このメカニズムには事前トレーニングが不可欠である。スクラッチからトレーニングされ、低周波の特徴のみを活用する数値を追加するモデルにより、精度が低下する。
ランダムに初期化されたモデルに事前訓練されたトークン埋め込みを導入することで、そのパフォーマンスが救われる。
解析により,アルゴリズムタスクの正確なメカニズムを学習するトランスフォーマーの能力が,適切な事前学習された表現(例えば,フーリエ機能)を解き放つことを示した。
Pre-trained large language models (LLMs) exhibit impressive mathematical reasoning capabilities, yet how they compute basic arithmetic, such as addition, remains unclear. This paper shows that pre-trained LLMs add numbers using Fourier features -- dimensions in the hidden state that represent numbers via a set of features sparse in the frequency domain. Within the model, MLP and attention layers use Fourier features in complementary ways: MLP layers primarily approximate the magnitude of the answer using low-frequency features, while attention layers primarily perform modular addition (e.g., computing whether the answer is even or odd) using high-frequency features. Pre-training is crucial for this mechanism: models trained from scratch to add numbers only exploit low-frequency features, leading to lower accuracy. Introducing pre-trained token embeddings to a randomly initialized model rescues its performance. Overall, our analysis demonstrates that appropriate pre-trained representations (e.g., Fourier features) can unlock the ability of Transformers to learn precise mechanisms for algorithmic tasks. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# FILS:セマンティック言語空間における自己監督型ビデオ機能予測
FILS: Self-Supervised Video Feature Prediction In Semantic Language Space ( http://arxiv.org/abs/2406.03447v1 ) ライセンス: Link先を確認 | Mona Ahmadian, Frank Guerin, Andrew Gilbert, | (参考訳) 本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
最近の視覚研究は、視覚と自然言語の監督のためのマスキング戦略が、伝達可能な視覚前訓練の開発に寄与していることを示している。
我々のゴールは、事前学習中のビデオコンテンツに関連するテキストを、完全に自己教師された方法で活用することで、より意味のあるビデオ表現を実現することである。
この目的のために、FILS(en:FILS)という、新しい自己監督型ビデオFeature Prediction In semantic Language Space(en:FILS)を提案する。
視覚モデルは、言語空間におけるマスキング特徴セマンティクスを正確に予測することにより、貴重な構造化情報をキャプチャすることができる。
テキスト表現が視覚特徴を言語空間に変換するプロトタイプとして機能するパッチワイドなビデオテキストコントラスト戦略を用いて学習し、マスク付きエンコーダ・デコーダ構造を用いて意味的に意味のある特徴予測のターゲットとして使用される。
FILSは、VT-Baseを使用して、Epic-Kitchens、SomethingV2、Charades-Ego、EGTEAといった、エゴセントリックなデータセットの最先端を達成している。
我々の効率的な手法は,従来の手法に比べて少ない計算と少ないバッチを必要とする。
This paper demonstrates a self-supervised approach for learning semantic video representations. Recent vision studies show that a masking strategy for vision and natural language supervision has contributed to developing transferable visual pretraining. Our goal is to achieve a more semantic video representation by leveraging the text related to the video content during the pretraining in a fully self-supervised manner. To this end, we present FILS, a novel self-supervised video Feature prediction In semantic Language Space (FILS). The vision model can capture valuable structured information by correctly predicting masked feature semantics in language space. It is learned using a patch-wise video-text contrastive strategy, in which the text representations act as prototypes for transforming vision features into a language space, which are then used as targets for semantically meaningful feature prediction using our masked encoder-decoder structure. FILS demonstrates remarkable transferability on downstream action recognition tasks, achieving state-of-the-art on challenging egocentric datasets, like Epic-Kitchens, Something-SomethingV2, Charades-Ego, and EGTEA, using ViT-Base. Our efficient method requires less computation and smaller batches compared to previous works. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# ChatGPTが詩を翻訳する最良の方法は?
What is the Best Way for ChatGPT to Translate Poetry? ( http://arxiv.org/abs/2406.03450v1 ) ライセンス: Link先を確認 | Shanshan Wang, Derek F. Wong, Jingming Yao, Lidia S. Chao, | (参考訳) 機械翻訳(MT)は歴史的に文学作品、特に詩の翻訳分野において重要な課題に直面してきた。
ChatGPTのような大規模言語モデルの出現は、この分野におけるイノベーションの可能性を秘めている。
英漢詩翻訳におけるChatGPTの能力について検討し、目的のプロンプトと小規模なサンプルシナリオを用いて最適なパフォーマンスを確かめる。
有望な結果にもかかわらず、我々の分析はChatGPTが生成した翻訳の持続的な問題を明らかにし、注意を喚起する。
これらの欠点に対処するために,単言語詩の説明を翻訳プロセスの案内情報として活用する,説明支援詩翻訳(EAPMT)手法を提案する。
さらに,現代詩翻訳のニュアンスに合うように,既存の評価基準を改良する。
我々は,GPT-4による評価,補完的な評価のために,プロの詩人のパネルに関わった。
EAPMT法は従来のChatGPTや既存のオンラインシステムよりも優れていることを示す。
本稿では,本手法の有効性を検証し,機械支援文学翻訳に新たな視点を提供する。
Machine translation (MT) has historically faced significant challenges when applied to literary works, particularly in the domain of poetry translation. The advent of Large Language Models such as ChatGPT holds potential for innovation in this field. This study examines ChatGPT's capabilities in English-Chinese poetry translation tasks, utilizing targeted prompts and small sample scenarios to ascertain optimal performance. Despite promising outcomes, our analysis reveals persistent issues in the translations generated by ChatGPT that warrant attention. To address these shortcomings, we propose an Explanation-Assisted Poetry Machine Translation (EAPMT) method, which leverages monolingual poetry explanation as a guiding information for the translation process. Furthermore, we refine existing evaluation criteria to better suit the nuances of modern poetry translation. We engaged a panel of professional poets for assessments, complemented evaluations by using GPT-4. The results from both human and machine evaluations demonstrate that our EAPMT method outperforms traditional translation methods of ChatGPT and the existing online systems. This paper validates the efficacy of our method and contributes a novel perspective to machine-assisted literary translation. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# シンフォニック定義と意味的関係を用いた意味的変化の分類
Using Synchronic Definitions and Semantic Relations to Classify Semantic Change Types ( http://arxiv.org/abs/2406.03452v1 ) ライセンス: Link先を確認 | Pierluigi Cassotti, Stefano De Pascale, Nina Tahmasebi, | (参考訳) 言葉が意味を変える方法が、古い意味と新しい意味(一般化、特殊化、共同催眠術)の関係を強調して、異なるタイプの変化に分類できるという事実は、豊富な証拠がある。
本稿では,同期語彙関係と単語の意味定義の両方から情報を利用するモデルを構築し,このような変化を検出する手法を提案する。
具体的には,WordNet の構文定義と階層情報を用いて,Blank (1997) のセマンティックチェンジ型データセットのデジタル化バージョンでそれをテストする。
最後に,意味的関連性の人的判断の近似モデルと2値の語彙的意味的変化検出のモデルを改善する方法を示す。
There is abundant evidence of the fact that the way words change their meaning can be classified in different types of change, highlighting the relationship between the old and new meanings (among which generalization, specialization and co-hyponymy transfer). In this paper, we present a way of detecting these types of change by constructing a model that leverages information both from synchronic lexical relations and definitions of word meanings. Specifically, we use synset definitions and hierarchy information from WordNet and test it on a digitized version of Blank's (1997) dataset of semantic change types. Finally, we show how the sense relationships can improve models for both approximation of human judgments of semantic relatedness as well as binary Lexical Semantic Change Detection. | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# LW-DETR:リアルタイム検出のためのYOLOへのトランスフォーマーリプレース
LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection ( http://arxiv.org/abs/2406.03459v1 ) ライセンス: Link先を確認 | Qiang Chen, Xiangbo Su, Xinyu Zhang, Jian Wang, Jiahui Chen, Yunpeng Shen, Chuchu Han, Ziliang Chen, Weixiang Xu, Fanrong Li, Shan Zhang, Kun Yao, Errui Ding, Gang Zhang, Jingdong Wang, | (参考訳) 本稿では、リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
提案手法は,トレーニング効率の向上,損失と事前学習の改善,ViTエンコーダの複雑性の低減を目的としたウィンドウとグローバルアテンションのインターリーブ化など,最近の技術を活用している。
マルチレベル特徴マップとViTエンコーダの中間および最終特徴マップを集約し、よりリッチな特徴マップを作成し、インターリーブされた注意計算の効率を向上させるためにウィンドウマージョル特徴マップ組織を導入することで、ViTエンコーダを改善する。
実験の結果,提案手法はCOCOや他のベンチマークデータセット上で,既存のリアルタイム検出器,例えばYOLOとその変種よりも優れていることが示された。
コードとモデルはhttps://github.com/Atten4Vis/LW-DETRで入手できる。
In this paper, we present a light-weight detection transformer, LW-DETR, which outperforms YOLOs for real-time object detection. The architecture is a simple stack of a ViT encoder, a projector, and a shallow DETR decoder. Our approach leverages recent advanced techniques, such as training-effective techniques, e.g., improved loss and pretraining, and interleaved window and global attentions for reducing the ViT encoder complexity. We improve the ViT encoder by aggregating multi-level feature maps, and the intermediate and final feature maps in the ViT encoder, forming richer feature maps, and introduce window-major feature map organization for improving the efficiency of interleaved attention computation. Experimental results demonstrate that the proposed approach is superior over existing real-time detectors, e.g., YOLO and its variants, on COCO and other benchmark datasets. Code and models are available at (https://github.com/Atten4Vis/LW-DETR). | 翻訳日:2024-06-06 17:22:00 公開日:2024-06-05 |
# 量子加速器プラットフォーム仮想化による並列量子コンピューティングシミュレーション
Parallel Quantum Computing Simulations via Quantum Accelerator Platform Virtualization ( http://arxiv.org/abs/2406.03466v1 ) ライセンス: Link先を確認 | Daniel Claudino, Dmitry I. Lyakh, Alexander J. McCaskey, | (参考訳) 量子回路の実行は、量子計算における中心的なタスクである。
本質的に量子力学の制約のため、量子コンピューティングのワークフローは、小さな異なる量子回路の大規模なセットに対して、かなりの数の独立した測定を伴うことが多い。
本稿では,従来のHPCノードにマッピングされた多数の仮想量子処理ユニットを並列量子コンピューティングプラットフォームとして導入した,そのような量子回路実行の並列化モデルについて論じる。
XACCフレームワーク内に実装されているこのモデルは、バックエンドに依存しない機能を利用して、XACCがサポートする任意のターゲットバックエンド上で並列量子回路の実行を可能にする。
提案手法は,2つの関連する領域科学問題,すなわち多段可変量子固有解器の勾配の計算と,量子ビット数と回路層数を変化させたデータ駆動量子回路学習において,強いスケーリングを示す。
後者の(古典的な)シミュレーションでは、cuQuantum SDKライブラリを活用して、GPUアクセラレーションされたHPCプラットフォーム上で効率的に動作する。
Quantum circuit execution is the central task in quantum computation. Due to inherent quantum-mechanical constraints, quantum computing workflows often involve a considerable number of independent measurements over a large set of slightly different quantum circuits. Here we discuss a simple model for parallelizing simulation of such quantum circuit executions that is based on introducing a large array of virtual quantum processing units, mapped to classical HPC nodes, as a parallel quantum computing platform. Implemented within the XACC framework, the model can readily take advantage of its backend-agnostic features, enabling parallel quantum circuit execution over any target backend supported by XACC. We illustrate the performance of this approach by demonstrating strong scaling in two pertinent domain science problems, namely in computing the gradients for the multi-contracted variational quantum eigensolver and in data-driven quantum circuit learning, where we vary the number of qubits and the number of circuit layers. The latter (classical) simulation leverages the cuQuantum SDK library to run efficiently on GPU-accelerated HPC platforms. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# SpikeZIP-TF:変換はトランスフォーマーベースのSNNに必要なもの
SpikeZIP-TF: Conversion is All You Need for Transformer-based SNN ( http://arxiv.org/abs/2406.03470v1 ) ライセンス: Link先を確認 | Kang You, Zekai Xu, Chen Nie, Zhijie Deng, Qinghai Guo, Xiang Wang, Zhezhi He, | (参考訳) スパイキングニューラルネットワーク(SNN)は、高効率と精度の特色から注目されている。
現在、ANN-to-SNN変換法は、コンピュータビジョン(CV)タスク上のCNN構造において、超低レイテンシ(8タイムステップ)でANNオンパー精度のSNNを得ることができる。
しかし、TransformerベースのネットワークはCVと自然言語処理(NLP)の両方で高い精度を達成しているため、TransformerベースのSNNは依然としてANNのそれよりも低い精度を計算している。
本研究では,新しいANN-to-SNN変換手法であるSpikeZIP-TFを導入する。
SpikeZIP-TFは、CVデータセット(ImageNet)では83.82%、NLPデータセット(SST-2)では93.79%の精度を実現している。
コードはGitHubで入手できる。 https://github.com/Intelligent-Computing-Research-Group/SpikeZIP_transformer
Spiking neural network (SNN) has attracted great attention due to its characteristic of high efficiency and accuracy. Currently, the ANN-to-SNN conversion methods can obtain ANN on-par accuracy SNN with ultra-low latency (8 time-steps) in CNN structure on computer vision (CV) tasks. However, as Transformer-based networks have achieved prevailing precision on both CV and natural language processing (NLP), the Transformer-based SNNs are still encounting the lower accuracy w.r.t the ANN counterparts. In this work, we introduce a novel ANN-to-SNN conversion method called SpikeZIP-TF, where ANN and SNN are exactly equivalent, thus incurring no accuracy degradation. SpikeZIP-TF achieves 83.82% accuracy on CV dataset (ImageNet) and 93.79% accuracy on NLP dataset (SST-2), which are higher than SOTA Transformer-based SNNs. The code is available in GitHub: https://github.com/Intelligent-Computing-Research-Group/SpikeZIP_transformer | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# AD-H:階層型エージェントによる自律走行
AD-H: Autonomous Driving with Hierarchical Agents ( http://arxiv.org/abs/2406.03474v1 ) ライセンス: Link先を確認 | Zaibin Zhang, Shiyu Tang, Yuanhang Zhang, Talas Fu, Yifan Wang, Yang Liu, Dong Wang, Jing Shao, Lijun Wang, Huchuan Lu, | (参考訳) MLLM(Multimodal large language model)の印象的な機能のため、最近の研究はMLLMをベースとしたエージェントを大規模・動的環境における自律運転に活用することに焦点を当てている。
しかし、一般的なアプローチは、しばしば高レベルな命令を直接低レベルな車両制御信号に変換するが、これはMLLMの固有の言語生成パラダイムから逸脱し、その創発的な能力を完全に活用できない。
その結果、これらの手法の一般化性は、微調整時に使用される自律運転データセットによって非常に制限される。
この課題に対処するために,高レベルの命令と低レベルの制御信号と,高レベルの命令よりも細粒度で,制御信号よりも普遍的で説明しやすい中レベルの言語駆動命令とを接続し,そのギャップを効果的に埋めることを提案する。
我々は、高レベル推論のためのMLLMプランナと低レベル実行のための軽量コントローラを含む、階層型マルチエージェント駆動システムAD-Hを用いて、このアイデアを実装した。
階層設計はMLLMを低レベル制御信号の復号化から解放し、高レベル認識、推論、計画においてその創発的能力を完全に解放する。
アクション階層アノテーションを使った新しいデータセットを構築します。
包括的閉ループ評価は,提案したAD-Hシステムのいくつかの重要な利点を示す。
第一に、AD-Hは、訓練データセットで遭遇しないシナリオである、車両操作中に自己補正能力を示すことさえも、例外的な運転性能を達成する上で、最先端の手法よりも顕著に優れている。
第二に、AD-Hは長期の指導と新しい環境条件下での優れた一般化を示し、最先端の手法をはるかに上回っている。
私たちは、データとコードをhttps://github.com/zhangzaibin/AD-Hで公開します。
Due to the impressive capabilities of multimodal large language models (MLLMs), recent works have focused on employing MLLM-based agents for autonomous driving in large-scale and dynamic environments. However, prevalent approaches often directly translate high-level instructions into low-level vehicle control signals, which deviates from the inherent language generation paradigm of MLLMs and fails to fully harness their emergent powers. As a result, the generalizability of these methods is highly restricted by autonomous driving datasets used during fine-tuning. To tackle this challenge, we propose to connect high-level instructions and low-level control signals with mid-level language-driven commands, which are more fine-grained than high-level instructions but more universal and explainable than control signals, and thus can effectively bridge the gap in between. We implement this idea through a hierarchical multi-agent driving system named AD-H, including a MLLM planner for high-level reasoning and a lightweight controller for low-level execution. The hierarchical design liberates the MLLM from low-level control signal decoding and therefore fully releases their emergent capability in high-level perception, reasoning, and planning. We build a new dataset with action hierarchy annotations. Comprehensive closed-loop evaluations demonstrate several key advantages of our proposed AD-H system. First, AD-H can notably outperform state-of-the-art methods in achieving exceptional driving performance, even exhibiting self-correction capabilities during vehicle operation, a scenario not encountered in the training dataset. Second, AD-H demonstrates superior generalization under long-horizon instructions and novel environmental conditions, significantly surpassing current state-of-the-art methods. We will make our data and code publicly accessible at https://github.com/zhangzaibin/AD-H | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# データは喜びを呼び起こすか? トレーニング終了時のドメインアップサンプリングによるパフォーマンス向上
Does your data spark joy? Performance gains from domain upsampling at the end of training ( http://arxiv.org/abs/2406.03476v1 ) ライセンス: Link先を確認 | Cody Blakeney, Mansheej Paul, Brett W. Larsen, Sean Owen, Jonathan Frankle, | (参考訳) 大規模言語モデル(LLM)のためのデータセットの事前トレーニングは、より小さなドメイン固有のデータセットとともに、大量のCommonCrawl(CC)ウェブスクラップで構成されるトークン数兆に成長した。
大規模なFLOPスケールでのトレーニングが必要なため、これらのドメイン固有のデータセットがモデル機能に与える影響を理解することは、難しくて緊急なベンチマークに対する大きな変更を明らかにするために必要です。
事前学習データの試行コストが増大する中、一般的なウェブスクラップの多様性とドメイン固有データの情報密度の最適バランスをどう判断するか。
本研究では、訓練終了時にCCに対して、より小さなドメイン固有のデータセットをアップサンプリングして、困難なベンチマークのパフォーマンス向上を図る方法を示す。
この単純な手法により,MMLUでは最大6.90pp,GSM8Kでは8.26pp,HumanEvalでは6.17ppに向上できる。
トレーニングの5%から30%にドメインアップサンプリングの期間を短縮する実験を行い、10%から20%が汎用言語モデリング能力とターゲットベンチマークのトレードオフをナビゲートするのに最適であることがわかった。
トレーニングの最終段階において、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に評価するために、ドメインアップサンプリングも使用しています。
このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行と比較して、桁違いにコストが低下する。
Pretraining datasets for large language models (LLMs) have grown to trillions of tokens composed of large amounts of CommonCrawl (CC) web scrape along with smaller, domain-specific datasets. It is expensive to understand the impact of these domain-specific datasets on model capabilities as training at large FLOP scales is required to reveal significant changes to difficult and emergent benchmarks. Given the increasing cost of experimenting with pretraining data, how does one determine the optimal balance between the diversity in general web scrapes and the information density of domain specific data? In this work, we show how to leverage the smaller domain specific datasets by upsampling them relative to CC at the end of training to drive performance improvements on difficult benchmarks. This simple technique allows us to improve up to 6.90 pp on MMLU, 8.26 pp on GSM8K, and 6.17 pp on HumanEval relative to the base data mix for a 7B model trained for 1 trillion (T) tokens, thus rivaling Llama-2 (7B)$\unicode{x2014}$a model trained for twice as long. We experiment with ablating the duration of domain upsampling from 5% to 30% of training and find that 10% to 20% percent is optimal for navigating the tradeoff between general language modeling capabilities and targeted benchmarks. We also use domain upsampling to characterize at scale the utility of individual datasets for improving various benchmarks by removing them during this final phase of training. This tool opens up the ability to experiment with the impact of different pretraining datasets at scale, but at an order of magnitude lower cost compared to full pretraining runs. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# ファッションMNIST分類のための畳み込みニューラルネットワークと視覚変換器:文献レビュー
Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review ( http://arxiv.org/abs/2406.03478v1 ) ライセンス: Link先を確認 | Sonia Bbouzidi, Ghazala Hcini, Imen Jdey, Fadoua Drira, | (参考訳) 本稿では、画像分類分野における畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の比較分析について検討する。
Fashion MNISTデータセットを使用して、CNNとViTのユニークな属性を調べます。
CNNは画像分類の基盤として長い間使われてきたが、ViTは異なる入力データコンポーネントの微妙な重み付けを可能にする革新的な自己認識機構を導入している。
歴史的に、トランスフォーマーは主に自然言語処理(NLP)タスクと関連付けられてきた。
本研究の目的は,既存の文献の総合的な検討を通じて,画像分類の文脈において,VTとCNNの区別を明らかにすることである。
本分析では,両アーキテクチャを応用した最先端の方法論を精査し,その性能に影響を与える要因を同定する。
これらの要因は、データセットの特徴、画像次元、ターゲットクラスの数、ハードウェアインフラストラクチャ、およびそれぞれのトップ結果とともに、特定のアーキテクチャを含む。
我々の主要なゴールは、特定の条件とニーズを考慮して、電子商取引業界内のFashion MNISTデータセットの画像を分類するためのViTとCNNの最も適切なアーキテクチャを決定することです。
全体的なパフォーマンスを高めるために、これらの2つのアーキテクチャと異なる形式を組み合わせることの重要性を強調します。
これらのアーキテクチャを統一することで、独自の強みを生かして、Eコマースアプリケーションのより正確で信頼性の高いモデルを生み出すことができます。
CNNは局所パターンの認識に長けており、ViTは全体のコンテキストの把握に有効であり、それらの組み合わせは画像分類性能を高めるための有望な戦略である。
Our review explores the comparative analysis between Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) in the domain of image classification, with a particular focus on clothing classification within the e-commerce sector. Utilizing the Fashion MNIST dataset, we delve into the unique attributes of CNNs and ViTs. While CNNs have long been the cornerstone of image classification, ViTs introduce an innovative self-attention mechanism enabling nuanced weighting of different input data components. Historically, transformers have primarily been associated with Natural Language Processing (NLP) tasks. Through a comprehensive examination of existing literature, our aim is to unveil the distinctions between ViTs and CNNs in the context of image classification. Our analysis meticulously scrutinizes state-of-the-art methodologies employing both architectures, striving to identify the factors influencing their performance. These factors encompass dataset characteristics, image dimensions, the number of target classes, hardware infrastructure, and the specific architectures along with their respective top results. Our key goal is to determine the most appropriate architecture between ViT and CNN for classifying images in the Fashion MNIST dataset within the e-commerce industry, while taking into account specific conditions and needs. We highlight the importance of combining these two architectures with different forms to enhance overall performance. By uniting these architectures, we can take advantage of their unique strengths, which may lead to more precise and reliable models for e-commerce applications. CNNs are skilled at recognizing local patterns, while ViTs are effective at grasping overall context, making their combination a promising strategy for boosting image classification performance. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# MODABS:動的アスペクトに基づく要約のための多目的学習
MODABS: Multi-Objective Learning for Dynamic Aspect-Based Summarization ( http://arxiv.org/abs/2406.03479v1 ) ライセンス: Link先を確認 | Xiaobo Guo, Soroush Vosoughi, | (参考訳) オンラインコンテンツの急速な普及は、動的なアスペクトベースの要約が目立つ効果的な要約方法を必要とする。
既知のアスペクトの固定セットを前提とする従来のものとは異なり、このアプローチは入力テキストのさまざまな側面に適応する。
本稿では,Longformer-Encoder-Decoderを用いた新しい多目的学習フレームワークを提案する。
このフレームワークはアスペクト数予測を最適化し、各アスペクトに対する生成された要約と参照の相違を最小化し、アスペクト固有の要約間の相違を最大化する。
大規模な実験により,本手法は,単一アスペクトの要約品質を犠牲にすることなく,生成されたアスペクトと参照アスペクトの効果的なアライメントによって,3つの多様なデータセットのベースラインを著しく上回ることがわかった。
The rapid proliferation of online content necessitates effective summarization methods, among which dynamic aspect-based summarization stands out. Unlike its traditional counterpart, which assumes a fixed set of known aspects, this approach adapts to the varied aspects of the input text. We introduce a novel multi-objective learning framework employing a Longformer-Encoder-Decoder for this task. The framework optimizes aspect number prediction, minimizes disparity between generated and reference summaries for each aspect, and maximizes dissimilarity across aspect-specific summaries. Extensive experiments show our method significantly outperforms baselines on three diverse datasets, largely due to the effective alignment of generated and reference aspect counts without sacrificing single-aspect summarization quality. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# K-12教育における学習・指導へのアンパック的アプローチ--透明性・倫理・デザイン活動
Unpacking Approaches to Learning and Teaching Machine Learning in K-12 Education: Transparency, Ethics, and Design Activities ( http://arxiv.org/abs/2406.03480v1 ) ライセンス: Link先を確認 | Luis Morales-Navarro, Yasmin B. Kafai, | (参考訳) 本稿では、人工知能/機械学習(AI/ML)教育に関する既存の文献をレビューし、機械学習の学習と教育を概念化するための3つのアプローチを特定する。
その1つは、データ駆動アプローチであり、若者にデータセットを作成し、トレーニングし、テストする機会を提供することを強調している。
アルゴリズム駆動学習の第2のアプローチは、機械学習モデルの背後にある学習アルゴリズムやエンジンの動作に関する学習を優先するものだ。
さらに,前2つを統合する第3のアプローチの取り組みも確認する。
本レビューでは,(1)MLの異なる側面のガラスボックスとブラックボックス,(2)学習者の興味に基づいて構築し,アプリケーション設計の機会を提供する,(3)倫理と正義を統合する,といったアプローチに注目した。
議論では、現在のアプローチの課題と機会に対処し、学習活動の設計に向けた今後の方向性を提案する。
In this conceptual paper, we review existing literature on artificial intelligence/machine learning (AI/ML) education to identify three approaches to how learning and teaching ML could be conceptualized. One of them, a data-driven approach, emphasizes providing young people with opportunities to create data sets, train, and test models. A second approach, learning algorithm-driven, prioritizes learning about how the learning algorithms or engines behind how ML models work. In addition, we identify efforts within a third approach that integrates the previous two. In our review, we focus on how the approaches: (1) glassbox and blackbox different aspects of ML, (2) build on learner interests and provide opportunities for designing applications, (3) integrate ethics and justice. In the discussion, we address the challenges and opportunities of current approaches and suggest future directions for the design of learning activities. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# QJL:ゼロオーバーヘッドによるKVキャッシュ量子化のための1ビット量子化JL変換
QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead ( http://arxiv.org/abs/2406.03482v1 ) ライセンス: Link先を確認 | Amir Zandieh, Majid Daliri, Insu Han, | (参考訳) LLMをシリアル化するには、キーバリュー(KV)埋め込みをKVキャッシュに格納する必要があるため、大きなメモリを必要とする。
KVキャッシュを圧縮するための効果的なアプローチは量子化である。
しかし、従来の量子化法は、量子化定数(少なくともゼロ点とスケール)を1データブロックあたりの完全精度で保存する必要があるため、メモリオーバーヘッドがかなり大きい。
ブロックサイズによって、このオーバーヘッドは量子化数当たり1ビットまたは2ビットを追加することができる。
我々は、ジョンソン-リンデンシュトラウス変換(JL)とサインビット量子化を組み合わせた新しい量子化手法であるQJLを紹介する。
既存の方法とは対照的に、QJLは量子化定数を保存する必要をなくすことでメモリオーバーヘッドをなくす。
2つのベクトルの内積に対する非対称推定器を提案し、一方のベクトルにQJLを適用すると、他方のベクトルに量子化せずに標準のJL変換を適用すると、最小歪みの非バイアス推定器が得られることを示した。
我々は,QJLスケッチとそれに対応する内部積推定器の効率的な実装を開発し,軽量なCUDAカーネルを用いて最適化計算を行った。
様々なLLMおよびNLPタスクにまたがってKVキャッシュを3ビットに量子化すると、QJLはKVキャッシュのメモリ使用量を5倍以上に削減し、精度を損なうことなく高速な実行を実現している。
コードは \url{https://github.com/amirzandieh/QJL} で公開されている。
Serving LLMs requires substantial memory due to the storage requirements of Key-Value (KV) embeddings in the KV cache, which grows with sequence length. An effective approach to compress KV cache is quantization. However, traditional quantization methods face significant memory overhead due to the need to store quantization constants (at least a zero point and a scale) in full precision per data block. Depending on the block size, this overhead can add 1 or 2 bits per quantized number. We introduce QJL, a new quantization approach that consists of a Johnson-Lindenstrauss (JL) transform followed by sign-bit quantization. In contrast to existing methods, QJL eliminates memory overheads by removing the need for storing quantization constants. We propose an asymmetric estimator for the inner product of two vectors and demonstrate that applying QJL to one vector and a standard JL transform without quantization to the other provides an unbiased estimator with minimal distortion. We have developed an efficient implementation of the QJL sketch and its corresponding inner product estimator, incorporating a lightweight CUDA kernel for optimized computation. When applied across various LLMs and NLP tasks to quantize the KV cache to only 3 bits, QJL demonstrates a more than fivefold reduction in KV cache memory usage without compromising accuracy, all while achieving faster runtime. Codes are available at \url{https://github.com/amirzandieh/QJL}. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# ブラッグ散乱を用いた量子周波数変換におけるラマン効果
Raman effects in Quantum Frequency Conversion using Bragg Scattering ( http://arxiv.org/abs/2406.03484v1 ) ライセンス: Link先を確認 | Mathias Linde Holst Korsgaard, Jacob Gade Koefoed, Karsten Rottwitt, | (参考訳) ラマン相互作用の存在下での4波混合ブラッグ散乱によるファイバベース周波数変換を記述する量子力学モデルを提案する。
連続波ポンプの場合, 2次相関関数を特徴とする変換効率と光子統計量に対する閉形式式を求める。
パルスポンプの場合,グリーン関数に基づく高次モデルが導出され,スプリットステップ方式を用いた数値解法が提案される。
どちらの場合も、自発ラマン散乱によるノイズは、ポンプが量子場から30Hz未満であれば、この種の周波数変換に深刻な困難をもたらす。
しかし、この影響は繊維の冷却によって、クロスポーラライズされたポンプと反ストークス側で緩和することができる。
We present a quantum-mechanical model that describes fiber-based frequency conversion by four-wave-mixing Bragg scattering in the presence of Raman interactions. In the case of continuous-wave pumps we find closed-form expressions for the conversion efficiency and photon statistics, characterized by the second-order correlation function. For pulsed pumps, we derive a highly general model based on Green functions, and provide a numerical solution method using a split-step scheme. In both cases, we find that noise from spontaneous Raman scattering can pose a serious challenge to this type of frequency conversion if the pumps are less than 30 THz from the quantum fields. However, this impact can be mitigated with crosspolarized pumps and on the anti-Stokes side, through cooling of the fiber. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# ハイウェイバリュー・イテレーション・ネットワーク
Highway Value Iteration Networks ( http://arxiv.org/abs/2406.03485v1 ) ライセンス: Link先を確認 | Yuhui Wang, Weida Li, Francesco Faccio, Qingyuan Wu, Jürgen Schmidhuber, | (参考訳) 価値反復ネットワーク(VIN)は、価値反復アルゴリズムを近似した微分可能な「計画モジュール」を用いることで、計画タスクのエンドツーエンド学習を可能にする。
しかし、非常に深いVINの訓練が難しいため、長期的な計画は依然として課題である。
この問題に対処するため、VINの構造にハイウェイ値反復(長期クレジット割り当てを容易にするために設計された最近のアルゴリズム)を組み込む。
この改善は、VINの"計画モジュール"を3つの追加コンポーネントで強化する。
1) 多くの層にまたがる情報の流れを改善するために接続をスキップする「集約ゲート」
2 空間次元における情報及び勾配流の多様性を高めるための「探索モジュール」
3)安全な探査を確保するために設計された「フィルターゲート」。
結果として生じる新しいハイウェイVINは、標準的なバックプロパゲーションを使用して数百のレイヤーで効果的に訓練することができる。
数百の計画ステップを必要とする長期計画作業において、ディープハイウェイVINは伝統的なVINといくつかの先進的で非常に深いNNの両方を上回っている。
Value iteration networks (VINs) enable end-to-end learning for planning tasks by employing a differentiable "planning module" that approximates the value iteration algorithm. However, long-term planning remains a challenge because training very deep VINs is difficult. To address this problem, we embed highway value iteration -- a recent algorithm designed to facilitate long-term credit assignment -- into the structure of VINs. This improvement augments the "planning module" of the VIN with three additional components: 1) an "aggregate gate," which constructs skip connections to improve information flow across many layers; 2) an "exploration module," crafted to increase the diversity of information and gradient flow in spatial dimensions; 3) a "filter gate" designed to ensure safe exploration. The resulting novel highway VIN can be trained effectively with hundreds of layers using standard backpropagation. In long-term planning tasks requiring hundreds of planning steps, deep highway VINs outperform both traditional VINs and several advanced, very deep NNs. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# BIPED:ESL教育のための教育的インフォームド・チューターシステム
BIPED: Pedagogically Informed Tutoring System for ESL Education ( http://arxiv.org/abs/2406.03486v1 ) ライセンス: Link先を確認 | Soonwoo Kwon, Sojung Kim, Minju Park, Seunghyun Lee, Kyuseok Kim, | (参考訳) 大規模言語モデル(LLM)は、L2学習者に英語を教えるために、容易に利用でき、コスト効率のよい会話型知能学習システム(CITS)として機能する大きな可能性を秘めている。
しかし、既存のCITSは、単純な概念だけを教えるか、多様な学習戦略に取り組むために必要な教育的な深さを欠くように設計されている。
複雑な概念を教えることができるより教育的なCITSを開発するために,1対1の人対人間の英語学習インタラクションのバイリンガルPedagogically-informed Tutoring Dataset(BIPED)を構築した。
教師同士の交流の時間後分析を通じて,対話行為の語彙(教官行為34件,学生行為9件)を抽出し,収集したデータセットをさらに注釈付けする。
GPT-4とSOLAR-KOの2つのCITSモデルをそれぞれ実装した。
実装されたモデルが人間の教師のスタイルを再現するだけでなく、多様かつ文脈的に適切な教育戦略を採用することを実験的に実証した。
Large Language Models (LLMs) have a great potential to serve as readily available and cost-efficient Conversational Intelligent Tutoring Systems (CITS) for teaching L2 learners of English. Existing CITS, however, are designed to teach only simple concepts or lack the pedagogical depth necessary to address diverse learning strategies. To develop a more pedagogically informed CITS capable of teaching complex concepts, we construct a BIlingual PEDagogically-informed Tutoring Dataset (BIPED) of one-on-one, human-to-human English tutoring interactions. Through post-hoc analysis of the tutoring interactions, we come up with a lexicon of dialogue acts (34 tutor acts and 9 student acts), which we use to further annotate the collected dataset. Based on a two-step framework of first predicting the appropriate tutor act then generating the corresponding response, we implemented two CITS models using GPT-4 and SOLAR-KO, respectively. We experimentally demonstrate that the implemented models not only replicate the style of human teachers but also employ diverse and contextually appropriate pedagogical strategies. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# ダイアログ要約におけるLCMの挙動分析:現状の幻覚の傾向を解明する
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends ( http://arxiv.org/abs/2406.03487v1 ) ライセンス: Link先を確認 | Sanjana Ramprasad, Elisa Ferracane, Zachary C. Lipton, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、要約システムの能力を大幅に進歩させてきた。
しかし、彼らは幻覚に悩まされ続けている。
先行研究はニュース分野においてLLMを広く評価してきたが、対話要約のほとんどの評価はBARTに基づくモデルに焦点を合わせており、その忠実さに対する理解のギャップが残されている。
我々の研究は、対話要約のためのLLMの忠実さ、人間のアノテーションの使用、およびスパンレベルの不整合の特定と分類に焦点をあてるものである。
具体的には, GPT-4 と Alpaca-13B の2つの顕著な LLM に焦点を当てる。
我々の評価は、幻覚を構成するものに関する微妙な点を明らかにしている: LLMは、しばしば、会話の状況証拠によって支えられ、直接的証拠が欠如しており、古いモデルでは一般的でないパターンを生成する。
本稿では,これらのLCMの挙動を把握し,データセットを解放するために,"Circumstantial Inference"というカテゴリを作成した誤りの分類法を提案する。
分類学を用いて、LLMと古い微調整モデルとの行動的差異を比較した。
さらに,LLM要約に対する自動誤り検出手法の有効性を体系的に評価し,これらの誤りを検出するのに苦労していることを見出した。
この問題に対処するために,既存の指標,特に"Circumtial Inference"の精度を向上する,きめ細かいエラー検出のための2つのプロンプトベースのアプローチを提案する。
Recent advancements in large language models (LLMs) have considerably advanced the capabilities of summarization systems. However, they continue to face concerns about hallucinations. While prior work has evaluated LLMs extensively in news domains, most evaluation of dialogue summarization has focused on BART-based models, leaving a gap in our understanding of their faithfulness. Our work benchmarks the faithfulness of LLMs for dialogue summarization, using human annotations and focusing on identifying and categorizing span-level inconsistencies. Specifically, we focus on two prominent LLMs: GPT-4 and Alpaca-13B. Our evaluation reveals subtleties as to what constitutes a hallucination: LLMs often generate plausible inferences, supported by circumstantial evidence in the conversation, that lack direct evidence, a pattern that is less prevalent in older models. We propose a refined taxonomy of errors, coining the category of "Circumstantial Inference" to bucket these LLM behaviors and release the dataset. Using our taxonomy, we compare the behavioral differences between LLMs and older fine-tuned models. Additionally, we systematically assess the efficacy of automatic error detection methods on LLM summaries and find that they struggle to detect these nuanced errors. To address this, we introduce two prompt-based approaches for fine-grained error detection that outperform existing metrics, particularly for identifying "Circumstantial Inference." | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# ニューラルウォーク・オン・スフェールを用いたポアソン方程式の解法
Solving Poisson Equations using Neural Walk-on-Spheres ( http://arxiv.org/abs/2406.03494v1 ) ライセンス: Link先を確認 | Hong Chul Nam, Julius Berner, Anima Anandkumar, | (参考訳) 高次元ポアソン方程式の効率的な解法としてニューラルウォーク・オン・スフェース(NWoS)を提案する。
確率的表現とウォーク・オン・スフェール法を利用して、領域内の球面上のポアソン方程式の再帰解に基づいて、ニューラルネットワークに新たな損失を生じさせる。
得られた手法は高い並列化が可能であり、損失に対して空間勾配を必要としない。
本稿では、PINN、Deep Ritz法、および(後方)確率微分方程式に基づく競合する手法とを総合的に比較する。
難解で高次元の数値的な例では、NWoSの精度、速度、計算コストの優位性を実証する。
一般的に使われているPINNと比較して、我々の手法はメモリ使用量やエラーを桁違いに削減することができる。
さらに,PDE制約最適化と分子動力学の問題に対してNWoSを適用し,その効率性を示す。
We propose Neural Walk-on-Spheres (NWoS), a novel neural PDE solver for the efficient solution of high-dimensional Poisson equations. Leveraging stochastic representations and Walk-on-Spheres methods, we develop novel losses for neural networks based on the recursive solution of Poisson equations on spheres inside the domain. The resulting method is highly parallelizable and does not require spatial gradients for the loss. We provide a comprehensive comparison against competing methods based on PINNs, the Deep Ritz method, and (backward) stochastic differential equations. In several challenging, high-dimensional numerical examples, we demonstrate the superiority of NWoS in accuracy, speed, and computational costs. Compared to commonly used PINNs, our approach can reduce memory usage and errors by orders of magnitude. Furthermore, we apply NWoS to problems in PDE-constrained optimization and molecular dynamics to show its efficiency in practical applications. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# グロッキングモジュラー多項式
Grokking Modular Polynomials ( http://arxiv.org/abs/2406.03495v1 ) ライセンス: Link先を確認 | Darshil Doshi, Tianyu He, Aritra Das, Andrey Gromov, | (参考訳) ニューラルネットワークはモジュラー演算タスクのサブセットを簡単に学習するが、残りは一般化できない。
この制限は、アーキテクチャとトレーニング戦略の選択によって取り除かれたままである。
一方、モジュラ付加タスクを一般化する多層パーセプトロン(MLP)ネットワークの重み解析解が文献で知られている。
この作品では、
i) 解析解のクラスを拡張してモジュラー乗法とモジュラー加法を多くの項で含む。
さらに、これらのデータセットでトレーニングされた実ネットワークは、一般化(グロキング)に基づいて類似した解を学ぶことを示す。
(II) 任意のモジュラー多項式を一般化するネットワークを構築するためにこれらの「エキスパート」解を組み合わせる。
3) ニューラルネットワークのトレーニングにより, モジュラ多項式を学習可能・学習不能に分類し, クレームを裏付ける実験的な証拠を提供する。
Neural networks readily learn a subset of the modular arithmetic tasks, while failing to generalize on the rest. This limitation remains unmoved by the choice of architecture and training strategies. On the other hand, an analytical solution for the weights of Multi-layer Perceptron (MLP) networks that generalize on the modular addition task is known in the literature. In this work, we (i) extend the class of analytical solutions to include modular multiplication as well as modular addition with many terms. Additionally, we show that real networks trained on these datasets learn similar solutions upon generalization (grokking). (ii) We combine these "expert" solutions to construct networks that generalize on arbitrary modular polynomials. (iii) We hypothesize a classification of modular polynomials into learnable and non-learnable via neural networks training; and provide experimental evidence supporting our claims. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# Wings: テキストのみを必要とせずにマルチモーダル LLM を学習する
Wings: Learning Multimodal LLMs without Text-only Forgetting ( http://arxiv.org/abs/2406.03496v1 ) ライセンス: Link先を確認 | Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye, | (参考訳) MLLM(Multimodal large language model)は、訓練されたLLMで開始され、まず画像とテキストをアライメントし、次にマルチモーダルな混合入力で微調整する。
しかし、MLLMは文字のみの命令を破滅的に忘れてしまう。
本稿では,テキストのみの対話とマルチモーダル理解を両立させる新しいMLLMであるWingsを紹介する。
マルチモーダルインストラクションにおけるMLLMの注意分析は、テキストのみの忘れは、前画像から後画像テキストへの注意の変化と関連していることを示している。
そこから、注目のシフトを補うために、強化学習者として機能する余分なモジュールを構築します。
両サイドの"wings"のような補完的な視覚的およびテキスト的学習者は、各レイヤのアテンションブロック内で並列に接続される。
最初は、画像とテキストの入力は、視覚的要素に焦点を合わせながら、メインの注意と共に動作する視覚的学習者と一致している。
テキスト学習者は後に、視覚的およびテキスト学習者の出力をブレンドするために、注意に基づくルーティングと協調的に統合される。
学習者にとって高い効率を確保するために,ローランド残留注意(LoRRA)を設計する。
実験の結果、Wingsはテキストのみの問合せタスクと視覚的問合せタスクの両方において、MLLMのスケールが等しく優れていることが示された。
新たに構築されたInterleaved Image-Text (IIT)ベンチマークでは、Wingsはテキストのみのリッチからマルチモーダルリッチな質問応答タスクまで、優れたパフォーマンスを示している。
Multimodal large language models (MLLMs), initiated with a trained LLM, first align images with text and then fine-tune on multimodal mixed inputs. However, the MLLM catastrophically forgets the text-only instructions, which do not include images and can be addressed within the initial LLM. In this paper, we present Wings, a novel MLLM that excels in both text-only dialogues and multimodal comprehension. Analyzing MLLM attention in multimodal instructions reveals that text-only forgetting is related to the attention shifts from pre-image to post-image text. From that, we construct extra modules that act as the boosted learner to compensate for the attention shift. The complementary visual and textual learners, like "wings" on either side, are connected in parallel within each layer's attention block. Initially, image and text inputs are aligned with visual learners operating alongside the main attention, balancing focus on visual elements. Textual learners are later collaboratively integrated with attention-based routing to blend the outputs of the visual and textual learners. We design the Low-Rank Residual Attention (LoRRA) to guarantee high efficiency for learners. Our experimental results demonstrate that Wings outperforms equally-scaled MLLMs in both text-only and visual question-answering tasks. On a newly constructed Interleaved Image-Text (IIT) benchmark, Wings exhibits superior performance from text-only-rich to multimodal-rich question-answering tasks. | 翻訳日:2024-06-06 17:12:15 公開日:2024-06-05 |
# ハッセ対上の楕円曲線
Elliptic curves over Hasse pairs ( http://arxiv.org/abs/2406.03399v1 ) ライセンス: Link先を確認 | Eleni Agathocleous, Antoine Joux, Daniele Taufer, | (参考訳) 一対の別個の素数 $(q_1,q_2) = (p_1^{a_1},p_2^{a_2})$ ハース対が$|\sqrt{q_1}-\sqrt{q_2}| \leq 1$ であるとき、我々は一対の別個の素数 $(q_1,q_2) = (p_1^{a_1},p_2^{a_2})$ と呼ぶ。
そのようなペアに対して、$\mathbb{F}_{q_1}$ で定義される楕円曲線の同型類集合 $\mathcal{E}_1$ と$q_1$ で定義される楕円曲線の同型類集合 $\mathcal{E}_2$ と、$\mathbb{F}_{q_2}$ で定義される楕円曲線の同型類集合 $\mathcal{E}_2$ の関係を研究する。
両方の族 $\mathcal{E}_i$ が通常の楕円曲線のみを含むとき、それらの同型グラフは同型であることを示す。
超特異曲線が関与する場合、どの曲線がこれらの集合に属するかを記述する。
また、$q_i$'s が奇数であり、$\mathcal{E}_1 \cup \mathcal{E}_2 \neq \emptyset$ であれば、$\mathcal{E}_1 \cup \mathcal{E}_2$ は常に通常の楕円曲線を含む。
逆に、$q_1$ が偶数であれば、$\mathcal{E}_1 \cup \mathcal{E}_2$ は、フェルマーあるいはメルセンヌ素数の与えられたパワーであるとき、正確には超特異曲線のみを含むことができる。
奇数のハッセ対の場合、空の和 $\mathcal{E}_1 \cup \mathcal{E}_2$ の可能性を排除できないが、そのような場合に必要な条件を与える。
付録の中で、モレとソフォスは、連続素数間の差についてアンドリカの予想と結びつく解析的数論を用いて、ハッセ対がどれだけ頻繁に起こるかを考える。
We call a pair of distinct prime powers $(q_1,q_2) = (p_1^{a_1},p_2^{a_2})$ a Hasse pair if $|\sqrt{q_1}-\sqrt{q_2}| \leq 1$. For such pairs, we study the relation between the set $\mathcal{E}_1$ of isomorphism classes of elliptic curves defined over $\mathbb{F}_{q_1}$ with $q_2$ points, and the set $\mathcal{E}_2$ of isomorphism classes of elliptic curves over $\mathbb{F}_{q_2}$ with $q_1$ points. When both families $\mathcal{E}_i$ contain only ordinary elliptic curves, we prove that their isogeny graphs are isomorphic. When supersingular curves are involved, we describe which curves might belong to these sets. We also show that if both the $q_i$'s are odd and $\mathcal{E}_1 \cup \mathcal{E}_2 \neq \emptyset$, then $\mathcal{E}_1 \cup \mathcal{E}_2$ always contains an ordinary elliptic curve. Conversely, if $q_1$ is even, then $\mathcal{E}_1 \cup \mathcal{E}_2$ may contain only supersingular curves precisely when $q_2$ is a given power of a Fermat or a Mersenne prime. In the case of odd Hasse pairs, we could not rule out the possibility of an empty union $\mathcal{E}_1 \cup \mathcal{E}_2$, but we give necessary conditions for such a case to exist. In an appendix, Moree and Sofos consider how frequently Hasse pairs occur using analytic number theory, making a connection with Andrica's conjecture on the difference between consecutive primes. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# CROSSCON: 接続デバイスのためのクロスプラットフォームのオープンセキュリティスタック
CROSSCON: Cross-platform Open Security Stack for Connected Devices ( http://arxiv.org/abs/2406.03401v1 ) ライセンス: Link先を確認 | Bruno Crispo, Marco Roveri, Sandro Pinto, Tiago Gomes, Aljosa Pasic, Akos Milankovich, David Puron, Ainara Garcia, Ziga Putrle, Peter Ten, Malvina Catalano, | (参考訳) IoT(Internet of Things)組み込みデバイスの普及は2030年までに300億に達すると予測されている。
これは、異なるアーキテクチャやプラットフォームが急速に拡張されたためである。
これらの課題に対処するには、様々なデバイスを収容し、インターネットに効果的に接続する幅広いサービスを提供しながら、ユニファイドソリューションが必要である。
この白書では,ホライゾン・ヨーロッパが出資した3年間の研究開発活動であるCROSSCONを紹介する。
CROSSCONは、新しいオープンでモジュール化され、普遍的に互換性のあるIoTセキュリティスタックを開発することで、現在のIoT課題に対処することを目指している。
このスタックは、高度にポータブルでベンダーに依存しないように設計されており、ARMやRISC-Vなど、異質な組み込みハードウェアアーキテクチャを持つさまざまなデバイスにデプロイすることができる。
CROSSCONコンソーシアムは欧州8カ国にまたがる11のパートナーで構成されている。
このコンソーシアムには、4つの学術機関、1つの主要な産業パートナー、5つの中小企業が含まれる。
The proliferation of Internet of Things (IoT) embedded devices is expected to reach 30 billion by 2030, creating a dynamic landscape where diverse devices must coexist. This presents challenges due to the rapid expansion of different architectures and platforms. Addressing these challenges requires a unifi ed solution capable of accommodating various devices while offering a broad range of services to connect them to the Internet effectively. This white paper introduces CROSSCON, a three-year Research and Innovation Action funded under Horizon Europe. CROSSCON aims to tackle current IoT challenges by developing a new open, modular, and universally compatible IoT security stack. This stack is designed to be highly portable and vendor-independent, enabling its deployment across different devices with heterogeneous embedded hardware architectures, including ARM and RISC-V. The CROSSCON consortium consists of 11 partners spanning 8 European countries. This consortium includes 4 academic institutions, 1 major industrial partner, and 5 small to medium-sized enterprises (SMEs). | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# UnWave-Net:コンプトントモグラフィ画像再構成のためのアンロールウェーブレットネットワーク
UnWave-Net: Unrolled Wavelet Network for Compton Tomography Image Reconstruction ( http://arxiv.org/abs/2406.03413v1 ) ライセンス: Link先を確認 | Ishak Ayad, Cécilia Tarpau, Javier Cebeiro, Maï K. Nguyen, | (参考訳) CT(Computed tomography)は、身体の内部構造をスキャンする医療画像技術として広く用いられている。
コンプトン散乱トモグラフィー(CST)は、コンプトン物理を利用して複数の方向から情報を集めることで、従来のCTに代わる興味深い方法を示す。
CSTは、高感度、コンパクト性、完全に固定されたシステムなどいくつかの利点を持つ新しい画像撮影の機会を導入するが、CSTモデリングの数学的課題のため、画像再構成は未解決のままである。
対照的に、ディープ・アンローリング・ネットワークは、計算集約的な性質にもかかわらず、CT画像再構成の可能性を示している。
本研究では,CST画像再構成におけるアンローリングネットワークの効率について検討する。
トレーニングに要する重要な計算コストに対処するために,新しいウェーブレットベースの再構成ネットワークUnWave-Netを提案する。
このアーキテクチャは、ウェーブレットに基づく非局所正規化項を含み、画像内の長距離依存関係をキャプチャし、ウェーブレット変換のマルチスケールコンポーネントを強調する。
データ取得時に完全に静的な円形形状のCSTを用いて,UnWave-Netが特定の再構成式なしで画像再構成を容易にする手法について検討した。
提案手法は既存の手法よりも優れ,SSIMやPSNRの観点から最先端の性能を実現し,従来のアンローリングネットワークと比較して計算効率の向上を実現している。
Computed tomography (CT) is a widely used medical imaging technique to scan internal structures of a body, typically involving collimation and mechanical rotation. Compton scatter tomography (CST) presents an interesting alternative to conventional CT by leveraging Compton physics instead of collimation to gather information from multiple directions. While CST introduces new imaging opportunities with several advantages such as high sensitivity, compactness, and entirely fixed systems, image reconstruction remains an open problem due to the mathematical challenges of CST modeling. In contrast, deep unrolling networks have demonstrated potential in CT image reconstruction, despite their computationally intensive nature. In this study, we investigate the efficiency of unrolling networks for CST image reconstruction. To address the important computational cost required for training, we propose UnWave-Net, a novel unrolled wavelet-based reconstruction network. This architecture includes a non-local regularization term based on wavelets, which captures long-range dependencies within images and emphasizes the multi-scale components of the wavelet transform. We evaluate our approach using a CST of circular geometry which stays completely static during data acquisition, where UnWave-Net facilitates image reconstruction in the absence of a specific reconstruction formula. Our method outperforms existing approaches and achieves state-of-the-art performance in terms of SSIM and PSNR, and offers an improved computational efficiency compared to traditional unrolling networks. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# CoFie: コーディネートフィールドによるコンパクトなニューラルネットワーク表面表現の学習
CoFie: Learning Compact Neural Surface Representations with Coordinate Fields ( http://arxiv.org/abs/2406.03417v1 ) ライセンス: Link先を確認 | Hanwen Jiang, Haitao Yang, Georgios Pavlakos, Qixing Huang, | (参考訳) 本稿では,新しい局所的幾何認識型ニューラルサーフェス表現であるCoFieを紹介する。
CoFie は局所 SDF の二次近似による理論的解析によって動機付けられる。
局所形状は, 局所形状の正規方向と接方向で定義される座標フレームにおいて, 非常に圧縮性が高いことがわかった。
そこで,すべての局所形状の座標フレームを構成する座標場について紹介する。
座標場は最適化可能で、局所的な形状を世界座標フレームから整列した形状座標フレームに変換するのに用いられる。
局所的な形状の複雑さを大幅に減らし、MDPに基づく暗黙の表現の学習に役立てる。
さらに, 局所形状の表現性を高めるため, MLPに二次層を導入する。
CoFie は一般化可能な曲面表現である。
3D形状のキュレートされたセットでトレーニングされ、テスト中に新しい形状のインスタンスで作業する。
以前の作業で同じ量のパラメータを使用する場合、CoFieは、トレーニングカテゴリと見えない形状カテゴリの両方の新しい例で、シェイプエラーを48%と56%削減する。
さらに、CoFieは、パラメータが70%少ない場合に、以前の処理に匹敵するパフォーマンスを示す。
This paper introduces CoFie, a novel local geometry-aware neural surface representation. CoFie is motivated by the theoretical analysis of local SDFs with quadratic approximation. We find that local shapes are highly compressive in an aligned coordinate frame defined by the normal and tangent directions of local shapes. Accordingly, we introduce Coordinate Field, which is a composition of coordinate frames of all local shapes. The Coordinate Field is optimizable and is used to transform the local shapes from the world coordinate frame to the aligned shape coordinate frame. It largely reduces the complexity of local shapes and benefits the learning of MLP-based implicit representations. Moreover, we introduce quadratic layers into the MLP to enhance expressiveness concerning local shape geometry. CoFie is a generalizable surface representation. It is trained on a curated set of 3D shapes and works on novel shape instances during testing. When using the same amount of parameters with prior works, CoFie reduces the shape error by 48% and 56% on novel instances of both training and unseen shape categories. Moreover, CoFie demonstrates comparable performance to prior works when using only 70% fewer parameters. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# データ駆動型パスワード推薦システムDPARによるユーザパスワードの改善
Improving Users' Passwords with DPAR: a Data-driven Password Recommendation System ( http://arxiv.org/abs/2406.03423v1 ) ライセンス: Link先を確認 | Assaf Morag, Liron David, Eran Toch, Avishai Wool, | (参考訳) パスワードはオンラインで主要な認証方法だが、パスワードのポリシーやメーターがなくても、強いパスワードを作るのは難しく、記憶に残るパスワードを作るのが難しい。
本稿では,9500万パスワードのデータセットに基づくデータ駆動型PAssword RecommendationシステムDPARを提案する。
DPARは、ユーザの指定したパスワードを分析し、元のパスワードと同様の保存性を維持しながら、より強くする特定の変更を提案することで、パスワードレコメンデーションを生成する。
提案手法は,生成したパスワードの記憶可能性(n=317)の検証と,パスワードメーターに対するDPAR勧告の強度とリコール(n=441)の評価である。
ランダム化実験では、DPARは平均34.8ビットのパスワード強度を増大させ、パスワードをリコールする能力に大きな影響を与えなかった。
さらに、36.6%のユーザーがDPARのレコメンデーションを口頭で受け入れた。
本稿では,レコメンデーションシステムによるパスワード管理の強化に関する知見とその意義について論じる。
Passwords are the primary authentication method online, but even with password policies and meters, users still find it hard to create strong and memorable passwords. In this paper, we propose DPAR: a Data-driven PAssword Recommendation system based on a dataset of 905 million leaked passwords. DPAR generates password recommendations by analyzing the user's given password and suggesting specific tweaks that would make it stronger while still keeping it memorable and similar to the original password. We conducted two studies to evaluate our approach: verifying the memorability of generated passwords (n=317), and evaluating the strength and recall of DPAR recommendations against password meters (n=441). In a randomized experiment, we show that DPAR increased password strength by 34.8 bits on average and did not significantly affect the ability to recall their password. Furthermore, 36.6% of users accepted DPAR's recommendations verbatim. We discuss our findings and their implications for enhancing password management with recommendation systems. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and WikipediaEdits
HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits ( http://arxiv.org/abs/2406.03428v1 ) ライセンス: Link先を確認 | Tim Franzmeyer, Aleksandar Shtedritski, Samuel Albanie, Philip Torr, João F. Henriques, Jakob N. Foerster, | (参考訳) ベンチマークは機械学習の進歩を促進するのに不可欠である。
現実世界のタスクにおけるLLM機能をよりよく理解することは、安全な開発に不可欠である。
実世界のタスクからのデータ収集は困難であり、静的な評価データの公開はテストデータの汚染とベンチマークオーバーフィッティングをもたらし、定期的に新しい評価データを生成するのは面倒であり、時間的に一貫性のない結果をもたらす可能性がある。
我々は,本質的な動機付けを持つ人間ラベルによる実世界のデータの連続的ストリームに基づくHelloFreshを紹介する。
X(元Twitter)コミュニティのノートやウィキペディアページの編集による最近の出来事をカバーし、テストデータの汚染やベンチマーク過適合のリスクを軽減している。
どんなXユーザでも、誤解を招く投稿(以前のつぶやき)に追加のコンテキストを追加するXノートを提案できる。
同様に、ウィキペディアはコミュニティベースのコンセンサスに依存しており、ユーザーは記事の編集や他のユーザーによる編集を戻すことができる。
Xノートが役に立つか、ウィキペディアの編集が受け入れられるべきかどうかを検証することは、ウェブを照会することで基礎づけを必要とする難しい作業である。
我々は、シンプルなWeb検索アクセスで補足された最先端のLLMをバックテストし、HelloFreshが時間的に一貫したランキングをもたらすことを発見した。
HelloFreshの継続的な評価を可能にするため、パブリックなリーダーボードと定期的に更新された評価データをhttps://tinyurl.com/hello-fresh-LLM.comでホストします。
Benchmarks have been essential for driving progress in machine learning. A better understanding of LLM capabilities on real world tasks is vital for safe development. Designing adequate LLM benchmarks is challenging: Data from real-world tasks is hard to collect, public availability of static evaluation data results in test data contamination and benchmark overfitting, and periodically generating new evaluation data is tedious and may result in temporally inconsistent results. We introduce HelloFresh, based on continuous streams of real-world data generated by intrinsically motivated human labelers. It covers recent events from X (formerly Twitter) community notes and edits of Wikipedia pages, mitigating the risk of test data contamination and benchmark overfitting. Any X user can propose an X note to add additional context to a misleading post (formerly tweet); if the community classifies it as helpful, it is shown with the post. Similarly, Wikipedia relies on community-based consensus, allowing users to edit articles or revert edits made by other users. Verifying whether an X note is helpful or whether a Wikipedia edit should be accepted are hard tasks that require grounding by querying the web. We backtest state-of-the-art LLMs supplemented with simple web search access and find that HelloFresh yields a temporally consistent ranking. To enable continuous evaluation on HelloFresh, we host a public leaderboard and periodically updated evaluation data at https://tinyurl.com/hello-fresh-LLM. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# 計算効率の良い時代:医用画像解析における状態空間モデルの包括的調査
Computation-Efficient Era: A Comprehensive Survey of State Space Models in Medical Image Analysis ( http://arxiv.org/abs/2406.03430v1 ) ライセンス: Link先を確認 | Moein Heidari, Sina Ghorbani Kolahi, Sanaz Karimijafarbigloo, Bobby Azad, Afshin Bozorgpour, Soheila Hatami, Reza Azad, Ali Diba, Ulas Bagci, Dorit Merhof, Ilker Hacihaliloglu, | (参考訳) シーケンスモデリングは様々な領域において重要な役割を担い、リカレントニューラルネットワークは歴史的にこれらのタスクを実行する主要な方法である。
しかし、トランスフォーマーの出現は、優れた性能のため、このパラダイムを変更した。
これらの進歩に基づいて、トランスフォーマーはCNNを視覚表現を学ぶための2つの主要な基礎モデルとして結合した。
しかし、変換器は、その注意機構の複雑さによって妨げられ、CNNは、大域的受容場と動的重み付けを欠いている。
状態空間モデル(SSM)、特に選択機構とハードウェア対応アーキテクチャを備えた \textit{\textbf{Mamba}} モデルは、最近、逐次モデリングと視覚表現学習において大きな関心を集めており、無限のコンテキスト長を提供し、入力シーケンスにおける線形複雑性を維持するために、トランスフォーマーの優位性に挑戦している。
コンピュータービジョンの進歩に乗じて、医療画像はMambaモデルによる新しい時代を告げた。
今回の調査は、医療画像におけるMambaモデルの百科事典的レビューを提供することを目的としています。
具体的には、マンバアーキテクチャや、この文脈におけるシーケンスモデリングパラダイムの代替などを含む、SSMの基礎を形成する包括的な理論的レビューから始める。
次に,医療分野におけるマンバモデルの構造的分類を提案し,その応用,画像モダリティ,対象臓器に基づく多様な分類手法を提案する。
最後に、重要な課題を要約し、医学領域におけるSSMの様々な研究方向性について議論し、この分野の要求を満たすためのいくつかの方向性を提案する。
さらに、この論文で議論された研究と、GitHubリポジトリのオープンソース実装をまとめました。
Sequence modeling plays a vital role across various domains, with recurrent neural networks being historically the predominant method of performing these tasks. However, the emergence of transformers has altered this paradigm due to their superior performance. Built upon these advances, transformers have conjoined CNNs as two leading foundational models for learning visual representations. However, transformers are hindered by the $\mathcal{O}(N^2)$ complexity of their attention mechanisms, while CNNs lack global receptive fields and dynamic weight allocation. State Space Models (SSMs), specifically the \textit{\textbf{Mamba}} model with selection mechanisms and hardware-aware architecture, have garnered immense interest lately in sequential modeling and visual representation learning, challenging the dominance of transformers by providing infinite context lengths and offering substantial efficiency maintaining linear complexity in the input sequence. Capitalizing on the advances in computer vision, medical imaging has heralded a new epoch with Mamba models. Intending to help researchers navigate the surge, this survey seeks to offer an encyclopedic review of Mamba models in medical imaging. Specifically, we start with a comprehensive theoretical review forming the basis of SSMs, including Mamba architecture and its alternatives for sequence modeling paradigms in this context. Next, we offer a structured classification of Mamba models in the medical field and introduce a diverse categorization scheme based on their application, imaging modalities, and targeted organs. Finally, we summarize key challenges, discuss different future research directions of the SSMs in the medical domain, and propose several directions to fulfill the demands of this field. In addition, we have compiled the studies discussed in this paper along with their open-source implementations on our GitHub repository. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# 潜在変数ネットワークモデルのための伝達学習
Transfer Learning for Latent Variable Network Models ( http://arxiv.org/abs/2406.03437v1 ) ライセンス: Link先を確認 | Akhil Jalan, Arya Mazumdar, Soumendu Sundar Mukherjee, Purnamrita Sarkar, | (参考訳) 潜在変数ネットワークモデルにおける推定のための伝達学習について検討する。
我々の設定では、潜在変数が与えられた条件付きエッジ確率行列は、ソースに対して$P$、ターゲットに対して$Q$で表される。
1)$Q$のノードの$o(1)$の分数で誘導されるサブグラフからのエッジデータと、(2)$P$のすべてのエッジデータである。
ソース$P$がターゲット$Q$とは無関係であれば、推定誤差は$\Omega(1)$でなければならない。
しかし、潜在変数が共有されている場合、エラーを解消できることを示す。
適切に定義されたグラフ距離の順序付けを利用する効率的なアルゴリズムを提案する。
我々のアルゴリズムは、$o(1)$エラーを達成し、ソースやターゲットネットワーク上でパラメトリック形式を仮定しない。
次に、確率ブロックモデルの特定の場合において、ミニマックス下界を証明し、単純なアルゴリズムがこの速度を達成することを示す。
最後に、実世界およびシミュレーショングラフ転送問題におけるアルゴリズムの使用を実証的に示す。
We study transfer learning for estimation in latent variable network models. In our setting, the conditional edge probability matrices given the latent variables are represented by $P$ for the source and $Q$ for the target. We wish to estimate $Q$ given two kinds of data: (1) edge data from a subgraph induced by an $o(1)$ fraction of the nodes of $Q$, and (2) edge data from all of $P$. If the source $P$ has no relation to the target $Q$, the estimation error must be $\Omega(1)$. However, we show that if the latent variables are shared, then vanishing error is possible. We give an efficient algorithm that utilizes the ordering of a suitably defined graph distance. Our algorithm achieves $o(1)$ error and does not assume a parametric form on the source or target networks. Next, for the specific case of Stochastic Block Models we prove a minimax lower bound and show that a simple algorithm achieves this rate. Finally, we empirically demonstrate our algorithm's use on real-world and simulated graph transfer problems. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# 分布逆損失
Distributional Adversarial Loss ( http://arxiv.org/abs/2406.03458v1 ) ライセンス: Link先を確認 | Saba Ahmadi, Siddharth Bhandari, Avrim Blum, Chen Dan, Prabhav Jain, | (参考訳) 敵の攻撃に対して防衛する上での大きな課題は、単純な敵さえも実行可能な攻撃の巨大な空間である。
これを解決するために、先行研究は、この空間の規模を効果的に縮小する様々な防衛法を提案してきた。
これにはランダムな平滑化手法が含まれており、敵の影響を除去するために入力にノイズを加える。
もう一つのアプローチは入力の離散化であり、敵の可能なアクションの数を制限する。
これら2つのアプローチを動機として、分散対向損失と呼ばれる新たな対向損失の概念を導入し、これらの2つの形態を効果的に弱めることを可能にした。
この概念では、各元の例について、許容される逆摂動集合は分布の族(例えば、滑らかな手順によって誘導される)であり、各例に対する逆損失は、関連するすべての分布の最大損失である。
目標は、全体的な敵の損失を最小限にすることである。
仮説クラスのVC次元と各入力に関連付けられた許容逆分布の集合の大きさから、我々の逆損失の概念の一般化保証を示す。
また、上記の手法において、敵攻撃に対する堅牢性を達成する上でのランダム性の役割についても検討する。
本稿では,ランダム化分類器の対向攻撃に対する頑健さを抑える一般的なデランドマイズ手法を示す。
我々は,Random Projection Filters framework of \cite{dong2023adversarial} をデランドマイズすることによって,実験的な手法の相関付けを行う。
また,本手法は,様々な敵攻撃に対するモデルの堅牢性も向上させる。
A major challenge in defending against adversarial attacks is the enormous space of possible attacks that even a simple adversary might perform. To address this, prior work has proposed a variety of defenses that effectively reduce the size of this space. These include randomized smoothing methods that add noise to the input to take away some of the adversary's impact. Another approach is input discretization which limits the adversary's possible number of actions. Motivated by these two approaches, we introduce a new notion of adversarial loss which we call distributional adversarial loss, to unify these two forms of effectively weakening an adversary. In this notion, we assume for each original example, the allowed adversarial perturbation set is a family of distributions (e.g., induced by a smoothing procedure), and the adversarial loss over each example is the maximum loss over all the associated distributions. The goal is to minimize the overall adversarial loss. We show generalization guarantees for our notion of adversarial loss in terms of the VC-dimension of the hypothesis class and the size of the set of allowed adversarial distributions associated with each input. We also investigate the role of randomness in achieving robustness against adversarial attacks in the methods described above. We show a general derandomization technique that preserves the extent of a randomized classifier's robustness against adversarial attacks. We corroborate the procedure experimentally via derandomizing the Random Projection Filters framework of \cite{dong2023adversarial}. Our procedure also improves the robustness of the model against various adversarial attacks. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# PESQetarian:Goodhartの音声強調法との関連について
The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement ( http://arxiv.org/abs/2406.03460v1 ) ライセンス: Link先を確認 | Danilo de Oliveira, Simon Welker, Julius Richter, Timo Gerkmann, | (参考訳) 改良された音声強調モデルを得るために、研究者は特定の測定基準に従って、性能の向上に重点を置くことが多い。
しかし、損失関数において同じ計量がモデル最適化に使用される場合、与えられた計量が見ることができない側面に有害である可能性がある。
本研究の目的は,評価に用いられる指標に対して,音声強調モデルに過度に適合するリスクを説明することである。
そこで本研究では,広く使用されているPESQ尺度を利用した拡張モデルを提案する。
我々の「PESQetarian」モデルは、VB-DMD上で3.82 PESQを達成できるが、聴取実験では極めて低得点である。
得られた3.82のPSSQ値は、VB-DMDベンチマークで「最先端」のPSSQ性能を示すが、我々の例では、計量をw.r.t.に最適化すると、同じ計量上で孤立した評価が誤解を招く可能性がある。
代わりに、他のメトリクスを評価に含め、その結果のパフォーマンス予測をリスニングによって確認する必要があります。
To obtain improved speech enhancement models, researchers often focus on increasing performance according to specific instrumental metrics. However, when the same metric is used in a loss function to optimize models, it may be detrimental to aspects that the given metric does not see. The goal of this paper is to illustrate the risk of overfitting a speech enhancement model to the metric used for evaluation. For this, we introduce enhancement models that exploit the widely used PESQ measure. Our "PESQetarian" model achieves 3.82 PESQ on VB-DMD while scoring very poorly in a listening experiment. While the obtained PESQ value of 3.82 would imply "state-of-the-art" PESQ-performance on the VB-DMD benchmark, our examples show that when optimizing w.r.t. a metric, an isolated evaluation on the same metric may be misleading. Instead, other metrics should be included in the evaluation and the resulting performance predictions should be confirmed by listening. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# 偏光波面ライダー:偏光波面からの大規模シーン再構成を学習する
Polarization Wavefront Lidar: Learning Large Scene Reconstruction from Polarized Wavefronts ( http://arxiv.org/abs/2406.03461v1 ) ライセンス: Link先を確認 | Dominik Scheuble, Chenyang Lei, Seung-Hwan Baek, Mario Bijelic, Felix Heide, | (参考訳) ライダーは3D視覚、特に大規模な屋外シナリオや自律運転において、基礎的なモダリティとなっている。
従来のライダーセンサーは、レーザーパルスを現場に放出し、反射の時間(ToF)を測定することで、精度の高い距離情報を提供することができる。
しかし、表面配向や材料特性に依存する受信光の偏光は、通常は考慮されない。
そのため、偏光モードは、距離測定以上のシーン再構成を改善する可能性がある。
本研究では、放射光と受信光の偏光を変調する新しい長距離偏光波面ライダーセンサ(PolLidar)を提案する。
従来のライダーセンサーとは別に、PolLidarは時間分解された偏波面へのアクセスを可能にする。
我々は、新しい学習的再構成手法を用いて、屋外シナリオにおける正常、距離、材料特性を推定するために偏波波面を利用する。
提案手法を訓練し,評価するために,2組の生ライダーデータ,接地真実距離,および通常の地図を用いたシミュレーションおよび実世界の長距離データセットを導入する。
提案手法は, 従来の形状偏極法 (SfP) やToF法と比較して, 平均角誤差 53 %, 平均絶対誤差 41 % で正規化と距離再構成を改善する。
コードとデータはhttps://light.princeton.edu/pollidar.comで公開されている。
Lidar has become a cornerstone sensing modality for 3D vision, especially for large outdoor scenarios and autonomous driving. Conventional lidar sensors are capable of providing centimeter-accurate distance information by emitting laser pulses into a scene and measuring the time-of-flight (ToF) of the reflection. However, the polarization of the received light that depends on the surface orientation and material properties is usually not considered. As such, the polarization modality has the potential to improve scene reconstruction beyond distance measurements. In this work, we introduce a novel long-range polarization wavefront lidar sensor (PolLidar) that modulates the polarization of the emitted and received light. Departing from conventional lidar sensors, PolLidar allows access to the raw time-resolved polarimetric wavefronts. We leverage polarimetric wavefronts to estimate normals, distance, and material properties in outdoor scenarios with a novel learned reconstruction method. To train and evaluate the method, we introduce a simulated and real-world long-range dataset with paired raw lidar data, ground truth distance, and normal maps. We find that the proposed method improves normal and distance reconstruction by 53\% mean angular error and 41\% mean absolute error compared to existing shape-from-polarization (SfP) and ToF methods. Code and data are open-sourced at https://light.princeton.edu/pollidar. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# 補助原子量を用いた無無視欠測データに対するガウスコピュラモデル
Gaussian Copula Models for Nonignorable Missing Data Using Auxiliary Marginal Quantiles ( http://arxiv.org/abs/2406.03463v1 ) ライセンス: Link先を確認 | Joseph Feldman, Jerome P. Reiter, Daniel R. Kowal, | (参考訳) 本稿では,ガウスコプラの下での非無視的欠落データのモデル化と計算手法を提案する。
アナリストは、例えば、外部データソースからの情報を反映したり、専門家の意見を引き出すなど、研究変数の限界分布の量子化のセットを仮定する。
これらの量子が正確に特定されると、コプラ相関を一貫して推定し、無視できないデータの存在下で複数の計算を行うことができることを示す。
本研究では,計算効率のよい計算アルゴリズムを開発し,複数のインプット推論のシミュレーション研究で評価する。
本モデルを用いて,ノースカロライナの170,000人の学生を対象に,鉛暴露レベルとエンドツーエンドテストスコアの関係を分析した。
これらの測定値が無作為に失われることはなく、高鉛曝露の危険と判断される子供たちは、より多く測定される。
本研究は, 疾病予防管理センターの全国統計データを用いて, 鉛曝露用可塑性辺縁量計を構築した。
完全例と無作為分析の欠如は,特定の変数とエンドツーエンドテストスコアの関係を過小評価しているように思われる。
We present an approach for modeling and imputation of nonignorable missing data under Gaussian copulas. The analyst posits a set of quantiles of the marginal distributions of the study variables, for example, reflecting information from external data sources or elicited expert opinion. When these quantiles are accurately specified, we prove it is possible to consistently estimate the copula correlation and perform multiple imputation in the presence of nonignorable missing data. We develop algorithms for estimation and imputation that are computationally efficient, which we evaluate in simulation studies of multiple imputation inferences. We apply the model to analyze associations between lead exposure levels and end-of-grade test scores for 170,000 students in North Carolina. These measurements are not missing at random, as children deemed at-risk for high lead exposure are more likely to be measured. We construct plausible marginal quantiles for lead exposure using national statistics provided by the Centers for Disease Control and Prevention. Complete cases and missing at random analyses appear to underestimate the relationships between certain variables and end-of-grade test scores, while multiple imputation inferences under our model support stronger adverse associations between lead exposure and educational outcomes. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# グラフニューラルネットワークにおけるノードワイズフィルタリング : エキスパートアプローチの混合
Node-wise Filtering in Graph Neural Networks: A Mixture of Experts Approach ( http://arxiv.org/abs/2406.03464v1 ) ライセンス: Link先を確認 | Haoyu Han, Juanhui Li, Wei Huang, Xianfeng Tang, Hanqing Lu, Chen Luo, Hui Liu, Jiliang Tang, | (参考訳) グラフニューラルネットワーク(GNN)は、多様なグラフ構造パターンをまたいだノード分類タスクに非常に効果的であることが証明されている。
伝統的に、GNNは均一なグローバルフィルタ(通常、ホモフィルグラフのローパスフィルタとヘテロフィルグラフのハイパスフィルタ)を用いる。
しかし、実世界のグラフは、しばしばホモ友愛的なパターンとヘテロ親愛的なパターンの複雑な混合を示し、単一のグローバルフィルタアプローチが最適である。
本研究では,あるパターンに最適化されたグローバルフィルタが,異なるパターンを持つノードの性能に悪影響を及ぼすことを示す。
そこで本研究では,異なるノードに対する適切なフィルタを適応的に選択するために,専門家の混在を利用した新しいGNNフレームワークNode-MoEを提案する。
大規模な実験は、ホモフィルグラフとヘテロフィルグラフの両方において、Node-MoEの有効性を示す。
Graph Neural Networks (GNNs) have proven to be highly effective for node classification tasks across diverse graph structural patterns. Traditionally, GNNs employ a uniform global filter, typically a low-pass filter for homophilic graphs and a high-pass filter for heterophilic graphs. However, real-world graphs often exhibit a complex mix of homophilic and heterophilic patterns, rendering a single global filter approach suboptimal. In this work, we theoretically demonstrate that a global filter optimized for one pattern can adversely affect performance on nodes with differing patterns. To address this, we introduce a novel GNN framework Node-MoE that utilizes a mixture of experts to adaptively select the appropriate filters for different nodes. Extensive experiments demonstrate the effectiveness of Node-MoE on both homophilic and heterophilic graphs. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# 物理インフォームド深部平衡モデルを用いた微分方程式の解法
Solving Differential Equations using Physics-Informed Deep Equilibrium Models ( http://arxiv.org/abs/2406.03472v1 ) ライセンス: Link先を確認 | Bruno Machado Pacheco, Eduardo Camponogara, | (参考訳) 本稿では、常微分方程式(ODE)の初期値問題(IVP)を解くための物理インフォームド・ディープ平衡モデル(PIDEQ)を提案する。
近年のDeep equilibrium Model (DEQ) と物理インフォームドニューラルネットワーク (PINN) の進歩を活用して、PIDEQはDQの暗黙的な出力表現と物理インフォームドトレーニング技術を組み合わせる。
我々は、Van der Pol発振器をベンチマーク問題としてPIDEQを検証し、IPPの解法における効率と有効性を実証した。
我々の分析では、PIDEQ性能を最適化するための重要なハイパーパラメータについて考察する。
この研究は、深層学習と物理に基づくモデリングをブリッジすることで、IVPを解くための計算技術を進歩させ、科学計算と工学の応用に寄与する。
This paper introduces Physics-Informed Deep Equilibrium Models (PIDEQs) for solving initial value problems (IVPs) of ordinary differential equations (ODEs). Leveraging recent advancements in deep equilibrium models (DEQs) and physics-informed neural networks (PINNs), PIDEQs combine the implicit output representation of DEQs with physics-informed training techniques. We validate PIDEQs using the Van der Pol oscillator as a benchmark problem, demonstrating their efficiency and effectiveness in solving IVPs. Our analysis includes key hyperparameter considerations for optimizing PIDEQ performance. By bridging deep learning and physics-based modeling, this work advances computational techniques for solving IVPs, with implications for scientific computing and engineering applications. | 翻訳日:2024-06-06 17:02:29 公開日:2024-06-05 |
# エンコーダ埋め込みによる相乗的グラフ融合
Synergistic Graph Fusion via Encoder Embedding ( http://arxiv.org/abs/2303.18051v3 ) ライセンス: Link先を確認 | Cencheng Shen, Carey E. Priebe, Jonathan Larson, Ha Trinh, | (参考訳) 本稿では,共有頂点集合を用いたマルチグラフ埋め込みのためのグラフ融合埋め込み法を提案する。
教師付き学習の枠組みの下では, 十分に大きな頂点サイズに対して, 頂点分類の精度は, 追加グラフの導入によって一貫した恩恵を受けるという, 顕著かつ極めて望ましい相乗効果を示す。
本手法の数学的基礎は, 組込みの漸近収束, 漸近最適分類のための十分な条件, 頂点分類に対する相乗効果の証明を含む。
我々の総合シミュレーションと実データ実験は、異なる情報源からの複数のグラフに対する顕著な相乗効果を示すとともに、提案手法の有効性を裏付ける説得力のある証拠を提供する。
In this paper, we introduce a method called graph fusion embedding, designed for multi-graph embedding with shared vertex sets. Under the framework of supervised learning, our method exhibits a remarkable and highly desirable synergistic effect: for sufficiently large vertex size, the accuracy of vertex classification consistently benefits from the incorporation of additional graphs. We establish the mathematical foundation for the method, including the asymptotic convergence of the embedding, a sufficient condition for asymptotic optimal classification, and the proof of the synergistic effect for vertex classification. Our comprehensive simulations and real data experiments provide compelling evidence supporting the effectiveness of our proposed method, showcasing the pronounced synergistic effect for multiple graphs from disparate sources. | 翻訳日:2024-06-06 14:46:07 公開日:2024-06-05 |
# エンコーダ埋め込みによる相乗的グラフ融合
Synergistic Graph Fusion via Encoder Embedding ( http://arxiv.org/abs/2303.18051v4 ) ライセンス: Link先を確認 | Cencheng Shen, Carey E. Priebe, Jonathan Larson, Ha Trinh, | (参考訳) 本稿では,共有頂点集合を用いたマルチグラフ埋め込みのためのグラフ融合埋め込み法を提案する。
教師付き学習の枠組みの下では, 十分に大きな頂点サイズに対して, 頂点分類の精度は, 追加グラフの導入によって一貫した恩恵を受けるという, 顕著かつ極めて望ましい相乗効果を示す。
本手法の数学的基礎は, 組込みの漸近収束, 漸近最適分類のための十分な条件, 頂点分類に対する相乗効果の証明を含む。
我々の総合シミュレーションと実データ実験は、異なる情報源からの複数のグラフに対する顕著な相乗効果を示すとともに、提案手法の有効性を裏付ける説得力のある証拠を提供する。
In this paper, we introduce a method called graph fusion embedding, designed for multi-graph embedding with shared vertex sets. Under the framework of supervised learning, our method exhibits a remarkable and highly desirable synergistic effect: for sufficiently large vertex size, the accuracy of vertex classification consistently benefits from the incorporation of additional graphs. We establish the mathematical foundation for the method, including the asymptotic convergence of the embedding, a sufficient condition for asymptotic optimal classification, and the proof of the synergistic effect for vertex classification. Our comprehensive simulations and real data experiments provide compelling evidence supporting the effectiveness of our proposed method, showcasing the pronounced synergistic effect for multiple graphs from disparate sources. | 翻訳日:2024-06-06 14:46:07 公開日:2024-06-05 |
# 遺伝的プログラミングによる変成関係の自動生成
Automatically Generating Metamorphic Relations via Genetic Programming ( http://arxiv.org/abs/2312.15302v2 ) ライセンス: Link先を確認 | Jon Ayerdi, Valerio Terragni, Gunel Jahangirova, Aitor Arrieta, Paolo Tonella, | (参考訳) メタモルフィックテストは、ソフトウェアテストにおけるオラクルの問題を軽減することを目的とした一般的なアプローチである。
このアプローチのコアとなるのは、複数のテスト入力と対応する出力の間に保持される特性を指定するメタモルフィックリレーショナル(MR)である。
MRの導出は、主に手動の作業であり、自動生成は困難であり、ほとんど探索されていない問題である。
本稿では, ブール, 数値, 順序列を含む入力と出力を含むJavaメソッドのMRを自動的に生成する手法であるGenMorphを提案する。
GenMorphは進化的アルゴリズムを用いて、有効なオーラクル、すなわち、誤ったアラームを起こさず、テスト中のメソッドにソフトウェア欠陥を露呈するオーラクルを探索する。
提案アルゴリズムは, 偽アラーム数と, 生成したMRの故障数を測定する2つの適合関数で導かれる。
さらに、23のメソッドのうち7つでRandoopの障害検出能力が向上し、23のメソッドのうち14つでEvosuiteの障害検出能力が向上する。
最先端のMRジェネレータであるAutoMRと比較すると、GenMorphは10の手法のうち9つで障害検出能力を上回った。
Metamorphic testing is a popular approach that aims to alleviate the oracle problem in software testing. At the core of this approach are Metamorphic Relations (MRs), specifying properties that hold among multiple test inputs and corresponding outputs. Deriving MRs is mostly a manual activity, since their automated generation is a challenging and largely unexplored problem. This paper presents GenMorph, a technique to automatically generate MRs for Java methods that involve inputs and outputs that are boolean, numerical, or ordered sequences. GenMorph uses an evolutionary algorithm to search for effective test oracles, i.e., oracles that trigger no false alarms and expose software faults in the method under test. The proposed search algorithm is guided by two fitness functions that measure the number of false alarms and the number of missed faults for the generated MRs. Our results show that GenMorph generates effective MRs for 18 out of 23 methods (mutation score >20%). Furthermore, it can increase Randoop's fault detection capability in 7 out of 23 methods, and Evosuite's in 14 out of 23 methods. When compared with AutoMR, a state-of-the-art MR generator, GenMorph also outperformed its fault detection capability in 9 out of 10 methods. | 翻訳日:2024-06-06 13:37:33 公開日:2024-06-05 |
# GenMorph: 遺伝的プログラミングによる変成関係の自動生成
GenMorph: Automatically Generating Metamorphic Relations via Genetic Programming ( http://arxiv.org/abs/2312.15302v3 ) ライセンス: Link先を確認 | Jon Ayerdi, Valerio Terragni, Gunel Jahangirova, Aitor Arrieta, Paolo Tonella, | (参考訳) メタモルフィックテストは、ソフトウェアテストにおけるオラクルの問題を軽減することを目的とした一般的なアプローチである。
このアプローチのコアとなるのは、複数のテスト入力と対応する出力の間に保持される特性を指定するメタモルフィックリレーショナル(MR)である。
MRの導出は、主に手動の作業であり、自動生成は困難であり、ほとんど探索されていない問題である。
本稿では, ブール, 数値, 順序列を含む入力と出力を含むJavaメソッドのMRを自動的に生成する手法であるGenMorphを提案する。
GenMorphは進化的アルゴリズムを用いて、有効なオーラクル、すなわち、誤ったアラームを起こさず、テスト中のメソッドにソフトウェア欠陥を露呈するオーラクルを探索する。
提案アルゴリズムは, 偽アラーム数と, 生成したMRの故障数を測定する2つの適合関数で導かれる。
さらに、23のメソッドのうち7つでRandoopの障害検出能力が向上し、23のメソッドのうち14つでEvosuiteの障害検出能力が向上する。
最先端のMRジェネレータであるAutoMRと比較すると、GenMorphは10の手法のうち9つで障害検出能力を上回った。
Metamorphic testing is a popular approach that aims to alleviate the oracle problem in software testing. At the core of this approach are Metamorphic Relations (MRs), specifying properties that hold among multiple test inputs and corresponding outputs. Deriving MRs is mostly a manual activity, since their automated generation is a challenging and largely unexplored problem. This paper presents GenMorph, a technique to automatically generate MRs for Java methods that involve inputs and outputs that are boolean, numerical, or ordered sequences. GenMorph uses an evolutionary algorithm to search for effective test oracles, i.e., oracles that trigger no false alarms and expose software faults in the method under test. The proposed search algorithm is guided by two fitness functions that measure the number of false alarms and the number of missed faults for the generated MRs. Our results show that GenMorph generates effective MRs for 18 out of 23 methods (mutation score >20%). Furthermore, it can increase Randoop's fault detection capability in 7 out of 23 methods, and Evosuite's in 14 out of 23 methods. When compared with AutoMR, a state-of-the-art MR generator, GenMorph also outperformed its fault detection capability in 9 out of 10 methods. | 翻訳日:2024-06-06 13:37:33 公開日:2024-06-05 |
# 多言語言語モデルのためのテキスト埋め込み型インバージョンセキュリティ
Text Embedding Inversion Security for Multilingual Language Models ( http://arxiv.org/abs/2401.12192v3 ) ライセンス: Link先を確認 | Yiyi Chen, Heather Lent, Johannes Bjerva, | (参考訳) テキストデータは、特に大規模言語モデル(LLM)やエンベッドディング・アズ・ア・サービス(EaaS)の人気により、NLPにおける実数の埋め込みとして表現されることが多い。
しかし、センシティブな情報を埋め込みとして保存することはセキュリティ侵害の影響を受けやすい。
防衛機構は検討されているが、これらは英語のみに焦点を当てており、他の言語は攻撃に晒される可能性がある。
本研究は多言語埋め込みインバージョンによるLLMのセキュリティについて検討する。
ブラックボックス・マルチランガル・クロスランガル・インバージョン・アタックの問題を定義し,その可能性を探る。
以上の結果から,多言語LPMは英語による防御が不十分なため,逆攻撃に対して脆弱である可能性が示唆された。
これを軽減するために,単言語モデルと多言語モデルの両方に有効な単純なマスキング防御法を提案する。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
Textual data is often represented as real-numbered embeddings in NLP, particularly with the popularity of large language models (LLMs) and Embeddings as a Service (EaaS). However, storing sensitive information as embeddings can be susceptible to security breaches, as research shows that text can be reconstructed from embeddings, even without knowledge of the underlying model. While defence mechanisms have been explored, these are exclusively focused on English, leaving other languages potentially exposed to attacks. This work explores LLM security through multilingual embedding inversion. We define the problem of black-box multilingual and cross-lingual inversion attacks, and explore their potential implications. Our findings suggest that multilingual LLMs may be more vulnerable to inversion attacks, in part because English-based defences may be ineffective. To alleviate this, we propose a simple masking defense effective for both monolingual and multilingual models. This study is the first to investigate multilingual inversion attacks, shedding light on the differences in attacks and defenses across monolingual and multilingual settings. | 翻訳日:2024-06-06 13:27:48 公開日:2024-06-05 |
# リジェクトオプションを用いた部分ラベル学習
Partial-Label Learning with a Reject Option ( http://arxiv.org/abs/2402.00592v2 ) ライセンス: Link先を確認 | Tobias Fuchs, Florian Kalinke, Klemens Böhm, | (参考訳) 現実世界のアプリケーションでは、異なるアノテータが競合するクラスラベルを割り当てる、あいまいなラベル付きデータに遭遇することが多い。
部分ラベル学習は、最先端の手法がすでに優れた予測性能を示しており、この弱い教師付き環境でのトレーニング分類を可能にする。
しかし、最高のアルゴリズムでさえ誤った予測を与え、それが行動や決定に影響を与えると深刻な結果をもたらす可能性がある。
提案アルゴリズムは,不確実な予測を拒否できるリジェクションオプションを備えた,新しいリスク一貫性のある部分ラベル学習アルゴリズムを提案する。
人工的および実世界のデータセットに対する大規模な実験により、我々の手法は、不確実な予測を拒否する信頼しきい値を使用する競合他社と比較して、非拒否予測の数と精度の最良のトレードオフを提供することを示した。
リジェクションオプションなしで評価すると、最も近い隣人ベースのアプローチは競合予測性能も達成する。
In real-world applications, one often encounters ambiguously labeled data, where different annotators assign conflicting class labels. Partial-label learning allows training classifiers in this weakly supervised setting, where state-of-the-art methods already show good predictive performance. However, even the best algorithms give incorrect predictions, which can have severe consequences when they impact actions or decisions. We propose a novel risk-consistent partial-label learning algorithm with a reject option, that is, the algorithm can reject unsure predictions. Extensive experiments on artificial and real-world datasets show that our method provides the best trade-off between the number and accuracy of non-rejected predictions when compared to our competitors, which use confidence thresholds for rejecting unsure predictions instead. When evaluated without the reject option, our nearest neighbor-based approach also achieves competitive prediction performance. | 翻訳日:2024-06-06 13:17:49 公開日:2024-06-05 |
# リジェクトオプションを用いた部分ラベル学習
Partial-Label Learning with a Reject Option ( http://arxiv.org/abs/2402.00592v3 ) ライセンス: Link先を確認 | Tobias Fuchs, Florian Kalinke, Klemens Böhm, | (参考訳) 現実世界のアプリケーションでは、異なるアノテータが競合するクラスラベルを割り当てる、あいまいなラベル付きデータに遭遇することが多い。
部分ラベル学習は、最先端の手法がすでに優れた予測性能を示しており、この弱い教師付き環境でのトレーニング分類を可能にする。
しかし、最高のアルゴリズムでさえ誤った予測を与え、それが行動や決定に影響を与えると深刻な結果をもたらす可能性がある。
提案アルゴリズムは,不確実な予測を拒否できるリジェクションオプションを備えた,新しいリスク一貫性のある部分ラベル学習アルゴリズムを提案する。
人工的および実世界のデータセットに対する大規模な実験により、我々の手法は、不確実な予測を拒否する信頼しきい値を使用する競合他社と比較して、非拒否予測の数と精度の最良のトレードオフを提供することを示した。
リジェクションオプションなしで評価すると、最も近い隣人ベースのアプローチは競合予測性能も達成する。
In real-world applications, one often encounters ambiguously labeled data, where different annotators assign conflicting class labels. Partial-label learning allows training classifiers in this weakly supervised setting, where state-of-the-art methods already show good predictive performance. However, even the best algorithms give incorrect predictions, which can have severe consequences when they impact actions or decisions. We propose a novel risk-consistent partial-label learning algorithm with a reject option, that is, the algorithm can reject unsure predictions. Extensive experiments on artificial and real-world datasets show that our method provides the best trade-off between the number and accuracy of non-rejected predictions when compared to our competitors, which use confidence thresholds for rejecting unsure predictions instead. When evaluated without the reject option, our nearest neighbor-based approach also achieves competitive prediction performance. | 翻訳日:2024-06-06 13:17:49 公開日:2024-06-05 |
# グラフ機械学習理論における今後の方向性
Future Directions in the Theory of Graph Machine Learning ( http://arxiv.org/abs/2402.02287v3 ) ライセンス: Link先を確認 | Christopher Morris, Fabrizio Frasca, Nadav Dym, Haggai Maron, İsmail İlkan Ceylan, Ron Levie, Derek Lim, Michael Bronstein, Martin Grohe, Stefanie Jegelka, | (参考訳) グラフ上の機械学習、特にグラフニューラルネットワーク(GNN)の使用は、生命から社会、エンジニアリング科学に至るまで、幅広い分野にわたるグラフデータの提供により、関心が高まっている。
その実用的成功にもかかわらず、GNNの特性に関する理論的理解は非常に不完全である。
近年の理論的進歩は主にGNNの粗粒度表現力の解明に焦点が当てられ、主に組合せ技術を用いている。
しかし、これらの研究は、特に確率的一階最適化手法で訓練された場合のGNNの一般化挙動の理解において、実践と完全に一致しない。
本稿では、グラフ機械学習コミュニティが、表現力、一般化、最適化の相互作用をより深く理解することに焦点を当て、グラフ機械学習のバランスのとれた理論の開発に注意を向ける必要があることを論じる。
Machine learning on graphs, especially using graph neural networks (GNNs), has seen a surge in interest due to the wide availability of graph data across a broad spectrum of disciplines, from life to social and engineering sciences. Despite their practical success, our theoretical understanding of the properties of GNNs remains highly incomplete. Recent theoretical advancements primarily focus on elucidating the coarse-grained expressive power of GNNs, predominantly employing combinatorial techniques. However, these studies do not perfectly align with practice, particularly in understanding the generalization behavior of GNNs when trained with stochastic first-order optimization techniques. In this position paper, we argue that the graph machine learning community needs to shift its attention to developing a balanced theory of graph machine learning, focusing on a more thorough understanding of the interplay of expressive power, generalization, and optimization. | 翻訳日:2024-06-06 13:17:49 公開日:2024-06-05 |
# 自律性よりも安全を優先する:科学におけるLLMエージェントのリスク
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science ( http://arxiv.org/abs/2402.04247v3 ) ライセンス: Link先を確認 | Xiangru Tang, Qiao Jin, Kunlun Zhu, Tongxin Yuan, Yichi Zhang, Wangchunshu Zhou, Meng Qu, Yilun Zhao, Jian Tang, Zhuosheng Zhang, Arman Cohan, Zhiyong Lu, Mark Gerstein, | (参考訳) 大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
それらの能力は有望だが、これらのエージェントは科学的なLLMエージェントと呼ばれ、安全のために慎重に考慮を要する新たな脆弱性も導入している。
しかし、これらの脆弱性の包括的な調査は行われていないため、文献に顕著なギャップがある。
本研究は,科学領域内のLSMをベースとしたエージェントの脆弱性を徹底的に調査し,その誤用に伴う潜在的なリスクに光を当て,安全対策の必要性を強調することによって,このギャップを埋めるものである。
まず、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮し、科学的LLMエージェントに固有の潜在的なリスクを包括的に概観することから始める。
そして、これらの脆弱性の起源を調べ、制限された既存の作業のスコーピングレビューを提供します。
そこで本研究では, 人的規制, エージェント・アライメント, 環境フィードバック(エージェント・レギュレーション)の理解を含む三段階的枠組みを提案する。
さらに,これらの問題を効果的に解決するための改良されたモデル,堅牢なベンチマーク,包括的な規制の開発を提唱する科学エージェントの保護に関連する限界と課題を強調した。
Intelligent agents powered by large language models (LLMs) have demonstrated substantial promise in autonomously conducting experiments and facilitating scientific discoveries across various disciplines. While their capabilities are promising, these agents, called scientific LLM agents, also introduce novel vulnerabilities that demand careful consideration for safety. However, there exists a notable gap in the literature, as there has been no comprehensive exploration of these vulnerabilities. This perspective paper fills this gap by conducting a thorough examination of vulnerabilities in LLM-based agents within scientific domains, shedding light on potential risks associated with their misuse and emphasizing the need for safety measures. We begin by providing a comprehensive overview of the potential risks inherent to scientific LLM agents, taking into account user intent, the specific scientific domain, and their potential impact on the external environment. Then, we delve into the origins of these vulnerabilities and provide a scoping review of the limited existing works. Based on our analysis, we propose a triadic framework involving human regulation, agent alignment, and an understanding of environmental feedback (agent regulation) to mitigate these identified risks. Furthermore, we highlight the limitations and challenges associated with safeguarding scientific agents and advocate for the development of improved models, robust benchmarks, and comprehensive regulations to address these issues effectively. | 翻訳日:2024-06-06 13:08:02 公開日:2024-06-05 |
# 自律性よりも安全を優先する:科学におけるLLMエージェントのリスク
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science ( http://arxiv.org/abs/2402.04247v4 ) ライセンス: Link先を確認 | Xiangru Tang, Qiao Jin, Kunlun Zhu, Tongxin Yuan, Yichi Zhang, Wangchunshu Zhou, Meng Qu, Yilun Zhao, Jian Tang, Zhuosheng Zhang, Arman Cohan, Zhiyong Lu, Mark Gerstein, | (参考訳) 大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
それらの能力は有望だが、これらのエージェントは科学的なLLMエージェントと呼ばれ、安全のために慎重に考慮を要する新たな脆弱性も導入している。
しかし、これらの脆弱性の包括的な調査は行われていないため、文献に顕著なギャップがある。
本研究は,科学領域内のLSMをベースとしたエージェントの脆弱性を徹底的に調査し,その誤用に伴う潜在的なリスクに光を当て,安全対策の必要性を強調することによって,このギャップを埋めるものである。
まず、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮し、科学的LLMエージェントに固有の潜在的なリスクを包括的に概観することから始める。
そして、これらの脆弱性の起源を調べ、制限された既存の作業のスコーピングレビューを提供します。
そこで本研究では, 人的規制, エージェント・アライメント, 環境フィードバック(エージェント・レギュレーション)の理解を含む三段階的枠組みを提案する。
さらに,これらの問題を効果的に解決するための改良されたモデル,堅牢なベンチマーク,包括的な規制の開発を提唱する科学エージェントの保護に関連する限界と課題を強調した。
Intelligent agents powered by large language models (LLMs) have demonstrated substantial promise in autonomously conducting experiments and facilitating scientific discoveries across various disciplines. While their capabilities are promising, these agents, called scientific LLM agents, also introduce novel vulnerabilities that demand careful consideration for safety. However, there exists a notable gap in the literature, as there has been no comprehensive exploration of these vulnerabilities. This perspective paper fills this gap by conducting a thorough examination of vulnerabilities in LLM-based agents within scientific domains, shedding light on potential risks associated with their misuse and emphasizing the need for safety measures. We begin by providing a comprehensive overview of the potential risks inherent to scientific LLM agents, taking into account user intent, the specific scientific domain, and their potential impact on the external environment. Then, we delve into the origins of these vulnerabilities and provide a scoping review of the limited existing works. Based on our analysis, we propose a triadic framework involving human regulation, agent alignment, and an understanding of environmental feedback (agent regulation) to mitigate these identified risks. Furthermore, we highlight the limitations and challenges associated with safeguarding scientific agents and advocate for the development of improved models, robust benchmarks, and comprehensive regulations to address these issues effectively. | 翻訳日:2024-06-06 13:08:02 公開日:2024-06-05 |
# 位置符号化によるグラフ変換器の比較
Comparing Graph Transformers via Positional Encodings ( http://arxiv.org/abs/2402.14202v2 ) ライセンス: Link先を確認 | Mitchell Black, Zhengchao Wan, Gal Mishne, Amir Nayyeri, Yusu Wang, | (参考訳) グラフ変換器の識別能力は、位置符号化の選択と密接に結びついている。
位置符号化には、絶対位置符号化(APE)と相対位置符号化(RPE)の2種類がある。
APEは各ノードに特徴を割り当て、変換器への入力として与えられる。
RPEは代わりに、例えばグラフ距離などの各ノードに機能を割り当て、アテンションブロックを増強するために使用される。
先行して、結果のグラフ変換器のパワーを最大化するためにどの方法が優れているかは不明確である。
本稿では,これらの異なるタイプの位置符号化の関係を理解することを目的とする。
興味深いことに、 APE と RPE を用いたグラフ変換器は、パワーの区別の点で等価である。
特に, APE と RPE をグラフ変換器の区別能力を維持しながら交換する方法を実証する。
理論的な結果に基づき, 抵抗距離と最近導入された安定かつ表現力のある位置符号化(SPE)を含む複数の APE および RPE について検討し, 変圧器による識別能力の比較を行った。
我々の研究は、位置変換の膨大な数の選択をナビゲートし、グラフ変換器のための位置変換の将来の設計に関するガイダンスを提供すると信じている。
The distinguishing power of graph transformers is closely tied to the choice of positional encoding: features used to augment the base transformer with information about the graph. There are two primary types of positional encoding: absolute positional encodings (APEs) and relative positional encodings (RPEs). APEs assign features to each node and are given as input to the transformer. RPEs instead assign a feature to each pair of nodes, e.g., graph distance, and are used to augment the attention block. A priori, it is unclear which method is better for maximizing the power of the resulting graph transformer. In this paper, we aim to understand the relationship between these different types of positional encodings. Interestingly, we show that graph transformers using APEs and RPEs are equivalent in terms of distinguishing power. In particular, we demonstrate how to interchange APEs and RPEs while maintaining their distinguishing power in terms of graph transformers. Based on our theoretical results, we provide a study on several APEs and RPEs (including the resistance distance and the recently introduced stable and expressive positional encoding (SPE)) and compare their distinguishing power in terms of transformers. We believe our work will help navigate the huge number of choices of positional encoding and will provide guidance on the future design of positional encodings for graph transformers. | 翻訳日:2024-06-06 12:48:21 公開日:2024-06-05 |
# 位置符号化によるグラフ変換器の比較
Comparing Graph Transformers via Positional Encodings ( http://arxiv.org/abs/2402.14202v3 ) ライセンス: Link先を確認 | Mitchell Black, Zhengchao Wan, Gal Mishne, Amir Nayyeri, Yusu Wang, | (参考訳) グラフ変換器の識別能力は、位置符号化の選択と密接に結びついている。
位置符号化には、絶対位置符号化(APE)と相対位置符号化(RPE)の2種類がある。
APEは各ノードに特徴を割り当て、変換器への入力として与えられる。
RPEは代わりに、例えばグラフ距離などの各ノードに機能を割り当て、アテンションブロックを増強するために使用される。
先行して、結果のグラフ変換器のパワーを最大化するためにどの方法が優れているかは不明確である。
本稿では,これらの異なるタイプの位置符号化の関係を理解することを目的とする。
興味深いことに、 APE と RPE を用いたグラフ変換器は、パワーの区別の点で等価である。
特に, APE と RPE をグラフ変換器の区別能力を維持しながら交換する方法を実証する。
理論的な結果に基づき, 抵抗距離と最近導入された安定かつ表現力のある位置符号化(SPE)を含む複数の APE および RPE について検討し, 変圧器による識別能力の比較を行った。
我々の研究は、位置変換の膨大な数の選択をナビゲートし、グラフ変換器のための位置変換の将来の設計に関するガイダンスを提供すると信じている。
The distinguishing power of graph transformers is closely tied to the choice of positional encoding: features used to augment the base transformer with information about the graph. There are two primary types of positional encoding: absolute positional encodings (APEs) and relative positional encodings (RPEs). APEs assign features to each node and are given as input to the transformer. RPEs instead assign a feature to each pair of nodes, e.g., graph distance, and are used to augment the attention block. A priori, it is unclear which method is better for maximizing the power of the resulting graph transformer. In this paper, we aim to understand the relationship between these different types of positional encodings. Interestingly, we show that graph transformers using APEs and RPEs are equivalent in terms of distinguishing power. In particular, we demonstrate how to interchange APEs and RPEs while maintaining their distinguishing power in terms of graph transformers. Based on our theoretical results, we provide a study on several APEs and RPEs (including the resistance distance and the recently introduced stable and expressive positional encoding (SPE)) and compare their distinguishing power in terms of transformers. We believe our work will help navigate the huge number of choices of positional encoding and will provide guidance on the future design of positional encodings for graph transformers. | 翻訳日:2024-06-06 12:48:21 公開日:2024-06-05 |
# スパース入力による神経放射場改善のためのコーディネートネットワークとテンソル特徴の相乗的統合
Synergistic Integration of Coordinate Network and Tensorial Feature for Improving Neural Radiance Fields from Sparse Inputs ( http://arxiv.org/abs/2405.07857v3 ) ライセンス: Link先を確認 | Mingyu Kim, Jun-Seong Kim, Se-Young Yun, Jin-Hwa Kim, | (参考訳) マルチプレーン表現は、静的および動的神経放射場を横断する高速な訓練と推論のために強調されている。
このアプローチは、学習可能な格子上に投影し、隣接する頂点を補間することで関連する特徴を構築する。
しかし、低周波の詳細の取得には限界があり、マルチ解像度の概念にもかかわらず、細部への偏りのため、低周波の特徴のパラメータを過剰に使用する傾向がある。
この現象は、トレーニングのポーズがスパースであるときに不安定さと非効率性をもたらす。
本研究では,低周波信号に対する強いバイアスで知られる座標ベースMLPネットワークと,多面表現を相乗的に統合する手法を提案する。
座標に基づくネットワークは低周波の詳細を捉え、マルチプレーン表現は細かな詳細を捉えることに重点を置いている。
それらの間の残余接続は、その固有の特性をシームレスに保存することを示した。
さらに,提案手法は,これら2つの特徴の絡み合いを促進させる。
提案手法は,スパース入力を持つ静的および動的NeRFのベースラインモデルよりも優れるだけでなく,パラメータが少なくて同等の結果が得られることを実証的に実証した。
The multi-plane representation has been highlighted for its fast training and inference across static and dynamic neural radiance fields. This approach constructs relevant features via projection onto learnable grids and interpolating adjacent vertices. However, it has limitations in capturing low-frequency details and tends to overuse parameters for low-frequency features due to its bias toward fine details, despite its multi-resolution concept. This phenomenon leads to instability and inefficiency when training poses are sparse. In this work, we propose a method that synergistically integrates multi-plane representation with a coordinate-based MLP network known for strong bias toward low-frequency signals. The coordinate-based network is responsible for capturing low-frequency details, while the multi-plane representation focuses on capturing fine-grained details. We demonstrate that using residual connections between them seamlessly preserves their own inherent properties. Additionally, the proposed progressive training scheme accelerates the disentanglement of these two features. We demonstrate empirically that our proposed method not only outperforms baseline models for both static and dynamic NeRFs with sparse inputs, but also achieves comparable results with fewer parameters. | 翻訳日:2024-06-06 12:19:03 公開日:2024-06-05 |
# ParamReL: ベイズフローネットワークのプログレッシブエンコードによるパラメータ空間表現の学習
ParamReL: Learning Parameter Space Representation via Progressively Encoding Bayesian Flow Networks ( http://arxiv.org/abs/2405.15268v3 ) ライセンス: Link先を確認 | Zhangkai Wu, Xuhui Fan, Jin Li, Zhilin Zhao, Hui Chen, Longbing Cao, | (参考訳) 最近提案されたベイズフローネットワーク~(BFN)はパラメータ空間のモデリングにおいて大きな可能性を示し、連続的で離散化された離散データを扱うための統一的な戦略を提供する。
しかし、BFNはパラメータ空間から高レベルのセマンティック表現を学習することはできない。
パラメータ空間に隠された意味表現を学習し、混合型ノイズデータを特徴付ける。
そこで本研究では,パラメータ空間内で動作するParamReLという表現学習フレームワークを提案する。
具体的には、ParamReLは、観測からではなくパラメータから直接潜在意味論を学ぶために、 \emph{self-} エンコーダを提案する。
エンコーダはBFNに統合され、様々な観察形式の表現学習を可能にする。
相互情報用語は、潜在意味論の混乱をさらに促進し、同時に意味的意味論を捉える。
BFNを拡張することでParamReLの条件生成と再構築を図示し、学習パラメータ表現におけるParamReLの上位効果を実験的に検証した。
The recently proposed Bayesian Flow Networks~(BFNs) show great potential in modeling parameter spaces, offering a unified strategy for handling continuous, discretized, and discrete data. However, BFNs cannot learn high-level semantic representation from the parameter space since {common encoders, which encode data into one static representation, cannot capture semantic changes in parameters.} This motivates a new direction: learning semantic representations hidden in the parameter spaces to characterize mixed-typed noisy data. {Accordingly, we propose a representation learning framework named ParamReL, which operates in the parameter space to obtain parameter-wise latent semantics that exhibit progressive structures. Specifically, ParamReL proposes a \emph{self-}encoder to learn latent semantics directly from parameters, rather than from observations. The encoder is then integrated into BFNs, enabling representation learning with various formats of observations. Mutual information terms further promote the disentanglement of latent semantics and capture meaningful semantics simultaneously.} We illustrate {conditional generation and reconstruction} in ParamReL via expanding BFNs, and extensive {quantitative} experimental results demonstrate the {superior effectiveness} of ParamReL in learning parameter representation. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# A$2乗項を持つ異方性ディックスタークモデルの相転移
Phase Transitions in the Anisotropic Dicke-Stark Model with $A$-square terms ( http://arxiv.org/abs/2405.19776v2 ) ライセンス: Link先を確認 | Xiang-You Chen, Yu-Yu Zhang, Qing-Hu Chen, Hai-Qing Lin, | (参考訳) 超ラジアント相転移(SRPT)は、A-二乗項によって誘導されるいわゆるノーゴー定理により、標準等方的ディックモデルにおいて禁止される。
ディックモデルの枠組みでは、回転波を内在的に調整し、原子-空洞結合を独立に回転させたり、非線形スターク結合項を導入したりすると、SRPTは零温度と有限温度の両方で発生しうることを示す。
このいわゆる異方性ディック・スタークモデルにおける位相遷移は、元のディックモデルと同じ普遍性クラスを共有する。
このモデルの臨界カップリング強度は、等方定数によって徐々に減少するが、強い非線形スタークカップリングで急速に0に駆動することができる。
我々は、将来の固体実験でSRPTを観測するための実現可能なスキームを提案していると信じている。
The superradiant phase transition (SRPT) is forbidden in the standard isotropic Dicke model due to the so-called no-go theorem induced by A-square term. In the framework of the Dicke model, we demonstrate that SRPTs can occur at both zero and finite temperatures if we intrinsically tune the rotating wave and count-rotating atom-cavity coupling independently, and/or introduce the nonlinear Stark coupling terms, thus overcoming the no-go theorem. The phase transitions in this so-called anisotropic Dicke-Stark model share the same universality class with the original Dicke model. The critical coupling strength of this model decreases with the isotropic constant gradually, but can be driven to zero quickly with the strong nonlinear Stark coupling. We believe that we have proposed a feasible scheme to observe the SRPT in the future solid-state experiments. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# 登場人物の性格の再構築による一貫性の強化と役割特有知識の獲得
Enhancing Consistency and Role-Specific Knowledge Capturing by Rebuilding Fictional Character's Persona ( http://arxiv.org/abs/2405.19778v3 ) ライセンス: Link先を確認 | Jeiyoon Park, Chanjun Park, Heuiseok Lim, | (参考訳) 最近のAssistants APIの導入により、ドキュメントベースの言語モデルが様々なドメイン、特にロールプレイングでアクティブに使用されることが期待されている。
しかし、重要な課題は、主人公のペルソナを利用することである: アシスタントAPIは、情報抽出部が毎回異なるため、しばしば検索で達成できず、主人公の背景や関係といった重要な情報を省略する。
Assistants APIへの入力としてペルソナドキュメントを使用することで、一貫性のあるペルソナを維持するのは難しい。
安定したペルソナ整合性を実現するための課題として,Assistants APIの欠点を軽減するための新しいペルソナ再構成フレームワークである characterGPT を提案する。
本手法では,小説の要約から登場人物の特徴を,小説の物語が進行しているかのように抽出することで,文字ペルソナを効果的に更新する文字ペルソナ訓練(CPT)を行う。
実験では,各キャラクタに対して,様々な設定でBig Five Inventoryパーソナリティテストを実施し,その結果を分析した。
ボックスの外側で考えることができるかどうかを評価するために、各キャラクターに短い小説を作らせます。
広範囲な実験と人的評価により、キャラクタGPTはロールプレイングエージェント研究の新しい可能性を示す。
コードと結果は、https://github.com/Jeiyoon/charactergpt.comで公開されている。
With the recent introduction of Assistants API, it is expected that document-based language models will be actively used in various domains, especially Role-playing. However, a key challenge lies in utilizing protagonist's persona: Assistants API often fails to achieve with its search because the information extraction part is different each time and it often omits important information such as protagonist's backstory or relationships. It is hard to maintain a consistent persona simply by using the persona document as input to the Assistants API. To address the challenge of achieving stable persona consistency, we propose CharacterGPT, a novel persona reconstruction framework to alleviate the shortcomings of the Assistants API. Our method involves Character Persona Training (CPT), an effective persona rebuilding process that updates the character persona by extracting the character's traits from given summary of the novel for each character as if the story in a novel progresses. In our experiments, we ask each character to take the Big Five Inventory personality test in various settings and analyze the results. To assess whether it can think outside the box, we let each character generate short novels. Extensive experiments and human evaluation demonstrate that CharacterGPT presents new possibilities for role-playing agent research. Code and results are available at: https://github.com/Jeiyoon/charactergpt | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# PixOOD:Pixelレベルのアウト・オブ・ディストリビューション検出
PixOOD: Pixel-Level Out-of-Distribution Detection ( http://arxiv.org/abs/2405.19882v2 ) ライセンス: Link先を確認 | Tomáš Vojíř, Jan Šochman, Jiří Matas, | (参考訳) PixOODは異常データのサンプルのトレーニングを必要とせず、従来のトレーニングバイアスを回避する特定のアプリケーションのために設計されていない。
画素レベルでの分布データの複雑なクラス内変動をモデル化するために,従来のK平均よりも頑健で,SGDで容易に訓練できるオンラインデータ凝縮アルゴリズムを提案する。
我々はPixOODを幅広い問題について評価した。
7つのデータセットのうち4つは最先端の結果であり、残りは競争力がある。
ソースコードはhttps://github.com/vojirt/PixOOD.comで入手できる。
We propose a dense image prediction out-of-distribution detection algorithm, called PixOOD, which does not require training on samples of anomalous data and is not designed for a specific application which avoids traditional training biases. In order to model the complex intra-class variability of the in-distribution data at the pixel level, we propose an online data condensation algorithm which is more robust than standard K-means and is easily trainable through SGD. We evaluate PixOOD on a wide range of problems. It achieved state-of-the-art results on four out of seven datasets, while being competitive on the rest. The source code is available at https://github.com/vojirt/PixOOD. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# 身体学習におけるリアルタイム意思決定のためのフーリエ制御ネットワーク
Fourier Controller Networks for Real-Time Decision-Making in Embodied Learning ( http://arxiv.org/abs/2405.19885v2 ) ライセンス: Link先を確認 | Hengkai Tan, Songming Liu, Kai Ma, Chengyang Ying, Xingxing Zhang, Hang Su, Jun Zhu, | (参考訳) トランスフォーマーは、多種多様なロボティクスデータセットに対する一般化された低レベルロボットポリシーを具体化学習で得るために、時間変化のある特徴をモデル化する強化学習の可能性を示してきた。
しかし、データ効率の低さと推論遅延の低さに悩まされている。
本稿では,周波数領域の新しい視点から課題を考察する。
まず、ロボットの軌道の周波数領域におけるエネルギー密度は、主に低周波部分に集中していることを確認する。
次に、ショートタイムフーリエ変換(STFT)を用いた周波数領域補間による時間変化特徴の抽出とエンコードを行う新しいネットワークであるFCNetを提案する。
リアルタイム意思決定のために,FFT法とSliding DFT法をモデルアーキテクチャに適用し,並列トレーニングと効率的な再帰推論を実現する。
シミュレーション(例:D4RL)と実世界の環境(例:ロボットの移動)の両方において、FCNetはTransformer、eg、FCNetといった既存の手法よりも大幅に効率と有効性を示しており、Transformerはあらゆる種類のサイズ(例:1.9Mから120M)のマルチ環境ロボットデータセット上で、トランスフォーマーを上回っている。
プロジェクトページとコードはhttps://thkk.github.io/fcnet.com/で見ることができる。
Transformer has shown promise in reinforcement learning to model time-varying features for obtaining generalized low-level robot policies on diverse robotics datasets in embodied learning. However, it still suffers from the issues of low data efficiency and high inference latency. In this paper, we propose to investigate the task from a new perspective of the frequency domain. We first observe that the energy density in the frequency domain of a robot's trajectory is mainly concentrated in the low-frequency part. Then, we present the Fourier Controller Network (FCNet), a new network that uses Short-Time Fourier Transform (STFT) to extract and encode time-varying features through frequency domain interpolation. In order to do real-time decision-making, we further adopt FFT and Sliding DFT methods in the model architecture to achieve parallel training and efficient recurrent inference. Extensive results in both simulated (e.g., D4RL) and real-world environments (e.g., robot locomotion) demonstrate FCNet's substantial efficiency and effectiveness over existing methods such as Transformer, e.g., FCNet outperforms Transformer on multi-environmental robotics datasets of all types of sizes (from 1.9M to 120M). The project page and code can be found https://thkkk.github.io/fcnet. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# PLA4D:テキストから4Dガウス分割のためのピクセルレベルアライメント
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting ( http://arxiv.org/abs/2405.19957v3 ) ライセンス: Link先を確認 | Qiaowei Miao, Yawei Luo, Yi Yang, | (参考訳) テキスト条件拡散モデル (DM) が画像, ビデオ, 3次元生成のブレークスルーを達成するにつれ, 研究コミュニティの焦点は, 動的3次元オブジェクトを生成するための時間次元を導入し, テキストから4次元合成の課題へとシフトしてきた。
そこで本研究では,テキスト・ツー・3D合成技術として広く用いられているスコア蒸留サンプリング(SDS)を,Janus-facedとテクスチャ・非現実的な問題と高い計算コストによるテキスト・ツー・4D性能の重大な障害として同定する。
本稿では,テキストからビデオまでのフレームを明示的な画素アライメントターゲットとして利用し,静的な3Dオブジェクトを生成して動きを注入する新しい手法であるGaussian Splatting (\textbf{PLA4D})を提案する。
具体的には、レンダリングのためのカメラポーズの校正にFocal Alignmentを導入し、GS-Mesh Contrastive Learningを使用して、ピクセルレベルのレンダリング画像コントラストから幾何学的先行を抽出する。
さらに、変形ネットワークを用いて、ガウスの変化を駆動し、滑らかな4次元物体表面に対する参照再ファインメントを実装するモーションアライメントを開発した。
これらの技術により、4Dガウススプラッティングは、幾何学、テクスチャ、動きをピクセルレベルで生成されたビデオと整列させることができる。
従来の方法と比較して、PLA4Dはより少ない時間でより優れたテクスチャの詳細を持つ合成出力を生成し、Janus-faced問題を効果的に緩和する。
PLA4Dはオープンソースモデルで完全に実装されており、4Dデジタルコンテンツ作成のためのアクセス可能でユーザフレンドリで有望な方向性を提供する。
私たちのプロジェクトページは、https://miaoqiaowei.github.io/PLA4D/です。
As text-conditioned diffusion models (DMs) achieve breakthroughs in image, video, and 3D generation, the research community's focus has shifted to the more challenging task of text-to-4D synthesis, which introduces a temporal dimension to generate dynamic 3D objects. In this context, we identify Score Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis, as a significant hindrance to text-to-4D performance due to its Janus-faced and texture-unrealistic problems coupled with high computational costs. In this paper, we propose \textbf{P}ixel-\textbf{L}evel \textbf{A}lignments for Text-to-\textbf{4D} Gaussian Splatting (\textbf{PLA4D}), a novel method that utilizes text-to-video frames as explicit pixel alignment targets to generate static 3D objects and inject motion into them. Specifically, we introduce Focal Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive Learning to distill geometry priors from rendered image contrasts at the pixel level. Additionally, we develop Motion Alignment using a deformation network to drive changes in Gaussians and implement Reference Refinement for smooth 4D object surfaces. These techniques enable 4D Gaussian Splatting to align geometry, texture, and motion with generated videos at the pixel level. Compared to previous methods, PLA4D produces synthesized outputs with better texture details in less time and effectively mitigates the Janus-faced problem. PLA4D is fully implemented using open-source models, offering an accessible, user-friendly, and promising direction for 4D digital content creation. Our project page: https://miaoqiaowei.github.io/PLA4D/. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# KerasCVとKerasNLP: ビジョンと言語パワーアップ
KerasCV and KerasNLP: Vision and Language Power-Ups ( http://arxiv.org/abs/2405.20247v3 ) ライセンス: Link先を確認 | Matthew Watson, Divyashree Shivakumar Sreepathihalli, Francois Chollet, Martin Gorner, Kiranbir Sodhia, Ramesh Sampath, Tirth Patel, Haifeng Jin, Neel Kovelamudi, Gabriel Rasskin, Samaneh Saadat, Luke Wood, Chen Qian, Jonathan Bischof, Ian Stenbit, Abheesht Sharma, Anshuman Mishra, | (参考訳) 我々は、KerasのドメインパッケージであるKerasCVとKerasNLPを提示する。Keras API for Computer Visionと自然言語処理ワークフローの拡張で、JAX、TensorFlow、PyTorchのいずれかで動作する。
これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。
ライブラリの最低レベルの抽象化では、モデルとデータ前処理パイプラインを作成するためのビルディングブロックを提供し、ライブラリの最高レベルの抽象化では、Stable Diffusion、YOLOv8、GPT2、BERT、Mistral、CLIP、Gemma、T5といった一般的なアーキテクチャに対して、事前訓練された‘task’モデルを提供します。
タスクモデルには事前処理、事前訓練されたウェイトが組み込まれており、生の入力に基づいて微調整が可能である。
効率的なトレーニングを実現するため、すべてのモデルのXLAコンパイルをサポートし、tf.data APIを使用してTensorFlow操作のコンパイルグラフを介して、すべての前処理を実行する。
ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
We present the Keras domain packages KerasCV and KerasNLP, extensions of the Keras API for Computer Vision and Natural Language Processing workflows, capable of running on either JAX, TensorFlow, or PyTorch. These domain packages are designed to enable fast experimentation, with a focus on ease-of-use and performance. We adopt a modular, layered design: at the library's lowest level of abstraction, we provide building blocks for creating models and data preprocessing pipelines, and at the library's highest level of abstraction, we provide pretrained ``task" models for popular architectures such as Stable Diffusion, YOLOv8, GPT2, BERT, Mistral, CLIP, Gemma, T5, etc. Task models have built-in preprocessing, pretrained weights, and can be fine-tuned on raw inputs. To enable efficient training, we support XLA compilation for all models, and run all preprocessing via a compiled graph of TensorFlow operations using the tf.data API. The libraries are fully open-source (Apache 2.0 license) and available on GitHub. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# 間欠的不公平発見
Intersectional Unfairness Discovery ( http://arxiv.org/abs/2405.20790v2 ) ライセンス: Link先を確認 | Gezheng Xu, Qi Chen, Charles Ling, Boyu Wang, Changjian Shui, | (参考訳) AIシステムは、特定の集団のサブグループに対して不公平な結果をもたらすことが示されており、特定のセンシティブな属性に対するバイアスを理解する必要性を強調している。
現在の研究は、主に単一の感度属性を特徴とする部分群に焦点をあてる一方で、複数の感度属性の交叉フェアネスの性質を無視する。
本稿では,多種多様なハイバイアス部分群を交叉感度特性下で発見することによって,その1つの基本的側面に焦点をあてる。
具体的には,Bias-Guided Generative Network (BGGN)を提案する。
各バイアス値を報酬として扱うことにより、BGGNは高バイアス交叉感度特性を効率よく生成する。
実世界のテキストと画像データセットの実験では、BGGNの多様性と効率的な発見が示されている。
生成した不明瞭で不公平な交差性のある属性を更に評価するために、我々はそれらをプロンプトとして定式化し、近代的な生成AIを使って新しいテキストや画像を生成する。
バイアス付きデータを頻繁に生成する結果は、人気のある近代的生成AIシステムにおける潜在的な不公平性を発見するための新たな洞察を提供する。
警告:本論文は、自然に有害な生成例を含む。
AI systems have been shown to produce unfair results for certain subgroups of population, highlighting the need to understand bias on certain sensitive attributes. Current research often falls short, primarily focusing on the subgroups characterized by a single sensitive attribute, while neglecting the nature of intersectional fairness of multiple sensitive attributes. This paper focuses on its one fundamental aspect by discovering diverse high-bias subgroups under intersectional sensitive attributes. Specifically, we propose a Bias-Guided Generative Network (BGGN). By treating each bias value as a reward, BGGN efficiently generates high-bias intersectional sensitive attributes. Experiments on real-world text and image datasets demonstrate a diverse and efficient discovery of BGGN. To further evaluate the generated unseen but possible unfair intersectional sensitive attributes, we formulate them as prompts and use modern generative AI to produce new texts and images. The results of frequently generating biased data provides new insights of discovering potential unfairness in popular modern generative AI systems. Warning: This paper contains generative examples that are offensive in nature. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# 近代LLMの量子化に及ぼす外乱と校正セットの影響
Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs ( http://arxiv.org/abs/2405.20835v3 ) ライセンス: Link先を確認 | Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder, | (参考訳) PTQ(Post-Training Quantization)は、メモリ使用量を減らすことで、より高速な操作と、よりアクセスしやすいハードウェアとの互換性を実現することで、パフォーマンス低下のコストで、Large Language Models(LLMs)の効率を向上させる。
PTQにおけるキャリブレーションセットの役割,特に各種オープンソースLCMにおける隠れアクティベーションへの影響について検討する。
キャリブレーションセットは、アクティベーションの規模を評価して、量子化範囲を歪め、性能に悪影響を及ぼすような外れ値を特定するのに不可欠である。
我々の分析では、モデル間で量子化の有効性が顕著に比較されている。
量子化文献の大部分をベースとした古いOPTモデルでは, キャリブレーションセットの異なる外れ値に対して, 顕著な性能劣化と高い感受性を示す。
対照的に、Llama-2 7B、Llama-3 8B、Command-R 35B、Mistral 7Bといった新しいモデルは強い堅牢性を示し、Mistral 7Bは外れ値と安定した活性化を示す。
これらの結果はPTQ戦略の転換が必要であることを示唆している。
事前学習手法の進歩により、外れ値の関連性が低下するにつれ、現在の量子化文学の基礎を再評価する必要性が高まっている。
現状のLDMの進化する特性に合わせるために、主にアウターリー保存に焦点を当てるのではなく、推論速度の最適化に重点を置くべきである。
Post-Training Quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of calibration sets in PTQ, specifically their effect on hidden activations in various notable open-source LLMs. Calibration sets are crucial for evaluating activation magnitudes and identifying outliers, which can distort the quantization range and negatively impact performance. Our analysis reveals a marked contrast in quantization effectiveness across models. The older OPT model, upon which much of the quantization literature is based, shows significant performance deterioration and high susceptibility to outliers with varying calibration sets. In contrast, newer models like Llama-2 7B, Llama-3 8B, Command-R 35B, and Mistral 7B demonstrate strong robustness, with Mistral 7B showing near-immunity to outliers and stable activations. These findings suggest a shift in PTQ strategies might be needed. As advancements in pre-training methods reduce the relevance of outliers, there is an emerging need to reassess the fundamentals of current quantization literature. The emphasis should pivot towards optimizing inference speed, rather than primarily focusing on outlier preservation, to align with the evolving characteristics of state-of-the-art LLMs. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# SaySelf: LLMに自己表現的合理化による信頼の表現を教える
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales ( http://arxiv.org/abs/2405.20974v2 ) ライセンス: Link先を確認 | Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao, | (参考訳) 大規模言語モデル(LLM)は、しばしば不正確な情報や製造された情報を生成し、一般にその信頼性を示すのに失敗し、より広範なアプリケーションを制限する。
従来の作業は、直接的または自己整合性のプロンプトや、教師付き微調整のための特定のデータセットの構築によって、LSMからの信頼を引き出す。
プロンプトベースのアプローチは性能が劣り、トレーニングベースのアプローチは2値または不正確なグループレベルの信頼推定に限られる。
本研究では,より高精度な信頼度推定をLLMに教える学習フレームワークであるSaySelfを紹介する。
さらに、自信のスコアを超えて、SaySelf は LLM に自己反射的合理性を生み出すよう指示するプロセスを開始し、パラメトリックな知識のギャップを明確に識別し、不確実性を説明する。
これは、LLMを使用して、自然言語を介して特定の知識の不確実性を自動的に要約することで達成される。
要約は、複数のサンプル推論鎖の不整合の解析に基づいており、その結果データを教師付き微調整に利用する。
さらに、精度の高い報酬関数を用いた強化学習を活用し、信頼度推定を校正し、LCMを高精度で高信頼な予測を行い、誤出力における過信を罰する動機付けを行う。
その結果,SaySelfの信頼性校正誤差の低減とタスク性能の維持に効果が示された。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
コードはhttps://github.com/xu1868/SaySelf.comで公開されている。
Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at https://github.com/xu1868/SaySelf. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# ACE:フェデレーション学習におけるコントリビューション評価手法に対するモデル攻撃
ACE: A Model Poisoning Attack on Contribution Evaluation Methods in Federated Learning ( http://arxiv.org/abs/2405.20975v2 ) ライセンス: Link先を確認 | Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bo Li, Radha Poovendran, | (参考訳) フェデレートラーニング(FL)では、クライアントのセットが、ローカルトレーニングデータを共有することなく、機械学習モデル(グローバルモデルと呼ばれる)を協調的にトレーニングする。
クライアントのローカルトレーニングデータは一般的に非i.d.d.と異種であり、結果としてグローバルモデルの最終性能に対する個々のクライアントからの様々な貢献をもたらす。
これに対し、サーバが各クライアントのコントリビューションを評価し、FLへの長期参加を継続するためにハイコントリビューションクライアントにインセンティブを与える、多くのコントリビューション評価手法が提案された。
既存の研究は主に、各クライアントの貢献度をよりよく測定する新しいメトリクスやアルゴリズムの開発に焦点を当てている。
しかし, 相手環境におけるFLのコントリビューション評価手法の安全性は明らかにされていない。
本稿では,FLにおけるコントリビューション評価手法であるACEを用いた最初のモデル毒殺攻撃を提案する。
具体的には、ACEを利用する悪意のあるクライアントがローカルモデルのパラメータを操作できることを示し、ローカルのトレーニングデータが実際に品質の低い場合でも、サーバが高いコントリビューションを持つように評価する。
我々はACEの理論的解析と経験的評価の両方を行う。
理論的には、ACEの設計は、サーバが広く使われているコサイン距離メートル法を用いて貢献を測定する際に、悪意あるクライアントの貢献を効果的に促進できることを示している。
実験により,ACEは5つの最先端コントリビューション評価手法を効果的に,効果的に活用できることを示した。
さらに、ACEは入力のテストにおける最終グローバルモデルの精度を保っている。
また、ACEを守るための6つの対策についても検討する。
本研究の結果から, FL における貢献評価手法の安全性を確保するため, 新たな防衛の必要性が浮き彫りになり, ACE の脅威を抑えるには不十分であることが示唆された。
In Federated Learning (FL), a set of clients collaboratively train a machine learning model (called global model) without sharing their local training data. The local training data of clients is typically non-i.i.d. and heterogeneous, resulting in varying contributions from individual clients to the final performance of the global model. In response, many contribution evaluation methods were proposed, where the server could evaluate the contribution made by each client and incentivize the high-contributing clients to sustain their long-term participation in FL. Existing studies mainly focus on developing new metrics or algorithms to better measure the contribution of each client. However, the security of contribution evaluation methods of FL operating in adversarial environments is largely unexplored. In this paper, we propose the first model poisoning attack on contribution evaluation methods in FL, termed ACE. Specifically, we show that any malicious client utilizing ACE could manipulate the parameters of its local model such that it is evaluated to have a high contribution by the server, even when its local training data is indeed of low quality. We perform both theoretical analysis and empirical evaluations of ACE. Theoretically, we show our design of ACE can effectively boost the malicious client's perceived contribution when the server employs the widely-used cosine distance metric to measure contribution. Empirically, our results show ACE effectively and efficiently deceive five state-of-the-art contribution evaluation methods. In addition, ACE preserves the accuracy of the final global models on testing inputs. We also explore six countermeasures to defend ACE. Our results show they are inadequate to thwart ACE, highlighting the urgent need for new defenses to safeguard the contribution evaluation methods in FL. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# 大規模言語モデルを用いた最適化に基づくジェイルブレイク手法の改良
Improved Techniques for Optimization-Based Jailbreaking on Large Language Models ( http://arxiv.org/abs/2405.21018v2 ) ライセンス: Link先を確認 | Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin, | (参考訳) 大規模言語モデル(LLM)は急速に開発され、その普及の鍵となるコンポーネントは安全性に関するアライメントである。
これらの取り組みの中で、Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化に基づくジェイルブレイク技術の研究への関心を高めている。
GCGは重要なマイルストーンであるが、攻撃効率は相変わらず不満足である。
本稿では,GCGのような最適化ベースのジェイルブレイクに対して,いくつかの改良(経験的)手法を提案する。
我々はまず,GCGの攻撃性能を「Sure」の1つのターゲットテンプレートで大幅に制限することから,有害な自己提案を含む多種多様なターゲットテンプレートをLLMのミスリードに応用することを提案する。
さらに,最適化面からGCGにおける自動マルチコーディネート更新戦略(つまり,各ステップで何個のトークンを交換するかを適応的に決定する)を提案する。
そして、これらの改良された技術を組み合わせて、I-GCGと呼ばれる効率的なジェイルブレイク法を開発した。
実験では,一連のベンチマーク(NeurIPS 2023 Red Teaming Trackなど)を評価した。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
コードはhttps://github.com/jiaxiaojunQAQ/I-GCGで公開されている。
Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack's success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of "Sure" largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed I-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# 種苗からハーベスト:インスタンスセグメンテーションによる大豆の雑草検出用成長大豆データセット
From Seedling to Harvest: The GrowingSoy Dataset for Weed Detection in Soy Crops via Instance Segmentation ( http://arxiv.org/abs/2406.00313v2 ) ライセンス: Link先を確認 | Raul Steinmetz, Victor A. Kich, Henrique Krever, Joao D. Rigo Mazzarolo, Ricardo B. Grando, Vinicius Marini, Celio Trois, Ard Nieuwenhuizen, | (参考訳) ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、特に農業タスクにおいてその有効性に大きな注目を集めている。
近年のインスタンスセグメンテーションの進歩により、画像分類精度が向上した。
本研究では,ニューラルネットワークを学習して雑草や大豆をインスタンスセグメンテーションで検出するための包括的データセットを提案する。
我々のデータセットは、大豆の生育の様々な段階をカバーし、1,000枚の微妙な注釈付き画像とともに、雑草の侵入の影響に関する時系列的な視点を提供する。
また、このデータセットでトレーニングされた6つの最先端モデルを提供し、プランテーションプロセスのすべての段階で大豆や雑草を理解し、検出することができます。
本データセットを雑草と大豆のセグメンテーションに使用することにより, セグメンテーション平均精度79.1%, 全植物種別平均リコール69.2%, YOLOv8Xモデルを用いて達成した。
さらに、YOLOv8Mモデルでは、カルー雑草における平均精度(mAp-50)が78.7%、草雑草では69.7%、大豆では90.1%に達した。
Deep learning, particularly Convolutional Neural Networks (CNNs), has gained significant attention for its effectiveness in computer vision, especially in agricultural tasks. Recent advancements in instance segmentation have improved image classification accuracy. In this work, we introduce a comprehensive dataset for training neural networks to detect weeds and soy plants through instance segmentation. Our dataset covers various stages of soy growth, offering a chronological perspective on weed invasion's impact, with 1,000 meticulously annotated images. We also provide 6 state of the art models, trained in this dataset, that can understand and detect soy and weed in every stage of the plantation process. By using this dataset for weed and soy segmentation, we achieved a segmentation average precision of 79.1% and an average recall of 69.2% across all plant classes, with the YOLOv8X model. Moreover, the YOLOv8M model attained 78.7% mean average precision (mAp-50) in caruru weed segmentation, 69.7% in grassy weed segmentation, and 90.1% in soy plant segmentation. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# スパイクニューラルネットワークの時空間予測学習を実現する自動シナプス回路
Autaptic Synaptic Circuit Enhances Spatio-temporal Predictive Learning of Spiking Neural Networks ( http://arxiv.org/abs/2406.00405v2 ) ライセンス: Link先を確認 | Lihao Wang, Zhaofei Yu, | (参考訳) Spiking Neural Networks (SNN) は、生物学的ニューロンで見られる統合ファイアリーク機構をエミュレートし、生物学的リアリズムとエネルギー効率の強力な組み合わせを提供する。
近年、研究が盛んに行われている。
しかし、既存のSNNは主にLeaky Integrate-and-Fire(LIF)モデルに依存しており、主に単純で静的なタスクに適している。
長期の時間的依存を効果的にモデル化し、空間情報の相互作用を促進する能力は欠如している。
これらの課題に対処するために,本論文は生物学における自己シナプスの概念からインスピレーションを得て,新しい時空間回路(STC)モデルを提案する。
STCモデルは2つの学習可能な適応経路を統合し、スパイキングニューロンの時間記憶と空間調整を強化する。
本研究では,STCモデルにおける動的パラメータの理論的解析を行い,長期記憶の確立と勾配解消の課題の緩和に寄与することを明らかにする。
複数の時空間予測データセットに関する広範な実験を通じて、我々のモデルが他の適応モデルよりも優れていることを示す。
さらに、我々のモデルは既存のスパイクニューロンモデルと互換性があり、それによってそれらの動的表現を増大させる。
本質的に、我々の研究はSNNの特異性とトポロジカルな複雑さを豊かにしている。
Spiking Neural Networks (SNNs) emulate the integrated-fire-leak mechanism found in biological neurons, offering a compelling combination of biological realism and energy efficiency. In recent years, they have gained considerable research interest. However, existing SNNs predominantly rely on the Leaky Integrate-and-Fire (LIF) model and are primarily suited for simple, static tasks. They lack the ability to effectively model long-term temporal dependencies and facilitate spatial information interaction, which is crucial for tackling complex, dynamic spatio-temporal prediction tasks. To tackle these challenges, this paper draws inspiration from the concept of autaptic synapses in biology and proposes a novel Spatio-Temporal Circuit (STC) model. The STC model integrates two learnable adaptive pathways, enhancing the spiking neurons' temporal memory and spatial coordination. We conduct a theoretical analysis of the dynamic parameters in the STC model, highlighting their contribution in establishing long-term memory and mitigating the issue of gradient vanishing. Through extensive experiments on multiple spatio-temporal prediction datasets, we demonstrate that our model outperforms other adaptive models. Furthermore, our model is compatible with existing spiking neuron models, thereby augmenting their dynamic representations. In essence, our work enriches the specificity and topological complexity of SNNs. | 翻訳日:2024-06-06 12:09:17 公開日:2024-06-05 |
# SAM-LAD: ゼロショット論理異常検出に対応するセグメント任意のモデル
SAM-LAD: Segment Anything Model Meets Zero-Shot Logic Anomaly Detection ( http://arxiv.org/abs/2406.00625v2 ) ライセンス: Link先を確認 | Yun Peng, Xiao Lin, Nachuan Ma, Jiayuan Du, Chuangwei Liu, Chengju Liu, Qijun Chen, | (参考訳) 視覚異常検出は、産業的欠陥検出や診断など、現実世界の応用において不可欠である。
しかし、既存のほとんどの手法は局所的な構造的異常に焦点を当てており、論理的条件下では高レベルの機能的異常を検出することができない。
近年の研究では、論理的異常検出が研究されているが、それらは欠落や追加のような単純な異常にのみ対処でき、データ駆動性が高いため、一般化性に乏しい。
このギャップを埋めるために,任意のシーンにおける論理的異常検出のためのゼロショット・プラグイン・アンド・プレイフレームワークSAM-LADを提案する。
まず,事前学習したバックボーンを用いて,問合せ画像の特徴マップを取得する。
同時に、クエリ画像の近接探索により、参照画像とその対応する特徴マップを検索する。
次に、クエリと参照画像のオブジェクトマスクを取得するために、SAM(Segment Anything Model)を導入する。
各オブジェクトマスクは、画像全体の特徴マップに乗じて、オブジェクトの特徴マップを取得する。
次に,オブジェクトマッチングモデル(OMM)を提案する。
オブジェクトマッチングを容易にするために,各オブジェクトをキーポイントとして扱い,特徴マップを特徴ベクトルに変換する動的チャネルグラフアテンション(DCGA)モジュールを提案する。
最後に、オブジェクトマッチング関係に基づいて、論理異常のあるオブジェクトを検出するために、異常測定モデル(AMM)を提案する。
物体の構造異常も検出できる。
本稿では,産業用データセット (MVTec Loco AD, MVTec AD) や論理用データセット (DigitAnatomy) など,様々なベンチマークを用いてSAM-LADを検証した。
SAM-LADは既存のSoTA法、特に論理異常の検出において優れていた。
Visual anomaly detection is vital in real-world applications, such as industrial defect detection and medical diagnosis. However, most existing methods focus on local structural anomalies and fail to detect higher-level functional anomalies under logical conditions. Although recent studies have explored logical anomaly detection, they can only address simple anomalies like missing or addition and show poor generalizability due to being heavily data-driven. To fill this gap, we propose SAM-LAD, a zero-shot, plug-and-play framework for logical anomaly detection in any scene. First, we obtain a query image's feature map using a pre-trained backbone. Simultaneously, we retrieve the reference images and their corresponding feature maps via the nearest neighbor search of the query image. Then, we introduce the Segment Anything Model (SAM) to obtain object masks of the query and reference images. Each object mask is multiplied with the entire image's feature map to obtain object feature maps. Next, an Object Matching Model (OMM) is proposed to match objects in the query and reference images. To facilitate object matching, we further propose a Dynamic Channel Graph Attention (DCGA) module, treating each object as a keypoint and converting its feature maps into feature vectors. Finally, based on the object matching relations, an Anomaly Measurement Model (AMM) is proposed to detect objects with logical anomalies. Structural anomalies in the objects can also be detected. We validate our proposed SAM-LAD using various benchmarks, including industrial datasets (MVTec Loco AD, MVTec AD), and the logical dataset (DigitAnatomy). Extensive experimental results demonstrate that SAM-LAD outperforms existing SoTA methods, particularly in detecting logical anomalies. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# FuRL:強化学習のためのファジィリワードとしての視覚言語モデル
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning ( http://arxiv.org/abs/2406.00645v2 ) ライセンス: Link先を確認 | Yuwei Fu, Haichao Zhang, Di Wu, Wei Xu, Benoit Boulet, | (参考訳) 本研究では,オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用方法について検討する。
特に、事前に定義されたテキストタスク記述を伴うスパース報酬タスクに焦点をあてる。
まず,VLMをRLタスクの報酬として適用する際の報酬不一致の問題を同定する。
本稿では,報酬アライメントとリレーRLに基づくファジィVLM報酬支援RL(FuRL)という軽量微調整手法を提案する。
具体的には、細調整VLM表現とリレーRLを用いて局所最小化を回避することで、スパース報酬タスクにおけるSAC/DrQベースラインエージェントの性能を向上させる。
Meta-worldベンチマークタスクに関する大規模な実験により,提案手法の有効性が示された。
コードは、https://github.com/fuyw/FuRL.comで入手できる。
In this work, we investigate how to leverage pre-trained visual-language models (VLM) for online Reinforcement Learning (RL). In particular, we focus on sparse reward tasks with pre-defined textual task descriptions. We first identify the problem of reward misalignment when applying VLM as a reward in RL tasks. To address this issue, we introduce a lightweight fine-tuning method, named Fuzzy VLM reward-aided RL (FuRL), based on reward alignment and relay RL. Specifically, we enhance the performance of SAC/DrQ baseline agents on sparse reward tasks by fine-tuning VLM representations and using relay RL to avoid local minima. Extensive experiments on the Meta-world benchmark tasks demonstrate the efficacy of the proposed method. Code is available at: https://github.com/fuyw/FuRL. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# once-for-all:動的粒度適応による制御可能な生成画像圧縮
Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption ( http://arxiv.org/abs/2406.00758v2 ) ライセンス: Link先を確認 | Anqi Li, Yuxi Liu, Huihui Bai, Feng Li, Runmin Cong, Meng Wang, Yao Zhao, | (参考訳) 最近の生成画像圧縮法は、速度歪みと知覚のトレードオフを最適化する驚くべき可能性を示しているが、様々な圧縮ニーズやシナリオに対するフレキシブルな速度適応という重要な課題に直面している。
この課題を克服するために,制御可能生成画像圧縮フレームワークであるコントロール-GICを提案する。
制御-GICは、画像を表すVQGANフレームワークを可変長符号の列(つまりVQ-インデックス)としてベースとしており、損失のない圧縮が可能であり、ビットレートと直接正の相関を示す。
そこで,従来の符号化原理からインスピレーションを得て,局所的な画像パッチの情報密度と粒度表現を自然に相関させ,粒度決定の後にコード量を動的に調整する。
これは、望ましい圧縮率を得るためにパッチの粒度の適切な割り当てを柔軟に決定できることを意味している。
さらに、送信された符号に従って歴史的符号化された多粒度表現に遡る確率的条件デコーダを開発し、さらに、条件確率の形式化において階層的な粒度の特徴を再構築し、より情報的な集約により、再構成リアリズムを改善する。
実験により、制御-GICは、高い柔軟性と制御可能なビットレート適応を可能にし、データセット全体の圧縮が制約されたビットレート条件を満たすことを実証した。
近年の最先端手法よりも優れた性能を示す実験結果が得られた。
Although recent generative image compression methods have demonstrated impressive potential in optimizing the rate-distortion-perception trade-off, they still face the critical challenge of flexible rate adaption to diverse compression necessities and scenarios. To overcome this challenge, this paper proposes a Controllable Generative Image Compression framework, Control-GIC, the first capable of fine-grained bitrate adaption across a broad spectrum while ensuring high-fidelity and generality compression. We base Control-GIC on a VQGAN framework representing an image as a sequence of variable-length codes (i.e. VQ-indices), which can be losslessly compressed and exhibits a direct positive correlation with the bitrates. Therefore, drawing inspiration from the classical coding principle, we naturally correlate the information density of local image patches with their granular representations, to achieve dynamic adjustment of the code quantity following different granularity decisions. This implies we can flexibly determine a proper allocation of granularity for the patches to acquire desirable compression rates. We further develop a probabilistic conditional decoder that can trace back to historic encoded multi-granularity representations according to transmitted codes, and then reconstruct hierarchical granular features in the formalization of conditional probability, enabling more informative aggregation to improve reconstruction realism. Our experiments show that Control-GIC allows highly flexible and controllable bitrate adaption and even once compression on an entire dataset to fulfill constrained bitrate conditions. Experimental results demonstrate its superior performance over recent state-of-the-art methods. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# 大規模言語モデルのためのBoNBoNアライメントとBest-of-nサンプリングの甘さ
BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling ( http://arxiv.org/abs/2406.00832v2 ) ライセンス: Link先を確認 | Lin Gui, Cristina Gârbacea, Victor Veitch, | (参考訳) 本稿では,大言語モデルからのサンプルをベスト・オブ・n$サンプリングを用いてヒトの嗜好に合わせるという問題に対処し,そこでは,$n$サンプルを描画し,ランク付けし,ベストなものを返す。
根本的な問題は2つある。
第一に、n$のベストとLLMをトレーニングして高い報酬(例えばRLHFやDPO)でサンプルを出力するアライメントのアプローチの関係はどうでしょう?
これに対応するため、基底LSM分布の傾きの共通クラスに、ベスト・オブ・n$分布とアライメント手順で学習したサンプリング分布の両方を埋め込む。
すると、このクラスの中で、ベスト・オブ・n$は、基本モデルと基本モデルとのKL距離とのトレードオフに関して本質的に最適であることを示す。
つまり、勝率の最大化を目標とする場合、n$のベストがアライメント分布のベストチョイスである。
しかし、$n$のベストは推論毎に$n$のサンプルを描画することであり、かなりのコストがかかる。
これを避けるために、第2の問題は、LLMを微調整して、最高の$n$サンプリング分布を模倣する方法である。
我々は、最良のn$分布の特別な構造を利用して、BoNBoNアライメントを導出する。
実験により、BoNBoNアライメントは、ターゲット外の側面を最小限に抑えつつ、基本方針に好適なモデルを作成する上で、大幅な改善をもたらすことが示された。
This paper concerns the problem of aligning samples from large language models to human preferences using best-of-$n$ sampling, where we draw $n$ samples, rank them, and return the best one. We consider two fundamental problems. First: what is the relationship between best-of-$n$ and approaches to alignment that train LLMs to output samples with a high expected reward (e.g., RLHF or DPO)? To answer this, we embed both the best-of-$n$ distribution and the sampling distributions learned by alignment procedures in a common class of tiltings of the base LLM distribution. We then show that, within this class, best-of-$n$ is essentially optimal in terms of the trade-off between win-rate against the base model vs KL distance from the base model. That is, best-of-$n$ is the best choice of alignment distribution if the goal is to maximize win rate. However, best-of-$n$ requires drawing $n$ samples for each inference, a substantial cost. To avoid this, the second problem we consider is how to fine-tune a LLM to mimic the best-of-$n$ sampling distribution. We derive BoNBoN Alignment to achieve this by exploiting the special structure of the best-of-$n$ distribution. Experiments show that BoNBoN alignment yields substantial improvements in producing a model that is preferred to the base policy while minimally affecting off-target aspects. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# Luna: 高精度で低コストな言語モデル幻覚をキャッチするための評価基礎モデル
Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost ( http://arxiv.org/abs/2406.00975v2 ) ライセンス: Link先を確認 | Masha Belyi, Robert Friel, Shuai Shao, Atindriyo Sanyal, | (参考訳) Retriever Augmented Generation (RAG) システムは,外部知識検索機構を組み込むことで,言語モデルの能力向上に重要な役割を担っている。
しかし、これらのシステムを業界アプリケーションに展開する上で重要な課題は幻覚の検出と緩和である。
この問題に対処することは、様々な業界環境で大きな言語モデル(LLM)が生み出す応答の信頼性と正確性を保証するために不可欠である。
現在の幻覚検出技術は、精度、低レイテンシ、低コストを同時に提供できない。
本稿では,RAG設定における幻覚検出のためのLuna: a DeBERTA-large (440M)エンコーダについて紹介する。
その結果,Luna は幻覚検出タスクにおいて GPT-3.5 と商用評価フレームワークをそれぞれ 97% と 91% のコスト削減,遅延低減を実現している。
Lunaは軽量で、複数の業界分野とドメイン外データにまたがって一般化されており、業界LLMアプリケーションにとって理想的な候補となっている。
Retriever Augmented Generation (RAG) systems have become pivotal in enhancing the capabilities of language models by incorporating external knowledge retrieval mechanisms. However, a significant challenge in deploying these systems in industry applications is the detection and mitigation of hallucinations: instances where the model generates information that is not grounded in the retrieved context. Addressing this issue is crucial for ensuring the reliability and accuracy of responses generated by large language models (LLMs) in diverse industry settings. Current hallucination detection techniques fail to deliver accuracy, low latency, and low cost simultaneously. We introduce Luna: a DeBERTA-large (440M) encoder, finetuned for hallucination detection in RAG settings. We demonstrate that Luna outperforms GPT-3.5 and commercial evaluation frameworks on the hallucination detection task, with 97% and 91% reduction in cost and latency, respectively. Luna is lightweight and generalizes across multiple industry verticals and out-of-domain data, making it an ideal candidate for industry LLM applications. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# レコメンダシステムにおける攻撃と防御
Poisoning Attacks and Defenses in Recommender Systems: A Survey ( http://arxiv.org/abs/2406.01022v2 ) ライセンス: Link先を確認 | Zongwei Wang, Junliang Yu, Min Gao, Wei Yuan, Guanhua Ye, Shazia Sadiq, Hongzhi Yin, | (参考訳) 現代のレコメンデーターシステム(RS)は、デジタルプラットフォーム全体のユーザエクスペリエンスを著しく向上させたが、毒殺攻撃による重大な脅威に直面している。
これらの攻撃は、非倫理的な利益のためにレコメンデーションアウトプットを操作することを目的としており、悪意のあるデータを注入したり、モデルのトレーニングを介入することでRSの脆弱性を悪用している。
この調査は、攻撃者のレンズを通してこれらの脅威を調べ、そのメカニズムと影響について新たな洞察を提供することによって、ユニークな視点を示す。
具体的には、攻撃目標の設定、攻撃能力の評価、被害者のアーキテクチャの分析、毒殺戦略の実行の4段階を含む、系統的なパイプラインを詳述する。
パイプラインは様々な攻撃戦術と整合するだけでなく、異なる毒殺攻撃の焦点を特定するための包括的分類としても機能する。
これに対応して、我々は防衛戦略を2つの主要なカテゴリに分類する: 有害なデータフィルタリングと、防御者の視点からの堅牢な訓練である。
最後に、既存の制限を強調し、この分野におけるさらなる探索のための革新的な方向性を提案する。
Modern recommender systems (RS) have profoundly enhanced user experience across digital platforms, yet they face significant threats from poisoning attacks. These attacks, aimed at manipulating recommendation outputs for unethical gains, exploit vulnerabilities in RS through injecting malicious data or intervening model training. This survey presents a unique perspective by examining these threats through the lens of an attacker, offering fresh insights into their mechanics and impacts. Concretely, we detail a systematic pipeline that encompasses four stages of a poisoning attack: setting attack goals, assessing attacker capabilities, analyzing victim architecture, and implementing poisoning strategies. The pipeline not only aligns with various attack tactics but also serves as a comprehensive taxonomy to pinpoint focuses of distinct poisoning attacks. Correspondingly, we further classify defensive strategies into two main categories: poisoning data filtering and robust training from the defender's perspective. Finally, we highlight existing limitations and suggest innovative directions for further exploration in this field. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# AFF-ttention! 短期オブジェクトインタラクション予測のための予測モデルと注意モデル
AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation ( http://arxiv.org/abs/2406.01194v2 ) ライセンス: Link先を確認 | Lorenzo Mur-Labadia, Ruben Martinez-Cantin, Josechu Guerrero, Giovanni Maria Farinella, Antonino Furnari, | (参考訳) 短期的オブジェクトインタラクション予測は、次のアクティブなオブジェクトの位置、対話の名詞と動詞のカテゴリ、および自我中心のビデオの観察から接触する時間を検出することで構成される。
この能力は、ユーザの目標を理解するためのウェアラブルアシスタントやヒューマンロボットのインタラクションには基本的だが、正確で信頼性の高い方法でSTAを実行するための改善の余地はまだ残っている。
本稿では,2つのコントリビューションによるSTA予測の性能向上について述べる。
1. STAformerは、フレームガイド付き時間プーリング、デュアルイメージビデオアテンション、マルチスケール機能融合を統合し、画像入力ビデオペアからのSTA予測をサポートする新しいアテンションベースアーキテクチャである。
まず,特定の物理的場面で発生する相互作用の永続記憶として機能する環境割当モデルを統合する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
以上の結果より,EPIC-Kitchens STAラベルの新規セットでは,Ego4Dでは45%,EPIC-Kitchens STAでは42%,Top-5 mAPでは45%と有意に改善した。
Ego4D と EPIC- Kitchens のコード、アノテーション、事前抽出した価格を公表し、この分野の今後の研究を奨励します。
Short-Term object-interaction Anticipation consists of detecting the location of the next-active objects, the noun and verb categories of the interaction, and the time to contact from the observation of egocentric video. This ability is fundamental for wearable assistants or human robot interaction to understand the user goals, but there is still room for improvement to perform STA in a precise and reliable way. In this work, we improve the performance of STA predictions with two contributions: 1. We propose STAformer, a novel attention-based architecture integrating frame guided temporal pooling, dual image-video attention, and multiscale feature fusion to support STA predictions from an image-input video pair. 2. We introduce two novel modules to ground STA predictions on human behavior by modeling affordances.First, we integrate an environment affordance model which acts as a persistent memory of interactions that can take place in a given physical scene. Second, we predict interaction hotspots from the observation of hands and object trajectories, increasing confidence in STA predictions localized around the hotspot. Our results show significant relative Overall Top-5 mAP improvements of up to +45% on Ego4D and +42% on a novel set of curated EPIC-Kitchens STA labels. We will release the code, annotations, and pre extracted affordances on Ego4D and EPIC- Kitchens to encourage future research in this area. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# 資源制約フェアネス
Resource-constrained Fairness ( http://arxiv.org/abs/2406.01290v2 ) ライセンス: Link先を確認 | Sofie Goethals, Eoin Delaney, Brent Mittelstadt, Chris Russell, | (参考訳) リソースへのアクセスは、決定を強く制約します。
学生全員に奨学金を提供したい、あるいは専門家とのフォローアップミーティングのために患者全員をスケジュールしたいと思うかもしれませんが、リソースは限られているため、これは不可能です。
公正な機械学習のための既存のツールは、これらの重要な制約を無視しており、ほとんどのメソッドは、決定が下される有限のリソース制限を無視している。
本研究は「資源制約公正」の概念を導入し、この枠組みにおける公正のコストを定量化する。
利用可能な資源のレベルがこのコストに大きく影響することを示し、これは過去の評価で見過ごされてきた要素である。
Access to resources strongly constrains the decisions we make. While we might wish to offer every student a scholarship, or schedule every patient for follow-up meetings with a specialist, limited resources mean that this is not possible. Existing tools for fair machine learning ignore these key constraints, with the majority of methods disregarding any finite resource limitations under which decisions are made. Our research introduces the concept of "resource-constrained fairness" and quantifies the cost of fairness within this framework. We demonstrate that the level of available resources significantly influences this cost, a factor that has been overlooked in previous evaluations. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# CTと臨床データを用いたマルチモーダルラーニングによる肺塞栓症の死亡率予測
Pulmonary Embolism Mortality Prediction Using Multimodal Learning Based on Computed Tomography Angiography and Clinical Data ( http://arxiv.org/abs/2406.01302v2 ) ライセンス: Link先を確認 | Zhusi Zhong, Helen Zhang, Fayez H. Fayad, Andrew C. Lancaster, John Sollee, Shreyas Kulkarni, Cheng Ting Lin, Jie Li, Xinbo Gao, Scott Collins, Colin Greineder, Sun H. Ahn, Harrison X. Bai, Zhicheng Jiao, Michael K. Atalay, | (参考訳) 目的: 肺塞栓症(PE)はアメリカにおいて重大な死因である。
本研究の目的は,CTPA(CTPA),臨床データ,PESI(PE Severity Index)スコアを用いたディープラーニング(DL)モデルを用いてPE死亡率を予測することである。
対象と方法:3施設の振り返り調査により918例(年齢64歳,13-99歳,女性52%)のCTPA3,978例が確認された。
生存を予測するため、CTPAから疾患関連画像の特徴を抽出するためにAIモデルが使用された。
画像特徴および臨床変数をDLモデルに組み込んで生存率を予測した。
1)CTPA画像のみの使用,(2)臨床変数のみの使用,(3)CTPAと臨床変数を統合したマルチモーダル,(4)PESIスコアを算出したマルチモーダルの4つのモデルを開発した。
コーマンス指数 (c-index) とネット再分類改善 (Net Reclassification Improvement) を用いて各モードのパフォーマンスと寄与を評価した。
性能はウィルコクソン符号ランク試験を用いてPESI予測と比較した。
カプラン・マイアー分析を行い,高リスク群と低リスク群に分類した。
右室機能障害を考慮し追加の因子リスク分析を行った。
結果: PESI融合モデルとマルチモーダルモデルでは, PESI単独よりも高いc-指標が得られた。
マルチモーダルおよびPESI融合モデルによる高リスク群と低リスク群への成層化後,死亡率は有意に異なっていた(p<0.001。
高リスクグループ化とRV機能障害との間には強い相関関係が認められた。
結論:CTPAの特徴,臨床データ,PESIを取り入れた多相DLモデルはPESI単独よりも高いc-指標をPE生存予測のために達成した。
Purpose: Pulmonary embolism (PE) is a significant cause of mortality in the United States. The objective of this study is to implement deep learning (DL) models using Computed Tomography Pulmonary Angiography (CTPA), clinical data, and PE Severity Index (PESI) scores to predict PE mortality. Materials and Methods: 918 patients (median age 64 years, range 13-99 years, 52% female) with 3,978 CTPAs were identified via retrospective review across three institutions. To predict survival, an AI model was used to extract disease-related imaging features from CTPAs. Imaging features and/or clinical variables were then incorporated into DL models to predict survival outcomes. Four models were developed as follows: (1) using CTPA imaging features only; (2) using clinical variables only; (3) multimodal, integrating both CTPA and clinical variables; and (4) multimodal fused with calculated PESI score. Performance and contribution from each modality were evaluated using concordance index (c-index) and Net Reclassification Improvement, respectively. Performance was compared to PESI predictions using the Wilcoxon signed-rank test. Kaplan-Meier analysis was performed to stratify patients into high- and low-risk groups. Additional factor-risk analysis was conducted to account for right ventricular (RV) dysfunction. Results: For both data sets, the PESI-fused and multimodal models achieved higher c-indices than PESI alone. Following stratification of patients into high- and low-risk groups by multimodal and PESI-fused models, mortality outcomes differed significantly (both p<0.001). A strong correlation was found between high-risk grouping and RV dysfunction. Conclusions: Multiomic DL models incorporating CTPA features, clinical data, and PESI achieved higher c-indices than PESI alone for PE survival prediction. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# MMLU-Pro: よりロバストで、マルチタスク言語を理解するベンチマーク
MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark ( http://arxiv.org/abs/2406.01574v3 ) ライセンス: Link先を確認 | Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen, | (参考訳) 大規模言語モデルの時代において、Multistive Multitask Language Understanding (MMLU)のようなベンチマークは、さまざまなドメインにわたる言語理解と推論においてAIが達成できることの境界を推し進めるために重要な役割を果たしてきた。
しかし、モデルの改善が進むにつれて、これらのベンチマークのパフォーマンスが低下し始めており、モデル機能の違いを識別することがますます困難になっている。
本稿では,知識駆動型MMLUベンチマークの拡張を目的としたMMLU-Proを提案する。
さらに、MMLU-ProはMMLUの自明でノイズの多い問題を取り除く。
実験の結果,MMLU-Proは課題を提起するだけでなく,MMLUに比べて16%から33%の精度低下を招いた。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
さらに, MMLU-Proを用いたモデルでは, MMLU-Proを用いた場合と比較して, MMLU-Proを用いた場合よりも, MMLU-Proを用いた場合の方が優れていることがわかった。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# GenBench:ゲノム基盤モデルのシステム評価のためのベンチマークスイート
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models ( http://arxiv.org/abs/2406.01627v2 ) ライセンス: Link先を確認 | Zicheng Liu, Jiahui Li, Siyuan Li, Zelin Zang, Cheng Tan, Yufei Huang, Yajing Bai, Stan Z. Li, | (参考訳) ゲノミック・ファンデーション・モデル(GFM)パラダイムは、大規模なゲノムデータから一般化可能な表現の抽出を容易にすることが期待されている。
進歩にもかかわらず、評価フレームワークの欠如は、実験的な設定、モデルの複雑度、ベンチマークデータセット、再現性の問題による公平な評価の確保を困難にしている。
標準化がなければ、比較分析のリスクは偏り、信頼できない。
本稿では,ゲノミクス・ファンデーション・モデルの有効性を評価するための総合的なベンチマーク・スイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
様々な生物ドメインにまたがるデータセットの体系的評価を通じて、特に短距離と長距離のゲノムタスクに重点を置いて、まず、コーディング領域、非コーディング領域、ゲノム構造などをカバーする3つの重要なDNAタスクを含む。
さらに,タスク固有の性能に対するモデルアーキテクチャとデータセット特性の相互作用を微妙に解析する。
パラメータの数とは無関係に、短距離および長距離タスクにおける注意ベースモデルと畳み込みモデルとの相違は、将来のGFMの設計に関する洞察を与える可能性がある。
The Genomic Foundation Model (GFM) paradigm is expected to facilitate the extraction of generalizable representations from massive genomic data, thereby enabling their application across a spectrum of downstream applications. Despite advancements, a lack of evaluation framework makes it difficult to ensure equitable assessment due to experimental settings, model intricacy, benchmark datasets, and reproducibility challenges. In the absence of standardization, comparative analyses risk becoming biased and unreliable. To surmount this impasse, we introduce GenBench, a comprehensive benchmarking suite specifically tailored for evaluating the efficacy of Genomic Foundation Models. GenBench offers a modular and expandable framework that encapsulates a variety of state-of-the-art methodologies. Through systematic evaluations of datasets spanning diverse biological domains with a particular emphasis on both short-range and long-range genomic tasks, firstly including the three most important DNA tasks covering Coding Region, Non-Coding Region, Genome Structure, etc. Moreover, We provide a nuanced analysis of the interplay between model architecture and dataset characteristics on task-specific performance. Our findings reveal an interesting observation: independent of the number of parameters, the discernible difference in preference between the attention-based and convolution-based models on short- and long-range tasks may provide insights into the future design of GFM. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# 自己改善ロバスト推論最適化
Self-Improving Robust Preference Optimization ( http://arxiv.org/abs/2406.01660v2 ) ライセンス: Link先を確認 | Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar, | (参考訳) PPOやDPOのようなオンラインおよびオフラインのRLHFメソッドは、AIと人間の好みを合わせることに成功している。
彼らの成功にもかかわらず、既存の手法は、その最適解がタスク依存性が高いという根本的な問題に悩まされている(すなわち、アウト・オブ・ディストリビューション(OOD)タスクに対して堅牢ではない)。
本稿では、タスクの変更に対して完全に堅牢な、実用的で数学的に原則化されたオフラインRLHFフレームワークである、自己改善ロバスト推論最適化SRPOを提案することで、この問題に対処する。
SRPOの鍵となる考え方は、人間の嗜好から学ぶことの問題を自己改善のプロセスとして提示することであり、これは、自己改善政策の協調最適化と、敵のやり方で生成政策を共同で最適化することを目的とした、min-max目的の数学的表現によって表現することができる。
この最適化問題の解決策は、トレーニングタスクとは独立しているため、その変更に対して堅牢である。
そこで我々は,この目的を,報酬モデルやオンライン推論を必要とせずに,標準化された最適化手法を用いて大規模に最適化できる非逆オフライン損失の形で再表現できることを示す。
本稿では,AI Win-Rate (WR) による人間(GOLD) の完成に対するSRPOの有効性を示す。
特に、SRPOがOOD XSUMデータセットで評価されると、5回の自己修正で15%の明確なマージンを達成し、90%のWRを達成する。
Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# EMOE:ロバストな不確実性に基づく拒絶のための専門家の広範囲なマッチング
EMOE: Expansive Matching of Experts for Robust Uncertainty Based Rejection ( http://arxiv.org/abs/2406.01825v2 ) ライセンス: Link先を確認 | Yunni Qu, James Wellnitz, Alexander Tropsha, Junier Oliva, | (参考訳) Expansive Matching of Experts (EMOE) は, アウト・オブ・ディストリビューション(OOD)点に基づく予測と不確実性に基づく拒絶を改善するために, サポート拡張, 補間的擬似ラベルを用いた新しい手法である。
本稿では,潜在空間におけるOODインスタンスを生成する拡張データ拡張手法と,擬似ラベル処理のための拡張拡張点をフィルタリングするための実証実験に基づくアプローチを提案する。
EMOEは、複数のベースエキスパートの多様なセットを、拡張データ上の擬似ラベルとして使用して、複数のヘッドを持つ共有MLP(専門家1人)を通じて、OODのパフォーマンスを改善する。
EMOEは表データの最先端手法に比べて優れた性能を示すことを示す。
Expansive Matching of Experts (EMOE) is a novel method that utilizes support-expanding, extrapolatory pseudo-labeling to improve prediction and uncertainty based rejection on out-of-distribution (OOD) points. We propose an expansive data augmentation technique that generates OOD instances in a latent space, and an empirical trial based approach to filter out augmented expansive points for pseudo-labeling. EMOE utilizes a diverse set of multiple base experts as pseudo-labelers on the augmented data to improve OOD performance through a shared MLP with multiple heads (one per expert). We demonstrate that EMOE achieves superior performance compared to state-of-the-art methods on tabular data. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# CR-UTP:大規模言語モデルにおけるユニバーサルテキスト摂動に対するロバスト性認定
CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models ( http://arxiv.org/abs/2406.01873v2 ) ライセンス: Link先を確認 | Qian Lou, Xin Liang, Jiaqi Xue, Yancheng Zhang, Rui Xie, Mengxin Zheng, | (参考訳) 言語モデルによってなされる全ての予測の安定性を保証することは必須であり、すなわち、単語置換のような小さな入力のバリエーションにもかかわらず、言語の予測は一貫していなければならない。
本稿では,ユビキタステキスト摂動(UTP)に対する言語モデルの堅牢性を検証することの問題点について考察する。
ランダムスムーシングに基づく既存の証明されたロバスト性は、サンプルのクリーンな単語や逆境的な単語のランダムな変更がサンプルの摂動の影響を無効にするという仮定の下で、入力固有のテキスト摂動(ISTP)の証明にかなりの可能性を示している。
しかし、UTPでは、敵の単語のみをマスキングすることで攻撃を排除できる。
ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、広範なマスキングによる入力汚損による認証精度と認証半径の両方が著しく低下する。
この課題を解決するために,広範囲なマスキングの下で高い認証精度を維持する優れたプロンプトを識別するための新しい手法,優れたプロンプト探索手法を提案する。
さらに、なぜアンサンブルがランダムな平滑化のためのベースプロンプトとして特に適した選択なのかを理論的に動機づける。
この方法は、より優れたプロンプトアンサンブル技術によって示される。
また、この手法を実証的に確認し、複数の設定で最先端の結果を得る。
これらの手法は、初めて、UPPとISTPの両方に対して高い認証精度を実現する。
CR-UTPのソースコードは \url {https://github.com/UCFML-Research/CR-UTP} で公開されている。
It is imperative to ensure the stability of every prediction made by a language model; that is, a language's prediction should remain consistent despite minor input variations, like word substitutions. In this paper, we investigate the problem of certifying a language model's robustness against Universal Text Perturbations (UTPs), which have been widely used in universal adversarial attacks and backdoor attacks. Existing certified robustness based on random smoothing has shown considerable promise in certifying the input-specific text perturbations (ISTPs), operating under the assumption that any random alteration of a sample's clean or adversarial words would negate the impact of sample-wise perturbations. However, with UTPs, masking only the adversarial words can eliminate the attack. A naive method is to simply increase the masking ratio and the likelihood of masking attack tokens, but it leads to a significant reduction in both certified accuracy and the certified radius due to input corruption by extensive masking. To solve this challenge, we introduce a novel approach, the superior prompt search method, designed to identify a superior prompt that maintains higher certified accuracy under extensive masking. Additionally, we theoretically motivate why ensembles are a particularly suitable choice as base prompts for random smoothing. The method is denoted by superior prompt ensembling technique. We also empirically confirm this technique, obtaining state-of-the-art results in multiple settings. These methodologies, for the first time, enable high certified accuracy against both UTPs and ISTPs. The source code of CR-UTP is available at \url {https://github.com/UCFML-Research/CR-UTP}. | 翻訳日:2024-06-06 11:59:09 公開日:2024-06-05 |
# 不名誉と無害なアライメント
Dishonesty in Helpful and Harmless Alignment ( http://arxiv.org/abs/2406.01931v2 ) ライセンス: Link先を確認 | Youcheng Huang, Jingkun Tang, Duanyu Feng, Zheng Zhang, Wenqiang Lei, Jiancheng Lv, Anthony G. Cohn, | (参考訳) 人々は報酬を求めるときに嘘をつく。
大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。
また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。
最新の解釈ツールを用いて、不完全性を検出し、誠実さを増すとLLMが有害であることを示すとともに、パラメータレベルでの矛盾を分析する。
これらの前提条件と報酬探索が不当さを刺激する仮説を考えると、不当さはアライメント性能を低下させ、報酬探索のアライメントを表現規則化とともに増大させることができることが理論的に示される。
GPT-4アノテートウインレート、パープレキシティ、ケーススタディを含む広範囲な結果から、より正直で、役に立つ、無害なLDMを訓練できることが示される。
私たちは、この論文の受理に基づいて、すべてのコードと結果をオープンソースにします。
People tell lies when seeking rewards. Large language models (LLMs) are aligned to human values with reinforcement learning where they get rewards if they satisfy human preference. We find that this also induces dishonesty in helpful and harmless alignment where LLMs tell lies in generating harmless responses. Using the latest interpreting tools, we detect dishonesty, show how LLMs can be harmful if their honesty is increased, and analyze such conflicts at the parameter-level. Given these preliminaries and the hypothesis that reward-seeking stimulates dishonesty, we theoretically show that the dishonesty can in-turn decrease the alignment performances and augment reward-seeking alignment with representation regularization. Extensive results, including GPT-4 annotated win-rates, perplexities, and cases studies demonstrate that we can train more honest, helpful, and harmless LLMs. We will make all our codes and results be open-sourced upon this paper's acceptance. | 翻訳日:2024-06-06 11:48:58 公開日:2024-06-05 |
# マルチモーダルエンティティリンクのための最適輸送誘導相関アサインメント
Optimal Transport Guided Correlation Assignment for Multimodal Entity Linking ( http://arxiv.org/abs/2406.01934v2 ) ライセンス: Link先を確認 | Zefeng Zhang, Jiawei Sheng, Chuang Zhang, Yunzhi Liang, Wenyuan Zhang, Siqi Wang, Tingwen Liu, | (参考訳) MEL(Multimodal Entity Linking)は、マルチモーダルなコンテキストにおける曖昧な言及をマルチモーダルな知識グラフ内のエンティティにリンクすることを目的としている。
重要な課題は、参照とエンティティ間の多要素相関を完全に活用して、モダリティギャップをブリッジし、きめ細かいセマンティックマッチングを可能にすることである。
既存の手法は、自動的に学習された注意重みに大きく依存し、部分的相関に過度に集中して、いくつかの局所的な相関機構を試みている。
この問題を緩和するために、相関代入問題を最適輸送(OT)問題として定式化し、新しいMELフレームワークであるOT-MELとOT誘導相関代入を提案する。
そこで我々は,マルチモーダル融合を向上するためのマルチモーダル特徴間の相関と,参照とエンティティ間の相関を利用して,きめ細かなマッチングを強化する。
モデル予測を高速化するために,知識蒸留を活用して,OT割当知識を注意機構に伝達する。
実験結果から,本モデルが先行技術ベースラインを著しく上回り,OT誘導相関代入の有効性が確認された。
Multimodal Entity Linking (MEL) aims to link ambiguous mentions in multimodal contexts to entities in a multimodal knowledge graph. A pivotal challenge is to fully leverage multi-element correlations between mentions and entities to bridge modality gap and enable fine-grained semantic matching. Existing methods attempt several local correlative mechanisms, relying heavily on the automatically learned attention weights, which may over-concentrate on partial correlations. To mitigate this issue, we formulate the correlation assignment problem as an optimal transport (OT) problem, and propose a novel MEL framework, namely OT-MEL, with OT-guided correlation assignment. Thereby, we exploit the correlation between multimodal features to enhance multimodal fusion, and the correlation between mentions and entities to enhance fine-grained matching. To accelerate model prediction, we further leverage knowledge distillation to transfer OT assignment knowledge to attention mechanism. Experimental results show that our model significantly outperforms previous state-of-the-art baselines and confirm the effectiveness of the OT-guided correlation assignment. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# 事前インフォームドHDマップ予測モデルにおける実世界地図変化の一般化の探索
Exploring Real World Map Change Generalization of Prior-Informed HD Map Prediction Models ( http://arxiv.org/abs/2406.01961v2 ) ライセンス: Link先を確認 | Samuel M. Bateman, Ning Xu, H. Charles Zhao, Yael Ben Shalom, Vince Gong, Greg Long, Will Maddern, | (参考訳) ハイディフィニション(HD)マップの構築と維持は、自動運転車の配備にとって大きな障壁となる。
これは、現代のオンライン地図検出モデルの進歩とともに、オンライン地図問題への新たな関心を呼び起こした。
しかし、安全で自律的なデプロイメントを可能にするために、オンラインマップを十分な品質で効果的に予測することは、大きな課題である。
これらのモデルに関する最近の研究は、古いHDマップの先行をシミュレートするために、合成摂動を用いた低品質マップ事前を用いた堅牢なオンラインマッピングシステムのトレーニングを提案する。
本稿では,これらの合成摂動マップで訓練されたモデルが,展開規模,実世界の地図変化における性能を一般化する方法について検討する。
本研究では,複数年にわたる実世界の自律運転データを用いて,実世界のHDマップ変化を一般化する上で,どの合成摂動が最も有用かを決定するための大規模実験を行った。
合成先行摂動と観測された実世界の変化の間には、依然としてかなりのsim2realギャップがあることが示され、これは現在の事前インフォームドHDマップ予測モデルの有用性を制限している。
Building and maintaining High-Definition (HD) maps represents a large barrier to autonomous vehicle deployment. This, along with advances in modern online map detection models, has sparked renewed interest in the online mapping problem. However, effectively predicting online maps at a high enough quality to enable safe, driverless deployments remains a significant challenge. Recent work on these models proposes training robust online mapping systems using low quality map priors with synthetic perturbations in an attempt to simulate out-of-date HD map priors. In this paper, we investigate how models trained on these synthetically perturbed map priors generalize to performance on deployment-scale, real world map changes. We present a large-scale experimental study to determine which synthetic perturbations are most useful in generalizing to real world HD map changes, evaluated using multiple years of real-world autonomous driving data. We show there is still a substantial sim2real gap between synthetic prior perturbations and observed real-world changes, which limits the utility of current prior-informed HD map prediction models. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# マルチモーダル知識グラフを用いたマルチモーダル推論
Multimodal Reasoning with Multimodal Knowledge Graph ( http://arxiv.org/abs/2406.02030v2 ) ライセンス: Link先を確認 | Junlin Lee, Yequan Wang, Jing Li, Min Zhang, | (参考訳) 大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚やLLM内の欠陥や時代遅れな知識の存在に悩まされることが多い。
テキストナレッジグラフを用いてこれらの問題を緩和しようとするアプローチもあるが、その特異な知識のモダリティは総合的なクロスモーダル理解を制限している。
本稿では,マルチモーダル知識グラフ(MMKG)を利用した多モーダル知識グラフを用いたマルチモーダル推論手法を提案する。
特に、MMKGの符号化に関係グラフアテンションネットワークを用い、画像テキストアライメントを最適化するクロスモーダルアライメントモジュールを設計する。
MMKGを基底としたデータセットは、事前学習によるマルチモーダル推論において、初期の専門知識を持つLLMを装備するために構築される。
注目すべきは、MR-MKG は LLM のパラメータの約 2.25% である少数のパラメータのみをトレーニングしながら、優れた性能を達成することである。
マルチモーダル質問応答とマルチモーダル類似推論タスクの実験結果から, MR-MKG法が従来の最先端モデルより優れていることが示された。
Multimodal reasoning with large language models (LLMs) often suffers from hallucinations and the presence of deficient or outdated knowledge within LLMs. Some approaches have sought to mitigate these issues by employing textual knowledge graphs, but their singular modality of knowledge limits comprehensive cross-modal understanding. In this paper, we propose the Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG) method, which leverages multimodal knowledge graphs (MMKGs) to learn rich and semantic knowledge across modalities, significantly enhancing the multimodal reasoning capabilities of LLMs. In particular, a relation graph attention network is utilized for encoding MMKGs and a cross-modal alignment module is designed for optimizing image-text alignment. A MMKG-grounded dataset is constructed to equip LLMs with initial expertise in multimodal reasoning through pretraining. Remarkably, MR-MKG achieves superior performance while training on only a small fraction of parameters, approximately 2.25% of the LLM's parameter size. Experimental results on multimodal question answering and multimodal analogy reasoning tasks demonstrate that our MR-MKG method outperforms previous state-of-the-art models. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# 日本語大言語モデルにおける社会的バイアスの分析
Analyzing Social Biases in Japanese Large Language Models ( http://arxiv.org/abs/2406.02050v2 ) ライセンス: Link先を確認 | Hitomi Yanaka, Namgi Han, Ryoma Kumon, Jie Lu, Masashi Takeshita, Ryo Sekizawa, Taisei Kato, Hiromi Arai, | (参考訳) LLM(Large Language Models)の発展に伴い、LLMの社会的偏見は重要な問題となっている。
言語によって様々な社会的バイアスのベンチマークが提供されているが、日本人のLLMが社会的バイアスを示す程度については、十分に調査されていない。
本研究では、英語バイアスベンチマークBBQに基づいて日本語バイアスベンチマーク(JBBQ)を構築し、日本語LLMにおける社会的バイアスを分析する。
その結果,現在の日本語LLMでは,JBBQの精度は指導訓練によって向上するが,バイアススコアは大きくなることがわかった。
さらに、社会的バイアスに関する警告でプロンプトを増強することで、一部のモデルにおけるバイアスの影響を減らすことができる。
With the development of Large Language Models (LLMs), social biases in the LLMs have become a crucial issue. While various benchmarks for social biases have been provided across languages, the extent to which Japanese LLMs exhibit social biases has not been fully investigated. In this study, we construct the Japanese Bias Benchmark dataset for Question Answering (JBBQ) based on the English bias benchmark BBQ, and analyze social biases in Japanese LLMs. The results show that while current Japanese LLMs improve their accuracies on JBBQ by instruction-tuning, their bias scores become larger. In addition, augmenting their prompts with warning about social biases reduces the effect of biases in some models. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# エネルギー-運動量とスピン電流の非特異性について
On the non-uniqueness of the energy-momentum and spin currents ( http://arxiv.org/abs/2406.02127v2 ) ライセンス: Link先を確認 | Rajeev Singh, | (参考訳) 相対論的スピン流体力学のマクロエネルギー-運動量とスピン密度は、それぞれの微視的定義(量子演算子)のアンサンブル平均から得られる。
これらの微視的定義は曖昧さに悩まされており、つまり、擬ゲージ変換(あるいは言い換えればベリンファント改善手順)を通じて対称エネルギー-運動量テンソルとスピンテンソルの異なる形式を得ることができる。
しかし、ネーターの第1定理を広く使用するのではなく、ネーターの第2定理を用いてこれらの電流を得る場合、この曖昧さは取り除くことができる。
本稿では、ネーターの第二定理を用いて、スピン 1-半の自由ディラック粒子に対する擬ゲージ変換を必要とせず、エネルギー-運動量とスピン電流を導出する。
The macroscopic energy-momentum and spin densities of relativistic spin hydrodynamics are obtained from the ensemble average of their respective microscopic definitions (quantum operators). These microscopic definitions suffer from ambiguities, meaning that, one may obtain different forms of symmetric energy-momentum tensor and spin tensor through pseudogauge transformations (or in other words Belinfante improvement procedure). However, this ambiguity can be removed if we obtain these currents using Noether's second theorem instead of widely used Noether's first theorem. In this article, we use Noether's second theorem to derive energy-momentum and spin currents without the need of pseudogauge transformations for free Dirac massive particles with spin one-half. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# CondTSF: 時系列予測のためのデータセット凝縮の一行プラグイン
CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting ( http://arxiv.org/abs/2406.02131v2 ) ライセンス: Link先を確認 | Jianrong Ding, Zhanyu Liu, Guanjie Zheng, Haiming Jin, Linghe Kong, | (参考訳) Dataset Condensationは、ディープラーニングのトレーニングに使用できる小さなデータセットを生成して、トレーニングコストを削減できる、生まれたばかりのテクニックだ。
データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。
しかし、既存の手法は主に分類タスクに集中しており、時系列予測(TS予測)への適応に挑戦している。
この課題は、合成データの評価における相違から生じる。
分類において、合成データは、全データセットで訓練されたモデルと、合成データセットで訓練されたモデルが、出力ロジット分布のばらつきにかかわらず、同一のラベルを同じ入力のために生成した場合、よく蒸留されると考えられる。
逆に, TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
合成データは、予測内のすべてのデータポイントが類似している場合にのみよく蒸留される。
その結果,TS予測は分類よりも厳密な評価手法が得られた。
このギャップを緩和するため,TS予測のためのデータセット凝縮の最適化目標を理論的に分析し,時系列予測のためのデータセット凝縮(CondTSF)として指定されたデータセット凝縮の1行プラグインを提案する。
CondTSFを以前のデータセット凝縮法にプラグインすることで、完全なデータセットでトレーニングされたモデルの予測と合成データセットでトレーニングされたモデルとの距離の短縮が容易になり、パフォーマンスが向上する。
一般的に用いられている8つの時系列データセットについて広範な実験を行う。
CondTSFは、すべてのデータセット、特に低凝縮率において、以前のデータセット凝縮メソッドのパフォーマンスを一貫して改善する。
Dataset condensation is a newborn technique that generates a small dataset that can be used in training deep neural networks to lower training costs. The objective of dataset condensation is to ensure that the model trained with the synthetic dataset can perform comparably to the model trained with full datasets. However, existing methods predominantly concentrate on classification tasks, posing challenges in their adaptation to time series forecasting (TS-forecasting). This challenge arises from disparities in the evaluation of synthetic data. In classification, the synthetic data is considered well-distilled if the model trained with the full dataset and the model trained with the synthetic dataset yield identical labels for the same input, regardless of variations in output logits distribution. Conversely, in TS-forecasting, the effectiveness of synthetic data distillation is determined by the distance between predictions of the two models. The synthetic data is deemed well-distilled only when all data points within the predictions are similar. Consequently, TS-forecasting has a more rigorous evaluation methodology compared to classification. To mitigate this gap, we theoretically analyze the optimization objective of dataset condensation for TS-forecasting and propose a new one-line plugin of dataset condensation designated as Dataset Condensation for Time Series Forecasting (CondTSF) based on our analysis. Plugging CondTSF into previous dataset condensation methods facilitates a reduction in the distance between the predictions of the model trained with the full dataset and the model trained with the synthetic dataset, thereby enhancing performance. We conduct extensive experiments on eight commonly used time series datasets. CondTSF consistently improves the performance of all previous dataset condensation methods across all datasets, particularly at low condensing ratios. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# AROMA:局所ニューラルネットワークを用いた潜在PDEモデリングのための空間構造保存
AROMA: Preserving Spatial Structure for Latent PDE Modeling with Local Neural Fields ( http://arxiv.org/abs/2406.02176v2 ) ライセンス: Link先を確認 | Louis Serrano, Thomas X Wang, Etienne Le Naour, Jean-Noël Vittaut, Patrick Gallinari, | (参考訳) 本稿では、局所的なニューラルネットワークを用いた偏微分方程式(PDE)のモデリングを強化するためのフレームワークであるAROMAを提案する。
我々のフレキシブルエンコーダデコーダアーキテクチャは、不規則なグリッド入力や点雲を含む様々なデータタイプから、空間物理場のスムーズな遅延表現を得ることができる。
この汎用性はパッチの必要性を排除し、多様なジオメトリの効率的な処理を可能にする。
潜在表現のシーケンシャルな性質は空間的に解釈することができ、PDEの時間的ダイナミクスをモデル化するための条件変換器の使用を可能にする。
拡散型定式化を用いることで、従来のMSEトレーニングと比較して安定性が向上し、ロールアウトが長くなる。
1次元方程式と2次元方程式のシミュレーションにおけるAROMAの優れた性能は、複雑な力学挙動を捉える上でのアプローチの有効性を裏付けるものである。
We present AROMA (Attentive Reduced Order Model with Attention), a framework designed to enhance the modeling of partial differential equations (PDEs) using local neural fields. Our flexible encoder-decoder architecture can obtain smooth latent representations of spatial physical fields from a variety of data types, including irregular-grid inputs and point clouds. This versatility eliminates the need for patching and allows efficient processing of diverse geometries. The sequential nature of our latent representation can be interpreted spatially and permits the use of a conditional transformer for modeling the temporal dynamics of PDEs. By employing a diffusion-based formulation, we achieve greater stability and enable longer rollouts compared to conventional MSE training. AROMA's superior performance in simulating 1D and 2D equations underscores the efficacy of our approach in capturing complex dynamical behaviors. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# 二重サンプリング)ランダム化平滑化に及ぼす指数ガウス分布の影響
Effects of Exponential Gaussian Distribution on (Double Sampling) Randomized Smoothing ( http://arxiv.org/abs/2406.02309v2 ) ライセンス: Link先を確認 | Youwei Shu, Xi Xiao, Derui Wang, Yuxin Cao, Siji Chen, Jason Xue, Linyi Li, Bo Li, | (参考訳) ランダム化平滑化(Randomized Smoothing, RRS)は、現在、敵に対する堅牢性証明を提供するスケーラブルな認証防御手法である。
対価$$\ell_p$に対する防衛手段を提供することで大きな進歩を遂げているが、スムーズな分布とロバスト性証明との相互作用はいまだにあいまいである。
本研究では,指数標準ガウス分布 (Exponential Standard Gaussian, ESG) と指数一般ガウス分布 (Exponential General Gaussian, EGG) の2種類の分布がランダム化平滑化および二重サンプリングランダム化平滑化 (DSRS) に与える影響を包括的に研究する。
ESGの認定半径は、次元が$d$増加するにつれてRSの原式に収束する。
さらに、EGGは、$\Omega(\sqrt{d})$ lower bounds of $\ell_2$ certified radius を提供することで、DSRSよりも厳密な定数因子を提供できることを証明し、したがって、RSの次元性の呪いに対処する。
実世界のデータセットに関する我々の実験は、ESG分布の理論解析を裏付け、RSとDSRSの双方に対して、異なる指数$\eta$でほぼ同じ証明を提供する。
さらに、EGGはDSRS認証に大幅な改善をもたらすが、分類器特性が異なる場合、メカニズムが異なる可能性がある。
原始DSRSと比較して、EGGが提供する認証精度の上昇は、ImageNetで最大6.4%まで顕著である。
Randomized Smoothing (RS) is currently a scalable certified defense method providing robustness certification against adversarial examples. Although significant progress has been achieved in providing defenses against $\ell_p$ adversaries, the interaction between the smoothing distribution and the robustness certification still remains vague. In this work, we comprehensively study the effect of two families of distributions, named Exponential Standard Gaussian (ESG) and Exponential General Gaussian (EGG) distributions, on Randomized Smoothing and Double Sampling Randomized Smoothing (DSRS). We derive an analytic formula for ESG's certified radius, which converges to the origin formula of RS as the dimension $d$ increases. Additionally, we prove that EGG can provide tighter constant factors than DSRS in providing $\Omega(\sqrt{d})$ lower bounds of $\ell_2$ certified radius, and thus further addresses the curse of dimensionality in RS. Our experiments on real-world datasets confirm our theoretical analysis of the ESG distributions, that they provide almost the same certification under different exponents $\eta$ for both RS and DSRS. In addition, EGG brings a significant improvement to the DSRS certification, but the mechanism can be different when the classifier properties are different. Compared to the primitive DSRS, the increase in certified accuracy provided by EGG is prominent, up to 6.4% on ImageNet. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# 航法コンテキストを内陸船舶軌道予測に組み込む:ガウス混合モデルと変圧器アプローチ
Incorporating Navigation Context into Inland Vessel Trajectory Prediction: A Gaussian Mixture Model and Transformer Approach ( http://arxiv.org/abs/2406.02344v2 ) ライセンス: Link先を確認 | Kathrin Donandt, Dirk Söffker, | (参考訳) 自動識別システム(Automatic Identification System)以外のデータソースを使用して、船舶が航行しているコンテキストを表現し、その結果、船舶軌道予測(VTP)に対する機械学習アプローチでは、状況認識を改善することは依然として稀である。
船舶の移動がフェアウェイ内で制限されている内陸輸送では、航行コンテキスト情報は不可欠である。
内陸VTPを対象とするコントリビューションでは、AISの融合データセットと放電測定に基づいてガウス混合モデル(GMM)を適用し、マルチモーダル分布曲線を生成し、フェアウェイにおける典型的な側方容器の位置と水路沿いの変位速度を捉える。
GMMの確率密度曲線をサンプリングすることにより、VTP変換器モデルへの入力として、時空間の容器特徴やフェアウェイジオメトリとともに特徴ベクトルを導出する。
これらの分布特徴を現在のナビゲーションコンテキストと今後のナビゲーションコンテキストの両方に組み込むことで、予測精度が向上する。
内陸VTPの変圧器モデルよりもモデルの方が優れていることを示す。
新規性は、コンテキストデータからVTPタスクに関連する特徴を抽出するモデルに頼るのではなく、条件付き空間コンテキストを表す事前処理された統計ベースの特徴を提供することにある。
単一の典型的な経路を仮定したり、モデルアプリケーションに先立って特定のクラスタを選択することで、内陸ナビゲーションパターンの複雑さを過度に単純化することは避けられる。
この手法の一般化性は、3つの異なる河川区間のデータを用いて示される。
相互作用を意識した予測フレームワークに統合することができ、現在の位置と放電における全体の分布における実際の容器の挙動の位置に関する洞察は、軌道予測の精度を高めることができる。
Using data sources beyond the Automatic Identification System to represent the context a vessel is navigating in and consequently improve situation awareness is still rare in machine learning approaches to vessel trajectory prediction (VTP). In inland shipping, where vessel movement is constrained within fairways, navigational context information is indispensable. In this contribution targeting inland VTP, Gaussian Mixture Models (GMMs) are applied, on a fused dataset of AIS and discharge measurements, to generate multi-modal distribution curves, capturing typical lateral vessel positioning in the fairway and dislocation speeds along the waterway. By sampling the probability density curves of the GMMs, feature vectors are derived which are used, together with spatio-temporal vessel features and fairway geometries, as input to a VTP transformer model. The incorporation of these distribution features of both the current and forthcoming navigation context improves prediction accuracy. The superiority of the model over a previously proposed transformer model for inland VTP is shown. The novelty lies in the provision of preprocessed, statistics-based features representing the conditioned spatial context, rather than relying on the model to extract relevant features for the VTP task from contextual data. Oversimplification of the complexity of inland navigation patterns by assuming a single typical route or selecting specific clusters prior to model application is avoided by giving the model access to the entire distribution information. The methodology's generalizability is demonstrated through the usage of data of 3 distinct river sections. It can be integrated into an interaction-aware prediction framework, where insights into the positioning of the actual vessel behavior in the overall distribution at the current location and discharge can enhance trajectory prediction accuracy. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# LlamaCare: 医療知識共有を促進するための大規模医療用言語モデル
LlamaCare: A Large Medical Language Model for Enhancing Healthcare Knowledge Sharing ( http://arxiv.org/abs/2406.02350v2 ) ライセンス: Link先を確認 | Maojun Sun, | (参考訳) 大規模言語モデル(LLM)は、知識記憶と現在における驚くべき能力を示している。
しかし、ドメイン固有の知識や医学のような下流のタスクに関しては、一般のLLMは正確な答えを与えることができないことが多い。
加えて、LLMに分類問題に答えたい場合、まず指導のチューニングを行うのが普通である。
しかし、LLMは命令チューニング後の分類の直接インデックスを与えるとは限らない。
本稿では,細調整医療用言語モデルであるLlamaCareと,LLMの分類問題を扱うモジュールである拡張分類統合(ECI)を提案する。
私たちの貢献は
(i)24G GPUによるChatGPTと同様の性能を達成し,低炭素排出量の医療知識の大規模言語モデルを微調整した。
(II)拡張分類統合と呼ばれる新しいモジュールを提案することにより,冗長な分類解の解決とLLMの性能向上を実現した。
(iii) PubMedQA や USMLE 1-3 ステップなど,いくつかのベンチマークを対象としたワンショットおよび数ショットトレーニングのための処理データをリリースした。
提案手法は,GPU計算時間が少なくて環境に優しく,ベンチマーク上で同じ量のパラメータを持つ最先端モデルに匹敵する性能を実現している。
我々のモデル、コード、データセットは \url{https://github.com/Stephen-SMJ/LLamaCare} で見ることができる。
Large language models (LLMs) have shown amazing capabilities in knowledge memorization and the present. However, when it comes to domain-specific knowledge and downstream tasks like medical, general LLMs are often unable to give precise answers. In addition, when people want LLMs to answer classification questions, they usually go through instruction tuning first. However, LLMs do not always give a direct index of the categorization after instruction tuning. In this paper, we proposed LlamaCare, a fine-tuned medical language model, and Extended Classification Integration(ECI), a module to handle classification problems of LLMs. Our contributions are : (i) We fine-tuned a large language model of medical knowledge with very low carbon emissions and achieved similar performance with ChatGPT by a 24G GPU. (ii) We solved the problem of redundant categorical answers and improved the performance of LLMs by proposing a new module called Extended Classification Integration. (iii) We released our processed data for one-shot and few-shot training for some benchmarks such as PubMedQA and USMLE 1-3 step. Our method achieves a close performance comparable to some state-of-the-art models with the same quantity of parameters on benchmarks, while being more environmentally friendly by using less GPU computation time. Our models, codes, and datasets can be found at \url{https://github.com/Stephen-SMJ/LLamaCare}. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# Expander Graphsを用いたテンポラルグラフのリライト
Temporal Graph Rewiring with Expander Graphs ( http://arxiv.org/abs/2406.02362v2 ) ライセンス: Link先を確認 | Katarina Petrović, Shenyang Huang, Farimah Poursafaei, Petar Veličković, | (参考訳) 実世界のネットワークにおける進化関係は、しばしば時間グラフによってモデル化される。
グラフニューラルネットワーク(GNN)では,表現性の向上とモデル性能の向上のためにグラフ再配線技術が利用されている。
本研究では,時間グラフ上でのグラフリウィリングの最初のアプローチである時間グラフリウィリング(TGR)を提案する。
TGRは,遠隔ノード間のメッセージパッシングのためのメッセージパッシングハイウェイを構築するために,拡張グラフの伝搬を利用して,時間的に離れたノード間の通信を可能にする。
エクスパンダーグラフは、GNNでよく見られる過度な問題を克服するのに役立つため、再配線に適した候補である。
tgbl-wikiベンチマークでは、TGRが広く使われているTGNモデルの性能を大幅に向上することを示した。
私たちのコードリポジトリはhttps://github.com/kpetrovicc/TGR.gitでアクセスできます。
Evolving relations in real-world networks are often modelled by temporal graphs. Graph rewiring techniques have been utilised on Graph Neural Networks (GNNs) to improve expressiveness and increase model performance. In this work, we propose Temporal Graph Rewiring (TGR), the first approach for graph rewiring on temporal graphs. TGR enables communication between temporally distant nodes in a continuous time dynamic graph by utilising expander graph propagation to construct a message passing highway for message passing between distant nodes. Expander graphs are suitable candidates for rewiring as they help overcome the oversquashing problem often observed in GNNs. On the public tgbl-wiki benchmark, we show that TGR improves the performance of a widely used TGN model by a significant margin. Our code repository is accessible at https://github.com/kpetrovicc/TGR.git . | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# IterMask2:MRIにおける脳病変に対する空間および周波数マスキングによる反復的非教師的異常分割
IterMask2: Iterative Unsupervised Anomaly Segmentation via Spatial and Frequency Masking for Brain Lesions in MRI ( http://arxiv.org/abs/2406.02422v2 ) ライセンス: Link先を確認 | Ziyun Liang, Xiaoqing Guo, J. Alison Noble, Konstantinos Kamnitsas, | (参考訳) 病理セグメント化に対する教師なし異常セグメンテーションアプローチは、正常な被験者の画像に基づいてモデルを訓練し、「正常な」データ分布と定義する。
推測では, 「正常」 トレーニングデータから逸脱するパターンを示すため, 新しい画像の病理を「異常」として分類することを目的としている。
一般的な手法は'失敗と再構築'のパラダイムに従う。
彼らは意図的に入力画像を破壊し、学習した'正規'分布に従って再構成し、その後、再構成エラーに基づいてセグメント異常を分割する。
しかし、入力画像の破壊は必然的に、通常の領域でも最適でない再構成をもたらし、偽陽性を引き起こす。
これを軽減するために,IterMask2 を用いた新しい空間マスク修復手法を提案する。
我々は、画像の領域を反復的にマスクし、再構成し、復元誤差に基づいてマスクを更新する。
この反復的プロセスは、モデルと同様に確実に正常な領域に関する情報を徐々に追加します。
内容量の増加は、近隣のマスク領域の再構築をガイドし、これらの領域における正常組織の再構築を改善し、偽陽性を減少させる。
また、副入力として高周波画像コンテンツを使用し、マスク領域に付加的な構造情報を提供する。
これにより、異常領域と比較して正常な再構成誤差が向上し、後者のセグメンテーションが容易になる。
いくつかの脳病変データセットの実験を行い,本手法の有効性を実証した。
コードは、https://github.com/ZiyunLiang/IterMask2で入手できる。
Unsupervised anomaly segmentation approaches to pathology segmentation train a model on images of healthy subjects, that they define as the 'normal' data distribution. At inference, they aim to segment any pathologies in new images as 'anomalies', as they exhibit patterns that deviate from those in 'normal' training data. Prevailing methods follow the 'corrupt-and-reconstruct' paradigm. They intentionally corrupt an input image, reconstruct it to follow the learned 'normal' distribution, and subsequently segment anomalies based on reconstruction error. Corrupting an input image, however, inevitably leads to suboptimal reconstruction even of normal regions, causing false positives. To alleviate this, we propose a novel iterative spatial mask-refining strategy IterMask2. We iteratively mask areas of the image, reconstruct them, and update the mask based on reconstruction error. This iterative process progressively adds information about areas that are confidently normal as per the model. The increasing content guides reconstruction of nearby masked areas, improving reconstruction of normal tissue under these areas, reducing false positives. We also use high-frequency image content as an auxiliary input to provide additional structural information for masked areas. This further improves reconstruction error of normal in comparison to anomalous areas, facilitating segmentation of the latter. We conduct experiments on several brain lesion datasets and demonstrate effectiveness of our method. Code is available at: https://github.com/ZiyunLiang/IterMask2 | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# 時系列予測のための時空間コルモゴロフ・アルノルド変換器
A Temporal Kolmogorov-Arnold Transformer for Time Series Forecasting ( http://arxiv.org/abs/2406.02486v2 ) ライセンス: Link先を確認 | Remi Genet, Hugo Inzirillo, | (参考訳) 多変量データストリーム内の複雑な時間パターンと関係をキャプチャするのは難しい作業です。
本稿では,時間的コルモゴロフ・アルノルド変換器(TKAT)を提案する。
TKATは、TFT(Temporal Fusion Transformer)にインスパイアされた強力なエンコーダ・デコーダモデルとして登場し、観測された特徴が既知の部分よりも重要となるタスクを処理する。
この新建築はコルモゴロフ=アルノルド表現の理論的基礎と変圧器の力を組み合わせたものである。
TKATは、時系列に固有の複雑な依存関係を単純化し、より「解釈可能な」ことを目的としている。
このフレームワークでトランスフォーマーアーキテクチャを使うことで、自己認識機構を通じて長距離依存関係をキャプチャできる。
Capturing complex temporal patterns and relationships within multivariate data streams is a difficult task. We propose the Temporal Kolmogorov-Arnold Transformer (TKAT), a novel attention-based architecture designed to address this task using Temporal Kolmogorov-Arnold Networks (TKANs). Inspired by the Temporal Fusion Transformer (TFT), TKAT emerges as a powerful encoder-decoder model tailored to handle tasks in which the observed part of the features is more important than the a priori known part. This new architecture combined the theoretical foundation of the Kolmogorov-Arnold representation with the power of transformers. TKAT aims to simplify the complex dependencies inherent in time series, making them more "interpretable". The use of transformer architecture in this framework allows us to capture long-range dependencies through self-attention mechanisms. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |
# 3次元ガウススプラッティングによる映像再構成による映像編集における時間的一貫性の強化
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting ( http://arxiv.org/abs/2406.02541v2 ) ライセンス: Link先を確認 | Inkyu Shin, Qihang Yu, Xiaohui Shen, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen, | (参考訳) ゼロショットビデオ拡散モデルの最近の進歩は、テキスト駆動ビデオ編集の可能性を示唆している。
これを解決するために,ゼロショットビデオエディタの時間的一貫性を高めるために,3Dガウス・スプレイティング(3DGS)ベースのビデオ精細機であるVideo-3DGSを紹介する。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
第1段階では、ビデオ3DGSはMC-COLMAPと呼ばれる改良版のCOLMAPを採用し、Masked and Clippedアプローチを用いてオリジナルビデオを処理する。
各ビデオクリップに対して、MC-COLMAPは、動的前景オブジェクトと複雑な背景のための点雲を生成する。
これらの点雲は、前景と背景像を表すために、2組の3Dガウス(Frg-3DGSとBkg-3DGS)を初期化する。
前景と背景の両方のビューは、完全なビューを再構築する2D学習可能なパラメータマップにマージされる。
第2段階では,ビデオ拡散モデルに時間的制約を課すために,第1段階で開発された再構成能力を活用する。
両段階におけるビデオ3DGSの有効性を示すために,ビデオ再構成とビデオ編集という2つの関連課題にまたがる広範な実験を行った。
3kイテレーションでトレーニングされたビデオ3DGSは、ビデオ再構成の品質(+3 PSNR、+7 PSNRの増加)とトレーニング効率(x1.9、x4.5倍の高速化)を、それぞれNRFベースとDAVISデータセット上の3DGSベースの最先端手法で改善する。
さらに、58個の動的モノクロビデオ間の時間的一貫性を確保することにより、ビデオ編集を強化する。
Recent advancements in zero-shot video diffusion models have shown promise for text-driven video editing, but challenges remain in achieving high temporal consistency. To address this, we introduce Video-3DGS, a 3D Gaussian Splatting (3DGS)-based video refiner designed to enhance temporal consistency in zero-shot video editors. Our approach utilizes a two-stage 3D Gaussian optimizing process tailored for editing dynamic monocular videos. In the first stage, Video-3DGS employs an improved version of COLMAP, referred to as MC-COLMAP, which processes original videos using a Masked and Clipped approach. For each video clip, MC-COLMAP generates the point clouds for dynamic foreground objects and complex backgrounds. These point clouds are utilized to initialize two sets of 3D Gaussians (Frg-3DGS and Bkg-3DGS) aiming to represent foreground and background views. Both foreground and background views are then merged with a 2D learnable parameter map to reconstruct full views. In the second stage, we leverage the reconstruction ability developed in the first stage to impose the temporal constraints on the video diffusion model. To demonstrate the efficacy of Video-3DGS on both stages, we conduct extensive experiments across two related tasks: Video Reconstruction and Video Editing. Video-3DGS trained with 3k iterations significantly improves video reconstruction quality (+3 PSNR, +7 PSNR increase) and training efficiency (x1.9, x4.5 times faster) over NeRF-based and 3DGS-based state-of-art methods on DAVIS dataset, respectively. Moreover, it enhances video editing by ensuring temporal consistency across 58 dynamic monocular videos. | 翻訳日:2024-06-06 11:48:57 公開日:2024-06-05 |