このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240428となっている論文です。

PDF登録状況(公開日: 20240428)

TitleAuthorsAbstract論文公表日・翻訳日
# コーディネートとフローマップの深層学習を用いたマルチスケールシステムの計算効率向上

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps ( http://arxiv.org/abs/2407.00011v1 )

ライセンス: Link先を確認
Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid Bazaz, (参考訳) 複雑な系は、分子、細胞、あるいは個体が環境と相互作用するため、しばしばマクロなコヒーレントな振る舞いを示す。 しかし、そのようなシステムのシミュレーションは、基礎となる力学が変化し、幅広い時空間スケールの興味をひくため、シミュレーション中にいくつかの計算上の課題を生じさせる。 高速に進化する特徴を捉えるためには、シミュレーション時間が遅い振る舞いを捉えるのに十分な長さであることを確保しつつ、より詳細な時間ステップが必要である。 本稿では,座標とフローマップの連成探索を用いて,マルチスケールシステムのための高精度なタイムステッピング手法を開発するために,ディープラーニング技術をどのように利用することができるかを示す。 前者は代表的ベースでマルチスケールのダイナミクスを表現できるが、後者は減算された変数の反復的なタイムステッピング推定を可能にする。 結果として得られるフレームワークは、より少ない計算コストで最先端の予測精度を達成する。 大規模フィッツヒュー・ナグモニューロンモデルとカオス状態における1次元倉本・シヴァシンスキー方程式に関する提案手法の有効性を実証する。

Complex systems often show macroscopic coherent behavior due to the interactions of microscopic agents like molecules, cells, or individuals in a population with their environment. However, simulating such systems poses several computational challenges during simulation as the underlying dynamics vary and span wide spatiotemporal scales of interest. To capture the fast-evolving features, finer time steps are required while ensuring that the simulation time is long enough to capture the slow-scale behavior, making the analyses computationally unmanageable. This paper showcases how deep learning techniques can be used to develop a precise time-stepping approach for multiscale systems using the joint discovery of coordinates and flow maps. While the former allows us to represent the multiscale dynamics on a representative basis, the latter enables the iterative time-stepping estimation of the reduced variables. The resulting framework achieves state-of-the-art predictive accuracy while incurring lesser computational costs. We demonstrate this ability of the proposed scheme on the large-scale Fitzhugh Nagumo neuron model and the 1D Kuramoto-Sivashinsky equation in the chaotic regime.
翻訳日:2024-07-22 22:48:25 公開日:2024-04-28
# 複雑な教育用テキストデータにおける不均衡を克服するLLMの活用

Leveraging Prompts in LLMs to Overcome Imbalances in Complex Educational Text Data ( http://arxiv.org/abs/2407.01551v1 )

ライセンス: Link先を確認
Jeanne McClure, Machi Shimmei, Noboru Matsuda, Shiyan Jiang, (参考訳) 本稿では,Large Language Models (LLMs) の可能性を検討する。 伝統的なモデルは、特にデータの複雑さとニュアンスの性質のために、そのような文脈では不足することが多い。 この問題は、学生の認知的エンゲージメントレベルがオープンな反応に有意な変化を示す教育分野において特に顕著である。 従来の機械学習(ML)モデルとアサーションを付加したLLM(N=135。 さらに、サブセット(n=27)の感度分析を行い、各イテレーションにおける分類指標と認知エンゲージメントレベルに関するモデル性能のばらつきについて検討する。 以上の結果から,従来のMLモデル,特にマイノリティ表現を伴う認知的エンゲージメントレベルにおいて,アサーションを持つLLMの方が有意に優れ,F1スコアが最大32%増加したことが判明した。 さらに, 本研究は, ターゲットアサーションをサブセット上で試験したLDMに組み込むことで, 11.94%の性能向上を図っている。 この改善は、主に、文脈を理解し、学生の反応における語彙的曖昧さを解消するモデルの限界から生じるエラーに対処する。

In this paper, we explore the potential of Large Language Models (LLMs) with assertions to mitigate imbalances in educational datasets. Traditional models often fall short in such contexts, particularly due to the complexity and nuanced nature of the data. This issue is especially prominent in the education sector, where cognitive engagement levels among students show significant variation in their open responses. To test our hypothesis, we utilized an existing technology for assertion-based prompt engineering through an 'Iterative - ICL PE Design Process' comparing traditional Machine Learning (ML) models against LLMs augmented with assertions (N=135). Further, we conduct a sensitivity analysis on a subset (n=27), examining the variance in model performance concerning classification metrics and cognitive engagement levels in each iteration. Our findings reveal that LLMs with assertions significantly outperform traditional ML models, particularly in cognitive engagement levels with minority representation, registering up to a 32% increase in F1-score. Additionally, our sensitivity study indicates that incorporating targeted assertions into the LLM tested on the subset enhances its performance by 11.94%. This improvement primarily addresses errors stemming from the model's limitations in understanding context and resolving lexical ambiguities in student responses.
翻訳日:2024-07-22 22:28:39 公開日:2024-04-28
# マルチメディアに基づく新しい項目推薦のためのマルチモーダリティ不変学習

Multimodality Invariant Learning for Multimedia-Based New Item Recommendation ( http://arxiv.org/abs/2405.15783v1 )

ライセンス: Link先を確認
Haoyue Bai, Le Wu, Min Hou, Miaomiao Cai, Zhuangzhuang He, Yuyang Zhou, Richang Hong, Meng Wang, (参考訳) マルチメディアベースのレコメンデーションは、ユーザのコンテンツ嗜好を学習することでパーソナライズされたアイテム提案を提供する。 デジタルデバイスやAPPの普及に伴い、時間とともに急速に多くの新しいアイテムが作成される。 推論時に新しい項目のリコメンデーションを素早く提供する方法は難しい。 さらに悪いことに、現実世界のアイテムは様々にモダリティが欠けています(例えば、短いビデオはテキスト記述なしでアップロードされます)。 マルチメディアベースのレコメンデーションに多くの努力が注がれているが、彼らは新しいマルチメディアアイテムに対処できなかったり、モデリングプロセスにおけるモダリティ完全性を仮定できなかった。 本稿では,新項目推薦におけるモダリティの欠落問題に対処する必要性を強調した。 ユーザ固有のコンテンツ嗜好は安定しており、任意のモダリティの欠如した環境に不変である、と我々は主張する。 そこで本研究では,不変学習の新たな視点から,この問題にアプローチする。 しかし, 有限ユーザ行動訓練データから, モダリティの欠如を一般化するための環境構築法は困難である。 この問題に対処するために,MILK(Multimodality Invariant Learning reCommendation)フレームワークを提案する。 具体的には、MILKはまず、事前訓練されたマルチメディアアイテム機能からセマンティック一貫性を維持するために、モダリティアライメントモジュールを設計する。 その後、MILKは、不変ユーザの嗜好学習に欠落するモダリティを模倣するため、循環混合によるトレーニングデータの拡張を行うマルチモーダル異種環境を設計する。 3つの実データセットに対する大規模な実験により、提案したフレームワークの優位性を検証した。 コードはhttps://github.com/HaoyueBai98/MILKで入手できる。

Multimedia-based recommendation provides personalized item suggestions by learning the content preferences of users. With the proliferation of digital devices and APPs, a huge number of new items are created rapidly over time. How to quickly provide recommendations for new items at the inference time is challenging. What's worse, real-world items exhibit varying degrees of modality missing(e.g., many short videos are uploaded without text descriptions). Though many efforts have been devoted to multimedia-based recommendations, they either could not deal with new multimedia items or assumed the modality completeness in the modeling process. In this paper, we highlight the necessity of tackling the modality missing issue for new item recommendation. We argue that users' inherent content preference is stable and better kept invariant to arbitrary modality missing environments. Therefore, we approach this problem from a novel perspective of invariant learning. However, how to construct environments from finite user behavior training data to generalize any modality missing is challenging. To tackle this issue, we propose a novel Multimodality Invariant Learning reCommendation(a.k.a. MILK) framework. Specifically, MILK first designs a cross-modality alignment module to keep semantic consistency from pretrained multimedia item features. After that, MILK designs multi-modal heterogeneous environments with cyclic mixup to augment training data, in order to mimic any modality missing for invariant user preference learning. Extensive experiments on three real datasets verify the superiority of our proposed framework. The code is available at https://github.com/HaoyueBai98/MILK.
翻訳日:2024-06-02 14:47:20 公開日:2024-04-28
# CLARINET: 検索のために言語モデルを拡張して質問する

CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval ( http://arxiv.org/abs/2405.15784v1 )

ライセンス: Link先を確認
Yizhou Chi, Jessy Lin, Kevin Lin, Dan Klein, (参考訳) ユーザは明確化を必要とするあいまいな要求をすることが多い。 情報検索環境では,システムがあいまいな検索クエリに直面する場合が多く,検索モデルの不確かさを自然言語の質問に変換することは困難である。 CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。 提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。 本システムでは,本を検索するユーザの実世界の検索データセットを評価したところ,検索成功に関する情報獲得率を17%,バニラプロンプトLLMを39%,従来のヒューリスティックよりも優れていた。

Users often make ambiguous requests that require clarification. We study the problem of asking clarification questions in an information retrieval setting, where systems often face ambiguous search queries and it is challenging to turn the uncertainty in the retrieval model into a natural language question. We present CLARINET, a system that asks informative clarification questions by choosing questions whose answers would maximize certainty in the correct candidate. Our approach works by augmenting a large language model (LLM) to condition on a retrieval distribution, finetuning end-to-end to generate the question that would have maximized the rank of the true candidate at each turn. When evaluated on a real-world retrieval dataset of users searching for books, our system outperforms traditional heuristics such as information gain on retrieval success by 17% and vanilla-prompted LLMs by 39% relative.
翻訳日:2024-06-02 14:39:48 公開日:2024-04-28
# 情報圧縮を用いたテキスト分類のための軽量概念辞書学習

Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression ( http://arxiv.org/abs/2405.01584v1 )

ライセンス: Link先を確認
Li Wan, Tansu Alpcan, Margreta Kuijper, Emanuele Viterbo, (参考訳) データ圧縮と表現に基づくテキスト分類のための,新しい軽量な教師付き辞書学習フレームワークを提案する。 この2相アルゴリズムは、当初、辞書要素の概念的重要性に焦点をあてて、テキストデータセットから辞書を構築するために、Lempel-Ziv-Welch (LZW)アルゴリズムを用いていた。 その後、ラベルデータを考慮して辞書を精査し、相互情報とクラス分布に基づく識別力を高めるために辞書原子を最適化する。 このプロセスは識別的数値表現を生成し、SVMやニューラルネットワークのような単純な分類器の訓練を容易にする。 我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。 このアルゴリズムは6つのベンチマークテキストデータセットでテストされ、特に限定語彙文脈において上位モデルと密接に競合し、パラメータは大幅に少ない。 \review{Our アルゴリズムは、限られた語彙データセット上では ~2\% しか逸脱せず、パラメータの 10\% のみを使用して、トップパフォーマンスモデルと密に一致している。 しかし、LZWアルゴリズムの低繰り返しデータに対する制約のため、多種多様な語彙データセットでは不足している。 このコントラストは、さまざまなデータセットタイプにわたる効率性と制限を強調している。

We propose a novel, lightweight supervised dictionary learning framework for text classification based on data compression and representation. This two-phase algorithm initially employs the Lempel-Ziv-Welch (LZW) algorithm to construct a dictionary from text datasets, focusing on the conceptual significance of dictionary elements. Subsequently, dictionaries are refined considering label data, optimizing dictionary atoms to enhance discriminative power based on mutual information and class distribution. This process generates discriminative numerical representations, facilitating the training of simple classifiers such as SVMs and neural networks. We evaluate our algorithm's information-theoretic performance using information bottleneck principles and introduce the information plane area rank (IPAR) as a novel metric to quantify the information-theoretic performance. Tested on six benchmark text datasets, our algorithm competes closely with top models, especially in limited-vocabulary contexts, using significantly fewer parameters. \review{Our algorithm closely matches top-performing models, deviating by only ~2\% on limited-vocabulary datasets, using just 10\% of their parameters. However, it falls short on diverse-vocabulary datasets, likely due to the LZW algorithm's constraints with low-repetition data. This contrast highlights its efficiency and limitations across different dataset types.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-28
# タブラル埋め込みモデル(TEM: Tabular Embedding Models for Tabular RAG Applications)

Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications ( http://arxiv.org/abs/2405.01585v1 )

ライセンス: Link先を確認
Sujit Khanna, Shishir Subedi, (参考訳) 近年、大規模言語モデルは、特に数学、コード生成、汎用推論の分野で、膨大な能力を発揮している。 しかし、特に多くの数値や表データの解析や解析を必要とするアプリケーションでは、最先端(SOTA)モデルでさえ苦戦している。 本稿では,既存の表型LCMソリューションのスケーラビリティ問題を緩和する独自のRAGワークフローを提示することにより,ドメイン固有の表型データ解析タスクを解決するための新しいアプローチを提案する。 具体的には、テーブル状検索・拡張生成(RAG)アプリケーションのためのファインチューン埋め込みモデルに対する新しいアプローチであるタブラル埋め込みモデル(TEM)を提案する。 埋め込みモデルは、RAGワークフローにおいて重要なコンポーネントを形成し、現在のSOTA埋め込みモデルでさえ、主にテキストデータセットでトレーニングされているため、複雑な表データを含むシナリオではパフォーマンスが劣る。 評価結果から,本手法は現在のSOTA埋め込みモデルより優れているだけでなく,より小型で効率的なモデル構造でも優れていることが示された。

In recent times Large Language Models have exhibited tremendous capabilities, especially in the areas of mathematics, code generation and general-purpose reasoning. However for specialized domains especially in applications that require parsing and analyzing large chunks of numeric or tabular data even state-of-the-art (SOTA) models struggle. In this paper, we introduce a new approach to solving domain-specific tabular data analysis tasks by presenting a unique RAG workflow that mitigates the scalability issues of existing tabular LLM solutions. Specifically, we present Tabular Embedding Model (TEM), a novel approach to fine-tune embedding models for tabular Retrieval-Augmentation Generation (RAG) applications. Embedding models form a crucial component in the RAG workflow and even current SOTA embedding models struggle as they are predominantly trained on textual datasets and thus underperform in scenarios involving complex tabular data. The evaluation results showcase that our approach not only outperforms current SOTA embedding models in this domain but also does so with a notably smaller and more efficient model structure.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-28
# 金融感覚分析のためのトランスファーラーニングとトランスフォーマーアーキテクチャ

Transfer Learning and Transformer Architecture for Financial Sentiment Analysis ( http://arxiv.org/abs/2405.01586v1 )

ライセンス: Link先を確認
Tohida Rehman, Raghubir Bose, Samiran Chattopadhyay, Debarshi Kumar Sanyal, (参考訳) 金融センチメント分析により、銀行や保険会社などの金融機関は顧客の信用スコアをより良く管理できる。 金融分野は感情分析を難しくする特殊なメカニズムを使用する。 本稿では,ラベル付きデータが少なくて解決できる事前学習型言語モデルを提案する。 我々は、トランスファーラーニングの原則とトランスフォーメーションアーキテクチャの原則を拡張し、COVID-19のような最近のパンデミックの発生を考慮に入れます。 感情分析を2つの異なるデータに適用する。 また、トレーニングセットを小さくし、モデルの一部として微調整します。

Financial sentiment analysis allows financial institutions like Banks and Insurance Companies to better manage the credit scoring of their customers in a better way. Financial domain uses specialized mechanisms which makes sentiment analysis difficult. In this paper, we propose a pre-trained language model which can help to solve this problem with fewer labelled data. We extend on the principles of Transfer learning and Transformation architecture principles and also take into consideration recent outbreak of pandemics like COVID. We apply the sentiment analysis to two different sets of data. We also take smaller training set and fine tune the same as part of the model.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-28
# BERTに基づく画像からの質問抽出によるアカデミッククエリ分解能の向上

Improve Academic Query Resolution through BERT-based Question Extraction from Images ( http://arxiv.org/abs/2405.01587v1 )

ライセンス: Link先を確認
Nidhi Kamal, Saurabh Yadav, Jorawar Singh, Aditi Avasthi, (参考訳) 生徒の質問に対する迅速かつ正確な解決を提供することは、Edtechの組織によって提供される重要な解決策である。 これは一般的に、学生が容易に疑念を問うことができるチャットボットのようなインターフェースを備えている。 学生が複雑な方程式や情報を入力せずに質問を捉え、投稿することができる。 しかし、このフォーマットは、画像に複数の質問やテキストノイズが含まれており、既存の単一クエリ応答ソリューションの精度を低下させるため、困難を生じさせる。 本稿では,BERTに基づくディープラーニングモデルを用いてテキストや画像から質問を抽出し,他のルールベースおよびレイアウトベース手法と比較する手法を提案する。 本手法は,エドテック組織における学生問合せ解決の精度と効率を向上させることを目的としている。

Providing fast and accurate resolution to the student's query is an essential solution provided by Edtech organizations. This is generally provided with a chat-bot like interface to enable students to ask their doubts easily. One preferred format for student queries is images, as it allows students to capture and post questions without typing complex equations and information. However, this format also presents difficulties, as images may contain multiple questions or textual noise that lowers the accuracy of existing single-query answering solutions. In this paper, we propose a method for extracting questions from text or images using a BERT-based deep learning model and compare it to the other rule-based and layout-based methods. Our method aims to improve the accuracy and efficiency of student query resolution in Edtech organizations.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-28
# 大規模言語モデルを用いた追跡モデル抽出攻撃のための学習可能な言語学的透かし

Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models ( http://arxiv.org/abs/2405.01509v1 )

ライセンス: Link先を確認
Minhao Bai, Kaiyi Pang, Yongfeng Huang, (参考訳) 人工知能の急速に発展する領域では、Large Language Models(LLM)の知的財産権を保護することがますます重要になっている。 モデルロジットの信号挿入や生成されたテキストの後処理に依存するモデル抽出攻撃に対する現在の透かし技術は、主にヒューリスティックなままである。 モデル抽出攻撃の追跡と防止を目的とした,学習可能な言語透かしをLLMに埋め込む新しい手法を提案する。 提案手法は,制御ノイズをトークン周波数分布に導入し,統計的に識別可能な制御可能な透かしを埋め込むことによってLCMの出力分布を微調整する。 我々の透かし法は、ロバスト性と出力品質の微妙なバランスを保ち、偽陽性/負の率を低く保ち、LLMの本来の性能を保っている。

In the rapidly evolving domain of artificial intelligence, safeguarding the intellectual property of Large Language Models (LLMs) is increasingly crucial. Current watermarking techniques against model extraction attacks, which rely on signal insertion in model logits or post-processing of generated text, remain largely heuristic. We propose a novel method for embedding learnable linguistic watermarks in LLMs, aimed at tracing and preventing model extraction attacks. Our approach subtly modifies the LLM's output distribution by introducing controlled noise into token frequency distributions, embedding an statistically identifiable controllable watermark.We leverage statistical hypothesis testing and information theory, particularly focusing on Kullback-Leibler Divergence, to differentiate between original and modified distributions effectively. Our watermarking method strikes a delicate well balance between robustness and output quality, maintaining low false positive/negative rates and preserving the LLM's original performance.
翻訳日:2024-05-03 15:35:38 公開日:2024-04-28
# 人工知能を用いたウェブシェル検出モデルの研究と応用:文献レビュー

Research and application of artificial intelligence based webshell detection model: A literature review ( http://arxiv.org/abs/2405.00066v1 )

ライセンス: Link先を確認
Mingrui Ma, Lansheng Han, Chunjie Zhou, (参考訳) Webshellは、多数のネットワーク攻撃の背後にある"犯人"として、サイバーセキュリティの分野での研究ホットスポットの1つです。 しかし、ウェブシェルの複雑さ、ステルス性、紛らわしい性質は、対応する検出方式に重大な課題をもたらす。 人工知能(AI)技術の台頭により、研究者は異なるインテリジェントアルゴリズムとニューラルネットワークアーキテクチャをウェブシェル検出のタスクに適用し始めている。 しかし、関連する研究には体系的で標準化された方法論のプロセスがまだ欠けているため、混乱と冗長性がある。 したがって、開発スケジュールに従って、この分野における研究の進捗状況を慎重に要約し、開始段階、初期開発段階、詳細開発段階の3段階に分けられる。 各ステージの主な特徴とコアアルゴリズムについてさらに詳しく述べる。 さらに,この分野でまだ残っている痛点や課題を分析し,我々の視点から今後の発展動向を予測する。 私たちの知る限りでは、AIベースのウェブシェル検出に関する研究の詳細を詳述する最初のレビューである。 また,本論文は,AIベースのウェブシェル検出タスクに関心のある研究者に対して,詳細な技術情報の提供も期待されている。

Webshell, as the "culprit" behind numerous network attacks, is one of the research hotspots in the field of cybersecurity. However, the complexity, stealthiness, and confusing nature of webshells pose significant challenges to the corresponding detection schemes. With the rise of Artificial Intelligence (AI) technology, researchers have started to apply different intelligent algorithms and neural network architectures to the task of webshell detection. However, the related research still lacks a systematic and standardized methodological process, which is confusing and redundant. Therefore, following the development timeline, we carefully summarize the progress of relevant research in this field, dividing it into three stages: Start Stage, Initial Development Stage, and In-depth Development Stage. We further elaborate on the main characteristics and core algorithms of each stage. In addition, we analyze the pain points and challenges that still exist in this field and predict the future development trend of this field from our point of view. To the best of our knowledge, this is the first review that details the research related to AI-based webshell detection. It is also hoped that this paper can provide detailed technical information for more researchers interested in AI-based webshell detection tasks.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-28
# 量子計測結果の射影率と値再現性

Intersubjectivity and value reproducibility of outcomes of quantum measurements ( http://arxiv.org/abs/1911.10893v2 )

ライセンス: Link先を確認
Masanao Ozawa, (参考訳) それぞれの測定は結果として1つの値を決定するが、量子力学は確率的にのみ予測する。 コチェン=スペクターの定理とベルの不等式は、現実主義的見解を否定すると考えられているが、観測可能度を測定することは、それが持つ価値を確かめることではなく、個人的意味を持つ結果を生み出すことを意味するという懐疑的な見解を好む。 しかし、この見解を裏付ける正確な分析は分かっていない。 ここでは、量子力学的解析がこの見解を下方修正することを示す。 2人の観測者が同時に同じ観測可能度を測ると、それらが常に同じ結果が得られるのか、確率分布が同じであるのか、という疑問が浮き彫りになるが、結果は無関係である。 第2の見解を広く支持するのとは対照的に、量子力学は第1のケースのみが起こると予測する。 さらに,観測可能な観測値と測定後の測定値との間に時間的な絡み合いが成立し,異なる観測値間の空間的な絡み合いが生じることを示す。 また、我々の結論はいわゆる「一般化された」可観測物の測定にまで拡張できないことを示し、量子力学の基礎における可観測物の概念を再考する必要性を示唆している。

Every measurement determines a single value as its outcome, and yet quantum mechanics predicts it only probabilistically. The Kochen-Specker theorem and Bell's inequality are often considered to reject a realist view but favor a skeptical view that measuring an observable does not mean ascertaining the value that it has, but producing the outcome, having only a personal meaning. However, precise analysis supporting this view is unknown. Here, we show that a quantum mechanical analysis turns down this view. Supposing that two observers simultaneously measure the same observable, we can well pose the question as to whether they always obtain the same outcome, or whether the probability distributions are the same, but the outcomes are uncorrelated. Contrary to the widespread view in favor of the second, we shall show that quantum mechanics predicts that only the first case occurs. We further show that any measurement establishes a time-like entanglement between the observable to be measured and the meter after the measurement, which causes the space-like entanglement between the meters of different observers. We also show that our conclusion cannot be extended to measurements of so-called `generalized' observables, suggesting a demand for reconsidering the notion of observables in foundations of quantum mechanics.
翻訳日:2024-05-01 20:30:21 公開日:2024-04-28
# 量子リンクシミュレータにおける部分閉じ込め

Partial confinement in a quantum-link simulator ( http://arxiv.org/abs/2404.18095v1 )

ライセンス: Link先を確認
Zheng Tang, Fei Zhu, Yi-Fan Luo, Wei Zheng, Li Chen, (参考訳) 冷却原子に基づく量子シミュレーションにおいて,高エネルギー素粒子の閉じ込め・分解特性が注目されている。 しかし、分断と分断の間の中間状態である分断は未解明のままである。 部分閉じ込めは、荷電粒子の凝縮挙動が相対的な位置にあるという現象をカプセル化する。 本稿では,スピン-1量子リンクモデルが,部分的閉じ込めを探索するための優れたプラットフォームを提供することを示す。 我々は、平衡力学と非平衡力学の両方の文脈において、部分閉じ込めから生じる物理学を包括的に研究する。 低温原子を用いた潜在的実験装置についても論じる。 我々の研究は、ゲージ対称性の対象となる最先端の人工量子系における閉じ込め関連物理学の研究に、シンプルで実現可能なルーチンを提供する。

Confinement/deconfinement, captivating attributes of high-energy elementary particles, have recently garnered wide attention in quantum simulations based on cold atoms. Yet, the partial confinement, an intermediate state between the confinement and deconfinement, remains underexplored. The partial confinement encapsulates the phenomenon that the confining behavior of charged particles is contingent upon their relative positions. In this paper, we demonstrate that the spin-1 quantum link model provides an excellent platform for exploring partial confinement. We conduct a comprehensive investigation of the physics emerging from partial confinement in both the context of equilibrium and non-equilibrium dynamics. Potential experimental setups using cold atoms are also discussed. Our work offers a simple and feasible routine for the study of confinement-related physics in the state-of-the-art artificial quantum systems subject to gauge symmetries.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-28
# 宇宙定数の存在における古典的な積分性:解析的および機械学習による結果

Classical integrability in the presence of a cosmological constant: analytic and machine learning results ( http://arxiv.org/abs/2404.18247v1 )

ライセンス: Link先を確認
Gabriel Lopes Cardoso, Damián Mayorga Peña, Suresh Nampuri, (参考訳) 我々は、マクスウェル場と中性スカラー場の結合を記述した4次元重力理論を、中性スカラー場のポテンシャルの存在下での重力への結合を次元的に還元することで得られる2次元理論の可積分性について検討する。 ある解部分空間に焦点をあてることで、2次元の運動方程式のサブセットがブライトンローナー・マディソン線型系の修正版との整合条件であることが示される。 その後、Lax 対行列を構成することにより、選択した 4D 解部分空間を 1 次元の観点から符号化した 2D モデルのリウヴィル可積分性について検討する。 この試みでは、線形ニューラルネットワークを用いてこれらのモデルに対してLaxペア行列を探索し、古典的なシステムにおける可積分構造の同定を強化するために、機械学習アプローチをどのように効果的に実装できるかを示す。

We study the integrability of two-dimensional theories that are obtained by a dimensional reduction of certain four-dimensional gravitational theories describing the coupling of Maxwell fields and neutral scalar fields to gravity in the presence of a potential for the neutral scalar fields. By focusing on a certain solution subspace, we show that a subset of the equations of motion in two dimensions are the compatibility conditions for a modified version of the Breitenlohner-Maison linear system. Subsequently, we study the Liouville integrability of the 2D models encoding the chosen 4D solution subspace from a one-dimensional point of view by constructing Lax pair matrices. In this endeavour, we successfully employ a linear neural network to search for Lax pair matrices for these models, thereby illustrating how machine learning approaches can be effectively implemented to augment the identification of integrable structures in classical systems.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-28
# エネルギー効率の分散均質フローショップスケジューリング問題に対する知識駆動型メメティックアルゴリズム

A Knowledge-driven Memetic Algorithm for the Energy-efficient Distributed Homogeneous Flow Shop Scheduling Problem ( http://arxiv.org/abs/2404.18953v1 )

ライセンス: Link先を確認
Yunbao Xu, Xuemei Jiang, Jun Li, Lining Xing, Yanjie Song, (参考訳) 製造業における二酸化炭素排出量の削減は、国家の「二重炭素」目標を達成する上で重要な意味を持つ。 エネルギー効率の確保は、次世代製造システムに組み込む上で重要な要素である。 本研究では,分散均質フローショップスケジューリング問題 (DHFSSP) においてエネルギー消費を考慮した。 エネルギー効率の高いDHFSSP(EEDHFSSP)に対処するために知識駆動メメティックアルゴリズム(KDMA)を提案する。 KDMAは、高品質な初期人口を生成するための共同初期化戦略を取り入れている。 さらに,アルゴリズムの探索性能向上のために,更新戦略,局所探索戦略,炭素削減戦略など,いくつかのアルゴリズム改良が加えられている。 EEDHFSSPの解法におけるKDMAの有効性を広範囲なシミュレーション実験により検証した。 KDMAは様々な評価面において多くの最先端アルゴリズムより優れていることは明らかである。

The reduction of carbon emissions in the manufacturing industry holds significant importance in achieving the national "double carbon" target. Ensuring energy efficiency is a crucial factor to be incorporated into future generation manufacturing systems. In this study, energy consumption is considered in the distributed homogeneous flow shop scheduling problem (DHFSSP). A knowledge-driven memetic algorithm (KDMA) is proposed to address the energy-efficient DHFSSP (EEDHFSSP). KDMA incorporates a collaborative initialization strategy to generate high-quality initial populations. Furthermore, several algorithmic improvements including update strategy, local search strategy, and carbon reduction strategy are employed to improve the search performance of the algorithm. The effectiveness of KDMA in solving EEDHFSSP is verified through extensive simulation experiments. It is evident that KDMA outperforms many state-of-the-art algorithms across various evaluation aspects.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-28
# GARA:遺伝子間の関係を利用して遺伝的アルゴリズムの精度と効率を改善する新しいアプローチ

GARA: A novel approach to Improve Genetic Algorithms' Accuracy and Efficiency by Utilizing Relationships among Genes ( http://arxiv.org/abs/2404.18955v1 )

ライセンス: Link先を確認
Zhaoning Shi, Meng Xiang, Zhaoyang Hai, Xiabi Liu, Yan Pei, (参考訳) 遺伝的アルゴリズムは工学最適化において重要な役割を果たしてきた。 GAはそれぞれの遺伝子を別々に扱う。 しかし、遺伝子制御ネットワークの生物学的研究により、異なる遺伝子間の直接的な関連が明らかになった。 本論文では、GAの精度と効率を向上させるために、遺伝子間の関係を初めて活用する遺伝子制御遺伝的アルゴリズム(GRGA)を提案する。 我々は、RGGRと呼ばれる溶液空間をカプセル化した有向多部グラフを設計し、各ノードは溶液中の遺伝子に対応し、エッジは隣接ノード間の関係を表す。 エッジの重みは関係度を反映し、許容または許容できない性能を持つ候補解として完全鎖内のエッジの重みをそれぞれ強化または縮小するという考えに基づいて更新される。 得られたRGGRは、クロスオーバーと突然変異演算子の適切な座を決定するために使用され、それによって進化過程をより速くより良く収束させる。 単目的マルチモーダル最適化問題において提案したGRGA手法を解析・検証し,特徴選択,テキスト要約,次元減少を含む3種類のアプリケーションでさらに検証する。 結果は、GARAが効果的で有望であることを示している。

Genetic algorithms have played an important role in engineering optimization. Traditional GAs treat each gene separately. However, biophysical studies of gene regulatory networks revealed direct associations between different genes. It inspires us to propose an improvement to GA in this paper, Gene Regulatory Genetic Algorithm (GRGA), which, to our best knowledge, is the first time to utilize relationships among genes for improving GA's accuracy and efficiency. We design a directed multipartite graph encapsulating the solution space, called RGGR, where each node corresponds to a gene in the solution and the edge represents the relationship between adjacent nodes. The edge's weight reflects the relationship degree and is updated based on the idea that the edges' weights in a complete chain as candidate solution with acceptable or unacceptable performance should be strengthened or reduced, respectively. The obtained RGGR is then employed to determine appropriate loci of crossover and mutation operators, thereby directing the evolutionary process toward faster and better convergence. We analyze and validate our proposed GRGA approach in a single-objective multimodal optimization problem, and further test it on three types of applications, including feature selection, text summarization, and dimensionality reduction. Results illustrate that our GARA is effective and promising.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-28
# データ拡張の2つの側面:オープンセット認識のための非対称蒸留に基づくWin-Winソリューション

Revealing the Two Sides of Data Augmentation: An Asymmetric Distillation-based Win-Win Solution for Open-Set Recognition ( http://arxiv.org/abs/2404.19527v1 )

ライセンス: Link先を確認
Yunbing Jia, Xiaoyu Kong, Fan Tang, Yixing Gao, Weiming Dong, Yi Yang, (参考訳) 本稿では,データ拡張の2つの側面を明らかにする。クローズドセット認識の強化は,オープンセット認識の大幅な減少と相関する。 経験的調査により,マルチサンプルによる拡張が特徴識別の低減に寄与し,オープンセット基準が低下することが判明した。 知識蒸留は模倣によって特徴を損なう可能性があるが、あいまいな意味論との混合特徴は蒸留を妨げている。 そこで本研究では,教師の利益を増大させるために,教師モデルに余分な生データを供給し,非対称蒸留フレームワークを提案する。 さらに、硬質混合試料の影響を軽減するために、連立情報損失と選択的レナベル戦略を利用する。 提案手法は,Tiny-ImageNetデータセット上でのSOTAの減少を2%~3%削減し,大規模なデータセットであるImageNet-21Kで実験を行い,本手法の一般化を実証した。

In this paper, we reveal the two sides of data augmentation: enhancements in closed-set recognition correlate with a significant decrease in open-set recognition. Through empirical investigation, we find that multi-sample-based augmentations would contribute to reducing feature discrimination, thereby diminishing the open-set criteria. Although knowledge distillation could impair the feature via imitation, the mixed feature with ambiguous semantics hinders the distillation. To this end, we propose an asymmetric distillation framework by feeding teacher model extra raw data to enlarge the benefit of teacher. Moreover, a joint mutual information loss and a selective relabel strategy are utilized to alleviate the influence of hard mixed samples. Our method successfully mitigates the decline in open-set and outperforms SOTAs by 2%~3% AUROC on the Tiny-ImageNet dataset and experiments on large-scale dataset ImageNet-21K demonstrate the generalization of our method.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-28
# 自然言語処理におけるマルチタスク学習の概要

Multi-Task Learning in Natural Language Processing: An Overview ( http://arxiv.org/abs/2109.09138v2 )

ライセンス: Link先を確認
Shijie Chen, Yu Zhang, Qiang Yang, (参考訳) ディープラーニングアプローチは自然言語処理(NLP)の分野で大きな成功を収めています。 しかしながら、ディープニューラルネットワークモデルの直接トレーニングは、NLPタスクで広く行き渡るオーバーフィットやデータ不足の問題に悩まされることが多い。 近年,MTL(Multi-Task Learning)は,関連タスクの有用な情報を利用して,これらのタスクの同時性能向上を実現している。 本稿では,NLPタスクにおけるMTLの利用について概説する。 NLPタスクで使用されるMTLアーキテクチャをまずレビューし、それらを並列アーキテクチャ、階層アーキテクチャ、モジュールアーキテクチャ、生成逆アーキテクチャを含む4つのクラスに分類する。 次に、損失構成、勾配正則化、データサンプリング、タスクスケジューリングの最適化手法を提案し、マルチタスクモデルを適切に訓練する。 様々な NLP タスクで MTL の応用を提示した後、ベンチマークデータセットをいくつか導入する。 最後に、この分野におけるいくつかの研究の方向性について結論を出し、議論する。

Deep learning approaches have achieved great success in the field of Natural Language Processing (NLP). However, directly training deep neural models often suffer from overfitting and data scarcity problems that are pervasive in NLP tasks. In recent years, Multi-Task Learning (MTL), which can leverage useful information of related tasks to achieve simultaneous performance improvement on these tasks, has been used to handle these problems. In this paper, we give an overview of the use of MTL in NLP tasks. We first review MTL architectures used in NLP tasks and categorize them into four classes, including parallel architecture, hierarchical architecture, modular architecture, and generative adversarial architecture. Then we present optimization techniques on loss construction, gradient regularization, data sampling, and task scheduling to properly train a multi-task model. After presenting applications of MTL in a variety of NLP tasks, we introduce some benchmark datasets. Finally, we make a conclusion and discuss several possible research directions in this field.
翻訳日:2024-05-01 03:53:07 公開日:2024-04-28
# 医療のランドマークを見つけるために、どの画像にラベルをつけるか?

Which images to label for few-shot medical landmark detection? ( http://arxiv.org/abs/2112.04386v3 )

ライセンス: Link先を確認
Quan Quan, Qingsong Yao, Jun Li, S. Kevin Zhou, (参考訳) ディープラーニング手法の成功は、十分にラベル付けされた大規模データセットの可用性に依存している。 しかし、医用画像の場合、このような豊富なトレーニングデータに注釈をつけるには、経験豊富な放射線技師が必要で、限られた時間を消費することが多い。 この負担を軽減するために、ラベル付きデータのみを用いて、競争性能を達成するために、少ないショットラーニングが開発されている。 しかし、数ショット学習においてこれまで見過ごされてきた重要な問題は、学習前のアノテーションのためのテンプレートイメージの選択であり、最終的なパフォーマンスに影響する。 本稿では,アノテーションの「最も価値のある」画像を選択するための新しいサンプル選択ポリシー(SCP)を提案する。 SCPは3つの部分から構成される。 1)放射線画像から特徴を抽出する事前訓練された深部モデル構築のための自己指導型訓練 2)情報パッチのローカライズのためのキーポイント提案及び 3) 最も代表的なサンプルやテンプレートを検索するための代表スコア推定。 SCPの利点は、広く使われている3つの公開データセットに関する様々な実験によって示される。 一発の医用ランドマーク検出では、ケパロメトリデータセットとハンドX線データセットの平均放射誤差をそれぞれ14.2%(3.595mmから3.083mm)、35.5%(4.114mmから2.653mm)削減する。

The success of deep learning methods relies on the availability of well-labeled large-scale datasets. However, for medical images, annotating such abundant training data often requires experienced radiologists and consumes their limited time. Few-shot learning is developed to alleviate this burden, which achieves competitive performances with only several labeled data. However, a crucial yet previously overlooked problem in few-shot learning is about the selection of template images for annotation before learning, which affects the final performance. We herein propose a novel Sample Choosing Policy (SCP) to select "the most worthy" images for annotation, in the context of few-shot medical landmark detection. SCP consists of three parts: 1) Self-supervised training for building a pre-trained deep model to extract features from radiological images, 2) Key Point Proposal for localizing informative patches, and 3) Representative Score Estimation for searching the most representative samples or templates. The advantage of SCP is demonstrated by various experiments on three widely-used public datasets. For one-shot medical landmark detection, its use reduces the mean radial errors on Cephalometric and HandXray datasets by 14.2% (from 3.595mm to 3.083mm) and 35.5% (4.114mm to 2.653mm), respectively.
翻訳日:2024-05-01 03:53:07 公開日:2024-04-28
# オムニゾルバ:イジング・スピングラス・ソルバへの拡張性インターフェース

Omnisolver: an extensible interface to Ising spin glass solvers ( http://arxiv.org/abs/2112.11131v2 )

ライセンス: Link先を確認
Konrad Jałowiecki, Łukasz Pawela, (参考訳) 我々はOmnisolverと呼ばれるBinary Quadratic Model (BQM)ソルバを実装するための新しいフレームワークを紹介する。 このフレームワークは、動的に構築されたコマンドラインインターフェースと入出力システムを提供しており、BQMを解くために新しいアルゴリズムを実装するのに必要な労力を大幅に削減する。 提案したソフトウェアは、量子アンネラや離散最適化アルゴリズムに焦点をあてた研究者や、離散最適化を日々の作業の一部として活用するグループにとって有益である。 本稿では,サンプルプラグインの実装をステップバイステップで簡潔に実施することで,提案ソフトウェアの使用の容易さを実証する。

We introduce a new framework for implementing Binary Quadratic Model (BQM) solvers called Omnisolver. The framework provides an out-of-the-box dynamically built command-line interface as well as an input/output system, thus heavily reducing the effort required for implementing new algorithms for solving BQMs. The proposed software should be of benefit for researchers focusing on quantum annealers or discrete optimization algorithms as well as groups utilizing discrete optimization as a part of their daily work. We demonstrate the ease of use of the proposed software by presenting a step-by-step, concise implementation of an example plugin.
翻訳日:2024-05-01 03:53:07 公開日:2024-04-28
# 推薦システムトレーニングのための不均一加速パイプライン

Heterogeneous Acceleration Pipeline for Recommendation System Training ( http://arxiv.org/abs/2204.05436v2 )

ライセンス: Link先を確認
Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair, (参考訳) レコメンデーションモデルはディープラーニングネットワークと大きな埋め込みテーブルに依存しており、計算的およびメモリ集約的なプロセスをもたらす。 これらのモデルは一般的に、ハイブリッドCPU-GPUまたはGPU専用構成を使用してトレーニングされる。 ハイブリッドモードは、GPUのニューラルネットワークアクセラレーションとCPUのメモリストレージと埋め込みテーブルの供給を組み合わせるが、CPUからGPUへの転送時間が大幅に増加する可能性がある。 対照的に、GPU専用モードでは、埋め込みテーブルを格納するために複数のGPUにまたがるHigh Bandwidth Memory(HBM)を利用している。 しかし、このアプローチは高価であり、スケーリングの懸念を提起する。 本稿では,これらの問題に対処するヘテロジニアス・アクセラレーション・パイプラインであるHotlineを紹介する。 Hotlineは、いくつかの埋め込みエントリが頻繁にアクセスされる(人気)という洞察を活用することで、データ認識とモデル認識のスケジューリングパイプラインを開発する。 このアプローチでは、CPUメインメモリを非ポピュラーな埋め込みに、GPUのHBMを一般的な埋め込みに利用している。 これを実現するため、Hotlineアクセラレーターはミニバッチを人気のないマイクロバッチに断片化する。 CPUから人気のないマイクロバッチに必要な動作パラメータを収集し、GPUは人気のあるマイクロバッチを実行する。 ハードウェアアクセラレータは、GPU上の一般的な埋め込みの実行とCPUのメインメモリからの非ポピュラーな埋め込みを動的に調整する。 実世界のデータセットとモデルはHotlineの有効性を確認し、Intelが最適化したCPU-GPU DLRMベースラインと比較して、平均エンドツーエンドのトレーニング時間を2.2倍削減する。

Recommendation models rely on deep learning networks and large embedding tables, resulting in computationally and memory-intensive processes. These models are typically trained using hybrid CPU-GPU or GPU-only configurations. The hybrid mode combines the GPU's neural network acceleration with the CPUs' memory storage and supply for embedding tables but may incur significant CPU-to-GPU transfer time. In contrast, the GPU-only mode utilizes High Bandwidth Memory (HBM) across multiple GPUs for storing embedding tables. However, this approach is expensive and presents scaling concerns. This paper introduces Hotline, a heterogeneous acceleration pipeline that addresses these concerns. Hotline develops a data-aware and model-aware scheduling pipeline by leveraging the insight that only a few embedding entries are frequently accessed (popular). This approach utilizes CPU main memory for non-popular embeddings and GPUs' HBM for popular embeddings. To achieve this, Hotline accelerator fragments a mini-batch into popular and non-popular micro-batches. It gathers the necessary working parameters for non-popular micro-batches from the CPU, while GPUs execute popular micro-batches. The hardware accelerator dynamically coordinates the execution of popular embeddings on GPUs and non-popular embeddings from the CPU's main memory. Real-world datasets and models confirm Hotline's effectiveness, reducing average end-to-end training time by 2.2x compared to Intel-optimized CPU-GPU DLRM baseline.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-28
# 対称性を持たないエルミート系における自発対称性の出現

Spontaneous symmetry emergence in a Hermitian system without symmetry ( http://arxiv.org/abs/2209.12497v3 )

ライセンス: Link先を確認
T. T. Sergeev, E. S. Andrianov, A. A. Zyablovsky, (参考訳) 対称性を持つ系における自発的対称性の破れは、2階相転移を伴うグラインドストーン現象である。 ここでは、対称性のない系において、反対の現象、すなわち自発的対称性の出現を予測する。 周波数が有限周波数範囲を均一に満たす振動子の集合と非対称に相互作用する2つの結合振動子の例において、系状態がハミルトニアン系に固有の対称性を得ることができることを示す。 対称性の出現は、対称性のないエルミート系における相転移と解釈できる系のダイナミクスの変化にそれ自体が現れる。

Spontaneous symmetry breaking in systems with symmetry is a cornerstone phenomenon accompanying second-order phase transitions. Here, we predict the opposite phenomenon, namely, spontaneous symmetry emergence in a system without symmetry. On the example of two coupled oscillators interacting non-symmetrically with a set of oscillators whose frequencies uniformly fill a finite frequency range, we demonstrate that the system state can acquire symmetry, which is not inherent to the system Hamiltonian. The emergence of symmetry manifests itself in a change of the system dynamics, which can be interpreted as a phase transition in a Hermitian system without symmetry.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-28
# 観測可能な完全平衡

Observable Perfect Equilibrium ( http://arxiv.org/abs/2210.16506v9 )

ライセンス: Link先を確認
Sam Ganzfried, (参考訳) ナッシュ均衡は中心的なゲーム理論解の概念として現れてきたが、多くの重要なゲームにはいくつかのナッシュ平衡が含まれており、実際の戦略エージェントを作成するためにそれらの選択方法を決定する必要がある。 いくつかのナッシュ均衡改善の概念が提案され、シーケンシャル不完全情報ゲームのために研究され、最も顕著なのはトレムリングハンド完全均衡、準完全均衡、そして最近の片側準完全均衡である。 これらの概念は任意の小さな誤りに対して頑健であり、常に存在することが保証されているが、これらの概念はいずれも不完全情報のシーケンシャルゲームにおいて強力なエージェントを開発するための正しい概念ではないと論じる。 我々は、可観測完全均衡(observable perfect equilibrium)と呼ばれる拡張形式のゲームに対して、解が公然と観測可能な作用確率(相手プレイヤーによって観測できないかもしれない全ての作用確率)の反動に対して頑健であるような新しい平衡改善概念を定義する。 可観測完全均衡(Observable perfect equilibrium)は、相手が観測された誤りに対して可能な限り合理的にプレイしているという仮定を正しく捉えている(ただし、以前の解の概念はそうではない)。 我々は、観測可能な完全平衡が常に存在することを証明し、それが非極限ポーカーにおける以前の広範囲な改善と異なる解をもたらすことを証明した。 我々は、観測可能な完全均衡が、人工知能に関心を持つ多くの重要な不完全な情報ゲームをモデル化する上で有用な平衡改善概念になることを期待する。

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-28
# 鳥の視線から見る:カメラの校正を伴わない共同カメラと被写体登録

From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration ( http://arxiv.org/abs/2212.09298v3 )

ライセンス: Link先を確認
Zekun Qian, Ruize Han, Wei Feng, Feifan Wang, Song Wang, (参考訳) 我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。 BEV画像とFPVのキャリブレーションを伴わないマルチパーソンシーンの異なるファーストパーソンビュー(FPV)から複数のRGB画像が入力されるのに対して、出力はBEV内の被写体とカメラの両方のローカライズと向きの統一された平面であるため、これは非常に難しい問題である。 この問題を解消するエンドツーエンドのフレームワークを提案し、その主な考え方は以下の部分に分けられる。 一 ビュー変換対象検出モジュールを作成して、各歩行者のローカライゼーション及び配向を含む仮想BEVに変換すること。 二 カメラのローカライゼーション及び視野方向を推定するための幾何学的変換に基づく方法、すなわち、統合されたBEVにおけるカメラ登録を導出すること。 三 被写体を統合BEVに集約するために空間情報及び外観情報を利用すること。 評価のためのリッチアノテーションを備えた大規模合成データセットを新たに収集する。 実験の結果,提案手法の顕著な有効性を示した。

We tackle a new problem of multi-view camera and subject registration in the bird's eye view (BEV) without pre-given camera calibration. This is a very challenging problem since its only input is several RGB images from different first-person views (FPVs) for a multi-person scene, without the BEV image and the calibration of the FPVs, while the output is a unified plane with the localization and orientation of both the subjects and cameras in a BEV. We propose an end-to-end framework solving this problem, whose main idea can be divided into following parts: i) creating a view-transform subject detection module to transform the FPV to a virtual BEV including localization and orientation of each pedestrian, ii) deriving a geometric transformation based method to estimate camera localization and view direction, i.e., the camera registration in a unified BEV, iii) making use of spatial and appearance information to aggregate the subjects into the unified BEV. We collect a new large-scale synthetic dataset with rich annotations for evaluation. The experimental results show the remarkable effectiveness of our proposed method.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-28
# 物理インフォームドガウス過程回帰は線形PDE解を一般化する

Physics-Informed Gaussian Process Regression Generalizes Linear PDE Solvers ( http://arxiv.org/abs/2212.12474v6 )

ライセンス: Link先を確認
Marvin Pförtner, Ingo Steinwart, Philipp Hennig, Jonathan Wenger, (参考訳) 線形偏微分方程式(英: Linear partial differential equation, PDEs)は、熱伝達、電磁気、波動伝播などの物理過程を記述する重要な力学モデルのクラスである。 実際には、離散化に基づく特殊数値法を用いてPDEを解く。 彼らは一般に未知のモデルパラメータの見積もりを使い、可能であれば初期化のための物理的測定を行う。 このような解法はしばしば下流の応用でより大きな科学的モデルに埋め込まれるので、誤差の定量化は重要な役割を果たす。 しかし、パラメータや測定の不確かさを無視することで、古典的なPDEソルバはその固有の近似誤差の一貫した推定を導出できない可能性がある。 本研究では、線形PDEを物理インフォームドガウス過程(GP)回帰として解釈することで、この問題を原理的にアプローチする。 我々のフレームワークは、任意の有界線型作用素による観測に対するガウス過程推論定理の鍵となる一般化に基づいている。 この確率論的視点は、(1)固有の離散化誤差の定量化、(2)モデルパラメータの不確かさを解に伝播させ、(3)ノイズ測定の条件を与える。 この定式化の強さを実証し、重み付け残差法、コロケーション、有限体積、擬スペクトル、および有限要素法やスペクトル法のような(一般化)ガレルキン法を含むPDEソルバの中心クラスを厳密に一般化することを証明する。 したがって、このクラスは構造化誤差推定を直接装備することができる。 要約すると、数値解析とベイズ推論の境界を曖昧にすることにより、モジュラービルディングブロックとしてのメカニスティックモデルを確率モデルにシームレスに統合することができる。

Linear partial differential equations (PDEs) are an important, widely applied class of mechanistic models, describing physical processes such as heat transfer, electromagnetism, and wave propagation. In practice, specialized numerical methods based on discretization are used to solve PDEs. They generally use an estimate of the unknown model parameters and, if available, physical measurements for initialization. Such solvers are often embedded into larger scientific models with a downstream application and thus error quantification plays a key role. However, by ignoring parameter and measurement uncertainty, classical PDE solvers may fail to produce consistent estimates of their inherent approximation error. In this work, we approach this problem in a principled fashion by interpreting solving linear PDEs as physics-informed Gaussian process (GP) regression. Our framework is based on a key generalization of the Gaussian process inference theorem to observations made via an arbitrary bounded linear operator. Crucially, this probabilistic viewpoint allows to (1) quantify the inherent discretization error; (2) propagate uncertainty about the model parameters to the solution; and (3) condition on noisy measurements. Demonstrating the strength of this formulation, we prove that it strictly generalizes methods of weighted residuals, a central class of PDE solvers including collocation, finite volume, pseudospectral, and (generalized) Galerkin methods such as finite element and spectral methods. This class can thus be directly equipped with a structured error estimate. In summary, our results enable the seamless integration of mechanistic models as modular building blocks into probabilistic models by blurring the boundaries between numerical analysis and Bayesian inference.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-28
# 大振幅光猫状態の決定的生成法

Method to deterministically generate large-amplitude optical cat states ( http://arxiv.org/abs/2301.02839v4 )

ライセンス: Link先を確認
Zheng-Hong Li, Fei Yu, Zhen-Ya Li, M. Al-Amri, M. Suhail Zubairy, (参考訳) キャット状態は、マクロ的な量子重ね合わせと量子情報応用の研究において重要な資源であり、広く注目を集めている。 現在まで、大型のオプティカルキャット状態の調製は困難なままである。 相互作用のない測定と量子ゼノ効果を利用することで、脆弱な量子顕微鏡システムでも決定論的に制御でき、強い光場と絡み合うことにより、大振幅の光猫状態が生成されることを実証した。 調製プロセス全体では, 微視的系が弱場環境下で機能することが保証され, 量子特性の保護が可能となる。 さらに,量子マイクロシステムが大きな光子損失を被った場合でも,猫状態の調製が可能であり,古典的なデバイスからの光学的損失が低く抑えられ,古典的な光学系の改良と完全性によって猫状態の忠実性を高めることが可能であることが示唆された。

Cat states, as an important resource in the study of macroscopic quantum superposition and quantum information applications, have garnered widespread attention. To date, preparing large-sized optical cat states has remained challenging. We demonstrate that, by utilizing interaction-free measurement and the quantum Zeno effect, even a fragile quantum microscopic system can deterministically control and become entangled with strong light fields, thereby generating large-amplitude optical cat states. During the entire preparation process, our method ensures that the microscopic system functions within a weak field environment, so that its quantum property can be protected. Furthermore, we show that the preparation of cat states is possible even when the quantum microsystem suffers from significant photon loss, provided that optical losses from classical devices are kept low, which implies that the fidelity of the cat state can be enhanced by improvements to and the perfection of the classical optical system.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-28
# インテリジェントデジタル双生児のための説明可能な、解釈可能な、信頼できるAI:有用生活の継続を事例として

Explainable, Interpretable & Trustworthy AI for Intelligent Digital Twin: Case Study on Remaining Useful Life ( http://arxiv.org/abs/2301.06676v2 )

ライセンス: Link先を確認
Kazuma Kobayashi, Syed Bahauddin Alam, (参考訳) 人工知能(AI)と機械学習(ML)は、エネルギーとエンジニアリングシステムでますます使われているが、これらのモデルは公平で偏見がなく、説明可能である必要がある。 AIの信頼性に自信を持つことは重要だ。 ML技術は重要なパラメータの予測やモデルの性能向上に有用である。 しかし、これらのAI技術が意思決定に有用であるためには、監査、説明、理解しやすくする必要がある。 したがって、デジタルツインシステムにおいて、AIモデルが意思決定プロセスにおいて透明であり、それが生成する予測がユーザによって理解され、信頼されるようにしながら、AIモデルをインテリジェントにするために、説明可能なAI(XAI)と解釈可能な機械学習(IML)の使用は、有用寿命(RUL)などの予後の正確な予測に不可欠である。 説明可能な、解釈可能な、信頼性の高い、インテリジェントなデジタルツインシステムは、AIを使用することで、RULのより正確な予測が可能になる。 本稿の目的は,XAI と IML の考え方を説明し,AI/ML がデジタルツインフレームワークやコンポーネントにおいて果たす重要な役割を正当化することである。 本稿では、RUL予測に信頼できるAI/MLアプリケーションを使用することを保証するため、ローカルおよびグローバル両方の面において、XAIとIMLの重要性を説明する。 我々は,XAI と IML の研究に RUL 予測を用い,Python 統合ツールボックスを解釈可能な機械学習~ (PiML) に利用した。

Artificial intelligence (AI) and Machine learning (ML) are increasingly used in energy and engineering systems, but these models must be fair, unbiased, and explainable. It is critical to have confidence in AI's trustworthiness. ML techniques have been useful in predicting important parameters and in improving model performance. However, for these AI techniques to be useful for making decisions, they need to be audited, accounted for, and easy to understand. Therefore, the use of explainable AI (XAI) and interpretable machine learning (IML) is crucial for the accurate prediction of prognostics, such as remaining useful life (RUL), in a digital twin system, to make it intelligent while ensuring that the AI model is transparent in its decision-making processes and that the predictions it generates can be understood and trusted by users. By using AI that is explainable, interpretable, and trustworthy, intelligent digital twin systems can make more accurate predictions of RUL, leading to better maintenance and repair planning, and ultimately, improved system performance. The objective of this paper is to explain the ideas of XAI and IML and to justify the important role of AI/ML in the digital twin framework and components, which requires XAI to understand the prediction better. This paper explains the importance of XAI and IML in both local and global aspects to ensure the use of trustworthy AI/ML applications for RUL prediction. We used the RUL prediction for the XAI and IML studies and leveraged the integrated Python toolbox for interpretable machine learning~(PiML).
翻訳日:2024-05-01 03:37:12 公開日:2024-04-28
# 時系列におけるグラフ異常検出:サーベイ

Graph Anomaly Detection in Time Series: A Survey ( http://arxiv.org/abs/2302.00058v4 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho, Ali Karami, Narges Armanfard, (参考訳) 近年の技術進歩により、幅広いシステムが時間とともに大量のデータを収集し続け、したがって時系列を生成するようになった。 時系列異常検出(TSAD)は、eコマース、サイバーセキュリティ、車両メンテナンス、医療監視など、さまざまな時系列アプリケーションにおいて重要なタスクである。 しかし、変数を時系列データの観察として定義できる変数内依存性と変数間依存関係の両方を考慮する必要があるため、このタスクは非常に難しい。 最近のグラフベースのアプローチは、この分野の課題に取り組む上で、驚くべき進歩を遂げている。 本稿では、G-TSADと呼ばれるグラフを用いて、TSADの総合的かつ最新のレビューを行う。 まず,時系列データに対するグラフ表現学習の可能性について検討する。 次に,時系列の文脈における最先端グラフ異常検出手法を概説し,その長所と短所について考察する。 最後に,本研究分野における技術的課題と今後の展望について論じる。

With the recent advances in technology, a wide range of systems continue to collect a large amount of data over time and thus generate time series. Time-Series Anomaly Detection (TSAD) is an important task in various time-series applications such as e-commerce, cybersecurity, vehicle maintenance, and healthcare monitoring. However, this task is very challenging as it requires considering both the intra-variable dependency and the inter-variable dependency, where a variable can be defined as an observation in time-series data. Recent graph-based approaches have made impressive progress in tackling the challenges of this field. In this survey, we conduct a comprehensive and up-to-date review of TSAD using graphs, referred to as G-TSAD. First, we explore the significant potential of graph representation learning for time-series data. Then, we review state-of-the-art graph anomaly detection techniques in the context of time series and discuss their strengths and drawbacks. Finally, we discuss the technical challenges and potential future directions for possible improvements in this research field.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-28
# 拡張探索のための潜時データ拡張による潜時空間ベイズ最適化

Latent Space Bayesian Optimization with Latent Data Augmentation for Enhanced Exploration ( http://arxiv.org/abs/2302.02399v4 )

ライセンス: Link先を確認
Onur Boyar, Ichiro Takeuchi, (参考訳) ラテント宇宙ベイズ最適化(LSBO)は、典型的な変分オートエンコーダ(VAE)とベイズ最適化(BO)を組み合わせて、興味のあるデノボオブジェクトを生成する。 しかし、LSBO は BO と VAE の目標とのミスマッチにより、探索能力の低下により課題に直面している。 本稿では,LSBO効率の向上と課題克服のための新しいコントリビューションを提案する。 まず,VAE-BOミスマッチから生じるLSBOの重要な問題として,潜時整合/整合性の概念を紹介した。 そこで我々はLSBOにおける一貫した点を利用するLCA-AF(Latent Consistent Aware-Acquisition Function)を提案する。 さらに,潜時空間におけるデータ増大と潜時不整合のペナル化により,不整合点を増大させた潜時空間を創出する新しいVAE法であるLCA-VAEを提案する。 LCA-VAEとLCA-AFを組み合わせたLCA-LSBOを開発した。 本手法は,LSBOにおけるLCA-VAE内の潜時空間におけるデータ拡張の新たな導入を通じて,潜時一貫性に対処することの重要性を強調し,高効率かつ効率的な探索を実現する。 本稿では,デノボ画像生成とデノボ化学設計タスクによる提案手法の性能について紹介する。

Latent Space Bayesian Optimization (LSBO) combines generative models, typically Variational Autoencoders (VAE), with Bayesian Optimization (BO) to generate de-novo objects of interest. However, LSBO faces challenges due to the mismatch between the objectives of BO and VAE, resulting in poor exploration capabilities. In this paper, we propose novel contributions to enhance LSBO efficiency and overcome this challenge. We first introduce the concept of latent consistency/inconsistency as a crucial problem in LSBO, arising from the VAE-BO mismatch. To address this, we propose the Latent Consistent Aware-Acquisition Function (LCA-AF) that leverages consistent points in LSBO. Additionally, we present LCA-VAE, a novel VAE method that creates a latent space with increased consistent points through data augmentation in latent space and penalization of latent inconsistencies. Combining LCA-VAE and LCA-AF, we develop LCA-LSBO. Our approach achieves high sample-efficiency and effective exploration, emphasizing the significance of addressing latent consistency through the novel incorporation of data augmentation in latent space within LCA-VAE in LSBO. We showcase the performance of our proposal via de-novo image generation and de-novo chemical design tasks.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-28
# 時間的・構造的強度アライメントを用いた自己教師付き時間グラフ学習

Self-Supervised Temporal Graph learning with Temporal and Structural Intensity Alignment ( http://arxiv.org/abs/2302.07491v3 )

ライセンス: Link先を確認
Meng Liu, Ke Liang, Yawei Zhao, Wenxuan Tu, Sihang Zhou, Xinbiao Gan, Xinwang Liu, Kunlun He, (参考訳) 時間グラフ学習は,近年注目度が高まっている動的情報を用いたグラフベースタスクの高品質な表現を実現することを目的としている。 静的グラフとは対照的に、時間グラフは概して隣接行列ではなく、連続的にノード間相互作用列として構成される。 ほとんどの時間グラフ学習法は、歴史地区を組み込むことで、現在の相互作用をモデル化する。 しかし、これらの手法は、重要な高次構造情報を無視しながら、一階時間情報のみを考慮し、その結果、準最適性能をもたらす。 この問題に対処するために,時間的および構造的な情報を抽出し,より情報的なノード表現を学習する,S2Tと呼ばれる時間的グラフ学習のための自己指導手法を提案する。 特に、初期ノード表現は、2つの条件強度を計算するために、一階時間情報と高階構造情報を異なる方法で結合する。 次にアライメント損失を導入してノード表現を最適化し、2つのインテンシティ間のギャップを狭め、それらをより有益なものにする。 具体的には、歴史的隣接配列を用いた時間情報のモデル化に加えて、局所的・世界的レベルの構造的知識についても検討する。 局所レベルでは、高次近傍列から特徴を集約することで構造強度を生成する。 グローバルレベルでは、すべてのノードに基づいてグローバル表現を生成し、異なるノード上のアクティブステータスに応じて構造強度を調整する。 大規模な実験により、提案されたモデルS2Tは、いくつかのデータセットにおける最先端の競合と比較して、少なくとも10.13%のパフォーマンス改善が達成されている。

Temporal graph learning aims to generate high-quality representations for graph-based tasks with dynamic information, which has recently garnered increasing attention. In contrast to static graphs, temporal graphs are typically organized as node interaction sequences over continuous time rather than an adjacency matrix. Most temporal graph learning methods model current interactions by incorporating historical neighborhood. However, such methods only consider first-order temporal information while disregarding crucial high-order structural information, resulting in suboptimal performance. To address this issue, we propose a self-supervised method called S2T for temporal graph learning, which extracts both temporal and structural information to learn more informative node representations. Notably, the initial node representations combine first-order temporal and high-order structural information differently to calculate two conditional intensities. An alignment loss is then introduced to optimize the node representations, narrowing the gap between the two intensities and making them more informative. Concretely, in addition to modeling temporal information using historical neighbor sequences, we further consider structural knowledge at both local and global levels. At the local level, we generate structural intensity by aggregating features from high-order neighbor sequences. At the global level, a global representation is generated based on all nodes to adjust the structural intensity according to the active statuses on different nodes. Extensive experiments demonstrate that the proposed model S2T achieves at most 10.13% performance improvement compared with the state-of-the-art competitors on several datasets.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-28
# 配向拡散シュレーディンガー橋

Aligned Diffusion Schrödinger Bridges ( http://arxiv.org/abs/2302.11419v3 )

ライセンス: Link先を確認
Vignesh Ram Somnath, Matteo Pariset, Ya-Ping Hsieh, Maria Rodriguez Martinez, Andreas Krause, Charlotte Bunne, (参考訳) Diffusion Schr\"odinger Bridges (DSB) は、最近、異なる時間点における限界観測を通して確率力学を回復するための強力なフレームワークとして登場した。 多くの応用が成功したにもかかわらず、DSBを解くための既存のアルゴリズムは、多くの生物学的現象で自然に発生する整列データの構造を利用できなかった。 本稿では,データアライメントを尊重しながらDSBを初めて解決する新しいアルゴリズムフレームワークを提案する。 我々のアプローチは、古典的なシュリンガー橋理論とDoobの$h$-transformという2つの20年前のアイデアに基づいている。 従来の手法と比較して,本手法は分散度を下げた簡易な訓練手法を導出し,規則化方式をさらに強化する。 これは最終的に、タンパク質のコンフォメーション変化の予測や細胞分化過程の時間的進化を含む、合成データと実際のデータに関する実験において大きな改善をもたらす。

Diffusion Schr\"odinger bridges (DSB) have recently emerged as a powerful framework for recovering stochastic dynamics via their marginal observations at different time points. Despite numerous successful applications, existing algorithms for solving DSBs have so far failed to utilize the structure of aligned data, which naturally arises in many biological phenomena. In this paper, we propose a novel algorithmic framework that, for the first time, solves DSBs while respecting the data alignment. Our approach hinges on a combination of two decades-old ideas: The classical Schr\"odinger bridge theory and Doob's $h$-transform. Compared to prior methods, our approach leads to a simpler training procedure with lower variance, which we further augment with principled regularization schemes. This ultimately leads to sizeable improvements across experiments on synthetic and real data, including the tasks of predicting conformational changes in proteins and temporal evolution of cellular differentiation processes.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-28
# 接触力場の触覚推定による滑り検出の学習とそのエントロピー

Learning to Detect Slip through Tactile Estimation of the Contact Force Field and its Entropy ( http://arxiv.org/abs/2303.00935v4 )

ライセンス: Link先を確認
Xiaohai Hu, Aparajit Venkatesh, Yusen Wan, Guiliang Zheng, Neel Jawale, Navneet Kaur, Xu Chen, Paul Birkmeyer, (参考訳) 物体の握りと操作におけるすべりの検出は、物体のハンドリングにおいて重要な役割を果たす。 既存のソリューションは主に視覚情報に依存して、把握のための戦略を考案する。 しかしながら、ロボットシステムが人間に匹敵する習熟度に達するためには、特に不慣れな物体を一貫して扱い、操作する場合は、人工的な触覚センサーを統合することがますます不可欠である。 本研究では,スリップ検出をリアルタイムで連続的に行う物理インフォームド・データ駆動方式を提案する。 我々は、光学式触覚センサーであるGelSight Miniを、カスタムデザインのグリップに装着して、触覚データを収集する。 本研究は,スリップイベントにおける触覚センサの非均一性を活用して特徴を発達させ,スリップ検出を分類問題として定式化する。 提案手法を評価するため, 異なる負荷条件, テクスチャ, 材料条件下で10個の共通オブジェクト上で複数のデータ駆動モデルをテストする。 その結果,最高の分類アルゴリズムは95.61%の精度が得られることがわかった。 さらに、リアルタイムスリップ検出・防止アルゴリズムを実装した動的ロボット操作タスクにおける我々の研究の実践的応用について述べる。

Detection of slip during object grasping and manipulation plays a vital role in object handling. Existing solutions primarily rely on visual information to devise a strategy for grasping. However, for robotic systems to attain a level of proficiency comparable to humans, especially in consistently handling and manipulating unfamiliar objects, integrating artificial tactile sensing is increasingly essential. We introduce a novel physics-informed, data-driven approach to detect slip continuously in real time. We employ the GelSight Mini, an optical tactile sensor, attached to custom-designed grippers to gather tactile data. Our work leverages the inhomogeneity of tactile sensor readings during slip events to develop distinctive features and formulates slip detection as a classification problem. To evaluate our approach, we test multiple data-driven models on 10 common objects under different loading conditions, textures, and materials. Our results show that the best classification algorithm achieves a high average accuracy of 95.61%. We further illustrate the practical application of our research in dynamic robotic manipulation tasks, where our real-time slip detection and prevention algorithm is implemented.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-28
# 非マルコフ量子冷凍機

Non-Markovian Quantum Refrigerators ( http://arxiv.org/abs/2303.06712v2 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen, (参考訳) 3つの量子ビットからなる小さな量子冷蔵庫を探索し、それぞれが環境に接触し続ける。 1つは必ずしも過渡冷却がある場合であり、もう1つは定常冷却と過渡冷却の両方が一般的である場合である。 寒冷量子ビットと相互作用する数個の量子スピンによってモデル化された非マルコフ型貯水池により、寒冷量子ビットに付随する浴槽を置き換える場合、これらの設定のマルコフ環境については、大きな利点があることが示される。 また,3ビット冷凍装置の1つ以上の非マルコフ浴による冷凍も検討した。 皮肉なことに、安定な温度は少なくとも2つのマルコフ環境が存在する場合にのみ到達するが、すべての場合において温度振動の異なるエンベロープが存在する。 また,1つ以上の非マルコフ貯水池に接続されたデバイスと,1つ以上の非マルコフ貯水池に接続された2ビットおよび1ビットの自己持続型デバイスとの比較を行った。 このようなシステムにおける非マルコビアン性を検出する証人を提案する。 最後に, マルコフ雑音が存在する場合の冷凍機モデルについて検討し, 冷却強度に対する応答を解析した。 特に, 冷蔵が可能になるまでの騒音強度について検討した。

We explore a small quantum refrigerator consisting of three qubits, each of which is kept in contact with an environment. We consider two settings: one is when there is necessarily transient cooling and the other is when both steady-state and transient coolings prevail. We show that there can be significant advantages with respect to the case of Markovian environments for both these settings, if we replace the bath attached to the cold qubit by a non-Markovian reservoir, modeled by a few quantum spins interacting with the cold qubit. We also consider refrigeration with more than one non-Markovian baths of the three-qubit refrigerating device. Curiously, a steady temperature is reached only if there are at least two Markovian environments, although there are distinct envelopes of the temperature oscillations in all cases. We compare the device connected to one or more non-Markovian reservoirs with the case of all Markovian environs, as also with two- and single-qubit self-sustained devices connected to one or more non-Markovian baths. We propose a witness to detect non-Markovianity in such systems. Finally, the refrigerator models are studied in presence of Markovian noise, and we analyse the response on the refrigeration of the noise strength. In particular, we find the noise strength until which refrigeration remains possible.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-28
# Masked-AutoEncoder-based Point Cloud Pretrainingの3次元特徴予測

3D Feature Prediction for Masked-AutoEncoder-Based Point Cloud Pretraining ( http://arxiv.org/abs/2304.06911v2 )

ライセンス: Link先を確認
Siming Yan, Yuqi Yang, Yuxiao Guo, Hao Pan, Peng-shuai Wang, Xin Tong, Yang Liu, Qixing Huang, (参考訳) Masked Autoencoders (MAE)は、最近、NLPとコンピュータビジョンで大きな成功を収めたために、ポイントクラウドのための3Dセルフ教師付き事前トレーニングに導入された。 画像領域で使用されるMAEとは異なり、プリテキストタスクは、色などのマスクされたピクセルの機能を復元することであり、既存の3D MAEは、欠落した幾何学、すなわちマスクされた点の位置のみを再構築する。 従来の研究とは対照的に、位置回復はセンシティブであり、本質的な特徴の回復はより優れていると提唱した。 そこで本稿では, 符号化設計に依存しない新しいアテンションベースデコーダを用いて, 表面正規化や表面変化を含むマスキング点における高次特徴の復元と高次特徴の復元を提案する。 我々は,3次元学習のための異なるエンコーダ構造を用いたプリテキストタスクとデコーダ設計の有効性を検証し,各種クラウド解析タスクにおける事前学習ネットワークの利点を実証する。

Masked autoencoders (MAE) have recently been introduced to 3D self-supervised pretraining for point clouds due to their great success in NLP and computer vision. Unlike MAEs used in the image domain, where the pretext task is to restore features at the masked pixels, such as colors, the existing 3D MAE works reconstruct the missing geometry only, i.e, the location of the masked points. In contrast to previous studies, we advocate that point location recovery is inessential and restoring intrinsic point features is much superior. To this end, we propose to ignore point position reconstruction and recover high-order features at masked points including surface normals and surface variations, through a novel attention-based decoder which is independent of the encoder design. We validate the effectiveness of our pretext task and decoder design using different encoder structures for 3D training and demonstrate the advantages of our pretrained networks on various point cloud analysis tasks.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-28
# 3次元物体検出のための完全スパース核融合

Fully Sparse Fusion for 3D Object Detection ( http://arxiv.org/abs/2304.12310v3 )

ライセンス: Link先を確認
Yingyan Li, Lue Fan, Yang Liu, Zehao Huang, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang, (参考訳) 現在普及しているマルチモーダル3D検出法は、通常、密度の高いBird's-Eye-View (BEV)特徴マップを使用するLiDARベースの検出器上に構築されている。 しかし、このようなBEV特徴マップのコストは検出範囲に2次的であるため、長距離検出には適さない。 完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。 本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。 特に,全スパース検出器の3Dインスタンスセグメンテーション部分と平行なLiDAR側に,よく研究された2Dインスタンスセグメンテーションを統合する。 この設計は,完全スパース特性を維持しつつ,2次元と3次元の両面に均一なクエリベースの融合フレームワークを実現する。 大規模な実験では、広く使用されているnuScenesデータセットと長距離Argoverse 2データセットについて、最先端の結果が示されている。 特に、長距離LiDAR認識設定における提案手法の推論速度は、他の最先端マルチモーダル3D検出方法よりも2.7$\times$である。 コードは \url{https://github.com/BraveGroup/FullySparseFusion} でリリースされる。

Currently prevalent multimodal 3D detection methods are built upon LiDAR-based detectors that usually use dense Bird's-Eye-View (BEV) feature maps. However, the cost of such BEV feature maps is quadratic to the detection range, making it not suitable for long-range detection. Fully sparse architecture is gaining attention as they are highly efficient in long-range perception. In this paper, we study how to effectively leverage image modality in the emerging fully sparse architecture. Particularly, utilizing instance queries, our framework integrates the well-studied 2D instance segmentation into the LiDAR side, which is parallel to the 3D instance segmentation part in the fully sparse detector. This design achieves a uniform query-based fusion framework in both the 2D and 3D sides while maintaining the fully sparse characteristic. Extensive experiments showcase state-of-the-art results on the widely used nuScenes dataset and the long-range Argoverse 2 dataset. Notably, the inference speed of the proposed method under the long-range LiDAR perception setting is 2.7 $\times$ faster than that of other state-of-the-art multimodal 3D detection methods. Code will be released at \url{https://github.com/BraveGroup/FullySparseFusion}.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-28
# 量子フィッシャー情報とその動的性質

Quantum Fisher Information and its dynamical nature ( http://arxiv.org/abs/2304.14984v2 )

ライセンス: Link先を確認
Matteo Scandi, Paolo Abiuso, Jacopo Surace, Dario De Santis, (参考訳) 量子フィッシャー情報メートル法の重要性は、仮説テストから気象学まで、熱力学を通す、非常に異なる分野のアプリケーション数によって証明される。 それでも、量子フィッシャー情報の豊富な範囲からすると、典型的にはほんの一握りしか使われ、研究されていない。 本総説は,フィッシャー情報の研究を始める人々や,それに取り組んでいる人々にとって,よりオーガニックな理解を得られるような文献に散在する多くの結果を集めることを目的としている。 さらに,本研究は,フィッシャー情報と物理進化の関係に関する新たな結果と相補する。 [1]で行った研究を拡張して、すべての物理的に実現可能な力学がフィッシャー情報計量に関する関係でのみ定義されることを証明した。 さらに、マルコビアン性、回帰、詳細バランスといった他の性質は、同じ形式主義で表すことができる。 これらの結果は、文学において部分的に監督された事実、すなわちフィッシャー情報の本質的にダイナミックな性質を示している。

The importance of the quantum Fisher information metric is testified by the number of applications that this has in very different fields, ranging from hypothesis testing to metrology, passing through thermodynamics. Still, from the rich range of possible quantum Fisher information, only a handful are typically used and studied. This review aims at collecting a number of results scattered in the literature that can be useful to people who begin the study of Fisher information and to those who are already working on it to have a more organic understanding of the topic. Moreover, we complement the review with new results about the relation between Fisher information and physical evolutions. Extending the study done in [1], we prove that all the physically realisable dynamics can be defined solely in terms of their relation with respect to the Fisher information metric. Moreover, other properties as Markovianity, retrodiction or detailed balance can be expressed in the same formalism. These results show a fact that was partially overseen in the literature, namely the inherently dynamical nature of Fisher information.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-28
# 長周期認識問題におけるウェイトバランスの探索

Exploring Weight Balancing on Long-Tailed Recognition Problem ( http://arxiv.org/abs/2305.16573v7 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato, (参考訳) データセット内のクラス毎のサンプルサイズ分布が、標本サイズが意図的に調整されない限り、一般的に指数関数的であるため、クラス毎のサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。 これらの問題に対処するために様々な手法が考案され、近年では古典的正規化技法と二段階訓練を組み合わせた重みバランス法が提案されている。 その単純さにもかかわらず、様々な方法で考案された既存の手法と比較して高い性能で知られている。 しかし,この手法が長期データに有効である理由については理解されていない。 本研究では,各トレーニング段階における神経崩壊とコーン効果に着目して重みバランスを解析し,重み崩壊とクロスエントロピー損失,および重み崩壊とクラスバランス損失による暗黙的ロジット調整による特徴抽出器のフィッシャー判別比の増加に分解できることを見出した。 本分析により, トレーニング段階数を1に減らし, 精度を向上し, トレーニング手法をさらに単純化することができる。 コードはhttps://github.com/HN410/Exploring-Weight-Balancing-on-Long-Tailed-Recognition-Problemで公開されている。

Recognition problems in long-tailed data, in which the sample size per class is heavily skewed, have gained importance because the distribution of the sample size per class in a dataset is generally exponential unless the sample size is intentionally adjusted. Various methods have been devised to address these problems.Recently, weight balancing, which combines well-known classical regularization techniques with two-stage training, has been proposed. Despite its simplicity, it is known for its high performance compared with existing methods devised in various ways. However, there is a lack of understanding as to why this method is effective for long-tailed data. In this study, we analyze weight balancing by focusing on neural collapse and the cone effect at each training stage and found that it can be decomposed into an increase in Fisher's discriminant ratio of the feature extractor caused by weight decay and cross entropy loss and implicit logit adjustment caused by weight decay and class-balanced loss. Our analysis enables the training method to be further simplified by reducing the number of training stages to one while increasing accuracy. Code is available at https://github.com/HN410/Exploring-Weight-Balancing-on-Long-Tailed-Recognition-Problem.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-28
# Coeditor: マルチラウンドコード自動編集におけるコンテキスト変更の活用

Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing ( http://arxiv.org/abs/2305.18584v2 )

ライセンス: Link先を確認
Jiayi Wei, Greg Durrett, Isil Dillig, (参考訳) 開発者はしばしば、既存のコードのメンテナンスとリファクタリングにかなりの時間を費やします。 しかしながら、コード生成モデルに関するこれまでのほとんどの研究は、既存のコードを編集する特有のニーズを見越して、新しいコードの作成にのみ焦点をあてていた。 本研究では,コードベース内の最近の変更に基づいて,コード領域への編集を予測することを目的とした,複数ラウンドのコード自動編集設定について検討する。 我々のモデルであるCoeditorは、コード編集タスクに特化して設計された微調整言語モデルである。 行差分形式を用いてコード変更を表現し、静的解析を用いて大きなカスタマイズされたモデルコンテキストを構築し、予測に適切な情報を提供することを保証する。 トレーニングと評価のために1650のオープンソースのPythonプロジェクトのコミット履歴からコード編集データセットを収集します。 単純化されたシングルラウンドシングル編集タスクにおいて、Coeditor は GPT-3.5 と SOTA のオープンソースコード補完モデル(正確なマッチ精度を 34.7 から 60.4 まで)を大幅に上回り、コード補完に編集履歴を組み込むことの利点を示している。 複数ラウンドのマルチ編集設定では、追加のユーザ編集を反復的に条件付けすることで、かなりのゲインを観測する。 私たちは、将来の研究を促進するためにコード、データ、モデルウェイトをオープンソース化し、インタラクティブIDE使用のためのモデルを活用したVSCodeエクステンションをリリースしました。

Developers often dedicate significant time to maintaining and refactoring existing code. However, most prior work on generative models for code focuses solely on creating new code, overlooking the distinctive needs of editing existing code. In this work, we explore a multi-round code auto-editing setting, aiming to predict edits to a code region based on recent changes within the same codebase. Our model, Coeditor, is a fine-tuned language model specifically designed for code editing tasks. We represent code changes using a line diff format and employ static analysis to form large customized model contexts, ensuring the availability of appropriate information for prediction. We collect a code editing dataset from the commit histories of 1650 open-source Python projects for training and evaluation. In a simplified single-round, single-edit task, Coeditor significantly outperforms GPT-3.5 and SOTA open-source code completion models (bringing exact-match accuracy from 34.7 up to 60.4), demonstrating the benefits of incorporating editing history for code completion. In a multi-round, multi-edit setting, we observe substantial gains by iteratively conditioning on additional user edits. We have open-sourced our code, data, and model weights to encourage future research and have released a VSCode extension powered by our model for interactive IDE usage.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-28
# 位相空間における古典的および半古典的極限

Classical and semi-classical limits in phase space ( http://arxiv.org/abs/2305.18644v3 )

ライセンス: Link先を確認
Clay D. Spence, (参考訳) 半古典近似は、任意の波動関数を位相空間にマッピングするためにウェーブパケットの族を用いて導出される。 もしハミルトニアンが、エレンフェストの定理を提示するときによく行われるように、個々の波束に対して線型として近似できるなら、その結果の近似は位相空間上の線型一階偏微分方程式であり、これはシュリンガー=エレンフェストあるいはSE方程式と呼ばれる。 この対流は古典的な軌道に沿って波動関数を輸送するため、軌道が続くにつれて振幅は一定であり、作用による位相変化は$\hbar$である。 波動関数の2乗マグニチュードは可算位相空間密度であり、古典的時間発展に対するリウヴィルの方程式に従う。 これはKoopman-von–Neumann (KvN) の古典力学の定式化の導出である。 時間非依存のSE方程式では、波動関数の連続性は古典的軌跡で覆われたトーラスの任意の閉路の周囲の位相変化を必要とし、古い量子力学の定常波図を与える。 これは任意の系に適用できるが、分離可能な系に対してはボーア・ソマーフェルト量子化を与える。

A semiclassical approximation is derived by using a family of wavepackets to map arbitrary wavefunctions into phase space. If the Hamiltonian can be approximated as linear over each individual wavepacket, as often done when presenting Ehrenfest's theorem, the resulting approximation is a linear first-order partial differential equation on phase space, which will be referred to as the Schr\"odinger-Ehrenfest or SE equation. This advectively transports wavefunctions along classical trajectories, so that as a trajectory is followed in time the amplitude remains constant while the phase changes by the action divided by $\hbar$. The wavefunction's squared-magnitude is a plausible phase space density and obeys Liouville's equation for the classical time evolution. This is a derivation of the Koopman-von~Neumann (KvN) formulation of classical mechanics, which previously was postulated but not derived. With the time-independent SE equation, continuity of the wavefunction requires the change of phase around any closed path in the torus covered by a classical trajectory to be an integer multiple of $2\pi$, giving a standing wave picture of old quantum mechanics. While this applies to any system, for separable systems it gives Bohr-Sommerfeld quantization.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-28
# ポイントクラウド事前トレーニングに必要なマルチビュー表現

Multi-View Representation is What You Need for Point-Cloud Pre-Training ( http://arxiv.org/abs/2306.02558v3 )

ライセンス: Link先を確認
Siming Yan, Chen Song, Youkang Kong, Qixing Huang, (参考訳) 3Dポイントクラウドを事前トレーニングするための有望な方向は、大量のデータを2Dで活用することであり、一方、2Dと3Dのドメインギャップは、根本的な課題を生み出します。 本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。 最初に2次元特徴を予測し,次に次元持ち上げによって3次元特徴を得るという一般的な手法とは異なり,本手法では,特徴抽出に3次元ネットワークを直接利用している。 本研究では,新しい2次元知識伝達損失の助けを借りて3次元特徴抽出ネットワークを訓練し,事前学習された2次元ネットワークの出力と整合する3次元特徴の2次元投影を強制する。 この特徴が3D信号を捨てるのを防ぐために,複数のビューにまたがる画素ワイド対応を捉えるために,投影された2D特徴表現をさらに促進する多視点整合損失を導入する。 このような対応は3次元幾何学を誘導し、投影された2次元特徴の3次元特徴を効果的に保持する。 実験結果から,3次元形状分類,部分セグメント化,3次元オブジェクト検出,意味セグメント化,最先端性能の達成など,各種下流タスクへの事前学習モデルの転送に成功できることが示唆された。

A promising direction for pre-training 3D point clouds is to leverage the massive amount of data in 2D, whereas the domain gap between 2D and 3D creates a fundamental challenge. This paper proposes a novel approach to point-cloud pre-training that learns 3D representations by leveraging pre-trained 2D networks. Different from the popular practice of predicting 2D features first and then obtaining 3D features through dimensionality lifting, our approach directly uses a 3D network for feature extraction. We train the 3D feature extraction network with the help of the novel 2D knowledge transfer loss, which enforces the 2D projections of the 3D feature to be consistent with the output of pre-trained 2D networks. To prevent the feature from discarding 3D signals, we introduce the multi-view consistency loss that additionally encourages the projected 2D feature representations to capture pixel-wise correspondences across different views. Such correspondences induce 3D geometry and effectively retain 3D features in the projected 2D features. Experimental results demonstrate that our pre-trained model can be successfully transferred to various downstream tasks, including 3D shape classification, part segmentation, 3D object detection, and semantic segmentation, achieving state-of-the-art performance.
翻訳日:2024-05-01 01:24:19 公開日:2024-04-28
# BMAD: 医学的異常検出のためのベンチマーク

BMAD: Benchmarks for Medical Anomaly Detection ( http://arxiv.org/abs/2306.11876v3 )

ライセンス: Link先を確認
Jinan Bao, Hanshi Sun, Hanqiu Deng, Yinsheng He, Zhaoxiang Zhang, Xingyu Li, (参考訳) 異常検出(AD)は、機械学習とコンピュータビジョンの基本的な研究課題であり、産業検査、ビデオ監視、医療診断に実用化されている。 医用画像では、ADはまれな疾患や病態を示す可能性のある異常の検出と診断に特に重要である。 しかし、医療画像上でADメソッドを評価するための普遍的で公平なベンチマークが欠如しており、この特定の領域におけるより一般化された、堅牢なADメソッドの開発を妨げている。 このギャップを埋めるために、医用画像の異常検出方法を評価するための総合的な評価ベンチマークを導入する。 このベンチマークは、5つの医学領域(脳MRI、肝CT、網膜OCT、胸部X線、デジタル病理学)から6つの再構成データセットと3つの重要な評価指標を含み、合計14の最先端ADアルゴリズムを含んでいる。 本ベンチマークは,最近提案された異常検出手法の総合的な比較を可能にする。 これは、コミュニティが公正な比較を行い、医療画像におけるADの分野を前進させるのに役立つだろう。 BMADの詳細はGitHubリポジトリで確認できます。

Anomaly detection (AD) is a fundamental research problem in machine learning and computer vision, with practical applications in industrial inspection, video surveillance, and medical diagnosis. In medical imaging, AD is especially vital for detecting and diagnosing anomalies that may indicate rare diseases or conditions. However, there is a lack of a universal and fair benchmark for evaluating AD methods on medical images, which hinders the development of more generalized and robust AD methods in this specific domain. To bridge this gap, we introduce a comprehensive evaluation benchmark for assessing anomaly detection methods on medical images. This benchmark encompasses six reorganized datasets from five medical domains (i.e. brain MRI, liver CT, retinal OCT, chest X-ray, and digital histopathology) and three key evaluation metrics, and includes a total of fourteen state-of-the-art AD algorithms. This standardized and well-curated medical benchmark with the well-structured codebase enables comprehensive comparisons among recently proposed anomaly detection methods. It will facilitate the community to conduct a fair comparison and advance the field of AD on medical imaging. More information on BMAD is available in our GitHub repository: https://github.com/DorisBao/BMAD
翻訳日:2024-05-01 01:24:18 公開日:2024-04-28
# 資産管理シェルとオントロジーを用いた能力・技能モデルのマッピングに向けて

Toward a Mapping of Capability and Skill Models using Asset Administration Shells and Ontologies ( http://arxiv.org/abs/2307.00827v2 )

ライセンス: Link先を確認
Luis Miguel Vieira da Silva, Aljosha Köcher, Milapji Singh Gill, Marco Weiss, Alexander Fay, (参考訳) 生産の変化に効率よく反応するためには、資源とその機能をプラグに従って植物に統合し、原理を創出しなければならない。 この文脈では、いわゆる能力と技能の研究は有望であることが示されている。 しかしながら、モデリング機能とスキルには2つの非互換なアプローチがある。 一方、オントロジーを用いた公式な記述が開発されている。 一方、この目的のために、アセット管理シェル(AAS)のサブモデルを標準化する取り組みがある。 本稿では,これら2つの非互換なモデリング手法を結合する研究を継続する。 どちらのモデルも、類似したモデル要素を識別するために分析される。 次に,AASサブモデルと能力オントロジーの双方向マッピングの概念を提案する。 この目的のために、あるモデリングアプローチから別のモデリングアプローチへの変換を実装する2つの一方向の宣言的マッピングが適用されます。

In order to react efficiently to changes in production, resources and their functions must be integrated into plants in accordance with the plug and produce principle. In this context, research on so-called capabilities and skills has shown promise. However, there are currently two incompatible approaches to modeling capabilities and skills. On the one hand, formal descriptions using ontologies have been developed. On the other hand, there are efforts to standardize submodels of the Asset Administration Shell (AAS) for this purpose. In this paper, we present ongoing research to connect these two incompatible modeling approaches. Both models are analyzed to identify comparable as well as dissimilar model elements. Subsequently, we present a concept for a bidirectional mapping between AAS submodels and a capability and skill ontology. For this purpose, two unidirectional, declarative mappings are applied that implement transformations from one modeling approach to the other - and vice versa.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-28
# トラッキングサービスネットワークにおける動的負荷計画のための最適化に基づく学習

Optimization-based Learning for Dynamic Load Planning in Trucking Service Networks ( http://arxiv.org/abs/2307.04050v2 )

ライセンス: Link先を確認
Ritesh Ojha, Wenbo Chen, Hanyu Zhang, Reem Khir, Alan Erera, Pascal Van Hentenryck, (参考訳) 負荷計画問題は、パーセルキャリアのサービスネットワーク設計において重要な課題である。 もうひとつの重要な課題は、計画された負荷にどのようにパーセルボリュームを割り当てるかを指定するフロープランを決定することだ。 本稿では,端末の運転日前に需要予測が変化するにつれて,負荷やフローを調整するために,フローと負荷計画の課題を共同で検討するアウトバウンド負荷計画問題(OLPP)について考察する。 本研究の目的は,ネットワーク上の端末で意思決定を行う計画立案者に対して,意思決定支援ツールを開発することである。 本論文は、OLPPを混合整数プログラミングモデルとして定式化し、各商品をプライマリ端末と代替端末にルーティング可能なネットワークにおいて、多数の対称性を持つことを示す。 その結果、最適化解法は基本的に異なる解を密接に関連する問題に返却し、プランナーを混乱させ、最適化の信頼を減らすことができる。 本稿では,この制限を緩和するために,参照計画に近い最適解を生成することにより,これらの対称性を解消する語彙最適化手法を提案する。 さらに,最適化モデルの計算課題に対処する最適化プロキシを設計する。 最適化プロキシは、学習モデルと修復手順を組み合わせることで、ループ内のプランナーが課するリアルタイム制約を満たす、ほぼ最適なソリューションを見つける。 産業インスタンスに関する広範な計算研究は、最適化プロキシが互いに一貫性のあるソリューションを生成するために、桁違いに高速であることを示している。 提案手法は,負荷統合のためのOLPPの利点と,機械学習と最適化を組み合わせることで得られる大幅な節約効果を示す。

The load planning problem is a critical challenge in service network design for parcel carriers: it decides how many trailers to assign for dispatch over time between pairs of terminals. Another key challenge is to determine a flow plan, which specifies how parcel volumes are assigned to planned loads. This paper considers the Outbound Load Planning Problem (OLPP) that considers flow and load planning challenges jointly in order to adjust loads and flows as the demand forecast changes over time before the day of operations in a terminal. The paper aims at developing a decision-support tool to inform planners making these decisions at terminals across the network. The paper formulates the OLPP as a mixed-integer programming model and shows that it admits a large number of symmetries in a network where each commodity can be routed through primary and alternate terminals. As a result, an optimization solver may return fundamentally different solutions to closely related problems, confusing planners and reducing trust in optimization. To remedy this limitation, this paper proposes a lexicographical optimization approach that eliminates those symmetries by generating optimal solutions staying close to a reference plan. Moreover, this paper designs an optimization proxy that addresses the computational challenges of the optimization model. The optimization proxy combines a machine-learning model and a repair procedure to find near-optimal solutions that satisfy real-time constraints imposed by planners in the loop. An extensive computational study on industrial instances shows that the optimization proxy is orders of magnitude faster for generating solutions that are consistent with each other. The proposed approach also demonstrates the benefits of the OLPP for load consolidation and the significant savings obtained from combining machine learning and optimization.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# 整形構造物の連続形状推定のための折り紙単端キャパシタセンシング

Origami Single-end Capacitive Sensing for Continuous Shape Estimation of Morphing Structures ( http://arxiv.org/abs/2307.05370v2 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Daniel Geißler, Bo Zhou, Paul Lukowicz, Berit Greinke, (参考訳) 本研究では, 折り紙構造体と容量型構造体を組み合わせ, 最先端のセンサ回路と深層学習を用いて変形構造体の動きを検出することで, 形状追跡のための新しい一端型モーフィング容量検出法FxCを提案する。 導電性材料を単一端容量感電パッチとして織り込んだ折り紙構造物の埋没部から, センサ信号が構造物の運動と整合的に変化するのを観察した。 両板コンデンサの誘電層の厚み調整に折り紙構造を用いる他の折り紙コンデンサとは異なり、FxCはチャネル毎に1つの導電板のみを使用し、折り紙構造は導電板の形状を直接変更する。 実験で観察された同様の挙動を導出する物理理論推論と3次元幾何シミュレーションにより, 単端キャパシタの動作原理を考察した。 その後、センサー信号を用いて、視覚追跡から抽出された幾何学的プリミティブの、データ駆動のディープニューラルネットワークレグレッションにより、動的構造幾何を再構築するソフトウェアパイプラインが開発された。 アコーディオン,Chevron,Sunray,V-Foldなどの折りたたみパターンを,紙ベースの材料と繊維ベースの材料を用いて,コンデンサセンサの配置の異なるパターンに基づいて,複数の折りたたみパターンを作成し,そのアプローチを検証する。 実験の結果, 容量的信号から予測される幾何学的プリミティブは, R-二乗値が95%, パッチの追跡誤差が6.5mmの視覚的基底真理と強く相関していることがわかった。 シミュレーションと機械学習は、センシング信号と構造幾何学との間の双方向情報交換を構成する。

In this work, we propose a novel single-end morphing capacitive sensing method for shape tracking, FxC, by combining Folding origami structures and Capacitive sensing to detect the morphing structural motions using state-of-the-art sensing circuits and deep learning. It was observed through embedding areas of origami structures with conductive materials as single-end capacitive sensing patches, that the sensor signals change coherently with the motion of the structure. Different from other origami capacitors where the origami structures are used in adjusting the thickness of the dielectric layer of double-plate capacitors, FxC uses only a single conductive plate per channel, and the origami structure directly changes the geometry of the conductive plate. We examined the operation principle of morphing single-end capacitors through 3D geometry simulation combined with physics theoretical deduction, which deduced similar behaviour as observed in experimentation. Then a software pipeline was developed to use the sensor signals to reconstruct the dynamic structural geometry through data-driven deep neural network regression of geometric primitives extracted from vision tracking. We created multiple folding patterns to validate our approach, based on folding patterns including Accordion, Chevron, Sunray and V-Fold patterns with different layouts of capacitive sensors using paper-based and textile-based materials. Experimentation results show that the geometry primitives predicted from the capacitive signals have a strong correlation with the visual ground truth with R-squared value of up to 95% and tracking error of 6.5 mm for patches. The simulation and machine learning constitute two-way information exchange between the sensing signals and structural geometry.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# 猫量子ビットのビットフリップ時間を0.3秒まで延ばす自己パラメトリック共鳴

Autoparametric resonance extending the bit-flip time of a cat qubit up to 0.3 s ( http://arxiv.org/abs/2307.06761v3 )

ライセンス: Link先を確認
Antoine Marquet, Antoine Essig, Joachim Cohen, Nathanaël Cottet, Anil Murani, Emanuele Albertinale, Simon Dupouy, Audrey Bienfait, Théau Peronnin, Sébastien Jezouin, Raphaël Lescanne, Benjamin Huard, (参考訳) 理論的な $|0\rangle$ と $|1\rangle$ がコヒーレントな状態 $|\pm\alpha\rangle$ である猫量子ビットは、量子誤差補正への有望な経路を提供する。 調和モードの光子対を環境の単一光子と交換するために、我々の優位性への消散を利用して、論理状態を安定させ、光子番号 $|\alpha|^2$ で猫量子ビットのビットフリップ時間を指数関数的に増加させることができる。 大規模な2光子散逸率$\kappa_2$は、速い量子ビット操作と短い誤り訂正サイクルを保証する。 ここでは、猫量子ビットを含むモードを猫モードの2倍の周波数に設定した損失モードに結合する自己パラメトリック超伝導回路を導入・運用する。 このパッシブカップリングはパラメトリックポンプを必要としないので、$\kappa_2/2\pi\approx 2~\mathrm{MHz}$に達する。 このような強い2光子散逸により、位相フリップ誤差に緩やかな影響しか与えない特性時間において、オートパラメトリックキャットキュービットのビットフリップ誤差を最大0.3〜sまで防止する。 さらに、$|\alpha\rangle$ と $|-\alpha\rangle$ の間の量子重ね合わせの位相は、工学的な散逸を活発に保ちながらハーモニックモードを駆動することによって任意に変化させることができる。

Cat qubits, for which logical $|0\rangle$ and $|1\rangle$ are coherent states $|\pm\alpha\rangle$ of a harmonic mode, offer a promising route towards quantum error correction. Using dissipation to our advantage so that photon pairs of the harmonic mode are exchanged with single photons of its environment, it is possible to stabilize the logical states and exponentially increase the bit-flip time of the cat qubit with the photon number $|\alpha|^2$. Large two-photon dissipation rate $\kappa_2$ ensures fast qubit manipulation and short error correction cycles, which are instrumental to correct the remaining phase-flip errors in a repetition code of cat qubits. Here we introduce and operate an autoparametric superconducting circuit that couples a mode containing the cat qubit to a lossy mode whose frequency is set at twice that of the cat mode. This passive coupling does not require a parametric pump and reaches a rate $\kappa_2/2\pi\approx 2~\mathrm{MHz}$. With such a strong two-photon dissipation, bit-flip errors of the autoparametric cat qubit are prevented for a characteristic time up to 0.3~s with only a mild impact on phase-flip errors. Besides, we illustrate how the phase of a quantum superposition between $|\alpha\rangle$ and $|-\alpha\rangle$ can be arbitrarily changed by driving the harmonic mode while keeping the engineered dissipation active.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# 生成拡散モデルによる合成ラグランジアン乱流

Synthetic Lagrangian Turbulence by Generative Diffusion Models ( http://arxiv.org/abs/2307.08529v2 )

ライセンス: Link先を確認
Tianyi Li, Luca Biferale, Fabio Bonaccorso, Martino Andrea Scarpolini, Michele Buzzicotti, (参考訳) ラグランジアン乱流は、工学、生物流体、大気、海洋、天体物理学における分散と混合の物理学に関する多くの応用および基礎的な問題の核にある。 過去30年間に行われた例外的な理論的、数値的、実験的試みにもかかわらず、既存のモデルでは乱流中の粒子軌道によって示される統計的および位相的特性を忠実に再現することができない。 本研究では,最先端拡散モデルに基づく機械学習手法を提案し,レイノルズ数で3次元乱流の単一粒子軌道を生成することにより,直接数値シミュレーションや実験を回避し,信頼性の高いラグランジアンデータを得る。 本モデルでは, 速度インクリメントのファットテール分布, 異常電力法則, 散逸スケール周辺における断続性の増加など, 時間スケールで統計学的ベンチマークを再現できることを実証する。 光の偏差は散逸スケール以下、特に加速度と平坦度統計において観測される。 驚くべきことに、このモデルは極端な事象に対して強い一般化可能性を示し、依然として現実的な統計に合致する高い強度と希薄な事象を生み出している。 これは、ラグランジアン乱流の様々な下流の応用を事前訓練するための、合成された高品質なデータセットを作成する方法である。

Lagrangian turbulence lies at the core of numerous applied and fundamental problems related to the physics of dispersion and mixing in engineering, bio-fluids, atmosphere, oceans, and astrophysics. Despite exceptional theoretical, numerical, and experimental efforts conducted over the past thirty years, no existing models are capable of faithfully reproducing statistical and topological properties exhibited by particle trajectories in turbulence. We propose a machine learning approach, based on a state-of-the-art diffusion model, to generate single-particle trajectories in three-dimensional turbulence at high Reynolds numbers, thereby bypassing the need for direct numerical simulations or experiments to obtain reliable Lagrangian data. Our model demonstrates the ability to reproduce most statistical benchmarks across time scales, including the fat-tail distribution for velocity increments, the anomalous power law, and the increased intermittency around the dissipative scale. Slight deviations are observed below the dissipative scale, particularly in the acceleration and flatness statistics. Surprisingly, the model exhibits strong generalizability for extreme events, producing events of higher intensity and rarity that still match the realistic statistics. This paves the way for producing synthetic high-quality datasets for pre-training various downstream applications of Lagrangian turbulence.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# 大規模言語モデル研究における話題・著者・機関:17K arXiv論文の動向

Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers ( http://arxiv.org/abs/2307.10700v4 )

ライセンス: Link先を確認
Rajiv Movva, Sidhika Balachandar, Kenny Peng, Gabriel Agostini, Nikhil Garg, Emma Pierson, (参考訳) 大規模言語モデル(LLM)がAI研究に劇的に影響を与えており、これまで何が変わったのか、どのようにフィールドの未来を形作るかについての議論が引き起こされている。 このような疑問を明らかにするために,我々は,2023年対2018-2022年の動向に着目し,16,979 LLM関連arXiv論文のデータセットを新たに分析した。 LLM研究は、コンピュータと社会への20倍のLLMの提出によって証明される社会的な影響をますます考慮している。 2023年に最初の著者の半数が、CSの非NLP分野から参入し、学際的な拡張を推進している。 第2に、業界と学術出版の動向について研究する。 意外なことに、業界は2023年の出版シェアを減らしている。 第三に、私たちは制度的なコラボレーションについて研究している: 産学連携は一般的であるが、彼らは違いを橋渡しするよりも、業界が重視するのと同じトピックに焦点を合わせがちである。 最も多産な機関は米国か中国だが、国間の協力はほとんどない。 本稿では,(1)新著者の流入を支える方法,(2)産業界の動向が学術にどのような影響を及ぼすか,(3)協力の欠如がもたらす影響について論じる。

Large language models (LLMs) are dramatically influencing AI research, spurring discussions on what has changed so far and how to shape the field's future. To clarify such questions, we analyze a new dataset of 16,979 LLM-related arXiv papers, focusing on recent trends in 2023 vs. 2018-2022. First, we study disciplinary shifts: LLM research increasingly considers societal impacts, evidenced by 20x growth in LLM submissions to the Computers and Society sub-arXiv. An influx of new authors -- half of all first authors in 2023 -- are entering from non-NLP fields of CS, driving disciplinary expansion. Second, we study industry and academic publishing trends. Surprisingly, industry accounts for a smaller publication share in 2023, largely due to reduced output from Google and other Big Tech companies; universities in Asia are publishing more. Third, we study institutional collaboration: while industry-academic collaborations are common, they tend to focus on the same topics that industry focuses on rather than bridging differences. The most prolific institutions are all US- or China-based, but there is very little cross-country collaboration. We discuss implications around (1) how to support the influx of new authors, (2) how industry trends may affect academics, and (3) possible effects of (the lack of) collaboration.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# 物理対応半監督水中画像強調

Physics-Aware Semi-Supervised Underwater Image Enhancement ( http://arxiv.org/abs/2307.11470v2 )

ライセンス: Link先を確認
Hao Qi, Xinghui Dong, (参考訳) 水中画像は通常、水域の透過媒質による劣化に悩まされる。 従来の事前ベースアプローチとディープラーニングベースの手法の両方がこの問題に対処するために使われてきた。 しかしながら、前者の非フレキシブルな仮定は、多様な水中シーンを扱う上での有効性を損なうことが多いが、後者のイメージの一般化は、不十分なデータによって弱まることが多い。 本研究では,物理に基づく水中画像形成モデル (IFM) と深層学習技術の両方を水中画像強調(UIE)に活用する。 そこで本研究では,伝送推定水蒸気 (T-Stream) とアンビエント光推定水蒸気 (A-Stream) を組み合わせた新しい物理対応デュアルストリーム水中画像強調ネットワークPA-UIENetを提案する。 このネットワークは、IFMの劣化パラメータを明示的に推定することでUIEタスクを満たす。 また、ラベル付き画像とラベルなし画像の両方を利用して、IFMにインスパイアされた半教師付き学習フレームワークを採用し、不十分なデータの問題に対処する。 本手法は, 劣化推定およびUIEタスクにおいて, 5つのテストセットにまたがる8つのベースラインよりも, あるいは少なくとも同等に, 性能が向上する。 これは、分解をモデル化できるだけでなく、水中の多様なシーンの特徴も学べるからである。

Underwater images normally suffer from degradation due to the transmission medium of water bodies. Both traditional prior-based approaches and deep learning-based methods have been used to address this problem. However, the inflexible assumption of the former often impairs their effectiveness in handling diverse underwater scenes, while the generalization of the latter to unseen images is usually weakened by insufficient data. In this study, we leverage both the physics-based underwater Image Formation Model (IFM) and deep learning techniques for Underwater Image Enhancement (UIE). To this end, we propose a novel Physics-Aware Dual-Stream Underwater Image Enhancement Network, i.e., PA-UIENet, which comprises a Transmission Estimation Steam (T-Stream) and an Ambient Light Estimation Stream (A-Stream). This network fulfills the UIE task by explicitly estimating the degradation parameters of the IFM. We also adopt an IFM-inspired semi-supervised learning framework, which exploits both the labeled and unlabeled images, to address the issue of insufficient data. Our method performs better than, or at least comparably to, eight baselines across five testing sets in the degradation estimation and UIE tasks. This should be due to the fact that it not only can model the degradation but also can learn the characteristics of diverse underwater scenes.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# 臨床・バイオメディカル・タスクに応用した命令型大規模言語モデルのゼロショットとファウショットによる検討

A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks ( http://arxiv.org/abs/2307.12114v2 )

ライセンス: Link先を確認
Yanis Labrak, Mickael Rouvier, Richard Dufour, (参考訳) 我々は、英語の13の現実的臨床・バイオメディカル自然言語処理(NLP)タスク(NER)、質問応答(QA)、関係抽出(RE)など、最先端の4つの言語モデル(ChatGPT、Flan-T5 UL2、Tk-Instruct、Alpaca)を評価する。 我々の総合的な結果は、評価されたLLMが、ほとんどのタスク、特にQAタスクにおいてゼロおよび少数ショットシナリオにおける最先端モデルの性能に近づき始めていることを示している。 しかし, PubMedBERT などの医療分野において, 特定の訓練を施したモデルを用いて, 分類とREタスクが達成できることが観察された。 最後に、LLMはすべての研究されたタスクで他のすべてのタスクより優れており、いくつかのモデルは他のタスクよりも適している、と言及した。

We evaluate four state-of-the-art instruction-tuned large language models (LLMs) -- ChatGPT, Flan-T5 UL2, Tk-Instruct, and Alpaca -- on a set of 13 real-world clinical and biomedical natural language processing (NLP) tasks in English, such as named-entity recognition (NER), question-answering (QA), relation extraction (RE), etc. Our overall results demonstrate that the evaluated LLMs begin to approach performance of state-of-the-art models in zero- and few-shot scenarios for most tasks, and particularly well for the QA task, even though they have never seen examples from these tasks before. However, we observed that the classification and RE tasks perform below what can be achieved with a specifically trained model for the medical field, such as PubMedBERT. Finally, we noted that no LLM outperforms all the others on all the studied tasks, with some models being better suited for certain tasks than others.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# PePNet: 重労働負荷の希少発生をサポートする周期的知覚型ワークロード予測ネットワーク

PePNet: A Periodicity-Perceived Workload Prediction Network Supporting Rare Occurrence of Heavy Workload ( http://arxiv.org/abs/2308.01917v2 )

ライセンス: Link先を確認
Feiyi Chen, Zhen Qin, Hailiang Zhao, Shuiguang Deng, (参考訳) クラウドプロバイダは、正確なワークロード予測の恩恵を受けることができる。 しかし、クラウドサーバのワークロードは非常に可変であり、時には重いワークロードがバーストする。 これにより、ワークロードの予測が難しくなります。 主に、統計的手法とニューラルネットワークに基づく方法の2つのカテゴリがある。 前者は強い数学的仮定に頼り、高度に可変なワークロードを予測する際に低い精度を報告している。 後者は全体的な精度が向上するが、重いワークロードと一般的なワークロードの間のデータ不均衡に弱い。 これにより、重労働負荷によるニューラルネットワークベースのモデルの予測精度が損なわれる。 統計手法の全体的な不正確さや、ニューラルネットワークベースのモデルの重負荷不正確さは、サービスレベルの合意違反を引き起こす可能性がある。 そこで本研究では,特に負荷予測の精度を向上させるため,PePNetを提案する。 特徴は2つある。 一 事前の知識なく、周期性及び一期間の期間を自動的に検出する周期性知覚機構 さらに、周期的・ラックス的・非周期的時系列に好適な周期的情報を適応的に融合する。 二 アキレスのヒール損失関数は、各ステップの予測シーケンスにおいて最も不適合な部分を反復的に最適化し、重負荷の予測精度を大幅に向上させる。 Alibaba2018、SMDデータセット、Dindaのデータセットで実施された大規模な実験によると、PePNetは、最先端の方法と比較して、全体ワークロードのMAPEを平均で20.0%改善している。 特にPePNetは、重労働負荷に対するMAPEを平均23.9%改善している。

Cloud providers can greatly benefit from accurate workload prediction. However, the workload of cloud servers is highly variable, with occasional heavy workload bursts. This makes workload prediction challenging. There are mainly two categories of workload prediction methods: statistical methods and neural-network-based ones. The former ones rely on strong mathematical assumptions and have reported low accuracy when predicting highly variable workload. The latter ones offer higher overall accuracy, yet they are vulnerable to data imbalance between heavy workload and common one. This impairs the prediction accuracy of neural network-based models on heavy workload. Either the overall inaccuracy of statistic methods or the heavy-workload inaccuracy of neural-network-based models can cause service level agreement violations. Thus, we propose PePNet to improve overall especially heavy workload prediction accuracy. It has two distinctive characteristics: (i) A Periodicity-Perceived Mechanism to detect the existence of periodicity and the length of one period automatically, without any priori knowledge. Furthermore, it fuses periodic information adaptively, which is suitable for periodic, lax periodic and aperiodic time series. (ii) An Achilles' Heel Loss Function iteratively optimizing the most under-fitting part in predicting sequence for each step, which significantly improves the prediction accuracy of heavy load. Extensive experiments conducted on Alibaba2018, SMD dataset and Dinda's dataset demonstrate that PePNet improves MAPE for overall workload by 20.0% on average, compared with state-of-the-art methods. Especially, PePNet improves MAPE for heavy workload by 23.9% on average.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-28
# KS-APR:ロバストな絶対値回帰のためのキーフレーム選択

KS-APR: Keyframe Selection for Robust Absolute Pose Regression ( http://arxiv.org/abs/2308.05459v2 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud, (参考訳) Markerless Mobile Augmented Reality (AR)は、特定の2Dや3Dオブジェクトを使わずに、物理的な世界でデジタルコンテンツを固定することを目的としている。 Absolute Pose Regressors (APR) は、単一の単眼画像からデバイスのポーズを推測するエンドツーエンドの機械学習ソリューションである。 計算コストの低いため、モバイルARデバイスの制約されたハードウェア上で直接実行できる。 しかし、APR法はトレーニングセットから遠すぎる入力画像に対して重大な不正確性をもたらす傾向にある。 本稿では,推定ポーズの信頼性を最小限のオーバーヘッドで評価するパイプラインであるKS-APRを紹介する。 モバイルARシステムは、経験中のデバイスの相対的なポーズを追跡するために、視覚慣性オドメトリーに依存する傾向がある。 そのため、KS-APRは周波数よりも信頼性を優先し、信頼できないポーズを破棄する。 このパイプラインは、既存のほとんどのAPRメソッドを統合することで、信頼できない画像をポーズ推定でフィルタリングすることで精度を向上させることができる。 屋内および屋外データセット上の3種類のAPRモデルにパイプラインを実装した。 位置と向きの中央値の誤差はすべてのモデルで減少し、大きなエラーの割合はデータセット間で最小化される。 本手法はDFNetdmのような最先端のAPRが単一画像およびシーケンシャルなAPRよりも優れていることを示す。 これらの結果は、ワンショット決定を必要としない視覚的位置決めタスクに対するKS-APRのスケーラビリティと有効性を示す。

Markerless Mobile Augmented Reality (AR) aims to anchor digital content in the physical world without using specific 2D or 3D objects. Absolute Pose Regressors (APR) are end-to-end machine learning solutions that infer the device's pose from a single monocular image. Thanks to their low computation cost, they can be directly executed on the constrained hardware of mobile AR devices. However, APR methods tend to yield significant inaccuracies for input images that are too distant from the training set. This paper introduces KS-APR, a pipeline that assesses the reliability of an estimated pose with minimal overhead by combining the inference results of the APR and the prior images in the training set. Mobile AR systems tend to rely upon visual-inertial odometry to track the relative pose of the device during the experience. As such, KS-APR favours reliability over frequency, discarding unreliable poses. This pipeline can integrate most existing APR methods to improve accuracy by filtering unreliable images with their pose estimates. We implement the pipeline on three types of APR models on indoor and outdoor datasets. The median error on position and orientation is reduced for all models, and the proportion of large errors is minimized across datasets. Our method enables state-of-the-art APRs such as DFNetdm to outperform single-image and sequential APR methods. These results demonstrate the scalability and effectiveness of KS-APR for visual localization tasks that do not require one-shot decisions.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-28
# 深部ニューラル演算子駆動型実時間推定によるディジタル双極子解の実現

Deep Neural Operator Driven Real Time Inference for Nuclear Systems to Enable Digital Twin Solutions ( http://arxiv.org/abs/2308.07523v2 )

ライセンス: Link先を確認
Kazuma Kobayashi, Syed Bahauddin Alam, (参考訳) 本稿では,Deep Neural Operator (DeepONet) の核エネルギーシステムに対するディジタルツイン (DT) の文脈におけるロバスト・サロゲート・モデリング手法としての可能性に焦点を当てる。 本研究では,DeepONetの粒子輸送問題における一般化可能性と計算効率について検討した。 DeepONetはまた、従来のMLメソッドよりも優れた予測精度と速度を示し、リアルタイムDT推論に適したアルゴリズムである。 しかし,DeepONetの応用は,センサ配置やモデル評価,実世界の実装における重要な側面に関わる課題も明らかにしている。 これらの課題に対処することで、メソッドの実用性と信頼性をさらに高めることができます。 全体として、DeepONetは有望で変革的な核工学の研究と応用ツールである。 その正確な予測と計算効率の能力はDTシステムに革命をもたらし、原子力工学の研究を前進させる。 本研究は,重要な工学領域における代理モデリング技術の力を利用するための重要なステップである。

This paper focuses on the feasibility of Deep Neural Operator (DeepONet) as a robust surrogate modeling method within the context of digital twin (DT) for nuclear energy systems. Through benchmarking and evaluation, this study showcases the generalizability and computational efficiency of DeepONet in solving a challenging particle transport problem. DeepONet also exhibits remarkable prediction accuracy and speed, outperforming traditional ML methods, making it a suitable algorithm for real-time DT inference. However, the application of DeepONet also reveals challenges related to optimal sensor placement and model evaluation, critical aspects of real-world implementation. Addressing these challenges will further enhance the method's practicality and reliability. Overall, DeepONet presents a promising and transformative nuclear engineering research and applications tool. Its accurate prediction and computational efficiency capabilities can revolutionize DT systems, advancing nuclear engineering research. This study marks an important step towards harnessing the power of surrogate modeling techniques in critical engineering domains.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-28
# 第一次論理を超えたリフテッド推論

Lifted Inference beyond First-Order Logic ( http://arxiv.org/abs/2308.11738v2 )

ライセンス: Link先を確認
Sagar Malhotra, Davide Bizzaro, Luciano Serafini, (参考訳) WFOMC(Weighted First Order Model Counting)は、統計関係学習モデルにおける確率論的推論の基礎である。 WFOMCは一般には難解($P完全)であることが知られているので、多項式時間WFOMCを許容する論理的断片は重要な関心事である。 このようなフラグメントをドメインリフト(Domain liftable)と呼ぶ。 最近の研究は、数量化子(\mathrm{C^2}$)で拡張された一階論理の2変数の断片がドメインリフト可能であることを示した。 しかし、引用ネットワークの非巡回性やソーシャルネットワークの接続性のような現実世界のデータの性質の多くは、$\mathrm{C^2}$でモデル化することはできない。 本研究では、複数の性質を持つ$\mathrm{C^2}$の領域持ち上げ可能性を拡張する。 任意の$\mathrm{C^2}$文は、その関係の1つが有向非巡回グラフ、連結グラフ、木(有向木を参照)または森(有向木を参照)を表すように制限されたときに、ドメインリフト可能であることを示す。 すべての結果は、"分割による数え方"という、新しく一般的な方法論に依存しています。 確率的推論へのそれらの応用に加えて、我々の結果は組合せ構造を数えるための一般的な枠組みを提供する。 我々は、有向非巡回グラフや系統ネットワークなどに関する離散数学の文献において、過去の膨大な成果を拡大する。

Weighted First Order Model Counting (WFOMC) is fundamental to probabilistic inference in statistical relational learning models. As WFOMC is known to be intractable in general ($\#$P-complete), logical fragments that admit polynomial time WFOMC are of significant interest. Such fragments are called domain liftable. Recent works have shown that the two-variable fragment of first order logic extended with counting quantifiers ($\mathrm{C^2}$) is domain-liftable. However, many properties of real-world data, like acyclicity in citation networks and connectivity in social networks, cannot be modeled in $\mathrm{C^2}$, or first order logic in general. In this work, we expand the domain liftability of $\mathrm{C^2}$ with multiple such properties. We show that any $\mathrm{C^2}$ sentence remains domain liftable when one of its relations is restricted to represent a directed acyclic graph, a connected graph, a tree (resp. a directed tree) or a forest (resp. a directed forest). All our results rely on a novel and general methodology of "counting by splitting". Besides their application to probabilistic inference, our results provide a general framework for counting combinatorial structures. We expand a vast array of previous results in discrete mathematics literature on directed acyclic graphs, phylogenetic networks, etc.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-28
# 商業用防汚工具とその近代的脅威に対する比較効果

Commercial Anti-Smishing Tools and Their Comparative Effectiveness Against Modern Threats ( http://arxiv.org/abs/2309.07447v2 )

ライセンス: Link先を確認
Daniel Timko, Muhammad Lutfor Rahman, (参考訳) SMSフィッシング(SMS phishing)は、攻撃者がSMS通信を偽装してターゲットを欺いて機密データを提供する不正なコミュニケーションの一種である。 スマイッシング攻撃には様々な戦術があるが、金銭を盗んだり、被害者から個人情報(PII)を個人識別するという同様の目的がある。 これらの攻撃に対して、これらの通信をブロックまたはフィルタリングするために、幅広い種類のアンチ・スミッシング・ツールが開発されている。 しかし、フィッシング攻撃の数は増え続けている。 本稿では,新しいスマイッシング攻撃に対する一般的なアンチ・スマイッシング・ツールの有効性を評価するためのテストベッドを開発した。 Smishtank.comはスマイッシングデータセットの報告と収集のための協調的なオンラインリソースである。 SMSメッセージはセキュリティの専門家によって検証され、収集されたメッセージに対して詳細な質的分析が行われ、さらなる洞察が得られた。 ツールの有効性を比較するために、SMSメッセージング配信エコシステムの3つの重要な部分にわたって、20のスマイシングと良心的なメッセージを実験した。 以上の結果から,スマイッシングセットに対する3つの領域で改善の余地が認められた。 ほとんどのアンチフィッシングアプリやバルクメッセージングサービスは、キャリアブロック以上のスマイシングメッセージをフィルタリングしなかった。 最もスムーズなメッセージをブロックした2つのアプリも85~100\%の良質なメッセージをブロックした。 最後に、キャリアは良質なメッセージをブロックしなかったが、メッセージをスマイシングするために25~35倍のブロックレートにしか到達できなかった。 私たちの作業は、アンチスマイシングツールのパフォーマンスと、メッセージブロッキングプロセスで彼らが果たす役割に関する洞察を提供します。 本稿は、SMSプラットフォームにおけるアンチ・スマイシング技術の現状について、研究コミュニティや業界がより深く知ることを可能にするものである。

Smishing, also known as SMS phishing, is a type of fraudulent communication in which an attacker disguises SMS communications to deceive a target into providing their sensitive data. Smishing attacks use a variety of tactics; however, they have a similar goal of stealing money or personally identifying information (PII) from a victim. In response to these attacks, a wide variety of anti-smishing tools have been developed to block or filter these communications. Despite this, the number of phishing attacks continue to rise. In this paper, we developed a test bed for measuring the effectiveness of popular anti-smishing tools against fresh smishing attacks. To collect fresh smishing data, we introduce Smishtank.com, a collaborative online resource for reporting and collecting smishing data sets. The SMS messages were validated by a security expert and an in-depth qualitative analysis was performed on the collected messages to provide further insights. To compare tool effectiveness, we experimented with 20 smishing and benign messages across 3 key segments of the SMS messaging delivery ecosystem. Our results revealed significant room for improvement in all 3 areas against our smishing set. Most anti-phishing apps and bulk messaging services didn't filter smishing messages beyond the carrier blocking. The 2 apps that blocked the most smish also blocked 85-100\% of benign messages. Finally, while carriers did not block any benign messages, they were only able to reach a 25-35\% blocking rate for smishing messages. Our work provides insights into the performance of anti-smishing tools and the roles they play in the message blocking process. This paper would enable the research community and industry to be better informed on the current state of anti-smishing technology on the SMS platform.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-28
# 不確実性定量化を用いた機械学習によるCRTの多段階決定過程のモデル化

A new method of modeling the multi-stage decision-making process of CRT using machine learning with uncertainty quantification ( http://arxiv.org/abs/2309.08415v4 )

ライセンス: Link先を確認
Kristoffer Larsen, Chen Zhao, Joyce Keyak, Qiuying Sha, Diana Paez, Xinwei Zhang, Guang-Uei Hung, Jiangang Zou, Amalia Peix, Weihua Zhou, (参考訳) エイムズ。 本研究の目的は、心不全(HF)患者に対する心臓再同期療法(CRT)の反応を予測するための多段階機械学習モデルを構築することである。 このモデルは不確実性定量化を利用して、心電図(ECG)の基本的な臨床変数と特徴が十分でない場合、SPECT MPI(single-photon emission computed tomography mycard perfusion imaging)変数の追加収集を推奨する。 メソッド。 本研究では, 安静時SPECT MPIを施行した218例を登録した。 CRT反応は左室排液分画率(LVEF)が6カ月以上で5%上昇した。 Ensemble 1は臨床変数とECGで訓練され、Ensemble 2はEnsemble 1とSPECT MPIの機能を含んでいる。 Ensemble 1の不確実性定量化により、多段階意思決定が可能となり、患者のSPECTデータの取得が必要かどうかが決定される。 多段モデルの性能をEnsembleモデル1と2と比較した。 結果。 CRTの反応率は55.5% (n = 121)で、男性全体の性別は61.0% (n = 133)、平均年齢は62.0+-11.8、LVEFは27.7+-11.0である。 マルチステージモデルでは、AUCが0.75対0.77、精度が0.71対0.69、感度が0.70対0.72、特異性が0.72対0.65であった。 しかし、マルチステージモデルはすべての折り畳み患者の52.7%のSPECT MPIデータしか必要としなかった。 結論。 不確実な定量化から生じるルールベースの論理を用いることで、マルチステージモデルは、パフォーマンスを犠牲にすることなく、追加のSPECT MPIデータ取得の必要性を減らすことができた。

Aims. The purpose of this study is to create a multi-stage machine learning model to predict cardiac resynchronization therapy (CRT) response for heart failure (HF) patients. This model exploits uncertainty quantification to recommend additional collection of single-photon emission computed tomography myocardial perfusion imaging (SPECT MPI) variables if baseline clinical variables and features from electrocardiogram (ECG) are not sufficient. Methods. 218 patients who underwent rest-gated SPECT MPI were enrolled in this study. CRT response was defined as an increase in left ventricular ejection fraction (LVEF) > 5% at a 6+-1 month follow-up. A multi-stage ML model was created by combining two ensemble models: Ensemble 1 was trained with clinical variables and ECG; Ensemble 2 included Ensemble 1 plus SPECT MPI features. Uncertainty quantification from Ensemble 1 allowed for multi-stage decision-making to determine if the acquisition of SPECT data for a patient is necessary. The performance of the multi-stage model was compared with that of Ensemble models 1 and 2. Results. The response rate for CRT was 55.5% (n = 121) with overall male gender 61.0% (n = 133), an average age of 62.0+-11.8, and LVEF of 27.7+-11.0. The multi-stage model performed similarly to Ensemble 2 (which utilized the additional SPECT data) with AUC of 0.75 vs. 0.77, accuracy of 0.71 vs. 0.69, sensitivity of 0.70 vs. 0.72, and specificity 0.72 vs. 0.65, respectively. However, the multi-stage model only required SPECT MPI data for 52.7% of the patients across all folds. Conclusions. By using rule-based logic stemming from uncertainty quantification, the multi-stage model was able to reduce the need for additional SPECT MPI data acquisition without sacrificing performance.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-28
# 画像超解像のためのデータアップサイクリング知識蒸留

Data Upcycling Knowledge Distillation for Image Super-Resolution ( http://arxiv.org/abs/2309.14162v4 )

ライセンス: Link先を確認
Yun Zhang, Wei Li, Simiao Li, Hanting Chen, Zhijun Tu, Wenjia Wang, Bingyi Jing, Shaohui Lin, Jie Hu, (参考訳) 知識蒸留(KD)は、複雑な教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。 しかし、現状の超解像(SR)ネットワークにおけるKD手法は、教師モデルの出力が高画質画像(GT)の地上構造分布にノイズがあるというSRタスクの性質を見落とし、教師モデルの知識を陰影にし、限られたKD効果をもたらす。 GT上層部を超越した教師モデルを活用するため,教師モデルの知識を学習データから収集したドメイン内データを通じて学生モデルに伝達するデータアップサイクリング知識蒸留(DuKD)を提案する。 さらに,学習者モデルの性能と頑健性を改善するために,2組の可逆拡張によるSR用KDにラベル整合性正則化を課す。 総合的な実験により、DUKD法は、いくつかのSRタスクにおいて、過去の芸術を著しく上回っていることが示された。

Knowledge distillation (KD) compresses deep neural networks by transferring task-related knowledge from cumbersome pre-trained teacher models to compact student models. However, current KD methods for super-resolution (SR) networks overlook the nature of SR task that the outputs of the teacher model are noisy approximations to the ground-truth distribution of high-quality images (GT), which shades the teacher model's knowledge to result in limited KD effects. To utilize the teacher model beyond the GT upper-bound, we present the Data Upcycling Knowledge Distillation (DUKD), to transfer the teacher model's knowledge to the student model through the upcycled in-domain data derived from training data. Besides, we impose label consistency regularization to KD for SR by the paired invertible augmentations to improve the student model's performance and robustness. Comprehensive experiments demonstrate that the DUKD method significantly outperforms previous arts on several SR tasks.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-28
# スクラッチから遠ざかる - データ駆動プライオリティを必要とするロングシーケンスモデルの比較

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors ( http://arxiv.org/abs/2310.02980v4 )

ライセンス: Link先を確認
Ido Amos, Jonathan Berant, Ankit Gupta, (参考訳) シーケンス間の長距離依存関係のモデリングは、機械学習における長年の目標であり、状態空間モデルのようなアーキテクチャに導かれ、長いシーケンス上でトランスフォーマーを劇的に上回っている。 しかし、これらの印象的な経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲットラベルを予測するために訓練されたベンチマーク(例えばLong Range Arena)において、大きく証明されている。 本稿では, ランダム初期化がアーキテクチャの違いの過大な過大評価につながることを示すとともに, $\textit{only the downstream task data}$を用いることで, トランスフォーマーと状態空間モデル(SSM)の極めて小さなギャップを生じることを示す。 従来の作業とは対照的に,Long Range ArenaにおけるS4の性能に適合するバニラトランスフォーマーが発見され,PathX-256タスクにおけるSSMの最高の報告結果を20絶対点改善する。 次に, 事前学習により得られたデータ駆動初期化の存在下で, 従来提案されていたSSMに対する構造化パラメータ化の有用性を解析し, ほとんど冗長となることを示す。 我々の研究は、教師付きタスク上で異なるアーキテクチャを評価する際に、事前学習によるデータ駆動の事前学習が信頼性の高い性能推定に不可欠であることを示し、効率的に行うことができることを示した。

Modeling long-range dependencies across sequences is a longstanding goal in machine learning and has led to architectures, such as state space models, that dramatically outperform Transformers on long sequences. However, these impressive empirical gains have been by and large demonstrated on benchmarks (e.g. Long Range Arena), where models are randomly initialized and trained to predict a target label from an input sequence. In this work, we show that random initialization leads to gross overestimation of the differences between architectures and that pretraining with standard denoising objectives, using $\textit{only the downstream task data}$, leads to dramatic gains across multiple architectures and to very small gaps between Transformers and state space models (SSMs). In stark contrast to prior works, we find vanilla Transformers to match the performance of S4 on Long Range Arena when properly pretrained, and we improve the best reported results of SSMs on the PathX-256 task by 20 absolute points. Subsequently, we analyze the utility of previously-proposed structured parameterizations for SSMs and show they become mostly redundant in the presence of data-driven initialization obtained through pretraining. Our work shows that, when evaluating different architectures on supervised tasks, incorporation of data-driven priors via pretraining is essential for reliable performance estimation, and can be done efficiently.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-28
# 視覚強化学習における塑性の再考:データ,モジュール,訓練段階

Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages ( http://arxiv.org/abs/2310.07418v2 )

ライセンス: Link先を確認
Guozheng Ma, Lu Li, Sen Zhang, Zixuan Liu, Zhen Wang, Yixin Chen, Li Shen, Xueqian Wang, Dacheng Tao, (参考訳) ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率の良い視覚強化学習(VRL)に不可欠である。 リセットや正規化のような手法は可塑性損失を緩和する可能性があるが、VRLフレームワーク内の様々な成分がエージェントの可塑性に与える影響はいまだに理解されていない。 本研究では,(1)データの増大が塑性維持に不可欠であること,(2)批判者の塑性損失が効率的なトレーニングを妨げる主要なボトルネックとなること,(3)批判者の塑性を早期に回復するための時間的介入がなければ,その損失は破滅的になる,という,3つの主要な調査に焦点をあてた系統的な実証調査を行った。 これらの知見は, 高再生率 (RR) ジレンマに対処するための新たな戦略を示唆している。 トレーニングプロセス全体に対して静的RRを設定するのではなく、批判者の可塑性レベルに基づいてRRを動的に調整するAdaptive RRを提案する。 広範囲な評価は、適応RRが早期の破滅的な可塑性損失を回避できるだけでなく、後期のより頻繁な再利用の恩恵を受け、より優れた試料効率をもたらすことを示している。

Plasticity, the ability of a neural network to evolve with new data, is crucial for high-performance and sample-efficient visual reinforcement learning (VRL). Although methods like resetting and regularization can potentially mitigate plasticity loss, the influences of various components within the VRL framework on the agent's plasticity are still poorly understood. In this work, we conduct a systematic empirical exploration focusing on three primary underexplored facets and derive the following insightful conclusions: (1) data augmentation is essential in maintaining plasticity; (2) the critic's plasticity loss serves as the principal bottleneck impeding efficient training; and (3) without timely intervention to recover critic's plasticity in the early stages, its loss becomes catastrophic. These insights suggest a novel strategy to address the high replay ratio (RR) dilemma, where exacerbated plasticity loss hinders the potential improvements of sample efficiency brought by increased reuse frequency. Rather than setting a static RR for the entire training process, we propose Adaptive RR, which dynamically adjusts the RR based on the critic's plasticity level. Extensive evaluations indicate that Adaptive RR not only avoids catastrophic plasticity loss in the early stages but also benefits from more frequent reuse in later phases, resulting in superior sample efficiency.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-28
# 安全なDeep Policy Adaptation

Safe Deep Policy Adaptation ( http://arxiv.org/abs/2310.08602v3 )

ライセンス: Link先を確認
Wenli Xiao, Tairan He, John Dolan, Guanya Shi, (参考訳) 自律性と人工知能の重要な目標は、自律ロボットが動的で不確実な環境で迅速に適応できるようにすることだ。 古典的な適応制御と安全制御は、安定性と安全性を保証するが、特定のシステムクラスに限定されている。 対照的に、強化学習(RL)に基づく政策適応は、汎用性と一般化性を提供するが、安全性と堅牢性に挑戦する。 政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。 SafeDPAは、シミュレーションにおける適応ポリシーと動的モデルを共同で学習し、環境構成を予測する。 RLポリシー上の制御バリア関数(CBF)に基づく安全フィルタを導入し,実環境における安全性を確保する。 我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。 1)古典的制御問題(逆振り子)、(2)シミュレーションベンチマーク(セーフティギム)、(3)現実のアジャイルロボティクスプラットフォーム(RC Car)に関する総合的な実験は、最先端のベースラインよりも安全性とタスクパフォーマンスの両方においてSafeDPAの優れた優位性を証明している。 特にSafeDPAは顕著な一般化性を示し、実際の実験では目に見えない乱れの下で、ベースラインに比べて300%の安全性向上を実現している。

A critical goal of autonomy and artificial intelligence is enabling autonomous robots to rapidly adapt in dynamic and uncertain environments. Classic adaptive control and safe control provide stability and safety guarantees but are limited to specific system classes. In contrast, policy adaptation based on reinforcement learning (RL) offers versatility and generalizability but presents safety and robustness challenges. We propose SafeDPA, a novel RL and control framework that simultaneously tackles the problems of policy adaptation and safe reinforcement learning. SafeDPA jointly learns adaptive policy and dynamics models in simulation, predicts environment configurations, and fine-tunes dynamics models with few-shot real-world data. A safety filter based on the Control Barrier Function (CBF) on top of the RL policy is introduced to ensure safety during real-world deployment. We provide theoretical safety guarantees of SafeDPA and show the robustness of SafeDPA against learning errors and extra perturbations. Comprehensive experiments on (1) classic control problems (Inverted Pendulum), (2) simulation benchmarks (Safety Gym), and (3) a real-world agile robotics platform (RC Car) demonstrate great superiority of SafeDPA in both safety and task performance, over state-of-the-art baselines. Particularly, SafeDPA demonstrates notable generalizability, achieving a 300% increase in safety rate compared to the baselines, under unseen disturbances in real-world experiments.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-28
# 斜め森林を用いたオンライン環境におけるグループフェアネスの促進

Enhancing Group Fairness in Online Settings Using Oblique Decision Forests ( http://arxiv.org/abs/2310.11401v4 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Ahmad Beirami, Rahul Kidambi, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi, (参考訳) フェアネス、特にグループフェアネスは、機械学習システムの文脈において重要な考慮事項である。 最も一般的に採用されているグループフェアネス・エンハンシング手法は、トレーニングプロセス中にフェアネス目標(例えば、人口統計学的パーティ)とタスク固有の目標(例えば、クロスエントロピー)の混合に依存するプロセス内手法である。 しかし、データがオンライン形式で(一度に1つのインスタンス)到着すると、このような公正な目標を最適化することは、いくつかの課題を引き起こします。 特に、グループフェアネスの目標は、異なる人口集団にわたる予測の予測を用いて定義される。 アルゴリズムが一度に1つのインスタンスにアクセスできるオンライン設定では、グループフェアネスの目標を推定するには、追加のストレージと、タスク固有の目標よりもはるかに多くの計算(例えば、前方/後方通過)が必要である。 本稿では,斜め決定木のアンサンブルであるアラニーニを提案し,オンライン設定において公平な決定を行う。 アラニーニの階層木構造はパラメータ分離を可能にし、事前決定の集計統計値を用いて公平度勾配を効率的に計算し、追加のストレージや前方/後方通過の必要性を排除できる。 また、アラニーニを訓練し、理論的にいくつかの性質を解析する効率的な枠組みも提示する。 5つの公開ベンチマーク(ビジョンと言語データセットを含む)で実証的な評価を行い、Aranyaniがベースラインアプローチよりも精度と公正性のトレードオフを達成できることを示します。

Fairness, especially group fairness, is an important consideration in the context of machine learning systems. The most commonly adopted group fairness-enhancing techniques are in-processing methods that rely on a mixture of a fairness objective (e.g., demographic parity) and a task-specific objective (e.g., cross-entropy) during the training process. However, when data arrives in an online fashion -- one instance at a time -- optimizing such fairness objectives poses several challenges. In particular, group fairness objectives are defined using expectations of predictions across different demographic groups. In the online setting, where the algorithm has access to a single instance at a time, estimating the group fairness objective requires additional storage and significantly more computation (e.g., forward/backward passes) than the task-specific objective at every time step. In this paper, we propose Aranyani, an ensemble of oblique decision trees, to make fair decisions in online settings. The hierarchical tree structure of Aranyani enables parameter isolation and allows us to efficiently compute the fairness gradients using aggregate statistics of previous decisions, eliminating the need for additional storage and forward/backward passes. We also present an efficient framework to train Aranyani and theoretically analyze several of its properties. We conduct empirical evaluations on 5 publicly available benchmarks (including vision and language datasets) to show that Aranyani achieves a better accuracy-fairness trade-off compared to baseline approaches.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-28
# 無限水平平均逆マルコフ決定過程のレグレト解析における量子スピードアップ

Quantum Speedups in Regret Analysis of Infinite Horizon Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2310.11684v3 )

ライセンス: Link先を確認
Bhargav Ganguly, Yang Xu, Vaneet Aggarwal, (参考訳) 本稿では,無限水平マルコフ決定過程(MDP)に対処する量子加速の可能性について検討し,平均的な報奨結果を向上する。 我々は、エージェントが未知のMDPと関わり合うための革新的な量子フレームワークを導入し、従来の相互作用パラダイムを拡張した。 提案手法は,効率的な量子平均推定手法を用いて,エージェントが取得した量子信号を利用する楽観性駆動型表型強化学習アルゴリズムの設計を含む。 理論的解析を通じて、平均推定における量子的優位性は、無限水平強化学習に対する後悔の保証において指数的な進歩をもたらすことを示した。 具体的には、提案したQuantumアルゴリズムは、古典的対象によって示される$\tilde{\mathcal{O}}(1)$に対する大きな改善である$\tilde{\mathcal{O}}(1)$の後悔境界を達成する。

This paper investigates the potential of quantum acceleration in addressing infinite horizon Markov Decision Processes (MDPs) to enhance average reward outcomes. We introduce an innovative quantum framework for the agent's engagement with an unknown MDP, extending the conventional interaction paradigm. Our approach involves the design of an optimism-driven tabular Reinforcement Learning algorithm that harnesses quantum signals acquired by the agent through efficient quantum mean estimation techniques. Through thorough theoretical analysis, we demonstrate that the quantum advantage in mean estimation leads to exponential advancements in regret guarantees for infinite horizon Reinforcement Learning. Specifically, the proposed Quantum algorithm achieves a regret bound of $\tilde{\mathcal{O}}(1)$, a significant improvement over the $\tilde{\mathcal{O}}(\sqrt{T})$ bound exhibited by classical counterparts.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-28
# エンドツーエンドのトラフィックアサインメントとトラフィックフロー学習のための不均一グラフニューラルネットワーク

Heterogeneous Graph Neural Networks for End-to-End Traffic Assignment and Traffic Flow Learning ( http://arxiv.org/abs/2310.13193v2 )

ライセンス: Link先を確認
Tong Liu, Hadi Meidani, (参考訳) 交通割当問題は,様々な解法が提案されている交通流解析における重要な要素の1つである。 しかし、これらのアプローチを大規模ネットワークに展開することは大きな課題となる。 本稿では、異種グラフニューラルネットワークのパワーを活用し、エンドツーエンドのトラフィック割り当てとトラフィックフロー学習のための新しいデータ駆動型アプローチを提案する。 本モデルでは,ノードベースのフロー保存法則を全体の損失関数に組み込むことで,フロー保存原理に従って予測結果を確実にし,リンクフローとフローキャパシティ比の両方を高精度に予測する。 都市交通ネットワークに関する数値実験を行い、提案した異種グラフニューラルネットワークモデルが収束率と予測精度の点で従来のニューラルネットワークモデルよりも優れていることを示す。 特に、2つの異なるトレーニング戦略を導入することで、提案した異種グラフニューラルネットワークモデルを異なるネットワークトポロジに一般化することもできる。 このアプローチは、複雑な交通流の分析と予測のための有望なソリューションを提供し、幅広い交通システムの理解と管理を強化する。

The traffic assignment problem is one of the significant components of traffic flow analysis for which various solution approaches have been proposed. However, deploying these approaches for large-scale networks poses significant challenges. In this paper, we leverage the power of heterogeneous graph neural networks to propose a novel data-driven approach for end-to-end traffic assignment and traffic flow learning. Our model integrates an adaptive graph attention mechanism with auxiliary "virtual" links connecting origin-destination node pairs, This integration enables the model to capture spatial traffic patterns across different links, By incorporating the node-based flow conservation law into the overall loss function, the model ensures the prediction results in compliance with flow conservation principles, resulting in highly accurate predictions for both link flow and flow-capacity ratios. We present numerical experiments on urban transportation networks and show that the proposed heterogeneous graph neural network model outperforms other conventional neural network models in terms of convergence rate and prediction accuracy. Notably, by introducing two different training strategies, the proposed heterogeneous graph neural network model can also be generalized to different network topologies. This approach offers a promising solution for complex traffic flow analysis and prediction, enhancing our understanding and management of a wide range of transportation systems.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-28
# 音声・テクスチャ・クロスモーダル・コンテクスト表現の学習による会話音声認識

Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation ( http://arxiv.org/abs/2310.14278v2 )

ライセンス: Link先を確認
Kun Wei, Bei Li, Hang Lv, Quan Lu, Ning Jiang, Lei Xie, (参考訳) 会話設定における自動音声認識(ASR)は、前の会話のターンから関連するコンテキスト情報を抽出するなど、ユニークな課題を提示する。 無関係な内容、エラーの伝播、冗長性のため、既存の手法はより長く効果的なコンテキストを抽出するのに苦労する。 この問題に対処するために,コンバータエンコーダ・デコーダモデルを拡張した新しい対話型ASRシステムを提案する。 提案手法では,事前学習した音声とテキストモデルを,特殊なエンコーダとモーダルレベルのマスク入力によって組み合わせたクロスモーダル抽出器を利用する。 これにより、明示的な誤りの伝播を伴わずに、よりリッチな歴史的音声コンテキストの抽出が可能となる。 また、条件付き潜時変分モジュールを組み込んで、役割選好やトピックコヒーレンスといった会話レベルの属性を学習する。 このデコーダにクロスモーダル表現と会話表現の両方を導入することで,従来のコンフォーマーモデルと比較して,マンダリンの会話データセットHKUSTとMagicData-RAMCの相対精度を8.8%,23%向上させることができた。

Automatic Speech Recognition (ASR) in conversational settings presents unique challenges, including extracting relevant contextual information from previous conversational turns. Due to irrelevant content, error propagation, and redundancy, existing methods struggle to extract longer and more effective contexts. To address this issue, we introduce a novel conversational ASR system, extending the Conformer encoder-decoder model with cross-modal conversational representation. Our approach leverages a cross-modal extractor that combines pre-trained speech and text models through a specialized encoder and a modal-level mask input. This enables the extraction of richer historical speech context without explicit error propagation. We also incorporate conditional latent variational modules to learn conversational level attributes such as role preference and topic coherence. By introducing both cross-modal and conversational representations into the decoder, our model retains context over longer sentences without information loss, achieving relative accuracy improvements of 8.8% and 23% on Mandarin conversation datasets HKUST and MagicData-RAMC, respectively, compared to the standard Conformer model.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-28
# ガウス過程における確率的グラディエントDescence

Stochastic Gradient Descent for Gaussian Processes Done Right ( http://arxiv.org/abs/2310.20581v2 )

ライセンス: Link先を確認
Jihao Andreas Lin, Shreyas Padhy, Javier Antorán, Austin Tripp, Alexander Terenin, Csaba Szepesvári, José Miguel Hernández-Lobato, David Janz, (参考訳) 良く知られたように、ガウス過程の回帰における後部からのサンプリングと後部の平均の計算の両方は、大きな線形方程式系を解くために減少する。 本稿では,この線形系の解法における確率勾配勾配の解法について検討し,最適化とカーネルコミュニティからの具体的な洞察を応用した場合,確率勾配勾配の解法は非常に有効であることを示す。 そこで我々は,特に単純で,直感的に設計を説明し,一連のアブレーション研究を通じて設計選択を説明する。 さらなる実験により、我々の新しい手法は競争力が高いことが証明された。 特に、UCI回帰タスクとベイズ最適化の評価は、事前条件付き共役勾配と変分ガウス過程近似から、我々のアプローチを分離した。 さらに,本手法では,分子結合親和性予測のための最先端グラフニューラルネットワークと同等にガウス過程の回帰を配置する。

As is well known, both sampling from the posterior and computing the mean of the posterior in Gaussian process regression reduces to solving a large linear system of equations. We study the use of stochastic gradient descent for solving this linear system, and show that when \emph{done right} -- by which we mean using specific insights from the optimisation and kernel communities -- stochastic gradient descent is highly effective. To that end, we introduce a particularly simple \emph{stochastic dual descent} algorithm, explain its design in an intuitive manner and illustrate the design choices through a series of ablation studies. Further experiments demonstrate that our new method is highly competitive. In particular, our evaluations on the UCI regression tasks and on Bayesian optimisation set our approach apart from preconditioned conjugate gradients and variational Gaussian process approximations. Moreover, our method places Gaussian process regression on par with state-of-the-art graph neural networks for molecular binding affinity prediction.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# AIペアプログラミングの問題点とその原因と解決策を探る:GitHub Copilotの実践者による研究

Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study with Practitioners of GitHub Copilot ( http://arxiv.org/abs/2311.01020v2 )

ライセンス: Link先を確認
Xiyu Zhou, Peng Liang, Beiqi Zhang, Zengyang Li, Aakash Ahmad, Mojtaba Shahin, Muhammad Waseem, (参考訳) 人工知能(AI)とLarge Language Models(LLM)の最近の進歩により、AIベースのコード生成ツールはソフトウェア開発の実践的なソリューションとなる。 AIペアプログラマであるGitHub Copilotは、大量のコードスニペットでトレーニングされた機械学習モデルを使用して、自然言語処理を使用してコード提案を生成する。 ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。 そこで我々は,Copilotを使用する際の実践者が直面する問題と,その根底にある原因と潜在的な解決策を理解するための実証的研究を行った。 476のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。 その結果,(1)コパイロット利用者が直面する最も一般的な問題,(2)コパイロット内部エラー,ネットワーク接続エラー,およびエディタ/IDE適合性問題が最も頻繁な原因とされ,(3)コパイロットによるバグ修正,設定・設定の修正,利用適バージョンなどが主な解決法であることがわかった。 結果から,Copilotの潜在的な領域について考察し,Copilotユーザ,Copilotチーム,研究者にその影響について述べる。

With the recent advancement of Artificial Intelligence (AI) and Large Language Models (LLMs), AI-based code generation tools become a practical solution for software development. GitHub Copilot, the AI pair programmer, utilizes machine learning models trained on a large corpus of code snippets to generate code suggestions using natural language processing. Despite its popularity in software development, there is limited empirical evidence on the actual experiences of practitioners who work with Copilot. To this end, we conducted an empirical study to understand the problems that practitioners face when using Copilot, as well as their underlying causes and potential solutions. We collected data from 476 GitHub issues, 706 GitHub discussions, and 142 Stack Overflow posts. Our results reveal that (1) Operation Issue and Compatibility Issue are the most common problems faced by Copilot users, (2) Copilot Internal Error, Network Connection Error, and Editor/IDE Compatibility Issue are identified as the most frequent causes, and (3) Bug Fixed by Copilot, Modify Configuration/Setting, and Use Suitable Version are the predominant solutions. Based on the results, we discuss the potential areas of Copilot for enhancement, and provide the implications for the Copilot users, the Copilot team, and researchers.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# 漁獲量を用いたリーマンラプラス近似

Riemannian Laplace Approximation with the Fisher Metric ( http://arxiv.org/abs/2311.02766v5 )

ライセンス: Link先を確認
Hanlin Yu, Marcelo Hartmann, Bernardo Williams, Mark Girolami, Arto Klami, (参考訳) ラプラスの手法は、目標密度とガウス分布をそのモードで近似する。 ベルンシュタイン=ヴォン・ミセスの定理(英語版)によるベイズ予想(英語版)には計算的に効率的で漸近的に正確であるが、複素対象や有限データ後部に対しては近似が粗すぎることが多い。 ラプラス近似の最近の一般化は、計算効率を保ちながら、よりリッチな近似族を提供するリーマン幾何学の選択に従ってガウス近似を変換する。 しかし、上述の通り、その性質は選択された計量に大きく依存しており、実際、以前の研究で採用された計量は、極端に狭く、無限のデータにも偏りがある近似をもたらす。 我々は、近似系をさらに発展させ、無限データの範囲内で正確な2つの代替変種を導出し、手法の理論解析を拡張し、実験範囲で実践的な改善を示すことにより、この欠点を是正する。

Laplace's method approximates a target density with a Gaussian distribution at its mode. It is computationally efficient and asymptotically exact for Bayesian inference due to the Bernstein-von Mises theorem, but for complex targets and finite-data posteriors it is often too crude an approximation. A recent generalization of the Laplace Approximation transforms the Gaussian approximation according to a chosen Riemannian geometry providing a richer approximation family, while still retaining computational efficiency. However, as shown here, its properties depend heavily on the chosen metric, indeed the metric adopted in previous work results in approximations that are overly narrow as well as being biased even at the limit of infinite data. We correct this shortcoming by developing the approximation family further, deriving two alternative variants that are exact at the limit of infinite data, extending the theoretical analysis of the method, and demonstrating practical improvements in a range of experiments.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# 蝶の因子化によるパラメータ効率の良い直交ファインタニング

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization ( http://arxiv.org/abs/2311.06243v2 )

ライセンス: Link先を確認
Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Schölkopf, (参考訳) 大規模なファンデーションモデルはユビキタスになりつつあるが、それらをゼロからトレーニングすることは違法に高価である。 したがって、これらの強力なモデルを下流タスクに効率的に適応させることがますます重要である。 本稿では,下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。 優れた一般化性を示すにもかかわらず、OFTは直交行列の高次元性のため、かなり多くのトレーニング可能なパラメータを使用する。 これを解決するために、情報伝達の観点からOFTを調べ、パラメータ効率を向上するいくつかのキーデシラタを特定します。 The Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose a efficient orthogonal parameterization using butterfly structure。 我々はこのパラメータ化をOFTに適用し、Orthogonal Butterfly (BOFT)と呼ばれる新しいパラメータ効率の微調整法を開発した。 特別な場合として OFT を仮定することにより、BOFT は一般化直交微調整フレームワークを導入する。 最後に、大きな視覚変換器、大きな言語モデル、およびテキストから画像への拡散モデルを、視覚および言語における様々な下流タスクに適用するための広範な実証的研究を行う。

Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# 全スライド画像分類のための意識変化型複数インスタンス学習

Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2311.07125v3 )

ライセンス: Link先を確認
Yunlong Zhang, Honglin Li, Yuxuan Sun, Sunyi Zheng, Chenglu Zhu, Lin Yang, (参考訳) 全体スライド画像(WSI)分類のためのMIL(Multiple Instance Learning)手法の適用において、注意機構は、オーバーフィッティングと密接に結びついている差別的なインスタンスのサブセットに焦点を当てることが多い。 過度な適合を緩和するため,ACMIL (Atention-Challenging MIL) を提案する。 ACMILは、注意値集中のための別個の分析に基づく2つの手法を組み合わせる。 第一に、UMAPのインスタンス機能は差別的なインスタンスの様々なパターンを明らかにし、既存の注意機構はそれらの一部のみをキャプチャする。 これを改善するために、複数の注意枝を用いてより識別性の高いインスタンスをキャプチャするために、MBA(Multiple Branch Attention)を導入する。 第2に,Top-Kアテンションスコアの累積値の検証は,少数の事例が注目の過半数を占めていることを示している。 これに対し,Stochastic Top-K Instance Masking (STKIM) を提案する。 2つの事前訓練されたバックボーンを持つ3つのWSIデータセットの広範な実験結果から、ACMILは最先端の手法よりも優れていることが判明した。 さらに、熱マップの可視化とUMAPの可視化を通じて、注意値の集中を抑え、過度に適合する課題を克服するACMILの有効性を広く説明する。 ソースコードは \url{https://github.com/dazhangyu123/ACMIL} で公開されている。

In the application of Multiple Instance Learning (MIL) methods for Whole Slide Image (WSI) classification, attention mechanisms often focus on a subset of discriminative instances, which are closely linked to overfitting. To mitigate overfitting, we present Attention-Challenging MIL (ACMIL). ACMIL combines two techniques based on separate analyses for attention value concentration. Firstly, UMAP of instance features reveals various patterns among discriminative instances, with existing attention mechanisms capturing only some of them. To remedy this, we introduce Multiple Branch Attention (MBA) to capture more discriminative instances using multiple attention branches. Secondly, the examination of the cumulative value of Top-K attention scores indicates that a tiny number of instances dominate the majority of attention. In response, we present Stochastic Top-K Instance Masking (STKIM), which masks out a portion of instances with Top-K attention values and allocates their attention values to the remaining instances. The extensive experimental results on three WSI datasets with two pre-trained backbones reveal that our ACMIL outperforms state-of-the-art methods. Additionally, through heatmap visualization and UMAP visualization, this paper extensively illustrates ACMIL's effectiveness in suppressing attention value concentration and overcoming the overfitting challenge. The source code is available at \url{https://github.com/dazhangyu123/ACMIL}.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# 大規模多言語機械翻訳モデルを用いた多元接続の検討

Investigating Multi-Pivot Ensembling with Massively Multilingual Machine Translation Models ( http://arxiv.org/abs/2311.07439v3 )

ライセンス: Link先を確認
Alireza Mohammadshahi, Jannis Vamvas, Rico Sennrich, (参考訳) 大規模な多言語機械翻訳モデルでは、多数の言語を単一のモデルで翻訳することができるが、低リソースおよび低リソースの翻訳方向では性能が制限されている。 本稿では,複数の言語をピボットする方法を再検討する。 従来の研究では、複数の経路からの確率分布の単純な平均化が用いられてきたが、これは1つのピボットを使うよりも悪く、同じ幻覚が異なる経路で観測できるため、幻覚の問題を悪化させることが判明した。 また、最も自信のある予測に偏りを与える新しい組み合わせ戦略であるMaxEnsを提案し、自信のある予測は幻覚の傾向が低いと仮定する。 低リソース言語20方向のFLORESベンチマークのさまざまな戦略を評価し、MaxEnsは、直接翻訳と平均化の両方と比較して、翻訳における幻覚を減らしながら、低リソース言語における翻訳品質を向上することを示した。 平均的なマルチピボット戦略は、英語を単一のピボット言語として使うよりも遅れており、与えられた翻訳方向の最良のピボット戦略をどうやって特定するかという疑問が提起されている。

Massively multilingual machine translation models allow for the translation of a large number of languages with a single model, but have limited performance on low- and very-low-resource translation directions. Pivoting via high-resource languages remains a strong strategy for low-resource directions, and in this paper we revisit ways of pivoting through multiple languages. Previous work has used a simple averaging of probability distributions from multiple paths, but we find that this performs worse than using a single pivot, and exacerbates the hallucination problem because the same hallucinations can be probable across different paths. We also propose MaxEns, a novel combination strategy that makes the output biased towards the most confident predictions, hypothesising that confident predictions are less prone to be hallucinations. We evaluate different strategies on the FLORES benchmark for 20 low-resource language directions, demonstrating that MaxEns improves translation quality for low-resource languages while reducing hallucination in translations, compared to both direct translation and an averaging approach. On average, multi-pivot strategies still lag behind using English as a single pivot language, raising the question of how to identify the best pivoting strategy for a given translation direction.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# 網膜基底画像を用いた心血管疾患とリスクファクターの人工知能 : 過去10年を振り返って

Artificial Intelligence in Assessing Cardiovascular Diseases and Risk Factors via Retinal Fundus Images: A Review of the Last Decade ( http://arxiv.org/abs/2311.07609v2 )

ライセンス: Link先を確認
Mirsaeed Abdollahi, Ali Jafarizadeh, Amirhosein Ghafouri Asbagh, Navid Sobhi, Keysan Pourmoghtader, Siamak Pedrammehr, Houshyar Asadi, Roohallah Alizadehsani, Ru-San Tan, U. Rajendra Acharya, (参考訳) 背景: 心臓血管疾患(CVD)が世界的な死因である。 近年,様々なCVD関連トピックの分析において,人工知能(AI)手法,特に深層学習(DL)手法の利用が注目されている。 網膜疾患の診断における眼底画像とOCTA(Optical Coherence tomography angiography)の使用も広く研究されている。 心臓の機能をよりよく理解し、微小血管の特徴と機能に基づく変化を予想するために、研究者は現在、AIと非侵襲網膜スキャンの統合を検討している。 AIを用いた早期発見と心血管疾患の予測を大規模に活用することにより、医療システムにおける心血管イベントの数や財政的歪みを減少させる大きな可能性を秘めている。 Method: PubMed, Medline, Google Scholar, Scopus, Web of Sciences, IEEE Xplore, ACM Digital Libraryなど,さまざまなデータベースに対して,心臓血管疾患や人工知能に関連する特定のキーワードを使用して包括的な検索を行った。 結果: 本研究は, 関連性のために選択された87の英語出版物を含み, 追加の参考文献が検討された。 本稿では,人工知能と網膜イメージングを用いた心血管疾患の診断における最近の進歩と課題について概説する。 この分野のさらなる探索のための洞察を提供する。 結論:研究チームは,高齢化とCVDの世界的な負担増加に対応して,正確な疾患予後パターンの開発を試みている。 AIとディープラーニングは、単一の網膜画像から複数のCVDを診断することで、医療に革命をもたらしている。 しかし、これらの技術の医療システムへの迅速な導入が求められている。

Background: Cardiovascular diseases (CVDs) are the leading cause of death globally. The use of artificial intelligence (AI) methods - in particular, deep learning (DL) - has been on the rise lately for the analysis of different CVD-related topics. The use of fundus images and optical coherence tomography angiography (OCTA) in the diagnosis of retinal diseases has also been extensively studied. To better understand heart function and anticipate changes based on microvascular characteristics and function, researchers are currently exploring the integration of AI with non-invasive retinal scanning. There is great potential to reduce the number of cardiovascular events and the financial strain on healthcare systems by utilizing AI-assisted early detection and prediction of cardiovascular diseases on a large scale. Method: A comprehensive search was conducted across various databases, including PubMed, Medline, Google Scholar, Scopus, Web of Sciences, IEEE Xplore, and ACM Digital Library, using specific keywords related to cardiovascular diseases and artificial intelligence. Results: The study included 87 English-language publications selected for relevance, and additional references were considered. This paper provides an overview of the recent developments and difficulties in using artificial intelligence and retinal imaging to diagnose cardiovascular diseases. It provides insights for further exploration in this field. Conclusion: Researchers are trying to develop precise disease prognosis patterns in response to the aging population and the growing global burden of CVD. AI and deep learning are revolutionizing healthcare by potentially diagnosing multiple CVDs from a single retinal image. However, swifter adoption of these technologies in healthcare systems is required.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-28
# 大規模言語モデルが人間と矛盾する時 : 大規模言語モデルのシコファン的行動

When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour ( http://arxiv.org/abs/2311.09410v3 )

ライセンス: Link先を確認
Leonardo Ranaldi, Giulia Pucci, (参考訳) 大規模言語モデルは、応答を洗練させる人間のフィードバックの集中的利用によって、人間が肯定的に評価する回答を提供することによって、複雑なタスクを解く能力を示している。 しかし、人間のフィードバックを通じて伝達される示唆性は、ユーザーの信念や誤解を招くプロンプトに対応する反応を生み出す傾向を高める。 この現象はバイアス、堅牢性、その結果信頼性を低下させる。 本稿では,大規模言語モデル (LLM) のシコファン的行動への適応性について考察し,その傾向を人為的影響によって示している。 調査の結果, LLM は, 主観的意見や, 事実に基づく否定的な回答を導き出すような質問に対して, シコファン傾向を示すことが明らかとなった。 対照的に、客観的な回答を持つ数学的タスクやクエリに直面する場合、これらのモデルは、正しい回答を提示する自信を示すことによって、ユーザのヒントに従わないように思われる。

Large Language Models have been demonstrating the ability to solve complex tasks by delivering answers that are positively evaluated by humans due in part to the intensive use of human feedback that refines responses. However, the suggestibility transmitted through human feedback increases the inclination to produce responses that correspond to the users' beliefs or misleading prompts as opposed to true facts, a behaviour known as sycophancy. This phenomenon decreases the bias, robustness, and, consequently, their reliability. In this paper, we shed light on the suggestibility of Large Language Models (LLMs) to sycophantic behaviour, demonstrating these tendencies via human-influenced prompts over different tasks. Our investigation reveals that LLMs show sycophantic tendencies when responding to queries involving subjective opinions and statements that should elicit a contrary response based on facts. In contrast, when confronted with mathematical tasks or queries that have an objective answer, these models at various scales seem not to follow the users' hints by demonstrating confidence in delivering the correct answers.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-28
# 語彙トリミングによる大言語モデル推論の言語ヒューリスティックスによるアップアンドダウン

The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics ( http://arxiv.org/abs/2311.09709v2 )

ライセンス: Link先を確認
Nikolay Bogoychev, Pinzhen Chen, Barry Haddow, Alexandra Birch, (参考訳) 大規模言語モデル(LLM)のデプロイは、計算とメモリの集中的な要求による課題に直面する。 本研究は, 語彙トリミング(VT)について, 興味のある言語への埋め込みを制限し, 時間と記憶効率を向上することから着想を得たものである。 このような変更は機械翻訳のようなタスクで有効であることが証明されているが、LLMの多様な性質を考慮すると、それらをLLMに適合させるには特定の修正が必要である。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語ヒューリスティックを異なるLLMファミリーやサイズに適用する。 メソッドは単純で、解釈可能で、実装も簡単です。 その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。 しかし、これらの手法の限界は、より大規模なモデルではリターンが減少し、各言語で一貫してうまく機能しないということを明らかにする。

Deploying large language models (LLMs) encounters challenges due to intensive computational and memory requirements. Our research examines vocabulary trimming (VT) inspired by restricting embedding entries to the language of interest to bolster time and memory efficiency. While such modifications have been proven effective in tasks like machine translation, tailoring them to LLMs demands specific modifications given the diverse nature of LLM applications. We apply two language heuristics to trim the full vocabulary - Unicode-based script filtering and corpus-based selection - to different LLM families and sizes. The methods are straightforward, interpretable, and easy to implement. It is found that VT reduces the memory usage of small models by nearly 50% and has an upper bound of 25% improvement in generation speed. Yet, we reveal the limitations of these methods in that they do not perform consistently well for each language with diminishing returns in larger models.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-28
# 量子誤り訂正プログラムのシンボリック実行

Symbolic Execution for Quantum Error Correction Programs ( http://arxiv.org/abs/2311.11313v3 )

ライセンス: Link先を確認
Wang Fang, Mingsheng Ying, (参考訳) 量子状態と量子測定結果にシンボリック変数を統合することで、量子プログラムのシンボリック実行フレームワークであるQSEを定義する。 QSEの健全性は、操作意味論における記号実行の正確性を保証する定理によって確立される。 さらに、量子誤り訂正(QEC)プログラムの効率的な解析のために、安定化器発生器の位相を象徴する記号安定化器状態を導入する。 QSEフレームワーク内では、シンボリック表現を使用して、QECにおける離散的なパウリエラーを特徴付けることができ、シミュレータによるサンプリングに依存する既存のメソッドよりも大幅に改善される。 我々はQuantumSE.jlというプロトタイプツールでシンボル安定化状態をサポートしてQSEを実装した。 量子反復符号、北エフのトーリック符号、量子タナー符号を含む代表的QEC符号に関する実験は、1000量子ビット以上のQECプログラムをデバッグするためのQuantumSE.jlの効率を実証する。 また、測定結果のシンボル表現に具体的な値を置換することにより、安定化回路のサンプリング機能も備えている。 GoogleのStim、QuantumSE.jlは、最先端の安定化シミュレータよりも長い初期化時間にもかかわらず、実験においてより速いサンプリングレートを提供する。

We define QSE, a symbolic execution framework for quantum programs by integrating symbolic variables into quantum states and the outcomes of quantum measurements. The soundness of QSE is established through a theorem that ensures the correctness of symbolic execution within operational semantics. We further introduce symbolic stabilizer states, which symbolize the phases of stabilizer generators, for the efficient analysis of quantum error correction (QEC) programs. Within the QSE framework, we can use symbolic expressions to characterize the possible discrete Pauli errors in QEC, providing a significant improvement over existing methods that rely on sampling with simulators. We implement QSE with the support of symbolic stabilizer states in a prototype tool named QuantumSE.jl. Our experiments on representative QEC codes, including quantum repetition codes, Kitaev's toric codes, and quantum Tanner codes, demonstrate the efficiency of QuantumSE.jl for debugging QEC programs with over 1000 qubits. In addition, by substituting concrete values in symbolic expressions of measurement results, QuantumSE.jl is also equipped with a sampling feature for stabilizer circuits. Despite a longer initialization time than the state-of-the-art stabilizer simulator, Google's Stim, QuantumSE.jl offers a quicker sampling rate in the experiments.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-28
# クラスタ化政策決定ランク付け

Clustered Policy Decision Ranking ( http://arxiv.org/abs/2311.12970v2 )

ライセンス: Link先を確認
Mark Levin, Hana Chockler, (参考訳) 強化学習(RL)によって訓練された政策は、単純な作業であっても非常に複雑であることが多い。 n の時間ステップのあるエピソードでは、ポリシーは取るべき行動について n の判断をするが、その多くが観察者には直感的でないように見える。 さらに、これらの決定のどちらが報酬の達成に直接貢献し、その貢献がどの程度重要かは明らかになっていない。 トレーニングされたポリシーを前提として,環境状態のクラスタ化と,その状態における決定の重要性に応じて各クラスタのランク付けを行う,統計的共分散推定に基づくブラックボックス手法を提案する。 我々は,過去の統計的断層定位に基づくランク付け手法と比較した。

Policies trained via reinforcement learning (RL) are often very complex even for simple tasks. In an episode with n time steps, a policy will make n decisions on actions to take, many of which may appear non-intuitive to the observer. Moreover, it is not clear which of these decisions directly contribute towards achieving the reward and how significant their contribution is. Given a trained policy, we propose a black-box method based on statistical covariance estimation that clusters the states of the environment and ranks each cluster according to the importance of decisions made in its states. We compare our measure against a previous statistical fault localization based ranking procedure.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-28
# うつ病診療ガイドラインを用いた診断説明可能性へのクロスアテンションアプローチ

A Cross Attention Approach to Diagnostic Explainability using Clinical Practice Guidelines for Depression ( http://arxiv.org/abs/2311.13852v2 )

ライセンス: Link先を確認
Sumit Dalal, Deepa Tilwani, Kaushik Roy, Manas Gaur, Sarika Jain, Valerie Shalin, Amit Sheth, (参考訳) 関連する臨床知識を用いた説明可能性の欠如は、非構造化臨床対話の人工知能による分析の導入を妨げる。 MH(Mental Health)に関する豊富なデータがオンラインコミュニティで利用可能であり、オンラインとオフラインの両方のアプリケーションのスクリーニングツールとして、潜在的な影響で説明可能性の問題に対処する機会を提供する。 そこで我々は,一般的なトランスフォーマーモデルにおける注目度を高める手法を開発し,外部臨床知識を取り入れて,分類のための臨床医が理解可能な説明を生成する。 臨床医が患者と対話する際の専門知識をどのように頼っているかに触発されて、関連する臨床知識を活用して患者の入力をモデル化し、分類に意味のある説明を提供する。 これにより、手作業によるレビューの時間を節約し、信頼を深めることができます。 我々は,世界的関心事の精神保健障害であるうつ病の診断に臨床実習ガイドライン(CPG)を用いて,MHの文脈でこのようなシステムを開発する。 本稿では,PSAT(ProcesS knowledge-infused cross Attention)と呼ばれるアプリケーション固有の言語モデルを提案する。 うつ病に関連する3つの専門家計算データセットの厳密な評価を通じて, PSATの応用関連説明可能性を示す。 PSATは9つのベースラインモデルのパフォーマンスを上回り、他のベースラインが不足している説明を提供することができる。 我々は,患者健康アンケート(例えばPHQ-9)などの抑うつに焦点を当てたCPGリソースを,SNOMED-CTを用いた機械可読性オントロジーに変換する。 このリソースにより、PSATはGPT-3.5のようなモデルでアプリケーション関連の説明を生成する能力を高める。

The lack of explainability using relevant clinical knowledge hinders the adoption of Artificial Intelligence-powered analysis of unstructured clinical dialogue. A wealth of relevant, untapped Mental Health (MH) data is available in online communities, providing the opportunity to address the explainability problem with substantial potential impact as a screening tool for both online and offline applications. We develop a method to enhance attention in popular transformer models and generate clinician-understandable explanations for classification by incorporating external clinical knowledge. Inspired by how clinicians rely on their expertise when interacting with patients, we leverage relevant clinical knowledge to model patient inputs, providing meaningful explanations for classification. This will save manual review time and engender trust. We develop such a system in the context of MH using clinical practice guidelines (CPG) for diagnosing depression, a mental health disorder of global concern. We propose an application-specific language model called ProcesS knowledge-infused cross ATtention (PSAT), which incorporates CPGs when computing attention. Through rigorous evaluation on three expert-curated datasets related to depression, we demonstrate application-relevant explainability of PSAT. PSAT also surpasses the performance of nine baseline models and can provide explanations where other baselines fall short. We transform a CPG resource focused on depression, such as the Patient Health Questionnaire (e.g. PHQ-9) and related questions, into a machine-readable ontology using SNOMED-CT. With this resource, PSAT enhances the ability of models like GPT-3.5 to generate application-relevant explanations.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-28
# SyncTalk: the Devil is in the Synchronization for Talking Head Synthesis

SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis ( http://arxiv.org/abs/2311.17590v2 )

ライセンス: Link先を確認
Ziqiao Peng, Wentao Hu, Yue Shi, Xiangyu Zhu, Xiaomei Zhang, Hao Zhao, Jun He, Hongyan Liu, Zhaoxin Fan, (参考訳) 現実的な音声駆動型音声ヘッドビデオの合成における高同期の実現は、重要な課題である。 従来のGAN(Generative Adversarial Networks)は、一貫性のある顔のアイデンティティを維持するのに苦労するが、Neural Radiance Fields(NeRF)メソッドはこの問題に対処できる。 ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。 これらの同期が存在しないことは根本的な欠陥であり、非現実的で人工的な結果をもたらす。 実話の頭を作る際の「悪魔」と認識される同期の重大な問題に対処するため,SyncTalkを紹介した。 音声ヘッド合成における主観的同一性、同期性、リアリズムを効果的に維持する。 SyncTalkは、唇の動きを音声に合わせるためにFace-Sync Controllerを使用し、革新的に3D顔ブレンドシェープモデルを使用して正確な表情をキャプチャする。 私たちのヘッドシンク・スタビライザーは頭部の動きを最適化し、より自然な頭部の動きを実現します。 Portrait-Sync Generatorは髪の細部を復元し、生成した頭部と胴体をブレンドして、シームレスな視覚体験を提供する。 大規模な実験とユーザスタディにより、SyncTalkは同期およびリアリズムにおいて最先端の手法より優れていることが示された。 補足ビデオを見ることをお勧めします。 https://ziqiaopeng.github.io/synctalk

Achieving high synchronization in the synthesis of realistic, speech-driven talking head videos presents a significant challenge. Traditional Generative Adversarial Networks (GAN) struggle to maintain consistent facial identity, while Neural Radiance Fields (NeRF) methods, although they can address this issue, often produce mismatched lip movements, inadequate facial expressions, and unstable head poses. A lifelike talking head requires synchronized coordination of subject identity, lip movements, facial expressions, and head poses. The absence of these synchronizations is a fundamental flaw, leading to unrealistic and artificial outcomes. To address the critical issue of synchronization, identified as the "devil" in creating realistic talking heads, we introduce SyncTalk. This NeRF-based method effectively maintains subject identity, enhancing synchronization and realism in talking head synthesis. SyncTalk employs a Face-Sync Controller to align lip movements with speech and innovatively uses a 3D facial blendshape model to capture accurate facial expressions. Our Head-Sync Stabilizer optimizes head poses, achieving more natural head movements. The Portrait-Sync Generator restores hair details and blends the generated head with the torso for a seamless visual experience. Extensive experiments and user studies demonstrate that SyncTalk outperforms state-of-the-art methods in synchronization and realism. We recommend watching the supplementary video: https://ziqiaopeng.github.io/synctalk
翻訳日:2024-05-01 00:15:22 公開日:2024-04-28
# 時空間分離型マスクプリトレーニングによる時空間予測

Spatial-Temporal-Decoupled Masked Pre-training for Spatiotemporal Forecasting ( http://arxiv.org/abs/2312.00516v3 )

ライセンス: Link先を確認
Haotian Gao, Renhe Jiang, Zheng Dong, Jinliang Deng, Yuxin Ma, Xuan Song, (参考訳) 時空間予測技術は、輸送、エネルギー、天候など様々な領域において重要である。 時空間列の正確な予測は複雑な時空間の不均一性のため難しいままである。 特に、現在のエンド・ツー・エンドのモデルは入力長によって制限されており、しばしば時空間ミラージュ(英語版)、すなわち、類似の入力時間列に続き、異なる将来の値とその逆になる。 これらの問題に対処するために,2つのマスク付きオートエンコーダを用いて空間次元と時間次元に沿って時空間列を再構成する,新しい自己教師型事前学習フレームワークである空間時間分離型マスケ前訓練(STD-MAE)を提案する。 このような再構成を通じて学習されたリッチコンテキスト表現は、任意のアーキテクチャを持つ下流予測器によってシームレスに統合され、パフォーマンスが向上する。 PEMS03, PEMS04, PEMS07, PEMS08, METR-LA, PEMS-BAY) を用いて,STD-MAEの性能評価を行った。 コードはhttps://github.com/Jimmy-7664/STD-MAEで公開されている。

Spatiotemporal forecasting techniques are significant for various domains such as transportation, energy, and weather. Accurate prediction of spatiotemporal series remains challenging due to the complex spatiotemporal heterogeneity. In particular, current end-to-end models are limited by input length and thus often fall into spatiotemporal mirage, i.e., similar input time series followed by dissimilar future values and vice versa. To address these problems, we propose a novel self-supervised pre-training framework Spatial-Temporal-Decoupled Masked Pre-training (STD-MAE) that employs two decoupled masked autoencoders to reconstruct spatiotemporal series along the spatial and temporal dimensions. Rich-context representations learned through such reconstruction could be seamlessly integrated by downstream predictors with arbitrary architectures to augment their performances. A series of quantitative and qualitative evaluations on six widely used benchmarks (PEMS03, PEMS04, PEMS07, PEMS08, METR-LA, and PEMS-BAY) are conducted to validate the state-of-the-art performance of STD-MAE. Codes are available at https://github.com/Jimmy-7664/STD-MAE.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-28
# フェデレーション型多線形主成分分析と予後学への応用

Federated Multilinear Principal Component Analysis with Applications in Prognostics ( http://arxiv.org/abs/2312.06050v2 )

ライセンス: Link先を確認
Chengyu Zhou, Yuqi Su, Tangbin Xia, Xiaolei Fang, (参考訳) マルチ線形主成分分析(MPCA)はテンソルデータの次元削減に広く用いられている手法である。 しかし、既存の研究では、MPCAのフェデレーションラーニングへの統合は未解明のままである。 このギャップに対処するため、本稿では、複数のユーザが、各ユーザのデータをローカルかつ機密に保ちながら、テンソルデータの寸法を協調的に削減できるFMPCA(Federated Multilinear principal Component Analysis)手法を提案する。 提案手法は従来のMPCAと同等の性能が保証されている。 また, 工業用診断学におけるFMPCAの応用を実証した。 シミュレーションデータと実世界のデータセットを用いて,提案手法の性能評価を行う。

Multilinear Principal Component Analysis (MPCA) is a widely utilized method for the dimension reduction of tensor data. However, the integration of MPCA into federated learning remains unexplored in existing research. To tackle this gap, this article proposes a Federated Multilinear Principal Component Analysis (FMPCA) method, which enables multiple users to collaboratively reduce the dimension of their tensor data while keeping each user's data local and confidential. The proposed FMPCA method is guaranteed to have the same performance as traditional MPCA. An application of the proposed FMPCA in industrial prognostics is also demonstrated. Simulated data and a real-world data set are used to validate the performance of the proposed method.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-28
# MaTe3D: マスクガイド付きテキストベースの3D画像編集

MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing ( http://arxiv.org/abs/2312.06947v2 )

ライセンス: Link先を確認
Kangneng Zhou, Daiheng Gao, Xuan Wang, Jie Zhang, Peng Zhang, Xusen Sun, Longhao Zhang, Shiqi Yang, Bang Zhang, Liefeng Bo, Yaxing Wang, Ming-Ming Cheng, (参考訳) 3D対応の肖像画編集は、複数の分野に幅広い応用がある。 しかし、マスクガイドやテキストベースの編集しかできないため、現在のアプローチは限られている。 2つのプロシージャをモデルに融合させることによっても、編集品質と安定性を確保することはできない。 この制限に対処するため,マスク誘導型テキストベースの3D画像編集法である \textbf{MaTe3D} を提案する。 まず,SDFに基づく新しい3Dジェネレータを導入し,SDFと密度の整合性による局所的およびグローバルな表現を学習する。 第2に、新しい蒸留戦略として、幾何とテクスチャの条件蒸留(CDGT)を提案する。 蒸留を終了する戦略と比較して、視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを回避し、編集中に安定したテクスチャと精巧な幾何学を生成する。 さらに、モデル一般化と拡張の探索のための大規模高解像度猫顔アノテーションであるCatMask-HQデータセットを作成する。 FFHQとCatMask-HQの両方のデータセットで高価な実験を行い、提案手法の編集品質と安定性を実証する。 本手法は,修正マスクとテキストプロンプトに基づく3次元顔画像の編集を忠実に行う。 私たちのコードとモデルは公開されます。

3D-aware portrait editing has a wide range of applications in multiple fields. However, current approaches are limited due that they can only perform mask-guided or text-based editing. Even by fusing the two procedures into a model, the editing quality and stability cannot be ensured. To address this limitation, we propose \textbf{MaTe3D}: mask-guided text-based 3D-aware portrait editing. In this framework, first, we introduce a new SDF-based 3D generator which learns local and global representations with proposed SDF and density consistency losses. This enhances masked-based editing in local areas; second, we present a novel distillation strategy: Conditional Distillation on Geometry and Texture (CDGT). Compared to exiting distillation strategies, it mitigates visual ambiguity and avoids mismatch between texture and geometry, thereby producing stable texture and convincing geometry while editing. Additionally, we create the CatMask-HQ dataset, a large-scale high-resolution cat face annotation for exploration of model generalization and expansion. We perform expensive experiments on both the FFHQ and CatMask-HQ datasets to demonstrate the editing quality and stability of the proposed method. Our method faithfully generates a 3D-aware edited face image based on a modified mask and a text prompt. Our code and models will be publicly released.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-28
# MinePlanner: Minecraftの世界における長期計画のベンチマーク

MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds ( http://arxiv.org/abs/2312.12891v2 )

ライセンス: Link先を確認
William Hill, Ireton Liu, Anita De Mello Koch, Damion Harvey, Nishanth Kumar, George Konidaris, Steven James, (参考訳) Minecraftゲームに基づくタスク計画のための新しいベンチマークを提案する。 私たちのベンチマークには45のタスクが含まれていますが、新しいMinecraftタスクの命題インスタンスと数値インスタンスの両方を自動生成する機能も備えています。 我々はこれらのタスクに関する数値的および命題的計画システムをベンチマークし、その結果、現在最先端のプランナーは、数千のオブジェクトを持つインスタンスへのスケーリングなど、新しいベンチマークによって進められた多くの課題に対処できないことを示した。 これらの結果に基づき,今後の計画立案者に対する改善の分野を特定する。 私たちのフレームワークはhttps://github.com/IretonLiu/mine-pddl/で利用可能です。

We propose a new benchmark for planning tasks based on the Minecraft game. Our benchmark contains 45 tasks overall, but also provides support for creating both propositional and numeric instances of new Minecraft tasks automatically. We benchmark numeric and propositional planning systems on these tasks, with results demonstrating that state-of-the-art planners are currently incapable of dealing with many of the challenges advanced by our new benchmark, such as scaling to instances with thousands of objects. Based on these results, we identify areas of improvement for future planners. Our framework is made available at https://github.com/IretonLiu/mine-pddl/.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-28
# 差分生産型階層型フェデレーションラーニング

Differentially-Private Hierarchical Federated Learning ( http://arxiv.org/abs/2401.11592v3 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Christopher Brinton, (参考訳) FL(Federated Learning)は、ネットワーク上の生データの送信を排除しますが、通信されたモデルパラメータからのプライバシー侵害に対して脆弱です。 本稿では,階層型ネットワークにおけるプライバシーとパフォーマンスを協調的に最適化するDP強化FL手法である \underline{H}ierarchical \underline{F}ederated Learning with \underline{H}ierarchical \underline{D}ifferential \underline{P}rivacy ({\tt H$^2$FDP})を提案する。 特定のサブネットワーク内の信頼モデルによると、階層微分プライバシー(HDP)に関する最近の提案に基づいて、 {\tt H$^2$FDP}の重要な概念の1つは、確立されたFL階層(エッジデバイス、エッジサーバ、クラウドサーバ)の異なる層にDPノイズ注入を適用することである。 本研究では,ネットワーク階層や信頼モデル,対象のプライバシレベルに依存する有限な定常性ギャップに対して,トレーニングプロセスがサブライン的に収束するパラメータチューニングの条件を明らかにする。 これらの関係を利用して、局所モデルトレーニングの特性を調整し、通信エネルギー、レイテンシ、定常性ギャップを最小限に抑えつつ、サブ線形収束率を維持し、所望のプライバシー基準を満たすように適応制御アルゴリズムを開発する。 その後の数値評価では、異なるプライバシ予算に対する基準よりも、これらの指標が大幅に改善され、異なるシステム構成の影響が検証された。

While federated learning (FL) eliminates the transmission of raw data over a network, it is still vulnerable to privacy breaches from the communicated model parameters. In this work, we propose \underline{H}ierarchical \underline{F}ederated Learning with \underline{H}ierarchical \underline{D}ifferential \underline{P}rivacy ({\tt H$^2$FDP}), a DP-enhanced FL methodology for jointly optimizing privacy and performance in hierarchical networks. Building upon recent proposals for Hierarchical Differential Privacy (HDP), one of the key concepts of {\tt H$^2$FDP} is adapting DP noise injection at different layers of an established FL hierarchy -- edge devices, edge servers, and cloud servers -- according to the trust models within particular subnetworks. We conduct a comprehensive analysis of the convergence behavior of {\tt H$^2$FDP}, revealing conditions on parameter tuning under which the training process converges sublinearly to a finite stationarity gap that depends on the network hierarchy, trust model, and target privacy level. Leveraging these relationships, we develop an adaptive control algorithm for {\tt H$^2$FDP} that tunes properties of local model training to minimize communication energy, latency, and the stationarity gap while striving to maintain a sub-linear convergence rate and meet desired privacy criteria. Subsequent numerical evaluations demonstrate that {\tt H$^2$FDP} obtains substantial improvements in these metrics over baselines for different privacy budgets, and validate the impact of different system configurations.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-28
# RTA-Former:ポリプセグメンテーションのためのリバーストランスアテンション

RTA-Former: Reverse Transformer Attention for Polyp Segmentation ( http://arxiv.org/abs/2401.11671v2 )

ライセンス: Link先を確認
Zhikai Li, Murong Yi, Ali Uneri, Sihan Niu, Craig Jones, (参考訳) ポリープセグメンテーションは大腸癌予防の重要な側面であり、早期発見とその後の治療の指導を可能にする。 ディープラーニングソリューションを含むインテリジェントな診断ツールは、このプロセスを合理化し、自動化するために広く研究されている。 しかし、多くの強力なネットワークアーキテクチャがあるにもかかわらず、正確なエッジセグメンテーションを生成するという問題がある。 本稿では,エンコーダのバックボーンとしてトランスフォーマーモデルを採用した新しいネットワークであるRTA-Formerを紹介し,エッジセグメンテーションの強化のためにデコーダのトランスフォーマーステージにリバースアテンション(RA)を適応させる。 実験の結果、RTA-Formerは5つのpolypセグメンテーションデータセットで最先端(SOTA)のパフォーマンスを達成することが示された。 RTA-Formerの強い能力は、Transformerベースのpolypセグメンテーションの精度を向上させることを約束しており、より優れた臨床決定と患者の結果をもたらす可能性がある。 私たちのコードはGitHubで公開されています。

Polyp segmentation is a key aspect of colorectal cancer prevention, enabling early detection and guiding subsequent treatments. Intelligent diagnostic tools, including deep learning solutions, are widely explored to streamline and potentially automate this process. However, even with many powerful network architectures, there still comes the problem of producing accurate edge segmentation. In this paper, we introduce a novel network, namely RTA-Former, that employs a transformer model as the encoder backbone and innovatively adapts Reverse Attention (RA) with a transformer stage in the decoder for enhanced edge segmentation. The results of the experiments illustrate that RTA-Former achieves state-of-the-art (SOTA) performance in five polyp segmentation datasets. The strong capability of RTA-Former holds promise in improving the accuracy of Transformer-based polyp segmentation, potentially leading to better clinical decisions and patient outcomes. Our code is publicly available on GitHub.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-28
# 知識蒸留におけるカーネルアライメントの再考

Rethinking Centered Kernel Alignment in Knowledge Distillation ( http://arxiv.org/abs/2401.11824v3 )

ライセンス: Link先を確認
Zikai Zhou, Yunhang Shen, Shitong Shao, Linrui Gong, Shaohui Lin, (参考訳) 知識蒸留は、大規模モデルと軽量モデルの間の表現の相違をブリッジする非常に効果的な方法として登場した。 代表的なアプローチは、教師モデルから抽出された知識と学生モデルによって学習された知識とのばらつきや距離を最小化するために、適切なメトリクスを活用することである。 CKA(Centered Kernel Alignment)は、表現の類似性を測定するために広く用いられ、いくつかの知識蒸留法に応用されている。 しかし、これらの手法は複雑であり、CKAの本質を明らかにすることができないため、CKAをいかにしてシンプルで効果的な蒸留を適切に行うかという疑問に答えることができない。 本稿ではまず,CKAを最大平均離散値~(MMD)の上界と定数項に分解するCKAの有効性を理論的に説明する。 そこで本研究では,CKAとMDDの相互接続を実質的に確立する,リレーショナル中心カーネルアライメント~(RCKA)フレームワークを提案する。 さらに,各タスクの特性に基づいてCKAの適用を動的にカスタマイズする。 CIFAR-100, ImageNet-1k, MS-COCOの広範囲な実験により, 画像分類とオブジェクト検出のためのほぼすべての教師と学生のペアに対して, 最先端のパフォーマンスを実現し, 提案手法の有効性を検証した。 私たちのコードはhttps://github.com/Klayand/PCKAで利用可能です。

Knowledge distillation has emerged as a highly effective method for bridging the representation discrepancy between large-scale models and lightweight models. Prevalent approaches involve leveraging appropriate metrics to minimize the divergence or distance between the knowledge extracted from the teacher model and the knowledge learned by the student model. Centered Kernel Alignment (CKA) is widely used to measure representation similarity and has been applied in several knowledge distillation methods. However, these methods are complex and fail to uncover the essence of CKA, thus not answering the question of how to use CKA to achieve simple and effective distillation properly. This paper first provides a theoretical perspective to illustrate the effectiveness of CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD) and a constant term. Drawing from this, we propose a novel Relation-Centered Kernel Alignment~(RCKA) framework, which practically establishes a connection between CKA and MMD. Furthermore, we dynamically customize the application of CKA based on the characteristics of each task, with less computational source yet comparable performance than the previous methods. The extensive experiments on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs for image classification and object detection, validating the effectiveness of our approaches. Our code is available in https://github.com/Klayand/PCKA
翻訳日:2024-04-30 23:55:37 公開日:2024-04-28
# シンプルな政策最適化

Simple Policy Optimization ( http://arxiv.org/abs/2401.16025v5 )

ライセンス: Link先を確認
Zhengpeng Xie, (参考訳) PPO (Proximal Policy Optimization) アルゴリズムは多くの分野で優れた性能を示しており、TRPO (Trust Region Policy Optimization) アルゴリズムの単純なバージョンと見なされている。 しかし、PPOの切断操作は必ずしも信頼領域の制約を効果的に強制するわけではないため、アルゴリズムの安定性に影響を与える潜在的な要因となる可能性がある。 本稿では,従来のポリシと現在のポリシのKL分散のための新しいクリッピング手法であるSimple Policy Optimization (SPO)アルゴリズムを提案する。 Atari 2600環境における大規模な実験結果から、SPOはPPOの主流の変種と比較して、より優れたサンプル効率、極めて低いKL分散、より高いポリシーエントロピーを実現し、ネットワークの深さや複雑さの増加に対して堅牢であることが示された。 さらに重要なことに、SPOは制約のない一階法アルゴリズムの単純さを維持している。 私たちのコードはhttps://github.com/MyRepositories-hub/Simple-Policy-Optimizationで利用可能です。

PPO (Proximal Policy Optimization) algorithm has demonstrated excellent performance in many fields, and it is considered as a simple version of TRPO (Trust Region Policy Optimization) algorithm. However, the ratio clipping operation in PPO may not always effectively enforce the trust region constraints, this can be a potential factor affecting the stability of the algorithm. In this paper, we propose Simple Policy Optimization (SPO) algorithm, which introduces a novel clipping method for KL divergence between the old and current policies. Extensive experimental results in Atari 2600 environments indicate that, compared to the mainstream variants of PPO, SPO achieves better sample efficiency, extremely low KL divergence, and higher policy entropy, and is robust to the increase in network depth or complexity. More importantly, SPO maintains the simplicity of an unconstrained first-order algorithm. Our code is available at https://github.com/MyRepositories-hub/Simple-Policy-Optimization.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-28
# OptiState: Transformer-based Vision と Kalman Filtering を用いた手指ロボットの状態推定

OptiState: State Estimation of Legged Robots using Gated Networks with Transformer-based Vision and Kalman Filtering ( http://arxiv.org/abs/2401.16719v3 )

ライセンス: Link先を確認
Alexander Schperberg, Yusuke Tanaka, Saviz Mowlavi, Feng Xu, Bharathan Balaji, Dennis Hong, (参考訳) 脚のあるロボットの状態推定は、非常にダイナミックな動きとセンサーの精度による制限のために困難である。 Kalmanフィルタ,最適化,学習に基づくモダリティを統合することにより,ロボットのトランクの状態を推定するための固有受容情報と外部受容情報を組み合わせたハイブリッドソリューションを提案する。 共振器エンコーダとIMU測定を応用し,コンベックスモデル予測制御の最適化による接地力制御出力を組み込んだ単一剛体モデルにより,カルマンフィルタを改良した。 この推定は、深度画像に適用された視覚変換器オートエンコーダから意味的な洞察とロボットの高さも考慮するGated Recurrent Unitsを通じてさらに洗練されている。 このフレームワークは、不確実性評価を含む正確なロボット状態推定を行うだけでなく、センサ測定や学習によるモデルの単純化から生じる非線形誤差を最小限にすることができる。 提案手法は,様々な地形で四足歩行ロボットを用いてハードウェア上で評価され,VO SLAMベースラインと比較してルート平均角誤差が65%向上した。 コード例:https://github.com/AlexS28/OptiState

State estimation for legged robots is challenging due to their highly dynamic motion and limitations imposed by sensor accuracy. By integrating Kalman filtering, optimization, and learning-based modalities, we propose a hybrid solution that combines proprioception and exteroceptive information for estimating the state of the robot's trunk. Leveraging joint encoder and IMU measurements, our Kalman filter is enhanced through a single-rigid body model that incorporates ground reaction force control outputs from convex Model Predictive Control optimization. The estimation is further refined through Gated Recurrent Units, which also considers semantic insights and robot height from a Vision Transformer autoencoder applied on depth images. This framework not only furnishes accurate robot state estimates, including uncertainty evaluations, but can minimize the nonlinear errors that arise from sensor measurements and model simplifications through learning. The proposed methodology is evaluated in hardware using a quadruped robot on various terrains, yielding a 65% improvement on the Root Mean Squared Error compared to our VIO SLAM baseline. Code example: https://github.com/AlexS28/OptiState
翻訳日:2024-04-30 23:55:37 公開日:2024-04-28
# マルチホスピタルデータのための分散型・協調型・プライバシ保護型機械学習

Decentralised, Collaborative, and Privacy-preserving Machine Learning for Multi-Hospital Data ( http://arxiv.org/abs/2402.00205v2 )

ライセンス: Link先を確認
Congyu Fang, Adam Dziedzic, Lin Zhang, Laura Oliva, Amol Verma, Fahad Razak, Nicolas Papernot, Bo Wang, (参考訳) 機械学習(ML)は、医療データ分析に大きな可能性を実証している。 さまざまなソースや設定から収集された大規模なデータセットは、より正確な精度と一般化性を達成するために、医療におけるMLモデルにとって不可欠である。 さまざまな医療機関間でデータを共有することは、複雑で多様なプライバシーと規制要件のために難しい。 したがって、複数のパーティが、これらのデータセットを直接共有したり、コラボレーションを通じてデータセットのプライバシを妥協することなく、各パーティで利用可能なプライベートデータセットを活用するMLモデルを共同でトレーニングすることは、困難だが重要なことです。 本稿では,マルチホスピタルデータ(DeCaPH)のための分散型,協調型,プライバシ保護型MLを提案することで,この問題に対処する。 1)プライベートデータセットを転送せずにMLモデルを協調的にトレーニングすること、(2)トレーニングプロセス中に参加者間で共有されるコンテンツから生じる潜在的なプライバシー漏洩を制限し、患者のプライバシを保護すること、(3)集中型サーバに頼ることなくMLモデルのトレーニングを容易にすること、である。 本研究では,電子健康記録を用いた患者死亡予測,単細胞ヒトゲノムを用いた細胞型分類,胸部X線像を用いた病理診断の3つの課題におけるDeCaPHの一般化可能性と能力を示す。 DeCaPHフレームワークでトレーニングされたMLモデルは、ユーティリティとプライバシのトレードオフを改善し、トレーニングデータポイントのプライバシを保ちながら、優れたパフォーマンスが得られることを示した。 さらに、DeCaPHフレームワークでトレーニングされたMLモデルは、個々のパーティからのプライベートデータセットでのみトレーニングされたモデルよりも優れており、DeCaPHがモデルの一般化性を高めることを示している。

Machine Learning (ML) has demonstrated its great potential on medical data analysis. Large datasets collected from diverse sources and settings are essential for ML models in healthcare to achieve better accuracy and generalizability. Sharing data across different healthcare institutions is challenging because of complex and varying privacy and regulatory requirements. Hence, it is hard but crucial to allow multiple parties to collaboratively train an ML model leveraging the private datasets available at each party without the need for direct sharing of those datasets or compromising the privacy of the datasets through collaboration. In this paper, we address this challenge by proposing Decentralized, Collaborative, and Privacy-preserving ML for Multi-Hospital Data (DeCaPH). It offers the following key benefits: (1) it allows different parties to collaboratively train an ML model without transferring their private datasets; (2) it safeguards patient privacy by limiting the potential privacy leakage arising from any contents shared across the parties during the training process; and (3) it facilitates the ML model training without relying on a centralized server. We demonstrate the generalizability and power of DeCaPH on three distinct tasks using real-world distributed medical datasets: patient mortality prediction using electronic health records, cell-type classification using single-cell human genomes, and pathology identification using chest radiology images. We demonstrate that the ML models trained with DeCaPH framework have an improved utility-privacy trade-off, showing it enables the models to have good performance while preserving the privacy of the training data points. In addition, the ML models trained with DeCaPH framework in general outperform those trained solely with the private datasets from individual parties, showing that DeCaPH enhances the model generalizability.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-28
# 新しいXAIに向けて:エビデンスを用いた仮説駆動による意思決定支援

Towards the New XAI: A Hypothesis-Driven Approach to Decision Support Using Evidence ( http://arxiv.org/abs/2402.01292v2 )

ライセンス: Link先を確認
Thao Le, Tim Miller, Liz Sonenberg, Ronal Singh, (参考訳) AIによる人的意思決定に関する以前の研究では、いくつかの異なる説明可能なAI(XAI)アプローチが検討されている。 近年の論文では、仮説駆動型XAIを評価AI(evaluative AI)と呼ばれる概念的枠組みで呼び出すパラダイムシフトが提案されている。 本稿では,ある仮説に対する肯定的かつ否定的な証拠を生成するWoE(Weight of Evidence)フレームワークに基づく仮説駆動型XAIのアプローチを記述し,評価する。 人間の行動実験を通じて、仮説駆動のアプローチは、推奨駆動のアプローチやAI説明のみのベースラインと比較して、決定精度を高め、信頼度を低減するが、推奨駆動のアプローチに比べて、信頼度の低いアプローチは少ないことを示す。 さらに、被験者は仮説駆動のアプローチを2つの基準線に対して実質的に異なる方法で用いた。

Prior research on AI-assisted human decision-making has explored several different explainable AI (XAI) approaches. A recent paper has proposed a paradigm shift calling for hypothesis-driven XAI through a conceptual framework called evaluative AI that gives people evidence that supports or refutes hypotheses without necessarily giving a decision-aid recommendation. In this paper, we describe and evaluate an approach for hypothesis-driven XAI based on the Weight of Evidence (WoE) framework, which generates both positive and negative evidence for a given hypothesis. Through human behavioural experiments, we show that our hypothesis-driven approach increases decision accuracy and reduces reliance compared to a recommendation-driven approach and an AI-explanation-only baseline, but with a small increase in under-reliance compared to the recommendation-driven approach. Further, we show that participants used our hypothesis-driven approach in a materially different way to the two baselines.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-28
# 2次元における無限またはゼロの散乱長を持つ粒子の3体散乱領域

Three-body scattering area for particles with infinite or zero scattering length in two dimensions ( http://arxiv.org/abs/2402.02202v2 )

ライセンス: Link先を確認
Junjie Liang, Shina Tan, (参考訳) 有限範囲相互作用と等しい質量を持つ3粒子の波動関数の漸近展開と、ゼロエネルギーとゼロ軌道角運動量で共役する無限あるいはゼロの2次元散乱長を導出し、そこから3体パラメータ$D$が定義される。 D$の次元は長さ2乗であり、D$3体散乱領域と呼ぶ。 これらの相互作用を持つゼロ温度希薄ボース気体の粒子あたりの基底状態エネルギーはおよそ$\frac{\hbar^2 D }{6m}\rho^2$であり、ここでは$\rho$はボソンの数密度、$m$はそれぞれのボソンの質量、$\hbar$はプランク定数が$2\pi$である。 そのようなボースガスは熱力学的極限において$D\geq 0$で安定であり、ボソンの数が$N_{cr}\approx 3.6413 \sqrt {\frac{\hbar}{m\omega |D|}}$より小さい場合、ハーモニックトラップにおいて$D<0$でメタスタブルとなる。 2体相互作用が有界状態をサポートする場合、$D$は通常負の虚部を取得し、この虚部と対ボソン生成過程の振幅の関係を見出す。 我々は,多ボソン系の3体組換え率定数を$D$の虚部から導出した。

We derive the asymptotic expansions of the wave function of three particles having equal mass with finite-range interactions and infinite or zero two-dimensional scattering length colliding at zero energy and zero orbital angular momentum, from which a three-body parameter $D$ is defined. The dimension of $D$ is length squared, and we call $D$ three-body scattering area. We find that the ground state energy per particle of a zero-temperature dilute Bose gas with these interactions is approximately $\frac{\hbar^2 D }{6m}\rho^2$, where $\rho$ is the number density of the bosons, $m$ is the mass of each boson, and $\hbar$ is Planck's constant over $2\pi$. Such a Bose gas is stable at $D\geq 0$ in the thermodynamic limit, and metastable at $D<0$ in the harmonic trap if the number of bosons is less than $N_{cr}\approx 3.6413 \sqrt{\frac{\hbar}{m\omega |D|}}$, where $\omega$ is the angular frequency of the harmonic trap. If the two-body interaction supports bound states, $D$ typically acquires a negative imaginary part, and we find the relation between this imaginary part and the amplitudes of the pair-boson production processes. We derive a formula for the three-body recombination rate constant of the many-boson system in terms of the imaginary part of $D$.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-28
# BetterV: 識別誘導による制御されたVerilog生成

BetterV: Controlled Verilog Generation with Discriminative Guidance ( http://arxiv.org/abs/2402.03375v2 )

ライセンス: Link先を確認
Zehua Pei, Hui-Ling Zhen, Mingxuan Yuan, Yu Huang, Bei Yu, (参考訳) 現代集積回路(IC)の複雑さが増大しているため、自動回路設計法が必要である。 近年,設計プロセスを容易にするハードウェア設計言語の開発が盛んに行われている。 そこで本研究では,処理されたドメイン固有データセット上での大規模言語モデル(LLM)を微調整し,特定の設計要求に対するガイダンスに生成識別器を組み込んだVerilog生成フレームワークであるBetterVを提案する。 Verilogモジュールは、クリーンで豊富なデータセットを形成するために、インターネットから収集、フィルタリング、処理される。 インストラクションチューニング法は、Verilogに関する知識を理解するためにLLMを微調整するために特別に設計されている。 さらに、トレーニングセットを充実させるためにデータを拡張し、特定の下流タスクで生成的識別器を訓練するためにも使用し、Verilogの実装を最適化するためのLLMのガイダンスを導いた。 BetterV は構文的にも機能的にも Verilog を生成する機能を備えており、VerilogEval ベンチマークでは GPT-4 よりも優れている。 タスク固有の生成識別器の助けを借りて、BetterVは様々な電子設計自動化(EDA)下流タスクにおいて顕著な改善を達成できる。

Due to the growing complexity of modern Integrated Circuits (ICs), there is a need for automated circuit design methods. Recent years have seen rising research in hardware design language generation to facilitate the design process. In this work, we propose a Verilog generation framework, BetterV, which fine-tunes the large language models (LLMs) on processed domain-specific datasets and incorporates generative discriminators for guidance on particular design demands. The Verilog modules are collected, filtered and processed from internet to form a clean and abundant dataset. Instruct-tuning methods are specially designed to fine-tune the LLMs to understand the knowledge about Verilog. Furthermore, data are augmented to enrich the training set and also used to train a generative discriminator on particular downstream task, which leads a guidance for the LLMs to optimize the Verilog implementation. BetterV has the ability to generate syntactically and functionally correct Verilog, which can outperform GPT-4 on the VerilogEval benchmark. With the help of task-specific generative discriminator, BetterV can achieve remarkable improvement on various electronic design automation (EDA) downstream tasks, including the netlist node reduction for synthesis and verification runtime reduction with Boolean Satisfiability (SAT) solving.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-28
# DRED:データ調整環境設計による強化学習におけるゼロショット転送

DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design ( http://arxiv.org/abs/2402.03479v2 )

ライセンス: Link先を確認
Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas, Stefano V. Albrecht, (参考訳) 深層強化学習(RL)を用いて訓練された自律エージェントは、トレーニング中に遭遇した環境と特性を共有した場合でも、新しい環境にうまく一般化する能力に欠けることが多い。 本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。 基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。 これは、特定の適応サンプリング戦略によって達成される暗黙の正則化に対する新しい理論的な正当化を与える。 次に、データ生成機構をより制御可能な、教師なし環境設計(UED)手法に注意を向ける。 既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。 オーバーフィッティングと分散シフトの両方を防止するため,データ正規化環境設計(DRED)を導入する。 DREDは、初期レベルパラメータに基づいて訓練された生成モデルを用いてレベルを生成し、分散シフトを低減し、適応レベルサンプリング戦略やUED法よりもZSGを大幅に改善する。

Autonomous agents trained using deep reinforcement learning (RL) often lack the ability to successfully generalise to new environments, even when they share characteristics with the environments they have encountered during training. In this work, we investigate how the sampling of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents. We discover that, for deep actor-critic architectures sharing their base layers, prioritising levels according to their value loss minimises the mutual information between the agent's internal representation and the set of training levels in the generated training data. This provides a novel theoretical justification for the implicit regularisation achieved by certain adaptive sampling strategies. We then turn our attention to unsupervised environment design (UED) methods, which have more control over the data generation mechanism. We find that existing UED methods can significantly shift the training distribution, which translates to low ZSG performance. To prevent both overfitting and distributional shift, we introduce data-regularised environment design (DRED). DRED generates levels using a generative model trained over an initial set of level parameters, reducing distributional shift, and achieves significant improvements in ZSG over adaptive level sampling strategies and UED methods.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-28
# トラクタブル確率回路の多項式意味論

Polynomial Semantics of Tractable Probabilistic Circuits ( http://arxiv.org/abs/2402.09085v2 )

ライセンス: Link先を確認
Oliver Broadrick, Honghua Zhang, Guy Van den Broeck, (参考訳) 確率回路は多変量確率分布を表す多線型多項式を計算する。 これらは効率的な限界推定をサポートする抽出可能なモデルである。 しかし、様々な多項式意味論が文献(例えば、ネットワーク多項式、確率多項式、生成関数、フーリエ変換)で検討されている。 分布のこれらの多項式符号化の回路表現の関係はほとんど不明である。 本稿では,各確率回路モデルが二乗変数上の分布に対して,各確率回路モデルと等価であることを示す。 したがって、それらは全て、同じ分布のクラスにおける限界推論のために引き出される。 最後に、確率的生成回路(probabilistic generating circuits)と呼ばれる1つの多項式意味論の自然な拡張をカテゴリー的確率変数に拡張し、推論が#P-hardになることを示す。

Probabilistic circuits compute multilinear polynomials that represent multivariate probability distributions. They are tractable models that support efficient marginal inference. However, various polynomial semantics have been considered in the literature (e.g., network polynomials, likelihood polynomials, generating functions, and Fourier transforms). The relationships between circuit representations of these polynomial encodings of distributions is largely unknown. In this paper, we prove that for distributions over binary variables, each of these probabilistic circuit models is equivalent in the sense that any circuit for one of them can be transformed into a circuit for any of the others with only a polynomial increase in size. They are therefore all tractable for marginal inference on the same class of distributions. Finally, we explore the natural extension of one such polynomial semantics, called probabilistic generating circuits, to categorical random variables, and establish that inference becomes #P-hard.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-28
# 誰が最初にプレイするか? 多くのロボットによるStackelbergゲームにおけるプレイ順序の最適化

Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots ( http://arxiv.org/abs/2402.09246v2 )

ライセンス: Link先を確認
Haimin Hu, Gabriele Dragotto, Zixu Zhang, Kaiqu Liang, Bartolomeo Stellato, Jaime F. Fisac, (参考訳) 我々は, N-player Stackelberg 軌道ゲームにおいて, エージェントが決定にコミットする順序や, 関連する平衡といった, 社会的に最適なプレイ順序を演算する多エージェント空間ナビゲーション問題を考える。 我々は、この問題を、プレイの順列に付随する全ての可能なStackelbergゲーム空間上の混合整数最適化問題としてモデル化する。 この問題を解決するために、社会的に最適な遊び順序とスタックルバーグ均衡に確実に収束する効率的かつ正確なアルゴリズムであるブランチ・アンド・プレイ(B&P)を導入する。 B&Pのサブルーチンとして、我々はシーケンシャルな軌道計画、すなわち一般的なマルチエージェント制御アプローチを採用し、任意のプレイの順序に対して有効な局所スタックルバーグ平衡を計算する。 本稿では,B&Pによる航空交通管制,群れ形成,輸送車両の配車における実用性を実証する。 我々は、B&Pが様々なベースラインを一貫して上回り、社会的に最適な均衡を計算することを発見した。

We consider the multi-agent spatial navigation problem of computing the socially optimal order of play, i.e., the sequence in which the agents commit to their decisions, and its associated equilibrium in an N-player Stackelberg trajectory game. We model this problem as a mixed-integer optimization problem over the space of all possible Stackelberg games associated with the order of play's permutations. To solve the problem, we introduce Branch and Play (B&P), an efficient and exact algorithm that provably converges to a socially optimal order of play and its Stackelberg equilibrium. As a subroutine for B&P, we employ and extend sequential trajectory planning, i.e., a popular multi-agent control approach, to scalably compute valid local Stackelberg equilibria for any given order of play. We demonstrate the practical utility of B&P to coordinate air traffic control, swarm formation, and delivery vehicle fleets. We find that B&P consistently outperforms various baselines, and computes the socially optimal equilibrium.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-28
# DoRA:重量分解低ランク適応

DoRA: Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2402.09353v4 )

ライセンス: Link先を確認
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen, (参考訳) 広く使われているパラメータ効率ファインタニング(PEFT)法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。 しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。 そこで本研究では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。 本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。 DoRAを用いることで、LoRAの学習能力とトレーニング安定性を向上するとともに、追加の推論オーバーヘッドを回避できる。 DoRAは、LLaMA、LLaVA、VL-BARTなどの様々な下流タスク、例えばコモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解において、LoRAよりも一貫して優れている。 コードはhttps://github.com/NVlabs/DoRA.comで公開されている。

Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed LowRank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing DoRA, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. DoRA consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding. Code available at https://github.com/NVlabs/DoRA.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-28
# 心拍信号の解読:心電図信号からの説明可能な心房細動検出のための視覚変換器アプローチ

Deciphering Heartbeat Signatures: A Vision Transformer Approach to Explainable Atrial Fibrillation Detection from ECG Signals ( http://arxiv.org/abs/2402.09474v2 )

ライセンス: Link先を確認
Aruna Mohan, Danne Elbers, Or Zilbershot, Fatemeh Afghah, David Vorchheimer, (参考訳) ウェアラブル単葉心電図(ECG)デバイスを用いた遠隔患者モニタリングは、特に自動心臓疾患検出のための人工知能(AI)アプローチと組み合わせることで、心臓疾患の早期発見を可能にする重要な可能性を秘めている。 心臓疾患検出のためのディープラーニングに基づくAIアプローチの適用に関する先行研究がある。 しかしながら、これらのモデルは、多くのAIアルゴリズムを取り巻く現在のブラックボックス認識のために、臨床診断の信頼できる支援として広く受け入れられていない。 特に、正確な診断に寄与するECG信号の重要な特徴を特定し、モデルの解釈可能性を高める必要がある。 本研究では,単誘導心電図データに基づいて心房細動を識別する視覚変換器を提案する。 また、残差ネットワーク(ResNet)アプローチも、視覚変換器アプローチと比較するために開発されている。 これらのモデルはChapman-Shaoxingデータセットに応用され、心房細動の分類や、他の一般的な不整脈、洞脈拍、正常洞脈拍を分類する。 これらのモデルにより、心房細動と洞細動との正常な正弦波リズムの区別において、その結果の分類を決定する心拍の鍵領域の同定が可能となり、P波とT波の重要性、および心拍持続時間と信号振幅が強調される。

Remote patient monitoring based on wearable single-lead electrocardiogram (ECG) devices has significant potential for enabling the early detection of heart disease, especially in combination with artificial intelligence (AI) approaches for automated heart disease detection. There have been prior studies applying AI approaches based on deep learning for heart disease detection. However, these models are yet to be widely accepted as a reliable aid for clinical diagnostics, in part due to the current black-box perception surrounding many AI algorithms. In particular, there is a need to identify the key features of the ECG signal that contribute toward making an accurate diagnosis, thereby enhancing the interpretability of the model. In the present study, we develop a vision transformer approach to identify atrial fibrillation based on single-lead ECG data. A residual network (ResNet) approach is also developed for comparison with the vision transformer approach. These models are applied to the Chapman-Shaoxing dataset to classify atrial fibrillation, as well as another common arrhythmia, sinus bradycardia, and normal sinus rhythm heartbeats. The models enable the identification of the key regions of the heartbeat that determine the resulting classification, and highlight the importance of P-waves and T-waves, as well as heartbeat duration and signal amplitude, in distinguishing normal sinus rhythm from atrial fibrillation and sinus bradycardia.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-28
# Kernへの学習: 最適文字空間のセットワイズ推定

Learning to Kern: Set-wise Estimation of Optimal Letter Space ( http://arxiv.org/abs/2402.14313v2 )

ライセンス: Link先を確認
Kei Nakatsuru, Seiichi Uchida, (参考訳) Kerningは、あるフォントの可能な全ての文字対に対して適切な水平空間を設定するタスクである。 カーニングの難しさの1つは、各文字ペアごとに適切な空間が異なることである。 したがって、52大文字と小文字の合計に対して、52 = 2704$の異なる空間を52に調整する必要がある。 もうひとつの難点は、自動カーニングの一般的な手順や基準が存在しないことである。 本稿では,ペアワイドモデルとセットワイドモデルという2つの機械学習モデルを提案する。 前者は、与えられた2つの文字画像の文字空間を推定する単純なディープニューラルネットワークである。 対照的に後者は、3つ以上の与えられた文字画像の文字空間を推定するトランスフォーマーベースのモデルである。 例えば、セットワイズモデルは、あるフォントに対して52文字の画像に対して2704の空間を同時に推定する。 2つのモデルの中で、セットワイズモデルはより効率的であるだけでなく、より正確である。 約2500のGoogleフォントの実験結果と、その定量的および定性的分析により、すべてのフォントと文字ペアの平均文字空間が約115ピクセルである場合、セットワイドモデルの平均推定誤差は約5.3ピクセルであることが示された。

Kerning is the task of setting appropriate horizontal spaces for all possible letter pairs of a certain font. One of the difficulties of kerning is that the appropriate space differs for each letter pair. Therefore, for a total of 52 capital and small letters, we need to adjust $52 \times 52 = 2704$ different spaces. Another difficulty is that there is neither a general procedure nor criterion for automatic kerning; therefore, kerning is still done manually or with heuristics. In this paper, we tackle kerning by proposing two machine-learning models, called pairwise and set-wise models. The former is a simple deep neural network that estimates the letter space for two given letter images. In contrast, the latter is a transformer-based model that estimates the letter spaces for three or more given letter images. For example, the set-wise model simultaneously estimates 2704 spaces for 52 letter images for a certain font. Among the two models, the set-wise model is not only more efficient but also more accurate because its internal self-attention mechanism allows for more consistent kerning for all letters. Experimental results on about 2500 Google fonts and their quantitative and qualitative analyses show that the set-wise model has an average estimation error of only about 5.3 pixels when the average letter space of all fonts and letter pairs is about 115 pixels.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# DeepLight:マルチモードリモートセンシングデータによる夜間光の高分解能観測の再構築

DeepLight: Reconstructing High-Resolution Observations of Nighttime Light With Multi-Modal Remote Sensing Data ( http://arxiv.org/abs/2402.15659v2 )

ライセンス: Link先を確認
Lixian Zhang, Runmin Dong, Shuai Yuan, Jinxiao Zhang, Mengxuan Chen, Juepeng Zheng, Haohuan Fu, (参考訳) 夜間光(NTL)リモートセンシング観測は、貧困評価、都市持続可能な開発、炭素排出量といった一連の持続可能な開発目標(SDG)の達成に向けた進捗を定量的に評価するためのユニークなプロキシとして機能する。 しかし、既存のNTL観測はしばしば広範に劣化と矛盾に悩まされ、SDGによって定義された指標の計算に有効性を制限する。 本研究では,マルチモーダルリモートセンシングデータを用いた高解像度NTL画像の再構成手法を提案する。 この研究を支援するために,5つの異種センサのデータからなる包括的データセットであるDeepLightMDを紹介した。 さらに,多モード超解像における空間的不均一なモダリティデータ間の橋梁のキャリブレーションを考慮したDeepLightSRを提案する。 DeepLightSRは、キャリブレーションを意識したアライメント、補助-主モード融合、空間的不均一性に効果的に対処するための補助組込み改良、多種多様な代表的特徴の融合、および8-times$ Super- resolution (SR)タスクのパフォーマンス向上を統合している。 大規模な実験は、PSNR (2.01 dB $ \sim $ 13.25 dB) と PIQE (0.49 $ \sim $ 9.32) の改善によって証明されたように、8つの競合する手法よりもDeepLightSRの方が優れていることを示している。 本研究は,高分解能NTLデータの再構成において,提案するデータセットとモデルの実用的意義を強調し,SDGの進行を効率的に定量的に評価する。

Nighttime light (NTL) remote sensing observation serves as a unique proxy for quantitatively assessing progress toward meeting a series of Sustainable Development Goals (SDGs), such as poverty estimation, urban sustainable development, and carbon emission. However, existing NTL observations often suffer from pervasive degradation and inconsistency, limiting their utility for computing the indicators defined by the SDGs. In this study, we propose a novel approach to reconstruct high-resolution NTL images using multi-modal remote sensing data. To support this research endeavor, we introduce DeepLightMD, a comprehensive dataset comprising data from five heterogeneous sensors, offering fine spatial resolution and rich spectral information at a national scale. Additionally, we present DeepLightSR, a calibration-aware method for building bridges between spatially heterogeneous modality data in the multi-modality super-resolution. DeepLightSR integrates calibration-aware alignment, an auxiliary-to-main multi-modality fusion, and an auxiliary-embedded refinement to effectively address spatial heterogeneity, fuse diversely representative features, and enhance performance in $8\times$ super-resolution (SR) tasks. Extensive experiments demonstrate the superiority of DeepLightSR over 8 competing methods, as evidenced by improvements in PSNR (2.01 dB $ \sim $ 13.25 dB) and PIQE (0.49 $ \sim $ 9.32). Our findings underscore the practical significance of our proposed dataset and model in reconstructing high-resolution NTL data, supporting efficiently and quantitatively assessing the SDG progress.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# Res-VMamba:Deep Residual Learningを用いた選択状態空間モデルを用いた細粒食品カテゴリー視覚分類

Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning ( http://arxiv.org/abs/2402.15761v2 )

ライセンス: Link先を確認
Chi-Sheng Chen, Guan-Ying Chen, Dong Zhou, Di Jiang, Dai-Shi Chen, (参考訳) 食品分類は食品ビジョンタスクの基盤であり、計算栄養の急成長において重要な役割を担っている。 詳細な分類を必要とする食品の複雑さのため、最近の学術研究は、食品分類を行うために、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を主に変更している。 しかし、粒度の細かい特徴を学習するためには、CNNバックボーンはさらなる構造設計が必要である。 近年、Scan(S6)と呼ばれるScan(S6)による選択機構と計算により、新しいSequence State Space(S4)モデルが、Transformerアーキテクチャよりも優れた性能と計算効率を実証している。 Mambaメカニズムをイメージタスク(分類など)に組み込んだVMambaモデルは、現在、ImageNetデータセットにSOTA(State-of-the-art)を確立している。 本研究では,学術的に過小評価された食品データセットCNFOOD-241を導入するとともに,元のVMambaアーキテクチャ設計に固有のグローバルおよびローカル両方の特徴を同時に活用するために,VMambaモデル内の残差学習フレームワークの統合を開拓する。 その結果,VMambaは細粒度および食品の分類において,現在のSOTAモデルを上回っていることがわかった。 提案されたRes-VMambaはさらに、事前訓練された重量なしで分類精度を79.54\%に改善した。 提案手法は,CNFOOD-241データセットを用いた食品認識におけるSOTA性能の新たな評価基準を確立した。 GitHubでは、https://github.com/ChiShengChen/ResVMamba.comでコードが取得できる。

Food classification is the foundation for developing food vision tasks and plays a key role in the burgeoning field of computational nutrition. Due to the complexity of food requiring fine-grained classification, recent academic research mainly modifies Convolutional Neural Networks (CNNs) and/or Vision Transformers (ViTs) to perform food category classification. However, to learn fine-grained features, the CNN backbone needs additional structural design, whereas ViT, containing the self-attention module, has increased computational complexity. In recent months, a new Sequence State Space (S4) model, through a Selection mechanism and computation with a Scan (S6), colloquially termed Mamba, has demonstrated superior performance and computation efficiency compared to the Transformer architecture. The VMamba model, which incorporates the Mamba mechanism into image tasks (such as classification), currently establishes the state-of-the-art (SOTA) on the ImageNet dataset. In this research, we introduce an academically underestimated food dataset CNFOOD-241, and pioneer the integration of a residual learning framework within the VMamba model to concurrently harness both global and local state features inherent in the original VMamba architectural design. The research results show that VMamba surpasses current SOTA models in fine-grained and food classification. The proposed Res-VMamba further improves the classification accuracy to 79.54\% without pretrained weight. Our findings elucidate that our proposed methodology establishes a new benchmark for SOTA performance in food recognition on the CNFOOD-241 dataset. The code can be obtained on GitHub: https://github.com/ChiShengChen/ResVMamba.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# インストラクション編集:大規模言語モデルのためのインストラクションベースの知識編集

InstructEdit: Instruction-based Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2402.16123v2 )

ライセンス: Link先を確認
Ningyu Zhang, Bozhong Tian, Siyuan Cheng, Xiaozhuan Liang, Yi Hu, Kouying Xue, Yanjie Gou, Xi Chen, Huajun Chen, (参考訳) 大規模言語モデルの知識編集は、全体的なパフォーマンスに悪影響を及ぼすことなく、モデルの振る舞いを変える効率的なソリューションを提供することができる。 しかし、現在のアプローチではタスク間の限定的な一般化性の問題に遭遇し、各タスクに1つの独立したエディタが必要であるため、より広範なアプリケーションを著しく妨げている。 そこで我々は,知識編集におけるマルチタスクの一般化問題を解析する第一歩を踏み出した。 具体的には,インストラクト編集(InstructEdit)と呼ばれる命令ベースの編集技術を開発した。 各LDMに統一されたエディタが1つしかないため、InstructEditはエディタの制御を改善し、マルチタスクの編集設定において平均14.86%の信頼性が向上することを示した。 さらに、予期せぬタスクを含む実験は、InstructEditが以前の強いベースラインを一貫して上回っていることを示している。 命令ベースの知識編集の基盤となるメカニズムを更に解明するため,より強力なOOD一般化による最適化方向の制御に役立てることができることを示す編集勾配方向の主成分を解析した。 コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。

Knowledge editing for large language models can offer an efficient solution to alter a model's behavior without negatively impacting the overall performance. However, the current approaches encounter issues with limited generalizability across tasks, necessitating one distinct editor for each task, significantly hindering the broader applications. To address this, we take the first step to analyze the multi-task generalization issue in knowledge editing. Specifically, we develop an instruction-based editing technique, termed InstructEdit, which facilitates the editor's adaptation to various task performances simultaneously using simple instructions. With only one unified editor for each LLM, we empirically demonstrate that InstructEdit can improve the editor's control, leading to an average 14.86% increase in Reliability in multi-task editing setting. Furthermore, experiments involving holdout unseen task illustrate that InstructEdit consistently surpass previous strong baselines. To further investigate the underlying mechanisms of instruction-based knowledge editing, we analyze the principal components of the editing gradient directions, which unveils that instructions can help control optimization direction with stronger OOD generalization. Code and datasets are available in https://github.com/zjunlp/EasyEdit.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# Smishing Dataset I: Phishing SMS Dataset from Smishtank.com (英語)

Smishing Dataset I: Phishing SMS Dataset from Smishtank.com ( http://arxiv.org/abs/2402.18430v2 )

ライセンス: Link先を確認
Daniel Timko, Muhammad Lutfor Rahman, (参考訳) スマイシング(SMSフィッシング)攻撃は、最も一般的なソーシャルエンジニアリング攻撃の1つになっているが、関連するスマイシングデータセットがない。 スミッシング防止の領域における最大の課題の1つは、新しいスミッシングデータセットの可用性である。 さらに、時が経つにつれて、スマイシングのキャンペーンが停止され、攻撃に関する重要な情報が失われる。 スマイッシング攻撃の性質の変化に伴い、研究者と技術者の両方が効果的な防御を構築するために、新しいスマイッシング事例の一貫性のある流れが必要である。 本稿では,smishtank.comのコミュニティソースによるスマイッシングデータセットについて述べる。 提出時点でのスマイシングサンプルの分解と分析を通じて、スマイシング攻撃と戦うための豊富な情報を提供する。 本研究の貢献により,このサイトを通じて提出された1090個のスマイッシングサンプルのコーパスを提供する。 各メッセージには、送信者、メッセージ本体、およびメッセージに参照されるすべてのブランドに関する情報が含まれている。 さらに、URLが見つかると、ドメイン、VirusTotalの結果、URLのキャラクタリゼーションに関する追加情報を提供します。 新たなスマイシングデータのオープンアクセスを通じて、この進化する脅威に対する堅牢な防御を構築するために、学界や産業に権限を与えます。

While smishing (SMS Phishing) attacks have risen to become one of the most common types of social engineering attacks, there is a lack of relevant smishing datasets. One of the biggest challenges in the domain of smishing prevention is the availability of fresh smishing datasets. Additionally, as time persists, smishing campaigns are shut down and the crucial information related to the attack are lost. With the changing nature of smishing attacks, a consistent flow of new smishing examples is needed by both researchers and engineers to create effective defenses. In this paper, we present the community-sourced smishing datasets from the smishtank.com. It provides a wealth of information relevant to combating smishing attacks through the breakdown and analysis of smishing samples at the point of submission. In the contribution of our work, we provide a corpus of 1090 smishing samples that have been publicly submitted through the site. Each message includes information relating to the sender, message body, and any brands referenced in the message. Additionally, when a URL is found, we provide additional information on the domain, VirusTotal results, and a characterization of the URL. Through the open access of fresh smishing data, we empower academia and industries to create robust defenses against this evolving threat.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# Prompting ChatGPT for Translation: A Comparison Analysis of Translation Brief and Persona Prompts

Prompting ChatGPT for Translation: A Comparative Analysis of Translation Brief and Persona Prompts ( http://arxiv.org/abs/2403.00127v2 )

ライセンス: Link先を確認
Sui He, (参考訳) プロンプト工学は、LLMの翻訳品質を改善する可能性を示している。 しかし、素早い設計で翻訳概念を使う可能性については、いまだ大半が未解明である。 そこで本論文では,ChatGPTにおける翻訳作業の素早い設計に,翻訳の簡潔性の概念ツールと翻訳者および著者のペルソナを組み込むことの有効性について論じる。 また, 翻訳作業における人間間コミュニケーションの促進には, 特定の要素が構成的ではあるが, ChatGPTの翻訳品質の向上には有効性が限られていることが示唆された。 このことは、翻訳理論家や実践者が、人間と機械の相互作用を含むこの新たなワークフローにおいて、翻訳目的の人間と人間のコミュニケーションパラダイムに根ざした、現在の概念的ツールセットをどのように開発するか、そして翻訳研究で開発された翻訳概念が翻訳タスクのためのGPTモデルのトレーニングにどのように影響を与えるか、という、爆発的な研究の必要性を強調している。

Prompt engineering has shown potential for improving translation quality in LLMs. However, the possibility of using translation concepts in prompt design remains largely underexplored. Against this backdrop, the current paper discusses the effectiveness of incorporating the conceptual tool of translation brief and the personas of translator and author into prompt design for translation tasks in ChatGPT. Findings suggest that, although certain elements are constructive in facilitating human-to-human communication for translation tasks, their effectiveness is limited for improving translation quality in ChatGPT. This accentuates the need for explorative research on how translation theorists and practitioners can develop the current set of conceptual tools rooted in the human-to-human communication paradigm for translation purposes in this emerging workflow involving human-machine interaction, and how translation concepts developed in translation studies can inform the training of GPT models for translation tasks.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# HyperSDFusion:3次元テキスト2形状生成のための言語と幾何学の階層構造をブリッジする

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation ( http://arxiv.org/abs/2403.00372v2 )

ライセンス: Link先を確認
Zhiying Leng, Tolga Birdal, Xiaohui Liang, Federico Tombari, (参考訳) テキストから3次元形状を生成することは3次元表現学習の基本的な課題である。 テキスト形状のペアは階層構造を持ち、例えば「椅子」のような一般的なテキストは椅子のすべての3次元形状をカバーし、より詳細なプロンプトはより具体的な形状を参照している。 さらに、テキストと3Dの形状は本質的に階層構造である。 しかし、SDFusionのような既存のText2Shapeメソッドはそれを利用しない。 本研究では,与えられたテキストから3次元形状を生成する2分岐拡散モデルHyperSDFusionを提案する。 双曲空間は階層データを扱うのに適したため,双曲空間におけるテキストと3次元形状の階層的表現を学習することを提案する。 まず、双曲型テキスト画像エンコーダを導入し、双曲型空間におけるテキストの逐次的およびマルチモーダル的階層的特徴を学習する。 さらに、双曲空間におけるテキストの階層的特徴を学習するために、双曲的テキストグラフ畳み込みモジュールを設計する。 テキスト機能を完全に活用するために,テキスト機能を3次元特徴空間に埋め込むデュアルブランチ構造を導入する。 最終的に、生成した3次元形状に階層構造を持たせるために、双曲的階層的損失を考案する。 本手法は,テキスト・ツー・シェイプ生成のための双曲的階層表現を初めて探求する手法である。 既存のテキスト対形状のペアデータセットであるText2Shapeの実験結果は、最先端の結果を得た。 HyperSDFusion.github.ioで実装をリリースします。

3D shape generation from text is a fundamental task in 3D representation learning. The text-shape pairs exhibit a hierarchical structure, where a general text like ``chair" covers all 3D shapes of the chair, while more detailed prompts refer to more specific shapes. Furthermore, both text and 3D shapes are inherently hierarchical structures. However, existing Text2Shape methods, such as SDFusion, do not exploit that. In this work, we propose HyperSDFusion, a dual-branch diffusion model that generates 3D shapes from a given text. Since hyperbolic space is suitable for handling hierarchical data, we propose to learn the hierarchical representations of text and 3D shapes in hyperbolic space. First, we introduce a hyperbolic text-image encoder to learn the sequential and multi-modal hierarchical features of text in hyperbolic space. In addition, we design a hyperbolic text-graph convolution module to learn the hierarchical features of text in hyperbolic space. In order to fully utilize these text features, we introduce a dual-branch structure to embed text features in 3D feature space. At last, to endow the generated 3D shapes with a hierarchical structure, we devise a hyperbolic hierarchical loss. Our method is the first to explore the hyperbolic hierarchical representation for text-to-shape generation. Experimental results on the existing text-to-shape paired dataset, Text2Shape, achieved state-of-the-art results. We release our implementation under HyperSDFusion.github.io.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# DMoERM:効果的なリワードモデリングのためのMixture-of-Expertsの準備

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling ( http://arxiv.org/abs/2403.01197v2 )

ライセンス: Link先を確認
Shanghaoran Quan, (参考訳) 報奨モデル(RM)の性能は,アライメント微調整時の大規模言語モデル(LLM)の有効性を向上させる上で重要な要素である。 RMトレーニングには2つの課題がある。 1) 様々なカテゴリのデータを用いた同一RMのトレーニングは、その一般化性能がマルチタスク障害に悩まされるおそれがあり得る。 2) 人間のアノテーションの一貫性率は、通常、60\%$から75\%$に過ぎず、トレーニングデータが大量のノイズを含むことになる。 これら2つの課題に対処するために、初めてRMの分野にMixture-of-Experts(MoE)というアイデアを導入しました。 本稿ではDMOERM(Double-Layer MoE RM)を提案する。 外層MoEはスパースモデルである。 入力をタスクカテゴリに分類した後、対応する内部層タスク固有モデルにルーティングする。 内層MoEは密度モデルである。 特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。 それらの出力はMDPによって合成され、最終的な報酬を計算する。 コストを最小限に抑えるため、我々はパブリックLLM APIを呼び出し、機能優先ラベルを得る。 手動ラベル付きデータセットの検証は、我々のモデルが人間の好みとの整合性を向上し、先進的な生成アプローチを実現することを確認する。 一方、BoNサンプリングとRL実験により、我々のモデルはRMの最先端アンサンブル法より優れ、過最適化問題を緩和することを示した。 私たちのコードとデータセットは、https://github.com/quanshr/DMoERM-v1.com/で利用可能です。

The performance of the reward model (RM) is a critical factor in improving the effectiveness of the large language model (LLM) during alignment fine-tuning. There remain two challenges in RM training: 1) training the same RM using various categories of data may cause its generalization performance to suffer from multi-task disturbance, and 2) the human annotation consistency rate is generally only $60\%$ to $75\%$, causing training data to contain a lot of noise. To tackle these two challenges, we introduced the idea of Mixture-of-Experts (MoE) into the field of RM for the first time. We propose the Double-Layer MoE RM (DMoERM). The outer layer MoE is a sparse model. After classifying an input into task categories, we route it to the corresponding inner layer task-specific model. The inner layer MoE is a dense model. We decompose the specific task into multiple capability dimensions and individually fine-tune a LoRA expert on each one. Their outputs are then synthesized by an MLP to compute the final rewards. To minimize costs, we call a public LLM API to obtain the capability preference labels. The validation on manually labeled datasets confirms that our model attains superior consistency with human preference and outstrips advanced generative approaches. Meanwhile, through BoN sampling and RL experiments, we demonstrate that our model outperforms state-of-the-art ensemble methods of RM and mitigates the overoptimization problem. Our code and dataset are available at: https://github.com/quanshr/DMoERM-v1.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-28
# WMDPベンチマーク:アンラーニングによる悪意的使用の測定と削減

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v5 )

ライセンス: Link先を確認
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Zhenqi Zhao, Ariel Herbert-Voss, Cort B. Breuer, Samuel Marks, Oam Patel, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang, Dan Hendrycks, (参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。 悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。 しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 さらに、悪意のある使用のための、非常に特殊な経路にのみ焦点をあてている。 これらのギャップを埋めるために、私たちは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティにおける有害な知識のプロキシ測定として機能する、3,668の多重選択質問のデータセットであるWMDP(Weapons of Mass Destruction Proxy)ベンチマークを公開しました。 WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。 WMDPは、まず、LLMにおける有害な知識の評価として、そして次に、そのような有害な知識を取り除くための未学習手法のベンチマークとして、2つの役割を果たす。 未学習の進展を導くために,モデル表現の制御に基づく最先端の未学習手法であるRMUを開発した。 RMUは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させ、LLMから悪意のある使用を減らすための具体的な道である可能性を示唆している。 私たちはベンチマークとコードをhttps://wmdp.aiで公開しています。

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 3,668 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop RMU, a state-of-the-art unlearning method based on controlling model representations. RMU reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
翻訳日:2024-04-30 23:16:19 公開日:2024-04-28
# 深層学習のための逆フリーファストナチュラルグラディエントDescence法

Inverse-Free Fast Natural Gradient Descent Method for Deep Learning ( http://arxiv.org/abs/2403.03473v2 )

ライセンス: Link先を確認
Xinwei Ou, Ce Zhu, Xiaolin Huang, Yipeng Liu, (参考訳) 二階最適化手法は、二階微分や統計学を取り入れた一階法に比べて、より高速な収束率を達成する可能性がある。 しかし、深層学習におけるそれらの利用は、計算の非効率性のために制限されている。 この問題に対処する様々なアプローチが提案されており、主に逆行列のサイズを最小化することに焦点を当てている。 それでも、逆操作を行う必要性は反復的に持続する。 本研究では,第1次エポックの間にのみ反転を必要とする高速な自然勾配降下法を提案する。 具体的には、自然勾配降下(NGD)は本質的にサンプルごとの勾配の重み付け和であることが明らかとなった。 提案手法は, 経験的性能に影響を与えることなく, これらの重み付き係数をエポック間で共有するものである。 その結果、FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。 画像分類と機械翻訳タスクに関する大規模な実験は、提案したFNGDの効率を実証している。 CIFAR-100上でResNet-18をトレーニングするために、FNGDはKFACと比較して2.07$\times$のスピードアップを達成できる。 Multi30Kでのトランスフォーマーのトレーニングでは、FNGDはAdamWを24 BLEUスコアで上回り、ほぼ同じトレーニング時間を必要とする。

Second-order optimization techniques have the potential to achieve faster convergence rates compared to first-order methods through the incorporation of second-order derivatives or statistics. However, their utilization in deep learning is limited due to their computational inefficiency. Various approaches have been proposed to address this issue, primarily centered on minimizing the size of the matrix to be inverted. Nevertheless, the necessity of performing the inverse operation iteratively persists. In this work, we present a fast natural gradient descent (FNGD) method that only requires inversion during the first epoch. Specifically, it is revealed that natural gradient descent (NGD) is essentially a weighted sum of per-sample gradients. Our novel approach further proposes to share these weighted coefficients across epochs without affecting empirical performance. Consequently, FNGD exhibits similarities to the average sum in first-order methods, leading to the computational complexity of FNGD being comparable to that of first-order methods. Extensive experiments on image classification and machine translation tasks demonstrate the efficiency of the proposed FNGD. For training ResNet-18 on CIFAR-100, FNGD can achieve a speedup of 2.07$\times$ compared with KFAC. For training Transformer on Multi30K, FNGD outperforms AdamW by 24 BLEU score while requiring almost the same training time.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-28
# ネットワークパラメータ付加分解による雑音ラベルの処理

Tackling Noisy Labels with Network Parameter Additive Decomposition ( http://arxiv.org/abs/2403.13241v2 )

ライセンス: Link先を確認
Jingyi Wang, Xiaobo Xia, Long Lan, Xinghao Wu, Jun Yu, Wenjing Yang, Bo Han, Tongliang Liu, (参考訳) ノイズの多いラベルを持つデータを考えると、過度にパラメータ化されたディープネットワークは、誤ってラベル付けされたデータに過度に適合し、結果として一般化が不十分になる。 ディープネットワークの記憶効果は、ネットワークがすべてのノイズデータを記憶する能力を持っているにもかかわらず、まずクリーンなトレーニングデータを記憶し、次に徐々にラベルのずれたトレーニングデータを記憶することを示している。 ノイズラベルと戦うための暗記効果を利用した簡便で効果的な方法が、早期に停止している。 しかし、早期停止はクリーンデータの記憶と誤ラベルデータの記憶を区別できないため、未ラベルデータの記憶と誤ラベルデータの記憶を分離し、さらに誤ラベルデータの副作用を低減し、ネットワークパラメータに付加的な分解を行う。 すなわち、パラメータ $\mathbf{w}$ は $\mathbf{w}=\bm{\sigma}+\bm{\gamma}$ として分解される。 その後、パラメータ $\bm{\sigma}$ はクリーンなデータを記憶すると考えられ、パラメータ $\bm{\gamma}$ は間違ったラベル付きデータを記憶すると考えられている。 記憶効果から恩恵を受けるために、パラメータの$\bm{\sigma}$の更新は、初期のトレーニングでクリーンなデータを完全に記憶することを奨励し、そして、間違ったラベル付きデータの干渉を減らすために、トレーニングのエポックの増加を阻止する。 パラメータ $\bm{\gamma}$ の更新は反対である。 テストでは、一般化を強化するために$\bm{\sigma}$のパラメータのみが使用される。 シミュレーションと実世界のベンチマークによる大規模な実験により,本手法の優れた性能が確認された。

Given data with noisy labels, over-parameterized deep networks suffer overfitting mislabeled data, resulting in poor generalization. The memorization effect of deep networks shows that although the networks have the ability to memorize all noisy data, they would first memorize clean training data, and then gradually memorize mislabeled training data. A simple and effective method that exploits the memorization effect to combat noisy labels is early stopping. However, early stopping cannot distinguish the memorization of clean data and mislabeled data, resulting in the network still inevitably overfitting mislabeled data in the early training stage.In this paper, to decouple the memorization of clean data and mislabeled data, and further reduce the side effect of mislabeled data, we perform additive decomposition on network parameters. Namely, all parameters are additively decomposed into two groups, i.e., parameters $\mathbf{w}$ are decomposed as $\mathbf{w}=\bm{\sigma}+\bm{\gamma}$. Afterward, the parameters $\bm{\sigma}$ are considered to memorize clean data, while the parameters $\bm{\gamma}$ are considered to memorize mislabeled data. Benefiting from the memorization effect, the updates of the parameters $\bm{\sigma}$ are encouraged to fully memorize clean data in early training, and then discouraged with the increase of training epochs to reduce interference of mislabeled data. The updates of the parameters $\bm{\gamma}$ are the opposite. In testing, only the parameters $\bm{\sigma}$ are employed to enhance generalization. Extensive experiments on both simulated and real-world benchmarks confirm the superior performance of our method.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-28
# DaCapo: ビデオ分析のための自律システムにおける継続的学習の高速化

DaCapo: Accelerating Continuous Learning in Autonomous Systems for Video Analytics ( http://arxiv.org/abs/2403.14353v2 )

ライセンス: Link先を確認
Yoonsung Kim, Changhun Oh, Jinwoo Hwang, Wonung Kim, Seongryong Oh, Yubin Lee, Hardik Sharma, Amir Yazdanbakhsh, Jongse Park, (参考訳) ディープニューラルネットワーク(DNN)ビデオ分析は、自動運転車、無人航空機(UAV)、セキュリティロボットなどの自律システムにとって不可欠である。 しかし、実際のデプロイメントは、計算リソースの制限とバッテリ電力のために困難に直面している。 これらの課題に取り組むために、継続的学習は、デプロイメント(推論)における軽量な"学生"モデルを利用し、サンプルデータ(ラベル付け)のラベル付けにより大きな"教師"モデルを活用し、変化するシナリオ(トレーニング)に適応するために、学生モデルを継続的に再トレーニングする。 本稿では,1)推論とラベリングの計算ニーズを見越しながら,リトレーニングのための計算に重点を置くこと,(2)バッテリー駆動の自律システムには適さないパワーハングリーGPUに依存すること,(3)マルチテナントシナリオを想定したリモート集中型サーバ上に置かれること,そして,プライバシー,ネットワーク可用性,レイテンシに関する懸念から,自律システムには適さないこと,といった,最先端の継続的学習システムの限界を強調した。 本研究では,自律型システムによる推論,ラベル付け,トレーニングの同時実行を実現するためのハードウェアアルゴリズムであるDaCapoを提案する。 DaCapoは,(1)サブアクセラレータ上のカーネルをそれぞれの精度で並列実行可能な空間分割可能かつ高精度な加速器と,(2)資源・正確性トレードオフ空間を戦略的にナビゲートし,資源割り当ての最適決定を容易にする時空間資源割り当てアルゴリズムを備える。 評価の結果,DaCapoは最先端のGPUベースの継続的学習システムであるEkyaとEOMUよりも6.5%,5.5%高い精度を実現し,消費電力は254倍減少した。

Deep neural network (DNN) video analytics is crucial for autonomous systems such as self-driving vehicles, unmanned aerial vehicles (UAVs), and security robots. However, real-world deployment faces challenges due to their limited computational resources and battery power. To tackle these challenges, continuous learning exploits a lightweight "student" model at deployment (inference), leverages a larger "teacher" model for labeling sampled data (labeling), and continuously retrains the student model to adapt to changing scenarios (retraining). This paper highlights the limitations in state-of-the-art continuous learning systems: (1) they focus on computations for retraining, while overlooking the compute needs for inference and labeling, (2) they rely on power-hungry GPUs, unsuitable for battery-operated autonomous systems, and (3) they are located on a remote centralized server, intended for multi-tenant scenarios, again unsuitable for autonomous systems due to privacy, network availability, and latency concerns. We propose a hardware-algorithm co-designed solution for continuous learning, DaCapo, that enables autonomous systems to perform concurrent executions of inference, labeling, and training in a performant and energy-efficient manner. DaCapo comprises (1) a spatially-partitionable and precision-flexible accelerator enabling parallel execution of kernels on sub-accelerators at their respective precisions, and (2) a spatiotemporal resource allocation algorithm that strategically navigates the resource-accuracy tradeoff space, facilitating optimal decisions for resource allocation to achieve maximal accuracy. Our evaluation shows that DaCapo achieves 6.5% and 5.5% higher accuracy than a state-of-the-art GPU-based continuous learning systems, Ekya and EOMU, respectively, while consuming 254x less power.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-28
# SceneTracker: 長期のシーンフロー推定ネットワーク

SceneTracker: Long-term Scene Flow Estimation Network ( http://arxiv.org/abs/2403.19924v2 )

ライセンス: Link先を確認
Bo Wang, Jian Li, Yang Yu, Li Liu, Zhenping Sun, Dewen Hu, (参考訳) 本研究は,空間領域の焦点能力と時間領域のコヒーレンスにおける3次元物体追跡の相補性を考慮して,細粒度と長期の3次元動きを同時にオンライン的に捉えることができる包括的新しい課題である長期シーンフロー推定(LSFE)に取り組むことを目的とする。 SceneTrackerは学習に基づく新しいLSFEネットワークであり、最適軌道を近似するために反復的なアプローチを採用する。 さらに、外見と奥行きの相関機能を同時に動的にインデックスし、構築し、Transformerを使用して軌道内および軌道間の長距離接続を探索、活用する。 詳細な実験により、SceneTrackerはLSFEタスクのニーズに合わせて高度に調整された3次元空間閉塞と奥行きノイズ干渉を扱う優れた能力を示す。 SceneTrackerのコードはhttps://github.com/wwsource/SceneTracker.comで公開されている。

Considering the complementarity of scene flow estimation in the spatial domain's focusing capability and 3D object tracking in the temporal domain's coherence, this study aims to address a comprehensive new task that can simultaneously capture fine-grained and long-term 3D motion in an online manner: long-term scene flow estimation (LSFE). We introduce SceneTracker, a novel learning-based LSFE network that adopts an iterative approach to approximate the optimal trajectory. Besides, it dynamically indexes and constructs appearance and depth correlation features simultaneously and employs the Transformer to explore and utilize long-range connections within and between trajectories. With detailed experiments, SceneTracker shows superior capabilities in handling 3D spatial occlusion and depth noise interference, highly tailored to the LSFE task's needs. The code for SceneTracker is available at https://github.com/wwsource/SceneTracker.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-28
# 多目的最適化問題における協調的パレート集合学習

Collaborative Pareto Set Learning in Multiple Multi-Objective Optimization Problems ( http://arxiv.org/abs/2404.01224v2 )

ライセンス: Link先を確認
Chikai Shang, Rongguang Ye, Jiaqi Jiang, Fangqing Gu, (参考訳) Pareto Set Learning (PSL)は、好みベクトルからPareto最適解へのマッピングを学ぶためにニューラルネットワークをトレーニングすることに焦点を当てた、多目的最適化における新たな研究領域である。 しかし、既存のPSL法は、一度に1つの多目的最適化問題(MOP)に対処することに限定されている。 複数のMOPに直面すると、この制限は大きな非効率性をもたらし、様々なMOPにまたがる潜在的なシナジーを活用できなくなる。 本稿では,複数のMOPのパレート集合を協調的に学習するコラボレーティブ・パレート・セット・ラーニング(CoPSL)フレームワークを提案する。 CoPSLは特に、共有層とMOP固有の層からなるアーキテクチャを採用している。 共有レイヤは、MOP間の共通性を協調的にキャプチャするために設計され、MOP固有のレイヤは、これらの一般的な洞察を調整して、個々のMOPのためのソリューションセットを生成する。 このコラボレーティブなアプローチにより、CoPSLは複数のMOPのPareto集合を単一の実行で効率的に学習し、様々なMOP間の潜在的な関係を活用できる。 これらの関係をより深く理解するために,MOP間で共有可能な表現が存在することを実験的に実証した。 これらの共有表現を活用することで、パレート集合を近似する能力が効果的に向上する。 大規模な実験により、パレート集合の近似におけるCoPSLの優れた効率性とロバスト性が、様々な合成および実世界のMOPに対する最先端のアプローチと比較された。 コードはhttps://github.com/ckshang/CoPSL.comで入手できる。

Pareto Set Learning (PSL) is an emerging research area in multi-objective optimization, focusing on training neural networks to learn the mapping from preference vectors to Pareto optimal solutions. However, existing PSL methods are limited to addressing a single Multi-objective Optimization Problem (MOP) at a time. When faced with multiple MOPs, this limitation results in significant inefficiencies and hinders the ability to exploit potential synergies across varying MOPs. In this paper, we propose a Collaborative Pareto Set Learning (CoPSL) framework, which learns the Pareto sets of multiple MOPs simultaneously in a collaborative manner. CoPSL particularly employs an architecture consisting of shared and MOP-specific layers. The shared layers are designed to capture commonalities among MOPs collaboratively, while the MOP-specific layers tailor these general insights to generate solution sets for individual MOPs. This collaborative approach enables CoPSL to efficiently learn the Pareto sets of multiple MOPs in a single execution while leveraging the potential relationships among various MOPs. To further understand these relationships, we experimentally demonstrate that shareable representations exist among MOPs. Leveraging these shared representations effectively improves the capability to approximate Pareto sets. Extensive experiments underscore the superior efficiency and robustness of CoPSL in approximating Pareto sets compared to state-of-the-art approaches on a variety of synthetic and real-world MOPs. Code is available at https://github.com/ckshang/CoPSL.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-28
# FineFake: 細粒度マルチドメインフェイクニュース検出のための知識豊富なデータセット

FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection ( http://arxiv.org/abs/2404.01336v2 )

ライセンス: Link先を確認
Ziyi Zhou, Xiaoming Zhang, Litian Zhang, Jiacheng Liu, Xi Zhang, Chaozhuo Li, (参考訳) フェイクニュース検出のための既存のベンチマークは、ニュースコンテンツの信頼性を評価するモデルの発展に大きく貢献している。 しかしながら、これらのベンチマークは一般的に、単一のセマンティックトピックに関連するニュースや、単一のプラットフォームに由来するニュースのみに焦点を当てているため、実際のシナリオにおけるマルチドメインニュースの多様性を捉えることができない。 様々な領域にわたる偽ニュースを理解するためには、外部の知識と微粒なアノテーションが不可欠であり、正確な証拠を提供し、既存のベンチマークでも無視されている製造戦略の多様さを明らかにする必要がある。 このギャップに対処するため、我々は、微細なアノテーションを持つ新しいマルチドメイン知識強化ベンチマーク「textbf{FineFake}」を紹介した。 FineFakeは6つのセマンティックトピックと8つのプラットフォームにまたがる16,909のデータサンプルを含んでいる。 各ニュース項目には、マルチモーダルコンテンツ、潜在的な社会的コンテキスト、半手動で検証された共通知識、従来のバイナリラベルを超越した微妙なアノテーションが備わっている。 さらに、ファインフェイクに基づく3つの課題を定式化し、知識に富んだドメイン適応ネットワークを提案する。 様々なシナリオ下でFinFake上で大規模な実験が行われ、将来の取り組みに対して正確で信頼性の高いベンチマークが提供される。 FineFakeプロジェクト全体は、オープンソースリポジトリとして、 \url{https://github.com/Accuser907/FineFake}で公開されている。

Existing benchmarks for fake news detection have significantly contributed to the advancement of models in assessing the authenticity of news content. However, these benchmarks typically focus solely on news pertaining to a single semantic topic or originating from a single platform, thereby failing to capture the diversity of multi-domain news in real scenarios. In order to understand fake news across various domains, the external knowledge and fine-grained annotations are indispensable to provide precise evidence and uncover the diverse underlying strategies for fabrication, which are also ignored by existing benchmarks. To address this gap, we introduce a novel multi-domain knowledge-enhanced benchmark with fine-grained annotations, named \textbf{FineFake}. FineFake encompasses 16,909 data samples spanning six semantic topics and eight platforms. Each news item is enriched with multi-modal content, potential social context, semi-manually verified common knowledge, and fine-grained annotations that surpass conventional binary labels. Furthermore, we formulate three challenging tasks based on FineFake and propose a knowledge-enhanced domain adaptation network. Extensive experiments are conducted on FineFake under various scenarios, providing accurate and reliable benchmarks for future endeavors. The entire FineFake project is publicly accessible as an open-source repository at \url{https://github.com/Accuser907/FineFake}.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-28
# 変圧器を用いた潜時空間流れの収束解析

Convergence Analysis of Flow Matching in Latent Space with Transformers ( http://arxiv.org/abs/2404.02538v2 )

ライセンス: Link先を確認
Yuling Jiao, Yanming Lai, Yang Wang, Bokai Yan, (参考訳) 本稿では,ODEに基づく生成モデル,特にフローマッチングに関する理論的収束保証について述べる。 トレーニング済みのオートエンコーダネットワークを用いて、高次元の原入力を低次元の潜在空間にマッピングし、トランスフォーマーネットワークをトレーニングし、標準正規分布から目標潜在分布への変換速度場を予測する。 提案手法の誤差解析により, 提案手法の有効性を実証し, 推定ODEフローにより生成された試料の分布が, 軽度かつ実用的な仮定の下で, ワッサーシュタイン2距離の目標分布に収束することを示した。 さらに、任意の滑らかな関数は、独立な関心を持つかもしれないリプシッツ連続性を持つ変圧器ネットワークによって効果的に近似できることを示す。

We present theoretical convergence guarantees for ODE-based generative models, specifically flow matching. We use a pre-trained autoencoder network to map high-dimensional original inputs to a low-dimensional latent space, where a transformer network is trained to predict the velocity field of the transformation from a standard normal distribution to the target latent distribution. Our error analysis demonstrates the effectiveness of this approach, showing that the distribution of samples generated via estimated ODE flow converges to the target distribution in the Wasserstein-2 distance under mild and practical assumptions. Furthermore, we show that arbitrary smooth functions can be effectively approximated by transformer networks with Lipschitz continuity, which may be of independent interest.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-28
# 外部計画型大規模言語モデルによる会話性疾患の診断

Conversational Disease Diagnosis via External Planner-Controlled Large Language Models ( http://arxiv.org/abs/2404.04292v2 )

ライセンス: Link先を確認
Zhoujian Sun, Cheng Luo, Zhengxing Huang, (参考訳) 大規模言語モデル(LLM)の開発は、人工知能(AI)に基づく診断に前例のない可能性をもたらした。 しかし, 患者データを積極的に収集することができないため, 実際の診断シナリオにおけるLCMの応用的視点はいまだ不明である。 本研究は,医療相談において医師が使用する2段階のプロセスをエミュレートするために,AIシステムを実装した新しいアプローチを提案する。 方法としては,データ駆動型強化学習手法を用いて疾患スクリーニングの質問を定式化すること,医療ガイドラインを解析し,鑑別診断を行うこと,の2つがある。 実際の患者電子カルテ(EMR)データを利用して,仮想患者と医師とのシミュレーション対話を構築し,その診断能力を評価した。 疾患スクリーニングと鑑別診断において,GPT-4Turboを含む既存モデルを上回る結果が得られた。 この研究は、AIをよりシームレスに臨床環境に統合し、医療診断の精度とアクセシビリティを向上させるためのステップである。

The development of large language models (LLM) have brought unprecedented possibilities for artificial intelligence (AI) based medical diagnosis. However, the application perspective of LLMs in real diagnosis scenarios is still unclear because they are not adept at collecting patient data proactively. This study presents a novel approach that implemented AI systems to emulate the two-phase process used by physicians during medical consultations. Our methodology involves two specialized planners: the first employs a data-driven, reinforcement learning approach to formulate disease screening questions; the second uses LLMs to parse medical guidelines and conducts differential diagnosis. By utilizing real patient electronic medical records (EMR) data, we constructed simulated dialogues between virtual patients and doctors and evaluate the diagnostic abilities of our system. We demonstrate that our system surpasses existing models, including GPT-4 Turbo, in both disease screening and differential diagnosis. This research represents a step towards integrating AI more seamlessly into clinical settings, potentially improving the accuracy and accessibility of medical diagnostics.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-28
# オープンソースソフトウェア開発における民間資金モデル--Scikit-Lernを事例として

Public-private funding models in open source software development: A case study on scikit-learn ( http://arxiv.org/abs/2404.06484v4 )

ライセンス: Link先を確認
Cailean Osborne, (参考訳) 政府は、ソフトウェアセキュリティ、デジタル主権、科学とイノベーションにおける国家的競争性をサポートするために、オープンソースソフトウェア(OSS)開発にますます資金を提供しています。 しかしながら、OSS開発者がOSSに対する緊急の政府資金の相対的なメリットと欠点を評価する方法については、ほとんど分かっていない。 本稿では,フランスの人工知能戦略で発表された公的な研究助成金,商業的スポンサーシップ,マイクロ寄付,および3200万ユーロの助成金によって資金提供された,マシンラーニングのための人気のあるPythonライブラリであるScikit-learnのケーススタディを通じて,この問題を探求する。 本研究は,シキット・ラーンのメンテナと資金提供者に対する25回のインタビューを通じて,研究と実践に2つの重要な貢献をしている。 まず、OSSプロジェクトでのパブリック・プライベート・ファンド・モデルの効果的な設計と実装に関する新たな実証的な知見と、シキト・ラーンのメンテナが、資金提供者の多様な利益の均衡とコミュニティの倫理の保護のためにガバナンス・プロトコルを設計・採用した方法についての知見を提示する。 第2に、コミュニティ主導のOSSプロジェクトへの資金提供に関する実践的なレッスンを提供し、実践者に推奨する。 論文は、主要な推奨事項に関する議論で締めくくっている。

Governments are increasingly funding open source software (OSS) development to support software security, digital sovereignty, and national competitiveness in science and innovation, amongst others. However, little is known about how OSS developers evaluate the relative benefits and drawbacks of emergent governmental funding for OSS. This paper explores this question through a case study on scikit-learn, a popular Python library for machine learning, which has been funded by public research grants, commercial sponsorship, micro-donations, and a 32 million euro grant announced in France's artificial intelligence strategy. Through 25 interviews with scikit-learn's maintainers and funders, this study makes two key contributions to research and practice. First, it contributes novel empirical findings on the effective design and implementation of a public-private funding model in an OSS project, as well as how the maintainers of scikit-learn have designed and employed governance protocols to balance the diverse interests of their funders and to safeguard their community ethos. Second, it offers practical lessons on funding in community-led OSS projects and makes recommendations to practitioners. The paper concludes with a discussion of the key recommendations.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-28
# 複雑さはIllusionか?

Is Complexity an Illusion? ( http://arxiv.org/abs/2404.07227v3 )

ライセンス: Link先を確認
Michael Timothy Bennett, (参考訳) 単純さは一般知能の鍵となると多くの人々が抱いている。 より単純なモデルは"一般化"する傾向があり、より優れたサンプル効率でデータの原因や生成元を特定する。 単純さと一般化の相関関係はコンピュータ科学をはるかに超え、物理学や生物学の問題にも対処している。 しかし、単純性は形式の性質であり、一般化は機能的である。 対話的な設定では、両者の相関は解釈に依存する。 理論的には相関はあり得ないが、実際には相関がある。 これまでの理論的研究は、一般化は形式ではなく関数によって暗示される「弱」制約の結果であることを示した。 単純形式に対する弱い制約を選択する実験では、一般化率が110-500%向上した。 ここでは、弱さに関係なく、すべての制約が等しく単純であることを示す。 しかし、形式が空間的に拡張された場合、関数は形式の有限部分集合で表される。 もし関数が形式の有限部分集合で表されるなら、弱制約を単純形式にすることで、単純性と一般化の間の相関を強制することができる。 目的指向のプロセス(例えば自然選択)によって決定される関数の場合、効率性は弱い制約を要求するが、単純な形式を取る。 複雑性は一般化に因果的な影響はないが、欠点があるように見える。

Simplicity is held by many to be the key to general intelligence. Simpler models tend to "generalise", identifying the cause or generator of data with greater sample efficiency. The implications of the correlation between simplicity and generalisation extend far beyond computer science, addressing questions of physics and even biology. Yet simplicity is a property of form, while generalisation is of function. In interactive settings, any correlation between the two depends on interpretation. In theory there could be no correlation and yet in practice, there is. Previous theoretical work showed generalisation to be a consequence of "weak" constraints on implied by function, not form. Experiments demonstrated choosing weak constraints over simple forms yielded a 110-500% improvement in generalisation rate. Here we show that all constraints can take equally simple forms, regardless of weakness. However if forms are spatially extended, then function is represented using a finite subset of forms. If function is represented using a finite subset of forms, then we can force a correlation between simplicity and generalisation by making weak constraints take simple forms. If function determined by a goal directed process (e.g. natural selection), then efficiency demands weak constraints take simple forms. Complexity has no causal influence on generalisation, but appears to due to confounding.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-28
# 既知のクラスタを超えて - 効率的な一般化されたクラスディスカバリのための新しいプロトタイプ

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery ( http://arxiv.org/abs/2404.08995v3 )

ライセンス: Link先を確認
Ye Wang, Yaxiong Wang, Yujiao Wu, Bingchen Zhao, Xueming Qian, (参考訳) Generalized Class Discovery (GCD) は、ラベル付きデータから学んだ知識に基づいてラベルを部分的にラベル付きデータに動的に割り当てることを目的としている。 一般的なアプローチは、すべてのデータと学習概念を、原型的な対照的な学習によってクラスタリングすることである。 しかし、既存の手法はクラスタリングアルゴリズムの性能に大きく影響し、そのため固有の制限が課せられる。 第一に、推定されたクラスタ数は、しばしば基礎的な真実よりも小さく、既存の手法は包括的な概念学習のためのプロトタイプの欠如に悩まされる。 この問題に対処するために,学習可能な潜在的なプロトタイプを導入し,クラスタプロトタイプ(中央)を拡張する適応型探索機構を提案する。 本研究は,プロトタイプをエンド・ツー・エンドで最適化する自己教師型プロトタイプ学習フレームワークを開発した。 第二に、クラスタリングは計算集約的であり、ラベル付きインスタンスと非ラベル付きインスタンスの両方をクラスタリングするという従来の戦略は、この問題を悪化させる。 この非効率性に対抗するために、私たちは、未実装のインスタンスのみをクラスタ化し、その後、新しいクラスを素早く探索するために、導入可能なプロトタイプでクラスタのプロトタイプを拡張することを選択しました。 提案手法の単純さにもかかわらず、広範囲のデータセットに対する広範な実験分析により、我々の手法が常に最先端の結果を提供することを確認した。 具体的には、Stanford Cars データセット内の \textbf{9.7}$\%$ と、Herbarium 19 データセット内の \textbf{12$\times$} クラスタリング効率によって、最も近い競合相手を上回る。 コードとチェックポイントは \url{https://github.com/xjtuYW/PNP.git} で公開します。

Generalized Class Discovery (GCD) aims to dynamically assign labels to unlabelled data partially based on knowledge learned from labelled data, where the unlabelled data may come from known or novel classes. The prevailing approach generally involves clustering across all data and learning conceptions by prototypical contrastive learning. However, existing methods largely hinge on the performance of clustering algorithms and are thus subject to their inherent limitations. Firstly, the estimated cluster number is often smaller than the ground truth, making the existing methods suffer from the lack of prototypes for comprehensive conception learning. To address this issue, we propose an adaptive probing mechanism that introduces learnable potential prototypes to expand cluster prototypes (centers). As there is no ground truth for the potential prototype, we develop a self-supervised prototype learning framework to optimize the potential prototype in an end-to-end fashion. Secondly, clustering is computationally intensive, and the conventional strategy of clustering both labelled and unlabelled instances exacerbates this issue. To counteract this inefficiency, we opt to cluster only the unlabelled instances and subsequently expand the cluster prototypes with our introduced potential prototypes to fast explore novel classes. Despite the simplicity of our proposed method, extensive empirical analysis on a wide range of datasets confirms that our method consistently delivers state-of-the-art results. Specifically, our method surpasses the nearest competitor by a significant margin of \textbf{9.7}$\%$ within the Stanford Cars dataset and \textbf{12$\times$} clustering efficiency within the Herbarium 19 dataset. We will make the code and checkpoints publicly available at \url{https://github.com/xjtuYW/PNP.git}.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-28
# StackOverflow上でのファイル名認識

Few-shot Name Entity Recognition on StackOverflow ( http://arxiv.org/abs/2404.09405v2 )

ライセンス: Link先を確認
Xinwei Chen, Kun Li, Tianyou Song, Jiangjian Guo, (参考訳) StackOverflowは、膨大な質問リポジトリとラベル付き例が限定されているので、アノテーションの課題を提起します。 メタラーニングを利用した数発のエンティティ認識(NER)手法であるRoBERTa+MAMLを提案することにより,このギャップに対処する。 提案手法はStackOverflow NERコーパス(27のエンティティタイプ)で評価され,ベースラインよりも5%のF1スコア向上を実現している。 我々は、さらにドメイン固有のフレーズ処理により、結果を改善した。

StackOverflow, with its vast question repository and limited labeled examples, raise an annotation challenge for us. We address this gap by proposing RoBERTa+MAML, a few-shot named entity recognition (NER) method leveraging meta-learning. Our approach, evaluated on the StackOverflow NER corpus (27 entity types), achieves a 5% F1 score improvement over the baseline. We improved the results further domain-specific phrase processing enhance results.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-28
# シナリオ適応型微粒化パーソナライズネットワーク:シナリオコンテキストへのユーザ行動表現の調整

Scenario-Adaptive Fine-Grained Personalization Network: Tailoring User Behavior Representation to the Scenario Context ( http://arxiv.org/abs/2404.09709v2 )

ライセンス: Link先を確認
Moyu Zhang, Yongxiang Tang, Jinxin Hu, Yu Zhang, (参考訳) 既存の方法は、ユーザ行動シーケンスを集約した後のみ、適応的に表現を調整することが多い。 ユーザシーケンス全体を再重み付けするこの粗いアプローチは、さまざまなシナリオにわたるユーザ関心のマイグレーションを正確にモデル化するモデルの能力を損なう。 シナリオごとの履歴行動系列からユーザの興味を捉える能力を高めるため,シナリオ適応ファイングラインドパーソナライゼーションネットワーク (SFPNet) と呼ばれるランキングフレームワークを開発し,マルチシナリオパーソナライズされたレコメンデーションのための,ある種のきめ細かい手法を設計する。 具体的には、SFPNetはScenario-Tailoring Blockという名前の一連のブロックを順次積み重ねて構成する。 各ブロックは、まずパラメータパーソナライズユニットをデプロイし、基本的な特徴を再定義することで、粗い粒度レベルでシナリオ情報を統合する。 その後、シナリオ適応型特徴表現を統合化し、コンテキスト情報として機能させる。 残余接続を用いることで、このコンテキストを各履歴行動の表現に組み込むことで、シナリオレベルでの振る舞い表現のきめ細かいカスタマイズを可能にし、シナリオ対応のユーザ関心モデリングをサポートする。

Existing methods often adjust representations adaptively only after aggregating user behavior sequences. This coarse-grained approach to re-weighting the entire user sequence hampers the model's ability to accurately model the user interest migration across different scenarios. To enhance the model's capacity to capture user interests from historical behavior sequences in each scenario, we develop a ranking framework named the Scenario-Adaptive Fine-Grained Personalization Network (SFPNet), which designs a kind of fine-grained method for multi-scenario personalized recommendations. Specifically, SFPNet comprises a series of blocks named as Scenario-Tailoring Block, stacked sequentially. Each block initially deploys a parameter personalization unit to integrate scenario information at a coarse-grained level by redefining fundamental features. Subsequently, we consolidate scenario-adaptively adjusted feature representations to serve as context information. By employing residual connection, we incorporate this context into the representation of each historical behavior, allowing for context-aware fine-grained customization of the behavior representations at the scenario-level, which in turn supports scenario-aware user interest modeling.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# RLRF:LLMにおけるバイアス軽減のフィードバックとしての議論によるリフレクションからの強化学習

RLRF:Reinforcement Learning from Reflection through Debates as Feedback for Bias Mitigation in LLMs ( http://arxiv.org/abs/2404.10160v2 )

ライセンス: Link先を確認
Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, Tianyu Shi, (参考訳) 大規模言語モデル(LLM)におけるバイアスとステレオタイプは、ユーザエクスペリエンスと社会的結果に否定的な影響を及ぼす可能性がある。 Reinforcement Learning from Human Feedback (RLHF)のようなバイアス軽減への現在のアプローチは、高価な手作業によるフィードバックに依存している。 LLMには、論理を理解し、テキスト内のバイアスを識別する能力があるが、素早い影響、内部メカニズム、ポリシーなどの要因により、自分たちのバイアスを効果的に認識し、対処するのに苦労することが多い。 テキスト中の潜在的なバイアスについて質問すると、そのバイアスに関する認識と改善能力が著しく向上することがわかった。 そこで本研究では,RLRF(Reinforcement Learning from Reflection through Debates as Feedback)を提案する。 RLRFは、複数ロールの議論にLLMを巻き込み、バイアスを露呈し、ランキングスコア機構を使用して各イテレーションにおけるバイアスを徐々に減少させる。 次に対話を使用して、高バイアスと低バイアスのインスタンスを持つデータセットを作成し、強化学習における報酬モデルをトレーニングする。 このデータセットは、自己回帰のための同じLLMや、生徒-教師モードで前者を指導する優れたLLMによって生成され、その論理的推論能力を高めることができる。 実験の結果, バイアス低減におけるアプローチの有効性が示された。

Biases and stereotypes in Large Language Models (LLMs) can have negative implications for user experience and societal outcomes. Current approaches to bias mitigation like Reinforcement Learning from Human Feedback (RLHF) rely on costly manual feedback. While LLMs have the capability to understand logic and identify biases in text, they often struggle to effectively acknowledge and address their own biases due to factors such as prompt influences, internal mechanisms, and policies. We found that informing LLMs that the content they generate is not their own and questioning them about potential biases in the text can significantly enhance their recognition and improvement capabilities regarding biases. Based on this finding, we propose RLRF (Reinforcement Learning from Reflection through Debates as Feedback), replacing human feedback with AI for bias mitigation. RLRF engages LLMs in multi-role debates to expose biases and gradually reduce biases in each iteration using a ranking scoring mechanism. The dialogue are then used to create a dataset with high-bias and low-bias instances to train the reward model in reinforcement learning. This dataset can be generated by the same LLMs for self-reflection or a superior LLMs guiding the former in a student-teacher mode to enhance its logical reasoning abilities. Experimental results demonstrate the significant effectiveness of our approach in bias reduction.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# 法医学アイリス画像を用いたモーテム後間隔推定

Forensic Iris Image-Based Post-Mortem Interval Estimation ( http://arxiv.org/abs/2404.10172v2 )

ライセンス: Link先を確認
Rasel Ahmed Bhuiyan, Adam Czajka, (参考訳) 死後虹彩認識は、法医学的な設定で虹彩をベースとした人間の識別の新たな応用である。 虹彩認識方法の条件付けに有用である1つの要因は、組織分解レベルであり、これは死後の間隔(PMI)、すなわち、死後経過した時間数と相関している。 しかし、PMIは必ずしも利用可能ではなく、その正確な推定は法医学的な検査における主要な課題の1つである。 本稿では,法医学的虹彩画像から直接PMI推定を行う手法について述べる。 虹彩を用いたPMI推定の可能性を評価するため、畳み込みニューラルネットワークモデル(VGG19、DenseNet121、ResNet152、Inception_v3)をトレーニングし、PMIを予測した。 (a)近赤外(NIR) (b)可視(RGB)、及び (c)多スペクトル法医学的虹彩画像。 モデルは, (S1) サンプル・ディスジョイント, (S2) 対象・ディスジョイント, (S3) クロスデータセットシナリオにおいて10倍のクロスバリデーションで評価された。 マルチスペクトルデータを用いることで、シナリオで約3.5時間(S1)、シナリオで約17.5時間(S2)、シナリオで約69.0時間(S3)という驚くほど低い平均絶対誤差(MAE)が得られることがわかった。 これは、環境条件が好ましい場合(例えば、体が低温で保たれる場合)、法医学的虹彩画像は、PMIを示す特徴を提供し、自動的に推定可能であることを示唆している。 ソースコードとモデルの重み付けは、この論文で利用可能である。

Post-mortem iris recognition is an emerging application of iris-based human identification in a forensic setup. One factor that may be useful in conditioning iris recognition methods is the tissue decomposition level, which is correlated with the post-mortem interval (PMI), i.g., the number of hours that have elapsed since death. PMI, however, is not always available, and its precise estimation remains one of the core challenges in forensic examination. This paper presents the first known to us method of PMI estimation directly from forensic iris images. To assess the feasibility of the iris-based PMI estimation, convolutional neural networks-based models (VGG19, DenseNet121, ResNet152, and Inception_v3) were trained to predict the PMI from (a) near-infrared (NIR), (b) visible (RGB), and (c) multispectral forensic iris images. Models were evaluated following a 10-fold cross-validation in (S1) sample-disjoint, (S2) subject-disjoint, and (S3) cross-dataset scenarios. We found that using the multispectral data offers a spectacularly low mean absolute error (MAE) of approximately 3.5 hours in scenario (S1), a bit worse MAE of approximately 17.5 hours in scenario (S2), and an MAE of approximately 69.0 hours of in the scenario (S3). This suggests that if the environmental conditions are favorable (e.g., bodies are kept in low temperatures), forensic iris images provide features that are indicative of the PMI and can be automatically estimated. The source codes and model weights are made available with the paper.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# スペシャリティとVersatilityのバランスをとる - 教師付き微調整大言語モデルのための粗いフレームワーク

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model ( http://arxiv.org/abs/2404.10306v2 )

ライセンス: Link先を確認
Hengyuan Zhang, Yanru Wu, Dawei Li, Zacc Yang, Rui Zhao, Yong Jiang, Fei Tan, (参考訳) Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。 一方、アライメントLDMは特殊性を示し、特定の用途に優れると予想されている。 しかし、専門性を得るための一般的な慣習である余分なデータによる微調整は、しばしば以前に獲得された多目的性の破滅的な忘れ(CF)を招き、様々なタスクにおけるモデルの性能を阻害する。 この課題に対応するために,我々は,特殊性と多目的性のバランスを打つために,粗粒度フレームワークであるCoFiTuneを提案する。 粗粒度レベルでは、経験的木探索アルゴリズムを用いて、特殊性に不可欠な特定のモジュールをピンポイントし更新し、他のパラメータを凍結し続ける。 専門性と汎用性の両方の総合評価において、CoFiTuneは、さまざまなタスクとモデルスケールのベースラインメソッドを一貫して上回ります。 フルパラメータのSFTと比較すると、CoFiTuneは約14%の汎用性向上と13Bモデルでの限界特殊性損失をもたらす。 最後に,LLMにおける情報転送プロセスの投機的考察を行い,提案手法の有効性について解説する。 コードはhttps://github.com/rattlesnakey/CoFiTune.comで入手できる。

Aligned Large Language Models (LLMs) showcase remarkable versatility, capable of handling diverse real-world tasks. Meanwhile, aligned LLMs are also expected to exhibit speciality, excelling in specific applications. However, fine-tuning with extra data, a common practice to gain speciality, often leads to catastrophic forgetting (CF) of previously acquired versatility, hindering the model's performance across diverse tasks. In response to this challenge, we propose CoFiTune, a coarse to fine framework in an attempt to strike the balance between speciality and versatility. At the coarse-grained level, an empirical tree-search algorithm is utilized to pinpoint and update specific modules that are crucial for speciality, while keeping other parameters frozen; at the fine-grained level, a soft-masking mechanism regulates the update to the LLMs, mitigating the CF issue without harming speciality. In an overall evaluation of both speciality and versatility, CoFiTune consistently outperforms baseline methods across diverse tasks and model scales. Compared to the full-parameter SFT, CoFiTune leads to about 14% versatility improvement and marginal speciality loss on a 13B model. Lastly, based on further analysis, we provide a speculative insight into the information forwarding process in LLMs, which helps explain the effectiveness of the proposed method. The code is available at https://github.com/rattlesnakey/CoFiTune.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# 不公平の裏には何が隠されているのか : 強化学習におけるダイナミクスフェアネスの探求

What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning ( http://arxiv.org/abs/2404.10942v2 )

ライセンス: Link先を確認
Zhihong Deng, Jing Jiang, Guodong Long, Chengqi Zhang, (参考訳) 人種や性別などのセンシティブな属性を含む逐次的意思決定問題において、強化学習(RL)エージェントは、リターンを最大化しながら長期的な公正性を慎重に検討する必要がある。 近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。 本稿では,不平等の原因を因果レンズで調べることで,文献のこのギャップを解消する。 まず,データ生成過程を規定する因果関係を解析し,長期的幸福感に対する機密属性の影響を個別の構成要素に分解する。 次に、環境力学から生じる不平等を明示的に捉え、意思決定によって引き起こされたものや過去に受け継がれたものと区別する、ダイナミックスフェアネスという新しい概念を導入する。 この概念は、次の状態における期待される変化と、他の全てを一定に保ちながらセンシティブな属性の値を変更することで引き起こされる報酬を評価する必要がある。 この反事実概念を定量的に評価するために,データから信頼性の高い推定値が得られる識別式を導出する。 大規模実験は、強化学習における不平等の説明、検出、低減における提案手法の有効性を実証する。 私たちはhttps://github.com/ Familyld/InsightFair.comでコードを公開しています。

In sequential decision-making problems involving sensitive attributes like race and gender, reinforcement learning (RL) agents must carefully consider long-term fairness while maximizing returns. Recent works have proposed many different types of fairness notions, but how unfairness arises in RL problems remains unclear. In this paper, we address this gap in the literature by investigating the sources of inequality through a causal lens. We first analyse the causal relationships governing the data generation process and decompose the effect of sensitive attributes on long-term well-being into distinct components. We then introduce a novel notion called dynamics fairness, which explicitly captures the inequality stemming from environmental dynamics, distinguishing it from those induced by decision-making or inherited from the past. This notion requires evaluating the expected changes in the next state and the reward induced by changing the value of the sensitive attribute while holding everything else constant. To quantitatively evaluate this counterfactual concept, we derive identification formulas that allow us to obtain reliable estimations from data. Extensive experiments demonstrate the effectiveness of the proposed techniques in explaining, detecting, and reducing inequality in reinforcement learning. We publicly release code at https://github.com/familyld/InsightFair.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# FedPFT:フェデレーテッド・セクシー・ファインタニングのファンデーションモデル

FedPFT: Federated Proxy Fine-Tuning of Foundation Models ( http://arxiv.org/abs/2404.11536v2 )

ライセンス: Link先を確認
Zhaopeng Peng, Xiaoliang Fan, Yufan Chen, Zheng Wang, Shirui Pan, Chenglu Wen, Ruisheng Zhang, Cheng Wang, (参考訳) フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することで、データのプライバシと価値のあるFMを保護するための有望な戦略が浮かび上がっている。 しかし、既存手法では、FLのクライアントにサブFMを割り当てることによってFMを微調整するが、チューニングが不十分で勾配の誤差の蓄積が避けられないため、最適化性能が低下する。 本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。 まず、サブFM構築モジュールはレイヤワイド圧縮アプローチを採用し、これらの重要なニューロンを強調することで、すべてのレイヤにわたる包括的なFM微調整を容易にする。 第2に、サブFMアライメントモジュールは、FL微調整中にそれぞれ2段階の蒸留層レベルおよびニューロンレベルレベルを実行し、理論的な保証の下で、サブFMとFMを正確に整列させることで勾配の誤差を低減する。 一般的な7つのデータセット(4つのテキストと3つのビジョン)の実験結果は、FedPFTの優位性を示している。

Adapting Foundation Models (FMs) for downstream tasks through Federated Learning (FL) emerges a promising strategy for protecting data privacy and valuable FMs. Existing methods fine-tune FM by allocating sub-FM to clients in FL, however, leading to suboptimal performance due to insufficient tuning and inevitable error accumulations of gradients. In this paper, we propose Federated Proxy Fine-Tuning (FedPFT), a novel method enhancing FMs adaptation in downstream tasks through FL by two key modules. First, the sub-FM construction module employs a layer-wise compression approach, facilitating comprehensive FM fine-tuning across all layers by emphasizing those crucial neurons. Second, the sub-FM alignment module conducts a two-step distillations-layer-level and neuron-level-before and during FL fine-tuning respectively, to reduce error of gradient by accurately aligning sub-FM with FM under theoretical guarantees. Experimental results on seven commonly used datasets (i.e., four text and three vision) demonstrate the superiority of FedPFT.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# ハイブリッド深層学習ブラックボックスPDEソルバのエンドツーエンドメッシュ最適化

End-to-End Mesh Optimization of a Hybrid Deep Learning Black-Box PDE Solver ( http://arxiv.org/abs/2404.11766v2 )

ライセンス: Link先を確認
Shaocong Ma, James Diffenderfer, Bhavya Kailkhura, Yi Zhou, (参考訳) 深層学習は計算流体力学における偏微分方程式(PDE)の解法として広く応用されている。 最近の研究では、ディープラーニングを利用して、粗いメッシュ上のPDEソルバによって得られる解を補正するPDE補正フレームワークが提案されている。 しかしながら、メッシュパラメータやニューラルネットワークパラメータといったソルバに依存したパラメータに対して、そのようなPDE補正モデルのエンドツーエンドトレーニングでは、反復的な数値プロセスを通じてPDEソルバが自動微分をサポートする必要がある。 このような機能は、既存の多くの解決ツールでは簡単には利用できない。 本研究では,ブラックボックスPDEソルバと流体流予測のためのディープラーニングモデルを用いたハイブリッドモデルのエンドツーエンドトレーニングの実現可能性について検討する。 具体的には、ブラックボックスPDEソルバを微分可能なディープグラフニューラルネットワークに統合するハイブリッドモデルについて検討する。 このモデルをトレーニングするために、前向きの伝搬によりPDEソルバを区別するために、ゼロ階勾配推定器を用いる。 実験により, ゼロ階勾配推定に基づく提案手法は, 自動微分を用いた精度の高い微分を演算するベースラインを過小評価することを示したが, 提案手法は, 凍結した入力メッシュを用いて学習したベースラインよりも優れた性能を示した。 さらに、ニューラルネットワークパラメータの簡単なウォームスタートにより、これらのゼロ階アルゴリズムで訓練されたモデルが加速収束を実現し、一般化性能が向上することを示す。

Deep learning has been widely applied to solve partial differential equations (PDEs) in computational fluid dynamics. Recent research proposed a PDE correction framework that leverages deep learning to correct the solution obtained by a PDE solver on a coarse mesh. However, end-to-end training of such a PDE correction model over both solver-dependent parameters such as mesh parameters and neural network parameters requires the PDE solver to support automatic differentiation through the iterative numerical process. Such a feature is not readily available in many existing solvers. In this study, we explore the feasibility of end-to-end training of a hybrid model with a black-box PDE solver and a deep learning model for fluid flow prediction. Specifically, we investigate a hybrid model that integrates a black-box PDE solver into a differentiable deep graph neural network. To train this model, we use a zeroth-order gradient estimator to differentiate the PDE solver via forward propagation. Although experiments show that the proposed approach based on zeroth-order gradient estimation underperforms the baseline that computes exact derivatives using automatic differentiation, our proposed method outperforms the baseline trained with a frozen input mesh to the solver. Moreover, with a simple warm-start on the neural network parameters, we show that models trained by these zeroth-order algorithms achieve an accelerated convergence and improved generalization performance.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-28
# 点雲を用いたシーンフローの攻撃

Attack on Scene Flow using Point Clouds ( http://arxiv.org/abs/2404.13621v2 )

ライセンス: Link先を確認
Haniyeh Ehsani Oskouie, Mohammad-Shahram Moin, Shohreh Kasaei, (参考訳) 深層ニューラルネットワークは、ビデオ分析、アクション認識、ナビゲーションといった多くのアプリケーションにとって不可欠であるポイントクラウドを使用して、シーンフローを正確に推定する上で、大きな進歩を遂げている。 しかし、これらの手法のロバスト性は、特に多くのドメインで最先端のディープニューラルネットワークを騙すことが証明された敵の攻撃に直面して懸念されている。 驚くべきことに、このような攻撃に対するシーンフローネットワークの堅牢性は、十分に調査されていない。 この問題に対処するため,提案手法は,シーンフローネットワークに特化して,敵のホワイトボックス攻撃を導入することで,このギャップを埋めることを目的としている。 実験結果から,KITTIおよびFlyingThings3Dデータセットの平均終点誤差が最大33.7の相対劣化が得られることがわかった。 この研究は、一次元または色チャネルの点雲を標的とする攻撃が、平均的な端点誤差に与える影響も明らかにしている。 シーンフローネットワークとその2次元光フローネットワークの変種に対するこれらの攻撃の成功と失敗を分析すると、光学フローネットワークの脆弱性が高いことが分かる。

Deep neural networks have made significant advancements in accurately estimating scene flow using point clouds, which is vital for many applications like video analysis, action recognition, and navigation. Robustness of these techniques, however, remains a concern, particularly in the face of adversarial attacks that have been proven to deceive state-of-the-art deep neural networks in many domains. Surprisingly, the robustness of scene flow networks against such attacks has not been thoroughly investigated. To address this problem, the proposed approach aims to bridge this gap by introducing adversarial white-box attacks specifically tailored for scene flow networks. Experimental results show that the generated adversarial examples obtain up to 33.7 relative degradation in average end-point error on the KITTI and FlyingThings3D datasets. The study also reveals the significant impact that attacks targeting point clouds in only one dimension or color channel have on average end-point error. Analyzing the success and failure of these attacks on the scene flow networks and their 2D optical flow network variants show a higher vulnerability for the optical flow networks.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-28
# AnyPattern: コンテキスト内のイメージコピー検出を目指す

AnyPattern: Towards In-context Image Copy Detection ( http://arxiv.org/abs/2404.13788v2 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang, (参考訳) 本稿では、画像コピー検出(ICD)のためのコンテキスト内学習、すなわち、追加のトレーニングを必要とせず、新しい改ざんパターンで再現された画像を識別するICDモデルを提案する。 プロンプト(またはコンテキスト)は、新しいパターンを反映し、推論時に使用される小さなイメージとレプリカのペアである。 このようなコンテキスト内ICDは、微調整を必要とせず、その結果、目に見えないパターンの出現に対する迅速な反応を促進するため、現実的な価値が高い。 の一般化シナリオに対応するため、AnyPatternという名の最初の大規模パターンデータセットを構築しました。 我々は、AnyPatternを一般的なICDメソッドでベンチマークし、既存のメソッドが新しいパターンにほとんど一般化しないことを明らかにする。 さらに,ImageStacker というシンプルなインコンテキスト ICD 手法を提案する。 ImageStackerは最も代表的なイメージ-レプリカペアを選択して、(一般的な結合方式ではなく)積み重ね方式でパターンプロンプトとして使用する。 実験結果から,(1)大規模データセットによるトレーニングは,パターンの一般化に大きく貢献する(+26.66 \%$\mu AP$),(2)提案されたImageStackerは,効果的なインコンテキストIDD(同じくラウンドの$+16.75 \%$\mu AP$),(3)AnyPatternはインコンテキストIDDを可能にする。 ICDタスク以外にも、AnyPatternがアーティストにどのような恩恵をもたらすか、すなわち、AnyPatternでトレーニングされたパターン検索方法を一般化して、テキスト・ツー・イメージモデルによってスタイルの模倣を特定することができるかを示す。 このプロジェクトはhttps://anypattern.github.io.comで公開されている。

This paper explores in-context learning for image copy detection (ICD), i.e., prompting an ICD model to identify replicated images with new tampering patterns without the need for additional training. The prompts (or the contexts) are from a small set of image-replica pairs that reflect the new patterns and are used at inference time. Such in-context ICD has good realistic value, because it requires no fine-tuning and thus facilitates fast reaction against the emergence of unseen patterns. To accommodate the "seen $\rightarrow$ unseen" generalization scenario, we construct the first large-scale pattern dataset named AnyPattern, which has the largest number of tamper patterns ($90$ for training and $10$ for testing) among all the existing ones. We benchmark AnyPattern with popular ICD methods and reveal that existing methods barely generalize to novel patterns. We further propose a simple in-context ICD method named ImageStacker. ImageStacker learns to select the most representative image-replica pairs and employs them as the pattern prompts in a stacking manner (rather than the popular concatenation manner). Experimental results show (1) training with our large-scale dataset substantially benefits pattern generalization ($+26.66 \%$ $\mu AP$), (2) the proposed ImageStacker facilitates effective in-context ICD (another round of $+16.75 \%$ $\mu AP$), and (3) AnyPattern enables in-context ICD, i.e., without such a large-scale dataset, in-context learning does not emerge even with our ImageStacker. Beyond the ICD task, we also demonstrate how AnyPattern can benefit artists, i.e., the pattern retrieval method trained on AnyPattern can be generalized to identify style mimicry by text-to-image models. The project is publicly available at https://anypattern.github.io.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-28
# データ拡張によるソーシャルネットワークの予測向上に関する比較研究

A Comparative Study on Enhancing Prediction in Social Network Advertisement through Data Augmentation ( http://arxiv.org/abs/2404.13812v3 )

ライセンス: Link先を確認
Qikai Yang, Panfeng Li, Xinhe Xu, Zhicheng Ding, Wenjing Zhou, Yi Nian, (参考訳) ソーシャルネットワーク広告の世界では、予測モデルのパフォーマンスにおいて、データの量と正確さが重要な役割を担っている。 しかし、堅牢な予測アルゴリズムの開発は、しばしば実世界のデータセットに存在する限られたサイズと潜在的なバイアスによって妨げられる。 本研究では,ソーシャルネットワーク広告データの生成的拡張フレームワークを提示し,検討する。 本稿では,データ拡張のための生成モデルとして,GAN(Generative Adversarial Networks),VAE(VAE),Gaussian Mixture Models(GMM)の3つを検討した。 特徴空間の合成拡張を行うことにより,データ拡張により,様々な分類器の性能が定量的に向上したことがわかった。 さらに,各データ拡張手法がもたらす相対的な性能向上を比較し,モデル性能を向上させる適切なテクニックを選択するための洞察を提供する。 本稿では,ソーシャル・ネットワーク・広告分野において,合成データの増大により,小あるいは不均衡なデータセットによる制限が緩和されることを示すことによって文献に寄与する。 同時に、本論文は、異なるデータ拡張手法の実用性に関する比較視点も提供し、モデル性能を向上させるための適切なテクニックを実践者に選択するよう促す。

In the ever-evolving landscape of social network advertising, the volume and accuracy of data play a critical role in the performance of predictive models. However, the development of robust predictive algorithms is often hampered by the limited size and potential bias present in real-world datasets. This study presents and explores a generative augmentation framework of social network advertising data. Our framework explores three generative models for data augmentation - Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and Gaussian Mixture Models (GMMs) - to enrich data availability and diversity in the context of social network advertising analytics effectiveness. By performing synthetic extensions of the feature space, we find that through data augmentation, the performance of various classifiers has been quantitatively improved. Furthermore, we compare the relative performance gains brought by each data augmentation technique, providing insights for practitioners to select appropriate techniques to enhance model performance. This paper contributes to the literature by showing that synthetic data augmentation alleviates the limitations imposed by small or imbalanced datasets in the field of social network advertising. At the same time, this article also provides a comparative perspective on the practicality of different data augmentation methods, thereby guiding practitioners to choose appropriate techniques to enhance model performance.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-28
# GaussianTalker: 3D Gaussian Splattingによる話者特異的トーキングヘッド合成

GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting ( http://arxiv.org/abs/2404.14037v2 )

ライセンス: Link先を確認
Hongyun Yu, Zhan Qu, Qihang Yu, Jianchuan Chen, Zhonghua Jiang, Zhiwen Chen, Shengyu Zhang, Jimin Xu, Fei Wu, Chengfei Lv, Gang Yu, (参考訳) 近年,Neural Radiance Fields (NeRF) を用いた音声駆動音声頭合成の研究が目覚ましい成果を上げている。 しかし、NeRFの暗黙的表現によって引き起こされるポーズや表現制御が不十分なため、これらの手法には、アンシンクロナイズドや不自然な唇の動き、視覚ジッタや人工物など、いくつかの制限がある。 本稿では,3次元ガウススプラッティングに基づく音声駆動音声ヘッド合成手法であるガウス話者を提案する。 3次元ガウスの明示的な表現特性により、ガウスを3次元顔モデルに結合することで、顔の動きの直感的な制御が達成される。 GaussianTalkerは、話者固有のMotion TranslatorとDynamic Gaussian Rendererの2つのモジュールで構成されている。 話者固有のモーショントランスレータは、汎用音声特徴抽出とカスタマイズされた唇動作生成により、対象話者固有の正確な唇動作を実現する。 Dynamic Gaussian Rendererは、話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化し、安定的でリアルなレンダリングビデオを提供する。 広汎な実験結果から,GaussianTalkerは,音声頭部合成における既存の最先端手法よりも優れ,正確な唇同期と例外的な視覚的品質を実現することが示唆された。 提案手法は,NVIDIA RTX4090 GPU上で130FPSのレンダリング速度を実現し,リアルタイムレンダリング性能のしきい値を大幅に上回り,他のハードウェアプラットフォームにデプロイする可能性がある。

Recent works on audio-driven talking head synthesis using Neural Radiance Fields (NeRF) have achieved impressive results. However, due to inadequate pose and expression control caused by NeRF implicit representation, these methods still have some limitations, such as unsynchronized or unnatural lip movements, and visual jitter and artifacts. In this paper, we propose GaussianTalker, a novel method for audio-driven talking head synthesis based on 3D Gaussian Splatting. With the explicit representation property of 3D Gaussians, intuitive control of the facial motion is achieved by binding Gaussians to 3D facial models. GaussianTalker consists of two modules, Speaker-specific Motion Translator and Dynamic Gaussian Renderer. Speaker-specific Motion Translator achieves accurate lip movements specific to the target speaker through universalized audio feature extraction and customized lip motion generation. Dynamic Gaussian Renderer introduces Speaker-specific BlendShapes to enhance facial detail representation via a latent pose, delivering stable and realistic rendered videos. Extensive experimental results suggest that GaussianTalker outperforms existing state-of-the-art methods in talking head synthesis, delivering precise lip synchronization and exceptional visual quality. Our method achieves rendering speeds of 130 FPS on NVIDIA RTX4090 GPU, significantly exceeding the threshold for real-time rendering performance, and can potentially be deployed on other hardware platforms.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-28
# 単語順変化におけるエントロピー最小化を超えるスワップ距離最小化

Swap distance minimization beyond entropy minimization in word order variation ( http://arxiv.org/abs/2404.14192v2 )

ライセンス: Link先を確認
Víctor Franco-Sánchez, Arnau Martí-Llobet, Ramon Ferrer-i-Cancho, (参考訳) 例えば、主語、直接目的語、動詞(n=3$)、または主語、直接目的語、間接目的語、動詞(n=4$)などである。 我々は$nの頻度を調べます! 可能な命令は2つの原則によって制限される。 まず、エントロピーの最小化(エントロピーの最小化)は、異なるレベルの組織で自然なコミュニケーションシステムを形成することが提案されている原則である。 第二に、スワップ距離の最小化(スワップ距離の最小化)、すなわちソースオーダーから生成される隣接要素のスワップを少なくするワードオーダーの好みである。 ここでは、スワップ距離最小化の研究のための新しいスコアである平均スワップ距離を提示し、その値の最小値と最大値、ダイリング実験における期待値、あるいは単語順の周波数がシャッフルされた場合の理論的分布について検討する。 エントロピーと平均スワップ距離は、対応する最小化原理と一致する$n=3$または$n=4$の異なる言語構造において著しく小さいかを検討する。 転がり実験に関してエントロピーの最小化とスワップ距離の最小化の強い証拠を見出した。 ポリア urn 過程に関するこれらの2つの力の証拠は、$n=4$に対して強いが、$n=3$ではより弱い。 単語順の周波数がシャッフルされた場合,スワップ距離最小化効果は,単語順エントロピーを最小化するために,圧力を超えていることを示す。

Here we consider the problem of all the possible orders of a linguistic structure formed by $n$ elements, for instance, subject, direct object and verb ($n=3$) or subject, direct object, indirect object and verb ($n=4$). We investigate if the frequency of the $n!$ possible orders is constrained by two principles. First, entropy minimization, a principle that has been suggested to shape natural communication systems at distinct levels of organization. Second, swap distance minimization, namely a preference for word orders that require fewer swaps of adjacent elements to be produced from a source order. Here we present average swap distance, a novel score for research on swap distance minimization, and investigate the theoretical distribution of that score for any $n$: its minimum and maximum values and its expected value in die rolling experiments or when the word order frequencies are shuffled. We investigate whether entropy and average swap distance are significantly small in distinct linguistic structures with $n=3$ or $n=4$ in agreement with the corresponding minimization principles. We find strong evidence of entropy minimization and swap distance minimization with respect to a die rolling experiment. The evidence of these two forces with respect to a Polya urn process is strong for $n=4$ but weaker for $n=3$. We still find evidence of swap distance minimization when word order frequencies are shuffled, indicating that swap distance minimization effects are beyond pressure to minimize word order entropy.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-28
# MLQAOA: グラフ学習によるハイブリッド量子-古典的マルチレベルQAOA

MLQAOA: Graph Learning Accelerated Hybrid Quantum-Classical Multilevel QAOA ( http://arxiv.org/abs/2404.14399v2 )

ライセンス: Link先を確認
Bao Bach, Jose Falla, Ilya Safro, (参考訳) 複数のレベルの粗度で問題構造を学習し、分解に基づくハイブリッド量子古典的組合せ最適化器を知らせることは、変分アプローチのスケールアップに有望なアプローチである。 スペクトルグラフ表現学習型加速器で強化されたマルチレベルアルゴリズムを導入し、大規模グラフの最大カットインスタンスに対処し、量子近似最適化アルゴリズム(QAOA)とQAOAにインスパイアされたアルゴリズムの複数バージョンを融合する。 グラフ表現学習モデルは,QAOA変動パラメータ濃度の考え方を利用して,QAOAの性能を大幅に向上させる。 より高速な時間で高品質なソリューションを実現することにより,多段階のQAOAと,非常に大きなグラフに対する表現学習に基づくアプローチの可能性を実証する。 再現性:私たちのソースコードと結果はhttps://github.com/bachbao/MLQAOAで公開されています。

Learning the problem structure at multiple levels of coarseness to inform the decomposition-based hybrid quantum-classical combinatorial optimization solvers is a promising approach to scaling up variational approaches. We introduce a multilevel algorithm reinforced with the spectral graph representation learning-based accelerator to tackle large-scale graph maximum cut instances and fused with several versions of the quantum approximate optimization algorithm (QAOA) and QAOA-inspired algorithms. The graph representation learning model utilizes the idea of QAOA variational parameters concentration and substantially improves the performance of QAOA. We demonstrate the potential of using multilevel QAOA and representation learning-based approaches on very large graphs by achieving high-quality solutions in a much faster time. Reproducibility: Our source code and results are available at https://github.com/bachbao/MLQAOA
翻訳日:2024-04-30 20:29:37 公開日:2024-04-28
# 継続的学習のためのニューラルネットワークの再検討:アーキテクチャ的視点

Revisiting Neural Networks for Continual Learning: An Architectural Perspective ( http://arxiv.org/abs/2404.14829v3 )

ライセンス: Link先を確認
Aojun Lu, Tao Feng, Hangjie Yuan, Xiaotian Song, Yanan Sun, (参考訳) 破滅的な忘れを克服する努力は、主により効果的な継続的学習(CL)手法の開発に焦点を当ててきた。 対照的に、CLへの貢献におけるネットワークアーキテクチャ設計(例えば、ネットワーク深さ、幅、コンポーネント)の役割を分析することにはあまり注意が払われなかった。 本稿では,ネットワークアーキテクチャ設計とCLのこのギャップを埋めることと,ネットワークアーキテクチャがCLに与える影響に関する総合的研究を提案する。 この研究は、ネットワークスケーリングレベルでのアーキテクチャ設計、すなわち幅と深さ、およびネットワークコンポーネント、すなわち接続のスキップ、グローバルプール層、ダウンサンプリングについても検討している。 どちらの場合も、アーキテクチャ設計がCLにどのように影響するかを体系的に検討することで、まず洞察を導き出します。 そして、これらの知見に基づいて、CLのための特別な検索スペースを構築し、CLフレンドリーなアーキテクチャ、すなわちこのメソッドがAlexNet/ResNetをAlexAC/ResACに再構成する、シンプルで効果的なArchCraftメソッドを提案する。 さまざまなCL設定やシナリオに対する実験的検証では、改善されたアーキテクチャはパラメータ効率が高く、タスクILやクラスILの単純なCLアーキテクチャよりも86%、61%、97%コンパクトである。 コードはhttps://github.com/byyx666/ArchCraft.comで入手できる。

Efforts to overcome catastrophic forgetting have primarily centered around developing more effective Continual Learning (CL) methods. In contrast, less attention was devoted to analyzing the role of network architecture design (e.g., network depth, width, and components) in contributing to CL. This paper seeks to bridge this gap between network architecture design and CL, and to present a holistic study on the impact of network architectures on CL. This work considers architecture design at the network scaling level, i.e., width and depth, and also at the network components, i.e., skip connections, global pooling layers, and down-sampling. In both cases, we first derive insights through systematically exploring how architectural designs affect CL. Then, grounded in these insights, we craft a specialized search space for CL and further propose a simple yet effective ArchCraft method to steer a CL-friendly architecture, namely, this method recrafts AlexNet/ResNet into AlexAC/ResAC. Experimental validation across various CL settings and scenarios demonstrates that improved architectures are parameter-efficient, achieving state-of-the-art performance of CL while being 86%, 61%, and 97% more compact in terms of parameters than the naive CL architecture in Task IL and Class IL. Code is available at https://github.com/byyx666/ArchCraft.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-28
# GSM8K で >97% を獲得 - 問題を深く理解することで LLM の共振器の改善

Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Reasoners ( http://arxiv.org/abs/2404.14963v2 )

ライセンス: Link先を確認
Qihuang Zhong, Kang Wang, Ziyang Xu, Juhua Liu, Liang Ding, Bo Du, Dacheng Tao, (参考訳) The Chain of Thought prompting strategy has enhance the performance of Large Language Models (LLMs) across various NLP task。 しかしながら、複雑な推論タスクを扱う際には、エラーの理解、計算エラー、プロセスエラー(例えば、欠落したステップや幻覚)などの欠点がある。 その後、様々なエラータイプについて詳細な分析を行い、複雑な推論タスクに対処する上で、問題全体を深く理解することが重要であることを示した。 そこで本研究では,LLMの推論能力を高めるために,DUP (Deeply Understanding the Problems) というシンプルな手法を提案する。 提案手法の核心は, LLMが問題を深く理解し, 重要な問題解決情報を活用し, より良い推論を行うことである。 10種類の多変量推論ベンチマークによる大規模な実験により、我々のDUP法は、他の手法よりもずっと優れています。 さらに奨励的に、DUPはGSM8Kベンチマークで新しいSOTA結果を達成する。

Chain of Thought prompting strategy has enhanced the performance of Large Language Models (LLMs) across various NLP tasks. However, it still has shortcomings when dealing with complex reasoning tasks, including understanding errors, calculation errors and process errors (e.g., missing-step and hallucinations). Subsequently, our in-depth analyses among various error types show that deeply understanding the whole problem is critical in addressing complicated reasoning tasks. Motivated by this, we propose a simple-yet-effective method, namely Deeply Understanding the Problems (DUP), to enhance the LLMs' reasoning abilities. The core of our method is to encourage the LLMs to deeply understand the problems and leverage the key problem-solving information for better reasoning. Extensive experiments on 10 diverse reasoning benchmarks show that our DUP method consistently outperforms the other counterparts by a large margin. More encouragingly, DUP achieves a new SOTA result on the GSM8K benchmark, with an accuracy of 97.1% in a zero-shot setting.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-28
# 分散マルチUAV支援マルチアクティブIRSによる指向性変調ネットワークのためのマルチストリーム伝送

Multi-stream Transmission for Directional Modulation Network via Distributed Multi-UAV-aided Multi-active-IRS ( http://arxiv.org/abs/2404.15297v2 )

ライセンス: Link先を確認
Ke Yang, Rongen Dong, Wei Gao, Feng Shu, Weiping Shi, Yan Wang, Xuehui Wang, Jiangzhou Wang, (参考訳) アクティブ・インテリジェント・リフレクション・サーフェス(IRS)は将来の6Gネットワークの革命的な技術である。 従来の遠距離単体IRS支援指向変調(DM)ネットワークは1(直接経路なし)または2(既存の直接経路なし)自由度(DoFs)しか持たない。 これは、基地局から利用者に同時に送信されるストリームは1つか2つしかないことを意味し、IRSが達成したレートゲインを著しく制限する。 DM用に2つ以上のDoFを作るには? 本稿では,1つの大規模IRSを複数の小型IRSに分割し,複数の無人航空機(UAV)を介して複数の小型IRSを分散配置するDoF($K$$$\geq3$)を作成することで,ポイントツーポイントマルチストリーム伝送を実現するために,新しいマルチIRS支援マルチストリームDMネットワークを提案する。 NSP-ZF-PAと呼ばれるビームフォーミングベクトル、受信ビームフォーミングベクトル、位相シフト行列(PSM)を設計するために、ヌル空間投影、ゼロフォース(ZF)、位相アライメントを採用する。 ここでは、$K$ PSM とその対応するビームフォーミングベクトルは独立に最適化される。 重み付き最小平均二乗誤差(WMMSE)アルゴリズムはIRSの電力制約を導入することで最適化変数の繰り返しを交互に行う。 計算複雑性を抑えるために、最大トレース法であるMax-TR-SVDを提案し、全てのIRSのPSMを最適化する。 数値シミュレーションの結果,提案したNSP-ZF-PAはMax-TR-SVDよりも高い性能を示した。 特に16個の小IRSのNSP-ZF-PAの割合は、すべての小IRSを1つの大きなIRSとして組み合わせることで、NSP-ZF-PAの約5倍である。 したがって、劇的な速度向上は複数の分散IRSによって達成される。

Active intelligent reflecting surface (IRS) is a revolutionary technique for the future 6G networks. The conventional far-field single-IRS-aided directional modulation(DM) networks have only one (no direct path) or two (existing direct path) degrees of freedom (DoFs). This means that there are only one or two streams transmitted simultaneously from base station to user and will seriously limit its rate gain achieved by IRS. How to create multiple DoFs more than two for DM? In this paper, single large-scale IRS is divided to multiple small IRSs and a novel multi-IRS-aided multi-stream DM network is proposed to achieve a point-to-point multi-stream transmission by creating $K$ ($\geq3$) DoFs, where multiple small IRSs are placed distributively via multiple unmanned aerial vehicles (UAVs). The null-space projection, zero-forcing (ZF) and phase alignment are adopted to design the transmit beamforming vector, receive beamforming vector and phase shift matrix (PSM), respectively, called NSP-ZF-PA. Here, $K$ PSMs and their corresponding beamforming vectors are independently optimized. The weighted minimum mean-square error (WMMSE) algorithm is involved in alternating iteration for the optimization variables by introducing the power constraint on IRS, named WMMSE-PC, where the majorization-minimization (MM) algorithm is used to solve the total PSM. To achieve a lower computational complexity, a maximum trace method, called Max-TR-SVD, is proposed by optimize the PSM of all IRSs. Numerical simulation results has shown that the proposed NSP-ZF-PA performs much better than Max-TR-SVD in terms of rate. In particular, the rate of NSP-ZF-PA with sixteen small IRSs is about five times that of NSP-ZF-PA with combining all small IRSs as a single large IRS. Thus, a dramatic rate enhancement may be achieved by multiple distributed IRSs.
翻訳日:2024-04-30 20:29:36 公開日:2024-04-28
# エネルギーネットワークのためのマルチエージェント強化学習:計算問題、進展とオープン問題

Multi-Agent Reinforcement Learning for Energy Networks: Computational Challenges, Progress and Open Problems ( http://arxiv.org/abs/2404.15583v2 )

ライセンス: Link先を確認
Sarah Keren, Chaimaa Essayeh, Stefano V. Albrecht, Thomas Mortsyn, (参考訳) 急速に変化する電気ネットワークのアーキテクチャと機能、および再生可能および分散エネルギー資源の浸透が、様々な技術的および管理上の課題を引き起こしている。 これらは、ネットワークの動的で進化的な性質をサポートすることができないため、伝統的な中央集権的なエネルギー市場パラダイムを不十分にしている。 本調査では,マルチエージェント強化学習(MARL)がエネルギーネットワークの分散化と脱炭を支援し,関連する課題を軽減する方法について検討する。 これは、エネルギーネットワークの管理における重要な計算上の課題を特定し、それらに対処する最近の研究の進捗をレビューし、MARLを使って対処する可能性のあるオープンな課題を強調することで達成される。

The rapidly changing architecture and functionality of electrical networks and the increasing penetration of renewable and distributed energy resources have resulted in various technological and managerial challenges. These have rendered traditional centralized energy-market paradigms insufficient due to their inability to support the dynamic and evolving nature of the network. This survey explores how multi-agent reinforcement learning (MARL) can support the decentralization and decarbonization of energy networks and mitigate the associated challenges. This is achieved by specifying key computational challenges in managing energy networks, reviewing recent research progress on addressing them, and highlighting open challenges that may be addressed using MARL.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-28
# 実世界の課題から分類した協調知覚の中間融合法に関する調査研究

A Survey on Intermediate Fusion Methods for Collaborative Perception Categorized by Real World Challenges ( http://arxiv.org/abs/2404.16139v2 )

ライセンス: Link先を確認
Melih Yazgan, Thomas Graf, Min Liu, Tobias Fleck, J. Marius Zoellner, (参考訳) 本研究は、現実の課題によって分類された自律運転の協調認識における中間核融合手法を解析する。 様々な手法について検討し,その特徴と採用した評価指標について詳述する。 その焦点は、送信効率、ローカライゼーションエラー、通信障害、異質性といった課題に対処することにある。 さらに、敵の攻撃や防衛に対抗するための戦略や、ドメインシフトに適応するためのアプローチについても検討する。 本研究の目的は, 自律運転における協調的認識の分野を前進させる上で, 中間核融合法が果たす役割を明らかにすることである。

This survey analyzes intermediate fusion methods in collaborative perception for autonomous driving, categorized by real-world challenges. We examine various methods, detailing their features and the evaluation metrics they employ. The focus is on addressing challenges like transmission efficiency, localization errors, communication disruptions, and heterogeneity. Moreover, we explore strategies to counter adversarial attacks and defenses, as well as approaches to adapt to domain shifts. The objective is to present an overview of how intermediate fusion methods effectively meet these diverse challenges, highlighting their role in advancing the field of collaborative perception in autonomous driving.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-28
# 高度なAIアシスタントの倫理

The Ethics of Advanced AI Assistants ( http://arxiv.org/abs/2404.16244v2 )

ライセンス: Link先を確認
Iason Gabriel, Arianna Manzini, Geoff Keeling, Lisa Anne Hendricks, Verena Rieser, Hasan Iqbal, Nenad Tomašev, Ira Ktena, Zachary Kenton, Mikel Rodriguez, Seliem El-Sayed, Sasha Brown, Canfer Akbulut, Andrew Trask, Edward Hughes, A. Stevie Bergman, Renee Shelby, Nahema Marchal, Conor Griffin, Juan Mateos-Garcia, Laura Weidinger, Winnie Street, Benjamin Lange, Alex Ingerman, Alison Lentz, Reed Enger, Andrew Barakat, Victoria Krakovna, John Oliver Siy, Zeb Kurth-Nelson, Amanda McCroskery, Vijay Bolina, Harry Law, Murray Shanahan, Lize Alberts, Borja Balle, Sarah de Haas, Yetunde Ibitoye, Allan Dafoe, Beth Goldberg, Sébastien Krier, Alexander Reese, Sims Witherspoon, Will Hawkins, Maribeth Rauh, Don Wallace, Matija Franklin, Josh A. Goldstein, Joel Lehman, Michael Klenk, Shannon Vallor, Courtney Biles, Meredith Ringel Morris, Helen King, Blaise Agüera y Arcas, William Isaac, James Manyika, (参考訳) 本稿では,高度AIアシスタントがもたらす倫理的・社会的リスクについて論じる。 我々は、先進的なAIアシスタントを自然言語インタフェースを備えた人工知能エージェントとして定義し、ユーザに代わって、1つ以上のドメインにわたって、ユーザの期待に応えてアクションのシーケンスを計画および実行することが機能する。 この論文は、AIアシスタント、その技術基盤、潜在的な応用範囲の概要を提供する、技術自体を考えることから始まる。 そして、AIの価値アライメント、幸福、安全、悪意のある使用に関する質問を探索する。 次に、高度なAIアシスタントと個人ユーザとの関係をさらに詳細に検討し、操作や説得、人為性、適切な関係、信頼、プライバシといったトピックを探求する。 この分析によって、高度なアシスタントの社会規模での展開を考慮し、協力、株式とアクセス、誤情報、経済的影響、環境、先進的なAIアシスタントの評価方法に焦点をあてる。 最後に、研究者、開発者、政策立案者、および公共ステークホルダーに対して、さまざまなレコメンデーションを提供することで締めくくります。

This paper focuses on the opportunities and the ethical and societal risks posed by advanced AI assistants. We define advanced AI assistants as artificial agents with natural language interfaces, whose function is to plan and execute sequences of actions on behalf of a user, across one or more domains, in line with the user's expectations. The paper starts by considering the technology itself, providing an overview of AI assistants, their technical foundations and potential range of applications. It then explores questions around AI value alignment, well-being, safety and malicious uses. Extending the circle of inquiry further, we next consider the relationship between advanced AI assistants and individual users in more detail, exploring topics such as manipulation and persuasion, anthropomorphism, appropriate relationships, trust and privacy. With this analysis in place, we consider the deployment of advanced assistants at a societal scale, focusing on cooperation, equity and access, misinformation, economic impact, the environment and how best to evaluate advanced AI assistants. Finally, we conclude by providing a range of recommendations for researchers, developers, policymakers and public stakeholders.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-28
# ReZero: ジャストインタイムとスピーディーリアナライズによるMCTSベースのアルゴリズムの強化

ReZero: Boosting MCTS-based Algorithms by Just-in-Time and Speedy Reanalyze ( http://arxiv.org/abs/2404.16364v2 )

ライセンス: Link先を確認
Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Yu Liu, Jing Yang, (参考訳) MuZeroなどのMCTSベースのアルゴリズムは、様々な意思決定領域で広く成功している。 これらのアルゴリズムは、ウォールタイムの時間消費を犠牲にして、サンプル効率を高めるために再分析プロセスを採用している。 そこで本研究では,MCTSに基づくアルゴリズムの高速化を目的としたReZeroという手法を提案する。 具体的には,データ収集と再解析を簡略化し,検索コストを大幅に削減し,性能も保証する新しい手法を提案する。 さらに,各探索過程を高速化するために,軌跡内のその後の情報を再利用する手法を提案する。 また, バンディットモデルを用いた解析により, 設計の補助的理論的サブストラテレーションも実現した。 アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。 コードは、https://github.com/opendilab/LightZeroのLightZeroベンチマークの一部として利用できる。

MCTS-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost MCTS-based algorithms. Specifically, we propose a new scheme that simplifies data collecting and reanalyzing, which significantly reduces the search cost while guarantees the performance as well. Furthermore, to accelerate each search process, we conceive a method to reuse the subsequent information in the trajectory. The corresponding analysis conducted on the bandit model also provides auxiliary theoretical substantiation for our design. Experiments conducted on Atari environments and board games demonstrates that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero benchmark at https://github.com/opendilab/LightZero.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-28
# PhyRecon: 物理的に可塑性のニューラルシーン再構築

PhyRecon: Physically Plausible Neural Scene Reconstruction ( http://arxiv.org/abs/2404.16666v2 )

ライセンス: Link先を確認
Junfeng Ni, Yixin Chen, Bohan Jing, Nan Jiang, Bin Wang, Bo Dai, Yixin Zhu, Song-Chun Zhu, Siyuan Huang, (参考訳) ニューラルな暗黙の表現は多視点の3D再構成で人気を得ているが、これまでの作業は物理的に妥当な結果を得るのに苦労しているため、エンボディドAIやロボティクスといった物理要求の領域での応用は制限されている。 妥当性の欠如は、既存のパイプラインにおける物理モデリングの欠如と、複雑な幾何学的構造を回復できないことが原因である。 本稿では、微分可能なレンダリングと微分可能な物理シミュレーションを併用し、暗黙的な表面表現を学習する最初のアプローチであるPhyReconを紹介する。 本フレームワークは,ニューラル暗黙表現とシームレスに統合された,新しい微分可能なパーティクルベース物理シミュレータを提案する。 その中核は、SDFに基づく暗黙の表現と、提案したアルゴリズムであるSurface Points Marching Cubes (SP-MC)による明示的な表面点との効率的な変換であり、レンダリングと物理的損失の両方で微分可能な学習を可能にする。 さらに,不整合および不整合な単色幾何学的先行を識別・補償するために,レンダリングと物理的不確実性の両方をモデル化する。 この物理的不確実性により、物理誘導された画素サンプリングにより、細い構造の学習が促進される。 これらの手法をマージすることにより, 外観, 幾何学, 物理を併用した効率的な関節モデルの構築が促進される。 大規模な実験により、PhyReconは再建の質という点で最先端の手法を著しく上回っていることが示された。 我々の再構成結果は、Isaac Gym氏によって検証され、すべてのデータセットで少なくとも40%改善され、将来の物理学ベースのアプリケーションのための幅広い道を開く。

While neural implicit representations have gained popularity in multi-view 3D reconstruction, previous work struggles to yield physically plausible results, thereby limiting their applications in physics-demanding domains like embodied AI and robotics. The lack of plausibility originates from both the absence of physics modeling in the existing pipeline and their inability to recover intricate geometrical structures. In this paper, we introduce PhyRecon, which stands as the first approach to harness both differentiable rendering and differentiable physics simulation to learn implicit surface representations. Our framework proposes a novel differentiable particle-based physical simulator seamlessly integrated with the neural implicit representation. At its core is an efficient transformation between SDF-based implicit representation and explicit surface points by our proposed algorithm, Surface Points Marching Cubes (SP-MC), enabling differentiable learning with both rendering and physical losses. Moreover, we model both rendering and physical uncertainty to identify and compensate for the inconsistent and inaccurate monocular geometric priors. The physical uncertainty additionally enables a physics-guided pixel sampling to enhance the learning of slender structures. By amalgamating these techniques, our model facilitates efficient joint modeling with appearance, geometry, and physics. Extensive experiments demonstrate that PhyRecon significantly outperforms all state-of-the-art methods in terms of reconstruction quality. Our reconstruction results also yield superior physical stability, verified by Isaac Gym, with at least a 40% improvement across all datasets, opening broader avenues for future physics-based applications.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-28
# 拡散モデルを用いたテキスト画像の不整合の抽出

Exposing Text-Image Inconsistency Using Diffusion Models ( http://arxiv.org/abs/2404.18033v1 )

ライセンス: Link先を確認
Mingzhen Huang, Shan Jia, Zhou Zhou, Yan Ju, Jialing Cai, Siwei Lyu, (参考訳) 広範囲にわたるオンライン誤報との戦いにおいて、増大する問題は、画像が異なる意図や意味を持つテキストと誤解を招くような、テキストイメージの不整合である。 既存の分類に基づくテキスト画像の不整合の手法は、文脈的不整合を識別できるが、人間が理解できる判断に対する説明可能な正当化は提供できない。 よりニュアンスが高いが、人間の評価はスケールでは実用的ではなく、エラーの影響を受けやすい。 これらの制約に対処するため,D-TIIL (Diffusion-based Text-Image Inconsistency Localization) を導入し,テキストと画像のペア間の意味的不整合を局所化する。 大規模なデータセットに基づいてトレーニングされたこれらのモデルは、無関係な情報をフィルタリングし、不整合を識別するために背景知識を組み込む、 ‘omniscient’エージェントとして機能する。 さらに、D-TIILはテキスト埋め込みと修正された画像領域を使用して、これらの矛盾を可視化する。 D-TIILの有効性を評価するために、14Kの一貫性と一貫性のないテキストイメージペアを含む新しいTIILデータセットを提案する。 既存のデータセットとは異なり、TIILは個々の単語や画像領域のレベルでの評価を可能にし、様々な矛盾を表現するために慎重に設計されている。 D-TIILは、テキストイメージの不整合を識別し、ローカライズするためのスケーラブルでエビデンスに基づくアプローチを提供し、将来の情報と戦うための堅牢なフレームワークを提供する。

In the battle against widespread online misinformation, a growing problem is text-image inconsistency, where images are misleadingly paired with texts with different intent or meaning. Existing classification-based methods for text-image inconsistency can identify contextual inconsistencies but fail to provide explainable justifications for their decisions that humans can understand. Although more nuanced, human evaluation is impractical at scale and susceptible to errors. To address these limitations, this study introduces D-TIIL (Diffusion-based Text-Image Inconsistency Localization), which employs text-to-image diffusion models to localize semantic inconsistencies in text and image pairs. These models, trained on large-scale datasets act as ``omniscient" agents that filter out irrelevant information and incorporate background knowledge to identify inconsistencies. In addition, D-TIIL uses text embeddings and modified image regions to visualize these inconsistencies. To evaluate D-TIIL's efficacy, we introduce a new TIIL dataset containing 14K consistent and inconsistent text-image pairs. Unlike existing datasets, TIIL enables assessment at the level of individual words and image regions and is carefully designed to represent various inconsistencies. D-TIIL offers a scalable and evidence-based approach to identifying and localizing text-image inconsistency, providing a robust framework for future research combating misinformation.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-28
# 量子回路のマルチステージ透かし

Multi-Stage Watermarking for Quantum Circuits ( http://arxiv.org/abs/2404.18038v1 )

ライセンス: Link先を確認
Min Yang, Xiaolong Guo, Lei Jiang, (参考訳) 量子コンピューティングは、暗号、化学、機械学習など、様々な領域にまたがる現代の複雑な問題の解決を著しく前進させる、急成長する計算パラダイムである。 特定の問題に対処するために設計された量子回路は、量子コンピューティング企業の重要な知的特性(IP)として登場し、量子コンピューティングの商業的価値の増大に寄与している。 そのため、量子回路の透かし方式の設計は、悪意あるエンティティが不正な回路レプリカを生産し、違法に市場中に拡散することを防ぐために不可欠となる。 残念なことに、ユニタリ行列分解に依存する一般的な透かし技術は、2ビットゲートの数と回路深さを著しく膨らませ、検出可能なシグネチャを対応するユニタリ行列に埋め込む際に、透かし回路の忠実さを損なう。 本稿では, 量子回路における新しいマルチステージ透かし方式を提案する。 最先端の透かし技術と比較すると, 平均2ビットゲートの数が16倍, 回路深さが6倍に減少し, 透かし回路の忠実度が8倍に増加し, 79.4倍の低確率なオーサシップ証明が達成された。

Quantum computing represents a burgeoning computational paradigm that significantly advances the resolution of contemporary intricate problems across various domains, including cryptography, chemistry, and machine learning. Quantum circuits tailored to address specific problems have emerged as critical intellectual properties (IPs) for quantum computing companies, attributing to the escalating commercial value of quantum computing. Consequently, designing watermarking schemes for quantum circuits becomes imperative to thwart malicious entities from producing unauthorized circuit replicas and unlawfully disseminating them within the market. Unfortunately, the prevailing watermarking technique reliant on unitary matrix decomposition markedly inflates the number of 2-qubit gates and circuit depth, thereby compromising the fidelity of watermarked circuits when embedding detectable signatures into the corresponding unitary matrices. In this paper, we propose an innovative multi-stage watermarking scheme for quantum circuits, introducing additional constraints across various synthesis stages to validate the ownership of IPs. Compared to the state-of-the-art watermarking technique, our multi-stage watermarking approach demonstrates, on average, a reduction in the number of 2-qubit gates by 16\% and circuit depth by 6\%, alongside an increase in the fidelity of watermarked circuits by 8\%, while achieving a 79.4\% lower probabilistic proof of authorship.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-28
# Fashion Recommendation: GNNを用いたアウトフィット適合性

Fashion Recommendation: Outfit Compatibility using GNN ( http://arxiv.org/abs/2404.18040v1 )

ライセンス: Link先を確認
Samaksh Gulati, (参考訳) 多くの産業が機械学習の恩恵を受けており、産業におけるファッションも例外ではない。 良い服を何にするかをよりよく理解することで、企業はユーザーに有用な製品レコメンデーションを提供することができる。 このプロジェクトでは、グラフを使用して衣装を表現し、Graph Neural Network(GNN)フレームワークの修正版を使用する、既存の2つのアプローチに従います。 ノードワイズグラフニューラルネットワーク(NGNN)とハイパーグラフニューラルネットワーク(Hypergraph Neural Network)はどちらも、アイテムの配置互換性に応じてアイテムのセットをスコアすることを目的としている。 使用されるデータはPolyvore Dataset(ポリボア・データセット)である。 このデータのサブセットの分析を再現し、2つのタスクで既存の2つのモデルを比較します。 空白(FITB:Fill in the empty) – 衣装を完成させるアイテムを見つけ出し、適合性予測: 衣装としてグループ化されたさまざまなアイテムの互換性を推定します。 結果の方向を再現して,HGNNが両方のタスクで若干パフォーマンスが向上していることを確認することができます。 2つの論文の結果を複製する上で、視覚変換器から生成された埋め込みと、ボード全体の予測精度の向上を目撃する試みを行った。

Numerous industries have benefited from the use of machine learning and fashion in industry is no exception. By gaining a better understanding of what makes a good outfit, companies can provide useful product recommendations to their users. In this project, we follow two existing approaches that employ graphs to represent outfits and use modified versions of the Graph neural network (GNN) frameworks. Both Node-wise Graph Neural Network (NGNN) and Hypergraph Neural Network aim to score a set of items according to the outfit compatibility of items. The data used is the Polyvore Dataset which consists of curated outfits with product images and text descriptions for each product in an outfit. We recreate the analysis on a subset of this data and compare the two existing models on their performance on two tasks Fill in the blank (FITB): finding an item that completes an outfit, and Compatibility prediction: estimating compatibility of different items grouped as an outfit. We can replicate the results directionally and find that HGNN does have a slightly better performance on both tasks. On top of replicating the results of the two papers we also tried to use embeddings generated from a vision transformer and witness enhanced prediction accuracy across the board
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 深部生成ネットワークを用いた量子問題の変分最適化

Variational Optimization for Quantum Problems using Deep Generative Networks ( http://arxiv.org/abs/2404.18041v1 )

ライセンス: Link先を確認
Lingxia Zhang, Xiaodie Lin, Peidong Wang, Kaiyan Yang, Xiao Zeng, Zhaohui Wei, Zizhu Wang, (参考訳) 最適化は現代科学と工学のキーストーンの1つだ。 その量子技術と機械学習への応用は、それぞれ変分量子アルゴリズムと生成AIを育むのに役立った。 本稿では,変分生成最適化ネットワーク(VGON)という,生成モデルに基づく変分最適化アルゴリズムの設計手法を提案する。 広範に適用可能性を示すために、VGONを3つの量子タスクに適用する: 絡み込み検出プロトコルの最良の状態を見つける、変分量子回路を持つ1次元量子スピンモデルの基底状態を見つける、多体量子ハミルトンの退化基底状態を生成する。 最初のタスクでは、VGONは、ほぼ最適な量子状態を生成しながら、確率勾配降下と比較して、最適化時間を大幅に短縮する。 2つ目の課題として、VGONは変分量子回路におけるバレンプラトー問題を緩和する。 最終作業のために、VGONは訓練の単一段階の後に退化した基底状態空間を識別し、そこで様々な状態を生成する。

Optimization is one of the keystones of modern science and engineering. Its applications in quantum technology and machine learning helped nurture variational quantum algorithms and generative AI respectively. We propose a general approach to design variational optimization algorithms based on generative models: the Variational Generative Optimization Network (VGON). To demonstrate its broad applicability, we apply VGON to three quantum tasks: finding the best state in an entanglement-detection protocol, finding the ground state of a 1D quantum spin model with variational quantum circuits, and generating degenerate ground states of many-body quantum Hamiltonians. For the first task, VGON greatly reduces the optimization time compared to stochastic gradient descent while generating nearly optimal quantum states. For the second task, VGON alleviates the barren plateau problem in variational quantum circuits. For the final task, VGON can identify the degenerate ground state spaces after a single stage of training and generate a variety of states therein.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 大規模言語モデルを用いた不動産取引情報抽出

Utilizing Large Language Models for Information Extraction from Real Estate Transactions ( http://arxiv.org/abs/2404.18043v1 )

ライセンス: Link先を確認
Yu Zhao, Haoxiang Gao, (参考訳) 不動産販売契約には不動産取引の重要な情報が含まれているが、データの手作業による抽出には時間がかかり、エラーが発生しやすい。 本稿では,大規模言語モデル,特にトランスフォーマーアーキテクチャの不動産契約からの自動情報抽出への応用について検討する。 本稿では,これらのモデルを活用した不動産契約分析の効率化と精度向上に向けた課題,手法,今後の方向性について論じる。

Real estate sales contracts contain crucial information for property transactions, but manual extraction of data can be time-consuming and error-prone. This paper explores the application of large language models, specifically transformer-based architectures, for automated information extraction from real estate contracts. We discuss challenges, techniques, and future directions in leveraging these models to improve efficiency and accuracy in real estate contract analysis.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# Kcache を用いた効率的な LLM 推論

Efficient LLM Inference with Kcache ( http://arxiv.org/abs/2404.18057v1 )

ライセンス: Link先を確認
Qiaozhi He, Zhihua Wu, (参考訳) 大規模言語モデル(LLM)は、特に長文理解と生成の領域において、AIアプリケーションに大きな影響を与えている。 KVキャッシュ技術は業界で最も広く使われている技術の一つである。 前に計算されたKV状態をキャッシュすることで、効率的なシーケンス生成を保証する。 しかし、大きなメモリオーバーヘッドも導入されている。 我々は、KVキャッシュは必要ないことを発見し、LLMの推論プロセスにおけるメモリボトルネック問題を軽減するために、新しいKCache手法を提案した。 我々の評価では、KCacheはベースラインを正確に保ちながら、人気のあるLLMのスループットを40%向上させています。

Large Language Models(LLMs) have had a profound impact on AI applications, particularly in the domains of long-text comprehension and generation. KV Cache technology is one of the most widely used techniques in the industry. It ensures efficient sequence generation by caching previously computed KV states. However, it also introduces significant memory overhead. We discovered that KV Cache is not necessary and proposed a novel KCache technique to alleviate the memory bottleneck issue during the LLMs inference process. KCache can be used directly for inference without any training process, Our evaluations show that KCache improves the throughput of popular LLMs by 40% with the baseline, while keeping accuracy.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# ビデオ符号化における共同参照フレーム合成とポストフィルタの強化

Joint Reference Frame Synthesis and Post Filter Enhancement for Versatile Video Coding ( http://arxiv.org/abs/2404.18058v1 )

ライセンス: Link先を確認
Weijie Bao, Yuantong Zhang, Jianghao Jia, Zhenzhong Chen, Shan Liu, (参考訳) 本稿では、VVCの階層的双方向符号化構造をよりよく活用するために、異なるニューラルネットワークベースのビデオ符号化(NNVC)ツールの組み合わせを検討することを目的とした、Versatile Video Coding(VVC)のためのジョイントリファレンスフレーム合成(RFS)と後処理フィルタ拡張(PFE)を提案する。 RFS と PFE は Space-Time Enhancement Network (STENet) を用いており、2つの入力フレームをアーティファクトで受信し、2つの拡張フレームを圧縮されたアーティファクトと中間合成フレームで生成する。 STENetは2つのパイプラインで構成されている。 RFSの間、2つの再構成されたフレームがSTENetの合成パイプラインに送られ、現在のTo-be-codedフレームに似た仮想参照フレームが合成される。 合成フレームは、参照画像リスト(RPL)に挿入された追加の参照フレームとして機能する。 PFEの間、2つの再構成されたフレームがSTENetの拡張パイプラインに供給され、アーティファクトと歪みが軽減され、アーティファクトと歪みが減少する。 推論の複雑さを低減するために,STENetの単一実行によって達成されるFSとPFE(JISE)の合同推論を提案する。 VVCのリファレンスソフトウェアであるVTM-15.0, RFS, PFE, JISEは、Random Access(RA)構成の下で、新しい空間時間拡張ウィンドウ(STEW)内で協調される。 提案手法は、RA構成下の3つのコンポーネントの平均-7.34%/-17.21%/-16.65%PSNRベースのBDレートを達成することができる。

This paper presents the joint reference frame synthesis (RFS) and post-processing filter enhancement (PFE) for Versatile Video Coding (VVC), aiming to explore the combination of different neural network-based video coding (NNVC) tools to better utilize the hierarchical bi-directional coding structure of VVC. Both RFS and PFE utilize the Space-Time Enhancement Network (STENet), which receives two input frames with artifacts and produces two enhanced frames with suppressed artifacts, along with an intermediate synthesized frame. STENet comprises two pipelines, the synthesis pipeline and the enhancement pipeline, tailored for different purposes. During RFS, two reconstructed frames are sent into STENet's synthesis pipeline to synthesize a virtual reference frame, similar to the current to-be-coded frame. The synthesized frame serves as an additional reference frame inserted into the reference picture list (RPL). During PFE, two reconstructed frames are fed into STENet's enhancement pipeline to alleviate their artifacts and distortions, resulting in enhanced frames with reduced artifacts and distortions. To reduce inference complexity, we propose joint inference of RFS and PFE (JISE), achieved through a single execution of STENet. Integrated into the VVC reference software VTM-15.0, RFS, PFE, and JISE are coordinated within a novel Space-Time Enhancement Window (STEW) under Random Access (RA) configuration. The proposed method could achieve -7.34%/-17.21%/-16.65% PSNR-based BD-rate on average for three components under RA configuration.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 継続的学習のためのプロンプトカスタマイズ

Prompt Customization for Continual Learning ( http://arxiv.org/abs/2404.18060v1 )

ライセンス: Link先を確認
Yong Dai, Xiaopeng Hong, Yabin Wang, Zhiheng Ma, Dongmei Jiang, Yaowei Wang, (参考訳) 現代の連続学習アプローチは、通常、事前訓練されたモデルへの補足的な入力として機能するプールからのプロンプトを選択する。 しかし、この戦略は、タスクの増加に対処する際、選択アプローチの固有のノイズによって妨げられている。 これらの課題に対応して、継続学習のためのプロンプト的アプローチを再構築し、プロンプト的カスタマイズ(PC)手法を提案する。 PCは、主にプロンプト生成モジュール(PGM)とプロンプト変調モジュール(PMM)から構成される。 ハードプロンプト選択を用いる従来の手法とは対照的に、PGMは異なる係数を固定サイズのプロンプトプールからのプロンプトに割り当て、調整されたプロンプトを生成する。 さらに、PMMは、入力データと対応するプロンプトとの相関に応じて重みを適応的に割り当てることで、プロンプトの調整を行う。 提案手法は,クラス,ドメイン,タスクに依存しないインクリメンタル学習タスクを含む3つの異なる設定に対して,4つのベンチマークデータセットを用いて評価する。 実験結果から, 最先端技術 (SOTA) による一貫した改善(最大16.2\%)が得られた。

Contemporary continual learning approaches typically select prompts from a pool, which function as supplementary inputs to a pre-trained model. However, this strategy is hindered by the inherent noise of its selection approach when handling increasing tasks. In response to these challenges, we reformulate the prompting approach for continual learning and propose the prompt customization (PC) method. PC mainly comprises a prompt generation module (PGM) and a prompt modulation module (PMM). In contrast to conventional methods that employ hard prompt selection, PGM assigns different coefficients to prompts from a fixed-sized pool of prompts and generates tailored prompts. Moreover, PMM further modulates the prompts by adaptively assigning weights according to the correlations between input data and corresponding prompts. We evaluate our method on four benchmark datasets for three diverse settings, including the class, domain, and task-agnostic incremental learning tasks. Experimental results demonstrate consistent improvement (by up to 16.2\%), yielded by the proposed method, over the state-of-the-art (SOTA) techniques.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# CNNベースのエンコーダデコーダフレームワークを用いた圧縮画像キャプション

Compressed Image Captioning using CNN-based Encoder-Decoder Framework ( http://arxiv.org/abs/2404.18062v1 )

ライセンス: Link先を確認
Md Alif Rahman Ridoy, M Mahmud Hasan, Shovon Bhowmick, (参考訳) 今日の世界では、画像処理は科学研究から産業応用まで、様々な分野において重要な役割を担っている。 しかし、特にエキサイティングな応用は画像キャプションだ。 効果的な画像キャプションの潜在的影響は大きい。 これにより、検索エンジンの精度が大幅に向上し、関連する情報を容易に見つけることができる。 さらに、視覚障害者のアクセシビリティを大幅に向上させ、デジタルコンテンツのより没入的な体験を提供する。 しかし、その約束にもかかわらず、画像キャプションにはいくつかの課題がある。 1つの大きなハードルは、画像から意味のある視覚情報を抽出し、一貫性のある言語に変換することである。 これは、洗練されたアルゴリズムとモデルを必要とするタスクである、視覚領域と言語領域のギャップを埋める必要がある。 我々のプロジェクトは、畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発することで、これらの課題に対処することに集中している。 CNNモデルは画像から視覚的特徴を抽出するために使用され、後にエンコーダデコーダフレームワークの助けを借りてキャプションを生成する。 パフォーマンス比較も行ない、事前訓練されたCNNモデルの領域を掘り下げて、パフォーマンスのバリエーションを理解するために複数のアーキテクチャを試しました。 我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。 我々は,この圧縮モデルにより画像キャプションの生成効率が向上し,資源効率が向上することを確認した。

In today's world, image processing plays a crucial role across various fields, from scientific research to industrial applications. But one particularly exciting application is image captioning. The potential impact of effective image captioning is vast. It can significantly boost the accuracy of search engines, making it easier to find relevant information. Moreover, it can greatly enhance accessibility for visually impaired individuals, providing them with a more immersive experience of digital content. However, despite its promise, image captioning presents several challenges. One major hurdle is extracting meaningful visual information from images and transforming it into coherent language. This requires bridging the gap between the visual and linguistic domains, a task that demands sophisticated algorithms and models. Our project is focused on addressing these challenges by developing an automatic image captioning architecture that combines the strengths of convolutional neural networks (CNNs) and encoder-decoder models. The CNN model is used to extract the visual features from images, and later, with the help of the encoder-decoder framework, captions are generated. We also did a performance comparison where we delved into the realm of pre-trained CNN models, experimenting with multiple architectures to understand their performance variations. In our quest for optimization, we also explored the integration of frequency regularization techniques to compress the "AlexNet" and "EfficientNetB0" model. We aimed to see if this compressed model could maintain its effectiveness in generating image captions while being more resource-efficient.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 事前制約付き多視点拡散モデルによる地中合成と多次元テキスト-to-3D

Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model ( http://arxiv.org/abs/2404.18065v1 )

ライセンス: Link先を確認
Xiaolong Li, Jiawei Mo, Ying Wang, Chethan Parameshwara, Xiaohan Fei, Ashwin Swaminathan, CJ Taylor, Zhuowen Tu, Paolo Favaro, Stefano Soatto, (参考訳) 本論文では,事前学習した多視点拡散モデルを用いて高忠実度を達成しつつ,複雑なテキストプロンプトを正確に追従可能な3次元アセットを生成するための,Gunded-Dreamerという効果的な2段階アプローチを提案する。 MVDreamのような多視点拡散モデルは、スコア蒸留サンプリング(SDS)を用いて高忠実度3D資産を生成することを示した。 しかし、直感的に適用されたこれらの手法は、しばしば構成的な文章のプロンプトを理解するのに失敗し、特定の主題や部分を完全に省略することがある。 この問題に対処するために、まず、テキストから3Dパイプラインのボトルネックとして、テキストガイド付き4次元画像を活用することを提唱する。 次に、多視点拡散モデルの再訓練や高品質な合成3Dデータセットの作成を必要とせず、テキスト整列4次元画像生成を促進するための注意再焦点機構を導入する。 さらに,SDS損失とスパースRGB参照画像との相乗効果を促進するためのハイブリッド最適化手法を提案する。 提案手法は,従来の3Dアセット生成手法よりも優れ,品質と精度に優れ,同一のテキストプロンプトから多種多様な3Dを実現する。

In this paper, we propose an effective two-stage approach named Grounded-Dreamer to generate 3D assets that can accurately follow complex, compositional text prompts while achieving high fidelity by using a pre-trained multi-view diffusion model. Multi-view diffusion models, such as MVDream, have shown to generate high-fidelity 3D assets using score distillation sampling (SDS). However, applied naively, these methods often fail to comprehend compositional text prompts, and may often entirely omit certain subjects or parts. To address this issue, we first advocate leveraging text-guided 4-view images as the bottleneck in the text-to-3D pipeline. We then introduce an attention refocusing mechanism to encourage text-aligned 4-view image generation, without the necessity to re-train the multi-view diffusion model or craft a high-quality compositional 3D dataset. We further propose a hybrid optimization strategy to encourage synergy between the SDS loss and the sparse RGB reference images. Our method consistently outperforms previous state-of-the-art (SOTA) methods in generating compositional 3D assets, excelling in both quality and accuracy, and enabling diverse 3D from the same text prompt.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 45nmリカレントスパイキングニューラルネットワークのための量子コンテキストベースLIFニューロン

Quantized Context Based LIF Neurons for Recurrent Spiking Neural Networks in 45nm ( http://arxiv.org/abs/2404.18066v1 )

ライセンス: Link先を確認
Sai Sukruth Bezugam, Yihao Wu, JaeBum Yoo, Dmitri Strukov, Bongjin Kim, (参考訳) 本研究では,大脳新皮質錐体ニューロンにおける2重情報ストリームの統合を重視したコンテキストベースリカレントスパイクニューラルネットワーク(RSNN)の最初のハードウェア実装を提案する。 本稿では,RSNNのスパース活動を利用したハードウェア・ソフトウェア・コード署名手法により開発されたCLIFニューロン(qCLIF)の量子化バージョンについて述べる。 45nm技術ノードに実装され、qCLIFはコンパクト(900um^2)であり、DVSジェスチャー分類データセットの8ビット量子化にもかかわらず、90%の精度を達成する。 我々の分析は10から200qCLIFニューロンのネットワーク構成にまたがっており、最大82kのシナプスを1.86mm^2フットプリントでサポートし、スケーラビリティと効率性を実証している。

In this study, we propose the first hardware implementation of a context-based recurrent spiking neural network (RSNN) emphasizing on integrating dual information streams within the neocortical pyramidal neurons specifically Context- Dependent Leaky Integrate and Fire (CLIF) neuron models, essential element in RSNN. We present a quantized version of the CLIF neuron (qCLIF), developed through a hardware-software codesign approach utilizing the sparse activity of RSNN. Implemented in a 45nm technology node, the qCLIF is compact (900um^2) and achieves a high accuracy of 90% despite 8 bit quantization on DVS gesture classification dataset. Our analysis spans a network configuration from 10 to 200 qCLIF neurons, supporting up to 82k synapses within a 1.86 mm^2 footprint, demonstrating scalability and efficiency
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# パープレキシティは微調整性能を予測できるか? : ネパールの逐次言語モデルにおけるトークン化効果の検討

Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali ( http://arxiv.org/abs/2404.18071v1 )

ライセンス: Link先を確認
Nishant Luitel, Nirajan Bekoju, Anand Kumar Sah, Subarna Shakya, (参考訳) 最近の言語モデルでは、テスト時間中に見られる外語彙(OOV)語を扱うためにサブワード機構を使用しており、その生成能力は内在的計量であるパープレキシティ(perplexity)を用いて一般的に測定されている。 サブワードの粒度の増加は、パープレキシティ値の低下をもたらすことが知られている。 しかし、サブワードが言語モデルの理解能力にどのように影響するかの研究はほとんどなく、少数の言語に限られている。 このギャップを減らすために、ネパールで比較的小さな言語モデルを事前訓練するために、6つの異なるトークン化スキームを使用しました。 GPTのような最近のモデルではバイトレベルのBPEアルゴリズムが用いられているが、RoBERTaでは、ネパールの微調整性能において、SentencePieceのようなアルゴリズムと比較して、平均的にサブ最適であることが示されている。 さらに、同様の研究は、Bertベースの言語モデルに焦点を当てている。 しかし、我々は、シーケンシャルトランスフォーマーベースの言語モデルを事前訓練し、微調整する。

Recent language models use subwording mechanisms to handle Out-of-Vocabulary(OOV) words seen during test time and, their generation capacity is generally measured using perplexity, an intrinsic metric. It is known that increasing the subword granularity results in a decrease of perplexity value. However, the study of how subwording affects the understanding capacity of language models has been very few and only limited to a handful of languages. To reduce this gap we used 6 different tokenization schemes to pretrain relatively small language models in Nepali and used the representations learned to finetune on several downstream tasks. Although byte-level BPE algorithm has been used in recent models like GPT, RoBERTa we show that on average they are sub-optimal in comparison to algorithms such as SentencePiece in finetuning performances for Nepali. Additionally, similar recent studies have focused on the Bert-based language model. We, however, pretrain and finetune sequential transformer-based language models.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 低リソース設定のための言語モデルを用いた文脈スペル補正

Contextual Spelling Correction with Language Model for Low-resource Setting ( http://arxiv.org/abs/2404.18072v1 )

ライセンス: Link先を確認
Nishant Luitel, Nirajan Bekoju, Anand Kumar Sah, Subarna Shakya, (参考訳) 低リソース言語におけるSpell Correction(SC)のタスクは、限られたデータコーパスのみが利用可能であり、注釈付きスペル補正データセットが存在しないため、大きな課題となる。 これらの課題に対処するために、文脈的理解を備えたSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。 さらに、コーパスから確率的エラールールを非教師的方法で抽出し、エラー発生傾向(エラーモデル)をモデル化する。 そして、LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発する。 このアプローチの有効性は、未処理のテキストデータコーパスにのみアクセス可能なネパール語の実験によって実証される。

The task of Spell Correction(SC) in low-resource languages presents a significant challenge due to the availability of only a limited corpus of data and no annotated spelling correction datasets. To tackle these challenges a small-scale word-based transformer LM is trained to provide the SC model with contextual understanding. Further, the probabilistic error rules are extracted from the corpus in an unsupervised way to model the tendency of error happening(error model). Then the combination of LM and error model is used to develop the SC model through the well-known noisy channel framework. The effectiveness of this approach is demonstrated through experiments on the Nepali language where there is access to just an unprocessed corpus of textual data.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# MMAC-Copilot:マルチモーダルエージェント協調運用システム

MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot ( http://arxiv.org/abs/2404.18074v1 )

ライセンス: Link先を確認
Zirui Song, Yaohang Li, Meng Fang, Zhenhao Chen, Zecheng Shi, Yuan Huang, (参考訳) 自律的な仮想エージェントは、現実の環境との特異な相互作用によって制限され、その汎用性を制限する。 そこで本研究では,マルチモーダルエージェント協調フレームワーク (MMAC-Copilot) を提案する。 このフレームワークはチームコラボレーションチェーンを導入し、各参加エージェントがそれぞれのドメイン知識に基づいて洞察を提供することを可能にし、知識ドメインのギャップに関連する幻覚を効果的に軽減する。 MMAC-Copilotの性能を評価するため,GAIAベンチマークと新たに導入したビジュアルインタラクションベンチマーク(VIBench)を用いて実験を行った。 VIBenchは,3Dゲームやレクリエーション,オフィスシナリオなど,さまざまな領域にわたるAPI操作不能なアプリケーションに重点を置いている。 MMAC-CopilotはGAIAにおいて、既存の主要なシステムよりも平均6.8\%向上した。 さらに、VIBenchでは、特にシステムやアプリケーション内でのインタラクションの様々な方法を管理する際、顕著な機能を示した。 これらの結果は、MMAC-Copilotがエージェント協調に対する革新的なアプローチを通じて自律型仮想エージェントの分野を前進させる可能性を示している。

Autonomous virtual agents are often limited by their singular mode of interaction with real-world environments, restricting their versatility. To address this, we propose the Multi-Modal Agent Collaboration framework (MMAC-Copilot), a framework utilizes the collective expertise of diverse agents to enhance interaction ability with operating systems. The framework introduces a team collaboration chain, enabling each participating agent to contribute insights based on their specific domain knowledge, effectively reducing the hallucination associated with knowledge domain gaps. To evaluate the performance of MMAC-Copilot, we conducted experiments using both the GAIA benchmark and our newly introduced Visual Interaction Benchmark (VIBench). VIBench focuses on non-API-interactable applications across various domains, including 3D gaming, recreation, and office scenarios. MMAC-Copilot achieved exceptional performance on GAIA, with an average improvement of 6.8\% over existing leading systems. Furthermore, it demonstrated remarkable capability on VIBench, particularly in managing various methods of interaction within systems and applications. These results underscore MMAC-Copilot's potential in advancing the field of autonomous virtual agents through its innovative approach to agent collaboration.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 公営自転車共有システムにおけるEバイクと従来型自転車利用パターンの比較:リッチモンド市を事例として

Comparing E-bike and Conventional Bicycle Use Patterns in a Public Bike Share System: A Case Study of Richmond, VA ( http://arxiv.org/abs/2404.18075v1 )

ライセンス: Link先を確認
Yifan Yang, Elliott Sloate, Nashid Khadem, Celeste Chavis, Vanessa Frias Martinez, (参考訳) その結果、ペデレクは一般的に、長い旅行距離、短い旅行時間、より速い速度、上り坂の標高変化の低い速度と結びついていることが判明した。 事業・混合利用・住宅・その他の用途を考慮した原産地決定分析は、事業・住宅・混合利用のいずれかに留まる旅行が多数存在するなど、非常に類似した傾向を示している。 道路利用分析によると、ペデレクは自転車よりも市外で使われている。

The results show that pedelecs are generally associated with longer trip distances, shorter trip times, higher speeds, and lower rates of uphill elevation change. The origin-destination analysis considering the business, mixed use, residential, and other uses shows extremely similar trends, with a large number of trips staying within either business or residential locations or mixed use. The roadway use analysis shows that pedelecs are used farther outside of the city than bikes.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# 物の低炭素人工知能のための生成AI

Generative AI for Low-Carbon Artificial Intelligence of Things ( http://arxiv.org/abs/2404.18077v1 )

ライセンス: Link先を確認
Jinbo Wen, Ruichen Zhang, Dusit Niyato, Jiawen Kang, Hongyang Du, Yang Zhang, Zhu Han, (参考訳) 人工知能(AI)とIoT(Internet of Things)を統合することで、AIoT(Artificial Intelligence of Things)は多くの分野に革命をもたらした。 しかしAIoTは、モバイル技術の継続的な進歩により、エネルギー消費と二酸化炭素排出量の課題に直面している。 幸いなことに、Generative AI(GAI)は、その優れた推論と生成能力のために、AIoTの二酸化炭素排出量を減らす大きな可能性を秘めている。 本稿では, 炭素排出量削減のためのGAIの可能性について検討し, 低炭素AIoTのための新しいGAI対応ソリューションを提案する。 具体的には、まず、AIoTにおける炭素排出量の原因となる主な影響について研究し、次に、GAI技術とその炭素排出量との関係について紹介する。 次に、低炭素AIoTにおけるGAIの適用可能性について検討し、GAIがネットワークコンポーネントの二酸化炭素排出量を減らす方法に焦点を当てる。 次に,Large Language Model (LLM) 対応の炭素排出最適化フレームワークを提案し,より正確で信頼性の高い最適化問題を生成するために,プラグブルLLMとRetrieval Augmented Generation (RAG)モジュールを設計する。 さらに, 生成拡散モデル(GDM)を用いて, 二酸化炭素排出削減のための最適戦略を同定する。 シミュレーションの結果,提案手法の有効性が示された。 最後に、低炭素AIoTのオープンな研究指針について考察する。

By integrating Artificial Intelligence (AI) with the Internet of Things (IoT), Artificial Intelligence of Things (AIoT) has revolutionized many fields. However, AIoT is facing the challenges of energy consumption and carbon emissions due to the continuous advancement of mobile technology. Fortunately, Generative AI (GAI) holds immense potential to reduce carbon emissions of AIoT due to its excellent reasoning and generation capabilities. In this article, we explore the potential of GAI for carbon emissions reduction and propose a novel GAI-enabled solution for low-carbon AIoT. Specifically, we first study the main impacts that cause carbon emissions in AIoT, and then introduce GAI techniques and their relations to carbon emissions. We then explore the application prospects of GAI in low-carbon AIoT, focusing on how GAI can reduce carbon emissions of network components. Subsequently, we propose a Large Language Model (LLM)-enabled carbon emission optimization framework, in which we design pluggable LLM and Retrieval Augmented Generation (RAG) modules to generate more accurate and reliable optimization problems. Furthermore, we utilize Generative Diffusion Models (GDMs) to identify optimal strategies for carbon emission reduction. Simulation results demonstrate the effectiveness of the proposed framework. Finally, we insightfully provide open research directions for low-carbon AIoT.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# ComposerX: LLMを用いたマルチエージェントシンボリックミュージックコンポジション

ComposerX: Multi-Agent Symbolic Music Composition with LLMs ( http://arxiv.org/abs/2404.18081v1 )

ライセンス: Link先を確認
Qixin Deng, Qikai Yang, Ruibin Yuan, Yipeng Huang, Yi Wang, Xubo Liu, Zeyue Tian, Jiahao Pan, Ge Zhang, Hanfeng Lin, Yizhi Li, Yinghao Ma, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenwu Wang, Guangyu Xia, Wei Xue, Yike Guo, (参考訳) 音楽構成は人類の創造的な側面を表しており、それ自体は長い依存と調和の制約のある情報を理解し、生成する能力を必要とする複雑なタスクである。 STEMの被験者に印象的な能力を示す一方で、現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンなテクニックを装着しても、書きにくい音楽を生成する。 音楽史・理論の推論能力と知識基盤を活かして、LLMの楽曲における可能性をさらに探求し、強化するために、エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。 マルチエージェントアプローチを適用することで,GPT-4の作曲品質が大幅に向上することがわかった。 以上の結果から,ComposerXはユーザ指示に固執しながら,メロディーを捕捉したコヒーレントなポリフォニック音楽の作曲が可能であることが示唆された。

Music composition represents the creative side of humanity, and itself is a complex task that requires abilities to understand and generate information with long dependency and harmony constraints. While demonstrating impressive capabilities in STEM subjects, current LLMs easily fail in this task, generating ill-written music even when equipped with modern techniques like In-Context-Learning and Chain-of-Thoughts. To further explore and enhance LLMs' potential in music composition by leveraging their reasoning ability and the large knowledge base in music history and theory, we propose ComposerX, an agent-based symbolic music generation framework. We find that applying a multi-agent approach significantly improves the music composition quality of GPT-4. The results demonstrate that ComposerX is capable of producing coherent polyphonic music compositions with captivating melodies, while adhering to user instructions.
翻訳日:2024-04-30 18:02:54 公開日:2024-04-28
# コンテナ化プラットフォームにおけるサイバーセキュリティ: セキュリティ課題,対策,ベストプラクティスの比較研究

Cyber Security in Containerization Platforms: A Comparative Study of Security Challenges, Measures and Best Practices ( http://arxiv.org/abs/2404.18082v1 )

ライセンス: Link先を確認
Sohome Adhikari, Sabur Baidya, (参考訳) 本論文は,コンテナ化プラットフォームにおけるサイバー安全性向上の観点から,セキュリティ対策,課題,ベストプラクティスの比較研究をレビューする。 このレビューは、コンテナ化プラットフォームの安全性上の脆弱性を調べ、コンテナの分離を強化するための戦略を探究し、セキュアなアプリケーションを提供する上で暗号化技術がどのように重要な役割を果たすかを評価することを目的としている。 また,コンテナ化エリアプラットフォームにおけるサイバーセキュリティの強化を目指す組織に対して,実践的なガイダンスを提供する。

The paper reviews the comparative study of security measures, challenges, and best practices with a view to enhancing cyber safety in containerized platforms. This review is intended to give insight into the enhanced security posture of containerized environments, with a view to examining safety vulnerabilities in containerization platforms, exploring strategies for increasing containers isolation and assessing how encryption techniques play an important role in providing secure applications. The paper also provides practical guidance for organizations seeking to strengthen their cyber security defenses in the containerization area platforms.
翻訳日:2024-04-30 17:53:06 公開日:2024-04-28
# クロスモーダルマスクマッチングによるオンライン・ターゲットフリーLiDAR-Camera Extrinsic Calibration

Online,Target-Free LiDAR-Camera Extrinsic Calibration via Cross-Modal Mask Matching ( http://arxiv.org/abs/2404.18083v1 )

ライセンス: Link先を確認
Zhiwei Huang, Yikang Zhang, Qijun Chen, Rui Fan, (参考訳) LiDAR-camera extrinsic calibration (LCEC) はインテリジェントな車両のデータ融合に不可欠である。 オフライン、ターゲットベースアプローチがこの分野で長年好まれてきた選択肢である。 しかし、現実の環境への適応性は低いことがしばしばある。 これは主に、中程度の衝撃や振動のある環境での長時間の操作により、外在パラメータが著しく変化する可能性があるためである。 対照的に、ターゲットレスのオンラインアプローチは、より適応性が高いが、主にクロスモーダルな特徴マッチングの課題のため、ロバスト性に欠ける。 そこで本稿では,コンピュータビジョンとロボティクス,特に具体的人工知能の分野で重要なトレンドとして浮上している大型ビジョンモデル(LVM)の可能性を解き明かし,様々な難題にまたがる,堅牢で正確なオンラインLCECを実現する。 私たちはMIAS-LCECと呼ばれる新しいフレームワークを導入し、インタラクティブな可視化インタフェースを備えたオープンソースの多目的キャリブレーションツールボックスを提供し、様々な屋内および屋外環境から取得した3つの実世界のデータセットを公開しました。 我々のフレームワークとツールボックスの基盤は、最先端(SoTA)のLVMに基づいて開発されたクロスモーダルマスクマッチング(C3M)アルゴリズムであり、十分かつ信頼性の高いマッチングを生成することができる。 これらの実世界のデータセットに対して行われた大規模な実験は、SoTA法と比較して、特に超広視野の固体LiDARに対して、我々のアプローチの堅牢性と優れた性能を示すものである。

LiDAR-camera extrinsic calibration (LCEC) is crucial for data fusion in intelligent vehicles. Offline, target-based approaches have long been the preferred choice in this field. However, they often demonstrate poor adaptability to real-world environments. This is largely because extrinsic parameters may change significantly due to moderate shocks or during extended operations in environments with vibrations. In contrast, online, target-free approaches provide greater adaptability yet typically lack robustness, primarily due to the challenges in cross-modal feature matching. Therefore, in this article, we unleash the full potential of large vision models (LVMs), which are emerging as a significant trend in the fields of computer vision and robotics, especially for embodied artificial intelligence, to achieve robust and accurate online, target-free LCEC across a variety of challenging scenarios. Our main contributions are threefold: we introduce a novel framework known as MIAS-LCEC, provide an open-source versatile calibration toolbox with an interactive visualization interface, and publish three real-world datasets captured from various indoor and outdoor environments. The cornerstone of our framework and toolbox is the cross-modal mask matching (C3M) algorithm, developed based on a state-of-the-art (SoTA) LVM and capable of generating sufficient and reliable matches. Extensive experiments conducted on these real-world datasets demonstrate the robustness of our approach and its superior performance compared to SoTA methods, particularly for the solid-state LiDARs with super-wide fields of view.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# CRE-LLM: 微調整大言語モデルを用いたドメイン特化中国語関係抽出フレームワーク

CRE-LLM: A Domain-Specific Chinese Relation Extraction Framework with Fine-tuned Large Language Model ( http://arxiv.org/abs/2404.18085v1 )

ライセンス: Link先を確認
Zhengpeng Shi, Haoran Luo, (参考訳) ドメイン特化中国語関係抽出(DSCRE)は、ドメイン特化中国語テキストからエンティティ間の関係を抽出することを目的としている。 近年のPLM、特にLDMの急速な発展にもかかわらず、DSCREは複雑なネットワーク構造設計、認識不良、微調整の高消費という3つの課題に直面している。 自然言語処理における大規模言語モデル(LLM)の優れた性能を考えると、CRE-LLMと呼ばれる新しいフレームワークを提案する。 このフレームワークは、Llama-2、ChatGLM2、Baichuan2のような微調整のオープンソースLLMに基づいている。 CRE-LLM は、適切なプロンプトを構築し、オープンソースの LLM を利用して教師付き微調整を行うことにより、モデルの論理認識性と生成能力を向上する。 そして、入力テキストデータ中の与えられたエンティティの関係を直接抽出し、CREアプローチを改善する。 提案手法の有効性を示すため,ドメイン固有のCREデータセットであるFinREとSanWenについて広範な実験を行った。 実験の結果,CRE-LLMは極めて優れ,堅牢であり,FinREデータセット上でのSOTA(State-of-the-art)性能を実現していることがわかった。 本稿では,LLMと三重項を組み合わせた意味論的に複雑である領域固有関係抽出(DSCRE)タスクに対して,新しいアプローチを提案する。 私たちのコードは公開されています。

Domain-Specific Chinese Relation Extraction (DSCRE) aims to extract relations between entities from domain-specific Chinese text. Despite the rapid development of PLMs in recent years, especially LLMs, DSCRE still faces three core challenges: complex network structure design, poor awareness, and high consumption of fine-tuning. Given the impressive performance of large language models (LLMs) in natural language processing, we propose a new framework called CRE-LLM. This framework is based on fine-tuning open-source LLMs, such as Llama-2, ChatGLM2, and Baichuan2. CRE-LLM enhances the logic-awareness and generative capabilities of the model by constructing an appropriate prompt and utilizing open-source LLMs for instruction-supervised fine-tuning. And then it directly extracts the relations of the given entities in the input textual data, which improving the CRE approach. To demonstrate the effectiveness of the proposed framework, we conducted extensive experiments on two domain-specific CRE datasets, FinRE and SanWen. The experimental results show that CRE-LLM is significantly superior and robust, achieving state-of-the-art (SOTA) performance on the FinRE dataset. This paper introduces a novel approach to domain-specific relation extraction (DSCRE) tasks that are semantically more complex by combining LLMs with triples. Our code is publicly available.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# ブロックチェーン層に対する攻撃の新しい分類:脆弱性、攻撃、緩和、研究の方向性

A Novel Classification of Attacks on Blockchain Layers: Vulnerabilities, Attacks, Mitigations, and Research Directions ( http://arxiv.org/abs/2404.18090v1 )

ライセンス: Link先を確認
Kaustubh Dwivedi, Ankit Agrawal, Ashutosh Bhatia, Kamlesh Tiwari, (参考訳) ブロックチェーン技術の普及により、その完全性とセキュリティに対する潜在的な脅威の範囲が拡大した。 脆弱性を悪用する継続的な探求は、現在の研究イニシアチブの拡張がいかに重要かを強調している。 そこで本研究では,ブロックチェーンの個別層に基づく方法論を用いて,ブロックチェーンエコシステム内の新たな攻撃ベクトルと既知の攻撃ベクトルの両方を徹底的に議論することによって,既存の知識体系を広げることを目的とする。 本調査では,ブロックチェーン攻撃の新たな分類と,ブロックチェーンデータセキュリティに関する詳細な調査を提案する。 特に本論文では,各層に特有の攻撃テクニックや脆弱性について,詳細な検討と緩和テクニックの詳細な検討を行っている。 さまざまなブロックチェーン層における攻撃の根本的な原因を精査することで、これらのセキュリティ上の懸念の深いダイナミクスを明らかにします。 我々は、既知の脆弱性の軽減方法を明らかにし、最近開発された攻撃ベクトルに関する新しい情報を提供する。 また、ブロックチェーンにおける量子コンピューティングの影響と、将来利用可能な現在のテクノロジの弱点についても論じる。 私たちの研究はブロックチェーンのセキュリティとプライバシの研究の分野を前進させ、ブロックチェーンの脆弱性や攻撃に対する理解にも貢献しています。 この調査論文は、ブロックチェーンセキュリティの複雑さについて詳しく知りたい読者のために有用なツールである。 また、ブロックチェーンのプライバシーとセキュリティを強化し、このダイナミックで絶え間なく進化する分野におけるさらなる発展の道を開くよう研究者に呼びかけている。

The widespread adoption of blockchain technology has amplified the spectrum of potential threats to its integrity and security. The ongoing quest to exploit vulnerabilities emphasizes how critical it is to expand on current research initiatives. Thus, using a methodology based on discrete blockchain layers, our survey study aims to broaden the existing body of knowledge by thoroughly discussing both new and known attack vectors inside the blockchain ecosystem. This survey proposes a novel classification of blockchain attacks and an in-depth investigation of blockchain data security. In particular, the paper provides a thorough discussion of the attack techniques and vulnerabilities that are specific to each tier, along with a detailed look at mitigating techniques. We reveal the deep dynamics of these security concerns by closely investigating the fundamental causes of attacks at various blockchain tiers. We clarify mitigation methods for known vulnerabilities and offer new information on recently developed attack vectors. We also discuss the implications of quantum computing in blockchain and the weaknesses in the current technology that can be exploited in the future. Our study advances the field of blockchain security and privacy research while also contributing to our understanding of blockchain vulnerabilities and attacks. This survey paper is a useful tool for readers who want to learn more about the intricacies of blockchain security. It also invites researchers to help strengthen blockchain privacy and security, paving the way for further developments in this dynamic and ever-evolving field.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# ひずみによる四極子核のロバスト外部スピン超分極

Robust external spin hyperpolarization of quadrupolar nuclei enabled by strain ( http://arxiv.org/abs/2404.18091v1 )

ライセンス: Link先を確認
Lu Chen, Jiawen Jiang, Martin B. Plenio, Qiong Chen, (参考訳) 本研究では, 六方晶窒化ホウ素(h-BN)ナノシートにおける相互作用窒素空孔(NV)中心と四極子I=3/2核スピン, 特に11Bスピンのスピンダイナミクスについて検討した。 ゼロフィールド周囲の対向線を横切る磁場スイープにより外部スピン偏極が得られる可能性を示す。 これを実現するために, 結晶ひずみを利用してNV配向, 結晶ひずみの不均一性, 電子核有効結合に頑健な偏光伝達機構を確立する。 これらの結果は、ダイヤモンド表面近傍のナノ材料において、13Cや1Hのような固有の核スピン1/2種に対して偏極損失を生じさせることなく、スピンの超分極の道を開く。 H-BNナノシートの11Bスピンは、その長い緩和時間と大きな表面積を持ち、液体相へのリレー型核偏光の代替となり、表面核スピンに基づく量子シミュレータの開発に期待できる。

In a theoretical study, we investigate the spin dynamics of interacting nitrogen-vacancy (NV) centers and quadrupolar I = 3/2 nuclear spins, specifically 11B spins in hexagonal boron nitride (h-BN) nanosheets located near the microdiamond surface. We demonstrate the possibility of obtaining external spin-polarization by magnetic-field sweeps across the level anticrossings around zero-field. To achieve this, we leverage crystal strains to establish a polarization transfer mechanism that remains robust against variations in NV orientation, crystal strain inhomogeneity, and electron-nuclear effective couplings. These results pave the way for hyperpolarization of spins in nanomaterials near the diamond surface without experiencing polarization loss to intrinsic nuclear spin-1/2 species, such as 13C and 1H nuclear spins in diamond. The 11B spins in h-BN nanosheets, with their extended relaxation time and large surface area, present a promising alternative for relayed nuclear polarization to the liquid phase and for the development of quantum simulators based on surface nuclear spins.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# USAT: ユニバーサル話者適応型テキスト音声合成手法

USAT: A Universal Speaker-Adaptive Text-to-Speech Approach ( http://arxiv.org/abs/2404.18094v1 )

ライセンス: Link先を確認
Wenbin Wang, Yang Song, Sanjay Jha, (参考訳) 従来のTTS (text-to-speech) 研究は、学習データセットにおける話者の合成音声の品質向上に重点を置いている。 データセット外話者、特に限られた参照データを持つ話者に対して、生活に似た音声を合成するという課題は、重要で未解決の課題である。 ゼロショットまたは少数ショットの話者適応型TSアプローチが検討されているが、多くの制限がある。 ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分な傾向がある。 非常に多様なアクセントを再現できる手法は少ないが、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。 加えて、以前のアプローチはゼロショットまたは少数ショットの順応しか提供せず、異なる要求でさまざまな現実世界のシナリオでそれらのユーティリティを制限している。 さらに、現在の話者適応型TSのほとんどの評価は、ネイティブ話者のデータセットでのみ行われ、多彩なアクセントを持つ非ネイティブ話者の大部分を不注意に無視する。 提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。 ゼロショット話者適応における一般化性能の不足を軽減するため、2つの革新的な識別器を設計し、音声デコーダのメモリ機構を導入した。 そこで我々は2つのアダプタと1つの適応手順を設計した。

Conventional text-to-speech (TTS) research has predominantly focused on enhancing the quality of synthesized speech for speakers in the training dataset. The challenge of synthesizing lifelike speech for unseen, out-of-dataset speakers, especially those with limited reference data, remains a significant and unresolved problem. While zero-shot or few-shot speaker-adaptive TTS approaches have been explored, they have many limitations. Zero-shot approaches tend to suffer from insufficient generalization performance to reproduce the voice of speakers with heavy accents. While few-shot methods can reproduce highly varying accents, they bring a significant storage burden and the risk of overfitting and catastrophic forgetting. In addition, prior approaches only provide either zero-shot or few-shot adaptation, constraining their utility across varied real-world scenarios with different demands. Besides, most current evaluations of speaker-adaptive TTS are conducted only on datasets of native speakers, inadvertently neglecting a vast portion of non-native speakers with diverse accents. Our proposed framework unifies both zero-shot and few-shot speaker adaptation strategies, which we term as "instant" and "fine-grained" adaptations based on their merits. To alleviate the insufficient generalization performance observed in zero-shot speaker adaptation, we designed two innovative discriminators and introduced a memory mechanism for the speech decoder. To prevent catastrophic forgetting and reduce storage implications for few-shot speaker adaptation, we designed two adapters and a unique adaptation procedure.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# Snake with Shifted Window: OCTAセグメンテーションのための血管パターンの適応学習

Snake with Shifted Window: Learning to Adapt Vessel Pattern for OCTA Segmentation ( http://arxiv.org/abs/2404.18096v1 )

ライセンス: Link先を確認
Xinrun Chen, Mei Shen, Haojian Ning, Mengzhan Zhang, Chengliang Wang, Shiying Li, (参考訳) 光コヒーレンス断層撮影血管造影(OCTA)画像中の特定の標的や構造を分離することは、さらなる病理研究に欠かせない。 網膜の血管層は豊富で複雑であり、複雑な形状の血管は広く研究されているOCTA画像によって捉えられる。 そこで本研究では,血管層を投影するOCTA画像を用いて網膜構造を分割する方法について検討する。 そこで本研究では,管状構造に適した変形可能な畳み込みと大域的特徴抽出のためのスウィン・トランスフォーマを併用したSSW-OCTAモデルを提案する。 我々のモデルはOCTA-500データセットのテストと比較を行い、最先端のパフォーマンスを実現した。 コードはhttps://github.com/ShellRedia/Snake-SWin-OCTAで公開されている。

Segmenting specific targets or structures in optical coherence tomography angiography (OCTA) images is fundamental for conducting further pathological studies. The retinal vascular layers are rich and intricate, and such vascular with complex shapes can be captured by the widely-studied OCTA images. In this paper, we thus study how to use OCTA images with projection vascular layers to segment retinal structures. To this end, we propose the SSW-OCTA model, which integrates the advantages of deformable convolutions suited for tubular structures and the swin-transformer for global feature extraction, adapting to the characteristics of OCTA modality images. Our model underwent testing and comparison on the OCTA-500 dataset, achieving state-of-the-art performance. The code is available at: https://github.com/ShellRedia/Snake-SWin-OCTA.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# パラメータ化動的論理 - 操作意味論によるプログラム検証のための循環論理フレームワークを目指して

Parameterized Dynamic Logic -- Towards A Cyclic Logical Framework for Program Verification via Operational Semantics ( http://arxiv.org/abs/2404.18098v1 )

ライセンス: Link先を確認
Yuanrui Zhang, (参考訳) 動的論理とその変種は、プログラムを論理式から分離することでプログラム仕様をはっきりと捉える優れた表現形式のため、何十年もプログラム推論における形式主義として使われてきた。 伝統的な動的論理のプログラムモデルは明示的な形式である。 明確に定義された構文構造により、推論ステップがプログラムの証明をサブプログラムの証明に転送する構成検証が可能である。 この構造に基づく推論は多くの動的論理と人気のあるホアスタイル論理の基礎を形成する。 しかし、構造規則は、異なるターゲットプログラムに対して、異なるプログラム構造に対応するために異なるルールを提案する必要があるという大きな欠点を生じさせる。 さらに、構造に基づく推論をサポートしていない(あるいは完全にサポートしていない)プログラムも存在する。 本稿では,プログラムモデルと公式の一般的な形式を用いたDLpと呼ばれるパラメータ化された動的論理型論理を提案し,この論理の循環的証明システムを提案する。 DLpのプログラム推論は、プログラムの動作意味性に応じてプログラムのシンボル的実行を直接ベースとする。 これにより、論理理論を特定の領域に専門化する際に、大きなルールセットを設計する負担を軽減し、直接推論に適した構造を持たないプログラムの検証を容易にする。 プログラム構造を解かなければ、DLpは無限の証明構造を引き起こす。 これを解決するために, DLp の証明システムのための周期的事前防御構造を構築し, その健全性を証明する。 ケーススタディは、DLpが異なるタイプのプログラムを推論するためにどのように機能するかを示すために分析される。

Dynamic logic and its variations, because of their good expressive forms capturing program specifications clearly by isolating programs from logical formulas, have been used as a formalism in program reasoning for decades and have many applications in different areas. The program models of traditional dynamic logics are in explicit forms. With a clearly-defined syntactic structure, compositional verification is made possible, in which a deduction step transfers proving a program into proving its sub-programs. This structure-based reasoning forms the basis of many dynamic logics and popular Hoare-style logics. However, structural rules induce a major drawback that for different target programs, different rules have to be proposed to adapt different program structures. Moreover, there exist programs that does not support (or not entirely support) a structure-based reasoning. In this paper, we propose a parameterized `dynamic-logic-like' logic called DLp with general forms of program models and formulas, and propose a cyclic proof system for this logic. Program reasoning in DLp is directly based on symbolic executions of programs according to their operational semantics. This reduces the burden of designing a large set of rules when specializing a logic theory to a specific domain, and facilitates verifying programs without a suitable structure for direct reasoning. Without reasoning by dissolving program structures, DLp can cause an infinite proof structure. To solve this, we build a cyclic preproof structure for the proof system of DLp and prove its soundness. Case studies are analyzed to show how DLp works for reasoning about different types of programs.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# 浅い深度トフォリとキューディット量子回路のパワー

The power of shallow-depth Toffoli and qudit quantum circuits ( http://arxiv.org/abs/2404.18104v1 )

ライセンス: Link先を確認
Alex Bredariol Grilo, Elham Kashefi, Damian Markham, Michael de Oliveira, (参考訳) 浅層深度量子回路の関連性は、主に近距離デバイスに適用可能であるため、最近増大している。 この文脈において、量子回路複雑性の主な目的の1つは、量子浅層回路によって解くことができるが、古典的により多くの計算資源を必要とする問題を見つけることである。 この研究の最初の貢献は、古典的および量子的定数深度回路の新たな分離を証明することである。 まず、量子アドバイス$\mathsf{QNC}^0/\mathsf{qpoly}$ と $\mathsf{AC}^0[p]$ の分離を示す。 さらに、非有界なトフォリゲートを持つ$\mathsf{QAC}^0$と、$\mathsf{AC}^0[p]$との分離を示す。 これにより、量子ファンアウトゲートを含まない浅い深さの量子クラスに対する最初の分離が確立される。 第二に、無限サイズのゲート集合を持つ $\mathsf{QNC}^0$ 回路を考える。 これらの回路は(古典的または量子的)素モジュラーゲートとともに閾値ゲートを実装し、$\mathsf{QNC}^0[p]=\mathsf{QTC}^0$を示す。 最後に、無限大ゲートセットの場合、高次元ヒルベルト空間に対するこれらの量子回路クラスは標準量子ビット実装に何の利点も与えないことを示す。

The relevance of shallow-depth quantum circuits has recently increased, mainly due to their applicability to near-term devices. In this context, one of the main goals of quantum circuit complexity is to find problems that can be solved by quantum shallow circuits but require more computational resources classically. Our first contribution in this work is to prove new separations between classical and quantum constant-depth circuits. Firstly, we show a separation between constant-depth quantum circuits with quantum advice $\mathsf{QNC}^0/\mathsf{qpoly}$, and $\mathsf{AC}^0[p]$, which is the class of classical constant-depth circuits with unbounded-fan in and $\pmod{p}$ gates. In addition, we show a separation between $\mathsf{QAC}^0$, which additionally has Toffoli gates with unbounded control, and $\mathsf{AC}^0[p]$. This establishes the first such separation for a shallow-depth quantum class that does not involve quantum fan-out gates. Secondly, we consider $\mathsf{QNC}^0$ circuits with infinite-size gate sets. We show that these circuits, along with (classical or quantum) prime modular gates, can implement threshold gates, showing that $\mathsf{QNC}^0[p]=\mathsf{QTC}^0$. Finally, we also show that in the infinite-size gateset case, these quantum circuit classes for higher-dimensional Hilbert spaces do not offer any advantage to standard qubit implementations.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# 半教師付きテキストベース人物探索

Semi-supervised Text-based Person Search ( http://arxiv.org/abs/2404.18106v1 )

ライセンス: Link先を確認
Daming Gao, Yang Bai, Min Cao, Hao Dou, Mang Ye, Min Zhang, (参考訳) テキストベースの人物検索(TBPS)は、自然言語による記述に基づいて、大きな画像ギャラリーから特定の人物の画像を取得することを目的としている。 既存の手法は、完全教師付き学習において十分な性能を達成するために、大量の注釈付き画像テキストデータに依存している。 監視ビデオからの人物画像の取得は比較的容易であり、注釈付きテキストの取得は困難である。 この論文は、TBPSを半教師付きで探索する先駆的な取り組みを行ない、限られた数の人物画像に注釈が付され、大部分の画像にはアノテーションが欠落している。 本稿では,半教師付きTBPSの世代別検索に基づく2段階基本解を提案する。 生成段階は、画像キャプションモデルを適用して注釈なし画像の擬似テキストを生成することにより、注釈付きデータを強化する。 その後、この拡張データを用いた完全教師付き検索学習を行う。 検索学習における擬似テキストのノイズ干渉を考慮し,検索モデルによるノイズデータ処理能力の向上を目的としたノイズロバスト検索フレームワークを提案する。 このフレームワークは、モデルアーキテクチャを洗練するためのハイブリッドパッチチャネルマスキング(PC-Mask)と、トレーニングプロセスを強化するためのノイズガイドプログレッシブトレーニング(NP-Train)の2つの主要な戦略を統合している。 PC-Maskは、パッチレベルとチャネルレベルの両方で入力データに対してマスキングを行い、ノイズの過度な監視を防止する。 NP-Trainは、擬似テキストのノイズレベルに基づいたプログレッシブトレーニングスケジュールを導入し、ノイズロバスト学習を容易にする。 複数のTBPSベンチマークにおいて,提案手法が半教師付き環境下で有望な性能を達成することを示す。

Text-based person search (TBPS) aims to retrieve images of a specific person from a large image gallery based on a natural language description. Existing methods rely on massive annotated image-text data to achieve satisfactory performance in fully-supervised learning. It poses a significant challenge in practice, as acquiring person images from surveillance videos is relatively easy, while obtaining annotated texts is challenging. The paper undertakes a pioneering initiative to explore TBPS under the semi-supervised setting, where only a limited number of person images are annotated with textual descriptions while the majority of images lack annotations. We present a two-stage basic solution based on generation-then-retrieval for semi-supervised TBPS. The generation stage enriches annotated data by applying an image captioning model to generate pseudo-texts for unannotated images. Later, the retrieval stage performs fully-supervised retrieval learning using the augmented data. Significantly, considering the noise interference of the pseudo-texts on retrieval learning, we propose a noise-robust retrieval framework that enhances the ability of the retrieval model to handle noisy data. The framework integrates two key strategies: Hybrid Patch-Channel Masking (PC-Mask) to refine the model architecture, and Noise-Guided Progressive Training (NP-Train) to enhance the training process. PC-Mask performs masking on the input data at both the patch-level and the channel-level to prevent overfitting noisy supervision. NP-Train introduces a progressive training schedule based on the noise level of pseudo-texts to facilitate noise-robust learning. Extensive experiments on multiple TBPS benchmarks show that the proposed framework achieves promising performance under the semi-supervised setting.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# メンタルヘルスと幸福なアプリケーションのための美しい、幸せな画像の発見

Finding Beautiful and Happy Images for Mental Health and Well-being Applications ( http://arxiv.org/abs/2404.18109v1 )

ライセンス: Link先を確認
Ruitao Xie, Connor Qiu, Guoping Qiu, (参考訳) 本稿では、国連の持続可能な開発目標17の1つである、健康と幸福の進歩に人工知能(AI)技術がいかに貢献できるかを考察する。 世界人口の10人に1人が精神疾患に罹患していたと推定されている。 美しい自然画像のエンゲージメントと視聴によって、人々はより幸せでストレスが少なくなり、より感情的な幸福感がもたらされ、治療的価値ももたらされる、という研究に触発されて、私たちは、美しく幸せな画像を見つけるための自動アルゴリズムを開発することで、AIがメンタルヘルスを促進するのにどのように役立つかを探求した。 まず,20K近い高解像度の自然シーンの写真から,それぞれの画像に美しい点と幸福点を約10人の観察者によってラベル付けした大容量画像データベースを構築した。 データベースの統計によると、美しさと幸福のスコアの間には良い相関関係があることが示されており、美しい自然画像のエンゲージメントが精神的な幸福を損なう可能性があることを裏付ける逸話的な証拠を提供している。 このユニークなデータベースをベースとして,自然画像の美しさと幸福度を自動的に予測する深層学習モデルを開発した。 実験結果から、画像の美しさと幸福度を自動的に評価するAIアルゴリズムを開発でき、それによって、メンタルヘルスと幸福の促進のためのアプリケーションを開発することができることを示した。

This paper explores how artificial intelligence (AI) technology can contribute to achieve progress on good health and well-being, one of the United Nations' 17 Sustainable Development Goals. It is estimated that one in ten of the global population lived with a mental disorder. Inspired by studies showing that engaging and viewing beautiful natural images can make people feel happier and less stressful, lead to higher emotional well-being, and can even have therapeutic values, we explore how AI can help to promote mental health by developing automatic algorithms for finding beautiful and happy images. We first construct a large image database consisting of nearly 20K very high resolution colour photographs of natural scenes where each image is labelled with beautifulness and happiness scores by about 10 observers. Statistics of the database shows that there is a good correlation between the beautifulness and happiness scores which provides anecdotal evidence to corroborate that engaging beautiful natural images can potentially benefit mental well-being. Building on this unique database, the very first of its kind, we have developed a deep learning based model for automatically predicting the beautifulness and happiness scores of natural images. Experimental results are presented to show that it is possible to develop AI algorithms to automatically assess an image's beautifulness and happiness values which can in turn be used to develop applications for promoting mental health and well-being.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# ロボット犬によるガーベッジセグメンテーションと属性解析

Garbage Segmentation and Attribute Analysis by Robotic Dogs ( http://arxiv.org/abs/2404.18112v1 )

ライセンス: Link先を確認
Nuo Xu, Jianfeng Liao, Qiwei Meng, Wei Song, (参考訳) 効率的な廃棄物管理とリサイクルは、ゴミの探索と識別に大きく依存している。 本研究では, 四足歩行ロボットを自律的エージェントとして利用し, 多様な屋内・屋外環境における廃棄物処理とリサイクルの課題に対処する, GSA2Seg (Garbage Segmentation and Attribute Analysis) を提案する。 視覚センサーやインスタンスセグメンテーターなど、高度な視覚認識システムを備えたこのロボット犬は、周囲を精力的にナビゲートし、一般的なゴミを精力的に探す。 オープンボキャブラリアルゴリズムに着想を得て,オブジェクト属性解析のための革新的な手法を提案する。 ゴミのセグメンテーションと属性分析技術を組み合わせることで、ロボット犬は、その位置と配置特性を含むゴミの状態を正確に決定する。 この情報はロボットアームの把握能力を高め、ゴミの回収を成功させる。 さらに,評価を支援するためにGSA2Dという画像データセットを寄贈する。 本稿では, GSA2Dに関する広範な実験を通じて, GSA2Segの有効性を包括的に分析する。 データセット: \href{https://www.kaggle.com/datasets/hellob/gsa2d-2024}{https://www.kaggle.com/datasets/hellob/gsa2d-2024}

Efficient waste management and recycling heavily rely on garbage exploration and identification. In this study, we propose GSA2Seg (Garbage Segmentation and Attribute Analysis), a novel visual approach that utilizes quadruped robotic dogs as autonomous agents to address waste management and recycling challenges in diverse indoor and outdoor environments. Equipped with advanced visual perception system, including visual sensors and instance segmentators, the robotic dogs adeptly navigate their surroundings, diligently searching for common garbage items. Inspired by open-vocabulary algorithms, we introduce an innovative method for object attribute analysis. By combining garbage segmentation and attribute analysis techniques, the robotic dogs accurately determine the state of the trash, including its position and placement properties. This information enhances the robotic arm's grasping capabilities, facilitating successful garbage retrieval. Additionally, we contribute an image dataset, named GSA2D, to support evaluation. Through extensive experiments on GSA2D, this paper provides a comprehensive analysis of GSA2Seg's effectiveness. Dataset available: \href{https://www.kaggle.com/datasets/hellob/gsa2d-2024}{https://www.kaggle.com/datasets/hellob/gsa2d-2024}.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# 深層学習 : 画像テキストマッチングのための新しい協調的アプローチ

Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching ( http://arxiv.org/abs/2404.18114v1 )

ライセンス: Link先を確認
Haiwen Diao, Ying Zhang, Shang Gao, Xiang Ruan, Huchuan Lu, (参考訳) 画像テキストマッチングは、モダリティ間の不均一なセマンティックな多様性と、三重項内の距離分離性が不十分なため、依然として困難な課題である。 マルチモーダル表現の強化や、より正確な検索にクロスモーダル対応を活用することに焦点を当てた従来のアプローチとは違い、本稿では、ピアブランチ間の知識伝達を活用して、より強力なマッチングモデルを求めることを目的とする。 具体的には、新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。このアルゴリズムでは、まず、アンカーブランチがデータ特性に関する洞察を提供するために訓練され、ターゲットブランチは最適な特徴と距離メトリクスを開発するためにより高度な知識を得る。 具体的には、アンカーブランチは最初、正対と負対の絶対的あるいは相対的な距離を学習し、特定のネットワークとデータ分布の基本的な理解を提供する。 この知識に基づいて、ターゲットブランチは、一致したサンプルと未一致のサンプルの間の相対距離をさらに拡大するために、より適応的なマージン制約で同時にタスクされる。 画像テキストマッチング分野における様々な最先端モデルに基づいて,我々のDBLが印象的かつ一貫した改善を達成可能であること,また,従来型蒸留,相互学習,コントラスト学習など,一般的な協調戦略よりも優れていることを実証した。 さらに,DBLが学習シナリオにシームレスに統合され,同じ計算コストで優れた性能を達成できることを確認し,提案手法の柔軟性と幅広い適用性を実証した。 私たちのコードは、https://github.com/Paranioar/DBL.comで公開されています。

Image-text matching remains a challenging task due to heterogeneous semantic diversity across modalities and insufficient distance separability within triplets. Different from previous approaches focusing on enhancing multi-modal representations or exploiting cross-modal correspondence for more accurate retrieval, in this paper we aim to leverage the knowledge transfer between peer branches in a boosting manner to seek a more powerful matching model. Specifically, we propose a brand-new Deep Boosting Learning (DBL) algorithm, where an anchor branch is first trained to provide insights into the data properties, with a target branch gaining more advanced knowledge to develop optimal features and distance metrics. Concretely, an anchor branch initially learns the absolute or relative distance between positive and negative pairs, providing a foundational understanding of the particular network and data distribution. Building upon this knowledge, a target branch is concurrently tasked with more adaptive margin constraints to further enlarge the relative distance between matched and unmatched samples. Extensive experiments validate that our DBL can achieve impressive and consistent improvements based on various recent state-of-the-art models in the image-text matching field, and outperform related popular cooperative strategies, e.g., Conventional Distillation, Mutual Learning, and Contrastive Learning. Beyond the above, we confirm that DBL can be seamlessly integrated into their training scenarios and achieve superior performance under the same computational costs, demonstrating the flexibility and broad applicability of our proposed method. Our code is publicly available at: https://github.com/Paranioar/DBL.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# 部分コヒーレント光源における量子仮説検定の性能優位性

Performance advantage of quantum hypothesis testing for partially coherent optical sources ( http://arxiv.org/abs/2404.18120v1 )

ライセンス: Link先を確認
Jian-Dong Zhang, Kexin Zhang, Lili Hou, Shuai Wang, (参考訳) 興味領域における潜在的な光源の存在を決定することは、イメージングシステムにおいて重要であり、仮説テストを用いて達成できる。 前回の研究では、潜在的な情報源は完全に矛盾していると仮定した。 本稿では,この問題を部分的に一貫性のある情報源と事前確率を持つシナリオに一般化する。 我々は、量子ヘルストロームが有する誤差確率限界と、事前の確率に基づいて直接決定によって与えられる誤差確率を比較する。 これに基づいて、量子最適検出の利点と検出不要領域を解析する。 本稿では,2次元空間モードデマルチプレクシングを用いた特定の検出手法を提案する。 この戦略は、より優れた検出性能を示し、超解像顕微鏡および天文学的イメージングを実現するための可能性を秘めている。

Determining the presence of a potential optical source in the interest region is important for an imaging system and can be achieved by using hypothesis testing. The previous studies assume that the potential source is completely incoherent. In this paper, this problem is generalized to the scenario with partially coherent sources and any prior probabilities. We compare the error probability limit given by the quantum Helstrom bound with the error probability given by direct decision based on the prior probability. On this basis, the quantum-optimal detection advantage and detection-useless region are analyzed. For practical purposes, we propose a specific detection strategy using binary spatial-mode demultiplexing, which can be used in the scenarios without any prior information. This strategy shows superior detection performance and the results hold prospects for achieving super-resolved microscopic and astronomical imaging.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# 新型コロナウイルス接触追跡モバイルアプリレビューの大規模実証研究

A Large-Scale Empirical Study of COVID-19 Contact Tracing Mobile App Reviews ( http://arxiv.org/abs/2404.18125v1 )

ライセンス: Link先を確認
Sifat Ishmam Parisa, Md Awsaf Alam Anindya, Anindya Iqbal, Gias Uddin, (参考訳) 2020年の初めから、新型コロナウイルスの感染拡大が世界中を席巻している。 あらゆる国でスマートフォンが普及している今、多くの国が新型コロナウイルス(COVID-19)感染追跡アプリを開発した。 詳細な要求分析を行う通常のアプリとは異なり、慎重に設計された開発、厳格なテスト、連絡先追跡アプリは、迅速な開発後にデプロイされた。 したがって、こうしたアプリはエンドユーザー全員の期待に届かないかもしれない。 ユーザーはアプリストアでアプリの利用について意見や経験を共有している。 本論文は、新型コロナウイルスの接触追跡アプリのレビューでユーザが議論するトピックの種類を、アプリレビューを分析して理解することを目的としている。 世界中の34カ国で開発された35の接触追跡アプリのレビューをすべて収集した。 アプリレビューは、アジア、ヨーロッパ、北アメリカ、ラテンアメリカ、アフリカ、中東、オーストララシア(オーストラリアとNZ)の3つの地域に分けられます。 各リージョンのアプリレビューでトピックモデリングを実行しています。 我々は、生成したトピックとその進化を階層に分類し、トピックに関連するレビューのレーティングを計算することによって分析する。 プライバシーはこうしたアプリにとって問題になるかもしれないが、プライバシー関連のトピックは、オーストラレーシア、北米、中東でしか見つからない。 アプリケーションのユーザビリティとパフォーマンスに関するトピックは、すべてのリージョンで広まっています。 ユーザーがよく不満を言うのは、機能不足、ユーザーインターフェイス、モバイルバッテリーに対するアプリの悪影響だ。 それでも、多くのユーザーがこのアプリを称賛しているのは、感染の危険性を認識し続けるのを助けたからだ。 この調査の発見は、アプリの開発者が自分たちのリソースを利用して、報告された問題に優先順位付けされた方法で対処するのに役立つと期待されている。

Since the beginning of 2020, the novel coronavirus has begun to sweep across the globe. Given the prevalence of smartphones everywhere, many countries across continents also developed COVID-19 contract tracing apps that users can install to get a warning of potential contacts with infected people. Unlike regular apps that undergo detailed requirement analysis, carefully designed development, rigorous testing, contact tracing apps were deployed after rapid development. Therefore such apps may not reach expectations for all end users. Users share their opinions and experience of the usage of the apps in the app store. This paper aims to understand the types of topics users discuss in the reviews of the COVID-19 contact tracing apps across the continents by analyzing the app reviews. We collected all the reviews of 35 COVID-19 contact tracing apps developed by 34 countries across the globe. We group the app reviews into the following geographical regions: Asia, Europe, North America, Latin America, Africa, Middle East, and Australasia (Australia and NZ). We run topic modeling on the app reviews of each region. We analyze the produced topics and their evolution over time by categorizing them into hierarchies and computing the ratings of reviews related to the topics. While privacy could be a concern with such apps, we only find privacy-related topics in Australasia, North America, and Middle East. Topics related to usability and performance of the apps are prevalent across all regions. Users frequently complained about the lack of features, user interface and the negative impact of such apps on their mobile batteries. Still, we also find that many users praised the apps because they helped them stay aware of the potential danger of getting infected. The finding of this study is expected to help app developers utilize their resources to address the reported issues in a prioritized way.
翻訳日:2024-04-30 17:53:05 公開日:2024-04-28
# 量子力学的に放射されるブラックホールの熱力学の普遍性

Universality of the thermodynamics of a quantum-mechanically radiating black hole departing from thermality ( http://arxiv.org/abs/2404.18128v1 )

ライセンス: Link先を確認
Christian Corda, Carlo Cafaro, (参考訳) マチュールとメフタは2023年の重力研究財団エッセイコンペティションでブラックホール熱力学の普遍性を証明した3等賞を受賞した。 具体的には、ECO(Extremely Compact Object)は、ECOが事象の地平線を持つかどうかに関わらず、同じBH熱力学特性を持つ必要があることを示した。 結果は目覚ましいが、BH放射スペクトルが正確に熱特性を持つ近似の下で得られた。 実際、エネルギー保存とBHバック反応に基づく強い議論は、ホーキング放射のスペクトルが正確には熱ではないことを示唆している。 この研究では、マチュールとメフタの結果は、BH力学状態の概念を用いて放射スペクトルが正確に熱的でない場合に拡張される。

Mathur and Mehta won the third prize in the 2023 Gravity Research Foundation Essay Competition for proving the universality of black hole (BH) thermodynamics. Specifically, they demonstrated that any Extremely Compact Object (ECO) must have the same BH thermodynamic properties regardless of whether or not the ECO possesses an event horizon. The result is remarkable, but it was obtained under the approximation according to which the BH emission spectrum has an exactly thermal character. In fact, strong arguments based on energy conservation and BH back reaction imply that the spectrum of the Hawking radiation cannot be exactly thermal. In this work the result of Mathur and Mehta will be extended to the case where the radiation spectrum is not exactly thermal using the concept of BH dynamical state.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# Logic Agent: ロジックルール呼び出しによる妥当性向上

Logic Agent: Enhancing Validity with Logic Rule Invocation ( http://arxiv.org/abs/2404.18130v1 )

ライセンス: Link先を確認
Hanmeng Liu, Zhiyang Teng, Chaoli Zhang, Yue Zhang, (参考訳) CoT(Chain-of-Thought)プロンプトは、推論タスク中に言語モデルの推論能力を増強するための重要なテクニックとして登場した。 進歩にもかかわらず、CoTは推論の妥当性を検証し、情報提供性を確保するという課題に悩まされることが多い。 本稿では,Large Language Models (LLMs) における推論プロセスの有効性を高めるためのエージェントベースのフレームワークである Logic Agent (LA) を紹介する。 従来のアプローチとは異なり、LAはLLMを論理エージェントに変換し、命題論理規則を動的に適用し、自然言語入力を構造化論理形式に変換することによって推論プロセスを開始する。 論理エージェントは、事前定義された関数の包括的なセットを利用して、推論プロセスを体系的にナビゲートする。 この方法論は、構造的かつコヒーレントな推論構造の生成を促進するだけでなく、解釈可能性や論理的コヒーレンスを大幅に改善する。 広範な実験を通じて、LAが様々なモデルサイズで効果的にスケールできることを示し、多様なタスクにおける複雑な推論の精度を著しく向上させる。

Chain-of-Thought (CoT) prompting has emerged as a pivotal technique for augmenting the inferential capabilities of language models during reasoning tasks. Despite its advancements, CoT often grapples with challenges in validating reasoning validity and ensuring informativeness. Addressing these limitations, this paper introduces the Logic Agent (LA), an agent-based framework aimed at enhancing the validity of reasoning processes in Large Language Models (LLMs) through strategic logic rule invocation. Unlike conventional approaches, LA transforms LLMs into logic agents that dynamically apply propositional logic rules, initiating the reasoning process by converting natural language inputs into structured logic forms. The logic agent leverages a comprehensive set of predefined functions to systematically navigate the reasoning process. This methodology not only promotes the structured and coherent generation of reasoning constructs but also significantly improves their interpretability and logical coherence. Through extensive experimentation, we demonstrate LA's capacity to scale effectively across various model sizes, markedly improving the precision of complex reasoning across diverse tasks.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# FairVICを用いたニューラルネットワークの公平性向上

Enhancing Fairness in Neural Networks Using FairVIC ( http://arxiv.org/abs/2404.18134v1 )

ライセンス: Link先を確認
Charmaine Barker, Daniel Bethell, Dimitar Kazakov, (参考訳) 自動意思決定システム、特にディープラーニングモデルにおけるバイアスの緩和は、公平性を達成する上で重要な課題である。 この複雑さは、フェアネスのニュアンス定義、各データセットの独自のバイアス、フェアネスとモデルの正確性の間のトレードオフなどの要因に起因している。 このような問題に対処するために、トレーニング段階で固有のバイアスに対処することによって、ニューラルネットワークの公平性を高めるために設計された革新的アプローチであるFairVICを導入する。 FairVICは、データ前処理の段階でバイアスに対処する従来のアプローチとは異なる。 代わりに、分散、不変性、共分散を損失関数に統合し、予測を行うための保護特性へのモデルの依存を最小限に抑え、公正性を促進する。 実験と評価は、ニューラルネットワークをバイアスで知られている3つのデータセットでトレーニングし、その結果を最先端のアルゴリズムと比較し、モデルアーキテクチャの異なるサイズで評価し、公平さと精度のトレードオフを調べるための感度分析を実行する。 FairVICの実装を通じて、モデルの精度を有害な程度に向上させることなく、テスト対象のすべての指標に対するフェアネスの大幅な改善を観察した。 以上の結果から,FairVICはより公平なディープラーニングモデルを開発する上で,簡単かつアウトオブボックスなソリューションであり,多くのタスクやデータセットに適用可能な汎用的なソリューションを提供することが示唆された。

Mitigating bias in automated decision-making systems, specifically deep learning models, is a critical challenge in achieving fairness. This complexity stems from factors such as nuanced definitions of fairness, unique biases in each dataset, and the trade-off between fairness and model accuracy. To address such issues, we introduce FairVIC, an innovative approach designed to enhance fairness in neural networks by addressing inherent biases at the training stage. FairVIC differs from traditional approaches that typically address biases at the data preprocessing stage. Instead, it integrates variance, invariance and covariance into the loss function to minimise the model's dependency on protected characteristics for making predictions, thus promoting fairness. Our experimentation and evaluation consists of training neural networks on three datasets known for their biases, comparing our results to state-of-the-art algorithms, evaluating on different sizes of model architectures, and carrying out sensitivity analysis to examine the fairness-accuracy trade-off. Through our implementation of FairVIC, we observed a significant improvement in fairness across all metrics tested, without compromising the model's accuracy to a detrimental extent. Our findings suggest that FairVIC presents a straightforward, out-of-the-box solution for the development of fairer deep learning models, thereby offering a generalisable solution applicable across many tasks and datasets.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# SafePaint: ドメイン適応による反法医学的イメージの塗布

SafePaint: Anti-forensic Image Inpainting with Domain Adaptation ( http://arxiv.org/abs/2404.18136v1 )

ライセンス: Link先を確認
Dunyun Chen, Xin Liao, Xiaoshuai Wu, Shiwei Chen, (参考訳) 既存の画像塗装法は、しばしばより複雑な構造的テクスチャを生み出す傾向に伴って、視覚的に魅力的な結果を生み出すことで、優れた成果を上げている。 しかし、これらのモデルはよりリアルな画像コンテンツを作るのに優れていますが、しばしば目立った改ざんの痕跡を残し、セキュリティに重大な脅威をもたらします。 本研究は,まず, SafePaint と名づけられた反法医学的イメージペイントのためのエンドツーエンドのトレーニングフレームワークを提案することで, 反法医学的能力を考慮に入れた。 具体的には,画像のインパインティングを,意味論的に妥当なコンテンツ補完と領域最適化の2つの主要なタスクとして,革新的に定式化した。 前者は、破損した画像の欠落した領域を復元することを目的とした、現在の塗装法と似ている。 後者は、ドメイン適応を通じて、塗装された地域と修正されていない地域との間の不一致を和らげて、反法学的な目標を達成する試みである。 包括的理論的解析を通じて,抗法医学的パフォーマンスに対するドメイン適応の有効性を検証した。 さらに、我々は、我々の反法医学の目的と整合するだけでなく、モデルの性能を向上させるような、地域的に分離された注意(RWSA)モジュールを慎重に構築した。 広範に質的,定量的な評価を行った結果,既存の画像塗布法に匹敵する結果が得られた。

Existing image inpainting methods have achieved remarkable accomplishments in generating visually appealing results, often accompanied by a trend toward creating more intricate structural textures. However, while these models excel at creating more realistic image content, they often leave noticeable traces of tampering, posing a significant threat to security. In this work, we take the anti-forensic capabilities into consideration, firstly proposing an end-to-end training framework for anti-forensic image inpainting named SafePaint. Specifically, we innovatively formulated image inpainting as two major tasks: semantically plausible content completion and region-wise optimization. The former is similar to current inpainting methods that aim to restore the missing regions of corrupted images. The latter, through domain adaptation, endeavors to reconcile the discrepancies between the inpainted region and the unaltered area to achieve anti-forensic goals. Through comprehensive theoretical analysis, we validate the effectiveness of domain adaptation for anti-forensic performance. Furthermore, we meticulously crafted a region-wise separated attention (RWSA) module, which not only aligns with our objective of anti-forensics but also enhances the performance of the model. Extensive qualitative and quantitative evaluations show our approach achieves comparable results to existing image inpainting methods while offering anti-forensic capabilities not available in other methods.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# 変分量子アルゴリズムによるMageumdar-Ghoshスピンチェーンモデルの再検討とマックスカット問題

Revisiting Majumdar-Ghosh spin chain model and Max-cut problem using variational quantum algorithms ( http://arxiv.org/abs/2404.18142v1 )

ライセンス: Link先を確認
Britant, Anirban Pathak, (参考訳) 本研究では,MGMのエネルギー準位を雑音シミュレーションを用いて,雑音の中間スケールの量子フレームワークにおいて最大15スピン鎖まで解析する。 これは、相互作用係数の特定の選択で知られている正確な解を持つ有用なモデルである。 この解法は、複雑なスピン鎖モデルにおける量子相転移を理解するのに役立つため、正確に解ける条件以外の相互作用係数についてこのモデルを解いた。 これらの解は量子近似最適化アルゴリズム(QAOA)と変分量子固有解法(VQE)を用いて得られる。 解を得るために、一次元格子ネットワークはスピン間の必要な相互作用係数に対応するハミルトニアンに写像される。 そして、このハミルトニアンのエネルギー固有値はQAOAとVQEを用いて得られる。 さらに、MGMの文脈におけるリーブ=シュルツ=マティスの定理の妥当性は、MGMの最初の励起エネルギーを見つけるために変分量子デフレを用いて確立される。 また、17ノードに対する非重み付きマックスカットグラフの解もQAOAとVQEを用いて得られる。 ここでは変分量子アルゴリズムがマックスカット問題を再検討し、MGMはハイブリッドアルゴリズムであるため、古典的な最適化が必要である。 その結果、異なる種類の古典的オプティマイザを用いて得られた結果を比較し、QNSPSAオプティマイザがSPSAオプティマイザと比較してQAOAの収束性を改善することを示した。 しかし、SPSAオプティマイザを用いた効率のよいSU2アンサッツを持つVQEが最も良い結果が得られる。

In this work, energy levels of the Majumdar-Ghosh model (MGM) are analyzed up to 15 spins chain in the noisy intermediate-scale quantum framework using noisy simulations. This is a useful model whose exact solution is known for a particular choice of interaction coefficients. We have solved this model for interaction coefficients other than that required for the exactly solvable conditions as this solution can be of help in understanding the quantum phase transitions in complex spin chain models. The solutions are obtained using quantum approximate optimization algorithms (QAOA), and variational quantum eigensolver (VQE). To obtain the solutions, the one-dimensional lattice network is mapped to a Hamiltonian that corresponds to the required interaction coefficients among spins. Then, the ground states energy eigenvalue of this Hamiltonian is found using QAOA and VQE. Further, the validity of the Lieb-Schultz-Mattis theorem in the context of MGM is established by employing variational quantum deflation to find the first excited energy of MGM. Solution for an unweighted Max-cut graph for 17 nodes is also obtained using QAOA and VQE to know which one of these two techniques performs better in a combinatorial optimization problem. Since the variational quantum algorithms used here to revisit the Max-cut problem and MGM are hybrid algorithms, they require classical optimization. Consequently, the results obtained using different types of classical optimizers are compared to reveal that the QNSPSA optimizer improves the convergence of QAOA in comparison to the SPSA optimizer. However, VQE with EfficientSU2 ansatz using the SPSA optimizer yields the best results.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# オブジェクトの変換を追跡する: ベンチマーク

Tracking Transforming Objects: A Benchmark ( http://arxiv.org/abs/2404.18143v1 )

ライセンス: Link先を確認
You Wu, Yuelong Wang, Yaxin Liao, Fuliang Wu, Hengzhou Ye, Shuiwang Li, (参考訳) トランスフォーミングオブジェクトの追跡は多くの実世界のシナリオの動的な性質のため、様々な分野において重要な意味を持つ。 システムが時間とともに変換オブジェクトを正確に表現できるようにすることで、トランスフォーメーションオブジェクトの追跡は、自律システムや人間とコンピュータのインタラクション、セキュリティアプリケーションといった分野の進歩を促進する。 さらに、変換対象の振る舞いを理解することは、複雑な相互作用やプロセスに対する貴重な洞察を与え、動的環境における堅牢で適応的な知覚を実現できるインテリジェントシステムの開発に寄与する。 しかし、この分野における現在の研究は主にジェネリックオブジェクトの追跡に焦点を当てている。 本研究では、このギャップを、約9.3Kフレームの100のシーケンスを含むDTTOと呼ばれる、新しいデータ集合を収集することで橋渡しする。 これらのシーケンス内の各フレームに対して手書きのバウンディングボックスを慎重に提供し、DTTOは変換対象を追跡するための先駆的なベンチマークとなる。 我々は,既存の手法の性能の理解とDTTOの今後の研究との比較を目的として,20の最先端トラッカーをベンチマークで徹底的に評価した。 DTTOのリリースで私たちのゴールは、変換オブジェクトの追跡に関するさらなる研究と応用を促進することです。

Tracking transforming objects holds significant importance in various fields due to the dynamic nature of many real-world scenarios. By enabling systems accurately represent transforming objects over time, tracking transforming objects facilitates advancements in areas such as autonomous systems, human-computer interaction, and security applications. Moreover, understanding the behavior of transforming objects provides valuable insights into complex interactions or processes, contributing to the development of intelligent systems capable of robust and adaptive perception in dynamic environments. However, current research in the field mainly focuses on tracking generic objects. In this study, we bridge this gap by collecting a novel dedicated Dataset for Tracking Transforming Objects, called DTTO, which contains 100 sequences, amounting to approximately 9.3K frames. We provide carefully hand-annotated bounding boxes for each frame within these sequences, making DTTO the pioneering benchmark dedicated to tracking transforming objects. We thoroughly evaluate 20 state-of-the-art trackers on the benchmark, aiming to comprehend the performance of existing methods and provide a comparison for future research on DTTO. With the release of DTTO, our goal is to facilitate further research and applications related to tracking transforming objects.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# 可視化のためのジェネレーティブAI - 最先端と今後の方向性

Generative AI for Visualization: State of the Art and Future Directions ( http://arxiv.org/abs/2404.18144v1 )

ライセンス: Link先を確認
Yilin Ye, Jianing Hao, Yihan Hou, Zhan Wang, Shishi Xiao, Yuyu Luo, Wei Zeng, (参考訳) 生成AI(GenAI)は近年顕著な進歩を遂げており、コンピュータビジョンや計算設計など、さまざまな領域における様々な世代タスクにおいて顕著なパフォーマンスを示している。 多くの研究者がGenAIを視覚化フレームワークに統合しようと試みており、異なる操作に対して優れた生成能力を活用している。 同時に、GenAIの拡散モデルや大規模言語モデルといった最近の大きなブレークスルーも、GenAI4VISの可能性を劇的に高めている。 技術的観点からは、GenAIを活用したこれまでの可視化研究を振り返り、今後の研究の課題と機会について論じる。 具体的には、データ拡張、視覚マッピング生成、スタイリング、インタラクションの4つの主要なステージにまとめる、可視化の異なるタスクに対するシーケンス、表、空間、グラフ生成技術を含む、さまざまなタイプのGenAI手法の適用について述べる。 それぞれの可視化サブタスクに対して、最先端のGenAI4VIS技術とその制限を詳細に理解することを目的とした、典型的なデータおよび具体的なGenAIアルゴリズムについて説明する。 さらに,本調査に基づき,評価,データセット,エンド・ツー・エンドのGenAIと生成アルゴリズムのギャップなど,課題と研究機会の3つの主要な側面について論じる。 本稿では,世代別アルゴリズムとその応用と限界を要約することにより,今後のGenAI4VIS研究に有用な知見を提供する。

Generative AI (GenAI) has witnessed remarkable progress in recent years and demonstrated impressive performance in various generation tasks in different domains such as computer vision and computational design. Many researchers have attempted to integrate GenAI into visualization framework, leveraging the superior generative capacity for different operations. Concurrently, recent major breakthroughs in GenAI like diffusion model and large language model have also drastically increase the potential of GenAI4VIS. From a technical perspective, this paper looks back on previous visualization studies leveraging GenAI and discusses the challenges and opportunities for future research. Specifically, we cover the applications of different types of GenAI methods including sequence, tabular, spatial and graph generation techniques for different tasks of visualization which we summarize into four major stages: data enhancement, visual mapping generation, stylization and interaction. For each specific visualization sub-task, we illustrate the typical data and concrete GenAI algorithms, aiming to provide in-depth understanding of the state-of-the-art GenAI4VIS techniques and their limitations. Furthermore, based on the survey, we discuss three major aspects of challenges and research opportunities including evaluation, dataset, and the gap between end-to-end GenAI and generative algorithms. By summarizing different generation algorithms, their current applications and limitations, this paper endeavors to provide useful insights for future GenAI4VIS research.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# オープンサイエンスにおける分散ピアレビュー : メカニズムの提案

Decentralized Peer Review in Open Science: A Mechanism Proposal ( http://arxiv.org/abs/2404.18148v1 )

ライセンス: Link先を確認
Andreas Finke, Thomas Hensel, (参考訳) ピアレビューは、学術出版の一部であり、科学的努力に決定的な影響を与えている。 現在のインセンティブと透明性の欠如は、このプロセスの信頼性を損なう。 研究者の報酬は上等でもなく、悪評でも罰せられるものでもない。 さらに、機密報告は洞察の喪失を引き起こし、レビュープロセスを科学的な不正行為に対して脆弱にする。 我々は、コミュニティが所有し、統治するシステムを提案する。 1)レビュアーの努力を報酬する。 2) コミュニティによる監視に関する(匿名化された)報告を公表する。 3)レビュアーの評判と評価を追跡する。 4) デジタル証明書を提供する。 透明なスマートコントラクトブロックチェーン技術によって自動化され、誤った判断の機会と影響を低くしながら、ピアレビューの品質とスピードを向上させることを目指している。

Peer review is a laborious, yet essential, part of academic publishing with crucial impact on the scientific endeavor. The current lack of incentives and transparency harms the credibility of this process. Researchers are neither rewarded for superior nor penalized for bad reviews. Additionally, confidential reports cause a loss of insights and make the review process vulnerable to scientific misconduct. We propose a community-owned and -governed system that 1) remunerates reviewers for their efforts, 2) publishes the (anonymized) reports for scrutiny by the community, 3) tracks reputation of reviewers and 4) provides digital certificates. Automated by transparent smart-contract blockchain technology, the system aims to increase quality and speed of peer review while lowering the chance and impact of erroneous judgements.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# 3次元時空間軌道に基づく圧縮ディープフェイク映像検出

Compressed Deepfake Video Detection Based on 3D Spatiotemporal Trajectories ( http://arxiv.org/abs/2404.18149v1 )

ライセンス: Link先を確認
Zongmei Chen, Xin Liao, Xiaoshuai Wu, Yanxiang Chen, (参考訳) 悪質なアクターによるディープフェイク技術の誤用は、国家、社会、個人に潜在的な脅威をもたらす。 しかし、ディープフェイクを検出する既存の方法は、主にノイズ特性、局所テクスチャ、周波数統計などの圧縮されていないビデオに焦点を当てている。 圧縮ビデオに適用した場合、これらの手法は検出性能の低下を経験し、現実のシナリオには適さない。 本稿では,3次元時空間軌跡に基づくディープフェイク映像検出手法を提案する。 具体的には、ロバストな3次元モデルを用いて時空間運動特性を構築し、2次元フレームと3次元フレームの両方の特徴の詳細を統合し、大きな頭部回転角やフレーム内の照明不足の影響を軽減する。 さらに, 頭部の動きから表情を分離し, 位相空間運動軌跡に基づく逐次解析手法を設計し, ディープフェイクビデオにおける顔と偽の顔の特徴差を探索する。 提案手法を圧縮したディープフェイクベンチマークで評価するために, 広範囲な実験を行った。 本手法は,映像圧縮前後の顔のランドマークの連続分布を計算し,そのロバスト性を検証し,その有効性を実証する。

The misuse of deepfake technology by malicious actors poses a potential threat to nations, societies, and individuals. However, existing methods for detecting deepfakes primarily focus on uncompressed videos, such as noise characteristics, local textures, or frequency statistics. When applied to compressed videos, these methods experience a decrease in detection performance and are less suitable for real-world scenarios. In this paper, we propose a deepfake video detection method based on 3D spatiotemporal trajectories. Specifically, we utilize a robust 3D model to construct spatiotemporal motion features, integrating feature details from both 2D and 3D frames to mitigate the influence of large head rotation angles or insufficient lighting within frames. Furthermore, we separate facial expressions from head movements and design a sequential analysis method based on phase space motion trajectories to explore the feature differences between genuine and fake faces in deepfake videos. We conduct extensive experiments to validate the performance of our proposed method on several compressed deepfake benchmarks. The robustness of the well-designed features is verified by calculating the consistent distribution of facial landmarks before and after video compression.Our method yields satisfactory results and showcases its potential for practical applications.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# RadSimReal: レーダ物体検出における合成データと実データとのギャップをシミュレーションで埋める

RadSimReal: Bridging the Gap Between Synthetic and Real Data in Radar Object Detection With Simulation ( http://arxiv.org/abs/2404.18150v1 )

ライセンス: Link先を確認
Oded Bialer, Yuval Haitman, (参考訳) ニューラルネットワークを用いたレーダ画像の物体検出は、自律運転を改善する大きな可能性を示している。 しかし、これらのネットワークの訓練に欠かせない実際のレーダー画像から注釈付きデータセットを取得することは、特に長距離検出や悪天候、レーダー性能が優れている照明条件のシナリオでは困難である。 この課題に対処するために,RadSimRealを提案する。RadSimRealは,様々なレーダタイプや環境条件のアノテーションを伴って合成レーダ画像を生成することができる,革新的な物理レーダシミュレーションである。 注目すべきは、RadSimRealデータ上でオブジェクト検出モデルをトレーニングし、実際のデータ上で評価することで、同じデータセットから実際のデータ上でトレーニングおよびテストされたモデルに匹敵するパフォーマンスレベルが得られ、また、異なる実際のデータセットをまたいでテストする際のパフォーマンスも向上するということです。 RadSimRealは他の物理レーダーシミュレーションに比べて利点があり、レーダー設計の詳細に関する知識は必要ない。 この革新的なツールは、レーダーベースの自動運転アプリケーションのためのコンピュータビジョンアルゴリズムの開発を前進させる可能性がある。

Object detection in radar imagery with neural networks shows great potential for improving autonomous driving. However, obtaining annotated datasets from real radar images, crucial for training these networks, is challenging, especially in scenarios with long-range detection and adverse weather and lighting conditions where radar performance excels. To address this challenge, we present RadSimReal, an innovative physical radar simulation capable of generating synthetic radar images with accompanying annotations for various radar types and environmental conditions, all without the need for real data collection. Remarkably, our findings demonstrate that training object detection models on RadSimReal data and subsequently evaluating them on real-world data produce performance levels comparable to models trained and tested on real data from the same dataset, and even achieves better performance when testing across different real datasets. RadSimReal offers advantages over other physical radar simulations that it does not necessitate knowledge of the radar design details, which are often not disclosed by radar suppliers, and has faster run-time. This innovative tool has the potential to advance the development of computer vision algorithms for radar-based autonomous driving applications.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# 視覚変換器の解釈性向上機構としてのマスケインテンション

Masked Attention as a Mechanism for Improving Interpretability of Vision Transformers ( http://arxiv.org/abs/2404.18152v1 )

ライセンス: Link先を確認
Clément Grisi, Geert Litjens, Jeroen van der Laak, (参考訳) 視覚トランスフォーマーは、現在の病理病理学の基礎モデルへの関心の高まりの中心にある。 コンテンツに関係なく、通常のグリッドに従って小さなパッチに分割することで、イメージを処理します。 しかし、画像のすべての部分が、その理解に等しく関係しているわけではない。 これは、背景は完全に非形式的であり、予測を誤解させる可能性のある人工物を導入することができる計算病理学において特に当てはまる。 この問題に対処するために,視覚変換器の注意機構の背景を暗黙的に隠蔽する新しい手法を提案する。 これにより、背景パッチに対応するトークンが最終的なイメージ表現に寄与しないことが保証され、モデルの堅牢性と解釈可能性が改善される。 本研究は,前立腺癌による全スライディング画像からの悪性度評価を事例として検討した。 以上の結果から,より正確で臨床的に意味のある熱マップを提供するとともに,自己注意と同等の性能を達成できることが示唆された。

Vision Transformers are at the heart of the current surge of interest in foundation models for histopathology. They process images by breaking them into smaller patches following a regular grid, regardless of their content. Yet, not all parts of an image are equally relevant for its understanding. This is particularly true in computational pathology where background is completely non-informative and may introduce artefacts that could mislead predictions. To address this issue, we propose a novel method that explicitly masks background in Vision Transformers' attention mechanism. This ensures tokens corresponding to background patches do not contribute to the final image representation, thereby improving model robustness and interpretability. We validate our approach using prostate cancer grading from whole-slide images as a case study. Our results demonstrate that it achieves comparable performance with plain self-attention while providing more accurate and clinically meaningful attention heatmaps.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# あいまいな言語を説明する

Explaining vague language ( http://arxiv.org/abs/2404.18154v1 )

ライセンス: Link先を確認
Paul Égré, Benjamin Spector, (参考訳) なぜ言語はあいまいか? 曖昧な言語が正確な言語よりも話し手や聞き手にとって有用であることを示すことができれば、曖昧さは説明され合理化されうる。 良く知られた論文で、リップマンは混合戦略の観点から曖昧さのゲーム理論的な説明を提案し、これはパズルに繋がる:曖昧さは平衡における精度よりも厳密には良いものではない。 最近では、'Egr\'e、Spector、Mortier、Verheyenが、曖昧さについてベイズ語の説明を提出し、曖昧な言葉を使うことは正確な単語を使うよりも厳密な情報になり得ると結論付けている。 本稿では,両結果を比較し,矛盾しない理由を説明する。 Lipmanの曖昧さの定義は、レキシコンについて仮定することなく、信号戦略の特性にのみ依存するが、 \'Egr\'e et al's は意味的内容の層を含んでいる。 あいまいさのセマンティックな説明は必要であり、あいまいさのより適切かつ説明的説明が必要であると論じる。

Why is language vague? Vagueness may be explained and rationalized if it can be shown that vague language is more useful to speaker and hearer than precise language. In a well-known paper, Lipman proposes a game-theoretic account of vagueness in terms of mixed strategy that leads to a puzzle: vagueness cannot be strictly better than precision at equilibrium. More recently, \'Egr\'e, Spector, Mortier and Verheyen have put forward a Bayesian account of vagueness establishing that using vague words can be strictly more informative than using precise words. This paper proposes to compare both results and to explain why they are not in contradiction. Lipman's definition of vagueness relies exclusively on a property of signaling strategies, without making any assumptions about the lexicon, whereas \'Egr\'e et al.'s involves a layer of semantic content. We argue that the semantic account of vagueness is needed, and more adequate and explanatory of vagueness.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# ShapeMoiré: 画像復号のためのチャンネルワイズ形状誘導ネットワーク

ShapeMoiré: Channel-Wise Shape-Guided Network for Image Demoiréing ( http://arxiv.org/abs/2404.18155v1 )

ライセンス: Link先を確認
Jinming Cao, Sicheng Shen, Qiu Zhou, Yifang Yin, Yangyan Li, Roger Zimmermann, (参考訳) 光電子ディスプレイは、しばしばディスプレイのピクセルグリッドとカメラセンサーアレイの間のアナログ信号干渉による望ましくないモワールパターンを導入する。 この研究は、既存の画像デモアで無視されている2つの問題を特定する。 1) moir\'e パターンは異なるチャネル (RGB) によって異なる。 2)繰り返しパターンが常に観察される。 しかし、従来の畳み込み層(CNN)はこれらの問題に対処できない。 そこで本研究では,最近提案した形状概念について述べる。 もともとは、RGB-D画像に同一または類似のオブジェクトが共存する場合に、断片化された領域から一貫した特徴をモデル化するために使用された。 興味深いことに、形状情報はアーティファクト画像中のmoir\'eパターンを効果的にキャプチャする。 この発見に触発され,画像復号を支援するShapeMoir\'e法を提案する。 パッチレベルでの形状特徴のモデリング以外にも、これをグローバルな画像レベルにまで拡張し、新しい形状アーキテクチャを設計する。 その結果,提案手法はShapeConvとShape-Architectureの両方を備えており,推論中に新たなパラメータや計算オーバーヘッドを導入することなく,既存のアプローチにシームレスに統合することができる。 我々は4つの広く使われているデータセットについて広範な実験を行い、その結果、特にPSNR測定値の観点から、我々のShapeMoir\eが最先端のパフォーマンスを達成することを示した。 次に、この手法を4つの一般的なアーキテクチャに適用し、その一般化能力を実証する。 さらに、私たちのShapeMoir\'eは、スマートフォンの写真を含む現実のデモア\'eingシナリオの下で、堅牢で実行可能です。

Photographing optoelectronic displays often introduces unwanted moir\'e patterns due to analog signal interference between the pixel grids of the display and the camera sensor arrays. This work identifies two problems that are largely ignored by existing image demoir\'eing approaches: 1) moir\'e patterns vary across different channels (RGB); 2) repetitive patterns are constantly observed. However, employing conventional convolutional (CNN) layers cannot address these problems. Instead, this paper presents the use of our recently proposed Shape concept. It was originally employed to model consistent features from fragmented regions, particularly when identical or similar objects coexist in an RGB-D image. Interestingly, we find that the Shape information effectively captures the moir\'e patterns in artifact images. Motivated by this discovery, we propose a ShapeMoir\'e method to aid in image demoir\'eing. Beyond modeling shape features at the patch-level, we further extend this to the global image-level and design a novel Shape-Architecture. Consequently, our proposed method, equipped with both ShapeConv and Shape-Architecture, can be seamlessly integrated into existing approaches without introducing additional parameters or computation overhead during inference. We conduct extensive experiments on four widely used datasets, and the results demonstrate that our ShapeMoir\'e achieves state-of-the-art performance, particularly in terms of the PSNR metric. We then apply our method across four popular architectures to showcase its generalization capabilities. Moreover, our ShapeMoir\'e is robust and viable under real-world demoir\'eing scenarios involving smartphone photographs.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# エッジガイド型モーションリファインメントを用いたイベントベースビデオフレーム補間

Event-based Video Frame Interpolation with Edge Guided Motion Refinement ( http://arxiv.org/abs/2404.18156v1 )

ライセンス: Link先を確認
Yuhan Liu, Yongjian Deng, Hao Chen, Bochen Xie, Youfu Li, Zhen Yang, (参考訳) 連続ビデオフレーム間で中間フレームを合成する過程であるビデオフレーム補間は,イベントカメラを用いることで顕著な進歩を遂げた。 マイクロ秒レベルの時間分解能を持つこれらのセンサーは、正確なモーションキューを提供することで、フレーム間の情報ギャップを埋める。 しかし、現代のイベントベースビデオフレーム補間(E-VFI)技術は、イベントデータがマルチモーダルな特徴融合の間、シーンエッジの高信頼な特徴を主に供給しているという事実を無視することが多く、それによって光フロー推定やワープ精細化におけるイベント信号の役割を低下させる。 この見落としに対処するために,イベント信号のエッジ特徴を効率よく活用するエンドツーエンドのE-VFI学習手法(EGMR)を導入する。 提案手法では,マルチモーダル特徴の局所的相関に基づいて,暗黙の集約によって推定された映像の動きを補正するEdge Guided Attentive (EGA)モジュールを組み込んだ。 さらに,連続するフレーム間のシーンエッジにおいて,イベントデータが正確な視覚的参照を提供できることを考慮し,イベントデータから学習された可視マップを導入して,ワーピング精錬プロセスにおける閉塞問題を適応的に緩和する。 合成データセットと実データセットの両方に対する大規模な実験は、提案手法の有効性を示し、高品質なビデオフレーム補間の可能性を示している。

Video frame interpolation, the process of synthesizing intermediate frames between sequential video frames, has made remarkable progress with the use of event cameras. These sensors, with microsecond-level temporal resolution, fill information gaps between frames by providing precise motion cues. However, contemporary Event-Based Video Frame Interpolation (E-VFI) techniques often neglect the fact that event data primarily supply high-confidence features at scene edges during multi-modal feature fusion, thereby diminishing the role of event signals in optical flow (OF) estimation and warping refinement. To address this overlooked aspect, we introduce an end-to-end E-VFI learning method (referred to as EGMR) to efficiently utilize edge features from event signals for motion flow and warping enhancement. Our method incorporates an Edge Guided Attentive (EGA) module, which rectifies estimated video motion through attentive aggregation based on the local correlation of multi-modal features in a coarse-to-fine strategy. Moreover, given that event data can provide accurate visual references at scene edges between consecutive frames, we introduce a learned visibility map derived from event data to adaptively mitigate the occlusion problem in the warping refinement process. Extensive experiments on both synthetic and real datasets show the effectiveness of the proposed approach, demonstrating its potential for higher quality video frame interpolation.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# 機械学習モデルを用いた加速度計データからのふくらはぎ行動分類のためのROCKETとCatch22の特徴評価

Evaluating ROCKET and Catch22 features for calf behaviour classification from accelerometer data using Machine Learning models ( http://arxiv.org/abs/2404.18159v1 )

ライセンス: Link先を確認
Oshana Dissanayakea, Sarah E. McPhersonc, Joseph Allyndree, Emer Kennedy, Padraig Cunningham, Lucile Riaboff, (参考訳) 子牛の行動を継続的にモニタリングすることは、乳牛の養殖に影響を及ぼす日常的な習慣(例えば、雑草、くちばしなど)を特定する上で有益である。 その点において、首首首から収集した加速度計データと機械学習モデルを使用して、自動的にふくらはぎの振る舞いを分類することができる。 手作りの機能は機械学習モデルで一般的に使用されるが、ROCKETとCatch22の機能は関連分野の時系列分類問題に特化して設計されている。 本研究の目的は,ROCKETとCatch22の機能とハンドクラフト機能の比較である。 アイルランドのホルスタイン・フリーシアンとジャージーの30頭が加速度センサで監視され、27.4時間の注釈付き行動が可能となった。 生のX、Y、Z軸から追加の時系列を計算し、3秒の時間ウィンドウに分割した。 ROCKET、Catch22、Hand-Craftedの機能はタイムウィンドウ毎に計算され、データセットは列車、検証、テストセットに分割された。 それぞれの機能セットは、3つの機械学習モデル(Random Forest、eXtreme Gradient Boosting、RideClassifierCV)をトレーニングするために使われました。 モデルが検証セットで調整され,各特徴モデルの組み合わせの性能がテストセットで評価された。 ROCKET (平均平衡精度+/-標準偏差) (0.70 +/-0.07)、Catch22 (0.69 +/-0.05) がハンドクラフト (0.65 +/-0.034) を上回った。 最もバランスの取れた精度 (0.77) はROCKET と Ridge ClassifierCV で得られ、次に Catch22 と Random Forest (0.73) が続いた。 したがって、これらのアプローチを特定の行動や状況に合わせることは、畜産の精密化と動物福祉の大規模化に不可欠である。

Monitoring calf behaviour continuously would be beneficial to identify routine practices (e.g., weaning, dehorning, etc.) that impact calf welfare in dairy farms. In that regard, accelerometer data collected from neck collars can be used along with Machine Learning models to classify calf behaviour automatically. Hand-crafted features are commonly used in Machine Learning models, while ROCKET and Catch22 features are specifically designed for time-series classification problems in related fields. This study aims to compare the performance of ROCKET and Catch22 features to Hand-Crafted features. 30 Irish Holstein Friesian and Jersey pre-weaned calves were monitored using accelerometer sensors allowing for 27.4 hours of annotated behaviors. Additional time-series were computed from the raw X, Y and Z-axis and split into 3-second time windows. ROCKET, Catch22 and Hand-Crafted features were calculated for each time window, and the dataset was then split into the train, validation and test sets. Each set of features was used to train three Machine Learning models (Random Forest, eXtreme Gradient Boosting, and RidgeClassifierCV) to classify six behaviours indicative of pre-weaned calf welfare (drinking milk, grooming, lying, running, walking and other). Models were tuned with the validation set, and the performance of each feature-model combination was evaluated with the test set. The best performance across the three models was obtained with ROCKET [average balanced accuracy +/- standard deviation] (0.70 +/- 0.07), followed by Catch22 (0.69 +/- 0.05), surpassing Hand-Crafted (0.65 +/- 0.034). The best balanced accuracy (0.77) was obtained with ROCKET and RidgeClassifierCV, followed by Catch22 and Random Forest (0.73). Thus, tailoring these approaches for specific behaviours and contexts will be crucial in advancing precision livestock farming and enhancing animal welfare on a larger scale.
翻訳日:2024-04-30 17:43:14 公開日:2024-04-28
# IMEX-Reg:連続学習のための関数空間における暗黙の規則化

IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning ( http://arxiv.org/abs/2404.18161v1 )

ライセンス: Link先を確認
Prashant Bhat, Bharath Renjith, Elahe Arani, Bahram Zonooz, (参考訳) 連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。 リハーサルベースのアプローチは破滅的な忘れを緩和するのにかなり成功したが、バッファリングされたサンプルの過度な適合と事前の情報損失に悩まされ、低バッファー条件下での一般化を妨げている。 低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。 具体的には、コントラスト表現学習(CRL)と一貫性正規化を用いた2段階の暗黙的-明示的正規化手法を用いる。 CRLを用いて学習した表現間のグローバルな関係をさらに活用するために,CRLの単位超球面における活性化相関に対して分類器を誘導する正規化戦略を提案する。 その結果、IMEX-Regは一般化性能を大幅に向上し、複数のCLシナリオにおいてリハーサルベースのアプローチよりも優れていた。 また、自然および敵対的な汚職に対して、タスク・レシーシのバイアスが少なくて堅牢である。 さらに、設計決定をさらに支援するための理論的洞察も提供します。

Continual learning (CL) remains one of the long-standing challenges for deep neural networks due to catastrophic forgetting of previously acquired knowledge. Although rehearsal-based approaches have been fairly successful in mitigating catastrophic forgetting, they suffer from overfitting on buffered samples and prior information loss, hindering generalization under low-buffer regimes. Inspired by how humans learn using strong inductive biases, we propose IMEX-Reg to improve the generalization performance of experience rehearsal in CL under low buffer regimes. Specifically, we employ a two-pronged implicit-explicit regularization approach using contrastive representation learning (CRL) and consistency regularization. To further leverage the global relationship between representations learned using CRL, we propose a regularization strategy to guide the classifier toward the activation correlations in the unit hypersphere of the CRL. Our results show that IMEX-Reg significantly improves generalization performance and outperforms rehearsal-based approaches in several CL scenarios. It is also robust to natural and adversarial corruptions with less task-recency bias. Additionally, we provide theoretical insights to support our design decisions further.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 量子エントロピー生成の熱力学的不確実性関係

Thermodynamic uncertainty relation for quantum entropy production ( http://arxiv.org/abs/2404.18163v1 )

ライセンス: Link先を確認
Domingos S. P. Salazar, (参考訳) 量子熱力学において、エントロピー生成は通常、2つの状態の間の量子相対エントロピーによって定義される。 我々は、量子可観測物の平均と分散の観点から量子エントロピー生成の低い境界を導き、エントロピー生成の熱力学的不確実性関係(TUR)と呼ぶ。 両状態間のコヒーレンスがない場合には, 確率的熱力学において古典的TURを再現する。 TURの導出には、2つの状態間の$\chi^2$分散の量子一般化の低い境界を導入し、その確率的および量子熱力学への含意と、それが量子クラム・ラオ不等式を再現する極限ケースについて議論する。

In quantum thermodynamics, entropy production is usually defined in terms of the quantum relative entropy between two states. We derive a lower bound for the quantum entropy production in terms of the mean and variance of quantum observables, which we will refer to as a thermodynamic uncertainty relation (TUR) for the entropy production. In the absence of coherence between the states, our result reproduces classic TURs in stochastic thermodynamics. For the derivation of the TUR, we introduce a lower bound for a quantum generalization of the $\chi^2$ divergence between two states and discuss its implications for stochastic and quantum thermodynamics, as well as the limiting case where it reproduces the quantum Cram\'er-Rao inequality.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# Mamba-FETrack:状態空間モデルによるフレームイベント追跡

Mamba-FETrack: Frame-Event Tracking via State Space Model ( http://arxiv.org/abs/2404.18174v1 )

ライセンス: Link先を確認
Ju Huang, Shiao Wang, Shuai Wang, Zhe Wu, Xiao Wang, Bo Jiang, (参考訳) RGB-Eventベースのトラッキングは、異種マルチモーダルデータ(同期露光ビデオフレームと非同期パルスイベントストリーム)を効果的に統合する方法に焦点を当てた、新たな研究トピックである。 既存の作業は通常、Transformerベースのネットワークを使用して、これらのモダリティを処理し、複数のデータセット上の入力レベルまたは機能レベルの融合を通じて、適切な精度を達成する。 しかし、これらのトラッカーは、自己注意機構を使用するため、メモリ消費と計算の複雑さがかなり必要である。 本稿では,SSM(State Space Model)に基づく新しいRGBイベント追跡フレームワークであるMamba-FETrackを提案し,計算コストを効果的に削減し,より効率的なトラッキングを実現する。 具体的には、RGBフレームとイベントストリームの特徴を抽出するために、2つのモダリティ固有のMambaバックボーンネットワークを採用する。 また,Mamba ネットワークを用いた RGB と Event の機能間の対話的学習を促進することを提案する。 融合した機能は、ターゲットオブジェクトのローカライゼーションのためにトラッキングヘッドに入力される。 FELTとFE108データセットの大規模な実験により、提案したトラッカーの有効性と有効性を完全に検証した。 具体的には、我々のMambaベースのトラッカーはSR/PRで43.5/55.6、ViT-Sベースのトラッカー(OSTrack)は40.0/50.9である。 当社とViT-SベースのトラッカーのGPUメモリコストは13.98GBと15.44GBであり、約9.5\%$を下げた。 FLOPとOSTrackのパラメータは59GB/1076GBと7MB/60MBであり、それぞれ約94.5\%$と8.3\%$が減少した。 この研究がトラッキング分野に新たな洞察をもたらし、トラッキングにおけるMambaアーキテクチャの適用を大幅に促進することを期待しています。 この作業のソースコードは \url{https://github.com/Event-AHU/Mamba_FETrack} で公開される。

RGB-Event based tracking is an emerging research topic, focusing on how to effectively integrate heterogeneous multi-modal data (synchronized exposure video frames and asynchronous pulse Event stream). Existing works typically employ Transformer based networks to handle these modalities and achieve decent accuracy through input-level or feature-level fusion on multiple datasets. However, these trackers require significant memory consumption and computational complexity due to the use of self-attention mechanism. This paper proposes a novel RGB-Event tracking framework, Mamba-FETrack, based on the State Space Model (SSM) to achieve high-performance tracking while effectively reducing computational costs and realizing more efficient tracking. Specifically, we adopt two modality-specific Mamba backbone networks to extract the features of RGB frames and Event streams. Then, we also propose to boost the interactive learning between the RGB and Event features using the Mamba network. The fused features will be fed into the tracking head for target object localization. Extensive experiments on FELT and FE108 datasets fully validated the efficiency and effectiveness of our proposed tracker. Specifically, our Mamba-based tracker achieves 43.5/55.6 on the SR/PR metric, while the ViT-S based tracker (OSTrack) obtains 40.0/50.9. The GPU memory cost of ours and ViT-S based tracker is 13.98GB and 15.44GB, which decreased about $9.5\%$. The FLOPs and parameters of ours/ViT-S based OSTrack are 59GB/1076GB and 7MB/60MB, which decreased about $94.5\%$ and $88.3\%$, respectively. We hope this work can bring some new insights to the tracking field and greatly promote the application of the Mamba architecture in tracking. The source code of this work will be released on \url{https://github.com/Event-AHU/Mamba_FETrack}.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 簡易な生成表現を用いた画質評価

Assessing Image Quality Using a Simple Generative Representation ( http://arxiv.org/abs/2404.18178v1 )

ライセンス: Link先を確認
Simon Raviv, Gal Chechik, (参考訳) 知覚画像品質評価(IQA)は、人間の観察者によって知覚される画像の視覚的品質を予測するタスクである。 現在の最先端技術は、差別的に訓練された深い表現に基づいている。 このような表現は、クラスラベルを予測していない場合、視覚的に重要な特徴を無視してもよい。 最近の生成モデルは、オートエンコーディングを用いて低次元表現をうまく学習し、より良い視覚的特徴を維持するために議論されてきた。 本稿では,既存のオートエンコーダを活用し,完全な参照が存在する場合の画質を簡易かつ効率的に予測する方法であるVAE-QAを提案する。 4つの標準ベンチマークでアプローチを評価し、データセット間の一般化を大幅に改善し、トレーニング可能なパラメータを少なくし、メモリフットプリントを小さくし、実行時間を短縮する。

Perceptual image quality assessment (IQA) is the task of predicting the visual quality of an image as perceived by a human observer. Current state-of-the-art techniques are based on deep representations trained in discriminative manner. Such representations may ignore visually important features, if they are not predictive of class labels. Recent generative models successfully learn low-dimensional representations using auto-encoding and have been argued to preserve better visual features. Here we leverage existing auto-encoders and propose VAE-QA, a simple and efficient method for predicting image quality in the presence of a full-reference. We evaluate our approach on four standard benchmarks and find that it significantly improves generalization across datasets, has fewer trainable parameters, a smaller memory footprint and faster run time.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# EkoHate:ナイジェリアのTwitter上でのコード変更による政治討論のための乱用言語とヘイトスピーチ検出

EkoHate: Abusive Language and Hate Speech Detection for Code-switched Political Discussions on Nigerian Twitter ( http://arxiv.org/abs/2404.18180v1 )

ライセンス: Link先を確認
Comfort Eseohen Ilevbare, Jesujoba O. Alabi, David Ifeoluwa Adelani, Firdous Damilola Bakare, Oluwatoyin Bunmi Abiola, Oluwaseyi Adesina Adeyemo, (参考訳) ナイジェリア人は著名なオンライン存在であり、政治や話題の問題を積極的に議論している。 これは2023年の総選挙で特に顕著で、Twitterは選挙運動、事実確認、検証、さらには肯定的かつ否定的な発言に使われた。 しかし、ナイジェリアにおける虐待的な言語や憎悪の言葉の検出は、ほとんど、あるいは全く行われていない。 本稿では、ナイジェリアで最も人口が多く、経済的に活発な州であるラゴス州で、州知事選挙の3人のマスケターに向け、コード変更されたTwitterデータを収集した。 EkoHateは、3人の候補者とそのフォロワー間の政治的議論のための虐待的言語でヘイトスピーチデータセットで、バイナリ(正規対攻撃)ときめ細かい4ラベルのアノテーションスキームを使って開発しました。 我々は、データセットを分析し、教師付きおよび言語間移動学習設定の両方で最先端の手法を実証的に評価した。 教師付き設定では,2進法と4進法の両方で評価した結果,それぞれ95.1点,70.3点のF1点を達成できた。 さらに、我々のデータセットは、米国などの他の地域での政治的議論に一般化した、公開可能な3つの攻撃的データセット(OLID、HateUS2020、FontaHate)に適切に転送されていることを示す。

Nigerians have a notable online presence and actively discuss political and topical matters. This was particularly evident throughout the 2023 general election, where Twitter was used for campaigning, fact-checking and verification, and even positive and negative discourse. However, little or none has been done in the detection of abusive language and hate speech in Nigeria. In this paper, we curated code-switched Twitter data directed at three musketeers of the governorship election on the most populous and economically vibrant state in Nigeria; Lagos state, with the view to detect offensive speech in political discussions. We developed EkoHate -- an abusive language and hate speech dataset for political discussions between the three candidates and their followers using a binary (normal vs offensive) and fine-grained four-label annotation scheme. We analysed our dataset and provided an empirical evaluation of state-of-the-art methods across both supervised and cross-lingual transfer learning settings. In the supervised setting, our evaluation results in both binary and four-label annotation schemes show that we can achieve 95.1 and 70.3 F1 points respectively. Furthermore, we show that our dataset adequately transfers very well to three publicly available offensive datasets (OLID, HateUS2020, and FountaHate), generalizing to political discussions in other regions like the US.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 銀行信用リスクマネジメントにおける人工知能技術の革新的活用

Innovative Application of Artificial Intelligence Technology in Bank Credit Risk Management ( http://arxiv.org/abs/2404.18183v1 )

ライセンス: Link先を確認
Shuochen Bi, Wenqing Bao, (参考訳) 技術の急速な成長、特に人工知能(AI)技術の普及により、商業銀行のリスク管理レベルは、常に新たな高水準に達している。 現在のデジタル化の波の中で、AIは金融機関、特に銀行業界における戦略的変革の重要な推進力となっている。 商業銀行にとって、資産品質の安定性と安全性は極めて重要であり、銀行の長期安定成長に直接関係している。 特に信用リスク管理は、大量の資金の流れと信用決定の正確さが関係しているため、特に中核である。 したがって、科学的かつ効果的な信用リスク決定機構の確立は、商業銀行にとって大きな戦略的重要性を持つ。 この文脈で、AI技術の革新的な応用は、銀行の信用リスク管理に革命をもたらした。 ディープラーニングとビッグデータ分析によって、AIは借り手の信用状況を正確に評価し、潜在的なリスクをタイムリーに特定し、銀行により正確で包括的な信用決定支援を提供する。 同時に、AIはリアルタイム監視と早期警告を達成でき、リスクが発生する前に銀行が介入し、損失を減らすことができる。

With the rapid growth of technology, especially the widespread application of artificial intelligence (AI) technology, the risk management level of commercial banks is constantly reaching new heights. In the current wave of digitalization, AI has become a key driving force for the strategic transformation of financial institutions, especially the banking industry. For commercial banks, the stability and safety of asset quality are crucial, which directly relates to the long-term stable growth of the bank. Among them, credit risk management is particularly core because it involves the flow of a large amount of funds and the accuracy of credit decisions. Therefore, establishing a scientific and effective credit risk decision-making mechanism is of great strategic significance for commercial banks. In this context, the innovative application of AI technology has brought revolutionary changes to bank credit risk management. Through deep learning and big data analysis, AI can accurately evaluate the credit status of borrowers, timely identify potential risks, and provide banks with more accurate and comprehensive credit decision support. At the same time, AI can also achieve realtime monitoring and early warning, helping banks intervene before risks occur and reduce losses.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 大規模言語モデルに基づくRe-Rankingのためのランク付きリストトランケーション

Ranked List Truncation for Large Language Model-based Re-Ranking ( http://arxiv.org/abs/2404.18185v1 )

ライセンス: Link先を確認
Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke, (参考訳) そこで我々は,検索したリスト(トリム再ランク候補)をトラクタリングすることで,ランキングの再ランク化を最適化する新しい「検索・テーマ・再ランク」視点からランキングリストトランケーション(RLT)について検討した。 RLTは、可変長候補リストをクエリ毎に再ランク付けすることで、再ランク付け効率を向上させるため、再ランク付けには不可欠である。 また、再評価の有効性も向上する可能性がある。 その重要性にもかかわらず、この新たな視点にRLT法を適用する研究は限られている。 この研究ギャップに対処するため、我々は既存のRTL手法を再ランク付けの文脈で再現し、特に新たに登場した大規模言語モデル(LLM)をベースとした再ランク付けを行う。 特に,検索のためのRLTの確立された結果が,3つの視点から「検索-then-re-rank」設定に一般化可能であるかを検討する。 一 語彙第一段検索によるLLMに基づく再ランク付けの文脈におけるRLT手法の評価 (II)RLT法における各種第1段レトリバーの影響と評価 3) RLT法における異なる種類のリランカーの影響について検討した。 TREC 2019と2020のディープラーニングトラックで実験を行い、3つのレトリバーと2つの再ランカを含むパイプラインの8つのRTT手法を調査した。 再ランク付けの文脈において, RLT法に関する新たな知見を得る。

We study ranked list truncation (RLT) from a novel "retrieve-then-re-rank" perspective, where we optimize re-ranking by truncating the retrieved list (i.e., trim re-ranking candidates). RLT is crucial for re-ranking as it can improve re-ranking efficiency by sending variable-length candidate lists to a re-ranker on a per-query basis. It also has the potential to improve re-ranking effectiveness. Despite its importance, there is limited research into applying RLT methods to this new perspective. To address this research gap, we reproduce existing RLT methods in the context of re-ranking, especially newly emerged large language model (LLM)-based re-ranking. In particular, we examine to what extent established findings on RLT for retrieval are generalizable to the "retrieve-then-re-rank" setup from three perspectives: (i) assessing RLT methods in the context of LLM-based re-ranking with lexical first-stage retrieval, (ii) investigating the impact of different types of first-stage retrievers on RLT methods, and (iii) investigating the impact of different types of re-rankers on RLT methods. We perform experiments on the TREC 2019 and 2020 deep learning tracks, investigating 8 RLT methods for pipelines involving 3 retrievers and 2 re-rankers. We reach new insights into RLT methods in the context of re-ranking.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# スマートコントラクトのための静的アプリケーションセキュリティテスト(SAST)ツール

Static Application Security Testing (SAST) Tools for Smart Contracts: How Far Are We? ( http://arxiv.org/abs/2404.18186v1 )

ライセンス: Link先を確認
Kaixuan Li, Yue Xue, Sen Chen, Han Liu, Kairan Sun, Ming Hu, Haijun Wang, Yang Liu, Yixiang Chen, (参考訳) 近年,スマートコントラクトセキュリティの重要性が高まっている。 この問題に対処するため、スマートコントラクトの脆弱性を検出するために、多数の静的アプリケーションセキュリティテスト(SAST)ツールが提案されている。 しかし、これらのツールを客観的に比較して有効性を決定することは依然として困難である。 既存の研究は、分類学とベンチマークが、粗大で時代遅れの可能性のある脆弱性タイプだけをカバーしているため、しばしば不足している。 本稿では、スマートコントラクトのための45のユニークな脆弱性タイプを含む最新のきめ細かい分類法を提案することにより、このギャップを埋める。 ベースラインとして、40の異なるタイプをカバーし、さまざまなコード特性、脆弱性パターン、アプリケーションシナリオを含む広範なベンチマークを開発しています。 このベンチマークでは,788のスマートコントラクトファイルと10,394の脆弱性を含む8つのSASTツールを評価した。 以上の結果から,既存のSASTツールはベンチマークで約50%の脆弱性の検出に失敗し,10%を超える精度で偽陽性に陥ることが判明した。 また,複数ツールの結果を組み合わせることで,36.77ポイントのフラグアップを犠牲にして,偽陰性率を効果的に低減できることがわかった。 それでも多くの脆弱性、特にAccess ControlとReentrancy以外の脆弱性は未検出のままである。 私たちはついに、ツール開発、強化、評価、開発者、研究者、実践者のための選択に関するガイダンスを提供したいと思っています。

In recent years, the importance of smart contract security has been heightened by the increasing number of attacks against them. To address this issue, a multitude of static application security testing (SAST) tools have been proposed for detecting vulnerabilities in smart contracts. However, objectively comparing these tools to determine their effectiveness remains challenging. Existing studies often fall short due to the taxonomies and benchmarks only covering a coarse and potentially outdated set of vulnerability types, which leads to evaluations that are not entirely comprehensive and may display bias. In this paper, we fill this gap by proposing an up-to-date and fine-grained taxonomy that includes 45 unique vulnerability types for smart contracts. Taking it as a baseline, we develop an extensive benchmark that covers 40 distinct types and includes a diverse range of code characteristics, vulnerability patterns, and application scenarios. Based on them, we evaluated 8 SAST tools using this benchmark, which comprises 788 smart contract files and 10,394 vulnerabilities. Our results reveal that the existing SAST tools fail to detect around 50% of vulnerabilities in our benchmark and suffer from high false positives, with precision not surpassing 10%. We also discover that by combining the results of multiple tools, the false negative rate can be reduced effectively, at the expense of flagging 36.77 percentage points more functions. Nevertheless, many vulnerabilities, especially those beyond Access Control and Reentrancy vulnerabilities, remain undetected. We finally highlight the valuable insights from our study, hoping to provide guidance on tool development, enhancement, evaluation, and selection for developers, researchers, and practitioners.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 単光子減圧真空型ポスト選択弱測定とその応用

Single-Photon-Subtracted-Squeezed-Vacuum-State Based Postselected Weak Measurement and its Applications ( http://arxiv.org/abs/2404.18189v1 )

ライセンス: Link先を確認
Janarbek Yuanbek, Akbar Islam, Ahmad Abliz, Yusuf Turek, (参考訳) 本稿では,ポストセレクトされたフォン・ノイマン測定が単光子減圧真空状態(SPSSVS)の非古典性に及ぼす影響について検討する。 選択したフォン・ノイマン測度がSPSSVSの最適化に肯定的な影響があることを確かめ,スキューズ効果,マンデル係数,ウィグナー関数,信号-雑音比(SNR),状態距離関数を算出した。 特に、異常な弱値を適切に選択することにより、スキューズ、光子統計、位相空間分布などのSPSSVSの非古典的な特徴を著しく最適化することができる。 また,SNR改善におけるポストセレクト弱測定の利点を非ポストセレクト弱測定法と比較した。 量子状態最適化におけるSPSSVSに基づくポストセレクト弱測定の優位性は、関連する量子情報処理の潜在的な応用をもたらす可能性がある。

In this paper, we study the effects of postselected von Neumann measurement on the nonclassicality of the Single-Photon-Subtracted-Squeezed-Vacuum-State (SPSSVS). We calculate the squeezing effect, Mandel factor, Wigner function, signal-to-noise ratio (SNR)s and state distance function.We found that postselected von Neumann measurement has positive effects on the optimization of SPSSVS. In particular, by properly choosing the anomalous weak value, the nonclassical inherent features of SPSSVS such as squeezing, photon statistics and phase space distribution can be optimized significantly. The advantages of postselected weak measurement on improving the SNR compared to non-postselected measurement scheme is also confirmed. The superiority of SPSSVS based postselected weak measurement in quantum state optimization may have potential applications of in the associated quantum information processing.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# カテゴリー変数のナイーブベイズ分類器とワンホット符号化

Naive Bayes Classifiers and One-hot Encoding of Categorical Variables ( http://arxiv.org/abs/2404.18190v1 )

ライセンス: Link先を確認
Christopher K. I. Williams, (参考訳) 本稿では,Na\\\\{\i}ve Bayes 分類器を用いて,1ホット符号化による$K$ビットを誤って$K$ビットとして符号化した結果について検討する。 これにより、正しい分類的Na\"{\i}ve Bayes分類器ではなく、ベルヌーリス積 (PoB) の仮定が生まれる。 2つの分類器の違いは数学的および実験的に解析される。 ディリクレ分布から引き出された確率ベクトルを用いた実験では、2つの分類器がほとんどの場合において最大後続クラスラベルに一致するが、後続確率は通常PoBの場合より大きい。

This paper investigates the consequences of encoding a $K$-valued categorical variable incorrectly as $K$ bits via one-hot encoding, when using a Na\"{\i}ve Bayes classifier. This gives rise to a product-of-Bernoullis (PoB) assumption, rather than the correct categorical Na\"{\i}ve Bayes classifier. The differences between the two classifiers are analysed mathematically and experimentally. In our experiments using probability vectors drawn from a Dirichlet distribution, the two classifiers are found to agree on the maximum a posteriori class label for most cases, although the posterior probabilities are usually greater for the PoB case.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 雑音ラベルを用いたインテクスト学習のロバストさの探索

Exploring the Robustness of In-Context Learning with Noisy Labels ( http://arxiv.org/abs/2404.18191v1 )

ライセンス: Link先を確認
Chen Cheng, Xinzhi Yu, Haodong Wen, Jinsong Sun, Guanzhang Yue, Yihao Zhang, Zeming Wei, (参考訳) 近年、トランスフォーマーアーキテクチャ、特に大規模言語モデル(LLM)において、謎のインコンテキスト学習(ICL)能力が注目されている。 しかし, 学習コーパスと即時デモンストレーションの両方でよく見られるノイズのあるサンプルの存在下でのトランスフォーマーの文脈内学習能力のレジリエンスは, 未解明のままである。 本稿では,単純な関数クラスを用いたICL能力の研究に触発されて,雑音ラベルに対するトランスフォーマーの堅牢性を調べることによって,この問題をより深く検討する。 具体的には、まず、テキスト内学習における雑音ラベルに対するトランスフォーマーの頑健さを徹底的に評価し、実演ラベルにおける様々な種類の雑音に対する顕著な耐性を示すことを示す。 さらに、トレーニングセットにノイズを導入するか、データ拡張の形式に類似し、推論中にそのようなロバスト性を高め、そのようなノイズがICLのロバスト性を向上させることができることを確かめることにより、この問題を深く掘り下げる。 我々の実りある分析と知見は、ICL中のラベルノイズに対するトランスフォーマーモデルのレジリエンスを包括的に理解し、自然言語処理におけるトランスフォーマーの研究に関する貴重な知見を提供する。 私たちのコードはhttps://github.com/InezYu0928/in-context-learningで利用可能です。

Recently, the mysterious In-Context Learning (ICL) ability exhibited by Transformer architectures, especially in large language models (LLMs), has sparked significant research interest. However, the resilience of Transformers' in-context learning capabilities in the presence of noisy samples, prevalent in both training corpora and prompt demonstrations, remains underexplored. In this paper, inspired by prior research that studies ICL ability using simple function classes, we take a closer look at this problem by investigating the robustness of Transformers against noisy labels. Specifically, we first conduct a thorough evaluation and analysis of the robustness of Transformers against noisy labels during in-context learning and show that they exhibit notable resilience against diverse types of noise in demonstration labels. Furthermore, we delve deeper into this problem by exploring whether introducing noise into the training set, akin to a form of data augmentation, enhances such robustness during inference, and find that such noise can indeed improve the robustness of ICL. Overall, our fruitful analysis and findings provide a comprehensive understanding of the resilience of Transformer models against label noises during ICL and provide valuable insights into the research on Transformers in natural language processing. Our code is available at https://github.com/InezYu0928/in-context-learning.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 断面観測データのための一般因果推論フレームワーク

A General Causal Inference Framework for Cross-Sectional Observational Data ( http://arxiv.org/abs/2404.18197v1 )

ライセンス: Link先を確認
Yonghe Zhao, Huiyan Sun, (参考訳) 観測データに対する因果推論法は,その適用性の高さから高く評価されている。 偏見を解き放つ方法はすでに多数存在するが、これらの手法は一般的に、共変体は共同設立者のみで構成されていると仮定するか、共変体について素直な仮定を行う。 このような仮定は、特に高次元の共変量を扱う場合、理論と実践の両方において困難に直面する。 これらの単純な仮定を緩和し、真に修正を必要とする共変体を同定することで、これらの手法の実用的重要性を効果的に向上させることができる。 そこで本稿では,横断観測データに特化して設計された一般因果推論(GCI)フレームワークを提案する。 具体的には、有向非巡回グラフ上のマルコフ性質のプログレッシブ導出に基づいて、キー共役共変数は、処理の共通根の祖先と結果変数に等しいと結論付ける。 この結論に基づいて、GCIフレームワークは、新しいAncestor Set Identification (ASI)アルゴリズムとデコンバウンディング推論メソッドで構成されている。 第一に、ASIアルゴリズムは変数間の条件独立性や因果非対称性によって理論的に支持され、キー共役共役体の同定が可能となる。 その後、識別された共変体は、情報的意思決定を支援する不偏因果効果推定を得るために、解答推論法で使用される。 合成データセットに関する大規模な実験は、GCIフレームワークが臨界共変体を効果的に同定し、観測研究における因果推論の精度、安定性、解釈可能性を大幅に改善できることを示した。

Causal inference methods for observational data are highly regarded due to their wide applicability. While there are already numerous methods available for de-confounding bias, these methods generally assume that covariates consist solely of confounders or make naive assumptions about the covariates. Such assumptions face challenges in both theory and practice, particularly when dealing with high-dimensional covariates. Relaxing these naive assumptions and identifying the confounding covariates that truly require correction can effectively enhance the practical significance of these methods. Therefore, this paper proposes a General Causal Inference (GCI) framework specifically designed for cross-sectional observational data, which precisely identifies the key confounding covariates and provides corresponding identification algorithm. Specifically, based on progressive derivations of the Markov property on Directed Acyclic Graph, we conclude that the key confounding covariates are equivalent to the common root ancestors of the treatment and the outcome variable. Building upon this conclusion, the GCI framework is composed of a novel Ancestor Set Identification (ASI) algorithm and de-confounding inference methods. Firstly, the ASI algorithm is theoretically supported by the conditional independence properties and causal asymmetry between variables, enabling the identification of key confounding covariates. Subsequently, the identified confounding covariates are used in the de-confounding inference methods to obtain unbiased causal effect estimation, which can support informed decision-making. Extensive experiments on synthetic datasets demonstrate that the GCI framework can effectively identify the critical confounding covariates and significantly improve the precision, stability, and interpretability of causal inference in observational studies.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 置換同変量子畳み込みニューラルネットワーク

Permutation-equivariant quantum convolutional neural networks ( http://arxiv.org/abs/2404.18198v1 )

ライセンス: Link先を確認
Sreetama Das, Filippo Caruso, (参考訳) シンメトリー群 $S_{n}$ は、量子系の大きなクラスにおいて、量子ビットの置換に関する量子状態の特定の性質の不変性として現れている。 S_{n}$ の部分群は、他の多くの文脈において、空間変換、eg反射、回転に関して古典的な画像のラベル対称性を記述するために生じる。 等変量子畳み込みニューラルネットワーク(EQCNN)のアーキテクチャを$S_{n}$とその部分群に適応させる。 S_{n}$ の小さな部分群に対する EQCNN の構築が容易であることを示す。 完全置換群である$S_{n}$に対応する新しいEQCNNアーキテクチャは、量子ニューラルネットワークにおけるドロップアウト戦略として概念化できる全てのQCNNを等確率で適用することによって構築される。 S_{n}$のサブグループの場合、MNISTデータセットを用いた数値計算の結果、非同変QCNNよりも高い分類精度を示す。 S_{n}$-equivariant QCNNアーキテクチャは、連結グラフと非連結グラフの分類において、非等価QCNNよりもトレーニングとテスト性能が大幅に向上している。 十分な数のデータで訓練すると、$S_{n}$-equivariant QCNNは$S_{n}$-equivariant QNNよりも平均性能がよい。 これらの結果は、置換対称システムにおける強力な量子機械学習アーキテクチャの構築に寄与する。

The Symmetric group $S_{n}$ manifests itself in large classes of quantum systems as the invariance of certain characteristics of a quantum state with respect to permuting the qubits. The subgroups of $S_{n}$ arise, among many other contexts, to describe label symmetry of classical images with respect to spatial transformations, e.g. reflection or rotation. Equipped with the formalism of geometric quantum machine learning, in this work we propose the architectures of equivariant quantum convolutional neural networks (EQCNNs) adherent to $S_{n}$ and its subgroups. We demonstrate that a careful choice of pixel-to-qubit embedding order can facilitate easy construction of EQCNNs for small subgroups of $S_{n}$. Our novel EQCNN architecture corresponding to the full permutation group $S_{n}$ is built by applying all possible QCNNs with equal probability, which can also be conceptualized as a dropout strategy in quantum neural networks. For subgroups of $S_{n}$, our numerical results using MNIST datasets show better classification accuracy than non-equivariant QCNNs. The $S_{n}$-equivariant QCNN architecture shows significantly improved training and test performance than non-equivariant QCNN for classification of connected and non-connected graphs. When trained with sufficiently large number of data, the $S_{n}$-equivariant QCNN shows better average performance compared to $S_{n}$-equivariant QNN . These results contribute towards building powerful quantum machine learning architectures in permutation-symmetric systems.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# 医用画像における一般化セグメンテーションのためのハイブリッドデュアルピラミッドトランス-CNNによる注意喚起

Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging ( http://arxiv.org/abs/2404.18199v1 )

ライセンス: Link先を確認
Fares Bougourzi, Fadi Dornaika, Abdelmalik Taleb-Ahmed, Vinh Truong Hoang, (参考訳) コンピュータビジョンにおけるトランスフォーマーの成功に触発されて、トランスフォーマーは医療画像のセグメンテーションのために広く研究されてきた。 しかし、トランスフォーマーアーキテクチャのほとんどは、最近のトランスフォーマーアーキテクチャをエンコーダやCNNエンコーダとの並列エンコーダとして使用している。 本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。 我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。 この方法論の貢献は3つの重要な側面にまとめることができる。 一 異なる規模における顕著な特徴を強調するためのピラミッド入力の利用。 (二)PVT変換器を組み込んで様々な解像度の長距離依存を捉えること。 (iii)CNNとTransformerの両方のブランチから特徴を効果的に融合させるDual-Attention Gate機構の実装。 腹部多臓器セグメンテーション、感染セグメンテーション(Covid-19と骨転移)、顕微鏡組織セグメンテーション(GlandとNucleus)など、さまざまなセグメンテーションタスクの総合的な評価を通じて行われる。 提案手法は最先端の性能を示し,優れた一般化能力を示す。 本研究は, 医用画像応用における効率的かつ適応的なセグメンテーションソリューションの必要性に対処する上で, 重要な進展を示すものである。

Inspired by the success of Transformers in Computer vision, Transformers have been widely investigated for medical imaging segmentation. However, most of Transformer architecture are using the recent transformer architectures as encoder or as parallel encoder with the CNN encoder. In this paper, we introduce a novel hybrid CNN-Transformer segmentation architecture (PAG-TransYnet) designed for efficiently building a strong CNN-Transformer encoder. Our approach exploits attention gates within a Dual Pyramid hybrid encoder. The contributions of this methodology can be summarized into three key aspects: (i) the utilization of Pyramid input for highlighting the prominent features at different scales, (ii) the incorporation of a PVT transformer to capture long-range dependencies across various resolutions, and (iii) the implementation of a Dual-Attention Gate mechanism for effectively fusing prominent features from both CNN and Transformer branches. Through comprehensive evaluation across different segmentation tasks including: abdominal multi-organs segmentation, infection segmentation (Covid-19 and Bone Metastasis), microscopic tissues segmentation (Gland and Nucleus). The proposed approach demonstrates state-of-the-art performance and exhibits remarkable generalization capabilities. This research represents a significant advancement towards addressing the pressing need for efficient and adaptable segmentation solutions in medical imaging applications.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# WorldGPT:マルチモーダルワールドモデルとしてのLLM

WorldGPT: Empowering LLM as Multimodal World Model ( http://arxiv.org/abs/2404.18202v1 )

ライセンス: Link先を確認
Zhiqi Ge, Hongzhe Huang, Mingze Zhou, Juncheng Li, Guoming Wang, Siliang Tang, Yueting Zhuang, (参考訳) 世界モデルは、基本的な環境シミュレーションから複雑なシナリオ構築まで、様々な分野に徐々に採用されている。 しかし、既存のモデルは、主にドメイン固有の状態とアクションに基づいて訓練されており、単一のモダリティ状態表現に限定されている。 本稿では,MLLM(Multimodal Large Language Model)に基づく汎用的世界モデルであるWorldGPTを紹介する。 WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。 特殊シナリオと長期タスクにおけるWorldGPTの機能をさらに強化するため、メモリオフロード、知識検索、コンテキストリフレクションを組み合わせた新しい認知アーキテクチャと統合した。 評価では,様々な実生活シナリオを含むマルチモーダル状態遷移予測ベンチマークであるWorldNetを構築した。 WorldNet上での評価を実行することで、WorldGPTは状態遷移パターンを正確にモデル化し、複雑なシナリオのダイナミクスを理解し予測する上での有効性を実証することができる。 我々はさらに、WorldGPTが世界シミュレーターとして機能することの新たな可能性を探り、マルチモーダルエージェントが、微調整目的の認証データと同じくらい信頼性の高いマルチモーダル命令インスタンスを効率的に合成することで、不慣れなドメインに一般化するのを助ける。 このプロジェクトは \url{https://github.com/DCDmllm/WorldGPT} で入手できる。

World models are progressively being employed across diverse fields, extending from basic environment simulation to complex scenario construction. However, existing models are mainly trained on domain-specific states and actions, and confined to single-modality state representations. In this paper, We introduce WorldGPT, a generalist world model built upon Multimodal Large Language Model (MLLM). WorldGPT acquires an understanding of world dynamics through analyzing millions of videos across various domains. To further enhance WorldGPT's capability in specialized scenarios and long-term tasks, we have integrated it with a novel cognitive architecture that combines memory offloading, knowledge retrieval, and context reflection. As for evaluation, we build WorldNet, a multimodal state transition prediction benchmark encompassing varied real-life scenarios. Conducting evaluations on WorldNet directly demonstrates WorldGPT's capability to accurately model state transition patterns, affirming its effectiveness in understanding and predicting the dynamics of complex scenarios. We further explore WorldGPT's emerging potential in serving as a world simulator, helping multimodal agents generalize to unfamiliar domains through efficiently synthesising multimodal instruction instances which are proved to be as reliable as authentic data for fine-tuning purposes. The project is available on \url{https://github.com/DCDmllm/WorldGPT}.
翻訳日:2024-04-30 17:33:28 公開日:2024-04-28
# LMM-PCQA:LMMによるポイントクラウド品質評価を支援する

LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM ( http://arxiv.org/abs/2404.18203v1 )

ライセンス: Link先を確認
Zicheng Zhang, Haoning Wu, Yingjie Zhou, Chunyi Li, Wei Sun, Chaofeng Chen, Xiongkuo Min, Xiaohong Liu, Weisi Lin, Guangtao Zhai, (参考訳) 大規模マルチモダリティモデル (LMM) は様々な品質アセスメント研究において広範な探索と応用が見られたが、ポイントクラウド品質アセスメント (PCQA) への統合は未だ検討されていない。 低レベルの視力と品質評価タスクにおけるLMMの異常な性能と堅牢性を考えると,本研究はテキスト管理を通じてPCQA知識をLMMに付与する可能性を検討することを目的としている。 これを実現するために、我々は品質ラベルを微調整段階のテキスト記述に変換することで、LMMが点雲の2次元投影から品質評価ロジットを導出できるようにする。 3D領域における知覚の喪失を補うために、構造的特徴も抽出する。 これらの品質ロジットと構造的特徴を結合し、品質スコアに回帰する。 提案手法の有効性を実証し,モデル理解と評価精度を高めるPCQAへのLMMの新たな統合を示す。 我々は,LMMとPCQAの融合に関するその後の調査を刺激し,3次元視覚的品質分析の進歩を促すことを願っている。

Although large multi-modality models (LMMs) have seen extensive exploration and application in various quality assessment studies, their integration into Point Cloud Quality Assessment (PCQA) remains unexplored. Given LMMs' exceptional performance and robustness in low-level vision and quality assessment tasks, this study aims to investigate the feasibility of imparting PCQA knowledge to LMMs through text supervision. To achieve this, we transform quality labels into textual descriptions during the fine-tuning phase, enabling LMMs to derive quality rating logits from 2D projections of point clouds. To compensate for the loss of perception in the 3D domain, structural features are extracted as well. These quality logits and structural features are then combined and regressed into quality scores. Our experimental results affirm the effectiveness of our approach, showcasing a novel integration of LMMs into PCQA that enhances model understanding and assessment accuracy. We hope our contributions can inspire subsequent investigations into the fusion of LMMs with PCQA, fostering advancements in 3D visual quality analysis and beyond.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 部分レベル知識蒸留による低品質骨格データからの行動認識の促進

Enhancing Action Recognition from Low-Quality Skeleton Data via Part-Level Knowledge Distillation ( http://arxiv.org/abs/2404.18206v1 )

ライセンス: Link先を確認
Cuiwei Liu, Youzhi Jiang, Chong Du, Zhaokui Li, (参考訳) 骨格に基づく行動認識は、人間中心のビデオの理解に不可欠であり、様々な領域で応用されている。 骨格に基づく行動認識の課題の1つは、関節の欠如や不正確な骨格のような低品質のデータを扱うことである。 本稿では,低品質骨格を用いた行動認識の高度化という課題を,一般知識蒸留フレームワークを通じて解決する。 提案フレームワークでは,高品質な骨格を訓練した教師モデルを用いて,低品質な骨格を扱う学生モデルの学習を指導する。 異種質の高品質骨格と低品質骨格のギャップを埋めるために, 局所的な動作パターン学習を容易にするために, 共用体部品を利用する新しい部分ベースの骨格マッチング戦略を提案する。 行動特異的な部分行列は、異なる行動に対する重要な部分を強調するために開発され、学生モデルは識別的部分レベルの知識を蒸留することができる。 新規な部分レベルマルチサンプルコントラスト損失は,複数の高品質スケルトンから低品質スケルトンへの知識伝達を実現する。 NTU-RGB+D, Penn Action, SYSU 3D HOIデータセットを用いた総合的な実験により,提案手法の有効性が示された。

Skeleton-based action recognition is vital for comprehending human-centric videos and has applications in diverse domains. One of the challenges of skeleton-based action recognition is dealing with low-quality data, such as skeletons that have missing or inaccurate joints. This paper addresses the issue of enhancing action recognition using low-quality skeletons through a general knowledge distillation framework. The proposed framework employs a teacher-student model setup, where a teacher model trained on high-quality skeletons guides the learning of a student model that handles low-quality skeletons. To bridge the gap between heterogeneous high-quality and lowquality skeletons, we present a novel part-based skeleton matching strategy, which exploits shared body parts to facilitate local action pattern learning. An action-specific part matrix is developed to emphasize critical parts for different actions, enabling the student model to distill discriminative part-level knowledge. A novel part-level multi-sample contrastive loss achieves knowledge transfer from multiple high-quality skeletons to low-quality ones, which enables the proposed knowledge distillation framework to include training low-quality skeletons that lack corresponding high-quality matches. Comprehensive experiments conducted on the NTU-RGB+D, Penn Action, and SYSU 3D HOI datasets demonstrate the effectiveness of the proposed knowledge distillation framework.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 4DBInfer:リレーショナルDBのグラフ中心予測モデリングのための4Dベンチマークツールボックス

4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs ( http://arxiv.org/abs/2404.18209v1 )

ライセンス: Link先を確認
Minjie Wang, Quan Gan, David Wipf, Zhenkun Cai, Ning Li, Jianheng Tang, Yanlin Zhang, Zizhao Zhang, Zunyao Mao, Yakun Song, Yanbo Wang, Jiahang Li, Han Zhang, Guang Yang, Xiao Qin, Chuan Lei, Muhan Zhang, Weinan Zhang, Christos Faloutsos, Zheng Zhang, (参考訳) RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納するが、そのようなタスクに適用される予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に大きく遅れている。 この欠陥は、少なくとも部分的には、トレーニングと評価のために必要となる確立された、パブリックなRDBベンチマークの欠如に起因する。 結果として、関連するモデル開発は、ユビキタスなシングルテーブルベンチマーク、あるいはリレーショナルな側面において、グラフベースの代替品であるGNNが、表の特性を欠いた全く異なるグラフデータセットに適用されることが多い。 これら2つの相補的レギュレーションの頂点にあるRDBをより正確に標的にするため、我々は以下のベースラインモデルの幅広いクラスを探索する。 一 表の特徴を保ちながら、効率的なサブサンプリングを備えた各種戦略を用いて、多テーブルデータセットをグラフに変換すること。 (2)これらの入力部分グラフに基づいて予測を出力する、よく整合した帰納バイアスを持つ訓練可能なモデル。 そして、適切な公開ベンチマークの劣化に対処し、サイロ化比較を減らすために、多様なコレクションを組み立てる。 (i)大規模RDBデータセットおよび (ii)偶然な予測タスク。 デリバリの観点からは、4DBInferと呼ばれる統一されたスケーラブルなオープンソースツールボックス内で、上記の4次元(4D)の探索を運用しています。 その結果、RDB予測モデルの設計において、各次元を考慮することの重要性と、隣接するテーブルを単に結合するといったより単純なアプローチの限界を強調した。 ソースコードはhttps://github.com/awslabs/multi-table-benchmarkで公開されています。

Although RDBs store vast amounts of rich, informative data spread across interconnected tables, the progress of predictive machine learning models as applied to such tasks arguably falls well behind advances in other domains such as computer vision or natural language processing. This deficit stems, at least in part, from the lack of established/public RDB benchmarks as needed for training and evaluation purposes. As a result, related model development thus far often defaults to tabular approaches trained on ubiquitous single-table benchmarks, or on the relational side, graph-based alternatives such as GNNs applied to a completely different set of graph datasets devoid of tabular characteristics. To more precisely target RDBs lying at the nexus of these two complementary regimes, we explore a broad class of baseline models predicated on: (i) converting multi-table datasets into graphs using various strategies equipped with efficient subsampling, while preserving tabular characteristics; and (ii) trainable models with well-matched inductive biases that output predictions based on these input subgraphs. Then, to address the dearth of suitable public benchmarks and reduce siloed comparisons, we assemble a diverse collection of (i) large-scale RDB datasets and (ii) coincident predictive tasks. From a delivery standpoint, we operationalize the above four dimensions (4D) of exploration within a unified, scalable open-source toolbox called 4DBInfer. We conclude by presenting evaluations using 4DBInfer, the results of which highlight the importance of considering each such dimension in the design of RDB predictive models, as well as the limitations of more naive approaches such as simply joining adjacent tables. Our source code is released at https://github.com/awslabs/multi-table-benchmark .
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 動的グラフニューラルネットワークの探索

A survey of dynamic graph neural networks ( http://arxiv.org/abs/2404.18211v1 )

ライセンス: Link先を確認
Yanping Zheng, Lu Yi, Zhewei Wei, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから効果的にマイニングおよび学習するための強力なツールとして、多数のドメインにまたがるアプリケーションとして登場した。 しかし、ほとんどの研究は静的グラフに焦点を当てており、時間とともにトポロジや属性が進化する現実世界のネットワークの動的な性質を無視している。 シーケンスモデリングモジュールを従来のGNNアーキテクチャに統合することにより、動的GNNはこのギャップを埋めることを目指しており、複雑なネットワークのより正確な描写のために動的グラフ固有の時間的依存関係をキャプチャする。 本稿では,基本的な概念,鍵となる技術,そして最先端の動的GNNモデルについて概観する。 メインストリームの動的GNNモデルを詳細に提示し、時間情報がどのように組み込まれているかに基づいてモデルを分類する。 また,大規模動的GNNと事前学習技術についても論じる。 動的GNNは優れたパフォーマンスを示しているが、スケーラビリティ、異種情報処理、多様なグラフデータセットの欠如といった課題が残っている。 また,適応モデルやメモリ拡張モデル,帰納学習,理論的解析など,将来的な方向性についても論じる。

Graph neural networks (GNNs) have emerged as a powerful tool for effectively mining and learning from graph-structured data, with applications spanning numerous domains. However, most research focuses on static graphs, neglecting the dynamic nature of real-world networks where topologies and attributes evolve over time. By integrating sequence modeling modules into traditional GNN architectures, dynamic GNNs aim to bridge this gap, capturing the inherent temporal dependencies of dynamic graphs for a more authentic depiction of complex networks. This paper provides a comprehensive review of the fundamental concepts, key techniques, and state-of-the-art dynamic GNN models. We present the mainstream dynamic GNN models in detail and categorize models based on how temporal information is incorporated. We also discuss large-scale dynamic GNNs and pre-training techniques. Although dynamic GNNs have shown superior performance, challenges remain in scalability, handling heterogeneous information, and lack of diverse graph datasets. The paper also discusses possible future directions, such as adaptive and memory-enhanced models, inductive learning, and theoretical analysis.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# Paint by Inpaint: イメージオブジェクトを最初に削除して追加する学習

Paint by Inpaint: Learning to Add Image Objects by Removing Them First ( http://arxiv.org/abs/2404.18212v1 )

ライセンス: Link先を確認
Navve Wasserman, Noam Rotstein, Roy Ganz, Ron Kimmel, (参考訳) 画像編集はテキスト条件の拡散モデルの導入によって大幅に進歩した。 この進歩にもかかわらず、ユーザが提供する入力マスクを必要とせずに、テキスト命令に基づく画像にオブジェクトをシームレスに追加することは、依然として課題である。 対象(Inpaint)の除去は,これらのマスク内にインペイントされたインペイントモデルとともにセグメンテーションマスクデータセットの利用による,その逆プロセス(Paint)よりもはるかに単純である,という知見を活用することで,この問題に対処する。 この実現に乗じて、自動化された広範囲なパイプラインを実装することにより、一対のイメージとそれに対応するオブジェクト除去バージョンを含むフィルタ付き大規模画像データセットをキュレートする。 これらのペアを用いて,画像にオブジェクトを効果的に付加することにより,塗布過程を逆転させる拡散モデルを訓練する。 他の編集データセットとは異なり、我々は合成データセットではなく、自然なターゲットイメージを特徴としている。 さらに、大きな視覚言語モデルを用いて、削除されたオブジェクトの詳細な記述と、これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。 トレーニングされたモデルは,定性的かつ定量的に既存のモデルを超え,コミュニティのためのトレーニングされたモデルと並行して大規模データセットをリリースすることを示す。

Image editing has advanced significantly with the introduction of text-conditioned diffusion models. Despite this progress, seamlessly adding objects to images based on textual instructions without requiring user-provided input masks remains a challenge. We address this by leveraging the insight that removing objects (Inpaint) is significantly simpler than its inverse process of adding them (Paint), attributed to the utilization of segmentation mask datasets alongside inpainting models that inpaint within these masks. Capitalizing on this realization, by implementing an automated and extensive pipeline, we curate a filtered large-scale image dataset containing pairs of images and their corresponding object-removed versions. Using these pairs, we train a diffusion model to inverse the inpainting process, effectively adding objects into images. Unlike other editing datasets, ours features natural target images instead of synthetic ones; moreover, it maintains consistency between source and target by construction. Additionally, we utilize a large Vision-Language Model to provide detailed descriptions of the removed objects and a Large Language Model to convert these descriptions into diverse, natural-language instructions. We show that the trained model surpasses existing ones both qualitatively and quantitatively, and release the large-scale dataset alongside the trained models for the community.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# S$^2$Mamba:ハイパースペクトル画像分類のための空間スペクトル状態空間モデル

S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.18213v1 )

ライセンス: Link先を確認
Guanchun Wang, Xiangrong Zhang, Zelin Peng, Tianyang Zhang, Xiuping Jia, Licheng Jiao, (参考訳) ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。 近年の研究は、空間スペクトル長範囲依存モデリングのためのトランスフォーマーベースのアーキテクチャの設計に主眼を置いている。 線形複雑性を伴う長距離依存関係のモデリングに効率的である選択的構造化状態空間モデル(Mamba)は,最近,有望な進展を示した。 しかし、多くのスペクトル帯域を扱う必要のある超スペクトル画像処理におけるその可能性はまだ検討されていない。 本稿では,高スペクトル画像分類のための空間スペクトル状態モデルであるS$^2$Mambaを提案する。 S$^2$Mambaでは、異なる次元による2つの選択的構造化状態空間モデルが特徴抽出のために設計され、1つは空間、もう1つはスペクトルに対して設計され、もう1つは空間-スペクトル混合ゲートが最適融合のために設計されている。 具体的には、S$^2$Mambaはまず、Patch Cross Scanningモジュールを通して各ピクセルと隣接するピクセルを相互作用させ、次に双方向スペクトル走査モジュールを通して連続スペクトルバンドからの意味情報を探索することによって空間的文脈関係を捉える。 相似的および複雑なテクスチャシーンにおける2つの属性の異なる専門性を考慮すると、学習可能な行列群による空間-スペクトル混合ゲートを実現し、異なる次元で学習した表現を適応的に組み込むことができる。 HSI分類ベンチマークで行った大規模な実験は、S$^2$Mambaの優位性と可能性を示している。 コードは、https://github.com/PURE-melo/S2Mamba.comから入手できる。

Land cover analysis using hyperspectral images (HSI) remains an open problem due to their low spatial resolution and complex spectral information. Recent studies are primarily dedicated to designing Transformer-based architectures for spatial-spectral long-range dependencies modeling, which is computationally expensive with quadratic complexity. Selective structured state space model (Mamba), which is efficient for modeling long-range dependencies with linear complexity, has recently shown promising progress. However, its potential in hyperspectral image processing that requires handling numerous spectral bands has not yet been explored. In this paper, we innovatively propose S$^2$Mamba, a spatial-spectral state space model for hyperspectral image classification, to excavate spatial-spectral contextual features, resulting in more efficient and accurate land cover analysis. In S$^2$Mamba, two selective structured state space models through different dimensions are designed for feature extraction, one for spatial, and the other for spectral, along with a spatial-spectral mixture gate for optimal fusion. More specifically, S$^2$Mamba first captures spatial contextual relations by interacting each pixel with its adjacent through a Patch Cross Scanning module and then explores semantic information from continuous spectral bands through a Bi-directional Spectral Scanning module. Considering the distinct expertise of the two attributes in homogenous and complicated texture scenes, we realize the Spatial-spectral Mixture Gate by a group of learnable matrices, allowing for the adaptive incorporation of representations learned across different dimensions. Extensive experiments conducted on HSI classification benchmarks demonstrate the superiority and prospect of S$^2$Mamba. The code will be available at: https://github.com/PURE-melo/S2Mamba.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 複数意図差分に基づく逐次推薦のコントラスト学習法

Contrastive Learning Method for Sequential Recommendation based on Multi-Intention Disentanglement ( http://arxiv.org/abs/2404.18214v1 )

ライセンス: Link先を確認
Zeyu Hu, Yuzhi Xiao, Tao Huang, Xuanrong Huo, (参考訳) シークエンシャルレコメンデーション(Sequential Recommation)は,ユーザの順序付けられた過去の対話行動の分析と予測を通じて,パーソナライズされた推奨項目を将来に向けて達成することを目的とした,レコメンデーションシステムの重要な分野の1つである。 しかし,ユーザ数の増加と行動情報の増加に伴い,対話型マルチインテンションを効果的に理解・混乱させる方法が,行動予測やシーケンシャルレコメンデーションに課題を生じさせる。 これらの課題を踏まえ,MIDCL(Multi-Intention Disentanglement)に基づくコントラスト学習シーケンシャルレコメンデーション手法を提案する。 私たちの作業では、意図は動的で多様なものとして認識され、ユーザ行動は、しばしば現在のマルチインテンションによって駆動される。 そこで我々は,ユーザの複数意図の絡み合いを実現するために変分自動エンコーダ(VAE)を選択し,最も関連性の高いユーザの対話的意図を見つけるための2種類のコントラスト学習パラダイムを提案し,それぞれ正のサンプルペアの相互情報の最大化を行う。 実験の結果,MDDCLは既存のベースライン法よりも有意な優位性を持つだけでなく,意図に基づく予測と推奨に関する研究に,より解釈可能なケースをもたらすことが明らかとなった。

Sequential recommendation is one of the important branches of recommender system, aiming to achieve personalized recommended items for the future through the analysis and prediction of users' ordered historical interactive behaviors. However, along with the growth of the user volume and the increasingly rich behavioral information, how to understand and disentangle the user's interactive multi-intention effectively also poses challenges to behavior prediction and sequential recommendation. In light of these challenges, we propose a Contrastive Learning sequential recommendation method based on Multi-Intention Disentanglement (MIDCL). In our work, intentions are recognized as dynamic and diverse, and user behaviors are often driven by current multi-intentions, which means that the model needs to not only mine the most relevant implicit intention for each user, but also impair the influence from irrelevant intentions. Therefore, we choose Variational Auto-Encoder (VAE) to realize the disentanglement of users' multi-intentions, and propose two types of contrastive learning paradigms for finding the most relevant user's interactive intention, and maximizing the mutual information of positive sample pairs, respectively. Experimental results show that MIDCL not only has significant superiority over most existing baseline methods, but also brings a more interpretable case to the research about intention-based prediction and recommendation.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# L3Cube-MahaNews:Marathiにおけるニュースベースの短文と長い文書分類データセット

L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi ( http://arxiv.org/abs/2404.18216v1 )

ライセンス: Link先を確認
Saloni Mittal, Vidula Magdum, Omkar Dhekane, Sharayu Hiwarkhedkar, Raviraj Joshi, (参考訳) 低リソースのMarathi言語におけるテキストまたはトピック分類データセットの可用性は限定的であり、典型的には4つのターゲットラベル未満で、ほぼ完全な精度を達成しているものもある。 本稿では,ニュースの見出しや記事に焦点をあてたマラタイ語テキスト分類コーパスであるL3Cube-MahaNewsを紹介する。 このコーパスは最大規模のマラーティコーパスであり、1.05L以上の記録を12のカテゴリに分類している。 異なる文書の長さに対応するため、MahaNewsは短文、長文、中段落用に特別に設計された3つの教師付きデータセットで構成されている。 これらのデータセット間の一貫したラベル付けは、文書の長さに基づく分析を容易にする。 我々は、最先端のトレーニング済みBERTモデルを用いて、これらのデータセットに関する詳細なデータ統計とベースライン結果を提供する。 我々は、MahaBERT、IndicBERT、MuRILを含む単言語と多言語のBERTモデルの比較分析を行う。 モノリンガルなMahaBERTモデルは、すべてのデータセットで他のすべてのモデルよりも優れています。 これらのリソースは、Marathiトピック分類データセットやモデルとしても機能し、https://github.com/l3cube-pune/MarathiNLPで公開されている。

The availability of text or topic classification datasets in the low-resource Marathi language is limited, typically consisting of fewer than 4 target labels, with some achieving nearly perfect accuracy. In this work, we introduce L3Cube-MahaNews, a Marathi text classification corpus that focuses on News headlines and articles. This corpus stands out as the largest supervised Marathi Corpus, containing over 1.05L records classified into a diverse range of 12 categories. To accommodate different document lengths, MahaNews comprises three supervised datasets specifically designed for short text, long documents, and medium paragraphs. The consistent labeling across these datasets facilitates document length-based analysis. We provide detailed data statistics and baseline results on these datasets using state-of-the-art pre-trained BERT models. We conduct a comparative analysis between monolingual and multilingual BERT models, including MahaBERT, IndicBERT, and MuRIL. The monolingual MahaBERT model outperforms all others on every dataset. These resources also serve as Marathi topic classification datasets or models and are publicly available at https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# BUFF:ブースト決定木を用いた超高速流れマッチング

BUFF: Boosted Decision Tree based Ultra-Fast Flow matching ( http://arxiv.org/abs/2404.18219v1 )

ライセンス: Link先を確認
Cheng Jiang, Sitian Qian, Huilin Qu, (参考訳) タブラルデータは、高エネルギー物理学において最も頻繁に遭遇するタイプの1つである。 ピクセル化画像のような一般的な均質なデータとは異なり、高次元の表型データをシミュレートし、それらの相関関係を正確に捉えることは、最も先進的なアーキテクチャであっても、しばしば非常に困難である。 木モデルが表型データ固有のタスクに対するディープラーニングモデルの性能を上回るという知見に基づいて、条件付きフローマッチングと呼ばれる非常に最近の生成モデルクラスを採用し、グラディエントブーストツリーの使用法を統合するために異なる手法を採用する。 パフォーマンスは、複数のパブリックデータセットを使用して、さまざまな分析レベルで様々なタスクに対して評価される。 我々は,ほとんどのハイレベルシミュレーションタスクのトレーニング時間と推論時間が,桁違いのスピードアップを実現することを実証する。 アプリケーションは低レベルの特徴シミュレーションや、競合性能を備えた条件付き世代に拡張することができる。

Tabular data stands out as one of the most frequently encountered types in high energy physics. Unlike commonly homogeneous data such as pixelated images, simulating high-dimensional tabular data and accurately capturing their correlations are often quite challenging, even with the most advanced architectures. Based on the findings that tree-based models surpass the performance of deep learning models for tasks specific to tabular data, we adopt the very recent generative modeling class named conditional flow matching and employ different techniques to integrate the usage of Gradient Boosted Trees. The performances are evaluated for various tasks on different analysis level with several public datasets. We demonstrate the training and inference time of most high-level simulation tasks can achieve speedup by orders of magnitude. The application can be extended to low-level feature simulation and conditioned generations with competitive performance.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 置換の線形結合を用いた量子コンパイラの設計法

A quantum compiler design method by using linear combinations of permutations ( http://arxiv.org/abs/2404.18226v1 )

ライセンス: Link先を確認
Ammar Daskin, (参考訳) 行列は2つの対角行列を用いて二重確率行列に変換することができる。 また、二重確率行列は置換行列の和として書くことができる。 本稿では,ブロック符号化に基づく量子ゲートを用いて,与えられたジェネリック行列を記述する手法について述べる。 特に、まず行列を二重確率行列に変換する方法を示し、Birkhoffのアルゴリズムを用いて、その行列を量子回路にマッピングできる置換の線形結合という観点から表現する。 次に、ここで記述した手法に基づいて、将来の量子コンパイラソフトウェアに適用可能な最適化手法について論じる。

A matrix can be converted into a doubly stochastic matrix by using two diagonal matrices. And a doubly stochastic matrix can be written as a sum of permutation matrices. In this paper, we describe a method to write a given generic matrix in terms of quantum gates based on the block encoding. In particular, we first show how to convert a matrix into doubly stochastic matrices and by using Birkhoff's algorithm, we express that matrix in terms of a linear combination of permutations which can be mapped to quantum circuits. We then discuss a few optimization techniques that can be applied in a possibly future quantum compiler software based on the method described here.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# TextGram: ドメイン適応型事前トレーニングの改善を目指す

TextGram: Towards a better domain-adaptive pretraining ( http://arxiv.org/abs/2404.18228v1 )

ライセンス: Link先を確認
Sharayu Hiwarkhedkar, Saloni Mittal, Vidula Magdum, Omkar Dhekane, Raviraj Joshi, Geetanjali Kale, Arnav Ladkat, (参考訳) グリーンAIにとって、大規模な言語モデルのトレーニング中に放出される炭素フットプリントを測定し、削減することが不可欠である。 NLPでは、Transformerモデルで事前トレーニングを行うには、かなりの計算資源が必要である。 この事前トレーニングでは、大量のテキストデータを使用して、下流タスクを実行するための事前知識を得る。 したがって、この広大なコーパスからドメイン特化データの形で正しいデータを選択し、ドメイン特化タスクに沿った最適な結果を得ることが重要である。 教師なしの大きなデータのトレーニングは高価だが、事前トレーニング前にデータ選択のステップを実行することで最適化することができる。 重要なデータを選択することは、一定の精度を維持しながら、モデルの事前トレーニングに必要な空間オーバーヘッドとかなりの時間を削減する。 本研究では,既存の選択戦略を検証し,大規模コーパスから本質的なデータを効果的に選択するドメイン適応型データ選択手法であるTextGramを提案する。 テキスト分類タスクにおける微調整モデルの結果とデータ選択の有無を比較して評価する。 提案手法は,他の選択手法よりも有効であることを示す。

For green AI, it is crucial to measure and reduce the carbon footprint emitted during the training of large language models. In NLP, performing pre-training on Transformer models requires significant computational resources. This pre-training involves using a large amount of text data to gain prior knowledge for performing downstream tasks. Thus, it is important that we select the correct data in the form of domain-specific data from this vast corpus to achieve optimum results aligned with our domain-specific tasks. While training on large unsupervised data is expensive, it can be optimized by performing a data selection step before pretraining. Selecting important data reduces the space overhead and the substantial amount of time required to pre-train the model while maintaining constant accuracy. We investigate the existing selection strategies and propose our own domain-adaptive data selection method - TextGram - that effectively selects essential data from large corpora. We compare and evaluate the results of finetuned models for text classification task with and without data selection. We show that the proposed strategy works better compared to other selection methods.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# ペルソナからパーソナライズへ:ロールプレイング言語エージェントに関する調査

From Persona to Personalization: A Survey on Role-Playing Language Agents ( http://arxiv.org/abs/2404.18231v1 )

ライセンス: Link先を確認
Jiangjie Chen, Xintao Wang, Rui Xu, Siyu Yuan, Yikai Zhang, Wei Shi, Jian Xie, Shuang Li, Ruihan Yang, Tinghui Zhu, Aili Chen, Nianqi Li, Lida Chen, Caiyu Hu, Siye Wu, Scott Ren, Ziquan Fu, Yanghua Xiao, (参考訳) 大規模言語モデル(LLM)の最近の進歩はロールプレイング言語エージェント(RPLA)の台頭、すなわち割り当てられたペルソナをシミュレートするために設計された専門的なAIシステムの台頭を著しく加速させている。 文脈内学習、指示追従、ソーシャルインテリジェンスなど、複数のLLMの高度な能力を活用することで、RPLAは人間の類似性と鮮明なロールプレイングパフォーマンスの顕著な感覚を達成できる。 RPLAは、歴史人物や架空のキャラクターから現実の個人まで、幅広いペルソナを模倣することができる。 その結果、感情的な仲間、インタラクティブなビデオゲーム、パーソナライズされたアシスタントとコピロ、デジタルクローンなど、数多くのAIアプリケーションを触媒した。 本稿では,この分野を包括的に調査し,最先端のLDM技術と統合されたRPLAの進化と最近の進歩を概説する。 私たちはペルソナを3つのタイプに分類します。 1) 統計ステレオタイプを利用したデモグラフィックペルソナ 2 身元がよく整った人物に焦点をあてた人格 3)パーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズされたパーソナライズド・パーソナリティ。 まず、RPLAの現在の方法論の概要を概観し、続いて、対応するデータソーシング、エージェントの構築、評価について、各ペルソナタイプの詳細を示す。 その後、RPLAの基本的リスク、既存の制限、今後の展望について論じる。 さらに、AIアプリケーションにおけるRPLAの簡単なレビューを行い、RPLA研究を形作り推進する実践的なユーザ要求を反映する。 本研究は、RPLA研究と応用の明確な分類を確立し、この重要かつ絶え間なく進化する分野における将来の研究を促進することを目的としており、人間とRPLAが調和して共存する未来への道を開くことを目的としている。

Recent advancements in large language models (LLMs) have significantly boosted the rise of Role-Playing Language Agents (RPLAs), i.e., specialized AI systems designed to simulate assigned personas. By harnessing multiple advanced abilities of LLMs, including in-context learning, instruction following, and social intelligence, RPLAs achieve a remarkable sense of human likeness and vivid role-playing performance. RPLAs can mimic a wide range of personas, ranging from historical figures and fictional characters to real-life individuals. Consequently, they have catalyzed numerous AI applications, such as emotional companions, interactive video games, personalized assistants and copilots, and digital clones. In this paper, we conduct a comprehensive survey of this field, illustrating the evolution and recent progress in RPLAs integrating with cutting-edge LLM technologies. We categorize personas into three types: 1) Demographic Persona, which leverages statistical stereotypes; 2) Character Persona, focused on well-established figures; and 3) Individualized Persona, customized through ongoing user interactions for personalized services. We begin by presenting a comprehensive overview of current methodologies for RPLAs, followed by the details for each persona type, covering corresponding data sourcing, agent construction, and evaluation. Afterward, we discuss the fundamental risks, existing limitations, and future prospects of RPLAs. Additionally, we provide a brief review of RPLAs in AI applications, which reflects practical user demands that shape and drive RPLA research. Through this work, we aim to establish a clear taxonomy of RPLA research and applications, and facilitate future research in this critical and ever-evolving field, and pave the way for a future where humans and RPLAs coexist in harmony.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 非同期チャレンジに関する一考察:林吉田推定器におけるフォーミュラバイアスとデータ損失の解消

A Note on Asynchronous Challenges: Unveiling Formulaic Bias and Data Loss in the Hayashi-Yoshida Estimator ( http://arxiv.org/abs/2404.18233v1 )

ライセンス: Link先を確認
Evangelos Georgiadis, (参考訳) 林吉田推定器は内在的、テレスコープ的特性を示し、しばしば見過ごされる計算バイアスをもたらす。 この公式バイアスは、既存のデータポイントである潜在的に関連するデータポイントをキャンセルすることで、データ損失をもたらす。 本稿では,このバイアスに起因するデータ損失の形式化と定量化を試みる。 特に、具体例による非存在データポイントの存在を強調し、この式バイアスを誘発するテレスコープ特性の必要十分条件を証明する。このタイプのバイアスは、入力時に存在しないので、例えば、$\Pi^{(1)} :=(t_i^{(1)})_{i=0,1,\ldots}$と$\Pi^{(2)} :=(t_j^{(2)})_{j=0,1,\ldots}$は同期である。 この逆元は、それぞれ a>0 と b>0 の2つの独立な同種ポアソン過程に従って $\Pi^{(1)}$ と $\Pi^{(2)}$ の入力を生成する。 累積最小(または最小)平均データポイント損失に関する基本的な問題に対処し、aとbの値を決定する。 等速a=bの場合、両入力に対する最小平均累積データ損失が達成され、25\%となることを示す。 提案するアルゴリズムは,提案する定理に基づいて,入力値$\Pi^{(1)}$および$\Pi^{(2)}$の非存在データ点の正確な数を計算し,代替手法を提案する。 最後に、シミュレーションデータを用いて、 (\HY)-推定器の平均データ損失(累積)を経験的に比較する。

The Hayashi-Yoshida (\HY)-estimator exhibits an intrinsic, telescoping property that leads to an often overlooked computational bias, which we denote,formulaic or intrinsic bias. This formulaic bias results in data loss by cancelling out potentially relevant data points, the nonextant data points. This paper attempts to formalize and quantify the data loss arising from this bias. In particular, we highlight the existence of nonextant data points via a concrete example, and prove necessary and sufficient conditions for the telescoping property to induce this type of formulaic bias.Since this type of bias is nonexistent when inputs, i.e., observation times, $\Pi^{(1)} :=(t_i^{(1)})_{i=0,1,\ldots}$ and $\Pi^{(2)} :=(t_j^{(2)})_{j=0,1,\ldots}$, are synchronous, we introduce the (a,b)-asynchronous adversary. This adversary generates inputs $\Pi^{(1)}$ and $\Pi^{(2)}$ according to two independent homogenous Poisson processes with rates a>0 and b>0, respectively. We address the foundational questions regarding cumulative minimal (or least) average data point loss, and determine the values for a and b. We prove that for equal rates a=b, the minimal average cumulative data loss over both inputs is attained and amounts to 25\%. We present an algorithm, which is based on our theorem, for computing the exact number of nonextant data points given inputs $\Pi^{(1)}$ and $\Pi^{(2)}$, and suggest alternative methods. Finally, we use simulated data to empirically compare the (cumulative) average data loss of the (\HY)-estimator.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# 量子気体の状態工学のためのベイズ最適化

Bayesian optimization for state engineering of quantum gases ( http://arxiv.org/abs/2404.18234v1 )

ライセンス: Link先を確認
Gabriel Müller, V. J. Martínez-Lahuerta, Ivan Sekulic, Sven Burger, Philipp-Immanuel Schneider, Naceur Gaaloul, (参考訳) 量子オブジェクトの状態工学は、ほとんどの実装において中心的な要件である。 解析解や単純な近似モデルによって量子力学を記述できる場合、最適状態準備プロトコルが理論的に提案され、実験的に実現されている。 しかし、多成分量子ガスのようなより複雑なシステムでは、仮定を単純化することはもはや適用されず、最適化技術は計算的に実用的ではない。 本稿では,数個のシミュレーションのみから量子状態の物理特性を学習するために,多出力ガウス過程に基づくベイズ最適化を提案する。 ボース・アインシュタイン凝縮体を基底状態に保ちながらダイアバティカルに輸送する最適化研究事例において,その性能を評価し,基礎となる物理シミュレーションの数百行以内で,他のプロトコルと競合する性能に達することを示す。 このベンチマークは、単純な比較のためによく知られた近似に制限されるが、より複雑なモデルを採用する際にも同様のパフォーマンスが期待できる。 これは複雑な量子系の効率的な状態工学への道を開く。

State engineering of quantum objects is a central requirement in most implementations. In the cases where the quantum dynamics can be described by analytical solutions or simple approximation models, optimal state preparation protocols have been theoretically proposed and experimentally realized. For more complex systems, however, such as multi-component quantum gases, simplifying assumptions do not apply anymore and the optimization techniques become computationally impractical. Here, we propose Bayesian optimization based on multi-output Gaussian processes to learn the quantum state's physical properties from few simulations only. We evaluate its performance on an optimization study case of diabatically transporting a Bose-Einstein condensate while keeping it in its ground state, and show that within only few hundreds of executions of the underlying physics simulation, we reach a competitive performance with other protocols. While restricting this benchmarking to well known approximations for straightforward comparisons, we expect a similar performance when employing more involving models, which are computationally more challenging. This paves the way to efficient state engineering of complex quantum systems.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# Apache Sedonaを使用したSpaceNet 8のフラッドデータ解析

Flood Data Analysis on SpaceNet 8 Using Apache Sedona ( http://arxiv.org/abs/2404.18235v1 )

ライセンス: Link先を確認
Yanbing Bai, Zihao Yang, Jinze Yu, Rui-Yang Ju, Bin Yang, Erick Mas, Shunichi Koshimura, (参考訳) 人命と財産に永続的な脅威をもたらす洪水の頻度が増大する中、衛星リモートセンシングは洪水の危険を監視するのに欠かせないツールとして現れてきた。 SpaceNet8は、最先端の人工知能技術を利用してこれらのハザードを評価するユニークな機会を提供する。 この研究の大きな貢献は、大規模な地理空間データの効率的かつ分散処理に特化した高度なプラットフォームであるApache Sedonaの応用である。 このプラットフォームは,洪水被害検出精度を向上させる重要な側面である,エラー解析の効率を高めることを目的としている。 Apache Sedonaをベースとして,洪水被害検出における不正確な問題に対処する,新たなアプローチを導入する。 このアプローチでは,過去の洪水イベントからのケースの検索,これらのケースの現在のシナリオへの適応,クラスタリングアルゴリズムに基づくモデルの改訂などを行う。 本研究では,SpaceNet8ベースラインとそのトップパフォーマンスモデルの両方のレプリケーションを通じて,包括的なエラー解析を行う。 この分析は、いくつかの主要な不正確な原因を明らかにしている。 これらの問題に対処するために、我々はデータ視覚的解釈とヒストグラム等化技術を採用し、モデルメトリクスを大幅に改善した。 これらの改善の後、我々の指標は顕著な改善を示し、精度は5%、F1は2.6%、IoUは4.5%向上した。 この作業は、Apache Sedonaのような高度な地理空間データ処理ツールの重要性を強調している。 本研究は, 洪水検出の精度と効率を向上させることにより, 公共安全の確保と, 洪水発生地におけるインフラのレジリエンスの強化に寄与し, リモートセンシングと災害管理の分野に付加価値をもたらす。

With the escalating frequency of floods posing persistent threats to human life and property, satellite remote sensing has emerged as an indispensable tool for monitoring flood hazards. SpaceNet8 offers a unique opportunity to leverage cutting-edge artificial intelligence technologies to assess these hazards. A significant contribution of this research is its application of Apache Sedona, an advanced platform specifically designed for the efficient and distributed processing of large-scale geospatial data. This platform aims to enhance the efficiency of error analysis, a critical aspect of improving flood damage detection accuracy. Based on Apache Sedona, we introduce a novel approach that addresses the challenges associated with inaccuracies in flood damage detection. This approach involves the retrieval of cases from historical flood events, the adaptation of these cases to current scenarios, and the revision of the model based on clustering algorithms to refine its performance. Through the replication of both the SpaceNet8 baseline and its top-performing models, we embark on a comprehensive error analysis. This analysis reveals several main sources of inaccuracies. To address these issues, we employ data visual interpretation and histogram equalization techniques, resulting in significant improvements in model metrics. After these enhancements, our indicators show a notable improvement, with precision up by 5%, F1 score by 2.6%, and IoU by 4.5%. This work highlights the importance of advanced geospatial data processing tools, such as Apache Sedona. By improving the accuracy and efficiency of flood detection, this research contributes to safeguarding public safety and strengthening infrastructure resilience in flood-prone areas, making it a valuable addition to the field of remote sensing and disaster management.
翻訳日:2024-04-30 15:35:41 公開日:2024-04-28
# SOUL:LLMアンラーニングのための2階最適化のパワーを解き放つ

SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning ( http://arxiv.org/abs/2404.18239v1 )

ライセンス: Link先を確認
Jinghan Jia, Yihua Zhang, Yimeng Zhang, Jiancheng Liu, Bharat Runwal, James Diffenderfer, Bhavya Kailkhura, Sijia Liu, (参考訳) 大規模言語モデル(LLM)は、データ規則や倫理的AIプラクティスに従うための効果的な非学習メカニズムの必要性を強調している。 LLMアンラーニングは、望ましくないデータの影響と関連するモデル機能を取り除くことを目的としており、アンラーニングの範囲からユーティリティを妥協させることはない。 LLMアンラーニングの研究への関心は高まっているが、LLMアンラーニングにおけるオプティマイザ選択の影響はいまだに未調査である。 本研究では,LLMアンラーニングにおけるオプティマイザ選択の重要性を初めて明らかにし,<2次最適化>とアンラーニング(データ影響除去のためのモデル更新にインフルエンス関数を用いた古典的アプローチ)との明確な関係を確立した。 この知見は,2次クリッピング確率最適化(Sophia)に基づくLLM学習法に基づいて,SOULと呼ばれる2次アンラーニングフレームワークを開発することを示唆している。 SOULは、動的で反復的なアンラーニングプロセスにインフルエンスアンラーニングを使用して、静的でワンショットのモデル更新を拡張する。 我々の広範な実験により、SOULは様々な未学習タスク、モデル、メトリクスにまたがる従来の一階法よりも一貫して優れており、LLMアンラーニングのためのスケーラブルで実装が容易なソリューションを提供することで、二階最適化の可能性を示唆している。

Large Language Models (LLMs) have highlighted the necessity of effective unlearning mechanisms to comply with data regulations and ethical AI practices. LLM unlearning aims at removing undesired data influences and associated model capabilities without compromising utility out of the scope of unlearning. While interest in studying LLM unlearning is growing,the impact of the optimizer choice for LLM unlearning remains under-explored. In this work, we shed light on the significance of optimizer selection in LLM unlearning for the first time, establishing a clear connection between {second-order optimization} and influence unlearning (a classical approach using influence functions to update the model for data influence removal). This insight propels us to develop a second-order unlearning framework, termed SOUL, built upon the second-order clipped stochastic optimization (Sophia)-based LLM training method. SOUL extends the static, one-shot model update using influence unlearning to a dynamic, iterative unlearning process. Our extensive experiments show that SOUL consistently outperforms conventional first-order methods across various unlearning tasks, models, and metrics, suggesting the promise of second-order optimization in providing a scalable and easily implementable solution for LLM unlearning.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# LEGENT: Embodied Agentsのオープンプラットフォーム

LEGENT: Open Platform for Embodied Agents ( http://arxiv.org/abs/2404.18243v1 )

ライセンス: Link先を確認
Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun, (参考訳) LLM(Large Language Models)とLMM(Large Multimodal Models)の進歩にもかかわらず、言語を基盤とした人間のようなエンボディエージェントへの統合は未完成のままであり、物理的環境における複雑な実環境タスクのパフォーマンスを妨げている。 既存の統合はしばしば、この分野での集合的な進歩に挑戦する、限られたオープンソースを特徴としている。 LLMとLMMを用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームであるLEGENTを紹介する。 LEGENTは、リッチでインタラクティブな3D環境と、コミュニケーション可能でアクション可能なエージェント、ユーザフレンドリなインターフェースとの組み合わせ、高度なアルゴリズムを活用した高度なデータ生成パイプライン、という2つのアプローチを提供する。 実験では, LEGENT生成データに基づいて学習した胚の視覚-言語-行動モデルが, 具体化タスクにおけるGPT-4Vを超越し, 有望な一般化能力を示す。

Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# VQEによるBethe根の推定

Estimating Bethe roots with VQE ( http://arxiv.org/abs/2404.18244v1 )

ライセンス: Link先を確認
David Raveh, Rafael I. Nepomechie, (参考訳) 解が対応する可積分ハミルトニアンの正確な固有値と固有状態を決定する方程式は、一般に解くのが難しい。 我々は、Bethe状態を試行状態とし、Bethe根を変分パラメータとして扱うことにより、スピン-1/2 XXZ量子スピン鎖のBethe根を推定するための変分量子固有解器(VQE)アプローチを実装した。 最大6までの大きさの系の数値シミュレーションでは、閉および開のXXZ鎖に対して、基底状態と最大5個のダウンスピンを持つ励起状態の両方に対応するBethe根の推定値を得る。 このアプローチは実際のBetheのルーツに限ったものではない。

Bethe equations, whose solutions determine exact eigenvalues and eigenstates of corresponding integrable Hamiltonians, are generally hard to solve. We implement a Variational Quantum Eigensolver (VQE) approach to estimating Bethe roots of the spin-1/2 XXZ quantum spin chain, by using Bethe states as trial states, and treating Bethe roots as variational parameters. In numerical simulations of systems of size up to 6, we obtain estimates for Bethe roots corresponding to both ground states and excited states with up to 5 down-spins, for both the closed and open XXZ chains. This approach is not limited to real Bethe roots.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# FAD-SAR:深層学習に基づく合成開口レーダ画像による漁業活動検出システム

FAD-SAR: A Novel Fishing Activity Detection System via Synthetic Aperture Radar Images Based on Deep Learning Method ( http://arxiv.org/abs/2404.18245v1 )

ライセンス: Link先を確認
Yanbing Bai, Rui-Yang Ju, Siao Li, Zihao Yang, Jinze Yu, (参考訳) 違法で、報告されず、規制されていない(IUU)漁業は、人間の生活の様々な側面に深刻な影響を及ぼす。 しかし、海中におけるIUU活動の検出とモニタリングの現在の手法には限界がある。 SAR(Synthetic Aperture Radar)は既存の船体検知システムを補完し,特にIUU漁業識別において従来の手法を用いてSAR画像から有用な情報を抽出するが,課題を提起する。 本稿では,漁業活動を検出するための深層学習システムを提案する。 我々は, 高速R-CNN, Cascade R-CNN, SSD, RetinaNet, FSAF, FCOSの6つの古典的オブジェクト検出モデルを用いて, このシステムをxView3データセット上に実装した。 我々は,より高速なR-CNNモデルの性能向上のために改良手法を適用した。 具体的には、オンラインハードケースマイニング(OHEM)戦略を用いたより高速なR-CNNモデルのトレーニングにより、Avg-F1値は0.212から0.216に改善され、1.96%改善された。

Illegal, unreported, and unregulated (IUU) fishing seriously affects various aspects of human life. However, current methods for detecting and monitoring IUU activities at sea have limitations. While Synthetic Aperture Radar (SAR) can complement existing vessel detection systems, extracting useful information from SAR images using traditional methods, especially for IUU fishing identification, poses challenges. This paper proposes a deep learning-based system for detecting fishing activities. We implemented this system on the xView3 dataset using six classical object detection models: Faster R-CNN, Cascade R-CNN, SSD, RetinaNet, FSAF, and FCOS. We applied improvement methods to enhance the performance of the Faster R-CNN model. Specifically, training the Faster R-CNN model using Online Hard Example Mining (OHEM) strategy improved the Avg-F1 value from 0.212 to 0.216, representing a 1.96% improvement.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# AdaFSNet:適応的で効果的なカーネルサイズ構成を持つ畳み込みネットワークに基づく時系列分類

AdaFSNet: Time Series Classification Based on Convolutional Network with a Adaptive and Effective Kernel Size Configuration ( http://arxiv.org/abs/2404.18246v1 )

ライセンス: Link先を確認
Haoxiao Wang, Bo Peng, Jianhua Zhang, Xu Cheng, (参考訳) 時系列分類は、データマイニングにおいて最も重要かつ困難な問題の1つであり、様々な分野に広く存在し、重要な研究上の重要性を持っている。 現実世界の応用において広範な研究と顕著な成果があるにもかかわらず、1次元または多次元の時系列から適切な受容野(RF)サイズを捉えるという課題は、まだ持続的な問題であり、様々なデータセットに大きく影響し、大きく異なる。 本稿では、時系列分類の精度を高めるために、適応的で効果的なフルスコープ畳み込みニューラルネットワーク(AdaFSNet)を提案する。 このネットワークには2つのDense Blockが含まれている。 特に、時系列長に対応する複数の素数を組み込むことで、様々なデータセットの最適なRFサイズを効果的に含むカーネルサイズの範囲を動的に選択できる。 また、より効率的なRFを抽出しながら冗長性を低減できるTargetDropブロックを設計する。 AdaFSNetネットワークの有効性を評価するため,一次元および多次元時系列データを含むUCRデータセットとUEAデータセットを用いて総合実験を行った。 我々のモデルは,AdaFSNetネットワークの効率と時系列分類タスクの処理効率を基礎として,分類精度の点でベースラインモデルを上回った。

Time series classification is one of the most critical and challenging problems in data mining, existing widely in various fields and holding significant research importance. Despite extensive research and notable achievements with successful real-world applications, addressing the challenge of capturing the appropriate receptive field (RF) size from one-dimensional or multi-dimensional time series of varying lengths remains a persistent issue, which greatly impacts performance and varies considerably across different datasets. In this paper, we propose an Adaptive and Effective Full-Scope Convolutional Neural Network (AdaFSNet) to enhance the accuracy of time series classification. This network includes two Dense Blocks. Particularly, it can dynamically choose a range of kernel sizes that effectively encompass the optimal RF size for various datasets by incorporating multiple prime numbers corresponding to the time series length. We also design a TargetDrop block, which can reduce redundancy while extracting a more effective RF. To assess the effectiveness of the AdaFSNet network, comprehensive experiments were conducted using the UCR and UEA datasets, which include one-dimensional and multi-dimensional time series data, respectively. Our model surpassed baseline models in terms of classification accuracy, underscoring the AdaFSNet network's efficiency and effectiveness in handling time series classification tasks.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# ブロックチェーンデータ分析のための機械学習 - 進歩と機会

Machine Learning for Blockchain Data Analysis: Progress and Opportunities ( http://arxiv.org/abs/2404.18251v1 )

ライセンス: Link先を確認
Poupak Azad, Cuneyt Gurcan Akcora, Arijit Khan, (参考訳) ブロックチェーン技術は急速に主流になってきたが、その公開されやすく、異質で、大量で、時間的なデータは、ビッグデータの過去10年間に遭遇した複雑なダイナミクスを思い起こさせるものだ。 従来のデータソースとは異なり、ブロックチェーンデータセットには、現実世界のエンティティ、例えば、人間のユーザ、自律的なプログラム、スマートコントラクトなど、複数のレイヤのインタラクションが含まれている。 さらに、ブロックチェーンと暗号通貨の統合は、分散金融、安定コイン、非偽造トークン、中央銀行のデジタル通貨など、前例のない規模と複雑さの財務的側面を導入している。 これらのユニークな特徴は、ブロックチェーンデータ上での機械学習の機会と課題の両方を示している。 一方、E-crime検出やトレンド予測といったブロックチェーン技術の改善に不可欠なブロックチェーンデータ分析に機械学習を活用する上で、最先端のソリューション、アプリケーション、今後の方向性について検討する。 一方、進化する機械学習エコシステムの成長を触媒する巨大なデータセットとツールを提供することで、ブロックチェーンの重要役割を浮き彫りにしました。 本稿は、研究者、実践者、政策立案者のための総合的な資源として機能し、このダイナミックで変革的な分野をナビゲートするためのロードマップを提供する。

Blockchain technology has rapidly emerged to mainstream attention, while its publicly accessible, heterogeneous, massive-volume, and temporal data are reminiscent of the complex dynamics encountered during the last decade of big data. Unlike any prior data source, blockchain datasets encompass multiple layers of interactions across real-world entities, e.g., human users, autonomous programs, and smart contracts. Furthermore, blockchain's integration with cryptocurrencies has introduced financial aspects of unprecedented scale and complexity such as decentralized finance, stablecoins, non-fungible tokens, and central bank digital currencies. These unique characteristics present both opportunities and challenges for machine learning on blockchain data. On one hand, we examine the state-of-the-art solutions, applications, and future directions associated with leveraging machine learning for blockchain data analysis critical for the improvement of blockchain technology such as e-crime detection and trends prediction. On the other hand, we shed light on the pivotal role of blockchain by providing vast datasets and tools that can catalyze the growth of the evolving machine learning ecosystem. This paper serves as a comprehensive resource for researchers, practitioners, and policymakers, offering a roadmap for navigating this dynamic and transformative field.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# 訓練自由条件拡散モデルに基づく漁業情報の改善

Fisher Information Improved Training-Free Conditional Diffusion Model ( http://arxiv.org/abs/2404.18252v1 )

ライセンス: Link先を確認
Kaiyu Song, Hanjiang Lai, (参考訳) 近年,条件付き画像生成タスクにおいて,トレーニング不要な手法による拡散モデルが成功している。 しかし、計算コストの高い勾配を計算する必要があるため、効率上の問題があり、従来の手法はそれを解くために強い仮定をしており、一般化を犠牲にしている。 本研究では,フィッシャー情報誘導拡散モデル(FIGD)を提案する。 具体的には,計算コストの削減を前提とせずに,勾配を推定するためにフィッシャー情報を導入する。 一方,フィッシャー情報によってFIGDの一般化が保証され,情報理論に基づく学習自由な手法に対する新たな洞察が得られた。 実験により,FIGDは高品質を維持しつつ,異なる条件付き世代をより早く達成できることが示された。

Recently, the diffusion model with the training-free methods has succeeded in conditional image generation tasks. However, there is an efficiency problem because it requires calculating the gradient with high computational cost, and previous methods make strong assumptions to solve it, sacrificing generalization. In this work, we propose the Fisher information guided diffusion model (FIGD). Concretely, we introduce the Fisher information to estimate the gradient without making any additional assumptions to reduce computation cost. Meanwhile, we demonstrate that the Fisher information ensures the generalization of FIGD and provides new insights for training-free methods based on the information theory. The experimental results demonstrate that FIGD could achieve different conditional generations more quickly while maintaining high quality.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# 高調波伝達学習とモダリティアライメントを用いた効率的なリモートセンシング

Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment ( http://arxiv.org/abs/2404.18253v1 )

ライセンス: Link先を確認
Tengjun Huang, (参考訳) Visual and Language Pretraining (VLP)の台頭に伴い、多くのダウンストリームタスクが事前トレーニングのパラダイムを採用しており、さらに微調整も行われている。 このパラダイムは、様々なマルチモーダルな下流タスクにおいてポテンシャルを示してきたが、リモートセンシング領域における実装はいくつかの障害に直面している。 具体的には、同じモダリティの埋め込みを一緒にクラスタ化する傾向は、効率的な移動学習を妨げる。 この問題に対処するために,下流タスクに対するマルチモーダル・トランスファー学習の目的を統一的な視点から検討し,3つの異なる目的に基づいて最適化プロセスを再考する。 本研究では,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法であるHarMA(Harmonized Transfer Learning and Modality Alignment)を提案する。 注目すべきは、トレーニングのための外部データを必要としないHarMAは、リモートセンシングの分野で人気の高い2つのマルチモーダル検索タスクにおいて、最先端のパフォーマンスを達成することである。 実験の結果,HarMAは最小限の調整可能なパラメータしか持たない完全微調整モデルに対して,競争力や性能に優れることがわかった。 その単純さから、HarMAは既存のほとんどすべてのマルチモーダル事前学習モデルに統合できる。 本手法により,大規模モデルの幅広い下流タスクへの効率的な適用が促進され,資源消費を大幅に削減できることを期待する。 コードはhttps://github.com/seekerhuang/HarMA.comで入手できる。

With the rise of Visual and Language Pretraining (VLP), an increasing number of downstream tasks are adopting the paradigm of pretraining followed by fine-tuning. Although this paradigm has demonstrated potential in various multimodal downstream tasks, its implementation in the remote sensing domain encounters some obstacles. Specifically, the tendency for same-modality embeddings to cluster together impedes efficient transfer learning. To tackle this issue, we review the aim of multimodal transfer learning for downstream tasks from a unified perspective, and rethink the optimization process based on three distinct objectives. We propose "Harmonized Transfer Learning and Modality Alignment (HarMA)", a method that simultaneously satisfies task constraints, modality alignment, and single-modality uniform alignment, while minimizing training overhead through parameter-efficient fine-tuning. Remarkably, without the need for external data for training, HarMA achieves state-of-the-art performance in two popular multimodal retrieval tasks in the field of remote sensing. Our experiments reveal that HarMA achieves competitive and even superior performance to fully fine-tuned models with only minimal adjustable parameters. Due to its simplicity, HarMA can be integrated into almost all existing multimodal pretraining models. We hope this method can facilitate the efficient application of large models to a wide range of downstream tasks while significantly reducing the resource consumption. Code is available at https://github.com/seekerhuang/HarMA.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# PatentGPT:知的財産のための大規模言語モデル

PatentGPT: A Large Language Model for Intellectual Property ( http://arxiv.org/abs/2404.18255v1 )

ライセンス: Link先を確認
Zilong Bai, Ruiji Zhang, Linqing Chen, Qijun Cai, Yuan Zhong, Cong Wang Yan Fang, Jie Fang, Jing Sun, Weikuan Wang, Lizhi Zhou, Haoran Hua Tian Qiu, Chaochao Wang, Cheng Sun, Jianping Lu, Yixin Wang, Yubin Xia Meng Hu, Haowen Liu, Peng Xu, Licong Xu, Fu Bian, Xiaolong Gu, Lisha Zhang Weilei Wang, Changyang Tu, (参考訳) 近年,多数の自然言語処理タスクにまたがる例外的な性能により,大規模言語モデルが注目され,様々な分野に広く応用されている。 しかし、知的財産権(IP)分野における大規模言語モデルの応用は、専門知識、プライバシー保護、この分野における極端に長いテキストの処理の必要性が強いため、困難である。 本技術報告では,IP ドメインのユニークな要件を満たす,IP 指向 LLM をトレーニングするための,低コストで標準化された手順を初めて提示する。 この標準プロセスを用いて,オープンソース事前学習モデルに基づく特許GPTシリーズモデルを訓練した。 オープンソースのIP指向ベンチマークMOZIPで評価することにより、ドメイン固有のLCMはGPT-4よりも優れており、提案したトレーニング手順の有効性とIP領域における特許GPTモデルの専門性を示している。 驚くべきことに、2019年の中国特許代理人資格試験において、我々のモデルは、65のスコアを獲得し、人間の専門家のレベルに達したことで、GPT-4を著しく上回った。 さらに、SMoE アーキテクチャを利用する PatentGPT モデルは、IP ドメインの GPT-4 に匹敵する性能を達成し、IP ドメイン内の GPT-4 の代替として機能し、長文タスクのコストパフォーマンスを向上する。

In recent years, large language models have attracted significant attention due to their exceptional performance across a multitude of natural language process tasks, and have been widely applied in various fields. However, the application of large language models in the Intellectual Property (IP) space is challenging due to the strong need for specialized knowledge, privacy protection, processing of extremely long text in this field. In this technical report, we present for the first time a low-cost, standardized procedure for training IP-oriented LLMs, meeting the unique requirements of the IP domain. Using this standard process, we have trained the PatentGPT series models based on open-source pretrained models. By evaluating them on the open-source IP-oriented benchmark MOZIP, our domain-specific LLMs outperforms GPT-4, indicating the effectiveness of the proposed training procedure and the expertise of the PatentGPT models in the IP demain. What is impressive is that our model significantly outperformed GPT-4 on the 2019 China Patent Agent Qualification Examination by achieving a score of 65, reaching the level of human experts. Additionally, the PatentGPT model, which utilizes the SMoE architecture, achieves performance comparable to that of GPT-4 in the IP domain and demonstrates a better cost-performance ratio on long-text tasks, potentially serving as an alternative to GPT-4 within the IP domain.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# ラテンアメリカとカリブ海の言語における「いつ」クロースをマッピングする:サブトケンに基づくタイポロジーの実験

Mapping 'when'-clauses in Latin American and Caribbean languages: an experiment in subtoken-based typology ( http://arxiv.org/abs/2404.18257v1 )

ライセンス: Link先を確認
Nilo Pedrazzini, (参考訳) 言語は、関係を述語にマークすることで、時間的順序付けを語彙的に、接続を順序付けし、形態的にエンコードすることができる。 前者間の体系的相互言語的変異は、トークン整列並列コーパスに対するよく確立されたトークンベースの類型的アプローチを用いて研究することができる。 異なる形態的手段の違いは、いくつかの言語群で支配的であるにもかかわらず、それに取り組むのが非常に難しく、従って理解が不十分である。 本稿では,ラテンアメリカとカリブ海の言語において,形態的マーキングが特に一般的である時間的順序付け("when'-clauses")の表現の変動について検討する。 これは、地域の言語に基づいて計算された確率論的意味写像を示し、これにより、レキシファイドコネクターのみを使用する多くの世界の言語に対するバイアスを回避し、文字$n$-gramsと英語$when$の関連を組み込む。 このアプローチは, 時間的部分座標のタイプ論的変動を, 大規模かつ戦略に依存しない解析方法として, 辞書化されたコネクタに加えて, 形態的節リンク装置の取得を可能にする。

Languages can encode temporal subordination lexically, via subordinating conjunctions, and morphologically, by marking the relation on the predicate. Systematic cross-linguistic variation among the former can be studied using well-established token-based typological approaches to token-aligned parallel corpora. Variation among different morphological means is instead much harder to tackle and therefore more poorly understood, despite being predominant in several language groups. This paper explores variation in the expression of generic temporal subordination ('when'-clauses) among the languages of Latin America and the Caribbean, where morphological marking is particularly common. It presents probabilistic semantic maps computed on the basis of the languages of the region, thus avoiding bias towards the many world's languages that exclusively use lexified connectors, incorporating associations between character $n$-grams and English $when$. The approach allows capturing morphological clause-linkage devices in addition to lexified connectors, paving the way for larger-scale, strategy-agnostic analyses of typological variation in temporal subordination.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# 調整, 最小化, 多様化:手書き文字認識のための非教師なし領域適応法

Align, Minimize and Diversify: A Source-Free Unsupervised Domain Adaptation Method for Handwritten Text Recognition ( http://arxiv.org/abs/2404.18260v1 )

ライセンス: Link先を確認
María Alfaro-Contreras, Jorge Calvo-Zaragoza, (参考訳) 本稿では,手書き文字認識(HTR)のための非教師なし領域適応手法であるAlign, Minimize and Diversify(AMD)手法を紹介する。 このフレームワークは、ソースデータから適応プロセスを分離するので、リソース集約的なリトレーニングプロセスをサイドステッピングするだけでなく、現代のディープラーニングアーキテクチャで符号化された学習済み知識の豊富な活用を可能にします。 提案手法では, 対象データ間の特徴分布の不一致を低減し, 事前学習した表現の伝達可能性を確保する Align 項, 予測の不確実性を最小化するために, 出力を 1 つのホットライクな分布にプッシュする Minimize 項, そして最後に, ターゲットデータ全体にわたって, 多様な, 独特なシーケンスを推進し, 情報破壊を防止し, 予測の縮退を防ぐ Diversify 項の3つの異なる正規化項を組み込むことにより, 適応中のソースデータの再検討の必要性を明確に排除する。 いくつかのベンチマークによる実験の結果、AMDの有効性とロバスト性を示し、HTRにおけるDA法よりも競争力があり、しばしば優れていた。

This paper serves to introduce the Align, Minimize and Diversify (AMD) method, a Source-Free Unsupervised Domain Adaptation approach for Handwritten Text Recognition (HTR). This framework decouples the adaptation process from the source data, thus not only sidestepping the resource-intensive retraining process but also making it possible to leverage the wealth of pre-trained knowledge encoded in modern Deep Learning architectures. Our method explicitly eliminates the need to revisit the source data during adaptation by incorporating three distinct regularization terms: the Align term, which reduces the feature distribution discrepancy between source and target data, ensuring the transferability of the pre-trained representation; the Minimize term, which encourages the model to make assertive predictions, pushing the outputs towards one-hot-like distributions in order to minimize prediction uncertainty, and finally, the Diversify term, which safeguards against the degeneracy in predictions by promoting varied and distinctive sequences throughout the target data, preventing informational collapse. Experimental results from several benchmarks demonstrated the effectiveness and robustness of AMD, showing it to be competitive and often outperforming DA methods in HTR.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# 代替ソリューションパスに関する推定反射トリガーの生成:コンピュータ支援協調学習のための生成AIを事例として

Generating Situated Reflection Triggers about Alternative Solution Paths: A Case Study of Generative AI for Computer-Supported Collaborative Learning ( http://arxiv.org/abs/2404.18262v1 )

ライセンス: Link先を確認
Atharva Naik, Jessica Ruhan Yin, Anusha Kamath, Qianou Ma, Sherry Tongshuang Wu, Charles Murray, Christopher Bogart, Majd Sakr, Carolyn P. Rose, (参考訳) 大規模言語モデル(LLMs)の利点は、そのコンテキスト化能力である - ソリューション戦略や事前の議論といった、学生の入力に基づいて異なる応答を提供することによって、標準的フィードバックよりも学生の参加性を高めることができる。 本稿では,学生に動的かつ文脈的フィードバックを提供するための概念実証 LLM アプリケーションの設計と評価について述べる。 具体的には、ChatGPTを用いて、大学レベルのクラウドコンピューティングコースのためのオンラインプログラミング演習ボットを拡張し、データベース設計における協調クエリ最適化タスク中に、学生にコンテキスト化されたリフレクショントリガを提供する。 LLMは、コンテキスト内で発生する協調的な議論の詳細を組み込んだ、高度に位置決めされたリフレクショントリガを生成するために使用できることを実証する。 我々は,34人の学生を対象としたパイロット研究において,トリガーの設計空間の探索と学習目標との対応,および学生の学習への影響について深く議論した。

An advantage of Large Language Models (LLMs) is their contextualization capability - providing different responses based on student inputs like solution strategy or prior discussion, to potentially better engage students than standard feedback. We present a design and evaluation of a proof-of-concept LLM application to offer students dynamic and contextualized feedback. Specifically, we augment an Online Programming Exercise bot for a college-level Cloud Computing course with ChatGPT, which offers students contextualized reflection triggers during a collaborative query optimization task in database design. We demonstrate that LLMs can be used to generate highly situated reflection triggers that incorporate details of the collaborative discussion happening in context. We discuss in depth the exploration of the design space of the triggers and their correspondence with the learning objectives as well as the impact on student learning in a pilot study with 34 students.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# ナイジェリアピジンのNLP性能を改善するオルソグラフィー変動のモデル化

Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin ( http://arxiv.org/abs/2404.18264v1 )

ライセンス: Link先を確認
Pin-Jie Lin, Merel Scholman, Muhammed Saeed, Vera Demberg, (参考訳) ナイジェリアのピジン語は英語由来の接触言語であり、伝統的に口語であり、約1億人の人々が話していた。 正書法標準はまだ採用されておらず、利用可能なピジンデータセットは、正書法の変化の形でノイズによって特徴づけられる。 これは、重要なNLPタスクにおけるモデルの低パフォーマンスに寄与する。 現在の研究はナイジェリアのピジンのテキストに見られる様々な種類の正書法を初めて記述し、この正書法の変化をモデル化したものである。 データセットで特定されたバリエーションは、単語編集のための音声理論フレームワークの基盤となり、このフレームワークは、トレーニングデータを増やすために、正書法的なバリエーションを生成するのに使用される。 我々は,このデータ拡張が機械翻訳と感情分析の2つの重要なNLPタスクに与える影響を検証した。 提案した変分生成フレームワークは、テストセットに関連があるが、もともとトレーニングセットには発生しなかった新しい正書法変分を用いてトレーニングデータを増強する。 以上の結果から,他のコーパスからの実際のテキストと合成正書法の変化を組み合わせることで,感情分析における2.1点,英語翻訳における1.4 BLEU点の性能向上を図った。

Nigerian Pidgin is an English-derived contact language and is traditionally an oral language, spoken by approximately 100 million people. No orthographic standard has yet been adopted, and thus the few available Pidgin datasets that exist are characterised by noise in the form of orthographic variations. This contributes to under-performance of models in critical NLP tasks. The current work is the first to describe various types of orthographic variations commonly found in Nigerian Pidgin texts, and model this orthographic variation. The variations identified in the dataset form the basis of a phonetic-theoretic framework for word editing, which is used to generate orthographic variations to augment training data. We test the effect of this data augmentation on two critical NLP tasks: machine translation and sentiment analysis. The proposed variation generation framework augments the training data with new orthographic variants which are relevant for the test set but did not occur in the training set originally. Our results demonstrate the positive effect of augmenting the training data with a combination of real texts from other corpora as well as synthesized orthographic variation, resulting in performance improvements of 2.1 points in sentiment analysis and 1.4 BLEU points in translation to English.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# 円トラップ中の3つの相互作用粒子の混合古典位相空間の量子シグネチャ

Quantum signatures of the mixed classical phase space for three interacting particles in a circular trap ( http://arxiv.org/abs/2404.18265v1 )

ライセンス: Link先を確認
D. J. Papoular, B. Zumer, (参考訳) 循環トラップ中の3つの反動相互作用するボゾン粒子に対する混合古典位相空間の2つの結果について理論的に検討した。 まず、対応する量子系のエネルギー準位がベリー・ロブニク分布によってよく説明されることを示す。 第二に、安定な古典的周期軌道に沿って密度が高められた定常量子状態を特定し、半古典的アインシュタイン・ブリユーン・ケラー理論(EBK)を用いてそれらのエネルギーと波動関数を計算する。 EBKの結果は、本格的な有限要素数値とよく一致している。 ボゾン交換対称性を含む離散対称性がこれらの古典的な局在状態に与える影響について論じる。 これらは実験的な範囲内にあり、我々の以前の研究で報告された量子的傷(Phys. Rev. A 107, 022217 (2023))と同じ範囲のエネルギーで起こる。

We study theoretically two consequences of the mixed classical phase space for three repulsively-interacting bosonic particles in a circular trap. First, we show that the energy levels of the corresponding quantum system are well described by a Berry-Robnik distribution. Second, we identify stationary quantum states whose density is enhanced along the stable classical periodic trajectories, and calculate their energies and wavefunctions using the semiclassical Einstein-Brillouin-Keller (EBK) theory. Our EBK results are in excellent agreement with our full-fledged finite-element numerics. We discuss the impact of discrete symmetries, including bosonic exchange symmetry, on these classically localized states. They are within experimental reach, and occur in the same range of energies as the quantum scar reported in our previous work [Phys. Rev. A 107, 022217 (2023)].
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# LINOCS: 継続的安定性のためのネットワーク演算子のルックアヘッド推論

LINOCS: Lookahead Inference of Networked Operators for Continuous Stability ( http://arxiv.org/abs/2404.18267v1 )

ライセンス: Link先を確認
Noga Mudrik, Eva Yezerets, Yenho Chen, Christopher Rozell, Adam Charles, (参考訳) 複雑なシステム内の潜伏する相互作用を識別することは、それら要素が相互にどのように影響し、システム全体の振る舞いに寄与するかなど、運用のダイナミクスに関する深い洞察を解き放つ鍵となります。 例えば神経科学では、ニューロンとニューロンの相互作用を発見することは脳機能を理解するのに不可欠であり、生態学では、集団間の相互作用を認識することが複雑な生態系を理解するのに重要である。 このようなシステムは、しばしば力学系としてモデル化され、通常、ノイズの多い高次元および非定常的な時間的挙動を示し、その識別を困難にしている。 既存の力学系同定法では、短時間の挙動を正確に捉える演算子が得られるが、長期的な傾向を予測できず、基礎となるプロセスが不完全であることを示唆する。 拡張予測(例えば、リカレントニューラルネットワーク)を考える手法は、要素の相互作用の明示的な表現を欠き、かなりのトレーニングデータを必要とするため、解釈可能なネットワーク演算子を捕捉できない。 本稿では,Lookahead-driven Inference of Networked Operators for Continuous Stability (LINOCS)を紹介した。 LINOCSは、トレーニング中に複数の多段階予測と適応重みを統合して、正確な長期予測を得られる動的演算子を復元する。 我々は,LINOCSが複数の力学系モデル(線形,片方向線形,時間変化線形系分解,正規化線形時間変化系を含む)の合成時系列データに基づく基底的真理動的演算子を復元する能力と,実世界の様々な例を通して頑健な再構成を持つ有意義な演算子を生成できることを実証する。

Identifying latent interactions within complex systems is key to unlocking deeper insights into their operational dynamics, including how their elements affect each other and contribute to the overall system behavior. For instance, in neuroscience, discovering neuron-to-neuron interactions is essential for understanding brain function; in ecology, recognizing the interactions among populations is key for understanding complex ecosystems. Such systems, often modeled as dynamical systems, typically exhibit noisy high-dimensional and non-stationary temporal behavior that renders their identification challenging. Existing dynamical system identification methods often yield operators that accurately capture short-term behavior but fail to predict long-term trends, suggesting an incomplete capture of the underlying process. Methods that consider extended forecasts (e.g., recurrent neural networks) lack explicit representations of element-wise interactions and require substantial training data, thereby failing to capture interpretable network operators. Here we introduce Lookahead-driven Inference of Networked Operators for Continuous Stability (LINOCS), a robust learning procedure for identifying hidden dynamical interactions in noisy time-series data. LINOCS integrates several multi-step predictions with adaptive weights during training to recover dynamical operators that can yield accurate long-term predictions. We demonstrate LINOCS' ability to recover the ground truth dynamical operators underlying synthetic time-series data for multiple dynamical systems models (including linear, piece-wise linear, time-changing linear systems' decomposition, and regularized linear time-varying systems) as well as its capability to produce meaningful operators with robust reconstructions through various real-world examples.
翻訳日:2024-04-30 15:25:56 公開日:2024-04-28
# 安全臨界設計における逐次誤り検出・訂正符号(ECC)の実用的形式検証

Pragmatic Formal Verification of Sequential Error Detection and Correction Codes (ECCs) used in Safety-Critical Design ( http://arxiv.org/abs/2404.18270v1 )

ライセンス: Link先を確認
Aman Kumar, (参考訳) 誤り検出訂正符号(ECC)は、データ整合性を保護するためにしばしばデジタル設計で使用される。 特に自動車エレクトロニクスなどの安全クリティカルなシステムでは、ECCが広く使われ、ISO 26262の安全基準を考えると、そのような複雑な論理の検証がより重要になる。 形式的手法によるECCの排他的検証は、保護すべきデータビットの多さを考えると困難である。 例えば、128ビットのデータビットのECCで最大4ビットエラーを検出する場合、ビットエラーの組み合わせは128C1 + 128C2 + 128C3 + 128C4 = 1.1 * 10^7で与えられる。 この広大な解析空間は、しばしば有界な証明結果をもたらす。 さらに、ECCがシーケンシャルエンコーディングおよびデコードステージを持つ場合、複雑さと状態空間はさらに増加する。 このような問題を克服し、妥当な証明時間内に設計を信頼してサインオフするために、複雑なECCコアの実用的形式的検証手法と、検証期間中に学習したノウハウを提案する。 そこで,本論文では,シンドローム生成器の線形性をヘルパーアサーションとして使用し,抽象モデルを用いてRTLを回路の逐次バージョンと比較し,k-インダクションに基づくモデルチェックを行い,数学的関係を特性として捉え,検証を単純化し,24時間以内の証明結果を得る。

Error Detection and Correction Codes (ECCs) are often used in digital designs to protect data integrity. Especially in safety-critical systems such as automotive electronics, ECCs are widely used and the verification of such complex logic becomes more critical considering the ISO 26262 safety standards. Exhaustive verification of ECC using formal methods has been a challenge given the high number of data bits to protect. As an example, for an ECC of 128 data bits with a possibility to detect up to four-bit errors, the combination of bit errors is given by 128C1 + 128C2 + 128C3 + 128C4 = 1.1 * 10^7. This vast analysis space often leads to bounded proof results. Moreover, the complexity and state-space increase further if the ECC has sequential encoding and decoding stages. To overcome such problems and sign-off the design with confidence within reasonable proof time, we present a pragmatic formal verification approach of complex ECC cores with several complexity reduction techniques and know-how that were learnt during the course of verification. We discuss using the linearity of the syndrome generator as a helper assertion, using the abstract model as glue logic to compare the RTL with the sequential version of the circuit, k-induction-based model checking and using mathematical relations captured as properties to simplify the verification in order to get an unbounded proof result within 24 hours of proof runtime.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# グラフ表現学習のためのパラメータ効率の良いチューニング大言語モデル

Parameter-Efficient Tuning Large Language Models for Graph Representation Learning ( http://arxiv.org/abs/2404.18271v1 )

ライセンス: Link先を確認
Qi Zhu, Da Zheng, Xiang Song, Shichang Zhang, Bowen Jin, Yizhou Sun, George Karypis, (参考訳) ノードやエッジに関する豊富なテキスト情報を示すテキストリッチグラフは、さまざまな現実世界のビジネスアプリケーションで広く利用されている。 大規模言語モデル(LLM)は、テキストの理解において顕著な能力を示し、テキストリッチグラフにおいてより表現豊かなモデリングの可能性をもたらした。 これらの能力にもかかわらず、グラフ上での表現学習にLLMを効率的に適用することは大きな課題である。 近年, LLMのパラメータ効率のよい微調整手法により, 時間とメモリ消費を最小限に抑え, 効率的な新しいタスク一般化が可能となった。 GPEFTは,テキストリッチグラフ上で LLM を用いた効率的なグラフ表現学習のための新しい手法である。 具体的には、グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。 このプロンプトはテキストシーケンスの開始時に挿入される。 グラフプロンプトの品質を向上させるため,ノードテキスト中の次のトークンを予測する際に,凍結LDMを支援するために,GNNを事前訓練した。 既存のGNNやLMと比較して,大規模言語モデルからノード埋め込みを直接生成し,手頃な微調整コストで生成する。 我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。 この結果から,OPT,LLaMA,Falconなどの大規模言語モデルとスムーズに統合できることが示唆された。

Text-rich graphs, which exhibit rich textual information on nodes and edges, are prevalent across a wide range of real-world business applications. Large Language Models (LLMs) have demonstrated remarkable abilities in understanding text, which also introduced the potential for more expressive modeling in text-rich graphs. Despite these capabilities, efficiently applying LLMs to representation learning on graphs presents significant challenges. Recently, parameter-efficient fine-tuning methods for LLMs have enabled efficient new task generalization with minimal time and memory consumption. Inspired by this, we introduce Graph-aware Parameter-Efficient Fine-Tuning - GPEFT, a novel approach for efficient graph representation learning with LLMs on text-rich graphs. Specifically, we utilize a graph neural network (GNN) to encode structural information from neighboring nodes into a graph prompt. This prompt is then inserted at the beginning of the text sequence. To improve the quality of graph prompts, we pre-trained the GNN to assist the frozen LLM in predicting the next token in the node text. Compared with existing joint GNN and LMs, our method directly generate the node embeddings from large language models with an affordable fine-tuning cost. We validate our approach through comprehensive experiments conducted on 8 different text-rich graphs, observing an average improvement of 2% in hit@1 and Mean Reciprocal Rank (MRR) in link prediction evaluations. Our results demonstrate the efficacy and efficiency of our model, showing that it can be smoothly integrated with various large language models, including OPT, LLaMA and Falcon.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# Kernel Corrector LSTM

Kernel Corrector LSTM ( http://arxiv.org/abs/2404.18273v1 )

ライセンス: Link先を確認
Rodrigo Tuna, Yassine Baghoussi, Carlos Soares, João Mendes-Moreira, (参考訳) 予測手法は2つの方法でデータ品質の問題に影響を受ける。 一 予測が困難で 2. 新しいデータで更新されると、モデルに悪影響を及ぼす可能性がある。 後者の問題は通常、これらの問題を取り除くためにデータを前処理することで対処される。 もうひとつのアプローチとしてCorrector LSTM(cLSTM)が提案されている。これはRead \&Write Machine Learning(RW-ML)アルゴリズムで、予測を改善するために学習中にデータを変更する。 有望な結果が報告されているにもかかわらず、メタリアナーを使用してLSTMの隠れ状態を監視するため、cLSTMは計算コストが高い。 我々は,cLSTMのメタラーナーを,より単純な方法で置き換える新しいRW-MLアルゴリズムであるKernel Corrector LSTM(KcLSTM)を提案する。 我々は,新しいアルゴリズムの予測精度とトレーニング時間を実験的に評価し,cLSTMとLSTMと比較した。 その結果,競争予測精度を維持しながらトレーニング時間を短縮できることが示唆された。

Forecasting methods are affected by data quality issues in two ways: 1. they are hard to predict, and 2. they may affect the model negatively when it is updated with new data. The latter issue is usually addressed by pre-processing the data to remove those issues. An alternative approach has recently been proposed, Corrector LSTM (cLSTM), which is a Read \& Write Machine Learning (RW-ML) algorithm that changes the data while learning to improve its predictions. Despite promising results being reported, cLSTM is computationally expensive, as it uses a meta-learner to monitor the hidden states of the LSTM. We propose a new RW-ML algorithm, Kernel Corrector LSTM (KcLSTM), that replaces the meta-learner of cLSTM with a simpler method: Kernel Smoothing. We empirically evaluate the forecasting accuracy and the training time of the new algorithm and compare it with cLSTM and LSTM. Results indicate that it is able to decrease the training time while maintaining a competitive forecasting accuracy.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 量子力学の普遍力学群

A Universal Kinematical Group for Quantum Mechanics ( http://arxiv.org/abs/2404.18274v1 )

ライセンス: Link先を確認
Gerald A. Goldin, David H. Sharp, (参考訳) 1968年、ダッデンとシャープは非相対論的場の量子論における標準可換関係から局所密度と電流の特定の特異リー代数を得た。 対応するリー群は無限次元であり、微分同型群を持つスカラー函数の加法群の自然な半直積である。 この群のユニタリ表現は、様々な量子系を記述し、これまで考えられていなかった可能性、特に2つの空間次元におけるエノンと非アーベル異性体を予測している。 ここでは、この半直積群が量子力学の普遍キネマティカル群として機能する基本的な理由を示す。 したがって、任意の物理空間における質量を持つ系に対する全ての量子キネマティクスの統一的な説明を得ることができ、量子力学において位相が果たす役割を明らかにすることができる。 我々の発展は古典的な位相空間の量子化を必要としない、むしろ古典的な極限は量子力学から従う。 また、この発展とハイゼンベルク量子化の関係についても考察する。

In 1968, Dashen and Sharp obtained a certain singular Lie algebra of local densities and currents from canonical commutation relations in nonrelativistic quantum field theory. The corresponding Lie group is infinite dimensional: the natural semidirect product of an additive group of scalar functions with a group of diffeomorphisms. Unitary representations of this group describe a wide variety of quantum systems, and have predicted previously unsuspected possibilities; notably, anyons and nonabelian anyons in two space dimensions. We present here foundational reasons why this semidirect product group serves as a universal kinematical group for quantum mechanics. We obtain thus a unified account of all possible quantum kinematics for systems with mass in an arbitrary physical space, and clarify the role played by topology in quantum mechanics. Our development does not require quantization of classical phase space; rather, the classical limit follows from the quantum mechanics. We also consider the relationship of our development to Heisenberg quantization.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# Bias Neutralization Framework:Bias Intelligence Quotient (BiQ)を用いた大規模言語モデルの公平性の測定

Bias Neutralization Framework: Measuring Fairness in Large Language Models with Bias Intelligence Quotient (BiQ) ( http://arxiv.org/abs/2404.18276v1 )

ライセンス: Link先を確認
Malur Narayan, John Pasmore, Elton Sampaio, Vijay Raghavan, Gabriella Waters, (参考訳) 公衆の言論や意思決定を形作る上でのLLM(Large Language Models)の影響は、これらのAIシステムに固有のバイアスに対処する義務を浮き彫りにしている。 AIが複数の分野にまたがって統合されたことにより、LSMの人種的偏見に対処することがより重要になったことはない。 本稿では,LLM内のバイアスを定量化・緩和する革新的なアプローチを具現化した,包括的バイアス中立化フレームワーク(CBNF)を提案する。 我々のフレームワークは,Large Language Model Bias Index (LLMBI) [Oketunji, A., Anas, M., Saina, D., (2023)]とBias removaL with No Demographics (BLIND) [Orgad, H., Belinkov, Y. (2023)]メソッドを組み合わせることで,人口統計学のアノテーションに依存することなく,人種的偏見を検出し,測定し,緩和するBias Intelligence Quotient (BiQ)と呼ばれる新しい指標を作成する。 さらなる公正度指標でLLMBIを強化するBiQと呼ばれる新しいメトリクスを導入することで、CBNFは、AI(Mehrabi et al , 2021)における公正性に対するニュアンスなアプローチの必要性を裏付ける、バイアス評価のための多次元メトリックを提供する。 本稿では、ChatGPT 3.5と比較して、ラティマーAI(黒人歴史と文化を漸進的に訓練した言語モデル)を詳細に分析し、ラティマーAIが人種的、文化的、性別的偏見を検出するための効果を目標トレーニングと洗練された偏見緩和戦略により示している(Latimer & Bender, 2023)。

The burgeoning influence of Large Language Models (LLMs) in shaping public discourse and decision-making underscores the imperative to address inherent biases within these AI systems. In the wake of AI's expansive integration across sectors, addressing racial bias in LLMs has never been more critical. This paper introduces a novel framework called Comprehensive Bias Neutralization Framework (CBNF) which embodies an innovative approach to quantifying and mitigating biases within LLMs. Our framework combines the Large Language Model Bias Index (LLMBI) [Oketunji, A., Anas, M., Saina, D., (2023)] and Bias removaL with No Demographics (BLIND) [Orgad, H., Belinkov, Y. (2023)] methodologies to create a new metric called Bias Intelligence Quotient (BiQ)which detects, measures, and mitigates racial bias in LLMs without reliance on demographic annotations. By introducing a new metric called BiQ that enhances LLMBI with additional fairness metrics, CBNF offers a multi-dimensional metric for bias assessment, underscoring the necessity of a nuanced approach to fairness in AI [Mehrabi et al., 2021]. This paper presents a detailed analysis of Latimer AI (a language model incrementally trained on black history and culture) in comparison to ChatGPT 3.5, illustrating Latimer AI's efficacy in detecting racial, cultural, and gender biases through targeted training and refined bias mitigation strategies [Latimer & Bender, 2023].
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 医用画像解析におけるアウト・オブ・ディストリビューション検出

Out-of-distribution Detection in Medical Image Analysis: A survey ( http://arxiv.org/abs/2404.18279v1 )

ライセンス: Link先を確認
Zesheng Hong, Yubiao Yue, Yubin Chen, Huanjie Lin, Yuanmei Luo, Mini Han Wang, Weidong Wang, Jialong Xu, Xiaoqi Yang, Zhenzhang Li, Sihong Xie, (参考訳) コンピュータ支援診断は、近年のディープラーニングベースのコンピュータビジョン技術の発展の恩恵を受けている。 従来の教師付きディープラーニング手法は、テストサンプルがトレーニングデータと同じ分布から引き出されることを前提としている。 しかし、実際の臨床シナリオでは分布外サンプルに遭遇し、深層学習に基づく医用画像解析タスクにおいてサイレント障害を引き起こす可能性がある。 近年、信頼できる医療AIシステムを実現するために、様々なアウト・オブ・ディストリビューション(OOD)検出状況と技術について調査している。 本調査では, 医用画像解析におけるOOD検出の最近の進歩を体系的に検討した。 まず,臨床現場で深層学習モデルを用いた場合の分布シフトの原因となるいくつかの要因について検討し,その上に3種類の分布シフトが明確に定義されている。 次に、既存のソリューションを分類し、特徴付けるためのフレームワークを提案し、従来の研究は方法論の分類に基づいてレビューする。 我々の議論には、評価プロトコルやメトリクス、課題、調査の方向性の欠如も含まれている。

Computer-aided diagnostics has benefited from the development of deep learning-based computer vision techniques in these years. Traditional supervised deep learning methods assume that the test sample is drawn from the identical distribution as the training data. However, it is possible to encounter out-of-distribution samples in real-world clinical scenarios, which may cause silent failure in deep learning-based medical image analysis tasks. Recently, research has explored various out-of-distribution (OOD) detection situations and techniques to enable a trustworthy medical AI system. In this survey, we systematically review the recent advances in OOD detection in medical image analysis. We first explore several factors that may cause a distributional shift when using a deep-learning-based model in clinic scenarios, with three different types of distributional shift well defined on top of these factors. Then a framework is suggested to categorize and feature existing solutions, while the previous studies are reviewed based on the methodology taxonomy. Our discussion also includes evaluation protocols and metrics, as well as the challenge and a research direction lack of exploration.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# S3-SLAM:ニューラルネットワークSLAMのためのスパース三面符号化

S3-SLAM: Sparse Tri-plane Encoding for Neural Implicit SLAM ( http://arxiv.org/abs/2404.18284v1 )

ライセンス: Link先を確認
Zhiyao Zhang, Yunzhou Zhang, Yanmin Wu, Bin Zhao, Xingshuo Wang, Rui Tian, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)の出現に伴い、ニューラル・暗示表現は、同時局在化やマッピングを含む様々な領域に広く応用されている。 しかし、現在のニューラル暗黙のSLAMは、性能とパラメータの数の間の困難なトレードオフ問題に直面している。 そこで本研究では,一般的な3次元平面パラメータ(100MBから2~4MB)の2~4%しか使用せず,解像度512までのシーン再構成を効率的に行うスパルス3次元平面符号化を提案する。 そこで我々はS3-SLAMを設計し,平面パラメータの分散化と三面体の直交特性の統合による高速かつ高品質な追跡とマッピングを実現する。 さらに,大域的に一貫した幾何学的構造を実現し,高分解能な外観を再構築する階層的バンドル調整を開発する。 実験結果から,本手法は3つのデータセットの最小パラメータを用いて,競合追跡とシーン再構成を実現することを示す。 ソースコードはまもなく利用可能になる。

With the emergence of Neural Radiance Fields (NeRF), neural implicit representations have gained widespread applications across various domains, including simultaneous localization and mapping. However, current neural implicit SLAM faces a challenging trade-off problem between performance and the number of parameters. To address this problem, we propose sparse tri-plane encoding, which efficiently achieves scene reconstruction at resolutions up to 512 using only 2~4% of the commonly used tri-plane parameters (reduced from 100MB to 2~4MB). On this basis, we design S3-SLAM to achieve rapid and high-quality tracking and mapping through sparsifying plane parameters and integrating orthogonal features of tri-plane. Furthermore, we develop hierarchical bundle adjustment to achieve globally consistent geometric structures and reconstruct high-resolution appearance. Experimental results demonstrate that our approach achieves competitive tracking and scene reconstruction with minimal parameters on three datasets. Source code will soon be available.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# ブラジル語および低リソース言語におけるLLMプロンプトと言語間移動性能の比較

Comparing LLM prompting with Cross-lingual transfer performance on Indigenous and Low-resource Brazilian Languages ( http://arxiv.org/abs/2404.18286v1 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, A. Seza Doğruöz, André Coneglian, Atul Kr. Ojha, (参考訳) 大規模言語モデルは様々なタスクのためにNLPを変換しています。 しかし、LLMが低リソース言語(LRL)に対してどのようにNLPタスクを実行するかは明らかになっていない。 AmeicasNLPワークショップの目標に合わせて、ブラジルから12のLRL、アフリカから2のLRL、高リソース言語(HRL)2つ(例:英語とブラジルポルトガル語)に焦点を当てます。 以上の結果から,LLM は HRL と比較して LRL の音声(POS) ラベル付けに悪影響を及ぼすことが示唆された。 この失敗の背景にある理由を説明し、データセットで観測された例を通してエラー解析を行う。

Large Language Models are transforming NLP for a variety of tasks. However, how LLMs perform NLP tasks for low-resource languages (LRLs) is less explored. In line with the goals of the AmeicasNLP workshop, we focus on 12 LRLs from Brazil, 2 LRLs from Africa and 2 high-resource languages (HRLs) (e.g., English and Brazilian Portuguese). Our results indicate that the LLMs perform worse for the part of speech (POS) labeling of LRLs in comparison to HRLs. We explain the reasons behind this failure and provide an error analyses through examples observed in our data set.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# セルフリーMIMOネットワークを用いたフェデレーション学習における連立エネルギーとレイテンシ最適化

Joint Energy and Latency Optimization in Federated Learning over Cell-Free Massive MIMO Networks ( http://arxiv.org/abs/2404.18287v1 )

ライセンス: Link先を確認
Afsaneh Mahmoudi, Mahmoud Zaher, Emil Björnson, (参考訳) FL(Federated Learning)は、ユーザが生のデータセットではなくサーバとFLモデルを交換することで、データのプライバシを保護し、通信オーバーヘッドを低減する分散学習パラダイムである。 しかし、FLユーザの増加は、高負荷レイテンシのため、無線ネットワーク上での大規模FLの完成を妨げる可能性がある。 セルフリーの大規模マルチインプット・マルチアウトプット~(CFmMIMO)はFLを実装する上で有望なアーキテクチャである。 CFmMIMOは空間多重化と協調ビームフォーミングによってエネルギー効率を向上させるが、FLユーザへのアップリンク送信を慎重に割り当てることは依然として重要である。 本稿では,CFmMIMO上のFLにおけるアップリンク電力割り当て方式を提案し,各ユーザの電力が他のユーザのエネルギーと遅延に与える影響を考慮し,ユーザのアップリンクエネルギーとFLトレーニングのレイテンシを両立させる。 提案手法は座標勾配降下法に基づく。 数値計算の結果,提案手法は,CFmMIMO上におけるFLのアップリンクエネルギーと遅延予算を制限しつつ,試験精度を最大で約27$\%に向上し,最大エネルギー効率を最大で約21$\%に向上させることにより,よく知られた最大値よりも優れていた。

Federated learning (FL) is a distributed learning paradigm wherein users exchange FL models with a server instead of raw datasets, thereby preserving data privacy and reducing communication overhead. However, the increased number of FL users may hinder completing large-scale FL over wireless networks due to high imposed latency. Cell-free massive multiple-input multiple-output~(CFmMIMO) is a promising architecture for implementing FL because it serves many users on the same time/frequency resources. While CFmMIMO enhances energy efficiency through spatial multiplexing and collaborative beamforming, it remains crucial to meticulously allocate uplink transmission powers to the FL users. In this paper, we propose an uplink power allocation scheme in FL over CFmMIMO by considering the effect of each user's power on the energy and latency of other users to jointly minimize the users' uplink energy and the latency of FL training. The proposed solution algorithm is based on the coordinate gradient descent method. Numerical results show that our proposed method outperforms the well-known max-sum rate by increasing up to~$27$\% and max-min energy efficiency of the Dinkelbach method by increasing up to~$21$\% in terms of test accuracy while having limited uplink energy and latency budget for FL over CFmMIMO.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 修正アテンションUnetを用いた腰椎椎間板のパノプティック・セグメンテーションとラベリング

Panoptic Segmentation and Labelling of Lumbar Spine Vertebrae using Modified Attention Unet ( http://arxiv.org/abs/2404.18291v1 )

ライセンス: Link先を確認
Rikathi Pal, Priya Saha, Somoballi Ghoshal, Amlan Chakrabarti, Susmita Sur-Kolay, (参考訳) 脊椎MRI画像における椎骨の分画とラベル付けは、疾患や異常の診断に重要である。 MRI技術は脊椎の組織構造に関する詳細な情報を提供するので、これらのステップは不可欠である。 教師なしセグメンテーション法と教師なしセグメンテーション法の両方が存在するが、高い精度を達成するために十分なデータを取得することは依然として困難である。 本研究では, 腰椎の3次元スライスMRIデータのパノプティックセグメンテーションのための改良型注意U-Netアーキテクチャに基づく拡張アプローチを提案する。 本手法は,新しいマスキングロジックを取り入れた99.5\%の精度を達成し,脊椎セグメンテーションとラベル付けの最先端化を実現した。 これはより正確で信頼性の高い診断と治療計画に寄与する。

Segmentation and labeling of vertebrae in MRI images of the spine are critical for the diagnosis of illnesses and abnormalities. These steps are indispensable as MRI technology provides detailed information about the tissue structure of the spine. Both supervised and unsupervised segmentation methods exist, yet acquiring sufficient data remains challenging for achieving high accuracy. In this study, we propose an enhancing approach based on modified attention U-Net architecture for panoptic segmentation of 3D sliced MRI data of the lumbar spine. Our method achieves an impressive accuracy of 99.5\% by incorporating novel masking logic, thus significantly advancing the state-of-the-art in vertebral segmentation and labeling. This contributes to more precise and reliable diagnosis and treatment planning.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 制御可能なボソニック変動センサネットワークによる量子強化学習

Quantum-enhanced learning with a controllable bosonic variational sensor network ( http://arxiv.org/abs/2404.18293v1 )

ライセンス: Link先を確認
Pengcheng Liao, Bingzhi Zhang, Quntao Zhuang, (参考訳) 量子センサーネットワークの出現は、複雑なセンシングタスクの強化と、絡み合いや物理的プロセスの複雑な性質による量子センサープロトコルの設計と解析において重要な課題を同時に提起する機会をもたらした。 絡み合ったセンサーネットワーク(SLAEN)による監視学習(Phys. X 9, 041023 (2019))は、変動量子機械学習によるセンサネットワーク設計を自動化するための有望なパラダイムである。 しかし、量子回路のガウスの性質に制約されたオリジナルのSLAENは、線形分離可能なデータを学ぶことに限定されている。 空洞QED実験で利用可能な普遍量子制御を活用し,非線形データ分類タスクを扱える一般化SLAENを提案する。 我々は,物理層データ分類の理論的枠組みを確立し,アプローチの基盤となる。 量子プローブのトレーニングと測定により、様々なタスクにわたる分類誤差のしきい値現象が発見される。プローブのエネルギーが一定のしきい値を超えると、エラーはゼロに劇的に減少し、ガウスSLAENよりも大幅に改善される。 この問題の非ガウス的性質にもかかわらず、ノイズの存在下でのしきい値と残留誤差を決定するための分析的な洞察を提供する。 本研究は,マイクロ波暗黒物質ハロスコープと高周波フォトニックセンサの関係について検討した。

The emergence of quantum sensor networks has presented opportunities for enhancing complex sensing tasks, while simultaneously introducing significant challenges in designing and analyzing quantum sensing protocols due to the intricate nature of entanglement and physical processes. Supervised learning assisted by an entangled sensor network (SLAEN) [Phys. Rev. X 9, 041023 (2019)] represents a promising paradigm for automating sensor-network design through variational quantum machine learning. However, the original SLAEN, constrained by the Gaussian nature of quantum circuits, is limited to learning linearly separable data. Leveraging the universal quantum control available in cavity-QED experiments, we propose a generalized SLAEN capable of handling nonlinear data classification tasks. We establish a theoretical framework for physical-layer data classification to underpin our approach. Through training quantum probes and measurements, we uncover a threshold phenomenon in classification error across various tasks -- when the energy of probes exceeds a certain threshold, the error drastically diminishes to zero, providing a significant improvement over the Gaussian SLAEN. Despite the non-Gaussian nature of the problem, we offer analytical insights into determining the threshold and residual error in the presence of noise. Our findings carry implications for radio-frequency photonic sensors and microwave dark matter haloscopes.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 深部Q-Learningを用いたコンピュータ信頼機構におけるプッシュ/プル動作の動的切り替え

Using Deep Q-Learning to Dynamically Toggle between Push/Pull Actions in Computational Trust Mechanisms ( http://arxiv.org/abs/2404.18296v1 )

ライセンス: Link先を確認
Zoi Lygizou, Dimitris Kalles, (参考訳) オープンマルチエージェントシステムのための分散計算信頼モデルに関する最近の研究は、信頼者の視点に焦点をあてた生物学的にインスパイアされたモデルであるCAの開発をもたらした。 この新モデルは、既存の信頼と評価モデルにおける深刻な未解決の問題に対処する。 従来,信頼度と評価モデルとしてよく知られたCAとFIREを比較し,信頼度が変化してもCAの方が優れているのに対して,FIREは信頼度が変化してもより回復力が高いことがわかった。 そこで本稿では,コントラクタが環境に複数の動的要因が存在することを検知し,有効性を最大化するためにどの信頼モデルを使うかを決定する方法について検討する。 我々は、この問題を部分的に観察可能な環境における機械学習問題とみなし、信頼者にはいくつかの動的要因が存在することが分かっておらず、適応可能なコントラクタが環境の現状を評価するためにいくつかの測定可能な機能に頼り、その後、単一エージェント強化学習環境でDeep Q Learning(DQN)を使用して、変化する環境に適応する方法を学ぶ方法について述べる。 我々は,適応型コントラクタの性能を1つのモデル(FIREまたはCA)のみを用いて比較するため,一連のシミュレーション実験を行い,適応型エージェントが各モデルをいつ使用すべきかを学習できることを示す。

Recent work on decentralized computational trust models for open Multi Agent Systems has resulted in the development of CA, a biologically inspired model which focuses on the trustee's perspective. This new model addresses a serious unresolved problem in existing trust and reputation models, namely the inability to handle constantly changing behaviors and agents' continuous entry and exit from the system. In previous work, we compared CA to FIRE, a well-known trust and reputation model, and found that CA is superior when the trustor population changes, whereas FIRE is more resilient to the trustee population changes. Thus, in this paper, we investigate how the trustors can detect the presence of several dynamic factors in their environment and then decide which trust model to employ in order to maximize utility. We frame this problem as a machine learning problem in a partially observable environment, where the presence of several dynamic factors is not known to the trustor and we describe how an adaptable trustor can rely on a few measurable features so as to assess the current state of the environment and then use Deep Q Learning (DQN), in a single-agent Reinforcement Learning setting, to learn how to adapt to a changing environment. We ran a series of simulation experiments to compare the performance of the adaptable trustor with the performance of trustors using only one model (FIRE or CA) and we show that an adaptable agent is indeed capable of learning when to use each model and, thus, perform consistently in dynamic environments.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 古典的量子相関のためのコーディネーション容量

Coordination Capacity for Classical-Quantum Correlations ( http://arxiv.org/abs/2404.18297v1 )

ライセンス: Link先を確認
Hosen Nator, Uzi Pereg, (参考訳) ネットワーク調整は3つの基本的な設定において考慮され、複数のパーティ間での分離可能および古典的量子相関の生成を特徴付ける。 まず、レート制限コモンランダムネス(CR)と通信を行う2つのノード間の古典量子状態のシミュレーションを検討する。 さらに、レート制限CRと通信のない複数ノード間の分離可能な状態の作成について検討した。 最後に、送信側と2つの受信側が、レート制限CRと通信を用いて古典量子量子状態をシミュレートするブロードキャスト設定について考察する。 各設定において、通信とCRレートの最適なトレードオフを確立する。

Network coordination is considered in three basic settings, characterizing the generation of separable and classical-quantum correlations among multiple parties. First, we consider the simulation of a classical-quantum state between two nodes with rate-limited common randomness (CR) and communication. Furthermore, we study the preparation of a separable state between multiple nodes with rate-limited CR and no communication. At last, we consider a broadcast setting, where a sender and two receivers simulate a classical-quantum-quantum state using rate-limited CR and communication. We establish the optimal tradeoff between communication and CR rates in each setting.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# GNarsil: 安定化ツールをゲージに分割

GNarsil: Splitting Stabilizers into Gauges ( http://arxiv.org/abs/2404.18302v1 )

ライセンス: Link先を確認
Oskar Novak, Narayanan Rengaswamy, (参考訳) 量子サブシステム符号は、誤り訂正性能の向上、符号上の論理演算の実装の容易化、安定化器をより小さなゲージ演算子に分解することで安定化器の測定を容易にすることが示されている。 本稿では「シード」CSSコードから新しいサブシステムコードを生成する2つのアルゴリズムを提案する。 それらは、あるCSSコードの安定化器を、残りの安定化器を分割するより小さなゲージ演算子に置き換えるが、コードの論理的なパウリ演算子と互換性がある。 アルゴリズムはよく知られたBacon-Shor符号を計算的に復元し、新しい$\left[\left[9,1,2,2 \right]\right]$回転曲面サブシステムコードに3$ゲージと4$安定化器を付加する。 アルゴリズムがSHP構成のクローズドフォーム式よりも効率的にゲージ演算子を生成可能であることを,$\left[\left[100,25,3 \right]\right]$ subsystem hypergraph product (SHP)コードを用いて説明する。 しかし、昇降積の量子LDPC符号の安定化器は、より小さなゲージ演算子に分割することが困難である。 したがって、サブシステムリフト製品 (SLP) のコード構成を導入し、Tanner の古典的準巡回LDPCコードから新しい $\left[\left[775, 124, 20 \right] のコードを開発する。 コードには高重量の安定化器があるが、安定器を分割するゲージ演算子は1つを除いて5ドルである。 対照的に、TannerのコードからのLP安定化符号は$\left[\left[1054, 124, 20 \right]\right]$である。 これは、安定化バージョンよりも優れた新しいサブシステムコードの新しい例として機能する。 最後に,本実験に基づいて,非局所性が安定化器の小型ゲージへの分割性能に与える影響について概説した。

Quantum subsystem codes have been shown to improve error-correction performance, ease the implementation of logical operations on codes, and make stabilizer measurements easier by decomposing stabilizers into smaller-weight gauge operators. In this paper, we present two algorithms that produce new subsystem codes from a "seed" CSS code. They replace some stabilizers of a given CSS code with smaller-weight gauge operators that split the remaining stabilizers, while being compatible with the logical Pauli operators of the code. The algorithms recover the well-known Bacon-Shor code computationally as well as produce a new $\left[\left[ 9,1,2,2 \right]\right]$ rotated surface subsystem code with weight-$3$ gauges and weight-$4$ stabilizers. We illustrate using a $\left[\left[ 100,25,3 \right]\right]$ subsystem hypergraph product (SHP) code that the algorithms can produce more efficient gauge operators than the closed-form expressions of the SHP construction. However, we observe that the stabilizers of the lifted product quantum LDPC codes are more challenging to split into small-weight gauge operators. Hence, we introduce the subsystem lifted product (SLP) code construction and develop a new $\left[\left[ 775, 124, 20 \right]\right]$ code from Tanner's classical quasi-cyclic LDPC code. The code has high-weight stabilizers but all gauge operators that split stabilizers have weight $5$, except one. In contrast, the LP stabilizer code from Tanner's code has parameters $\left[\left[ 1054, 124, 20 \right]\right]$. This serves as a novel example of new subsystem codes that outperform stabilizer versions of them. Finally, based on our experiments, we share some general insights about non-locality's effects on the performance of splitting stabilizers into small-weight gauges.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# 整合影を用いた量子古典量子モンテカルロアルゴリズムの評価

Evaluating a quantum-classical quantum Monte Carlo algorithm with Matchgate shadows ( http://arxiv.org/abs/2404.18303v1 )

ライセンス: Link先を確認
Benchen Huang, Yi-Ting Chen, Brajesh Gupt, Martin Suchara, Anh Tran, Sam McArdle, Giulia Galli, (参考訳) 分子や固体の電子構造問題を高精度に解くことは、量子化学と凝縮物質物理学の大きな課題である。 量子コンピュータの急速な出現と発展は、この問題を体系的に解決するための有望な経路を提供する。 Hugginsらによる最近の研究は、クリフォード影を用いた量子古典量子モンテカルロ(QC-QMC)アルゴリズムを提案し、フェルミオンハミルトニアンの基礎状態を決定する。 このアプローチでは、固有のノイズレジリエンスと、純粋に古典的な手法に比べて精度が向上する可能性を示した。 それでもクリフォードシャドウの使用は、指数関数的にスケールした後処理コストをもたらす。 本研究では,最近開発されたMatchgateシャドウ技術 [2] を利用したQC-QMCの改良手法について検討する。 量子ハードウェアの実験から、QC-QMCにおけるMatchgateシャドーの使用は本質的にノイズが強いことが観察された。 このノイズレジリエンスはクリフォードシャドーよりも微妙な起源を持つことを示す。 それにもかかわらず、古典的な後処理は漸近的に効率的であるが、最小の化学システムでさえも数千の古典的なCPU上で何時間も実行する必要があることが判明し、アルゴリズムのスケーラビリティに大きな課題が浮かび上がっている。

Solving the electronic structure problem of molecules and solids to high accuracy is a major challenge in quantum chemistry and condensed matter physics. The rapid emergence and development of quantum computers offer a promising route to systematically tackle this problem. Recent work by Huggins et al.[1] proposed a hybrid quantum-classical quantum Monte Carlo (QC-QMC) algorithm using Clifford shadows to determine the ground state of a Fermionic Hamiltonian. This approach displayed inherent noise resilience and the potential for improved accuracy compared to its purely classical counterpart. Nevertheless, the use of Clifford shadows introduces an exponentially scaling post-processing cost. In this work, we investigate an improved QC-QMC scheme utilizing the recently developed Matchgate shadows technique [2], which removes the aforementioned exponential bottleneck. We observe from experiments on quantum hardware that the use of Matchgate shadows in QC-QMC is inherently noise robust. We show that this noise resilience has a more subtle origin than in the case of Clifford shadows. Nevertheless, we find that classical post-processing, while asymptotically efficient, requires hours of runtime on thousands of classical CPUs for even the smallest chemical systems, presenting a major challenge to the scalability of the algorithm.
翻訳日:2024-04-30 15:16:10 公開日:2024-04-28
# クリックスルーレート予測のための検索指向知識

Retrieval-Oriented Knowledge for Click-Through Rate Prediction ( http://arxiv.org/abs/2404.18304v1 )

ライセンス: Link先を確認
Huanshuo Liu, Bo Chen, Menghui Zhu, Jianghao Lin, Jiarui Qin, Yang Yang, Hao Zhang, Ruiming Tang, (参考訳) クリックスルー率(CTR)予測は、パーソナライズされたレコメンデーションにおいて重要な役割を果たす。 近年,サンプルレベルの検索ベースモデル(RIMなど)は,関連するサンプルを検索・集約することで,優れた性能を発揮している。 しかし、その推論段階での非効率さは、産業用途には実用的ではない。 この問題を克服するために,本稿では,汎用的なプラグアンドプレイ・リトリーバル指向知識(ROK)フレームワークを提案する。 具体的には、検索指向の埋め込み層と知識エンコーダからなる知識ベースを、分解・再構成パラダイムで検索・集約された表現を保存・模倣するように設計されている。 知識蒸留法とコントラスト学習法を用いて知識ベースを最適化し、学習された検索強調表現を任意のCTRモデルとインスタンスワイドおよび特徴ワイドの両方で統合することができる。 3つの大規模データセットに対する大規模な実験により、ROKはより優れた推論効率とモデル互換性を維持しながら、検索ベースのCTRモデルと競合する性能を発揮することが示された。

Click-through rate (CTR) prediction plays an important role in personalized recommendations. Recently, sample-level retrieval-based models (e.g., RIM) have achieved remarkable performance by retrieving and aggregating relevant samples. However, their inefficiency at the inference stage makes them impractical for industrial applications. To overcome this issue, this paper proposes a universal plug-and-play Retrieval-Oriented Knowledge (ROK) framework. Specifically, a knowledge base, consisting of a retrieval-oriented embedding layer and a knowledge encoder, is designed to preserve and imitate the retrieved & aggregated representations in a decomposition-reconstruction paradigm. Knowledge distillation and contrastive learning methods are utilized to optimize the knowledge base, and the learned retrieval-enhanced representations can be integrated with arbitrary CTR models in both instance-wise and feature-wise manners. Extensive experiments on three large-scale datasets show that ROK achieves competitive performance with the retrieval-based CTR models while reserving superior inference efficiency and model compatibility.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# オフラインライセンスのための最小限のファームウェア設計によるAIチップ輸出制御の長期化

Near-Term Enforcement of AI Chip Export Controls Using A Minimal Firmware-Based Design for Offline Licensing ( http://arxiv.org/abs/2404.18308v1 )

ライセンス: Link先を確認
James Petrie, (参考訳) オフラインライセンスは、潜在的に危険なフロンティアAIモデルの非規制トレーニングを防ぐために使用できる計算ガバナンスの技術的メカニズムである。 このメカニズムは、規制当局から最新のライセンスを持っていない限り、AIチップを無効にすることで機能する。 本報告では,ファームウェア更新を通じて配信可能な,オフラインライセンスの最小バージョンに関する技術的設計について述べる。 既存のAIチップは、ファームウェアの検証、ファームウェアのロールバック保護、不揮発性メモリの安全性といった、ハードウェアセキュリティ機能(比較的一般的な)がある場合、1年以内にオフラインライセンスをサポートする可能性がある。 公開資料によると、NVIDIAのH100 AIチップには、これらのセキュリティ機能がすでに備わっている。 追加のハードウェア修正がなければ、物理的なハードウェア攻撃の影響を受けやすい。 しかし、これらの攻撃は高価な機器を必要とする可能性があり、何千ものAIチップに確実に適用することは困難である。 ファームウェアベースのオフラインライセンス設計は、ハードウェアベースのソリューションと同じ法的要件とライセンス承認メカニズムを共有している。 ファームウェアベースのソリューションの実装は、将来的にはよりセキュアなハードウェアベースのソリューションの最終的な展開を加速する可能性がある。 AIチップメーカーにとって、このセキュリティメカニズムを実装することで、輸出制限によって禁止されるであろう顧客にチップを販売できるようになるかもしれない。 政府にとって、今後数年間で、安全でないアクターや悪意のないアクターがフロンティアAIモデルをトレーニングするのを防ぐことが重要である。 この初期分析に基づいて、ファームウェアベースのオフラインライセンスは、緊急のセキュリティと取引の問題を部分的に解決し、ハードウェアのセキュリティに共通する機能を持つAIチップに対して技術的に実現可能である。

Offline licensing is a technical mechanism for compute governance that could be used to prevent unregulated training of potentially dangerous frontier AI models. The mechanism works by disabling AI chips unless they have an up-to-date license from a regulator. In this report, we present a technical design for a minimal version of offline licensing that could be delivered via a firmware update. Existing AI chips could potentially support offline licensing within a year if they have the following (relatively common) hardware security features: firmware verification, firmware rollback protection, and secure non-volatile memory. Public documentation suggests that NVIDIA's H100 AI chip already has these security features. Without additional hardware modifications, the system is susceptible to physical hardware attacks. However, these attacks might require expensive equipment and could be difficult to reliably apply to thousands of AI chips. A firmware-based offline licensing design shares the same legal requirements and license approval mechanism as a hardware-based solution. Implementing a firmware-based solution now could accelerate the eventual deployment of a more secure hardware-based solution in the future. For AI chip manufacturers, implementing this security mechanism might allow chips to be sold to customers that would otherwise be prohibited by export restrictions. For governments, it may be important to be able to prevent unsafe or malicious actors from training frontier AI models in the next few years. Based on this initial analysis, firmware-based offline licensing could partially solve urgent security and trade problems and is technically feasible for AI chips that have common hardware security features.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# 大規模言語モデルにおけるリアルタイム学習の動向と課題:批判的レビュー

Trends and Challenges of Real-time Learning in Large Language Models: A Critical Review ( http://arxiv.org/abs/2404.18311v1 )

ライセンス: Link先を確認
Mladjan Jovanovic, Peter Voss, (参考訳) リアルタイム学習は、学習システムが時間とともに知識を習得し、新しいタスクへの適応と一般化を可能にする能力に関するものである。 これは知的で現実世界のシステムにとって重要な能力であり、特にデータが不十分で入手が困難である場合である。 本稿では,大規模言語モデルにおけるリアルタイム学習の包括的分析について述べる。 継続的な学習、メタラーニング、パラメータ効率の学習、エキスパートの混合学習など、最先端のリアルタイム学習パラダイムを合成する。 本研究は,これらのトピックから得られた特定の成果とその重要な要因を記述し,リアルタイム学習の有用性を実証する。 最後に,今後の研究の課題と課題について述べる。 最新の研究成果を集約することにより、リアルタイム学習の包括的理解と、実世界の問題に対処するLLMベースの学習システムを設計・開発する上での意義について述べる。

Real-time learning concerns the ability of learning systems to acquire knowledge over time, enabling their adaptation and generalization to novel tasks. It is a critical ability for intelligent, real-world systems, especially when data may be insufficient or difficult to obtain. This review provides a comprehensive analysis of real-time learning in Large Language Models. It synthesizes the state-of-the-art real-time learning paradigms, including continual learning, meta-learning, parameter-efficient learning, and mixture-of-experts learning. We demonstrate their utility for real-time learning by describing specific achievements from these related topics and their critical factors. Finally, the paper highlights current problems and challenges for future research in the field. By consolidating the latest relevant research developments, this review offers a comprehensive understanding of real-time learning and its implications for designing and developing LLM-based learning systems addressing real-world problems.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# 正規化オートエンコーダを用いた距離保存非線形次元低減手法DIRESA

DIRESA, a distance-preserving nonlinear dimension reduction technique based on regularized autoencoders ( http://arxiv.org/abs/2404.18314v1 )

ライセンス: Link先を確認
Geert De Paepe, Lesley De Cruz, (参考訳) 気象学では、過去のデータセットで類似した気象パターンやアナログを見つけることは、データの同化、予測、後処理に有用である。 気候科学において、歴史的および気候予測データのアナログは帰属研究や影響研究に使用される。 しかし、ほとんどの場合、その大きな気象と気候のデータセットはほぼ直線である。 それらはダウンロードされなければならず、計算に高価な検索が実行される前に、多くの帯域幅とディスクスペースが必要になります。 本稿では,オートエンコーダ(AE)ニューラルネットワークを用いた次元削減手法を提案し,これらのデータセットを圧縮し,解釈可能な圧縮潜在空間で探索を行う。 距離規則化されたシームズ双対オートエンコーダ(DIRESA)アーキテクチャは、データセット内の非線形性を捕捉しながら、潜時空間における距離を保存するように設計されている。 複雑度の異なる概念的気候モデルを用いて, 得られた潜伏成分が, システムの変動性の支配的なモードに関する物理的洞察を与えることを示した。 DIRESAでデータセットを圧縮することで、オンラインストレージを減らし、遅延成分を非相関に保ちながら、距離(順序)保存と復元フィデリティは、PCA(Principal Component Analysis)や、MAPや変分オートエンコーダのような他の次元削減技術よりしっかりと優れている。

In meteorology, finding similar weather patterns or analogs in historical datasets can be useful for data assimilation, forecasting, and postprocessing. In climate science, analogs in historical and climate projection data are used for attribution and impact studies. However, most of the time, those large weather and climate datasets are nearline. They must be downloaded, which takes a lot of bandwidth and disk space, before the computationally expensive search can be executed. We propose a dimension reduction technique based on autoencoder (AE) neural networks to compress those datasets and perform the search in an interpretable, compressed latent space. A distance-regularized Siamese twin autoencoder (DIRESA) architecture is designed to preserve distance in latent space while capturing the nonlinearities in the datasets. Using conceptual climate models of different complexities, we show that the latent components thus obtained provide physical insight into the dominant modes of variability in the system. Compressing datasets with DIRESA reduces the online storage and keeps the latent components uncorrelated, while the distance (ordering) preservation and reconstruction fidelity robustly outperform Principal Component Analysis (PCA) and other dimension reduction techniques such as UMAP or variational autoencoders.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# ポジションペーパー:文脈のない(ビジョンモデル)の説明はしない。

Position paper: Do not explain (vision models) without context ( http://arxiv.org/abs/2404.18316v1 )

ライセンス: Link先を確認
Paulina Tomaszewska, Przemysław Biecek, (参考訳) 写真に写っている聴診器は、隣の人を医者か患者にしますか? これは、もちろん、2つのオブジェクトの文脈的関係に依存する。 もし明らかなら、視覚モデルのための説明法は文脈情報を使うのではないだろうか。 本稿では,(1)文脈情報を考慮していないことを指摘して,コンピュータビジョンモデルを説明する最も一般的な手法をレビューし,(2)空間コンテキストが重要な役割を果たす実世界のユースケースの例を示し,(3)コンピュータビジョンモデルを説明する上で,文脈情報のより良い活用につながる可能性のある新たな研究方向を提案する。

Does the stethoscope in the picture make the adjacent person a doctor or a patient? This, of course, depends on the contextual relationship of the two objects. If it is obvious, why don not explanation methods for vision models use contextual information? In this paper, we (1) review the most popular methods of explaining computer vision models by pointing out that they do not take into account context information, (2) provide examples of real-world use cases where spatial context plays a significant role, (3) propose new research directions that may lead to better use of context information in explaining computer vision models, (4) argue that a change in approach to explanations is needed from 'where' to 'how'.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# SAFE-RL: 深層強化学習政策のための正当性を考慮した対実的説明器

SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies ( http://arxiv.org/abs/2404.18326v1 )

ライセンス: Link先を確認
Amir Samadi, Konstantinos Koufos, Kurt Debattista, Mehrdad Dianati, (参考訳) Deep Reinforcement Learning(DRL)は複雑な制御タスクのための有望なソリューションとして登場したが、学習ポリシーの説明可能性の欠如は、自動運転システム(ADS)のような安全クリティカルなアプリケーションへの取り込みを妨げる。 対実的(CF)説明は、最近、ブラックボックスディープラーニング(DL)モデルを解釈する能力で有名になった。 CFの例は入力の最小限の変更と関連付けられ、DLモデルによる補完的な出力をもたらす。 このような変化を見つけることは、特に高次元の視覚入力にとって大きな課題となる。 さらに、過去状態の観測履歴に対するDRLエージェントアクションの依存によって引き起こされる時間的依存は、CF例の生成をさらに複雑にする。 これらの課題に対処するために,エージェントによって観測された過去の状態の列にまたがる最も影響力のある入力画素を特定するために,サリエンシマップを提案する。 そして、このマップを深部生成モデルに供給し、塩分領域を中心に制限された修正を施した可塑性CFの生成を可能にする。 ADS, Atari Pong, Pacman, Space-Invaders ゲームなど, 様々な分野におけるフレームワークの有効性を, 有効性, 近接性, 疎性といった従来のパフォーマンス指標を用いて評価した。 実験により, 本フレームワークは, 幅広い環境やDRLエージェントに対して, 最先端のCFよりも, より情報的かつ信頼性の高いCFを生成することが示された。 この分野での研究を促進するため、私たちはデータセットとコードをhttps://github.com/Amir-Samadi/SAFE-RLで公開しました。

While Deep Reinforcement Learning (DRL) has emerged as a promising solution for intricate control tasks, the lack of explainability of the learned policies impedes its uptake in safety-critical applications, such as automated driving systems (ADS). Counterfactual (CF) explanations have recently gained prominence for their ability to interpret black-box Deep Learning (DL) models. CF examples are associated with minimal changes in the input, resulting in a complementary output by the DL model. Finding such alternations, particularly for high-dimensional visual inputs, poses significant challenges. Besides, the temporal dependency introduced by the reliance of the DRL agent action on a history of past state observations further complicates the generation of CF examples. To address these challenges, we propose using a saliency map to identify the most influential input pixels across the sequence of past observed states by the agent. Then, we feed this map to a deep generative model, enabling the generation of plausible CFs with constrained modifications centred on the salient regions. We evaluate the effectiveness of our framework in diverse domains, including ADS, Atari Pong, Pacman and space-invaders games, using traditional performance metrics such as validity, proximity and sparsity. Experimental results demonstrate that this framework generates more informative and plausible CFs than the state-of-the-art for a wide range of environments and DRL agents. In order to foster research in this area, we have made our datasets and codes publicly available at https://github.com/Amir-Samadi/SAFE-RL.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# MultiMAE-DER:動的感情認識のためのマルチモーダルマスク付きオートエンコーダ

MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition ( http://arxiv.org/abs/2404.18327v1 )

ライセンス: Link先を確認
Peihao Xiang, Chaohao Lin, Kaida Wu, Ou Bai, (参考訳) 本稿では,動的感情認識のためのマルチモーダルデータ処理手法を提案する。 MultiMAE-DERは、視覚的およびオーディオ的モダリティ間の時空間列内の密接な相関表現情報を利用する。 トレーニング済みのマスク付きオートエンコーダモデルを利用することで、MultiMAEDERは単純で簡単な微調整によって実現される。 マルチモーダル入力シーケンスに対する6つの融合戦略を最適化することにより、MultiMAE-DERの性能を向上させる。 これらの戦略は、空間的・時間的・時空間的・時空間的な領域間データ内の動的特徴相関に対処する。 動的感情認識のための最先端のマルチモーダル教師付き学習モデルと比較して、MultiMAE-DERは、RAVDESSデータセットでは4.41%、CREMADでは2.06%の重み付き平均リコール(WAR)を強化する。 さらに、マルチモーダル自己教師型学習の最先端モデルと比較すると、MultiMAE-DERはIEMOCAPデータセット上で1.86%高いWARを達成する。

This paper presents a novel approach to processing multimodal data for dynamic emotion recognition, named as the Multimodal Masked Autoencoder for Dynamic Emotion Recognition (MultiMAE-DER). The MultiMAE-DER leverages the closely correlated representation information within spatiotemporal sequences across visual and audio modalities. By utilizing a pre-trained masked autoencoder model, the MultiMAEDER is accomplished through simple, straightforward finetuning. The performance of the MultiMAE-DER is enhanced by optimizing six fusion strategies for multimodal input sequences. These strategies address dynamic feature correlations within cross-domain data across spatial, temporal, and spatiotemporal sequences. In comparison to state-of-the-art multimodal supervised learning models for dynamic emotion recognition, MultiMAE-DER enhances the weighted average recall (WAR) by 4.41% on the RAVDESS dataset and by 2.06% on the CREMAD. Furthermore, when compared with the state-of-the-art model of multimodal self-supervised learning, MultiMAE-DER achieves a 1.86% higher WAR on the IEMOCAP dataset.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# グラフニューラルネットワークを用いた多段階攻撃検出と予測:IoTフィージビリティスタディ

Multi-stage Attack Detection and Prediction Using Graph Neural Networks: An IoT Feasibility Study ( http://arxiv.org/abs/2404.18328v1 )

ライセンス: Link先を確認
Hamdi Friji, Ioannis Mavromatis, Adrian Sanchez-Mompo, Pietro Carnelli, Alexis Olivereau, Aftab Khan, (参考訳) 現代生活の様々な側面におけるデジタルネットワークへの依存が絶え間なく高まる中、セキュリティの確保は重要な課題となっている。 侵入検知システムは、ネットワークのセキュリティを確保する上で重要な役割を担い、悪意ある振る舞いを積極的に識別し軽減する。 しかし、サイバー脅威の絶え間ない進歩は、攻撃の高度化と複雑さに対処する伝統的な/古典的なアプローチを不十分にしている。 本稿では,ロッキード・マーティン・サイバー・キル・チェーンの簡易バージョンにインスパイアされた3段階の侵入検知システムを提案する。 提案手法は3つのモデルから構成され、それぞれが共通の特徴を持つ攻撃群を検出する。 最初の2段階の検出結果は、第3段階における攻撃予測の可能性について、実現可能性調査を行うために使用される。 ToN IoTデータセットを使用して、さまざまなステージで平均94%のF1スコアを達成し、ランダムフォレストモデルに基づくベンチマークアプローチを上回りました。 最後に,本手法が現実のシステムに統合される可能性についてコメントし,将来の可能性について検討する。

With the ever-increasing reliance on digital networks for various aspects of modern life, ensuring their security has become a critical challenge. Intrusion Detection Systems play a crucial role in ensuring network security, actively identifying and mitigating malicious behaviours. However, the relentless advancement of cyber-threats has rendered traditional/classical approaches insufficient in addressing the sophistication and complexity of attacks. This paper proposes a novel 3-stage intrusion detection system inspired by a simplified version of the Lockheed Martin cyber kill chain to detect advanced multi-step attacks. The proposed approach consists of three models, each responsible for detecting a group of attacks with common characteristics. The detection outcome of the first two stages is used to conduct a feasibility study on the possibility of predicting attacks in the third stage. Using the ToN IoT dataset, we achieved an average of 94% F1-Score among different stages, outperforming the benchmark approaches based on Random-forest model. Finally, we comment on the feasibility of this approach to be integrated in a real-world system and propose various possible future work.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-28
# CFDアプリケーションのデータ削減のための機械学習技術

Machine Learning Techniques for Data Reduction of CFD Applications ( http://arxiv.org/abs/2404.18063v1 )

ライセンス: Link先を確認
Jaemoon Lee, Ki Sung Jung, Qian Gong, Xiao Li, Scott Klasky, Jacqueline Chen, Anand Rangarajan, Sanjay Ranka, (参考訳) 本稿では, テンソル相関(GBATC)を利用して計算流体力学(CFD)やその他の科学的応用によって生成される時空間データを削減することを目的とした, 保証ブロックオートエンコーダという手法を提案する。 これは、入力と出力の両方にテンソルの多次元ブロック(空間と時間のスパンニング)を使用し、テンソル内の時空間と種間関係をキャプチャする。 テンソルはCFDシミュレーションで異なる元素を表す種から構成される。 再構成データのエラーバウンダリを保証するため、元のデータと再構成データの残差に対して主成分分析(PCA)を適用する。 これにより基底行列が得られ、各インスタンスの残余を射影するために使われる。 得られた係数は、正確な復元を可能にするために保持される。 実験結果から,本手法は科学的に許容できる範囲で一次データの誤差を保ちながら,2桁の縮小を達成可能であることが示された。 SZに基づく縮小に基づく手法と比較して,提案手法は与えられた圧縮率に対して,与えられた圧縮率に対して,与えられた圧縮率に対して,より高い圧縮比を達成する。

We present an approach called guaranteed block autoencoder that leverages Tensor Correlations (GBATC) for reducing the spatiotemporal data generated by computational fluid dynamics (CFD) and other scientific applications. It uses a multidimensional block of tensors (spanning in space and time) for both input and output, capturing the spatiotemporal and interspecies relationship within a tensor. The tensor consists of species that represent different elements in a CFD simulation. To guarantee the error bound of the reconstructed data, principal component analysis (PCA) is applied to the residual between the original and reconstructed data. This yields a basis matrix, which is then used to project the residual of each instance. The resulting coefficients are retained to enable accurate reconstruction. Experimental results demonstrate that our approach can deliver two orders of magnitude in reduction while still keeping the errors of primary data under scientifically acceptable bounds. Compared to reduction-based approaches based on SZ, our method achieves a substantially higher compression ratio for a given error bound or a better error for a given compression ratio.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-28
# ウェーブロス関数による教師付き学習の促進:ロバストでスムースなアプローチ

Advancing Supervised Learning with the Wave Loss Function: A Robust and Smooth Approach ( http://arxiv.org/abs/2404.18101v1 )

ライセンス: Link先を確認
Mushir Akhtar, M. Tanveer, Mohd. Arshad, (参考訳) 損失関数は教師付き学習フレームワークにおいて重要な役割を果たす。 適切な損失関数の選択は、取得したモデルによって達成された熟練度に大きな影響を与える可能性がある。 教師付き学習アルゴリズムの訓練は、最適化過程において、本質的に所定の損失関数に固執する。 本稿では,非対称な損失関数であるウェーブロス(ウェーブロス)について,教師あり機械学習の領域への新たな貢献について述べる。 外れ値に対する堅牢性、騒音に対する感受性、有界性、および重要な滑らか性を示す。 理論的には,提案する波動損失関数は分類校正に欠かせない性質を示す。 このブレークスルーを活用して、提案したウェーブロス関数を、サポートベクトルマシン(SVM)とツインサポートベクトルマシン(TSVM)の最小2乗設定に組み込む。 Wave-SVMに固有の最適化問題に対処するために,適応モーメント推定(Adam)アルゴリズムを用いる。 本稿では,SVMモデルを解くAdamアルゴリズムアプリケーションの最初の例を示す。 さらに、Wave-TSVMの最適化問題を解決するための反復アルゴリズムを考案する。 提案する Wave-SVM と Wave-TSVM の有効性を実証的に示すため,様々な領域の UCI と KEEL のデータセットをベンチマークで評価した。 さらに,生体領域におけるWave-SVMの適用性を実証するために,アルツハイマー病神経画像イニシアチブ(ADNI)データセットを用いて評価を行った。 実験結果から,Wave-SVM と Wave-TSVM がベースラインモデルに対して精度良く予測できることが明らかとなった。

Loss function plays a vital role in supervised learning frameworks. The selection of the appropriate loss function holds the potential to have a substantial impact on the proficiency attained by the acquired model. The training of supervised learning algorithms inherently adheres to predetermined loss functions during the optimization process. In this paper, we present a novel contribution to the realm of supervised machine learning: an asymmetric loss function named wave loss. It exhibits robustness against outliers, insensitivity to noise, boundedness, and a crucial smoothness property. Theoretically, we establish that the proposed wave loss function manifests the essential characteristic of being classification-calibrated. Leveraging this breakthrough, we incorporate the proposed wave loss function into the least squares setting of support vector machines (SVM) and twin support vector machines (TSVM), resulting in two robust and smooth models termed Wave-SVM and Wave-TSVM, respectively. To address the optimization problem inherent in Wave-SVM, we utilize the adaptive moment estimation (Adam) algorithm. It is noteworthy that this paper marks the first instance of the Adam algorithm application to solve an SVM model. Further, we devise an iterative algorithm to solve the optimization problems of Wave-TSVM. To empirically showcase the effectiveness of the proposed Wave-SVM and Wave-TSVM, we evaluate them on benchmark UCI and KEEL datasets (with and without feature noise) from diverse domains. Moreover, to exemplify the applicability of Wave-SVM in the biomedical domain, we evaluate it on the Alzheimer Disease Neuroimaging Initiative (ADNI) dataset. The experimental outcomes unequivocally reveal the prowess of Wave-SVM and Wave-TSVM in achieving superior prediction accuracy against the baseline models.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-28